OSI-openOffene Voice und Text-to-Speech

voicebox

jamiepine

Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.

29.5k Stars(Stand 2026-06-07)Auf GitHub ansehen

Überblick

Was ist voicebox?

Eine local-first 'Voice-Studio'-Desktop-App von Jamie Pine (Spacedrive), die Text-to-Speech, Zero-Shot-Voice-Cloning aus wenigen Sekunden Audio und Diktieren (globaler Hotkey plus Whisper-STT) vereint und einen MCP-/REST-Server bereitstellt, damit Agents in einer geklonten Stimme sprechen. Sie läuft komplett on-device über macOS, Windows und Linux mit sieben austauschbaren TTS-Engines.

Analyse

Vor- & Nachteile

Pros

MIT-Code mit überwiegend MIT/Apache-Modell-Weights, echt OSI-open und voll lokal
Deckt beide Hälften der Voice-Schleife ab: TTS-Ausgabe und Diktat/STT-Eingabe, mit nativer MCP-Integration für Agents
Breite Hardware-Unterstützung (Apple Silicon MLX, CUDA, ROCm, DirectML, Intel Arc, CPU)

Cons

Sehr jung: Repo im Januar 2026 erstellt, v0.5.0, 433 offene Issues, mehrere Kernfeatures noch auf der Roadmap
Voice-Cloning-Missbrauchsrisiko ohne Consent-Rahmen, die Homepage bewirbt nicht einwilligende Celebrity-Presets (Freeman, Johansson, Obama)
Performance- und Privacy-Behauptungen ('150x Echtzeit auf CPU', 'nichts verlässt dein Gerät') sind eigene, unverifizierte Projektangaben

Lizenz

MIT (OSI-open)

Wann interessant

privates, on-device TTS, Cloning und Diktieren mit Agent-Integration.

Wann zu früh

produktive Nutzung, oder überall dort, wo die Cloning-Ethik und eine vier Monate alte Codebase ein Problem sind. voicebox bezeichnet sich selbst als kostenlose, Open-Source-Alternative zu ElevenLabs, das oben für OmniVoice gezeigte managed Gegenstück gilt auch hier.

Kontext