voicebox
jamiepine
Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.
Was ist voicebox?
Eine local-first 'Voice-Studio'-Desktop-App von Jamie Pine (Spacedrive), die Text-to-Speech, Zero-Shot-Voice-Cloning aus wenigen Sekunden Audio und Diktieren (globaler Hotkey plus Whisper-STT) vereint und einen MCP-/REST-Server bereitstellt, damit Agents in einer geklonten Stimme sprechen. Sie läuft komplett on-device über macOS, Windows und Linux mit sieben austauschbaren TTS-Engines.
Vor- & Nachteile
Pros
- MIT-Code mit überwiegend MIT/Apache-Modell-Weights, echt OSI-open und voll lokal
- Deckt beide Hälften der Voice-Schleife ab: TTS-Ausgabe und Diktat/STT-Eingabe, mit nativer MCP-Integration für Agents
- Breite Hardware-Unterstützung (Apple Silicon MLX, CUDA, ROCm, DirectML, Intel Arc, CPU)
Cons
- Sehr jung: Repo im Januar 2026 erstellt, v0.5.0, 433 offene Issues, mehrere Kernfeatures noch auf der Roadmap
- Voice-Cloning-Missbrauchsrisiko ohne Consent-Rahmen, die Homepage bewirbt nicht einwilligende Celebrity-Presets (Freeman, Johansson, Obama)
- Performance- und Privacy-Behauptungen ('150x Echtzeit auf CPU', 'nichts verlässt dein Gerät') sind eigene, unverifizierte Projektangaben
Lizenz
MIT (OSI-open)
Wann interessant
privates, on-device TTS, Cloning und Diktieren mit Agent-Integration.
Wann zu früh
produktive Nutzung, oder überall dort, wo die Cloning-Ethik und eine vier Monate alte Codebase ein Problem sind. voicebox bezeichnet sich selbst als kostenlose, Open-Source-Alternative zu ElevenLabs, das oben für OmniVoice gezeigte managed Gegenstück gilt auch hier.
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: ElevenLabs
Dieses Repo war in der Ausgabe 2026-06 des Open-Source-KI-Radars.
VoxCPM
OpenBMB
Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.
Chatterbox
resemble-ai
MIT-lizenziertes offenes TTS mit Zero-Shot Voice Cloning - 500M Parameter, 23+ Sprachen.
supertonic
supertone-inc
Sehr schnelles On-Device-TTS via ONNX mit 31-Sprachen-Unterstützung, läuft auf CPU, Browser und Mobile.