Skip to main content
AI Tool Radar
OSI-openOffene Voice und Text-to-Speech

voicebox

jamiepine

Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.

29.5k Stars(Stand 2026-06-07)Auf GitHub ansehen

Was ist voicebox?

Eine local-first 'Voice-Studio'-Desktop-App von Jamie Pine (Spacedrive), die Text-to-Speech, Zero-Shot-Voice-Cloning aus wenigen Sekunden Audio und Diktieren (globaler Hotkey plus Whisper-STT) vereint und einen MCP-/REST-Server bereitstellt, damit Agents in einer geklonten Stimme sprechen. Sie läuft komplett on-device über macOS, Windows und Linux mit sieben austauschbaren TTS-Engines.

Vor- & Nachteile

Pros

  • MIT-Code mit überwiegend MIT/Apache-Modell-Weights, echt OSI-open und voll lokal
  • Deckt beide Hälften der Voice-Schleife ab: TTS-Ausgabe und Diktat/STT-Eingabe, mit nativer MCP-Integration für Agents
  • Breite Hardware-Unterstützung (Apple Silicon MLX, CUDA, ROCm, DirectML, Intel Arc, CPU)

Cons

  • Sehr jung: Repo im Januar 2026 erstellt, v0.5.0, 433 offene Issues, mehrere Kernfeatures noch auf der Roadmap
  • Voice-Cloning-Missbrauchsrisiko ohne Consent-Rahmen, die Homepage bewirbt nicht einwilligende Celebrity-Presets (Freeman, Johansson, Obama)
  • Performance- und Privacy-Behauptungen ('150x Echtzeit auf CPU', 'nichts verlässt dein Gerät') sind eigene, unverifizierte Projektangaben

Lizenz

MIT (OSI-open)

Wann interessant

privates, on-device TTS, Cloning und Diktieren mit Agent-Integration.

Wann zu früh

produktive Nutzung, oder überall dort, wo die Cloning-Ethik und eine vier Monate alte Codebase ein Problem sind. voicebox bezeichnet sich selbst als kostenlose, Open-Source-Alternative zu ElevenLabs, das oben für OmniVoice gezeigte managed Gegenstück gilt auch hier.

Kommerzielle Alternative & Verwandtes

Dieses Repo war in der Ausgabe 2026-06 des Open-Source-KI-Radars.