VoxCPM
OpenBMB
Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.
Was ist VoxCPM?
Ein tokenizer-freies TTS-System von OpenBMB. VoxCPM2 (2B Parameter) deckt 30 Sprachen inklusive Deutsch ab, unterstützt Voice Design aus einer Textbeschreibung (kein Referenz-Audio) und streamt in Echtzeit.
Vor- & Nachteile
Pros
- Apache-2.0 inklusive der Weights, echt frei für kommerzielle Nutzung
- 30 Sprachen mit Voice Design und Cloning
- Dedizierte Inference-Engines mit einem OpenAI-kompatiblen Audio-Endpoint
Cons
- Braucht eine GPU (~8 GB VRAM, CUDA 12+); Linux ist das primäre Ziel
- Das README selbst weist darauf hin, dass Voice-Design-Ergebnisse zwischen Durchläufen variieren
- Der Echtzeit-Faktor hängt stark von der Hardware ab
Lizenz
Apache-2.0 (OSI-open)
Wann interessant
Self-Hoster mit GPU, die echte kommerzielle Freiheit wollen.
Wann zu früh
reine CPU-Setups oder jeder, der eine managed API braucht.
Dieses Repo war in der Ausgabe 2026-06 des Open-Source-KI-Radars.
voicebox
jamiepine
Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.
Chatterbox
resemble-ai
MIT-lizenziertes offenes TTS mit Zero-Shot Voice Cloning - 500M Parameter, 23+ Sprachen.
supertonic
supertone-inc
Sehr schnelles On-Device-TTS via ONNX mit 31-Sprachen-Unterstützung, läuft auf CPU, Browser und Mobile.