supertonic
supertone-inc
Sehr schnelles On-Device-TTS via ONNX mit 31-Sprachen-Unterstützung, läuft auf CPU, Browser und Mobile.
Was ist supertonic?
Ein sehr schnelles On-Device-TTS, das nativ über ONNX läuft, mit einem kompakten Modell von ~99M Parametern. Es deckt 31 Sprachen ab, läuft auf der CPU ohne GPU und macht sogar Browser-Inference via WebGPU.
Vor- & Nachteile
Pros
- Läuft auf der CPU: Raspberry Pi, Mobile, Browser, kein Netzwerk nötig
- Echtzeit (eine ganze Webseite in unter einer Sekunde vorgelesen)
- SDKs über Python, Node, Browser, Java, C++, Swift, iOS, Rust, Flutter hinweg
Cons
- Kein eingebautes Voice Cloning in der offenen Variante (nur feste Stimme)
- Das Modell ist OpenRAIL-M, also open weight mit Nutzungsbeschränkungen, nicht voll OSI-open
- 78 offene Issues zum Zeitpunkt des Schreibens
Lizenz
MIT (code) (Open weight, mit Auflagen) - Modell-Lizenz: OpenRAIL-M
Code MIT, Modell OpenRAIL-M (open weight, mit Bedingungen).
Wann interessant
Edge-, On-Device- oder Browser-TTS, wo Latenz und Privatsphäre zählen.
Wann zu früh
wenn du Cloning out-of-the-box brauchst oder die OpenRAIL-M-Nutzungsklauseln kommerziell vermeiden willst. Das natürliche managed Upsell ist Supertone Play/API des Anbieters selbst.
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: Supertone Play/API
Dieses Repo war in der Ausgabe 2026-06 des Open-Source-KI-Radars.
voicebox
jamiepine
Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.
VoxCPM
OpenBMB
Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.
Chatterbox
resemble-ai
MIT-lizenziertes offenes TTS mit Zero-Shot Voice Cloning - 500M Parameter, 23+ Sprachen.