MOSS-TTS
OpenMOSS
Offene Sprach- und Klanggenerierungs-Familie - nano bis 8B, 31 Sprachen, Echtzeit-Streaming.
Was ist MOSS-TTS?
MOSS-TTS ist eine Familie von fünf offenen Modellen von OpenMOSS/MOSI.AI: ein Flaggschiff-8B mit Zero-Shot Cloning, ein Multi-Speaker-Dialogmodell, ein Stimmendesign-aus-Text-Modell, ein Niedriglatenz-Echtzeitmodell und ein Soundeffekt-Modell. Eine ~100M-Nano-Variante zielt auf CPU-only-Deployment. Code und Weights sind Apache-2.0.
Vor- & Nachteile
Pros
- Deckt den gesamten Voice-AI-Stack von Soundeffekten bis zu Echtzeit-Agents in einem Apache-2.0-Repo ab
- Nano (~100M) behauptet Echtzeit-Generierung auf 4 CPU-Kernen - zugänglich für Edge-Einsatz
- 31-Sprachen-Unterstützung mit aktiver Entwicklung
Cons
- Das Flaggschiff-8B-Modell hat hohe Infrastrukturanforderungen
- Qualitäts- und Latenzwerte sind selbst berichtet
- Herkunft aus chinesischem Labor kann in regulierten Kontexten Supply-Chain-Prüfung auslösen
Lizenz
Apache-2.0 (OSI-open)
Wann interessant
Du willst ein Apache-lizenziertes, self-hostbares Voice-Toolkit, das TTS, Dialog, Voice Design und Echtzeit abdeckt, einschließlich eines CPU-deployablen Nano-Modells.
Wann zu früh
Du benötigst bewährte Produktionszuverlässigkeit mit Benchmark-Vergleichen von Drittanbietern.
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: ElevenLabs
Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.
voicebox
jamiepine
Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.
VoxCPM
OpenBMB
Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.
Chatterbox
resemble-ai
MIT-lizenziertes offenes TTS mit Zero-Shot Voice Cloning - 500M Parameter, 23+ Sprachen.