OSI-openOffene Voice und Text-to-Speech

MOSS-TTS

OpenMOSS

Offene Sprach- und Klanggenerierungs-Familie - nano bis 8B, 31 Sprachen, Echtzeit-Streaming.

3.3k Stars(Stand 2026-06-14)Auf GitHub ansehen Homepage

Überblick

Was ist MOSS-TTS?

MOSS-TTS ist eine Familie von fünf offenen Modellen von OpenMOSS/MOSI.AI: ein Flaggschiff-8B mit Zero-Shot Cloning, ein Multi-Speaker-Dialogmodell, ein Stimmendesign-aus-Text-Modell, ein Niedriglatenz-Echtzeitmodell und ein Soundeffekt-Modell. Eine ~100M-Nano-Variante zielt auf CPU-only-Deployment. Code und Weights sind Apache-2.0.

Analyse

Vor- & Nachteile

Pros

Deckt den gesamten Voice-AI-Stack von Soundeffekten bis zu Echtzeit-Agents in einem Apache-2.0-Repo ab
Nano (~100M) behauptet Echtzeit-Generierung auf 4 CPU-Kernen - zugänglich für Edge-Einsatz
31-Sprachen-Unterstützung mit aktiver Entwicklung

Cons

Das Flaggschiff-8B-Modell hat hohe Infrastrukturanforderungen
Qualitäts- und Latenzwerte sind selbst berichtet
Herkunft aus chinesischem Labor kann in regulierten Kontexten Supply-Chain-Prüfung auslösen

Lizenz

Apache-2.0 (OSI-open)

Wann interessant

Du willst ein Apache-lizenziertes, self-hostbares Voice-Toolkit, das TTS, Dialog, Voice Design und Echtzeit abdeckt, einschließlich eines CPU-deployablen Nano-Modells.

Wann zu früh

Du benötigst bewährte Produktionszuverlässigkeit mit Benchmark-Vergleichen von Drittanbietern.

Kontext

Kommerzielle Alternative & Verwandtes

Kommerzielles Pendant: ElevenLabs

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.

Ähnliche Repositories

voicebox

jamiepine

29.5k

Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.

OSI-openOffene Voice und Text-to-Speech

VoxCPM

OpenBMB

26.1k

Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.

OSI-openOffene Voice und Text-to-Speech

Chatterbox

resemble-ai

25.1k

MIT-lizenziertes offenes TTS mit Zero-Shot Voice Cloning - 500M Parameter, 23+ Sprachen.

OSI-openOffene Voice und Text-to-Speech