OSI-openOffene Voice und Text-to-Speech

MOSS-TTS-Nano

OpenMOSS

0.1B mehrsprachiges TTS mit Zero-Shot-Voice-Cloning, das in Echtzeit auf einer CPU läuft, voll offene Weights.

3.8k Stars(Stand 2026-06-26)Auf GitHub ansehen Homepage

Überblick

Was ist MOSS-TTS-Nano?

Ein mehrsprachiges Text-to-Speech-Modell mit 0,1B Parametern (Audio-Tokenizer plus kleines LLM), das Zero-Shot-Voice-Cloning über 20 Sprachen inklusive Deutsch macht, mit nativem 48-kHz-Output. Es ist auf latenzarme, CPU-only Echtzeit-Synthese ausgelegt und bringt offene Weights, vollen Inference-Code, einen ONNX-CPU-Build, ein Android-Beispiel und einen Browser-Extension-Reader, vom OpenMOSS-Team (Fudan/SII).

Analyse

Vor- & Nachteile

Pros

Wirklich winzig mit 0,1B und in Echtzeit CPU-fähig, keine GPU nötig
Voll OSI-open Apache-2.0 auf Code und Weights, kommerziell sicher
20-Sprachen-Abdeckung plus ONNX-, Android- und Browser-Deployment und veröffentlichter Finetuning-Code

Cons

0,1B tauscht Klangtreue gegen Größe; das 8B-MOSS-TTS-Flagschiff ist die Qualitäts-Tier
Der README-Lizenz-Abschnitt zeigt trotz der Apache-LICENSE-Datei weiter widersprüchliche, veraltete Formulierungen
Sehr jung (April 2026), Langzeit-Pflege und Qualität im großen Maßstab sind unbewiesen

Lizenz

Apache-2.0 (OSI-open) - Modell-Lizenz: Apache-2.0

Sowohl Code als auch Modell-Weights sind Apache-2.0 (geprüft gegen die veröffentlichte LICENSE-Datei und die Hugging-Face-Card); der README-Lizenz-Abschnitt traegt noch veraltete bedingte Formulierungen, die die Apache-2.0-LICENSE ablöst.

Wann interessant

On-Device, offline, latenzarme mehrsprachige TTS und Voice-Cloning auf gewöhnlichen CPUs (Mobile, Edge, Browser).

Wann zu früh

wenn du Studio-Spitzenqualität oder Produktionsstabilität brauchst; das größere MOSS-TTS oder eine gehostete API passt besser.

Kontext

Kommerzielle Alternative & Verwandtes

Kommerzielles Pendant: ElevenLabs

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.

Ähnliche Repositories

voicebox

jamiepine

29.5k

Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.

OSI-openOffene Voice und Text-to-Speech

VoxCPM

OpenBMB

26.1k

Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.

OSI-openOffene Voice und Text-to-Speech

Chatterbox

resemble-ai

25.1k

MIT-lizenziertes offenes TTS mit Zero-Shot Voice Cloning - 500M Parameter, 23+ Sprachen.

OSI-openOffene Voice und Text-to-Speech