VieNeu-TTS
pnnbao97
Offenes vietnamesisches (plus Englisch) TTS mit Instant-Voice-Cloning, from scratch trainiert und CPU-fähig.
Was ist VieNeu-TTS?
Ein vietnamesisches Text-to-Speech-System mit englischem Code-Switching und Instant-Zero-Shot-Voice-Cloning aus wenigen Sekunden Referenz-Audio. Das aktuelle v3 Turbo ist ein 0,1B-Modell, das from scratch auf rund 10.000 Stunden vietnamesisch-englischer Sprache trainiert wurde, gibt 48 kHz aus und nutzt den MOSS-Audio-Tokenizer-Nano-Codec, mit einem Python-Package, CPU- (ONNX/GGUF) und GPU-Wegen und Docker-Serving.
Vor- & Nachteile
Pros
- Füllt eine echte Nische: dediziertes, offenes, voice-clonendes vietnamesisches TTS mit Code-Switching, von Mainstream-Open-Modellen schlecht abgedeckt
- Apache-2.0 auf Code und Weights, kommerziell sicher ohne geerbte Restriktionen
- Ein echter On-Device-CPU-Weg (torch-frei ONNX/GGUF) plus pip- und Docker-Tooling
Cons
- Das Flagschiff v3 Turbo ist 'early access', kein finales Release, die stärksten Aussagen sitzen also auf einem pre-stable Build
- Der Sprachumfang ist schmal (nur Vietnamesisch und Englisch)
- Größtenteils Single-Maintainer; Langzeit-Support und die From-Scratch-Trainings-Aussagen ruhen auf den Angaben des Autors
Lizenz
Apache-2.0 (OSI-open) - Modell-Lizenz: Apache-2.0
Sowohl Code als auch Modell-Weights sind Apache-2.0; v3 Turbo ist from scratch trainiert, es gibt also keine geerbte Basismodell-Restriktion.
Wann interessant
du brauchst speziell offline, kommerziell lizenziertes vietnamesisches Voice-Cloning oder Vietnamesisch-Englisch-Code-Switching auf CPU oder einer bescheidenen GPU.
Wann zu früh
wenn du heute ein eingefrorenes, produktionsstabiles Release brauchst; nutze das stabile v1/v2 statt v3 Turbo early access.
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: ElevenLabs
Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.
voicebox
jamiepine
Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.
VoxCPM
OpenBMB
Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.
Chatterbox
resemble-ai
MIT-lizenziertes offenes TTS mit Zero-Shot Voice Cloning - 500M Parameter, 23+ Sprachen.