OSI-openOffene Voice und Text-to-Speech

VieNeu-TTS

pnnbao97

Offenes vietnamesisches (plus Englisch) TTS mit Instant-Voice-Cloning, from scratch trainiert und CPU-fähig.

2.0k Stars(Stand 2026-06-26)Auf GitHub ansehen Homepage

Überblick

Was ist VieNeu-TTS?

Ein vietnamesisches Text-to-Speech-System mit englischem Code-Switching und Instant-Zero-Shot-Voice-Cloning aus wenigen Sekunden Referenz-Audio. Das aktuelle v3 Turbo ist ein 0,1B-Modell, das from scratch auf rund 10.000 Stunden vietnamesisch-englischer Sprache trainiert wurde, gibt 48 kHz aus und nutzt den MOSS-Audio-Tokenizer-Nano-Codec, mit einem Python-Package, CPU- (ONNX/GGUF) und GPU-Wegen und Docker-Serving.

Analyse

Vor- & Nachteile

Pros

Füllt eine echte Nische: dediziertes, offenes, voice-clonendes vietnamesisches TTS mit Code-Switching, von Mainstream-Open-Modellen schlecht abgedeckt
Apache-2.0 auf Code und Weights, kommerziell sicher ohne geerbte Restriktionen
Ein echter On-Device-CPU-Weg (torch-frei ONNX/GGUF) plus pip- und Docker-Tooling

Cons

Das Flagschiff v3 Turbo ist 'early access', kein finales Release, die stärksten Aussagen sitzen also auf einem pre-stable Build
Der Sprachumfang ist schmal (nur Vietnamesisch und Englisch)
Größtenteils Single-Maintainer; Langzeit-Support und die From-Scratch-Trainings-Aussagen ruhen auf den Angaben des Autors

Lizenz

Apache-2.0 (OSI-open) - Modell-Lizenz: Apache-2.0

Sowohl Code als auch Modell-Weights sind Apache-2.0; v3 Turbo ist from scratch trainiert, es gibt also keine geerbte Basismodell-Restriktion.

Wann interessant

du brauchst speziell offline, kommerziell lizenziertes vietnamesisches Voice-Cloning oder Vietnamesisch-Englisch-Code-Switching auf CPU oder einer bescheidenen GPU.

Wann zu früh

wenn du heute ein eingefrorenes, produktionsstabiles Release brauchst; nutze das stabile v1/v2 statt v3 Turbo early access.

Kontext

Kommerzielle Alternative & Verwandtes

Kommerzielles Pendant: ElevenLabs

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.

Ähnliche Repositories

voicebox

jamiepine

29.5k

Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.

OSI-openOffene Voice und Text-to-Speech

VoxCPM

OpenBMB

26.1k

Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.

OSI-openOffene Voice und Text-to-Speech

Chatterbox

resemble-ai

25.1k

MIT-lizenziertes offenes TTS mit Zero-Shot Voice Cloning - 500M Parameter, 23+ Sprachen.

OSI-openOffene Voice und Text-to-Speech