OSI-openOffene Voice und Text-to-Speech

Irodori-TTS

Aratako

Japanisches Flow-Matching-TTS mit Zero-Shot-Cloning und Emoji-gesteuerter Stil-Kontrolle, MIT auf Code und Weights.

975 Stars(Stand 2026-06-26)Auf GitHub ansehen

Überblick

Was ist Irodori-TTS?

Ein japanisches Flow-Matching-Text-to-Speech-Modell (ein Rectified-Flow-Diffusion-Transformer über kontinuierliche Latents) mit Zero-Shot-Voice-Cloning und markanter Emoji-gesteuerter Stil-Kontrolle, bei der Emoji im Input Vortrag und nonverbalen Ausdruck steuern. Eine VoiceDesign-Variante ergänzt Caption-Text-Conditioning für Emotion und Ton und kann ohne Referenz-Audio synthetisieren, und es bringt Weights, ein CLI, Gradio-UIs, Trainings- und LoRA-Finetuning-Code.

Analyse

Vor- & Nachteile

Pros

Permissives MIT auf Code und Weights, eine der saubersten Lizenzierungen für ein offenes TTS-Modell
Neuartige, wirklich nützliche Emoji-gesteuerte Stil- und Caption-basierte VoiceDesign-Kontrolle, nicht nur reines Cloning
Breite Backend-Unterstützung (CUDA, ROCm, Intel XPU, CPU, Apple MPS) mit vollem Trainings- und LoRA-Finetuning-Code

Cons

Nur Japanisch, kein Wert außerhalb japanischer Use-Cases
Flow-Matching-Inference ist schwerer als die autoregressiven CPU-first-Modelle; GPU ist der praktische Weg
Die Qualität hängt an zusammengesetzten Komponenten, deren eigene Lizenzen vor kommerzieller Weitergabe zu prüfen sind

Lizenz

MIT (OSI-open) - Modell-Lizenz: MIT

Sowohl Code als auch Weights sind MIT (laut den v3-Model-Cards); die Cards ergänzen beratende Ethik-Hinweise, die keine Lizenz-Restriktionen sind, und die VoiceDesign-Variante baut auf Komponenten (ein llm-jp-Encoder, ein DACVAE-Codec) auf, deren eigene Lizenzen vor kommerzieller Weitergabe zu prüfen sind.

Wann interessant

offenes, MIT-lizenziertes japanisches TTS mit expressivem, steuerbarem Vortrag (Emoji- oder Caption-Stil-Steuerung) und Finetuning-Flexibilität.

Wann zu früh

wenn du Nicht-Japanisch-Sprachen oder leichte CPU-only Echtzeit-Synthese auf gewöhnlicher Hardware brauchst.

Kontext

Kommerzielle Alternative & Verwandtes

Kommerzielles Pendant: ElevenLabs

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.

Ähnliche Repositories

voicebox

jamiepine

29.5k

Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.

OSI-openOffene Voice und Text-to-Speech

VoxCPM

OpenBMB

26.1k

Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.

OSI-openOffene Voice und Text-to-Speech

Chatterbox

resemble-ai

25.1k

MIT-lizenziertes offenes TTS mit Zero-Shot Voice Cloning - 500M Parameter, 23+ Sprachen.

OSI-openOffene Voice und Text-to-Speech