Irodori-TTS
Aratako
Japanisches Flow-Matching-TTS mit Zero-Shot-Cloning und Emoji-gesteuerter Stil-Kontrolle, MIT auf Code und Weights.
Was ist Irodori-TTS?
Ein japanisches Flow-Matching-Text-to-Speech-Modell (ein Rectified-Flow-Diffusion-Transformer über kontinuierliche Latents) mit Zero-Shot-Voice-Cloning und markanter Emoji-gesteuerter Stil-Kontrolle, bei der Emoji im Input Vortrag und nonverbalen Ausdruck steuern. Eine VoiceDesign-Variante ergänzt Caption-Text-Conditioning für Emotion und Ton und kann ohne Referenz-Audio synthetisieren, und es bringt Weights, ein CLI, Gradio-UIs, Trainings- und LoRA-Finetuning-Code.
Vor- & Nachteile
Pros
- Permissives MIT auf Code und Weights, eine der saubersten Lizenzierungen für ein offenes TTS-Modell
- Neuartige, wirklich nützliche Emoji-gesteuerte Stil- und Caption-basierte VoiceDesign-Kontrolle, nicht nur reines Cloning
- Breite Backend-Unterstützung (CUDA, ROCm, Intel XPU, CPU, Apple MPS) mit vollem Trainings- und LoRA-Finetuning-Code
Cons
- Nur Japanisch, kein Wert außerhalb japanischer Use-Cases
- Flow-Matching-Inference ist schwerer als die autoregressiven CPU-first-Modelle; GPU ist der praktische Weg
- Die Qualität hängt an zusammengesetzten Komponenten, deren eigene Lizenzen vor kommerzieller Weitergabe zu prüfen sind
Lizenz
MIT (OSI-open) - Modell-Lizenz: MIT
Sowohl Code als auch Weights sind MIT (laut den v3-Model-Cards); die Cards ergänzen beratende Ethik-Hinweise, die keine Lizenz-Restriktionen sind, und die VoiceDesign-Variante baut auf Komponenten (ein llm-jp-Encoder, ein DACVAE-Codec) auf, deren eigene Lizenzen vor kommerzieller Weitergabe zu prüfen sind.
Wann interessant
offenes, MIT-lizenziertes japanisches TTS mit expressivem, steuerbarem Vortrag (Emoji- oder Caption-Stil-Steuerung) und Finetuning-Flexibilität.
Wann zu früh
wenn du Nicht-Japanisch-Sprachen oder leichte CPU-only Echtzeit-Synthese auf gewöhnlicher Hardware brauchst.
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: ElevenLabs
Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.
voicebox
jamiepine
Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.
VoxCPM
OpenBMB
Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.
Chatterbox
resemble-ai
MIT-lizenziertes offenes TTS mit Zero-Shot Voice Cloning - 500M Parameter, 23+ Sprachen.