Skip to main content
AI Tool Radar
OSI-openOffene Voice und Text-to-Speech

Irodori-TTS

Aratako

Japanisches Flow-Matching-TTS mit Zero-Shot-Cloning und Emoji-gesteuerter Stil-Kontrolle, MIT auf Code und Weights.

975 Stars(Stand 2026-06-26)Auf GitHub ansehen

Was ist Irodori-TTS?

Ein japanisches Flow-Matching-Text-to-Speech-Modell (ein Rectified-Flow-Diffusion-Transformer über kontinuierliche Latents) mit Zero-Shot-Voice-Cloning und markanter Emoji-gesteuerter Stil-Kontrolle, bei der Emoji im Input Vortrag und nonverbalen Ausdruck steuern. Eine VoiceDesign-Variante ergänzt Caption-Text-Conditioning für Emotion und Ton und kann ohne Referenz-Audio synthetisieren, und es bringt Weights, ein CLI, Gradio-UIs, Trainings- und LoRA-Finetuning-Code.

Vor- & Nachteile

Pros

  • Permissives MIT auf Code und Weights, eine der saubersten Lizenzierungen für ein offenes TTS-Modell
  • Neuartige, wirklich nützliche Emoji-gesteuerte Stil- und Caption-basierte VoiceDesign-Kontrolle, nicht nur reines Cloning
  • Breite Backend-Unterstützung (CUDA, ROCm, Intel XPU, CPU, Apple MPS) mit vollem Trainings- und LoRA-Finetuning-Code

Cons

  • Nur Japanisch, kein Wert außerhalb japanischer Use-Cases
  • Flow-Matching-Inference ist schwerer als die autoregressiven CPU-first-Modelle; GPU ist der praktische Weg
  • Die Qualität hängt an zusammengesetzten Komponenten, deren eigene Lizenzen vor kommerzieller Weitergabe zu prüfen sind

Lizenz

MIT (OSI-open) - Modell-Lizenz: MIT

Sowohl Code als auch Weights sind MIT (laut den v3-Model-Cards); die Cards ergänzen beratende Ethik-Hinweise, die keine Lizenz-Restriktionen sind, und die VoiceDesign-Variante baut auf Komponenten (ein llm-jp-Encoder, ein DACVAE-Codec) auf, deren eigene Lizenzen vor kommerzieller Weitergabe zu prüfen sind.

Wann interessant

offenes, MIT-lizenziertes japanisches TTS mit expressivem, steuerbarem Vortrag (Emoji- oder Caption-Stil-Steuerung) und Finetuning-Flexibilität.

Wann zu früh

wenn du Nicht-Japanisch-Sprachen oder leichte CPU-only Echtzeit-Synthese auf gewöhnlicher Hardware brauchst.

Kommerzielle Alternative & Verwandtes

  • Kommerzielles Pendant: ElevenLabs

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.