Higgs Audio
boson-ai
Text-Audio-Foundation-Modell - konversationelles TTS in 100+ Sprachen mit Zero-Shot Cloning, 4B Parameter.
Was ist Higgs Audio?
Higgs Audio ist eine Familie von Text-Audio-Foundation-Modellen von Boson AI. v3 ist ein konversationelles TTS-Modell mit 4B Parametern, das 100+ Sprachen mit Zero-Shot Voice Cloning, inline Emotions-/Stil-/Prosodiekontrolle und einer OpenAI-kompatiblen Streaming-API abdeckt. Self-Hosting erfolgt via SGLang-Omni.
Vor- & Nachteile
Pros
- 100+ Sprachen mit Zero-Shot Cloning und inline Prosodiekontrolle in einem 4B-Modell
- Vortrainiert auf 10M+ Stunden Audio (eigene Angabe des Projekts) - ein großes open-weight-Korpus
- OpenAI-kompatible Streaming-API erleichtert Drop-in-Integration
Cons
- Weights sind nicht-kommerziell - kommerzielles Self-Hosting erfordert eine kostenpflichtige Vereinbarung
- 4B Parameter plus SGLang-Omni bedeuten nennenswerten Infrastruktur-Overhead
- Research-lizenzierte Weights begrenzen den produktiven Open-Source-Einsatz
Lizenz
Apache-2.0 (code) (Open weight, mit Auflagen) - Modell-Lizenz: Boson Higgs Audio v3 Research and Non-Commercial License
Code ist Apache-2.0, aber die v3-Modell-Weights stehen unter einer Research and Non-Commercial License - produktive oder umsatzgenerierende Deployments erfordern eine separate kommerzielle Vereinbarung mit Boson AI.
Wann interessant
Forschung oder nicht-kommerzielle Produkte, die die breiteste mehrsprachige Abdeckung und reichste Prosodiekontrolle in open weights benötigen.
Wann zu früh
Du benötigst eine vollständig offene kommerzielle Self-Hosting-Lizenz.
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: ElevenLabs
Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.
voicebox
jamiepine
Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.
VoxCPM
OpenBMB
Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.
Chatterbox
resemble-ai
MIT-lizenziertes offenes TTS mit Zero-Shot Voice Cloning - 500M Parameter, 23+ Sprachen.