Skip to main content
AI Tool Radar
Open weight, mit AuflagenOffene Voice und Text-to-Speech

Higgs Audio

boson-ai

Text-Audio-Foundation-Modell - konversationelles TTS in 100+ Sprachen mit Zero-Shot Cloning, 4B Parameter.

8.2k Stars(Stand 2026-06-14)Auf GitHub ansehenHomepage

Was ist Higgs Audio?

Higgs Audio ist eine Familie von Text-Audio-Foundation-Modellen von Boson AI. v3 ist ein konversationelles TTS-Modell mit 4B Parametern, das 100+ Sprachen mit Zero-Shot Voice Cloning, inline Emotions-/Stil-/Prosodiekontrolle und einer OpenAI-kompatiblen Streaming-API abdeckt. Self-Hosting erfolgt via SGLang-Omni.

Vor- & Nachteile

Pros

  • 100+ Sprachen mit Zero-Shot Cloning und inline Prosodiekontrolle in einem 4B-Modell
  • Vortrainiert auf 10M+ Stunden Audio (eigene Angabe des Projekts) - ein großes open-weight-Korpus
  • OpenAI-kompatible Streaming-API erleichtert Drop-in-Integration

Cons

  • Weights sind nicht-kommerziell - kommerzielles Self-Hosting erfordert eine kostenpflichtige Vereinbarung
  • 4B Parameter plus SGLang-Omni bedeuten nennenswerten Infrastruktur-Overhead
  • Research-lizenzierte Weights begrenzen den produktiven Open-Source-Einsatz

Lizenz

Apache-2.0 (code) (Open weight, mit Auflagen) - Modell-Lizenz: Boson Higgs Audio v3 Research and Non-Commercial License

Code ist Apache-2.0, aber die v3-Modell-Weights stehen unter einer Research and Non-Commercial License - produktive oder umsatzgenerierende Deployments erfordern eine separate kommerzielle Vereinbarung mit Boson AI.

Wann interessant

Forschung oder nicht-kommerzielle Produkte, die die breiteste mehrsprachige Abdeckung und reichste Prosodiekontrolle in open weights benötigen.

Wann zu früh

Du benötigst eine vollständig offene kommerzielle Self-Hosting-Lizenz.

Kommerzielle Alternative & Verwandtes

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.