Open weight, mit AuflagenOffene Voice und Text-to-Speech

Higgs Audio

boson-ai

Text-Audio-Foundation-Modell - konversationelles TTS in 100+ Sprachen mit Zero-Shot Cloning, 4B Parameter.

8.2k Stars(Stand 2026-06-14)Auf GitHub ansehen Homepage

Überblick

Was ist Higgs Audio?

Higgs Audio ist eine Familie von Text-Audio-Foundation-Modellen von Boson AI. v3 ist ein konversationelles TTS-Modell mit 4B Parametern, das 100+ Sprachen mit Zero-Shot Voice Cloning, inline Emotions-/Stil-/Prosodiekontrolle und einer OpenAI-kompatiblen Streaming-API abdeckt. Self-Hosting erfolgt via SGLang-Omni.

Analyse

Vor- & Nachteile

Pros

100+ Sprachen mit Zero-Shot Cloning und inline Prosodiekontrolle in einem 4B-Modell
Vortrainiert auf 10M+ Stunden Audio (eigene Angabe des Projekts) - ein großes open-weight-Korpus
OpenAI-kompatible Streaming-API erleichtert Drop-in-Integration

Cons

Weights sind nicht-kommerziell - kommerzielles Self-Hosting erfordert eine kostenpflichtige Vereinbarung
4B Parameter plus SGLang-Omni bedeuten nennenswerten Infrastruktur-Overhead
Research-lizenzierte Weights begrenzen den produktiven Open-Source-Einsatz

Lizenz

Apache-2.0 (code) (Open weight, mit Auflagen) - Modell-Lizenz: Boson Higgs Audio v3 Research and Non-Commercial License

Code ist Apache-2.0, aber die v3-Modell-Weights stehen unter einer Research and Non-Commercial License - produktive oder umsatzgenerierende Deployments erfordern eine separate kommerzielle Vereinbarung mit Boson AI.

Wann interessant

Forschung oder nicht-kommerzielle Produkte, die die breiteste mehrsprachige Abdeckung und reichste Prosodiekontrolle in open weights benötigen.

Wann zu früh

Du benötigst eine vollständig offene kommerzielle Self-Hosting-Lizenz.

Kontext

Kommerzielle Alternative & Verwandtes

Kommerzielles Pendant: ElevenLabs

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.

Ähnliche Repositories

voicebox

jamiepine

29.5k

Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.

OSI-openOffene Voice und Text-to-Speech

VoxCPM

OpenBMB

26.1k

Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.

OSI-openOffene Voice und Text-to-Speech

Chatterbox

resemble-ai

25.1k

MIT-lizenziertes offenes TTS mit Zero-Shot Voice Cloning - 500M Parameter, 23+ Sprachen.

OSI-openOffene Voice und Text-to-Speech