Source-availableOffene Voice und Text-to-Speech

OmniVoice Studio

debpalash

Desktop-App für lokales Diktieren, Zero-Shot-Voice-Cloning aus einem 3-Sekunden-Clip und Video-Dubbing, alles On-Device.

6.2k Stars(Stand 2026-06-05)Auf GitHub ansehen

Überblick

Was ist OmniVoice Studio?

Eine Desktop-App für lokales Diktieren, Zero-Shot-Voice-Cloning aus einem 3-Sekunden-Clip und Video-Dubbing, alles On-Device. Sie vermarktet sich als 'die Open-Source-ElevenLabs-Alternative', und sie ist eine echte Multi-OS-App mit nativen Installern.

Analyse

Vor- & Nachteile

Pros

Fertige Desktop-App mit nativen Installern (macOS, Windows, Linux, Docker)
Voll lokal, keine API-Keys, breite Engine-Auswahl (CosyVoice, MLX-Audio, VoxCPM2)
Jedes Release wird zwei Jahre nach Veröffentlichung Apache-2.0

Cons

Aktive Beta (v0.3.5), Dinge brechen zwischen Releases nach eigenem Bekunden des Maintainers
Trotz des 'Open-Source'-Labels ist die Lizenz FSL-1.1: source-available, nicht OSI-open
Nicht-kommerziell / keine 'konkurrierende Nutzung' bis zur 2-Jahre-Apache-Umwandlung

Lizenz

FSL-1.1-ALv2 (Source-available)

FSL-1.1-ALv2, source-available, frei nur für private und nicht-kommerzielle Nutzung. Das ist die wichtigste Korrektur zur eigenen 'Open-Source'-Einordnung.

Wann interessant

lokales, datensouveränes Dubbing und Diktieren ohne API-Kosten.

Wann zu früh

jede kommerzielle Nutzung ohne gekaufte Lizenz, oder Produktionszuverlässigkeit.

Kontext

Kommerzielle Alternative & Verwandtes

Kommerzielles Pendant: ElevenLabs

Dieses Repo war in der Ausgabe 2026-06 des Open-Source-KI-Radars.

Ähnliche Repositories

voicebox

jamiepine

29.5k

Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.

OSI-openOffene Voice und Text-to-Speech

VoxCPM

OpenBMB

26.1k

Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.

OSI-openOffene Voice und Text-to-Speech

Chatterbox

resemble-ai

25.1k

MIT-lizenziertes offenes TTS mit Zero-Shot Voice Cloning - 500M Parameter, 23+ Sprachen.

OSI-openOffene Voice und Text-to-Speech