OSI-openOffene Voice und Text-to-Speech

speech-swift

soniqo

On-Device-Apple-Silicon-Speech-Toolkit (ASR, TTS, Diarisierung, VAD), das 40+ offene Modelle über MLX verdrahtet.

933 Stars(Stand 2026-06-26)Auf GitHub ansehen Homepage

Überblick

Was ist speech-swift?

Ein On-Device-Speech-Toolkit für Apple Silicon (Mac und iOS), das ASR, TTS, Speech-to-Speech, Voice Activity Detection, Sprecher-Diarisierung, Enhancement und Source-Separation über MLX und CoreML bündelt, lokal ohne Cloud-APIs. Es verdrahtet 40+ offene Modelle (Qwen3-ASR/TTS, Parakeet, Kokoro, CosyVoice und mehr) und kommt als Swift-Package, CLI und OpenAI-kompatibler Server.

Analyse

Vor- & Nachteile

Pros

Voll on-device und offline, keine API-Keys oder Pro-Minute-Kosten
Breites Fähigkeits-Set (ASR, TTS, Speech-to-Speech, VAD, Diarisierung) in einem Apache-2.0-Package
Mehrere Distributionsformen inklusive eines OpenAI-kompatiblen Servers

Cons

Nur Apple Silicon (macOS 15+/iOS 18+), keine Portabilität; die Cross-Platform-Aussage der Seite spiegelt sich nicht im Repo
Vor 1.0 (0.0.x), die API-Oberfläche ist instabil
Performance- und Qualitätswerte (z.B. '32x Echtzeit') sind unverifizierte Projektangaben

Lizenz

Apache-2.0 (OSI-open)

Wann interessant

private, cloudfreie ASR, TTS und Diarisierung auf Mac oder iOS, gebaut gegen einen Swift/SPM-Stack.

Wann zu früh

wenn du Cross-Platform-Support oder eine stabile, versionierte API brauchst; es ist Apple-only und noch 0.0.x.

Kontext

Kommerzielle Alternative & Verwandtes

Kommerzielles Pendant: Deepgram

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.

Ähnliche Repositories

voicebox

jamiepine

29.5k

Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.

OSI-openOffene Voice und Text-to-Speech

VoxCPM

OpenBMB

26.1k

Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.

OSI-openOffene Voice und Text-to-Speech

Chatterbox

resemble-ai

25.1k

MIT-lizenziertes offenes TTS mit Zero-Shot Voice Cloning - 500M Parameter, 23+ Sprachen.

OSI-openOffene Voice und Text-to-Speech