speech-swift
soniqo
On-Device-Apple-Silicon-Speech-Toolkit (ASR, TTS, Diarisierung, VAD), das 40+ offene Modelle über MLX verdrahtet.
Was ist speech-swift?
Ein On-Device-Speech-Toolkit für Apple Silicon (Mac und iOS), das ASR, TTS, Speech-to-Speech, Voice Activity Detection, Sprecher-Diarisierung, Enhancement und Source-Separation über MLX und CoreML bündelt, lokal ohne Cloud-APIs. Es verdrahtet 40+ offene Modelle (Qwen3-ASR/TTS, Parakeet, Kokoro, CosyVoice und mehr) und kommt als Swift-Package, CLI und OpenAI-kompatibler Server.
Vor- & Nachteile
Pros
- Voll on-device und offline, keine API-Keys oder Pro-Minute-Kosten
- Breites Fähigkeits-Set (ASR, TTS, Speech-to-Speech, VAD, Diarisierung) in einem Apache-2.0-Package
- Mehrere Distributionsformen inklusive eines OpenAI-kompatiblen Servers
Cons
- Nur Apple Silicon (macOS 15+/iOS 18+), keine Portabilität; die Cross-Platform-Aussage der Seite spiegelt sich nicht im Repo
- Vor 1.0 (0.0.x), die API-Oberfläche ist instabil
- Performance- und Qualitätswerte (z.B. '32x Echtzeit') sind unverifizierte Projektangaben
Lizenz
Apache-2.0 (OSI-open)
Wann interessant
private, cloudfreie ASR, TTS und Diarisierung auf Mac oder iOS, gebaut gegen einen Swift/SPM-Stack.
Wann zu früh
wenn du Cross-Platform-Support oder eine stabile, versionierte API brauchst; es ist Apple-only und noch 0.0.x.
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: Deepgram
Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.
voicebox
jamiepine
Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.
VoxCPM
OpenBMB
Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.
Chatterbox
resemble-ai
MIT-lizenziertes offenes TTS mit Zero-Shot Voice Cloning - 500M Parameter, 23+ Sprachen.