Skip to main content
AI Tool Radar
OSI-openOffene Voice und Text-to-Speech

speech-swift

soniqo

On-Device-Apple-Silicon-Speech-Toolkit (ASR, TTS, Diarisierung, VAD), das 40+ offene Modelle über MLX verdrahtet.

933 Stars(Stand 2026-06-26)Auf GitHub ansehenHomepage

Was ist speech-swift?

Ein On-Device-Speech-Toolkit für Apple Silicon (Mac und iOS), das ASR, TTS, Speech-to-Speech, Voice Activity Detection, Sprecher-Diarisierung, Enhancement und Source-Separation über MLX und CoreML bündelt, lokal ohne Cloud-APIs. Es verdrahtet 40+ offene Modelle (Qwen3-ASR/TTS, Parakeet, Kokoro, CosyVoice und mehr) und kommt als Swift-Package, CLI und OpenAI-kompatibler Server.

Vor- & Nachteile

Pros

  • Voll on-device und offline, keine API-Keys oder Pro-Minute-Kosten
  • Breites Fähigkeits-Set (ASR, TTS, Speech-to-Speech, VAD, Diarisierung) in einem Apache-2.0-Package
  • Mehrere Distributionsformen inklusive eines OpenAI-kompatiblen Servers

Cons

  • Nur Apple Silicon (macOS 15+/iOS 18+), keine Portabilität; die Cross-Platform-Aussage der Seite spiegelt sich nicht im Repo
  • Vor 1.0 (0.0.x), die API-Oberfläche ist instabil
  • Performance- und Qualitätswerte (z.B. '32x Echtzeit') sind unverifizierte Projektangaben

Lizenz

Apache-2.0 (OSI-open)

Wann interessant

private, cloudfreie ASR, TTS und Diarisierung auf Mac oder iOS, gebaut gegen einen Swift/SPM-Stack.

Wann zu früh

wenn du Cross-Platform-Support oder eine stabile, versionierte API brauchst; es ist Apple-only und noch 0.0.x.

Kommerzielle Alternative & Verwandtes

  • Kommerzielles Pendant: Deepgram

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.