Parlor
fikrikarim
On-Device, echtzeit-fähige Voice- und Vision-KI - angetrieben von Gemma und Kokoro, ohne Cloud.
Was ist Parlor?
Parlor ist ein lokaler Assistent, der ein multimodales Gemma-Modell mit Kokoro TTS für Echtzeit-Sprach-und-Kamera-Konversationen ohne Cloud-Abhängigkeit verbindet. Er läuft auf Apple Silicon (MLX) oder Linux-GPU, nutzt Silero VAD für freihändige Bedienung, unterstützt Barge-in und streamt TTS auf Satzebene.
Vor- & Nachteile
Pros
- Wirklich On-Device - Sprache, Vision und LLM alle lokal, starke Datenschutz-Story
- Barge-in und satzweises Streaming geben ein natürliches Konversationsgefühl
- Apache-2.0 durchgängig, aktiv gepflegt
Cons
- Nur Englisch und nur Apple Silicon / Linux-GPU - kein Windows oder CPU-Pfad
- Dünne Schicht über Gemma + Kokoro - Sprachqualität durch Kokoro begrenzt
- Alpha-Stadium als Soloprojekt ohne versionierte Releases
Lizenz
Apache-2.0 (OSI-open)
Wann interessant
Du willst einen datenschutzorientierten, vollständig lokalen Voice-Assistenten mit Kamera-Bewusstsein und ohne API-Keys, besonders auf Apple Silicon.
Wann zu früh
Du benötigst mehrsprachige Unterstützung, ein stabiles SDK oder Produktionszuverlässigkeit.
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: ElevenLabs
Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.
voicebox
jamiepine
Kostenlose, lokale Alternative zu ElevenLabs für TTS, Voice Cloning und Diktieren mit Agent-Integration.
VoxCPM
OpenBMB
Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.
Chatterbox
resemble-ai
MIT-lizenziertes offenes TTS mit Zero-Shot Voice Cloning - 500M Parameter, 23+ Sprachen.