Skip to main content
AI Tool Radar
OSI-openOffene Voice und Text-to-Speech

Parlor

fikrikarim

On-Device, echtzeit-fähige Voice- und Vision-KI - angetrieben von Gemma und Kokoro, ohne Cloud.

1.8k Stars(Stand 2026-06-14)Auf GitHub ansehen

Was ist Parlor?

Parlor ist ein lokaler Assistent, der ein multimodales Gemma-Modell mit Kokoro TTS für Echtzeit-Sprach-und-Kamera-Konversationen ohne Cloud-Abhängigkeit verbindet. Er läuft auf Apple Silicon (MLX) oder Linux-GPU, nutzt Silero VAD für freihändige Bedienung, unterstützt Barge-in und streamt TTS auf Satzebene.

Vor- & Nachteile

Pros

  • Wirklich On-Device - Sprache, Vision und LLM alle lokal, starke Datenschutz-Story
  • Barge-in und satzweises Streaming geben ein natürliches Konversationsgefühl
  • Apache-2.0 durchgängig, aktiv gepflegt

Cons

  • Nur Englisch und nur Apple Silicon / Linux-GPU - kein Windows oder CPU-Pfad
  • Dünne Schicht über Gemma + Kokoro - Sprachqualität durch Kokoro begrenzt
  • Alpha-Stadium als Soloprojekt ohne versionierte Releases

Lizenz

Apache-2.0 (OSI-open)

Wann interessant

Du willst einen datenschutzorientierten, vollständig lokalen Voice-Assistenten mit Kamera-Bewusstsein und ohne API-Keys, besonders auf Apple Silicon.

Wann zu früh

Du benötigst mehrsprachige Unterstützung, ein stabiles SDK oder Produktionszuverlässigkeit.

Kommerzielle Alternative & Verwandtes

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.