Skip to main content
AI Tool Radar
OSI-openLokale Inference und "was läuft auf meiner Maschine"

oMLX

jundot

macOS-nativer LLM-Inference-Server für Apple Silicon mit Continuous Batching und SSD-gestütztem KV-Cache.

16.6k Stars(Stand 2026-06-14)Auf GitHub ansehen

Was ist oMLX?

oMLX ist ein macOS-nativer LLM-Inference-Server, optimiert für Apple Silicon. Er liefert eine SwiftUI-Menubar-App und ein Admin-Dashboard, Continuous Batching, gestuftes KV-Caching mit SSD-Überlauf, Multi-Model-Serving mit LRU-Eviction sowie OpenAI- und Anthropic-kompatible APIs, dazu eingebautes Benchmarking und Unterstützung für Vision-Language-Modelle.

Vor- & Nachteile

Pros

  • Native SwiftUI-Menubar-App und Admin-Dashboard - polierte Mac-first-Nutzererfahrung
  • Gestufter KV-Cache mit SSD-Überlauf verlängert den effektiven context window über den RAM hinaus (eigene Angabe des Projekts)
  • OpenAI- und Anthropic-API-Kompatibilität macht es zu einem Drop-in-Local-Backend

Cons

  • Nur Apple Silicon - kein Linux oder Windows
  • Großer offener Issue-Rückstand deutet auf raue Kanten hin
  • Unterscheidet sich von MLX-LM und llama.cpp hauptsächlich durch die GUI-Schicht

Lizenz

Apache-2.0 (OSI-open)

Wann interessant

Apple-Silicon-Nutzer, die einen GUI-gesteuerten lokalen Inference-Server ohne Docker oder Kommandozeilen-Daemons wollen.

Wann zu früh

Wenn du Linux- oder Windows-Server-Deployments oder Multi-GPU-Cluster-Inference benötigst.

Kommerzielle Alternative & Verwandtes

  • Kommerzielles Pendant: LM Studio

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.