oMLX
jundot
macOS-nativer LLM-Inference-Server für Apple Silicon mit Continuous Batching und SSD-gestütztem KV-Cache.
Was ist oMLX?
oMLX ist ein macOS-nativer LLM-Inference-Server, optimiert für Apple Silicon. Er liefert eine SwiftUI-Menubar-App und ein Admin-Dashboard, Continuous Batching, gestuftes KV-Caching mit SSD-Überlauf, Multi-Model-Serving mit LRU-Eviction sowie OpenAI- und Anthropic-kompatible APIs, dazu eingebautes Benchmarking und Unterstützung für Vision-Language-Modelle.
Vor- & Nachteile
Pros
- Native SwiftUI-Menubar-App und Admin-Dashboard - polierte Mac-first-Nutzererfahrung
- Gestufter KV-Cache mit SSD-Überlauf verlängert den effektiven context window über den RAM hinaus (eigene Angabe des Projekts)
- OpenAI- und Anthropic-API-Kompatibilität macht es zu einem Drop-in-Local-Backend
Cons
- Nur Apple Silicon - kein Linux oder Windows
- Großer offener Issue-Rückstand deutet auf raue Kanten hin
- Unterscheidet sich von MLX-LM und llama.cpp hauptsächlich durch die GUI-Schicht
Lizenz
Apache-2.0 (OSI-open)
Wann interessant
Apple-Silicon-Nutzer, die einen GUI-gesteuerten lokalen Inference-Server ohne Docker oder Kommandozeilen-Daemons wollen.
Wann zu früh
Wenn du Linux- oder Windows-Server-Deployments oder Multi-GPU-Cluster-Inference benötigst.
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: LM Studio
Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.
apfel
Arthur-Ficial
Das On-Device-Apple-Intelligence-Modell auf macOS 26 als Zero-Setup-OpenAI-kompatible lokale API verfügbar machen.
shimmy
Michael-A-Kuykendall
Lokale Inference-Engine in reinem Rust mit OpenAI-kompatibler API, als eine Binary.
whichllm
Andyyyy64
CLI, das deine Hardware erkennt und das lokale LLM rankt, das auf ihr tatsächlich gut läuft, bewertet anhand echter Benchmarks.