OSI-openLokale Inference und "was läuft auf meiner Maschine"

oMLX

jundot

macOS-nativer LLM-Inference-Server für Apple Silicon mit Continuous Batching und SSD-gestütztem KV-Cache.

16.6k Stars(Stand 2026-06-14)Auf GitHub ansehen

Überblick

Was ist oMLX?

oMLX ist ein macOS-nativer LLM-Inference-Server, optimiert für Apple Silicon. Er liefert eine SwiftUI-Menubar-App und ein Admin-Dashboard, Continuous Batching, gestuftes KV-Caching mit SSD-Überlauf, Multi-Model-Serving mit LRU-Eviction sowie OpenAI- und Anthropic-kompatible APIs, dazu eingebautes Benchmarking und Unterstützung für Vision-Language-Modelle.

Analyse

Vor- & Nachteile

Pros

Native SwiftUI-Menubar-App und Admin-Dashboard - polierte Mac-first-Nutzererfahrung
Gestufter KV-Cache mit SSD-Überlauf verlängert den effektiven context window über den RAM hinaus (eigene Angabe des Projekts)
OpenAI- und Anthropic-API-Kompatibilität macht es zu einem Drop-in-Local-Backend

Cons

Nur Apple Silicon - kein Linux oder Windows
Großer offener Issue-Rückstand deutet auf raue Kanten hin
Unterscheidet sich von MLX-LM und llama.cpp hauptsächlich durch die GUI-Schicht

Lizenz

Apache-2.0 (OSI-open)

Wann interessant

Apple-Silicon-Nutzer, die einen GUI-gesteuerten lokalen Inference-Server ohne Docker oder Kommandozeilen-Daemons wollen.

Wann zu früh

Wenn du Linux- oder Windows-Server-Deployments oder Multi-GPU-Cluster-Inference benötigst.

Kontext

Kommerzielle Alternative & Verwandtes

Kommerzielles Pendant: LM Studio

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.

Ähnliche Repositories

apfel

Arthur-Ficial

5.8k

Das On-Device-Apple-Intelligence-Modell auf macOS 26 als Zero-Setup-OpenAI-kompatible lokale API verfügbar machen.

OSI-openLokale Inference und "was läuft auf meiner Maschine"

shimmy

Michael-A-Kuykendall

5.3k

Lokale Inference-Engine in reinem Rust mit OpenAI-kompatibler API, als eine Binary.

OSI-openLokale Inference und "was läuft auf meiner Maschine"

whichllm

Andyyyy64

2.8k

CLI, das deine Hardware erkennt und das lokale LLM rankt, das auf ihr tatsächlich gut läuft, bewertet anhand echter Benchmarks.

OSI-openLokale Inference und "was läuft auf meiner Maschine"