Rapid-MLX
raullenchai
Lokaler, OpenAI-kompatibler Inference-Server für Apple Silicon auf MLX, ausgelegt für Coding-Agents.
Was ist Rapid-MLX?
Ein lokaler, OpenAI-kompatibler Inference-Server für Apple Silicon, gebaut auf MLX, ausgelegt darauf, sich in Coding-Agents wie Cursor und Claude Code einzuklinken. Er kommt mit Tool-Calling, Prompt-Caching und über 3.300 Tests.
Vor- & Nachteile
Pros
- Ernsthafte Engineering-Signale: über 3.300 Tests, ein Doctor-Diagnosetool, breite Modell-Unterstützung
- Sauberer Ollama/llama.cpp-Ersatz auf Apple Silicon
- Apache-2.0, voll OSI-open
Cons
- Nur macOS / Apple Silicon, kein Linux, Windows oder NVIDIA
- Offiziell Beta (PyPI development status 4) trotz hoher Versionsnummer
- Die Schlagzeile '4.2x schneller als Ollama' nennt keine Benchmark-Bedingungen, und PyPI gibt bescheidenere '2-4x' an
Lizenz
Apache-2.0 (OSI-open)
Wann interessant
Apple-Silicon-Nutzer, die lokale Inference für Coding-Agents laufen lassen.
Wann zu früh
jede Nicht-Apple-Hardware, oder wenn du reproduzierbare Geschwindigkeitsgarantien statt einer Marketing-Schlagzeile brauchst.
Dieses Repo war in der Ausgabe 2026-06 des Open-Source-KI-Radars.
oMLX
jundot
macOS-nativer LLM-Inference-Server für Apple Silicon mit Continuous Batching und SSD-gestütztem KV-Cache.
apfel
Arthur-Ficial
Das On-Device-Apple-Intelligence-Modell auf macOS 26 als Zero-Setup-OpenAI-kompatible lokale API verfügbar machen.
shimmy
Michael-A-Kuykendall
Lokale Inference-Engine in reinem Rust mit OpenAI-kompatibler API, als eine Binary.