Skip to main content
AI Tool Radar
OSI-openLokale Inference und "was läuft auf meiner Maschine"

Rapid-MLX

raullenchai

Lokaler, OpenAI-kompatibler Inference-Server für Apple Silicon auf MLX, ausgelegt für Coding-Agents.

2.7k Stars(Stand 2026-06-05)Auf GitHub ansehen

Was ist Rapid-MLX?

Ein lokaler, OpenAI-kompatibler Inference-Server für Apple Silicon, gebaut auf MLX, ausgelegt darauf, sich in Coding-Agents wie Cursor und Claude Code einzuklinken. Er kommt mit Tool-Calling, Prompt-Caching und über 3.300 Tests.

Vor- & Nachteile

Pros

  • Ernsthafte Engineering-Signale: über 3.300 Tests, ein Doctor-Diagnosetool, breite Modell-Unterstützung
  • Sauberer Ollama/llama.cpp-Ersatz auf Apple Silicon
  • Apache-2.0, voll OSI-open

Cons

  • Nur macOS / Apple Silicon, kein Linux, Windows oder NVIDIA
  • Offiziell Beta (PyPI development status 4) trotz hoher Versionsnummer
  • Die Schlagzeile '4.2x schneller als Ollama' nennt keine Benchmark-Bedingungen, und PyPI gibt bescheidenere '2-4x' an

Lizenz

Apache-2.0 (OSI-open)

Wann interessant

Apple-Silicon-Nutzer, die lokale Inference für Coding-Agents laufen lassen.

Wann zu früh

jede Nicht-Apple-Hardware, oder wenn du reproduzierbare Geschwindigkeitsgarantien statt einer Marketing-Schlagzeile brauchst.

Dieses Repo war in der Ausgabe 2026-06 des Open-Source-KI-Radars.