OSI-openLokale Inference und "was läuft auf meiner Maschine"

Rapid-MLX

raullenchai

Lokaler, OpenAI-kompatibler Inference-Server für Apple Silicon auf MLX, ausgelegt für Coding-Agents.

2.7k Stars(Stand 2026-06-05)Auf GitHub ansehen

Überblick

Was ist Rapid-MLX?

Ein lokaler, OpenAI-kompatibler Inference-Server für Apple Silicon, gebaut auf MLX, ausgelegt darauf, sich in Coding-Agents wie Cursor und Claude Code einzuklinken. Er kommt mit Tool-Calling, Prompt-Caching und über 3.300 Tests.

Analyse

Vor- & Nachteile

Pros

Ernsthafte Engineering-Signale: über 3.300 Tests, ein Doctor-Diagnosetool, breite Modell-Unterstützung
Sauberer Ollama/llama.cpp-Ersatz auf Apple Silicon
Apache-2.0, voll OSI-open

Cons

Nur macOS / Apple Silicon, kein Linux, Windows oder NVIDIA
Offiziell Beta (PyPI development status 4) trotz hoher Versionsnummer
Die Schlagzeile '4.2x schneller als Ollama' nennt keine Benchmark-Bedingungen, und PyPI gibt bescheidenere '2-4x' an

Lizenz

Apache-2.0 (OSI-open)

Wann interessant

Apple-Silicon-Nutzer, die lokale Inference für Coding-Agents laufen lassen.

Wann zu früh

jede Nicht-Apple-Hardware, oder wenn du reproduzierbare Geschwindigkeitsgarantien statt einer Marketing-Schlagzeile brauchst.

Dieses Repo war in der Ausgabe 2026-06 des Open-Source-KI-Radars.

Ähnliche Repositories

oMLX

jundot

16.6k

macOS-nativer LLM-Inference-Server für Apple Silicon mit Continuous Batching und SSD-gestütztem KV-Cache.

OSI-openLokale Inference und "was läuft auf meiner Maschine"

apfel

Arthur-Ficial

5.8k

Das On-Device-Apple-Intelligence-Modell auf macOS 26 als Zero-Setup-OpenAI-kompatible lokale API verfügbar machen.

OSI-openLokale Inference und "was läuft auf meiner Maschine"

shimmy

Michael-A-Kuykendall

5.3k

Lokale Inference-Engine in reinem Rust mit OpenAI-kompatibler API, als eine Binary.

OSI-openLokale Inference und "was läuft auf meiner Maschine"