shimmy
Michael-A-Kuykendall
Lokale Inference-Engine in reinem Rust mit OpenAI-kompatibler API, als eine Binary.
Was ist shimmy?
Eine reine Rust-Inference-Engine mit einem OpenAI-API-kompatiblen Endpoint, ausgeliefert als einzelne Binary: kein Python, kein llama.cpp. Sie läuft auf Vulkan, D3D12 und Metal, CUDA ist also nicht erforderlich, und entdeckt Modelle automatisch aus HuggingFace, Ollama und LM Studio.
Vor- & Nachteile
Pros
- Einzelne Binary, kein Python- oder C++-Toolchain
- Breite GPU-Abdeckung ohne CUDA-Abhängigkeit
- Drop-in-OpenAI-API für lokale Modelle
Cons
- Der Airframe-GPU-Core kann von der Öffentlichkeit nicht aus dem Quellcode gebaut werden, ein echter Vorbehalt für ein 'offenes' Tool
- Ein Modell pro Server-Instanz, kein Multi-Model
- MoE noch nicht implementiert; Performance-Behauptungen (Startup <100ms vs. Ollama) sind unverifizierte Projektangaben
Lizenz
Apache-2.0 (OSI-open)
Apache-2.0 laut den Badges (der README-Text sagt MIT, eine echte Inkonsistenz, die du prüfen solltest, bevor du dich darauf verlässt).
Wann interessant
OpenAI-API-Drop-in auf gemischter GPU-Hardware ohne Python.
Wann zu früh
wenn du den GPU-Core selbst auditieren oder bauen willst, oder Multi-Model-Serving brauchst.
Dieses Repo war in der Ausgabe 2026-06 des Open-Source-KI-Radars.
oMLX
jundot
macOS-nativer LLM-Inference-Server für Apple Silicon mit Continuous Batching und SSD-gestütztem KV-Cache.
apfel
Arthur-Ficial
Das On-Device-Apple-Intelligence-Modell auf macOS 26 als Zero-Setup-OpenAI-kompatible lokale API verfügbar machen.
whichllm
Andyyyy64
CLI, das deine Hardware erkennt und das lokale LLM rankt, das auf ihr tatsächlich gut läuft, bewertet anhand echter Benchmarks.