Skip to main content
AI Tool Radar
OSI-openLokale Inference und "was läuft auf meiner Maschine"

shimmy

Michael-A-Kuykendall

Lokale Inference-Engine in reinem Rust mit OpenAI-kompatibler API, als eine Binary.

5.3k Stars(Stand 2026-06-05)Auf GitHub ansehen

Was ist shimmy?

Eine reine Rust-Inference-Engine mit einem OpenAI-API-kompatiblen Endpoint, ausgeliefert als einzelne Binary: kein Python, kein llama.cpp. Sie läuft auf Vulkan, D3D12 und Metal, CUDA ist also nicht erforderlich, und entdeckt Modelle automatisch aus HuggingFace, Ollama und LM Studio.

Vor- & Nachteile

Pros

  • Einzelne Binary, kein Python- oder C++-Toolchain
  • Breite GPU-Abdeckung ohne CUDA-Abhängigkeit
  • Drop-in-OpenAI-API für lokale Modelle

Cons

  • Der Airframe-GPU-Core kann von der Öffentlichkeit nicht aus dem Quellcode gebaut werden, ein echter Vorbehalt für ein 'offenes' Tool
  • Ein Modell pro Server-Instanz, kein Multi-Model
  • MoE noch nicht implementiert; Performance-Behauptungen (Startup <100ms vs. Ollama) sind unverifizierte Projektangaben

Lizenz

Apache-2.0 (OSI-open)

Apache-2.0 laut den Badges (der README-Text sagt MIT, eine echte Inkonsistenz, die du prüfen solltest, bevor du dich darauf verlässt).

Wann interessant

OpenAI-API-Drop-in auf gemischter GPU-Hardware ohne Python.

Wann zu früh

wenn du den GPU-Core selbst auditieren oder bauen willst, oder Multi-Model-Serving brauchst.

Dieses Repo war in der Ausgabe 2026-06 des Open-Source-KI-Radars.