Skip to main content
AI Tool Radar
OSI-openLokale Inference und "was läuft auf meiner Maschine"

tokenspeed

lightseekorg

Inference-Engine, die einen C++-Scheduler mit CUDA-Kerneln für Hochdurchsatz-Agentic-LLM-Serving kombiniert.

1.5k Stars(Stand 2026-06-26)Auf GitHub ansehenHomepage

Was ist tokenspeed?

Eine LLM-Inference-Engine für Agentic-Workloads, die einen C++-Control-Plane-Scheduler mit einer Python-Execution-Plane und austauschbaren CUDA-Kerneln (inklusive einer Multi-Head-Latent-Attention-Implementierung) kombiniert. Sie positioniert sich als 'TensorRT-LLM-Performance bei vLLM-Bedienbarkeit', von der gemeinnützigen LightSeek Foundation.

Vor- & Nachteile

Pros

  • Echtes Low-Level-Engineering (ein eigener C++-Scheduler plus GPU-Kernel), kein dünner Wrapper
  • MIT-lizenziert und von einer gemeinnützigen Foundation getragen
  • Ausdrücklich auf Agentic-Hochdurchsatz-Serving ausgelegt

Cons

  • Zielt auf Top-End-Blackwell/B200-GPUs, daher für die meisten unerreichbar
  • Die README hat keine In-Repo-Install/Usage und verweist auf externe Docs, eine Reife-Lücke
  • Flagschiff-Durchsatzzahlen (z.B. 580 Tokens/s) sind selbstberichtet und nicht von Dritten gebenchmarkt

Lizenz

MIT (OSI-open)

Wann interessant

Teams, die große MoE-Modelle auf Datacenter-Blackwell-Hardware servieren und eine hackbare, Kernel-nahe Alternative zu vLLM/TensorRT-LLM wollen.

Wann zu früh

wenn dir Datacenter-GPUs fehlen, du stabile Releases und Docs brauchst oder verifizierte Benchmarks forderst.

Kommerzielle Alternative & Verwandtes

  • Kommerzielles Pendant: NVIDIA NIM

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.