Open-Source-KI-Radar: 30 GitHub-Repos (Juli 2026)

Die zweite Ausgabe des Radars verfolgt dieselbe Idee konsequent weiter: aufsteigende, nischige Repositories, die gerade jetzt schnell wachsen, statt der bekannten Namen, die ohnehin überall stehen. Diesen Monat kommen 30 neue Projekte dazu, quer über drei neue Cluster, Agent-Frameworks, Kontext-Tools für Coding-Agents sowie Media/Design/Video, zusätzlich zu Voice, Memory, RAG, MCP und lokaler Inference.

Die Methode bleibt unverändert und bewusst streng. Eine messbare Vorauswahl kommt aus der GitHub Search API (junge Repos, Star-Wachstum, KI-Relevanz). Jeder Kandidat wird dann gegen README und Homepage verifiziert: was er wirklich tut, wie gepflegt er ist und welche Lizenz tatsächlich gilt. Diese Ausgabe stützte sich stark auf Fake-Star- und Abandonment-Checks: Mehrere Repos mit sehr hohen Star-Zahlen, aber leeren Stargazer-Profilen, ohne echten Code oder ohne Commits seit Monaten, wurden bewusst aussortiert. Star-Zahlen sind so, wie sie am 14. Juni 2026 auf GitHub angezeigt wurden, und sind nicht unabhängig auditiert.

Eine Sache nehmen wir weiter ernst, die die meisten Listen ignorieren: "Open Source" ist nicht eine einzige Sache. Ein Repo kann echt OSI-lizenziert sein, "open weight" mit Nutzungsbeschränkungen auf das Modell, oder lediglich source-available. Jedes Tool unten bekommt sein echtes Lizenz-Label.

Die drei Lizenz-Stufen#

Stufe	Was es bedeutet	Beispiele in dieser Ausgabe
OSI-open	Apache/MIT/BSD/AGPL, frei für jede Nutzung inkl. kommerziell	Chatterbox, MOSS-TTS, LEANN, turbovec, SeekDB, TOON, RTK, Nanobot, OpenFang, HyperFrames, claude-context, Page Agent
Open weight, mit Auflagen	Code ist offen, aber die Modell-Weights haben Nutzungsgrenzen	NeuTTS Air (Nano-Weights), Higgs Audio (v3-Weights, nicht-kommerziell)
Source-available	Code einsehbar, aber keine Lizenz zur freien Nutzung	keine in dieser Ausgabe

Alle Star- und Fork-Zahlen unten sind so, wie sie am 14. Juni 2026 auf GitHub angezeigt wurden. Performance-Werte, die einem Projekt zugeschrieben werden, sind die eigenen Angaben dieses Projekts, nicht unsere Messungen.

Lokale Inference und "was läuft auf meiner Maschine"

oMLX (jundot/oMLX) - 16.6k Stars

oMLX ist ein macOS-nativer LLM-Inference-Server, optimiert für Apple Silicon. Er liefert eine SwiftUI-Menubar-App und ein Admin-Dashboard, Continuous Batching, gestuftes KV-Caching mit SSD-Überlauf, Multi-Model-Serving mit LRU-Eviction sowie OpenAI- und Anthropic-kompatible APIs, dazu eingebautes Benchmarking und Unterstützung für Vision-Language-Modelle.

Pros

Native SwiftUI-Menubar-App und Admin-Dashboard - polierte Mac-first-Nutzererfahrung
Gestufter KV-Cache mit SSD-Überlauf verlängert den effektiven context window über den RAM hinaus (eigene Angabe des Projekts)
OpenAI- und Anthropic-API-Kompatibilität macht es zu einem Drop-in-Local-Backend

Cons

Nur Apple Silicon - kein Linux oder Windows
Großer offener Issue-Rückstand deutet auf raue Kanten hin
Unterscheidet sich von MLX-LM und llama.cpp hauptsächlich durch die GUI-Schicht

Lizenz: Apache-2.0. Wann interessant: Apple-Silicon-Nutzer, die einen GUI-gesteuerten lokalen Inference-Server ohne Docker oder Kommandozeilen-Daemons wollen. Wann zu früh: Wenn du Linux- oder Windows-Server-Deployments oder Multi-GPU-Cluster-Inference benötigst.

apfel (Arthur-Ficial/apfel) - 5.8k Stars

apfel kapselt Apples On-Device Foundation Models Framework (das ~3B-Modell, das mit macOS 26 / Tahoe ausgeliefert wird) als CLI, REPL und OpenAI-kompatibler HTTP-Server auf localhost. Kein Modell-Download, kein API-Key, keine Cloud. Unterstützt Tool Calling, MCP, JSON-Ausgabe und neun Sprachen.

Pros

Kein Modell-Download und keine Kosten - nutzt das bereits in macOS 26 integrierte Modell
OpenAI-kompatibler Server, sodass bestehende Integrationen unverändert funktionieren
MCP-Unterstützung und Tool Calling ermöglichen On-Device-agentische Workflows

Cons

Erfordert macOS 26 (Tahoe), zum Zeitpunkt des Schreibens nur in Developer-Betas verfügbar
Ein context window von 4.096 Tokens ist klein im Vergleich zu den meisten open-weight-Modellen
Die Qualität ist an Apples On-Device-~3B-Modell gebunden - nicht für komplexes Schlussfolgern geeignet

Lizenz: MIT. Wann interessant: Entwickler auf macOS 26, die einen vollständig offline, kostenlosen LLM-Endpunkt für Prototyping und datenschutzsensible Automatisierung wollen. Wann zu früh: Wenn du heute macOS-15-Unterstützung, ein größeres context window oder stärkere Modellqualität benötigst.

mlx-tune (ARahim3/mlx-tune) - 1.3k Stars

mlx-tune kapselt Apples MLX mit einer API, die absichtlich kompatibel zu Unsloth (dem populären CUDA-Fine-Tuner) ist, und lässt Mac-Nutzer SFT, DPO, GRPO, Vision-Model-Training sowie TTS/STT-Fine-Tuning lokal auf Unified Memory ausführen. Enthält 50+ Beispiele und 39+ unterstützte Modell-Architekturen inklusive MoE.

Pros

Unsloth-kompatible API reduziert den Migrationsaufwand aus CUDA-Fine-Tuning-Workflows
Apple-Silicon-Unified-Memory erlaubt lokales Fine-Tuning größerer Modelle als typisches VRAM (eigene Angabe des Projekts)
Deckt LLM, VLM, TTS, STT und Embeddings aus einer Bibliothek ab

Cons

Nur Apple Silicon - kein Weg zu CUDA-Servern, wo die meisten Produktionstrainings laufen
Frühe Community (wenige battle-tested Fehlerberichte)
Performance-Zahlen sind selbst berichtet

Lizenz: Apache-2.0. Wann interessant: Praktiker, die fine-tuned Modelle auf einem Mac prototypen und im Apple-Ökosystem für kleine Runs bleiben wollen. Wann zu früh: Wenn du Training im großen Maßstab benötigst oder Ergebnisse auf CUDA-Hardware reproduzieren musst.

Offene Voice und Text-to-Speech

Chatterbox (resemble-ai/Chatterbox) - 25.1k Stars

Chatterbox ist eine Familie offener TTS-Modelle von Resemble AI. Das neueste Multilingual V3 (500M Parameter) deckt 23+ Sprachen mit sprachübergreifendem Voice Cloning ab; Chatterbox-Turbo (350M) zielt auf Voice Agents mit niedriger Latenz. Beide unterstützen Zero-Shot Cloning aus einem Referenzclip, mit MIT auf Code und Weights.

Pros

MIT auf Code und Weights - die permissivste Lizenz unter den aufstrebenden TTS-Modellen
Aktiv gepflegt von einem gut ausgestatteten Voice-Unternehmen mit schneller Iteration
Multilingual V3 deckt 23+ Sprachen mit sprachübergreifendem Voice Cloning ab

Cons

Hohe Star-Zahl für ein etwa einjähriges Repo verdient etwas Vorsicht
Die Richtung kann sich mit den kommerziellen Prioritäten des unterstützenden Unternehmens verschieben
Qualitätsvergleiche sind selbst berichtet; unabhängige V3-Benchmarks sind begrenzt

Lizenz: MIT. Wann interessant: Du benötigst MIT-lizenziertes, produktionsreifes mehrsprachiges TTS mit Voice Cloning, das du kommerziell self-hosten kannst. Wann zu früh: Du benötigst vollständig community-verifizierte V3-Benchmarks oder machst dir Sorgen um das langfristige Open-Source-Engagement eines VC-finanzierten Unternehmens.

NeuTTS Air (neuphonic/NeuTTS Air) - 6.0k Stars

NeuTTS ist eine Sammlung von On-Device-TTS-Modellen von Neuphonic auf kleinen LLM-Backbones mit einem 50-Hz-Neural-Codec. NeuTTS-Air (~360M aktive Parameter, Apache-2.0) beherrscht Englisch mit sofortigem Cloning aus 3 Sekunden Audio; GGUF-Quantisierungen laufen auf Telefonen, Laptops und Einplatinencomputern. Nano fügt Spanisch/Deutsch/Französisch unter einer restriktiveren Lizenz hinzu.

Pros

GGUF-first-Design läuft out of the box auf Raspberry Pi und Android
NeuTTS-Air-Weights sind Apache-2.0 - genuinely offen für kommerzielle Nutzung
Sofortiges Voice Cloning aus 3 Sekunden in On-Device-Größenordnung ist in dieser Gewichtsklasse selten

Cons

Multilingual-Nano-Weights erfordern eine kostenpflichtige kommerzielle Nutzung oberhalb einer Umsatzschwelle
Das Apache-lizenzierte Air-Modell ist nur Englisch; mehrsprachig benötigt das eingeschränkte Nano
Kleines Startup; Nachahmungs-Sites sind aufgetaucht - Quelle verifizieren

Lizenz: NeuTTS-Air-Weights sind Apache-2.0; die mehrsprachigen NeuTTS-Nano-Weights nutzen die NeuTTS Open License v1.0 (kostenlos für Forschung/begrenzte kommerzielle Nutzung, kostenpflichtig oberhalb einer Umsatzschwelle). Nur via neuphonic.com und diesem GitHub verifizieren - Nachahmungs-Sites existieren. Wann interessant: Du benötigst genuinely edge-deploybares TTS mit Cloning für eingebettete, mobile oder compliance-sensitive Anwendungen, bei denen das Senden von Audio an eine API nicht akzeptabel ist. Wann zu früh: Du benötigst mehrsprachige Unterstützung unter einer vollständig offenen Lizenz oder unabhängig verifizierte Qualitäts-Benchmarks.

Higgs Audio (boson-ai/Higgs Audio) - 8.2k Stars

Higgs Audio ist eine Familie von Text-Audio-Foundation-Modellen von Boson AI. v3 ist ein konversationelles TTS-Modell mit 4B Parametern, das 100+ Sprachen mit Zero-Shot Voice Cloning, inline Emotions-/Stil-/Prosodiekontrolle und einer OpenAI-kompatiblen Streaming-API abdeckt. Self-Hosting erfolgt via SGLang-Omni.

Pros

100+ Sprachen mit Zero-Shot Cloning und inline Prosodiekontrolle in einem 4B-Modell
Vortrainiert auf 10M+ Stunden Audio (eigene Angabe des Projekts) - ein großes open-weight-Korpus
OpenAI-kompatible Streaming-API erleichtert Drop-in-Integration

Cons

Weights sind nicht-kommerziell - kommerzielles Self-Hosting erfordert eine kostenpflichtige Vereinbarung
4B Parameter plus SGLang-Omni bedeuten nennenswerten Infrastruktur-Overhead
Research-lizenzierte Weights begrenzen den produktiven Open-Source-Einsatz

Lizenz: Code ist Apache-2.0, aber die v3-Modell-Weights stehen unter einer Research and Non-Commercial License - produktive oder umsatzgenerierende Deployments erfordern eine separate kommerzielle Vereinbarung mit Boson AI. Wann interessant: Forschung oder nicht-kommerzielle Produkte, die die breiteste mehrsprachige Abdeckung und reichste Prosodiekontrolle in open weights benötigen. Wann zu früh: Du benötigst eine vollständig offene kommerzielle Self-Hosting-Lizenz.

MOSS-TTS (OpenMOSS/MOSS-TTS) - 3.3k Stars

MOSS-TTS ist eine Familie von fünf offenen Modellen von OpenMOSS/MOSI.AI: ein Flaggschiff-8B mit Zero-Shot Cloning, ein Multi-Speaker-Dialogmodell, ein Stimmendesign-aus-Text-Modell, ein Niedriglatenz-Echtzeitmodell und ein Soundeffekt-Modell. Eine ~100M-Nano-Variante zielt auf CPU-only-Deployment. Code und Weights sind Apache-2.0.

Pros

Deckt den gesamten Voice-AI-Stack von Soundeffekten bis zu Echtzeit-Agents in einem Apache-2.0-Repo ab
Nano (~100M) behauptet Echtzeit-Generierung auf 4 CPU-Kernen - zugänglich für Edge-Einsatz
31-Sprachen-Unterstützung mit aktiver Entwicklung

Cons

Das Flaggschiff-8B-Modell hat hohe Infrastrukturanforderungen
Qualitäts- und Latenzwerte sind selbst berichtet
Herkunft aus chinesischem Labor kann in regulierten Kontexten Supply-Chain-Prüfung auslösen

Lizenz: Apache-2.0. Wann interessant: Du willst ein Apache-lizenziertes, self-hostbares Voice-Toolkit, das TTS, Dialog, Voice Design und Echtzeit abdeckt, einschließlich eines CPU-deployablen Nano-Modells. Wann zu früh: Du benötigst bewährte Produktionszuverlässigkeit mit Benchmark-Vergleichen von Drittanbietern.

Parlor (fikrikarim/Parlor) - 1.8k Stars

Parlor ist ein lokaler Assistent, der ein multimodales Gemma-Modell mit Kokoro TTS für Echtzeit-Sprach-und-Kamera-Konversationen ohne Cloud-Abhängigkeit verbindet. Er läuft auf Apple Silicon (MLX) oder Linux-GPU, nutzt Silero VAD für freihändige Bedienung, unterstützt Barge-in und streamt TTS auf Satzebene.

Pros

Wirklich On-Device - Sprache, Vision und LLM alle lokal, starke Datenschutz-Story
Barge-in und satzweises Streaming geben ein natürliches Konversationsgefühl
Apache-2.0 durchgängig, aktiv gepflegt

Cons

Nur Englisch und nur Apple Silicon / Linux-GPU - kein Windows oder CPU-Pfad
Dünne Schicht über Gemma + Kokoro - Sprachqualität durch Kokoro begrenzt
Alpha-Stadium als Soloprojekt ohne versionierte Releases

Lizenz: Apache-2.0. Wann interessant: Du willst einen datenschutzorientierten, vollständig lokalen Voice-Assistenten mit Kamera-Bewusstsein und ohne API-Keys, besonders auf Apple Silicon. Wann zu früh: Du benötigst mehrsprachige Unterstützung, ein stabiles SDK oder Produktionszuverlässigkeit.

Agent-Memory und Code-Wissen

MemOS (MemTensor/MemOS) - 9.9k Stars

MemOS ist ein einheitliches Memory-Betriebssystem für KI-Agents mit L1-L3-Memory-Schichten, hybridem Retrieval und task-übergreifender Skill-Wiederverwendung. Es unterstützt Text, Bilder, Tool-Traces und Personas, und ist als self-hosted oder als verwalteter Cloud-Dienst verfügbar. Es behauptet 35% Token-Einsparungen durch Multi-Cube-Wissensmanagement (eigene Angabe des Projekts) und ist durch ein arXiv-Paper unterstützt.

Pros

Multimodales Memory (Text, Bilder, Tool-Traces, Personas) mit gestufter L1-L3-Architektur
Aktives Cloud-Produkt mit echten Preisstufen und Docker-Self-Hosting
30+ Releases, Paper-Unterstützung und eine erhebliche Fork-Basis

Cons

TypeScript-lastiger Codebase kann für Python-first-Teams ungewohnt wirken
Limits von self-hosted gegenüber der Cloud-Tier sind nicht klar dokumentiert
Junge Organisation - langfristige Wartungsentwicklung unklar

Lizenz: Apache-2.0. Wann interessant: Teams, die Multi-Session-Agents bauen, die strukturiertes, abfragbares Langzeit-Memory ohne eigenen Vektor- und Graph-Stack benötigen. Wann zu früh: Einfache Single-Session-Chatbots, bei denen das context window bereits ausreicht.

memU (NevaMind-AI/memU) - 13.9k Stars

memU ist ein Python-first-Memory-Framework, das Konversationen, Dokumente, Bilder, Videos, Audio und lokale Dateien in einen typisierten Memory-Graph (Resources, MemoryItems, Categories, Relations) umwandelt. Es unterstützt SQLite- und PostgreSQL-Backends, konfigurierbares LLM-Routing für Chat/Embedding/Vision/Transkription und bietet eine managed API neben Self-Hosting.

Pros

Typisierte Memory-Kategorien (Profile, Event, Knowledge, Behavior, Skill, Tool) für strukturiertes Retrieval
Steckbarer Speicher (In-Memory, SQLite, PostgreSQL) mit pgvector-Beispielen
Aktive Multi-Contributor-Entwicklung

Cons

GitHub zeigt NOASSERTION (Apache-2.0 nur via README-Badge bestätigt)
Neuere Commits sind größtenteils Dokumentation und Bug-Fixes
Kleineres Ökosystem als Mem0 oder MemOS

Lizenz: Apache-2.0. Wann interessant: Python-Agent-Projekte, die stark typisiertes, durchsuchbares Memory mit flexiblem Speicher und minimaler Infrastruktur benötigen. Wann zu früh: Projekte, die ausgereifte SDK-Unterstützung jenseits von Python oder Echtzeit-multimodales Memory im großen Maßstab benötigen.

Vektoren, Dokumente und Extraktion

LEANN (StarTrail-org/LEANN) - 11.9k Stars

LEANN ist eine Python-Vektordatenbank, die Embeddings selektiv aus einem Graph neu berechnet statt alle zu speichern, und behauptet 97% Storage-Einsparungen gegenüber FAISS bei wettbewerbsfähigem Recall (eigene Angabe des Projekts). Sie indiziert PDFs, E-Mails, Browser-Verlauf, Chat-Logs und Code (AST-aware), integriert sich via MCP und ist durch ein peer-reviewed MLsys2026-Paper unterstützt.

Pros

Peer-reviewed MLsys2026-Paper validiert den Storage-Ansatz unabhängig
Multi-Contributor-Team mit substanziellen Commits (CUDA, GPU, Apple Silicon)
MCP-nativ mit Claude Code und AST-aware Code-Chunking

Cons

Neuere Commits sind nur Fixes und CI, keine neuen Features
v0.x signalisiert API-Instabilität; Storage-Einsparungen kosten Neuberechnungslatenz
Erfordert Embedding-Modell-Setup - nicht plug-and-play für Nicht-ML-Entwickler

Lizenz: MIT. Wann interessant: Privates On-Device-RAG über persönliche Daten (E-Mails, Chat-Logs, Code) ohne die Storage-Kosten traditioneller Vektor-DBs. Wann zu früh: Latenzsensibler Produktions-Retrieval im großen Maßstab, bei dem Neuberechnungs-Overhead inakzeptabel ist.

turbovec (RyanCodrai/turbovec) - 11.5k Stars

turbovec implementiert Googles TurboQuant-Algorithmus (ICLR 2026) in Rust mit Python-Bindings und handgeschriebenen SIMD-Kerneln (NEON, AVX-512). Es behauptet, ein 10M-Dokument-Korpus von 31 GB auf 4 GB zu komprimieren, mit schnellerer Suche als FAISS in 4-Bit-Konfigurationen (eigene Angabe des Projekts), unterstützt Online-Ingest ohne Trainingsphase und integriert sich mit LangChain, LlamaIndex, Haystack und Agno.

Pros

Basiert auf einem peer-reviewed ICLR-2026-Paper
SIMD-optimierter Rust-Core mit ergonomischen Python-Bindings
Keine Trainingsphase - Online-Ingest eignet sich für dynamische Collections

Cons

Einzelentwickler - kein sichtbares Team oder organisatorisches Backing
Beta-Reifegrad und junges Repo - Produktionszuverlässigkeit im großen Maßstab unbewiesen
Kompression-vs.-Recall-Tradeoffs nicht unabhängig benchmarkt

Lizenz: MIT. Wann interessant: Schnelle semantische Suche über große Korpora (10M+) mit Storage-Budgets, die für volle float32-Embeddings zu eng sind. Wann zu früh: Anwendungsfälle, die maximalen Recall bei beliebigen Storage-Kosten erfordern, oder eine kommerziell unterstützte Vektor-DB mit SLA.

SeekDB (oceanbase/SeekDB) - 2.7k Stars

SeekDB ist eine MySQL-kompatible eingebettete/Server-Datenbank für KI-Agent-Workloads, die ACID-relationale Speicherung mit hybrider Vektor- und Volltext- und Skalarsuche in einer SQL-Abfrage verbindet. Seine Copy-on-Write-FORK/MERGE-Sandboxes lassen Agents hypothetische Zustände erkunden, ohne das Hauptmemory zu belasten. Es wird von OceanBase unterstützt und behauptet 10,7-fachen Durchsatz gegenüber Milvus unter gleichzeitiger Last (eigene Angabe des Projekts).

Pros

FORK/MERGE-Copy-on-Write-Sandboxes sind ein genuinely neuartiges Primitiv für sicheres Agent-Erkunden
MySQL-kompatibler Protokoll funktioniert mit bestehenden ORMs, Clients und GUIs
Von OceanBase unterstützt mit einem eingebetteten pip-Install

Cons

Hohe offene Issue-Zahl relativ zu Stars deutet auf frühe raue Kanten hin
Performance-Benchmarks sind projekteigen ohne unabhängige Reproduktion
C++-Core macht Beiträge und Debugging für Python/JS-Entwickler schwieriger

Lizenz: Apache-2.0. Wann interessant: Multi-Agent-Systeme, die dauerhaftes, abfragbares Memory mit verzweigtem Zustand benötigen - Planungs-Agents, die spekulativ Strategien ausprobieren und zurückrollen. Wann zu früh: Produktions-RAG, das bewährte Stabilität erfordert; API und Storage-Format können sich noch verschieben.

PDF Oxide (yfedoseev/PDF Oxide) - 825 Stars

PDF Oxide ist eine Rust-native PDF-Bibliothek für Text-/Bildextraktion, Markdown-/HTML-Konvertierung, Erstellung, Bearbeitung, Zusammenführen, Aufteilen, Wasserzeichen und Formulare. Bindings decken Python, Go, JS/TS, .NET, Java/Kotlin und WebAssembly ab, plus CLI und MCP-Server. Es behauptet 0,8 ms mittlere Verarbeitungszeit pro Dokument, 5-29x schneller als gängige Python-Bibliotheken (eigene Angabe des Projekts), validiert an 3.830 Test-PDFs.

Pros

Breite Sprachabdeckung (7 Bindings + CLI + MCP) aus einem Rust-Core
70 Releases und 100% Erfolgsrate auf 3.830 diversen PDFs deutet auf echte Zuverlässigkeit hin
MCP-Server ist ein direkter Einstieg für RAG-Dokumenten-Pipelines

Cons

Niedrige Star-Zahl relativ zur Reichweite - Community-Unterstützung und Langlebigkeit weniger belegt
Geschwindigkeitswerte sind selbst berichtet ohne verlinkten unabhängigen Benchmark
Markdown-Qualität bei komplexen Tabellen/mehrspaltigem Layout nicht demonstriert

Lizenz: MIT OR Apache-2.0. Wann interessant: Aufbau von Dokumenten-Ingestierungs-Pipelines für RAG, bei denen PDF-Extraktionsgeschwindigkeit und mehrsprachige Unterstützung wichtig sind. Wann zu früh: Wenn du battle-tested Handling von beschädigten oder gescannten PDFs benötigst - PyMuPDF hat eine größere Edge-Case-Community.

Computer-Use und autonome Agents

Browser Harness (browser-use/Browser Harness) - 14.8k Stars

Browser Harness ist ein dünner Chrome-DevTools-Protocol-Wrapper, der LLMs die Steuerung eines echten Browsers erlaubt. Agents schreiben fehlende Hilfsfunktionen on the fly und bauen über Runs hinweg eine wachsende Bibliothek site-spezifischer Skills. Er integriert sich mit Browser Use Cloud für Stealth und headloses Deployment.

Pros

Self-Healing-Design verbessert sich automatisch über Runs hinweg ohne manuelle Updates
Minimale Abstraktion (~1k Zeilen über 4 Dateien) - leicht zu auditieren und zu erweitern
Aktive Community mit vielen offenen PRs und echtem Einsatz

Cons

Nur Python - kein offizielles TypeScript/Node-SDK
Stealth-Features hängen von Browser Use Cloud ab - partieller Vendor-Lock-in
CDP-Level-Zugriff erfordert sorgfältige Sicherheitsisolation in Produktion

Lizenz: MIT. Wann interessant: Aufbau von LLM-Agents, die persistente Browser-Sessions mit angesammelten site-spezifischen Skills und minimaler Abstraktion über CDP benötigen. Wann zu früh: Du benötigst eine stabile Produktions-API - der Harness entwickelt sich noch schnell.

Page Agent (alibaba/Page Agent) - 18.5k Stars

Page Agent ist eine clientseitige TypeScript-Bibliothek, die in jede Webseite eingebettet wird und LLMs die Steuerung der UI via textbasierter DOM-Manipulation ermöglicht - kein Python, kein headless-Browser, keine Extension erforderlich. Eine optionale Chrome-Extension ermöglicht Multi-Tab-Workflows und ein Beta-MCP-Server ermöglicht Agent-Integration.

Pros

Null serverseitige Infrastruktur - läuft vollständig in-page, deploybar als script-Tag
32 versionierte Releases mit aktivem CI/CD zeigen produktionsgradig Disziplin
Bring-your-own-LLM-Design vermeidet API-Lock-in

Cons

Textbasierter DOM-Ansatz kann bei canvas-lastigen oder sehr dynamischen SPAs Schwierigkeiten haben
MCP-Server ist noch Beta
Alibaba-Herkunft kann in manchen westlichen Organisationen Supply-Chain-Bedenken auslösen

Lizenz: MIT. Wann interessant: Einbettung eines Natural-Language-Copilots direkt in ein Web-Produkt ohne Backend-Infrastruktur. Wann zu früh: Du benötigst zuverlässige Multi-Page-Orchestrierung - Multi-Tab-Flows erfordern die Beta-Extension.

Playwriter (remorses/Playwriter) - 3.6k Stars

Playwriter ist eine Chrome-Extension plus CLI/MCP-Server, der Agents mit deinem bereits laufenden Browser verbindet und dabei Logins, Cookies und Extensions intakt hält. Agents erhalten vollen Playwright-API-Zugriff über ein WebSocket-Relay, nutzbar aus Skripten und Agent-Frameworks.

Pros

Wiederverwendet authentifizierte Browser-Sessions - keine erneuten Logins oder Cookie-Injection-Hacks
Sehr aktive Pflege mit häufigen Releases
Duale CLI- und MCP-Schnittstelle funktioniert aus Skripten und Agent-Frameworks

Cons

Niedrige Fork-Zahl deutet auf begrenzte Drittanbieter-/Enterprise-Adoption bisher hin
Erfordert eine Chrome-Extension-Installation - Reibung in gesperrten Umgebungen
Desktop-Session-zentriert, keine serverseitige Skalierungs-Automation

Lizenz: MIT. Wann interessant: Einen Agent in deinem persönlichen oder Arbeits-Browser mit all deinen bestehenden Logins und Kontext betreiben lassen. Wann zu früh: Du benötigst Zero-Install-serverseitige Browser-Automation im großen Maßstab.

OpenSandbox (opensandbox-group/OpenSandbox) - 11.5k Stars

OpenSandbox ist ein Allzweck-Sandbox-Runtime für KI-Agents mit SDKs für Python, Java/Kotlin, JS/TS, C#/.NET und Go. Er läuft auf Docker und Kubernetes mit eingebauten Code-Interpretern, Browser-Automation, Shell-Ausführung und Lifecycle-Management und ist im CNCF Landscape gelistet.

Pros

Multi-Language-SDK-Abdeckung und CNCF-Listung signalisieren produktionsgradig Ambitionen
Sehr aktiv - häufige Releases einschließlich jüngerer
Kubernetes-nativ mit OpenSSF-Best-Practices-Badge

Cons

Breiter Scope bedeutet mehr bewegliche Teile und höheren Betriebsaufwand
Nur SDK-Zugriff - keine UI oder visuelle Tooling dokumentiert
Weniger entdeckt als kommerzielle Alternativen mit größeren Ökosystemen

Lizenz: Apache-2.0. Wann interessant: Plattform-Teams, die mehrsprachige Agent-Infrastruktur aufbauen und einen self-hostbaren, Kubernetes-nativen Sandbox mit SDK-Level-Kontrolle benötigen. Wann zu früh: Einzelentwickler, die eine schnelle lokale Sandbox ohne Kubernetes-Setup wollen.

MCP-Server für Coding-Agents

claude-context (zilliztech/claude-context) - 11.8k Stars

claude-context ist ein von Zilliz gepflegter MCP-Server, der eine Codebase indiziert und KI-Coding-Agents via hybridem BM25- und Dense-Vector-Suche zugänglich macht. Er verwendet Merkle-Tree-inkrementelles Indexing, damit nur geänderte Dateien neu eingebettet werden, AST-basiertes Chunking und unterstützt VoyageAI-, OpenAI-, Gemini- und Ollama-Embeddings. Er behauptet ~40% Token-Reduktion (eigene Angabe des Projekts).

Pros

Von Zilliz (Milvus-Entwicklern) unterstützt - eine glaubwürdige Vektor-Infrastruktur-Organisation
Merkle-Tree-inkrementelles Indexing hält Re-Indexing schnell, wenn sich Code weiterentwickelt
Als npm-Pakete, VS-Code-Extension und MCP-Server verfügbar

Cons

Erfordert einen Embedding-Provider-API-Key - fügt Kosten und externe Abhängigkeit hinzu
Token-Reduktions-Claim stammt aus der projekteigenen Bewertung
Überschneidet sich mit anderen Code-Suche-MCP-Servern in diesem Bereich

Lizenz: MIT. Wann interessant: Große Monorepos, bei denen du einen Agent die gesamte Codebase semantisch durchsuchen lassen willst, statt per grep. Wann zu früh: Kleine Projekte, die in den context passen, oder Teams, die externe Embedding-API-Kosten vermeiden wollen.

Codebase Memory MCP (DeusData/Codebase Memory MCP) - 3.5k Stars

Codebase Memory MCP baut einen persistenten strukturellen Knowledge Graph einer Codebase mit tree-sitter-AST-Parsing und leichtgewichtiger Typauflösung für 9 Sprachen. Er läuft als MCP-Server mit 14 Tools, sodass Agents Call-Graphs, Symbole, toten Code und service-übergreifende Links abfragen können, statt Dateien zu durchsuchen. Er wird als einzelne statische Binary mit SLSA-Level-3-Provenance geliefert und behauptet sub-millisekunden-Graph-Abfragen (eigene Angabe des Projekts).

Pros

Einzelne statische Binary ohne Runtime-Abhängigkeiten - keine Vektor-DB vorher einzurichten
SLSA-Level-3-Provenance und 5.600+ bestandene Tests signalisieren rigorose Entwicklung
158-Sprachen-Indexing mit tiefer Auflösung für 9 Sprachen

Cons

Token-Reduktions-Behauptungen sind projekteigen ohne Drittanbieter-Reproduktion
Mehrwert ist abhängig von MCP-fähiger Assistenten-Unterstützung - weniger nützlich als Standalone
Strukturiertes Graph-Tool, keine semantische Embedding-Suche

Lizenz: MIT. Wann interessant: Nutzung eines MCP-fähigen Assistenten auf einer großen oder unbekannten Codebase, bei der Dateisuche das context-Budget verschwendet. Wann zu früh: Wenn du allgemeines semantisches RAG über Code statt eines strukturellen Graphs willst.

mcp2cli (knowsuchagency/mcp2cli) - 2.2k Stars

mcp2cli exponiert MCP-Server, OpenAPI-Specs und GraphQL-Endpunkte dynamisch als Kommandozeilen-Interfaces ohne Codegenerierung. Es unterstützt MCP-HTTP/SSE mit OAuth, stdio-Modus für lokale Server, usage-aware Tool-Ranking, gespeicherte Verbindungen und eine TOON-Codierung, die behauptet, den Tool-Schema-Token-Overhead um 96-99% zu reduzieren (eigene Angabe des Projekts).

Pros

Zero-Codegen - jeder MCP- oder OpenAPI-Dienst wird sofort zu einem CLI
Token-effiziente TOON-Codierung hilft Agents, die viele Tools wiederholt aufrufen
OAuth-Self-Healing und gespeicherte Verbindungen machen es produktionstauglich

Cons

Dünne Commit-Historie relativ zur Star-Zahl - schnellen Star-Anstieg beobachten
Token-Einsparungen hängen stark von der Schema-Ausführlichkeit des jeweiligen Servers ab
Ein CLI-Shim, kein persistenter Agent-Runtime - kein bidirektionales Streaming

Lizenz: MIT. Wann interessant: Scripting oder Automatisierung von MCP-Tool-Aufrufen in CI, Shell-Skripten oder Agent-Loops, bei denen ein vollständiger MCP-Client überdimensioniert ist. Wann zu früh: Wenn du zustandsbehaftete Sessions oder bidirektionales Streaming benötigst.

Agent-Frameworks und Runtimes

Nanobot (HKUDS/Nanobot) - 44.2k Stars

Nanobot ist ein self-hostbarer persönlicher KI-Agent-Runtime mit einem kompakten, lesbaren Core. Er integriert sich mit WebUI, Telegram, Discord, Slack, Teams und E-Mail, unterstützt mehrere LLM-Provider und liefert persistentes Memory, Scheduling und Workflow-Automation out of the box.

Pros

Genuinely leichtgewichtig mit lesbarer, auditierbarer Codebase - kein Framework-Bloat
Multi-Channel-Chat-Integration (Telegram, Discord, Slack, Teams, E-Mail, WebUI) in einer Binary
Starke Self-Hosting-Story mit voller Dateneigentümerschaft

Cons

Pre-1.0 - API-Stabilität noch nicht garantiert
Dokumentations-Erreichbarkeit war während der Prüfungen inkonsistent
Überschneidet sich mit anderen Agent-OS-Projekten - Differenzierung muss bewertet werden

Lizenz: MIT. Wann interessant: Teams, die einen minimalen, auditierbaren Agent-Runtime wollen, den sie ohne Erlernen eines schweren Frameworks erweitern können. Wann zu früh: Produktive Enterprise-Deployments, die garantierte API-Stabilität erfordern.

OpenFang (RightNow-AI/OpenFang) - 17.8k Stars

OpenFang ist ein Rust-basiertes autonomes Agent-OS, das in eine ~32 MB große einzelne Binary kompiliert. Es enthält sieben vorgefertigte autonome Fähigkeits-Pakete, 40 Messaging-Kanal-Adapter, 27 LLM-Provider und 16 Sicherheitssysteme einschließlich einer WASM-Sandbox. Es behauptet 180 ms Kaltstart und 40 MB Idle-Memory (eigene Angabe des Projekts).

Pros

Rust-native einzelne Binary mit einer großen Test-Suite signalisiert echte Engineering-Substanz
Schedule-driven autonome Architektur, nicht nur ein Chatbot
Permissive duale MIT/Apache-2.0-Lizenzierung

Cons

Pre-1.0 - breaking changes möglich vor dem stabilen Ziel
Aktivität schien sich nahe einem Release-Freeze zu verlangsamen
Performance-Benchmarks sind projekteigen

Lizenz: MIT AND Apache-2.0. Wann interessant: Teams, die ein schedule-driven autonomes Agent-Backend mit breiter Kanalabdeckung und einer WASM-Sicherheits-Sandbox wollen. Wann zu früh: Jeder produktive Workload, der stabile APIs erfordert.

DeepTutor (HKUDS/DeepTutor) - 24.8k Stars

DeepTutor ist eine agent-native Lernplattform, die Tutoring, Quiz-Generierung, Recherche-Assistenz, interaktive Bucherstellung und Wissensbasis-Management vereint. Sie bietet persistente KI-Begleiter, einen Co-Autor, versionierte RAG-Wissensbasen und ein Drei-Schichten-Memory-System und wird durch ein arXiv-Paper unterstützt.

Pros

Eine genuinely eigene Nische - agent-natives Lernen statt eines generischen Chat-/Coding-Agents
Drei-Schichten-Memory ermöglicht echte Personalisierung über Sessions hinweg
MCP-Erweiterbarkeit und eine Community-Skills-Registry deuten auf ein wachsendes Ökosystem hin

Cons

Agent-natives Tutoring ist eine frühe Kategorie - Retention und pädagogische Wirksamkeit unbewiesen
Live-Demo-Erreichbarkeit war während der Prüfungen inkonsistent
Hohe Star-Zahl erfordert weiterhin Authentizitätsbeobachtung

Lizenz: Apache-2.0. Wann interessant: Entwickler oder Pädagogen, die self-hostbare KI-gestützte Lerntools bauen. Wann zu früh: Jeder, der bewiesene Lernergebnisse oder LMS-Integration benötigt.

Coding-Agents und Kontext-Effizienz

TOON (toon-format/TOON) - 24.6k Stars

TOON ist ein Serialisierungsformat und Multi-Language-SDK (TS, Python, Go, Rust, .NET, Java, Swift) zum token-effizienten Senden gleichförmiger Arrays an LLMs. Es enthält eine formale Spec, CLI, VS-Code-Extension, Tree-sitter-Grammatik und Online-Playground, und behauptet 76% Genauigkeit bei ~40% weniger Tokens gegenüber JSON über 5.016 Bewertungen (eigene Angabe des Projekts).

Pros

Format-level Token-Einsparungen sind modell-agnostisch - funktioniert mit jedem LLM, kein SDK oder Proxy erforderlich
Sieben-Sprachen-SDK und eine VS-Code-Extension senken die Adoptionshürde
Formale Spec und Tree-sitter-Grammatik signalisieren einen dauerhaften, toolbaren Standard

Cons

Nur effizient für gleichförmige Arrays von Objekten - verschachteltes/unregelmäßiges JSON sieht keinen Nutzen
Sehr hohe Star-Zahl für eine Datenformat-Bibliothek verdient Beobachtung
Adoption erfordert Buy-in von Produzent und Konsument der Daten

Lizenz: MIT. Wann interessant: Große tabellarische Datensätze (Suchergebnisse, DB-Zeilen, Kataloge) in Prompts einspeisen, bei denen JSON-Ausführlichkeit messbare Kosten verursacht. Wann zu früh: Wenn deine Payloads hauptsächlich aus Freitext, verschachtelter Konfiguration oder unregelmäßigen Strukturen bestehen.

RTK (rtk-ai/RTK) - 62.2k Stars

RTK ist ein Rust-CLI-Proxy zwischen deinem Terminal und 14 KI-Coding-Tools (Claude Code, Copilot, Gemini, Cursor und mehr). Er fängt Ausgaben von 100+ Dev-Befehlen (git, cargo, pytest, docker) ab und entfernt Stack-Traces, redundante Diffs und verbose Logs, bevor sie den context window erreichen, und behauptet 60-90% Token-Reduktion (eigene Angabe des Projekts).

Pros

Unterstützt 14 KI-Coding-Tools out of the box aus einer Installation
Rust-Implementierung hält den Kompressionsschritt bei nahezu null Latenz
Funktioniert auf Windows und WSL sowie macOS und Linux

Cons

Sehr hohe Star-Zahl für ein Dev-Utility - Star-Velocity lohnt Beobachtung
Hohe offene Issue-Zahl deutet darauf hin, dass die Heuristiken manchmal benötigten Kontext entfernen
Ausgabenkompression ist inhärent verlustbehaftet - das Tool entscheidet, was Rauschen ist

Lizenz: Apache-2.0. Wann interessant: Lange agentische Claude-Code- oder Copilot-Sessions, bei denen git-diff-, cargo-build- und pytest-Ausgaben das context-Budget dominieren. Wann zu früh: Wenn deine Sessions kurz sind und context-Druck kein Problem darstellt.

planning-with-files (OthmanAdi/planning-with-files) - 23.3k Stars

planning-with-files installiert einen SKILL.md-basierten Planungs-Harness, der drei persistente Markdown-Dateien (task_plan, findings, progress) auf der Festplatte hält, damit ein Agent nach einem Absturz oder context-Verlust den vollständigen Task-Zustand durch erneutes Lesen wiederherstellen kann. Es unterstützt autonome und gesteuerte Abschlussmodi und 60+ Agents via SKILL.md.

Pros

Null Infrastruktur - reine Markdown-Dateien, funktioniert mit jedem SKILL.md-Agent
Absturz-Recovery und context-Verlust-Resilienz sind zentrale Design-Prinzipien
Aktive Entwicklung mit häufigen Releases und breiter Plattformunterstützung

Cons

Soloprojekt mit hoher Star-Zahl aus einem jungen Repo - Star-Authentizität beobachten
Benchmark-Behauptungen sind selbst berichtet ohne verlinkten Test-Harness
Dateibasierter Zustand ist fragil für gleichzeitigen Multi-Agent-Einsatz ohne Locking

Lizenz: MIT. Wann interessant: Lang laufende, mehrstufige Coding-Aufgaben in Claude Code, Cursor oder Codex, die häufig Context-Limits treffen oder Session-Recovery benötigen. Wann zu früh: Kurze Single-Session-Aufgaben oder Teams, die bereits ein agent-integriertes Task-System nutzen.

Medien, Design und Video

HyperFrames (heygen-com/HyperFrames) - 27.6k Stars

HyperFrames, von HeyGen, konvertiert HTML/CSS/JS-Animationen in deterministisches MP4-Video via headless-Chrome und FFmpeg, mit Unterstützung für GSAP, Lottie, Three.js, CSS-Animationen und WAAPI. Agents schreiben HTML und der Renderer produziert Video. Das Projekt berichtet Produktionseinsatz bei HeyGen, tldraw und TanStack (eigene Angabe des Projekts).

Pros

Sehr hohe Wartungsgeschwindigkeit mit häufigen Releases
HTML-natives Authoring bedeutet, jedes LLM kann Video-Kompositionen ohne proprietäre DSL schreiben
Apache-2.0 von einem finanzierten Unternehmen reduziert das Aufgabe-Risiko

Cons

Headless-Chrome- plus FFmpeg-Stack bedeutet nennenswerten Infrastruktur-Overhead für Self-Hoster
Roadmap wird durch die kommerziellen Bedürfnisse des unterstützenden Unternehmens gesteuert
v0.x-Versionierung signalisiert eine noch als instabil betrachtete API

Lizenz: Apache-2.0. Wann interessant: Datengetriebene, vorlagenbasierte Videos aus agent-geschriebenem HTML im großen Maßstab generieren. Wann zu früh: Du benötigst WYSIWYG-Bearbeitung oder Nicht-Entwickler-Authoring - dies ist eine Code-/Agent-Schnittstelle.

OpenPencil (open-pencil/OpenPencil) - 5.6k Stars

OpenPencil ist ein Desktop- (Tauri) und Web-PWA-Design-Editor, der auf Skia/CanvasKit aufbaut, native .fig-Dateien öffnet, 100+ KI-Design-Tools via Chat bietet, JSX/Tailwind-Code exportiert und einen MCP-Server für Agent-Kontrolle exponiert, mit P2P-Kollaboration via CRDTs. Die Maintainer beschreiben es als noch nicht produktionsreif.

Pros

Kann echte Figma-.fig-Dateien öffnen - senkt den Migrations-Aufwand
MCP-Server und headless-CLI ermöglichen agent-gesteuerte Design-Workflows
Umfangreiche Test-Suite, ungewöhnlich für ein frühphasiges Design-Tool

Cons

Explizit nicht produktionsreif laut Maintainern
Skia/WASM-Rendering bedeutet ein großes Bundle und komplexes Debugging
Kleines Org-Backing erhöht das Aufgabe-Risiko

Lizenz: MIT. Wann interessant: Experimentieren mit KI-gestütztem Design und einem self-hostbaren, Figma-kompatiblen Editor mit Agent-Hooks. Wann zu früh: Jede produktive Design-Arbeit - die Maintainer warnen dagegen.

OpenMontage (calesthio/OpenMontage) - 4.7k Stars

OpenMontage ist ein agentisches Python-Videoproduktions-Orchestrator, der einen Klartext-Brief übernimmt und Recherche, Skripterstellung, Asset-Generierung und Komposition handhabt. Er unterstützt 12 Produktionspipelines mit 10+ Video-KI-Anbietern und rendert via Remotion oder HyperFrames, mit Budget-Kontrollen und Per-Action-Genehmigungs-Schwellenwerten.

Pros

End-to-End-Brief-zu-MP4-Pipeline mit einem Zero-API-Key-lokalen Fallback
12 Produktionsvorlagen decken eine breite Palette von Formaten out of the box ab
Budget-Kontrollen und Per-Action-Genehmigung halten das Kostenrisiko beherrschbar

Cons

Noch keine formalen Releases - kein stabiler API-Vertrag
AGPL-3.0 blockiert proprietäre Closed-Source-SaaS-Nutzung
Starke Abhängigkeit von 10+ externen Video-KI-APIs für den vollen Workflow

Lizenz: AGPL-3.0 ist OSI-offen, aber stark Copyleft: jedes Derivat, das als Netzwerkdienst angeboten wird, muss ebenfalls unter AGPL open-source sein. Wann interessant: Aufbau einer automatisierten Content-Fabrik für Erklärungs- oder Marketing-Videos mit agent-orchestriertem Workflow. Wann zu früh: Du benötigst stabile API-Verträge oder planst ein kommerzielles Closed-Source-Produkt darüber.

Das managed Pendant zu den self-hosted Voice-Modellen oben (Chatterbox, NeuTTS Air, Higgs Audio, MOSS-TTS, Parlor) ist ElevenLabs, nützlich, wenn du eine gehostete API willst, statt Modelle selbst zu betreiben.

ElevenLabs

4.6

Info

Methodik und was dieser Post nicht abdeckt. Die Kandidaten kamen aus der GitHub Search API (junge Repos, Star-Wachstum, KI-Relevanz), dann ein Fork-zu-Star-Plausibilitätscheck, dann Verifikation jedes Repos gegen README und Homepage. Star- und Fork-Zahlen sind so, wie sie am 14. Juni 2026 auf GitHub angezeigt wurden, und sind nicht unabhängig auditiert. Wir haben die bekannten Platzhirsche bewusst ausgeschlossen (Ollama, ComfyUI, vLLM, llama.cpp) und Repositories aussortiert, die Fake-Star-Signale zeigten, faktisch eingestellt waren, nur source-available sind oder bereits im Radar gelistete Tools duplizieren. Performance-Werte, die einem Projekt zugeschrieben werden (z.B. "60-90% weniger Tokens"), sind die eigenen Angaben des Projekts, nicht unsere Messungen. Affiliate-Offenlegung: Dieser Post hat keine Affiliate-Beziehung zu einem der gelisteten Open-Source-Repos; der einzige kommerzielle Link geht zu ElevenLabs, gezeigt als managed Alternative zu den self-hosted Voice-Tools. Lizenzen und Reife ändern sich schnell, also prüfe die aktuelle LICENSE und den Release-Status jedes Repos, bevor du dich darauf verlässt.

Die nächste Ausgabe folgt nächsten Monat. Wenn ein Repo hier reift oder kommerzialisiert wird, verfolgen wir auch das, frühe Berichterstattung ist der Sinn eines Radars.

Roland Hentschel

AI & Web Technology Expert

Web developer and AI enthusiast helping businesses navigate the rapidly evolving landscape of AI tools. Testing and comparing tools so you don't have to.