Die zweite Ausgabe des Radars verfolgt dieselbe Idee konsequent weiter: aufsteigende, nischige Repositories, die gerade jetzt schnell wachsen, statt der bekannten Namen, die ohnehin überall stehen. Diesen Monat kommen 30 neue Projekte dazu, quer über drei neue Cluster, Agent-Frameworks, Kontext-Tools für Coding-Agents sowie Media/Design/Video, zusätzlich zu Voice, Memory, RAG, MCP und lokaler Inference.
Die Methode bleibt unverändert und bewusst streng. Eine messbare Vorauswahl kommt aus der GitHub Search API (junge Repos, Star-Wachstum, KI-Relevanz). Jeder Kandidat wird dann gegen README und Homepage verifiziert: was er wirklich tut, wie gepflegt er ist und welche Lizenz tatsächlich gilt. Diese Ausgabe stützte sich stark auf Fake-Star- und Abandonment-Checks: Mehrere Repos mit sehr hohen Star-Zahlen, aber leeren Stargazer-Profilen, ohne echten Code oder ohne Commits seit Monaten, wurden bewusst aussortiert. Star-Zahlen sind so, wie sie am 14. Juni 2026 auf GitHub angezeigt wurden, und sind nicht unabhängig auditiert.
Eine Sache nehmen wir weiter ernst, die die meisten Listen ignorieren: "Open Source" ist nicht eine einzige Sache. Ein Repo kann echt OSI-lizenziert sein, "open weight" mit Nutzungsbeschränkungen auf das Modell, oder lediglich source-available. Jedes Tool unten bekommt sein echtes Lizenz-Label.
Die drei Lizenz-Stufen#
| Stufe | Was es bedeutet | Beispiele in dieser Ausgabe |
|---|---|---|
| OSI-open | Apache/MIT/BSD/AGPL, frei für jede Nutzung inkl. kommerziell | Chatterbox, MOSS-TTS, LEANN, turbovec, SeekDB, TOON, RTK, Nanobot, OpenFang, HyperFrames, claude-context, Page Agent |
| Open weight, mit Auflagen | Code ist offen, aber die Modell-Weights haben Nutzungsgrenzen | NeuTTS Air (Nano-Weights), Higgs Audio (v3-Weights, nicht-kommerziell) |
| Source-available | Code einsehbar, aber keine Lizenz zur freien Nutzung | keine in dieser Ausgabe |
Alle Star- und Fork-Zahlen unten sind so, wie sie am 14. Juni 2026 auf GitHub angezeigt wurden. Performance-Werte, die einem Projekt zugeschrieben werden, sind die eigenen Angaben dieses Projekts, nicht unsere Messungen.
Lokale Inference und "was läuft auf meiner Maschine"
oMLX (jundot/oMLX) - 16.6k Stars
oMLX ist ein macOS-nativer LLM-Inference-Server, optimiert für Apple Silicon. Er liefert eine SwiftUI-Menubar-App und ein Admin-Dashboard, Continuous Batching, gestuftes KV-Caching mit SSD-Überlauf, Multi-Model-Serving mit LRU-Eviction sowie OpenAI- und Anthropic-kompatible APIs, dazu eingebautes Benchmarking und Unterstützung für Vision-Language-Modelle.
Pros
- Native SwiftUI-Menubar-App und Admin-Dashboard - polierte Mac-first-Nutzererfahrung
- Gestufter KV-Cache mit SSD-Überlauf verlängert den effektiven context window über den RAM hinaus (eigene Angabe des Projekts)
- OpenAI- und Anthropic-API-Kompatibilität macht es zu einem Drop-in-Local-Backend
Cons
- Nur Apple Silicon - kein Linux oder Windows
- Großer offener Issue-Rückstand deutet auf raue Kanten hin
- Unterscheidet sich von MLX-LM und llama.cpp hauptsächlich durch die GUI-Schicht
Lizenz: Apache-2.0. Wann interessant: Apple-Silicon-Nutzer, die einen GUI-gesteuerten lokalen Inference-Server ohne Docker oder Kommandozeilen-Daemons wollen. Wann zu früh: Wenn du Linux- oder Windows-Server-Deployments oder Multi-GPU-Cluster-Inference benötigst.
apfel (Arthur-Ficial/apfel) - 5.8k Stars
apfel kapselt Apples On-Device Foundation Models Framework (das ~3B-Modell, das mit macOS 26 / Tahoe ausgeliefert wird) als CLI, REPL und OpenAI-kompatibler HTTP-Server auf localhost. Kein Modell-Download, kein API-Key, keine Cloud. Unterstützt Tool Calling, MCP, JSON-Ausgabe und neun Sprachen.
Pros
- Kein Modell-Download und keine Kosten - nutzt das bereits in macOS 26 integrierte Modell
- OpenAI-kompatibler Server, sodass bestehende Integrationen unverändert funktionieren
- MCP-Unterstützung und Tool Calling ermöglichen On-Device-agentische Workflows
Cons
- Erfordert macOS 26 (Tahoe), zum Zeitpunkt des Schreibens nur in Developer-Betas verfügbar
- Ein context window von 4.096 Tokens ist klein im Vergleich zu den meisten open-weight-Modellen
- Die Qualität ist an Apples On-Device-~3B-Modell gebunden - nicht für komplexes Schlussfolgern geeignet
Lizenz: MIT. Wann interessant: Entwickler auf macOS 26, die einen vollständig offline, kostenlosen LLM-Endpunkt für Prototyping und datenschutzsensible Automatisierung wollen. Wann zu früh: Wenn du heute macOS-15-Unterstützung, ein größeres context window oder stärkere Modellqualität benötigst.
mlx-tune (ARahim3/mlx-tune) - 1.3k Stars
mlx-tune kapselt Apples MLX mit einer API, die absichtlich kompatibel zu Unsloth (dem populären CUDA-Fine-Tuner) ist, und lässt Mac-Nutzer SFT, DPO, GRPO, Vision-Model-Training sowie TTS/STT-Fine-Tuning lokal auf Unified Memory ausführen. Enthält 50+ Beispiele und 39+ unterstützte Modell-Architekturen inklusive MoE.
Pros
- Unsloth-kompatible API reduziert den Migrationsaufwand aus CUDA-Fine-Tuning-Workflows
- Apple-Silicon-Unified-Memory erlaubt lokales Fine-Tuning größerer Modelle als typisches VRAM (eigene Angabe des Projekts)
- Deckt LLM, VLM, TTS, STT und Embeddings aus einer Bibliothek ab
Cons
- Nur Apple Silicon - kein Weg zu CUDA-Servern, wo die meisten Produktionstrainings laufen
- Frühe Community (wenige battle-tested Fehlerberichte)
- Performance-Zahlen sind selbst berichtet
Lizenz: Apache-2.0. Wann interessant: Praktiker, die fine-tuned Modelle auf einem Mac prototypen und im Apple-Ökosystem für kleine Runs bleiben wollen. Wann zu früh: Wenn du Training im großen Maßstab benötigst oder Ergebnisse auf CUDA-Hardware reproduzieren musst.
Offene Voice und Text-to-Speech
Chatterbox (resemble-ai/Chatterbox) - 25.1k Stars
Chatterbox ist eine Familie offener TTS-Modelle von Resemble AI. Das neueste Multilingual V3 (500M Parameter) deckt 23+ Sprachen mit sprachübergreifendem Voice Cloning ab; Chatterbox-Turbo (350M) zielt auf Voice Agents mit niedriger Latenz. Beide unterstützen Zero-Shot Cloning aus einem Referenzclip, mit MIT auf Code und Weights.
Pros
- MIT auf Code und Weights - die permissivste Lizenz unter den aufstrebenden TTS-Modellen
- Aktiv gepflegt von einem gut ausgestatteten Voice-Unternehmen mit schneller Iteration
- Multilingual V3 deckt 23+ Sprachen mit sprachübergreifendem Voice Cloning ab
Cons
- Hohe Star-Zahl für ein etwa einjähriges Repo verdient etwas Vorsicht
- Die Richtung kann sich mit den kommerziellen Prioritäten des unterstützenden Unternehmens verschieben
- Qualitätsvergleiche sind selbst berichtet; unabhängige V3-Benchmarks sind begrenzt
Lizenz: MIT. Wann interessant: Du benötigst MIT-lizenziertes, produktionsreifes mehrsprachiges TTS mit Voice Cloning, das du kommerziell self-hosten kannst. Wann zu früh: Du benötigst vollständig community-verifizierte V3-Benchmarks oder machst dir Sorgen um das langfristige Open-Source-Engagement eines VC-finanzierten Unternehmens.
NeuTTS Air (neuphonic/NeuTTS Air) - 6.0k Stars
NeuTTS ist eine Sammlung von On-Device-TTS-Modellen von Neuphonic auf kleinen LLM-Backbones mit einem 50-Hz-Neural-Codec. NeuTTS-Air (~360M aktive Parameter, Apache-2.0) beherrscht Englisch mit sofortigem Cloning aus 3 Sekunden Audio; GGUF-Quantisierungen laufen auf Telefonen, Laptops und Einplatinencomputern. Nano fügt Spanisch/Deutsch/Französisch unter einer restriktiveren Lizenz hinzu.
Pros
- GGUF-first-Design läuft out of the box auf Raspberry Pi und Android
- NeuTTS-Air-Weights sind Apache-2.0 - genuinely offen für kommerzielle Nutzung
- Sofortiges Voice Cloning aus 3 Sekunden in On-Device-Größenordnung ist in dieser Gewichtsklasse selten
Cons
- Multilingual-Nano-Weights erfordern eine kostenpflichtige kommerzielle Nutzung oberhalb einer Umsatzschwelle
- Das Apache-lizenzierte Air-Modell ist nur Englisch; mehrsprachig benötigt das eingeschränkte Nano
- Kleines Startup; Nachahmungs-Sites sind aufgetaucht - Quelle verifizieren
Lizenz: NeuTTS-Air-Weights sind Apache-2.0; die mehrsprachigen NeuTTS-Nano-Weights nutzen die NeuTTS Open License v1.0 (kostenlos für Forschung/begrenzte kommerzielle Nutzung, kostenpflichtig oberhalb einer Umsatzschwelle). Nur via neuphonic.com und diesem GitHub verifizieren - Nachahmungs-Sites existieren. Wann interessant: Du benötigst genuinely edge-deploybares TTS mit Cloning für eingebettete, mobile oder compliance-sensitive Anwendungen, bei denen das Senden von Audio an eine API nicht akzeptabel ist. Wann zu früh: Du benötigst mehrsprachige Unterstützung unter einer vollständig offenen Lizenz oder unabhängig verifizierte Qualitäts-Benchmarks.
Higgs Audio (boson-ai/Higgs Audio) - 8.2k Stars
Higgs Audio ist eine Familie von Text-Audio-Foundation-Modellen von Boson AI. v3 ist ein konversationelles TTS-Modell mit 4B Parametern, das 100+ Sprachen mit Zero-Shot Voice Cloning, inline Emotions-/Stil-/Prosodiekontrolle und einer OpenAI-kompatiblen Streaming-API abdeckt. Self-Hosting erfolgt via SGLang-Omni.
Pros
- 100+ Sprachen mit Zero-Shot Cloning und inline Prosodiekontrolle in einem 4B-Modell
- Vortrainiert auf 10M+ Stunden Audio (eigene Angabe des Projekts) - ein großes open-weight-Korpus
- OpenAI-kompatible Streaming-API erleichtert Drop-in-Integration
Cons
- Weights sind nicht-kommerziell - kommerzielles Self-Hosting erfordert eine kostenpflichtige Vereinbarung
- 4B Parameter plus SGLang-Omni bedeuten nennenswerten Infrastruktur-Overhead
- Research-lizenzierte Weights begrenzen den produktiven Open-Source-Einsatz
Lizenz: Code ist Apache-2.0, aber die v3-Modell-Weights stehen unter einer Research and Non-Commercial License - produktive oder umsatzgenerierende Deployments erfordern eine separate kommerzielle Vereinbarung mit Boson AI. Wann interessant: Forschung oder nicht-kommerzielle Produkte, die die breiteste mehrsprachige Abdeckung und reichste Prosodiekontrolle in open weights benötigen. Wann zu früh: Du benötigst eine vollständig offene kommerzielle Self-Hosting-Lizenz.
MOSS-TTS (OpenMOSS/MOSS-TTS) - 3.3k Stars
MOSS-TTS ist eine Familie von fünf offenen Modellen von OpenMOSS/MOSI.AI: ein Flaggschiff-8B mit Zero-Shot Cloning, ein Multi-Speaker-Dialogmodell, ein Stimmendesign-aus-Text-Modell, ein Niedriglatenz-Echtzeitmodell und ein Soundeffekt-Modell. Eine ~100M-Nano-Variante zielt auf CPU-only-Deployment. Code und Weights sind Apache-2.0.
Pros
- Deckt den gesamten Voice-AI-Stack von Soundeffekten bis zu Echtzeit-Agents in einem Apache-2.0-Repo ab
- Nano (~100M) behauptet Echtzeit-Generierung auf 4 CPU-Kernen - zugänglich für Edge-Einsatz
- 31-Sprachen-Unterstützung mit aktiver Entwicklung
Cons
- Das Flaggschiff-8B-Modell hat hohe Infrastrukturanforderungen
- Qualitäts- und Latenzwerte sind selbst berichtet
- Herkunft aus chinesischem Labor kann in regulierten Kontexten Supply-Chain-Prüfung auslösen
Lizenz: Apache-2.0. Wann interessant: Du willst ein Apache-lizenziertes, self-hostbares Voice-Toolkit, das TTS, Dialog, Voice Design und Echtzeit abdeckt, einschließlich eines CPU-deployablen Nano-Modells. Wann zu früh: Du benötigst bewährte Produktionszuverlässigkeit mit Benchmark-Vergleichen von Drittanbietern.
Parlor (fikrikarim/Parlor) - 1.8k Stars
Parlor ist ein lokaler Assistent, der ein multimodales Gemma-Modell mit Kokoro TTS für Echtzeit-Sprach-und-Kamera-Konversationen ohne Cloud-Abhängigkeit verbindet. Er läuft auf Apple Silicon (MLX) oder Linux-GPU, nutzt Silero VAD für freihändige Bedienung, unterstützt Barge-in und streamt TTS auf Satzebene.
Pros
- Wirklich On-Device - Sprache, Vision und LLM alle lokal, starke Datenschutz-Story
- Barge-in und satzweises Streaming geben ein natürliches Konversationsgefühl
- Apache-2.0 durchgängig, aktiv gepflegt
Cons
- Nur Englisch und nur Apple Silicon / Linux-GPU - kein Windows oder CPU-Pfad
- Dünne Schicht über Gemma + Kokoro - Sprachqualität durch Kokoro begrenzt
- Alpha-Stadium als Soloprojekt ohne versionierte Releases
Lizenz: Apache-2.0. Wann interessant: Du willst einen datenschutzorientierten, vollständig lokalen Voice-Assistenten mit Kamera-Bewusstsein und ohne API-Keys, besonders auf Apple Silicon. Wann zu früh: Du benötigst mehrsprachige Unterstützung, ein stabiles SDK oder Produktionszuverlässigkeit.
Agent-Memory und Code-Wissen
MemOS (MemTensor/MemOS) - 9.9k Stars
MemOS ist ein einheitliches Memory-Betriebssystem für KI-Agents mit L1-L3-Memory-Schichten, hybridem Retrieval und task-übergreifender Skill-Wiederverwendung. Es unterstützt Text, Bilder, Tool-Traces und Personas, und ist als self-hosted oder als verwalteter Cloud-Dienst verfügbar. Es behauptet 35% Token-Einsparungen durch Multi-Cube-Wissensmanagement (eigene Angabe des Projekts) und ist durch ein arXiv-Paper unterstützt.
Pros
- Multimodales Memory (Text, Bilder, Tool-Traces, Personas) mit gestufter L1-L3-Architektur
- Aktives Cloud-Produkt mit echten Preisstufen und Docker-Self-Hosting
- 30+ Releases, Paper-Unterstützung und eine erhebliche Fork-Basis
Cons
- TypeScript-lastiger Codebase kann für Python-first-Teams ungewohnt wirken
- Limits von self-hosted gegenüber der Cloud-Tier sind nicht klar dokumentiert
- Junge Organisation - langfristige Wartungsentwicklung unklar
Lizenz: Apache-2.0. Wann interessant: Teams, die Multi-Session-Agents bauen, die strukturiertes, abfragbares Langzeit-Memory ohne eigenen Vektor- und Graph-Stack benötigen. Wann zu früh: Einfache Single-Session-Chatbots, bei denen das context window bereits ausreicht.
memU (NevaMind-AI/memU) - 13.9k Stars
memU ist ein Python-first-Memory-Framework, das Konversationen, Dokumente, Bilder, Videos, Audio und lokale Dateien in einen typisierten Memory-Graph (Resources, MemoryItems, Categories, Relations) umwandelt. Es unterstützt SQLite- und PostgreSQL-Backends, konfigurierbares LLM-Routing für Chat/Embedding/Vision/Transkription und bietet eine managed API neben Self-Hosting.
Pros
- Typisierte Memory-Kategorien (Profile, Event, Knowledge, Behavior, Skill, Tool) für strukturiertes Retrieval
- Steckbarer Speicher (In-Memory, SQLite, PostgreSQL) mit pgvector-Beispielen
- Aktive Multi-Contributor-Entwicklung
Cons
- GitHub zeigt NOASSERTION (Apache-2.0 nur via README-Badge bestätigt)
- Neuere Commits sind größtenteils Dokumentation und Bug-Fixes
- Kleineres Ökosystem als Mem0 oder MemOS
Lizenz: Apache-2.0. Wann interessant: Python-Agent-Projekte, die stark typisiertes, durchsuchbares Memory mit flexiblem Speicher und minimaler Infrastruktur benötigen. Wann zu früh: Projekte, die ausgereifte SDK-Unterstützung jenseits von Python oder Echtzeit-multimodales Memory im großen Maßstab benötigen.
Vektoren, Dokumente und Extraktion
LEANN (StarTrail-org/LEANN) - 11.9k Stars
LEANN ist eine Python-Vektordatenbank, die Embeddings selektiv aus einem Graph neu berechnet statt alle zu speichern, und behauptet 97% Storage-Einsparungen gegenüber FAISS bei wettbewerbsfähigem Recall (eigene Angabe des Projekts). Sie indiziert PDFs, E-Mails, Browser-Verlauf, Chat-Logs und Code (AST-aware), integriert sich via MCP und ist durch ein peer-reviewed MLsys2026-Paper unterstützt.
Pros
- Peer-reviewed MLsys2026-Paper validiert den Storage-Ansatz unabhängig
- Multi-Contributor-Team mit substanziellen Commits (CUDA, GPU, Apple Silicon)
- MCP-nativ mit Claude Code und AST-aware Code-Chunking
Cons
- Neuere Commits sind nur Fixes und CI, keine neuen Features
- v0.x signalisiert API-Instabilität; Storage-Einsparungen kosten Neuberechnungslatenz
- Erfordert Embedding-Modell-Setup - nicht plug-and-play für Nicht-ML-Entwickler
Lizenz: MIT. Wann interessant: Privates On-Device-RAG über persönliche Daten (E-Mails, Chat-Logs, Code) ohne die Storage-Kosten traditioneller Vektor-DBs. Wann zu früh: Latenzsensibler Produktions-Retrieval im großen Maßstab, bei dem Neuberechnungs-Overhead inakzeptabel ist.
turbovec (RyanCodrai/turbovec) - 11.5k Stars
turbovec implementiert Googles TurboQuant-Algorithmus (ICLR 2026) in Rust mit Python-Bindings und handgeschriebenen SIMD-Kerneln (NEON, AVX-512). Es behauptet, ein 10M-Dokument-Korpus von 31 GB auf 4 GB zu komprimieren, mit schnellerer Suche als FAISS in 4-Bit-Konfigurationen (eigene Angabe des Projekts), unterstützt Online-Ingest ohne Trainingsphase und integriert sich mit LangChain, LlamaIndex, Haystack und Agno.
Pros
- Basiert auf einem peer-reviewed ICLR-2026-Paper
- SIMD-optimierter Rust-Core mit ergonomischen Python-Bindings
- Keine Trainingsphase - Online-Ingest eignet sich für dynamische Collections
Cons
- Einzelentwickler - kein sichtbares Team oder organisatorisches Backing
- Beta-Reifegrad und junges Repo - Produktionszuverlässigkeit im großen Maßstab unbewiesen
- Kompression-vs.-Recall-Tradeoffs nicht unabhängig benchmarkt
Lizenz: MIT. Wann interessant: Schnelle semantische Suche über große Korpora (10M+) mit Storage-Budgets, die für volle float32-Embeddings zu eng sind. Wann zu früh: Anwendungsfälle, die maximalen Recall bei beliebigen Storage-Kosten erfordern, oder eine kommerziell unterstützte Vektor-DB mit SLA.
SeekDB (oceanbase/SeekDB) - 2.7k Stars
SeekDB ist eine MySQL-kompatible eingebettete/Server-Datenbank für KI-Agent-Workloads, die ACID-relationale Speicherung mit hybrider Vektor- und Volltext- und Skalarsuche in einer SQL-Abfrage verbindet. Seine Copy-on-Write-FORK/MERGE-Sandboxes lassen Agents hypothetische Zustände erkunden, ohne das Hauptmemory zu belasten. Es wird von OceanBase unterstützt und behauptet 10,7-fachen Durchsatz gegenüber Milvus unter gleichzeitiger Last (eigene Angabe des Projekts).
Pros
- FORK/MERGE-Copy-on-Write-Sandboxes sind ein genuinely neuartiges Primitiv für sicheres Agent-Erkunden
- MySQL-kompatibler Protokoll funktioniert mit bestehenden ORMs, Clients und GUIs
- Von OceanBase unterstützt mit einem eingebetteten pip-Install
Cons
- Hohe offene Issue-Zahl relativ zu Stars deutet auf frühe raue Kanten hin
- Performance-Benchmarks sind projekteigen ohne unabhängige Reproduktion
- C++-Core macht Beiträge und Debugging für Python/JS-Entwickler schwieriger
Lizenz: Apache-2.0. Wann interessant: Multi-Agent-Systeme, die dauerhaftes, abfragbares Memory mit verzweigtem Zustand benötigen - Planungs-Agents, die spekulativ Strategien ausprobieren und zurückrollen. Wann zu früh: Produktions-RAG, das bewährte Stabilität erfordert; API und Storage-Format können sich noch verschieben.
PDF Oxide (yfedoseev/PDF Oxide) - 825 Stars
PDF Oxide ist eine Rust-native PDF-Bibliothek für Text-/Bildextraktion, Markdown-/HTML-Konvertierung, Erstellung, Bearbeitung, Zusammenführen, Aufteilen, Wasserzeichen und Formulare. Bindings decken Python, Go, JS/TS, .NET, Java/Kotlin und WebAssembly ab, plus CLI und MCP-Server. Es behauptet 0,8 ms mittlere Verarbeitungszeit pro Dokument, 5-29x schneller als gängige Python-Bibliotheken (eigene Angabe des Projekts), validiert an 3.830 Test-PDFs.
Pros
- Breite Sprachabdeckung (7 Bindings + CLI + MCP) aus einem Rust-Core
- 70 Releases und 100% Erfolgsrate auf 3.830 diversen PDFs deutet auf echte Zuverlässigkeit hin
- MCP-Server ist ein direkter Einstieg für RAG-Dokumenten-Pipelines
Cons
- Niedrige Star-Zahl relativ zur Reichweite - Community-Unterstützung und Langlebigkeit weniger belegt
- Geschwindigkeitswerte sind selbst berichtet ohne verlinkten unabhängigen Benchmark
- Markdown-Qualität bei komplexen Tabellen/mehrspaltigem Layout nicht demonstriert
Lizenz: MIT OR Apache-2.0. Wann interessant: Aufbau von Dokumenten-Ingestierungs-Pipelines für RAG, bei denen PDF-Extraktionsgeschwindigkeit und mehrsprachige Unterstützung wichtig sind. Wann zu früh: Wenn du battle-tested Handling von beschädigten oder gescannten PDFs benötigst - PyMuPDF hat eine größere Edge-Case-Community.
Computer-Use und autonome Agents
Browser Harness (browser-use/Browser Harness) - 14.8k Stars
Browser Harness ist ein dünner Chrome-DevTools-Protocol-Wrapper, der LLMs die Steuerung eines echten Browsers erlaubt. Agents schreiben fehlende Hilfsfunktionen on the fly und bauen über Runs hinweg eine wachsende Bibliothek site-spezifischer Skills. Er integriert sich mit Browser Use Cloud für Stealth und headloses Deployment.
Pros
- Self-Healing-Design verbessert sich automatisch über Runs hinweg ohne manuelle Updates
- Minimale Abstraktion (~1k Zeilen über 4 Dateien) - leicht zu auditieren und zu erweitern
- Aktive Community mit vielen offenen PRs und echtem Einsatz
Cons
- Nur Python - kein offizielles TypeScript/Node-SDK
- Stealth-Features hängen von Browser Use Cloud ab - partieller Vendor-Lock-in
- CDP-Level-Zugriff erfordert sorgfältige Sicherheitsisolation in Produktion
Lizenz: MIT. Wann interessant: Aufbau von LLM-Agents, die persistente Browser-Sessions mit angesammelten site-spezifischen Skills und minimaler Abstraktion über CDP benötigen. Wann zu früh: Du benötigst eine stabile Produktions-API - der Harness entwickelt sich noch schnell.
Page Agent (alibaba/Page Agent) - 18.5k Stars
Page Agent ist eine clientseitige TypeScript-Bibliothek, die in jede Webseite eingebettet wird und LLMs die Steuerung der UI via textbasierter DOM-Manipulation ermöglicht - kein Python, kein headless-Browser, keine Extension erforderlich. Eine optionale Chrome-Extension ermöglicht Multi-Tab-Workflows und ein Beta-MCP-Server ermöglicht Agent-Integration.
Pros
- Null serverseitige Infrastruktur - läuft vollständig in-page, deploybar als script-Tag
- 32 versionierte Releases mit aktivem CI/CD zeigen produktionsgradig Disziplin
- Bring-your-own-LLM-Design vermeidet API-Lock-in
Cons
- Textbasierter DOM-Ansatz kann bei canvas-lastigen oder sehr dynamischen SPAs Schwierigkeiten haben
- MCP-Server ist noch Beta
- Alibaba-Herkunft kann in manchen westlichen Organisationen Supply-Chain-Bedenken auslösen
Lizenz: MIT. Wann interessant: Einbettung eines Natural-Language-Copilots direkt in ein Web-Produkt ohne Backend-Infrastruktur. Wann zu früh: Du benötigst zuverlässige Multi-Page-Orchestrierung - Multi-Tab-Flows erfordern die Beta-Extension.
Playwriter (remorses/Playwriter) - 3.6k Stars
Playwriter ist eine Chrome-Extension plus CLI/MCP-Server, der Agents mit deinem bereits laufenden Browser verbindet und dabei Logins, Cookies und Extensions intakt hält. Agents erhalten vollen Playwright-API-Zugriff über ein WebSocket-Relay, nutzbar aus Skripten und Agent-Frameworks.
Pros
- Wiederverwendet authentifizierte Browser-Sessions - keine erneuten Logins oder Cookie-Injection-Hacks
- Sehr aktive Pflege mit häufigen Releases
- Duale CLI- und MCP-Schnittstelle funktioniert aus Skripten und Agent-Frameworks
Cons
- Niedrige Fork-Zahl deutet auf begrenzte Drittanbieter-/Enterprise-Adoption bisher hin
- Erfordert eine Chrome-Extension-Installation - Reibung in gesperrten Umgebungen
- Desktop-Session-zentriert, keine serverseitige Skalierungs-Automation
Lizenz: MIT. Wann interessant: Einen Agent in deinem persönlichen oder Arbeits-Browser mit all deinen bestehenden Logins und Kontext betreiben lassen. Wann zu früh: Du benötigst Zero-Install-serverseitige Browser-Automation im großen Maßstab.
OpenSandbox (opensandbox-group/OpenSandbox) - 11.5k Stars
OpenSandbox ist ein Allzweck-Sandbox-Runtime für KI-Agents mit SDKs für Python, Java/Kotlin, JS/TS, C#/.NET und Go. Er läuft auf Docker und Kubernetes mit eingebauten Code-Interpretern, Browser-Automation, Shell-Ausführung und Lifecycle-Management und ist im CNCF Landscape gelistet.
Pros
- Multi-Language-SDK-Abdeckung und CNCF-Listung signalisieren produktionsgradig Ambitionen
- Sehr aktiv - häufige Releases einschließlich jüngerer
- Kubernetes-nativ mit OpenSSF-Best-Practices-Badge
Cons
- Breiter Scope bedeutet mehr bewegliche Teile und höheren Betriebsaufwand
- Nur SDK-Zugriff - keine UI oder visuelle Tooling dokumentiert
- Weniger entdeckt als kommerzielle Alternativen mit größeren Ökosystemen
Lizenz: Apache-2.0. Wann interessant: Plattform-Teams, die mehrsprachige Agent-Infrastruktur aufbauen und einen self-hostbaren, Kubernetes-nativen Sandbox mit SDK-Level-Kontrolle benötigen. Wann zu früh: Einzelentwickler, die eine schnelle lokale Sandbox ohne Kubernetes-Setup wollen.
MCP-Server für Coding-Agents
claude-context (zilliztech/claude-context) - 11.8k Stars
claude-context ist ein von Zilliz gepflegter MCP-Server, der eine Codebase indiziert und KI-Coding-Agents via hybridem BM25- und Dense-Vector-Suche zugänglich macht. Er verwendet Merkle-Tree-inkrementelles Indexing, damit nur geänderte Dateien neu eingebettet werden, AST-basiertes Chunking und unterstützt VoyageAI-, OpenAI-, Gemini- und Ollama-Embeddings. Er behauptet ~40% Token-Reduktion (eigene Angabe des Projekts).
Pros
- Von Zilliz (Milvus-Entwicklern) unterstützt - eine glaubwürdige Vektor-Infrastruktur-Organisation
- Merkle-Tree-inkrementelles Indexing hält Re-Indexing schnell, wenn sich Code weiterentwickelt
- Als npm-Pakete, VS-Code-Extension und MCP-Server verfügbar
Cons
- Erfordert einen Embedding-Provider-API-Key - fügt Kosten und externe Abhängigkeit hinzu
- Token-Reduktions-Claim stammt aus der projekteigenen Bewertung
- Überschneidet sich mit anderen Code-Suche-MCP-Servern in diesem Bereich
Lizenz: MIT. Wann interessant: Große Monorepos, bei denen du einen Agent die gesamte Codebase semantisch durchsuchen lassen willst, statt per grep. Wann zu früh: Kleine Projekte, die in den context passen, oder Teams, die externe Embedding-API-Kosten vermeiden wollen.
Codebase Memory MCP (DeusData/Codebase Memory MCP) - 3.5k Stars
Codebase Memory MCP baut einen persistenten strukturellen Knowledge Graph einer Codebase mit tree-sitter-AST-Parsing und leichtgewichtiger Typauflösung für 9 Sprachen. Er läuft als MCP-Server mit 14 Tools, sodass Agents Call-Graphs, Symbole, toten Code und service-übergreifende Links abfragen können, statt Dateien zu durchsuchen. Er wird als einzelne statische Binary mit SLSA-Level-3-Provenance geliefert und behauptet sub-millisekunden-Graph-Abfragen (eigene Angabe des Projekts).
Pros
- Einzelne statische Binary ohne Runtime-Abhängigkeiten - keine Vektor-DB vorher einzurichten
- SLSA-Level-3-Provenance und 5.600+ bestandene Tests signalisieren rigorose Entwicklung
- 158-Sprachen-Indexing mit tiefer Auflösung für 9 Sprachen
Cons
- Token-Reduktions-Behauptungen sind projekteigen ohne Drittanbieter-Reproduktion
- Mehrwert ist abhängig von MCP-fähiger Assistenten-Unterstützung - weniger nützlich als Standalone
- Strukturiertes Graph-Tool, keine semantische Embedding-Suche
Lizenz: MIT. Wann interessant: Nutzung eines MCP-fähigen Assistenten auf einer großen oder unbekannten Codebase, bei der Dateisuche das context-Budget verschwendet. Wann zu früh: Wenn du allgemeines semantisches RAG über Code statt eines strukturellen Graphs willst.
mcp2cli (knowsuchagency/mcp2cli) - 2.2k Stars
mcp2cli exponiert MCP-Server, OpenAPI-Specs und GraphQL-Endpunkte dynamisch als Kommandozeilen-Interfaces ohne Codegenerierung. Es unterstützt MCP-HTTP/SSE mit OAuth, stdio-Modus für lokale Server, usage-aware Tool-Ranking, gespeicherte Verbindungen und eine TOON-Codierung, die behauptet, den Tool-Schema-Token-Overhead um 96-99% zu reduzieren (eigene Angabe des Projekts).
Pros
- Zero-Codegen - jeder MCP- oder OpenAPI-Dienst wird sofort zu einem CLI
- Token-effiziente TOON-Codierung hilft Agents, die viele Tools wiederholt aufrufen
- OAuth-Self-Healing und gespeicherte Verbindungen machen es produktionstauglich
Cons
- Dünne Commit-Historie relativ zur Star-Zahl - schnellen Star-Anstieg beobachten
- Token-Einsparungen hängen stark von der Schema-Ausführlichkeit des jeweiligen Servers ab
- Ein CLI-Shim, kein persistenter Agent-Runtime - kein bidirektionales Streaming
Lizenz: MIT. Wann interessant: Scripting oder Automatisierung von MCP-Tool-Aufrufen in CI, Shell-Skripten oder Agent-Loops, bei denen ein vollständiger MCP-Client überdimensioniert ist. Wann zu früh: Wenn du zustandsbehaftete Sessions oder bidirektionales Streaming benötigst.
Agent-Frameworks und Runtimes
Nanobot (HKUDS/Nanobot) - 44.2k Stars
Nanobot ist ein self-hostbarer persönlicher KI-Agent-Runtime mit einem kompakten, lesbaren Core. Er integriert sich mit WebUI, Telegram, Discord, Slack, Teams und E-Mail, unterstützt mehrere LLM-Provider und liefert persistentes Memory, Scheduling und Workflow-Automation out of the box.
Pros
- Genuinely leichtgewichtig mit lesbarer, auditierbarer Codebase - kein Framework-Bloat
- Multi-Channel-Chat-Integration (Telegram, Discord, Slack, Teams, E-Mail, WebUI) in einer Binary
- Starke Self-Hosting-Story mit voller Dateneigentümerschaft
Cons
- Pre-1.0 - API-Stabilität noch nicht garantiert
- Dokumentations-Erreichbarkeit war während der Prüfungen inkonsistent
- Überschneidet sich mit anderen Agent-OS-Projekten - Differenzierung muss bewertet werden
Lizenz: MIT. Wann interessant: Teams, die einen minimalen, auditierbaren Agent-Runtime wollen, den sie ohne Erlernen eines schweren Frameworks erweitern können. Wann zu früh: Produktive Enterprise-Deployments, die garantierte API-Stabilität erfordern.
OpenFang (RightNow-AI/OpenFang) - 17.8k Stars
OpenFang ist ein Rust-basiertes autonomes Agent-OS, das in eine ~32 MB große einzelne Binary kompiliert. Es enthält sieben vorgefertigte autonome Fähigkeits-Pakete, 40 Messaging-Kanal-Adapter, 27 LLM-Provider und 16 Sicherheitssysteme einschließlich einer WASM-Sandbox. Es behauptet 180 ms Kaltstart und 40 MB Idle-Memory (eigene Angabe des Projekts).
Pros
- Rust-native einzelne Binary mit einer großen Test-Suite signalisiert echte Engineering-Substanz
- Schedule-driven autonome Architektur, nicht nur ein Chatbot
- Permissive duale MIT/Apache-2.0-Lizenzierung
Cons
- Pre-1.0 - breaking changes möglich vor dem stabilen Ziel
- Aktivität schien sich nahe einem Release-Freeze zu verlangsamen
- Performance-Benchmarks sind projekteigen
Lizenz: MIT AND Apache-2.0. Wann interessant: Teams, die ein schedule-driven autonomes Agent-Backend mit breiter Kanalabdeckung und einer WASM-Sicherheits-Sandbox wollen. Wann zu früh: Jeder produktive Workload, der stabile APIs erfordert.
DeepTutor (HKUDS/DeepTutor) - 24.8k Stars
DeepTutor ist eine agent-native Lernplattform, die Tutoring, Quiz-Generierung, Recherche-Assistenz, interaktive Bucherstellung und Wissensbasis-Management vereint. Sie bietet persistente KI-Begleiter, einen Co-Autor, versionierte RAG-Wissensbasen und ein Drei-Schichten-Memory-System und wird durch ein arXiv-Paper unterstützt.
Pros
- Eine genuinely eigene Nische - agent-natives Lernen statt eines generischen Chat-/Coding-Agents
- Drei-Schichten-Memory ermöglicht echte Personalisierung über Sessions hinweg
- MCP-Erweiterbarkeit und eine Community-Skills-Registry deuten auf ein wachsendes Ökosystem hin
Cons
- Agent-natives Tutoring ist eine frühe Kategorie - Retention und pädagogische Wirksamkeit unbewiesen
- Live-Demo-Erreichbarkeit war während der Prüfungen inkonsistent
- Hohe Star-Zahl erfordert weiterhin Authentizitätsbeobachtung
Lizenz: Apache-2.0. Wann interessant: Entwickler oder Pädagogen, die self-hostbare KI-gestützte Lerntools bauen. Wann zu früh: Jeder, der bewiesene Lernergebnisse oder LMS-Integration benötigt.
Coding-Agents und Kontext-Effizienz
TOON (toon-format/TOON) - 24.6k Stars
TOON ist ein Serialisierungsformat und Multi-Language-SDK (TS, Python, Go, Rust, .NET, Java, Swift) zum token-effizienten Senden gleichförmiger Arrays an LLMs. Es enthält eine formale Spec, CLI, VS-Code-Extension, Tree-sitter-Grammatik und Online-Playground, und behauptet 76% Genauigkeit bei ~40% weniger Tokens gegenüber JSON über 5.016 Bewertungen (eigene Angabe des Projekts).
Pros
- Format-level Token-Einsparungen sind modell-agnostisch - funktioniert mit jedem LLM, kein SDK oder Proxy erforderlich
- Sieben-Sprachen-SDK und eine VS-Code-Extension senken die Adoptionshürde
- Formale Spec und Tree-sitter-Grammatik signalisieren einen dauerhaften, toolbaren Standard
Cons
- Nur effizient für gleichförmige Arrays von Objekten - verschachteltes/unregelmäßiges JSON sieht keinen Nutzen
- Sehr hohe Star-Zahl für eine Datenformat-Bibliothek verdient Beobachtung
- Adoption erfordert Buy-in von Produzent und Konsument der Daten
Lizenz: MIT. Wann interessant: Große tabellarische Datensätze (Suchergebnisse, DB-Zeilen, Kataloge) in Prompts einspeisen, bei denen JSON-Ausführlichkeit messbare Kosten verursacht. Wann zu früh: Wenn deine Payloads hauptsächlich aus Freitext, verschachtelter Konfiguration oder unregelmäßigen Strukturen bestehen.
RTK (rtk-ai/RTK) - 62.2k Stars
RTK ist ein Rust-CLI-Proxy zwischen deinem Terminal und 14 KI-Coding-Tools (Claude Code, Copilot, Gemini, Cursor und mehr). Er fängt Ausgaben von 100+ Dev-Befehlen (git, cargo, pytest, docker) ab und entfernt Stack-Traces, redundante Diffs und verbose Logs, bevor sie den context window erreichen, und behauptet 60-90% Token-Reduktion (eigene Angabe des Projekts).
Pros
- Unterstützt 14 KI-Coding-Tools out of the box aus einer Installation
- Rust-Implementierung hält den Kompressionsschritt bei nahezu null Latenz
- Funktioniert auf Windows und WSL sowie macOS und Linux
Cons
- Sehr hohe Star-Zahl für ein Dev-Utility - Star-Velocity lohnt Beobachtung
- Hohe offene Issue-Zahl deutet darauf hin, dass die Heuristiken manchmal benötigten Kontext entfernen
- Ausgabenkompression ist inhärent verlustbehaftet - das Tool entscheidet, was Rauschen ist
Lizenz: Apache-2.0. Wann interessant: Lange agentische Claude-Code- oder Copilot-Sessions, bei denen git-diff-, cargo-build- und pytest-Ausgaben das context-Budget dominieren. Wann zu früh: Wenn deine Sessions kurz sind und context-Druck kein Problem darstellt.
planning-with-files (OthmanAdi/planning-with-files) - 23.3k Stars
planning-with-files installiert einen SKILL.md-basierten Planungs-Harness, der drei persistente Markdown-Dateien (task_plan, findings, progress) auf der Festplatte hält, damit ein Agent nach einem Absturz oder context-Verlust den vollständigen Task-Zustand durch erneutes Lesen wiederherstellen kann. Es unterstützt autonome und gesteuerte Abschlussmodi und 60+ Agents via SKILL.md.
Pros
- Null Infrastruktur - reine Markdown-Dateien, funktioniert mit jedem SKILL.md-Agent
- Absturz-Recovery und context-Verlust-Resilienz sind zentrale Design-Prinzipien
- Aktive Entwicklung mit häufigen Releases und breiter Plattformunterstützung
Cons
- Soloprojekt mit hoher Star-Zahl aus einem jungen Repo - Star-Authentizität beobachten
- Benchmark-Behauptungen sind selbst berichtet ohne verlinkten Test-Harness
- Dateibasierter Zustand ist fragil für gleichzeitigen Multi-Agent-Einsatz ohne Locking
Lizenz: MIT. Wann interessant: Lang laufende, mehrstufige Coding-Aufgaben in Claude Code, Cursor oder Codex, die häufig Context-Limits treffen oder Session-Recovery benötigen. Wann zu früh: Kurze Single-Session-Aufgaben oder Teams, die bereits ein agent-integriertes Task-System nutzen.
Medien, Design und Video
HyperFrames (heygen-com/HyperFrames) - 27.6k Stars
HyperFrames, von HeyGen, konvertiert HTML/CSS/JS-Animationen in deterministisches MP4-Video via headless-Chrome und FFmpeg, mit Unterstützung für GSAP, Lottie, Three.js, CSS-Animationen und WAAPI. Agents schreiben HTML und der Renderer produziert Video. Das Projekt berichtet Produktionseinsatz bei HeyGen, tldraw und TanStack (eigene Angabe des Projekts).
Pros
- Sehr hohe Wartungsgeschwindigkeit mit häufigen Releases
- HTML-natives Authoring bedeutet, jedes LLM kann Video-Kompositionen ohne proprietäre DSL schreiben
- Apache-2.0 von einem finanzierten Unternehmen reduziert das Aufgabe-Risiko
Cons
- Headless-Chrome- plus FFmpeg-Stack bedeutet nennenswerten Infrastruktur-Overhead für Self-Hoster
- Roadmap wird durch die kommerziellen Bedürfnisse des unterstützenden Unternehmens gesteuert
- v0.x-Versionierung signalisiert eine noch als instabil betrachtete API
Lizenz: Apache-2.0. Wann interessant: Datengetriebene, vorlagenbasierte Videos aus agent-geschriebenem HTML im großen Maßstab generieren. Wann zu früh: Du benötigst WYSIWYG-Bearbeitung oder Nicht-Entwickler-Authoring - dies ist eine Code-/Agent-Schnittstelle.
OpenPencil (open-pencil/OpenPencil) - 5.6k Stars
OpenPencil ist ein Desktop- (Tauri) und Web-PWA-Design-Editor, der auf Skia/CanvasKit aufbaut, native .fig-Dateien öffnet, 100+ KI-Design-Tools via Chat bietet, JSX/Tailwind-Code exportiert und einen MCP-Server für Agent-Kontrolle exponiert, mit P2P-Kollaboration via CRDTs. Die Maintainer beschreiben es als noch nicht produktionsreif.
Pros
- Kann echte Figma-.fig-Dateien öffnen - senkt den Migrations-Aufwand
- MCP-Server und headless-CLI ermöglichen agent-gesteuerte Design-Workflows
- Umfangreiche Test-Suite, ungewöhnlich für ein frühphasiges Design-Tool
Cons
- Explizit nicht produktionsreif laut Maintainern
- Skia/WASM-Rendering bedeutet ein großes Bundle und komplexes Debugging
- Kleines Org-Backing erhöht das Aufgabe-Risiko
Lizenz: MIT. Wann interessant: Experimentieren mit KI-gestütztem Design und einem self-hostbaren, Figma-kompatiblen Editor mit Agent-Hooks. Wann zu früh: Jede produktive Design-Arbeit - die Maintainer warnen dagegen.
OpenMontage (calesthio/OpenMontage) - 4.7k Stars
OpenMontage ist ein agentisches Python-Videoproduktions-Orchestrator, der einen Klartext-Brief übernimmt und Recherche, Skripterstellung, Asset-Generierung und Komposition handhabt. Er unterstützt 12 Produktionspipelines mit 10+ Video-KI-Anbietern und rendert via Remotion oder HyperFrames, mit Budget-Kontrollen und Per-Action-Genehmigungs-Schwellenwerten.
Pros
- End-to-End-Brief-zu-MP4-Pipeline mit einem Zero-API-Key-lokalen Fallback
- 12 Produktionsvorlagen decken eine breite Palette von Formaten out of the box ab
- Budget-Kontrollen und Per-Action-Genehmigung halten das Kostenrisiko beherrschbar
Cons
- Noch keine formalen Releases - kein stabiler API-Vertrag
- AGPL-3.0 blockiert proprietäre Closed-Source-SaaS-Nutzung
- Starke Abhängigkeit von 10+ externen Video-KI-APIs für den vollen Workflow
Lizenz: AGPL-3.0 ist OSI-offen, aber stark Copyleft: jedes Derivat, das als Netzwerkdienst angeboten wird, muss ebenfalls unter AGPL open-source sein. Wann interessant: Aufbau einer automatisierten Content-Fabrik für Erklärungs- oder Marketing-Videos mit agent-orchestriertem Workflow. Wann zu früh: Du benötigst stabile API-Verträge oder planst ein kommerzielles Closed-Source-Produkt darüber.
Das managed Pendant zu den self-hosted Voice-Modellen oben (Chatterbox, NeuTTS Air, Higgs Audio, MOSS-TTS, Parlor) ist ElevenLabs, nützlich, wenn du eine gehostete API willst, statt Modelle selbst zu betreiben.
Methodik und was dieser Post nicht abdeckt. Die Kandidaten kamen aus der GitHub Search API (junge Repos, Star-Wachstum, KI-Relevanz), dann ein Fork-zu-Star-Plausibilitätscheck, dann Verifikation jedes Repos gegen README und Homepage. Star- und Fork-Zahlen sind so, wie sie am 14. Juni 2026 auf GitHub angezeigt wurden, und sind nicht unabhängig auditiert. Wir haben die bekannten Platzhirsche bewusst ausgeschlossen (Ollama, ComfyUI, vLLM, llama.cpp) und Repositories aussortiert, die Fake-Star-Signale zeigten, faktisch eingestellt waren, nur source-available sind oder bereits im Radar gelistete Tools duplizieren. Performance-Werte, die einem Projekt zugeschrieben werden (z.B. "60-90% weniger Tokens"), sind die eigenen Angaben des Projekts, nicht unsere Messungen. Affiliate-Offenlegung: Dieser Post hat keine Affiliate-Beziehung zu einem der gelisteten Open-Source-Repos; der einzige kommerzielle Link geht zu ElevenLabs, gezeigt als managed Alternative zu den self-hosted Voice-Tools. Lizenzen und Reife ändern sich schnell, also prüfe die aktuelle LICENSE und den Release-Status jedes Repos, bevor du dich darauf verlässt.
Die nächste Ausgabe folgt nächsten Monat. Wenn ein Repo hier reift oder kommerzialisiert wird, verfolgen wir auch das, frühe Berichterstattung ist der Sinn eines Radars.
