OSI-openVektoren, Dokumente und Extraktion

knowhere

Ontos-AI

Self-hostbare Dokument-zu-Chunks-Schicht für agentisches RAG: parst PDFs und Office-Dateien in strukturierte Chunks mit Zitaten.

1.8k Stars(Stand 2026-06-26)Auf GitHub ansehen Homepage

Überblick

Was ist knowhere?

Eine self-hostbare Dokument-Extraktions-Schicht für agentisches RAG, die unstrukturierte Dokumente (PDF, Word, PowerPoint, Excel, CSV, Bilder, Markdown) in strukturierte, hierarchie-erhaltende Chunks mit Quellenzitaten parst, positioniert als Memory-Schicht für Agenten. Sie kommt als API plus Worker über Docker Compose, mit einer Managed-Cloud-Option und Python- und Node-SDKs.

Analyse

Vor- & Nachteile

Pros

Apache-2.0 und wirklich self-hostbar als voller Stack
Starkes Multi-Format-Parsing, das Struktur erhält und nachvollziehbare Zitate liefert
Aktive jüngste Releases plus offizielle Python- und Node-SDKs

Cons

Open-Core: die Homepage ist eine bezahlte API, die beste Developer-Experience könnte also die Cloud bevorzugen
Schwere Self-Host-Abhängigkeiten (Postgres, Redis, S3, ein LLM-Key, Docker), nicht Plug-and-Play
Genauigkeits- und Recall-Zahlen sind unverifizierte Anbieter-Benchmarks

Lizenz

Apache-2.0 (OSI-open)

Wann interessant

du brauchst eine offene, self-hostbare Dokument-zu-strukturierte-Chunks-Schicht für agentisches RAG mit Beleg-Zitaten.

Wann zu früh

wenn du eine einzelne pip-install-Library oder ein Zero-Infra-Setup willst; der Stack ist service-lastig.

Kontext

Kommerzielle Alternative & Verwandtes

Kommerzielles Pendant: LlamaParse

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.

Ähnliche Repositories

langextract

google

36.8k

Python-Bibliothek von Google für LLM-gestützte strukturierte Extraktion mit Source Grounding.

OSI-openVektoren, Dokumente und Extraktion

LEANN

StarTrail-org

11.9k

RAG auf allem - graphbasierter Vektorindex mit behaupteten 97% Storage-Einsparungen für private On-Device-Suche.

OSI-openVektoren, Dokumente und Extraktion

turbovec

RyanCodrai

11.5k

Rust-Vektorindex mit TurboQuant-Kompression (ICLR 2026) - SIMD-Kernel, Online-Ingest.

OSI-openVektoren, Dokumente und Extraktion