OSI-openVektoren, Dokumente und Extraktion

Hyper-Extract

yifanfeng97

LLM-CLI, das unstrukturierten Text in typisiertes Wissen verwandelt: Listen, Tabellen, Graphen, Hypergraphen, per YAML-Templates.

2.5k Stars(Stand 2026-06-26)Auf GitHub ansehen Homepage

Überblick

Was ist Hyper-Extract?

Ein LLM-getriebenes CLI und eine Python-Library, die unstrukturierten Text mit einem Befehl in strukturierte 'Knowledge Abstracts' verwandeln, Listen, Tabellen, Graphen, Hypergraphen und raumzeitliche Graphen. Es bringt über 80 YAML-Extraktions-Templates (Finanzen, Recht, Medizin, allgemein), 10+ Extraktions-Engines inklusive GraphRAG und LightRAG, inkrementelle Extraktion, Suche und Visualisierung, Obsidian/Markdown-Export und einen MCP-Server und funktioniert mit OpenAI, Anthropic und lokalen Modellen.

Analyse

Vor- & Nachteile

Pros

Eine ungewöhnlich breite Strukturausgabe (Graphen, Hypergraphen, raumzeitlich) aus einem Tool mit Zero-Code-YAML-Templates
Heute wirklich nutzbar: PyPI-Install, mehrere Provider, ein MCP-Server und Obsidian-Export
Wirklich OSI-open (Apache-2.0) trotz GitHubs irreführendem NOASSERTION-Label

Cons

Vor 1.0 (v0.3.0), Schnittstellen und Extraktionsqualität können sich ändern
Braucht bezahlten oder lokalen LLM-Zugang; Extraktionsqualität und Kosten hängen vom gewählten Modell ab
GitHubs NOASSERTION-Badge könnte Adopter abschrecken, bis die Appendix-Zeile normalisiert ist

Lizenz

Apache-2.0 (OSI-open)

Die LICENSE-Datei ist wortwörtlich Apache-2.0 (OSI-open, kommerzielle Nutzung erlaubt); GitHub labelt sie nur als 'NOASSERTION', weil die Appendix-Copyright-Zeile die Template-Klammern behält, was GitHubs hash-basierten Klassifizierer aushebelt.

Wann interessant

Dokumenten-Korpora in typisierte Knowledge-Graphs oder Hypergraphen für RAG oder Analyse verwandeln, ohne selbst Extraktions-Pipelines zu bauen.

Wann zu früh

wenn du eine stabile, eingefrorene API oder garantierte Extraktionsgenauigkeit für Produktion brauchst.

Kontext

Kommerzielle Alternative & Verwandtes

Kommerzielles Pendant: Diffbot

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.

Ähnliche Repositories

langextract

google

36.8k

Python-Bibliothek von Google für LLM-gestützte strukturierte Extraktion mit Source Grounding.

OSI-openVektoren, Dokumente und Extraktion

LEANN

StarTrail-org

11.9k

RAG auf allem - graphbasierter Vektorindex mit behaupteten 97% Storage-Einsparungen für private On-Device-Suche.

OSI-openVektoren, Dokumente und Extraktion

turbovec

RyanCodrai

11.5k

Rust-Vektorindex mit TurboQuant-Kompression (ICLR 2026) - SIMD-Kernel, Online-Ingest.

OSI-openVektoren, Dokumente und Extraktion