Hyper-Extract
yifanfeng97
LLM-CLI, das unstrukturierten Text in typisiertes Wissen verwandelt: Listen, Tabellen, Graphen, Hypergraphen, per YAML-Templates.
Was ist Hyper-Extract?
Ein LLM-getriebenes CLI und eine Python-Library, die unstrukturierten Text mit einem Befehl in strukturierte 'Knowledge Abstracts' verwandeln, Listen, Tabellen, Graphen, Hypergraphen und raumzeitliche Graphen. Es bringt über 80 YAML-Extraktions-Templates (Finanzen, Recht, Medizin, allgemein), 10+ Extraktions-Engines inklusive GraphRAG und LightRAG, inkrementelle Extraktion, Suche und Visualisierung, Obsidian/Markdown-Export und einen MCP-Server und funktioniert mit OpenAI, Anthropic und lokalen Modellen.
Vor- & Nachteile
Pros
- Eine ungewöhnlich breite Strukturausgabe (Graphen, Hypergraphen, raumzeitlich) aus einem Tool mit Zero-Code-YAML-Templates
- Heute wirklich nutzbar: PyPI-Install, mehrere Provider, ein MCP-Server und Obsidian-Export
- Wirklich OSI-open (Apache-2.0) trotz GitHubs irreführendem NOASSERTION-Label
Cons
- Vor 1.0 (v0.3.0), Schnittstellen und Extraktionsqualität können sich ändern
- Braucht bezahlten oder lokalen LLM-Zugang; Extraktionsqualität und Kosten hängen vom gewählten Modell ab
- GitHubs NOASSERTION-Badge könnte Adopter abschrecken, bis die Appendix-Zeile normalisiert ist
Lizenz
Apache-2.0 (OSI-open)
Die LICENSE-Datei ist wortwörtlich Apache-2.0 (OSI-open, kommerzielle Nutzung erlaubt); GitHub labelt sie nur als 'NOASSERTION', weil die Appendix-Copyright-Zeile die Template-Klammern behält, was GitHubs hash-basierten Klassifizierer aushebelt.
Wann interessant
Dokumenten-Korpora in typisierte Knowledge-Graphs oder Hypergraphen für RAG oder Analyse verwandeln, ohne selbst Extraktions-Pipelines zu bauen.
Wann zu früh
wenn du eine stabile, eingefrorene API oder garantierte Extraktionsgenauigkeit für Produktion brauchst.
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: Diffbot
Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.
langextract
Python-Bibliothek von Google für LLM-gestützte strukturierte Extraktion mit Source Grounding.
LEANN
StarTrail-org
RAG auf allem - graphbasierter Vektorindex mit behaupteten 97% Storage-Einsparungen für private On-Device-Suche.
turbovec
RyanCodrai
Rust-Vektorindex mit TurboQuant-Kompression (ICLR 2026) - SIMD-Kernel, Online-Ingest.