langextract
Python-Bibliothek von Google für LLM-gestützte strukturierte Extraktion mit Source Grounding.
Was ist langextract?
Eine Python-Bibliothek von Google, die ein LLM nutzt, um strukturierte Information aus unstrukturiertem Text zu ziehen, und dann jede Extraktion an ihre exakte Stelle im Quelltext zurückbindet ('Source Grounding') plus eine interaktive HTML-Ansicht erzeugt. Sie ruft selbst kein Modell, du bringst einen Provider mit: Gemini (Default), OpenAI, oder lokale Modelle via Ollama (ohne API-Key).
Vor- & Nachteile
Pros
- Apache-2.0, permissiv und OSI-open, kein Copyleft
- Provider-agnostisch: Cloud (Gemini/OpenAI/Vertex) oder voll lokal via Ollama ohne API-Key
- Source-Grounding und eine HTML-Visualisierung out-of-the-box sind ein echtes Unterscheidungsmerkmal
Cons
- Für Cloud-Modelle braucht sie eine externe LLM-API: laufende Token-Kosten, und dein Text verlässt die Maschine (lokal nur via Ollama)
- Das README sagt klar 'this is not an officially supported Google product', kein SLA
- Genauigkeit ist eine eigene Projektangabe und hängt vom gewählten Modell, Prompt und den Beispielen ab
Lizenz
Apache-2.0 (OSI-open)
Wann interessant
Dokumente, Berichte oder Notizen mit nachvollziehbarer Herkunft in strukturierte Daten verwandeln.
Wann zu früh
wenn du ein unterstütztes Produkt mit Garantien brauchst, oder keinen Text an ein Cloud-Modell senden kannst und Ollama nicht lokal betreiben willst. Es existiert keine kommerzielle Variante, und die benötigten LLM-Provider haben kein Endkunden-Affiliate-Programm.
Dieses Repo war in der Ausgabe 2026-06 des Open-Source-KI-Radars.
LEANN
StarTrail-org
RAG auf allem - graphbasierter Vektorindex mit behaupteten 97% Storage-Einsparungen für private On-Device-Suche.
turbovec
RyanCodrai
Rust-Vektorindex mit TurboQuant-Kompression (ICLR 2026) - SIMD-Kernel, Online-Ingest.
chandra
datalab-to
Hochgenaue Dokumenten-Digitalisierung (OCR/Layout) mit offenem Code und einem open-weight-Modell.