OSI-openVektoren, Dokumente und Extraktion

langextract

google

Python-Bibliothek von Google für LLM-gestützte strukturierte Extraktion mit Source Grounding.

36.8k Stars(Stand 2026-06-07)Auf GitHub ansehen

Überblick

Was ist langextract?

Eine Python-Bibliothek von Google, die ein LLM nutzt, um strukturierte Information aus unstrukturiertem Text zu ziehen, und dann jede Extraktion an ihre exakte Stelle im Quelltext zurückbindet ('Source Grounding') plus eine interaktive HTML-Ansicht erzeugt. Sie ruft selbst kein Modell, du bringst einen Provider mit: Gemini (Default), OpenAI, oder lokale Modelle via Ollama (ohne API-Key).

Analyse

Vor- & Nachteile

Pros

Apache-2.0, permissiv und OSI-open, kein Copyleft
Provider-agnostisch: Cloud (Gemini/OpenAI/Vertex) oder voll lokal via Ollama ohne API-Key
Source-Grounding und eine HTML-Visualisierung out-of-the-box sind ein echtes Unterscheidungsmerkmal

Cons

Für Cloud-Modelle braucht sie eine externe LLM-API: laufende Token-Kosten, und dein Text verlässt die Maschine (lokal nur via Ollama)
Das README sagt klar 'this is not an officially supported Google product', kein SLA
Genauigkeit ist eine eigene Projektangabe und hängt vom gewählten Modell, Prompt und den Beispielen ab

Lizenz

Apache-2.0 (OSI-open)

Wann interessant

Dokumente, Berichte oder Notizen mit nachvollziehbarer Herkunft in strukturierte Daten verwandeln.

Wann zu früh

wenn du ein unterstütztes Produkt mit Garantien brauchst, oder keinen Text an ein Cloud-Modell senden kannst und Ollama nicht lokal betreiben willst. Es existiert keine kommerzielle Variante, und die benötigten LLM-Provider haben kein Endkunden-Affiliate-Programm.

Dieses Repo war in der Ausgabe 2026-06 des Open-Source-KI-Radars.

Ähnliche Repositories

LEANN

StarTrail-org

11.9k

RAG auf allem - graphbasierter Vektorindex mit behaupteten 97% Storage-Einsparungen für private On-Device-Suche.

OSI-openVektoren, Dokumente und Extraktion

turbovec

RyanCodrai

11.5k

Rust-Vektorindex mit TurboQuant-Kompression (ICLR 2026) - SIMD-Kernel, Online-Ingest.

OSI-openVektoren, Dokumente und Extraktion

chandra

datalab-to

11.1k

Hochgenaue Dokumenten-Digitalisierung (OCR/Layout) mit offenem Code und einem open-weight-Modell.

Open weight, mit AuflagenVektoren, Dokumente und Extraktion