Skip to main content
AI Tool Radar
OSI-openVektoren, Dokumente und Extraktion

langextract

google

Python-Bibliothek von Google für LLM-gestützte strukturierte Extraktion mit Source Grounding.

36.8k Stars(Stand 2026-06-07)Auf GitHub ansehen

Was ist langextract?

Eine Python-Bibliothek von Google, die ein LLM nutzt, um strukturierte Information aus unstrukturiertem Text zu ziehen, und dann jede Extraktion an ihre exakte Stelle im Quelltext zurückbindet ('Source Grounding') plus eine interaktive HTML-Ansicht erzeugt. Sie ruft selbst kein Modell, du bringst einen Provider mit: Gemini (Default), OpenAI, oder lokale Modelle via Ollama (ohne API-Key).

Vor- & Nachteile

Pros

  • Apache-2.0, permissiv und OSI-open, kein Copyleft
  • Provider-agnostisch: Cloud (Gemini/OpenAI/Vertex) oder voll lokal via Ollama ohne API-Key
  • Source-Grounding und eine HTML-Visualisierung out-of-the-box sind ein echtes Unterscheidungsmerkmal

Cons

  • Für Cloud-Modelle braucht sie eine externe LLM-API: laufende Token-Kosten, und dein Text verlässt die Maschine (lokal nur via Ollama)
  • Das README sagt klar 'this is not an officially supported Google product', kein SLA
  • Genauigkeit ist eine eigene Projektangabe und hängt vom gewählten Modell, Prompt und den Beispielen ab

Lizenz

Apache-2.0 (OSI-open)

Wann interessant

Dokumente, Berichte oder Notizen mit nachvollziehbarer Herkunft in strukturierte Daten verwandeln.

Wann zu früh

wenn du ein unterstütztes Produkt mit Garantien brauchst, oder keinen Text an ein Cloud-Modell senden kannst und Ollama nicht lokal betreiben willst. Es existiert keine kommerzielle Variante, und die benötigten LLM-Provider haben kein Endkunden-Affiliate-Programm.

Dieses Repo war in der Ausgabe 2026-06 des Open-Source-KI-Radars.