PDF-Extraktion — Pith-Glossar

Zurück zum Glossar

PDF-Extraktion ist der Vorgang, ein PDF — ein Format, das für festes visuelles Layout gedacht ist, nicht für Daten — in strukturierten, durchsuchbaren Text zu verwandeln, typischerweise durch eine Kombination aus optischer Zeichenerkennung (OCR) und Layout-Analyse, die Lesereihenfolge, Überschriften, Tabellen und Spalten wiederherstellt.

Warum es zählt

Ein PDF ist eine Beschreibung davon, wo Tinte auf eine Seite kommt, kein Protokoll dessen, was das Dokument *sagt*. Das macht die Extraktion trügerisch schwer. Ein gescanntes PDF hat überhaupt keinen Text, nur ein Bild, also muss OCR die Pixel lesen. Ein digital geborenes PDF hat Text, aber keine Struktur: ein zweispaltiges Layout kann als verschachtelter Unsinn extrahieren, eine Tabelle in ein Zahlenchaos kollabieren, Kopf- und Fußzeilen mitten im Satz in den Fließtext spleißen. Die Lesereihenfolge, die ein Mensch auf einen Blick erschließt, muss rekonstruiert werden.

Das zählt, weil so viel aufhebenswertes Material in PDFs lebt — Forschungspapiere, behördliche Eingaben, Analystenberichte, in den Druck exportierte Foliensätze. Was ein PDF nicht verlässlich extrahieren kann, kann es nicht durchsuchen, nicht zitieren, nicht einem Modell zuführen. Extraktion ist das Tor zwischen "ich habe die Datei" und "ich kann nutzen, was drinsteht."

Der Stand der Technik hat sich von regelbasierten Parsern (PyMuPDF, pdfplumber) hin zu Vision-and-Language-Modellen (Mistral OCR und ähnliche) bewegt, die eine Seite lesen, wie ein Mensch es tut — Struktur und Lesereihenfolge wiederherstellend, nicht nur Zeichen. Die ehrliche Grenze ist, dass die Extraktionsqualität mit der Quelle schwankt: eine saubere Eingabe extrahiert nahezu perfekt; ein niedrig aufgelöster Scan einer gefaxten Tabelle nicht, und kein Modell schließt diese Lücke ganz.

Wie Pith reinpasst

Pith nutzt OCR (Mistral), um PDFs in das zitierte Wiki zu bringen: der extrahierte Text wird zusammengefasst, embedded und neben deinen Web-Bookmarks synthetisiert, mit Zitaten zurück zur Datei. Es gibt eine bewusste Grenze — von Vision interpretierte Bilder bleiben *aus* dem Wiki heraus, weil eine Vision-Vermutung niedrigere Provenienz hat als Text, den OCR tatsächlich gelesen hat, und die [Quellenverankerung](/glossary/source-grounding) nur für Aussagen gilt, die sich auf echten extrahierten Text zurückführen lassen.

Siehe auch

Quellenverankerung Semantische Suche Retrieval-Augmented Generation (RAG)Lese-Gedächtnis Bookmark-Management

Zuletzt geprüft: 8. Juni 2026 · Lizenziert CC BY 4.0 · frei zitierbar unter Namensnennung von Pith.