Daten aus Rechnungen und Finanz-PDFs extrahieren
So extrahieren Sie strukturierte Daten aus Rechnungen, Quittungen und Finanzdokumenten im PDF-Format. Wir behandeln die spezifischen Herausforderungen der Finanzdokument-Extraktion und praktische Lösungen.
5 Min. LesezeitRechnungen kommen als PDF-Anhänge an. Jemand muss jede einzelne öffnen und die Zahlen in das Buchhaltungssystem eintippen. Positionen, Beträge, Steuerberechnungen, Lieferantendetails – alles in einem Format gefangen, das nie für die Dateneingabe gedacht war.
Wenn Sie das länger als eine Woche gemacht haben, kennen Sie den Schmerz. Finanz-PDFs sind der am häufigsten extrahierte Dokumenttyp und gleichzeitig der fehleranfälligste. Ein falsch gelesenes Komma sieht nicht nur schlecht aus. Es zieht sich durch Berichte, Abstimmungen und am Ende hat jemand einen sehr unangenehmen Nachmittag.
Was Finanz-PDFs so schwierig macht
Zahlen müssen exakt sein. Bei einer Produktbeschreibungstabelle kann ein kleiner Tippfehler durchgehen. Bei Finanzdaten nicht. Der Unterschied zwischen 1.234,56 und 12.345,6 ist die Art Fehler, die bei einer Prüfung auffällt.
Außerdem formatiert jeder Lieferant seine Rechnungen anders. Manche sind übersichtlich. Andere sehen aus, als wären sie entworfen worden, um jeden zu bestrafen, der versucht, Daten daraus zu extrahieren. Es gibt kein Standardlayout – nicht einmal innerhalb derselben Branche.
Dann gibt es das Lokalisierungsproblem. Ist "1.234" eintausendzweihundertvierunddreißig oder eins Komma zwei drei vier? Das hängt davon ab, aus welchem Land das Dokument stammt. Dezimaltrennzeichen, Datumsformate und Währungssymbole variieren je nach Region, und Rechnungen verraten selten, welche Konvention sie verwenden.
Rechnungen haben außerdem gestaffelte Summen: Positionsbeträge, Zwischensummen, Steuern, Rabatte, eine Gesamtsumme. Die richtigen Zahlen zu erfassen bedeutet, die Struktur des Dokuments zu verstehen – nicht nur Ziffern von der Seite abzulesen.
Warum manuelle Eingabe an ihre Grenzen stößt
Der typische Prozess ist einfach: PDF öffnen, Felder finden, ins ERP eintippen. Bei zehn Rechnungen pro Woche ist das kein Problem.
Bei Hunderten pro Monat bricht es zusammen. Manuelle Dateneingabe hat eine Fehlerquote von etwa 1–3 %, und bei Finanzdaten verursacht selbst 1 % echte Probleme. Jede Rechnung braucht ein paar Minuten zur Verarbeitung. Ihre Buchhaltungsmitarbeiter verbringen am Ende Stunden mit Dateneingabe, anstatt sich um die eigentliche Buchhaltung zu kümmern.
Vom PDF zu strukturierten Daten
Der praktische Ansatz besteht darin, zu beschreiben, was man aus dem Dokument braucht, und ein Extraktionstool die Arbeit erledigen zu lassen. Mit etwas wie unPDF laden Sie eine Rechnung hoch, sagen "extrahiere alle Positionen mit Beschreibungen, Mengen, Einzelpreisen und Summen" und erhalten eine strukturierte Tabelle zurück. Sie prüfen die Ausgabe, korrigieren, was nicht stimmt, und exportieren als CSV oder Excel.
Das funktioniert besser als eine blinde Komplett-Konvertierung, weil Sie die Extraktion auf bestimmte Felder ausrichten. Sie brauchen nicht das gesamte PDF konvertiert. Sie brauchen die Rechnungsnummer, das Datum, die Positionen und den Gesamtbetrag.
Umgang mit Formatvariationen
Die größte Herausforderung bei der Rechnungsextraktion im großen Maßstab sind Formatvariationen. Jeder Lieferant gestaltet seine Rechnungen anders.
Extraktion in natürlicher Sprache hilft hier, weil man nicht an eine starre Vorlage gebunden ist. "Extrahiere die Positionstabelle" funktioniert unabhängig davon, ob die Tabelle oben oder unten auf der Seite steht, ob die Kopfzeile "Menge" oder "Anz." sagt, und ungeachtet der Spaltenreihenfolge. Das ist wichtig, wenn Ihre Kreditorenbuchhaltung Rechnungen von Dutzenden verschiedener Lieferanten verarbeitet.
Gescannte Rechnungen und OCR
Manche Rechnungen sind Scans statt digital erstellter PDFs. Der Text in einer gescannten Rechnung ist ein Bild und muss zunächst durch OCR verarbeitet werden.
Moderne OCR verarbeitet die meisten Scans ausreichend gut. Die Qualität hängt von der Auflösung und der Druckqualität ab. Wenn Sie viele gescannte Rechnungen verarbeiten, investieren Sie in einen guten Scanner und stellen Sie eine hohe DPI ein. Das spart Zeit bei der Weiterverarbeitung.
Einen wiederholbaren Prozess aufbauen
Sobald Sie die Extraktion für einen Stapel Rechnungen herausgefunden haben, ist der nächste Schritt, daraus einen konsistenten Prozess zu machen. Verwenden Sie dieselben Extraktionsprompts für jeden Stapel. Bauen Sie einen Prüfschritt ein, bevor Daten in das Buchhaltungssystem gelangen. Verfolgen Sie die Genauigkeit über die Zeit, damit Sie problematische Lieferanten oder wiederkehrende Fehler frühzeitig erkennen.
Automatisierte Extraktion mit menschlicher Überprüfung ist der pragmatische Mittelweg. Sie arbeiten den Stapel schneller ab, aber jemand prüft die Zahlen noch, bevor sie verbucht werden.