ERP & Automatisierung

Genauigkeit von KI-Extraktion: Warum „99 %“ die falsche Frage ist

Von Robin Maier 16. Juni, 2026 6 min Lesezeit

Wer Software zur automatischen Belegerfassung sucht, begegnet überall derselben Zahl: „bis zu 99 % Genauigkeit”. Sie steht auf den Websites praktisch aller Anbieter, sie klingt beruhigend — und sie beantwortet eine Frage, die für den Geschäftsbetrieb fast bedeutungslos ist.

Denn die Frage, die über Vertrauen in ein Extraktionssystem entscheidet, lautet nicht: Wie oft liegt das System richtig? Sie lautet: Woher weiß das System, wann es falsch liegt? Dieser Artikel erklärt, warum die 99-%-Rhetorik in der Praxis dreifach täuscht — und welches Qualitätsziel an ihre Stelle gehört.

Täuschung 1: Feldgenauigkeit ist nicht Dokumentgenauigkeit

Die beworbene Genauigkeit bezieht sich fast immer auf einzelne Felder: Bestellnummer korrekt, Datum korrekt, Position 3 Menge korrekt. Ein Geschäftsbeleg besteht aber aus vielen Feldern — eine Bestellung mit acht Positionen kommt schnell auf 30 bis 50 extrahierte Werte. Und Fehler verketten sich multiplikativ:

Bei 99 % Feldgenauigkeit und 30 Feldern ist ein Beleg nur noch mit etwa 74 % Wahrscheinlichkeit komplett fehlerfrei (0,99³⁰).
Bei 97 % Feldgenauigkeit — ein auf realen Belegen durchaus respektabler Wert — sind es nur noch rund 40 %.

Anders gesagt: Ein System, das mit „99 % Genauigkeit” wirbt, kann völlig korrekt vermessen sein und trotzdem jeden vierten Beleg mit mindestens einem Fehler abliefern. Für die Buchhaltung oder den Auftragseingang zählt aber der Beleg, nicht das Feld — eine Bestellung mit 29 richtigen und einem falschen Wert ist keine zu 97 % richtige Bestellung, sondern eine falsche.

Täuschung 2: Benchmark-Belege sind nicht eure Belege

Genauigkeitsangaben entstammen Messungen auf Evaluations-Datensätzen — häufig sauberen, gut strukturierten Standardlayouts. Reale Belegeingänge sehen anders aus: mehrzeilige Artikelbezeichnungen, Tabellen über Seitenumbrüche mit Zwischensummen, zwei „Total”-Zeilen (mit und ohne Mehrwertsteuer), Rabatte in Fußnoten, Schweizer Zahlenformate mit Apostroph als Tausendertrenner, gelegentlich ein schiefer Scan.

Der Einbruch von Benchmark zu Realbetrieb fällt regelmäßig zweistellig aus — nicht, weil die Modelle schlecht wären, sondern weil die Messbedingungen mit dem eigenen Belegmix wenig zu tun haben. Die Konsequenz für jede Evaluation: Die einzige Genauigkeit, die zählt, wird auf den eigenen Belegen gemessen — an einem Gold-Set aus echten Dokumenten mit manuell festgelegtem Soll-Ergebnis, inklusive der Absender, die das System beim Einrichten nie gesehen hat. Alles andere ist Prospektlyrik.

Täuschung 3: Der gefährlichste Fehler sieht richtig aus

Klassische OCR-Fehler waren oft sichtbar — ein zerschossenes Zeichen, ein leeres Feld. Moderne Sprachmodelle machen eine andere, tückischere Fehlerklasse möglich: plausibel falsche Werte. Aus 12,80 wird 12,08; eine Artikelnummer wird um eine Ziffer „korrigiert”; eine fehlende Mengenangabe wird durch eine wahrscheinliche ersetzt. Nichts daran sieht falsch aus. Genau deshalb sind solche Fehler durch Draufschauen praktisch nicht zu finden — und ein System, das nur einen Konfidenzwert des Modells als Schutz anbietet, hat keinen Schutz: Halluzinationen kommen oft mit hoher Konfidenz.

Die richtige Frage: Wie erkennt das System seine eigenen Fehler?

Aus diesen drei Beobachtungen folgt das Qualitätsziel, das in den Betrieb gehört. Es lautet nicht „100 % Rohgenauigkeit” — die ist bei frei gestalteten Layouts strukturell unerreichbar und als Versprechen ein Warnsignal. Es lautet:

Null unentdeckte Fehler unter den automatisch übernommenen Belegen.

Fehler dürfen passieren. Sie dürfen nur nicht unbemerkt passieren. Erreichbar ist das nicht durch ein besseres Modell, sondern durch Architektur — drei Mechanismen, die unabhängig vom Modell funktionieren:

Deterministische Arithmetik-Prüfung. Geschäftsbelege tragen ihre eigene Prüfsumme in sich: Menge × Preis abzüglich Rabatt muss die Positionssumme ergeben, die Positionssummen müssen zur Belegsumme passen. Ein Zahlendreher verletzt diese Invarianten fast immer — Mathematik findet ihn zuverlässiger als jedes Review. Voraussetzung: Das Modell schreibt ausschließlich ab, was im Dokument steht; gerechnet wird außerhalb des Modells, in normalem, testbarem Code.
Grounding gegen die Quelle. Jeder extrahierte Wert muss sich wörtlich im Rohtext des Dokuments wiederfinden lassen. Was nicht belegbar ist, gilt als nicht extrahiert. Das fängt Halluzinationen auch bei Feldern ab, die sich nicht nachrechnen lassen — Adressen, Bezeichnungen, Datumsangaben.
Routing statt Hoffnung. Belege, die alle Prüfungen bestehen, laufen automatisch durch. Alle anderen landen in einer Review-Queue — vorausgefüllt, in Sekunden geprüft. Die ehrliche Betriebskennzahl ist deshalb nicht „Genauigkeit”, sondern die Durchlaufquote ohne Korrektur (Straight-Through-Processing) bei null unentdeckten Fehlern: anfangs typisch 70 bis 90 Prozent, mit jeder zurückfließenden Korrektur steigend.

Wie diese Architektur im Ganzen aussieht, beschreibt der Leitfaden PDF-Belege automatisch ins ERP übernehmen; die technische Tiefenbohrung folgt in der Anatomie einer Dokumenten-Pipeline.

Sechs Fragen an jeden Anbieter (oder an das eigene Projekt)

Wer Extraktionslösungen evaluiert, ersetzt die Genauigkeitsfrage am besten durch diese sechs:

Worauf bezieht sich die Genauigkeitsangabe — Felder oder vollständige Dokumente? Auf welchem Datensatz gemessen?
Wie wird auf unseren Belegen gemessen? Gibt es einen Pilot mit Gold-Set aus echten Dokumenten — inklusive Absendern, die das System nicht kennt?
Welche deterministischen Prüfungen laufen nach der Extraktion? Arithmetik, Stammdaten-Abgleich, Quellen-Belegbarkeit?
Was passiert mit unsicheren Belegen? Gibt es eine Review-Queue, und wie fließen Korrekturen zurück ins System?
Wie wird im Betrieb gemessen? Durchlaufquote, Fehler pro Absender, unentdeckte Fehler unter den automatisch übernommenen Belegen?
Was kostet ein unentdeckter Fehler bei uns? (Diese Frage geht an das eigene Unternehmen — sie bestimmt, wie konservativ die Schwellen kalibriert gehören.)

Ein Anbieter — oder ein internes Projektteam —, das auf diese Fragen präzise Antworten hat, verdient Vertrauen. Eines, das auf die 99 % verweist, noch nicht.

Fazit

„99 % Genauigkeit” ist eine Marketing-Kennzahl: gemessen auf fremden Belegen, bezogen auf Felder statt Dokumente und blind für die Fehlerklasse, die wirklich wehtut — plausibel falsche Werte. Belastbar wird Belegautomatisierung durch eine andere Zielgröße: null unentdeckte Fehler unter den automatisch übernommenen Belegen, erreicht durch deterministische Validierung, Quellen-Grounding und sauberes Routing. Wer so misst, kann Automatisierung verantworten — gegenüber Geschäftsführung, Wirtschaftsprüfung und dem eigenen Innendienst.

kitun baut Dokumenten-Pipelines nach genau diesem Prinzip: Das Modell schreibt ab, deterministischer Code prüft, unsichere Belege gehen an Menschen — on-premise und ohne Stückkosten pro Beleg. Wie das auf den eigenen Belegen aussieht, klärt ein 20-minütiges Erstgespräch.

→ Die Lösung im Überblick: kitun Dokumenten-Pipeline