Extrahieren von Informationen aus strukturierten Dokumenten mithilfe von Ähnlichkeitslernen

It is a human tendency to formulate assumptions while analyzing the difficulty of information extraction in documents. We automatically assume it is easier to extract information in the form of named entities from a set of similar documents. Nonetheless, similar-looking documents have a distinct set of problems. The named entities in these document types vary in size, akin to the number of characters, words, height, width, and location. These variations cannot be handled using heuristics or pre-trained language models.

When we have exhausted all the modeling options, we look for a new direction. The method s presented here is an exploration of deep learning techniques to improve the information extraction results [4]. To evaluate the techniques, a dataset with more than 25,000 documents has been compiled, anonymized, and published. It is already known that convolutions, graph convolutions, and self-attention can work together and exploit all the information present in a structured document. Here, we examine various approaches such as siamese networks, concepts of similarity, one-shot learning, and context/memory awareness as deep learning techniques.

Information extraction tasks are not a new problem. Information extraction starts with a collection of texts, then transforms these into information that is more readily digested and analyzed. It isolates relevant text fragments, extracts pertinent information from the fragments, and then pieces together the targeted information in a coherent framework [1]. The relevant collection of texts for this study is the content within business documents such as invoices, pro forma invoices, and debit notes.

Example of an invoice and an extraction system together with its output.

Example H2

Aus Ähnlichkeit lernen und Informationen aus strukturierten Dokumenten extrahieren‍

Es ist eine menschliche Tendenz, Annahmen zu formulieren und gleichzeitig die Schwierigkeit der Informationsextraktion in Dokumenten zu analysieren. Wir gehen automatisch davon aus, dass es einfacher ist, Informationen in Form von benannten Entitäten aus einer Reihe ähnlicher Dokumente zu extrahieren. Gleichwohl weisen ähnlich aussehende Dokumente eine Reihe von Problemen auf. Die benannten Entitäten in diesen Dokumenttypen variieren in ihrer Größe, ähnlich der Anzahl der Zeichen, Wörter, Höhe, Breite und Position. Diese Variationen können nicht mithilfe von Heuristiken oder vortrainierten Sprachmodellen behandelt werden.

Wenn wir alle Modellierungsmöglichkeiten ausgeschöpft haben, suchen wir nach einer neuen Richtung. Die hier vorgestellte Methode ist eine Untersuchung von Deep-Learning-Techniken zur Verbesserung der Ergebnisse der Informationsextraktion [4]. Um die Techniken zu evaluieren, wurde ein Datensatz mit mehr als 25.000 Dokumenten zusammengestellt, anonymisiert und veröffentlicht. Es ist bereits bekannt, dass Windungen, Graphenfaltungen und Selbstaufmerksamkeit zusammenwirken und alle in einem strukturierten Dokument enthaltenen Informationen ausnutzen können. Hier untersuchen wir verschiedene Ansätze wie siamesische Netzwerke, Ähnlichkeitskonzepte, One-Shot-Learning und Kontext-/Gedächtnisbewusstsein als Deep-Learning-Techniken.

Aufgaben zur Informationsextraktion sind kein neues Problem. Die Informationsextraktion beginnt mit einer Sammlung von Texten und wandelt diese dann in Informationen um, die leichter verdaut und analysiert werden können. Es isoliert relevante Textfragmente, extrahiert relevante Informationen aus den Fragmenten und fügt dann die Zielinformationen in einem kohärenten Rahmen zusammen [1]. Die relevante Textsammlung für diese Studie ist der Inhalt von Geschäftsdokumenten wie Rechnungen, Proforma-Rechnungen und Lastschriften.

Beispiel für eine Rechnung und ein Extraktionssystem zusammen mit ihrer Ausgabe.

‍

‍

Eine klassische heuristische Methode zur allgemeinen Verbesserung einer Zielmetrik besteht darin, dem Netzwerk relevantere Informationen zur Verfügung zu stellen. Die Idee, mehr Informationen bereitzustellen, ist von grundlegender Bedeutung — auch für einfachere Vorlagentechniken, da Probleme nicht unbedingt allein mit Vorlagen gelöst werden können. Die Forschungsfrage wird sich auf einen auf Ähnlichkeit basierenden Mechanismus mit verschiedenen Modellimplementierungen konzentrieren und darauf, ob diese eine bestehende Lösung verbessern können. Im Hintergrund haben wir festgestellt, dass keine dieser Methoden für die Arbeit mit strukturierten Dokumenten (wie Rechnungen) gut geeignet ist, da sie im Allgemeinen kein festes Layout, keine Sprache, keinen Satz von Beschriftungen, Trennzeichen oder Schriftarten haben. Zum Beispiel variieren Rechnungen je nach Land, Unternehmen und Abteilung und ändern sich im Laufe der Zeit. Um Informationen aus einem strukturierten Dokument abzurufen, müssen diese verstanden werden.

One-Shot-Learning und Ähnlichkeit

Beim One-Shot-Learning sind wir normalerweise in der Lage, Klassen korrekt zu identifizieren, indem wir sie mit bereits bekannten Daten vergleichen. One-Shot-Learning funktioniert gut, wenn das Konzept der Ähnlichkeit verwendet wird. Damit Ähnlichkeit funktioniert, müssen zwei Arten von Daten erkannt werden — unbekannte und bekannte. Bei den bekannten Daten sind die Zielwerte der Methode und/oder dem Modell bekannt. Um unbekannte Eingaben zu klassifizieren, wird ihr in der Regel dieselbe Klasse zugewiesen, da es sich um die ähnlichste bekannte Eingabe handelt. Das siamesische Netzwerk wird für Ähnlichkeit bei dieser Art von Arbeit verwendet, d. h. für das Abrufen ähnlicher Dokumente, die verglichen werden müssen. Dabei wird die Suche nach den nächsten Nachbarn im Einbettungsbereich für dieses Werk durchgeführt.

Der für das Ähnlichkeitslernen verwendete Verlust wird als Triplettverlust bezeichnet, da er für jeden Datenpunkt auf ein Klassentriplett (R-Referenz, P positiv, N negativ) angewendet wird:

L (R, P, N) = min (||f (A) − f (P) ||2 − |f (A) − f (N) ||2 + α, 0)

Wobei α ein Abstand zwischen positiven und negativen Klassen ist und f die Modellfunktion ist, die Eingaben dem Einbettungsraum zuordnet (mit der euklidischen Norm).

Methodologie

Die Haupteinheit unseres Umfangs ist jedes einzelne Wort auf jeder einzelnen Seite jedes Dokuments. Im Rahmen dieser Arbeit definieren wir ein Wort als ein Textsegment, das durch (mindestens) ein Leerzeichen vom Rest des Textes getrennt ist, und wir werden keine andere Textsegmentierung berücksichtigen.

Ein- und Ausgaben: Konzeptionell betrachtet wird die gesamte Seite eines Dokuments als Eingabe für das gesamte System betrachtet. Jedes Wort — zusammen mit seinen Positionsinformationen (oder kurz Wortkasten) — muss als Ausgabe in keine, eine oder mehrere Zielklassen eingeteilt werden. Wir haben es mit einem Problem mit mehreren Bezeichnungen zu tun, bei dem es insgesamt 35 mögliche Klassen gibt.

Der Datensatz und die Metrik: Insgesamt haben wir einen Datensatz mit 25.071 PDF-Dokumenten, insgesamt 35.880 Seiten. Die Dokumente stammen von verschiedenen Anbietern, Layouts und Sprachen und werden nach dem Zufallsprinzip (80%/10%/10%) in ein Schulungs-, Validierungs- und Testset aufgeteilt. Ein Validierungssatz wird für die Modellauswahl und den frühzeitigen Stopp verwendet. Die verwendete Metrik wird zuerst berechnet, indem alle F1-Werte aller Klassen berechnet und nach dem mikrometrischen Prinzip aggregiert werden.

Die in dem Artikel verwendete Architektur wird als einfaches Datenextraktionsmodell [2] bezeichnet.

Die Funktionen jeder Wortbox sind:

Geometrisch — Um grafische CNN-, Leserichtung und normalisierte (links, oben, rechts, unten) Koordinaten zu konstruieren.

Textuell — Die Anzahl aller Zeichen, Zahlen, die Wortlänge, die Anzahl der ersten beiden und letzten beiden Zeichen und trainierbare Wortmerkmale sind einstufige kodierte Kleinbuchstaben ohne Akzente.

Bild — Jedes Wortfeld wird aus dem Bild herausgeschnitten.

Die fünf Eingaben, nämlich das heruntergerechnete Bild, das Merkmal aller Wortkästen, 40 One-Hot-codierte Zeichen für jedes Wortfeld, Nachbar-IDs und die Positions-ID nach geometrischer Reihenfolge, werden verkettet, um einen Einbettungsvektor zu erzeugen. Für den Einbettungsvektor für die Position wird der Transformer-Ansatz verwendet. Das Bild wird gestapelt, gepoolt und morphologisch erweitert, sodass 32 Float-Merkmale generiert werden. Bevor Attention-, Dicht- oder Graph-Faltungsebenen verwendet werden, werden alle Merkmale einfach verkettet.

Die grundlegende Bausteindefinition endet mit jeder Wortbox, die in einen Merkmalsraum mit einer bestimmten Dimension eingebettet ist (640, sofern in einem bestimmten Experiment nicht anders angegeben). Die folgende Schicht für das „Einfache Datenextraktionsmodell“ ist eine sigmoidale Schicht mit binärer Kreuzentropie als Verlustfunktion. Dies ist eine Standardeinstellung, da die Ausgabe dieses Modells dazu dient, ein Problem mit mehreren Klassen zu lösen.

Das Lernframework umfasst: 1) Das System muss eine Vorstellung von bereits bekannten Dokumenten in einem angemessenen Umfang speichern. 2) Wenn dem System eine „neue“ oder „unbekannte“ Seite präsentiert wird, suchen Sie auf den bekannten Seiten nach der ähnlichsten Seite (unter Berücksichtigung eines vernünftigen Algorithmus). 3) Erlauben Sie dem Modell, alle Informationen von beiden Seiten zu verwenden (und „aus Ähnlichkeiten zu lernen“), um die Vorhersage zu treffen.

Definition des nächsten Nachbarn: Damit das System auf einmal lernen kann, an einer neuen und unbekannten Seite (manchmal auch als Referenz bezeichnet) zu arbeiten, muss das System immer über ein bekanntes (auch als ähnlich oder am nächsten bezeichnetes) Dokument mit vertrauten Anmerkungen verfügen. Die Einbettung für die Suche nach den nächsten Nachbarn [3] wird vorbereitet, indem die neueste Ebene entfernt und dem Dokumentenklassifizierungsmodell eine einfache Pooling-Ebene hinzugefügt wird. Dadurch wurde das Modell so geändert, dass 4850 Float-Features nur auf der Grundlage der Bildeingabe ausgegeben wurden. Diese Funktionen wurden dann jeder Seite als deren Einbettung zugewiesen. Diese Einbettungen werden während des Trainings und der Inferenz beibehalten und nur einmal im Voraus berechnet.

Ausgangswerte: Wir haben keinen Benchmark zum Vergleich. Daher werden einige Modelle im Prozess als Basiswerte erstellt.

Einfaches Datenextraktionsmodell ohne Zugriff auf die nächste bekannte Seite.

Copypaste — Überlagern Sie die Zielklassen aus den nächstgelegenen bekannten Seiten-Wortfeldern. Es dient als Gegengewicht zum Verlust von Tripletten und zur paarweisen Klassifizierung.

Oracle — prognostiziert immer korrekt die nächstgelegenen bekannten Seitenklassen.

Vollständig lineares Modell ohne Feature-Bilddaten — bietet ein Gegenstück zum Query and Answer-Ansatz.

Modellarchitekturen: Jede einzelne der Architekturen wird als Ganzes trainiert, es findet kein Vortraining oder Transferlernen statt, und jedes Modell wird immer als einzelner Rechengraph in Tensorflow implementiert.

Triplett-Loss-Architektur — kanonische Verwendung siamesischer Netzwerke mit Triplettverlust.

Paarweise Klassifizierung — Verwendung eines trainierbaren Klassifikators paarweise über alle Kombinationen von Wortkastenmerkmalen aus Referenz und nächster Seite.

Abfrage-Antwort-Architektur (oder kurz „QA“) — Verwendung des Aufmerksamkeitstransformators als Anrufbeantworter auf die Frage, welche Wordbox-Klasse am ähnlichsten ist.

‍

Der Filtermechanismus adressiert nur die mit Anmerkungen versehenen Textfelder der nächsten Seite. Der Kachelmechanismus verwendet zwei Sequenzen — erstens die Reihenfolge der Wortfelder auf der Referenzseite und zweitens die Reihenfolge der am nächsten gelegenen, gefilterten Wortkästen — und erzeugt eine zweiteilige Matrix.

In jedem Versuchsdurchlauf wurde immer das Modell ausgewählt, das in Bezug auf den Verlust am besten auf dem Validierungssatz abgeschnitten hat. Die in jeder Architektur vorhandenen Grundbausteine waren in der Regel so angeordnet, dass ein Merkmalsraum mit einer Dimensionalität von 640 entsteht.

Tabelle 1: Die Ergebnisse könnten so interpretiert werden, dass das Modell seine maximale angemessene Komplexität bei einer Transformatorschicht und kleinerem Merkmalsraum erreicht.

Tabelle 2: Eine niedrige Punktzahl bedeutet, dass es nicht ausreicht, einfach eine andere ähnliche bekannte Seite über die unbekannte Seite zu legen, da der Datensatz keine vollständig identischen Layouts enthält.

Tabelle 3: Nur etwa 60% der Wortkästen haben ihr Gegenstück (klassenweise) auf der nächstgelegenen Seite.

Tabelle 4: Die lineare Ausgangsleistung rechtfertigt den Fortschritt vom grundlegenden Copypaste-Modell hin zu trainierbaren Architekturen mit Ähnlichkeit.

Tabelle 5: Die paarweise Klassifizierung schnitt besser ab als einfaches Copypaste, aber immer noch schlechter als die lineare Architektur.

Tabelle 6: Es bestätigt auch, dass alle visuellen, geometrischen und textuellen Merkmale für qualitativ hochwertige Ergebnisse wichtig sind.

Schlußfolgerung:

Wir haben verifiziert, dass alle möglichen Teile der Architektur für das Training und die Vorhersage des Query Answer-Modells benötigt werden, um die höchste Punktzahl zu erzielen.

Welchen Effekt hat die Größe der Datensätze? Indem wir den Effekt der Größe des Trainingsdatensatzes und/oder des Suchbereichs für die nächstgelegenen Seiten untersuchen, könnten wir fragen, ob (und wann) das Modell neu trainiert werden muss, und herausfinden, wie eine Stichprobe eines schwer zu extrahierenden Dokuments aussieht.

Wie können die Mittel zur Generalisierung verbessert werden? Derzeit wird die Methode auf unsichtbare Dokumente verallgemeinert. Theoretisch könnten wir uns eine Methode zur Generalisierung auf neue Wortklassen wünschen, da auf diese Weise das Modell neu trainiert werden muss, wenn eine neue Klasse erkannt und extrahiert werden soll.

Das Modell passt in nur eine GPU für Endverbraucher und trainiert maximal vier Tage lang von Grund auf mit nur einem CPU-Prozess.

Referenzen:

[1] Cowie, J., Lehnert, W.: Informationsextraktion. Kommune. 39, 80—91 (1996)

[2] Holecek, M., Hoskovec, A., Baudis, P., Klinger, P.: Tabellenverständnis in strukturierten Dokumenten. In: Internationale Konferenz über Workshops zur Dokumentenanalyse und Anerkennung 2019 (ICDARW), Band 5, S. 158—164 (2019).

[3] Burkov, A.: Technik des maschinellen Lernens. True Positive Incorporated (2020)

[4] Holecek, M.: Lernen aus Ähnlichkeit und Informationsextraktion aus strukturierten Dokumenten (2020) URL: Lernen aus Ähnlichkeit und Informationsextraktion aus...

Sweety Bajaj

NEWSLETTER

Get the latest news, product updates, resources and insights delivered straight to your inbox.

Ready to Automate? Claim Your Zero-Touch Workflow Automation Guide.

Download

Einblicke in strukturierte Dokumente gewinnen