Transformatorbasiertes OCR-Modell: So funktioniert der OCR-Decoder
Wie Sie wahrscheinlich bereits wissen, ist Optical Character Recognition (OCR) die elektronische Umwandlung von Bildern von getipptem, handgeschriebenem oder gedrucktem Text in maschinencodierten Text. Die Quelle kann ein gescanntes Dokument, ein Foto eines Dokuments oder ein Untertiteltext sein, der einem Bild aufgedrückt wird. OCR konvertiert solche Quellen in maschinenlesbaren Text.
Lassen Sie uns verstehen, wie eine OCR-Pipeline funktioniert, bevor wir uns eingehender mit Transformer Based OCR befassen.
Eine typische OCR-Pipeline besteht aus zwei Modulen.
- Ein Texterkennungsmodul
- Ein Texterkennungsmodul

Texterkennungsmodul
Das Texterkennungsmodul erkennt, wie der Name schon sagt, wo Text in der Quelle vorhanden ist. Es zielt darauf ab, alle Textblöcke im Textbild zu lokalisieren, entweder auf Wortebene (einzelne Wörter) oder auf Textzeilenebene.
Diese Aufgabe ist vergleichbar mit einem Objekterkennungsproblem, nur hier sind das interessierende Objekt die Textblöcke. Zu den beliebten Algorithmen zur Objekterkennung gehören YoloV4/5, Detectron, Mask-RCNN usw.
Um die Objekterkennung mit YOLO zu verstehen hier klicken.
Texterkennungsmodul
Das Texterkennungsmodul zielt darauf ab, den Inhalt des erkannten Textblocks zu verstehen und die visuellen Signale in natürliche Sprachzeichen umzuwandeln.
Ein typisches Texterkennungsmodul besteht aus zwei Untermodulen.
- Modul zur Generierung von Wortstücken
- Verstehen von Bildern
Der Arbeitsablauf unter dem Texterkennungsmodul funktioniert wie folgt.
- Die einzelnen lokalisierten Textfelder werden beispielsweise auf 224x224 verkleinert und als Eingabe an das Bildverständnismodul übergeben, bei dem es sich in der Regel um ein CNN-Modul (ResNet with self-attention) handelt.
- Die Bildmerkmale aus einer bestimmten Netzwerktiefe werden extrahiert und als Eingabe an das Word Piece Generation Module weitergegeben, bei dem es sich um ein RNN-basiertes Netzwerk handelt. Die Ausgabe dieses RNN-Netzwerks besteht aus maschinencodierten Texten der lokalisierten Textfelder.
- Mithilfe einer entsprechenden Verlustfunktion wird das Texterkennungsmodul trainiert, bis die Leistung ein optimales Ausmaß erreicht.
Was macht transformatorbasiertes OCR anders?
Transformer-based OCR ist ein durchgängiges, transformatorbasiertes OCR-Modell für die Texterkennung. Dies ist eines der ersten Werke, bei dem vortrainierte Bild- und Texttransformatoren gemeinsam genutzt werden.
Die transformierte OCR sieht wie in der Abbildung unten aus. Auf der linken Seite des Diagramms befindet sich der Vision Transformer Encoder und auf der rechten Seite des Bildes der Roberta (Text Transformer) Decoder.

VITransformator oder Encoder:

Ein Bild wird in NxN-Patches aufgeteilt, wobei jeder Patch ähnlich wie ein Token in einem Satz behandelt wird. Die Bildfelder sind abgeflacht (2D → 1D) und werden linear mit positionellen Einbettungen projiziert. Die lineare Projektion und die positionellen Einbettungen werden durch die Transformator-Encoder-Schichten übertragen.
Im Fall von OCR besteht das Bild aus einer Reihe lokalisierter Textfelder. Um die Konsistenz lokalisierter Textfelder zu gewährleisten, wird die Größe des Bild-/Bildbereichs der Textfelder auf HxW angepasst. Danach wird das Bild in Patches zerlegt, wobei jedes Patch die Größe HW/ (PxP) hat. P ist die Patch-Größe.
Danach werden die Patches abgeflacht und linear auf einen D-dimensionalen Vektor projiziert, bei dem es sich um Patch-Einbettungen handelt. Die Patch-Einbettungen und zwei spezielle Tokens erhalten anhand ihrer absoluten Positionen erlernbare 1D-Positionseinbettungen. Dann wird die Eingabesequenz durch einen Stapel identischer Encoderschichten geleitet.
Jede Transformer-Ebene verfügt über ein Mehrkopf-Selbstaufmerksamkeitsmodul und ein vollständig verbundenes Feed-Forward-Netzwerk. Auf diese beiden Teile folgen eine Restverbindung und eine Lagennormalisierung.
Hinweis: Restverbindungen sorgen für einen Gradientenfluss während der Backpropagation.
Roberta oder Decoder:

Die Ausgangseinbettungen aus einer bestimmten Tiefe der VITransformers werden extrahiert und als Eingabe an das Decoder-Modul übergeben.
Die Ausgangseinbettungen aus einer bestimmten Tiefe der VITransformers werden extrahiert und als Eingabe an das Decoder-Modul übergeben.
Das Decodermodul ist ebenfalls ein Transformator mit einem Stapel identischer Schichten, die ähnliche Strukturen wie die Schichten im Encoder haben, mit der Ausnahme, dass der Decoder die „Encoder-Decoder-Aufmerksamkeit“ zwischen dem Mehrkopf-Selbstaufmerksamkeits- und dem Feedforward-Netzwerk einfügt, um unterschiedliche Aufmerksamkeit auf den Ausgang des Encoders zu verteilen. Im Aufmerksamkeitsmodul für Encoder-Decoder kommen die Schlüssel und Werte vom Encoder-Ausgang, während die Abfragen vom Decoder-Eingang kommen.
Die Einbettungen des Decoders werden von der Modelldimension (768) auf die Dimension der Vokabulargröße V (50265) projiziert.
Die Softmax-Funktion berechnet die Wahrscheinlichkeiten für das Vokabular und wir verwenden die Strahlsuche, um die endgültige Ausgabe zu erhalten.
Vorteile:
- TroCR, ein auf Transformern basierendes OCR-Modell für die Texterkennung mit vortrainierten CV- und NLP-Modellen, ist das erste Werk, das gemeinsam vortrainierte Bild- und Texttransformatoren für die Texterkennungsaufgabe in OCR nutzt.
- TrOCR erreicht modernste Genauigkeit mit einem standardmäßigen transformatorbasierten Encoder-Decoder-Modell, das faltungsfrei ist und keine komplexen Vor- und Nachbearbeitungsschritte erfordert.
Referenzen:
TrOCR: Transformatorbasierte optische Zeichenerkennung mit vortrainierten Modellen
https://arxiv.org/pdf/2109.10282.pdf
Ein Bild sagt mehr als 16 Worte: Transformatoren für die Bilderkennung im großen Maßstab
Häufig gestellte Fragen
Software zur Überprüfung und Prüfung von Hypotheken ist ein Sammelbegriff für Tools zur Automatisierung und Rationalisierung des Prozesses der Kreditbewertung. Es hilft Finanzinstituten dabei, die Qualität, die Einhaltung der Vorschriften und das Risiko von Krediten zu beurteilen, indem sie Kreditdaten, Dokumente und Kreditnehmerinformationen analysiert. Diese Software stellt sicher, dass Kredite den regulatorischen Standards entsprechen, reduziert das Fehlerrisiko und beschleunigt den Überprüfungsprozess, wodurch er effizienter und genauer wird.
IDP verarbeitet effizient sowohl strukturierte als auch unstrukturierte Daten, sodass Unternehmen relevante Informationen aus verschiedenen Dokumenttypen nahtlos extrahieren können.
KI verwendet Mustererkennung und Natural Language Processing (NLP), um Dokumente genauer zu klassifizieren, selbst bei unstrukturierten oder halbstrukturierten Daten.
IDP nutzt KI-gestützte Validierungstechniken, um sicherzustellen, dass die extrahierten Daten korrekt sind, wodurch menschliche Fehler reduziert und die allgemeine Datenqualität verbessert wird.
IDP (Intelligent Document Processing) verbessert die Audit-QC, indem es automatisch Daten aus Kreditakten und Dokumenten extrahiert und analysiert und so Genauigkeit, Konformität und Qualität gewährleistet. Es optimiert den Überprüfungsprozess, reduziert Fehler und stellt sicher, dass die gesamte Dokumentation den behördlichen Standards und Unternehmensrichtlinien entspricht, wodurch Audits effizienter und zuverlässiger werden.
Wählen Sie eine Software, die fortschrittliche Automatisierungstechnologie für effiziente Audits, leistungsstarke Compliance-Funktionen, anpassbare Audit-Trails und Berichte in Echtzeit bietet. Stellen Sie sicher, dass sie sich gut in Ihre vorhandenen Systeme integrieren lässt und Skalierbarkeit, zuverlässigen Kundensupport und positive Nutzerbewertungen bietet.