Transformer-basierte OCR: Weiterentwicklung der Texterkennungstechnologie

7 Minuten

Holen Sie sich die neuesten Updates, Ressourcen und Einblicke direkt in Ihren Posteingang.

Transformatorbasiertes OCR-Modell: So funktioniert der OCR-Decoder

Wie Sie wahrscheinlich bereits wissen, ist Optical Character Recognition (OCR) die elektronische Umwandlung von Bildern von getipptem, handgeschriebenem oder gedrucktem Text in maschinencodierten Text. Die Quelle kann ein gescanntes Dokument, ein Foto eines Dokuments oder ein Untertiteltext sein, der einem Bild aufgedrückt wird. OCR konvertiert solche Quellen in maschinenlesbaren Text.

Lassen Sie uns verstehen, wie eine OCR-Pipeline funktioniert, bevor wir uns eingehender mit Transformer Based OCR befassen.

Eine typische OCR-Pipeline besteht aus zwei Modulen.

Ein Texterkennungsmodul
Ein Texterkennungsmodul

Texterkennungsmodul

‍Das Texterkennungsmodul erkennt, wie der Name schon sagt, wo Text in der Quelle vorhanden ist. Es zielt darauf ab, alle Textblöcke im Textbild zu lokalisieren, entweder auf Wortebene (einzelne Wörter) oder auf Textzeilenebene.

Diese Aufgabe ist vergleichbar mit einem Objekterkennungsproblem, nur hier sind das interessierende Objekt die Textblöcke. Zu den beliebten Algorithmen zur Objekterkennung gehören YoloV4/5, Detectron, Mask-RCNN usw.

Um die Objekterkennung mit YOLO zu verstehen hier klicken.

‍
Texterkennungsmodul

‍
Das Texterkennungsmodul zielt darauf ab, den Inhalt des erkannten Textblocks zu verstehen und die visuellen Signale in natürliche Sprachzeichen umzuwandeln.

Ein typisches Texterkennungsmodul besteht aus zwei Untermodulen.

Modul zur Generierung von Wortstücken
Verstehen von Bildern

Der Arbeitsablauf unter dem Texterkennungsmodul funktioniert wie folgt.

Die einzelnen lokalisierten Textfelder werden beispielsweise auf 224x224 verkleinert und als Eingabe an das Bildverständnismodul übergeben, bei dem es sich in der Regel um ein CNN-Modul (ResNet with self-attention) handelt.
Die Bildmerkmale aus einer bestimmten Netzwerktiefe werden extrahiert und als Eingabe an das Word Piece Generation Module weitergegeben, bei dem es sich um ein RNN-basiertes Netzwerk handelt. Die Ausgabe dieses RNN-Netzwerks besteht aus maschinencodierten Texten der lokalisierten Textfelder.
Mithilfe einer entsprechenden Verlustfunktion wird das Texterkennungsmodul trainiert, bis die Leistung ein optimales Ausmaß erreicht.

Was macht transformatorbasiertes OCR anders?

Transformer-based OCR ist ein durchgängiges, transformatorbasiertes OCR-Modell für die Texterkennung. Dies ist eines der ersten Werke, bei dem vortrainierte Bild- und Texttransformatoren gemeinsam genutzt werden.

Die transformierte OCR sieht wie in der Abbildung unten aus. Auf der linken Seite des Diagramms befindet sich der Vision Transformer Encoder und auf der rechten Seite des Bildes der Roberta (Text Transformer) Decoder.

VITransformator oder Encoder:

Ein Bild wird in NxN-Patches aufgeteilt, wobei jeder Patch ähnlich wie ein Token in einem Satz behandelt wird. Die Bildfelder sind abgeflacht (2D → 1D) und werden linear mit positionellen Einbettungen projiziert. Die lineare Projektion und die positionellen Einbettungen werden durch die Transformator-Encoder-Schichten übertragen.

Im Fall von OCR besteht das Bild aus einer Reihe lokalisierter Textfelder. Um die Konsistenz lokalisierter Textfelder zu gewährleisten, wird die Größe des Bild-/Bildbereichs der Textfelder auf HxW angepasst. Danach wird das Bild in Patches zerlegt, wobei jedes Patch die Größe HW/ (PxP) hat. P ist die Patch-Größe.

Danach werden die Patches abgeflacht und linear auf einen D-dimensionalen Vektor projiziert, bei dem es sich um Patch-Einbettungen handelt. Die Patch-Einbettungen und zwei spezielle Tokens erhalten anhand ihrer absoluten Positionen erlernbare 1D-Positionseinbettungen. Dann wird die Eingabesequenz durch einen Stapel identischer Encoderschichten geleitet.

Jede Transformer-Ebene verfügt über ein Mehrkopf-Selbstaufmerksamkeitsmodul und ein vollständig verbundenes Feed-Forward-Netzwerk. Auf diese beiden Teile folgen eine Restverbindung und eine Lagennormalisierung.

Hinweis: Restverbindungen sorgen für einen Gradientenfluss während der Backpropagation.

‍
Roberta oder Decoder:

Die Ausgangseinbettungen aus einer bestimmten Tiefe der VITransformers werden extrahiert und als Eingabe an das Decoder-Modul übergeben.

Die Ausgangseinbettungen aus einer bestimmten Tiefe der VITransformers werden extrahiert und als Eingabe an das Decoder-Modul übergeben.

Das Decodermodul ist ebenfalls ein Transformator mit einem Stapel identischer Schichten, die ähnliche Strukturen wie die Schichten im Encoder haben, mit der Ausnahme, dass der Decoder die „Encoder-Decoder-Aufmerksamkeit“ zwischen dem Mehrkopf-Selbstaufmerksamkeits- und dem Feedforward-Netzwerk einfügt, um unterschiedliche Aufmerksamkeit auf den Ausgang des Encoders zu verteilen. Im Aufmerksamkeitsmodul für Encoder-Decoder kommen die Schlüssel und Werte vom Encoder-Ausgang, während die Abfragen vom Decoder-Eingang kommen.

Die Einbettungen des Decoders werden von der Modelldimension (768) auf die Dimension der Vokabulargröße V (50265) projiziert.

Die Softmax-Funktion berechnet die Wahrscheinlichkeiten für das Vokabular und wir verwenden die Strahlsuche, um die endgültige Ausgabe zu erhalten.

Vorteile:

TroCR, ein auf Transformern basierendes OCR-Modell für die Texterkennung mit vortrainierten CV- und NLP-Modellen, ist das erste Werk, das gemeinsam vortrainierte Bild- und Texttransformatoren für die Texterkennungsaufgabe in OCR nutzt.
TrOCR erreicht modernste Genauigkeit mit einem standardmäßigen transformatorbasierten Encoder-Decoder-Modell, das faltungsfrei ist und keine komplexen Vor- und Nachbearbeitungsschritte erfordert.

Referenzen:

TrOCR: Transformatorbasierte optische Zeichenerkennung mit vortrainierten Modellen

‍https://arxiv.org/pdf/2109.10282.pdf

Ein Bild sagt mehr als 16 Worte: Transformatoren für die Bilderkennung im großen Maßstab

https://arxiv.org/pdf/2010.11929v2.pdf‍

Sweety Bajaj

Häufig gestellte Fragen

Was ist eine QC-Automatisierungssoftware zur Überprüfung und Prüfung von Hypotheken?

Software zur Überprüfung und Prüfung von Hypotheken ist ein Sammelbegriff für Tools zur Automatisierung und Rationalisierung des Prozesses der Kreditbewertung. Es hilft Finanzinstituten dabei, die Qualität, die Einhaltung der Vorschriften und das Risiko von Krediten zu beurteilen, indem sie Kreditdaten, Dokumente und Kreditnehmerinformationen analysiert. Diese Software stellt sicher, dass Kredite den regulatorischen Standards entsprechen, reduziert das Fehlerrisiko und beschleunigt den Überprüfungsprozess, wodurch er effizienter und genauer wird.

Wie geht IDP mit strukturierten und unstrukturierten Daten mit OCR um?

IDP verarbeitet effizient sowohl strukturierte als auch unstrukturierte Daten, sodass Unternehmen relevante Informationen aus verschiedenen Dokumenttypen nahtlos extrahieren können.

Wie verbessert KI die Genauigkeit der Dokumentenklassifizierung?

KI verwendet Mustererkennung und Natural Language Processing (NLP), um Dokumente genauer zu klassifizieren, selbst bei unstrukturierten oder halbstrukturierten Daten.

Wie verbessert IDP die Genauigkeit von Dokumenten?

IDP nutzt KI-gestützte Validierungstechniken, um sicherzustellen, dass die extrahierten Daten korrekt sind, wodurch menschliche Fehler reduziert und die allgemeine Datenqualität verbessert wird.

Wie kann IDP bei der Prüfung der Qualitätskontrolle helfen?

IDP (Intelligent Document Processing) verbessert die Audit-QC, indem es automatisch Daten aus Kreditakten und Dokumenten extrahiert und analysiert und so Genauigkeit, Konformität und Qualität gewährleistet. Es optimiert den Überprüfungsprozess, reduziert Fehler und stellt sicher, dass die gesamte Dokumentation den behördlichen Standards und Unternehmensrichtlinien entspricht, wodurch Audits effizienter und zuverlässiger werden.

Wie wähle ich die beste Software für die Hypotheken-Qualitätskontrolle aus?

Wählen Sie eine Software, die fortschrittliche Automatisierungstechnologie für effiziente Audits, leistungsstarke Compliance-Funktionen, anpassbare Audit-Trails und Berichte in Echtzeit bietet. Stellen Sie sicher, dass sie sich gut in Ihre vorhandenen Systeme integrieren lässt und Skalierbarkeit, zuverlässigen Kundensupport und positive Nutzerbewertungen bietet.

Transformatorbasiertes OCR-Modell — Bild-zu-Text-Transformator

Transformatorbasiertes OCR-Modell: So funktioniert der OCR-Decoder

Texterkennungsmodul

‍
Texterkennungsmodul

Was macht transformatorbasiertes OCR anders?

VITransformator oder Encoder:

‍
Roberta oder Decoder:

Vorteile:

Sweety Bajaj

Häufig gestellte Fragen

Hast du Fragen?

Sprechen Sie mit einem KI-Experten!

Intelligente Dokumentenverarbeitungslösungen für

Überragende Genauigkeit.

Beschleunigtes Wachstum.

Zuverlässige Konformität.

Optimierter Betrieb.

Überragende Genauigkeit.

Transformatorbasiertes OCR-Modell — Bild-zu-Text-Transformator

Transformatorbasiertes OCR-Modell: So funktioniert der OCR-Decoder

Texterkennungsmodul

‍Texterkennungsmodul

Was macht transformatorbasiertes OCR anders?

VITransformator oder Encoder:

‍Roberta oder Decoder:

Vorteile:

Sweety Bajaj

Häufig gestellte Fragen

Bleib nicht einfach auf dem Laufenden—Führe den Weg!

Das könnte dir auch gefallen

ACORD 80 Automation: The Smarter Way to Handle Homeowner Insurance Applications

ACORD 125: Complete Guide to the Commercial Insurance Application Form (2025 Update)

9 Best Data Extraction Software: A Practical Buyer’s Guide

Hast du Fragen?

Sprechen Sie mit einem KI-Experten!

Intelligente Dokumentenverarbeitungslösungen für

Überragende Genauigkeit.

Beschleunigtes Wachstum.

Zuverlässige Konformität.

Optimierter Betrieb.

Überragende Genauigkeit.

‍
Texterkennungsmodul

‍
Roberta oder Decoder: