OCR & Computer Vision 10 Minuten Lesezeit

Wie traditionelle OCR in der Computer Vision eingesetzt wird

Ein verständlicher und wissenschaftlich fundierter Blick darauf, wie klassische OCR-Verfahren aufgebaut sind und warum sie bis heute Teil moderner Bildverarbeitungssysteme bleiben.

Veröffentlicht am 07. Juni 2025

Ein herkömmliches, gestricheltes Blatt Papier, dessen Inhalt von einer Kamera erfasst und verarbeitet wird.

Autoren

Philip Zetterberg
Software AI Engineer, TRENPEX

Mitwirkende

Dr. Christian Schüller
Head of Software Development, TRENPEX

Angie Zetterberg
Public Relations, TRENPEX

Abonnieren Sie unseren Newsletter

Teilen

Welche Rolle klassische OCR in modernen Bildverarbeitungssystemen spielt

In vielen betrieblichen Abläufen entstehen heute Bilddaten, die in irgendeiner Form Text enthalten: gescannte Dokumente, Fotos von Typenschildern, Etiketten in der Logistik, Seriennummern auf Bauteilen, Messwerte auf Displays oder handschriftliche Notizen auf Formularen. Um diese Informationen effizient nutzen zu können, braucht es Verfahren, die Text aus einem Bild erkennen und in weiterverarbeitbare Form bringen. Optical Character Recognition – kurz OCR – ist dafür die zentrale Technik.

Während maschinelles Lernen heutzutage oft im Vordergrund steht, werden in vielen Systemen weiterhin klassische Methoden der Computer Vision eingesetzt. Das liegt nicht daran, dass diese Verfahren „besser“ wären, sondern daran, dass sie unter bestimmten Bedingungen zuverlässig und stabil funktionieren: etwa dann, wenn die Beleuchtung kontrolliert ist, die Schriftarten konstant sind oder Hardware nur begrenzte Rechenleistung bietet. Klassische OCR ist daher kein Gegenmodell zu KI, sondern ein Baustein innerhalb eines gesamten technischen Werkzeugkastens.

Aufbau traditioneller OCR

Die grundlegenden Verfahren, die OCR ermöglichen, sind seit Jahrzehnten gut erforscht. In der Literatur lässt sich ein nahezu einheitlicher Aufbau solcher Systeme finden¹ – ein Ablauf, der sich in der Praxis bewährt hat und deshalb bis heute verwendet wird.² Am Anfang steht die Aufbereitung des Bildes, gefolgt von der Trennung von Text und Hintergrund. Erst wenn diese beiden Schritte sauber funktionieren, können nachgelagerte Prozesse wie Segmentierung oder Klassifikation zuverlässige Ergebnisse liefern.

Die Vorverarbeitung und die Binarisierung sind deshalb zentrale Elemente klassischer OCR. Sie definieren, wie „klar“ das Bild für alle weiteren Analysen wird. Und sie entscheiden darüber, ob ein System später tatsächlich Zeichen erkennt – oder ob es an Rauschen, Schatten oder schwachem Kontrast scheitert.

Vorverarbeitung: Bilder in einen verlässlichen Zustand bringen

In der Praxis ist kein Bild perfekt. Rauschen, Schatten, ungünstige Beleuchtung, verwackelte Aufnahmen oder schiefe Perspektiven können die Erkennung erschweren. Die Vorverarbeitung hat daher die Aufgabe, das Bild so zu optimieren, dass die relevanten Textstrukturen möglichst unverfälscht vorliegen. Dieser Schritt ist besonders für klassische, regelbasierte OCR-Verfahren wichtig, da diese Methoden keine Lernmechanismen besitzen, die Schwächen automatisch kompensieren.

Ein typisches Problem ist das Bildrauschen. Es tritt besonders dann auf, wenn Bilder unter schwierigen Lichtverhältnissen aufgenommen werden oder wenn die Kamera eine geringe Qualität hat. Um diese Störungen zu reduzieren, werden verschiedene Filter verwendet. Der Bilateral Filter, der von Tomasi und Manduchi 1998 beschrieben wurde, ist dabei ein häufig eingesetztes Werkzeug.³ Er erhält Kanten, während er gleichzeitig das Rauschen glättet – eine Eigenschaft, die für Textbilder besonders wertvoll ist.

Auch der Kontrast spielt eine große Rolle. Verblasste Drucke oder schwache Helligkeitsunterschiede zwischen Schrift und Hintergrund erschweren die spätere Trennung der Bildbereiche. Verfahren wie die adaptive Histogramm-Equalisierung – insbesondere das bekannte CLAHE-Verfahren – haben sich bewährt, um lokale Kontrastunterschiede auszugleichen und Details deutlicher hervortreten zu lassen.⁴ Gerade bei Scans und schlechten Fotos kann dies einen direkten Einfluss auf die Erkennungsqualität haben.

Ein weiteres klassisches Thema ist die Ausrichtung. Schon geringe Schräglagen können dazu führen, dass Zeilen nicht richtig erkannt oder Zeichen später falsch segmentiert werden. Um dies zu verhindern, analysieren viele Systeme die Bildstruktur, etwa mit der Hough-Transformation oder anhand von Textlinienprojektionen. Arbeiten wie die von Leedham et al.⁵ zeigen, wie effektiv solche Korrekturen selbst bei stark beeinträchtigten Dokumenten sein können.

Zusätzlich spielt die Beleuchtung eine große Rolle. In industriellen Umgebungen oder bei mobilen Aufnahmen ist es selten der Fall, dass ein Bild gleichmäßig ausgeleuchtet ist. Schatten, Reflexionen oder glänzende Oberflächen führen leicht dazu, dass Texte teilweise überstrahlt oder zu dunkel erscheinen. Methoden wie das Homomorphic Filtering⁶ oder die Top-Hat-Transformation aus der mathematischen Morphologie⁷ tragen dazu bei, den Beleuchtungseinfluss zu reduzieren und die eigentliche Struktur des Texts freizulegen.

Durch diese Kombination aus Rauschunterdrückung, Kontrastanpassung, geometrischer Korrektur und Beleuchtungsnormalisierung entsteht ein Bild, das eine stabile Grundlage für alle nachfolgenden Schritte bietet.

Binarisierung: Die grundlegende Entscheidung im Bild

Nachdem das Bild stabilisiert wurde, folgt ein Schritt, der für klassische OCR-Systeme von zentraler Bedeutung ist: die Binarisierung. Dabei wird das Graustufenbild in ein Schwarz-Weiß-Bild umgewandelt. Das klingt einfach, hat aber weitreichende Konsequenzen, denn viele der folgenden Verfahren – wie Segmentierung oder Formanalyse – arbeiten ausschließlich mit binären Bildern.

Die bekannteste globale Methode ist die Otsu-Schwellenwertbestimmung, die 1979 veröffentlicht wurde.⁸ Sie berechnet automatisch einen Grenzwert, der das Bild so teilt, dass die Varianz zwischen Vordergrund und Hintergrund maximiert wird. Für Bilder mit homogener Beleuchtung liefert Otsu oft sehr gute und reproduzierbare Ergebnisse. In kontrollierten Umgebungen – etwa bei Scans oder definierten Industrieaufbauten – kann ein solches Verfahren zuverlässig funktionieren.

In vielen praktischen Szenarien sind die Lichtverhältnisse jedoch nicht einheitlich. Schatten, glänzende Oberflächen oder lokale Helligkeitsschwankungen führen dazu, dass ein einziger Schwellenwert nicht ausreicht. Hier kommen adaptive Verfahren ins Spiel. Niblack⁹, Sauvola und spätere Erweiterungen wie die von Wolf und Jolion¹⁰ berechnen den Schwellenwert für jeden Bildbereich individuell. Dadurch passen sie sich lokalen Gegebenheiten an und können Text auch dann extrahieren, wenn große Helligkeitsunterschiede vorliegen.

Die Binarisierung entscheidet maßgeblich darüber, ob Text später sauber getrennt, segmentiert und klassifiziert werden kann. Entsprechend ist sie seit vielen Jahren Gegenstand intensiver Forschung. Wettbewerbe wie „DIBCO“ zeigen, dass dieser Bereich bis heute weiterentwickelt wird – nicht zuletzt, weil er auch in modernen OCR-Pipelines als Vorverarbeitungsschritt eine Rolle spielt.

Wie Kantenerkennung und Segmentierung den Weg zur Zeichenerkennung ebnen

Nachdem ein Bild ausreichend stabilisiert und in eine zweistufige Darstellung überführt wurde, stellt sich die Frage, wie aus dieser Masse an Pixeln einzelne, klar voneinander abgegrenzte Zeichen entstehen. Für den Menschen wirkt dieser Prozess selbstverständlich: Wir erkennen sofort, wo ein Buchstabe beginnt und wo er endet. Computer hingegen benötigen dafür eigene Verfahren, die aus den Helligkeitsverläufen des Bildes Strukturen ableiten. Zwei Schritte spielen dabei eine zentrale Rolle: die Kantenerkennung und die Segmentierung.

Kantenerkennung dient dazu, die wesentlichen Konturen eines Zeichens herauszuarbeiten. Während die Binarisierung lediglich Vorder- und Hintergrund trennt, liefern Kanten Informationen über Form, Ausrichtung und Übergänge zwischen Strukturen. Eine Kante ist im technischen Sinne nichts weiter als ein Punkt starker Helligkeitsänderung. Doch diese Punkte sind für die Computer Vision entscheidend, weil sie Hinweise auf Linien, Rundungen oder geschlossene Formen liefern – also genau jene Eigenschaften, die einen Buchstaben oder eine Ziffer ausmachen.

Bereits in den 1960er- und 1980er-Jahren wurden Verfahren entwickelt, die bis heute als Grundlage vieler Bildverarbeitungspipelines dienen. Der Sobel-Operator ist eines der bekanntesten Beispiele dafür. Er reagiert auf Helligkeitsänderungen entlang der horizontalen und vertikalen Achse und liefert dadurch ein klares Bild darüber, wo im Bild Struktur vorhanden ist.¹¹ Für viele technische Anwendungen, in denen die Beleuchtung konstant ist und die Objekte eine definierte Form haben, ist Sobel oft vollkommen ausreichend.

Etwas feinfühliger arbeitet der Laplace-Operator, der nicht auf den ersten, sondern auf den zweiten Helligkeitsverlauf reagiert. In Kombination mit einer Glättung – bekannt als „Laplacian of Gaussian“ (LoG) – werden dabei auch schwache oder dünne Konturen sichtbar, die in manchen Szenarien von Bedeutung sind.¹² Besonders interessant wurde dieses Verfahren, als Marr und Hildreth 1980 eine theoretische Grundlage dafür lieferten, wie visuelle Systeme Kanten wahrnehmen. Die Idee, dass sowohl Glättung als auch Ableitung zusammengehören, findet sich bis heute in vielen industriellen OCR-Systemen wieder.

Der wohl bekannteste Algorithmus in diesem Bereich ist der Canny-Edge-Detector. John Canny hat 1986 ein Verfahren veröffentlicht, das bis heute als „optimale“ Kantenerkennung gilt.¹³ Es kombiniert Glättung, Gradientenanalyse und eine sogenannte Hysterese-Schwellenwertbildung, wodurch stabile und geschlossene Kanten entstehen. Diese Eigenschaft ist für die Segmentierung besonders wertvoll, weil das System dadurch nicht nur erkennt, dass irgendwo eine Struktur existiert, sondern ob diese Struktur tatsächlich zusammenhängend ist – eine Voraussetzung für die spätere Trennung in einzelne Zeichen.

Sobald die wesentlichen Kanten eines Bildes sichtbar gemacht wurden, stellt sich die nächste Frage: Wie werden aus diesen Konturen einzelne, separat analysierbare Bereiche? Dieser Schritt wird in der Forschung seit langem als Segmentierung beschrieben. Dabei wird das Bild in Einheiten zerlegt, die für die spätere Klassifikation relevant sind: Zeilen, Wörter und schließlich einzelne Zeichen. Die Qualität dieser Segmentierung entscheidet maßgeblich darüber, wie gut ein OCR-System am Ende funktioniert.

Eine der grundlegenden Methoden zur Zeichensegmentierung ist die „Connected Component Analysis“ (CCA). Hierbei wird das Bild so betrachtet, als bestünde es aus Ansammlungen zusammenhängender Pixel. Jedes Cluster, das eine gemeinsame Verbindung hat, wird als eigene Komponente behandelt.¹⁴ In vielen Fällen entspricht diese Komponente einem Zeichen oder zumindest einem logisch zusammengehörigen Teil. Der Ansatz ist vergleichsweise einfach, lässt sich aber äußerst effizient umsetzen. Deshalb kommt CCA auch heute noch in zahlreichen industriellen Anwendungen zum Einsatz, etwa in der Seriennummernerkennung oder bei klar strukturierten Etiketten.

Wenn die Strukturen komplexer sind – beispielsweise bei verschmolzenen Zeichen oder unruhigen Hintergründen –, reichen rein zusammenhängende Pixel oft nicht aus. Dann wird häufig die Konturenerkennung eingesetzt. Verfahren wie das von Suzuki und Abe 1985 entwickelte Konturen-Following-Verfahren analysieren geschlossene Linienzüge und können dadurch die äußere Form eines möglichen Zeichens sehr präzise erfassen.¹⁵ Durch die Kombination aus Konturenerkennung und einfachen morphologischen Operationen wie Dilatation oder Erosion lassen sich auch Fälle bearbeiten, bei denen die Schrift stark gestört oder teilweise beschädigt ist.

Am Ende dieser Schritte entstehen meist rechteckige Bereiche im Bild – sogenannte Bounding Boxes. Sie markieren die Regionen, die später klassifiziert werden sollen. Eine Bounding Box ist gewissermaßen das „Päckchen“, das das System einem Klassifikationsalgorithmus übergibt: ein sauber isoliertes Bildfragment, das ein einzelnes Zeichen oder Symbolelement enthält. Die Qualität dieser Boxen hat unmittelbaren Einfluss auf die Erkennungsgenauigkeit. Wird ein Zeichen unvollständig ausgeschnitten oder enthält die Box noch störende Hintergrundstrukturen, können spätere Klassifikationsverfahren leicht falsche Zuordnungen treffen.

Segmentierung und Kantenerkennung bilden zusammen die Brücke zwischen einem rohen Bildsignal und der eigentlichen Zeichenerkennung. Sie sorgen dafür, dass das, was später klassifiziert wird, nicht ein beliebiger Bildausschnitt ist, sondern ein gut definiertes, strukturiertes Fragment. Erst durch diese Schritte wird aus einem komplexen Bild die Grundlage für eine präzise Texterkennung geschaffen.

Wie traditionelle OCR Zeichen klassifiziert – und warum Formmerkmale dabei eine zentrale Rolle spielen

Nachdem ein Bild segmentiert und in einzelne Zeichen zerlegt wurde, stellt sich die entscheidende Frage: Wie erkennt das System, welcher Buchstabe, welche Ziffer oder welches Symbol in dem ausgeschnittenen Bereich enthalten ist? Moderne Ansätze nutzen dafür neuronale Netze, aber bevor maschinelles Lernen in der breiten Anwendung angekommen ist, wurde diese Aufgabe über viele Jahre hinweg mit klassischen Methoden gelöst. Diese Verfahren basieren nicht auf Wahrscheinlichkeiten, sondern auf geometrischen, strukturellen und statistischen Eigenschaften der Zeichen.

Ein Ansatz, der besonders früh genutzt wurde, ist das sogenannte Template Matching. Hierbei wird das isolierte Zeichen direkt mit Vorlagen verglichen, die als Referenz dienen. Die Idee dahinter ist einfach: Wenn zwei Muster ähnlich genug sind, handelt es sich wahrscheinlich um das gleiche Zeichen. Dieses Verfahren ist vor allem in Umgebungen nützlich, in denen nur wenige Schriftarten oder sehr klar strukturierte Zeichen vorkommen. Typische Beispiele dafür sind geprägte Seriennummern, Typenschilder oder Etiketten mit standardisierten Symbolen. Solange Form, Größe und Layout stabil sind, liefert Template Matching sehr zuverlässige Ergebnisse – und das mit vergleichsweise geringem Rechenaufwand.

Mit der Zeit entwickelte sich die Klassifikation weiter und wurde zunehmend durch Merkmalsextraktion ergänzt. Statt ein Zeichen als ganzes Bild zu vergleichen, untersuchten Forscher, welche Eigenschaften für die Unterscheidung besonders relevant sind. So entstanden Deskriptoren wie der „Histogram of Oriented Gradients“ (HOG), den Dalal und Triggs 2005 vorgestellt haben.¹⁶ HOG beschreibt, in welche Richtungen die Kanten in einem Bild zeigen und wie stark diese ausgeprägt sind. Diese Merkmale bilden eine Art „Fingerabdruck“ eines Zeichens: gleich genug, um zugehörige Varianten zu erkennen, und unterschiedlich genug, um sie von anderen Buchstaben oder Zahlen abzugrenzen.

Ein weiterer Meilenstein waren Merkmalsmethoden wie SIFT und SURF, die auf lokalen Strukturpunkten basieren. SIFT (Scale-Invariant Feature Transform), erstmals von David Lowe beschrieben, identifiziert besonders markante Punkte im Bild und beschreibt deren Umgebung.17 SURF (Speeded Up Robust Features) verkürzt diesen Prozess und ermöglicht schnellere Berechnungen.18 Auch wenn diese Verfahren ursprünglich für allgemeine Objekterkennung entwickelt wurden, fanden sie in der OCR-Praxis immer wieder Anwendung – insbesondere bei Symbolen oder nicht standardisierten Schriftformen, bei denen klassische Verfahren an ihre Grenzen stoßen.

Neben diesen globalen und lokalen Merkmalen existieren weitere mathematische Beschreibungen von Formen, etwa die Analyse geschlossener Kurven. Fourier-Deskriptoren, Zernike-Momente oder der Shape-Context-Ansatz von Belongie et al.19 zeigen, wie vielfältig die Forschung zur Formbeschreibung ist und wie tief das Thema über Jahrzehnte untersucht wurde. Ziel dieser Methoden ist es immer, ein Zeichen so zu beschreiben, dass selbst kleine Unterschiede zwischen Symbolen zuverlässig erkannt werden können – unabhängig davon, ob sie gedruckt, geprägt oder leicht verzerrt sind.

In vielen klassischen OCR-Systemen folgt auf diese Merkmalsextraktion ein regelbasierter oder statistischer Klassifikator. Das können einfache Distanzmaße sein, aber auch Modelle wie Support Vector Machines, die in den 1990er- und 2000er-Jahren weit verbreitet waren. Die Kombination aus klar definierten Merkmalen und einem gut trainierten Klassifikator bildet dabei ein robustes Gesamtsystem, das in vielen kontrollierten Szenarien bis heute zuverlässig funktioniert.

Interessant ist, dass selbst moderne, KI-basierte OCR-Systeme Teile dieser traditionellen Ansätze weiterhin nutzen. Die Vorverarbeitung, die Segmentierung oder die geometrische Normalisierung werden häufig nach klassischen Prinzipien umgesetzt, weil sie deterministisch und gut kontrollierbar sind. Während neuronale Netze die Mustererkennung übernehmen, sorgt die klassische Bildverarbeitung dafür, dass die Eingangsdaten dafür in einem konsistenten Zustand vorliegen.

Das Zusammenspiel von segmentierten Zeichen, extrahierten Merkmalen und einem Klassifikator bildet den Abschluss des klassischen OCR-Prozesses. Aus einem ursprünglichen Bild – sei es ein Scan, ein Foto oder eine Aufzeichnung aus einer Produktionsanlage – entsteht am Ende eine strukturierte, maschinenlesbare Information. Dieser Übergang vom visuellen Signal zur digitalen Datenbasis ist der Kern der OCR.

Einordnung und Ausblick

Traditionelle Verfahren der Computer Vision spielen heute vor allem dort eine Rolle, wo stabile Bedingungen herrschen, deterministische Entscheidungen wichtig sind oder wenig Rechenleistung zur Verfügung steht. Viele industrielle Systeme, Prüfstationen oder Scannerlösungen greifen weiterhin auf diese Konzepte zurück – nicht aus nostalgischen Gründen, sondern weil sie für bestimmte Aufgaben schlicht ausreichend und verlässlich sind.

Gleichzeitig hat der Aufstieg moderner Deep-Learning-Modelle die OCR-Landschaft grundlegend verändert. ML-basierte Systeme erzielen bei komplexen Schriften, unstrukturierten Hintergründen oder handschriftlichen Texten deutliche Vorteile. Statt sich zwischen klassischen und ML-basierten Methoden entscheiden zu müssen, kombinieren viele Unternehmen heute beide Ansätze: Klassische Verfahren sorgen für Vorverarbeitung und Struktur, während neuronale Netze die eigentliche Erkennung übernehmen.

Diese Kombination zeigt, dass traditionelle OCR zwar nicht mehr allein im Mittelpunkt steht, aber weiterhin ein wichtiger Bestandteil moderner Bildverarbeitungspipelines ist. Sie stellt Funktionen bereit, die in klar definierten Umgebungen nach wie vor sehr zuverlässig arbeiten und auf denen selbst moderne Verfahren aufbauen können.

Referenzen

¹Vgl. Govindan & Shivaprasad – Character recognition: A review, 1990

²Vgl. Trier, Jain & Taxt – Feature extraction methods for character recognition: A survey, 1996

³Vgl. Tomasi & Manduchi – Bilateral Filtering for Gray and Color Images, 1998

⁴Vgl. Pizer et al. – Adaptive Histogram Equalization and its Variations, 1987

⁵Vgl. Leedham et al. – Separating Text and Background in Degraded Document Images, 2002

⁶Vgl. Oppenheim et al. – Homomorphic Filtering, 1968

⁷Vgl. Serra – Image Analysis and Mathematical Morphology, 1982

⁸Vgl. Otsu – A threshold selection method from gray-level histograms, 1979

⁹Vgl. Niblack – An introduction to digital image processing, 1986

¹⁰Vgl. Wolf & Jolion – Extraction and Recognition of Artificial Text in Multimedia Documents, 2005

¹¹Vgl. Sobel & Feldman – A 3x3 isotropic gradient operator for image processing, 1968

¹²Vgl. Marr & Hildreth – Theory of edge detection, 1980

¹³Vgl. Canny – A computational approach to edge detection, 1986

¹⁴Vgl. Jain & Zhong – Page segmentation using texture analysis, 1996

¹⁵Vgl. Suzuki & Abe – Topological structural analysis of digitized binary images by border following, 1985

¹⁶Vgl. Dalal & Triggs – Histograms of Oriented Gradients for Human Detection, 2005

¹⁷Vgl. Lowe – Distinctive Image Features from Scale-Invariant Keypoints, 2004

¹⁸Vgl. Bay et al. – SURF: Speeded Up Robust Features, 2006

¹⁹Vgl. Belongie et al. – Shape Matching and Object Recognition using Shape Contexts, 2002

Möchten Sie noch mehr über OCR und Computer Vision erfahren?

Unser Team hilft Ihnen gerne weiter — kontaktieren Sie uns einfach, wenn Sie Fragen zu den Themen OCR und Computer Vision haben.

Kontakt aufnehmen