Pfeil-Icon linksPfeil-Icon nach links um einen Link zu symbolisieren Alle Beiträge
OCR & Computer Vision 10 bis 15 Minuten Lesezeit

Traditionelle Computer Vision und moderne ML-Methoden im Vergleich – Warum reale Szenen neue Lösungen erfordern

Eine analytische Betrachtung typischer Bildverarbeitungsprobleme und warum Machine-Learning-Ansätze in vielen realen Situationen die klassischen Verfahren übertreffen. Oder wie man Äpfel mit Tomaten vergleicht.

Veröffentlicht am 03. Dezember 2025

Vergleich zwischen zwei Objekten zur Veranschaulichung des Unterschieds zwischen klassischer Bildverarbeitung und moderner Machine-Learning-Erkennung: Links ein grüner Apfel als einfaches, klar strukturiertes Objekt, rechts eine rote Tomate als komplexeres Motiv.

Autoren

Profilbild des Autors des Blogbeitrags.

Philip Zetterberg
Software AI Engineer, TRENPEX


Mitwirkende

Profilbild des Autors des Blogbeitrags.

Angie Zetterberg
Public Relations, TRENPEX


Abonnieren Sie unseren Newsletter


Teilen

LinkedIn-LogoLinkedIn-Logo mit Link zu unserem LinkedIn-Account Reddit-LogoReddit-Logo mit Link zu unserem Reddit-Account

Warum klassische Computer Vision in realen Szenen schnell an Grenzen stößt

Über viele Jahrzehnte hinweg stützten sich Bildverarbeitungssysteme auf feste Regeln, mathematische Operatoren und handgefertigte Merkmale. Diese Verfahren sind präzise, gut erklärbar und in kontrollierten Umgebungen äußerst zuverlässig. Sobald jedoch reale Bedingungen ins Spiel kommen – wechselndes Licht, Schatten, Texturen, Regen, Reflexionen oder variierende Farben – verändert sich das Verhalten dieser Algorithmen drastisch. Ein Verfahren, das unter Studiobedingungen perfekte Ergebnisse liefert, kann bereits an beispielsweise wenigen Regentropfen scheitern.

Diese Diskrepanz hat wenig mit der Qualität der klassischen Methoden zu tun. Sie liegt vielmehr in ihrem Grundprinzip: Ein Algorithmus wie der Sobel-Operator oder eine globale Binarisierung trifft Entscheidungen auf Basis deterministischer Schwellenwerte. Wird ein Bereich im Bild plötzlich dunkler oder heller, verschiebt sich das gesamte Histogramm, und die Parameter, die zuvor ideal waren, funktionieren nicht mehr. Dieser Effekt ist in der wissenschaftlichen Literatur seit Langem bekannt. Bereits Otsu wies in seiner ursprünglichen Arbeit darauf hin, dass globale Schwellenwertverfahren empfindlich auf Beleuchtungsschwankungen reagieren.¹

Machine-Learning-Modelle – insbesondere Deep-Learning-basierte Architekturen – haben diese Einschränkungen entscheidend verändert. Sie basieren nicht darauf, dass jedes Pixel einen festen Schwellenwert erfüllen muss, sondern darauf, dass Muster, Formen und Kontexte im Bild gelernt werden. Dadurch sind sie in der Lage, Variationen zu tolerieren, die klassische Verfahren zum Erliegen bringen. Die Unterschiede werden besonders deutlich, wenn man konkrete Szenarien betrachtet, die in realen Anwendungen immer wieder auftreten.

Ein Regentropfen als systematisches Problem klassischer CV

Ein einzelner Tropfen Wasser kann für ein traditionelles OCR-System eine fast unüberwindbare Hürde darstellen. Der Grund dafür ist einfach: Wenn Wasser auf einer Oberfläche liegt, bricht es das Licht, verändert lokale Kontraste und erzeugt Muster, die für ein regelbasiertes System nicht vorgesehen sind.

Stellen wir uns etwa eine Seriennummer auf einem Metallgehäuse vor, aufgenommen im Außenbereich. Ein Tropfen trifft genau auf eine Ziffer. Aus Sicht klassischer CV entsteht an dieser Stelle eine unregelmäßige Helligkeitsverteilung: Teile der Ziffer werden überstrahlt, andere abgedunkelt, und der Übergang wirkt glatt statt kantig.

Ein Kantenoperator wie Sobel oder Canny "interpretiert" diese verzerrten Gradienten als zusätzliche Strukturen, was zu einer Übersegmentierung oder sogar zu komplett verlorenen Zeichen führt. Arbeiten wie jene von Marr & Hildreth² sowie später von Canny³ selbst betonen, wie empfindlich Kantenverfahren gegenüber solchen Störungen sind.

Ein Deep-Learning-Modell dagegen berechnet seine Entscheidung nicht auf Basis einzelner Pixel oder nur lokaler Gradienten, sondern auf Basis globaler Muster. Die Form der Ziffer, ihr Kontext, ihre relative Größe sowie zuvor gesehene Variationen werden gemeinsam interpretiert. Ein Tropfen mag die lokale Struktur verzerren – aber die globale Gestalt bleibt für ein trainiertes Netzwerk erkennbar.

Modelle wie CRAFT oder CRNN zeigen in der Praxis, dass solche Verzerrungen kaum Einfluss auf die Detektion oder Erkennung haben, sofern ähnliche Beispiele während des Trainings berücksichtigt wurden. Die Robustheit gegenüber solchen Störungen ist einer der Gründe, weshalb ML-basierte OCR-Methoden in Außenbereichen, bei Maschineninstallationen oder in der Qualitätskontrolle zunehmend unverzichtbar werden.

Schatten und variable Beleuchtung – ein klassisches Problem, das ML systematisch löst

Ein weiteres Feld, in dem traditionelle Verfahren schnell instabil werden, ist die Beleuchtung. Schon geringe Veränderungen – ein Schatten eines Fingers, eine Wolke, eine reflektierende Oberfläche – können die Binärtrennlinie so stark verändern, dass ganze Zeichen verschwinden oder zusammenkleben.

Das Problem ist wissenschaftlich gut dokumentiert. In den Arbeiten von Serra zur mathematischen Morphologie⁴ sowie im Kontext adaptiver Binarisierung⁵ wird immer wieder beschrieben, dass Beleuchtung ein zentraler Störfaktor ist. Auch adaptive Methoden wie Sauvola oder Wolf arbeiten zwar lokal, bleiben jedoch abhängig von der Verteilung der Intensitäten im jeweiligen Ausschnitt.

Maschinelles Lernen geht an diese Situation grundlegend anders heran. Ein Modell lernt, wie Text unter sehr unterschiedlichen Beleuchtungsbedingungen aussieht: hell, dunkel, reflektierend, von Schatten durchzogen oder teilweise verdeckt. Der entscheidende Punkt ist, dass das Modell nicht den absoluten Wert eines Pixels interpretiert, sondern sein Muster. Text ist in dieser Sichtweise nicht „heller als der Hintergrund“, sondern ein visuelles Objekt mit Form, Struktur und Kontext.

Studien zu robusten Texterkennungsmodellen – etwa die Arbeiten zu SynthText (Gupta et al., 2016)⁶ oder später zu TextFuseNet (2020)⁷ – zeigen, dass selbst komplexe Szenen mit stark variierenden Lichtbedingungen zuverlässig verarbeitet werden können. Die Modelle abstrahieren von der Beleuchtung und konzentrieren sich auf die invarianten Eigenschaften des Texts.

Wenn Farben und Materialeigenschaften die Regeln brechen

Während traditionelle OCR oft mit Schwarz-Weiß-Bildern arbeitet oder zumindest davon ausgeht, dass Text im Kontrast zum Hintergrund steht, sieht die Realität anders aus: farbige Etiketten, gelaserte Beschriftungen, matte und glänzende Materialien, transparente Oberflächen.

Ein klassisches Beispiel ist gelaserter Text auf Metall. Unter bestimmten Blickwinkeln wirkt der Text dunkler als der Hintergrund, unter anderen heller. Eine feste Entscheidungsregel wie „Text = dunkler Bereich“ funktioniert hier schlicht nicht. Ähnliche Probleme entstehen auf farbigen Kunststoffgehäusen, bei lackierten Flächen oder bei digital gedruckten Etiketten, deren Farbbeschichtung je nach Winkel variabel reflektiert.

Maschinelles Lernen – insbesondere CNN- und Transformer-basierte Modelle – interpretiert die Struktur eines Zeichens unabhängig von seiner absoluten Farbe. Forschung im Bereich der „Scene Text Recognition“ (STR) zeigt seit Jahren, wie gut Modelle solche Variationen ausgleichen können. Jaderberg et al. (2016)⁸ und Baek et al. (2019)⁹ betonen, dass farbliche und materielle Variationen keinen strukturellen Einfluss auf die Erkennungsleistung haben, solange das Modell ausreichend Beispiele gesehen hat.

Damit verschiebt sich der Fokus weg von festen Regeln hin zu einer datengetriebenen Robustheit, die klassische Verfahren kaum abbilden können.

Warum komplexe Geometrie und Perspektive klassische Verfahren überfordern

Sobald Text nicht mehr flach, sauber gedruckt oder orthogonal zur Kamera ausgerichtet ist, geraten traditionelle Verfahren in eine schwierige Lage. Die Annahme, dass Zeichen bestimmte geometrische Eigenschaften besitzen – gerade Linien, klare Konturen, definierte Breiten – trifft in realen Szenen häufig nicht zu. Schon leichte Perspektivverzerrungen können dafür sorgen, dass Buchstaben gestaucht, gedehnt oder schief erscheinen. Das beeinflusst sowohl die Kantenerkennung als auch die Segmentierung, denn die Verfahren orientieren sich an Gradienten, deren Verlauf sich unter Perspektive dramatisch verändert.

Ein klassisches Beispiel ist Text, der auf einem zylindrischen oder gekrümmten Objekt angebracht ist, etwa auf Flaschen, Rohren oder Werkzeuggehäusen. Für klassische CV entsteht dadurch eine unregelmäßige Projektion: Linien, die in der Realität parallel sind, wirken gebogen; Abstände wirken inkonsistent; ganze Zeichen können sich überlappen oder in der Binarisierung lokal verloren gehen. Studien zur Dokumentenerkennung aus den frühen 2000er-Jahren – etwa die Arbeiten von Liang, Li und Doermann – zeigen eindrücklich, wie stark perspektivische Verzerrungen die OCR-Qualität beeinflussen.¹⁰

Deep-Learning-Modelle hingegen lernen diese Variationen direkt aus den Daten. Statt anzunehmen, dass ein Zeichen eine bestimmte geometrische Form besitzt, lernt das Modell, welche Merkmale invariant gegenüber Transformationen sind. Schon die frühen CNN-Modelle wie LeNet waren in begrenztem Maße transformationsinvariant. Mit modernen Architekturen – etwa Spatial Transformer Networks, die von Jaderberg et al. 2015 vorgestellt wurden – entstand eine systematische Möglichkeit, Verzerrungen direkt innerhalb des Modells zu korrigieren.¹¹ Diese Schichten ermöglichen es einem Netzwerk, Bildbereiche aktiv zu „entkrümmen“ oder geometrisch zu normalisieren, bevor sie weiterverarbeitet werden.

In der Praxis führt das dazu, dass Text auch dann zuverlässig erkannt wird, wenn er auf schiefen Oberflächen, unebenen Materialien oder unruhigen Hintergründen angebracht ist. Das Modell erkennt nicht einzelne Pixel oder Kanten, sondern das zugrunde liegende Muster des Zeichens. Selbst wenn die Kontur einer Zahl im Bild verzogen oder gedehnt wirkt, bleibt ihre Struktur für ein entsprechend trainiertes neuronales Netz erkennbar.

Verzogene oder beschädigte Zeichen als Herausforderung für handwerkliche Bildverarbeitung

Ein weiteres Feld, in dem klassische Bildverarbeitung schnell an Grenzen stößt, sind Beschädigungen. Sobald ein Zeichen Kratzer, Abnutzungen oder partielle Ausfälle aufweist, verliert ein regelbasiertes System die notwendigen visuellen Anhaltspunkte. Die Entscheidung basiert auf der Annahme, dass bestimmte Linien oder Kurven im Bild vorhanden sind. Fehlen diese aufgrund von Verschleiß, interpretiert das System das Zeichen entweder falsch oder erkennt es überhaupt nicht mehr.

Man denke etwa an eingelaserte Seriennummern auf Metall, die nach ein paar Jahren durch Reibung oder Korrosion teilweise unlesbar werden. Ein klassisches OCR-System würde versuchen, die fehlenden Pixel zu ergänzen oder mit Morphologie-Operatoren zu verstärken. Doch diese Operationen verstärken zugleich das Rauschen und erzeugen zusätzliche Artefakte – ein bekanntes Problem, das in der Literatur zu Morphologie und Segmentierung immer wieder beschrieben wird.⁴

ML-Modelle agieren hier grundlegend anders. Sie lernen nicht die perfekte Form eines Zeichens, sondern das Konzept eines Zeichens. Selbst wenn Teile fehlen, können tiefere Netzwerke auf Basis globaler Merkmale erkennen, welches Zeichen ursprünglich gemeint war. Die Fähigkeit, unvollständige Informationen korrekt zu interpretieren, wurde in mehreren Studien zu robusten Sequenzmodellen dokumentiert, etwa in den Arbeiten von Cheng et al. (2017)¹² und später in den Benchmarks von Baek et al. (2019)9.

Diese Modelle orientieren sich nicht an einzelnen Konturen, sondern an strukturellen Eigenschaften wie relativen Proportionen, typischen Übergängen oder kontextuellen Abhängigkeiten zwischen benachbarten Zeichen. Dadurch werden selbst beschädigte Bereiche durch das Gesamtbild ergänzt – eine Fähigkeit, die klassische CV nur in Ausnahmefällen mit sehr hohem manuellen Aufwand erreichen kann.

Schriftartenvielfalt: Ein Problem der Regeln, nicht der Daten

Ein weiterer Punkt, der klassische CV schnell überfordert, ist die große Vielfalt unterschiedlicher Schriftarten, Strichbreiten, Abstände und Stile. Jede neue Schriftart stellt für ein regelbasiertes OCR-System eine Fülle an Anpassungen dar: neue Vorlagen, neue Schwellenwerte, neue Segmentierungsregeln.

Traditionell wurde versucht, dieses Problem durch Vorlagen oder Merkmalsdeskriptoren einzudämmen. Doch selbst Merkmale wie HOG oder Zernike-Momente – so wertvoll sie sind – können die enorme Variabilität moderner Schriftbilder nicht vollständig erfassen. Jede Verschiebung, Rundungsabweichung oder stilistische Variation führt dazu, dass ein handgefertigtes Merkmal nicht mehr eindeutig ist. Die Forschung zu Feature-Invariance hat deshalb schon früh Hinweise geliefert, dass regelbasierte Systeme ihre Grenzen erreichen, sobald der Stil eines Zeichens zu stark vom Erwarteten abweicht.¹⁴

Für ML-Modelle hingegen ist Vielfalt kein Nachteil, sondern ein Vorteil – vorausgesetzt, die Trainingsdaten decken diese Variationen ab. In der Szene-Texterkennung werden Modelle regelmäßig auf Tausenden verschiedener Schriftarten trainiert, sowohl auf realen als auch synthetisch erzeugten Datensätzen. Das Modell lernt nicht die exakte Form eines „A“, sondern die Struktur, die ein „A“ über viele Variationen hinweg definiert. Genau das macht moderne Systeme so robust gegenüber Schriftarten, die sie zuvor nie gesehen haben.

Arbeiten wie die SynthText-Pipeline von Gupta et al⁶. sowie die Benchmarks von Baek et al.⁹ zeigen, dass Modelle Schriftstile generalisieren können, die in klassischer OCR explizit modelliert werden müssten.

Warum unstrukturierte Szenen und komplexe Hintergründe ML-basierte Systeme bevorzugen

In den letzten Jahren entstanden immer mehr Anwendungen, bei denen Text nicht auf klar definierten Oberflächen, sondern in völlig unstrukturierten Umgebungen vorkommt. Verkehrsschilder, Displays, Verpackungen, Maschinenaufnahmen, Bildschirme in der Produktion oder Geräteanzeigen – all diese Szenen weisen eine große Varianz an Hintergründen, Farben, Materialien und Strukturen auf. Für klassische Verfahren, die stark auf Kontrasten, festen Kanten oder einfachen Segmentierungsregeln basieren, stellen solche Szenen eine fundamentale Herausforderung dar.

Das zentrale Problem ist, dass der Hintergrund oft die gleichen Mustermerkmale aufweist wie der Text selbst. Ein reflexionsstarkes Metall kann beispielsweise ähnliche Gradienten erzeugen wie die Kante eines Zeichens. Baumkanten, Kabel, Linien und Schatten können aussehen wie Buchstabenfragmente. Häufig beschrieben wurde dieses Problem im Kontext der Scene Text Detection, unter anderem in den Arbeiten von Neumann & Matas (2012)¹⁴ und später in den Benchmarks von ICDAR-Wettbewerben.¹⁵ Klassische Verfahren müssen versuchen, Regeln zu definieren, die zwischen Text- und Hintergrundmustern unterscheiden – eine Aufgabe, die in unstrukturierten Szenen nahezu unlösbar wird.

Deep-Learning-Modelle dagegen betrachten das Bild nicht mehr als Summe einzelner Pixel, sondern als Gesamtkontext. Ein neuronales Netz erkennt, welche Muster im Bild tatsächlich zu Text gehören, weil es gelernt hat, wie Text in unterschiedlichsten Situationen typischerweise aussieht. Diese Fähigkeit hat maßgeblich dazu beigetragen, dass moderne Modelle in den Benchmarks der vergangenen Jahre die klassischen Ansätze weit hinter sich lassen. Die Arbeiten von Liao et al. zu DBNet¹⁷ und die späteren Transformer-basierten OCR-Modelle¹⁸ zeigen, dass selbst stark unruhige Hintergründe nicht mehr zwingend einen Informationsverlust bedeuten.

Wenn Bewegungsunschärfe oder Überlagerungen auftreten

Ein weiteres Feld, in dem regelbasierte Methoden konsequent an Grenzen stoßen, ist Bewegungsunschärfe. Sobald ein Bild durch Bewegung verwischt ist – etwa durch schnelle Kameraschwenks, vibrierende Maschinen oder vorbeifahrende Objekte – verlieren klassische Merkmalsextraktoren ihre Grundlage. Kanten verschwimmen, Zeichen fließen ineinander, und die Form der Ziffern oder Buchstaben ist nicht mehr sauber definiert. Schon Arbeiten aus den 1990er-Jahren zeigen, wie empfindlich klassische CV-Prozesse auf solche Störungen reagieren.¹⁶

Machine-Learning-Modelle können diese Verzerrungen dagegen erstaunlich gut interpretieren. Die Gründe dafür liegen im Training: Viele Datensätze enthalten Bilder mit synthetischer oder realer Unschärfe. Modelle lernen dadurch, wie typische Zeichen trotz Bewegungsunschärfe aussehen. Moderne Architekturen, wie etwa Attention-basierte Modelle, konzentrieren sich auf relevante Bildbereiche, selbst wenn die Kanten nicht sauber definiert sind. Die Arbeiten zu STN (Spatial Transformer Networks)¹¹ und später im Transformerkontext zeigen, wie gut Modelle geometrische Verzerrungen ausgleichen können.¹⁸

Ähnlich verhält es sich mit Überlagerungen und Teilverdeckungen. In vielen praktischen Szenarien sind Zeichen nicht vollständig sichtbar: Ein Kratzer überdeckt eine Stelle, ein Aufkleber verdeckt zwei Buchstaben, oder ein Objekt liegt teilweise über dem Text. Klassische CV hat hier kaum eine Chance. Ohne vollständige Konturen lassen sich Zeichen nicht sauber klassifizieren, und selbst morphologische Ergänzungen erzeugen oft mehr Artefakte als Lösungen.

ML-basierte Systeme lernen dagegen oftmals die „Idee“ eines Zeichens und können fehlende Teile aus dem Kontext rekonstruieren. Studien zur robusten Texterkennung – wie die Arbeiten von Cheng et al.¹², Baek et al.⁹, und späterer STR-Forschung – zeigen, dass moderne Modelle selbst unvollständige Zeichen mit hoher Sicherheit interpretieren können. Diese Fähigkeit basiert nicht auf expliziten Regeln, sondern auf dem statistischen Wissen, wie Zeichenformen typischerweise strukturiert sind.

Ein Fazit über zwei Welten der visuellen Verarbeitung

Der Vergleich zwischen traditioneller Computer Vision und modernen Machine-Learning-Ansätzen zeigt keine Konkurrenz zwischen „alt“ und „neu“, sondern eine Entwicklung mit klaren Spezialisierungen. Klassische CV-Verfahren sind schnell, transparent und in kontrollierten Szenarien äußerst zuverlässig. Sie bilden seit Jahrzehnten das Rückgrat industrieller Bildverarbeitung und sind nach wie vor wertvoll, wenn Licht, Perspektive und Materialeigenschaften stabil sind und sich nicht verändern.

Sobald jedoch reale Bedingungen ins Spiel kommen – Wetter, Materialverschleiß, variable Beleuchtung, Perspektive, Bewegungsunschärfe, unruhige Hintergründe – stoßen diese Verfahren naturgemäß an Grenzen. Die strikte Bindung an feste Regeln macht sie empfindlich gegen jede Form von Abweichung. Machine-Learning-Modelle dagegen basieren auf statistischer Generalisierung. Sie erkennen Muster auch dann, wenn diese teilweise verdeckt, verzogen oder gestört sind, weil sie aus einer Vielzahl von Beispielen gelernt haben, wie Text in sehr unterschiedlichen Situationen erscheint.

Die wissenschaftliche Entwicklung der letzten Jahre zeigt klar, dass ML-basierte Verfahren nicht nur eine Erweiterung traditioneller Methoden darstellen, sondern viele ihrer Kernprobleme strukturell überwinden. Von robusten Textdetektoren über Sequenzmodelle bis hin zu Transformer-basierten Vollsystemen reicht eine Entwicklung, die OCR und Textanalyse in komplexen Szenen erst praktikabel gemacht hat.

Damit stehen heute zwei Welten nebeneinander: die Stabilität klassischer Verfahren und die Flexibilität moderner ML-Modelle. Der Wert liegt nicht darin, eine dieser Welten als überlegen zu betrachten, sondern darin zu verstehen, welche Methode für welche Bedingungen geeignet ist – und wie beide zusammenspielen können, um ein System zuverlässig zu machen.

Referenzen

¹Vgl. Otsu – A threshold selection method from gray-level histograms, 1979

²Vgl. Marr & Hildreth – Theory of edge detection, 1980

³Vgl. Canny – A computational approach to edge detection, 1986

⁴Vgl. Serra – Image Analysis and Mathematical Morphology, 1982

⁵Vgl. Sauvola & Pietikäinen – Adaptive Document Image Binarization, 2000

⁶Vgl. Gupta et al. – SynthText in the Wild: Generating Training Data for Text Recognition, 2016

⁷Vgl. Ye et al. – TextFuseNet: Scene Text Detection with Richer Fused Features, 2020

⁸Vgl. Jaderberg et al. – Deep Structured Output Learning for Unconstrained Text Recognition, 2016

⁹Vgl. Baek et al. – What is wrong with scene text recognition model comparisons?, 2019

¹⁰Vgl. Liang, Li & Doermann – Camera-based analysis of text and documents: a survey, 2005

¹¹Vgl. Jaderberg et al. – Spatial Transformer Networks, 2015

¹²Vgl. Cheng et al. – Focusing Attention: Towards Accurate Text Recognition in Natural Images, 2017

¹³Vgl. Belongie et al. – Shape Matching and Object Recognition using Shape Contexts, 2002

¹⁴Vgl. Neumann & Matas – Real-Time Scene Text Localization and Recognition, 2012

¹⁵Vgl. ICDAR Robust Reading Competitions, 2011–2023

¹⁶Vgl. Trier, Jain & Taxt – Feature extraction methods for character recognition: A survey, 1996

¹⁷Vgl. Liao et al. – DBNet: Real-Time Scene Text Detection with Differentiable Binarization, 2020

¹⁸Vgl. Kim et al. – Donut: Document Understanding Transformer without OCR, 2022

Möchten Sie noch mehr über Computer Vision und moderne ML-Methoden erfahren?

Unser Team hilft Ihnen gerne weiter — kontaktieren Sie uns einfach, wenn Sie Fragen zu den Themen Computer Vision und moderne ML-Methoden haben.

Kontakt aufnehmen Pfeil-Icon rechtsPfeil-Icon nach rechts um einen Link zu symbolisieren