Wie die Bildklassifikation begann – von Perzeptronen zu frühen visuellen Modellen
Die automatische Klassifikation von Bildern zählt zu den ältesten Forschungsgebieten der Computer Vision. Der Gedanke, visuelle Eingaben einem semantischen Label zuzuordnen, entstand bereits in den 1950er-Jahren, als Forscher erste Versuche unternahmen, Maschinen einfache Muster erkennen zu lassen. Mit dem Mark I Perceptron entstand eines der frühesten Modelle, das optische Eingaben verarbeiten und in Klassen einteilen konnte.¹ Auch wenn diese Systeme extrem limitiert waren, markierten sie den Beginn einer Entwicklung, die später ganze Industrien verändern würde.
In den folgenden Jahrzehnten wurde klar, dass einfache neuronale Netze nicht ausreichten, um die Vielfalt visueller Informationen zu erfassen. Bilder enthalten räumliche Strukturen, Texturen, Formen und komplexe Abhängigkeiten, die weit über lineare Entscheidungsgrenzen hinausgehen. Die Einführung des Neocognitron durch Kunihiko Fukushima Ende der 1970er-Jahre war ein erster großer Schritt in Richtung einer Architektur, die speziell für visuelle Daten entworfen wurde. Dieses Modell legte das Fundament für hierarchische Merkmalsverarbeitung, die später ein zentraler Bestandteil moderner Bildklassifikatoren wurde.²
Der Durchbruch tiefen Lernens – die Ära der Convolutional Neural Networks
Einen entscheidenden Wendepunkt stellte das Jahr 2012 dar. Mit AlexNet gelang erstmals eine tiefe, GPU-beschleunigte Faltungsnetzarchitektur (CNN), die beim ImageNet-Wettbewerb einen sprunghaften Genauigkeitsgewinn erzielte.³ Dieser Erfolg führte dazu, dass CNNs innerhalb weniger Monate zum dominierenden Ansatz der Bildklassifikation wurden.
Das Besondere an CNNs liegt in ihrer Fähigkeit, Merkmale direkt aus Rohpixeln zu lernen, statt sie manuell definieren zu müssen. Die unteren Netzwerkschichten lernen einfache Strukturen wie Kanten und Texturen, während höhere Schichten komplexere Formen und Objekte repräsentieren. Dieses hierarchische Lernen machte handgefertigte Features weitgehend überflüssig und ermöglichte erstmals robuste Klassifikationssysteme für große, heterogene Bilddatensätze.
In den Jahren danach entstanden Architekturen wie VGG, ResNet und GoogLeNet, die das Grundprinzip weiter optimierten. VGG zeigte, dass Tiefe und Einfachheit starke Leistungsgewinne ermöglichen.⁴ ResNet führte die Idee der „Residual Connections“ ein, die es ermöglichten, extrem tiefe Netze stabil zu trainieren.⁵ GoogLeNet demonstrierte, wie sich Netzwerke effizienter gestalten lassen, indem unterschiedliche Filtergrößen parallel verarbeitet werden.⁶ Durch diese Innovationen wurde die Bildklassifikation nicht nur präziser, sondern auch vielseitiger und besser skalierbar.
Effizienz, Tiefe und Optimierung – die Weiterentwicklung klassischer CNNs
Mit zunehmender Netzwerkgröße und Datenmenge wurde deutlich, dass reine Tiefe nicht die einzige Stellschraube zur Verbesserung der Klassifikation darstellt. Forscher entwickelten immer effizientere Architekturen, die Rechenaufwand reduzierten, ohne die Genauigkeit zu opfern. Die Inception-Architektur ist ein frühes Beispiel dafür, wie sich durch kluge Parallelisierung und Filterkombinationen bessere Ergebnisse mit weniger Ressourcen erzielen lassen.⁶
Parallel dazu entstanden Varianten wie DenseNet oder MobileNet, die jeweils unterschiedliche Herausforderungen angingen – von effizienter Gradientenweitergabe bis zur Optimierung für mobile Geräte. Insgesamt entstand ein breites Feld spezialisierter CNN-Modelle, die für verschiedenste Einsatzgebiete geeignet sind: hochauflösende Klassifikation in Rechenzentren, Echtzeit-Inference auf Edge-Geräten oder energieeffiziente Modelle für Hardware mit begrenzter Leistung.
Diese Phase zeigt, wie flexibel CNNs anpassbar waren. Für viele Jahre bildeten sie das Rückgrat nahezu aller praktischen Bildklassifikationssysteme – in Industrie, Medizin, autonomer Robotik und Konsumeranwendungen.
Der Einzug der Transformer in die visuelle Welt
Mit dem Vision Transformer (ViT) entstand Anfang der 2020er-Jahre ein völlig neuer Ansatz für die Bildklassifikation. Statt Merkmale lokal über Faltungen zu extrahieren, zerlegt der Vision Transformer ein Bild in kleine Patches und verarbeitet diese sequenziell über Self-Attention.⁷ Dadurch können globale Beziehungen im Bild viel direkter modelliert werden, ohne dass lokale Filterstrukturen notwendig sind.
Der Erfolg dieser Architektur zeigte, dass Bildklassifikation nicht zwingend auf Convolution basieren muss. Die Fähigkeit, weit entfernte Bildbereiche miteinander in Beziehung zu setzen, führte zu einer neuen Generation von Modellen, die in vielen Benchmarks konkurrenzfähig oder überlegen waren. Gleichzeitig entstanden hybride Ansätze, die Convolutions und Self-Attention kombinieren, um lokale Details und globalen Kontext zu verbinden.
Neuere Arbeiten entwickeln Vision-Transformer-Modelle weiter, indem sie effizientere Attention-Mechanismen, distanzsensitive Strukturen oder modulare Kombinationen aus CNN- und Transformer-Bausteinen einsetzen. Dadurch entstehen Systeme, die sowohl leistungsfähig als auch praxistauglich sind und sich in unterschiedlichsten Anwendungsbereichen einsetzen lassen.
Warum moderne Bildklassifikation ohne lernende Modelle kaum mehr denkbar ist
Die Bildklassifikation hat sich von einfachen experimentellen Modellen zu hochkomplexen architektonischen Systemen entwickelt, die visuelle Informationen auf mehreren Ebenen erfassen. Klassische Methoden basierend auf festen Regeln oder handgefertigten Merkmalen spielten über Jahrzehnte eine wichtige Rolle, sind jedoch im Vergleich zu heutigen lernenden Ansätzen deutlich limitiert.
Moderne Deep-Learning-Modelle sind in der Lage, Bildrepräsentationen zu lernen, die sowohl lokal als auch global strukturiert sind. Sie brauchen keine manuell definierten Features, sind robust gegenüber Variationen und lassen sich flexibel für neue Datenquellen anpassen. Diese Eigenschaften machen sie zum Standard für nahezu alle realen Bildklassifikationsaufgaben — von industriellen Inspektionen über medizinische Diagnostik bis hin zu multimodalen Systemen, die visuelle und sprachliche Informationen kombinieren.
Aktuelle Modelle: Wie sich Bildklassifikation an der Spitze weiterentwickelt hat
Nachdem sich Convolutional Neural Networks über ein Jahrzehnt als dominierender Ansatz etabliert hatten, verlagerte sich die Forschung zunehmend von der reinen Leistungssteigerung hin zu zwei Fragen: Wie weit lässt sich die Genauigkeit überhaupt noch steigern – und wie effizient kann ein Modell gleichzeitig sein? In dieser Phase entstanden Architekturen, die klassische Faltungsnetze neu interpretierten und gleichzeitig von selbstüberwachtem Lernen und großskaligen Pretraining-Strategien profitierten.
Ein prominentes Beispiel dafür ist ConvNeXt V2. Die Architektur knüpft an die Idee an, moderne ConvNets stilistisch an Transformer-Designs anzulehnen, geht aber einen Schritt weiter: Sie kombiniert architektonische Verbesserungen mit einem voll konvolutionalen Masked-Autoencoder-Pretraining und führt mit Global Response Normalization (GRN) einen neuen Normalisierungsbaustein ein.⁸ In der zugehörigen Arbeit berichten die Autoren von Top-1-Genauigkeiten auf ImageNet, die mit großen Vision-Transformern konkurrieren und dies ausschließlich mit öffentlich verfügbaren Trainingsdaten erreichen – bis hin zu rund 88,9 % Top-1-Accuracy mit der größten Variante.
Diese Modelle sind nicht nur als „Leaderboard-Modelle“ interessant, sondern finden bereits in anwendungsnahen Arbeiten Verwendung: etwa in der Dokumentklassifikation, bei der Erkennung dekorativer Muster in Architektur oder in Spezialdomänen wie Pilzklassifikation, wo ConvNeXt-V2-Varianten andere etablierte Architekturen wie ResNet, Swin Transformer oder MobileViT schlagen.⁹ Damit wird deutlich, dass moderne Faltungsnetze trotz des Erfolgs von Vision-Transformern alles andere als obsolet sind – sie werden vielmehr parallel weiterentwickelt.
Vision-Transformer-Familien und große Foundation-Encoder
Parallel dazu haben sich Vision-Transformer-basierte Modelle zu einem eigenen Ökosystem entwickelt. Aufbauend auf dem ursprünglichen ViT sind in den letzten Jahren zahlreiche Varianten entstanden, die unterschiedliche Schwerpunkte setzen: bessere Dateneffizienz, stabileres Training, höhere Auflösung oder robuste Selbstüberwachung. Besonders sichtbar wurde dieser Trend durch Modelle wie EVA-02, die Masked-Image-Modeling mit starken Pretraining-Schemata kombinieren.¹⁰
EVA-02 nutzt eine weiterentwickelte Transformer-Architektur und wird mit Hilfe eines CLIP-Vision-Encoders als „Teacher“ vortrainiert. Die Autoren berichten, dass eine Variante mit rund 304 M Parametern 90,0 % Top-1-Genauigkeit auf ImageNet-1K erreicht – bei ausschließlicher Nutzung öffentlich verfügbarer Daten.¹⁰ Gleichzeitig zeigen EVA-02-Varianten in Zero-Shot-Szenarien beachtliche Leistungen und dienen zunehmend als generelle visuelle Repräsentation für verschiedenste Aufgaben.
Eine zweite Linie wird von sogenannten „Vision Foundation Models“ geprägt, zu denen etwa InternViT gehört. Diese Modelle werden nicht mehr nur für eine einzige Benchmark wie ImageNet entwickelt, sondern als universelle Encoder, die in Multitask- oder multimodalen Systemen weiterverwendet werden. InternViT-Modelle werden beispielsweise innerhalb der InternVL-Familie als visuelle Basis eingesetzt und auf ihre Qualität unter anderem anhand klassischer Bildklassifikation und semantischer Segmentierung evaluiert.¹¹
Solche Foundation-Encoder sind darauf ausgelegt, ein breites Spektrum visueller Muster abzudecken: natürliche Bilder, technische Szenen, Domainspezialdaten. Bildklassifikation ist in diesem Kontext nicht mehr das Ziel, sondern ein zentrales Werkzeug zur Bewertung der Repräsentationsqualität.
Selbstüberwachtes Lernen und große Pretraining-Datensätze
Ein wichtiger Treiber hinter den aktuellen Modellgenerationen ist der Wandel beim Pretraining. Statt ausschließlich auf klassisch gelabelte Datensätze wie ImageNet zu setzen, nutzen viele Arbeiten Masked-Image-Modeling oder verwandte selbstüberwachte Strategien. Modelle lernen dabei, verdeckte Bildbereiche zu rekonstruieren oder Konsistenzen über Augmentierungen hinweg zu halten, bevor sie auf konkrete Klassifikationsaufgaben angepasst werden.
ConvNeXt V2 kombiniert beispielsweise einen voll konvolutionalen Masked-Autoencoder mit dem eigentlichen Klassifikationsmodell und zeigt, dass sich die durch solche Pretraining-Schemata gewonnenen Repräsentationen direkt in höhere Genauigkeit und Robustheit übersetzen lassen.⁸ EVA-02 verfolgt ein ähnliches Prinzip, nutzt jedoch einen starken CLIP-Encoder als Lehrer und rekonstruiert dessen Merkmalsraum anstatt der reinen Bildpixel.¹⁰
Parallel dazu ist der Trend zu immer größeren und vielfältigeren Datensätzen unverkennbar. Viele aktuelle Modelle werden auf ImageNet-22K oder anderen Sammlungen mit mehreren Millionen Bildern vortrainiert und anschließend für spezifische Aufgaben feinjustiert. Dadurch entsteht eine Trennung zwischen einem teuren, einmaligen Vortraining und relativ günstigen, domänenspezifischen Finetuning-Schritten.
Multimodale Modelle und Bildklassifikation als Grundbaustein
Ein weiterer aktueller Trend ist die Integration von Bildklassifikation in multimodale Systeme. Vision-Language-Modelle wie CLIP haben gezeigt, dass sich Bild- und Textrepräsentationen in einem gemeinsamen Raum verankern lassen, sodass Klassifikation teilweise ohne explizites Training auf den Zielklassen möglich ist – etwa durch Zero-Shot-Labelling mit Textprompts.¹² Neuere Arbeiten wie InternVL skalieren diesen Ansatz weiter und kombinieren große Vision-Encoder mit Sprachmodellen zu Multimodal-Systemen, die Bildklassifikation eher als Nebenprodukt denn als Hauptaufgabe behandeln.¹³
Interessanterweise gibt es inzwischen auch Arbeiten, die explizit untersuchen, wie gut solche multimodalen Modelle in der „klassischen“ Bildklassifikation tatsächlich noch sind. Eine Studie aus dem Jahr 2024 analysiert verschiedene Multimodal Large Language Models auf Aufgaben wie ImageNet, ObjectNet und fein-granulare Klassifikation und kommt zu dem Schluss, dass sich die Bildklassifikationsfähigkeit deutlich unterscheidet, je nachdem, wie stark der visuelle Encoder auf grundlegende visuelle Kategorien hin optimiert wurde.¹⁴ Das zeigt, dass Bildklassifikation weiterhin ein wichtiger Prüfstein bleibt – auch in einer Welt, in der viele Modelle weit über reine Klassifikationsaufgaben hinausgehen.
Stand heute: Genauigkeit, Effizienz und praktische Relevanz
Aktuelle Top-Modelle bewegen sich auf ImageNet-1K im Bereich von knapp unter 90 % bis etwa 90 % Top-1-Genauigkeit, je nach Trainingsregime, Datensatzgröße und Architektur. ConvNeXt V2 und EVA-02 markieren dabei zwei unterschiedliche, aber komplementäre Richtungen: einerseits stark optimierte ConvNets mit selbstüberwachtem Pretraining, andererseits große Vision-Transformer mit Masked-Image-Modeling und teils multimodalem Bezug.⁸⁻¹⁰
Gleichzeitig existiert ein wachsendes Ökosystem kleinerer, effizienter Modelle, die für Edge-Szenarien oder Echtzeitanwendungen entwickelt wurden und dabei bewusst ein Stück Genauigkeit zugunsten von Latenz, Speicherverbrauch und Energieeffizienz eintauschen. In wissenschaftlichen und industriellen Publikationen tauchen diese Varianten inzwischen regelmäßig auf, wenn es darum geht, Bildklassifikation in reale Systeme zu integrieren – vom medizinischen Bereich über Dokumenten-Workflows bis hin zu spezialisierten visuellen Inspektionen.¹⁵
Die Bildklassifikation ist damit von einem reinen Benchmark-Thema zu einem Baustein in einer ganzen Reihe von Systemen geworden: als eigenständige Aufgabe, als Evaluationskriterium für Foundation-Encoder und als integraler Bestandteil multimodaler Modelle.
Offene Herausforderungen und zukünftige Entwicklungen in der Bildklassifikation
Trotz der enormen Fortschritte der letzten Jahre steht die Bildklassifikation weiterhin vor zentralen Herausforderungen, die sowohl die wissenschaftliche Forschung als auch praktische Anwendungen prägen. Viele moderne Modelle erreichen heute Genauigkeiten, die vor einem Jahrzehnt kaum vorstellbar gewesen wären, doch die Komplexität realer Einsatzbedingungen zeigt immer wieder, dass reine Leistungssteigerung auf Benchmarks nur einen Teil des Problems adressiert.
Eine der zentralen Herausforderungen bleibt die Robustheit gegenüber Domain-Shift. Modelle, die auf großen, kuratierten Datensätzen trainiert wurden, treffen im praktischen Einsatz oft auf Bedingungen, die deutlich von den Trainingsbeispielen abweichen: neue Kameraeigenschaften, veränderte Beleuchtung, ungewohnte Perspektiven oder völlig andere Bildverteilungen. Selbst modernste Vision-Transformer und große ConvNeXt-V2-Modelle zeigen Leistungsabfälle, wenn sie auf Daten treffen, die nicht zu ihrem ursprünglichen Trainingsbereich gehören. Forschungsarbeiten zu diesem Thema betonen, dass größere Datenmengen allein nicht ausreichen; entscheidend ist die Fähigkeit eines Modells, strukturelle Muster zu generalisieren und visuelle Konzepte unabhängig vom Kontext zu verstehen.
Hinzu kommt die Frage der Datenökonomie. Viele State-of-the-Art-Modelle verdanken ihre Leistungen aufwendigen Pretraining-Prozessen auf Millionen von Bildern, oft ergänzt durch selbstüberwachtes Lernen. Während dieses Vorgehen in der Forschung gut funktioniert, stellt sich in realen Umgebungen die Frage, wie solche Methoden in Bereichen eingesetzt werden können, in denen nur begrenzte oder hochspezialisierte Bilddaten zur Verfügung stehen. Gerade industrielle Systeme, medizinische Anwendungen oder domänenspezifische Bildquellen benötigen Modelle, die mit wenig Daten stabil trainierbar sind. Diese Problematik hat dazu geführt, dass Arbeiten zu Few-Shot Learning, Domain-Adaptation und selbstüberwachtem Pretraining weiter an Bedeutung gewinnen.
Ein weiteres offenes Feld betrifft die Interpretierbarkeit. Mit zunehmender Modellgröße wächst auch die Schwierlichkeit, Entscheidungen nachvollziehbar zu machen. Während frühe CNNs noch relativ einfach analysierbar waren, sind heutige Modelle – insbesondere große Transformer-basierte Architekturen – oft kaum interpretierbar. Fachliteratur zeigt, dass selbst Visualisierungen von Attention-Maps nicht immer ein klares Bild liefern, welche Strukturen ein Modell tatsächlich nutzt, um eine Klasse vorherzusagen. Das hat sowohl sicherheitsrelevante als auch regulatorische Implikationen, insbesondere in Bereichen, in denen Modelle Entscheidungen über kritische Prozesse treffen.
Schließlich bleibt das Thema Bias ein zentraler Forschungsgegenstand. Viele Modelle lernen statistische Korrelationen, die aus ihrer Trainingsverteilung stammen, nicht jedoch aus der realen, semantisch relevanten Struktur. Arbeiten wie EVA-02 oder InternViT zeigen eindrucksvoll, wie sehr sich die Repräsentationen verbessern lassen, wenn Modelle mit besser kuratierten oder diverseren Daten vortrainiert werden.¹⁰⁻¹¹ Dennoch zeigen Evaluationsstudien, dass selbst große Vision-Encoder bestimmte Bildarten, Stilrichtungen oder Objektvarianten bevorzugen, weil diese häufiger im Training vorkommen. Der Trend zu multimodalen Modellen verstärkt diese Diskussion zusätzlich, da hier Bild- und Sprachbias ineinander übergehen.
Insgesamt zeigt sich ein Forschungsfeld, das längst nicht abgeschlossen ist. Moderne Architekturen wie ConvNeXt V2, EfficientViT, EVA-02 oder große InternViT-Encoder markieren wichtige Fortschritte, aber sie lösen nicht alle fundamentalen Probleme. Die nächsten Jahre werden vermutlich weniger von immer größeren Modellen geprägt sein, sondern von der Frage, wie sich visuelle Intelligenz stabil, erklärbar und dateneffizient gestalten lässt — und wie sich Bildklassifikation als Baustein in ein zunehmend multimodales, kontextsensitives KI-Ökosystem einfügt.
Referenzen
¹Vgl. Rosenblatt – The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain, 1958
²Vgl. Fukushima – Neocognitron: A Self-organizing Neural Network Model for Pattern Recognition, 1980
³Vgl. Krizhevsky, Sutskever & Hinton – ImageNet Classification with Deep Convolutional Neural Networks, 2012
⁴Vgl. Simonyan & Zisserman – Very Deep Convolutional Networks for Large-Scale Image Recognition (VGG), 2014
⁵Vgl. He, Zhang, Ren & Sun – Deep Residual Learning for Image Recognition (ResNet), 2015
⁶Vgl. Szegedy et al. – Going Deeper with Convolutions (Inception / GoogLeNet), 2015
⁷Vgl. Dosovitskiy et al. – An Image is Worth 16x16 Words: Vision Transformer (ViT), 2020
⁸Vgl. Liu et al. – ConvNeXt V2: Co-Designing and Scaling ConvNets with Masked Autoencoders, 2023
⁹Vgl. Zhang et al. / Li et al. – Studien zur praktischen Nutzung von ConvNeXt V2 (Pilzklassifikation, Dokumente), 2023
¹⁰Vgl. Yao et al. – EVA-02: A Strong Vision Transformer with CLIP Teacher, 2023
¹¹Vgl. Cao et al. – InternViT: Scaling Vision Transformers for Universal Visual Representation, 2024
¹²Vgl. Radford et al. – CLIP: Learning Transferable Visual Models from Natural Language Supervision, 2021
¹³Vgl. Wei et al. – InternVL: A Multimodal Large Model for Vision and Language, 2023
¹⁴Vgl. Liang et al. – Evaluation of Multimodal Large Language Models on Image Recognition Benchmarks, 2024
¹⁵Vgl. Howard et al. / Chen et al. – MobileNet, MobileViT und weitere effiziente Modelle für Edge-Vision, 2017–2023