Cómo comenzó la clasificación de imágenes: de los perceptrones a los primeros modelos visuales
La clasificación automática de imágenes es uno de los campos de investigación más antiguos de la visión artificial. La idea de asignar una etiqueta semántica a los datos visuales surgió ya en la década de 1950, cuando los investigadores realizaron los primeros intentos para que las máquinas reconocieran patrones sencillos. Con el Mark I Perceptron se creó uno de los primeros modelos capaces de procesar datos ópticos y clasificarlos en categorías.¹ Aunque estos sistemas eran extremadamente limitados, marcaron el inicio de una evolución que más tarde transformaría sectores enteros.
En las décadas siguientes quedó claro que las redes neuronales simples no bastaban para captar la diversidad de la información visual. Las imágenes contienen estructuras espaciales, texturas, formas y relaciones complejas que van mucho más allá de los límites de la toma de decisiones lineal. La introducción del Neocognitron por parte de Kunihiko Fukushima a finales de la década de 1970 supuso un primer gran paso hacia una arquitectura diseñada específicamente para datos visuales. Este modelo sentó las bases del procesamiento jerárquico de características, que más tarde se convertiría en un componente central de los clasificadores de imágenes modernos.²
El gran avance del aprendizaje profundo: la era de las redes neuronales convolucionales
El año 2012 supuso un punto de inflexión decisivo. Con AlexNet se logró por primera vez una arquitectura de red convolucional profunda (CNN) acelerada por GPU, que obtuvo un aumento espectacular de la precisión en el concurso ImageNet.³ Este éxito hizo que, en cuestión de meses, las CNN se convirtieran en el enfoque dominante para la clasificación de imágenes.
La particularidad de las redes neuronales convolucionales (CNN) radica en su capacidad para aprender características directamente a partir de píxeles sin procesar, en lugar de tener que definirlas manualmente. Las capas inferiores de la red aprenden estructuras sencillas, como bordes y texturas, mientras que las capas superiores representan formas y objetos más complejos. Este aprendizaje jerárquico ha hecho que las características definidas manualmente resulten en gran medida innecesarias y ha permitido, por primera vez, crear sistemas de clasificación robustos para conjuntos de datos de imágenes grandes y heterogéneos.
En los años siguientes surgieron arquitecturas como VGG, ResNet y GoogLeNet, que optimizaron aún más el principio básico. VGG demostró que la profundidad y la simplicidad permiten obtener importantes mejoras en el rendimiento.⁴ ResNet introdujo la idea de las «conexiones residuales», que permitieron entrenar de forma estable redes extremadamente profundas.⁵ GoogLeNet demostró cómo se pueden diseñar redes más eficientes mediante el procesamiento en paralelo de filtros de diferentes tamaños.⁶ Gracias a estas innovaciones, la clasificación de imágenes no solo se volvió más precisa, sino también más versátil y mejor escalable.
Eficiencia, profundidad y optimización: el desarrollo de las CNN clásicas
A medida que aumentaban el tamaño de las redes y el volumen de datos, quedó claro que la profundidad por sí sola no era el único factor clave para mejorar la clasificación. Los investigadores desarrollaron arquitecturas cada vez más eficientes que reducían la carga computacional sin sacrificar la precisión. La arquitectura Inception es un ejemplo temprano de cómo, mediante una paralelización inteligente y combinaciones de filtros, se pueden obtener mejores resultados con menos recursos.⁶
Paralelamente, surgieron variantes como DenseNet o MobileNet, cada una de las cuales abordaba retos distintos, desde la transmisión eficiente de gradientes hasta la optimización para dispositivos móviles. En conjunto, se creó un amplio abanico de modelos CNN especializados, aptos para los más diversos ámbitos de aplicación: clasificación de alta resolución en centros de datos, inferencia en tiempo real en dispositivos periféricos o modelos energéticamente eficientes para hardware con potencia limitada.
Esta etapa pone de manifiesto la gran flexibilidad de adaptación de las redes neuronales convolucionales (CNN). Durante muchos años, constituyeron la columna vertebral de prácticamente todos los sistemas prácticos de clasificación de imágenes, tanto en la industria como en la medicina, la robótica autónoma y las aplicaciones de consumo.
La llegada de los Transformers al mundo visual
Con el Vision Transformer (ViT), a principios de la década de 2020 surgió un enfoque totalmente nuevo para la clasificación de imágenes. En lugar de extraer características a nivel local mediante convoluciones, el Vision Transformer divide una imagen en pequeños fragmentos y los procesa secuencialmente mediante autoatención.⁷ De este modo, las relaciones globales de la imagen pueden modelarse de forma mucho más directa, sin necesidad de recurrir a estructuras de filtrado locales.
El éxito de esta arquitectura demostró que la clasificación de imágenes no tiene por qué basarse necesariamente en la convolución. La capacidad de establecer relaciones entre áreas de la imagen muy distantes entre sí dio lugar a una nueva generación de modelos que resultaron competitivos o superiores en numerosas pruebas de rendimiento. Al mismo tiempo, surgieron enfoques híbridos que combinan la convolución y la autoatención para unir los detalles locales con el contexto global.
Los trabajos más recientes siguen desarrollando los modelos Vision Transformer mediante el uso de mecanismos de atención más eficientes, estructuras sensibles a la distancia o combinaciones modulares de componentes de CNN y Transformer. De este modo, se crean sistemas que son a la vez potentes y aptos para la práctica, y que pueden aplicarse en los ámbitos de aplicación más diversos.
Por qué la clasificación moderna de imágenes ya es prácticamente inconcebible sin modelos de aprendizaje
La clasificación de imágenes ha evolucionado desde sencillos modelos experimentales hasta sistemas arquitectónicos de gran complejidad que captan la información visual en múltiples niveles. Los métodos clásicos, basados en reglas fijas o en características definidas manualmente, desempeñaron un papel importante durante décadas; sin embargo, presentan limitaciones evidentes en comparación con los enfoques de aprendizaje actuales.
Los modelos modernos de aprendizaje profundo son capaces de aprender representaciones de imágenes que presentan una estructura tanto local como global. No necesitan características definidas manualmente, son resistentes a las variaciones y se pueden adaptar con flexibilidad a nuevas fuentes de datos. Estas características los convierten en el estándar para prácticamente todas las tareas de clasificación de imágenes en el mundo real, desde inspecciones industriales y diagnósticos médicos hasta sistemas multimodales que combinan información visual y lingüística.
Modelos actuales: cómo ha evolucionado la clasificación de imágenes en la vanguardia
Después de que las redes neuronales convolucionales se hubieran consolidado como enfoque dominante durante más de una década, la investigación pasó a centrarse cada vez más, más allá de la mera mejora del rendimiento, en dos cuestiones: ¿hasta qué punto es posible aumentar aún más la precisión? y ¿qué grado de eficiencia puede alcanzar un modelo al mismo tiempo? En esta fase surgieron arquitecturas que reinterpretaban las redes convolucionales clásicas y, al mismo tiempo, se beneficiaban del aprendizaje supervisado y de estrategias de preentrenamiento a gran escala.
Un ejemplo destacado de ello es ConvNeXt V2. La arquitectura parte de la idea de adaptar el estilo de las redes convolucionales modernas a los diseños de transformadores, pero va un paso más allá: combina mejoras arquitectónicas con un preentrenamiento mediante un autoencoder enmascarado totalmente convolucional e introduce un nuevo componente de normalización denominado «Global Response Normalization» (GRN).⁸ En el trabajo correspondiente, los autores informan de precisiones Top-1 en ImageNet que compiten con los grandes transformadores de visión y que logran esto exclusivamente con datos de entrenamiento disponibles públicamente, alcanzando hasta un 88,9 % de precisión Top-1 con la variante más grande.
Estos modelos no solo son interesantes como «modelos de referencia», sino que ya se están utilizando en trabajos orientados a aplicaciones prácticas: por ejemplo, en la clasificación de documentos, en el reconocimiento de motivos decorativos en arquitectura o en ámbitos especializados como la clasificación de hongos, donde las variantes de ConvNeXt-V2 superan a otras arquitecturas consolidadas como ResNet, Swin Transformer o MobileViT.⁹ Esto pone de manifiesto que, a pesar del éxito de los transformadores de visión, las redes convolucionales modernas están lejos de ser obsoletas; más bien, se siguen desarrollando en paralelo.
Familias de transformadores de visión y grandes codificadores de base
Paralelamente, los modelos basados en Vision Transformer se han convertido en un ecosistema propio. A partir del ViT original, en los últimos años han surgido numerosas variantes que se centran en diferentes aspectos: mayor eficiencia de datos, entrenamiento más estable, mayor resolución o una autosupervisión robusta. Esta tendencia se ha hecho especialmente patente en modelos como el EVA-02, que combinan el modelado de imágenes enmascaradas con potentes esquemas de preentrenamiento.¹⁰
EVA-02 utiliza una arquitectura Transformer mejorada y se preentrena con la ayuda de un codificador CLIP-Vision como «maestro». Los autores informan de que una variante con unos 304 millones de parámetros alcanza una precisión Top-1 del 90,0 % en ImageNet-1K, utilizando exclusivamente datos de dominio público.¹⁰ Al mismo tiempo, las variantes de EVA-02 muestran un rendimiento notable en escenarios «zero-shot» y se utilizan cada vez más como representación visual general para una amplia variedad de tareas.
Una segunda línea está marcada por los denominados «modelos de base para la visión», entre los que se incluye, por ejemplo, InternViT. Estos modelos ya no se desarrollan únicamente para un único banco de pruebas como ImageNet, sino como codificadores universales que se reutilizan en sistemas multitarea o multimodales. Los modelos InternViT, por ejemplo, se utilizan como base visual dentro de la familia InternVL y su calidad se evalúa, entre otras cosas, mediante la clasificación clásica de imágenes y la segmentación semántica.¹¹
Estos codificadores de base están diseñados para abarcar una amplia gama de patrones visuales: imágenes naturales, escenas técnicas y datos específicos de cada ámbito. En este contexto, la clasificación de imágenes ya no es el objetivo, sino una herramienta fundamental para evaluar la calidad de la representación.
Aprendizaje supervisado y grandes conjuntos de datos de preentrenamiento
Un factor clave en las generaciones actuales de modelos es la evolución del preentrenamiento. En lugar de basarse exclusivamente en conjuntos de datos etiquetados de forma clásica, como ImageNet, muchos trabajos utilizan el modelado de imágenes enmascaradas o estrategias similares de autoaprendizaje. En este proceso, los modelos aprenden a reconstruir áreas ocultas de las imágenes o a mantener la coherencia a través de las ampliaciones, antes de ser adaptados a tareas concretas de clasificación.
ConvNeXt V2, por ejemplo, combina un autoencoder enmascarado totalmente convolucional con el modelo de clasificación propiamente dicho, y demuestra que las representaciones obtenidas mediante estos esquemas de preentrenamiento se traducen directamente en una mayor precisión y robustez.⁸ EVA-02 sigue un principio similar, pero utiliza un potente codificador CLIP como modelo de referencia y reconstruye su espacio de características en lugar de los píxeles de la imagen propiamente dichos.¹⁰
Paralelamente, la tendencia hacia conjuntos de datos cada vez más grandes y variados es innegable. Muchos modelos actuales se entrenan previamente en ImageNet-22K u otras colecciones que contienen varios millones de imágenes y, posteriormente, se ajustan con precisión para tareas específicas. Esto da lugar a una separación entre un entrenamiento previo costoso y único y unas etapas de ajuste fino específicas para cada dominio, relativamente económicas.
Los modelos multimodales y la clasificación de imágenes como pilar fundamental
Otra tendencia actual es la integración de la clasificación de imágenes en sistemas multimodales. Los modelos de visión-lenguaje, como CLIP, han demostrado que las representaciones de imágenes y texto pueden integrarse en un espacio común, de modo que la clasificación es posible, en parte, sin un entrenamiento explícito en las clases objetivo —por ejemplo, mediante el etiquetado «zero-shot» con indicaciones de texto—.¹² Trabajos más recientes, como InternVL, amplían aún más este enfoque y combinan grandes codificadores de visión con modelos de lenguaje para crear sistemas multimodales que tratan la clasificación de imágenes más como un subproducto que como una tarea principal.¹³
Curiosamente, ya existen trabajos que analizan explícitamente hasta qué punto estos modelos multimodales siguen siendo realmente eficaces en la clasificación de imágenes «clásica». Un estudio del año 2024 analiza diversos modelos multimodales de lenguaje a gran escala en tareas como ImageNet, ObjectNet y la clasificación de alta granularidad, y llega a la conclusión de que la capacidad de clasificación de imágenes varía significativamente en función del grado en que el codificador visual se haya optimizado para categorías visuales básicas.¹⁴ Esto demuestra que la clasificación de imágenes sigue siendo una prueba de fuego importante, incluso en un mundo en el que muchos modelos van mucho más allá de las meras tareas de clasificación.
Situación actual: precisión, eficiencia y relevancia práctica
Los modelos más avanzados actualmente alcanzan en ImageNet-1K una precisión Top-1 que oscila entre poco menos del 90 % y aproximadamente el 90 %, dependiendo del régimen de entrenamiento, el tamaño del conjunto de datos y la arquitectura. ConvNeXt V2 y EVA-02 marcan dos direcciones diferentes, pero complementarias: por un lado, ConvNets altamente optimizadas con preentrenamiento supervisado por sí mismas; por otro, grandes transformadores de visión con modelado de imágenes enmascaradas y, en parte, referencia multimodal.⁸⁻¹⁰
Al mismo tiempo, existe un ecosistema cada vez mayor de modelos más pequeños y eficientes, diseñados para escenarios periféricos o aplicaciones en tiempo real, que sacrifican deliberadamente parte de la precisión en favor de la latencia, el consumo de memoria y la eficiencia energética. Estas variantes aparecen ahora con regularidad en publicaciones científicas e industriales cuando se trata de integrar la clasificación de imágenes en sistemas reales, desde el ámbito médico hasta los flujos de trabajo documentales, pasando por inspecciones visuales especializadas.¹⁵
De este modo, la clasificación de imágenes ha pasado de ser un mero tema de referencia a convertirse en un componente fundamental de toda una serie de sistemas: como tarea independiente, como criterio de evaluación para los codificadores de base y como parte integrante de los modelos multimodales.
Retos pendientes y perspectivas de futuro en la clasificación de imágenes
A pesar de los enormes avances de los últimos años, la clasificación de imágenes sigue enfrentándose a retos fundamentales que marcan tanto la investigación científica como las aplicaciones prácticas. Muchos modelos modernos alcanzan hoy en día niveles de precisión que hace una década habrían sido difícilmente imaginables, pero la complejidad de las condiciones reales de uso demuestra una y otra vez que la mera mejora del rendimiento en las pruebas de referencia solo aborda una parte del problema.
Uno de los principales retos sigue siendo la robustez frente al cambio de dominio. Los modelos entrenados con grandes conjuntos de datos seleccionados a menudo se enfrentan, en la práctica, a condiciones que difieren considerablemente de los ejemplos de entrenamiento: nuevas características de la cámara, cambios en la iluminación, perspectivas desconocidas o distribuciones de imágenes totalmente diferentes. Incluso los transformadores de visión más modernos y los grandes modelos ConvNeXt-V2 muestran una disminución del rendimiento cuando se enfrentan a datos que no pertenecen a su ámbito de entrenamiento original. Las investigaciones sobre este tema subrayan que un mayor volumen de datos por sí solo no es suficiente; lo decisivo es la capacidad de un modelo para generalizar patrones estructurales y comprender conceptos visuales independientemente del contexto.
A esto se suma la cuestión de la economía de datos. Muchos modelos de vanguardia deben su rendimiento a complejos procesos de preentrenamiento con millones de imágenes, a menudo complementados con aprendizaje autodirigido. Si bien este enfoque funciona bien en el ámbito de la investigación, en entornos reales surge la pregunta de cómo se pueden aplicar estos métodos en ámbitos en los que solo se dispone de datos de imágenes limitados o altamente especializados. Precisamente los sistemas industriales, las aplicaciones médicas o las fuentes de imágenes específicas de un dominio requieren modelos que puedan entrenarse de forma estable con pocos datos. Esta problemática ha dado lugar a que los trabajos sobre el aprendizaje con pocos ejemplos (few-shot learning), la adaptación de dominios y el preentrenamiento supervisado de forma autónoma sigan cobrando importancia.
Otro aspecto pendiente es la interpretabilidad. A medida que aumenta el tamaño de los modelos, también crece la dificultad para hacer comprensibles las decisiones. Mientras que las primeras CNN eran relativamente fáciles de analizar, los modelos actuales —especialmente las grandes arquitecturas basadas en transformadores— suelen ser prácticamente imposibles de interpretar. La literatura especializada muestra que ni siquiera las visualizaciones de los mapas de atención ofrecen siempre una imagen clara de qué estructuras utiliza realmente un modelo para predecir una clase. Esto tiene implicaciones tanto en materia de seguridad como normativas, especialmente en ámbitos en los que los modelos toman decisiones sobre procesos críticos.
Por último, el tema del sesgo sigue siendo un tema central de investigación. Muchos modelos aprenden correlaciones estadísticas derivadas de su distribución de entrenamiento, pero no de la estructura real y semánticamente relevante. Trabajos como EVA-02 o InternViT demuestran de manera impresionante hasta qué punto pueden mejorarse las representaciones cuando los modelos se preentrenan con datos mejor seleccionados o más diversos.¹⁰⁻¹¹ No obstante, los estudios de evaluación muestran que incluso los grandes codificadores de visión prefieren determinados tipos de imágenes, estilos o variantes de objetos, ya que estos aparecen con mayor frecuencia durante el entrenamiento. La tendencia hacia los modelos multimodales refuerza aún más este debate, ya que en este caso los sesgos de imagen y de lenguaje se entremezclan.
En general, se trata de un campo de investigación que aún está lejos de haber concluido. Las arquitecturas modernas como ConvNeXt V2, EfficientViT, EVA-02 o los grandes codificadores InternViT marcan avances importantes, pero no resuelven todos los problemas fundamentales. Es probable que los próximos años no se caractericen tanto por modelos cada vez más grandes, sino por la cuestión de cómo se puede diseñar la inteligencia visual de forma estable, explicable y eficiente en cuanto al uso de datos, y cómo la clasificación de imágenes encaja como componente en un ecosistema de IA cada vez más multimodal y sensible al contexto.
Referencias
¹Véase. Rosenblatt – The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain, 1958
²Véase. Fukushima – Neocognitron: A Self-organizing Neural Network Model for Pattern Recognition, 1980
³Véase. Krizhevsky, Sutskever & Hinton – ImageNet Classification with Deep Convolutional Neural Networks, 2012
⁴Véase. Simonyan & Zisserman – Very Deep Convolutional Networks for Large-Scale Image Recognition (VGG), 2014
⁵Véase. He, Zhang, Ren & Sun – Deep Residual Learning for Image Recognition (ResNet), 2015
⁶Véase. Szegedy et al. – Going Deeper with Convolutions (Inception / GoogLeNet), 2015
⁷Véase. Dosovitskiy et al. – An Image is Worth 16x16 Words: Vision Transformer (ViT), 2020
⁸Véase. Liu et al. – ConvNeXt V2: Co-Designing and Scaling ConvNets with Masked Autoencoders, 2023
⁹Véase. Zhang et al. / Li et al. – Studien zur praktischen Nutzung von ConvNeXt V2 (Pilzklassifikation, Dokumente), 2023
¹⁰Véase. Yao et al. – EVA-02: A Strong Vision Transformer with CLIP Teacher, 2023
¹¹Véase. Cao et al. – InternViT: Scaling Vision Transformers for Universal Visual Representation, 2024
¹²Véase. Radford et al. – CLIP: Learning Transferable Visual Models from Natural Language Supervision, 2021
¹³Véase. Wei et al. – InternVL: A Multimodal Large Model for Vision and Language, 2023
¹⁴Véase. Liang et al. – Evaluation of Multimodal Large Language Models on Image Recognition Benchmarks, 2024
¹⁵Véase. Howard et al. / Chen et al. – MobileNet, MobileViT und weitere effiziente Modelle für Edge-Vision, 2017–2023