OCR y visión artificial Tiempo de lectura: entre 10 y 15 minutos

La detección de características ópticas en la práctica: desde los métodos clásicos hasta los modelos de detección modernos, tomando como ejemplo una palanca de freno

Una visión general con base científica sobre cómo los sistemas de procesamiento de imágenes localizan y clasifican características en las imágenes, desde los métodos históricos hasta los enfoques modernos de aprendizaje profundo.

Publicado el 2 de junio de 2026

Primer plano de una palanca de freno y de los componentes técnicos de un vagón de tren en una vía.

Autores

Foto de perfil del autor de la entrada del blog.

Philip Zetterberg
Ingeniero de software de IA, TRENPEX

Colaboradores

Angie Zetterberg
Relaciones públicas, TRENPEX

Suscríbanse a nuestro boletín informativo

Compartir

Cómo ha evolucionado la detección de características, y por qué los sistemas modernos deben comprender el contexto

La detección de características ópticas —es decir, el reconocimiento automático de características o componentes relevantes en imágenes— es una de las tareas fundamentales de la visión artificial moderna. Ya se trate de piezas industriales, elementos relevantes para la seguridad o componentes mecánicos, un sistema debe, en primer lugar, localizar el objeto y, a continuación, determinar su estado o sus propiedades. Este procedimiento en dos fases —detección seguida de clasificación— constituye hoy en día la columna vertebral de muchos procesos de inspección automatizados.

Un ejemplo sería la detección y clasificación del estado de una palanca de freno de un vagón de tren. Aunque el concepto pueda parecer poco llamativo, la tarea plantea numerosos retos: la palanca puede aparecer bajo diferentes condiciones de iluminación, estar parcialmente oculta, variar en color, propiedades del material o posición, y su orientación a menudo solo se puede reconocer a partir de diferencias visuales de apenas unos pocos píxeles.

Estos escenarios ponen de manifiesto por qué el desarrollo del reconocimiento de objetos ha cobrado tanta importancia en las últimas dos décadas. Los métodos tradicionales alcanzaban rápidamente sus límites en estas situaciones, mientras que los modelos modernos basados en el aprendizaje profundo son cada vez más capaces de localizar objetos de forma fiable, incluso en escenas complejas.

Los primeros enfoques: normas, características y limitaciones de los procedimientos artesanales

Antes de que las redes neuronales resultaran viables para el reconocimiento de objetos, muchos sistemas se basaban en reglas fijas o en características definidas manualmente. Un ejemplo conocido de ello son los detectores de cascada de cabellos que Viola y Jones presentaron en 2001.¹ Funcionaban sorprendentemente bien siempre que el objeto objetivo tuviera una forma definida y la imagen se tomara en condiciones controladas. Sin embargo, tan pronto como cambiaba la perspectiva o se ocultaban partes del objeto, el rendimiento de la detección se reducía drásticamente.

Algo similar ocurrió con métodos como HOG+SVM, introducidos por Dalal y Triggs en 2005.² La idea consistía en describir el objeto visual mediante orientaciones de gradientes y, a continuación, reconocer estas características con un clasificador. Este método supuso un avance significativo con respecto a los enfoques basados exclusivamente en reglas, pero también era sensible a los cambios de perspectiva, las variaciones de luz y los fondos complejos.

En el caso de un componente como una palanca de freno, esto significaba que, siempre que se controlaran la posición, el ángulo y la iluminación, dichos sistemas funcionaban de manera aceptable. Sin embargo, en cuanto entraban en juego las condiciones reales de funcionamiento —suciedad, sombras, reflejos en los materiales, contrastes variables—, perdían su fiabilidad y, con ello, su utilidad práctica.

La transición al aprendizaje profundo: métodos basados en regiones y el inicio de una detección verdaderamente robusta

La introducción de las redes neuronales basadas en regiones supuso un cambio fundamental. Trabajos como R-CNN (Girshick et al., 2014)³ y, posteriormente, Fast R-CNN y Faster R-CNN⁴ combinaron por primera vez la idea de las propuestas de objetos con redes neuronales convolucionales profundas. De este modo, los modelos no solo podían aprender características de forma automática, sino también localizarlas de manera robusta en escenas complejas. En lugar de basarse en reglas definidas manualmente, las redes aprendían directamente a partir de los datos de entrenamiento qué constituye un objeto y cómo se distingue de su entorno.

En el caso de componentes técnicos como las palancas de freno, esto supuso una mejora significativa. Aunque el objeto estuviera parcialmente oculto o se viera desde un ángulo oblicuo, la red solía ser capaz de identificarlo correctamente. Este principio —la combinación de la extracción de características visuales y las regiones específicas del objeto— sigue constituyendo hoy en día la base de muchas soluciones industriales.

YOLO, los SSD y la era de la detección en tiempo real

Poco después surgieron modelos que simplificaron y aceleraron aún más la detección. Con el enfoque «You Only Look Once», Redmon et al. presentaron en 2016 un modelo que integraba todo el análisis de imágenes en una única red.⁵ YOLO y sus sucesores —entre ellos YOLOv3, YOLOv5, YOLOX y las versiones más recientes de la comunidad— introdujeron la detección en tiempo real sin reducir drásticamente la precisión. Paralelamente, surgieron arquitecturas como SSD (Single Shot MultiBox Detector) de Liu et al.⁶, que seguían conceptos similares.

Estos modelos permitieron localizar objetos de forma fiable incluso en situaciones con fuertes interferencias de fondo o perspectivas cambiantes. Para el análisis de componentes técnicos, esto sigue siendo hoy en día una ventaja decisiva. Una palanca de freno no solo debe ser identificable, sino que debe aparecer en escenas que no estén perfectamente iluminadas o que no sean estructuralmente inequívocas. Es precisamente aquí donde este tipo de modelos logran resultados notables en la práctica.

Detección mediante modelos de transformadores modernos: del píxel a la estructura semántica

Desde 2020 se ha consolidado otro gran cambio de paradigma. Con la introducción de DETR (Carion et al., 2020) se presentó por primera vez un modelo totalmente diferente que lleva a cabo el reconocimiento de objetos utilizando exclusivamente arquitecturas Transformer.⁷ En lugar de basarse en puntos de anclaje, pirámides de características o procedimientos de múltiples etapas, DETR formula el reconocimiento de objetos como un problema de asignación entre imágenes y objetos. El resultado es un sistema que requiere menos heurísticas y presenta una robustez inusualmente alta frente a perturbaciones estructurales.

En variantes posteriores —como Deformable DETR, DN-DETR o DINO— se han seguido mejorando y acelerando los modelos, de modo que alcanzan velocidades relevantes también en la aplicación práctica. En tareas en las que es necesario reconocer un objeto —como una palanca de freno— bajo ángulos variables, con ocultación parcial o en estructuras de materiales complejas, queda claramente de manifiesto la gran ventaja que pueden ofrecer estos modelos.

Los detectores basados en transformadores no solo reconocen el objeto, sino que, cada vez más, también comprenden el contexto en el que se encuentra. Esto mejora el rendimiento de la detección, especialmente cuando las características visuales varían considerablemente de una imagen a otra.

Clasificación de estados: de características simples a redes neuronales profundas

Una vez localizado un objeto, surge la siguiente pregunta: ¿en qué estado se encuentra? Este paso —la clasificación dentro de la región de interés (ROI)— ha seguido históricamente una trayectoria de desarrollo propia.

Los primeros enfoques solían basarse en características fijas, como HOG, LBP o parámetros geométricos, y posteriormente realizaban la clasificación mediante máquinas de vectores de soporte (SVM) o árboles de decisión. Si bien estos métodos funcionaban de manera bastante fiable en entornos controlados, adolecían de las mismas limitaciones que la localización clásica de objetos.

Con la llegada de las redes neuronales convolucionales (CNN), esto cambió radicalmente. Modelos como AlexNet (Krizhevsky et al., 2012)⁸ y, más tarde, ResNet (He et al., 2015)⁹ demostraron que las redes neuronales pueden captar características visuales complejas mejor que cualquier alternativa diseñada manualmente. Para la clasificación de estados —por ejemplo, la distinción entre diferentes posiciones de la palanca de freno— esto supuso un salto cualitativo considerable.

Las arquitecturas más recientes, como Vision Transformers (Dosovitskiy et al., 2020), amplían aún más este enfoque al modelar estructuras visuales mediante la autoatención.¹⁰ Esto las hace especialmente robustas frente a diferencias sutiles que pueden resultar decisivas en las clasificaciones de estados técnicos.

Gracias a este avance, ahora es posible distinguir entre estados complejos, incluso cuando las diferencias son sutiles y el entorno varía considerablemente.

Por qué los componentes técnicos plantean retos especiales para la detección de características

En cuanto se trata de componentes mecánicos o relacionados con la seguridad, pronto queda claro que la detección no consiste únicamente en localizar un objeto. El paso decisivo viene después: comprender su estado. Un componente puede estar correctamente alineado, mal colocado, encajado, desenganchado o parcialmente dañado, y estas diferencias a menudo solo se perciben de forma muy sutil a simple vista.

Los métodos tradicionales de procesamiento de imágenes tenían, por naturaleza, dificultades con esto, ya que dependían de contornos claramente definidos, contrastes estables y reglas geométricas. Sin embargo, precisamente estas características rara vez se dan en los componentes técnicos en la práctica. Las superficies metálicas reflejan la luz con diferente intensidad, el envejecimiento de los materiales altera la estructura, la grasa o la suciedad se depositan en determinadas zonas y pequeños defectos mecánicos modifican las formas locales. El objeto básico sigue siendo reconocible, pero su estado se manifiesta en detalles que a menudo solo se aprecian en el conjunto.

En este contexto, queda especialmente claro por qué los modelos de aprendizaje profundo han ido sustituyendo cada vez más a los métodos clásicos en los últimos años. Mientras que un sistema basado en reglas intenta interpretar la forma exacta de un componente, una red neuronal busca patrones que sean típicos en numerosos ejemplos, no solo para el propio objeto, sino también para sus posibles estados. De este modo, el análisis se vuelve más independiente de la iluminación, el color o la superficie, y se basa en mayor medida en las propiedades estructurales.

Cuando los reflejos, el material y el desgaste alteran la estructura visual

Los componentes mecánicos fabricados en metal o materiales compuestos suelen presentar propiedades de reflexión muy diferentes. Incluso pequeños cambios en la iluminación pueden hacer que la zona de interés resulte sobreexpuesta o, por el contrario, demasiado oscura. En el caso de los métodos clásicos basados en la binarización o la extracción de bordes, esto suele suponer la pérdida de información importante de la imagen.

Por el contrario, los modelos de aprendizaje profundo interpretan estas variaciones visuales de forma totalmente diferente. En lugar de evaluar directamente la distribución absoluta del color o el brillo, aprenden patrones estadísticos que persisten independientemente de la variación que se produzca. Esta solidez ha quedado documentada en numerosos estudios sobre el control de calidad industrial, como en los trabajos sobre análisis de superficies basados en CNN, que obtienen resultados estables incluso ante cambios importantes en el brillo.¹¹

Lo mismo ocurre con el desgaste y los daños. Un componente que se ha utilizado durante años puede presentar arañazos, muescas o irregularidades. En los sistemas clásicos, esto da lugar a detecciones erróneas, ya que las características visuales ya no coinciden con el modelo esperado. Las redes neuronales, por el contrario, suelen ser capaces de clasificar estos cambios sin problemas, siempre que durante el entrenamiento se les haya confrontado con una variedad suficiente de ejemplos. Los trabajos sobre representaciones robustas de características —como el de Geirhos et al. sobre el «sesgo de forma» frente al «sesgo de textura»— muestran cómo los modelos modernos aprenden a reconocer propiedades estructurales incluso cuando la superficie varía considerablemente.¹²

Ocultaciones parciales y formas complejas: cuando el objeto solo es parcialmente visible

Se plantea un reto especialmente complejo cuando el objeto no es totalmente visible. Los componentes pueden quedar parcialmente ocultos por otros elementos o encontrarse en una estructura espacial que oculta partes esenciales del objeto. Los métodos clásicos fracasan en estos casos, ya que necesitan contornos completos para realizar una identificación fiable.

Por el contrario, los modelos de aprendizaje profundo suelen ser capaces de completar internamente las áreas que faltan. No se basan en bordes concretos, sino en la estructura global de las características visuales. La capacidad de interpretar información incompleta es un componente fundamental de los modelos modernos. Las arquitecturas basadas en transformadores, que modelan relaciones visuales a través de grandes distancias, mejoran aún más esta propiedad. Estudios como los realizados sobre DINO¹³ o Deformable DETR¹⁴ demuestran que estos modelos siguen proporcionando detecciones correctas incluso cuando el 20-40 % del objeto está oculto.

Para la posterior clasificación del estado, esto significa que el algoritmo puede tomar decisiones incluso cuando algunas zonas decisivas están parcialmente ocultas. Un estado que solo se manifiesta en un pequeño cambio geométrico sigue siendo reconocible, ya que el modelo ha aprendido cómo es la estructura de ese componente en sus distintas variantes, incluyendo pequeñas desviaciones, efectos de orientación y cambios en el material.

Transición hacia modelos multimodales

Con la aparición de los modelos multimodales, el campo vuelve a experimentar cambios. Modelos como CLIP o PaLI no solo utilizan la imagen, sino también descripciones lingüísticas o simbólicas para tomar decisiones. Esto les permite, en algunos casos, generalizar mejor, especialmente cuando determinados estados aparecen con poca frecuencia en los datos de entrenamiento.

Aunque estos modelos solo se han utilizado de forma selectiva hasta ahora en la detección industrial clásica, los primeros trabajos de investigación ponen de manifiesto el enorme potencial que se deriva de la combinación de la información visual con las estructuras semánticas.¹⁵

De este modo, surge un nuevo enfoque de la detección de características: ya no se trata solo de «objeto detectado», sino de «objeto comprendido».

Referencias

¹Véase. Viola & Jones – Rapid Object Detection using a Boosted Cascade of Simple Features, 2001

²Véase. Dalal & Triggs – Histograms of Oriented Gradients for Human Detection, 2005

³Véase. Girshick et al. – Rich Feature Hierarchies for Accurate Object Detection (R-CNN), 2014

⁴Véase. Ren et al. – Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, 2015

⁵Véase. Redmon et al. – You Only Look Once: Unified, Real-Time Object Detection, 2016

⁶Véase. Liu et al. – SSD: Single Shot MultiBox Detector, 2016

⁷Véase. Carion et al. – End-to-End Object Detection with Transformers (DETR), 2020

⁸Véase. Krizhevsky et al. – ImageNet Classification with Deep Convolutional Neural Networks, 2012

⁹Véase. He et al. – Deep Residual Learning for Image Recognition (ResNet), 2015

¹⁰Véase. Dosovitskiy et al. – An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, 2020

¹¹Véase. Song et al. – Surface Defect Detection via CNNs, 2019

¹²Véase. Geirhos et al. – Imagenet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness, 2019

¹³Véase. Zhang et al. – DINO: DETR with Improved DeNoising Anchor Boxes, 2022

¹⁴Véase. Zhu et al. – Deformable DETR: Deformable Transformers for End-to-End Object Detection, 2021

¹⁵Véase. Radford et al. – Learning Transferable Visual Models From Natural Language Supervision (CLIP), 2021

¿Le gustaría saber más sobre la detección de características ópticas (OFD)?

Nuestro equipo estará encantado de ayudarle; no dude en ponerse en contacto con nosotros si tiene alguna pregunta sobre la detección de características ópticas.

Póngase en contacto con nosotros