Por qué la visión artificial clásica alcanza rápidamente sus límites en escenas reales
Durante muchas décadas, los sistemas de procesamiento de imágenes se basaron en reglas fijas, operadores matemáticos y características creadas manualmente. Estos métodos son precisos, fáciles de explicar y extremadamente fiables en entornos controlados. Sin embargo, en cuanto entran en juego las condiciones reales (luz cambiante, sombras, texturas, lluvia, reflejos o colores variables), el comportamiento de estos algoritmos cambia drásticamente. Un procedimiento que ofrece resultados perfectos en condiciones de estudio puede fallar con solo unas pocas gotas de lluvia, por ejemplo.
Esta discrepancia tiene poco que ver con la calidad de los métodos clásicos. Se debe más bien a su principio básico: un algoritmo como el operador Sobel o una binarización global toma decisiones basadas en umbrales deterministas. Si una zona de la imagen se vuelve repentinamente más oscura o más clara, todo el histograma se desplaza y los parámetros que antes eran ideales dejan de funcionar. Este efecto se conoce desde hace tiempo en la literatura científica. Ya en su trabajo original, Otsu señaló que los métodos de umbral global son sensibles a las fluctuaciones de iluminación.¹
Los modelos de aprendizaje automático, en particular las arquitecturas basadas en el aprendizaje profundo, han cambiado radicalmente estas limitaciones. No se basan en que cada píxel deba cumplir un umbral fijo, sino en el aprendizaje de patrones, formas y contextos en la imagen. Esto les permite tolerar variaciones que paralizan los métodos clásicos. Las diferencias se hacen especialmente evidentes cuando se observan escenarios concretos que se repiten constantemente en aplicaciones reales.
Una gota de lluvia como problema sistemático del CV clásico
Una sola gota de agua puede suponer un obstáculo casi insuperable para un sistema OCR tradicional. La razón es sencilla: cuando el agua se deposita sobre una superficie, refracta la luz, altera los contrastes locales y crea patrones que no están previstos en un sistema basado en reglas.
Imaginemos, por ejemplo, un número de serie en una carcasa metálica, fotografiado en exteriores. Una gota de agua cae justo sobre un dígito. Desde el punto de vista del CV clásico, en este punto se produce una distribución irregular de la luminosidad: algunas partes del dígito quedan iluminadas en exceso, otras oscurecidas, y la transición parece suave en lugar de angulosa.
Un operador de bordes como Sobel o Canny «interpreta» estos gradientes distorsionados como estructuras adicionales, lo que provoca una sobresegmentación o incluso la pérdida total de caracteres. Trabajos como los de Marr y Hildreth², y más tarde los del propio Canny³, destacan lo sensibles que son los métodos de bordes a este tipo de interferencias.
Por el contrario, un modelo de aprendizaje profundo no calcula su decisión basándose en píxeles individuales o solo en gradientes locales, sino en patrones globales. La forma del dígito, su contexto, su tamaño relativo y las variaciones vistas anteriormente se interpretan conjuntamente. Una gota puede distorsionar la estructura local, pero la forma global sigue siendo reconocible para una red entrenada.
Modelos como CRAFT o CRNN demuestran en la práctica que tales distorsiones apenas influyen en la detección o el reconocimiento, siempre que se hayan tenido en cuenta ejemplos similares durante el entrenamiento. La robustez frente a tales interferencias es una de las razones por las que los métodos OCR basados en ML son cada vez más indispensables en exteriores, en instalaciones de maquinaria o en el control de calidad.
Sombras e iluminación variable: un problema clásico que ML resuelve de forma sistemática
Otro campo en el que los métodos tradicionales se vuelven rápidamente inestables es el de la iluminación. Incluso pequeños cambios —la sombra de un dedo, una nube, una superficie reflectante— pueden alterar la línea de separación binaria hasta tal punto que caracteres enteros desaparecen o se pegan entre sí.
El problema está bien documentado científicamente. En los trabajos de Serra sobre morfología matemática⁴ y en el contexto de la binarización adaptativa⁵ se describe repetidamente que la iluminación es un factor perturbador fundamental. Aunque métodos adaptativos como Sauvola o Wolf funcionan a nivel local, siguen dependiendo de la distribución de intensidades en el fragmento correspondiente.
El aprendizaje automático aborda esta situación de una manera fundamentalmente diferente. Un modelo aprende cómo se ve el texto en condiciones de iluminación muy diferentes: claro, oscuro, reflectante, con sombras o parcialmente oculto. El punto clave es que el modelo no interpreta el valor absoluto de un píxel, sino su patrón. Desde este punto de vista, el texto no es «más claro que el fondo», sino un objeto visual con forma, estructura y contexto.
Los estudios sobre modelos robustos de reconocimiento de texto, como los trabajos sobre SynthText (Gupta et al., 2016)⁶ o, más tarde, sobre TextFuseNet (2020)⁷, demuestran que incluso las escenas complejas con condiciones de iluminación muy variables pueden procesarse de forma fiable. Los modelos abstraen la iluminación y se centran en las propiedades invariables del texto.
Cuando los colores y las propiedades de los materiales rompen las reglas
Mientras que el OCR tradicional suele trabajar con imágenes en blanco y negro o, al menos, parte de la base de que el texto contrasta con el fondo, la realidad es muy diferente: etiquetas de colores, inscripciones grabadas con láser, materiales mates y brillantes, superficies transparentes.
Un ejemplo clásico es el texto grabado con láser sobre metal. Desde determinados ángulos, el texto parece más oscuro que el fondo, mientras que desde otros parece más claro. Una regla fija como «texto = zona oscura» simplemente no funciona en este caso. Problemas similares surgen en carcasas de plástico de colores, superficies pintadas o etiquetas impresas digitalmente, cuyo revestimiento de color refleja la luz de forma variable según el ángulo.
El aprendizaje automático, en particular los modelos basados en CNN y transformadores, interpreta la estructura de un carácter independientemente de su color absoluto. La investigación en el campo del reconocimiento de texto en escena (STR) lleva años demostrando la capacidad de los modelos para compensar estas variaciones. Jaderberg et al. (2016)⁸ y Baek et al. (2019)⁹ destacan que las variaciones de color y material no tienen ninguna influencia estructural en el rendimiento del reconocimiento, siempre que el modelo haya visto suficientes ejemplos.
De este modo, el enfoque se aleja de las reglas fijas y se orienta hacia una solidez basada en datos que los procedimientos clásicos apenas pueden reflejar.
Por qué la geometría compleja y la perspectiva superan los límites de los métodos clásicos
Tan pronto como el texto deja de ser plano, estar impreso con claridad o estar alineado ortogonalmente con la cámara, los métodos tradicionales se encuentran en una situación difícil. La suposición de que los caracteres tienen ciertas propiedades geométricas (líneas rectas, contornos claros, anchuras definidas) a menudo no se cumple en situaciones reales. Incluso ligeras distorsiones de perspectiva pueden hacer que las letras parezcan comprimidas, estiradas o torcidas. Esto afecta tanto al reconocimiento de bordes como a la segmentación, ya que los métodos se basan en gradientes cuyo curso cambia drásticamente con la perspectiva.
Un ejemplo clásico es el texto que aparece en un objeto cilíndrico o curvo, como botellas, tubos o cajas de herramientas. En el caso del CV clásico, esto da lugar a una proyección irregular: las líneas que en realidad son paralelas parecen curvas; las distancias parecen inconsistentes; los caracteres completos pueden superponerse o perderse localmente en la binarización. Los estudios sobre el reconocimiento de documentos realizados a principios de la década de 2000, como los trabajos de Liang, Li y Doermann, muestran de manera impresionante cómo las distorsiones perspectivas influyen en la calidad del OCR.¹⁰
Los modelos de aprendizaje profundo, por el contrario, aprenden estas variaciones directamente a partir de los datos. En lugar de suponer que un carácter tiene una forma geométrica determinada, el modelo aprende qué características son invariables frente a las transformaciones. Incluso los primeros modelos CNN, como LeNet, eran invariables frente a las transformaciones en cierta medida. Con las arquitecturas modernas, como las redes transformadoras espaciales presentadas por Jaderberg et al. en 2015, surgió una forma sistemática de corregir las distorsiones directamente dentro del modelo.¹¹ Estas capas permiten a una red «enderezar» activamente o normalizar geométricamente las áreas de la imagen antes de seguir procesándolas.
En la práctica, esto significa que el texto se reconoce de forma fiable incluso cuando se encuentra en superficies inclinadas, materiales irregulares o fondos con mucho movimiento. El modelo no reconoce píxeles o bordes individuales, sino el patrón subyacente del carácter. Incluso si el contorno de un número en la imagen parece distorsionado o estirado, su estructura sigue siendo reconocible para una red neuronal debidamente entrenada.
Los caracteres deformados o dañados como reto para el procesamiento artesanal de imágenes
Otro campo en el que el procesamiento clásico de imágenes alcanza rápidamente sus límites es el de los daños. En cuanto un símbolo presenta arañazos, desgaste o fallos parciales, un sistema basado en reglas pierde los puntos de referencia visuales necesarios. La decisión se basa en la suposición de que determinadas líneas o curvas están presentes en la imagen. Si estas faltan debido al desgaste, el sistema interpreta el signo de forma errónea o deja de reconocerlo por completo.
Pensemos, por ejemplo, en los números de serie grabados con láser en metal, que al cabo de unos años se vuelven parcialmente ilegibles debido a la fricción o la corrosión. Un sistema OCR clásico intentaría completar los píxeles que faltan o reforzarlos con operadores morfológicos. Sin embargo, estas operaciones también aumentan el ruido y generan artefactos adicionales, un problema conocido que se describe repetidamente en la literatura sobre morfología y segmentación.⁴
Los modelos ML funcionan de manera fundamentalmente diferente. No aprenden la forma perfecta de un carácter, sino el concepto de un carácter. Incluso si faltan partes, las redes más profundas pueden reconocer qué carácter se pretendía originalmente basándose en características globales. La capacidad de interpretar correctamente información incompleta se ha documentado en varios estudios sobre modelos de secuencia robustos, como en los trabajos de Cheng et al. (2017)¹² y, más tarde, en los benchmarks de Baek et al. (2019)9.
Estos modelos no se basan en contornos individuales, sino en propiedades estructurales como proporciones relativas, transiciones típicas o dependencias contextuales entre caracteres adyacentes. De este modo, incluso las áreas dañadas se completan con la imagen global, una capacidad que el CV clásico solo puede alcanzar en casos excepcionales con un gran esfuerzo manual.
Diversidad tipográfica: un problema de reglas, no de datos
Otro aspecto que rápidamente sobrecarga al CV clásico es la gran variedad de tipos de letra, grosores de trazo, espaciados y estilos. Cada nuevo tipo de letra supone una gran cantidad de ajustes para un sistema OCR basado en reglas: nuevas plantillas, nuevos valores umbral, nuevas reglas de segmentación.
Tradicionalmente, se ha intentado mitigar este problema mediante plantillas o descriptores de características. Sin embargo, incluso características como HOG o momentos de Zernike, por muy valiosas que sean, no pueden captar completamente la enorme variabilidad de los tipos de letra modernos. Cualquier desplazamiento, desviación en el redondeo o variación estilística hace que una característica creada manualmente deje de ser inequívoca. Por ello, la investigación sobre la invariancia de las características ya indicó desde el principio que los sistemas basados en reglas alcanzan sus límites cuando el estilo de un carácter se desvía demasiado de lo esperado.¹⁴
Para los modelos de ML, por el contrario, la diversidad no es una desventaja, sino una ventaja, siempre que los datos de entrenamiento cubran estas variaciones. En el reconocimiento de texto de escenas, los modelos se entrenan regularmente con miles de fuentes diferentes, tanto en conjuntos de datos reales como sintéticos. El modelo no aprende la forma exacta de una «A», sino la estructura que define una «A» a través de muchas variaciones. Esto es precisamente lo que hace que los sistemas modernos sean tan robustos frente a fuentes que nunca han visto antes.
Trabajos como el SynthText Pipeline de Gupta et al.⁶ y los benchmarks de Baek et al.⁹ demuestran que los modelos pueden generalizar estilos de escritura que en el OCR clásico tendrían que modelarse explícitamente.
Por qué las escenas no estructuradas y los fondos complejos favorecen a los sistemas basados en ML
En los últimos años han surgido cada vez más aplicaciones en las que el texto no aparece en superficies claramente definidas, sino en entornos completamente desestructurados. Señales de tráfico, pantallas, embalajes, imágenes de máquinas, pantallas en la producción o indicadores de dispositivos: todas estas escenas presentan una gran variedad de fondos, colores, materiales y estructuras. Para los métodos clásicos, que se basan en gran medida en contrastes, bordes fijos o reglas de segmentación simples, estas escenas suponen un reto fundamental.
El problema principal es que el fondo suele presentar los mismos patrones que el propio texto. Por ejemplo, un metal muy reflectante puede generar gradientes similares a los del borde de un carácter. Los bordes de los árboles, los cables, las líneas y las sombras pueden parecer fragmentos de letras. Este problema se ha descrito con frecuencia en el contexto de la detección de texto en escenas, entre otros, en los trabajos de Neumann y Matas (2012)¹⁴ y, más tarde, en los benchmarks de los concursos ICDAR.¹⁵ Los métodos clásicos deben intentar definir reglas que distingan entre los patrones del texto y los del fondo, una tarea que resulta casi imposible en escenas no estructuradas.
Por el contrario, los modelos de aprendizaje profundo ya no consideran la imagen como la suma de píxeles individuales, sino como un contexto global. Una red neuronal reconoce qué patrones de la imagen pertenecen realmente al texto, porque ha aprendido cómo se ve normalmente el texto en diferentes situaciones. Esta capacidad ha contribuido de manera significativa a que los modelos modernos hayan superado con creces a los enfoques clásicos en las pruebas de rendimiento de los últimos años. Los trabajos de Liao et al. sobre DBNet¹⁷ y los posteriores modelos OCR basados en transformadores¹⁸ muestran que incluso los fondos muy agitados ya no suponen necesariamente una pérdida de información.
Si se producen desenfoques por movimiento o superposiciones
Otro campo en el que los métodos basados en reglas se topan sistemáticamente con sus límites es el del desenfoque por movimiento. En cuanto una imagen se ve borrosa por el movimiento, por ejemplo, debido a rápidos movimientos de la cámara, máquinas que vibran u objetos que pasan, los extractores de características clásicos pierden su base. Los bordes se difuminan, los signos se mezclan y la forma de los números o las letras ya no se define con claridad. Ya en trabajos de la década de 1990 se demostró lo sensibles que son los procesos clásicos de CV a este tipo de interferencias.¹⁶
Por el contrario, los modelos de aprendizaje automático pueden interpretar estas distorsiones sorprendentemente bien. Las razones se encuentran en el entrenamiento: muchos conjuntos de datos contienen imágenes con desenfoque sintético o real. De este modo, los modelos aprenden cómo se ven los signos típicos a pesar del desenfoque por movimiento. Las arquitecturas modernas, como los modelos basados en la atención, se centran en las áreas relevantes de la imagen, incluso cuando los bordes no están claramente definidos. Los trabajos sobre STN (Spatial Transformer Networks)¹¹ y, más tarde, en el contexto de los transformadores, muestran lo bien que los modelos pueden compensar las distorsiones geométricas.¹⁸
Lo mismo ocurre con las superposiciones y los ocultamientos parciales. En muchos casos prácticos, los caracteres no son completamente visibles: un arañazo cubre una parte, una pegatina oculta dos letras o un objeto se superpone parcialmente al texto. El CV clásico apenas tiene posibilidades en estos casos. Sin contornos completos, los caracteres no se pueden clasificar con precisión, e incluso los complementos morfológicos suelen generar más artefactos que soluciones.
Por el contrario, los sistemas basados en ML suelen aprender la «idea» de un carácter y pueden reconstruir las partes que faltan a partir del contexto. Los estudios sobre el reconocimiento robusto de texto, como los trabajos de Cheng et al.¹², Baek et al.⁹ y las investigaciones posteriores sobre STR, muestran que los modelos modernos pueden interpretar incluso caracteres incompletos con un alto grado de certeza. Esta capacidad no se basa en reglas explícitas, sino en el conocimiento estadístico de cómo se estructuran típicamente las formas de los caracteres.
Una conclusión sobre dos mundos del procesamiento visual
La comparación entre la visión artificial tradicional y los enfoques modernos de aprendizaje automático no muestra una competencia entre «lo antiguo» y «lo nuevo», sino una evolución con especializaciones claras. Los métodos clásicos de visión artificial son rápidos, transparentes y extremadamente fiables en escenarios controlados. Durante décadas han constituido la columna vertebral del procesamiento industrial de imágenes y siguen siendo valiosos cuando la luz, la perspectiva y las propiedades de los materiales son estables y no cambian.
Sin embargo, en cuanto entran en juego las condiciones reales (el tiempo, el desgaste de los materiales, la iluminación variable, la perspectiva, el desenfoque por movimiento, los fondos inquietantes), estos métodos alcanzan naturalmente sus límites. La estricta adhesión a reglas fijas los hace sensibles a cualquier tipo de desviación. Por el contrario, los modelos de aprendizaje automático se basan en la generalización estadística. Reconocen patrones incluso cuando están parcialmente ocultos, distorsionados o alterados, porque han aprendido a partir de una gran variedad de ejemplos cómo aparece el texto en situaciones muy diferentes.
El desarrollo científico de los últimos años demuestra claramente que los procesos basados en el aprendizaje automático no solo suponen una ampliación de los métodos tradicionales, sino que superan estructuralmente muchos de sus problemas fundamentales. Desde robustos detectores de texto hasta modelos de secuencias y sistemas completos basados en transformadores, se ha producido un desarrollo que ha hecho viable el OCR y el análisis de texto en escenarios complejos.
Hoy en día coexisten dos mundos: la estabilidad de los métodos clásicos y la flexibilidad de los modelos modernos de aprendizaje automático. El valor no reside en considerar uno de estos mundos como superior, sino en comprender qué método es adecuado para cada circunstancia y cómo ambos pueden interactuar para que un sistema sea fiable.
Referencias
¹Véase. Otsu – A threshold selection method from gray-level histograms, 1979
²Véase. Marr & Hildreth – Theory of edge detection, 1980
³Véase. Canny – A computational approach to edge detection, 1986
⁴Véase. Serra – Image Analysis and Mathematical Morphology, 1982
⁵Véase. Sauvola & Pietikäinen – Adaptive Document Image Binarization, 2000
⁶Véase. Gupta et al. – SynthText in the Wild: Generating Training Data for Text Recognition, 2016
⁷Véase. Ye et al. – TextFuseNet: Scene Text Detection with Richer Fused Features, 2020
⁸Véase. Jaderberg et al. – Deep Structured Output Learning for Unconstrained Text Recognition, 2016
⁹Véase. Baek et al. – What is wrong with scene text recognition model comparisons?, 2019
¹⁰Véase. Liang, Li & Doermann – Camera-based analysis of text and documents: a survey, 2005
¹¹Véase. Jaderberg et al. – Spatial Transformer Networks, 2015
¹²Véase. Cheng et al. – Focusing Attention: Towards Accurate Text Recognition in Natural Images, 2017
¹³Véase. Belongie et al. – Shape Matching and Object Recognition using Shape Contexts, 2002
¹⁴Véase. Neumann & Matas – Real-Time Scene Text Localization and Recognition, 2012
¹⁵Véase. ICDAR Robust Reading Competitions, 2011–2023
¹⁶Véase. Trier, Jain & Taxt – Feature extraction methods for character recognition: A survey, 1996
¹⁷Véase. Liao et al. – DBNet: Real-Time Scene Text Detection with Differentiable Binarization, 2020
¹⁸Véase. Kim et al. – Donut: Document Understanding Transformer without OCR, 2022