OCR y visión artificial 10 minutos de lectura

Cómo se utiliza el OCR tradicional en la visión artificial

Una visión comprensible y con base científica sobre cómo están estructurados los procesos clásicos de OCR y por qué siguen formando parte de los sistemas modernos de procesamiento de imágenes.

Publicado el 7 de junio de 2025 - Traducido automáticamente

Una hoja de papel convencional rayada cuyo contenido es capturado y procesado por una cámara.

Autores

Foto de perfil del autor de la entrada del blog.

Philip Zetterberg
Ingeniero de software de IA, TRENPEX

Colaboradores

Dr. Christian Schüller
Jefe de Desarrollo de Software, TRENPEX

Angie Zetterberg
Relaciones públicas, TRENPEX

Suscríbanse a nuestro boletín informativo

Compartir

El papel del OCR clásico en los sistemas modernos de procesamiento de imágenes

Hoy en día, en muchos procesos operativos se generan datos de imagen que contienen texto de alguna forma: documentos escaneados, fotos de placas de identificación, etiquetas en logística, números de serie en componentes, valores de medición en pantallas o notas manuscritas en formularios. Para poder utilizar esta información de manera eficiente, se necesitan procedimientos que reconozcan el texto de una imagen y lo conviertan en un formato procesable. El reconocimiento óptico de caracteres, o OCR, es la tecnología clave para ello.

Aunque hoy en día el aprendizaje automático suele ocupar un lugar destacado, en muchos sistemas se siguen utilizando métodos clásicos de visión artificial. Esto no se debe a que estos procedimientos sean «mejores», sino a que funcionan de forma fiable y estable en determinadas condiciones: por ejemplo, cuando la iluminación es controlada, las fuentes son constantes o el hardware ofrece una potencia de cálculo limitada. Por lo tanto, el OCR clásico no es un modelo opuesto a la IA, sino un componente más dentro de un conjunto completo de herramientas técnicas.

Estructura del OCR tradicional

Los procesos básicos que hacen posible el OCR se han investigado a fondo durante décadas. En la literatura especializada se puede encontrar una estructura casi uniforme de este tipo de sistemas¹, un proceso que ha demostrado su eficacia en la práctica y que, por lo tanto, se sigue utilizando hoy en día.² En primer lugar, se procesa la imagen, seguido de la separación del texto y el fondo. Solo cuando estos dos pasos funcionan correctamente, los procesos posteriores, como la segmentación o la clasificación, pueden proporcionar resultados fiables.

Por lo tanto, el preprocesamiento y la binarización son elementos centrales del OCR clásico. Definen la «claridad» de la imagen para todos los análisis posteriores. Y determinan si un sistema reconocerá realmente los caracteres más adelante o si fallará debido al ruido, las sombras o el contraste débil.

Preprocesamiento: poner las imágenes en un estado fiable

En la práctica, ninguna imagen es perfecta. El ruido, las sombras, la iluminación desfavorable, las tomas movidas o las perspectivas inclinadas pueden dificultar el reconocimiento. Por lo tanto, el preprocesamiento tiene la función de optimizar la imagen de manera que las estructuras de texto relevantes se mantengan lo más intactas posible. Este paso es especialmente importante para los procesos clásicos de OCR basados en reglas, ya que estos métodos no cuentan con mecanismos de aprendizaje que compensen automáticamente las deficiencias.

Un problema habitual es el ruido de la imagen. Se produce especialmente cuando las imágenes se toman en condiciones de iluminación difíciles o cuando la cámara es de baja calidad. Para reducir estas interferencias, se utilizan diferentes filtros. El filtro bilateral, descrito por Tomasi y Manduchi en 1998, es una herramienta muy utilizada.³ Conserva los bordes y, al mismo tiempo, suaviza el ruido, una propiedad especialmente valiosa para las imágenes de texto.

El contraste también juega un papel importante. Las impresiones descoloridas o las diferencias de brillo débiles entre la fuente y el fondo dificultan la separación posterior de las áreas de la imagen. Métodos como la ecualización adaptativa del histograma, en particular el conocido método CLAHE, han demostrado su eficacia para compensar las diferencias de contraste locales y hacer que los detalles destaquen más claramente.⁴ Especialmente en el caso de escaneos y fotos de mala calidad, esto puede tener una influencia directa en la calidad del reconocimiento.

Otro tema clásico es la alineación. Incluso una ligera inclinación puede provocar que las líneas no se reconozcan correctamente o que los caracteres se segmenten de forma errónea posteriormente. Para evitarlo, muchos sistemas analizan la estructura de la imagen, por ejemplo, con la transformación de Hough o mediante proyecciones de líneas de texto. Trabajos como el de Leedham et al.⁵ muestran la eficacia de estas correcciones, incluso en documentos muy deteriorados.

Además, la iluminación juega un papel muy importante. En entornos industriales o en tomas móviles, es raro que una imagen esté iluminada de manera uniforme. Las sombras, los reflejos o las superficies brillantes pueden hacer que el texto aparezca parcialmente sobreexpuesto o demasiado oscuro. Métodos como el filtrado homomórfico⁶ o la transformación top-hat de la morfología matemática⁷ contribuyen a reducir la influencia de la iluminación y a revelar la estructura real del texto.

Esta combinación de reducción de ruido, ajuste de contraste, corrección geométrica y normalización de la iluminación da como resultado una imagen que proporciona una base estable para todos los pasos posteriores.

Binarización: la decisión fundamental en la imagen

Una vez estabilizada la imagen, se lleva a cabo un paso que es fundamental para los sistemas OCR clásicos: la binarización. En este proceso, la imagen en escala de grises se convierte en una imagen en blanco y negro. Suena sencillo, pero tiene consecuencias de gran alcance, ya que muchos de los procesos posteriores, como la segmentación o el análisis de formas, funcionan exclusivamente con imágenes binarias.

El método global más conocido es la determinación del umbral de Otsu, publicado en 1979.⁸ Calcula automáticamente un valor límite que divide la imagen de manera que se maximice la varianza entre el primer plano y el fondo. Para imágenes con iluminación homogénea, Otsu suele ofrecer resultados muy buenos y reproducibles. En entornos controlados, como escaneos o estructuras industriales definidas, este método puede funcionar de forma fiable.

Sin embargo, en muchos escenarios prácticos, las condiciones de iluminación no son uniformes. Las sombras, las superficies brillantes o las fluctuaciones locales de luminosidad hacen que un único valor umbral no sea suficiente. Aquí es donde entran en juego los métodos adaptativos. Niblack⁹, Sauvola y ampliaciones posteriores, como las de Wolf y Jolion¹⁰, calculan el valor umbral para cada área de la imagen de forma individual. De este modo, se adaptan a las condiciones locales y pueden extraer texto incluso cuando existen grandes diferencias de luminosidad.

La binarización es un factor decisivo para que el texto pueda separarse, segmentarse y clasificarse correctamente posteriormente. Por ello, lleva muchos años siendo objeto de intensa investigación. Concursos como «DIBCO» demuestran que este campo sigue desarrollándose hasta la fecha, entre otras cosas porque también desempeña un papel importante como paso previo al procesamiento en los modernos procesos de OCR.

Cómo el reconocimiento de bordes y la segmentación allanan el camino para el reconocimiento de caracteres

Una vez que una imagen se ha estabilizado lo suficiente y se ha convertido en una representación de dos niveles, surge la pregunta de cómo se crean caracteres individuales claramente diferenciados a partir de esta masa de píxeles. Para los seres humanos, este proceso es algo natural: reconocemos inmediatamente dónde comienza y dónde termina una letra. Los ordenadores, por el contrario, necesitan procedimientos propios que deduzcan estructuras a partir de los gradientes de luminosidad de la imagen. Hay dos pasos que desempeñan un papel fundamental en este proceso: el reconocimiento de bordes y la segmentación.

El reconocimiento de bordes sirve para resaltar los contornos esenciales de un carácter. Mientras que la binarización solo separa el primer plano del fondo, los bordes proporcionan información sobre la forma, la orientación y las transiciones entre estructuras. En términos técnicos, un borde no es más que un punto de cambio brusco de luminosidad. Sin embargo, estos puntos son decisivos para la visión artificial, ya que proporcionan información sobre líneas, curvas o formas cerradas, es decir, precisamente las características que definen una letra o un número.

Ya en los años 60 y 80 se desarrollaron procedimientos que siguen sirviendo hoy en día como base para muchos procesos de tratamiento de imágenes. El operador Sobel es uno de los ejemplos más conocidos. Reacciona a los cambios de luminosidad a lo largo de los ejes horizontal y vertical, proporcionando así una imagen clara de dónde hay estructura en la imagen.¹¹ Para muchas aplicaciones técnicas en las que la iluminación es constante y los objetos tienen una forma definida, Sobel suele ser más que suficiente.

El operador Laplace, que no reacciona al primer gradiente de luminosidad, sino al segundo, funciona con mayor sensibilidad. En combinación con un suavizado, conocido como «Laplaciano de Gauss» (LoG), también se hacen visibles los contornos débiles o finos, que son importantes en algunos escenarios.¹² Este procedimiento cobró especial interés cuando Marr y Hildreth proporcionaron en 1980 una base teórica sobre cómo los sistemas visuales perciben los bordes. La idea de que tanto el suavizado como la derivación van de la mano se sigue aplicando hoy en día en muchos sistemas OCR industriales.

El algoritmo más conocido en este ámbito es el detector de bordes Canny. En 1986, John Canny publicó un método que, a día de hoy, sigue considerándose el «óptimo» para la detección de bordes.¹³ Combina suavizado, análisis de gradientes y lo que se conoce como umbral de histéresis, lo que da como resultado bordes estables y cerrados. Esta propiedad es especialmente valiosa para la segmentación, ya que el sistema no solo reconoce que existe una estructura en algún lugar, sino también si esta estructura es realmente coherente, un requisito previo para su posterior separación en caracteres individuales.

Una vez que se han hecho visibles los bordes esenciales de una imagen, surge la siguiente pregunta: ¿cómo se convierten estos contornos en áreas individuales que se pueden analizar por separado? En la investigación, este paso se describe desde hace tiempo como segmentación. La imagen se divide en unidades que son relevantes para su posterior clasificación: líneas, palabras y, finalmente, caracteres individuales. La calidad de esta segmentación determina en gran medida el buen funcionamiento final de un sistema OCR.

Uno de los métodos básicos para la segmentación de caracteres es el «análisis de componentes conectados» (CCA). En este caso, la imagen se considera como si estuviera formada por agrupaciones de píxeles conectados entre sí. Cada grupo que tiene una conexión común se trata como un componente independiente.¹⁴ En muchos casos, este componente corresponde a un carácter o, al menos, a una parte que pertenece lógicamente al mismo. El enfoque es relativamente sencillo, pero se puede aplicar de forma muy eficaz. Por eso, el CCA se sigue utilizando hoy en día en numerosas aplicaciones industriales, como el reconocimiento de números de serie o las etiquetas con una estructura clara.

Cuando las estructuras son más complejas, por ejemplo, en el caso de caracteres fusionados o fondos irregulares, los píxeles puramente contiguos no suelen ser suficientes. En estos casos, se suele recurrir al reconocimiento de contornos. Métodos como el de seguimiento de contornos desarrollado por Suzuki y Abe en 1985 analizan líneas cerradas y, de este modo, pueden captar con gran precisión la forma exterior de un posible carácter.¹⁵ La combinación del reconocimiento de contornos y operaciones morfológicas sencillas, como la dilatación o la erosión, permite tratar incluso casos en los que la escritura está muy alterada o parcialmente dañada.

Al final de estos pasos, suelen aparecer áreas rectangulares en la imagen, denominadas «cuadros delimitadores». Estos marcan las regiones que se clasificarán posteriormente. Un cuadro delimitador es, en cierto modo, el «paquete» que el sistema transfiere a un algoritmo de clasificación: un fragmento de imagen claramente aislado que contiene un solo carácter o elemento simbólico. La calidad de estos recuadros influye directamente en la precisión del reconocimiento. Si un carácter se recorta de forma incompleta o si el recuadro contiene estructuras de fondo molestas, los procesos de clasificación posteriores pueden realizar fácilmente asignaciones erróneas.

La segmentación y el reconocimiento de bordes forman juntos el puente entre una señal de imagen sin procesar y el reconocimiento de caracteres propiamente dicho. Se encargan de que lo que se clasifica posteriormente no sea un fragmento de imagen cualquiera, sino un fragmento bien definido y estructurado. Solo mediante estos pasos se crea, a partir de una imagen compleja, la base para un reconocimiento de texto preciso.

Cómo clasifica los caracteres el OCR tradicional y por qué las características de forma desempeñan un papel fundamental en este proceso

Una vez que una imagen se ha segmentado y descompuesto en caracteres individuales, surge la pregunta decisiva: ¿cómo reconoce el sistema qué letra, qué número o qué símbolo contiene el área recortada? Los enfoques modernos utilizan redes neuronales para ello, pero antes de que el aprendizaje automático se generalizara, esta tarea se resolvió durante muchos años con métodos clásicos. Estos procedimientos no se basan en probabilidades, sino en las propiedades geométricas, estructurales y estadísticas de los caracteres.

Un enfoque que se utilizó desde muy temprano es el denominado «template matching» (comparación de plantillas). En este caso, el carácter aislado se compara directamente con plantillas que sirven de referencia. La idea detrás de esto es sencilla: si dos patrones son lo suficientemente similares, es probable que se trate del mismo carácter. Este método es especialmente útil en entornos en los que solo hay unos pocos tipos de letra o caracteres con una estructura muy clara. Algunos ejemplos típicos son los números de serie grabados, las placas de identificación o las etiquetas con símbolos estandarizados. Siempre que la forma, el tamaño y el diseño sean estables, la comparación de plantillas ofrece resultados muy fiables, y ello con un esfuerzo computacional relativamente bajo.

Con el tiempo, la clasificación siguió evolucionando y se complementó cada vez más con la extracción de características. En lugar de comparar un carácter como una imagen completa, los investigadores estudiaron qué características eran especialmente relevantes para la diferenciación. Así surgieron descriptores como el «Histogram of Oriented Gradients» (HOG), presentado por Dalal y Triggs en 2005.¹⁶ El HOG describe en qué direcciones apuntan los bordes de una imagen y cuán pronunciados son. Estas características forman una especie de «huella digital» de un carácter: lo suficientemente similares como para reconocer las variantes asociadas y lo suficientemente diferentes como para distinguirlas de otras letras o números.

Otro hito fueron los métodos de características como SIFT y SURF, basados en puntos estructurales locales. SIFT (Scale-Invariant Feature Transform), descrito por primera vez por David Lowe, identifica puntos especialmente destacados en la imagen y describe su entorno.17 SURF (Speeded Up Robust Features) acorta este proceso y permite cálculos más rápidos.18 Aunque estos métodos se desarrollaron originalmente para el reconocimiento general de objetos, se han utilizado repetidamente en la práctica del OCR, especialmente con símbolos o formas de escritura no estandarizadas, donde los métodos clásicos alcanzan sus límites.

Además de estas características globales y locales, existen otras descripciones matemáticas de las formas, como el análisis de curvas cerradas. Los descriptores de Fourier, los momentos de Zernike o el enfoque Shape-Context de Belongie et al.19 muestran la diversidad de la investigación sobre la descripción de formas y la profundidad con la que se ha estudiado el tema a lo largo de décadas. El objetivo de estos métodos es siempre describir un signo de manera que se puedan reconocer de forma fiable incluso las pequeñas diferencias entre símbolos, independientemente de si están impresos, grabados o ligeramente distorsionados.

En muchos sistemas OCR clásicos, esta extracción de características va seguida de un clasificador basado en reglas o estadístico. Pueden ser simples medidas de distancia, pero también modelos como las máquinas de vectores de soporte, que se utilizaron ampliamente en los años noventa y dos mil. La combinación de características claramente definidas y un clasificador bien entrenado forma un sistema global robusto que sigue funcionando de forma fiable en muchos escenarios controlados hasta la fecha.

Es interesante que incluso los modernos sistemas OCR basados en IA sigan utilizando partes de estos enfoques tradicionales. El preprocesamiento, la segmentación o la normalización geométrica se implementan a menudo según principios clásicos, ya que son deterministas y fáciles de controlar. Mientras que las redes neuronales se encargan del reconocimiento de patrones, el procesamiento clásico de imágenes garantiza que los datos de entrada estén en un estado coherente.

La interacción entre caracteres segmentados, características extraídas y un clasificador constituye la fase final del proceso clásico de OCR. A partir de una imagen original, ya sea un escaneo, una fotografía o un registro de una planta de producción, se obtiene al final una información estructurada y legible por máquina. Esta transición de la señal visual a la base de datos digital es la esencia del OCR.

Clasificación y perspectivas

Los métodos tradicionales de visión artificial desempeñan hoy en día un papel importante sobre todo en aquellos ámbitos en los que prevalecen condiciones estables, las decisiones deterministas son importantes o se dispone de poca potencia de cálculo. Muchos sistemas industriales, estaciones de prueba o soluciones de escaneo siguen recurriendo a estos conceptos, no por motivos nostálgicos, sino porque son suficientes y fiables para determinadas tareas.

Al mismo tiempo, el auge de los modernos modelos de aprendizaje profundo ha cambiado radicalmente el panorama del OCR. Los sistemas basados en el aprendizaje automático ofrecen ventajas significativas cuando se trata de escrituras complejas, fondos no estructurados o textos manuscritos. En lugar de tener que elegir entre los métodos clásicos y los basados en el aprendizaje automático, muchas empresas combinan hoy en día ambos enfoques: los métodos clásicos se encargan del preprocesamiento y la estructura, mientras que las redes neuronales se encargan del reconocimiento propiamente dicho.

Esta combinación demuestra que, aunque el OCR tradicional ya no es el único protagonista, sigue siendo un componente importante de los procesos modernos de tratamiento de imágenes. Ofrece funciones que siguen funcionando de forma muy fiable en entornos claramente definidos y sobre las que pueden basarse incluso los procedimientos más modernos.

Referencias

¹Véase. Govindan & Shivaprasad – Character recognition: A review, 1990

²Véase. Trier, Jain & Taxt – Feature extraction methods for character recognition: A survey, 1996

³Véase. Tomasi & Manduchi – Bilateral Filtering for Gray and Color Images, 1998

⁴Véase. Pizer et al. – Adaptive Histogram Equalization and its Variations, 1987

⁵Véase. Leedham et al. – Separating Text and Background in Degraded Document Images, 2002

⁶Véase. Oppenheim et al. – Homomorphic Filtering, 1968

⁷Véase. Serra – Image Analysis and Mathematical Morphology, 1982

⁸Véase. Otsu – A threshold selection method from gray-level histograms, 1979

⁹Véase. Niblack – An introduction to digital image processing, 1986

¹⁰Véase. Wolf & Jolion – Extraction and Recognition of Artificial Text in Multimedia Documents, 2005

¹¹Véase. Sobel & Feldman – A 3x3 isotropic gradient operator for image processing, 1968

¹²Véase. Marr & Hildreth – Theory of edge detection, 1980

¹³Véase. Canny – A computational approach to edge detection, 1986

¹⁴Véase. Jain & Zhong – Page segmentation using texture analysis, 1996

¹⁵Véase. Suzuki & Abe – Topological structural analysis of digitized binary images by border following, 1985

¹⁶Véase. Dalal & Triggs – Histograms of Oriented Gradients for Human Detection, 2005

¹⁷Véase. Lowe – Distinctive Image Features from Scale-Invariant Keypoints, 2004

¹⁸Véase. Bay et al. – SURF: Speeded Up Robust Features, 2006

¹⁹Véase. Belongie et al. – Shape Matching and Object Recognition using Shape Contexts, 2002

¿Desea obtener más información sobre el OCR y la visión artificial?

Nuestro equipo estará encantado de ayudarle. No dude en ponerse en contacto con nosotros si tiene alguna pregunta sobre OCR y visión artificial.

Póngase en contacto con nosotros