Digitalización de documentos, Gestión Documental

OCR y extracción automático de datos. Herramientas clave para la digitalización

¿Qué es el reconocimiento óptico de caracteres (OCR)?

El procesamiento de reconocimiento óptico de caracteres (OCR) es el procedimiento que transforma una imagen de texto en un formato de texto que las máquinas pueden leer. Por ejemplo, si realiza una copia de seguridad de un formulario o recibo, su ordenador almacena la copia como un archivo de imagen. Un editor de texto no puede emplearse para modificar, buscar o narrar las palabras presentes en el archivo de imagen. No obstante, el OCR puede emplearse para transformar la imagen en un documento de texto que contenga su contenido en forma de datos de texto.

¿Por qué es importante el OCR?

La mayor parte de los flujos de trabajo en el ámbito empresarial implican obtener información de medios impresos. Los formularios impresos, las facturas, los documentos jurídicos escaneados y los contratos impresos constituyen elementos esenciales en los procedimientos comerciales. Estas grandes cantidades de documentación demandan gran cantidad de tiempo y espacio para su almacenaje y gestión. Aunque la gestión de documentos en formato digital es aconsejable, la digitalización de estos genera retos. El procedimiento necesita acción manual y puede resultar tedioso y pausado.

Además, la transformación digital del contenido de los documentos genera archivos gráficos con el texto escondido dentro de ellos. El contenido de las imágenes no puede ser procesado de la misma forma que los documentos de texto con un programa de procesamiento de texto. La tecnología OCR soluciona el problema transformando imágenes de texto en información de texto que puede ser examinada por otros programas empresariales. Así, puede emplear la información para realizar análisis, perfeccionar operaciones, automatizar procedimientos y aumentar la productividad.

¿Cómo funciona el OCR?

El software o el motor de OCR opera siguiendo los pasos siguientes:

1. Adquisición de identidad visual

Un escáner procesa los documentos y los transforma en información binaria. El programa de OCR examina la imagen escaneada y categoriza las zonas claras como fondo, mientras que las zonas oscuras son consideradas texto.

2. Procesamiento previo y exhaustivo

El programa de OCR inicialmente limpia la imagen y suprime los fallos para acondicionarla para su lectura. Algunas de las técnicas para la limpieza son:

El documento escaneado se endereza o se inclina un poco para resolver las dificultades de alineación durante el proceso de escaneo
Se quita o se borran las marcas de las imágenes digitales o se suavizan los bordes de las imágenes de texto.
Se aclaran los paneles y las líneas de la ilustración.
Se identifican guiones para la tecnología OCR de múltiples idiomas.

3. Reconocimiento de texto

Se conocen como coincidencia de patrones y extracción de características a los dos tipos principales de algoritmos de OCR o procesos informáticos que emplean un software de OCR para la identificación de texto.

4. Coincidencia de patrones

La coincidencia de patrones aparta una imagen de personalidad, conocida como glifo, y la contrasta con un glifo guardado de forma parecida. La identificación de patrones solo es efectiva si el glifo guardado posee una fuente y escala parecidas a las del glifo de entrada. Este procedimiento resulta eficaz con imágenes digitalizadas de documentos redactados en una fuente reconocida.

5. Extracción de características

La obtención de características segmenta o desintegra los glifos en elementos como líneas, circuitos cerrados, dirección de línea e intersecciones de línea. Posteriormente, emplea estas propiedades para determinar la mejor coincidencia o el vecino más próximo entre los glifos guardados.

6. Procesamiento posterior

Tras el análisis, el sistema transforma la información de texto obtenida en un archivo de informática. Algunos sistemas de OCR tienen la capacidad de generar documentos PDF con anotaciones que contienen las versiones previas y subsiguientes del documento que se ha escaneado.

¿Qué tipos de OCR existen?

Software simple de reconocimiento óptico de caracteres

Un motor de OCR sencillo guarda numerosos patrones de texto y diversas fuentes como las plantillas. El programa de OCR emplea algoritmos de coincidencia de patrones para cotejar imágenes de texto, letra por letra, con su base de datos interno. Si el sistema se alinea palabra por palabra con el texto, esto se conoce como reconocimiento óptico de palabras. Esta solución presenta restricciones, dado que existen prácticamente infinitas fuentes y estilos de escritura, y no es posible capturar y guardar cada uno de estos tipos en la base de datos.

Software inteligente de reconocimiento óptico de caracteres

Los sistemas de reconocimiento automático de caracteres (OCR) actuales emplean tecnología de reconocimiento inteligente de caracteres (ICR) para leer el texto de la forma en que los seres humanos lo hacen. Emplean técnicas sofisticadas que capacitan a las máquinas para que actúen como seres humanos a través del software de aprendizaje automático. Un sistema de aprendizaje automático conocido como red neuronal examina el texto en diversos niveles y procesa la imagen de manera repetitiva. Examina distintas características de la imagen, tales como curvas, líneas, cruces y circuitos, y fusiona los resultados de todos estos distintos niveles de análisis para conseguir el resultado final. Aunque el ICR usualmente procesa imágenes de un carácter simultáneamente, el procedimiento es veloz y los resultados se logran en segundos.

Reconocimiento de palabras inteligente

Los sistemas inteligentes de identificación de palabras operan con los mismos fundamentos que el ICR, aunque manejan imágenes de palabras completas en vez de procesar las imágenes en caracteres antes de procesarlas.

Reconocimiento óptico de marcas

La identificación óptica de marcas reconoce logotipos, marcas de agua y otros signos textuales en un texto.

¿Qué beneficios ofrece el OCR?

Velocidad

El principal beneficio del software de OCR radica en la velocidad con la que lleva a cabo los procedimientos de inclusión y tratamiento de datos. El mecanógrafo que se ha registrado con mayor rapidez tipeó 216 palabras cada minuto. En contraste, el programa de OCR más veloz en un ordenador de calidad puede identificar más de 1500 caracteres cada segundo.
Precisión

Otra ventaja es la exactitud. Para las personas, cada etapa (inclusión de datos, tratamiento de datos y extracción de datos) representa un campo donde pueden surgir fallos. La exactitud del OCR en un programa básico oscila entre el 98%. Al integrar tecnologías de Inteligencia Artificial, tales como algoritmos de aprendizaje profundo, procesamiento de lenguajes naturales (NLP), reconocimiento inteligente de caracteres (ICR) y otros programas de reconocimiento, la exactitud se incrementa aún más.
Funcionalidad

Aunque los textos redactados a mano pueden transformarse en imágenes digitales y documentos escaneados sin la necesidad del reconocimiento óptico de caracteres, la capacidad del OCR añade la habilidad de indexar, modificar y efectuar búsquedas en dichos documentos. Si ha recibido alguna vez un PDF que simplemente era una imagen escaneada, comprenderá la frustración de no tener la posibilidad de modificar el texto. El OCR quita esa frustración, independientemente de si se trata de trabajar con documentos en papel, tarjetas de visita, anotaciones redactadas a mano o incluso recibos de tienda.
Costo

Hoy en día, cada vez más empresas optan por la nube y el mundo digital debido a las múltiples ventajas de tener la información al alcance de la mano. No obstante, el precio de la inclusión, el manejo y la obtención manual de datos puede ser desmedido. Elegir el OCR contribuye a disminuir los gastos asociados a la contratación de servicios de extracción de datos, incluyendo los costos de copiado, impresión y otros.
Espacio

Ya que el OCR asiste de manera rápida y exacta en convertir los montones de documentos de toda su compañía en datos digitales, clasificados y documentados, ya no requerirá de todos esos documentos en papel. Los vastos depósitos repletos de documentos y archivos fueron sustituidos por un único servidor y una plataforma que simplifica la búsqueda de datos dentro de la entidad.
Capacidad de edición

Como se indicó previamente, es una gran frustración tener un PDF que únicamente es una imagen y no tener la posibilidad de modificar el texto. El OCR soluciona ese inconveniente transformando todos sus documentos en su formato de archivo preferido, como Word. Esto simplifica la renovación de los contenidos del documento, en vez de las labores de copiar, pegar y modificar que demandan un gran esfuerzo.