Você está na página 1de 9

Facultad de Telemática

Maestría en Tecnologías de Información

Sistemas de Hipermedia
Dr. Gallardo Armando Roman

Digitalizar documentos y aplicarles OCR

Christian Daniel Renteria Garcia

Marzo, 2019
Proceso de Digitalización de documento

1. Primero reunimos toda la información que deseamos procesar, eliminando los


elementos que no sean el documento en sí mismo, como carpetas o clips
(este es el paso que conlleva más tiempo)

2. Será necesario escanear la documentación para pasarla al formato digital.


Esto se puede hacer manualmente si la cantidad no es muy elevada o
mediante una empresa especializada si es mucha documentación. La
capacidad del escáner condiciona la duración de este paso.

3. A través de una herramienta OCR se puede tranformar la imagen de la


página a texto. Esto permite crear un documento de texto que podemos editar
o incorporar a otro con el que trabajemos.

4. Almacenamiento de la información para una futura búsqueda o consulta. Este


paso nos permitirá mejorar el acceso a la información, se puede realizar a
través de los metadatos.
Digitalizando nuestro libro

Para comenzar con la digitalización del libro primero busqué un aplicación


que me permitiera realizar un OCR scanner, para esta actividad utilicé ​Text Fairy.
1. Abrimos la interfaz de la aplicación

2. Damos click en el ícono de la cámara y tomamos una captura del texto que
queremos digitalizar.
3. Seleccionamos la parte del texto que queremos digitalizar como TXT to PDF

4. Selecciona el formato que tiene el texto.


5. Comenzará la digitalización del texto

6. Veremos el fragmento del texto en formato text y podemos convertirlo a PDF


¿Qué es el OCR?

Imaginemos que queremos digitalizar un artículo, revista o un contrato


impreso. Para realizarlo, podrías pasar horas tecleando cada uno de los textos que
tiene nuestro documento. Pero, también podrías convertir un documento completo
en un formato digital en cuestión de minutos utilizando un escáner (o cámara digital)
y un Optical Character Recognition Software (​OCR).​

OCR es una tecnología que permite convertir diferentes tipos de documentos,


PDF files o imágenes capturadas por una cámara digital en información editable y
permite realizar búsquedas.

El Proceso

El mecanismo que permite a los humanos reconocer objetos consta con tres
principios, integridad, utilidad/significado y adaptabilidad. Estos principios forman
parte del CORE de OCR, permitiéndole replicar el reconocimiento humano o natural.

Primero, el programa analiza la estructura del documento o imagen. Divide la


página en elementos como elementos de texto, tablas e imágenes. Las líneas se
dividen en palabras y posteriormente en caracteres. Una vez que los caracteres se
separaron, el programa los compara con un patrón de imágenes predeterminadas.
Posteriormente avanza a diferentes hipótesis acerca del carácter que pudiera ser.

Basada en esta hipótesis, el programa analiza diferentes variantes y después


de procesar un gran número de resultados hace la decisión y te presenta el texto
reconocido.
Aplicaciones para OCR (FREE)

SimpleOCR

TopOCR
FreeOCR

TextFairy