Você está na página 1de 3

Realizar OCR a libros: Reconstruir desde cero

por Mordekainen [Marzo 2002]

Este es un breve manual para realizar OCR a libros con una maquetación/formato razonablemente
complejo y/o imágenes incrustadas. Por favor, ten en cuenta que existen muchas otras técnicas y que
libros más sencillos pueden ser OCR con buenos resultados pasándolos directamente a PDF.
Reconstruirlos desde cero es una forma de escanear que consume tiempo (y paciencia). Estas son
algunas de las cosas que he descubierto y no una biblia que seguir al pie de la letra.

Nota Final: Aunque lo presento como pasos a seguir, no es necesario que se sigan en el orden que
aparecen. Puedes escanear varias páginas, trabajar con ellas, hacerles OCR y luego escanear más
páginas y repetir el proceso.

SOFTWARE

Hay muchas aplicaciones que hacen lo mismo (o similar) que las aplicaciones a las que me voy a referir.
Uso Paint Shop Pro, ReadIris, Microsoft Word y Jaws PDF Producer.

Cuando trabajes con imágenes, probablemente trabajarás con JPG. Debes encontrar una tasa de
compresión que te dé una buena calidad y el archivo no sea demasiado grande. Suelo preferir mejor
calidad a menor tamaño, pero ten cuidado si tu libro tiene muchas imágenes. Siempre puedes guardar
las imágenes importantes con mejor calidad donde, como se dice en la industria, el arte de relleno
puede sacrificar más en términos de calidad.

ESCANEAR

El consejo principal es encontrar la relación correcta entre brillo y contraste. La única forma de hacerlo
es mediante pruebas.

Lo que quieres es ver la página, sin tener que ajustar la configuración del monitor. También recuerda
que es más fácil de corregir si la imagen tiene más brillo que darle brillo a una imagen oscura.

Las cubiertas siempre son en color, así que deberías escanearlas a 150 dpi en color a menos que
quieras hacerle OCR a cualquier texto que aparezca en ellas (nombre de autor...). En ese caso,
escanéalas a 300 dpi pero en la mayoría de las situaciones con una simple imagen para las cubiertas
basta. No olvides la cubierta trasera. Ya que el escaner proporciona la fuente, querrás alinear el libro
correctamente para evitar la rotación pero lo que debes evitar es inclinar la página (por ejemplo,
presionar más al final de la página que en el principio) ya que la rotación se puede arreglar con un
programa de retoque.

Ahora, para escanear el libro en sí, examina las páginas. Si ves algún gráfico que se repita en el libro
en los márgenes, necesitarás escanear una página (o una par y otra impar) con el propósito de conseguir
dichos márgenes. Elige la/s página/s que mejor se adapte. Esto dependerá del libro. En algunos, estará
al principio (o al final), en otros, por la mitad del mismo. Como las cubiertas, evita la rotación y la
inclinación: recuerda que estos gráficos se utilizarán en todo el libro, así que deben ser buenos. A 150
dpi, está bien.

CONSEJO: No olvides los extractos de la web. Normalmente tienen la misma apariencia que el libro
y eliminarán parte del trabajo simplemente capturando las imágenes de ahí.

No te preocupes del resto de la página, sólo concéntrate en los márgenes. Una vez hecho, abre las
imágenes en Paint Shop Pro y selecciona con cuidado las partes relevantes, guardándolas en archivos
distintos. Si un libro tiene un gráfico que está presente arriba, abajo y al lado del texto, deberías
guardarlo en tres archivos distintos para evitar un tamaño redundante.

Con los gráficos (márgenes) repetitivos hechos, escanea el libro. Página a página, si la página sólo tiene
imágenes (aparte de los márgenes) deberías escanearlos a 300 dpi (si la imagen está en color, claro)
o 300 dpi en escala de grises. Sólo escanea en blanco y negro si la imagen tiene sólo dos colores. Si
hay dudas, en escala de grises.

Si la página sólo tiene texto (aparte de márgenes, etc), escanea a 300 dpi en escala de grises o 300-600
dpi blanco y negro (depende del fondo, fuente... experimenta hasta que encuentres cómo queda mejor).
Bien, ahora tienes todas las páginas escaneadas dependiendo de si hay imágenes o no. con esto en
mente, carga todas las páginas con imágenes en el PSP y recórtalas con cuidado y guárdalas por
separado. Dependiendo del libro tendrás que reducir el tamaño de la imagen (ver más abajo).

OPCIONAL: Ya que tienes los márgenes guardados (¿no?), puedes eliminarlos de todas las páginas.
Así consigues que el programa de OCR detecte con facilidad la maquetación de la página.

ROTACION/INCLINACION: Si cualquier página está rotada, puedes arreglarlo con PSP. La mayoría de
los programas de OCR permiten 4 rotaciones (bastante restringido) pero úsalo si quieres rotar una
página 0.5 grados para evitar problemas de OCR más tarde (sobre todo si está a dos columnas). La
inclinación o el exceso de presión es más difícil y es mejor reescanear las páginas problemáticas.

REALIZAR OCR

Necesitarás un poco de práctica aquí (para ver si 300 dpi en escala de grises funciona mejor que 600
blanco y negro, por ejemplo) para conseguir resultados óptimos. Introduce las páginas en el programa.
Si proporciona aprendizaje, ¡USALO! Comprueba que el sistema de autodetección funciona
correctamente, arreglando los posibles problemas que puedan surgir. Lo que quieres es guardar el
texto/tablas tan cerca del original como sea posible. Exporta el resultado a .TXT.

RECONSTRUIR

La primera consideración es de fuentes. Deberías tener las mismas fuentes (si es posible) o muy
similares. Esto te evitará problemas si quieres que cada página parezca del original.

CONSEJO: Si hay extractos en la web que puedas abrir con Acrobat y (si la configuración de seguridad
lo permite) usa la herramienta de Retoque de texto para ver qué fuente se ha usado en cada párrafo.

Crea un documento de Word (o de cualquier otro). Crea una plantilla para ahorrar tiempo y esfuerzo y
también para reducir el tamaño final del archivo. La plantilla se compone de una o varias páginas que
tendrán los gráficos de los márgenes en su sitio. También puedes poner cuadros de texto con el número
de página para que cambie automáticamente. Sitúa los márgenes tan cerca como puedas del original
(utiliza una regla). Si el libro usa diferentes gráficos para los márgenes para las páginas pares e impares,
asegúrate de elegir "diferentes en páginas pares e impares" en las opciones de encabezado y pie de
página. Columnas...

Ahora, pon el modo de encabezado y pie de página. Inserta las cuadros de texto de los gráficos de
margen y cualquier número de página, número de capítulo, etc. De esta forma, cada página utilizará
automáticamente el mismo gráfico reduciendo el tamaño del archivo y sin que tengas que ponerlos tú.

Ahora empieza con el libro. Ten en cuenta dos detalles muy importantes en la apariencia final. Si hay
alguna página sin los gráficos repetitivos (las cubiertas, por ejemplo) elige
INSERTAR->ROMPER->ROMPER SECCION. Así tendrás una página nueva sin los mencionados
gráficos.
Comienza insertando el texto desde el .TXT en el documento. Mantén el PSP abierto en modo
explorador para que puedas abrir rápidamente cualquier página relevante. Cuando una página tenga
una imagen, insértala. Doble click y reduce su tamaño. Asegúrate de que está cerca del 100%. Si la
imagen es mayor de lo necesario, ábrela en PSP y redúcela de forma acorde.

Maqueta el texto con las fuentes y colores correctos y una separación de líneas similar (en propiedades
de párrafo).

CONSEJO: ¡Los estilos de texto son tus amigos! Por ejemplo, si el libro divide el cuerpo de texto por
cabeceras usando Verdana a tamaño 16, en rojo y negrita, crea un estilo con estas propiedades para
que en cada encabezado sólo tengas que seleccionar "mi estilo" y ya está.
Para páginas con algo de texto (como tablas) que no se correspondan con la apariencia general, usa
cuadros de texto. Sigue así hasta que termines el libro.

CREANDO EL PDF

Utilizo JAWS porque siempre crea archivos de tamaño muy pequeño. Necesitas crear una tarea
eligiendo las opciones. Las que uso yo son (si no las menciono, se asume que están deshabilitadas):

GENERAL: PDF file format: v1.3


Thumbnail: Ninguno (a mucha gente le gusta, pero para mí sólo añade tamaño al archivo sin beneficios
reales - imprimo los libros, no destrozo mis ojos intentando leer libros en la pantalla. Por la misma razón
no hago marcadores)
Resolution: 72 (esto sólo se aplica al gradiente. Si utilizas muchos de ellos o mayores increméntalo a
150 para mejorar la calidad de la impresión)
Advanced Transfer Functions: Apply
Convert CMYK to RPG
Convert divide independent...
COMPRESSION Color Images: Bicubic, 150, JPG low compression Greyscale: Bicubic, 150, JPG low
compression Monochrome: Subsample, 300, CCITT Group 4 Compress Text
FONT EMBEDDING Never Embed: Tahoma, Times New Roman, Wingdings Embed all fonts (except
base 14 fonts)
Subset fonts

COMENTARIOS

¡Finalmente comprime en .RAR el archivo! Si utilizas JAWS no conseguirás mucha mejora pero no
supone un gran trabajo para ti y puede ayudar a mucha gente. Como caso extremo, la Campaña
Revisada de Dark Sun ocupa 22.5 MB en PDF pero ¡sólo 14.4 en .RAR!
De todas formas, la práctica hace mejorar. Esta técnica demanda tiempo y trabajo duro pero puede
conseguir grandes resultados difícilmente alcanzables con PDF OCRing. Simplemente asegúrate de que
el libro en el que trabajas realmente merece este trabajo.
Para cualquier sugerencia o pregunta respecto a lo anterior puedes ponerte en contacto conmigo en
DalNet's #RPGBookz o Nullus's #BW-RPG. Diviértete y buena suerte con tus proyectos.

Você também pode gostar