Você está na página 1de 30

Recopilacin Tutorial de Escaneo en un modo ptimo

Autores varios y BDL

Eugene Delacroix, La libertad guiando al pueblo

Son uds. libres de seguir o no la mayora o probar una buena cantidad de los pasos y tcnicas aqu recopiladas y probadas. No aseguramos que la lectura de este tutorial repercuta en una excelente escaneada de un documento, sin embargo, le podr dar excelentes y numerosas bases para aprender de esta actividad. Este texto es de autora de un grupo de personas que creemos en la libertad del conocimiento y el acceso universal a la cultura. Sabemos que esto podra usarse en detrimento de la ley, sin embargo nosotros no inducimos a eso, no lo promovemos, ni nos responsabilizamos, simplemente cada quin

le dar el uso que quiera (en caso de tener dudas acerca de el copyright o copyleft, recomendamos leer algunos de los argumentos valiosos de R. Stallman acerca de esta materia). Como sabrn, una de las maneras de liberar al hombre de su esclavitud y alienacin en su vida diaria es el conocimiento. Nosotros apuntamos a eso, a que por medio de libros digitales una mayor cantidad de personas en todo el mundo accediendo al conocimiento regado en la Web adquiera todas las herramientas para interpretar y cambiar nuestra realidad. Dejando entonces las introducciones vamos al objeto de este escrito. Esta recopilacin tutorial est compuesto por dos trabajos, el de TT Vladimir, (TT Vladimir, Como crear un e-book escaneado de calidad. Lo pueden conseguir el ac: http://www.slideshare.net/janeko/como-crear-unebookescaneadodecalidad1 annimo que lo complementa. No sobra decir que este trabajo puede ser difundido, rehecho, compartido, modificado, complementado, obviamente, pensando en los que antes se lanzaron a esto. original

estaba en ruso, as que muchas de las imgenes quedaron igual) y el de nuestro colectivo

1. Introduccin
[Cuando citemos el tutorial de Vladimir escribiremos: [V] ] [Cuando sea nota propia, escribiremos [BDL] ] [V, Casi toda la primera parte es del tutorial citado] Este es un mini tutorial acerca del escaneo de libros y la creacin de sus archivos en alta calidad. El tutorial es para todo principiante que quiera hacer libros electrnicos de buena calidad y no sabe por dnde empezar. Existen muchas maneras de obtener buenos resultados mediante el escaneo; este documento le ensea un camino bastante fcil. En el tutorial se muestran imgenes de apoyo para cada paso y supone que el usuario est familiarizado con Windows2. Seguramente necesitar descargar e instalar algunos programas . Nos enfocaremos principalmente a la digitalizacin de viejos libros de ciencias, matemticas o tcnicos. Para este tipo de libros, no es recomendable el sistema de OCR (Reconocimiento ptico de Caracteres), porque dichos libros contienen abundantes
1 2 [BDL] No aseguramos la vitalidad de los links que se muestren en este tutorial [BDL] Aunque haremos aportes para usuarios en Linux. Ya saben, el SO verdaderamente libre.

ecuaciones, diagramas, grficas, etc. La mejor solucin es escanearlo y crear imgenes de todas sus pginas. La mayora de estos libros casi siempre estn impresos en blanco y negro, quiz con unas cuantas pginas ilustradas en color. Con libros de estas caractersticas, se logra la mayor calidad de escaneo si se generan todas o casi todas las imgenes a 600dpi en blanco y negro.
3

Esto quiere decir que deber escanear

directamente en blanco y negro a 600dpi o en escala de grises a 300dpi y luego procesar lo escaneado para convertirlo a blanco y negro de 600dpi. 4 Si los libros tienen algunas pginas con ilustraciones en color, habr que escanearlas por separado, a 300dpi en el modo color de 24 bits. Esto mismo se aplica para las cubiertas en color que quiera incluir. Considere esto: Nunca escanee a 300dpi en blanco y negro! La calidad obtenida jams ser tan buena como la obtenida al escanear en escala de grises a 300dpi. Esta recomendacin es vlida tanto si sigue los pasos de este tutorial o los de cualquier mtodo equivalente. En la mayora de los escneres, escanear en escala de grises a 300dpi es exactamente igual de rpido! que escanear a 300dpi en cualquier otra baja resolucin. No ahorrar mucha calidad. Escanear en escala de grises a 300dpi produce archivos intermedios de gran tamao, los cuales despus de procesados generarn archivos finales DJVU muy pequeos. En cambio, escanear a 600dpi en blanco y negro produce archivos intermedios de menor tamao, pero escanear a 600dpi es mucho ms lento en la mayora de los escneres. Adems, resulta ms fcil procesar escaneados en escala de grises a 300dpi porque tienen menos basura digital que los escaneados en blanco y negro a 600dpi. Es casi imposible mejorar la calidad de una imagen de libro obtenida con un escaneo pobre o procesada incorrectamente. Por ejemplo, algunos ebooks son hechos por gente inexperta a 150dpi, o en color en vez de blanco y negro. Los archivos de estos
3 4 Si no sabe qu significa 600dpi: esta es la llamada resolucin de la imagen y significa el nmero de puntos por pulgada de la imagen (dpi = dots per inch) (ppp = puntos por pulgada). A este procesamiento, cuando la resolucin de una imagen es incrementada, se le llama sobremuestreo.

blanco y negro o en

tiempo si escanea en blanco y negro a

300dpi o 200dpi, en vez de hacerlo en escala de grises a 300dpi, pero s perder

ebooks resultan de un tamao enorme. La calidad visual e impresa de tales ebooks es mala y no puede mejorarse! Es importante (y no es difcil) hacer correctamente el escaneo de las imgenes, con eso se asegura una gran calidad en los ebooks resultantes. Siga leyendo! Un ebook escaneado de alta calidad debe ser de tamao pequeo, con una gran apariencia en pantalla y en hojas impresas, adems de tener textos localizables. Existen muchas maneras para lograr eBooks escaneados de alta calidad; todos los mtodos implican una resolucin de 600dpi. En nuestro caso, los archivos finales quedarn en formato DJVU5 y generalmente ocuparn de 5KB a 10KB por pgina. Claro que puede experimentar con otros programas que domine. Por ejemplo, algunas personas utilizan PhotoShop con plugins especiales, Book Restorer, Corel PhotoPaint, RasterID, tambin Matlab e IDLs para procesado de imgenes. Este tutorial ofrece un mtodo concreto que prcticamente garantiza buenos resultados. Si es novato, por favor haga unos cuantos libros ajustndose a las instrucciones del tutorial. Ver cmo alcanza un alto nivel de calidad. Si luego desarrolla sus propios mtodos, por ejemplo aplicar otras opciones del ScanKromsator o el uso de otros programas, ser capaz de decidir cul camino es mejor, puesto que ya podr comparar la calidad de los otros resultados con la calidad de referencia, obtenida por el mtodo sugerido en este tutorial. [BDL] Nosotros por nuestra parte, decidimos trabajar adems con Vuescan, con Adobe Acrobat pro y con APDF Page Cut ocasionalmente. Unas palabras de advertencia relativas al uso de FineReader para escanear. Por favor no use FineReader para escanear y procesar ebooks! El FineReader es un buen programa para hacer OCR solamente, pero no es ptimo para escanear y procesar imgenes con la intencin de hacer un ebook escaneado. Fine Reader trata de ofrecerle una solucin todoen-uno, para escanear y procesar eBooks; resista caer en esta tentacin, no use solo un programa para hacer todo. No obtendr buenos resultados con FineReader; en todo caso, no pierde nada con seguir este tutorial. FineReader tiene los siguientes inconvenientes: 1) Algunas veces usa JPEG para compresin de imgenes. Esto no es apropiado para textos en blanco y negro! 2) Almacena imgenes
5 Si no sabe qu es el formato DJVU, por favor use Google o consulte Wikipedia para leer sobre ello. El formato DJVU fue desarrollado especialmente para almacenar imgenes escaneadas en archivos de alta compresin. El formato PDF fue planeado para documentos creados en un procesador de textos, es decir, para documentos vectoriales en lugar de documentos escaneados. Los eBooks en formato PDF ocupan mucho ms espacio y lucen menos que los realizados en formato DJVU. [BDL] Por ser el ms popular, nosotros propondremos dejar los archivos en PDF, cada quien es libre de seguir el tutorial como quiera.

internamente como TIFFs blanco y negro de 300dpi y las auto-rota. Blanco y negro de 300dpi es conveniente para el OCR, pero no es ptimo para escaneos digitales de eBooks. El algoritmo de auto-rotacin es defectuoso y produce imperfecciones en la imagen (lneas quebradas). La auto-rotacin est firmemente codificada en el FineReader 7.x, 8.x y no se puede deshabilitar. 4 3) Si escanea en escala de grises a 300dpi, que es el procedimiento recomendado aqu, FineReader realizar todas las operaciones a 300dpi, en vez de remuestrear a 600dpi. ScanKromsator primero remuestrea a 600dpi y posteriormente realiza el procesamiento. Por estas razones, los resultados del procesamiento hecho por FineReader siempre sern inferiores.

2. Escanear un libro
Tome un volumen grueso. Seguramente pensar que slo a un loco puede ocurrrsele escanearlo pgina a pgina. Si, tiene razn! Pero usted puede ser esa clase de loco capaz de escanear libros de cualquier tamao, sin grandes incomodidades si organiza bien su trabajo.

Figura 1: Dos imgenes de la misma pgina, una hecha con una cmara digital y la otra con un escner

barato de cama plana. La imagen hecha por el escner fue obtenida a 300dpi en escala de grises y remuestreada en blanco y negro a 600dpi. A ver si adivina cul es! Recomendamos que siempre use un escner de cama plana y escala de grises a 300dpi o mayor resolucin. [BDL] La resolucin de la imagen en este documento no es la mejor porque tuvimos que tomar un pantallazo del tutorial.

Primera nota: Por favor no use una cmara digital para escanear libros! Nunca obtendr buenos resultados as sea una cmara carsima de 10 Megapixeles o cualquier otra. Utilice un escner ordinario de cama plana; incluso uno barato es apropiado. Lea el pie de la figura 1 y adivine cul de las dos imgenes, obtenidas de la misma pgina, fue hecha con una cmara digital. Para escanear, necesita cualquier programa que trabaje con el controlador TWAIN (Aplicacin estndar destinada a la adquisicin de imgenes con un escner) del mismo escner.6 Conviene que el programa sea capaz de guardar imgenes en el disco duro numerando los archivos como 0001.tif, 0002.tif o p0001.tif, p0002.tif, etc., por cada pgina escaneada. Por ejemplo, los visores de imgenes ACDsee, IrfanView o XnView tambin sirven para escanear imgenes y guardarlas as. Tambin le podemos recomendar que escanee con el programa VueScan, si su escner lo reconoce y trabaja bien con l.7 [BDL] El tutorial de Vladimir, hace ac una guia para configurar el Infarview, programa que nos parece no tan prctico. Por eso empezaremos nosotros con el que hemos obtenido mejores resultados.

2.1 Configuracin del Vuescan para el escaneo


Este programa puede conseguirse directamente de la pgina (no es gratuito) de los autores (http://www.hamrick.com/ ) adems de que existe una versin para Windows y otra para linux (en Fedora trabaja de manera ptima), sin embargo la versin bsica nos limita muchas opciones e incluso coloca marcas de agua a nuestro trabajo. Por eso les comentamos que puede ser conseguido fcilmente por medio de torrents (por ejemplo: http://thepiratebay.is/torrent/4641255/ ) en su versin profesional. Har falta solamente poner un cdigo vlido para que trabaje a su mxima expresin.8
6 La mayora de los escneres estn soportados por controladores TWAIN; para otros escneres es probable que necesite controladores especiales. [BDL] Para el caso de Linux, distribuciones como Fedora o Ubuntu facilitan en demasa la instalacin de Scaners, sin siquiera preocuparse por drivers. Algo que puede ser til en este caso: http://www.sane-project.org/ [BDL] Hemos llegado a tener problemas EN LINUX por ejemplo con la referencia: Lexmark x1185 y todas sus allegadas. Es un buen modelo, pero se ha quedado, y existen varios programas que no la reconocen, o en caso de hacerlo, no dejan que trabaje bien (bloqueo, escaneo a medias, etc) [BDL] En nuestro caso, la versin que menos obstruye el trabajo por sus errores, estabilidad, e

7 8

Vuescan es un programa muy prctico, se requiere para su funcionamiento el correcto reconocimiento del computador del escner. Para empezar a configurarlo habr que seguir los pasos como estn en las imgenes.

Figura 2: Vuescan activado.

La configuracin de este programa puede hacerse de manera rpida y descomplicada, adems de que no requiere demasiada experticia. Iremos en primera instancia a avanzado en la parte inferior. Luego de esto daremos ms. Se supone que en las primeras casillas de la pestaa input o entrada debera estar presente la referencia de nuestro escner. Para probar si Vuescan ya puede trabajar con nuestro escner bastara con intentar la actividad a partir de una hoja cualquiera. En la siguiente imagen podremos ver la configuracin inicial. En origen debera mostrar nuestro escner, en soporte, colocaremos texto (MUY IMPORTANTE), ya que sern libros lo que escanearemos (la opcin texto garantiza que se escanear primero en blanco y negro, y luego en el procesamiento propio del programa pasar la imagen a blanco y negro). Para imagenes en color (portadas, grficos) se recomienda seguir los pasos del tutorial citado anteriormente. Por su parte en tamao, hace referencia a la magnitud del documento escaneado, generalmente los libros tienen un formato por defecto carta que en medidas vendra
inseguridad en su serial (es decir fcil crackeo) es la 8.6.

siendo 8.5 x 11. Uds por medio de la intuicin podrn establecer cul es el formato que les favorece. La opcin multipgina, asegurar que cada escaneado que hagamos se convertir en una imagen, algo que facilita el procesamiento, despus veremos por qu.

Figura 3: Configuracin inicial de Vuescan.

Muy importante, que la resolucin del escaneado sea de 300 dpi. Si no es as tendremos como resultado imgenes pesadsimas imposibles de reducir. Recomendamos dejar todo el resto de las opciones tal y como se ven en la imagen, sin embargo son libres de explorar lo que se adapte a las preferencias. Es muy til ademas la opcin de rotacin y de repeticin automtica. La primera permitir girar todas las pginas sin necesidad de hacerlo manual y repetitivamente. La segunda lograr facilitarnos muchos trabajo si de hojas repetitivas, habilidad y rapidez se trata: El escner seguir funcionando repetitiva y automticamente en un intervalo de segundos para cambiar la pgina.

Figura 4: Opciones de color, cuando nos encontramos con libros de lomo rebelde.

Una parte muy importante de esta tarea, y que ayudar a mantener la calidad de los libros es la pestaa de color. Cuanto ms contenido se quede en la mitad del libro, es decir, en la parte opuesta del lomo, donde el escner no logra llegar convenientemente, ms estrategias deberamos buscar para evitar la ilegibilidad o la prdida de contenido. Para esto, (aunque No sirve en todos los casos!) est la herramienta de color. Y cmo funciona? Simple, cuanto mayor sea la cantidad en el Umbral9, ms el programa buscara quitar manchas o las partes ms negras de la imagen. ADVERTIMOS, que esto slo funciona en cuanto exista un equilibrio: Si las letras son lo bastante borrosas y subimos el umbral terminarn por desaparecer, porque recuerden que elimina indistintamente manchas negras. Si bajamos el umbral, acabaremos con una imagen cargada de negro. Veamos un ejemplo:

[BDL] Recomendamos dejar el umbral en 0.5, luego ya cada uno contemplar la necesidad de cambio.

Figura 5: Imagen escaneada con un umbral de 0.5

Figura 6: Imagen escaneada con un umbral de 0.8. Mucho cuidado! En este caso lo que permite subir el umbral es que las letras estn en un fuerte negro, que aguantara la subida de umbral hasta un punto.

Como vemos entonces, el uso del umbral es relativo, debe acomodarse a cada libro. NO es una panacea, y si existen libros con empastado molesto que incluso hace perder contenido, no tendremos alternativa ms que copiarlo por medio de algn Office o buscar otra edicin, etc. Es un tema que no tocaremos ac. Lo siguiente a revisar, seran las configuraciones generales:

Figura 7: Configuracin de salida

Como se puede ver, varias son las cosas que debemos modificar para que nuestro trabajo se lleve a cabo sin contratiempos: Escogern la carpeta en donde quedarn los archivos escaneados en la primera opcin; TENDRN QUE DESTILDAR las opciones que dicen perfil pdf y archivo pdf, y las reemplazarn como se muestra en la imagen por la alternativa TIFF. En Nombre del archivo TIFF aparecer el nombre con el que el archivo se identificar. Algo muy importante en este punto, es que si dejan la arroba (@) el archivo se nombrar

automticamente (por defecto sera algo como scan + fecha ...). El problema de todo esto, es que si escanean un libro a lo largo de varios das, al momento de procesarlos con el siguiente programa, corren el riesgo de que se DESORGANICEN, algo desastrozo para nuestra tarea. Si saben que demorarn poco en el escaneo del documento les recomendamos dejar la @ o el nombre por defecto. Si su tarea ser realizada en varios lapsos DEBERAN modificar la @ y colocar un nmero x y un ms +. OJO, no cualquier nmero, porque de nuevo tendramos problemas con ScanKrom, debe ser un nmero cuyo primer dgito no deje de repetirse: Ej: 1000+. Por tanto, para no confundirlos, lo recomendable es colocar 1000+ en esa casilla, eso le permitir al programa llamar al primer archivo 1000.tif, ... al archivo 76 le pondr 1076.tif, etc. 10 Por ltimo, con respecto a esta parte de la configuracin, habr que activar la compresin TIFF, para que nuestro archivo se reduzca un poco en tamao (eso no alterar la resolucin). [V] Esta tcnica le permite escanear libros enteros, pgina tras pgina, sin estar viendo constantemente la pantalla de la computadora o el teclado. Hasta podr ver la TV o cualquier otra cosa mientras escanea. Segn la velocidad de su escner, puede lograr entre 100 y 200 escaneos por hora. Algunos escneres son particularmente rpidos (como el Plustek OpticBook).

[BDL] Figura 8: Archivos escaneados por separado (Navegador Nautilus personalizado en Fedora) 10 [BDL] Quiz suene un poco confuso, podran probar por uds mismos para no generar desvaros.

No es necesario colocar el libro sobre el cristal de manera que quede totalmente derecho (el borde del libro con el borde del escner). Trate de ponerlo razonablemente derecho, pero es inevitable que algunas pginas escaneadas no queden derechas; es decir, algunas pginas quedarn ligeramente torcidas. Esta pequea inclinacin es tolerable y ser corregida posteriormente (al finalizar el escaneo) mediante software. La correccin de esta inclinacin se conoce como deskewing (enderezado). Cuando escanee evite inclinaciones muy grandes as como pginas cortadas, en otras palabras, no deje texto fuera de la regin de escaneo. Las arrugas en las zonas que rodean al texto a menudo dificultan el escaneo. En esos casos pruebe escanear una pgina a la vez (en vez de las dos pginas) o presione ligeramente ms fuerte sobre la cubierta del libro. Es importante que el texto est en contacto total con el cristal de escner. Una hoja que quede a 1 mm de distancia del cristal har que la imagen escaneada se vea muy borrosa en casi cualquier escner! Resulta ms rpido escanear un libro por pares de pginas, en vez de hacerlo una por una. Sin embargo, no todos los libros podrn escanearse de esta manera; algunos son muy grandes o no abren lo suficiente para escanearse de dos en dos pginas. Haga pruebas y determine cmo proceder. En todo caso, con el software de procesamiento podr cortar las imgenes para dejarlas como pginas individuales. En esta etapa, el resultado ser un directorio lleno de archivos TIFF. Estos archivos son la materia en bruto que procesar al finalizar el escaneo. Considere que necesita tener suficiente espacio en el disco para almacenar los escaneados (cuando menos 4 MB por imagen capturada!11). Al terminar de escanear, use el modo de presentacin de algn visor de imgenes, con l haga una rpida vista previa de las imgenes para asegurarse que no omiti alguna y que todas estn escaneadas de manera correcta. Sera demasiado tarde descubrir en la etapa final del proceso que falta alguna pgina o que otras estn de cabeza, sobre todo cuando ya no tiene el libro con usted! [Subrayado BDL] [BDL] En adelante, lo que tendrn que hacer ser escanear desesperadamente el libro que quiera y que crean que podr aportarle a muchas ms personas. Suerte con eso! [V] Nota: Cuando escanee un libro, por favor no omita las pginas de ttulos, la cartula, la informacin sobre la editorial, el ndice general, el ndice de materias, la bibliografa, las
11 [BDL] Se refera a Infarview, programa que no nos parece tan prctico, en el caso de Vuescan no es tan elevado el tamao de los archivos, si tiene mucho negro la imagen podr pesar mximo 300 KB.

pginas en blanco, los nmeros de pgina o cualquiera otro dato importante! No ahorrar mucho tiempo si decide no escanear estas 20 pginas ms o menos. En cambio, un libro de ciencias es casi intil sin su bibliografa, su ndice o sin la informacin exacta acerca de su publicacin. Tampoco piense que har su vida ms fcil, desde el punto de vista legal, si no escanea la informacin de la editorial. Lo que s puede evitar es el escaneo de los sellos de la biblioteca (slo cbralos con una hoja, o qutelos despus con el editor de imgenes), seguro que nadie quiere ver esos sellos en los ebooks.

3. Procesar escaneados con el ScanKromsator


[V] El actor principal en software para procesamiento es el asombroso ScanKromsator, desarrollado por Bolega.12 ScanKromsator es una herramienta muy poderosa para procesar material escaneado.13 Tiene un gran nmero de valiosas funciones, pero algunas de ellas no son intuitivas o son difciles de entender si slo se le da un vistazo a su interfaz de usuario.
14

En este tutorial recorrer una secuencia simplificada de trabajo con el

ScanKromsator ( [BDL] se encuentra ac: http://depositfiles.com/files/baux0jb9n ), se supone que ya tiene escaneado un libro en escala de grises a 300dpi. Inicie el ScanKromsator y cargue los archivos TIFF en bruto (hgalo desde el men File). La lista de archivos aparecer en la columna arriba a la izquierda. La barra de herramientas con algunas pestaas (Page, Book, etc.) aparecer debajo de la lista de archivos.

12 [V] Por favor no enve correos a Bolega para solicitarle ayuda, documentacin, cdigo fuente del ScanKromsator o la adicin de nuevas caractersticas. En lugar de eso, aprenda a usar bien el programa y a crear eBooks de buena calidad! [BDL] Aunque creemos que sera un gran aporte ceder el cdigo fuente para mejorarlo... 13 [BDL] Si desean ejecutarlo en alguna distribucin de Linux, slo hace falta correrlo con Wine, trabaja muy bien, de hecho no nos ha presentado dificultades en Fedora. 14 [V] Aqu slo hablaremos de las funciones del ScanKromsator en forma muy reducida. Desafortunadamente este programa an no cuenta con un manual de usuario que describa ampliamente todas sus funciones.

En el ejemplo, se muestra un libro que fue escaneado a dos pginas por pantalla y, como se ve, presenta una ligera inclinacin. Ahora nuestra labor con esa imagen ser separar las pginas, enderezarlas y cortarlas de manera que cada pgina quede del mismo tamao y con mrgenes iguales. Si su escaneado es de una sola pgina, ya no necesitar separar, pero s tendr que enderezarla y cortarla. A esta operacin el programa le llama kromsating. 15

3.1 Ejecucin en borrador


El primer paso es realizar el proceso en un borrador, es decir, hacer el anteproyecto o la preparacin para el proceso final de los archivos en bruto.

15 La pseudo palabra kromsate es la distorsin de un trmino ruso y da la idea de cortar en piezas o trozos. En el ScanKromsator, kromsate se refiere al proceso de dividir un escaneado de doble pgina en imgenes de pginas individuales, as como al recorte de estas pginas de manera que sus mrgenes queden nivelados e iguales en todas ellas.

Haga clic en la pestaa Files de la barra de herramientas. Surgir una ventana de dilogo donde podr configurar la resolucin de salida (esto es muy importante!) a 600dpi, la carpeta para almacenar los archivos de salida (esta Output folder tiene predeterminado el subdirectorio out del directorio actual), y la forma de numerar dichos archivos (prefijo Output prefix, nmero de dgitos Name length, nmero inicial Start from, secuencia Step). Observe que el formato para archivos comprimidos es: codificacin TIFF G4, el cual es ptimo para imgenes en blanco y negro. Este ser el formato de salida despus del proceso.

Para desarrollar el anteproyecto haga clic en el botn Draft kromsate (Corte en borrador); es el icono etiquetado con unas tijeras, se localiza a la izquierda del botn Process de la barra de herramientas. Cuando pulse en el botn Draft kromsate obtendr la ventana mostrada a la derecha. En esta ventana deber marcar en Split pages (Dividir pginas) y Safe top/bottom (Proteger arriba/abajo). En el campo Kromsate la opcin All significa que las opciones marcadas se aplicarn a todas las pginas. Si algunas pginas no necesitan dividirse, entonces elija Current (Actual) en ese campo y desmarque Split pages para esas pginas. Pulse sobre OK y espere de 10 a 15 minutos hasta que la operacin Draft kromsate termine. Se mostrar una pantalla como la de la figura.

Observe que ahora hay palomitas [Chulos, marcas, marquillas, tildes, etc. BDL] verdes en la lista de pginas (arriba a la izquierda de la columna), significa que esas pginas han pasado por el corte en borrador satisfactoriamente. En cada pgina ver lneas azules que la cruzan. Estas lneas son las marcas de corte que determinan como ser cortada y dividida la imagen de pgina. Note que el programa intenta determinar automticamente donde cortar los mrgenes y dnde dividir la doble pgina en pginas individuales. En algunos casos el programa puede 12cometer un error y cortar en exceso o muy poco; en esos casos usted despus podr ajustar manualmente dichas posiciones de corte.

3.2 Configuracin de las opciones


El siguiente paso importante es ir a las opciones de procesado y prepararlas para que el ScanKromsator haga la ejecucin definitiva (ya no en borrador). Las opciones de procesado se ajustan en las distintas pestaas de la barra de herramientas (a la mitad de la columna izquierda).

Por favor observe: Cada opcin se puede configurar ya sea para aplicarse a todas las pginas a la vez o slo a la mostrada en pantalla. Para aplicar una opcin a todas las pginas, mantenga pulsada la tecla Ctrl mientras hace clic con el ratn en el cuadro de seleccin de la opcin. De esta manera, ajusta rpidamente las opciones comunes para todo el trabajo y luego vaya a las pginas problemticas para destinarles individualmente otras opciones. Primero haga clic en la pestaa Page (Pgina). Aqu se configuran las opciones del proceso de corte de las pginas. La opcin Split (Dividir) significa separar las imgenes de doble pgina en pginas individuales. Deskew (Enderezar) enderezar las imgenes de cada pgina por separado. Despeckle (Desmanchar) quita todas las manchitas. Algunas veces Deskew produce pginas bastante inclinadas; se debe generalmente a algunas ilustraciones complicadas. En estos casos, marque la opcin Art para esas pginas .Puede configurar Ortho (Recto) si la pgina necesita rotarse 90 grados. Puede ajustar estas opciones de forma separada para pginas izquierdas y derechas (L y R). Luego haga clic en la pestaa Book. Aqu se configura todo lo relativo al tamao y distribucin de las pginas para el libro terminado. H.Gap (Distancia horizontal) es el tamao de los mrgenes horizontales. Un valor de 200 es bueno para 600dpi (equivale a 1/3 de pulgada). La anchura y altura de las pginas pueden dejarse en Auto. Tambin aqu puede colocar las pginas en distintas posiciones (alineada al centro/alineada arriba/alineada abajo). Ya vio el contenido de la pestaa Files (Archivos) en la etapa borrador. Recuerde que es muy importante mantener 600dpi como resolucin de salida en el men Files!

Ahora, desplcese en la barra de pestaas y haga clic en Options (Opciones). Ponga la configuracin de Deskew method (Mtodo de enderezado) en Auto (shear, recortar), el Resample filter (Filtro de remuestreo) en Lanczos3. La configuracin de Despeckle (Desmanchar) puesta en Fine+Normal (Fina + Normal) o en Safe (Segura) lleva a un mtodo de desmanchado inteligente, esto evita quitar los puntos obre la i o la j, por ejemplo.

Los controles Text sensitivity (Sensibilidad del texto) fijan el nivel lgico del auto corte. Una baja sensibilidad podra cortar los nmeros de pgina si se encuentran bastante alejados del texto. Tal vez necesite ajustar un poco la configuracin de sensibilidad; pero en la mayora de los casos no es necesario cambiar este ajuste. Sltese por ahora la pestaa Options 216 (Opciones 2) y haga clic en la pestaa Convert (Convertir). Aqu se configura el umbral de conversin de imgenes en escala de grises a imgenes blanco y negro. No olvide mantener pulsada la tecla Ctrl (para aplicar el ajuste a todas las pginas), y elija para Threshold (Umbral) la opcin MiddleDark (semi oscura). Experimente con otras configuraciones si no le agradan los resultados. Haga clic en la pestaa Quality; all puede controlar mejor la conversin a blanco y negro. Esta funcin es muy importante! Marque Enhance image (Mejorar la imagen), Blur (Borroso) pngalo en 1 y Sharpen (Nitidez) tambin en 1. Lo importante con esta configuracin es que la imagen quede lo mejor suavizada posible. Los valores de Blur y Sharpen podran ser 2 en vez de 1, aunque el valor de 1 generalmente es bueno. Un valor muy grande har que las letras sean ms negras. Tal vez necesite experimentar, segn la calidad de impresin obtenida con algn libro en particular. Otra funcin importante es Gray enhance (Mejorar grises). Haga clic en esta opcin, puesto que tiene imgenes de escaneadas en escala
16 [BDL] Hay versiones del programa en la que no aparece todo a lo que aqu se hace referencia. Esperamos que cada uno de ustedes se las arregle para encontrar la manera de sustituir lo que haga falta

de grises (as debe ser!). Obtendr una ventana de dilogo con varias opciones para el manejo de imgenes en escala de grises. Vaya a la pestaa Background cleaner (Limpiar fondo) y marque Enable (Permitir).

Sltese algunas pestaas y haga clic en la de Illumination (Iluminacin); haga clic en Correct illumination (Corregir iluminacin). Esta condicin normalizar (equilibrar) la iluminacin de toda la pgina, lo cual es importante ya que generalmente algunas zonas de la misma quedan ms oscuras que otras. Esta es una caracterstica muy til para eliminar las sombras negras, que de otra forma podran aparecer en los lugares ms oscuros de la pgina.

Sltese otras pestaas y haga clic en Denoise (Eliminar ruido). Configure los parmetros como se muestra en la figura de la derecha. Estos parmetros limpian la imagen. Estas son las ltimas opciones que ajustaremos para dejar de molestar ya.

Puede usar el men para entrar a File / Options... (Archivo/Opciones...) y guardar las opciones en un archivo. Esto le ahorrar trabajo en las prximas ocasiones que use el programa. El ltimo paso, antes de pasar al procesado principal, es una revisin visual de la posicin de los cortadores. Necesitar ir pgina por pgina para verificar que los cortadores estn colocados correctamente. S, esto es bastante aburrido... pero se hace rpido. Ponga dos dedos de su mano izquierda sobre las teclas q y w; pulse estas teclas para

regresar o avanzar las pginas. Con la mano derecha, sostenga el ratn y ajuste la posicin de los cortadores segn se requiera. Algunas veces es por una sombra inclinada, o por alguna otra razn, que debemos poner la lnea de corte en un ngulo fuera de la vertical u horizontal. Para lograrlo mantenga pulsada la tecla Shift y arrastre la lnea de corte por un extremo. Tambin puede copiar la posicin del cortador de una pgina a otra. Coloque el cursor sobre el cortador y haga clic en el botn derecho del ratn, ver el men que se muestra a la derecha. Por ejemplo, si la posicin actual del cortador debe ser aplicada a todas las pginas subsecuentes, haga clic en Copy current position to (Copiar posicin actual a) / all down (todas las que siguen).

Si alguna pgina contiene fotografas o figuras en color, necesitar protegerla de la conversin a blanco y negro. Esto puede hacerse cuando se verifican las posiciones de corte, consiste bsicamente en seleccionar de forma arbitraria alguna parte de la pgina y marcarla como picture zone (zona de ilustracin). Vea la Seccin 4 para mayores detalles. REVISAR Guarde ahora las configuraciones para este trabajo mediante la orden File/Save Task (Archivo/Guardar trabajo), que est en el men principal. Esta opcin es til si quiere hacer una pausa en el trabajo y continuarlo despus.

3.3 Ejecucin definitiva


Ahora que todo est listo, comience la ejecucin principal del ScanKromsator. Vaya a la parte superior en la barra de herramientas y pulse en el botn largo que dice Process! (Procesar), se muestra con el icono de un libro:

El programa le preguntar si confirma que realmente quiere cambiar la resolucin de las imgenes. Confirme! El proceso comenzar ahora. Habr de esperar un rato. La operacin de sobremuestreo puede ser bastante lenta; en las versiones recientes del ScanKromsator (5.8 y superiores) esta operacin se hace ms rpido. Se espera un procesado de 5 pginas por minuto ms o menos. Cuando todo haya terminado, deben verse los archivos de salida en la carpeta de salidas. Verifique que todas las pginas fueron cortadas y enderezadas correctamente. Si encuentra pginas que no se procesaron bien, repita el proceso slo en esas pginas aplicando algunas otras opciones. La ejecucin del proceso principal llega a tomar algunas horas en computadoras lentas. Aqu cabe observar que no es necesario procesar el libro completo en una sola ejecucin. Pero tenga en mente que si procesa un nuevo lote de pginas; entonces deber configurar Book/Page width/Fixed (Libro/Ancho de pgina/Fijo) al tamao que estableci para las pginas del lote anterior (de manera que todas las pginas tengan las mismas dimensiones al finaliza el proceso). Para determinar el tamao de las pginas, es suficiente tomar de 10 a 15 pginas y probar. Si prefiere, puede usar las potentes caractersticas de limpieza del ScanKromsator para eliminar la basura digital de algunas pginas. Se le llama basura digital a cualquier mancha extraa en el papel como marcas de tinta o lpiz, sellos de biblioteca, etc. En caso contrario, tambin puede usar cualquier editor de grficos para limpiar manualmente las imgenes. Con un poco de suerte, tal vez no sean muchas pginas que limpiar. [BDL] Esto ltimo es muy importante, porque nos permitir quitarle marcas, rayones, lneas, dibujos, asteriscos (incluso subrayados si ustedes son muy dedicados) que hayan sido hechos por personas que antes leyeron y modificaron el libro. Una exposicin de esto:

Los dos primeros conos subrayados corresponden a los botones de paso de pgina, que pueden ser reemplazados por los cursores del teclado. El borrador sirve para quitar en el SkanKrom mismo todo lo que no deseamos que se vea en el archivo final. Si queremos un borrados ms grande hace solamente falta alejar la vista, y viceversa. En donde se ve one page es donde podramos adaptar la vista de las pginas. MUY IMPORTANTE: Si desean modificar varias cosas de las imgenes hganlo en lo posible En este editor y no en otro! Hemos comprobado que si modificamos las imgenes en algn otro programa la resolucin podra descuadrarse. En otros programas se produce un aumento de las medidas de las pginas increble. Si van a modificar, procuren llevarlo a cabo ahora mismo.

4. Procesar figuras en color y fotografas


Hablaremos por separado de las figuras en color porque, en los viejos libros de ciencias, su uso no fue muy frecuente. No obstante, su lugar a lo largo del proceso est en la etapa donde se verifica y ajusta la posicin de los cortadores.

En la versin ms reciente del Kromsator (la 5.9) se incluye una caracterstica para el procesado de imgenes en color, se le ha llamado picture zones (zona de ilustraciones). Algunas pginas de los libros podrn ser una ilustracin, por ejemplo cualquier imagen que no est en blanco y negro, como una fotografa o un diagrama a colores. Necesitar proteger estas imgenes de la conversin a blanco y negro. Marque la zona de la ilustracin, arrastre el ratn sobre la ilustracin para dejarla dentro de un rectngulo de seleccin y luego haga clic en el botn Mark as picture zone (Separar como zona de ilustracin), el icono relacionado est enmarcado en azul en la barra de herramientas:

Tambin existe la posibilidad de crear un contorno poligonal alrededor de una zona de ilustracin. Esto es til, por ejemplo, cuando la pgina fue escaneada con mucha inclinacin. Utilice el botn de herramienta star- shaped (contorno en estrella) para marcar tales zonas:

Para configurar una zona de ilustracin, haga doble clic sobre la regin seleccionada. Aparecer la ventana de dilogo Picture zone properties (Propiedades de la zona de ilustracin).

Aqu necesita configurar el color de la ilustracin. Por ejemplo, si la pgina contiene una fotografa en escala de grises (en lugar de una fotografa o un diagrama en color), elija

Color = Gray (Color = Gris). No hablaremos aqu de otras opciones de las zonas de ilustracin; como ve, hay muchas opciones ms destinadas a los usuarios avanzados. Observe que despus pasar imgenes por la zona de ilustracin del Kromsator, estas pginas se guardan en archivos separados. De manera que al finalizar el proceso principal tendr que mezclarlos con los otros archivos de pginas. Esta operacin se realiza desde el men principal, con las rdenes Zones/Picture zone/Merge zones (Zonas/Zona de ilustracin/Mezclar zonas). Los archivos resultantes de esas pginas estarn en formato TIFF, el texto aparece en blanco y negro pero las ilustraciones conservan sus colores.

5. Unin y OCR
[BDL: Originalmente aqu segu un tutorial de creacin de archivos DJUV, sin embargo no nos parece un formato tan generalizado, por eso incluimos esta parte. Pueden uds mismos remitirse al otro tutorial si desean curiosear con ese formato...] Si han seguido todos los pasos como hemos venido escribiendo, para este punto tendrn una lista cuantiosa de archivos tif divididos a la mitad y en espera de unin, algo as:

Lo que ahora viene se har con un programa muy conocido: Adobe Professional X. Quiz hayan programas que realicen la unin de los archivos y el reconocimiento de texto de manera ms ptima, sin embargo, por manejo intuitivo, proponemos este (se encuentra ac: http://pirateproxy.net/torrent/6955640).17 Lo primero que haremos para ya llegar a una de las partes finales de nuestro relativamente
17 [BDL] El programa se se puede ejecutar perfectamente en Wine para los que usen Linux. Probado en Fedora Linux

largo proceso ser unir todos los archivos que nos dej el ScanKrom. Para eso abriremos Adobe Professional X, obviamente despus de estar por completo instalado y activado. Nos aparecern varias opciones en la pantalla inicial, iremos a la parte derecha de esta, en donde nos dar la posibilidad de combinar varios archivos en un pdf, daremos click y nos aparecer esta ventana:

Como pueden ver, es muy fcil de manejar, sin embargo para seguirlos guiando, debe ir a add files y luego a la pestaa que dice lo mismo como se muestra en la imagen anterior. Pueden usar add folder si quieren agregar carpetas enteras. A la derecha encontrarn por defecto una opcin que dice Single PDF, no deberan cambiarla. Cuando hayan cargado todas sus imagenes, podrn moverlas con los botones subrayados debajo de la lista, al igual que removerlas. IMPORTANTE: Aunque el Adobe les de la opcin de reducir el tamao del PDF NUNCA seleccionen esa opcin, podra reducir la calidad de nuestro trabajo (el archivo que vamos a producir de hecho ya est bastante reducido, ms o menos 150 pginas en 4 MB).

Lo ltimo en este paso ser darle al programa combine files y ya nos arrojar como resultado un nuevo y excelente pdf. Prcticamente ya tenemos nuestro libro, nuestro trabajo (totalmente voluntario, no explotado y adems productor de conocimiento indirectamente) se ha consumando en casi su totalidad. Podrn colocarle el nombre que quieran a su nuevo documento digital. Lo ltimo para hacer: Debemos facilitar a todos los que accedan a nuestro archivo que este tenga la posibilidad de copiar el texto y permite identificar y ubicar palabras. Este proceso se llama OCR (Optical Character Recognition o Reconocimiento ptico de carcteres) y tambin podemos lograrlo fcilmente con el programa que ya dijimos.

Cuando tengamos nuestro documento, iremos a Tools a la derecha de la pantalla, y luego en las pestaas que se despliegan clickearemos en Recognize Text. De ah nuevamente se desplegarn otras opciones, escogeremos la primera de ellas, en la que dice In this file. Aparecer una ventana de descripcin del reconocimiento. En esta ltima, seleccionaremos All pages, y luego bajaremos para encontrarnos con la opcin edit. En edit (una ventana nueva y pequea) copiaremos las opciones tal y como

se muestran en la imagen de arriba. Daremos OK y en la ventana anterior igual. Adobe empezar a hacer su trabajo y nosotros dejaremos que lo haga (dura aproximadamente 20 minutos). Con esto ltimo quedara entonces todo el proceso concluido. Faltara entonces compartir ese nuevo texto en la red, para que muchos puedan acceder a l (asumimos que sepan hacerlo porque este tutorial no se extender hasta all).

"Slo quienes sean capaces de encarnar la utopa sern aptos para el combate decisivo, el de recuperar cuanto de humanidad hayamos perdido." Ernesto Sbato

"Es cierto que el escritor debe ganarse la vida para poder existir y escribir, pero no debera existir y escribir para ganarse la vida... La primera libertad de la prensa consiste... en estar libre del comercio. El escritor que degrada la prensa a la categora de medio material merece, como castigo de esa esclavitud interna, la esclavitud exterior, la censura; o mejor an, toda su existencia es ya un castigo" Carlos Marx

FIN

Escribanos: conocimientolibre@aol.com

Você também pode gostar