Por Jorge Serrano Cobos LOS PROFESIONALES DE Más información en: LA INFORMACIÓN hemos en- contrado en Google, en los blogs —Grupos de news de Google y en los cambios tecnológicos sobre rdf: que éstos han producido una he- http://groups.google.com rramienta estupenda para obte- (buscar aquí por rdf o por rdf ner información de alta especia- rss) lización, actualizada y en forma- to inteligible por los sistemas in- —Foro Rss-dev de Yahoo groups formáticos, una herramienta en el que participa Aaron que merece la pena conocer y es- Swartz: tudiar: la sindicación de conte- nidos. http://groups.yahoo.com/group/ rss-dev/message/722 La sindicación puede usarse en sistemas de gestión de contenidos —Un truco de Microdoc news (CMS) complejos o simples, en en- para buscar documentos rss y tornos web o en intranets. Está di- rdf que hablen sobre una cade- rectamente relacionada con la difu- na de búsqueda en Google, por sión selectiva de información y, a ejemplo: iraq filetype:rss or filety- modo de ejemplo práctico de uso pe:rdf or filetype:rss.xml como veremos a continuación, in- cluso a través de una aplicación gratuita que nos permitirá estar ac- —Microdoc news: tualizados casi al minuto de las úl- http://www.microdocs-news.info/ timas noticias que se producen so- infoSeeker/2003/03/28.html#a447 bre una palabra clave o expresión de búsqueda concreta. ción, permiten que se reutilice). Es Toda la filosofía de la sindica- legible a través de una serie de ción de contenidos se basa en el aplicaciones (agregadores) que aú- formato rss (rich site summary). nan todas esas informaciones (fe- Estructuraremos la explicación en eds) agregando todos los artículos forma de preguntas y respuestas sindicados (de ahí que a estos pro- (faqs), al igual que un taller prác- gramas les llamen de esa forma) y tico. consultando cada cuanto queramos todas esas estupendas fuentes de ¿Para qué sirve rss y la información. Nosotros sólo tene- sindicación de mos que esperar y leerlas todas información? desde un único punto de lectura. Con la proliferación de sitios de noticias, blogs, artículos, etc., ¿Qué es rss? generada a diario en la Red, cada Es un formato de intercambio vez nos resulta más difícil estar al (sindicación) de contenido. Está tanto de toda la información dispo- basado en xml y tiene dos estánda- nible, no es posible ni visitando tus res. Uno de ellos toma como refe- "favoritos" ni buscando en Google. rencia a rdf, un formato de metada- Pero los blogs han puesto de tos que está íntimamente relacio- moda la sindicación de noticias: nado con la web semántica, impul- ofrecen su información en formato sada por Tim Berners-Lee. Bási- rss (esto es, sindican su informa- camente permite no tener que na-
El profesional de la información, v. 13, n. 1, enero-febrero 2004 67
Jorge Serrano Cobos
vegar web a web para leer cada día
lo nuevo que se publica en ellas, pudiendo hacerse sin navegar, con una herramienta de agregación de noticias. Sobre este punto, más informa- ción en: —¿Cómo lees tus bitácoras fa- voritas? http://fernand0.blogalia.com/?/his torias/3005 —Rss para principiantes. http://www.matotuonda.com.ar/ar chives/000119.php —La guerra del rss, de Íñigo Arbildi. http://trucosdeGoogle.blogspot.co Figura 1 m/2003_02_01_trucosdeGoogle_a rchive.html#89384546 de información se quieren "agre- demos agregar todas las webs que gar". Supongamos que hemos lo- creamos interesantes y que tengan —Y para entenderlo con deta- calizado una web de la que nos una versión en rdf/rss. lle, el tutorial Rss workshop. gustaría estar al tanto sin necesidad http://gils.utah.gov/rss/ El problema que se planteará de apuntarse a un boletín periódi- co. Un requisito imprescindible es enseguida es que muy pronto ten- ¿Qué es un agregador? que posea una versión rss del con- dremos tantas webs agregadas que Lee y entiende los feeds, las tenido para que se entienda con el el volumen de noticias irrelevantes fuentes de información sindicadas agregador Feedreader. Para en- a descartar para encontrar las que de cada sitio web elegido, y ofrece contrar esta información cogemos realmente interesan será cada vez los titulares de los contenidos de como ejemplo el caso de mayor, incluso aunque agregue- cada una de ellas. Primero vemos barbol.com pues existe un enlace mos webs muy especializadas. Ve- los titulares, así decidimos si inte- en el que se puede leer: sindicación amos dos formas de filtrar más resa leer el resto, pues pinchando (xml). Si pinchamos sobre él nos esas fuentes de información. sobre él se puede acceder a un re- encontraremos con la imagen de la sumen, o bien al contenido com- figura 1. ¿Cómo puedo sindicar (y pleto. Se parece mucho a un pro- agregar) noticias de http://www.barbol.com/index.rdf grama de correo estilo Outlook. Google? Eso es lo que necesitamos, la Hay muchos sitios donde pue- Voidstar ha desarrollado una url, porque ésa es la fuente (feed) den conseguirse estos agregadores; herramienta experimental muy in- con la que vamos a alimentar el en este ejemplo usaremos Feedrea- teresante: Gnews2rss. agregador. Para agregar dicha ver- der: simple, cómodo, limpio, en sión rss seguimos los siguientes http://www.voidstar.com/gnews2rs Windows. pasos: s.php http://www.feedreader.com/ http://www.hot.ee/isys/feedreader2 —Copiamos la dirección de ¿Cómo funciona? introduci- 4.exe ese archivo: mos una palabra si existe ya en http://www.barbol.com/index.rdf Ya tenemos el programa, pero castellano igual que si se buscara ahora hay que decidir qué fuentes —Ahora, en Feedreader se algo en Google y se pincha en abre la opción “new” y allí se pega "create RSS" (figura 3). Es impor- (figura 2). tante definir muy bien la ecuación Una característica importante de búsqueda, por ejemplo: google de Feedreader es que le da igual OR usability–blogger (figura 4). con qué versión de rss trabaje, así http://news.google.com/news?hl= que lo ponemos sin tener en cuen- en&q=google+OR+usability+- Figura 2 ta esta cuestión. Bien, ahora ya po- blogger&btnG=Search+News
68 El profesional de la información, v. 13, n. 1, enero-febrero 2004
Google, dsi y la sindicación de contenidos mediante rdf/rss
fichero delimitado por comas, el
cual se puede exportar a una base de datos de una intranet, por ejem- plo. http://hacks.oreilly.com/pub/h/164 La otra forma de conseguir no- ticias (de blogs) más específicas con respecto a un tema delimitado es más compleja: un párser rss. Bien: queremos agregar informa- ción concreta, pero de blogs o webs que no están en Google News. Aquí tenemos que agradecer a Pedro Palazón su ayuda, el ma- yor conocedor de este campo en el ámbito hispano que explica sus descubrimientos en internet. Pedro Figura 3 comenta que lo que se podría hacer Copiar y pegar la dirección o cias de actualización constante lo es agregar sólo aquellos temas de url resultante en la opción "new" mismo que con Google: agregar interés mediante un párser rss. de Feedreader. Es posible configu- sólo los artículos/posts de los te- http://www.kusor.net/ rar cada cuánto quiero que el agre- mas que interesen de cada weblog. ¿Agregar una web entera gador revise si hay novedades, pa- Todavía no es posible hacer con las o una temática de varias ra que haga la búsqueda cada cier- búsquedas del Google "general" lo webs? to tiempo y de esta forma me dará mismo que con Google News. To- las noticias del tema que me intere- La cuestión es que quisiéramos do lo más, Tara Calishain ha de- sa cada 20 minutos, por ejemplo. no tener que agregar todo lo que sarrollado una aplicación que per- aparezca en un blog, sino sólo Pero es mejor no utilizar esa mite transformar mediante Perl y aquello que hable de lo que a noso- frecuencia de consulta porque, si lo una API de Google (sistema que tros nos interese. Conforme leamos hacemos todos, saturaremos el ser- permite programar una aplicación weblogs, notaremos que muchos vidor de la web a consultar y por- específica creada a partir del algo- (véase los creados con Movable que Google prohíbe expresamente ritmo de Google, de forma que ex- Type) tienen categorías para clasi- que se utilicen consultas automáti- plotemos de diferentes formas las ficar sus artículos; pues bien, con cas sobre su algoritmo, por lo que capacidades del motor de búsque- ellas podemos obtener fuentes de podemos abrir y cerrar el programa da) las respuestas de Google en un información más específicas. En cuando necesitemos realizar nues- tra actualización de noticias. Como vemos, es una herra- mienta muy interesante y con mu- chas posibilidades. Si conocemos php, lo mejor sería usar su código fuente, disponible en: http://www.voidstar.com/gnews2rs s.php.txt El problema de esta herramien- ta es que las News de Google sólo cubren 4.000 servicios de noticias, la mayor parte en inglés. Mientras aumenta el número de fuentes de información, no hay más por ese lado. Pero lo que nos gustaría es ha- cer con los blogs o webs de noti- Figura 4
El profesional de la información, v. 13, n. 1, enero-febrero 2004 69
este caso no hablamos de agregar Todavía no se sabe si va a ser una cadena de búsqueda, sino una rdf quien gane la partida. Si gana categoría, una temática concreta. rss, es un formato que sólo sindica titulares y poco más, pero eso inci- Por ejemplo, para los que usan de en su popularidad (lo más senci- como clasificación temática "goo- llo suele ser lo más usado). Si sin- gle" o "usabilidad", debería poder dicásemos una versión rss de una agregar en mi Feedreader sólo lo web y no la rdf, de cada ítem (post, correspondiente a esos temas y así noticia o artículo) sólo leería el tí- agrupar los feeds por temas de tulo y una descripción, nada de webs, no por webs sobre temas, subjects (temáticas). porque muchos blogs hablan de va- rias cosas diferentes (véase las ca- Rdf está más pensado para, en tegorías de mini-d, por ejemplo) y un futuro ideal, trabajar junto a nuestro tiempo de lectura es finito. otros estándares hacia la web se- http://www.minid.net/categ.php mántica (ontologías). Rss es más sencillo de implementar, pero con Según Pedro Palazón: “en pri- menos riqueza informativa, menos mer lugar crear un párser rss, o em- metadatos. plear uno de los que existen, para buscar la categoría de lo que la Posibilidades futuras de gente escribe”. Por ejemplo, en el la sindicación de archivo rdf (importante: sólo en contenidos formato rdf) de kusor.net hay un elemento denominado "dc:sub- El éxito de la sindicación y ject", que contiene la categoría a la agregación de contenidos es tal que pertenece cada post (artículo). hoy día que quizá en unos años Deberemos entonces crear una lis- cambien hasta los navegadores ti- ta de aquellas sobre las que nos po Navigator o Internet Explorer gustaría mantenernos al día, y de- para adaptarse a esta forma de na- cirle a ese párser que sólo procesa- vegar. Desde el punto de vista del se esas noticias y que descartase gestor de información, que filtra las demás. datos de muchísimas fuentes dis- http://www.kusor.net/dhtml- tintas para presentar a sus usuarios weblog/index.rdf información relevante para la toma de decisiones, es y será una solu- Hoy por hoy no hay nada fácil- ción técnica sencilla, ingeniosa y mente instalable que permita ha- práctica, en constante evolución y cerlo de forma sencilla y agregarlo mejora. en Feedreader o programa similar sin más. Pero en cualquier caso, un Vayamos más allá: con un es- párser muy recomendable es tándar futuro (rss o rdf), podríamos OnyxRss, disponible en la web. pensar en canales de información http://readinged.com/onyx/rss/ multimedia sindicados y agrega- dos, agregación de bases de datos ¿Qué estándar se gratuitas o de pago de las que po- utilizará en el futuro, rss dríamos conocer automáticamente o rdf? su actualización para cada tema de nuestro interés o del de nuestros En este momento hay muchas usuarios, incluso ofrecer las nove- discusiones sobre este tema, en dades bibliográficas de la bibliote- concreto alrededor de Aaron ca de mi barrio. Swartz, co-creador del estándar rdf, y la guerra entre estándares si- Todo un mundo de posibilidades. gue en pie (Dublin core es muy complejo, y más todavía rdf). Jorge Serrano Cobos http://google.blogspace.com/ http://trucosdeGoogle.blogspot.com
70 El profesional de la información, v. 13, n. 1, enero-febrero 2004