Você está na página 1de 6

APLICACIONES DISTRIBUIDAS

WEB CRAWLER

Araas Web (crawlers)


Tambin conocida como Web spider o Web walker) es un pequeo software, un pequeo programa que recorre el entremado de pginas Web de Internet de forma automtica y sistemtica. Es un tipo especializado de webbot - robot de la Web - que se encarga de llevar a cabo un tipo concreto de tareas. En particular, se encarga de recorrer las pginas Web de Internet, descargarlas al ordenador local, pasearlas y procesarlas. El uso ms conocido es el de agente software en los motores de bsqueda, donde su funcin bsica es proporcionar al indizador el contenido apropiado para ser indizado. Las araas Web (crawlers) pueden utilizarse para multitud de tareas.

Araas Web (crawlers)


Algunas araas Web (crawlers) de este tipo son Googlebot o Yahoo slurp, las araas Web (crawlers) de Google y Yahoo, respectivamente. Es importante mencionar que tambin existen araas Web (crawlers) con fines ilegales: spambots. Estos programas tienen un propsito malicioso y suelen recurrir a tcnicas maliciosas como la falsificacin de identidad para lograr sus objetivos.

Funcionamiento
Dispone de un conjunto inicial de URLs, conocidas como semillas. La araa Web (crawler) va descargando las pginas Web asociadas a las semillas y buscando dentro de stas otras URLs. Cada nueva URL encontrada se aade a la lista de URLs que la araa Web (crawler) debe visitar. A este proceso se le denomima recoleccin de URLs. La pgina web asociada es descargada al ordenador local. Es importante mencionar que ninguna araa Web (crawler) puede acceder a todas las URLs que hay en Internet.

Funcionamiento
Estadsticamente, el porcentaje de Internet que suele ser explorado por una araa Web (crawler) es aproximadamente del 15%. Algunas de las dificultades a las que las araas Web (crawlers) se deben enfrentar: enormes cantidades de pginas que recorrer, elevado nmero de actualizaciones de pginas existentes, pginas que crean su contenido de forma dinmica, re direccionamientos, etc.

Aplicaciones
Se puede escribir una araa Web (crawler) que haga lo que cualquier otro webbot puede hacer, con la ventaja de que el alcance logrado sera Internet entero. Crear peridicamente un informe de cambios del sitio de una empresa competidora. Realizar un estudio estadstico sobre el uso de un determinado trmino en pginas espaolas. Enviar un mensaje de correo electrnico cuando se aadan noticias a una pgina de noticias