Você está na página 1de 3

Objetivo de Google

El objetivo es desarrollar un motor de bsqueda muy escalable, capaz de


responder al enorme crecimiento de la Web y de sus usuarios, ms eficiente
(en tiempo de indexacin y recuperacin de los resultados de una
bsqueda, y optimizando espacio de almacenamiento de ndices y
documentos, si procede) y sobretodo ms satisfactorio en cuanto a los
resultados devueltos(en la elaboracin del Ranking de presentacin) que
los motores de bsqueda ya existentes, apoyndose en el uso de la
informacin presente en el hipertexto, y con base en una arquitectura
que sirva para facilitar a otros el procesamiento del gran volumen de datos
de la Web.

Novedades
1. PageRank
Se define como ranking el hecho de priorizar los resultados presentados al
usuario. La principal e innovadora medida empleada para dar ms
importancia o calidad a una pgina u otra es el nmero de veces que sta
es citada, dicho de otra forma, referenciada por medio de links, siendo
mayor cuanto mayor es el ranking de las pginas que la enlazan. Esta idea
es bastante intuitiva: una pgina mala o rota apenas ser referenciada en
la Web.

2. Texto anclado a los enlaces


Adems de asociar un link a la pgina que lo acoge, Google asocia los links
a las pginas a las que apuntan, indexando el texto anclado al enlace. Esto
aporta ventajas como descripciones ms precisas de los sitios Web (el texto
anclado suele aportar ms informacin sobre el sitio que el propio enlace),
adems de poder indexar informacin no textual como imgenes.

Anatoma del sistema

La imagen anterior resume el funcionamiento de Google. Existe un servidor


de URLs que enva listas de URLs a numerosos Crawlers que se ocupan de
descargar estas pginas. Un servidor de almacenamiento las comprime y
almacena en un repositorio, asocindoles un docID. Un indexador lee las
pginas del repositorio, las descomprime y las parsea extrayendo los
denominados hits(trmino+posicin en el documento+tamao de
fuente+capitalizacin). El indexer los distribuye en una serie de cubetas
formando los primeros ndices. El indexer adems parsea todos los links
contenidos en las Webs y almacena informacin importante sobre ellos
(pgina que lo contiene, a la que apunta y el texto anclado). Un resolutor de
URLs se encarga de indexar el texto anclado asociado al docId de la URL a la
que apunta el enlace (Novedad1). Adems se genera una BD de pares de
docIds que se usar para computar el pageRank (Novedad2).
Un clasificador ordena los hits por wordId para generar el ndice invertido.
Un programa toma esta lista y el lxico utilizado para generar un nuevo
lxico que junto al ndice invertido y el PageRank se usan para responder las
consultas del buscador.

Todas las estructuras anteriores estn optimizadas para trabajar con el


menor coste posible, reduciendo las bsquedas en disco, trabajando con
tablas en memoria y usando codificaciones lo ms eficientes posibles.

El futuro de Google
Los objetivos inicialmente apuntados marcan claramente el camino hacia el
futuro: la concentracin en la calidad de los resultados deja pendiente
mejorar la eficiencia, incluyendo medidas bsicas usadas por otros
motores y an no incluidas, y seguir creciendo en escalabilidad araando
el mayor volumen de la Web posible.

Conclusiones
Este artculo sienta las bases que han hecho de Google el rey de los motores
de bsqueda, un motor que desde el principio apost por la calidad de los
resultados, innovando a la hora de realizar el Ranking, y con la escalabilidad
como gua debido a la necesidad de adaptarse al enorme crecimiento de la
Web.

Você também pode gostar