Você está na página 1de 2

ANATOMA DE UN MOTOR DE BSQUEDA A GRAN ESCALA DE WEB HIPERTExTUAL

EL PERFECCIONAMIENTO DEL MOTOR DE BSQUEDA (1994-2000)


En este lapso de tiempo mejor notablemente, por el gran crecimiento de lo usuarios en la web.
Los motores de bsqueda en el 94 Word wide web worm (wwww).solo tenan un ndice de 110000
pg. web con documento accesibles. A fines del 97(ya se indexaba 2mill. a 100mill.). Esta
bsqueda consta en obtener mayor calidad y disminuir problemas al querer obtener informacin.
GOOGLE: CRECIENDO CON LA WEB:
Un buscador necesita una gran capacidad de almacenamiento (gigabyte) y una gran eficiencia al
procesador de consulta (ciento de miles por sg.) para google (por la mejora de la tecnologa) no
fue un problema, pues posee una gran estabilidad para cantidad de datos, velocidad y acceso
eficiente.
DISEANDO METAS:
En los 90 existan errores frecuentemente en la bsqueda, ya que los documentos indexados
fueron aumentndose. Por ello se desea mejorar la calidad de bsqueda siendo relevante
mejorando el top ten (lo usual que la gente suele fijarse). Hubo un crecimiento en la web como el
de su servidor (.com) de 1.5% en el 93 a ms del 60% en el 97. La bsqueda tambin nos orienta a
la publicidad, google tiene una meta la cual es facilitar el desarrollo y comprensin; tambin es
que toda la informacin que necesites ellos lo posean y que te la brinden muy rpidamente y el
usuario pueda ser un investigador y realizar experimentos.
CARACTERISTICAS DEL SISTEMA
Page Rank: excelente para priorizar los resultados en la bsqueda basada en palabras clave. Su
descripcin consta en una aplicacin (un algoritmo iterativo) la cual busca medir la importancia o
calidad de esa pgina (mediante nmero de citas o referencias).
Texto ancla: es el texto del enlace de la pgina que nos brind el motor de bsqueda. Estas
presentan descripciones ms precisas de la pgina web, tambin nos brindan documentos no
indexados (imgenes, programa y base de datos).
Otra caracterstica es que nos guarda la informacin local de los resultados, guarda algunos
detalles de la presentacin visual de la web (tamao de la letra) y almacena en un repositorio los
(HTML)
ANATOMA DEL SISTEMA DE GOOGLE
La mayor parte de google esta implementado por C o C++ para una mayor eficiencia y e ejecutada
obre linux o Solari. Esta anatoma contiene estructuras, los principales son: BIGFILES (archivos
virtuales direccionados por 64bit, encargados de la reserva del espacio y liberacin del mismo de
los descriptores de archivo); REPOSITORIO(contiene el HTML completo de todas las pg. c/u. es
comprimida prefijados por el docID, longitud y URL usando librera zlib; DOCUMENTO INDEX
(contiene la informacin, comprobacin de validez (checksum) y estado de cada documento);
LEXICO tiene varias formas distintas, dividida en 2 una lista de palabras(concatenada pero
separada por espacios) y una tabla hash de punteros; HIT LISTS(la palabra es almacenada segn
sus caractersticas (mediante una cod. simple(terna de entero)) o cod. Huffman (ocupa menos
espacio)); INDICE PRINCIPAL (almacena en cubetas (64) c/u almacena un rango de wordID; IND.
INVERTIDO (la palabra trivial permite una rpida mezcla de diferentes consultas).
Al buscar informacin en la red nos conlleva a interactuar con miles de servidores web, google
posee una velocidad considerable y ha implementado varios rastreadores(c/u mantiene hasta
300conexiones abiertas), al indexar una web se tiene tener en cuenta que debe contener un
vector enorme que maje todo lo posibles errores, se codificara en varias cubetas y convertida en
wordID, la cual luego ser clasifica por ttulo e hit de ancla con el texto completo mediante dos
cubetas, la bsqueda debe ser de calidad y eficiente, la aparicin de la pg. es mediante un
FEEDBACK la cual le mide el parmetro de importancia de los tipos y los pesos de proximidad de
los tipos. Google nos a demostrado que la calidad de su resultado es mejor que la mayora de los
motores comerciales ya que posee una Pagerank alto, un aspecto eficiente en el almacenamiento;
para google las funciones ms importante son el indexado, rastreo y clasificacin; para ello optimiza el
indexador para que no colapse y pueda gestionar variaos cientos de peticiones por segundo.
Google desea mejorar su capacidad de gestiona miento, proporcionar resultado de alta calidad
incorporando tcnicas as como el de Pagerank, texto ancla e informacin de proximidad.

Você também pode gostar