Você está na página 1de 1

1.

Custos de armazenamento e tempo de crawling


Os custos de armazenamento não são o recurso limitador na implementação de um sistema de
busca. Armazenar simplesmente 10 bilhões de páginas de 10 kbytes cada (comprimidas) requer
100TB e outros aproximados 100TB para índices, dando um custo de hardware total em menos
de $200k: 400 drives de disco de 500GB em 100 PCs baratos.

De qualquer forma, um sistema público de busca consideravelmente requer mais recursos para
calcular os resultados e prover alta disponibilidade. E os custos de operar uma grande server
farm  não são triviais.

Passar por 10B páginas com cem máquinas percorrendo links a 100 páginas/segundo levaria 1M
segundos, ou 11.6 dias em uma conexão de Internet de alta capacidade. A maior parte dos
sistemas percorre uma pequena percenyagem da Web (so para ter nocao 10-20% das páginas)
perto desta frequência ou melhor, mas também percorre sites dinâmicos (por exemplo, sites de
notícias e blogs) em uma frequência muito mais alta.

2. Motores de busca geoespaciais


Uma recente melhoria na tecnologia de busca é a adição de geocodificação e geoparsing para o
processamento dos documentos ingeridos. O geoparsing tenta combinar qualquer referência
encontrada a lugares para um quadro geoespacial de referência, como um endereço de rua,
localizações de dicionário de termos geográficos, ou a uma área.

Através deste processo de geoparsing, as latitudes e longitudes são atribuídas aos lugares
encontrados e são indexadas para uma busca espacial posterior. O que pode mostrar se
significativo no processo de busca pois permite ao utilizador procurar documentos para uma
determinada extensão do mapa, ou por outra, indicar a localização de documentos combinando
com uma dada palavra-chave para analisar a incidencia ou qualquer combinação dos dois.

Temos o exemplo de uma empresa que desenvolveu este tipo de tecnologia, a MetaCarta, que
disponibiliza seu produto como um XML Web Service para permitir maior integração às
aplicações existentes.

Você também pode gostar