Escolar Documentos
Profissional Documentos
Cultura Documentos
Discente: Docente:
Mahomed Hassane Arlindo Elídio
Introdução
A quantidade de informação contida na web vem sofrendo um crescimento exponencial desde o
seu início. Cada vez mais páginas web, documentos, imagens, arquivos de audio, entre outros
são disponibilizados na Internet. Se por um lado a quantidade de informação na rede aumenta, a
dificuldade de encontrar uma informação relevante ao assunto desejado também.A partir da
necessidade de pesquisar uma informação na Internet, surgem os motores de pesquisa web
(Search Engines), programas que objetivam principalmente a recuperação de informação contida
na web.
4
Motores de pesquisa
Os motores de pesquisa são uma tecnologia incontornável no nosso dia-a-dia, é através deles que
começam as nossas viagens no ciberespaço. Logo que nos surge uma dúvida ou uma
necessidade, basta-nos pensar numa palavra e logo a estamos a digitar numa caixa de texto, e
ainda sem sequer ter pressionado o enter, já estamos a ser bombardeados com os resultados.
Os motores de pesquisa não mudaram muito no seu aspeto geral ao longo dos tempos, a sua
estrutura foi-se mantendo a mesma ao longo da sua evolução:
Os avanços mais significativos atingidos ao longo da sua história foram conseguidos sobretudo
na sua retaguarda, ou seja, nos algoritmos que constroem o seu motor, na velocidade a que eles
funcionam e finalmente na quantidade de informação com que são alimentados. Não podemos
também excluir os progressos de que o hardware foi alvo em termos de velocidade e capacidade
de processamento, assim como no facto do custo e a capacidade do armazenamento terem
evoluído em sentidos completamente opostos com o amadurecer destas tecnologias.
Existem diversos tipos de motores de pesquisa, mas vamos concentrar o nosso estudo nos
motores de pesquisa da World Wide Web (WWW) baseados em rastreamento (crawler-based).
Vamos apresentar de seguida um resumo das principais inovações e descobertas conseguidas até
à data presente no que diz respeito à indústria dos motores de pesquisa. Após isso
apresentaremos os conceitos base aplicados ao seu funcionamento, e faremos uma sugestão de
uma solução para implementar o seu próprio motor de pesquisa. Por fim apresentaremos as mais
recentes evoluções que foram aplicadas nos motores de pesquisa comerciais.
como uma "equação" do tipo: recuperação = indexação + pesquisa. A indexação é uma tabulação
dos conteúdos dos documentos na recolha e a pesquisa consiste em corresponder a uma consulta
a essas tabelas. Por sua vez, a pesquisa pode ser representada por outra "equação" deste tipo:
pesquisa = processamento da consulta + correspondência (+ pontuação). A pontuação só ocorre
nos casos onde se pretende uma recuperação ordenada por classificação.
A primeira ferramenta que surgiu para pesquisar na internet foi o motor de pesquisa Archie, em
1990. Nesta data ainda não tinha sido inventada a WWW. Devido às limitações de
armazenamento disponível existentes na altura, este motor de pesquisa limitava-se a indexar o
nome dos ficheiros disponíveis nos servidores FTP (File Transfer Protocol) de acesso livre.
Como resultado da popularidade alcançada pelo Archie, surgiu um novo protocolo em 1991 – o
Ghoper – que pretendia ser uma alternativa ao Archie.
O browser NCSA Mosaic 3.0 for Windows, 1993O browser NCSA Mosaic 3.0 for Windows,
1993
No início da WWW não existiam motores de pesquisa propriamente ditos, existiam apenas
catálogos ou diretorias das páginas existentes. É apenas em 1993 que surge o primeiro motor de
pesquisa da WWW, o Wanderer, que consistia num web robot desenvolvido na linguagem de
programação PERL que navegava pela web existente e criava um índice das páginas
encontradas. Ainda no mesmo ano surge outro motor de pesquisa, o Aliweb, que não recorria a
um web robot mas sim a um sistema de notificações em que eram os administradores dos
websites que informavam o motor de pesquisa que havia novo conteúdo. No final desse ano
surge o JumpStation, aquele que foi o primeiro motor de pesquisa a usar as três principais
funcionalidades de um motor de pesquisa moderno (rastreamento, indexação e pesquisa), embora
ainda limitado na pesquisa aos títulos e cabeçalhos das páginas que indexava. É apenas em 1994
que começam a surgir motores de pesquisa que indexavam todo o conteúdo das páginas, sendo
exemplo o Webcrawler, o Lycos e o Infoseek.
6
Em 1995 os motores de pesquisa aumentam a sua popularidade e é nesse ano que surge o
Altavista que se manteria o líder até ao surgimento do Google. O Altavista é o primeiro motor de
pesquisa a permitir consultas em linguagem natural. É também em 1995 que nasce o SAPO em
Portugal.
Durante este período outros motores de pesquisa surgem, mas é em 1998 que surge aquele que é
até ao presente o motor de pesquisa mais popular e líder em praticamente todo o mundo (Rússia
e China são exceções) – o Google.
O Google salta para a liderança logo em 2000 fruto da inovação conseguida através do seu
algoritmo de ranking dos resultados, o PageRank. Este algoritmo avalia a importância relativa de
cada página na web levando em consideração o número de hiperligações que apontam para essa
página relativamente a todas as outras páginas na web, conseguindo dessa forma estabelecer uma
importância relativa para cada uma das páginas. Mas não foi apenas esta inovação no campo
tecnológico que fez com que o Google conseguisse a liderança deste setor, foi também a ideia de
vender pequenos anúncios de texto (PPC) (Google AdWords) que apareciam juntamente com os
resultados da pesquisa para palavras-chave relacionadas.
Como seria de esperar também surgiram motores de pesquisa baseados em tecnologias open
source, sendo a mais popular atualmente a combinação do Apache Lucene com o Apache Solr e
Apache Nutch. O Apache Lucene surge pela primeira vez em 1999 pelas mãos do seu criador
Doug Cutting, passando mais tarde em 2001 a ser suportado pela fundação Apache.
Rastreamento (crawling)
Indexação (indexing)
Pesquisa (searching)
7
Rastreamento
Antes de ser possível pesquisar é necessário que o motor de pesquisa preencha o seu índice com
os documentos sobre o qual efetuará a pesquisa. O motor de pesquisa delega essa tarefa de
rastreamento, ou seja, encontrar na WWW os documentos que vão fazer parte do seu índice, a
um software que se denomina por web crawler (também podendo ser denominado de spider ou
internet bot). A este web crawler é fornecido uma lista de URLs (chamada de semente) a partir
dos quais ele começa a seguir todos as hiperligações encontradas nessas páginas e nas páginas
seguintes e assim sucessivamente até ter visitado e copiado todas as páginas pretendidas.
Existem milhares de bots a percorrer a web constantemente, o bot do Google chama-se muito
apropriadamente Googlebot. É com estas cópias das páginas que o motor de pesquisa constrói o
seu índice. A dimensão da internet atual é tão grande que estes crawlers não a conseguem
rastrear completamente. A internet que não está indexada pelos motores de pesquisa é designada
por Web Invisível (Deep Web).
Indexação
A fase de indexação corresponde ao processo pelo qual o motor de pesquisa extrai a informação
necessária desses documentos e a armazena na sua base de dados para que as pesquisas a serem
efetuadas sobre esse índice sejam rápidas e precisas. Se não houvesse este processo de
indexação, as pesquisas sobre o conjunto de documentos (corpus) poderia demorar horas ou
mesmo dias para apenas uma consulta.
Pesquisa
O primeiro passo na resposta a uma consulta é analisar (fazer o parsing) dessa consulta. O tipo de
consultas disponíveis em sistemas de Recuperação de Informação são diversas, podemos ter
consultas booleanas, consultas de proximidade, consultas wildcard e consultas com correções
ortográficas automáticas, entre outras.
Conclusão
Vimos neste trabalho que os motores de busca web são de extrema importância atualmente, pois
sem eles, dificilmente encontraríamos alguma informação relevante na web. Vimos também que
apesar dos motores de busca prover a recuperação da informação eficientemente, há vários
desafios a serem enfrentados.