Você está na página 1de 11

INSTITUTO SUPERIOR DE TRANSPORTES E COMUNICACOES

Licenciatura em Engenharia Informática e de Telecomunicações

Departamento de Tecnologias de Informação e Comunicação

Trabalho De Introdução A Informática

TEMA: FERRAMENTAS PARA A PESQUISA E ORGANIZAÇÃO DA


INFORMAÇÃO – MOTOR DE PESQUISA

Discente

Vagner Flávio Fafetine Nhachungue

Docente

Prof. MEng .Ambrósio Alves Soares

Maputo, Junho 2020


MOTOR DE PESQUISA

Índice
1. Introdução......................................................................................................................................2
2. Objectivo geral..............................................................................................................................3
3. Objectivo específico......................................................................................................................3
4. Metodologia...................................................................................................................................3
5. Conceito e Historico......................................................................................................................4
6. Tipos de motores de busca.............................................................................................................7
7. Funcionamento..............................................................................................................................7
7.1. Rastreamento.........................................................................................................................7
7.2. Indexação...............................................................................................................................8
7.3. Busca.....................................................................................................................................8
8. Custos de armazenamento e tempo de crawling............................................................................9
9. Motores de busca geoespaciais......................................................................................................9
10. Analise Critica...........................................................................................................................9
11. Conclusão................................................................................................................................10
12. Referencias Bibliográficas.......................................................................................................10

Page 1
MOTOR DE PESQUISA

1. Introdução
Neste presente trabalho, pretende-se falar sobre o tema Motor de pesquisa, onde centarei a
minha atençao em vários pontos, entre os quais o Conceito e historico, os Tipos de motores
de busca, Custos de armazenamento e tempo de crawling, Motores de busca geospacias
dentre outros de extrema relevançia tal como os que foram citados.

Actualmente a Web é a principal fonte de informação para todos aqueles que dispõem
de um dispositivo com ligação à Internet. Existem inúmeros motores de pesquisa
cujo principal objectivo assenta na organização e possibilidade de acesso facilitado à
informação dispersa na Web e onde são colocadas milhões de interrogações por dia. A
expansão da Web, tanto a nível do número de utilizadores como a nível da informação
disponibilizada, e a constante evolução das necessidades de informação dos utilizadores,
são a principal motivação para tentar compreender a forma como a Web é utilizada pelo
público, em particular a forma como as pessoas pesquisam na Web. A análise dos dados
relativos às pesquisas dos utilizadores pode ser utilizada para melhorar os motores de
pesquisa em aspectos como a ordenação de resultados ou a interface.

Apesar de já existirem diversos estudos sobre registos de pesquisas obtidos de motores


de pesquisa estrangeiros, exitem ainda alguns paises que apresnetam uma baixa taxa de
exploração nesta area, e como consequência ineficacia, ineficiencia e o comprometimento da
efectividade.

Page 2
MOTOR DE PESQUISA

2. Objectivo geral
Desta forma, como objectivo geral, pretende-se caracterizar e apresentar alguns aspectos
relacionados aos motores de pesquisa tais como:

 Tipos de motores de Busca


 Custos de armazenamento e tempo de crawling
 Motores de busca geoespaciais

3. Objectivo específico
E como objectivos especificos pretende-se incidir sobre aspectos como:

 Funcionamento dos motores de Busca


 Ordem de opeação
 Web Crawling
 Indexação
 Busca

4. Metodologia
Para a construção deste trabalho foi aplicado o método de pesquisa exploratário, o qual é
desenvolvido a partir de algumas fontes primarias e secundarias como : materias publicadas
em sites, artigos, dissertacoes e busca apartir do domínio sobre o tema em questão.

Page 3
MOTOR DE PESQUISA

5. Conceito e Historico
O motor de busca é um programa “software”, que pesquisa na Internet (vários sites) com
base em palavras que o usuario designou como termos de pesquisa (palavras de consulta). Os
mecanismos de pesquisa analisam seus próprios bancos de dados de informações para
encontrar a informaçao que usauario esteja a procura. Os mecanismos de pesquisa na web
são um bom exemplo para sistemas de recuperação de informações de tamanho grande.

Durante o desenvolvimento inicial da web, havia uma lista de servidores da web editada por
Tim Berners-Lee e hospedado no servidor web CERN. À medida que mais servidores da web
ficavam online, a lista central não conseguia acompanhar. No NCSA novos servidores do site
foram anunciados sob o título "Novidades!".

A primeira ferramenta usada para pesquisar na Internet foi o Archie. O Archie Foi criado em
1990 por Alan Emtage, Bill Heelan e J. Peter Deutsch, estudantes de ciência da computação
na McGill Universidade de Montreal. O programa baixou as listagens de diretórios de todos
os arquivos localizados em locais públicos anônimos. Sites FTP (File Transfer Protocol),
criando um banco de dados pesquisável de nomes de arquivos. No entanto, Archie não
indexou o conteúdo desses sites, uma vez que a quantidade de dados era tão limitada que
podia ser facilmente pesquisada manualmente.

A ascensão do Gopher (criado em 1991 por Mark McCahill na Universidade de Minnesota)


levou a dois novos programas de pesquisa, Veronica e Jughead. Como Archie, eles
pesquisaram os nomes de arquivos e títulos armazenados no índice Gopher sistemas.
Veronica (Índice da Rede na Rede Orientada a Roedores Muito Fácil para Arquivos
Computadorizados) forneceu uma palavra-chave pesquisa da maioria dos títulos de menu
Gopher em todas as listagens Gopher. Jughead (Hierarquia Gopher Universal de Jonzy

Escavação e Exibição) era uma ferramenta para obter informações de menu de servidores
Gopher específicos. Enquanto o nome do mecanismo de busca "Archie" não era uma
referência à série de quadrinhos da Archie, "Veronica" e "Jughead" são caracteres da série,
referenciando assim seu antecessor. No verão de 1993, ainda não existia um mecanismo de
pesquisa para a web, embora numerosos catálogos especializados foram mantidos à mão.
Oscar Nierstrasz, da Universidade de Genebra, escreveu uma série de scripts Perl que

periodicamente espelham essas páginas e as reescrevem em um formato padrão que serviu de


base para o W3Catalog, o primeiro mecanismo de pesquisa primitivo da web, lançado em 2

Page 4
MOTOR DE PESQUISA

de setembro de 1993. Em junho de 1993, Matthew Gray, então no MIT, produziu o que
provavelmente era o primeiro robô da Web o Perl, baseado em World Wide Web Wanderer,
e usou-o para gerar um índice chamado 'Wandex'. O objetivo do Wanderer era medir o
tamanho da rede mundial de computadores, o que foi feito até o final de 1995. O segundo
mecanismo de pesquisa da web Aliweb apareceu em novembro de 1993. Aliweb não usava
um robô da web, mas dependia de ser notificado pelo site administradores da existência em
cada site de um arquivo de índice em um formato específico.

A Jump Station (lançada em dezembro de 1993) usou um robô da Web para encontrar
páginas da Web e criar seu índice, e usou um formulário da Web como interface para seu
programa de consulta. Foi, portanto, a primeira ferramenta de descoberta de recursos da
WWW a combinação de três recursos essenciais de um mecanismo de pesquisa na web
(rastreamento, indexação e pesquisa), conforme descrito abaixo.

Devido aos recursos limitados disponíveis na plataforma em que foi executada, sua indexação
e, portanto, a pesquisa foram limitado aos títulos e títulos encontrados nas páginas da web
que o rastreador encontrou.

Um dos primeiros mecanismos de pesquisa baseados em rastreadores de "texto completo" foi


o WebCrawler, lançado em 1994. Ao contrário seus antecessores, ele permite que os usuários
pesquisem qualquer palavra em qualquer página da web, que se tornou o padrão para todas as
principais pesquisas motores desde então. Foi também o primeiro a ser amplamente
conhecido pelo público. Também em 1994, a Lycos (que começou em Universidade Carnegie
Mellon) foi lançada e se tornou um grande empreendimento comercial.

Logo depois, muitos mecanismos de pesquisa apareceram e disputaram popularidade. Isso


incluía Magellan (pesquisa Excite, Infoseek, Inktomi, Northern Light e AltaVista. Yahoo!
estava entre as formas mais populares de as pessoas encontrem páginas da web de interesse,
mas sua função de pesquisa operava em seu diretório da web, em vez de cópias de texto
completo de páginas da web. Os solicitantes de informações também podem procurar o
diretório em vez de fazer uma pesquisa baseada em palavras-chave.Use the "Insert Citation"
button to add citations to this document.

Em 1996, a Netscape procurava oferecer a um único mecanismo de pesquisa um acordo


exclusivo para ser a pesquisa em destaque no navegador da Netscape. Havia tanto interesse

Page 5
MOTOR DE PESQUISA

que, em vez disso, um acordo foi fechado com a Netscape por cinco dos principais
mecanismos de pesquisa, onde, por US $ 5 milhões por ano, cada mecanismo de pesquisa
estaria em rotação no Netscape página do mecanismo de pesquisa. Os cinco motores eram
Yahoo !, Magellan, Lycos, Infoseek e Excite. Os mecanismos de pesquisa também eram
conhecidos como algumas das estrelas mais brilhantes do frenesi de investimentos na Internet
que ocorreram no final dos anos 90. Várias empresas entraram no mercado espetacularmente,
recebendo ganhos recordes durante seus primeiros ofertas públicas. Alguns desativaram seu
mecanismo de pesquisa pública e estão comercializando edições somente para empresas,
como Northern Light. Muitas empresas de mecanismos de pesquisa foram apanhadas na
bolha das pontocom, uma indústria movida a especulações boom do mercado que atingiu o
pico em 1999 e terminou em 2001.

Por volta de 2000, o mecanismo de busca do Google ganhou destaque. A empresa obteve
melhores resultados para muitos pesquisa com uma inovação chamada PageRank. Esse
algoritmo interativo classifica as páginas da Web com base no número e PageRank de outros
sites e páginas com links para ele, com a premissa de que páginas boas ou desejáveis estão
vinculadas a mais que outros. O Google também manteve uma interface minimalista para seu
mecanismo de busca. Em contraste, muitos de seus os concorrentes incorporaram um
mecanismo de pesquisa em um portal da web.

Em 2000, o Yahoo estava fornecendo serviços de busca baseados no mecanismo de busca do


Inktomi. Yahoo! adquiriu Inktomi em 2002 e Overture (que possuía AlltheWeb e AltaVista)
em 2003. Yahoo! mudou para o mecanismo de pesquisa do Google até 2004, quando lançou
seu próprio mecanismo de pesquisa com base nas tecnologias combinadas de suas aquisições.

A Microsoft lançou o MSN Search pela primeira vez no outono de 1998, usando os
resultados de pesquisa do Inktomi. No início de 1999, o site começou a exibir listagens da
Looksmart misturadas com resultados da Inktomi, expceto por um curto período de tempo em
1999, quando foram usados os resultados do AltaVista. Em 2004, a Microsoft iniciou uma
transição para sua própria tecnologia de pesquisa, alimentado por seu próprio rastreador da
web (chamado msnbot). O mecanismo de busca renomeado da Microsoft, Bing, foi lançado
em junho 1 de 2009. Em 29 de julho de 2009, o Yahoo! e a Microsoft finalizaram um acordo
no qual o Yahoo! A pesquisa seria desenvolvida por Tecnologia Microsoft Bing.

Page 6
MOTOR DE PESQUISA

6. Tipos de motores de busca

 Buscadores globais: são buscadores que pesquisam todos os documentos na rede, e


a apresentação do resultado é aleatória, dependendo do ranking de acessos aos sites.
As informações podem referir-se a qualquer tema. Google, Yahoo e Bing são os
buscadores globais mais acessados.
 Buscadores verticais: são buscadores que realizam pesquisas "especializadas" em
bases de dados próprias de acordo com suas propensões.. Mitula, Trovit, BizRate,
AchaNoticias, Oodle, Catho, SAPO, são alguns buscadores verticais.
 Guias locais: são buscadores exclusivamente locais ou regionais. As informações se
referem a endereços de empresas ou prestadores de serviços.. Listão, GuiaMais,
AcheCerto, EuAcheiFácil, Zeen! entre outras.
 Guias de busca local: são buscadores de abrangência nacional que lista as empresas
e prestadores de serviços próximas ao endereço do internauta a partir de um texto
digitado. É indicado para profissionais e empresas que desejam oferecer seus
produtos ou serviços em uma Localidade, rua, bairro, cidade ou Estado e
possibilitando ainda a forma mais rápida de atualização dos registros de contatos por
seus clientes ou fornecedores.
 Diretórios de websites são índices de sites, usualmente organizados por categorias e
sub-categorias. Tem como finalidade principal permitir ao usuário encontrar
rapidamente sites que desejar, buscando por categorias, e não por palavras-chave.
Open Directory Project é um exemplo de diretórios de sites.
 Buscador Social: faz buscas sobre informações pessoais “perfil”. Por exemplo:
Facebook

7. Funcionamento
O trabalho do motor de pesquisa começa muito antes de o utilizador digitar um conjunto de
palavras-chave na caixa de texto e submeter essa pesquisa. Podemos mesmo afirmar que essa
é a última parte de um ciclo que se repete indefinidamente. As três fases fundamentais no
funcionamento de um motor de pesquisa são:

 Rastreamento (crawling)
 Indexação (indexing)
 Busca (searching)

7.1. Rastreamento

Page 7
MOTOR DE PESQUISA

Antes de ser possível pesquisar é necessário que o motor de pesquisa preencha o seu índice
com os documentos sobre o qual efetuará a pesquisa. O motor de pesquisa delega essa tarefa
de rastreamento, ou seja, encontrar na WWW os documentos que vão fazer parte do seu
índice, a um software que se denomina por web, tambem denominado por spider ou ainda
internet bot. A este web crawler é fornecido uma lista de URLs, a partir dos quais ele começa
a seguir todos as hiperligações encontradas nessas páginas e nas páginas seguintes e assim
sucessivamente até ter visitado e copiado todas as páginas pretendidas.

Existem milhares de bots a percorrer a web constantemente. É com estas cópias das páginas
que o motor de pesquisa constrói o seu índice. Sendo dimensão da internet atual tao grande,
estes crawlers não a conseguem rastrear completamente.

7.2. Indexação

A fase de indexação corresponde ao processo pelo qual o motor de pesquisa extrai a


informação necessária desses documentos e a armazena na sua base de dados para que as
pesquisas a serem efetuadas sobre esse índice sejam rápidas e precisas. Esta fase evita que as
pesquisas demorem horas ou ate mesmo dias para apenas uma consulta.

O índice tem normalmente a forma de um índice invertido. A ideia é manter um vocabulário


de todos os termos encontrados nos documentos com a lista de onde esses termos existem.
Este índice é um fator chave na eficiência dos sistemas de RI (recuperacao de informacao),
dos quais os motores de pesquisa fazem parte.

Os principais passos necessários para a construção de um índice invertido são:

a) Recolha dos documentos a serem indexados;


b) “Tokenização” do texto. Tarefa de separar um conjunto de carateres em palavras, ou,
mais precisamente, os “tokens”. Este passo é fundamental para uma análise mais
aprofundada e, sem ela, seria difícil extrair informações de alto nível a partir de
qualquer tipo de document;
c) Processamento linguístico dos tokens (termos);
d) Indexação dos documentos onde ocorre cada um dos termos.

7.3. Busca

O primeiro passo na resposta a uma consulta é analisar (fazer o parsing) dessa consulta. O
tipo de consultas disponíveis em sistemas de RI são diversas, podemos ter consultas
booleanas, de proximidade, wildcard e consultas com correções ortográficas automáticas,
entre outras.

Depois de interpretada a consulta, o sistema de RI irá procurar todos os documentos que


correspondem à palavra-chave(s) usada na consulta feita pelo utilizador. Nesta fase não há
ordenação (ranking) entre documentos processados, apenas se pretende identificar todos os
documentos que são candidatos a pertencer à lista de resultados possíveis. Os resultados
encontrados são assim devolvidos numa lista de resultados ordenados por ordem de

Page 8
MOTOR DE PESQUISA

relevância. A determinação da ordem da relevância obedece a um algoritmo


de ranking/scoring. 

8. Custos de armazenamento e tempo de crawling


Os custos de armazenamento não são o recurso limitador na implementação de um sistema de
busca. Armazenar simplesmente 10 bilhões de páginas de 10 kbytes cada (comprimidas)
requer 100TB e outros aproximados 100TB para índices, dando um custo de hardware total
em menos de $200k: 400 drives de disco de 500GB em 100 PCs baratos.

De qualquer forma, um sistema público de busca consideravelmente requer mais recursos


para calcular os resultados e prover alta disponibilidade. E os custos de operar uma
grande server farm  não são triviais.

Passar por 10B páginas com cem máquinas percorrendo links a 100 páginas/segundo levaria
1M segundos, ou 11.6 dias em uma conexão de Internet de alta capacidade. A maior parte dos
sistemas percorre uma pequena percenyagem da Web (so para ter nocao 10-20% das páginas)
perto desta frequência ou melhor, mas também percorre sites dinâmicos (por exemplo, sites
de notícias e blogs) em uma frequência muito mais alta.

9. Motores de busca geoespaciais


Uma recente melhoria na tecnologia de busca é a adição de geocodificação e geoparsing para
o processamento dos documentos ingeridos. O geoparsing tenta combinar qualquer referência
encontrada a lugares para um quadro geoespacial de referência, como um endereço de rua,
localizações de dicionário de termos geográficos, ou a uma área.

Através deste processo de geoparsing, as latitudes e longitudes são atribuídas aos lugares
encontrados e são indexadas para uma busca espacial posterior. O que pode mostrar se
significativo no processo de busca pois permite ao utilizador procurar documentos para uma
determinada extensão do mapa, ou por outra, indicar a localização de documentos
combinando com uma dada palavra-chave para analisar a incidencia ou qualquer combinação
dos dois.

Temos o exemplo de uma empresa que desenvolveu este tipo de tecnologia, a MetaCarta, que
disponibiliza seu produto como um XML Web Service para permitir maior integração às
aplicações existentes.

10. Analise Critica


Acualmente, existem muitos mecanismos de pesquisa disponíveis na Web, os métodos de
pesquisa e os mecanismos precisam percorrer um longo caminho para a busca e a
recuperação eficiente de informações sobre tópicos relevantes. Nenhum motor de pesquisa
hoje é perfeitos, mas usar o certo no momento certo pode fazer toda a diferença.

Page 9
MOTOR DE PESQUISA

11. Conclusão

Feito este trabalho pode-se concluir que o mesmo foi muito útil, pois permitiu a disseminação
de conhecimentos sobre os motores de pesquisa, no que diz respeito ao seu surgimento e
historico, tipos de motores de buscas, funcionamento dos motores de busca e ordem de
opeação.

Permitiu a perceber as carecteristicas apartir das quais podemos distinguir os diveros tipo de
buscas mediante ao seu uso e area de aplicação.

Foi possível também compreender que através do processo de geoparsing, as latitudes e


longitudes são atribuídas aos lugares encontrados e são indexadas para uma busca espacial
posterior. O que pode mostrar se significativo no processo de busca pois permite ao utilizador
procurar documentos para uma determinada extensão do mapa, ou por outra, indicar a
localização de documentos combinando com uma dada palavra-chave para analisar a
incidencia ou qualquer combinação dos dois.

Desta forma, pode-se afirmar que o trabalho teve sucesso na sua elaboração!

12. Referencias Bibliográficas


a) Trabalhos sobre motores de busca. (16 de Maio de 2012). Obtido em 16 de Junho de 2020,
de In SlideShare: https://pt.slideshare.net/OpInf25/trabalho-sobre-motores-de-busca

b) Motor de Busca. (05 de Junho de 2020). Obtido em 16 de Junho de 2020, de Wikipedia,


encopedia livre: https://pt.wikipedia.org/wiki/Motor_de_busca

c) Abiteboul, S., & Vianu, V. (2011). Queiries and Computation on Web Procedings of the
Internacional Conferrence on Database Theory. Internacional Jounarl of Management &
Information Systems.

d) Otávio, W. G. (2017 de Novembro de 2013). Motores de busca. Obtido em 2020 de Junho de


16, de InSlideShare: https://pt.slideshare.net/wellgermano/motores-de-busca-28687918?
next_slideshow=1

e) Seymour, T., Frantsvog, D., & Kumar, S. (2011). Hsitory of Serach Engines. Internacional
Management & Information Systems.

Page 10

Você também pode gostar