Você está na página 1de 11

Ferramentas de busca na Web

Beatriz Valadares Cendn


Professora adjunta da Escola de Cincia da Informao da Universidade Federal de Minas Gerais Cendon@eb.ufmg.br

Resumo
Existem hoje centenas de ferramentas para busca de informaes nas cerca de um bilho de pginas HTML que se estimam existir na Web. As peculiaridades destas ferramentas influenciam no tipo, nmero e qualidade dos recursos recuperados atravs delas. Este artigo oferece uma viso das principais categorias de ferramentas de busca da Internet, suas semelhanas, diferenas e caractersticas, bem como analisa as vantagens e desvantagens associadas a cada uma, de forma a proporcionar ao profissional da informao instrumental para aumentar sua eficincia na procura de recursos informacionais.
Palavras-chave

Desde os primrdios da Internet, houve a preocupao de se criarem ferramentas para localizao de seus recursos informacionais. Entre as ferramentas mais antigas, podemse citar o Archie, que busca arquivos em repositrios de FTP, e Veronica e Jughead, que encontram contedos armazenados nos Gophers. Com o advento da Web e a conseqente exploso das publicaes disponibilizadas por meio dela, comearam a surgir as ferramentas especficas para pesquisa de suas pginas. Existem hoje centenas destes instrumentos que fornecem meios para localizar o que se busca entre as cerca de um bilho de pginas HTML, que se estimam. Existem dois tipos bsicos de ferramentas de busca na Web: os motores de busca e os diretrios. Entretanto, a partir dessas duas categorias bsicas, outros tipos de ferramentas tm surgido, fazendo o mundo dos servios de busca complexo e voltil. Devido s caractersticas especficas de cada ferramenta, o tipo, nmero e a qualidade dos recursos recuperados atravs de seu uso, podem variar enormemente. Para obter melhores resultados na busca de informaes, o primeiro passo entender as peculiaridades dos diferentes tipos de ferramentas de busca na Web. Este artigo oferece uma viso das principais categorias de ferramentas de busca da Internet, suas semelhanas, diferenas e caractersticas e analisa, tambm, as vantagens e desvantagens associadas a cada uma, de forma a proporcionar ao profissional da informao instrumental para aumentar sua eficincia na procura de recursos informacionais. DIRETRIOS Os diretrios foram a primeira soluo proposta para organizar e localizar os recursos da Web, tendo precedido os motores de busca por palavras- chave. Foram introduzidos quando o contedo da Web ainda era pequeno o suficiente para permitir que fosse coletado de forma no automtica. Organizam os sites que compem sua base de dados em categorias, as quais podem conter subcategorias, ou seja, os sites recebem uma organizao hierrquica de assunto e permitem aos usurios localizar informaes, navegando, progressivamente, para as subcategorias. Como so ferramentas genricas, destinadas a um pblico variado, procuram incluir, em suas rvores hierrquicas de assunto, tpicos que so de interesse amplo. comum que incluam, por exemplo, itens relacionados com educao, esporte, entretenimento, viagens, compras ou
39

Internet, Ferramentas de busca; Web; Diretrios; Motores de busca; Metamotores

Web search tools Abstract


Nowadays there are hundreds of different tools for searching the estimated one billion Web pages. Their peculiarities influence the type, number and quality of resources retrieved through their use. This article offers an overview of the main categories of web search tools, their similarities, differences and characteristics in order to provide the information professionals an instrument to improve their efficiency in the search for information.
Keywords

Internet, Search tools; Web; Directories; Motors of search; Metamotors

Ci. Inf., Braslia, v. 30, n. 1, p. 39-49, jan./abr. 2001

Beatriz Valadares Cendn

informtica. Cabealhos de assunto so atribudos de forma consistente, de modo que os usurios podem contar com a ajuda de um vocabulrio controlado. Os sites coletados passam pela seleo, na maioria das vezes, por seres humanos, os editores, que tomam conhecimento de novos recursos por meio de sugestes de usurios, de pesquisas na Internet (em listas de anncios de novas pginas e atualizaes, por exemplo), ou ainda, pelo uso de robs para coletar novos URLs. O nmero de editores empregados, que pode variar de 30 (utilizados pelo Snap* ) a mais de 15 mil (como no caso do Open Directory da Netscape), um sinal da qualidade e atualizao dos dados, mas no uma garantia. Embora normalmente os critrios para seleo utilizados no sejam divulgados, apenas os melhores recursos so escolhidos para incluso. Apesar desta triagem, devido enorme quantidade de sugestes, centenas de sites podem ser acrescentados semanalmente. Os grandes diretrios podem conter dezenas de milhares de categorias e subcategorias e mais de um milho de sites. O primeiro diretrio da Web foi o The World Wide Web Virtual Library (http://www.vlib.org/), lanado em novembro de 1992 e sediado no CERN, que tambm foi o local de nascimento da Web. Atualmente, o exemplo mais conhecido o Yahoo!, que iniciou em 1994, a partir de um hobby de estudantes de doutorado na Stanford University, e hoje uma bem-sucedida empresa comercial. Outros exemplos de diretrios so Snap (http://www.snap.com), LookSmart (http://www.looksmart.com), Open Directory (http://dmoz.org/), Yahoo Brazil (http:// www.br.yahoo.com), Cad (http://www.cade.com.br), Surf (http://www.surf.com.br) e Vai & Vem (http:// www.vaievem.com.br), sendo estes trs ltimos brasileiros. DIFERENAS ENTRE OS DIRETRIOS Embora todos os diretrios sigam os princpios genricos descritos anteriormente, variam quanto aos princpios de organizao, forma de descrio dos recursos e aos assuntos cobertos, apresentando caractersticas prprias. Quanto aos princpios de organizao, a maioria dos diretrios usa as listas hierrquicas de assunto. Entretanto, alguns utilizam esquemas tradicionais de classificao, como o sistema de cabealhos de assunto da Library of Congress, utilizados pelo diretrio do Scout Reports (http://www.signpost.org/signpost/), ou a classificao Dewey, usada pelo BUBL Link (http://bubl.ac.uk/link/).
Em setembro de 2000, o Snap mudou o nome para NBCi (http://www.nbci.com/)
*

Geralmente, estes so criados e mantidos por profissionais da informao ou bibliotecrios, em uma tentativa de promover melhores formas de acesso aos recursos da Web. Quanto s descries dos sites, a maior parte dos diretrios que se constituem em empresas comerciais limita-se a incluir ttulos e breves resumos de at 30 palavras. Alguns diretrios se diferenciam dos demais por fornecer descries criteriosas e detalhadas dos recursos, podendo incluir crticas e avaliaes dos mesmos. Para elaborao das anlises, estes diretrios avaliativos ou acadmicos utilizam estudantes de mestrado ou mestres em biblioteconomia e cincia da informao, ou ainda especialistas em assuntos especficos. So geralmente associados a bibliotecas ou instituies de ensino, utilizam um processo seletivo de recursos mais rigoroso e no incluem propaganda. Porm, so poucos os diretrios que se enquadram nesta categoria. Dentre eles, destaca-se, por sua qualidade, o Argus (http://www.clearinghouse.net/), que iniciou como um projeto da University of Michigan e agora gerenciado por profissionais da informao. Coleta apenas sites que so guias de recursos na Web sobre um determinado assunto, os quais so compilados por especialistas em seus campos e fornecem links relevantes na rea coberta. Cada guia avaliado pela equipe do Argus, que os classifica em uma de suas 13 categorias principais e lhes atribui nota de 1 a 5, de acordo com vrios critrios de qualidade, como design, contedo e outros. O Argus apresenta uma detalhada descrio de suas polticas de seleo e classificao dos sites. Outros exemplos de diretrios avaliativos so o Infomine (http:// infomine.ucr.edu), o Britannica.com (http:// www.britannica.com) e o Scout Reports Signpost e a WWW Virtual Library, mencionados anteriormente. Quanto aos assuntos, nem todos os diretrios so genricos como o Yahoo!, ou o Britannica, que cobrem todos os assuntos. Alguns diretrios cobrem reas especficas e tm sido chamados de diretrios temticos ou especializados. Existem, por exemplo, diretrios especializados em imagens, jornais e revistas, software, listas de discusso; outros coletam sites sobre assuntos especficos como sade, cincias, legislao, informtica etc.; ainda outros listam ferramentas de busca de pases especficos ou para um pblico -alvo determinado (crianas, pesquisadores, organizaes no-governamentais etc.). Alguns sites se especializam em listar estes diretrios temticos, como, por exemplo, Tematicos (http: //www.tematicos.com), Buscopio (http://www.buscopio. com), Beaucoup (http://www.beaucoup.com) ou o Search Engine Watch (http://www.searchenginewatch.com/ links/SpecialtySearchEngines/). Para ferramentas
Ci. Inf., Braslia, v. 30, n. 1, p. 39-49, jan./abr. 2001

40

Ferramentas de busca na Web

regionais, veja-se tambm o site do Search Engine Watch (http://www.searchenginewatch.com/links/Regional SearchEngines/). Devido freqncia com que novas ferramentas de busca (diretrios e motores de busca) surgem, ao mesmo tempo em que outras caem em desuso, um novo tipo diretrio passou a ser criado: os diretrios de ferramentas de busca. Diretrios como FinderSeeker (http://www.finderseeker. com/) ou Search.com (http://search.cnet.com/) tm o objetivo de listar ferramentas de busca, para facilitar sua identificao. MOTORES DE BUSCA Ao contrrio dos diretrios, os motores de busca no organizam hierarquicamente as pginas que colecionam. Preocupam-se menos com a seletividade que com a abrangncia de suas bases de dados, procurando colecionar o maior nmero possvel de recursos atravs do uso de softwares chamados robs. Como suas bases de dados so extremamente grandes, podendo alcanar centenas de milhes de itens, permitem aos usurios localizar os itens desejados mediante buscas por palavras-chave, ou, s vezes, em linguagem natural. Os motores de busca comearam a surgir quando o nmero de recursos na Web adquiriu propores tais que impediam a sua coleta por meios manuais e a busca apenas atravs da navegao. A maioria deles derivou do trabalho de estudantes de ps-graduao, professores, funcionrios do departamento de sistemas de empresas ou outras pessoas interessadas na Web. Muitos no obtiveram continuidade, medida que a tarefa a ser executada passou a exigir maiores recursos humanos e tcnicos. Os que sobreviveram foram adquiridos por empresas ou financiados por propagandas, investidores e recursos de pesquisa. ALIWEB (Archie-Like Indexing on the Web) e Harvest so exemplos das primeiras tentativas de criar motores de busca por palavras-chave, e utilizavam tecnologias diferentes das atuais. O primeiro dos motores baseados em robs foi o WebCrawler, lanado em abril de 1994. Todos os motores atuais utilizam o mtodo de robs sendo formados por quatro componentes: um rob, que localiza e busca documentos na Web; um indexador, que extrai a informao dos documentos e constri a base de dados; o motor de busca propriamente dito; a interface, que utilizada pelos usurios.

Os robs, tambm chamados de aranhas (spiders), agentes, viajantes (wanderers), rastejadores (crawlers) ou vermes (worms), so programas que o computador hospedeiro da ferramenta de busca lana regularmente na Internet, na tentativa de obter dados sobre o maior nmero possvel de documentos para integr-los, posteriormente, sua base de dados. Existem vrias estratgias que os robs podem utilizar para se locomoverem de um documento a outro, utilizando-se dos links existentes nas pginas da Web. Geralmente, eles iniciam a busca a partir de sites conhecidos, especialmente daqueles que possuem muitos links, recuperam a sua home page e, sistematicamente, seguem os links encontrados nesta pgina inicial. Usam algoritmos prprios para determinar que links devem seguir. Por exemplo, alguns recuperam os documentos da hierarquia superior de um grande nmero de servidores (abordagem breadth-first), enquanto outros capturam todos os documentos em links de um mesmo servidor (abordagem depth-first). Os motores de busca podem usar vrios robs que trabalham em paralelo para construir sua base de dados. Por exemplo, o Excite empregava, no comeo do ano 2000, cerca de 10 aranhas para pesquisa na rede. Ela anunciou que dever acrescentar outra dezena delas, cada uma com a capacidade para cobrir 50 milhes de pginas da Internet. Na coleta de pginas para suas bases de dados, a maioria dos motores de busca permite tambm que os usurios sugiram URLs, em vez de esperar que os documentos sejam encontrados atravs da varredura realizada regularmente pelos robs. Os documentos encontrados pelos robs so encaminhados aos indexadores que extraem a informao das pginas HTML e as armazenam em uma base de dados. Esta base de dados do motor de busca consiste de informaes julgadas importantes como os URLs ou endereos das pginas HTML, ttulos, resumos, tamanho e as palavras contidas nos documentos. A interface, normalmente uma pgina Web, utilizada pelos usurios para efetuar a pesquisa na base de dados. Fornece meios para que o usurio formule a sua consulta, que recebida e transmitida para o software de busca ou motor de busca propriamente dito. Este um programa que localiza, entre os milhes de itens na base de dados, aqueles que devem constituir a resposta. O programa tambm responsvel pela ordenao dos resultados, de maneira que os mais relevantes apaream em primeiro lugar na lista de resultados. Os resultados mostrados contm uma lista de descries de sites e seus links.

Ci. Inf., Braslia, v. 30, n. 1, p. 39-49, jan./abr. 2001

41

Beatriz Valadares Cendn

DIFERENAS ENTRE OS MOTORES DE BUSCA Todos os motores de busca so compostos dos componentes listados anteriormente. Entretanto, diferem entre si em relao a fatores como o tamanho de suas bases de dados, critrios para indexao e incluso de pginas, alm de ordenao dos resultados. Suas interfaces, recursos de busca que oferecem, a freqncia com que atualizam suas bases de dados e o modo como apresentam os resultados tambm variam. Embora aqui o foco principal seja nos motores genricos, importante observar que, da mesma forma como existem diretrios temticos, existem tambm motores de busca temticos, que se especializam em um determinado tpico. Veja-se, por exemplo, o Medical World Search (http:// www.mwsearch.com), que se especializa em encontrar informaes mdicas. Os diretrios de ferramentas de busca, j citados, permitem localizar estes motores temticos. Tamanho da base de dados O tamanho das bases de dados dos motores de busca medido, geralmente, em nmero de URLs. Este tamanho de alta relevncia para que a ferramenta seja considerada boa, j que os recursos informacionais na Internet s podem ser encontrados em uma pesquisa, se alguma ferramenta os tiver includo. Se um motor cobre mais da Web, ele ter maior chance de conter a informao procurada. Conseqentemente, os motores maiores tendem a ser mais usados, atraindo maior nmero de anunciantes e podendo cobrar maiores taxas pelos anncios. Entretanto, nenhum motor de busca contm todas as pginas existentes na Web. Os melhores no chegam a incluir 60% delas, como mostra a tabela 1. Nela esto listados os maiores motores do mundo, com o nmero de pginas em suas bases de dados e a percentagem do nmero total de pginas da Web que cada um indexa. Entre os motores estrangeiros, o Altavista e HotBot (que usa na realidade uma base de dados compilada pelo servio Inktomi) destacaram-se por vrios anos como sendo os maiores do mundo. Mais recentemente, quatro motores, WebTop.com, Fast Search, Google e Northern Light, tm despontado na competio. Dentre os motores que indexam unicamente sites brasileiros, destaca-se o Todobr. Lanado em novembro de 1999 e com tecnologia desenvolvida pela Universidade Federal de Minas Gerais, ele continha, em junho de 2000, cerca de 10 milhes de pginas, ou seja, quase a totalidade da Web brasileira. Para pginas do Brasil, costuma trazer mais resultados que as maiores ferramentas estrangeiras.
42

TABELA 1 Tamanho da base de dados dos motores de busca


Motor de busca Google WebTop.com Altavista Fast Northern Light Excite HotBot / Inktomi Go / Infoseek Lycos No de pginas (em milhes) 560 500 350 340 265 250 110 50 50 % da Web 56% 50% 35% 34% 27% 25% 11% 5% 5%

Fonte: Search Engine Watch. Search engine sizes. Disponvel na Internet via WWW. URL: http://searchenginewatch.com/reports/sizes.html. Arquivo capturado em 29/set./2000.

Embora gigantescas, as bases de dados de cada motor no so iguais. Assim, para a mesma busca, cada mecanismo invariavelmente trar bons resultados que outros no encontraram. Para uma busca ser completa, necessariamente h de se usar mais de uma ferramenta. Critrios para indexao Os motores de busca criam ndices, chamados, na linguagem tcnica, de arquivos invertidos, que so utilizados para dinamizar a busca de informaes na sua base de dados. No ndice, so inseridos todos os termos que podem ser utilizados em busca de informaes e o URL das pginas que os contm. A fim de fornecer melhores recursos para recuperao dos resultados e sua ordenao, podem ser ainda armazenados dados sobre a posio das palavras na pgina e sobre os tags HTML associados com o texto. Se um termo no estiver includo no ndice, ele no ser encontrado, portanto os critrios utilizados para indexao influenciam os resultados das buscas. A maioria dos motores de busca indexa, ou seja, inclui, em seu ndice, cada palavra do texto visvel das pginas. Entretanto, alguns extraem, em vez do texto completo, apenas o URL, as palavras que ocorrem com freqncia, ou palavras e frases mais importantes contidas no ttulo ou nos cabealhos e nas primeiras linhas, por exemplo. Alguns motores indexam tambm outros termos, que no fazem parte do texto visvel, mas que contm informaes importantes e teis. Exemplos deste tipo de texto so os textos includos nos metatags para classificao, descrio e palavras-chave e texto ALT do tag Image, ou seja, texto associado com imagens. Os metatags de classificao
Ci. Inf., Braslia, v. 30, n. 1, p. 39-49, jan./abr. 2001

Ferramentas de busca na Web

fornecem uma palavra-chave que define o contedo da pgina. Os de descrio retornam descrio da pgina feita pelo seu autor no lugar do resumo que o rob criaria automaticamente. Os de palavras-chave fornecem as palavras-chave designadas pelo autor para descrever seu contedo ou assunto. Por exemplo, no metatag <META name=keyword content=Brasil, informao para negcios >., as palavras Brasil e informao para negcios podem no fazer parte do texto visvel da pgina, entretanto foram indicadas pelo seu autor como indicadores do assunto sobre os quais a pgina versa. Alguns motores no incluem no seu ndice algumas palavras do texto, chamadas palavras proibidas (stop words). Palavras proibidas so selecionadas entre as muito comuns, como, por exemplo, a preposio de, ou o artigo the na lngua inglesa. Como ocorrem nos textos em alta freqncia, muitos motores as excluem em seus ndices para economizar espao de armazenamento. Outros as incluem nos ndices, mas os ignoram ao fazer uma busca, para torn-la mais rpida. Para o usurio, isto problemtico, uma vez que os motores, em geral, no fornecem documentao sobre quais so as palavras proibidas utilizadas. Critrios para incluso de pginas O nmero de itens nas bases de dados dos motores determinado pelos critrios que utilizam para incluso de pginas. Alguns motores procuram incluir todas ou a maioria das pginas de cada site visitado. Outros indexam os sites superficialmente, ou seja, incluem apenas a home page e algumas pginas principais. Alm de documentos HTML, so cada vez mais comuns motores que coletam e indexam outros formatos, como imagens, vdeos, grficos, arquivos PDF ou ASCII. Outros compilam ainda mensagens em grupos de discusso, sites de FTP menus de , gophers e outros recursos. Entretanto, existem pginas que no so parte de nenhum motor de busca. Estas incluem sites que requerem senhas para entrada, pginas atrs de uma firewall e pginas que contenham o metatag Meta Robot noindex. O metatag Robot (<META name=robots content=noindex) pode ser acrescentado aos marcadores de cabealho pelo criador da pgina para indicar aos robs que eles no devem captur-la. Pginas isoladas, que no sejam referenciadas atravs de links em outras pginas na Internet, tambm podem escapar varredura dos robs.

Existe ainda uma parte da Web que tem sido chamada de Web invisvel, por incluir pginas no indexadas pela maioria dos motores de busca. Parte da Web invisvel so as pginas que contm frames, image-maps e as pginas dinmicas. No caso de pginas que contenham frames, comum ver sites com mais de 100 pginas terem apenas sua homepage indexada. Altavista, Google, Fast e Northern Light so alguns dos poucos motores que indexam frames, mas, mesmo assim, no o fazem de maneira ideal, pois no trazem o contexto em que elas esto inseridas. Pginas que usam frames muitas vezes so planejadas de forma que, para o seu entendimento, necessrio visualizar o conjunto das informaes. Ao mostrar uma frame fora de seu contexto, os links para navegao para o restante do site podem no estar presentes, aprisionando o usurio quela pgina, ou simplesmente as pginas podem no fazer sentido. Pginas dinmicas tambm representam um desafio para os robs. Geralmente elas so formadas de informaes contidas em bases de dados, e so montadas no momento em que o usurio clica em um link, ou seja, as pginas so criadas no ato da busca. Caracterizam-se por conter, geralmente, um ponto de interrogao como parte do seu URL. Por exemplo: um URL de uma pgina dinmica poderia ser algo do tipo: http://www.website.com/cgi-bin/ getpage.cgi?name=sitemap. A maioria dos motores de busca, ao encontrar o ponto de interrogao no endereo, recusam a indexao destas pginas, para evitar situaes em que eles obteriam milhares de pginas, quase iguais, porm com URLs ligeiramente diferentes. Isso se torna um problema, na medida em que pginas dinmicas tm sido crescentemente utilizadas na Internet. Algumas ferramentas que se especializam em dar acesso a informaes contidas em bases de dados no indexadas por nenhum motor de busca so InvisibleWeb.com (http:/ /www.invisibleweb.com/), Lycos Invisible Web Catalog (http://dir.lycos.com/Reference/Searchable_Databases/ e Direct Search (http://gwis2.circ.gwu.edu/~gprice/ direct.htm). Da mesma forma, os motores podem no indexar pginas relacionadas a image-maps. Image-maps, tambm chamados de mapas de imagem ou mapas clicveis, consistem de uma figura contendo dois ou mais links, cada um vinculado a uma regio da imagem. Alguns dos motores que o fazem so AltaVista, Go, e Northern Light.

Ci. Inf., Braslia, v. 30, n. 1, p. 39-49, jan./abr. 2001

43

Beatriz Valadares Cendn

Freqncia de atualizao dos dados Devido ao dinamismo da Internet, as bases de dados dos motores de busca precisam ser atualizadas, no s para adicionar novas pginas, mas tambm para delet-las ou incluir as modificaes das j existentes no ndice. Caso os robs no revisitem periodicamente toda a Internet, os URLs que eles trazem como resultados de uma busca podem no mais existir, ou podem existir, mas no mais conter as mesmas informaes, e, portanto, no mais serem relevantes para a busca. Os motores de busca se propem a atualizar completamente seus ndices pelo menos uma vez por ms. Partes mais importantes desses, como, por exemplo, pginas mais populares entre os usurios (Excite, Lycos), ou pginas que mudam com mais freqncia (Inktomi, Infoseek, Altavista, Go), podem ser atualizadas assiduamente, em torno de uma vez por semana, enquanto o restante do ndice atualizado a cada duas a quatro semanas. Novos URLs e links mortos descobertos pelos robs so atualizados diariamente. Cada motor tem sua prpria estratgia e tecnologia para se manter atualizado, embora possa acontecer que algum deles passe alguns meses sem acrescentar novos URLs ou modificar seus ndices. Os motores diferem tambm quanto ao tempo necessrio para que uma pgina coletada pelos robs ou submetida pelos usurios seja adicionada ao ndice. At que isso acontea, a informao no ser encontrada atravs de pesquisa no motor. Com o crescente nmero de sites disponveis na Internet e a concorrncia para chamar a ateno das ferramentas de busca, podem se passar meses antes que um site novo seja adicionado base de dados. Empresas especializadas em buscas na Internet, como a LookSmart e a Inktomi, esto comeando a disponibilizar programas que cobram uma taxa dos sites de Internet para disponibiliz-los em um prazo de 48 horas aps a solicitao. Interfaces e recursos para busca Os motores diferem tambm em relao s interfaces e recursos de busca que oferecem. Geralmente fornecem dois modos de busca, a busca simples para usurios leigos e a busca avanada para usurios mais experientes ou profissionais. Na busca simples, existem janelas e menus que permitem que os usurios entrem nos termos de busca sem a necessidade de conhecimento de lgica booleana. A busca avanada fornece recursos mais poderosos, como expresses booleanas complexas. Muitas vezes, na busca simples, os conectivos booleanos so automaticamente colocados entre os termos de busca, e nem sempre os
44

usurios sabem qual operador est sendo utilizado. Em alguns motores, por exemplo, um espao entre os termos da consulta interpretado como um conectivo booleano OR (Altavista e Excite, por exemplo), enquanto para outros tem o significado de AND (Google e Northernlight, por exemplo). Podem oferecer recursos como truncamento, busca por frase, busca por proximidade de palavras, busca por campos e sensibilidade caixa de caracteres (isto , caixa-alta e caixa-baixa). comum tambm haver opes para permitir a limitao por data, domnio, idioma ou tipo de arquivos (com base na extenso dos nomes dos arquivos). Alguns motores fornecem opes mais sofisticadas, como a busca automtica pela raiz das palavras, ou seja, se o usurio entrar com a palavra psicologia, ele encontrar tambm documentos com a palavra psiclogo. Em alguns casos, a pesquisa se estende tambm a outros termos sinnimos ou a termos com contedo semntico equivalente ao termo da consulta, como o caso do Excite. Esta busca estendida, quando existente, geralmente automtica, no sendo dada ao usurio a possibilidade de desabilit-la. So mais raros motores que permitem buscas em linguagem natural, na qual a consulta pode ser entrada na forma de uma sentena, em vez de termos isolados. No existe ainda uma completa padronizao nas interfaces e recursos de busca que cada mecanismo oferece, os quais variam de motor para motor. Para se usar corretamente cada motor, necessria a leitura das pginas de ajuda ou a consulta a tabelas comparativas em revistas especializadas ou na prpria Internet (ver, por exemplo, o site da biblioteca da University of California at Berkeley http:// www.lib.berkeley.edu/TeachingLib/Guides/Internet/ ToolsTables.html e o site da University at Albany Library http://www.albany.edu/library/internet/choose.html). Critrios de ordenao dos resultados Devido quantidade de pginas na Internet, na maioria das vezes obtm-se um grande nmero de resultados para qualquer busca. Portanto, a seqncia em que os resultados so mostrados torna-se importante. Se duas ferramentas trazem o mesmo nmero de resultados, porm uma delas traz itens mais relevantes entre os primeiros resultados, ela ser considerada melhor. Com a finalidade de permitir que os melhores sites apaream em primeiro lugar, a maioria dos motores de busca utiliza algoritmos de ordenao de resultados.

Ci. Inf., Braslia, v. 30, n. 1, p. 39-49, jan./abr. 2001

Ferramentas de busca na Web

Entre os critrios mais utilizados por estes algoritmos esto a localizao e freqncia de ocorrncia das palavras em uma pgina. Por exemplo, se o termo de busca aparece no ttulo, em cabealhos de destaque ou nos primeiros pargrafos em uma pgina, esta seria considerada mais relevante que outras pginas em que as palavras de pesquisa no aparecem nestas posies. E, se uma palavra aparece com mais freqncia em uma pgina que em outra, a primeira seria considerada mais relevante. Outros critrios comuns para a determinao de relevncia incluem o nmero de termos da consulta que esto presentes na pgina e a proximidade em que os termos se encontram. Os motores podem tambm levar em considerao o tamanho do documento. Se dois documentos possuem o mesmo nmero de ocorrncia dos termos de busca, os documentos mais curtos seriam considerados mais importantes que documentos longos. Este critrio chamado de densidade, pois mede a densidade com que um dado termo usado em cada documento. s vezes aplica-se uma curva declinante, em que a primeira ocorrncia de um termo conta mais que a segunda, que conta mais que a terceira, e assim por diante. Os motores podem levar tambm em considerao o nmero total de vezes que uma palavra ocorre na base de dados, pois existe uma relao inversa entre o contedo informacional de um termo e o nmero de vezes que este ocorre em um texto. Assim, as palavras recebem pesos inversos freqncia de sua ocorrncia na totalidade dos documentos indexados pelo motor. Ou seja, palavras de ocorrncia muito comum podem receber um peso menor que palavras relativamente raras na base de dados. O mecanismo exato para determinao da importncia das pginas varia de motor para motor e geralmente no revelado, porque os algoritmos de ordenao por relevncia so um dos maiores fatores diferenciais de competio entre os motores. Alguns motores de busca permitem que o usurio altere a ordenao dos resultados com critrios pessoais especificando, por exemplo, a necessidade da presena de todos os termos da busca, ou outros termos que possam determinar uma classificao mais alta do documento. Por ser um fator to importante, os motores tm desenvolvido novos mecanismos de ordenao, alm daqueles estatsticos mencionados anteriormente. Alguns destes mtodos que tm sido utilizados mais recentemente so:

Metatags de palavra-chave e descrio Alguns motores atribuem maior relevncia s pginas que contm os termos de busca nos metatags de descrio ou nos metatags de palavra-chave. Este mtodo pressupe que os autores utilizaro criteriosamente estes tags, o que pode no ocorrer. Alguns autores podem utilizar estes metatags para chamar ateno sobre suas pginas, utilizando termos que no correspondem ao seu contedo. Popularidade dos links Popularidade dos links refere-se ao nmero de links que apontam para uma pgina. Alguns motores, consultando sua prpria ou outras bases de dados, atribuem maior relevncia a pginas muito referenciadas em outros sites ou referenciadas em sites importantes. Links so vistos como um voto sobre a qualidade das pginas. Um motor que tem destacado este aspecto nos seus critrios de ordenao por relevncia o Google. Direct Hit Direct Hit (http://www.directhit.com) um servio na Web que monitora quais os links que milhares de usurios selecionam entre os resultados apresentados para uma busca e quanto tempo permanecem nos sites selecionados. Na ordenao por relevncia, Direct Hit leva em considerao aqueles itens preferidos e selecionados por um grande nmero de internautas para a mesma consulta, ou consultas parecidas. HotBot, Lycos (http:// www.lycos.com) e Metabusca (http://www.metabusca. com), por exemplo, so motores de busca que usam os servios de DirectHit para trazer outras alternativas, alm das normalmente encontradas na busca em sua base de dados, e, sua funo atribuir relevncia mais alta s pginas mais visitadas pelos usurios. Incluso do site em diretrios Os motores hbridos, ou seja, aqueles que possuem um diretrio vinculado ao site, costumam atribuir maior relevncia aos sites selecionados para incluso no seu diretrio, por existir uma probabilidade de que estes sejam mais importantes para a consulta. Motores que tm adotado esta estratgia incluem Altavista, Infoseek e Lycos.

Ci. Inf., Braslia, v. 30, n. 1, p. 39-49, jan./abr. 2001

45

Beatriz Valadares Cendn

Conceitos O motor Northern Light aplica uma anlise conceitual aos termos da consulta para determinar a inteno da busca. Esta anlise feita com o uso de ndices gerados por seres humanos. Organiza os resultados em pastas que representam conceitos ou assuntos, tipos de sites (pressreleases, mapas), ou idiomas. Os resultados dentro de cada pasta podem ser agrupados em novas pastas e finalmente so ordenados por relevncia. Este sistema permite ao usurio ignorar as pastas irrelevantes e escolher apenas as que melhor se adeqem pergunta. Pagamento Um motor, o Go To (http://www.goto.com), diferencia-se dos outros por apresentar em primeiro lugar os sites cujos produtores pagaram para estar entre eles. Spam Spam pode ser definido como um conjunto de mtodos considerados pouco ticos para promover pginas atravs da repetio da palavras irrelevantes, mas muito procuradas (como, por exemplo, futebol), para que estas pginas, embora no relacionadas com a consulta, sejam localizadas por buscas comuns. Tcnicas usuais de spam so o uso de texto invisvel (texto escrito da mesma cor do fundo da pgina e que, portanto, apesar de poder ser lido pelos robs, no visto pelo usurio), texto escrito em letras muito pequenas, que tambm so difceis de ser vistas, ou a incluso de palavras no apropriadas nos metatags. Alguns robs podem detectar esta repetio desnecessria de palavras e penalizar a pgina na ordenao por relevncia, ou mesmo exclu-las do seu ndice. Forma de apresentao dos resultados Os motores podem fornecer vrias opes de formato de exibio escolha do usurios. A maioria apresenta o nmero total de documentos encontrados, os quais so exibidos em pginas sucessivas contendo em torno de 10 resultados por pgina em um formato default, o qual mostra o ttulo e um pequeno resumo. Normalmente o nmero de resultados por pgina pode ser alterado pelo usurio. Outras vezes, pode-se tambm determinar quantos documentos, do total encontrado, deseja-se receber. Por exemplo, podem ter sido encontrados 200 documentos, mas o usurio pode solicitar a apresentao apenas dos 10 ou 20 primeiros. O formato de exibio pode incluir o ttulo, resumo, tamanho do arquivo em bytes, data do arquivo, URL e idioma. Alguns motores agrupam os resultados por URL e outros oferecem opo de
46

apresentao de resultados de forma resumida ou detalhada. Raramente se oferece o recurso de destaque (highlighting) dos termos da consulta nos resultados apresentados. Outros recursos de busca podem estar presentes na apresentao de resultados, como, por exemplo, more like this (usado pelo Excite), ou related pages (usado pelo Altavista), para permitir aos usurios a identificao de outros documentos semelhantes ao original. Ainda outras ferramentas podem apresentar apenas um link por site, dando ao usurio a opo de ver todos os demais links da resposta associados quele site. MOTORES DE BUSCA OU DIRETRIOS? Conforme visto, existem diferenas essenciais entre motores de busca e diretrios, o que faz com que existam vantagens e desvantagens associadas ao uso de cada um dos tipos de ferramentas. Os diretrios tm bases de dados menores, mas que contm informaes mais relevantes. Por exemplo, ao se procurar, utilizando-se a rvore hierrquica de assuntos, o tpico motores de busca (search engines) no diretrio Yahoo!, s se encontraro itens relevantes. O mesmo no acontecer, caso efetuemos uma pesquisa com a palavra-chave search engines em um motor de busca como o Altavista. Neste caso, obter-se-ia mais de um milho e meio de resultados, e no h garantia de que os itens recuperados sejam relevantes. Diretrios so tambm mais apropriados para buscas por tpicos que sejam de interesse para um grande nmero de pessoas, pois alta a probabilidade que sejam parte da rvore hierrquica; ou tpicos muito amplos os quais retornariam um nmero muito elevado de respostas em um motor de busca. J os motores de busca permitem a localizao de qualquer tipo de informao, por mais obscura ou especfica, desde que exista na Internet e esteja indexada. Mas como a sua base de dados muito grande, constituda de milhes de pginas, a chance de se recuperar um grande nmero de resultados no relacionados com os tpicos pesquisados tambm maior. Ou seja, obtm-se menor preciso nos resultados da busca. Por outro lado, paradoxalmente, apesar de terem maiores bases de dados, as aranhas dos motores de busca podem no indexar alguns tipos pginas que poderiam ser includas nos diretrios (como, por exemplo, as informaes que fazem parte da Web invisvel). Os motores de busca procuram compensar o excesso de itens recuperados com seus mecanismos internos de ordenao por relevncia, mostrando em primeiro lugar os que, de acordo com seus critrios, deveriam ser os mais importantes. Uma vez obtida a lista dos resultados, o
Ci. Inf., Braslia, v. 30, n. 1, p. 39-49, jan./abr. 2001

Ferramentas de busca na Web

usurio pode ler as descries para decidir quais os sites sero de maior interesse. No caso dos diretrios, especialmente dos diretrios avaliados, esta descrio pode ser de melhor qualidade. As descries dos motores de busca, por serem elaboradas automaticamente, podem no conter informaes adequadas para facilitar a deciso do usurio. Os robs no podem, por exemplo, identificar o tema central ou gnero literrio de um documento e podem no detectar elementos importantes das pginas como grficos ou imagens, assim como no podem extrair de um documento dados como o seu autor e sua afiliao institucional ou mesmo a data de publicao. Acessar o site pode ser a nica maneira de verificar se os recursos so relevantes ou no. Deve-se ter em mente, tambm, que, ao se pesquisar em um diretrio, a consulta feita apenas no ttulo, categoria e uma breve descrio dos documentos. J os motores de busca, em sua maioria, proporcionam uma pesquisa no texto integral dos documentos. Ou seja, o termo de busca poder ser encontrado onde quer que seja que ele aparea no documento. Outra diferena importante entre os motores de busca e diretrios a rapidez com que a informao includa. Como nos diretrios, a incluso de uma informao exige o trabalho humano de avaliao e seleo de recursos, uma pgina submetida a eles pode demorar pelo menos um ms para ser includa. No caso dos motores de busca, que usam indexao automtica, este tempo costuma ser mais rpido, e suas bases de dados contm informaes mais recentes. Deve-se observar que, hoje em dia, a distino entre motores de busca e diretrios j no to ntida e que a maioria deles pode ser considerada ferramenta hbrida. Os diretrios permitem buscas por palavras-chave em suas categorias, e os motores de busca, por sua vez, tm includo diretrios em suas pginas principais. No caso dos diretrios, isso acontece, porque, mesmo sendo seletivos, o nmero de sites includos j muito grande, dificultando aos usurios encontrar os itens procurados apenas atravs da navegao entre as categorias. O LookSmart, por exemplo, possui cerca de 60 mil subcategorias e indexa mais de um milho de URLs. Alm disso, os diretrios tm feito parcerias com motores de busca, para que, na eventualidade de um usurio no encontrar o que deseja, eles no recebam uma resposta negativa: nada encontrado. Nestes casos, automaticamente e de maneira transparente, o diretrio aciona o motor de busca e traz da Internet sites que contenham as palavras-chave. Yahoo!, por exemplo,

submete as palavras-chave dos usurios ao Inktomi. Caso no haja documentos em sua prpria base de dados, a ferramenta retorna sites no includos pelo diretrio. Por outro lado, para proporcionar aos usurios uma opo de maior seletividade de recursos, os motores de busca tm feito parcerias com diretrios e includo links selecionados em sua pgina principal. possvel encontrar um destes diretrios na pgina principal de quase todos os grandes motores estrangeiros. O Altavista e Excite, por exemplo, tm parceria com o diretrio LookSmart, e o HotBot e Lycos, com o Open Directory. METAMOTORES Para se obterem resultados melhores em uma pesquisa de informao na Web, recomendvel que se utilizem vrias ferramentas, j que, segundo alguns estudos, h pouca superposio na informao recuperada por motores diferentes. Para facilitar este processo, foram criados os metamotores (tambm chamados de multibuscadores), que permitem a execuo de uma mesma busca em mais de uma ferramenta (motores ou diretrios), ao mesmo tempo exibindo todos os resultados encontrados em uma s lista. Estas ferramentas no possuem nenhuma base de dados, utilizando exclusivamente dados de outras ferramentas de busca. Exemplos de metamotores so Inference Find (http://www.infind.com), SavvySearch (http://www.savvysearch.com), Mamma (http:// www.mamma.com), MetaMiner (http://miner.bol.com.br) e MetaBusca ZAZ (http://metabusca.zaz.com.br/busca/ metabusca/home.htm), sendo estes dois ltimos brasileiros. Os metamotores fornecem uma interface que permite ao usurio formular a busca e clicar em um boto para receber os resultados da pesquisa. Geralmente, fazem um prprocessamento da consulta do usurio para prepar-la para submisso a cada ferramenta, e a maioria oferece processamento ps-busca para compilar os resultados. Algumas ferramentas que se intitulam metamotores so, na realidade, pseudometamotores, pois que apenas fornecem uma interface onde vrios motores so listados sem que haja um mecanismo de busca integrada. Nestes casos, h uma caixa de pesquisa para cada motor, e as consultas so entradas e submetidas separadamente para cada ferramenta. Beaucoup Search Engines (http:// www.beaucoup.com/engines.html) um exemplo de uma ferramenta que funciona nestes moldes.

Ci. Inf., Braslia, v. 30, n. 1, p. 39-49, jan./abr. 2001

47

Beatriz Valadares Cendn

Existem alguns metamotores que funcionam atravs de um software instalado diretamente no microcomputador e que podem facilitar a construo local de estratgias de busca e conter muitas outras ferramentas de apoio que podem auxiliar, por exemplo, na eliminao de links duplicados ou mortos, armazenagem de buscas e ordenao dos resultados. Alguns exemplos destas so o freeware WebFerret (http://www.ferretsoft.com/ netferret/), Mata Hari (http://www.thewebtools.com/), Copernic (http://www.copernic.com/) e BullsEye (http:// www.intelliseek.com) DIFERENAS ENTRE OS METAMOTORES Como nos casos das ferramentas apresentadas anteriormente, existem variaes entre os metamotores. Eles apresentam diferenas em relao interface de busca, motores utilizados na pesquisa, modo de processamento das consultas, bem como forma de compilao e apresentao dos resultados. Quanto interface de pesquisa e aos motores utilizados, muitos fazem a busca em 6 a 10 motores, geralmente selecionados entre os maiores, como Altavista e HotBot. Outros oferecem mais opes: o SavvySearch, por exemplo, lista mais de uma centena de motores escolha do usurio. Nestes casos, os metamotores podem funcionar como os diretrios de ferramentas temticas, descritos anteriormente, permitindo que os usurios selecionem ferramentas especializadas em algum idioma, ou assunto. Algumas interfaces mostram as ferramentas utilizadas em listas facilmente visualizveis e permitem que o usurio selecione em quais das ferramentas oferecidas quer pesquisar; outras podem no permitir esta personalizao ou mesmo no indicar, nem mesmo em suas pginas de ajuda, quais motores so pesquisados. Os metamotores tambm podem efetuar buscas em outras partes da Internet como os arquivos de grupos de discusso da Usenet ou em newswires. Quanto ao processamento da consulta, a maioria dos metamotores permite a formulao de uma expresso de busca em uma sintaxe semelhante usada pela maioria dos motores, podendo permitir tambm o uso de lgica booleana e mesmo de linguagem natural. Alguns traduzem as consultas para a linguagem utilizada pelos motores individuais. Outros no o fazem, enviando a consulta como entrada pelo usurio, o que pode prejudicar a eficincia da busca, pois cada motor de busca usa uma sintaxe especfica. Por exemplo, alguns motores de busca aceitam os conectivos booleanos (AND, OR , NOT), e outros aceitam apenas sinais de incluso e excluso
48

(+ , - ). Portanto, dependendo de como a consulta for repassada ao motor, ela pode no ser corretamente interpretada por este. O tempo de resposta consulta e o modo como os resultados so retornados so consideravelmente afetados pela forma em que as ferramentas so pesquisadas: seqencial ou simultaneamente. comum a interface permita que o usurio especifique um tempo limite de espera pelos resultados (por exemplo 10, 15 ou 30 segundos), acima do qual a busca seria cancelada para os motores que no apresentaram resultados. Alguns permitem tambm estabelecer o nmero de resultados a serem apresentados para cada motor pesquisado. A forma mais recomendada de apresentao de resultados aquela em que as respostas de cada ferramenta pesquisada so integradas, ordenadas por relevncia (mostrando tambm quais motores retornaram resultados), e com resultados duplicados (ou seja, trazidos por mais de uma ferramenta) eliminados. Entretanto, algumas vezes os resultados produzidos por ferramenta pesquisada so agrupados e trazidos seqencialmente. Alguns poucos, como o Inference Find, agregam os resultados por categorias. As listas de resultados podem conter apenas ttulos ou mostrar ttulos e curtas descries, alm do URL. Alguns podem mostrar a ordem de relevncia que cada resultado obteve no motor que o recuperou (por exemplo, nmero 5 no Altavista, ou nmero 10, no HotBot). Metamotores so indicados nos casos em que no se encontram muitos resultados quando se pesquisa um s motor. Podem tambm ser utilizados para verificar quais motores individuais trazem as melhores respostas e fornecer uma viso geral do que cada ferramenta contm sobre um tpico com fins de seleo de um motor especfico para uma busca expandida. importante notar que existem desvantagens com relao ao uso dos metamotores. A maior limitao que os recursos de busca especficos de cada motor, que so os mecanismos para maior refinamento das pesquisas, tornam-se inacessveis na interface do metamotor. Devido ao grande volume de informaes na Internet, nos resultados obtidos, normalmente ocorre um nivelamento por baixo, ou seja, obtm- se maior quantidade de informaes sem um correspondente aumento de qualidade. Por causa desta limitao, os metamotores so mais indicados para buscas onde se utilizam termos nicos ou outras buscas simples, que no requeiram maior sofisticao. Em alguns metamotores, apenas um subconjunto dos resultados de cada ferramenta
Ci. Inf., Braslia, v. 30, n. 1, p. 39-49, jan./abr. 2001

Ferramentas de busca na Web

(geralmente os primeiros e, supostamente, mais relevantes) sejam recuperados. Buscas no metamotores tomam mais tempo porque processamento adicional necessrio para compilar os resultados e porque o tempo de resposta final ser aquele da ferramenta mais lenta. Como se manter atualizado sobre motores de busca Como visto, as ferramentas de busca na Internet constituem um universo complexo, no s pelas diferentes caractersticas que apresentam individualmente, mas tambm pela variedade de tipos e subtipos e por estarem em constante evoluo. Alm disso, a dificuldade de se encontrarem informaes relevantes atravs delas mascarada por suas interfaces aparentemente amigveis. Assim, apesar da grande quantidade de informaes na Web e das ferramentas disponveis para pesquis-las, o usurio fica freqentemente frustrado com os insatisfatrios resultados encontrados. O profissional da informao deveria, minimamente, consultar a documentao, ainda que esta seja mais limitada que o desejvel, de cada ferramenta, para melhor utiliz-la. Idealmente deveria se informar mais profundamente e se manter atualizado sobre elas. Existem sites na Internet que regularmente publicam artigos sobre as ferramentas de busca na Internet e tabelas comparativas de caractersticas dos motores. A seguir, listam-se alguns exemplos destes: Search Engine Watch (http://www.searchenginewatch.com) SearchIQ (http:// www.searchiq.com/) Search Engine Showdown (http://www.searchengineshowdown.com/) About.com Web Search Guide (http://Websearch.about.com/) Recomenda-se tambm a revista Online, que, alm de sua verso impressa, disponibiliza alguns dos artigos publicados no URL http://www.onlineinc.com. Alm do j citado site da biblioteca da Universidade de Berkeley, merece destaque o site mantido por Laura Cohen na University at Albany Libraries (http://www.albany.edu/ library/internet/searchnet.html). O site Ferramentas de Busca na Internet (http://www.eb.ufmg.br/cendon/links/ motores.htm) traz uma lista categorizada de ferramentas de busca.

REFERNCIAS BIBLIOGRFICAS BLATTMANN, Ursula, FACHIN, Gleisy R. B, RADOS, Gregrio J. Varvakis. Recuperar a informao eletrnica pela Internet. [online]. Disponvel na Internet via WWW. URL: www.ced.ufsc.br/~ursula/ papers/buscanet.html. Arquivo capturado em 08/06/2000. GARMAN, Nancy, Meta search engines. Online, v. 23, n.3, p. 75-78, May/June 1999. HAHN, Trudi Bellardo. Text retrieval online: historical perspective on Web Search Engines. Bulletin of the American Society for Information Science, v. 24,n. 4 ,7-10, April/May 1998. HOCK, Randolph. Web search engines: features and commands. Online, v.23, n.3, p. 24-28, May/June 1999. KIMMEL, Stacey. WWW search tools in reference services. The reference librarian, v.57, p.5-20, 1997. LIMA, Cynthia Moreira. O que a Internet e como utiliz-la para pesquisa? [online]. Disponvel na Internet via WWW. URL: http://www.elo.com.br/ ~cynthia/interpesq.htm. Arquivo capturado em 09/06/2000. POULTER, Alan. The design of World Wide Web search engines: a critical review. Program, v. 31, n. 2, p. 131-145, Apr 1997. SCHWARTZ. Candy; Web search engines. Journal of the American Society for Information Science, v. 49, n.11, p.973-982, 1998. SULLIVAN, Danny (Ed.). Search engine watch: tips about Internet search engine. [online]. Disponvel na Internet via WWW. URL: http://www.searchenginewatch.com. Arquivo capturado em 09/06/2000. SHERMAN, Chris. The future of Web search. Online, v. 23, n.3, p. 5461, May/June 1999. SULLIVAN, Danny. Crawling under the hood: an update on search engine technology, Online, v. 23, n.3, p. 30-38, May/June 1999.

Ci. Inf., Braslia, v. 30, n. 1, p. 39-49, jan./abr. 2001

49

Você também pode gostar