Escolar Documentos
Profissional Documentos
Cultura Documentos
Rio de Janeiro
2001
ii
Rio de Janeiro
2001
iii
004
Alencar, Maria Simone de Menezes
A368m Mecanismos de busca na Web : uma anlise
da metodologia de estudos comparados / Maria
Simone de Menezes Alencar. Rio de Janeiro,
2001.
ix, 96 f. : il.
Orientadora: Maria de Nazar Freitas Pereira
Dissertao (mestrado). UFRJ/ECO-MCT/IBICT
Bibliografia : f. 90-95
1. Mecanismos de busca. 2. Web. 3. Recuperao
da informao. I. Pereira, Maria de Nazar Freitas.
II. Ttulo.
CDU 004
ii
Aprovada por:
______________________________________________
Prof. Maria de Nazar Freitas Pereira - Orientador
Doutora em Cincias Humanas, IUPERJ
______________________________________________
Prof. Lena Vnia Ribeiro Pinheiro
Doutora em Comunicao e Cultura, UFRJ/ECO
______________________________________________
Prof Maria Luiza Machado Campos
Ph.D. em Engenharia de Sistemas, University of East Anglia, Inglaterra
______________________________________________
Prof. Hagar Espanha Gomes
Livre docente, UFF
Rio de Janeiro
2001
iii
AGRADECIMENTOS
iv
RESUMO
ALENCAR, Maria Simone Menezes de. Mecanismos de busca na Web: uma anlise da
metodologia de estudos comparados. 2001. Dissertao (Mestrado em Cincia da
Informao) - UFRJ/ECO-MCT/IBICT, Rio de Janeiro. Orientador: Maria de Nazar
Freitas Pereira.
ABSTRACT
ALENCAR, Maria Simone Menezes de. Mecanismos de busca na Web: uma anlise da
metodologia de estudos comparados. 2001. Dissertao (Mestrado em Cincia da
Informao) - UFRJ/ECO-MCT/IBICT, Rio de Janeiro. Orientador: Maria de Nazar
Freitas Pereira.
A model with five parameters for the evaluation of information retrieval in motor search
engines was developed. This model is based on canonical Information Science authors.
Starting from this model, a checklist constituted by thirteen criteria for the evaluation of
comparative studies of search engines was drawn. This checklist was used as method for
the analysis of ten comparative studies, and this analysis' results indicate lack of an
Information Science theoretical foundation concerning information retrieval.
The
vi
SUMRIO
INTRODUO .......................................................................................................... 1
1. A RECUPERAO DE INFORMAO E OS MECANISMOS DE BUSCA ... 8
1.1 COLEO ........................................................................................................ 13
1.2 ANATOMIA...................................................................................................... 18
1.3 TREINAMENTO DE USURIOS ........................................................................... 24
1.4 ESTUDOS DE USOS/USURIOS ........................................................................... 26
1.5 TENDNCIAS ................................................................................................... 28
2. AVALIAO DA RECUPERAO DE INFORMAO................................ 30
2.1 MODELO DE LANCASTER & FAYEN.................................................................. 32
2.1.1 Expanso do modelo................................................................................ 36
2.2 MODELO PARA A WEB ..................................................................................... 37
2.2.1 Preciso .................................................................................................. 39
2.2.2 - Cobertura ................................................................................................ 40
2.2.3 - Esforo do usurio ................................................................................... 40
2.2.3.1 - Documentao do sistema ................................................................. 41
2.2.3.2 Interface com o usurio..................................................................... 41
2.2.3.3 - Capacidade de busca.......................................................................... 41
2.2.3.3.1 Relacionamento entre termos ..................................................... 41
2.2.3.3.1.1 Operadores booleanos ......................................................... 42
2.2.3.3.1.2 Proximidade entre termos.................................................... 42
2.2.3.3.1.3 Linguagem natural............................................................... 42
2.2.3.3.1.4 Atravs de vocabulrio ........................................................ 42
2.2.3.3.2 Interpretao de uma nica palavra ............................................. 43
2.2.3.3.2.1 Truncagem .......................................................................... 43
2.2.3.3.2.2 Distino entre maisculas e minsculas ............................. 43
2.2.3.3.2.3 Delimitao por campo........................................................ 43
2.2.3.3.2.4 Eliminao de palavras no significativas............................ 44
2.2.3.3.2.5 Atribuio de pesos a termos ............................................... 44
2.2.3.3.2.6 Incorporao automtica de sinnimos ................................ 44
vii
viii
ix
INTRODUO
A evoluo das tecnologias de informao e comunicao nos traz novas situaes
que merecem ser estudadas luz das teorias desenvolvidas para os sistemas tradicionais de
informao e comunicao. Neste trabalho estaremos estudando os mecanismos de busca
na Web, uma nova aplicao para os sistemas de recuperao de informao.
A Internet um imenso repositrio mundial de informao. A Rede possui um
potencial que permite que pessoas de diferentes culturas, com conhecimentos e interesses
os mais variados, possam compartilhar informaes, tornando disponveis suas
informaes publicamente e, ao mesmo tempo, procurar por conhecimentos e experincias
que outros desenvolveram e relataram.
As informaes disponveis na Internet se apresentam em diversos formatos. Os
recursos podem estar disponveis em forma de textos, arquivos formatados, imagens, sons,
vdeos. No entanto, a World Wide Web, mais comumente chamada Web, oferece uma
interface que permite a disponibilizao da maioria dos recursos disponveis.
O estudo intitulado How much information1 se props a estudar quanta informao
produzida mundialmente a cada ano, estoque acumulado, taxas de crescimento, entre
outras variveis. Este estudo mostra que 93% da informao produzida em 1999 j foi
criada em formato digital e apresenta, tambm, dados sobre o crescimento da informao
disponibilizada na Internet:
2,1 bilhes de pginas nicas acessveis publicamente, e cerca de 4 bilhes estimados
para o incio de 2001, mantida a taxa de crescimento;
7,3 milhes de pginas2 adicionadas diariamente.
O tamanho da Web um assunto que estimula inmeras pesquisas, suscitando
discusso sobre as metodologias utilizadas para estes estudos, que nem sempre so claras e
oferecem um grau de incerteza muito grande quanto medida de seu tamanho.
LYMAN, Peter, VARIAN, Hal R. How much information? Disponvel em:
<http://www.sims.berkeley.edu/how-much-info/>. Acesso em: 26 out. 2000.
2 Uma pgina web definida pelos autores como um recurso da Web que contm nenhum, um ou mais
recursos da Web embutidos, e que freqentemente um objeto composto, consistindo em mltiplos
recursos, por exemplo, texto, imagens, applets, etc. Uma pgina Web uma nica entidade, identificada por
um endereo (URL) nico.
1
2
Recentemente, novas pesquisas esto sendo publicadas sobre a questo da Internet
invisvel, a parte da Internet que no acessvel atravs dos mecanismos de busca. Um
estudo3 afirma que a Internet 500 vezes maior do que o segmento coberto pelos
mecanismos de busca, pois cada vez mais as informaes esto sendo disponibilizadas na
Web atravs de bancos de dados mantidos por agncias governamentais, universidades e
companhias privadas.
Independente do tamanho estimado, a Internet pode ser vista como uma grande
massa de informaes. Para localizar a informao desejada necessrio o
desenvolvimento de ferramentas de busca cada vez mais poderosas que permitam uma
melhor filtragem do material desejado.
Os servios auxiliares de busca de informao surgem na Internet medida em que
a quantidade de recursos disponveis cresce. Para localizao de arquivos disponveis
atravs de FTP4 annimo surgiu o Archie. Arquivos de listas de discusso (listserv) podiam
ser pesquisados atravs de comandos enviados ao servidor. Diretrios on-line como
Hytelnet e Libs permitiam a pesquisa em colees disponveis por Telnet. A ampla adoo do
Gopher, no incio dos anos 90, foi seguida do desenvolvimento do Veronica (ndice de vrios
Gophers) e do Jughead (ndice de um nico Gopher), ambos provendo pesquisa por palavrachave atravs do texto das linhas de menu do Gopher. O WAIS (Wide Area Information
Server), um instrumento de pesquisa de grandes bases de dados na rede, foi projetado a
partir da experincia acumulada de trinta anos de pesquisa da comunidade de Cincia da
Informao sobre o uso de caractersticas estatsticas do texto para a recuperao e o
desenvolvimento do protocolo Z39.50 para interoperabilidade entre catlogos de
bibliotecas automatizadas.
A primeira verso de navegador (browser) em modo texto surgiu em 1991, lanado
pelo CERN (European Organization for Nuclear Research). Em 1993, surgem as verses grficas
para Windows e MacIntosh e com isso houve um crescimento de recursos disponveis na
Web. Nesta poca, para descobrir novos sites, o ponto de referncia era a World Wide Web
Virtual Library, no site do CERN, uma lista alfabtica de assuntos com links para pginas,
dispositivo que hoje seria classificado como ferramenta de busca do tipo diretrio. Com a
3 BERGMAN, Michel K. The deep Web: surfacing hidden value. Journal of the Electronic Publishing. v.7,
n.1, Aug. 2001. Disponvel em: <http://www.press.umich.edu/jep/07-01/bergman.html>. Acesso em: 06
set. 2001.
4 FTP File Transfer Protocol
3
facilidade que a interface grfica traz, inicia-se em 1993 a expanso da utilizao da Web,
atingindo uma taxa de crescimento anual de 341.634%, enquanto a taxa anual de
crescimento do Gopher foi de 997%, na mesma poca5.
Novas questes relacionadas armazenagem e recuperao de informao surgem
com a popularizao da Internet, resultando em maior volume de estudos e pesquisas sobre
diferentes aspectos da recuperao da informao.
Falar de recuperao de informao na Internet e WWW significa falar de
mecanismos de busca, aqui entendidos como aqueles que esto diretamente relacionados
busca de informao no ambiente da Web e no na Internet como um todo. fato que
no h padronizao na nomenclatura a esse respeito, de tal sorte que alguns autores, como
Poulter6, se referem a mecanismos de busca (search engines) para todo tipo de ferramenta pr
e ps-Web. Por sua vez, Chu & Rosenthal7 referem-se inicialmente a auxiliares de busca
(search aids) para qualificar todas as ferramentas de busca, tanto pr como ps-Web, para,
logo em seguida, substituir essa denominao por mecanismos de busca (search engines).
Contudo, para fins desta pesquisa, distingue-se a nomenclatura adotada para as ferramentas
de busca entre essas fases, pr e ps-Web.
Na fase pr-Web da Internet, o ambiente era puramente acadmico e os servios
para descoberta de recursos informacionais tinham um carter no-corporativo, nocomercial. Assim, preferimos adotar a expresso auxiliares de busca para aqueles servios
de recuperao de informao nos recursos disponveis nessa fase de desenvolvimento da
Internet.
Para a fase ps-Web, optamos por utilizar a expresso mecanismos de busca que,
embora no seja a traduo correspondente search engines, entendemos ser aquela mais
adequada, por dois motivos. Primeiramente, a denominao mais adotada entre os
autores brasileiros e, em segundo lugar, designa melhor o conjunto de componentes dos
search engines. Cabe ressaltar, tambm, que o site Search Engine Watch, um site referencial,
4
traduz o termo search engines para mecanismos de busca , em uma pgina8 dedicada
traduo desta expresso para vrias lnguas.
Segundo a Webopedia, uma enciclopdia digital, os mecanismos de busca (search
engines) so:
Programas que pesquisam em documentos por palavras-chave
especificadas e recuperam uma lista de documentos onde as palavraschave foram encontradas. Embora mecanismos de busca sejam uma
classe geral de programas, o termo freqentemente usado para
especificamente descrever sistemas como AltaVista e Excite que
permitem a usurios pesquisar por documentos na World Wide Web e
newsgroups USENET.
Tipicamente, um mecanismo de busca trabalha enviando um rob (spider)
para buscar o maior volume de documentos possvel. Outro programa,
chamado indexador, l esses documentos e cria um ndice baseado nas
palavras contidas em cada documento. Cada mecanismo de busca usa
um algoritmo prprio para criar seu ndice de tal modo que, em
condies ideais, s resultados significativos sejam recuperados para cada
busca. 9
Vrios autores procuram sistematizar os diferentes tipos de mecanismos de busca
disponveis na Web (Peterson10, Schwartz11). Uma categorizao usual - que pode ser
chamada de clssica - entre os autores a classificao dos mecanismos de busca na Web
em trs tipos bsicos: diretrios, motores de busca e metaferramentas.
Os diretrios e motores possuem uma base de dados contendo representaes
(metadados) das pginas que indexam. Os metadados utilizados variam em cada servio
incluindo desde o endereo do site (URL) at o texto integral ou etiquetas de marcao e
posicionais da pgina (tags). A diferena bsica entre esses dois tipos de servio est na
forma em que a base de dados produzida.
Nos diretrios, o trabalho de indexao feito, em muitos casos, por edio
humana. Os diretrios so servios que possuem uma rvore de assuntos, com uma
5
estrutura hierrquica, onde cada site indexado em um ou mais assuntos sob a rvore.
Exemplos desse tipo de recurso so o Yahoo!12, o Lycos13 e o brasileiro Cad14.
Os motores de busca so servios que possuem um rob (spider, wanderer, crawler)
que varrem os sites na Internet, seguindo os links e indexando automaticamente a
informao coletada pelos robs. Exemplos deste tipo de servio so o AltaVista15, o
Google16 e o brasileiro Radix17.
O terceiro tipo so as metaferramentas, que so servios que no possuem uma
base de dados prpria e sim um software que pesquisa dados de outras bases, em geral, nos
motores de busca. Uma metaferramenta envia a pesquisa para mais de uma ferramenta de
busca, as vezes selecionadas pelo usurio. Geralmente, na exibio do resultado as
duplicatas so retiradas. Exemplos desse tipo de servio so o Metacrawler18, o Mamma19 e o
brasileiro Miner20.
Diante das diversas opes de mecanismos de busca a serem adotados pelos
usurios, fica a questo: qual a melhor ferramenta de busca?. Para responder esta
proposio, muitos estudiosos tm feito trabalhos comparativos entre os resultados obtidos
para determinadas questes em diversos mecanismos de busca.
Os trabalhos comparados entre mecanismos de busca so, em ltima anlise,
estudos de avaliao de performance desses sistemas que podem ser entendidos como
sistemas de recuperao de informao baseados no ambiente da Web.
Segundo Rijsbergen21, o problema da avaliao pode ser colocado na perspectiva de
trs questes:
(1) por que avaliar?
(2) o que avaliar?
(3) como avaliar?
Yahoo! Disponvel em: <http://www.yahoo.com>. Acesso em: 20 jun. 2001.
Lycos. Disponvel em: <http://www.lycos.com>. Acesso em: 20 jun. 2001.
14 Cad. Disponvel em: <http://www.cade.com.br>. Acesso em: 20 jun. 2001.
15 AltaVista. Disponvel em: <http://www.altavista.com>. Acesso em: 20 jun. 2001.
16 Google. Disponvel em: <http://www.google.com>. Acesso em: 20 jun. 2001.
17 Radix. Disponvel em: <http://www.radix.com.br>. Acesso em: 20 jun. 2001.
18 Metacrawler. Disponvel em: <http://www.metacrawler.com>. Acesso em: 20 jun. 2001.
19 Mamma. Disponvel em: <http://www.mamma.com>. Acesso em: 20 jun. 2001.
20 Miner. Disponvel em: <http://www.miner.com.br>. Acesso em: 20 jun. 2001.
21 RIJSBERGEN, C.J. van. Information retrieval. Woburn: Butterworth & Co Ltda, 1979. 208 p. Disponvel
em: <http://www.dcs.gla.ac.uk/Keith/Preface.html>. Acesso em: 21 jun. 2001.
12
13
6
Para responder a primeira questo, devemos ter em mente principalmente aspectos
sociais e econmicos. O ponto de vista social est relacionado com o benefcio ou no do
sistema de recuperao de informao, benefcio este que vai alm da qualidade dos
documentos recuperados, considerando a vantagem ou no do usurio em utilizar o
sistema. O ponto de vista econmico sugere a relao custo-benefcio de utilizao do
sistema.
Considerando a avaliao de um mecanismo de busca, o porqu de fazer sua
avaliao diz respeito basicamente sua competitividade em relao aos demais, ou seja, se
vantajoso para o usurio escolher um ou outro servio de recuperao da informao na
Web. O ponto de vista econmico tambm influencia essas avaliaes, visto que, a partir
das concluses, em geral surgem sugestes de melhorias que podem ser incorporadas aos
servios. Esta questo considerada no apenas nesta introduo, onde procuramos
apresentar a importncia dos mecanismos de busca no contexto informacional da
atualidade mas, tambm, na seo seguinte, quando a discusso se amplia com a
apresentao de uma viso geral da importncia dos estudos relacionados aos mecanismos
de busca de informao na Web.
A segunda questo levantada por Rijsbergen o que avaliar refere-se ao que pode
ser medido para refletir a habilidade do sistema em satisfazer o usurio. Na seo 2
discutimos os parmetros que podem ser utilizados para avaliao de sistemas on-line de
recuperao de informao. Oferecemos um modelo de critrios a serem utilizados,
baseado nos parmetros propostos por Lancaster & Fayen,22 e ampliado a partir das
especificidades do ambiente informacional dos mecanismos de busca na Web.
Chegamos ento ltima pergunta: como avaliar?, que diz respeito diretamente
ao mtodo utilizado na avaliao. Na seo 3, propomos um check-list para avaliao da
metodologia de estudos comparados de mecanismos de busca do tipo motor. A partir deste
roteiro, discutimos a metodologia aplicada em uma dezena de estudos comparados de
avaliao de mecanismos de busca na Web. Questionamos, tambm, a influncia do
mtodo sobre os resultados obtidos, ocasio em que estabelecemos as conexes com os
parmetros do modelo discutido na seo anterior.
LANCASTER, F.W., FAYEN, E.G. Information Retrieval On-Line. Los Angeles, CA: Melville
Publishing Co. 1973.
22
7
Finalmente, nas consideraes finais apresentamos as concluses obtidas na
pesquisa e sugerimos, luz das tendncias na rea de recuperao de informao na Web,
uma agenda de pesquisas como continuidade deste trabalho.
1.
RECUPERAO
DE
MECANISMOS DE BUSCA
INFORMAO
OS
24
25
10
projeto de interface e a efetividade da recuperao. Assim, conforme conclui Schwartz28,
raras foram as situaes onde, no campo da Cincia da Informao, os interesses da
pesquisa acadmica e do desenvolvimento comercial de produtos estiveram to prximos.
Chowdhury29 apresenta um importante levantamento sobre pesquisas no campo de
recuperao de informao. Em seu estudo, destaca indcios do crescimento desta rea. O
peridico Library and Information Science Research, em sua terceira edio de 1997, publicou
um editorial sobre a agenda de pesquisa para alm de 2000. O corpo editorial foi
convocado para criar uma lista de tpicos identificando os caminhos para as pesquisas nas
reas de Biblioteconomia e Cincia da Informao nos prximos anos. As dez principais
reas identificadas esto relacionadas, direta ou indiretamente, pesquisa de recuperao de
informao.
O autor apresenta, tambm, uma lista de reas de pesquisa30 coletadas a partir de
busca na base de dados LISA31, em CD-ROM, e atravs dos ltimos peridicos em Cincia
da Informao. Este trabalho revela um grande nmero de publicaes que esto
relacionadas recuperao da informao na Internet e na Web, confirmando a agenda de
pesquisa proposta pelos avaliadores da Library and Information Science Research.
Um estudo elaborado por Brooks32, sobre os melhores trabalhos publicados no
Journal of the American Society for Infomation Science (JASIS), outro indicador da importncia
dessa rea de pesquisa. A anlise de citao dos 28 melhores artigos publicados nesse
peridico, no perodo de 1969-1996, demonstra que o foco dos cinco melhores artigos a
recuperao de informao e busca on-line.
Quando trazemos a questo da recuperao de informao para o ambiente da Web
estamos nos referindo aos mecanismos de busca, j que so estes que tornam possvel a
recuperao de informao na Internet.
SCHWARTZ, Candy. Web Search Engines. Journal of the American Society for Information Science.
v.49, n.11, p.973-982, Sep. 1998.
29 CHOWDHURY, G.G. The Internet and information retrieval research: a brief review. Journal of
Documentation, v.55, n.2, p. 209-225, Mar. 1999.
30 As reas de pesquisa foram categorizadas em: ferramentas de busca; avaliao da recuperao;
confiabilidade da informao na Web; interface para usurios; estudo de usurios; organizao da informao
na Web; controle de vocabulrio; sada da busca na Web; agentes para busca inteligente, e Web vs base de
dados tradicionais (on-line e CD-ROM).
31 LISA Library and Information Science Abstracts
32 BROOKS, Terrence A. How Good Are the Best Papers of JASIS? Journal of the American Society for
Information Science. v.51, n.5, p.485-486, 2000.
28
11
Logo aps a chegada da Web, os mecanismos de busca tornam-se uma importante
rea de pesquisa. Esses servios surgem a partir de 1994, inicialmente oriundos de
atividades de pesquisa, ou at de recreao de colegiais, universitrios, analistas de sistemas
e outros profissionais ligados a Web. Quando a tarefa de coleta e indexao comeou a
exceder a capacidade humana e os recursos tcnicos disponveis, alguns desses projetos
faliram. No entanto, outros foram adquiridos por empresas, financiados por anncios e
investimento de capital, ou apoiados por iniciativas de pesquisa, e sobreviveram. Em 1996,
as ferramentas de busca comearam a ser anunciadas em jornais, revistas e TV.
Proliferaram diferentes produtos de busca diretrios, motores de busca, metaferramentas,
servios baseados em assunto, agentes pessoais e servios de disseminao da informao
(tecnologia push).
O crescimento dos estudos em mecanismos de busca pode ser avaliado pela extensa
bibliografia existente. Para citar um exemplo, um levantamento realizado em 2000, pela Dr.
Anne Clyde33, intitulado Web Search Engines: General Bibliography and Resources, mostra cerca
de 60 estudos publicados em papel ou on-line, apresentados em congressos e em revistas
da rea no perodo de 1997 a 2000. Estes documentos envolvem fontes de diferentes
procedncias, como revistas de informtica e artigos de divulgao. Seus autores so da
Cincia da Informao, da Cincia da Computao e de empresas de marketing.
O crescimento dos estudos em mecanismos de busca tambm pode ser avaliado
pela existncia de uma coluna intitulada Internet Search Engine Update no peridico Online34.
Essa publicao bimestral existe desde 1995. voltada para profissionais de informao e
oferece artigos, reviso de produtos, estudo de casos, avaliaes e opinies sobre seleo,
uso e gerenciamento de produtos eletrnicos de informao.
A vitalidade da rea tambm pode ser observada pelos eventos dedicados a essa
temtica. Uma importante conferncia sobre mecanismos de busca, a Search Engine Meeting35
j est em sua sexta edio. Outro indicativo so os sites dedicados ao estudo e
acompanhamento da performance e crescimento das ferramentas como, por exemplo, o
CLYDE, Anne. Web search engines: general bibliography and resources. Disponvel em:
<http://www.hi.is/~anne/websearch_bibliography.html>. Acesso em: 03 maio 2001.
34 ONLINE. Wilton: Online Inc. 1995-2001. Bimestral. Disponvel em:
<http://www.onlineinc.com/onlinemag/index.html>. Acesso em: 10 jun. 2001.
35 Search Engine Meeting. Disponvel em: <http://www.infonortics.com/searchengines>. Acesso em: 08
jun. 2001.
33
12
Search Engine Show Down36 e o Search Engine Watch37. Este ltimo servio apresenta dados
estatsticos que atestam a importncia social e econmica dos mecanismos de busca na
sociedade. As afirmativas, extradas de diversas pesquisas e artigos, e apresentadas no
Anexo 1, mostram como os mecanismos de busca so importantes para o desenvolvimento
do comrcio eletrnico e o quanto so utilizados pelos usurios.
O volume de informaes sobre negcios, como fuses, aquisies, parcerias e
novas geraes de mecanismos de busca to intenso que o Yahoo News! tem uma rea
dedicada especificamente ao tema: Internet Portals & Search Engines38. Uma busca39 no site da
Amazon revela que h 45 livros venda, relacionados a mecanismos de busca.
Os estudos sobre mecanismos de busca so extensos e amplos. O enfoque pode ser
na arquitetura informacional adotada pela ferramenta (estrutura de diretrios, campos de
busca, formato de sada), como tambm no aspecto computacional (capacidade de
processamento, velocidade de atualizao, critrios de relevncia adotados pelo software).
Como atualmente o negcio dos servios de busca envolve milhares de dlares, constata-se
uma extensa literatura abordando aspectos comerciais, de negcios e de gerenciamento das
ferramentas. H literatura impressa e eletrnica, acadmica e comercial. A vasta literatura
sobre mecanismos de busca na Internet dificulta aqueles que procuram uma viso geral
desta rea do conhecimento.
A seguir, apresentamos um panorama das pesquisas sobre mecanismos de busca,
sistematizando os tipos de estudos encontrados sobre esta temtica, conforme tipologia
por ns desenvolvida especificamente para esta finalidade.
Classificamos os estudos sobre mecanismos de busca em cinco reas. Cabe ressaltar
que vrios artigos abordam questes perifricas, que esto relacionadas com outras destas
reas, porm os classificamos de acordo com o foco maior do trabalho.
O primeiro tipo de pesquisas relaciona-se ao estudo da coleo do mecanismo de
busca, ou seja, o que a ferramenta indexa, seu escopo e cobertura (ou tamanho).
Search Engine Show Down. Disponvel em: <http://searchengineshowdown.com>. Acesso em: 20 jun.
2001.
37 Search Engine Watch. Disponvel em: <http://www.searchenginewatch.com/>. Acesso em: 20 jun. 2001.
38 Yahoo News! Disponvel em:
<http://fullcoverage.yahoo.com/fc/Tech/Internet_Portals_and_Search_Engines/>. Acesso em: 20 jun.
2001.
39 Busca realizada no site da Amazon <http://www.amazon.com> em 06 jun. 2001, com a expresso search
engines.
36
13
O segundo diz respeito anatomia do mecanismo de busca. Neste conjunto esto
aqueles estudos que discutem o procedimento de coleta de informao e a forma como o
mecanismo de busca se estrutura.
Um terceiro agrupamento aquele relacionado ao treinamento de usurios.
Caracteriza-se por explanar como cada mecanismo de busca trabalha e a sintaxe utilizada.
Em geral no tece anlises conceituais, mas apresenta quadros comparativos e
caractersticas de cada mecanismo de busca.
Um conjunto de menor tamanho, mas de grande importncia, o que trata de
estudos relativos ao usurio, no que se refere ao seu comportamento ao utilizar os
mecanismos de busca.
Por fim, temos o grupo de estudos que trata de tendncias, ou seja, que prev as
inovaes que devem surgir e quais servios devem aparecer a partir das pesquisas
desenvolvidas.
1.1 Coleo
A coleo de um servio de informao diz respeito ao conjunto de recursos que a
integra, ou seja, sua cobertura e seu escopo. A cobertura o volume de recursos que o
sistema indexa e o escopo abrange os assuntos que o servio envolve. Nos mecanismos de
busca na Web tambm podemos discutir a coleo em termos de escopo e cobertura.
O ambiente Web composto de duas fraes: uma coleo de pginas acessveis
pblica e gratuitamente e uma coleo virtual de pginas abrigadas em bases de dados.
Chamamos de virtual porque essas pginas s existem a partir do momento que uma busca
feita diretamente na base de dados, gerando uma pgina que formada dinamicamente.
Esta parte da Web costuma ser chamada de Web invisvel ou Web profunda (deep
Web).
A discusso a respeito do tamanho da Web e, conseqentemente, da abrangncia
dos mecanismos de busca deve, portanto, considerar esses dois aspectos da informao
disponvel neste ambiente.
Os mecanismos de busca e as metaferramentas indexam a parte pblica da Web.
Uma das crticas a esses servios que as tecnologias que adotam no permitem o
aprofundamento e a incluso da parte invisvel da Web. Essa discusso apresentada por
14
uma extensa pesquisa40 da Bright Planet, publicada no Journal of the Electronic Publishing, que
quantifica o tamanho e a importncia da deep Web, caracterizando a qualidade e a
relevncia de seu contedo e discutindo meios para automatizar o processo de descoberta
dessas fontes de informao. A Figura 1, extrada deste estudo, mostra a viso que os
autores tm das dimenses dessas duas partes da Web.
40 BERGMAN, Michel K. The deep Web: surfacing hidden value. Journal of the Electronic Publishing.
v.7, n.1, Aug. 2001. Disponvel em: <http://www.press.umich.edu/jep/07-01/bergman.html>. Acesso em:
06 set. 2001.
15
NOTESS, Greg. Searching the hidden Internet. Database. June/July 1997, p.37-40.
LAWRENCE, Steve, GILES, Lee. Searching the World Wide Web. Science. v.280, n.5360, p.98-100,
1998. Disponvel em: <http://www.neci.nec.com/~lawrence/science98.html>. Acesso em: 12 jul. 2001.
43 Os autores afirmam que a web publicamente indexvel exclui pginas que tipicamente no so indexadas
pelos mecanismos de busca, como aquelas que exigem autorizao ou que est sob um formulrio.
41
42
16
Em um resumo deste trabalho, tambm publicado na Web, os autores chegam a
afirmar que o atual estado dos mecanismos de busca pode ser comparado a um catlogo
telefnico que atualizado irregularmente, e que tem a maior parte de suas pginas
arrancadas. 44
Um novo estudo45, com resultados ainda mais dramticos, foi publicado em 1999
no peridico Nature pelos mesmos autores. Nessa pesquisa sobre a acessibilidade de
informaes na Web, eles afirmam que nenhum mecanismo de busca indexa mais que 16%
do tamanho estimado de pginas acessveis publicamente. Afirmam, ainda, que 83% dos
sites contm contedo comercial e apenas 6% tm contedo cientfico ou educacional.
Lawrence & Giles destacam os efeitos econmicos, sociais, polticos e cientficos
que a indexao e o ordenamento dos mecanismos de busca podem causar: Por exemplo,
a indexao e o ordenamento de lojas on-line podem afetar substancialmente a viabilidade
econmica destes, o atraso na indexao de pesquisa cientfica pode levar duplicao de
esforos, e o atraso ou indexao tendenciosa pode afetar decises sociais ou polticas. 46
Os estudos de Lawrence & Giles, em especial aquele publicado na Nature, causaram
polmica, visto que havia uma falsa sensao de que os mecanismos de busca seriam a
grande soluo para o enorme volume de informao disponvel. Harris afirma que a
tendncia dos produtores de mecanismos de busca em melhorar a qualidade da
recuperao em detrimento da quantidade preocupante, e que a ambio de
simplesmente indexar uma percentagem randmica do conhecimento pior do que uma
declarao de erro: uma declarao de mediocridade planejada. 47
Sullivan48 tambm se preocupa com essa questo apontando para o problema de
que os servios de recuperao de informao esto concentrados na forma de melhorar a
preciso de seus resultados, e no no tamanho de seus ndices. Alm de citar a questo da
LAWRENCE, Steve, GILES, Lee. How big is the Web? How much of the web do the search engine
index? How up to date are the search engines?. Disponvel em:
<http://www.neci.nec.com/~lawrence/websize.html>. Acesso em: 16 jul. 2001.
45 LAWRENCE, Steve, GILES, Lee. Accessibility of information on the web. Nature. v.400, july 1999,
p.107-109.
46 LAWRENCE, Steve, GILES, Lee. Accessibility and distribution of information on the Web [resumo].
Disponvel em: <http://wwwmetrics.com>. Acesso em: 27 jul. 2000.
47 HARRIS, P.E. In search of the Rosetta Stone (search engine capabilities). Online and CD-ROM Review.
v.23, n.4, 1999, p.235-238.
48 SULLIVAN, D. Crawling under the hood. An update on search engine tecnology. Online, v.23, n.3,
may/june 1999, p.30-38.
44
17
Web invisvel, questiona que o uso do XML49 como linguagem de marcao no est sendo
adotado pelos mecanismos de busca, dificultando a troca de dados.
Em relao ao escopo dos mecanismos de busca, vrios artigos discutem a
organizao da informao nesses servios, ou seja, procuram classificar os mecanismos de
busca em categorias, de acordo com suas caractersticas.
Um dos primeiros trabalhos com esse objetivo o de Schwartz50, que apresenta um
amplo panorama de questes relacionadas aos mecanismos de busca, categorizando-os em
listas classificadas (diretrios) e ferramentas baseadas em perguntas (query-based engines).
Recentemente, Beatriz Cendn51, pesquisadora da Universidade Federal de Minas
Gerais, publicou no peridico Cincia da Informao um estudo que traz uma viso das
principais categorias de ferramentas de busca na Web, analisando suas semelhanas,
diferenas, caractersticas e as vantagens do uso de cada uma delas. O estudo tem um
importante papel de sistematizao dos servios, incluindo exemplos brasileiros, visto que
h pouca literatura sobre o tema em portugus.
Outra questo relacionada com o escopo da coleo diz respeito ao tipo de recurso
que indexa. Alm de pginas Web, alguns mecanismos de busca tambm indexam
mensagens postadas em grupos e listas de discusso, imagens, sons, etc.
H, tambm, ferramentas especficas para localizao de recursos de determinado
tipo como, por exemplo, para localizao de imagens. Bradley, publicou um artigo52 em sua
coluna no peridico Ariadne, sobre a localizao de imagens na Internet. Neste trabalho, o
autor apresenta a forma de localizar imagens em mecanismos de busca genricos e tambm
servios especficos para a busca de arquivos de imagens.
49 XML (Extensible Markup Language) uma especificao de linguagem para desenvolvimento de pginas
Web, desenvolvida com o objetivo de permitir a descrio de dados (contedo). Permite ao desenvolvedor
criar suas prprias etiquetas (tags), permitindo a definio, transmisso, validao e interpretao de dados
entre aplicaes e organizaes.
50 SCHWARTZ, Candy. Web Search Engines. Journal of the American Society for Information Science.
v.49, n.11, p.973-982, Sep. 1998.
51 CENDN, Beatriz Valadares. Ferramentas de busca na Web. Cincia da Informao. V.30, n.1, p.39-49,
jan./abr. 2001. Disponvel em: <http://www.ibict.br/cionline/300101/30010106.htm>. Acesso em: 15 jul.
2001.
52 BRADLEY, Phil. Finding images on the Internet. Ariadne. v.25, Sep. 2000. Disponvel em:
<http://www.ariadne.ac.uk/issue25/search-engines/>. Acesso em: 21 fev. 2001.
18
O mesmo autor, Bradley53 publicou um trabalho sobre o uso dos mecanismos de
busca para a localizao de pessoas na Web. Ele aborda a utilizao dos mecanismos gerais
de busca, como Altavista, HotBot e outros, como tambm as ferramentas especficas para
localizar pessoas, como o People Finder.
Assim, observamos que a coleo contida em um mecanismo de busca se organiza
de acordo com a necessidade do usurio de obter informaes. Cada mecanismo busca
incorporar tecnologias para melhorar a sua capacidade de recuperao e o atendimento ao
usurio. Essas caractersticas de cada mecanismo sero discutidas no prximo item, que
trata dos estudos relacionados anatomia dos sistemas.
1.2 Anatomia
O segundo tipo de estudos envolve a anatomia, ou seja, diz respeito a estudos que
procuram explicar o funcionamento de determinado mecanismo de busca, detalhando suas
caractersticas individuais.
Conforme definio54 citada anteriormente, um mecanismo de busca tem em sua
estrutura trs subsistemas distintos, que se relacionam entre si:
subsistema de aquisio/coleta de documentos
subsistema indexador dos documentos
subsistema de ordenao dos resultados.
O subsistema de aquisio/coleta de documentos est relacionado com a forma
com a qual o mecanismo de busca obtm pginas para sua base de dados.
O subsistema indexador diz respeito forma como o mecanismo de busca
armazena as informaes que coleta, seja atravs da indexao em texto completo ou de
representaes das pginas (metadados).
O subsistema de ordenao de resultados est relacionado com o algoritmo
proprietrio de cada mecanismo de busca e que, em geral, o maior diferencial entre os
servios.
BRADLEY, Phil. Search Engines. Ariadne. v.20, June 1999. Disponvel em:
<http://www.ariadne.ac.uk/issue20/searchengines>. Acesso em: 21 fev. 2001.
54 Definio da Webopedia, apresentada na introduo deste trabalho.
53
19
Assim, os estudos de anatomia de um mecanismo de busca concentram-se na
caracterizao e discusso desses trs subsistemas do servio de recuperao de informao
na Web. Estas questes esto relacionadas diretamente com a tipologia do mecanismo de
busca, ou seja, se um diretrio, um motor de busca ou uma metaferramenta.
Este trabalho est focado nos mecanismos de busca do tipo motor, onde a coleta
de dados , por definio, executada principalmente atravs de robs que seguem links em
pginas Web, no interferindo, portanto, as questes referentes ao subsistema de
aquisio/coleta de documentos. Por essa razo, a discusso toma como referncia apenas
os dois outros subsistemas (Quadro 1).
Quadro 1 Linhas de pesquisa relacionadas aos subsistemas dos mecanismos de busca do tipo rob.
Estrutura de metadados
SUBSISTEMA
INDEXADOR
GILS
Dublin Core
.
.
.
Estatstica
Semntica
Sinonmia
Generalizao
Especializao
Indexao automtica
ANATOMIA
SUBSISTEMA DE
ORDENAO
DE RESULTADOS
21
Dublin Core uma iniciativa da OCLC (Online Computer Library Center), iniciada em 1995, para a criao de
um conjunto-padro de elementos (metadados) para descrio do contedo de um documento. Para mais
informaes, consultar <http://dublincore.org/>
56 GILS (Governmment Information Locator Service) um padro de metadados estabelecido pelo Governo Federal
Norte-Americano adotado pelos rgos governamentais deste pas e tambm por outros pases. Para mais
informaes, consultar <http://www.gils.net/>
57 VAZ, Rodolfo Cezar Ranulfo. Metodologia de avaliao de mecanismos de recuperao da
informao na rede WWW da Internet. 2000. 165p. Dissertao (Mestrado em Cincia da Informao)
Faculdade de Estudos Sociais Aplicados, Departamento de Cincia da Informao e Documentao,
Universidade de Braslia. Braslia.
55
22
Subsistema de ordenao de resultados
Por fim, temos o subsistema de ordenao de resultados que, conforme dito
anteriormente, est relacionado com o algoritmo proprietrio de cada mecanismo de busca.
Esse algoritmo de ordenao tem uma relao direta com os critrios de relevncia que o
sistema de recuperao de informao atribui aos documentos.
De uma forma mais simples, os servios de recuperao de informao podem
medir a relevncia pela freqncia, localizao, peso e proximidade dos termos pesquisados
no documento.
No entanto, no ambiente da Web, uma nova possibilidade surge: a utilizao da
estrutura hipertextual de links entre pginas como referncia para medida da importncia
das pginas.
Quando surgiu o Google, um dos primeiros mecanismos que utiliza esta tecnologia,
vrios trabalhos foram publicados sobre essa novidade. Esse servio inovou ao fazer uma
abordagem similar a da comunidade cientfica, classificando uma determinada pgina pelo
nmero e importncia de outras pginas que oferecem link para ela. Page & Brin58,
criadores da tecnologia e estudantes de Cincia da Computao da Stanford University,
publicaram um trabalho explanando sobre o algoritmo utilizado no Google.
multidisciplinaridade que envolve a rea de mecanismos de busca pode ser observada por
outros artigos sobre essa mesma ferramenta. Duas revistas de negcios, Fortune59 e
Forbes60, e um jornal (Washington Post61) publicaram artigos e entrevistas sobre o Google.
Kirkpatrick, na Fortune, comenta que o sucesso deste mecanismo de busca demonstra que
a tecnologia, e no apenas o marketing, pode redirecionar a Web.
A utilizao dos hiperlinks como recurso para ordenao dos resultados tambm
o objeto de estudo do Clever Project, da IBM. Em junho de 1999, um trabalho62 sobre esse
tema foi publicado na Scientific American. Os autores descrevem um novo tipo de
BRIN, Sergey, PAGE, Lawrence. The anatomy of a large-scale hypertextual web search engine. Disponvel
em: <http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm>. Acesso em: 31 jan. 2001.
59 KIRKPATRICK, D. Whats a Google? A great search engine, thats what. Fortune. 8 Nov. 1999, p. 139.
60 MALIK, Om. How Google is that? Forbes Magazine. Disponvel em:
<http://www.forbes.com/tool/html/99/oct/1004/feat.htm>. Acesso em: 14 ago. 2000.
61 WALKER, Leslie. COM-LIVE (The Washington Post interview with Sergey Brin, founder and CEO of
Google. Disponvel em: <http://www.washingtonpost.com/wpsrv/liveonline/business/walker/walker110499.htm> Acesso em: 14 ago. 2000.
62 CLEVER PROJECT. Hypersearching the Web. Scientific American. Disponvel em:
<http://www.sciam.com/1999/0699issue/0699raghavan.html>. Acesso em: 07 jun. 1999.
58
23
mecanismo de busca que explora o recurso mais valioso da Web: os tantos hiperlinks que
possui. Analisando essas interconexes, o sistema desenvolvido pelos pesquisadores
identificou dois tipos de pginas: autoridades (authorities) e centros (hubs). As primeiras so
aquelas consideradas como os melhores recursos de informao sobre determinado assunto
e as segundas so as colees de links para as primeiras.
Essa abordagem a mesma do Google, e ambos os sistemas utilizam
implicitamente o ser humano, pois, quando algum faz um link para alguma pgina, est
validando de alguma forma aquele contedo. A diferena bsica entre os dois sistemas
explicada no artigo da Scientific American:
Google e Clever tm duas principais diferenas. A primeira que o
Google determina a ordenao inicial e a mantm independentemente de
qualquer pesquisa, enquanto que o Clever rene um conjunto raiz
diferente para cada termo pesquisado e ento prioriza aquelas pginas no
contexto daquela pergunta em particular. Conseqentemente, a
abordagem do Google gera uma resposta mais rpida. A segunda
diferena que a filosofia bsica do Google olhar apenas na direo em
frente, link por link. Em contraste, Clever tambm olha para trs da
pgina considerada autoridade, para ver que sites esto apontando para
ela. Neste sentido, Clever leva vantagem do fenmeno sociolgico que
humanos so naturalmente motivados para criar contedos como
ncleos expressando sua expertise em determinado assunto. 63
No entanto, conforme Donahue64 pontua, embora Google e Clever sejam os
primeiros mecanismos de busca projetados especificamente em torno da anlise de links,
esta tecnologia no nova. Segundo esse autor, Excite e Infoseek tambm incluem de
alguma forma a anlise de links, embora esta seja apenas uma parte do sistema de
ordenamento desses servios, que ainda classifica os resultados primeiramente baseados na
interveno humana e na freqncia e localizao das palavras na pgina.
Os estudos sobre anatomia usualmente so publicados quando surge um
mecanismo que utiliza uma nova tecnologia para o oferecimento de seu servio. Essa
tecnologia pode envolver tanto o subsistema de aquisio como o de indexao, ou o de
ordenao, mas muitas vezes se observa que a discusso engloba vrios aspectos.
24
Este o caso do trabalho de Ward65, que trata do Northern Light. A tecnologia que
esse mecanismo de busca adota envolve a indexao automtica (subsistema de indexao),
colocando os resultados em pastas de assuntos (subsistema de ordenao). O Northern Light
um servio baseado na Web que pesquisa em uma base de dados composta por pginas e
por documentos em texto completo provenientes de milhares de fornecedores. Estes dois
blocos podem ser pesquisados conjunta ou separadamente, com os resultados sendo
ordenados e agrupados em pastas (folders). Todos os documentos so classificados por um
vocabulrio controlado de aproximadamente 25 mil cabealhos de assunto. Alm disso, os
documentos so classificados pela sua tipologia (reviso, lista, artigo, etc.) e fonte (Web site,
publicao em peridico, etc.). O gerenciamento dos ndices e metadados discutido no
artigo de Ward.
A diversidade dos tipos de mecanismos de busca existentes aumenta ainda mais a
dificuldade do usurio em escolher a melhor ferramenta para atender a sua necessidade de
informao. Estudos relacionados ao treinamento de usurios so uma rea importante de
pesquisas e sero apresentados a seguir.
WARD, J. Indexing and classification at Northern Light. NFAIS newsletter. v.41, n.10, oct 1999, p.138140.
66 RANDALL, Neil. The search engine that could. PC Computing Online. September, 1995. Disponvel
em: <http://www.zdnet.com/pccomp/features/internet/search/index.html>. Acesso em: 08 jun. 2001.
65
25
O trabalho de Hock67, publicado em 1999, representa bem esse tipo de estudo. Ele
apresenta um quadro com os principais comandos que podem ser utilizados em sete
mecanismos de busca: AltaVista, Excite, HotBot, InfoSeek, Lycos, Northern Light e WebCrawler.
Como o prprio autor pontua, os mecanismos de busca esto em constante mudana,
sendo necessrio revisit-los periodicamente para se manter atualizado sobre suas
funcionalidades.
O principal problema dos artigos publicados sobre as caractersticas dos
mecanismos de busca a rpida e constante evoluo dos servios de recuperao de
informao na Web. Isto faz com que os artigos percam rapidamente sua utilidade por
tornarem-se desatualizados. Para suprir esta necessidade, pesquisadores da rea de
recuperao de informao na Web criaram sites, continuamente atualizados, que
apresentam quadros de comandos e caractersticas dos mecanismos de busca. Esses sites
costumam oferecer informaes sobre novos servios que esto sendo lanados e possuem
uma rea dedicada aos artigos publicados sobre mecanismos de busca.
Mickey68 tambm partilha essa opinio e sugere um trio de fontes de informao
sobre ferramentas de busca, indicando o uso do Search Engine Showdown69, do Search Engine
Watch70 e do site da Mining Company71. Segundo este autor, como os detalhes dos algoritmos
de ordenao dos mecanismos de busca e outras caractersticas no so explicitados pelos
servios, a consulta s fontes indicadas uma boa maneira de melhorar a qualidade das
buscas efetuadas por qualquer usurio.
Cabe destacar a amplitude do Search Engine Showdown, cujo editor Greg Notess,
bibliotecrio de referncia da Montana State University, EUA. Este site apresenta resenhas
atualizadas sobre cada um dos principais mecanismos de busca, quadros comparativos de
caractersticas de busca, estatsticas de tamanho, sobreposio, alm de uma extensa e
constantemente atualizada bibliografia de artigos sobre recuperao de informao na Web.
HOCK, R. Websearch engines: features and commands. Online. v.23, n.3, may/june 1999, p.24-28.
MICKEY, W. A web search trifecta (sources of search engine information). Online. v.23, n.3, may/june
1999, p.79-82
69 Search Engine Show Down. Disponvel em: <http://searchengineshowdown.com>. Acesso em: 20 jun.
2001.
70 Search Engine Watch. Disponvel em: <http://www.searchenginewatch.com/>. Acesso em: 20 jun. 2001.
71 Mining Company. Disponvel em: <http://websearch.miningco.com>. Acesso em: 20 jun. 2001.
67
68
26
O artigo de Cendn72 - citado anteriormente na seo que discute os estudos sobre
a coleo dos mecanismos de busca - pode ser considerado tambm um estudo relativo ao
treinamento de usurios. Embora no apresente quadros de caractersticas dos
mecanismos, tem um forte aspecto didtico principalmente considerando a escassez de
publicaes sobre o tema em portugus.
interessante observar que vrios trabalhos publicados no Brasil esto
concentrados neste tipo de estudo: explicaes sobre o uso dos mecanismos de busca e
como utiliz-los. Bueno e Vidotti73 apresentaram no XI Seminrio Nacional de Bibliotecas
Universitrias (SNBU) uma comunicao onde explanam para qu, por qu e como utilizar
as ferramentas de busca na Internet. Neste trabalho apresentam as caractersticas dos
mecanismos de busca, classificando-as em catlogos, ndices e metapesquisadores, e
simulam uma pesquisa, comparando os resultados obtidos com a adoo de diferentes
estratgias.
27
servidores de vrias organizaes acadmicas, visando identificar quais os mecanismos de
busca eram mais utilizados pelos pesquisadores ingleses. O segundo conjunto de
informaes foi obtido atravs de questionrio disponvel na Web, onde foram coletadas
informaes sobre comportamento de usurios, preferncias e satisfao ou no com o
atual servio dos mecanismos de busca. Esta pesquisa teve como objetivo identificar se um
mecanismo de busca baseado no Reino Unido poderia aliviar o congestionamento da
largura de banda internacional.
Alguns autores tratam da questo da experincia do usurio no uso de
computadores, da Internet ou especificamente dos mecanismos de busca. Este o caso do
estudo de Lazonder, Biemans & Wopereis76, que analisa o comportamento de usurios em
duas fases: a localizao de um site relevante para sua necessidade de informao e,
subseqentemente, de recuperao da informao requerida naquele site. Os resultados
indicam que usurios com experincia na Web so mais eficientes em localizar Web sites
que usurios novatos. A diferena observada foi relacionada maior habilidade em operar
mecanismos de busca na Web. No entanto, nas tarefas onde foi requerido que os usurios
localizassem informao em um site especfico, a performance de usurios novatos e
experientes foi equivalente. Este resultado est de acordo com as pesquisas sobre
hipertexto. Os autores concluem que o treinamento de usurios deve se concentrar nos
aspectos relativos localizao de sites, ou seja, em mecanismos de busca, e no apenas nas
questes relativas navegao em ambiente hipertextual.
Um estudo muito interessante e criativo sobre o comportamento de usurios na
coleta de informaes na Rede foi publicado no Caderno Mais da Folha de So Paulo77. O
artigo, traduzido do peridico New Scientist, trata de uma pesquisa desenvolvida no Centro
de Pesquisas da Xerox, em Palo Alto, Califrnia. Os pesquisadores Pirolli e Card esto
estudando teorias de ecologia e antropologia para compreender como as pessoas
encontram informaes em ambientes ricos em dados, como a Internet. Esse trabalho
baseia-se na teoria do comportamento de caa e coleta (foraging theory), desenvolvida por
bilogos na dcada de 70, e que parece se adequar caa de informao na Internet. Os
autores fizeram experimentos com grupos de pessoas que desempenham funes que
exigem o uso intensivo de dados e observaram uma correlao entre a estratgia de busca
76 LAZONDER, Ard W., BIEMANS, Harm, J.A., WOPEREIS, Iwan G.J.H. Differences between novice
and experienced users in searching information on the World Wide Web. Journal of American Society for
Information Science. v.51, n.6, April 2000, p.576-581.
77 CHALMERS, Rachel. caa de informao. Caderno Mais. Folha de So Paulo. 26 nov. 2000.
28
adotada por esses caadores de informao e o comportamento que se poderia esperar
de animais em busca de alimentos. Visando comprovar empiricamente esses resultados,
desenvolveram e testaram um modelo matemtico baseado nesta teoria e o colocaram para
trabalhar buscando informaes em um extenso banco de dados textual. O experimento
comprovou a aplicabilidade do modelo e os pesquisadores concluem que os usurios da
Internet utilizam habilidades de resoluo de problemas que tem razes evolutivas
profundas:
Caar informaes na rede traz recompensas anlogas s dos caadorescoletores. Contextos diferentes, mas problemas de custo-benefcio
semelhantes.78
O conhecimento do comportamento de usurios na busca de informao pode ser
o caminho para o desenvolvimento de novas tecnologias em servios de recuperao.
O ltimo tipo de estudos sobre mecanismos de busca envolve, de certa forma, as
novas tecnologias a serem desenvolvidas. So os estudos que discutem as tendncias em
mecanismos de busca.
1.5 Tendncias
Os artigos que tratam de tendncias costumam apresentar um panorama das
pesquisas em desenvolvimento e apontam alguns servios que utilizam tecnologias
inovadoras que, segundo a percepo dos autores, devem ser seguidas por outras empresas.
Cornella79 apresenta um interessante artigo sobre aplicaes que esto sendo
desenvolvidas para facilitar o uso e melhorar a potncia dos mecanismos de busca. O
autor destaca algumas das aplicaes que visam aumentar a facilidade de uso dos
mecanismos de busca. A primeira delas o uso da busca em linguagem natural, j utilizado
em alguns servios como o AltaVista e o ElectricMonk. Outra aplicao seria a extenso
semntica, ou seja, o sistema estender a busca para sinnimos dos termos digitados na caixa
de busca. Essa aplicao chamada de modelo semntico ou conceitual e utilizada pelo
Excite. A terceira aplicao destacada pelo autor a traduo de frases freqentes, como o
AskJeeves faz. Ou seja, o mecanismo interpreta semanticamente a pergunta feita pelo
usurio e a compara com uma base de dados de perguntas j preparadas.
79
29
Um artigo publicado no peridico Nature80, em maio de 2000, apresenta tendncias
no desenvolvimento de mecanismos de busca que prometem facilitar o trabalho de
pesquisadores que buscam informao na Web. So discutidas vrias pesquisas onde o
enfoque na recuperao de informao cientfica, e o autor afirma que esta no a
principal corrente de pesquisas em mecanismos de busca. Uma das tendncias para a
soluo do problema de recuperar informao cientfica, segundo Butler, a
portalizao, ou seja, a criao de portais especializados em temas. Ele afirma:
Especialistas predizem que dentro de cinco anos, pesquisar a Web
inteira por palavras-chave ser uma coisa do passado. Nossas pesquisas
personalizadas sero encontradas em portais de busca dedicados
cincia. Essas webs dentro da Web concentraro a maioria dos recursos
que voc necessita dentro de um ambiente facilmente navegvel. 81
O artigo coloca tambm como tendncia a criao de programas inteligentes que
faro as pesquisas a partir da anlise da necessidade e interesse de seus usurios. Assim, no
futuro, haver servios baseados na anlise dos resultados de busca selecionados
anteriormente em relao a esta ou aquela pesquisa e ao tempo que o usurio ficou em uma
pgina particular, gerando ciclos automticos de retroalimentao.
Com este panorama da importncia dos estudos relacionados aos mecanismos de
busca na Web, nos voltamos para a segunda questo levantada por Rijsbergen82: o que
avaliar.
Este o assunto da prxima seo, onde utilizamos teorias desenvolvidas por
autores clssicos da Cincia da Informao como referencial para o levantamento de
critrios de avaliao de performance em mecanismos de busca.
BUTLER, Declan. Souped-up-search engines. Nature, 40512, 1-115 May 2000. Disponvel em:
<http://www-tecno.inti.gov.ar/opinion01.htm>. Acesso em: 22 ago. 2000.
81 BUTLER, Declan. Souped-up-search engines. Nature, 40512, 1-115 May 2000. Disponvel em:
<http://www-tecno.inti.gov.ar/opinion01.htm>. Acesso em: 22 ago. 2000.
82 RIJSBERGEN, C.J. van. Information retrieval. Woburn: Butterworth & Co Ltda, 1979. 208 p. Disponvel
em: <http://www.dcs.gla.ac.uk/Keith/Preface.html>. Acesso em: 21 jun. 2001.
80
30
LANCASTER, F.W. Information Retrieval System: characteristics, testing and evaluation. USA: John
Wiley & Sons, 1979. 318p.
84 LANCASTER, F.W., FAYEN, E.G. Information Retrieval On-Line. Los Angeles, CA: Melville
Publishing Co. 1973.
83
31
usurios acessem simultaneamente o sistema. Esta operao oferece a cada usurio, em seu
terminal especfico, a iluso de que o nico a estar acessando o sistema.
As caractersticas relacionadas acima mostram que os mecanismos de busca podem
ser considerados sistemas de recuperao de informao on-line, e o modelo proposto por
Lancaster & Fayen serve como importante subsdio para o estudo da performance dos
mecanismos de busca de informao na Web.
Esses autores, clssicos na Cincia da Informao, oferecem importante
contribuio, mas sua discusso baseia-se em sistemas de recuperao de informao
fechados, em ambientes que permitem o controle do que est sendo introduzido no
sistema. Outra diferena importante a ser observada que nos sistemas de recuperao
tradicionais havia um mediador entre o servio e o usurio, ou seja, um profissional que
interpretava a necessidade de informao do usurio e traduzia para uma sintaxe de busca
adequada ao sistema.
A popularizao do acesso informao, possibilitada pela Web, expe os servios
de recuperao de informao diretamente ao usurio. Estes servios devem, portanto,
oferecer condies para que o usurio execute sua busca de forma eficaz.
Com o intuito de aumentar a abrangncia deste trabalho, procuramos incorporar
novas questes que considerem essas diferenas entre os sistemas tradicionais de
recuperao de informao e os sistemas de busca disponibilizados para o grande pblico
da Web. Para isso, utilizamos a sistematizao das caractersticas de busca dos sistemas de
recuperao de informao oferecida por Hahn85, em um artigo recente.
Ressaltamos que a discusso se baseia tambm em nossa experincia anterior no
trabalho com os dois ambientes de recuperao de informao: primeiramente nos sistemas
fechados de recuperao de informao, particularmente o banco de dados Dialog e,
posteriormente, no trabalho desenvolvido na busca de informao na Web, atravs dos
mecanismos de busca, visando o desenvolvimento de bibliotecas virtuais no Programa
Prossiga.
85 HAHN, Trudi Bellardo. Text Retrieval Online: historical perspective on Web Search Engines. Bulletin
ASIS. V.24, n.4, April/May, 1998. Disponvel em: <http://www.asis.org/Bulletin/Apr-98/hahn.html>.
Acesso em: 22 jun. 2001.
32
importante destacar que esses parmetros de avaliao so desenvolvidos visando
a sua aplicao em mecanismos de busca do tipo motor, ou seja, cuja base de dados
formada a partir de robs que vasculham a Web.
86
87
33
expressa como a taxa entre o nmero de documentos relevantes recuperados e o nmero
total de documentos recuperados. Para a medida da preciso, portanto, necessrio avaliar
a relevncia dos documentos recuperados. A relevncia est diretamente relacionada com a
importncia ou utilidade do documento obtido para a satisfao da necessidade do usurio.
Em sistemas de recuperao de informao, a revocao e a preciso so medidas
que costumam ser analisadas em conjunto, pois trabalham em uma ordem inversa. Para
melhorar a preciso necessrio uma busca mais rigorosa, o que provoca uma diminuio
da revocao. importante ressaltar que, de acordo com a necessidade do usurio, o
melhor desempenho obtido com uma alta taxa de preciso ou um alto ndice de
revocao.
Quando se necessita de toda a informao disponvel sobre determinado assunto,
no caso de um pesquisador que vai escrever um artigo de reviso, necessrio uma alta
taxa de revocao. Por outro lado, uma taxa alta de preciso solicitada quando, por
exemplo, um usurio precisa de alguma informao sobre determinado tpico. Este usurio
no necessita de uma busca exaustiva, mas sim de bons documentos que tratem
especificamente daquele assunto. Lancaster & Fayen afirmam que os sistemas de
recuperao on-line atraem usurios como estes ltimos, que precisam de poucas
referncias relevantes, mas necessitam delas rapidamente.
Assim, entendemos que a preciso um parmetro que deve ser adotado para a
avaliao de mecanismos de busca. Sua aplicao ser discutida posteriormente,
considerando as especificidades do ambiente da Web.
Tratando do terceiro parmetro, a cobertura, presume-se que esta seria a solicitao
mais importante de usurios: que o servio oferea todo o volume de informaes
disponveis sobre determinado assunto. Porm, de acordo com a necessidade do usurio de
alta preciso ou alta revocao, como exposto anteriormente, a cobertura deixa de ser um
item to significativo.
No caso da informao disponibilizada na Web, a questo da cobertura
amplamente discutida, principalmente pela dificuldade de se medir o volume de pginas
existentes nesse ambiente. As estatsticas a esse respeito so bastante contraditrias e a
discusso sobre o tamanho da base de dados das ferramentas de busca causa polmica,
visto que os dados existentes so aqueles fornecidos pelos proprietrios dos mecanismos
de busca. Esse parmetro tambm ser adotado e, posteriormente, melhor discutido.
34
O critrio relativo ao esforo do usurio discutido por Lancaster & Fayen
principalmente sob o aspecto do treinamento do usurio. Tambm abordada a
importncia do projeto do sistema de informao, de forma a corrigir erros comuns de
usurios. Ampliamos a discusso deste tpico para quais requisitos que um sistema de
recuperao de informao na Web pode oferecer para facilitar o usurio.
O quinto critrio, formato de sada, importante porque afeta a tolerncia do
usurio do sistema em relao preciso. O indivduo aceita uma preciso menor se o
produto entregue estiver num formato que facilite um rpido rastreamento e permita
facilmente o descarte dos itens irrelevantes. Quanto mais informao dada para o usurio
sobre a representao do documento, mais fcil para ele fazer uma predio de relevncia
acurada. Este critrio ser adotado como parmetro, e variveis relativas ao ambiente da
Web sero integradas na discusso.
O ltimo critrio proposto por Cleverdon e incorporado no modelo de Lancaster
& Fayen, tempo de resposta, um fator decisivo em sistemas de recuperao de
informao manuais, visto que todos os usurios tm uma data limite aps a qual aquela
informao no tem mais valor. Nos sistemas on-line esse parmetro minimizado, pois o
tempo de resposta pequeno e o resultado apresentado diretamente ao usurio.
Nos mecanismos de busca na Web o tempo de resposta mais difcil de ser
mensurvel, devido a um fator inerente ao ambiente: a velocidade de acesso da Internet. O
mesmo mecanismo de busca, dependendo da hora da consulta, da localizao do usurio
em relao ao servidor, da conexo do usurio, ou de outros tantos fatores, pode
apresentar resultados diversos, no sendo esta medida um parmetro rigoroso para medir
sua performance.
No entanto, um importante diferencial que um mecanismo de busca pode oferecer
ao usurio uma mensagem informando que a consulta ao sistema est sendo efetuada, o
que tranqiliza o usurio quanto ao bom funcionamento do sistema. Alguns servios na
Web no oferecem essa informao, dando a impresso de que a conexo que est lenta,
quando, na verdade, o tempo gasto o da consulta sendo executada.
Lancaster & Fayen incorporam ainda mais um parmetro a essa lista, a taxa de
novidade, que mede a proporo de novos documentos relevantes recuperados para o
requisitante. Os autores destacam que, com essa medio, um sistema on-line pode ser
usado em uma base regular como uma ferramenta de atualizao de conhecimento. A taxa
35
de novidade tambm uma medida vlida e til de um aspecto da eficincia do sistema: o
tempo entre a publicao da literatura e seu aparecimento na base de dados. A taxa de
novidade de extrema importncia nos mecanismos de busca na Web, porm, entendemos
que esta medida melhor denominada de atualidade.
Devemos alertar que a avaliao de um sistema de recuperao de informao
permeada de uma certa subjetividade, fundamentada principalmente pela questo da
relevncia. Apesar das palavras relevante ou relevncia j terem sido incorporadas na
discusso que empreendemos sobre preciso e revocao, ainda no as definimos. De fato,
a ausncia de definio se deve a no incorporao deste conceito por Lancaster.
Coube a Saracevic89, em 1975, empreender uma extensa discusso sobre relevncia.
Neste trabalho, clssico na rea de recuperao de informao, o autor demonstra que as
vrias definies existentes na literatura resumem-se a um padro geral:
Relevncia o(a) A de um(a) B entre um(a) C e um(a) D conforme determinado por um(a) E.
Onde cada incgnita pode ser preenchida pelos termos mostrados no Quadro 2.
A
medida
grau
dimenso
estimativa
avaliao
relao
B
correspondncia
utilidade
conexo
satisfao
ajuste
cruzamento
documento
artigo
forma textual
referncia
informao
oferecida
fato
Quadro 2 Termos para a definio de relevncia.
D
pergunta
requisio
necessidade do
usurio
ponto de vista
E
pessoa
julgador
usurio
solicitante
especialista de
informao
SARACEVIC, Tefko. Relevance: a review of and a framework for the thinking on the notion in
Information Science. Journal of the American Society for Information Science. v.26, n.6, p.321-343,
1975.
89
36
Cobertura
Esforo do usurio
Formato de sada
Atualidade
90 HAHN, Trudi Bellardo. Text Retrieval Online: historical perspective on Web Search Engines. Bulletin
ASIS. V.24, n.4, April/May, 1998. Disponvel em: <http://www.asis.org/Bulletin/Apr-98/hahn.html>.
Acesso em: 22 jun. 2001.
37
extremamente dinmicas e a funo desta seo oferecer subsdio para a caracterizao de
parmetros que possam ser avaliados nos estudos comparados91.
Para um panorama atualizado das caractersticas dos principais mecanismos de busca sugerimos a consulta
ao site Search Engine Showdown <http://searchengineshowdown.com>, que apresenta quadros e revises do
estado-da-arte dos servios disponveis na Web.
92 Devo a Prof. Hagar Espanha Gomes esta observao.
91
38
Operadores booleanos
3.3.1.2.
3.3.1.3.
Linguagem natural
3.3.1.4.
Atravs de vocabulrio
Truncagem
3.3.2.2.
3.3.2.3.
3.3.2.4.
3.3.2.5.
3.3.2.6.
4. Formato de sada
4.1. Critrio de ordenao
4.2. Formato de exibio
5. Atualidade
39
2.2.1 PRECISO
Conforme definido anteriormente, a preciso de um sistema a relao entre o
nmero de documentos relevantes recuperados e o nmero total de documentos
recuperados. Duas questes se colocam para a medida da relevncia dos resultados de um
mecanismo de busca na Web: o conceito de relevncia e a definio do nmero total de
documentos recuperados.
A relevncia um conceito relativo: algumas informaes so mais relevantes que
outras, outras no so relevantes e outras tm o potencial para tornarem-se relevantes. E
cada indivduo tem uma noo de relevncia que varia de acordo com o seu conhecimento
prvio do assunto e de seu ponto de vista. Na Cincia da Informao, a relevncia
considerada como a medida da efetividade do contato entre a fonte e o destino em um
processo de comunicao93.
Assim, considerando a diversidade de indivduos e de temas envolvidos na Web, a
medida da relevncia fica ainda mais subjetiva. No entanto, alguns parmetros podem ser
considerados para analisar a relevncia dos resultados de um mecanismo de busca na Web.
Um deles a validade do link, ou seja, que a pgina oferecida como resultado esteja
acessvel. Se o link est inativo obviamente irrelevante, pois no traz nenhuma
informao ao usurio. No outro extremo, um site que traga indicao de vrias pginas
sobre o assunto pesquisado uma fonte de informao potencialmente relevante.
A outra questo envolvida na avaliao da preciso de um servio de informao na
Web a medida do nmero total de documentos encontrados. Muitos mecanismos de
busca no informam esse nmero, o que dificulta a medida. E, mesmo quando
informado, em geral um nmero muito grande para que se possa analisar a re;evncia da
totalidade dos resultados.
Como os mecanismos de busca utilizam algoritmos que ordenam os resultados a
partir de um critrio prprio de relevncia, a avaliao da relevncia de um subconjunto
obtido pelos primeiros resultados exibidos pode oferecer uma boa amostragem da preciso
do servio.
SARACEVIC, Tefko. Relevance: a review of and a framework for the thinking on the notion in
Information Science. Journal of the American Society for Information Science. v.26, n.6, p.321-343,
1975.
93
40
2.2.2 - COBERTURA
A avaliao da cobertura deve ser feita considerando dois aspectos: abrangncia e
escopo.
A abrangncia diz respeito ao volume de informaes que o mecanismo de busca
indexa, proporcionalmente ao tamanho da Web. Esta uma medida difcil de ser avaliada,
visto que as estatsticas refletem informaes oferecidas pelos prprios mecanismos de
busca e porque o tamanho da Web tambm imensurvel.
Em relao ao escopo, deve-se avaliar que tipo e que formato de recursos o
mecanismo de busca inclui. Alguns servios indexam, alm de pginas html, documentos
em arquivos formatados (PDF, por exemplo), imagens, mensagens de grupos ou listas de
discusso.
importante avaliar se o mecanismo de busca indexa o texto completo das pginas
e quais os metadados que so armazenados em seu banco de dados. Em geral, so
registrados a data do documento e o tamanho em bytes, h servios que incluem o idioma
das pginas.
41
42
para determinar a proximidade entre os termos, de linguagem natural e da identificao dos
termos em um vocabulrio disponvel para o usurio.
2.2.3.3.1.1 Operadores booleanos
A forma mais usual de relacionamento entre termos feita atravs do uso de
operadores booleanos (e, ou, no). Esta uma caracterstica presente em quase todos os
mecanismos de busca, geralmente sob o rtulo de busca avanada. Um problema
comum que s vezes o relacionamento automtico ou implcito, e nem sempre fcil
para o usurio identificar o operador booleano que considerado quando digita apenas os
termos, sem utilizar os conectores, ou seja, a operao default.
2.2.3.3.1.2 Proximidade entre termos
Outra forma de relacionamento atravs da proximidade entre termos. Em
sistemas de recuperao tradicionais comum a existncia do operador NEAR, ou de
operaes lgicas que permitam especificar a distncia mxima permitida entre dois termos
de busca dentro de um registro. Esta funo considera a hiptese de que quanto mais perto
dois termos estejam dentro de um nico texto, maior a probabilidade de estarem
relacionados ao mesmo conceito. Nos mecanismos de busca na Web no comum o uso
do operador NEAR, no entanto, a busca restrita para uma expresso, quando disponvel,
costuma ser feita atravs do uso de aspas.
2.2.3.3.1.3 Linguagem natural
Outra opo para o relacionamento entre os termos o uso da linguagem natural,
caracterstica que permite ao usurio fazer sua pergunta diretamente, descrevendo a
informao que deseja encontrar. Essa uma possibilidade que alguns mecanismos de
busca comeam a utilizar, sendo apontada por alguns autores94 como uma das tendncias
para facilitar o trabalho dos usurios.
2.2.3.3.1.4 Atravs de vocabulrio
A navegao por um vocabulrio de termos permite ao usurio escolher em uma
lista os termos para sua busca, comeando at pela raiz da palavra. A adoo de tesauro ou
conceitos hierrquicos facilita ao usurio definir a relao entre os termos, visando uma
94 CORNELLA, Alfons. O avano das ferramentas de busca. Infonomia. Disponvel em:
<http://www.intexnet.com.br/polors/revista/infonomia/20.htm>. Acesso em: 12 ago. 1999.
43
recuperao mais precisa. Este um recurso pouco comum entre os mecanismos de busca,
mas de grande utilidade, pois facilita o controle dos termos de busca.
44
mecanismos de busca na Web em geral a recuperao feita no texto completo, sem
campos pr-determinados. No entanto, em documentos html, pode-se fazer a busca em
outros elementos disponveis neste formato, por exemplo o ttulo das pginas, como se
fossem campos especficos. Mas importante considerar que os autores das pginas Web
nem sempre utilizam ttulos relacionados ao contedo das pginas. Outros campos que
podem ser pesquisados nos mecanismos de busca so a data e o idioma do documento, o
servidor onde a pgina se encontra, o pas do domnio, entre outras opes.
2.2.3.3.2.4 Eliminao de palavras no significativas
A eliminao de palavras no significativas (stop words) outra caracterstica que
pode estar presente nos servios de recuperao de informao. A principal funo desta
opo a reduo do tamanho dos ndices das bases de dados. Atualmente esta restrio
no to importante, considerando o baixo custo de armazenamento de dados, porm,
tem implicao na recuperao. Alguns mecanismos de busca excluem termos muito
freqentes em pginas Web, como Web, html, Internet, etc.
2.2.3.3.2.5 Atribuio de pesos a termos
Alguns servios permitem a atribuio de pesos aos termos especificados,
possibilitando ao usurio indicar a importncia de determinado termo na sua busca. Alguns
mecanismos incorporam essa facilidade atravs da adoo de um sinal de mais antes do
termo de maior importncia.
2.2.3.3.2.6 Incorporao automtica de sinnimos
Um recurso de grande utilidade a incorporao automtica de sinnimos em uma
formulao de busca, j que dificilmente o usurio pode incluir todas as possibilidades. Esta
uma caracterstica mais fcil de ser implementada em uma base de dados temtica, que
pode incorporar um tesauro para a gerao de sinnimos. Nos mecanismos de busca na
Web, por tratarem de todo e qualquer assunto, a traduo de sinnimos fica mais
complicada, visto que os termos tm significados diferentes em cada contexto. No entanto,
recentes pesquisas em esquemas de classificao, tambm denominada taxonomia, indicam
que em breve esse ser um recurso cada vez mais utilizado pelos mecanismos de busca.
45
HAHN, Trudi Bellardo. Text Retrieval Online: historical perspective on Web Search Engines. Bulletin
ASIS. V.24, n.4, April/May, 1998. Disponvel em: <http://www.asis.org/Bulletin/Apr-98/hahn.html>.
Acesso em: 22 jun. 2001.
95
46
Os hiperlinks esto sendo utilizados como uma base de informao sobre que
pginas oferecem links para uma determinada pgina. Assim, uma pgina considerada
mais relevante que outra se for bastante citada, e de acordo com quem a cita. Este um
critrio j bastante difundido na comunicao cientfica, e que a tecnologia de hipertexto
permite sua adaptao aos mecanismos de busca na Web.
Outro parmetro que tem sido incorporado como medida de relevncia em
mecanismos de busca a freqncia que determinada pgina escolhida (clicada) por
usurios em resposta a uma dada busca. Esse critrio utiliza-se das vastas possibilidades de
armazenamento de informaes e minerao de dados que a crescente reduo de custos
de processamento oferece.
96
97
47
Os mecanismos de busca tambm podem exibir o contexto no qual o termo
pesquisado est inserido. Nos sistemas tradicionais de recuperao de informao esse
recurso chamado de highlighting, ou seja, os termos pesquisados so iluminados. A
iluminao oferece ao usurio uma indicao visual (atravs de tipo de letra diferenciado,
por cor ou por negrito, por exemplo) dos termos pesquisados no contexto em que se
encontram, facilitando a identificao da relevncia do documento para o usurio.
Outras opes oferecidas na pgina do resultado de busca devem ser consideradas,
como, por exemplo:
Nmero total de registros recuperados;
Opo de determinar o nmero de registros exibidos por pgina de
resultado;
Opo de refinamento do resultado, seja por busca avanada, por
(mesma URL);
Eliminao de registros duplicados.
2.2.5 ATUALIDADE
O ltimo parmetro do modelo relaciona-se com a capacidade do mecanismo de
busca em manter-se atualizado. Os robs que vasculham a Web capturando sites para os
mecanismos de busca devem acompanhar a velocidade com que os sites so
disponibilizados. Assim, verificar se os registros recuperados so de sites recentemente
atualizados uma medida da eficincia da coleta e atualizao do mecanismo de busca.
Na seo seguinte analisamos a metodologia utilizada nos estudos comparados de
mecanismos de busca, verificando a adoo ou no dos parmetros includos no modelo
aqui apresentado.
48
Nesta seo procuramos discutir a questo relativa a como avaliar. Para tal,
destacamos da extensa bibliografia sobre mecanismos de busca os estudos que buscam
comparar a performance dos sistemas de recuperao de informao na Web. No
consideramos os estudos comparados como um tipo especfico de pesquisa, classificandoos na estrutura apresentada na primeira seo deste trabalho, porque estas pesquisas
envolvem discusses multifacetadas. Os estudos comparados envolvem facetas relativas
coleo dos mecanismos de busca, sua anatomia e, de certa forma, estudos de usurios. Ou
seja, agregam aspectos que caracterizam vrios tipos de estudos.
Para obter uma amostra significativa desses estudos, partimos dos escassos artigos
de reviso como base para anlise da metodologia aplicada para avaliao de mecanismos
de busca.
So comuns trabalhos comparativos dos servios de busca existentes na Web,
principalmente atravs de quadros de caractersticas. Essas publicaes, de natureza
descritiva, costumam estar disponveis em sites dedicados indstria da informao, em
bibliotecas acadmicas e em publicaes comerciais.
Proliferam, tambm, comparaes entre mecanismos de busca elaboradas por e
para profissionais de informao, que mostram mais profundidade, mas carecem de uma
abordagem sistemtica, gerando falta de consistncia na escolha do que medir e como
medir. Esta uma constatao feita por Schwartz98, em um artigo publicado no Journal of the
American Society for Information Science (JASIS) em 1998.
Neste trabalho, que pode ser chamado de clssico, Schwartz apresenta uma reviso
da histria do desenvolvimento dos mecanismos de busca, com uma breve reviso dos
servios de recuperao de informao na fase pr-Web. Caracteriza os atuais servios de
busca como listas classificadas e ferramentas baseadas em pesquisa, explicando suas
diferenas. A autora faz, de forma clara e interessante, consideraes sobre o contedo dos
servios, caractersticas de busca e ordenao dos resultados.
98 SCHWARTZ, Candy. Web Search Engines. Journal of the American Society for Information Science.
v.49, n.11, p.973-982, Sep. 1998.
49
Este artigo oferece um panorama dos estudos de avaliao de performance, cujos
autores esto mostrados na Tabela 1. Esta tabela exclui os trabalhos, citados por Schwartz,
que tratam de quadros comparativos ou de tutoriais sobre o uso de mecanismos de busca.
Um trabalho considerado por Schwartz como excelente resumo de comparaes e
avaliaes de servios de busca a pesquisa de Barry & Richardson99. Estes pesquisadores
australianos publicaram na Web um trabalho que apresenta as concluses de 11 diferentes
estudos comparativos, que pode ser vista na Tabela 2. O quadro demonstra claramente
que nenhum trabalho conclusivo sobre qual mecanismo o melhor.
A importante contribuio desses autores a constatao de que o uso de
diferentes mtodos dificulta uma classificao que indique os melhores mecanismos de
busca. A Tabela 3 reproduz o quadro apresentado pelos autores e indica como as diversas
ferramentas foram avaliadas.
Cabe ressaltar que o trabalho de Barry & Richardson, publicado somente na Web,
fornecia apenas hiperlinks para os estudos comentados e no as referncias bibliogrficas
completas. A Tabela 4 mostra a referncia indicada para cada autor, ou seja, os hiperlinks.
A partir desses dois trabalhos de reviso, o de Schwartz e o de Barry & Richarson,
fizemos uma listagem dos trabalhos citados pelos autores e tentamos localizar na Internet
as referncias. A Tabela 5 mostra os 28 artigos que aparentemente tratam de estudos
comparados entre mecanismos de busca. A primeira coluna indica a origem da referncia e
a ltima coluna indica se o artigo foi selecionado ou no para a presente pesquisa, e o
motivo para a no escolha. Observa-se que dentre as 14 referncias indicadas por Barry, 10
estavam com link invlido, o que demonstra a importncia de se dispor da referncia
bibliogrfica completa, mesmo para documentos disponveis em texto completo na Web,
devido volatilidade dos documentos neste ambiente.
Todos os documentos foram procurados na Web, mesmo aqueles com a referncia
bibliogrfica completa. Quando o link no era localizado a partir da referncia oferecida,
fizemos buscas com o nome do autor, do artigo, ou de outras informaes disponveis
como local de publicao (evento ou peridico). Os documentos localizados na Web foram
BARRY, Tony, RICHARDSON, Joanna. Indexing the Net: A Review of Indexing Tools. In: AUSWEB:
AUSTRALIAN WORLD WIDE WEB CONFERENCE, 6, Cairns,1996. Disponvel
em:<http://www.bond.edu.au/Library/jpr/ausweb96/>. Acesso em: 30 maio 2001.
99
50
analisados para verificar se realmente tratavam de estudos comparados de mecanismos de
busca.
Selecionamos dez estudos comparados sobre mecanismos de busca na Web para
uma anlise da metodologia adotada nesses estudos. Esses artigos foram armazenados em
formato digital e impressos e analisados atravs de estudos anotados, realizados a partir da
tcnica denominada Carpintaria do Trabalho Acadmico. Esta tcnica consiste em um
conjunto de procedimentos que visa facilitar o desenvolvimento do trabalho acadmico,
integrando a produo de forma e contedo.
O Anexo 2 apresenta os objetivos e a ementa da disciplina de mesmo nome, que
apresenta o mtodo, oferecida no curso de ps-graduao em Cincia da Informao do
Programa de Ps-graduao IBICT/UFRJ, pela professora Maria de Nazar Freitas Pereira.
51
Tabela 1 Autores citados por Schwartz sobre avaliao de performance.
Autores
Barry and
Richardson
Chu and
Rosenthal
Courtois,
Baer, and
Stark
Ding and
Marchionini
Referncia
Barry, T., & Richardson, J. (1996, November 5). Indexing the Net. A review of indexing
tools [Online] . Available: http://www.scu.edu.au/sponsored/ ausweb/ ausweb96/
educn/ barry1/ paper.html [1997, September 2].
Chu, H., & Rosenthal, M. R. (1996). Search engines for the World Wide Web: A
comparative study and evaluation methodology. In S. Hardin (Ed.), Global complexity:
Information, chaos, and control.Proceedings of the 59th ASIS Annual Meeting (pp. 127135).
Medford, NJ: Information Today. Also available: http://www.asis.org/annual-96/
ElectronicProceedings/ chu.html [1997, September 8].
Courtois, M. P., Baer, W. M., & Stark, M. (1995). Cool tools for searching the Web.
Online, 19(6), 1432.
Ding, W. I., & Marchionini, G. (1996). A comparative study of web search service
performance. In S. Hardin (Ed.), Global complexity: Information, chaos, and control:
Proceedings of the 59th ASIS AnnualMeeting (pp. 136142). Medford, NJ: Information
Today.
Feldman
Feldman, S. (1997, August 29). Just the answers, please: Choosing a Web search
service [Online]. Searcher Magazine. Available:
http://www.infotoday.com/searcher/may/story3.htm [1997, September 2].
Gauch and
Gauch, S., & Wang, G. (1996, September 8). Information fusion with ProFusion [Online]
Wing
. Available: http://www.csbs.utsa.edu:80/info/webnet96/html/155.htm [1997,
September 8]. (Presented at WebNet96.)
Kimmel
Kimmel, S. (1996). Robot-generated databases on the World Wide Web. Database,
19(1), 4049.
Leighton and Leighton, H. V., & Srivastava, J. (1997, June 16). Precision among World Wide Web
Srivastava
search services (search engines): AltaVista, Excite,HotBot, Infoseek, Lycos [Online].
Available: http://www.winona.msus.edu/ is-f /library-f /webind2/webind2.htm
[1997, September 2] .
Peterson
Peterson, R. E. (1997, February). Eight Internet search engines compared [Online].
First Monday, 2(2). Available: http://www.firstmonday.dk/ issues/ issue_2/
peterson/ [1997, September 2] .
Schlichting
Schlichting, A., & Nilsen, E. (1996, December 17). Signal detection analysis of WWW
and Nilsens search engines [Online] . Available: http://www.microsoft.com/usability/webconf/
schlichting/ schlichting.htm [1997, September 2] .
Su
Su, L. T. (1997). Developing a comprehensive and systematic model of user
evaluation of Web-based search engines. In M. E. Williams (Ed.), National Online
Meeting: Proceedings1997 (pp. 335345). Medford, NJ: Information Today.
Tomaiuolo
Tomaiuolo, N. G., & Packer, J. G. (1996a). An analysis of Internet search engines:
and Packer
Assessment of over 200 search queries. Computers in Libraries, 16(6), 5862.
Tomaiuolo
Tomaiuolo, N. G., & Packer, J. G. (1996b, May 20). Results of 200 subject searches in
and Packer
AltaVista, Infoseek, Lycos, Magellan and Point, performed Oct. to Dec. 1995 [Online].
Available: http://neal.ctstateu.edu:2001/ htdocs/ websearch.html [1997, September
2] .
Westera
Westera, G. (1997, July 4). Robot-driven search engine evaluation: Overview [Online].
Available: http:// www.curtin.edu.au/curtin/library/staffpages/gwpersonal/
senginestudy/ [1997, September 2] .
Zorn,
Zorn, P., Emanoil, M., Marshall, L., & Panek, M. (1996, May). Advanced searching:
Emanoil,
Tricks of the trade [Online]. Online, 21(3). Available:
Marshall, and http://www.onlineinc.com/onlinemag/MayOL/ zorn5.html [1997, September 2].
Panek
52
Tabela 2 Resultados obtidos dos trabalhos de diferentes autores sobre mecanismos de
busca.
Different Search Engines/Different Results
Author Comments
Unfortunately, no single guide is familiar with every resource. What you need is a
Conte
comprehensive set of tools for searching the Net.
...because these search engines search in different ways and search different parts
of the Internet, doing the same search using different search engines will often
Eagan
give you wildly differing results....try out a number of the search engines, and
understand that the Internet and the search engines are changing daily.
Because each robot is programmed to search the Web in a different way, the
Felt
information stored in each database can be very different.
In the longer term complete Web-wide traversal by robots will become
Koster
prohibitively slow, expensive, and ineffective for resource discovery.
...you should try other search engines, too. Each has its own strengths and
Leita
weaknesses, and each has a chance of delivering just what you're looking for.
...one size doesn't fit all and needs vary widely ... [Search engines] all have their
Randall strengths and weaknesses,and your best bet is to learn how to use an entire arsenal
of them.
A directory is great if you're simply interested in a general topic. ... as your
Scoville questions become more specific, ... you need a search engine. ... Use more than
one search engine.
The most striking conclusion we drew from our tests was that all these engines
had a long way to go before they could be relied upon to deliver consistently
Venditto accurate search findings. ... no two search engines yielded the same results on a
search during our entire testing period. ... different search engines are suitable for
different types of tasks.
[Speaking of Webcrawler and Lycos] These differences contribute to different
Webster result sets that are returned by different search engines for the same query. ... No
single search tool can be relied upon to satisfy every query.
There is no one ultimate search tool for the Web. Because of its nature, various
Weiss search engines use different search techniques and yield different "views" of the
Web.
Since [searching tools] start from different base documents and work in different
Winship ways, none of the resulting indexes are comprehensive and nor are the resources
listed completely duplicated.
Fonte: BARRY, Tony, RICHARDSON, Joanna. Indexing the Net: A Review of Indexing
Tools. In: AUSWEB: AUSTRALIAN WORLD WIDE WEB CONFERENCE, 6,
Cairns,1996. Disponvel em:<http://www.bond.edu.au/Library/jpr/ausweb96/>. Acesso
em: 30 maio 2001.
53
Tabela 3 Critrio de avaliao dos autores.
Other High Other High
Comments
Scores
Scores
pre-dates Alta
CNet
Education content SavvySearch Yahoo
Open Text
Vista, Excite, etc.
focus on scientific
Lebedev Total hits
Alta Vista Lycos
Inktomi
info
Relevance and
pre-dates Alta
Leighton
Lycos
InfoSeek
--precision
Vista, Excite, etc.
recommended for
Large database, fullLeita
Open Text InfoSeek
Lycos
quick, pinpointed
text indexing
searches
MetaCrawler
Leonard Search engines
Alta Vista ----rated #1 overall
Leonard Meta-search engines MetaCrawler ------A number of
our interpretation
Liu
Alta Vista ----factors
of ranking
Usability, speed,
pre-dates Alta
InfoSeek
WebCrawler WWWWorm
Randall
precision
Vista, etc.
no mention of
Total no. of hits per
Lycos
Open Text --Scoville
Alta Vista
query
Relevance of top 10
Lycos
Excite
InfoSeek
--Scoville
hits
our interpretation
Steinberg Not identified
Alta Vista ----of ranking
Tillman
Not identified
InfoSeek
Alta Vista ----200 actual
Lycos,
Average no. of
Reference Desk
Tomaiuolo
Alta Vista InfoSeek
Magellan
relevant hits
questions
A number of
our interpretation
UMichigan
Yahoo
Alta Vista Lycos
factors
of ranking
InfoSeek
Venditto Relevance
Excite
----Guide
Venditto Comprehensiveness Alta Vista ------Content, features,
pre-dates Alta
Winship
Lycos
----output, no. of hits
Vista, etc.
Author
Criteria
Top Score
Fonte: BARRY, Tony, RICHARDSON, Joanna. Indexing the Net: A Review of Indexing
Tools. In: AUSWEB: AUSTRALIAN WORLD WIDE WEB CONFERENCE, 6,
Cairns,1996. Disponvel em:<http://www.bond.edu.au/Library/jpr/ausweb96/>. Acesso
em: 30 maio 2001.
54
Tabela 4 Autores citados por Barry & Richardson e suas respectivas URLs
Autores
Referncia
Cnet
http://cnet.unb.ca/cabox/learning/win/webserch.html
Lebedev
http://www.chem.msu.su/eng/comparison.html
Leighton
http://www.winona.msus.edu/services-f/library-f/webind.htm
Leita
http://www.mispress.com/websearch/websch4.html
Leonard
http://www.cnet.com/Content/Reviews/Compare/Search/index.html
Liu
http://www.indiana.edu/~librcsd/search/
Randall
http://www.zdnet.com/pccomp/features/internet/search/index.html
Scoville
http://www.pcworld.com/reprints/lycos.htm
Steinberg
http://www.hotwired.com/wired/4.05/indexing/index.html
Tillman
http://challenge.tiac.net/users/hope/findqual.html
Tomaiuolo
http://neal.ctstateu.edu:2001/htdocs/websearch.html
UMichigan
http://www.sils.umich.edu/~fprefect/matrix/matrix.shtml
Venditto
http://pubs.iworld.com/iw-online/May96/showdown.html
Winship
http://www.bubl.bath.ac.uk/BUBL/IWinship.html
Fonte: BARRY, Tony, RICHARDSON, Joanna. Indexing the Net: A Review of Indexing
Tools. In: AUSWEB: AUSTRALIAN WORLD WIDE WEB CONFERENCE, 6,
Cairns,1996. Disponvel em:<http://www.bond.edu.au/Library/jpr/ausweb96/>. Acesso
em: 30 maio 2001.
55
Tabela 5 Listagem geral dos estudos comparados citados por Schwartz e Barry &
Richardson
Origem
Schwartz
Autores
Chu and
Rosenthal
Barry &
Richardson
Schwartz
Cnet
Schwartz
Schwartz
Schwartz
Schwartz
Barry &
Richardson
Barry &
Richardson
Schwartz
Barry &
Richardson
Barry &
Richardson
Barry &
Richardson
Courtois, Baer,
and Stark
Ding and
Marchionini
Referncia
Observaes
Chu, H., & Rosenthal, M. R. (1996). Search engines for Selecionado
the World Wide Web: A comparative study and
evaluation methodology. In S. Hardin (Ed.), Global
complexity: Information, chaos, and control.Proceedings of the 59th
ASIS Annual Meeting (pp. 127135). Medford, NJ:
Information Today. Also available:
http://www.asis.org/annual-96/ ElectronicProceedings/
chu.html [1997, September 8].
http://cnet.unb.ca/cabox/learning/win/webserch.html Link invlido
Leita
Leonard
Liu
No localizado
on-line100
No localizado
on-line
Selecionado101
Selecionado
No localizado
on-line
Selecionado
http://www.winona.msus.edu/services-f/librarySelecionado
f/webind.htm
Leighton, H. V., & Srivastava, J. (1997, June 16). Precision Selecionado102
among World Wide Web search services (search engines):
AltaVista, Excite,HotBot, Infoseek, Lycos [Online].
Available: http://www.winona.msus.edu/ is-f /library-f
/webind2/webind2.htm [1997, September 2] .
http://www.mispress.com/websearch/websch4.html
Link invlido
http://www.cnet.com/Content/Reviews/Compare/Sear Link invlido
ch/index.html
http://www.indiana.edu/~librcsd/search/
Lista de
mecanismos de
busca, sem
comparao
Foi includo outro trabalho, mais recente, do autor principal: COURTOIS, Martin P., BERRY, Michael W.
Results ranking in web search engines. Online. v. 23, n. 3. May 1999. Disponvel em:
<http://www.onlineinc.com/onlinemag/OL1999/courtois5.html>. Acesso em: 03 maio 2001.
101 No localizado nesse endereo. FELDMAN, Susan. Just the answers, please: choosing a web search
service. Datasearch. 1997. Disponvel em:
<http://www.cs.rpi.edu/~sibel/4962/project/choosing_an_engine.html>. Acesso em: 08 jun. 2001
102 Este trabalho foi posteriormente publicado tambm no peridico JASIS, cuja referncia encontra-se na
bibliografia
100
56
Tabela 5 Listagem geral dos estudos comparados citados por Schwartz e Barry &
Richardson (cont.)
Schwartz
Peterson
Barry &
Richardson
Randall
Schwartz
Schlichting &
Nilsen
Barry &
Richardson
Barry &
Richardson
Schwartz
Scoville
Barry &
Richardson
Barry &
Richardson
Schwartz
Schwartz
Tomaiuolo and
Packer
Barry &
Richardson
Barry &
Richardson
Schwartz
UMichigan
Barry &
Richardson
Schwartz
Winship
Steinberg
Tillman
http://www.hotwired.com/wired/4.05/indexing/index.
html
Su, L. T. (1997). Developing a comprehensive and
systematic model of user evaluation of Web-based search
engines. In M. E. Williams (Ed.), National Online Meeting:
Proceedings1997 (pp. 335345). Medford, NJ:
Information Today.
http://challenge.tiac.net/users/hope/findqual.html
Tomaiuolo
http://neal.ctstateu.edu:2001/htdocs/websearch.html
Link invlido
Tomaiuolo and
Packer
No disponvel
on-line
Su
Venditto
Westera
Zorn, Emanoil,
Marshall, and
Panek
No disponvel
on-line
Link invlido
Link invlido
Link invlido
Link invlido
Selecionado
Link invlido
Zorn, P., Emanoil, M., Marshall, L., & Panek, M. (1996, Selecionado
May). Advanced searching: Tricks of the trade [Online]. Online,
21(3). Available:
http://www.onlineinc.com/onlinemag/MayOL/
zorn5.html [1997, September 2].
57
103 Pesquisa executada no CCN Catlogo Coletivo Nacional de Publicaes Seriadas, atravs do site
<http://www.ibict.br/ccn/acesso.htm>, em 11 de ago. de 2001.
58
Tabela 6 Os estudos comparados e seus autores
Data Autores
Instituio dos autores
Heting Chu
Palmer School of Library & Information
Science,
Long Island University
Chu &
Brookville, New York
1996
Rosenthal
Marilyn Rosenthal
Library Reference Department,
Long Island University
Brookville, New York
Documento
Apresentado no
ASIS 1996 annual
meeting
Peggy Zorn
Parke-Davis Pharmaceutical Research Library
Zorn,
Emanoil,
1996
Marshal &
Panek
1996 Westera
1996
Gauch &
Wang
Schlichting &
1996
Nilsen
Mary Emanoil
Parke-Davis Pharmaceutical Research Library
Lucy Marshall
Parke-Davis Pharmaceutical Research Library
Mary Panek
United Technologies Research Center
Gillian Westera
Acting Information & Education Services
Librarian BA(Curtin),
GradDipInfo&LibStud(Curtin),
PostGradDipInfMgt(Curtin), AALIA
Susan Gauch
Department of Electrical Engineering and
Computer Science
The University of Kansas
Guijun Wang
Department of Electrical Engineering and
Computer Science
The University of Kansas
Carsten Schlichting
Lewis & Clark College
Erik Nilsen
Lewis & Clark College
Publicado no
peridico Online104
S publicado na
Web
O trabalho foi
apresentado na
WebNet'96105.
Apresentado em
um evento
promovido na
Microsoft Campus
ONLINE um peridico mensal, escrito para profissionais de informao e oferece artigos, reviso de
produtos de informao e estudos de caso sobre seleo, uso e gerenciamento de produtos de informao
eletrnica, alm de informaes profissionais e industriais sobre sistemas de bases de dados on-line, CDROM e Internet
105 WORLD CONFERENCE OF THE WEB SOCIETY realizada em outubro de 1996, em So Francisco,
Califrnia. WebNet-96 foi a primeira conferncia mundial da Web Society, um evento internacional
organizado pela Association for the Advancement of Computing in Education (AACE). Esta conferencia anual serve
como um frum multidisciplinar para a disseminao de informao sobre pesquisa, desenvolvimento e
aplicaes de todos os tpicos relacionados ao uso, aplicaes e aspectos legais e sociais da Web em seu senso
mais amplo.
104
59
Tabela 6 Os estudos comparados e seus autores (cont.)
Data Autores
Instituio dos autores
Richard Einer Peterson
Professor, Financial Economics and
1997 Peterson
Institutions
College of Business Administration
University of Hawaii
Alexander I. Lebedev
Associate Professor
1997 Lebedev
Graduated from Moscow State University
Ph.D. in Physics, Dr.Sci.
1997 Feldman
1999
Courtois &
Berry
1999
Leighton &
Srivastava
Documento
Publicado no peridico
First Monday106
Parece que s
publicado na web
Aparentemente foi
publicado no peridico
Datasearch ou Searcher
Magazine
Publicado no peridico
Online
Publicado no peridico
JASIS107
106 First Monday se apresenta como um dos primeiros peridicos com reviso de pares (peer-reviewed) na
Internet, devotada unicamente para a Internet.
107 O artigo foi publicado em 1999, a partir da pesquisa conduzida para a obteno do ttulo de Master in
Computer Science de Leighton
60
Gauch &
Wang
Schlichting
& Nilsen
Peterson
Lebedev
Feldman
Courtois Leighton&
& Berry Srivastava
Nde
citaes
10
Lycos
10
Excite
Infoseek
HotBot
Open Text
WebCrawler
Galaxy
Inference Find
Magellan
MetaCrawler
Profusion
Savvy Search
Ultra
WWW Worm
Yahoo!
Total
10
62
63
Quadro 4 Check-list para avaliao de estudos comparados
Preciso
6.2.
Cobertura
6.3.
Esforo do usurio
6.4.
6.5.
6.3.1.
Documentao do sistema
6.3.2.
6.3.3.
Capacidade de busca
Formato de sada
6.4.1.
Critrio de ordenao
6.4.2.
Formato de exibio
Atualidade
64
Cada um desses itens discutido a seguir, sendo exposta sua importncia e a forma
que os trabalhos avaliaram essas questes. Em relao especificamente ao item relativo a
parmetros comparados, sua discusso se baseia na seo anterior desta dissertao, onde
propomos um modelo para avaliao da recuperao de informao na Web (Quadro 3).
A Tabela 8 apresenta o objetivo de cada trabalho e um resumo das caractersticas de
cada estudo comparado.
Objetivo
Zorn, Emanoil,
Marshal &
Panek
Analisar as
Analisar
caractersticas, caractersticas
avanadas de
avaliar
performance sistemas de
e propor uma busca na Web,
metodologia visando o uso
por especialistas
para avaliar
de informao
outros
mecanismos (bibliotecrios e
afins).
de busca.
Westera
Schlichting &
Nilsen
Peterson
Lebedev
Feldman
Courtois &
Berry
Leighton &
Srivastava
Analisar
mecanismos
do tipo rob,
testando
caractersticas.
Comparar a
performance de
ProFusion em
relao a cada
mecanismo
individualmente
e com outras
metaferramentas.
Propor um
mtodo
avaliativo da
efetividade
dos
mecanismos
atravs da
adoo do
mtodo de
anlise de
deteco de
sinal.
No
informado
Comparar
performance
e
caractersticas
de 8
mecanismos
de busca tipo
rob.
Informar
sobre o
mais
eficiente
mecanismo
de busca
para
encontrar
informao
cientfica na
rede.
Comparar
mecanismos
de busca da
Web do tipo
rob, atravs
de busca
com
questes
prticas
comuns para
os usurios.
Testar como
as 5 maiores
ferramentas
de busca
recuperam e
ordenam
documentos
na resposta
de amostras
de pesquisas
simples.
Comparar a
preciso de 5
mecanismos de
busca,
detalhando a
metodologia
adotada.
No
informado
Informao
cientfica
Informao
para o
pblico em
geral
Os
principais
mecanismos
de busca.
No inclui
diretrios,
apenas
ferramentas.
No
informado
No
informado
Mecanismos
considerados
melhores em
testes de
comparao
realizados em
revistas de
informtica.
Mecanismos
recomendados
pela relevncia
de seus
resultados em
estudos
anteriores,
aps 1996.
12
15
Tipo de
informao
procurada
No
informado
No informado No
informado
No informado
Critrio de
seleo dos
mecanismos
comparados
Mecanismos
de busca na
Web,
gratuitos, que
oferecem
maior
diversidade de
cobertura.
No inclui
metaferramentas.
Mecanismos de
busca na Web
que oferecem
determinadas
caractersticas
avanadas (que
esto descritas
no artigo) e
possuem uma
base de dados
geral e confivel
de sites da
Internet (+ de
200.000 sites).
3
Mecanismos
de busca
baseados em
robs.
Os 8 grandes No
mecanismos informado
de busca.
5 no primeiro
teste e 8 no
segundo teste
12
Nde buscas 10
em cada
M.B.
Schlichting &
Nilsen
Peterson
Lebedev
Feldman
Leighton &
Srivastava
Os estudantes
do curso de
vero de
Information
Retrieval foram
convidados a
selecionar uma
busca em que
estivessem
interessados.
Foi solicitado a
cinco alunos do
Lewis and Clark
College para que
formulassem
questes
especficas de
informao que
gostariam de
encontrar na Web,
e que no tinham
ainda tentado
localizar.
A escolha
dos
termos foi
arbitrria.
Palavraschave de
fsica e
qumica
Questes reais
sobre
informaes de
empresas,
avaliaes de
produtos,
informao
mdica,
informao
estrangeira,
relatrios
tcnicos e
eventos atuais.
Buscas com
expresses de 2 ou 3
palavras,
selecionadas de
questes de
referncia ou
utilizadas em estudos
anteriores. Os
tpicos pesquisados
foram igualmente
distribudos em
humanidades,
cincias e cincias
sociais.
Perguntas feitas
no balco de
referncia de
uma biblioteca
universitria,
onde os
solicitantes
requeriam
especificamente
o uso da
Internet como
fonte de
informao.
Essas perguntas
foram
complementadas
selecionando 5
perguntas de
outro estudo,
visando ampliar
questes
localizadas do
estado de
Winona, local
onde estava a
biblioteca onde
foram coletadas
as perguntas
Gauch &
Wang
No
informado
Schlichting &
Nilsen
Frases para
conceitos foram
usadas se o
mecanismo de
busca permitisse.
Peterson
Lebedev
Feldman
Leighton &
Srivastava
Busca simples.
Nos casos em
que a busca
sem
operadores
causava
mltiplas
interpretaes,
foram
utilizadas
buscas
avanadas.
10
No se
aplica
No se aplica
10 ou mais
100 e 20
20
escala de 1 a 7
para a utilidade
do item, sendo 7
a mais til
No se
aplica
No se aplica
No
informado
Escala de sim ou
no para ocorrncia
ou ausncia de pelo
menos uma vez no
documento de:
- todos os termos
no documento
- todos os termos
como frase contgua
- todos os termos
aparecendo no
ttulo, cabealho ou
metatags.
links
duplicados,
links inativos,
links
irrelevantes
(0), links
tecnicamente
relevantes (1),
links
potencialmente
teis (2) e links
provavelmente
mais teis (3).
Ver Tabela 9
10
registros
No informado Os 5
20
primeiros e
os 5
ltimos
No
No informado No
No
informado
informado informado
Westera
Gauch &
Wang
Schlichting &
Nilsen
No
No
Mtodo de anlise No
de deteco de
sinal
No
Perodo de
tempo que as informado
buscas foram
realizadas
No
informado
Primavera No informado
de 1996
3 perodos
de tempo
no ano de
1996:
fevereiro,
maio e
novembro
Sesses de
busca
No
informado
O segundo
teste foi
uma
comparao
de
resultados
em jan e em
out/96
No
informado
No
No informado
informado
No
No informado
informado
Chu &
Rosenthal
Houve uma
anlise
estatstica
dos
resultados
Mdia
simples
No
informado
Peterson
Lebedev
Feldman
Courtois &
Berry
Leighton &
Srivastava
Sim
No
Sim
Sim
Maro de
H datas
1997
diferentes
informadas, mas
parece que foi em
03 de agosto e 17
de fevereiro de
1996.
3 a 10 de abril 31 de janeiro a 12 de
de 1998
maro de 1997
Para uma
No
dada questo informado
todas as
ferramentas
foram
consultadas
numa mesma
sesso.
Todas as
ferramentas foram
usadas, para uma
dada questo, no
mesmo dia. Para a
maioria das
questes, as
ferramentas foram
pesquisadas dentro
de meia ou uma
hora de diferena
entre uma e outra.
A anlise do
resultado foi feita no
mesmo dia que a
busca foi realizada.
No
informado
Zorn,
Emanoil,
Marshal &
Panek
No
informado
Quem
analisou os
resultados e
como?
Os autores
Os autores
Westera
Gauch &
Wang
Schlichting &
Nilsen
No
informado
Os autores
No
Os primeiros 10
informado resultados para as
4 ferramentas
foram
combinados em
um nico
documento.
Os alunos Os alunos que
formularam as
que
formulara questes.
m as
questes.
Peterson
Lebedev
No
No se aplica
informado
Os
autores
Feldman
Courtois &
Berry
Leighton &
Srivastava
Atravs de um Atravs de um
Anlise de
programa em programa em PERL.
cada
PERL.
resultado
individualme
nte.
No houve
Os autores
analise qualitativa
Os autores
Os autores
70
108 LANCASTER, F.W. Information Retrieval System: characteristics, testing and evaluation. USA: John
Wiley & Sons, 1979. 318p.
71
Uma outra abordagem a anlise da performance dos mecanismos de busca sob a
tica do profissional de informao. Este aspecto estudado por Zorn, Emanoil, Marshal
& Panek, que verificam as caractersticas avanadas que os mecanismos de busca oferecem,
visando utilizao desses servios de uma forma mais eficaz por bibliotecrios e
profissionais especializados em recuperao de informao. Neste caso, as perguntas
utilizadas nos testes no esto relacionadas ao pblico final do servio, mas sim para testar
a capacidade dos mecanismos de busca em recuperar informao a partir de buscas
avanadas.
72
recuperao da metaferramenta Profusion, para isso utilizam os mecanismos de busca que
esto sob esse servio e, tambm, duas outras metaferramentas.
A seleo das perguntas a serem feitas para testar os mecanismos de busca uma
questo de forte impacto no resultado da anlise. Dentre os estudos comparados utilizados
neste trabalho, quatro buscam simular situaes reais, a partir de perguntas feitas por
usurios.
Feldman destaca que alguns trabalhos partem da escolha de um site prdeterminado para verificar se o mesmo encontrado a partir de uma nica frase ou
palavra-chave. Esta autora acredita que, como a maioria das pesquisas feitas na Web
consideravelmente mais complexa, necessrio simular buscas a partir de situaes reais.
73
Chu & Rosenthal selecionaram questes extradas de consultas ao balco de
referncia de uma biblioteca universitria, que permitiam testar os parmetros previstos
para a pesquisa.
Leighton & Srivastava tambm utilizaram perguntas obtidas em um balco de
referncia de uma biblioteca universitria, onde os solicitantes requeriam especificamente o
uso da Internet como fonte de informao.
74
Formato
de sada
Esforo do
usurio
Cobertura
Documentao do
sistema
Interface com o
usurio
Capacidade de busca
Critrio de
ordenao
Formato de exibio
Outros
parmetros
Atualidade
Deteco de
duplicatas
Tempo de resposta
Posicionamento no
mercado
Westera
Gauch
&
Wang
Schlichting
&
Peterson
Nilsen
Lebedev
Feldman
Courtoi Leighton
s&
&
Berry Srivastava
76
3.3.6.1 Preciso
A preciso nos mecanismos de busca avaliada atravs da anlise de relevncia dos
registros recuperados. Este parmetro tratado por oito dos dez estudos avaliados. Os dois
trabalhos que no consideram a preciso so o de Peterson e o de Lebedev. O primeiro
estudou as caractersticas de busca, e o segundo o volume de registros recuperados. No
trabalho de Westera, a relevncia avaliada apenas para os resultados da busca com
operadores booleanos.
importante ressaltar que a relevncia foi o nico parmetro de comparao de
quatro estudos analisados - Schlichting & Nilsen, Feldman, Courtois & Berry e Leighton &
Srivastava.
As discusses sobre o nmero de registros avaliados e os critrios de pontuao
adotados sero abordadas nos itens 3.3.7 e 3.3.8, respectivamente.
3.3.6.2 Cobertura
A cobertura, conforme definida no item 2.2.2, envolve tanto a abrangncia como o
escopo do mecanismo de busca.
A abrangncia diz respeito ao volume de dados que indexado pelo mecanismo de
busca. Esta varivel analisada por apenas dois trabalhos: Chu & Rosenthal, Zorn,
Emanoil, Marshall & Panek.
O escopo, que envolve a observao do tipo de indexao que o mecanismo de
busca utiliza, bem como os tipos e recursos de informao que indexa, um critrio de
anlise de dois estudos comparados: Zorn, Emanoil, Marshall & Panek e Peterson.
77
78
3.3.6.5 Atualidade
Este critrio foi discutido apenas por Peterson, na medida em que analisou a
disponibilidade de notcias dirias pelo mecanismo de busca.
109 Nasdaq (National Association of Securities Dealers Automated Quotation) um ndice de aes formado por
aes de empresas, como as de alta tecnologia e informtica. Criada em 1971, foi a primeira bolsa de valores
totalmente eletrnica, ou seja, o primeiro mercado acionrio eletrnico do mundo.
79
80
restrito. Como links irrelevantes so considerados aqueles que no satisfazem algum
aspecto importante da expresso de busca.
Os links tecnicamente relevantes receberam nota 1, sendo considerados aqueles que
satisfazem a busca executada por conter todos os termos ou sinnimos dos termos
procurados, mas no so teis para o usurio ou porque no esto relacionados com o
tpico indicado ou porque so muito curtos para serem teis.
A nota 2 refere-se a links considerados potencialmente teis, com pelo menos
algum aspecto relacionado com a informao solicitada. Tambm receberam nota 2 as
pginas que tinham links para pginas provavelmente teis (nota 3).
Os links que receberam nota 3 foram aqueles provavelmente teis, ou seja, que
ofereciam uma ampla faixa de assuntos correlacionados ao tpico pesquisado ou que
continham uma coleo de recursos ou sites relacionados ao tema pesquisado.
Essa escala de pontos de Leighton & Srivastava mereceu destaque pela clareza e
documentao associada a ela que est disponvel em sua pesquisa na Web. Para cada
pergunta os autores detalharam as situaes possveis e definiram o critrio de pontuao
adotado.
Alm de Leighton & Srivastava, Schlichting & Nilsen tambm criaram uma escala
de 1 a 7 para a utilidade do link recuperado.
Courtois & Berry adotaram um critrio mais simples, de sim ou no, avaliando a
ordenao dos resultados atravs da anlise de trs itens: presena de todos os termos no
documento, proximidade entre os termos e localizao dos mesmos no documento (ttulo,
cabealho ou metatags).
81
82
link recolhido. Esta preocupao dos autores bastante pertinente, visando a iseno no
julgamento dos resultados.
Schlichting & Nilsen agruparam os dez primeiros resultados de cada um dos
mecanismos avaliados em um nico documento. Se o mecanismo localizasse menos de dez
resultados, estes eram adicionados ao documento e a pesquisa era executada novamente
retirando-se as palavras-chaves menos importantes. Dos novos resultados, somente os
primeiros itens eram usados, de forma que o nmero total de resultados para aquela
questo fosse dez.
110 No caso de no estar explicitado quem fez a anlise, assumimos como sendo os prprios autores do
trabalho.
83
Na prxima seo apresentamos as concluses obtidas neste estudo e propomos
pesquisas para a continuidade do trabalho aqui desenvolvido.
84
CONSIDERAES FINAIS
Esta pesquisa permitiu mapear o desenvolvimento de estudos e pesquisas sobre
mecanismos de busca na Web sob o olhar de autores clssicos da Cincia da Informao,
em sua vertente de recuperao da informao, o que permite afirmar sua validade,
adequao e, principalmente, sua oportunidade.
Na seo 1, observa-se que os problemas colocados pelas ferramentas, tanto do
tipo diretrio quanto do tipo motor, s podem ser enfrentados com o desenvolvimento de
novas tecnologias que melhorem a cobertura, a indexao, o resultado da busca, todos
esses aspectos referentes rea de recuperao de informao. Alm disso, a emergncia de
um novo tipo de ferramenta para buscar informaes na Web invisvel, considerada a parte
mais volumosa da Internet, evidencia a necessidade de maior aprofundamento nos estudos
de recuperao de informao na Web, o que no ser possvel com a abordagem que vem
sendo utilizada, atualmente, para guiar os estudos aqui revistos.
Particularmente, na seo 2, o apoio das teorias clssicas de recuperao da
informao se mostra produtivo na construo do modelo de avaliao de mecanismos de
busca do tipo motor, ao deixar de fora apenas dois (revocao e tempo de resposta) entre
sete critrios de avaliao decorrentes das teorias.
Na seo 3, ao incorporar o modelo proposto, deriva-se um check-list para
avaliao de metodologias de estudos comparados de mecanismos de busca, que se adequa
s exigncias da performance de um sistema de recuperao da informao. Ainda nesta
seo, o emprego desse check-list para avaliar dez estudos de comparao de mecanismos
de busca do tipo motor, permite observar o seguinte:
a grande maioria dos estudos no informa os procedimentos utilizados, o que no
85
esquema de classificao ;
uso de linguagem natural.
Alm disso, o autor mapeia tecnologias que esto sendo desenvolvidas, como as
seguintes:
111 MAHON, Barry. Information retrieval, a story of research and other strange activities. ICSTI Forum., n.
37, Mar. 2001. Disponvel em: <http://www.icsti.org/icsti/forum/37/>. Acesso em: 08 jun. 2001.
86
interface personalizada para sistemas de recuperao de informao, que
mecanismos de busca.
MAHON, Barry. Op.cit.
SCHWARTZ, Candy. The 2001 Infonortics Search Engine Meeting. Bulletin of the American Society
for Information Science and Technology. v.27, n.6. August/September 2001. Disponvel em:
<http://www.asis.org/Bulletin/Aug-01/schwartz.html>. Acesso em: 28 ago. 2001.
112
113
87
justamente neste aspecto de desenvolvimento de ferramentas que atendam ao
mercado corporativo que a necessidade de integrao de dados ainda maior. O grande
desafio a integrao dos dados heterogneos, internos e externos empresa, permitindo a
busca e a recuperao efetiva das informaes.
Para o enfrentamento das questes de pesquisa em uma agenda que incorpore as
tendncias acima observadas, o modelo aqui proposto pode ser ampliado, pois engloba
muitos aspectos sugeridos nessas tendncias.
Como continuidade deste trabalho, sugerimos o desenvolvimento de estudos e
pesquisas que explorem os seguintes aspectos:
anlise da adequao do modelo em sistemas de recuperao de informao
utilizados em empresas;
anlise da aplicabilidade do modelo e check-list em mecanismos de busca dos
114 FOLHAONLINE. Internet faz parte do cotidiano de 9,4% dos brasileiros, diz pesquisa. Disponvel em:
<http://www.ponto-com.com/NR/exeres/50F4BA6E-5647-4D53-A9C9-29DFBB6AE9AF.htm>. Acesso
em: 10 set. 2001.
88
REFERNCIAS BIBLIOGRFICAS
BARRY, Tony, RICHARDSON, Joanna. Indexing the Net: A Review of Indexing Tools.
In: AUSWEB: AUSTRALIAN WORLD WIDE WEB CONFERENCE, 6, Cairns,1996.
Disponvel em:<http://www.bond.edu.au/Library/jpr/ausweb96/>. Acesso em: 30 maio
2001.
BERGMAN, Michel K. The deep Web: surfacing hidden value. Journal of the Electronic
Publishing. v.7, n.1, Aug. 2001. Disponvel em: <http://www.press.umich.edu/jep/0701/bergman.html>. Acesso em: 06 set. 2001.
BRADLEY, Phil. Finding images on the Internet. Ariadne. v.25, Sep. 2000. Disponvel
em: <http://www.ariadne.ac.uk/issue25/search-engines/>. Acesso em: 21 fev. 2001.
BRADLEY, Phil. Search Engines. Ariadne. v.20, June 1999. Disponvel em:
<http://www.ariadne.ac.uk/issue20/searchengines>. Acesso em: 21 fev. 2001.
BRIN, Sergey, PAGE, Lawrence. The anatomy of a large-scale hypertextual web
search engine. Disponvel em:
<http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm>. Acesso em: 31
jan. 2001.
BROOKS, Terrence A. How Good Are the Best Papers of JASIS? Journal of the
American Society for Information Science. v.51, n.5, p.485-486, 2000.
BUENO, Mrcia Correa, VIDOTTI, Silvana Aparecida Borsetti Gregorio. Ferramentas de
busca na Internet: para qu, por qu e como utiliz-las? In SEMINRIO NACIONAL DE
BIBLIOTECAS UNIVERSITRIAS, 11., 2000, Florianpolis. Anais...
BUTLER, Declan. Souped-up-search engines. Nature, 40512, 1-115 May 2000. Disponvel
em: <http://www-tecno.inti.gov.ar/opinion01.htm>. Acesso em: 22 ago. 2000.
CENDN, Beatriz Valadares. Ferramentas de busca na Web. Cincia da Informao.
V.30, n.1, p.39-49, jan./abr. 2001. Disponvel em:
<http://www.ibict.br/cionline/300101/30010106.htm>. Acesso em: 15 jul. 2001.
CHALMERS, Rachel. caa de informao. Caderno Mais. Folha de So Paulo. 26 nov.
2000.
CHOWDHURY, G.G. The Internet and information retrieval research: a brief review.
Journal of Documentation, v.55, n.2, p. 209-225, Mar. 1999.
CHU, Heting, ROSENTHAL, Marilyn. Search Engines for the World Wide Web: A
Comparative Study and Evaluation Methodology. In: ASIS 1996 Annual Meeting. 1996,
Baltimore. Electronic Proceedings. Disponvel em: <http://www.asis.org/annual96/ElectronicProceedings/chu.html>. Acesso em: 26 ago. 2000.
CLEVER PROJECT. Hypersearching the Web. Scientific American. Disponvel em:
<http://www.sciam.com/1999/0699issue/0699raghavan.html>. Acesso em: 07 jun. 1999.
CLEVERDON, C.W. Evaluation of operational information retrieval systems. Part 1:
Identification of Criteria. Cranfield, England: College of Aeronautics. Apud LANCASTER,
F.W., FAYEN, E.G. Information Retrieval On-Line. Los Angeles, CA: Melville Publishing
Co. 1973.
89
CLYDE, Anne. Web search engines: general bibliography and resources. Disponvel em:
<http://www.hi.is/~anne/websearch_bibliography.html>. Acesso em: 03 maio 2001.
CORNELLA, Alfons. O avano das ferramentas de busca. Infonomia. Disponvel em:
<http://www.intexnet.com.br/polors/revista/infonomia/20.htm>. Acesso em: 12 ago.
1999.
COURTOIS, Martin P., BERRY, Michael W. Results ranking in web search engines.
Online. v. 23, n. 3. May 1999. Disponvel em:
<http://www.onlineinc.com/onlinemag/OL1999/courtois5.html>. Acesso em: 03 maio
2001.
DONAHUE, Sean. Smarter Returns. Business 2.0. Disponvel em:
<http://www.business2.com/articles/1999/08/text/break.html>. Acesso em: 19 ago.
1999.
FELDMAN, Susan. Just the answers, please: choosing a web search service.
Datasearch. 1997. Disponvel em:
<http://www.cs.rpi.edu/~sibel/4962/project/choosing_an_engine.html>. Acesso em: 08
jun. 2001.
FOLHAONLINE. Internet faz parte do cotidiano de 9,4% dos brasileiros, diz pesquisa.
Disponvel em: <http://www.ponto-com.com/NR/exeres/50F4BA6E-5647-4D53-A9C929DFBB6AE9AF.htm>. Acesso em: 10 set. 2001.
FROEHLICH, Thomas J. R. Caveat Web surfer! responsabilidade social e recursos da
Internet. Transinformao. Campinas, v.10, n.2, maio/agosto, 1998. Disponvel em:
<http://www.puccamp.br/~biblio/transinformacao/old/vol10n2/pag15.html>. Acesso
em: 02 fev. 2001.
GAUCH, Susan. Wang, Guijun. Information fusion with ProFusion. In WebNet WORLD CONFERENCE OF THE WEBSOCIETY, 1, 1996, San Francisco. Disponvel
em: <http://www.ittc.ukans.edu/~sgauch/papers/WebNet96.html>. Acesso em: 08 jun.
2001.
GOSUENT, Adriano. A Internet fato consumado. e agora, Mr. Froehlich?
Transinformao. Campinas, v.10, n.2, maio/agosto, 1998. Disponvel em:
<http://www.puccamp.br/~biblio/transinformacao/old/vol10n2/pag49.html>. Acesso
em: 02 fev. 2001.
HAHN, Trudi Bellardo. Text Retrieval Online: historical perspective on Web Search
Engines. Bulletin ASIS. V.24, n.4, April/May, 1998. Disponvel em:
<http://www.asis.org/Bulletin/Apr-98/hahn.html>. Acesso em: 22 jun. 2001.
HARMAN, Donna. The Text Retrieval Conferences (TRECs): proving a test-bed for
information retrieval systems. ASIS Bulletin. Apr/May 1998. Disponvel em:
<http://www.asis.org/Bulletin/Apr-98/harman.html>. Acesso em: 11 ago. 2001.
HARRIS, P.E. In search of the Rosetta Stone (search engine capabilities). Online and CDROM Review. v.23, n.4, 1999, p.235-238.
HOCK, R. Websearch engines: features and commands. Online. v.23, n.3, may/june 1999,
p.24-28.
KIRKPATRICK, D. Whats a Google? A great search engine, thats what. Fortune. 8 Nov.
1999, p. 139.
90
LANCASTER, F.W. Information Retrieval System: characteristics, testing and
evaluation. USA: John Wiley & Sons, 1979. 318p.
LANCASTER, F.W., FAYEN, E.G. Information Retrieval On-Line. Los Angeles, CA:
Melville Publishing Co. 1973.
LAWRENCE, Steve, GILES, Lee. Accessibility and distribution of information on the
Web. Disponvel em: <http://wwwmetrics.com>. Acesso em: 27 jul. 2000.
LAWRENCE, Steve, GILES, Lee. Accessibility of information on the web. Nature. v.400,
july 1999, p.107-109.
LAWRENCE, Steve, GILES, Lee. How big is the Web? How much of the web do the
search engine index? How up to date are the search engines?. Disponvel em:
<http://www.neci.nec.com/~lawrence/websize.html>. Acesso em: 16 jul. 2001.
LAWRENCE, Steve, GILES, Lee. Searching the World Wide Web. Science. v.280,
n.5360, p.98-100, 1998. Disponvel em:
<http://www.neci.nec.com/~lawrence/science98.html>. Acesso em: 12 jul. 2001.
LAZONDER, Ard W., BIEMANS, Harm, J.A., WOPEREIS, Iwan G.J.H. Differences
between novice and experienced users in searching information on the World Wide Web.
Journal of American Society for Information Science. v.51, n.6, April 2000, p.576-581.
LEBEDEV, Alexander. Best search engines for finding scientific information in the Web.
Disponvel em: <http://www.chem.msu.su/eng/comparison.html>. Acesso em: 03 maio
2001.
LEIGHTON, H. Vernon, SRIVASTAVA, Jaideep. First 20 Precision among World Wide
Web Search Services (Search Engines). Journal of the American Society for Information
Science. v.50, n.10, July, 1999.
LEIGHTON, H. Vernon, SRIVASTAVA, Jaideep. Precision among World Wide Web
Search Services (Search Engines): Alta Vista, Excite, Hotbot, Infoseek, Lycos. 1997.
Disponvel em: <http://www.winona.msus.edu/library/webind2/webind2.htm> Acesso
em: 09 mar. 2001.
LYMAN, Peter, VARIAN, Hal R. How much information? Disponvel em:
<http://www.sims.berkeley.edu/how-much-info/>. Acesso em: 26 out. 2000.
MACHADO, Raymundo das Neves. Servios de busca na Web: algumas reflexes sobre
sua avaliao. In: CONGRESSO BRASILEIRO DE BIBLIOTECONOMIA E
DOCUMENTAO, 23, 2000, Porto Alegre. Anais... Disponvel em:
<http://embauba.ibict.br/cbbd2000/>. Acesso em: 27 abr. 2001.
MAHON, Barry. Information retrieval, a story of research and other strange activities.
ICSTI Forum, n. 37, Mar. 2001. Disponvel em:
<http://www.icsti.org/icsti/forum/37/>. Acesso em: 08 jun. 2001.
MALIK, Om. How Google is that? Forbes Magazine. Disponvel em:
<http://www.forbes.com/tool/html/99/oct/1004/feat.htm>. Acesso em: 14 ago. 2000.
MICKEY, W. A web search trifecta (sources of search engine information). Online. v.23,
n.3, may/june 1999, p.79-82
MOREIRA, Walter. As garantias no texto de Froehlich. Transinformao. Campinas, v.10,
n.2, maio/agosto, 1998. Disponvel em:
91
<http://www.puccamp.br/~biblio/transinformacao/old/vol10n2/pag38.html>. Acesso
em: 02 fev. 2001.
MOREIRA, Walter. Eficcia dos mecanismos de busca brasileiros na Internet. In:
CONGRESSO BRASILEIRO DE BIBLIOTECONOMIA E DOCUMENTAO,
23, 2000, Porto Alegre. Anais... Disponvel em: <http://embauba.ibict.br/cbbd2000/>.
Acesso em: 27 abr. 2001.
NOTESS, Greg. Searching the hidden Internet. Database. June/July 1997, p.37-40.
PETERSON, Richard Einer. Eight Internet Search Engines Compared. First Monday,
Chicago, v.2, n.2, Feb. 1997. Disponvel em:
<http://www.firstmonday.dk/issues/issue2_2/peterson/index.html>. Acesso em: 21 mar.
2001.
POULTER, Alan. The design of World Wide Web search engines: a critical review.
Program, v.31, n.2, p. 131-145, April 1997.
RANDALL, Neil. The search engine that could. PC Computing Online. September,
1995. Disponvel em:
<http://www.zdnet.com/pccomp/features/internet/search/index.html>. Acesso em: 08
jun. 2001.
RIJSBERGEN, C.J. van. Information retrieval. Woburn: Butterworth & Co Ltda, 1979.
208 p. Disponvel em: <http://www.dcs.gla.ac.uk/Keith/Preface.html>. Acesso em: 21
jun. 2001.
SARACEVIC, Tefko. Comparative Effects of titles, abstracts and full texts on relevance
judgments. Proc. Amer. Soc. Information Sci, v.6, p.293-299. Apud LANCASTER, F.W.,
FAYEN, E.G. Information Retrieval On-Line. Los Angeles, CA: Melville Publishing Co.
1973.
SARACEVIC, Tefko. Relevance: a review of and a framework for the thinking on the
notion in Information Science. Journal of the American Society for Information
Science. v.26, n.6, p.321-343, 1975.
SCHLICHTING, Carsten, NILSEN, Erik. Signal detection analysis of WWW search
engines. In: DESIGNING FOR THE WEB: EMPIRICAL STUDIES, 1996. Disponvel
em: <http://www.microsoft.com/usability/webconf/schlichting.htm>. Acesso em: 08 jun.
2001.
SCHWARTZ, Candy. The 2001 Infonortics Search Engine Meeting. Bulletin of the
American Society for Information Science and Technology. v.27, n.6.
August/September 2001. Disponvel em: <http://www.asis.org/Bulletin/Aug01/schwartz.html>. Acesso em: 28 ago. 2001.
SCHWARTZ, Candy. Web Search Engines. Journal of the American Society for
Information Science. v.49, n.11, p.973-982, Sep. 1998.
STOBART, Simon, KERRIDGE, Susan. An investigation into World Wide Web search
engine use from within the UK preliminary findings. Ariadne. v.6, Nov. 1996.
Disponvel em: <http://www.ariadne.ac.uk/issue6/survey/>. Acesso em: 05 fev. 2001.
SULLIVAN, D. Crawling under the hood. An update on search engine tecnology. Online,
v.23, n.3, may/june 1999, p.30-38.
92
VAZ, Rodolfo Cezar Ranulfo. Metodologia de avaliao de mecanismos de
recuperao da informao na rede WWW da Internet. 2000. 165p. Dissertao
(Mestrado em Cincia da Informao) Faculdade de Estudos Sociais Aplicados,
Departamento de Cincia da Informao e Documentao, Universidade de Braslia.
Braslia.
WALKER, Leslie. COM-LIVE (The Washington Post interview with Sergey Brin, founder
and CEO of Google. Disponvel em: <http://www.washingtonpost.com/wpsrv/liveonline/business/walker/walker110499.htm> Acesso em: 14 ago. 2000.
WARD, J. Indexing and classification at Northern Light. NFAIS newsletter. V.41, n.10,
Oct. 1999, p.138-140.
WESTERA, Gillian. Robot-driven search engine evaluation overview. Disponvel em:
<http://lisweb.curtin.edu.au/staff/gwpersonal/senginestudy>. Acesso em: 08 jun. 2001.
ZORN, Peggy, EMANOIL, Mary, MARSHALL, Lucy, PANEK, Mary. Advanced
searching: tricks of the trade. Online. v.20, n.3. May 1996. Disponvel em:
<http://www.onlineinc.com/onlinemag/MayOL/zorn5.html>. Acesso em: 07 jun. 2001.
LISTA DE SITES:
AltaVista. Disponvel em: <http://www.altavista.com>. Acesso em: 20 jun. 2001.
Cad. Disponvel em: <http://www.cade.com.br>. Acesso em: 20 jun. 2001.
Google. Disponvel em: <http://www.google.com>. Acesso em: 20 jun. 2001.
Hobbes Internet Timeline v5.3. Disponvel em:
<http://www.zakon.org/robert/internet/timeline/>. Acesso em: 11 jun. 2001.
Lycos. Disponvel em: <http://www.lycos.com>. Acesso em: 20 jun. 2001.
Mamma. Disponvel em: <http://www.mamma.com>. Acesso em: 20 jun. 2001.
Metacrawler. Disponvel em: <http://www.metacrawler.com>. Acesso em: 20 jun. 2001.
Miner. Disponvel em: <http://www.miner.com.br>. Acesso em: 20 jun. 2001.
Mining Company. Disponvel em: <http://websearch.miningco.com>. Acesso em: 12 ago.
2001.
Radix. Disponvel em: <http://www.radix.com.br>. Acesso em: 20 jun. 2001.
Search Engine Meeting. Disponvel em: <http://www.infonortics.com/searchengines>.
Acesso em: 08 jun. 2001.
Search Engine Show Down. Disponvel em: <http://searchengineshowdown.com>.
Acesso em: 20 jun. 2001.
Search Engine Watch. Disponvel em: <http://www.searchenginewatch.com/>. Acesso
em: 20 jun. 2001.
Search Engine Watch. Sprechen Sie Search Engines? Disponvel em:
<http://www.searchenginewatch.com/facts/sprechen.htm>. Acesso em: 11 jun. 2001.
Webopedia. Disponvel em: <http://www.webopedia.com>. Acesso em: 06 jun. 2001.
93
Yahoo News! Disponvel em:
<http://fullcoverage.yahoo.com/fc/Tech/Internet_Portals_and_Search_Engines/>.
Acesso em: 20 jun. 2001.
Yahoo! Disponvel em: <http://www.yahoo.com>. Acesso em: 20 jun. 2001.
94
ANEXO 1
The Search Engine Index
In the spirit of the Harper's Index and Win Treese's Internet Index, the Search Engine
Index is a compilation of interesting facts about search engines. Also, see below for
resources for more general Internet statistics.
Paid submission to Yahoo and LookSmart and paid listings with GoTo
are the most popular paid participation programs, each used by over 30
percent of webmasters surveyed.
CyberAtlas, August 2001
Surplus Of Search Engine Marketing Reports
Nine out of ten web users visit a search engine, portal or community site
each month. They also revisit frequently, nearly five times per month.
Nielsen//NetRatings, May 2001
Three Site Types Dominate Surfing Habits
Meta tags are the most popular search engine optimization technique,
used by 61% of those surveyed, followed by optimizing page titles
(44%) and link building (32%).
Iconocast, Nov. 2000
95
Search engines are the top way consumers find new web sites online,
used by 73.4% of those surveyed.
Driving Customers, Not Just Site Traffic
Forrester, March 28, 2001
(Data from October 2000)
Search engines are the top information resource Americans use when
seeking answers, used 32 percent of the time, more than any other
option.
Consumer Daily Question Study, Fall 2000
Search engine positioning was the top method cited by web site
marketers to drive traffic to their sites (66%), followed by email
marketing (54%).
Direct Marketing Association, Aug. 2000
Americans search the web practically every other day. Nearly 1/3
search once or more per day.
WebTop Search Rage Study, August 2000
96
information.
WebTop Search Rage Study, August 2000
57% of Internet users search the web each day, making search the
second most popular Internet activity. 46% say they look for product
info, making this the third most popular activity.
Email is the most popular activity,
with 81% checking each day.
Feb. 17, 2000, "How People Use the Internet," SRI
42% of those who bought from online retail sites arrived via search
engines. Entering the URL directly was the most popular method
(60%), followed by using bookmarks (48%).
Oct. 1999, "Online Retail Monitor," NFO
97
CyberAtlas
Comprehensive coverage of Internet-related statistics.
98
Fonte: Search Engine Watch. The Search Engine Index. Disponvel em:
<http://www.searchenginewatch.com/reports/seindex.html> Acesso em: 03 nov. 2001.
99
ANEXO 2
Curso: Carpintaria do Trabalho Acadmico
Professor: Maria de Nazar Freitas Pereira
Objetivos:
1 Apresentar mtodo de trabalho que facilita o desenvolvimento do trabalho acadmico,
integrando em um nico movimento a produo de forma e contedo;
2 Transformar o processo de redao do trabalho acadmico em tarefa rotineira e
sistemtica;
3 Permitir o conhecimento substantivo da literatura pertinente a um tema/questo de
pesquisa;
4 Ampliar a rede de textos pertinentes ao tema/questo de pesquisa via levantamentos
bibliogrficos nos agentes de busca da Internet e na prpria bibliografia dos textos;
5 Construir paulatinamente o texto do trabalho acadmico, ao evoluir do domnio da
literatura pertinente redao de pargrafos, sees, captulos, verses preliminares e
verso final;
6 Formatar o trabalho acadmico de acordo com padres aceitos no mbito de uma
comunidade de pesquisa;
7 Dominar recursos disponveis no editor de texto Word para economia de tempo de
trabalho;
8 Organizar os arquivos do trabalho acadmico, usando ferramentas apropriadas para tal
fim, e
9 Usar agentes de busca para PC (personal computer) a fim de indexar e recuperar os textos
pertinentes redao do trabalho acadmico em seus aspectos mais elementares.
Ementa:
A metodologia moda antiga da verdade ao texto. Abordagens tradicionais de
construo de contedo e forma. A abordagem antropolgica: a informao como
transporte da matria que vira signo e de signo que vira matria. Como organizar um
Centro de Clculo para comprimir/reduzir matrias do mundo ausente. Metrologia e
economia do trabalho acadmico: estilo, teclas de atalho, normas de citao e de referncias
bibliogrficas. O processo de reduo/compresso do mundo ausente: do estudo anotado
(fontes em papel e fontes eletrnicas) e do controle das fontes de informao. As
ferramentas de organizao da informao. Os motores de busca (o agente Discovery):
gerncia do processo de indexao e de recuperao. O processo de deslocamento do
estudo anotado ao texto do trabalho acadmico. Definindo as pginas pr-textuais do
trabalho acadmico (dissertaes e teses): capa, folha de rosto, sumrio, lista de figuras,
abreviaes etc.