Você está na página 1de 110

MECANISMOS DE BUSCA NA WEB: UMA ANLISE DA METODOLOGIA DE ESTUDOS COMPARADOS

Maria Simone de Menezes Alencar

Rio de Janeiro 2001

ii

MECANISMOS DE BUSCA NA WEB: UMA ANLISE DA METODOLOGIA DE ESTUDOS COMPARADOS

Maria Simone de Menezes Alencar

Universidade Federal do Rio de Janeiro Escola de Comunicao Mestrado em Cincia da Informao Convnio UFRJ/ECO - MCT/IBICT

Maria de Nazar Freitas Pereira Doutora em Cincias Humanas, IUPERJ

Rio de Janeiro 2001

iii

004 Alencar, Maria Simone de Menezes A368m Mecanismos de busca na Web : uma anlise da metodologia de estudos comparados / Maria Simone de Menezes Alencar. Rio de Janeiro, 2001. ix, 96 f. : il. Orientadora: Maria de Nazar Freitas Pereira Dissertao (mestrado). UFRJ/ECO-MCT/IBICT Bibliografia : f. 90-95 1. Mecanismos de busca. 2. Web. 3. Recuperao da informao. I. Pereira, Maria de Nazar Freitas. II. Ttulo. CDU 004

ii

Mecanismos de busca na Web: uma anlise da metodologia de estudos comparados Maria Simone de Menezes Alencar

Dissertao submetida ao curso de Mestrado da Ps-Graduao em Cincia da Informao do MCT/IBICT em convnio com a UFRJ/ECO, como parte dos requisitos necessrios ao grau de Mestre.

Aprovada por: ______________________________________________ Prof. Maria de Nazar Freitas Pereira - Orientador Doutora em Cincias Humanas, IUPERJ ______________________________________________ Prof. Lena Vnia Ribeiro Pinheiro Doutora em Comunicao e Cultura, UFRJ/ECO ______________________________________________ Prof Maria Luiza Machado Campos Ph.D. em Engenharia de Sistemas, University of East Anglia, Inglaterra ______________________________________________ Prof. Hagar Espanha Gomes Livre docente, UFF

Rio de Janeiro 2001

iii

AGRADECIMENTOS

Nosso conhecimento uma pequena ilha, em um enorme oceano de no-conhecimento. Isaac Bashevis Singer

Mergulhada num oceano de informaes, vi minha pequena ilha de conhecimento, isolada, sem conexes, um arquiplago sem pontes, sem barcos, sem caminhos. Buscar os elos, traar os caminhos, buscar similitudes e diferenas foi uma descoberta. Uma descoberta de conhecimento e um enorme vazio de no-conhecimento. E atravs desses buracos, foi sendo construda uma teia de conexes, de links, de elos que me possibilitaram entrar em contato comigo mesmo, com minhas capacidades e limitaes, com minhas potencialidades e impossibilidades. Esse caminho s foi possvel atravs do contato com pessoas. Nomear todas tarefa impossvel, mas me atrevo a agradecer nominalmente a algumas. Tudo comeou com uma conversa com Patrcia Henning, passou pela Yone Chastinet, Sandra Rebel, Ida Maria Cardoso Lima, Carlos Nepomuceno e meus colegas no Programa Prossiga. Nos corredores e salas de aula do DEP tive o estmulo intelectual dos professores e colegas de curso. O apoio dos funcionrios pode ser representado pela pacincia e ateno de Abneser da Silva Cunha. Agradeo a presena constante de Andra Duque, a cuidadosa reviso de texto de Maria Helena de Lima Hatschbach, a inspirao potica de Renato Rezende, o estmulo distncia de Clara vila, o apoio espiritual de ngela Giorgio e a ajuda direta ou indireta de inumerveis companheiros nessa jornada diria. Finalmente, agradeo a confiana, carinho, compreenso e exemplo da minha querida orientadora Nazinha. E acima de tudo, agradeo a Deus, pela oportunidade de estar concluindo essa etapa da minha vida e pelas pessoas, verdadeiros Anjos de Luz, colocadas no meu caminho na hora precisa.

iv

RESUMO
ALENCAR, Maria Simone Menezes de. Mecanismos de busca na Web: uma anlise da metodologia de estudos comparados. 2001. Dissertao (Mestrado em Cincia da Informao) - UFRJ/ECO-MCT/IBICT, Rio de Janeiro. Orientador: Maria de Nazar Freitas Pereira.

Desenvolvimento de um modelo com cinco parmetros para avaliao da recuperao da informao em mecanismos de busca do tipo motor. O modelo est baseado em autores clssicos da Cincia da Informao. A partir desse modelo foi derivado um check-list que composto por treze critrios para avaliao de estudos comparados de mecanismos de busca. O check-list foi utilizado como mtodo para analisar dez estudos comparados, e o resultado desta anlise demonstra a ausncia de um embasamento terico da Cincia da Informao, nos aspectos relativos recuperao da informao. O check-list proposto parece se adequar s inovaes tecnolgicas apontadas por estudos de tendncias, o que demonstra a importncia da base terica clssica da Cincia da Informao para estudos de tecnologias de informao de base digital.

ABSTRACT

ALENCAR, Maria Simone Menezes de. Mecanismos de busca na Web: uma anlise da metodologia de estudos comparados. 2001. Dissertao (Mestrado em Cincia da Informao) - UFRJ/ECO-MCT/IBICT, Rio de Janeiro. Orientador: Maria de Nazar Freitas Pereira.

A model with five parameters for the evaluation of information retrieval in motor search engines was developed. This model is based on canonical Information Science authors. Starting from this model, a checklist constituted by thirteen criteria for the evaluation of comparative studies of search engines was drawn. This checklist was used as method for the analysis of ten comparative studies, and this analysis' results indicate lack of an Information Science theoretical foundation concerning information retrieval. The proposed checklist seems to apply to technological innovations pointed out by trend studies, which demonstrates the significance of Information Science's canonical theoretical foundation for the study of digital-based information technologies.

vi

SUMRIO
INTRODUO .......................................................................................................... 1 1. A RECUPERAO DE INFORMAO E OS MECANISMOS DE BUSCA ... 8 1.1 COLEO ........................................................................................................ 13 1.2 ANATOMIA...................................................................................................... 18 1.3 TREINAMENTO DE USURIOS ........................................................................... 24 1.4 ESTUDOS DE USOS/USURIOS ........................................................................... 26 1.5 TENDNCIAS ................................................................................................... 28 2. AVALIAO DA RECUPERAO DE INFORMAO................................ 30 2.1 MODELO DE LANCASTER & FAYEN.................................................................. 32 2.1.1 Expanso do modelo................................................................................ 36 2.2 MODELO PARA A WEB ..................................................................................... 37 2.2.1 Preciso .................................................................................................. 39 2.2.2 - Cobertura ................................................................................................ 40 2.2.3 - Esforo do usurio ................................................................................... 40 2.2.3.1 - Documentao do sistema ................................................................. 41 2.2.3.2 Interface com o usurio..................................................................... 41 2.2.3.3 - Capacidade de busca.......................................................................... 41 2.2.3.3.1 Relacionamento entre termos ..................................................... 41 2.2.3.3.1.1 Operadores booleanos ......................................................... 42 2.2.3.3.1.2 Proximidade entre termos.................................................... 42 2.2.3.3.1.3 Linguagem natural............................................................... 42 2.2.3.3.1.4 Atravs de vocabulrio ........................................................ 42 2.2.3.3.2 Interpretao de uma nica palavra ............................................. 43 2.2.3.3.2.1 Truncagem .......................................................................... 43 2.2.3.3.2.2 Distino entre maisculas e minsculas ............................. 43 2.2.3.3.2.3 Delimitao por campo........................................................ 43 2.2.3.3.2.4 Eliminao de palavras no significativas............................ 44 2.2.3.3.2.5 Atribuio de pesos a termos ............................................... 44 2.2.3.3.2.6 Incorporao automtica de sinnimos ................................ 44

vii

2.2.4 Formato de sada..................................................................................... 45 2.2.4.1 Critrio de ordenao........................................................................ 45 2.2.4.2 Formato de exibio.......................................................................... 46 2.2.5 Atualidade ............................................................................................... 47 3. ANLISE DA METODOLOGIA DE AVALIAO ......................................... 48 3.1 OS ESTUDOS COMPARADOS E SEUS AUTORES .................................................... 57 3.2 OS MECANISMOS DE BUSCA COMPARADOS ....................................................... 60 3.3 A METODOLOGIA DOS ESTUDOS COMPARADOS ................................................. 62 3.3.1 Tipo de informao procurada ................................................................ 70 3.3.2 Critrio de seleo dos mecanismos de busca.......................................... 71 3.3.3 - Nmero de buscas executadas em cada mecanismo.................................. 72 3.3.4 - Critrio de seleo das perguntas feitas para comparar os mecanismos de busca .................................................................................................................. 72 3.3.5 - Sintaxe executada nas buscas................................................................... 73 3.3.6 - Parmetros comparados .......................................................................... 74 3.3.6.1 Preciso ............................................................................................ 76 3.3.6.2 Cobertura.......................................................................................... 76 3.3.6.3 Esforo do usurio ............................................................................ 76 3.3.6.3.1 Documentao do sistema .......................................................... 76 3.3.6.3.2 Interface com o usurio .............................................................. 77 3.3.6.3.3 Capacidades de busca................................................................. 77 3.3.6.4 Formato de sada............................................................................... 77 3.3.6.4.1 Critrio de ordenao ................................................................. 77 3.3.6.4.2 Formato de exibio................................................................... 78 3.3.6.5 Atualidade ........................................................................................ 78 3.3.6.6 Outros parmetros............................................................................. 78 3.3.7 - Nmero de resultados analisados............................................................. 79 3.3.8 - Critrios de avaliao de relevncia dos resultados encontrados............. 79 3.3.9 - Anlise estatstica dos resultados ............................................................. 80 3.3.10 Perodo de tempo em que as buscas foram realizadas............................ 81 3.3.11 - Sesses de busca .................................................................................... 81 3.3.12 - Mtodo de coleta de resultados .............................................................. 81

viii

3.3.13 - Quem analisou os resultados e como...................................................... 82 CONSIDERAES FINAIS.................................................................................... 84 REFERNCIAS BIBLIOGRFICAS..................................................................... 88 ANEXO 1 .................................................................................................................. 94 ANEXO 2 .................................................................................................................. 99

ix

LISTA DE FIGURAS, QUADROS E TABELAS


Figura 1 A coleta de dados na Web: a superfcie e a Web profunda. ..................................14 Quadro 1 Linhas de pesquisa relacionadas aos subsistemas dos mecanismos de busca do tipo rob. .....................................................................................................................20 Quadro 2 Termos para a definio de relevncia. ...................................................................35 Tabela 1 Autores citados por Schwartz sobre avaliao de performance............................51 Tabela 2 Resultados obtidos dos trabalhos de diferentes autores sobre mecanismos de busca.............................................................................................................................52 Tabela 3 Critrio de avaliao dos autores................................................................................53 Tabela 4 Autores citados por Barry & Richardson e suas respectivas URLs ......................54 Tabela 5 Listagem geral dos estudos comparados citados por Schwartz e Barry & Richardson...................................................................................................................55 Tabela 6 Os estudos comparados e seus autores.....................................................................58 Tabela 7 Os mecanismos de busca comparados......................................................................61 Quadro 4 Check-list para avaliao de estudos comparados .................................................63 Tabela 8 Caractersticas de cada estudo comparado ...............................................................65 Tabela 9 Parmetros estudados por cada autor. ......................................................................75

INTRODUO
A evoluo das tecnologias de informao e comunicao nos traz novas situaes que merecem ser estudadas luz das teorias desenvolvidas para os sistemas tradicionais de informao e comunicao. Neste trabalho estaremos estudando os mecanismos de busca na Web, uma nova aplicao para os sistemas de recuperao de informao. A Internet um imenso repositrio mundial de informao. A Rede possui um potencial que permite que pessoas de diferentes culturas, com conhecimentos e interesses os mais variados, possam compartilhar informaes, tornando disponveis suas informaes publicamente e, ao mesmo tempo, procurar por conhecimentos e experincias que outros desenvolveram e relataram. As informaes disponveis na Internet se apresentam em diversos formatos. Os recursos podem estar disponveis em forma de textos, arquivos formatados, imagens, sons, vdeos. No entanto, a World Wide Web, mais comumente chamada Web, oferece uma interface que permite a disponibilizao da maioria dos recursos disponveis. O estudo intitulado How much information1 se props a estudar quanta informao produzida mundialmente a cada ano, estoque acumulado, taxas de crescimento, entre outras variveis. Este estudo mostra que 93% da informao produzida em 1999 j foi criada em formato digital e apresenta, tambm, dados sobre o crescimento da informao disponibilizada na Internet: 2,1 bilhes de pginas nicas acessveis publicamente, e cerca de 4 bilhes estimados para o incio de 2001, mantida a taxa de crescimento; 7,3 milhes de pginas2 adicionadas diariamente. O tamanho da Web um assunto que estimula inmeras pesquisas, suscitando discusso sobre as metodologias utilizadas para estes estudos, que nem sempre so claras e oferecem um grau de incerteza muito grande quanto medida de seu tamanho.
LYMAN, Peter, VARIAN, Hal R. How much information? Disponvel em: <http://www.sims.berkeley.edu/how-much-info/>. Acesso em: 26 out. 2000. 2 Uma pgina web definida pelos autores como um recurso da Web que contm nenhum, um ou mais recursos da Web embutidos, e que freqentemente um objeto composto, consistindo em mltiplos recursos, por exemplo, texto, imagens, applets, etc. Uma pgina Web uma nica entidade, identificada por um endereo (URL) nico.
1

2 Recentemente, novas pesquisas esto sendo publicadas sobre a questo da Internet invisvel, a parte da Internet que no acessvel atravs dos mecanismos de busca. Um estudo3 afirma que a Internet 500 vezes maior do que o segmento coberto pelos mecanismos de busca, pois cada vez mais as informaes esto sendo disponibilizadas na Web atravs de bancos de dados mantidos por agncias governamentais, universidades e companhias privadas. Independente do tamanho estimado, a Internet pode ser vista como uma grande massa de informaes. Para localizar a informao desejada necessrio o desenvolvimento de ferramentas de busca cada vez mais poderosas que permitam uma melhor filtragem do material desejado. Os servios auxiliares de busca de informao surgem na Internet medida em que a quantidade de recursos disponveis cresce. Para localizao de arquivos disponveis atravs de FTP4 annimo surgiu o Archie. Arquivos de listas de discusso (listserv) podiam ser pesquisados atravs de comandos enviados ao servidor. Diretrios on-line como Hytelnet e Libs permitiam a pesquisa em colees disponveis por Telnet. A ampla adoo do Gopher, no incio dos anos 90, foi seguida do desenvolvimento do Veronica (ndice de vrios Gophers) e do Jughead (ndice de um nico Gopher), ambos provendo pesquisa por palavrachave atravs do texto das linhas de menu do Gopher. O WAIS (Wide Area Information Server), um instrumento de pesquisa de grandes bases de dados na rede, foi projetado a partir da experincia acumulada de trinta anos de pesquisa da comunidade de Cincia da Informao sobre o uso de caractersticas estatsticas do texto para a recuperao e o desenvolvimento do protocolo Z39.50 para interoperabilidade entre catlogos de bibliotecas automatizadas. A primeira verso de navegador (browser) em modo texto surgiu em 1991, lanado pelo CERN (European Organization for Nuclear Research). Em 1993, surgem as verses grficas para Windows e MacIntosh e com isso houve um crescimento de recursos disponveis na Web. Nesta poca, para descobrir novos sites, o ponto de referncia era a World Wide Web Virtual Library, no site do CERN, uma lista alfabtica de assuntos com links para pginas, dispositivo que hoje seria classificado como ferramenta de busca do tipo diretrio. Com a
3 BERGMAN, Michel K. The deep Web: surfacing hidden value. Journal of the Electronic Publishing. v.7, n.1, Aug. 2001. Disponvel em: <http://www.press.umich.edu/jep/07-01/bergman.html>. Acesso em: 06 set. 2001. 4 FTP File Transfer Protocol

3 facilidade que a interface grfica traz, inicia-se em 1993 a expanso da utilizao da Web, atingindo uma taxa de crescimento anual de 341.634%, enquanto a taxa anual de crescimento do Gopher foi de 997%, na mesma poca5. Novas questes relacionadas armazenagem e recuperao de informao surgem com a popularizao da Internet, resultando em maior volume de estudos e pesquisas sobre diferentes aspectos da recuperao da informao. Falar de recuperao de informao na Internet e WWW significa falar de mecanismos de busca, aqui entendidos como aqueles que esto diretamente relacionados busca de informao no ambiente da Web e no na Internet como um todo. fato que no h padronizao na nomenclatura a esse respeito, de tal sorte que alguns autores, como Poulter6, se referem a mecanismos de busca (search engines) para todo tipo de ferramenta pr e ps-Web. Por sua vez, Chu & Rosenthal7 referem-se inicialmente a auxiliares de busca (search aids) para qualificar todas as ferramentas de busca, tanto pr como ps-Web, para, logo em seguida, substituir essa denominao por mecanismos de busca (search engines). Contudo, para fins desta pesquisa, distingue-se a nomenclatura adotada para as ferramentas de busca entre essas fases, pr e ps-Web. Na fase pr-Web da Internet, o ambiente era puramente acadmico e os servios para descoberta de recursos informacionais tinham um carter no-corporativo, nocomercial. Assim, preferimos adotar a expresso auxiliares de busca para aqueles servios de recuperao de informao nos recursos disponveis nessa fase de desenvolvimento da Internet. Para a fase ps-Web, optamos por utilizar a expresso mecanismos de busca que, embora no seja a traduo correspondente search engines, entendemos ser aquela mais adequada, por dois motivos. Primeiramente, a denominao mais adotada entre os autores brasileiros e, em segundo lugar, designa melhor o conjunto de componentes dos search engines. Cabe ressaltar, tambm, que o site Search Engine Watch, um site referencial,

5 Hobbes Internet Timeline v5.3. Disponvel em: <http://www.zakon.org/robert/internet/timeline/>. Acesso em: 11 jun. 2001. 6 POULTER, Alan. The design of World Wide Web search engines: a critical review. Program, v.31, n.2, p. 131-145, April 1997. 7 CHU, Heting, ROSENTHAL, Marilyn. Search Engines for the World Wide Web: A Comparative Study and Evaluation Methodology. In: ASIS 1996 Annual Meeting. 1996, Baltimore. Electronic Proceedings. Disponvel em: <http://www.asis.org/annual-96/ElectronicProceedings/chu.html>. Acesso em: 26 ago. 2000.

4 traduz o termo search engines para mecanismos de busca , em uma pgina8 dedicada traduo desta expresso para vrias lnguas. Segundo a Webopedia, uma enciclopdia digital, os mecanismos de busca (search engines) so: Programas que pesquisam em documentos por palavras-chave especificadas e recuperam uma lista de documentos onde as palavraschave foram encontradas. Embora mecanismos de busca sejam uma classe geral de programas, o termo freqentemente usado para especificamente descrever sistemas como AltaVista e Excite que permitem a usurios pesquisar por documentos na World Wide Web e newsgroups USENET. Tipicamente, um mecanismo de busca trabalha enviando um rob (spider) para buscar o maior volume de documentos possvel. Outro programa, chamado indexador, l esses documentos e cria um ndice baseado nas palavras contidas em cada documento. Cada mecanismo de busca usa um algoritmo prprio para criar seu ndice de tal modo que, em condies ideais, s resultados significativos sejam recuperados para cada busca. 9 Vrios autores procuram sistematizar os diferentes tipos de mecanismos de busca disponveis na Web (Peterson10, Schwartz11). Uma categorizao usual - que pode ser chamada de clssica - entre os autores a classificao dos mecanismos de busca na Web em trs tipos bsicos: diretrios, motores de busca e metaferramentas. Os diretrios e motores possuem uma base de dados contendo representaes (metadados) das pginas que indexam. Os metadados utilizados variam em cada servio incluindo desde o endereo do site (URL) at o texto integral ou etiquetas de marcao e posicionais da pgina (tags). A diferena bsica entre esses dois tipos de servio est na forma em que a base de dados produzida. Nos diretrios, o trabalho de indexao feito, em muitos casos, por edio humana. Os diretrios so servios que possuem uma rvore de assuntos, com uma

8 Search Engine Watch. Sprechen Sie Search Engines? Disponvel em: <http://www.searchenginewatch.com/facts/sprechen.htm>. Acesso em: 11 jun. 2001. 9 Webopedia. Disponvel em: <http://www.webopedia.com>. Acesso em: 06 jun. 2001. 10 PETERSON, Richard Einer. Eight Internet Search Engines Compared. First Monday, Chicago, v.2, n.2, Feb. 1997. Disponvel em: <http://www.firstmonday.dk/issues/issue2_2/peterson/index.html>. Acesso em: 21 mar. 2001. 11 SCHWARTZ, Candy. Web Search Engines. Journal of the American Society for Information Science. v.49, n.11, p.973-982, Sep. 1998.

5 estrutura hierrquica, onde cada site indexado em um ou mais assuntos sob a rvore. Exemplos desse tipo de recurso so o Yahoo!12, o Lycos13 e o brasileiro Cad14. Os motores de busca so servios que possuem um rob (spider, wanderer, crawler) que varrem os sites na Internet, seguindo os links e indexando automaticamente a informao coletada pelos robs. Exemplos deste tipo de servio so o AltaVista15, o Google16 e o brasileiro Radix17. O terceiro tipo so as metaferramentas, que so servios que no possuem uma base de dados prpria e sim um software que pesquisa dados de outras bases, em geral, nos motores de busca. Uma metaferramenta envia a pesquisa para mais de uma ferramenta de busca, as vezes selecionadas pelo usurio. Geralmente, na exibio do resultado as duplicatas so retiradas. Exemplos desse tipo de servio so o Metacrawler18, o Mamma19 e o brasileiro Miner20. Diante das diversas opes de mecanismos de busca a serem adotados pelos usurios, fica a questo: qual a melhor ferramenta de busca?. Para responder esta proposio, muitos estudiosos tm feito trabalhos comparativos entre os resultados obtidos para determinadas questes em diversos mecanismos de busca. Os trabalhos comparados entre mecanismos de busca so, em ltima anlise, estudos de avaliao de performance desses sistemas que podem ser entendidos como sistemas de recuperao de informao baseados no ambiente da Web. Segundo Rijsbergen21, o problema da avaliao pode ser colocado na perspectiva de trs questes: (1) por que avaliar? (2) o que avaliar? (3) como avaliar?
Yahoo! Disponvel em: <http://www.yahoo.com>. Acesso em: 20 jun. 2001. Lycos. Disponvel em: <http://www.lycos.com>. Acesso em: 20 jun. 2001. 14 Cad. Disponvel em: <http://www.cade.com.br>. Acesso em: 20 jun. 2001. 15 AltaVista. Disponvel em: <http://www.altavista.com>. Acesso em: 20 jun. 2001. 16 Google. Disponvel em: <http://www.google.com>. Acesso em: 20 jun. 2001. 17 Radix. Disponvel em: <http://www.radix.com.br>. Acesso em: 20 jun. 2001. 18 Metacrawler. Disponvel em: <http://www.metacrawler.com>. Acesso em: 20 jun. 2001. 19 Mamma. Disponvel em: <http://www.mamma.com>. Acesso em: 20 jun. 2001. 20 Miner. Disponvel em: <http://www.miner.com.br>. Acesso em: 20 jun. 2001. 21 RIJSBERGEN, C.J. van. Information retrieval. Woburn: Butterworth & Co Ltda, 1979. 208 p. Disponvel em: <http://www.dcs.gla.ac.uk/Keith/Preface.html>. Acesso em: 21 jun. 2001.
12 13

6 Para responder a primeira questo, devemos ter em mente principalmente aspectos sociais e econmicos. O ponto de vista social est relacionado com o benefcio ou no do sistema de recuperao de informao, benefcio este que vai alm da qualidade dos documentos recuperados, considerando a vantagem ou no do usurio em utilizar o sistema. O ponto de vista econmico sugere a relao custo-benefcio de utilizao do sistema. Considerando a avaliao de um mecanismo de busca, o porqu de fazer sua avaliao diz respeito basicamente sua competitividade em relao aos demais, ou seja, se vantajoso para o usurio escolher um ou outro servio de recuperao da informao na Web. O ponto de vista econmico tambm influencia essas avaliaes, visto que, a partir das concluses, em geral surgem sugestes de melhorias que podem ser incorporadas aos servios. Esta questo considerada no apenas nesta introduo, onde procuramos apresentar a importncia dos mecanismos de busca no contexto informacional da atualidade mas, tambm, na seo seguinte, quando a discusso se amplia com a apresentao de uma viso geral da importncia dos estudos relacionados aos mecanismos de busca de informao na Web. A segunda questo levantada por Rijsbergen o que avaliar refere-se ao que pode ser medido para refletir a habilidade do sistema em satisfazer o usurio. Na seo 2 discutimos os parmetros que podem ser utilizados para avaliao de sistemas on-line de recuperao de informao. Oferecemos um modelo de critrios a serem utilizados, baseado nos parmetros propostos por Lancaster & Fayen,22 e ampliado a partir das especificidades do ambiente informacional dos mecanismos de busca na Web. Chegamos ento ltima pergunta: como avaliar?, que diz respeito diretamente ao mtodo utilizado na avaliao. Na seo 3, propomos um check-list para avaliao da metodologia de estudos comparados de mecanismos de busca do tipo motor. A partir deste roteiro, discutimos a metodologia aplicada em uma dezena de estudos comparados de avaliao de mecanismos de busca na Web. Questionamos, tambm, a influncia do mtodo sobre os resultados obtidos, ocasio em que estabelecemos as conexes com os parmetros do modelo discutido na seo anterior.

22

LANCASTER, F.W., FAYEN, E.G. Information Retrieval On-Line. Los Angeles, CA: Melville Publishing Co. 1973.

7 Finalmente, nas consideraes finais apresentamos as concluses obtidas na pesquisa e sugerimos, luz das tendncias na rea de recuperao de informao na Web, uma agenda de pesquisas como continuidade deste trabalho.

1.

RECUPERAO DE MECANISMOS DE BUSCA

INFORMAO

OS

Inicialmente, apresentamos os estudos sobre recuperao de informao que se iniciam na dcada de 60. Seguimos discutindo a importncia dos estudos nesta rea, recuperao de informao, e como eles se traduzem nos mecanismos de busca, instrumentos de recuperao de informao na Web. Posteriormente, fazemos uma reviso de literatura sobre estudos relacionados a mecanismos de busca, visando uma classificao geral de sua tipologia em cinco grandes reas de estudo: coleo funcionamento ou anatomia treinamento de usurios estudos de usurios estudos de tendncias A recuperao de informao um objeto de estudo da Cincia da Informao que teve um grande desenvolvimento na dcada de 60. Vaz23 apresenta em sua dissertao uma extensa e substantiva reviso dos experimentos realizados nessa dcada, de onde provm os dados a seguir. No final dos anos 50 e incio dos anos 60, um importante projeto foi financiado pela National Science Foundation, denominado Cranfield I. Seu autor, Cleverdon, fez uma avaliao de sistemas de recuperao de informao cujo objetivo era comparar quatro sistemas manuais de indexao, utilizando 18 mil documentos divididos em subconjuntos de 100 documentos. Nesta pesquisa, foram avaliadas trs variveis: experincia do indexador sistema de indexao utilizado
VAZ, Rodolfo Cezar Ranulfo. Metodologia de avaliao de mecanismos de recuperao da informao na rede WWW da Internet. 2000. 165p. Dissertao (Mestrado em Cincia da Informao) Faculdade de Estudos Sociais Aplicados, Departamento de Cincia da Informao e Documentao, Universidade de Braslia. Braslia.
23

tempo para indexao Uma nova pesquisa, denominada Cranfield II, foi desenvolvida por Cleverdon & Keen, visando o estudo de uma nica varivel: os dispositivos de linguagens de indexao. Em ambos os projetos, foram discutidos a revocao e a preciso como parmetros de avaliao dos sistemas. A revocao definida como a relao entre o nmero de documentos relevantes recuperados e o nmero total de documentos relevantes contidos no sistema. A preciso pode ser expressa como a taxa entre o nmero de documentos relevantes recuperados e o nmero total de documentos recuperados. Em 1965, Lancaster apresenta um trabalho de avaliao do MEDLARS24, um sistema automatizado de busca de informaes da rea mdica. Dentre os objetivos deste trabalho estavam a eficcia e a eficincia e os fatores que afetam a performance do sistema. Uma concluso interessante deste trabalho, destacada por Vaz, que novos estudos devem ser desenvolvidos para a melhoria da elaborao das questes a serem submetidas ao sistema na sua avaliao. Esta questo discutida na seo 3, onde abordamos a metodologia dos estudos de avaliao de mecanismos de busca. O TREC (Text Retrieval Conference) outra iniciativa, mais recente, financiada pelo NIST25 e DARPA26, que merece destaque. Desde 1992, grupos de pesquisa se renem regularmente com o objetivo de promover o desenvolvimento de pesquisas de sistemas de recuperao de informao em grandes colees27. Com o advento da Internet, e especificamente da Web, este vasto campo de estudos se amplia, visto que o volume de informaes pblicas e gratuitas neste ambiente um excelente material para o avano das pesquisas em recuperao de informao. Computadores gigantescos esto disponveis para rodar algoritmos complexos de recuperao e de ordenao em bases de dados, funcionando em tempo real tolervel. Iniciativas privadas e governamentais apiam pesquisas acadmicas em bibliotecas digitais, oferecendo um campo para explorar a descoberta e a recuperao em rede em ambiente controlado. Por outro lado, h colees de bases de dados muito grandes, de alguma forma heterogneas, e de propriedade de empresas cujos interesses comerciais so a melhoria do
24 25

MEDLARS Medical Literature Analysis and Retrieval System NIST National Institute of Standards and Technology 26 DARPA Defense Advanced Research Projects Agency 27 HARMAN, Donna. The Text Retrieval Conferences (TRECs): proving a test-bed for information retrieval systems. ASIS Bulletin. Apr/May 1998. Disponvel em: <http://www.asis.org/Bulletin/Apr98/harman.html>. Acesso em: 11 ago. 2001.

10 projeto de interface e a efetividade da recuperao. Assim, conforme conclui Schwartz28, raras foram as situaes onde, no campo da Cincia da Informao, os interesses da pesquisa acadmica e do desenvolvimento comercial de produtos estiveram to prximos. Chowdhury29 apresenta um importante levantamento sobre pesquisas no campo de recuperao de informao. Em seu estudo, destaca indcios do crescimento desta rea. O peridico Library and Information Science Research, em sua terceira edio de 1997, publicou um editorial sobre a agenda de pesquisa para alm de 2000. O corpo editorial foi convocado para criar uma lista de tpicos identificando os caminhos para as pesquisas nas reas de Biblioteconomia e Cincia da Informao nos prximos anos. As dez principais reas identificadas esto relacionadas, direta ou indiretamente, pesquisa de recuperao de informao. O autor apresenta, tambm, uma lista de reas de pesquisa30 coletadas a partir de busca na base de dados LISA31, em CD-ROM, e atravs dos ltimos peridicos em Cincia da Informao. Este trabalho revela um grande nmero de publicaes que esto relacionadas recuperao da informao na Internet e na Web, confirmando a agenda de pesquisa proposta pelos avaliadores da Library and Information Science Research. Um estudo elaborado por Brooks32, sobre os melhores trabalhos publicados no Journal of the American Society for Infomation Science (JASIS), outro indicador da importncia dessa rea de pesquisa. A anlise de citao dos 28 melhores artigos publicados nesse peridico, no perodo de 1969-1996, demonstra que o foco dos cinco melhores artigos a recuperao de informao e busca on-line. Quando trazemos a questo da recuperao de informao para o ambiente da Web estamos nos referindo aos mecanismos de busca, j que so estes que tornam possvel a recuperao de informao na Internet.

SCHWARTZ, Candy. Web Search Engines. Journal of the American Society for Information Science. v.49, n.11, p.973-982, Sep. 1998. 29 CHOWDHURY, G.G. The Internet and information retrieval research: a brief review. Journal of Documentation, v.55, n.2, p. 209-225, Mar. 1999. 30 As reas de pesquisa foram categorizadas em: ferramentas de busca; avaliao da recuperao; confiabilidade da informao na Web; interface para usurios; estudo de usurios; organizao da informao na Web; controle de vocabulrio; sada da busca na Web; agentes para busca inteligente, e Web vs base de dados tradicionais (on-line e CD-ROM). 31 LISA Library and Information Science Abstracts 32 BROOKS, Terrence A. How Good Are the Best Papers of JASIS? Journal of the American Society for Information Science. v.51, n.5, p.485-486, 2000.
28

11 Logo aps a chegada da Web, os mecanismos de busca tornam-se uma importante rea de pesquisa. Esses servios surgem a partir de 1994, inicialmente oriundos de atividades de pesquisa, ou at de recreao de colegiais, universitrios, analistas de sistemas e outros profissionais ligados a Web. Quando a tarefa de coleta e indexao comeou a exceder a capacidade humana e os recursos tcnicos disponveis, alguns desses projetos faliram. No entanto, outros foram adquiridos por empresas, financiados por anncios e investimento de capital, ou apoiados por iniciativas de pesquisa, e sobreviveram. Em 1996, as ferramentas de busca comearam a ser anunciadas em jornais, revistas e TV. Proliferaram diferentes produtos de busca diretrios, motores de busca, metaferramentas, servios baseados em assunto, agentes pessoais e servios de disseminao da informao (tecnologia push). O crescimento dos estudos em mecanismos de busca pode ser avaliado pela extensa bibliografia existente. Para citar um exemplo, um levantamento realizado em 2000, pela Dr. Anne Clyde33, intitulado Web Search Engines: General Bibliography and Resources, mostra cerca de 60 estudos publicados em papel ou on-line, apresentados em congressos e em revistas da rea no perodo de 1997 a 2000. Estes documentos envolvem fontes de diferentes procedncias, como revistas de informtica e artigos de divulgao. Seus autores so da Cincia da Informao, da Cincia da Computao e de empresas de marketing. O crescimento dos estudos em mecanismos de busca tambm pode ser avaliado pela existncia de uma coluna intitulada Internet Search Engine Update no peridico Online34. Essa publicao bimestral existe desde 1995. voltada para profissionais de informao e oferece artigos, reviso de produtos, estudo de casos, avaliaes e opinies sobre seleo, uso e gerenciamento de produtos eletrnicos de informao. A vitalidade da rea tambm pode ser observada pelos eventos dedicados a essa temtica. Uma importante conferncia sobre mecanismos de busca, a Search Engine Meeting35 j est em sua sexta edio. Outro indicativo so os sites dedicados ao estudo e acompanhamento da performance e crescimento das ferramentas como, por exemplo, o

33

CLYDE, Anne. Web search engines: general bibliography and resources. Disponvel em: <http://www.hi.is/~anne/websearch_bibliography.html>. Acesso em: 03 maio 2001. 34 ONLINE. Wilton: Online Inc. 1995-2001. Bimestral. Disponvel em: <http://www.onlineinc.com/onlinemag/index.html>. Acesso em: 10 jun. 2001. 35 Search Engine Meeting. Disponvel em: <http://www.infonortics.com/searchengines>. Acesso em: 08 jun. 2001.

12 Search Engine Show Down36 e o Search Engine Watch37. Este ltimo servio apresenta dados estatsticos que atestam a importncia social e econmica dos mecanismos de busca na sociedade. As afirmativas, extradas de diversas pesquisas e artigos, e apresentadas no Anexo 1, mostram como os mecanismos de busca so importantes para o desenvolvimento do comrcio eletrnico e o quanto so utilizados pelos usurios. O volume de informaes sobre negcios, como fuses, aquisies, parcerias e novas geraes de mecanismos de busca to intenso que o Yahoo News! tem uma rea dedicada especificamente ao tema: Internet Portals & Search Engines38. Uma busca39 no site da Amazon revela que h 45 livros venda, relacionados a mecanismos de busca. Os estudos sobre mecanismos de busca so extensos e amplos. O enfoque pode ser na arquitetura informacional adotada pela ferramenta (estrutura de diretrios, campos de busca, formato de sada), como tambm no aspecto computacional (capacidade de processamento, velocidade de atualizao, critrios de relevncia adotados pelo software). Como atualmente o negcio dos servios de busca envolve milhares de dlares, constata-se uma extensa literatura abordando aspectos comerciais, de negcios e de gerenciamento das ferramentas. H literatura impressa e eletrnica, acadmica e comercial. A vasta literatura sobre mecanismos de busca na Internet dificulta aqueles que procuram uma viso geral desta rea do conhecimento. A seguir, apresentamos um panorama das pesquisas sobre mecanismos de busca, sistematizando os tipos de estudos encontrados sobre esta temtica, conforme tipologia por ns desenvolvida especificamente para esta finalidade. Classificamos os estudos sobre mecanismos de busca em cinco reas. Cabe ressaltar que vrios artigos abordam questes perifricas, que esto relacionadas com outras destas reas, porm os classificamos de acordo com o foco maior do trabalho. O primeiro tipo de pesquisas relaciona-se ao estudo da coleo do mecanismo de busca, ou seja, o que a ferramenta indexa, seu escopo e cobertura (ou tamanho).

36

Search Engine Show Down. Disponvel em: <http://searchengineshowdown.com>. Acesso em: 20 jun. 2001. 37 Search Engine Watch. Disponvel em: <http://www.searchenginewatch.com/>. Acesso em: 20 jun. 2001. 38 Yahoo News! Disponvel em: <http://fullcoverage.yahoo.com/fc/Tech/Internet_Portals_and_Search_Engines/>. Acesso em: 20 jun. 2001. 39 Busca realizada no site da Amazon <http://www.amazon.com> em 06 jun. 2001, com a expresso search engines.

13 O segundo diz respeito anatomia do mecanismo de busca. Neste conjunto esto aqueles estudos que discutem o procedimento de coleta de informao e a forma como o mecanismo de busca se estrutura. Um terceiro agrupamento aquele relacionado ao treinamento de usurios. Caracteriza-se por explanar como cada mecanismo de busca trabalha e a sintaxe utilizada. Em geral no tece anlises conceituais, mas apresenta quadros comparativos e caractersticas de cada mecanismo de busca. Um conjunto de menor tamanho, mas de grande importncia, o que trata de estudos relativos ao usurio, no que se refere ao seu comportamento ao utilizar os mecanismos de busca. Por fim, temos o grupo de estudos que trata de tendncias, ou seja, que prev as inovaes que devem surgir e quais servios devem aparecer a partir das pesquisas desenvolvidas.

1.1 Coleo
A coleo de um servio de informao diz respeito ao conjunto de recursos que a integra, ou seja, sua cobertura e seu escopo. A cobertura o volume de recursos que o sistema indexa e o escopo abrange os assuntos que o servio envolve. Nos mecanismos de busca na Web tambm podemos discutir a coleo em termos de escopo e cobertura. O ambiente Web composto de duas fraes: uma coleo de pginas acessveis pblica e gratuitamente e uma coleo virtual de pginas abrigadas em bases de dados. Chamamos de virtual porque essas pginas s existem a partir do momento que uma busca feita diretamente na base de dados, gerando uma pgina que formada dinamicamente. Esta parte da Web costuma ser chamada de Web invisvel ou Web profunda (deep Web). A discusso a respeito do tamanho da Web e, conseqentemente, da abrangncia dos mecanismos de busca deve, portanto, considerar esses dois aspectos da informao disponvel neste ambiente. Os mecanismos de busca e as metaferramentas indexam a parte pblica da Web. Uma das crticas a esses servios que as tecnologias que adotam no permitem o aprofundamento e a incluso da parte invisvel da Web. Essa discusso apresentada por

14 uma extensa pesquisa40 da Bright Planet, publicada no Journal of the Electronic Publishing, que quantifica o tamanho e a importncia da deep Web, caracterizando a qualidade e a relevncia de seu contedo e discutindo meios para automatizar o processo de descoberta dessas fontes de informao. A Figura 1, extrada deste estudo, mostra a viso que os autores tm das dimenses dessas duas partes da Web.

Figura 1 A coleta de dados na Web: a superfcie e a Web profunda. Fonte: BERGMAN, Michel K. The deep Web: surfacing hidden value. Journal of the Electronic Publishing. v.7, n.1, Aug. 2001. Disponvel em: <http://www.press.umich.edu/jep/07-01/bergman.html>. Acesso em: 06 set. 2001.

40 BERGMAN, Michel K. The deep Web: surfacing hidden value. Journal of the Electronic Publishing. v.7, n.1, Aug. 2001. Disponvel em: <http://www.press.umich.edu/jep/07-01/bergman.html>. Acesso em: 06 set. 2001.

15

J em 1997, Notess41 alertava para a incapacidade das ferramentas disponveis naquela poca de recuperar informaes contidas numa rea que denominou como the hidden Internet, um extenso e valioso conjunto de informaes que no so acessveis atravs dos mecanismos de busca. Essas informaes podem estar contidas em sites que necessitam de um processo de registro para entrar (login e senha), como jornais e peridicos. O mesmo ocorre em sites cujas pginas so geradas dinamicamente a partir de uma solicitao a um banco de dados. O autor destaca que conjuntos de dados governamentais, por exemplo, que contm colees de dados estatsticos, no so capturados pelos robs que trabalham nos mecanismos de busca. Alm dessas importantes fontes informacionais, outros subconjuntos da Internet no so indexados pelos maiores mecanismos de busca, como documentos disponveis atravs de outros protocolos, como Gopher, FTP, Telnet ou e-mail. Na discusso sobre a cobertura dos servios de recuperao de informao na Web visvel, dois pesquisadores da NEC Research Institute, Lawrence e Giles, vm se destacando. Em 1998 publicaram um artigo na revista Science42 onde analisam a cobertura dos seis maiores mecanismos de busca e afirmam que nenhum deles indexa mais do que cerca de um tero da Web publicamente indexvel43. A investigao sobre a cobertura de seis grandes mecanismos Altavista, Excite, HotBot, Infoseek, Lycos, Northern Light mostra que a ordem de magnitude varia bastante, e que a combinao dos resultados dos seis servios oferece cerca de 3,5 vezes mais documentos do que o uso de uma nica ferramenta. Este estudo afirma que o tamanho da Web indexvel estimado em 320 milhes de pginas, nmero este obtido atravs da anlise da sobreposio entre resultados de pares de mecanismos de busca. importante destacar a observao dos autores, de que esta pesquisa foi desenvolvida a partir de buscas executadas por funcionrios do NEC Research Institute, que so cientistas e, portanto, tendem a executar pesquisas menos populares e de informaes mais difceis de localizar. Assim, essas concluses tm como foco a informao cientfica. A cobertura dos mecanismos de busca para informaes tipicamente populares melhor.

NOTESS, Greg. Searching the hidden Internet. Database. June/July 1997, p.37-40. LAWRENCE, Steve, GILES, Lee. Searching the World Wide Web. Science. v.280, n.5360, p.98-100, 1998. Disponvel em: <http://www.neci.nec.com/~lawrence/science98.html>. Acesso em: 12 jul. 2001. 43 Os autores afirmam que a web publicamente indexvel exclui pginas que tipicamente no so indexadas pelos mecanismos de busca, como aquelas que exigem autorizao ou que est sob um formulrio.
41 42

16 Em um resumo deste trabalho, tambm publicado na Web, os autores chegam a afirmar que o atual estado dos mecanismos de busca pode ser comparado a um catlogo telefnico que atualizado irregularmente, e que tem a maior parte de suas pginas arrancadas. 44 Um novo estudo45, com resultados ainda mais dramticos, foi publicado em 1999 no peridico Nature pelos mesmos autores. Nessa pesquisa sobre a acessibilidade de informaes na Web, eles afirmam que nenhum mecanismo de busca indexa mais que 16% do tamanho estimado de pginas acessveis publicamente. Afirmam, ainda, que 83% dos sites contm contedo comercial e apenas 6% tm contedo cientfico ou educacional. Lawrence & Giles destacam os efeitos econmicos, sociais, polticos e cientficos que a indexao e o ordenamento dos mecanismos de busca podem causar: Por exemplo, a indexao e o ordenamento de lojas on-line podem afetar substancialmente a viabilidade econmica destes, o atraso na indexao de pesquisa cientfica pode levar duplicao de esforos, e o atraso ou indexao tendenciosa pode afetar decises sociais ou polticas. 46 Os estudos de Lawrence & Giles, em especial aquele publicado na Nature, causaram polmica, visto que havia uma falsa sensao de que os mecanismos de busca seriam a grande soluo para o enorme volume de informao disponvel. Harris afirma que a tendncia dos produtores de mecanismos de busca em melhorar a qualidade da recuperao em detrimento da quantidade preocupante, e que a ambio de simplesmente indexar uma percentagem randmica do conhecimento pior do que uma declarao de erro: uma declarao de mediocridade planejada. 47 Sullivan48 tambm se preocupa com essa questo apontando para o problema de que os servios de recuperao de informao esto concentrados na forma de melhorar a preciso de seus resultados, e no no tamanho de seus ndices. Alm de citar a questo da

LAWRENCE, Steve, GILES, Lee. How big is the Web? How much of the web do the search engine index? How up to date are the search engines?. Disponvel em: <http://www.neci.nec.com/~lawrence/websize.html>. Acesso em: 16 jul. 2001. 45 LAWRENCE, Steve, GILES, Lee. Accessibility of information on the web. Nature. v.400, july 1999, p.107-109. 46 LAWRENCE, Steve, GILES, Lee. Accessibility and distribution of information on the Web [resumo]. Disponvel em: <http://wwwmetrics.com>. Acesso em: 27 jul. 2000. 47 HARRIS, P.E. In search of the Rosetta Stone (search engine capabilities). Online and CD-ROM Review. v.23, n.4, 1999, p.235-238. 48 SULLIVAN, D. Crawling under the hood. An update on search engine tecnology. Online, v.23, n.3, may/june 1999, p.30-38.
44

17 Web invisvel, questiona que o uso do XML49 como linguagem de marcao no est sendo adotado pelos mecanismos de busca, dificultando a troca de dados. Em relao ao escopo dos mecanismos de busca, vrios artigos discutem a organizao da informao nesses servios, ou seja, procuram classificar os mecanismos de busca em categorias, de acordo com suas caractersticas. Um dos primeiros trabalhos com esse objetivo o de Schwartz50, que apresenta um amplo panorama de questes relacionadas aos mecanismos de busca, categorizando-os em listas classificadas (diretrios) e ferramentas baseadas em perguntas (query-based engines). Recentemente, Beatriz Cendn51, pesquisadora da Universidade Federal de Minas Gerais, publicou no peridico Cincia da Informao um estudo que traz uma viso das principais categorias de ferramentas de busca na Web, analisando suas semelhanas, diferenas, caractersticas e as vantagens do uso de cada uma delas. O estudo tem um importante papel de sistematizao dos servios, incluindo exemplos brasileiros, visto que h pouca literatura sobre o tema em portugus. Outra questo relacionada com o escopo da coleo diz respeito ao tipo de recurso que indexa. Alm de pginas Web, alguns mecanismos de busca tambm indexam mensagens postadas em grupos e listas de discusso, imagens, sons, etc. H, tambm, ferramentas especficas para localizao de recursos de determinado tipo como, por exemplo, para localizao de imagens. Bradley, publicou um artigo52 em sua coluna no peridico Ariadne, sobre a localizao de imagens na Internet. Neste trabalho, o autor apresenta a forma de localizar imagens em mecanismos de busca genricos e tambm servios especficos para a busca de arquivos de imagens.

49 XML (Extensible Markup Language) uma especificao de linguagem para desenvolvimento de pginas Web, desenvolvida com o objetivo de permitir a descrio de dados (contedo). Permite ao desenvolvedor criar suas prprias etiquetas (tags), permitindo a definio, transmisso, validao e interpretao de dados entre aplicaes e organizaes. 50 SCHWARTZ, Candy. Web Search Engines. Journal of the American Society for Information Science. v.49, n.11, p.973-982, Sep. 1998. 51 CENDN, Beatriz Valadares. Ferramentas de busca na Web. Cincia da Informao. V.30, n.1, p.39-49, jan./abr. 2001. Disponvel em: <http://www.ibict.br/cionline/300101/30010106.htm>. Acesso em: 15 jul. 2001. 52 BRADLEY, Phil. Finding images on the Internet. Ariadne. v.25, Sep. 2000. Disponvel em: <http://www.ariadne.ac.uk/issue25/search-engines/>. Acesso em: 21 fev. 2001.

18 O mesmo autor, Bradley53 publicou um trabalho sobre o uso dos mecanismos de busca para a localizao de pessoas na Web. Ele aborda a utilizao dos mecanismos gerais de busca, como Altavista, HotBot e outros, como tambm as ferramentas especficas para localizar pessoas, como o People Finder. Assim, observamos que a coleo contida em um mecanismo de busca se organiza de acordo com a necessidade do usurio de obter informaes. Cada mecanismo busca incorporar tecnologias para melhorar a sua capacidade de recuperao e o atendimento ao usurio. Essas caractersticas de cada mecanismo sero discutidas no prximo item, que trata dos estudos relacionados anatomia dos sistemas.

1.2 Anatomia
O segundo tipo de estudos envolve a anatomia, ou seja, diz respeito a estudos que procuram explicar o funcionamento de determinado mecanismo de busca, detalhando suas caractersticas individuais. Conforme definio54 citada anteriormente, um mecanismo de busca tem em sua estrutura trs subsistemas distintos, que se relacionam entre si: subsistema de aquisio/coleta de documentos subsistema indexador dos documentos subsistema de ordenao dos resultados. O subsistema de aquisio/coleta de documentos est relacionado com a forma com a qual o mecanismo de busca obtm pginas para sua base de dados. O subsistema indexador diz respeito forma como o mecanismo de busca armazena as informaes que coleta, seja atravs da indexao em texto completo ou de representaes das pginas (metadados). O subsistema de ordenao de resultados est relacionado com o algoritmo proprietrio de cada mecanismo de busca e que, em geral, o maior diferencial entre os servios.

53

BRADLEY, Phil. Search Engines. Ariadne. v.20, June 1999. Disponvel em: <http://www.ariadne.ac.uk/issue20/searchengines>. Acesso em: 21 fev. 2001. 54 Definio da Webopedia, apresentada na introduo deste trabalho.

19 Assim, os estudos de anatomia de um mecanismo de busca concentram-se na caracterizao e discusso desses trs subsistemas do servio de recuperao de informao na Web. Estas questes esto relacionadas diretamente com a tipologia do mecanismo de busca, ou seja, se um diretrio, um motor de busca ou uma metaferramenta. Este trabalho est focado nos mecanismos de busca do tipo motor, onde a coleta de dados , por definio, executada principalmente atravs de robs que seguem links em pginas Web, no interferindo, portanto, as questes referentes ao subsistema de aquisio/coleta de documentos. Por essa razo, a discusso toma como referncia apenas os dois outros subsistemas (Quadro 1).

Quadro 1 Linhas de pesquisa relacionadas aos subsistemas dos mecanismos de busca do tipo rob.

Estrutura de metadados

GILS Dublin Core . . . Full text indexing Stemming Co-ocurrence Sinonmia Generalizao Especializao

SUBSISTEMA INDEXADOR Indexao automtica ANATOMIA SUBSISTEMA DE ORDENAO DE RESULTADOS

Estatstica

Semntica

Relevncia por freqncia, localizao, peso e proximidade Estrutura hipertextual Interatividade

21

Subsistema indexador dos documentos Em relao ao subsistema indexador, h duas linhas de pesquisa em desenvolvimento. Uma linha de pesquisa est relacionada definio de uma estrutura de metadados que se aplique aos recursos informacionais na Web. Neste sentido temos o desenvolvimento de padres como o Dublin Core55 e o GILS56. Porm, no momento, no existe a adoo de um padro universal. O maior problema desta abordagem a necessidade da indexao na fonte, ou seja, depende da utilizao do padro pelos desenvolvedores de pginas. A outra linha de pesquisa relacionada ao subsistema de indexao refere-se ao desenvolvimento de algoritmos de indexao automtica. Esses algoritmos so criados com o objetivo de automatizar a classificao e indexao de documentos digitais, como pginas Web. Essa a tendncia maior, visto que o volume de documentos digitais produzidos cresce extraordinariamente. Segundo Vaz57, a pesquisa de algoritmos de indexao automtica possui duas tendncias na escolha de conceitos ou palavras-chaves de um documento digital: estatstica e semntica. A linha estatstica baseia-se, principalmente, na freqncia com que um termo, ou grupos de termos, aparecem em um documento ou uma coleo. So exemplos deste tipo de abordagem as tecnologias denominadas Full text indexing, Stemming Co-occurence. O desenvolvimento de algoritmos de base semntica tornou-se possvel graas ao avano nas reas de lingstica e informtica. Esta linha de pesquisas baseia-se em relaes semnticas entre os termos, como sinonmia, generalizao e especializao.

55

Dublin Core uma iniciativa da OCLC (Online Computer Library Center), iniciada em 1995, para a criao de um conjunto-padro de elementos (metadados) para descrio do contedo de um documento. Para mais informaes, consultar <http://dublincore.org/> 56 GILS (Governmment Information Locator Service) um padro de metadados estabelecido pelo Governo Federal Norte-Americano adotado pelos rgos governamentais deste pas e tambm por outros pases. Para mais informaes, consultar <http://www.gils.net/> 57 VAZ, Rodolfo Cezar Ranulfo. Metodologia de avaliao de mecanismos de recuperao da informao na rede WWW da Internet. 2000. 165p. Dissertao (Mestrado em Cincia da Informao) Faculdade de Estudos Sociais Aplicados, Departamento de Cincia da Informao e Documentao, Universidade de Braslia. Braslia.

22 Subsistema de ordenao de resultados Por fim, temos o subsistema de ordenao de resultados que, conforme dito anteriormente, est relacionado com o algoritmo proprietrio de cada mecanismo de busca. Esse algoritmo de ordenao tem uma relao direta com os critrios de relevncia que o sistema de recuperao de informao atribui aos documentos. De uma forma mais simples, os servios de recuperao de informao podem medir a relevncia pela freqncia, localizao, peso e proximidade dos termos pesquisados no documento. No entanto, no ambiente da Web, uma nova possibilidade surge: a utilizao da estrutura hipertextual de links entre pginas como referncia para medida da importncia das pginas. Quando surgiu o Google, um dos primeiros mecanismos que utiliza esta tecnologia, vrios trabalhos foram publicados sobre essa novidade. Esse servio inovou ao fazer uma abordagem similar a da comunidade cientfica, classificando uma determinada pgina pelo nmero e importncia de outras pginas que oferecem link para ela. Page & Brin58, criadores da tecnologia e estudantes de Cincia da Computao da Stanford University, publicaram um trabalho explanando sobre o algoritmo utilizado no Google. A multidisciplinaridade que envolve a rea de mecanismos de busca pode ser observada por outros artigos sobre essa mesma ferramenta. Duas revistas de negcios, Fortune59 e Forbes60, e um jornal (Washington Post61) publicaram artigos e entrevistas sobre o Google. Kirkpatrick, na Fortune, comenta que o sucesso deste mecanismo de busca demonstra que a tecnologia, e no apenas o marketing, pode redirecionar a Web. A utilizao dos hiperlinks como recurso para ordenao dos resultados tambm o objeto de estudo do Clever Project, da IBM. Em junho de 1999, um trabalho62 sobre esse tema foi publicado na Scientific American. Os autores descrevem um novo tipo de
BRIN, Sergey, PAGE, Lawrence. The anatomy of a large-scale hypertextual web search engine. Disponvel em: <http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm>. Acesso em: 31 jan. 2001. 59 KIRKPATRICK, D. Whats a Google? A great search engine, thats what. Fortune. 8 Nov. 1999, p. 139. 60 MALIK, Om. How Google is that? Forbes Magazine. Disponvel em: <http://www.forbes.com/tool/html/99/oct/1004/feat.htm>. Acesso em: 14 ago. 2000. 61 WALKER, Leslie. COM-LIVE (The Washington Post interview with Sergey Brin, founder and CEO of Google. Disponvel em: <http://www.washingtonpost.com/wpsrv/liveonline/business/walker/walker110499.htm> Acesso em: 14 ago. 2000. 62 CLEVER PROJECT. Hypersearching the Web. Scientific American. Disponvel em: <http://www.sciam.com/1999/0699issue/0699raghavan.html>. Acesso em: 07 jun. 1999.

58

23 mecanismo de busca que explora o recurso mais valioso da Web: os tantos hiperlinks que possui. Analisando essas interconexes, o sistema desenvolvido pelos pesquisadores identificou dois tipos de pginas: autoridades (authorities) e centros (hubs). As primeiras so aquelas consideradas como os melhores recursos de informao sobre determinado assunto e as segundas so as colees de links para as primeiras. Essa abordagem a mesma do Google, e ambos os sistemas utilizam implicitamente o ser humano, pois, quando algum faz um link para alguma pgina, est validando de alguma forma aquele contedo. A diferena bsica entre os dois sistemas explicada no artigo da Scientific American: Google e Clever tm duas principais diferenas. A primeira que o Google determina a ordenao inicial e a mantm independentemente de qualquer pesquisa, enquanto que o Clever rene um conjunto raiz diferente para cada termo pesquisado e ento prioriza aquelas pginas no contexto daquela pergunta em particular. Conseqentemente, a abordagem do Google gera uma resposta mais rpida. A segunda diferena que a filosofia bsica do Google olhar apenas na direo em frente, link por link. Em contraste, Clever tambm olha para trs da pgina considerada autoridade, para ver que sites esto apontando para ela. Neste sentido, Clever leva vantagem do fenmeno sociolgico que humanos so naturalmente motivados para criar contedos como ncleos expressando sua expertise em determinado assunto. 63 No entanto, conforme Donahue64 pontua, embora Google e Clever sejam os primeiros mecanismos de busca projetados especificamente em torno da anlise de links, esta tecnologia no nova. Segundo esse autor, Excite e Infoseek tambm incluem de alguma forma a anlise de links, embora esta seja apenas uma parte do sistema de ordenamento desses servios, que ainda classifica os resultados primeiramente baseados na interveno humana e na freqncia e localizao das palavras na pgina. Os estudos sobre anatomia usualmente so publicados quando surge um mecanismo que utiliza uma nova tecnologia para o oferecimento de seu servio. Essa tecnologia pode envolver tanto o subsistema de aquisio como o de indexao, ou o de ordenao, mas muitas vezes se observa que a discusso engloba vrios aspectos.

63 CLEVER PROJECT. Hypersearching the Web. Scientific American. Disponvel em: <http://www.sciam.com/1999/0699issue/0699raghavan.html>. Acesso em: 07 jun. 1999. 64 DONAHUE, Sean. Smarter Returns. Business 2.0. Disponvel em: <http://www.business2.com/articles/1999/08/text/break.html>. Acesso em: 19 ago. 1999.

24 Este o caso do trabalho de Ward65, que trata do Northern Light. A tecnologia que esse mecanismo de busca adota envolve a indexao automtica (subsistema de indexao), colocando os resultados em pastas de assuntos (subsistema de ordenao). O Northern Light um servio baseado na Web que pesquisa em uma base de dados composta por pginas e por documentos em texto completo provenientes de milhares de fornecedores. Estes dois blocos podem ser pesquisados conjunta ou separadamente, com os resultados sendo ordenados e agrupados em pastas (folders). Todos os documentos so classificados por um vocabulrio controlado de aproximadamente 25 mil cabealhos de assunto. Alm disso, os documentos so classificados pela sua tipologia (reviso, lista, artigo, etc.) e fonte (Web site, publicao em peridico, etc.). O gerenciamento dos ndices e metadados discutido no artigo de Ward. A diversidade dos tipos de mecanismos de busca existentes aumenta ainda mais a dificuldade do usurio em escolher a melhor ferramenta para atender a sua necessidade de informao. Estudos relacionados ao treinamento de usurios so uma rea importante de pesquisas e sero apresentados a seguir.

1.3 Treinamento de usurios


Este tipo de estudos, relacionados ao treinamento de usurios, caracteriza-se por apresentar quadros comparativos dos mecanismos de busca. Em geral apresentam informaes sobre como cada servio funciona, explanando sobre as caractersticas de busca e sintaxe que deve ser adotada, de forma a auxiliar ao usurio sobre como escolher o mecanismo e elaborar a estratgia para atender sua necessidade de informao. Um artigo publicado na ZDNet em 1995 discute o problema da dificuldade que o usurio tem em escolher o mecanismo de busca que ir utilizar para tentar resolver sua demanda de informao. O estudo, conduzido por Randall66, apresenta uma pontuao de quatorze mecanismos de busca, medindo sua usabilidade e efetividade, a partir de uma anlise qualitativa e particular do autor. Uma interessante contribuio que este artigo oferece um fluxograma para auxiliar o usurio na escolha da melhor ferramenta para sua necessidade.

65

WARD, J. Indexing and classification at Northern Light. NFAIS newsletter. v.41, n.10, oct 1999, p.138140. 66 RANDALL, Neil. The search engine that could. PC Computing Online. September, 1995. Disponvel em: <http://www.zdnet.com/pccomp/features/internet/search/index.html>. Acesso em: 08 jun. 2001.

25 O trabalho de Hock67, publicado em 1999, representa bem esse tipo de estudo. Ele apresenta um quadro com os principais comandos que podem ser utilizados em sete mecanismos de busca: AltaVista, Excite, HotBot, InfoSeek, Lycos, Northern Light e WebCrawler. Como o prprio autor pontua, os mecanismos de busca esto em constante mudana, sendo necessrio revisit-los periodicamente para se manter atualizado sobre suas funcionalidades. O principal problema dos artigos publicados sobre as caractersticas dos mecanismos de busca a rpida e constante evoluo dos servios de recuperao de informao na Web. Isto faz com que os artigos percam rapidamente sua utilidade por tornarem-se desatualizados. Para suprir esta necessidade, pesquisadores da rea de recuperao de informao na Web criaram sites, continuamente atualizados, que apresentam quadros de comandos e caractersticas dos mecanismos de busca. Esses sites costumam oferecer informaes sobre novos servios que esto sendo lanados e possuem uma rea dedicada aos artigos publicados sobre mecanismos de busca. Mickey68 tambm partilha essa opinio e sugere um trio de fontes de informao sobre ferramentas de busca, indicando o uso do Search Engine Showdown69, do Search Engine Watch70 e do site da Mining Company71. Segundo este autor, como os detalhes dos algoritmos de ordenao dos mecanismos de busca e outras caractersticas no so explicitados pelos servios, a consulta s fontes indicadas uma boa maneira de melhorar a qualidade das buscas efetuadas por qualquer usurio. Cabe destacar a amplitude do Search Engine Showdown, cujo editor Greg Notess, bibliotecrio de referncia da Montana State University, EUA. Este site apresenta resenhas atualizadas sobre cada um dos principais mecanismos de busca, quadros comparativos de caractersticas de busca, estatsticas de tamanho, sobreposio, alm de uma extensa e constantemente atualizada bibliografia de artigos sobre recuperao de informao na Web.

HOCK, R. Websearch engines: features and commands. Online. v.23, n.3, may/june 1999, p.24-28. MICKEY, W. A web search trifecta (sources of search engine information). Online. v.23, n.3, may/june 1999, p.79-82 69 Search Engine Show Down. Disponvel em: <http://searchengineshowdown.com>. Acesso em: 20 jun. 2001. 70 Search Engine Watch. Disponvel em: <http://www.searchenginewatch.com/>. Acesso em: 20 jun. 2001. 71 Mining Company. Disponvel em: <http://websearch.miningco.com>. Acesso em: 20 jun. 2001.
67 68

26 O artigo de Cendn72 - citado anteriormente na seo que discute os estudos sobre a coleo dos mecanismos de busca - pode ser considerado tambm um estudo relativo ao treinamento de usurios. Embora no apresente quadros de caractersticas dos mecanismos, tem um forte aspecto didtico principalmente considerando a escassez de publicaes sobre o tema em portugus. interessante observar que vrios trabalhos publicados no Brasil esto concentrados neste tipo de estudo: explicaes sobre o uso dos mecanismos de busca e como utiliz-los. Bueno e Vidotti73 apresentaram no XI Seminrio Nacional de Bibliotecas Universitrias (SNBU) uma comunicao onde explanam para qu, por qu e como utilizar as ferramentas de busca na Internet. Neste trabalho apresentam as caractersticas dos mecanismos de busca, classificando-as em catlogos, ndices e metapesquisadores, e simulam uma pesquisa, comparando os resultados obtidos com a adoo de diferentes estratgias.

1.4 Estudos de usos/usurios


Estas pesquisas caracterizam-se por avaliar o comportamento dos usurios ao utilizar os mecanismos de busca, visando criar novos servios ou melhorar sistemas j existentes. Envolvem a facilidade do acesso, a ergonomia dos servios de informao disponveis e os aspectos relacionados necessidade de treinamento dos usurios. No estudo publicado em 1996, no peridico Ariadne, Stobart & Kerridge74 apresentam os resultados preliminares de uma pesquisa financiada pela JISC75, onde analisado o uso de mecanismos de busca internacionais pela comunidade acadmica inglesa. Na poca em que a pesquisa foi realizada, a conexo internacional do Reino Unido com o resto do mundo era feita com baixa velocidade, o que dificultava o uso dos mecanismos de busca, na sua maioria, localizados nos Estados Unidos. Para a pesquisa foram analisados dois tipos de informao. O primeiro conjunto foi composto pelos logs de acesso aos
CENDN, Beatriz Valadares. Ferramentas de busca na Web. Cincia da Informao. V.30, n.1, p.39-49, jan./abr. 2001. Disponvel em: <http://www.ibict.br/cionline/300101/30010106.htm>. Acesso em: 15 jul. 2001. 73 BUENO, Mrcia Correa, VIDOTTI, Silvana Aparecida Borsetti Gregorio. Ferramentas de busca na Internet: para qu, por qu e como utiliz-las? In SEMINRIO NACIONAL DE BIBLIOTECAS UNIVERSITRIAS, 11., 2000, Florianpolis. Anais... 74 STOBART, Simon, KERRIDGE, Susan. An investigation into World Wide Web search engine use from within the UK preliminary findings. Ariadne. v.6, November 1996. Disponvel em: <http://www.ariadne.ac.uk/issue6/survey/>. Acesso em: 05 fev. 2001. 75 JISC - Joint Information Systems Committee. Entidade que promove o uso de tecnologia de informao e sistemas de informao no ensino superior no Reino Unido.
72

27 servidores de vrias organizaes acadmicas, visando identificar quais os mecanismos de busca eram mais utilizados pelos pesquisadores ingleses. O segundo conjunto de informaes foi obtido atravs de questionrio disponvel na Web, onde foram coletadas informaes sobre comportamento de usurios, preferncias e satisfao ou no com o atual servio dos mecanismos de busca. Esta pesquisa teve como objetivo identificar se um mecanismo de busca baseado no Reino Unido poderia aliviar o congestionamento da largura de banda internacional. Alguns autores tratam da questo da experincia do usurio no uso de computadores, da Internet ou especificamente dos mecanismos de busca. Este o caso do estudo de Lazonder, Biemans & Wopereis76, que analisa o comportamento de usurios em duas fases: a localizao de um site relevante para sua necessidade de informao e, subseqentemente, de recuperao da informao requerida naquele site. Os resultados indicam que usurios com experincia na Web so mais eficientes em localizar Web sites que usurios novatos. A diferena observada foi relacionada maior habilidade em operar mecanismos de busca na Web. No entanto, nas tarefas onde foi requerido que os usurios localizassem informao em um site especfico, a performance de usurios novatos e experientes foi equivalente. Este resultado est de acordo com as pesquisas sobre hipertexto. Os autores concluem que o treinamento de usurios deve se concentrar nos aspectos relativos localizao de sites, ou seja, em mecanismos de busca, e no apenas nas questes relativas navegao em ambiente hipertextual. Um estudo muito interessante e criativo sobre o comportamento de usurios na coleta de informaes na Rede foi publicado no Caderno Mais da Folha de So Paulo77. O artigo, traduzido do peridico New Scientist, trata de uma pesquisa desenvolvida no Centro de Pesquisas da Xerox, em Palo Alto, Califrnia. Os pesquisadores Pirolli e Card esto estudando teorias de ecologia e antropologia para compreender como as pessoas encontram informaes em ambientes ricos em dados, como a Internet. Esse trabalho baseia-se na teoria do comportamento de caa e coleta (foraging theory), desenvolvida por bilogos na dcada de 70, e que parece se adequar caa de informao na Internet. Os autores fizeram experimentos com grupos de pessoas que desempenham funes que exigem o uso intensivo de dados e observaram uma correlao entre a estratgia de busca
76 LAZONDER, Ard W., BIEMANS, Harm, J.A., WOPEREIS, Iwan G.J.H. Differences between novice and experienced users in searching information on the World Wide Web. Journal of American Society for Information Science. v.51, n.6, April 2000, p.576-581. 77 CHALMERS, Rachel. caa de informao. Caderno Mais. Folha de So Paulo. 26 nov. 2000.

28 adotada por esses caadores de informao e o comportamento que se poderia esperar de animais em busca de alimentos. Visando comprovar empiricamente esses resultados, desenvolveram e testaram um modelo matemtico baseado nesta teoria e o colocaram para trabalhar buscando informaes em um extenso banco de dados textual. O experimento comprovou a aplicabilidade do modelo e os pesquisadores concluem que os usurios da Internet utilizam habilidades de resoluo de problemas que tem razes evolutivas profundas: Caar informaes na rede traz recompensas anlogas s dos caadorescoletores. Contextos diferentes, mas problemas de custo-benefcio semelhantes.78 O conhecimento do comportamento de usurios na busca de informao pode ser o caminho para o desenvolvimento de novas tecnologias em servios de recuperao. O ltimo tipo de estudos sobre mecanismos de busca envolve, de certa forma, as novas tecnologias a serem desenvolvidas. So os estudos que discutem as tendncias em mecanismos de busca.

1.5 Tendncias
Os artigos que tratam de tendncias costumam apresentar um panorama das pesquisas em desenvolvimento e apontam alguns servios que utilizam tecnologias inovadoras que, segundo a percepo dos autores, devem ser seguidas por outras empresas. Cornella79 apresenta um interessante artigo sobre aplicaes que esto sendo desenvolvidas para facilitar o uso e melhorar a potncia dos mecanismos de busca. O autor destaca algumas das aplicaes que visam aumentar a facilidade de uso dos mecanismos de busca. A primeira delas o uso da busca em linguagem natural, j utilizado em alguns servios como o AltaVista e o ElectricMonk. Outra aplicao seria a extenso semntica, ou seja, o sistema estender a busca para sinnimos dos termos digitados na caixa de busca. Essa aplicao chamada de modelo semntico ou conceitual e utilizada pelo Excite. A terceira aplicao destacada pelo autor a traduo de frases freqentes, como o AskJeeves faz. Ou seja, o mecanismo interpreta semanticamente a pergunta feita pelo usurio e a compara com uma base de dados de perguntas j preparadas.

CHALMERS, op. cit. CORNELLA, Alfons. O avano das ferramentas de busca. Infonomia. Disponvel em: <http://www.intexnet.com.br/polors/revista/infonomia/20.htm>. Acesso em: 12 ago. 1999.
78 79

29 Um artigo publicado no peridico Nature80, em maio de 2000, apresenta tendncias no desenvolvimento de mecanismos de busca que prometem facilitar o trabalho de pesquisadores que buscam informao na Web. So discutidas vrias pesquisas onde o enfoque na recuperao de informao cientfica, e o autor afirma que esta no a principal corrente de pesquisas em mecanismos de busca. Uma das tendncias para a soluo do problema de recuperar informao cientfica, segundo Butler, a portalizao, ou seja, a criao de portais especializados em temas. Ele afirma: Especialistas predizem que dentro de cinco anos, pesquisar a Web inteira por palavras-chave ser uma coisa do passado. Nossas pesquisas personalizadas sero encontradas em portais de busca dedicados cincia. Essas webs dentro da Web concentraro a maioria dos recursos que voc necessita dentro de um ambiente facilmente navegvel. 81 O artigo coloca tambm como tendncia a criao de programas inteligentes que faro as pesquisas a partir da anlise da necessidade e interesse de seus usurios. Assim, no futuro, haver servios baseados na anlise dos resultados de busca selecionados anteriormente em relao a esta ou aquela pesquisa e ao tempo que o usurio ficou em uma pgina particular, gerando ciclos automticos de retroalimentao. Com este panorama da importncia dos estudos relacionados aos mecanismos de busca na Web, nos voltamos para a segunda questo levantada por Rijsbergen82: o que avaliar. Este o assunto da prxima seo, onde utilizamos teorias desenvolvidas por autores clssicos da Cincia da Informao como referencial para o levantamento de critrios de avaliao de performance em mecanismos de busca.

80

BUTLER, Declan. Souped-up-search engines. Nature, 40512, 1-115 May 2000. Disponvel em: <http://www-tecno.inti.gov.ar/opinion01.htm>. Acesso em: 22 ago. 2000. 81 BUTLER, Declan. Souped-up-search engines. Nature, 40512, 1-115 May 2000. Disponvel em: <http://www-tecno.inti.gov.ar/opinion01.htm>. Acesso em: 22 ago. 2000. 82 RIJSBERGEN, C.J. van. Information retrieval. Woburn: Butterworth & Co Ltda, 1979. 208 p. Disponvel em: <http://www.dcs.gla.ac.uk/Keith/Preface.html>. Acesso em: 21 jun. 2001.

30

2. AVALIAO DA RECUPERAO DE INFORMAO


Esta seo procura responder a segunda questo proposta por Rijsbergen: o que avaliar? Ou seja, discutimos que parmetros podem ser utilizados para avaliar a eficcia dos mecanismos de busca na Web em satisfazer a necessidade de informao do usurio. Para a construo desses parmetros nos baseamos na premissa de que os mecanismos de busca so sistemas de recuperao de informao no ambiente da Web. Inicialmente, importante lembrarmos que, segundo Lancaster83, os sistemas de informao tm como funo atuar como uma interface entre um conjunto especfico de usurios e o universo de recursos informacionais disponveis. Em geral, os sistemas de informao so criados para um pblico determinado, ou seja, dentro de um universo de informaes que atenda s necessidades de usurios prestabelecidos. Como exemplo podemos citar as bases de dados, bibliogrficas ou textuais, para cada rea do conhecimento: Medicina, Engenharia, etc. Nesses casos, a delimitao do usurio bastante clara e precisa. Na Internet, em particular, os recursos atendem a toda e qualquer pessoa, no havendo uma delimitao das necessidades particulares dos usurios. Porm, outras caractersticas que os mecanismos de busca oferecem nos permitem caracteriz-los como sistemas on-line de recuperao de informao. Essa assertiva parte da caracterizao oferecida por Lancaster & Fayen84 para os sistemas on-line de recuperao de informao. Segundo os autores, estes so sistemas onde o usurio pode acessar diretamente, via computador, uma base de dados de documentos ou de suas representaes. Uma das caractersticas apontadas pelos autores para este tipo de sistema a operao em tempo real (real-time): o computador recebe os dados, processa e recupera rapidamente os resultados para o usurio. Isto permite uma interao conversacional entre o usurio e o computador. Outra caracterstica o processamento time-sharing, ou seja, compartilhado entre duas ou mais atividades independentes, permitindo que diferentes

83

LANCASTER, F.W. Information Retrieval System: characteristics, testing and evaluation. USA: John Wiley & Sons, 1979. 318p. 84 LANCASTER, F.W., FAYEN, E.G. Information Retrieval On-Line. Los Angeles, CA: Melville Publishing Co. 1973.

31 usurios acessem simultaneamente o sistema. Esta operao oferece a cada usurio, em seu terminal especfico, a iluso de que o nico a estar acessando o sistema. As caractersticas relacionadas acima mostram que os mecanismos de busca podem ser considerados sistemas de recuperao de informao on-line, e o modelo proposto por Lancaster & Fayen serve como importante subsdio para o estudo da performance dos mecanismos de busca de informao na Web. Esses autores, clssicos na Cincia da Informao, oferecem importante contribuio, mas sua discusso baseia-se em sistemas de recuperao de informao fechados, em ambientes que permitem o controle do que est sendo introduzido no sistema. Outra diferena importante a ser observada que nos sistemas de recuperao tradicionais havia um mediador entre o servio e o usurio, ou seja, um profissional que interpretava a necessidade de informao do usurio e traduzia para uma sintaxe de busca adequada ao sistema. A popularizao do acesso informao, possibilitada pela Web, expe os servios de recuperao de informao diretamente ao usurio. Estes servios devem, portanto, oferecer condies para que o usurio execute sua busca de forma eficaz. Com o intuito de aumentar a abrangncia deste trabalho, procuramos incorporar novas questes que considerem essas diferenas entre os sistemas tradicionais de recuperao de informao e os sistemas de busca disponibilizados para o grande pblico da Web. Para isso, utilizamos a sistematizao das caractersticas de busca dos sistemas de recuperao de informao oferecida por Hahn85, em um artigo recente. Ressaltamos que a discusso se baseia tambm em nossa experincia anterior no trabalho com os dois ambientes de recuperao de informao: primeiramente nos sistemas fechados de recuperao de informao, particularmente o banco de dados Dialog e, posteriormente, no trabalho desenvolvido na busca de informao na Web, atravs dos mecanismos de busca, visando o desenvolvimento de bibliotecas virtuais no Programa Prossiga.

85 HAHN, Trudi Bellardo. Text Retrieval Online: historical perspective on Web Search Engines. Bulletin ASIS. V.24, n.4, April/May, 1998. Disponvel em: <http://www.asis.org/Bulletin/Apr-98/hahn.html>. Acesso em: 22 jun. 2001.

32 importante destacar que esses parmetros de avaliao so desenvolvidos visando a sua aplicao em mecanismos de busca do tipo motor, ou seja, cuja base de dados formada a partir de robs que vasculham a Web.

2.1 Modelo de Lancaster & Fayen


Iniciamos a discusso a partir do repertrio de critrios propostos por Lancaster & Fayen. Eles afirmam que o desempenho de um sistema de recuperao de informao pode ser julgado pela satisfao do usurio em ter sua necessidade atendida. Cleverdon86 foi o primeiro pesquisador a apresentar uma lista resumida dos critrios que podem ser aplicados para avaliar a satisfao do usurio:
Revocao Preciso Cobertura Esforo do usurio Formato de sada Tempo de resposta

A taxa de revocao definida como a expresso quantitativa do grau de sucesso alcanado na recuperao da literatura relevante de um sistema. 87. Assim, a revocao a relao entre o nmero de documentos relevantes recuperados e o nmero total de documentos relevantes contidos no sistema. Para a medida da revocao necessrio conhecer o nmero total de documentos relevantes contidos no sistema. Porm, no ambiente da Web no possvel sequer medir o nmero exato de pginas que indexado pelo sistema, muito menos quantas delas so relevantes para determinado assunto88. Assim, nos parece que a medida de revocao no aplicvel nos mecanismos de busca na Web. A preciso a medida do quo bem sucedida foi a filtragem de documentos sobre o assunto solicitado dentro do universo de documentos recuperados pelo sistema. Pode ser
86

CLEVERDON apud LANCASTER, F.W., FAYEN, E.G. 1973 LANCASTER, F.W., FAYEN, E.G. Information Retrieval On-Line. Los Angeles, CA: Melville Publishing Co. 1973. 88 A medida da taxa de revocao tambm no pode ser mensurada no ambiente tradicional.
87

33 expressa como a taxa entre o nmero de documentos relevantes recuperados e o nmero total de documentos recuperados. Para a medida da preciso, portanto, necessrio avaliar a relevncia dos documentos recuperados. A relevncia est diretamente relacionada com a importncia ou utilidade do documento obtido para a satisfao da necessidade do usurio. Em sistemas de recuperao de informao, a revocao e a preciso so medidas que costumam ser analisadas em conjunto, pois trabalham em uma ordem inversa. Para melhorar a preciso necessrio uma busca mais rigorosa, o que provoca uma diminuio da revocao. importante ressaltar que, de acordo com a necessidade do usurio, o melhor desempenho obtido com uma alta taxa de preciso ou um alto ndice de revocao. Quando se necessita de toda a informao disponvel sobre determinado assunto, no caso de um pesquisador que vai escrever um artigo de reviso, necessrio uma alta taxa de revocao. Por outro lado, uma taxa alta de preciso solicitada quando, por exemplo, um usurio precisa de alguma informao sobre determinado tpico. Este usurio no necessita de uma busca exaustiva, mas sim de bons documentos que tratem especificamente daquele assunto. Lancaster & Fayen afirmam que os sistemas de recuperao on-line atraem usurios como estes ltimos, que precisam de poucas referncias relevantes, mas necessitam delas rapidamente. Assim, entendemos que a preciso um parmetro que deve ser adotado para a avaliao de mecanismos de busca. Sua aplicao ser discutida posteriormente, considerando as especificidades do ambiente da Web. Tratando do terceiro parmetro, a cobertura, presume-se que esta seria a solicitao mais importante de usurios: que o servio oferea todo o volume de informaes disponveis sobre determinado assunto. Porm, de acordo com a necessidade do usurio de alta preciso ou alta revocao, como exposto anteriormente, a cobertura deixa de ser um item to significativo. No caso da informao disponibilizada na Web, a questo da cobertura amplamente discutida, principalmente pela dificuldade de se medir o volume de pginas existentes nesse ambiente. As estatsticas a esse respeito so bastante contraditrias e a discusso sobre o tamanho da base de dados das ferramentas de busca causa polmica, visto que os dados existentes so aqueles fornecidos pelos proprietrios dos mecanismos de busca. Esse parmetro tambm ser adotado e, posteriormente, melhor discutido.

34 O critrio relativo ao esforo do usurio discutido por Lancaster & Fayen principalmente sob o aspecto do treinamento do usurio. Tambm abordada a importncia do projeto do sistema de informao, de forma a corrigir erros comuns de usurios. Ampliamos a discusso deste tpico para quais requisitos que um sistema de recuperao de informao na Web pode oferecer para facilitar o usurio. O quinto critrio, formato de sada, importante porque afeta a tolerncia do usurio do sistema em relao preciso. O indivduo aceita uma preciso menor se o produto entregue estiver num formato que facilite um rpido rastreamento e permita facilmente o descarte dos itens irrelevantes. Quanto mais informao dada para o usurio sobre a representao do documento, mais fcil para ele fazer uma predio de relevncia acurada. Este critrio ser adotado como parmetro, e variveis relativas ao ambiente da Web sero integradas na discusso. O ltimo critrio proposto por Cleverdon e incorporado no modelo de Lancaster & Fayen, tempo de resposta, um fator decisivo em sistemas de recuperao de informao manuais, visto que todos os usurios tm uma data limite aps a qual aquela informao no tem mais valor. Nos sistemas on-line esse parmetro minimizado, pois o tempo de resposta pequeno e o resultado apresentado diretamente ao usurio. Nos mecanismos de busca na Web o tempo de resposta mais difcil de ser mensurvel, devido a um fator inerente ao ambiente: a velocidade de acesso da Internet. O mesmo mecanismo de busca, dependendo da hora da consulta, da localizao do usurio em relao ao servidor, da conexo do usurio, ou de outros tantos fatores, pode apresentar resultados diversos, no sendo esta medida um parmetro rigoroso para medir sua performance. No entanto, um importante diferencial que um mecanismo de busca pode oferecer ao usurio uma mensagem informando que a consulta ao sistema est sendo efetuada, o que tranqiliza o usurio quanto ao bom funcionamento do sistema. Alguns servios na Web no oferecem essa informao, dando a impresso de que a conexo que est lenta, quando, na verdade, o tempo gasto o da consulta sendo executada. Lancaster & Fayen incorporam ainda mais um parmetro a essa lista, a taxa de novidade, que mede a proporo de novos documentos relevantes recuperados para o requisitante. Os autores destacam que, com essa medio, um sistema on-line pode ser usado em uma base regular como uma ferramenta de atualizao de conhecimento. A taxa

35 de novidade tambm uma medida vlida e til de um aspecto da eficincia do sistema: o tempo entre a publicao da literatura e seu aparecimento na base de dados. A taxa de novidade de extrema importncia nos mecanismos de busca na Web, porm, entendemos que esta medida melhor denominada de atualidade. Devemos alertar que a avaliao de um sistema de recuperao de informao permeada de uma certa subjetividade, fundamentada principalmente pela questo da relevncia. Apesar das palavras relevante ou relevncia j terem sido incorporadas na discusso que empreendemos sobre preciso e revocao, ainda no as definimos. De fato, a ausncia de definio se deve a no incorporao deste conceito por Lancaster. Coube a Saracevic89, em 1975, empreender uma extensa discusso sobre relevncia. Neste trabalho, clssico na rea de recuperao de informao, o autor demonstra que as vrias definies existentes na literatura resumem-se a um padro geral: Relevncia o(a) A de um(a) B entre um(a) C e um(a) D conforme determinado por um(a) E. Onde cada incgnita pode ser preenchida pelos termos mostrados no Quadro 2. A medida grau dimenso estimativa avaliao relao B correspondncia utilidade conexo satisfao ajuste cruzamento C D pergunta requisio necessidade do usurio ponto de vista E pessoa julgador usurio solicitante especialista de informao

documento artigo forma textual referncia informao oferecida fato Quadro 2 Termos para a definio de relevncia.

Assim, observamos que a relevncia um conceito extremamente amplo. No obstante, atentos para o carter subjetivo da avaliao, preciso fixar uma lista de parmetros que possam ser utilizados para a avaliao de sistemas de recuperao de informao na Web. Com isto, chegamos a um repertrio de critrios que podem ser utilizados para a avaliao de mecanismos de busca na Web:
Preciso

SARACEVIC, Tefko. Relevance: a review of and a framework for the thinking on the notion in Information Science. Journal of the American Society for Information Science. v.26, n.6, p.321-343, 1975.
89

36
Cobertura Esforo do usurio Formato de sada Atualidade

2.1.1 EXPANSO DO MODELO


Especificamente nos itens relativos ao esforo do usurio e ao formato de sada, existem aspectos especficos que neles repercutem, mas que no foram discutidos por Lancaster & Fayen. No parmetro esforo do usurio, esses autores focam a questo nos aspectos relativos ao treinamento do usurio e documentao do servio de informao. Citam tambm a importncia do projeto do sistema, item que detalhamos melhor atravs da discusso acerca da interface grfica (ergonomia) e das caractersticas de busca oferecidas ao usurio. A interface do sistema foi includa porque este um parmetro importante de ser avaliado, sendo cada vez mais considerado como um critrio de qualidade de um servio de informao disponibilizado na Web. Quanto s caractersticas de busca, nos apoiamos no trabalho de Hahn 90, que apresenta uma interessante pesquisa histrica sobre a origem das caractersticas de sistemas de recuperao de informao on-line. Nesta pesquisa, as caractersticas de busca so comparadas com as funcionalidades dos modernos mecanismos de busca e servem de subsdio para a discusso que se segue, permeada com a observao obtida da nossa experincia na utilizao de sistemas de recuperao de informao tradicionais e, principalmente, nos mecanismos de busca de informao na Web. Este trabalho de Hahn tambm utilizado na discusso sobre os critrios relativos ao formato de sada. importante ressaltar que no temos como objetivo comparar as facilidades que cada mecanismo oferece e, portanto, no sero dados exemplos concretos de quais mecanismos de busca utilizam este ou aquele recurso. Estas caractersticas so

90 HAHN, Trudi Bellardo. Text Retrieval Online: historical perspective on Web Search Engines. Bulletin ASIS. V.24, n.4, April/May, 1998. Disponvel em: <http://www.asis.org/Bulletin/Apr-98/hahn.html>. Acesso em: 22 jun. 2001.

37 extremamente dinmicas e a funo desta seo oferecer subsdio para a caracterizao de parmetros que possam ser avaliados nos estudos comparados91.

2.2 Modelo para a Web


A partir da discusso anterior, definimos os critrios apresentados no Quadro 3 que compem o modelo de avaliao de recuperao de informao na Web, vlidos para os mecanismos de busca do tipo rob. Foi mantida a ordenao dos critrios do modelo proposto por Lancaster & Fayen. No entanto, em condies experimentais a ordem mais favorvel para a execuo da avaliao : cobertura, esforo do usurio, preciso, formato de sada e atualidade92.

Para um panorama atualizado das caractersticas dos principais mecanismos de busca sugerimos a consulta ao site Search Engine Showdown <http://searchengineshowdown.com>, que apresenta quadros e revises do estado-da-arte dos servios disponveis na Web. 92 Devo a Prof. Hagar Espanha Gomes esta observao.
91

38

Quadro 3 Critrios do modelo proposto para avaliao de recuperao de informao na Web. 1. Preciso 2. Cobertura 3. Esforo do usurio 3.1. Documentao do sistema 3.2. Interface com o usurio 3.3. Capacidade de busca: 3.3.1. Relacionamento entre termos: 3.3.1.1. 3.3.1.2. 3.3.1.3. 3.3.1.4. Operadores booleanos Proximidade entre termos Linguagem natural Atravs de vocabulrio

3.3.2. Interpretao de uma nica palavra 3.3.2.1. 3.3.2.2. 3.3.2.3. 3.3.2.4. 3.3.2.5. 3.3.2.6. 4. Formato de sada 4.1. Critrio de ordenao 4.2. Formato de exibio 5. Atualidade Truncagem Distino entre maisculas e minsculas Delimitao por campo Eliminao de palavras no significativas Atribuio de pesos a termos Incorporao automtica de sinnimos

39

2.2.1 PRECISO
Conforme definido anteriormente, a preciso de um sistema a relao entre o nmero de documentos relevantes recuperados e o nmero total de documentos recuperados. Duas questes se colocam para a medida da relevncia dos resultados de um mecanismo de busca na Web: o conceito de relevncia e a definio do nmero total de documentos recuperados. A relevncia um conceito relativo: algumas informaes so mais relevantes que outras, outras no so relevantes e outras tm o potencial para tornarem-se relevantes. E cada indivduo tem uma noo de relevncia que varia de acordo com o seu conhecimento prvio do assunto e de seu ponto de vista. Na Cincia da Informao, a relevncia considerada como a medida da efetividade do contato entre a fonte e o destino em um processo de comunicao93. Assim, considerando a diversidade de indivduos e de temas envolvidos na Web, a medida da relevncia fica ainda mais subjetiva. No entanto, alguns parmetros podem ser considerados para analisar a relevncia dos resultados de um mecanismo de busca na Web. Um deles a validade do link, ou seja, que a pgina oferecida como resultado esteja acessvel. Se o link est inativo obviamente irrelevante, pois no traz nenhuma informao ao usurio. No outro extremo, um site que traga indicao de vrias pginas sobre o assunto pesquisado uma fonte de informao potencialmente relevante. A outra questo envolvida na avaliao da preciso de um servio de informao na Web a medida do nmero total de documentos encontrados. Muitos mecanismos de busca no informam esse nmero, o que dificulta a medida. E, mesmo quando informado, em geral um nmero muito grande para que se possa analisar a re;evncia da totalidade dos resultados. Como os mecanismos de busca utilizam algoritmos que ordenam os resultados a partir de um critrio prprio de relevncia, a avaliao da relevncia de um subconjunto obtido pelos primeiros resultados exibidos pode oferecer uma boa amostragem da preciso do servio.

SARACEVIC, Tefko. Relevance: a review of and a framework for the thinking on the notion in Information Science. Journal of the American Society for Information Science. v.26, n.6, p.321-343, 1975.
93

40

2.2.2 - COBERTURA
A avaliao da cobertura deve ser feita considerando dois aspectos: abrangncia e escopo. A abrangncia diz respeito ao volume de informaes que o mecanismo de busca indexa, proporcionalmente ao tamanho da Web. Esta uma medida difcil de ser avaliada, visto que as estatsticas refletem informaes oferecidas pelos prprios mecanismos de busca e porque o tamanho da Web tambm imensurvel. Em relao ao escopo, deve-se avaliar que tipo e que formato de recursos o mecanismo de busca inclui. Alguns servios indexam, alm de pginas html, documentos em arquivos formatados (PDF, por exemplo), imagens, mensagens de grupos ou listas de discusso. importante avaliar se o mecanismo de busca indexa o texto completo das pginas e quais os metadados que so armazenados em seu banco de dados. Em geral, so registrados a data do documento e o tamanho em bytes, h servios que incluem o idioma das pginas.

2.2.3 - ESFORO DO USURIO


O parmetro de esforo do usurio dividido em trs aspectos a serem avaliados: documentao do sistema, interface com o usurio e capacidades de busca. Os dois primeiros aspectos documentao do sistema e interface com o usurio devem ser considerados especialmente porque os mecanismos de busca na Web atendem ao usurio diretamente, sem a interferncia de um profissional para mediar sua interao com o servio. Assim, a qualidade da documentao oferecida e da interface com o sistema so itens importantes de serem avaliados. O ltimo aspecto, relacionado s capacidades de busca do sistema, foi detalhado porque consideramos que a interpretao pelo mecanismo de busca da estratgia utilizada pelo usurio, e os recursos que oferece para facilitar a traduo da necessidade do usurio em uma sintaxe de busca adequada e precisa, so pontos que devem ser cuidadosamente analisados na performance do sistema.

41

2.2.3.1 - Documentao do sistema


importante a avaliao dos recursos que o sistema oferece em relao s informaes sobre como o sistema funciona, ou seja, a documentao disponvel. Nos mecanismos de busca a documentao pode estar na forma de uma ajuda online (help). Deve ser analisada a disponibilidade de pginas ou de recursos auto-explicativos e didticos. As facilidades que as tecnologias de informao e comunicao oferecem, aliadas ao crescente uso da educao on-line como ferramenta de treinamento de usurio, exigem que os servios sejam mais cuidadosos no que diz respeito ao oferecimento de tutoriais e treinamentos no uso de seus sistemas.

2.2.3.2 Interface com o usurio


A interface que o mecanismo de busca oferece outro critrio que deve ser analisado, considerando questes relativas ergonomia e ao webdesign. Podemos, tambm, considerar neste item as opes que o servio oferece para facilitar a comunicao com o usurio. Como os mecanismos de busca esto potencialmente acessveis para todo o mundo, apresentar verses em vrios idiomas um valor agregado a ser considerado. Outro recurso que pode ser includo a possibilidade do usurio armazenar suas buscas para execut-las ou modific-las posteriormente. Considerar as habilidades dos diferentes tipos de usurios, propondo interfaces apropriadas para usurios novatos e experientes outra possibilidade a ser avaliada.

2.2.3.3 - Capacidade de busca


A capacidade de busca diz respeito ao cruzamento da necessidade de informao especificada pelo usurio com a base de dados do sistema no intuito de recuperar informaes. Podemos distinguir dois tipos de capacidade de busca: aquela que ajuda a especificar a relao entre os termos pesquisados e aquela que facilita a interpretao de uma nica palavra.

2.2.3.3.1 RELACIONAMENTO ENTRE TERMOS


O relacionamento entre os termos diz respeito s facilidades que o sistema oferece em conectar as palavras-chaves em uma busca especificada pelo usurio. Identificamos quatro tipos de relacionamento entre termos: atravs de operadores booleanos, de recursos

42 para determinar a proximidade entre os termos, de linguagem natural e da identificao dos termos em um vocabulrio disponvel para o usurio. 2.2.3.3.1.1 Operadores booleanos A forma mais usual de relacionamento entre termos feita atravs do uso de operadores booleanos (e, ou, no). Esta uma caracterstica presente em quase todos os mecanismos de busca, geralmente sob o rtulo de busca avanada. Um problema comum que s vezes o relacionamento automtico ou implcito, e nem sempre fcil para o usurio identificar o operador booleano que considerado quando digita apenas os termos, sem utilizar os conectores, ou seja, a operao default. 2.2.3.3.1.2 Proximidade entre termos Outra forma de relacionamento atravs da proximidade entre termos. Em sistemas de recuperao tradicionais comum a existncia do operador NEAR, ou de operaes lgicas que permitam especificar a distncia mxima permitida entre dois termos de busca dentro de um registro. Esta funo considera a hiptese de que quanto mais perto dois termos estejam dentro de um nico texto, maior a probabilidade de estarem relacionados ao mesmo conceito. Nos mecanismos de busca na Web no comum o uso do operador NEAR, no entanto, a busca restrita para uma expresso, quando disponvel, costuma ser feita atravs do uso de aspas. 2.2.3.3.1.3 Linguagem natural Outra opo para o relacionamento entre os termos o uso da linguagem natural, caracterstica que permite ao usurio fazer sua pergunta diretamente, descrevendo a informao que deseja encontrar. Essa uma possibilidade que alguns mecanismos de busca comeam a utilizar, sendo apontada por alguns autores94 como uma das tendncias para facilitar o trabalho dos usurios. 2.2.3.3.1.4 Atravs de vocabulrio A navegao por um vocabulrio de termos permite ao usurio escolher em uma lista os termos para sua busca, comeando at pela raiz da palavra. A adoo de tesauro ou conceitos hierrquicos facilita ao usurio definir a relao entre os termos, visando uma
94 CORNELLA, Alfons. O avano das ferramentas de busca. Infonomia. Disponvel em: <http://www.intexnet.com.br/polors/revista/infonomia/20.htm>. Acesso em: 12 ago. 1999.

43 recuperao mais precisa. Este um recurso pouco comum entre os mecanismos de busca, mas de grande utilidade, pois facilita o controle dos termos de busca.

2.2.3.3.2 INTERPRETAO DE UMA NICA PALAVRA


Denominamos de interpretao de uma nica palavra os recursos que o sistema pode oferecer para auxiliar o usurio na caracterizao ou especificao de uma palavrachave de sua expresso de busca. Identificamos seis formas de melhorar a interpretao de uma nica palavra: truncagem, distino entre maisculas e minsculas, delimitao da busca em um campo especfico, eliminao de palavras no significativas, atribuio de peso aos termos e incorporao automtica de sinnimos. 2.2.3.3.2.1 Truncagem A chamada truncagem ou busca por raiz a possibilidade de busca por prefixo ou sufixo, ou ainda utilizando um curinga para substituir uma letra ou conjunto de letras de uma palavra-chave (Bra?il). Esta no uma caracterstica comum dos mecanismos de busca, embora alguns a utilizem, nem sempre comunicando o usurio. importante observar se o servio informa ao usurio se esta uma opo default, pois isto tem uma implicao direta na recuperao. Caso o usurio busque por amor e o mecanismo tenha como default a truncagem direita, pode recuperar textos que contenham a palavra amoroso. Se o mecanismo tiver como default a truncagem esquerda, pode obter resultados contendo clamor, por exemplo. Se tiver truncagem nos dois lados, so muitas as possibilidades de falsa recuperao. 2.2.3.3.2.2 Distino entre maisculas e minsculas A distino entre maisculas e minsculas (case sensitivity) outra forma de interpretao de uma nica palavra que pode melhorar a preciso da recuperao. Alguns mecanismos de busca fazem essa distino, facilitando a recuperao de termos relacionados a nomes prprios. 2.2.3.3.2.3 Delimitao por campo A delimitao da busca em um campo especfico tambm uma forma de melhorar a preciso da busca. Em sistemas de recuperao de informao tradicionais, em especial de bases de dados bibliogrficas, comum a busca em campos como autor, ttulo, etc. Nos

44 mecanismos de busca na Web em geral a recuperao feita no texto completo, sem campos pr-determinados. No entanto, em documentos html, pode-se fazer a busca em outros elementos disponveis neste formato, por exemplo o ttulo das pginas, como se fossem campos especficos. Mas importante considerar que os autores das pginas Web nem sempre utilizam ttulos relacionados ao contedo das pginas. Outros campos que podem ser pesquisados nos mecanismos de busca so a data e o idioma do documento, o servidor onde a pgina se encontra, o pas do domnio, entre outras opes. 2.2.3.3.2.4 Eliminao de palavras no significativas A eliminao de palavras no significativas (stop words) outra caracterstica que pode estar presente nos servios de recuperao de informao. A principal funo desta opo a reduo do tamanho dos ndices das bases de dados. Atualmente esta restrio no to importante, considerando o baixo custo de armazenamento de dados, porm, tem implicao na recuperao. Alguns mecanismos de busca excluem termos muito freqentes em pginas Web, como Web, html, Internet, etc. 2.2.3.3.2.5 Atribuio de pesos a termos Alguns servios permitem a atribuio de pesos aos termos especificados, possibilitando ao usurio indicar a importncia de determinado termo na sua busca. Alguns mecanismos incorporam essa facilidade atravs da adoo de um sinal de mais antes do termo de maior importncia. 2.2.3.3.2.6 Incorporao automtica de sinnimos Um recurso de grande utilidade a incorporao automtica de sinnimos em uma formulao de busca, j que dificilmente o usurio pode incluir todas as possibilidades. Esta uma caracterstica mais fcil de ser implementada em uma base de dados temtica, que pode incorporar um tesauro para a gerao de sinnimos. Nos mecanismos de busca na Web, por tratarem de todo e qualquer assunto, a traduo de sinnimos fica mais complicada, visto que os termos tm significados diferentes em cada contexto. No entanto, recentes pesquisas em esquemas de classificao, tambm denominada taxonomia, indicam que em breve esse ser um recurso cada vez mais utilizado pelos mecanismos de busca.

45

2.2.4 FORMATO DE SADA


Nos mecanismos de busca, o formato de sada um importante parmetro de anlise, pois oferece ao usurio o primeiro contato com a informao recuperada. Ele permite uma avaliao de sua relevncia e conseqente deciso do usurio de seguir ou no a pgina indicada. Esta uma medida que tambm pode ser analisada como facilitadora ou no do esforo do usurio em obter a informao desejada. Hahn95 chama de capacidade de navegabilidade (browse capabilities) os recursos que o sistema oferece para auxiliar o usurio na determinao dos itens de seu interesse e na seleo para obter mais informaes. Considera que, como todo sistema recupera itens no relevantes, esta capacidade relaciona-se com as facilidades oferecidas ao usurio para rapidamente localizar os itens com maior probabilidade de lhe serem teis. Seguindo a estrutura proposta por este autor, aliada nossa experincia, podemos considerar dois principais parmetros para anlise do formato de sada: critrio de ordenao e formato de exibio.

2.2.4.1 Critrio de ordenao


O critrio de ordenao dos resultados est relacionado com a previso de relevncia que o sistema adota. Ou seja, uma pontuao que reflete a probabilidade de um item recuperado ser relevante para a solicitao do usurio. Nos mecanismos de busca na Web este critrio bastante discutido, sendo atualmente um dos maiores diferenciais entre os servios disponveis. Desde a criao dos primeiros mecanismos de busca, os critrios de ordenao estavam relacionados primariamente com a freqncia dos termos pesquisados e com a localizao destes no documento, critrios esses oriundos das bases de dados tradicionais. Recentemente, alguns servios comearam a utilizar outros critrios de ordenamento baseados nas possibilidades que o hipertexto oferece. H, basicamente, dois novos elementos sendo incorporados ao ordenamento, inerentes s novas tecnologias de informao e comunicao: os hiperlinks e a interatividade.

95

HAHN, Trudi Bellardo. Text Retrieval Online: historical perspective on Web Search Engines. Bulletin ASIS. V.24, n.4, April/May, 1998. Disponvel em: <http://www.asis.org/Bulletin/Apr-98/hahn.html>. Acesso em: 22 jun. 2001.

46 Os hiperlinks esto sendo utilizados como uma base de informao sobre que pginas oferecem links para uma determinada pgina. Assim, uma pgina considerada mais relevante que outra se for bastante citada, e de acordo com quem a cita. Este um critrio j bastante difundido na comunicao cientfica, e que a tecnologia de hipertexto permite sua adaptao aos mecanismos de busca na Web. Outro parmetro que tem sido incorporado como medida de relevncia em mecanismos de busca a freqncia que determinada pgina escolhida (clicada) por usurios em resposta a uma dada busca. Esse critrio utiliza-se das vastas possibilidades de armazenamento de informaes e minerao de dados que a crescente reduo de custos de processamento oferece.

2.2.4.2 Formato de exibio


Nos sistemas de recuperao de informao tradicionais, o formato de sada pode incluir a citao bibliogrfica, a citao acrescida dos termos indexados, ou do resumo dos documentos. Saracevic96, em uma pesquisa sobre predio de relevncia, observou que se o sistema oferece como resposta apenas o ttulo os usurios so capazes de reconhecer a relevncia de apenas 66% dos documentos recuperados, se for oferecido tambm o resumo os usurios podem reconhecer at 80%. Alguns servios oferecem ao usurio a opo de determinar se quer visualizar um registro curto, mdio ou longo. Esta uma alternativa que d ao usurio controle sobre a exibio. Ele escolher o modo de sada de acordo com seu grau de compreenso da forma como funciona o mecanismo. A maioria dos mecanismos de busca na Web indexa texto completo, o que permite uma gama maior de opes de exibio das respostas. comum a exibio das primeiras palavras ou frases da pgina. Alm do texto completo, os mecanismos de busca armazenam informaes complementares sobre as pginas atravs de metadados, em campos especficos, conforme discutido no item relativo s capacidades de busca em campos 97. Assim, esses campos podem ou no ser exibidos, e alguns tm uma grande importncia na deciso do usurio em seguir ou no o link sugerido. Como exemplo, podemos citar o idioma do documento, o tamanho (em bytes) e a data de atualizao.

96 97

SARACEVIC apud LANCASTER, F.W., FAYEN, E.G., 1973 Ver item 2.2.3.3.2.3

47 Os mecanismos de busca tambm podem exibir o contexto no qual o termo pesquisado est inserido. Nos sistemas tradicionais de recuperao de informao esse recurso chamado de highlighting, ou seja, os termos pesquisados so iluminados. A iluminao oferece ao usurio uma indicao visual (atravs de tipo de letra diferenciado, por cor ou por negrito, por exemplo) dos termos pesquisados no contexto em que se encontram, facilitando a identificao da relevncia do documento para o usurio. Outras opes oferecidas na pgina do resultado de busca devem ser consideradas, como, por exemplo:
Nmero total de registros recuperados; Opo de determinar o nmero de registros exibidos por pgina de

resultado;
Opo de refinamento do resultado, seja por busca avanada, por

escolha de um documento como referncia (more like this), etc.;


Armazenamento da busca para consultas posteriores; Agrupamento das pginas recuperadas que esto sob o mesmo site

(mesma URL);
Eliminao de registros duplicados.

2.2.5 ATUALIDADE
O ltimo parmetro do modelo relaciona-se com a capacidade do mecanismo de busca em manter-se atualizado. Os robs que vasculham a Web capturando sites para os mecanismos de busca devem acompanhar a velocidade com que os sites so disponibilizados. Assim, verificar se os registros recuperados so de sites recentemente atualizados uma medida da eficincia da coleta e atualizao do mecanismo de busca. Na seo seguinte analisamos a metodologia utilizada nos estudos comparados de mecanismos de busca, verificando a adoo ou no dos parmetros includos no modelo aqui apresentado.

48

3. ANLISE DA METODOLOGIA DE AVALIAO

Nesta seo procuramos discutir a questo relativa a como avaliar. Para tal, destacamos da extensa bibliografia sobre mecanismos de busca os estudos que buscam comparar a performance dos sistemas de recuperao de informao na Web. No consideramos os estudos comparados como um tipo especfico de pesquisa, classificandoos na estrutura apresentada na primeira seo deste trabalho, porque estas pesquisas envolvem discusses multifacetadas. Os estudos comparados envolvem facetas relativas coleo dos mecanismos de busca, sua anatomia e, de certa forma, estudos de usurios. Ou seja, agregam aspectos que caracterizam vrios tipos de estudos. Para obter uma amostra significativa desses estudos, partimos dos escassos artigos de reviso como base para anlise da metodologia aplicada para avaliao de mecanismos de busca. So comuns trabalhos comparativos dos servios de busca existentes na Web, principalmente atravs de quadros de caractersticas. Essas publicaes, de natureza descritiva, costumam estar disponveis em sites dedicados indstria da informao, em bibliotecas acadmicas e em publicaes comerciais. Proliferam, tambm, comparaes entre mecanismos de busca elaboradas por e para profissionais de informao, que mostram mais profundidade, mas carecem de uma abordagem sistemtica, gerando falta de consistncia na escolha do que medir e como medir. Esta uma constatao feita por Schwartz98, em um artigo publicado no Journal of the American Society for Information Science (JASIS) em 1998. Neste trabalho, que pode ser chamado de clssico, Schwartz apresenta uma reviso da histria do desenvolvimento dos mecanismos de busca, com uma breve reviso dos servios de recuperao de informao na fase pr-Web. Caracteriza os atuais servios de busca como listas classificadas e ferramentas baseadas em pesquisa, explicando suas diferenas. A autora faz, de forma clara e interessante, consideraes sobre o contedo dos servios, caractersticas de busca e ordenao dos resultados.

98 SCHWARTZ, Candy. Web Search Engines. Journal of the American Society for Information Science. v.49, n.11, p.973-982, Sep. 1998.

49 Este artigo oferece um panorama dos estudos de avaliao de performance, cujos autores esto mostrados na Tabela 1. Esta tabela exclui os trabalhos, citados por Schwartz, que tratam de quadros comparativos ou de tutoriais sobre o uso de mecanismos de busca. Um trabalho considerado por Schwartz como excelente resumo de comparaes e avaliaes de servios de busca a pesquisa de Barry & Richardson99. Estes pesquisadores australianos publicaram na Web um trabalho que apresenta as concluses de 11 diferentes estudos comparativos, que pode ser vista na Tabela 2. O quadro demonstra claramente que nenhum trabalho conclusivo sobre qual mecanismo o melhor. A importante contribuio desses autores a constatao de que o uso de diferentes mtodos dificulta uma classificao que indique os melhores mecanismos de busca. A Tabela 3 reproduz o quadro apresentado pelos autores e indica como as diversas ferramentas foram avaliadas. Cabe ressaltar que o trabalho de Barry & Richardson, publicado somente na Web, fornecia apenas hiperlinks para os estudos comentados e no as referncias bibliogrficas completas. A Tabela 4 mostra a referncia indicada para cada autor, ou seja, os hiperlinks. A partir desses dois trabalhos de reviso, o de Schwartz e o de Barry & Richarson, fizemos uma listagem dos trabalhos citados pelos autores e tentamos localizar na Internet as referncias. A Tabela 5 mostra os 28 artigos que aparentemente tratam de estudos comparados entre mecanismos de busca. A primeira coluna indica a origem da referncia e a ltima coluna indica se o artigo foi selecionado ou no para a presente pesquisa, e o motivo para a no escolha. Observa-se que dentre as 14 referncias indicadas por Barry, 10 estavam com link invlido, o que demonstra a importncia de se dispor da referncia bibliogrfica completa, mesmo para documentos disponveis em texto completo na Web, devido volatilidade dos documentos neste ambiente. Todos os documentos foram procurados na Web, mesmo aqueles com a referncia bibliogrfica completa. Quando o link no era localizado a partir da referncia oferecida, fizemos buscas com o nome do autor, do artigo, ou de outras informaes disponveis como local de publicao (evento ou peridico). Os documentos localizados na Web foram

BARRY, Tony, RICHARDSON, Joanna. Indexing the Net: A Review of Indexing Tools. In: AUSWEB: AUSTRALIAN WORLD WIDE WEB CONFERENCE, 6, Cairns,1996. Disponvel em:<http://www.bond.edu.au/Library/jpr/ausweb96/>. Acesso em: 30 maio 2001.
99

50 analisados para verificar se realmente tratavam de estudos comparados de mecanismos de busca. Selecionamos dez estudos comparados sobre mecanismos de busca na Web para uma anlise da metodologia adotada nesses estudos. Esses artigos foram armazenados em formato digital e impressos e analisados atravs de estudos anotados, realizados a partir da tcnica denominada Carpintaria do Trabalho Acadmico. Esta tcnica consiste em um conjunto de procedimentos que visa facilitar o desenvolvimento do trabalho acadmico, integrando a produo de forma e contedo. O Anexo 2 apresenta os objetivos e a ementa da disciplina de mesmo nome, que apresenta o mtodo, oferecida no curso de ps-graduao em Cincia da Informao do Programa de Ps-graduao IBICT/UFRJ, pela professora Maria de Nazar Freitas Pereira.

51 Tabela 1 Autores citados por Schwartz sobre avaliao de performance.


Autores Barry and Richardson Chu and Rosenthal Referncia Barry, T., & Richardson, J. (1996, November 5). Indexing the Net. A review of indexing tools [Online] . Available: http://www.scu.edu.au/sponsored/ ausweb/ ausweb96/ educn/ barry1/ paper.html [1997, September 2]. Chu, H., & Rosenthal, M. R. (1996). Search engines for the World Wide Web: A comparative study and evaluation methodology. In S. Hardin (Ed.), Global complexity: Information, chaos, and control.Proceedings of the 59th ASIS Annual Meeting (pp. 127135). Medford, NJ: Information Today. Also available: http://www.asis.org/annual-96/ ElectronicProceedings/ chu.html [1997, September 8]. Courtois, M. P., Baer, W. M., & Stark, M. (1995). Cool tools for searching the Web. Online, 19(6), 1432.

Courtois, Baer, and Stark Ding and Marchionini

Ding, W. I., & Marchionini, G. (1996). A comparative study of web search service performance. In S. Hardin (Ed.), Global complexity: Information, chaos, and control: Proceedings of the 59th ASIS AnnualMeeting (pp. 136142). Medford, NJ: Information Today. Feldman Feldman, S. (1997, August 29). Just the answers, please: Choosing a Web search service [Online]. Searcher Magazine. Available: http://www.infotoday.com/searcher/may/story3.htm [1997, September 2]. Gauch and Gauch, S., & Wang, G. (1996, September 8). Information fusion with ProFusion [Online] Wing . Available: http://www.csbs.utsa.edu:80/info/webnet96/html/155.htm [1997, September 8]. (Presented at WebNet96.) Kimmel Kimmel, S. (1996). Robot-generated databases on the World Wide Web. Database, 19(1), 4049. Leighton and Leighton, H. V., & Srivastava, J. (1997, June 16). Precision among World Wide Web Srivastava search services (search engines): AltaVista, Excite,HotBot, Infoseek, Lycos [Online]. Available: http://www.winona.msus.edu/ is-f /library-f /webind2/webind2.htm [1997, September 2] . Peterson Peterson, R. E. (1997, February). Eight Internet search engines compared [Online]. First Monday, 2(2). Available: http://www.firstmonday.dk/ issues/ issue_2/ peterson/ [1997, September 2] . Schlichting Schlichting, A., & Nilsen, E. (1996, December 17). Signal detection analysis of WWW and Nilsens search engines [Online] . Available: http://www.microsoft.com/usability/webconf/ schlichting/ schlichting.htm [1997, September 2] . Su Su, L. T. (1997). Developing a comprehensive and systematic model of user evaluation of Web-based search engines. In M. E. Williams (Ed.), National Online Meeting: Proceedings1997 (pp. 335345). Medford, NJ: Information Today. Tomaiuolo Tomaiuolo, N. G., & Packer, J. G. (1996a). An analysis of Internet search engines: and Packer Assessment of over 200 search queries. Computers in Libraries, 16(6), 5862. Tomaiuolo Tomaiuolo, N. G., & Packer, J. G. (1996b, May 20). Results of 200 subject searches in and Packer AltaVista, Infoseek, Lycos, Magellan and Point, performed Oct. to Dec. 1995 [Online]. Available: http://neal.ctstateu.edu:2001/ htdocs/ websearch.html [1997, September 2] . Westera Westera, G. (1997, July 4). Robot-driven search engine evaluation: Overview [Online]. Available: http:// www.curtin.edu.au/curtin/library/staffpages/gwpersonal/ senginestudy/ [1997, September 2] . Zorn, Zorn, P., Emanoil, M., Marshall, L., & Panek, M. (1996, May). Advanced searching: Emanoil, Tricks of the trade [Online]. Online, 21(3). Available: Marshall, and http://www.onlineinc.com/onlinemag/MayOL/ zorn5.html [1997, September 2]. Panek

52 Tabela 2 Resultados obtidos dos trabalhos de diferentes autores sobre mecanismos de busca. Different Search Engines/Different Results Author Comments Unfortunately, no single guide is familiar with every resource. What you need is a Conte comprehensive set of tools for searching the Net. ...because these search engines search in different ways and search different parts of the Internet, doing the same search using different search engines will often Eagan give you wildly differing results....try out a number of the search engines, and understand that the Internet and the search engines are changing daily. Because each robot is programmed to search the Web in a different way, the Felt information stored in each database can be very different. In the longer term complete Web-wide traversal by robots will become Koster prohibitively slow, expensive, and ineffective for resource discovery. ...you should try other search engines, too. Each has its own strengths and Leita weaknesses, and each has a chance of delivering just what you're looking for. ...one size doesn't fit all and needs vary widely ... [Search engines] all have their Randall strengths and weaknesses,and your best bet is to learn how to use an entire arsenal of them. A directory is great if you're simply interested in a general topic. ... as your Scoville questions become more specific, ... you need a search engine. ... Use more than one search engine. The most striking conclusion we drew from our tests was that all these engines had a long way to go before they could be relied upon to deliver consistently Venditto accurate search findings. ... no two search engines yielded the same results on a search during our entire testing period. ... different search engines are suitable for different types of tasks. [Speaking of Webcrawler and Lycos] These differences contribute to different Webster result sets that are returned by different search engines for the same query. ... No single search tool can be relied upon to satisfy every query. There is no one ultimate search tool for the Web. Because of its nature, various Weiss search engines use different search techniques and yield different "views" of the Web. Since [searching tools] start from different base documents and work in different Winship ways, none of the resulting indexes are comprehensive and nor are the resources listed completely duplicated. Fonte: BARRY, Tony, RICHARDSON, Joanna. Indexing the Net: A Review of Indexing Tools. In: AUSWEB: AUSTRALIAN WORLD WIDE WEB CONFERENCE, 6, Cairns,1996. Disponvel em:<http://www.bond.edu.au/Library/jpr/ausweb96/>. Acesso em: 30 maio 2001.

53 Tabela 3 Critrio de avaliao dos autores. Author Other High Other High Comments Scores Scores pre-dates Alta CNet Education content SavvySearch Yahoo Open Text Vista, Excite, etc. focus on scientific Lebedev Total hits Alta Vista Lycos Inktomi info Relevance and pre-dates Alta Leighton Lycos InfoSeek --precision Vista, Excite, etc. recommended for Large database, fullLeita Open Text InfoSeek Lycos quick, pinpointed text indexing searches MetaCrawler Leonard Search engines Alta Vista ----rated #1 overall Leonard Meta-search engines MetaCrawler ------A number of our interpretation Liu Alta Vista ----factors of ranking Usability, speed, pre-dates Alta InfoSeek WebCrawler WWWWorm Randall precision Vista, etc. no mention of Total no. of hits per Lycos Open Text --Scoville Alta Vista query Relevance of top 10 Lycos Excite InfoSeek --Scoville hits our interpretation Steinberg Not identified Alta Vista ----of ranking Tillman Not identified InfoSeek Alta Vista ----200 actual Lycos, Average no. of Reference Desk Tomaiuolo Alta Vista InfoSeek Magellan relevant hits questions A number of our interpretation UMichigan Yahoo Alta Vista Lycos factors of ranking InfoSeek Venditto Relevance Excite ----Guide Venditto Comprehensiveness Alta Vista ------Content, features, pre-dates Alta Winship Lycos ----output, no. of hits Vista, etc. Criteria Top Score Fonte: BARRY, Tony, RICHARDSON, Joanna. Indexing the Net: A Review of Indexing Tools. In: AUSWEB: AUSTRALIAN WORLD WIDE WEB CONFERENCE, 6, Cairns,1996. Disponvel em:<http://www.bond.edu.au/Library/jpr/ausweb96/>. Acesso em: 30 maio 2001.

54 Tabela 4 Autores citados por Barry & Richardson e suas respectivas URLs Autores Cnet Lebedev Leighton Leita Leonard Liu Randall Scoville Steinberg Tillman Tomaiuolo UMichigan Venditto Winship Referncia http://cnet.unb.ca/cabox/learning/win/webserch.html http://www.chem.msu.su/eng/comparison.html http://www.winona.msus.edu/services-f/library-f/webind.htm http://www.mispress.com/websearch/websch4.html http://www.cnet.com/Content/Reviews/Compare/Search/index.html http://www.indiana.edu/~librcsd/search/ http://www.zdnet.com/pccomp/features/internet/search/index.html http://www.pcworld.com/reprints/lycos.htm http://www.hotwired.com/wired/4.05/indexing/index.html http://challenge.tiac.net/users/hope/findqual.html http://neal.ctstateu.edu:2001/htdocs/websearch.html http://www.sils.umich.edu/~fprefect/matrix/matrix.shtml http://pubs.iworld.com/iw-online/May96/showdown.html http://www.bubl.bath.ac.uk/BUBL/IWinship.html

Fonte: BARRY, Tony, RICHARDSON, Joanna. Indexing the Net: A Review of Indexing Tools. In: AUSWEB: AUSTRALIAN WORLD WIDE WEB CONFERENCE, 6, Cairns,1996. Disponvel em:<http://www.bond.edu.au/Library/jpr/ausweb96/>. Acesso em: 30 maio 2001.

55 Tabela 5 Listagem geral dos estudos comparados citados por Schwartz e Barry & Richardson
Origem Schwartz Autores Chu and Rosenthal Referncia Observaes Chu, H., & Rosenthal, M. R. (1996). Search engines for Selecionado the World Wide Web: A comparative study and evaluation methodology. In S. Hardin (Ed.), Global complexity: Information, chaos, and control.Proceedings of the 59th ASIS Annual Meeting (pp. 127135). Medford, NJ: Information Today. Also available: http://www.asis.org/annual-96/ ElectronicProceedings/ chu.html [1997, September 8]. http://cnet.unb.ca/cabox/learning/win/webserch.html Link invlido No localizado on-line100 No localizado on-line

Barry & Richardson Schwartz Schwartz

Cnet Courtois, Baer, and Stark Ding and Marchionini

Schwartz

Schwartz

Schwartz Barry & Richardson Barry & Richardson Schwartz

Courtois, M. P., Baer, W. M., & Stark, M. (1995). Cool tools for searching the Web. Online, 19(6), 1432. Ding, W. I., & Marchionini, G. (1996). A comparative study of web search service performance. In S. Hardin (Ed.), Global complexity: Information, chaos, and control: Proceedings of the 59th ASIS AnnualMeeting (pp. 136142). Medford, NJ: Information Today. Feldman Feldman, S. (1997, August 29). Just the answers, please: Choosing a Web search service [Online]. Searcher Magazine. Available: http://www.infotoday.com/searcher/may/story3.htm [1997, September 2]. Gauch and Wing Gauch, S., & Wang, G. (1996, September 8). Information fusion with ProFusion [Online] . Available: http://www.csbs.utsa.edu:80/info/webnet96/html/155. htm [1997, September 8]. (Presented at WebNet96.) Kimmel Kimmel, S. (1996). Robot-generated databases on the World Wide Web. Database, 19(1), 4049. Lebedev http://www.chem.msu.su/eng/comparison.html Leighton Leighton and Srivastava

Selecionado101

Selecionado

No localizado on-line Selecionado

Barry & Richardson Barry & Richardson Barry & Richardson

Leita Leonard Liu

http://www.winona.msus.edu/services-f/librarySelecionado f/webind.htm Leighton, H. V., & Srivastava, J. (1997, June 16). Precision Selecionado102 among World Wide Web search services (search engines): AltaVista, Excite,HotBot, Infoseek, Lycos [Online]. Available: http://www.winona.msus.edu/ is-f /library-f /webind2/webind2.htm [1997, September 2] . http://www.mispress.com/websearch/websch4.html Link invlido http://www.cnet.com/Content/Reviews/Compare/Sear Link invlido ch/index.html http://www.indiana.edu/~librcsd/search/ Lista de mecanismos de busca, sem comparao

Foi includo outro trabalho, mais recente, do autor principal: COURTOIS, Martin P., BERRY, Michael W. Results ranking in web search engines. Online. v. 23, n. 3. May 1999. Disponvel em: <http://www.onlineinc.com/onlinemag/OL1999/courtois5.html>. Acesso em: 03 maio 2001. 101 No localizado nesse endereo. FELDMAN, Susan. Just the answers, please: choosing a web search service. Datasearch. 1997. Disponvel em: <http://www.cs.rpi.edu/~sibel/4962/project/choosing_an_engine.html>. Acesso em: 08 jun. 2001 102 Este trabalho foi posteriormente publicado tambm no peridico JASIS, cuja referncia encontra-se na bibliografia
100

56 Tabela 5 Listagem geral dos estudos comparados citados por Schwartz e Barry & Richardson (cont.)
Schwartz Peterson Peterson, R. E. (1997, February). Eight Internet search Selecionado engines compared [Online]. First Monday, 2(2). Available: http://www.firstmonday.dk/ issues/ issue_2/ peterson/ [1997, September 2] . http://www.zdnet.com/pccomp/features/internet/sear Impresses do ch/index.html autor sobre os M.B., sem testes Schlichting, A., & Nilsen, E. (1996, December 17). Signal Selecionado detection analysis of WWW search engines [Online] . Available: http://www.microsoft.com/usability/webconf/ schlichting/ schlichting.htm [1997, September 2] . http://www.pcworld.com/reprints/lycos.htm Link invlido http://www.hotwired.com/wired/4.05/indexing/index. html Su, L. T. (1997). Developing a comprehensive and systematic model of user evaluation of Web-based search engines. In M. E. Williams (Ed.), National Online Meeting: Proceedings1997 (pp. 335345). Medford, NJ: Information Today. http://challenge.tiac.net/users/hope/findqual.html http://neal.ctstateu.edu:2001/htdocs/websearch.html Tomaiuolo, N. G., & Packer, J. G. (1996a). An analysis of Internet search engines: Assessment of over 200 search queries. Computers in Libraries, 16(6), 5862. Tomaiuolo, N. G., & Packer, J. G. (1996b, May 20). Results of 200 subject searches in AltaVista, Infoseek, Lycos, Magellan and Point, performed Oct. to Dec. 1995 [Online]. Available: http://neal.ctstateu.edu:2001/ htdocs/ websearch.html [1997, September 2]. http://www.sils.umich.edu/~fprefect/matrix/matrix.sht ml http://pubs.iworld.com/iwonline/May96/showdown.html Westera, G. (1997, July 4). Robot-driven search engine evaluation: Overview [Online]. Available: http:// www.curtin.edu.au/curtin/library/staffpages/gwpersonal / senginestudy/ [1997, September 2]. http://www.bubl.bath.ac.uk/BUBL/IWinship.html Link invlido No disponvel on-line

Barry & Richardson Schwartz

Randall Schlichting & Nilsen Scoville Steinberg Su

Barry & Richardson Barry & Richardson Schwartz

Barry & Richardson Barry & Richardson Schwartz Schwartz

Tillman Tomaiuolo Tomaiuolo and Packer Tomaiuolo and Packer

Link invlido Link invlido No disponvel on-line Link invlido

Barry & Richardson Barry & Richardson Schwartz

UMichigan Venditto Westera

Link invlido Link invlido Selecionado

Barry & Richardson Schwartz

Winship Zorn, Emanoil, Marshall, and Panek

Link invlido

Zorn, P., Emanoil, M., Marshall, L., & Panek, M. (1996, Selecionado May). Advanced searching: Tricks of the trade [Online]. Online, 21(3). Available: http://www.onlineinc.com/onlinemag/MayOL/ zorn5.html [1997, September 2].

57

3.1 Os estudos comparados e seus autores


Os dez estudos selecionados so apresentados na Tabela 6, com informaes sobre os autores e o local onde foram publicados. Esses trabalhos foram publicados no perodo entre 1996 e 1999, sendo que trs deles foram apresentados em eventos relacionados tecnologia da informao. Dentre os dez trabalhos selecionados, dois foram publicados apenas na Internet e cinco em peridicos cientficos. Uma das referncias estudadas, Feldman, foi localizada na Internet, porm, a sua referncia bibliogrfica no se encontra completa. Em outros artigos que citam essa autora, o mesmo trabalho referido como publicado em dois peridicos: Datasearch e Searcher Magazine, que no foram localizados no Brasil103. Quase a totalidade desses trabalhos foi desenvolvida por pesquisadores vinculados a instituies de ensino, sendo sete de universidades, um elaborado por professores do ensino secundrio (Schlichting & Nilsen) e um realizado por profissionais vinculados indstria (Zorn, Emanoil, Marshall & Panek).

103 Pesquisa executada no CCN Catlogo Coletivo Nacional de Publicaes Seriadas, atravs do site <http://www.ibict.br/ccn/acesso.htm>, em 11 de ago. de 2001.

58 Tabela 6 Os estudos comparados e seus autores Data Autores Instituio dos autores Heting Chu Palmer School of Library & Information Science, Long Island University Chu & Brookville, New York 1996 Rosenthal Marilyn Rosenthal Library Reference Department, Long Island University Brookville, New York Peggy Zorn Parke-Davis Pharmaceutical Research Library Zorn, Emanoil, 1996 Marshal & Panek Mary Emanoil Parke-Davis Pharmaceutical Research Library Lucy Marshall Parke-Davis Pharmaceutical Research Library Mary Panek United Technologies Research Center Gillian Westera Acting Information & Education Services Librarian BA(Curtin), GradDipInfo&LibStud(Curtin), PostGradDipInfMgt(Curtin), AALIA Susan Gauch Department of Electrical Engineering and Computer Science The University of Kansas Guijun Wang Department of Electrical Engineering and Computer Science The University of Kansas Carsten Schlichting Lewis & Clark College Erik Nilsen Lewis & Clark College Publicado no peridico Online104

Documento

Apresentado no ASIS 1996 annual meeting

1996 Westera

S publicado na Web

1996

Gauch & Wang

O trabalho foi apresentado na WebNet'96105.

Schlichting & 1996 Nilsen

Apresentado em um evento promovido na Microsoft Campus

ONLINE um peridico mensal, escrito para profissionais de informao e oferece artigos, reviso de produtos de informao e estudos de caso sobre seleo, uso e gerenciamento de produtos de informao eletrnica, alm de informaes profissionais e industriais sobre sistemas de bases de dados on-line, CDROM e Internet 105 WORLD CONFERENCE OF THE WEB SOCIETY realizada em outubro de 1996, em So Francisco, Califrnia. WebNet-96 foi a primeira conferncia mundial da Web Society, um evento internacional organizado pela Association for the Advancement of Computing in Education (AACE). Esta conferencia anual serve como um frum multidisciplinar para a disseminao de informao sobre pesquisa, desenvolvimento e aplicaes de todos os tpicos relacionados ao uso, aplicaes e aspectos legais e sociais da Web em seu senso mais amplo.
104

59 Tabela 6 Os estudos comparados e seus autores (cont.) Data Autores Instituio dos autores Richard Einer Peterson Professor, Financial Economics and 1997 Peterson Institutions College of Business Administration University of Hawaii Alexander I. Lebedev Associate Professor 1997 Lebedev Graduated from Moscow State University Ph.D. in Physics, Dr.Sci. No foi localizada nenhuma informao sobre a autora. Martin P. Courtois Electrical Engineering/ Computer Science Reference Librarian, Gelman Library, George Washington University Michael W. Berry Associate Professor, Department of Computer Science University of Tennessee H. Vernon Leighton MS in Computer Science, Government Documents Librarian, Winona State University, Dr. Jaideep Srivastava Associate Professor of Computer Science, University of Minnesota

Documento Publicado no peridico First Monday106

Parece que s publicado na web Aparentemente foi publicado no peridico Datasearch ou Searcher Magazine

1997 Feldman

1999

Courtois & Berry

Publicado no peridico Online

1999

Leighton & Srivastava

Publicado no peridico JASIS107

106 First Monday se apresenta como um dos primeiros peridicos com reviso de pares (peer-reviewed) na Internet, devotada unicamente para a Internet. 107 O artigo foi publicado em 1999, a partir da pesquisa conduzida para a obteno do ttulo de Master in Computer Science de Leighton

60

3.2 Os mecanismos de busca comparados


A Tabela 7 apresenta os mecanismos de busca que foram estudados por cada autor. Observa-se que o Altavista e o Lycos estiveram presentes em todos os estudos, seguidos pelo Excite e Infoseek, com 9 ocorrncias cada. Ao contabilizar o nmero de mecanismos estudados por cada autor, totalizado no final de cada coluna, identificamos que h uma grande variao, de 3 a 10 ferramentas sendo avaliadas.

Tabela 7 Os mecanismos de busca comparados Chu & Zorn et al. Westera Rosenthal AltaVista Lycos Excite Infoseek HotBot Open Text WebCrawler Galaxy Inference Find Magellan MetaCrawler Profusion Savvy Search Ultra WWW Worm Yahoo! Total 3 4 8

Gauch & Wang

Schlichting & Nilsen

Peterson

Lebedev

Feldman

Courtois Leighton& & Berry Srivastava

Nde citaes 10 10 9 9 6 6 4 1 1 1 1 1 1 1 1 1

10

62

3.3 A metodologia dos estudos comparados


Em setores onde o desenvolvimento de pesquisas afeta interesses comerciais, o cuidado com a metodologia de comparao entre produtos deve ser redobrado. Uma rea em que estas questes so comumente discutidas a mdico-farmacutica, onde os interesses dos laboratrios muitas vezes so representados atravs de trabalhos supostamente de cunho acadmico. Os mecanismos de busca atualmente envolvem grandes corporaes, e milhares de dlares so movimentados. Assim, os estudos comparados de mecanismos de busca devem ter essa preocupao. Os critrios de seleo dos mecanismos de busca que sero avaliados, as perguntas feitas, a estratgia utilizada e diversos outros parmetros devem ser explicitados para garantir a iseno da escolha. Se esses critrios no so explicitados pelos autores, pode-se questionar se h aspectos comerciais ou escolhas pessoais influenciando a escolha. Os resultados obtidos nos testes, de acordo com os critrios adotados, podem favorecer um ou outro servio. O trabalho de Leighton & Srivastava tem uma grande preocupao com a questo metodolgica, pois, conforme pontuam esses autores, o projeto experimental deve ser documentado e controlado para assegurar resultados vlidos, o que no costuma acontecer nos estudos comparados de mecanismos de busca. A partir das observaes desses autores, em conjugao com o exame dos estudos comparados que sero analisados, elaboramos um check-list para avaliao da metodologia, que inclui os itens que devem ser observados na anlise de estudos relacionados performance de mecanismos de busca do tipo rob (Quadro 4).

63 Quadro 4 Check-list para avaliao de estudos comparados

1. Tipo de informao procurada 2. Critrio de seleo dos mecanismos de busca 3. Nmero de buscas executadas em cada mecanismo 4. Critrio de seleo das perguntas feitas para comparar os mecanismos de busca 5. Sintaxe executada nas buscas 6. Parmetros comparados 6.1. 6.2. 6.3. Preciso Cobertura Esforo do usurio 6.3.1. 6.3.2. 6.3.3. 6.4. 6.4.1. 6.4.2. 6.5. Documentao do sistema Interface com o usurio Capacidade de busca Critrio de ordenao Formato de exibio

Formato de sada

Atualidade

7. Nmero de resultados analisados 8. Critrios de avaliao de relevncia dos resultados encontrados 9. Anlise estatstica dos resultados 10. Perodo de tempo em que as buscas foram realizadas 11. Sesses de busca 12. Mtodo de coleta de resultados 13. Quem analisou os resultados e como

64

Cada um desses itens discutido a seguir, sendo exposta sua importncia e a forma que os trabalhos avaliaram essas questes. Em relao especificamente ao item relativo a parmetros comparados, sua discusso se baseia na seo anterior desta dissertao, onde propomos um modelo para avaliao da recuperao de informao na Web (Quadro 3). A Tabela 8 apresenta o objetivo de cada trabalho e um resumo das caractersticas de cada estudo comparado.

Tabela 8 Caractersticas de cada estudo comparado


Zorn, Emanoil, Marshal & Panek Analisar as Analisar caractersticas, caractersticas avanadas de avaliar performance sistemas de e propor uma busca na Web, metodologia visando o uso por especialistas para avaliar de informao outros mecanismos (bibliotecrios e afins). de busca. No informado Mecanismos de busca na Web, gratuitos, que oferecem maior diversidade de cobertura. No inclui metaferramentas. Chu & Rosenthal Westera Analisar mecanismos do tipo rob, testando caractersticas. Gauch & Wang Comparar a performance de ProFusion em relao a cada mecanismo individualmente e com outras metaferramentas. Schlichting & Nilsen Propor um mtodo avaliativo da efetividade dos mecanismos atravs da adoo do mtodo de anlise de deteco de sinal. No informado Peterson Comparar performance e caractersticas de 8 mecanismos de busca tipo rob. Lebedev Informar sobre o mais eficiente mecanismo de busca para encontrar informao cientfica na rede. Informao cientfica Feldman Comparar mecanismos de busca da Web do tipo rob, atravs de busca com questes prticas comuns para os usurios. Informao para o pblico em geral Os principais mecanismos de busca. No inclui diretrios, apenas ferramentas. Courtois & Berry Testar como as 5 maiores ferramentas de busca recuperam e ordenam documentos na resposta de amostras de pesquisas simples. No informado Mecanismos considerados melhores em testes de comparao realizados em revistas de informtica. Leighton & Srivastava Comparar a preciso de 5 mecanismos de busca, detalhando a metodologia adotada.

Objetivo

Tipo de informao procurada Critrio de seleo dos mecanismos comparados

No informado No informado Mecanismos de busca na Web que oferecem determinadas caractersticas avanadas (que esto descritas no artigo) e possuem uma base de dados geral e confivel de sites da Internet (+ de 200.000 sites). 3 Mecanismos de busca baseados em robs.

No informado

No informado

No informado Mecanismos recomendados pela relevncia de seus resultados em estudos anteriores, aps 1996.

Mecanismos que Mecanismos so usados sob o de busca Profusion, o populares. prprio Profusion e outras duas metaferramentas.

Os 8 grandes No mecanismos informado de busca.

Nde buscas 10 em cada M.B.

5 no primeiro teste e 8 no segundo teste

12

12

15

Tabela 8 Caractersticas de cada estudo comparado (cont.)


Westera Zorn, Emanoil, Marshal & Panek No 10 perguntas Perguntas Critrio informado selecionadas, que de permitam o 9 foram seleo extradas que teste das das caractersticas perguntas questes avanadas. reais feitas solicitadas para comparar para os os M.B. bibliotecrios da Long Island University. Chu & Rosenthal Gauch & Wang Schlichting & Nilsen Foi solicitado a cinco alunos do Lewis and Clark College para que formulassem questes especficas de informao que gostariam de encontrar na Web, e que no tinham ainda tentado localizar. Peterson Lebedev Feldman Courtois & Berry Leighton & Srivastava Perguntas feitas no balco de referncia de uma biblioteca universitria, onde os solicitantes requeriam especificamente o uso da Internet como fonte de informao. Essas perguntas foram complementadas selecionando 5 perguntas de outro estudo, visando ampliar questes localizadas do estado de Winona, local onde estava a biblioteca onde foram coletadas as perguntas

Os estudantes do curso de vero de Information Retrieval foram convidados a selecionar uma busca em que estivessem interessados.

A escolha dos termos foi arbitrria.

Palavraschave de fsica e qumica

Questes reais sobre informaes de empresas, avaliaes de produtos, informao mdica, informao estrangeira, relatrios tcnicos e eventos atuais.

Buscas com expresses de 2 ou 3 palavras, selecionadas de questes de referncia ou utilizadas em estudos anteriores. Os tpicos pesquisados foram igualmente distribudos em humanidades, cincias e cincias sociais.

Tabela 8 Caractersticas de cada estudo comparado (cont.)


Zorn, Emanoil, Westera Chu & Rosenthal Marshal & Panek Sintaxe Varivel, Varia de acordo No informado adotada nos de acordo com o mecanismo testes com a comparativos ferrament adotado. ae questo. Uso de busca simples em todos os casos. Parmetros comparados N de resultados analisados Houve uma escala e critrios para pontuao dos resultados encontrados? Ver Tabela 9 10 registros No informado Os 5 20 primeiros e os 5 ltimos No No informado No No informado informado informado 10 No se aplica No se aplica No se aplica 10 ou mais 100 e 20 20 Gauch & Wang No informado Schlichting & Nilsen Frases para conceitos foram usadas se o mecanismo de busca permitisse. Peterson Lebedev Feldman Courtois & Berry Um termo Busca simples simples e uma expresso. Varivel, de Busca simples. acordo com a ferramenta. Leighton & Srivastava Busca simples. Nos casos em que a busca sem operadores causava mltiplas interpretaes, foram utilizadas buscas avanadas.

escala de 1 a 7 para a utilidade do item, sendo 7 a mais til

No se aplica

No informado

Escala de sim ou no para ocorrncia ou ausncia de pelo menos uma vez no documento de: - todos os termos no documento - todos os termos como frase contgua - todos os termos aparecendo no ttulo, cabealho ou metatags.

links duplicados, links inativos, links irrelevantes (0), links tecnicamente relevantes (1), links potencialmente teis (2) e links provavelmente mais teis (3).

Tabela 8 Caractersticas de cada estudo comparado (cont.)


Chu & Rosenthal Houve uma anlise estatstica dos resultados Mdia simples Zorn, Emanoil, Marshal & Panek No Westera Gauch & Wang No Schlichting & Nilsen Peterson Lebedev Feldman Courtois & Berry Sim Leighton & Srivastava Sim

No

Mtodo de anlise No de deteco de sinal

Sim

No

No Perodo de tempo que as informado buscas foram realizadas

No informado

Sesses de busca

No informado

No informado

O segundo teste foi uma comparao de resultados em jan e em out/96 No informado

Primavera No informado de 1996

3 perodos de tempo no ano de 1996: fevereiro, maio e novembro

Maro de H datas 1997 diferentes informadas, mas parece que foi em 03 de agosto e 17 de fevereiro de 1996.

3 a 10 de abril 31 de janeiro a 12 de de 1998 maro de 1997

No No informado informado

No No informado informado

Para uma No dada questo informado todas as ferramentas foram consultadas numa mesma sesso.

Todas as ferramentas foram usadas, para uma dada questo, no mesmo dia. Para a maioria das questes, as ferramentas foram pesquisadas dentro de meia ou uma hora de diferena entre uma e outra. A anlise do resultado foi feita no mesmo dia que a busca foi realizada.

Tabela 8 Caractersticas de cada estudo comparado (cont.)


Chu & Rosenthal Mtodo de coleta de resultados No informado Zorn, Emanoil, Marshal & Panek No informado Westera Gauch & Wang Schlichting & Nilsen Peterson Lebedev Feldman Courtois & Berry Leighton & Srivastava

No informado

Quem analisou os resultados e como?

Os autores

Os autores

Os autores

No Os primeiros 10 informado resultados para as 4 ferramentas foram combinados em um nico documento. Os alunos Os alunos que formularam as que formulara questes. m as questes.

No No se aplica informado

Atravs de um Atravs de um Anlise de programa em programa em PERL. cada PERL. resultado individualme nte. Os autores Os autores

Os autores

No houve Os autores analise qualitativa

70

3.3.1 TIPO DE INFORMAO PROCURADA


Um servio de informao tem como principal funo atuar como interface entre uma populao particular de usurios e um universo de recursos informacionais108. Podemos considerar os mecanismos de busca na Web como sistemas de informao abertos, onde tanto os usurios como os recursos informacionais so virtualmente infinitos. Assim, para avaliar os mecanismos de busca na Web, preciso definir objetivamente o tipo de informao procurada e o pblico a que se destina. A maioria dos estudos comparados sobre mecanismos de busca tenta responder a questo sobre qual a melhor ferramenta de busca. Porm, poucos estudos especificam qual pblico pretendem atingir. A Internet, como um sistema aberto e pblico de informao, tem usurios com diferentes formaes e as mais diversas necessidades de informao. Dentre os dez estudos comparados, apenas dois explicitam o seu pblico-alvo. Lebedev procura atender aos usurios de informao cientfica e Feldman tem como objetivo atender ao grande pblico. Lebedev explicita essa questo j no ttulo de seu estudo, Best search engines for finding scientific information in the Web, enfocando a recuperao de informao cientfica. Nesta pesquisa, o autor utiliza termos da rea de fsica e qumica para quantificar o nmero de resultados obtidos em dez diferentes mecanismos de busca, e extrapola o resultado afirmando que nos mecanismos de busca na Web encontra-se menos de 10% da informao cientfica que pode ser localizada em uma boa base de dados. Seu trabalho oferece resultados pouco significativos, visto que sua anlise feita apenas pelo volume de informao recuperada, no considerando a relevncia dos resultados. Feldman conduz sua pesquisa nos mecanismos de busca do tipo rob, procurando por informaes que costumam ser necessrias para o pblico geral. Utiliza questes como a busca de revises comparativas entre carros, informaes mdicas, procura por uma empresa e por eventos atuais. A generalidade de suas perguntas leva concluso de que cada ferramenta pode dar bons resultados para algum problema de informao.

108 LANCASTER, F.W. Information Retrieval System: characteristics, testing and evaluation. USA: John Wiley & Sons, 1979. 318p.

71 Uma outra abordagem a anlise da performance dos mecanismos de busca sob a tica do profissional de informao. Este aspecto estudado por Zorn, Emanoil, Marshal & Panek, que verificam as caractersticas avanadas que os mecanismos de busca oferecem, visando utilizao desses servios de uma forma mais eficaz por bibliotecrios e profissionais especializados em recuperao de informao. Neste caso, as perguntas utilizadas nos testes no esto relacionadas ao pblico final do servio, mas sim para testar a capacidade dos mecanismos de busca em recuperar informao a partir de buscas avanadas.

3.3.2 CRITRIO DE SELEO DOS MECANISMOS DE BUSCA


Os interesses comerciais envolvidos na rea de recuperao de informao na Web fazem com que o trabalho que se prope a ser de cunho cientfico seja bem estruturado para se manter isento de tendncias. Assim, os autores deveriam explicitar o motivo de escolha dos mecanismos de busca que sero analisados em um estudo comparado. Dentre os estudos comparados analisados neste trabalho, alguns autores, como Lebedev, no informam o critrio utilizado na seleo. Schlichting & Nilsen referem-se a mecanismos de busca populares. Peterson informa que sua anlise inclui os oito grandes mecanismos de busca. E Feldman explicita que no ir incluir diretrios, escolhendo os principais motores de busca. Em outros trabalhos os autores determinam o tipo de critrio adotado, seja pela tipologia do servio de informao (baseado em rob, meta-ferramentas, etc), ou pelas caractersticas que se pretende analisar na avaliao (busca avanada, capacidade de busca booleana, recomendao de estudos anteriores para relevncia, etc.) Chu & Rosenthal no incluem as metaferramentas e testam os mecanismos de busca gratuitos que oferecem maior cobertura. Westera faz seu estudo em mecanismos de busca do tipo rob. Os trabalhos de Courtois & Berry e Leighton & Srivastava baseiam-se em mecanismos de busca que foram considerados melhores em avaliaes anteriores. No conjunto dos dez trabalhos analisados, h dois em que a escolha dos mecanismos de busca est diretamente relacionada com o objetivo do trabalho. Zorn, Emanoil, Marshall & Panek testam os mecanismos de busca que oferecem caractersticas avanadas, que o foco do trabalho. Gauch & Wang visam provar a qualidade da

72 recuperao da metaferramenta Profusion, para isso utilizam os mecanismos de busca que esto sob esse servio e, tambm, duas outras metaferramentas.

3.3.3 - NMERO DE BUSCAS EXECUTADAS EM CADA MECANISMO


Este um parmetro que envolve o tamanho da amostragem para a comparao dos resultados oferecidos pelos mecanismos de busca, e especialmente importante quando avalia-se a preciso dos resultados oferecidos. Por outro lado, quando o estudo visa comparar caractersticas do sistema, como as opes de busca ou o formato de sada, o tamanho da amostra no tem significao. Zorn, Emanoil, Marshall & Panek procuram analisar em seu estudo as caractersticas das buscas avanadas de cada servio de recuperao de informao, e para isso, poucas e pertinentes perguntas so suficientes. Estes autores utilizaram trs perguntas para cada mecanismo de busca. Peterson tambm estava testando as caractersticas dos mecanismos de busca em relao ao tipo de indexao utilizada e ao formato de sada. Para isso, os testes foram realizados com apenas duas perguntas. No estudo de Schlichting & Nilsen, a proposta foi a comprovao da aplicao do mtodo estatstico de deteco de sinal. Assim, uma amostragem relativamente pequena, de cinco perguntas, foi suficiente. Os demais estudos utilizaram entre sete e quinze perguntas como volume de amostra para testar os mecanismos de busca.

3.3.4 - CRITRIO DE SELEO DAS PERGUNTAS FEITAS PARA COMPARAR


OS MECANISMOS DE BUSCA

A seleo das perguntas a serem feitas para testar os mecanismos de busca uma questo de forte impacto no resultado da anlise. Dentre os estudos comparados utilizados neste trabalho, quatro buscam simular situaes reais, a partir de perguntas feitas por usurios. Feldman destaca que alguns trabalhos partem da escolha de um site prdeterminado para verificar se o mesmo encontrado a partir de uma nica frase ou palavra-chave. Esta autora acredita que, como a maioria das pesquisas feitas na Web consideravelmente mais complexa, necessrio simular buscas a partir de situaes reais.

73 Chu & Rosenthal selecionaram questes extradas de consultas ao balco de referncia de uma biblioteca universitria, que permitiam testar os parmetros previstos para a pesquisa. Leighton & Srivastava tambm utilizaram perguntas obtidas em um balco de referncia de uma biblioteca universitria, onde os solicitantes requeriam especificamente o uso da Internet como fonte de informao. Neste trabalho, as questes foram complementadas com outras perguntas, oriundas de outros estudos, visando no se deter a questes especficas da regio geogrfica onde se localiza a biblioteca em que foram coletadas as perguntas. No estudo feito por Westera no foi informado o critrio adotado, e nos trabalhos de Peterson e de Lebedev os termos de busca foram escolhidos arbitrariamente.

3.3.5 - SINTAXE EXECUTADA NAS BUSCAS


A converso da pergunta em uma estratgia de busca e esta em uma sintaxe especfica no mecanismo de busca so pontos que no costumam ser detalhados pelos autores dos estudos comparados. Dois mecanismos de busca podem interpretar a estratgia de busca de forma diferente, de acordo com suas caractersticas padro (default) de busca. Alm disso, a habilidade do pesquisador em traduzir a pergunta para uma estratgia, e esta por sua vez em uma sintaxe adequada quele mecanismo de busca, pode interferir no resultado final. No trabalho de Gauch & Wang, as buscas foram executadas pelos prprios alunos que elaboraram as perguntas, portanto, o resultado encontrado foi influenciado pela capacidade destes em utilizar corretamente ou no as ferramentas de busca. Leighton & Srivastava publicaram em seu trabalho um apndice intitulado What was actually submitted to the Web search services, que apresenta a sintaxe adotada para cada pergunta em cada mecanismo de busca. Dentre os dez estudos comparados analisados, cinco trabalhos - Chu & Rosenthal, Zorn, Emanoil, Marshal & Panek, Schlichting & Nilsen, Feldman, Leighton & Srivastava explicitam que a sintaxe adotada variou de acordo com o mecanismo de busca, sendo ajustada s peculiaridades destes. Outros autores ou utilizaram a busca simples, ou no informaram a sua escolha.

74

3.3.6 - PARMETROS COMPARADOS


Os parmetros utilizados para avaliar os mecanismos de busca so o cerne da questo da avaliao. Os parmetros adotados devem refletir a capacidade do sistema em atender as necessidades dos usurios. Para a sistematizao dos critrios adotados pelos dez trabalhos analisados, foi elaborada a tabela 3.9, inicialmente a partir dos parmetros propostos no modelo discutido na seo anterior, e incluindo tambm outros parmetros avaliados nesses estudos comparados.

Tabela 9 Parmetros estudados por cada autor. Zorn, Chu Emanoil PARMETROS DE & Marshal AVALIAO Rosenthal & Panek Preciso Cobertura Esforo do usurio Documentao do sistema Interface com o usurio Capacidade de busca Critrio de ordenao Formato de exibio

Westera

Gauch & Wang

Schlichting & Peterson Nilsen

Lebedev

Feldman

Courtoi Leighton s& & Berry Srivastava

Formato de sada Outros parmetros

Atualidade Deteco de duplicatas Tempo de resposta Posicionamento no mercado

76

3.3.6.1 Preciso
A preciso nos mecanismos de busca avaliada atravs da anlise de relevncia dos registros recuperados. Este parmetro tratado por oito dos dez estudos avaliados. Os dois trabalhos que no consideram a preciso so o de Peterson e o de Lebedev. O primeiro estudou as caractersticas de busca, e o segundo o volume de registros recuperados. No trabalho de Westera, a relevncia avaliada apenas para os resultados da busca com operadores booleanos. importante ressaltar que a relevncia foi o nico parmetro de comparao de quatro estudos analisados - Schlichting & Nilsen, Feldman, Courtois & Berry e Leighton & Srivastava. As discusses sobre o nmero de registros avaliados e os critrios de pontuao adotados sero abordadas nos itens 3.3.7 e 3.3.8, respectivamente.

3.3.6.2 Cobertura
A cobertura, conforme definida no item 2.2.2, envolve tanto a abrangncia como o escopo do mecanismo de busca. A abrangncia diz respeito ao volume de dados que indexado pelo mecanismo de busca. Esta varivel analisada por apenas dois trabalhos: Chu & Rosenthal, Zorn, Emanoil, Marshall & Panek. O escopo, que envolve a observao do tipo de indexao que o mecanismo de busca utiliza, bem como os tipos e recursos de informao que indexa, um critrio de anlise de dois estudos comparados: Zorn, Emanoil, Marshall & Panek e Peterson.

3.3.6.3 Esforo do usurio


O esforo do usurio, seguindo a sistematizao apresentada na seo anterior, trata da documentao e da interface disponvel ao usurio e das capacidades de busca do sistema.

3.3.6.3.1 DOCUMENTAO DO SISTEMA


A documentao do sistema avaliada por apenas dois trabalhos (Chu & Rosenthal e Zorn, Emanoil, Marshall & Panek) no conjunto dos dez estudos comparados analisados.

77

3.3.6.3.2 INTERFACE COM O USURIO


Este um critrio que no explicitamente utilizado por nenhum dos estudos comparados que estamos avaliando. No entanto, dois autores tratam superficialmente dessa questo. Chu & Rosenthal fazem uma breve explanao sobre as interfaces dos mecanismos de busca estudados e Peterson tece consideraes sobre a estrutura de navegao, por categorias, nos mecanismos que compara.

3.3.6.3.3 CAPACIDADES DE BUSCA


Dois trabalhos destacam-se no estudo das caractersticas da busca: o de Chu & Rosenthal e o de Zorn, Emanoil, Marshall & Panek. Chu & Rosenthal comparam as capacidades de busca tais como lgica booleana, truncagem, pesquisa por campo e pesquisa por palavra/frase. A capacidade de busca diz respeito s caractersticas intrnsecas do prprio motor do mecanismo de busca, e os parmetros utilizados para medir tal capacidade so o objeto de estudo do trabalho de Zorn, Emanoil, Marshall & Panek, que tem por objetivo analisar as funcionalidades dos mecanismos de busca sob a tica dos profissionais de informao. Alm desses dois trabalhos, Westera tambm analisa alguns parmetros, como operadores booleanos, proximidade entre termos e distino de maisculas e minsculas.

3.3.6.4 Formato de sada


Conforme o modelo adotado, o formato de sada envolve dois aspectos: o critrio de ordenao e o formato de exibio, discutidos na seo anterior.

3.3.6.4.1 CRITRIO DE ORDENAO


A discusso sobre o critrio de ordenao diz respeito a uma caracterstica do mecanismo de busca que costuma no ser revelada pelos seus proprietrios. O algoritmo de ordenao um dos maiores diferenciais entre os servios sendo guardado a sete chaves. Desta forma, nenhum dos autores discute esta questo. No entanto, a anlise do critrio de ordenao pode ser feita atravs de engenharia reversa, de forma a obter indcios dos parmetros utilizados pelo mecanismo de busca para ordenar os resultados.

78

3.3.6.4.2 FORMATO DE EXIBIO


O formato de exibio dos registros recuperados analisado por trs autores. Chu & Rosenthal e Zorn, Emanoil, Marshall & Panek discutem as opes oferecidas pelos mecanismos de busca estudados em seus respectivos trabalhos. Peterson analisa os dados oferecidos pelos mecanismos de busca na exibio dos recursos recuperados, como, por exemplo, a data de atualizao e o tamanho (em bytes) das pginas recuperadas.

3.3.6.5 Atualidade
Este critrio foi discutido apenas por Peterson, na medida em que analisou a disponibilidade de notcias dirias pelo mecanismo de busca.

3.3.6.6 Outros parmetros


Alguns autores tambm incluram outros servios que o mecanismo de busca possa oferecer. Uma medida de performance avaliada por dois autores foi a deteco de duplicatas. Esse parmetro no se aplica a servios de recuperao de informao tradicionais. Ele inerente prpria estrutura da Web e do mtodo de coleta de dados usualmente adotados pelos mecanismos de busca: o uso de robs que seguem links. Zorn, Emanoil, Marshall & Panek e Gauch & Wang so os autores que fazem esta avaliao. O tempo de resposta um critrio proposto por Lancaster & Fayen, conforme discutido na seo anterior, porm no foi incorporado ao modelo de avaliao utilizado neste estudo. Chu & Rosenthal foram os nicos autores a incluir esse parmetro em sua avaliao, testando o tempo mdio de resposta em horrios de pico e em horrios de pouco acesso Web. Os autores consideraram como tempo mdio de resposta o intervalo de tempo entre a submisso da busca e a exibio do primeiro conjunto de resultados na tela. Um parmetro de avaliao que est relacionado com o posicionamento no mercado do mecanismo de busca foi analisado por Peterson. Ele observou se os mecanismos de busca avaliados em sua pesquisa ofereciam aes na NASDAQ109.

109 Nasdaq (National Association of Securities Dealers Automated Quotation) um ndice de aes formado por aes de empresas, como as de alta tecnologia e informtica. Criada em 1971, foi a primeira bolsa de valores totalmente eletrnica, ou seja, o primeiro mercado acionrio eletrnico do mundo.

79

3.3.7 - NMERO DE RESULTADOS ANALISADOS


Os mecanismos de busca possuem um algoritmo de ordenao que elege os resultados considerados mais relevantes como os primeiros a serem exibidos. Assim, os estudos comparados escolhem um determinado nmero de primeiros resultados para analisar a qualidade. Nos estudos que no envolvem qualidade dos resultados e sim volume de informao recuperada, este parmetro no considerado. o caso dos trabalhos de Peterson e Lebedev. Alguns autores, como Chu & Rosenthal e Schlichting & Nilsen optam por analisar os dez primeiros resultados. Leighton & Srivastava e Gauch & Wang escolhem os vinte primeiros para anlise. Courtois & Berry elegem os vinte primeiros e tambm os cem primeiros, fazendo comparaes estatsticas entre os dois grupos. Outro trabalho envolvendo duas amostragens o estudo de Westera, que analisa a relevncia dos cinco primeiros e a dos cinco ltimos para testar se a ordenao oferecida pela ferramenta realmente privilegia os primeiros resultados.

3.3.8 - CRITRIOS DE AVALIAO DE RELEVNCIA DOS RESULTADOS


ENCONTRADOS

Como dito anteriormente, a avaliao de relevncia um parmetro subjetivo. Assim, os critrios adotados para sua avaliao deveriam ser informados nos estudos comparados. Dos oito trabalhos que julgam a relevncia dos resultados obtidos, cinco no informam como fizeram a avaliao. Na Web, h duas questes inerentes ao ambiente, envolvendo a relevncia, que devem ser consideradas: a duplicao de registros e a validade dos links. Leighton & Srivastava criaram uma escala de zero a trs para a utilidade dos links recuperados. Os itens recuperados que se enquadravam em trs situaes: links duplicados, links inativos e links irrelevantes receberam nota zero. Os links duplicados so aqueles que tem a mesma URL bsica e so recuperados mais de uma vez numa mesma sesso de busca. Os links inativos incluem os sites cujas pginas no esto mais no endereo oferecido, que apresentam erros de servidor que no responde ou pginas de acesso

80 restrito. Como links irrelevantes so considerados aqueles que no satisfazem algum aspecto importante da expresso de busca. Os links tecnicamente relevantes receberam nota 1, sendo considerados aqueles que satisfazem a busca executada por conter todos os termos ou sinnimos dos termos procurados, mas no so teis para o usurio ou porque no esto relacionados com o tpico indicado ou porque so muito curtos para serem teis. A nota 2 refere-se a links considerados potencialmente teis, com pelo menos algum aspecto relacionado com a informao solicitada. Tambm receberam nota 2 as pginas que tinham links para pginas provavelmente teis (nota 3). Os links que receberam nota 3 foram aqueles provavelmente teis, ou seja, que ofereciam uma ampla faixa de assuntos correlacionados ao tpico pesquisado ou que continham uma coleo de recursos ou sites relacionados ao tema pesquisado. Essa escala de pontos de Leighton & Srivastava mereceu destaque pela clareza e documentao associada a ela que est disponvel em sua pesquisa na Web. Para cada pergunta os autores detalharam as situaes possveis e definiram o critrio de pontuao adotado. Alm de Leighton & Srivastava, Schlichting & Nilsen tambm criaram uma escala de 1 a 7 para a utilidade do link recuperado. Courtois & Berry adotaram um critrio mais simples, de sim ou no, avaliando a ordenao dos resultados atravs da anlise de trs itens: presena de todos os termos no documento, proximidade entre os termos e localizao dos mesmos no documento (ttulo, cabealho ou metatags).

3.3.9 - ANLISE ESTATSTICA DOS RESULTADOS


Dentre os dez estudos analisados, cinco fizeram anlise estatstica dos resultados: Chu & Rosenthal, Schlichting & Nilsen, Courtois & Berry, Leighton & Srivastava e Lebedev. Um dos trabalhos, o de Schlichting & Nilsen, teve como objetivo a demonstrao da aplicao do mtodo de anlise de deteco de sinal como proposta de critrio de avaliao da qualidade dos resultados obtidos pelos mecanismos de busca.

81

3.3.10 PERODO DE TEMPO EM QUE AS BUSCAS FORAM REALIZADAS


A Web um ambiente onde a volatilidade das informaes e dos servios muito grande. Assim, informar quando os testes foram realizados tem uma importncia histrica. Alguns estudos comparados tratam de mecanismos de busca que no existem mais ou que mudaram completamente suas caractersticas. Para citar um exemplo, Peterson analisa um mecanismo de busca denominado Ultra (que no existe mais) e destaca sua capacidade para recuperar as pginas que oferecem link para um determinado site. Aparentemente uma novidade no perodo em que os testes foram realizados, mas que hoje uma caracterstica comum entre os mecanismos de busca. Dentre os dez estudos analisados, trs no informam quando foram realizados os testes e, um deles, o de Lebedev, oferece essa informao com datas diferentes em duas partes do artigo.

3.3.11 - SESSES DE BUSCA


Sesso de busca o perodo de tempo entre a submisso da busca ao mecanismo e o trmino da anlise dos resultados encontrados. Este um ponto levantado por Leighton & Srivastava, e somente mais um estudo, o de Feldman, oferece essa informao. Se a pesquisa compara vrios mecanismos, os testes devem ser executados nas diferentes ferramentas no menor espao de tempo possvel. Em uma situao ideal, deveriam ser executadas simultaneamente, procurando com isso evitar a possvel vantagem que um mecanismo teria sobre outro, de ter mais tempo para indexar uma determinada pgina. Essa sesso de busca tambm influencia a anlise dos resultados encontrados, pois a ocorrncia de pginas que se tornam invlidas pode variar de um dia para outro em diferentes mecanismos de busca, de acordo com sua freqncia de atualizao.

3.3.12 - MTODO DE COLETA DE RESULTADOS


A forma como os resultados de busca so coletados para anlise outro item a ser observado. Alguns autores, como Courtois & Berry, utilizaram um programa em PERL para agrupar os resultados para anlise. Leighton & Srivastava tambm utilizaram um algoritmo desenvolvido em PERL, possibilitando que os avaliadores no soubessem qual mecanismo de busca que originou o

82 link recolhido. Esta preocupao dos autores bastante pertinente, visando a iseno no julgamento dos resultados. Schlichting & Nilsen agruparam os dez primeiros resultados de cada um dos mecanismos avaliados em um nico documento. Se o mecanismo localizasse menos de dez resultados, estes eram adicionados ao documento e a pesquisa era executada novamente retirando-se as palavras-chaves menos importantes. Dos novos resultados, somente os primeiros itens eram usados, de forma que o nmero total de resultados para aquela questo fosse dez.

3.3.13 - QUEM ANALISOU OS RESULTADOS E COMO


Este parmetro retorna ao primeiro dos pontos estudados: o pblico ao qual a informao se destina. Considerar o pblico para o qual a informao se presta tambm implica que a avaliao tenha o ponto de vista desse tipo de usurio, preferencialmente que o avaliador dos resultados obtidos seja o prprio usurio. Dentre os dez estudos comparados escolhidos para este trabalho, apenas dois consideraram este aspecto: a anlise dos resultados obtidos foi feita pelos usurios que formularam as questes executadas nos testes. Nos oito trabalhos restantes a anlise foi feita pelos prprios autores110. Gauch & Wang utilizaram alunos do curso de Information Retrieval do Department of Electrical Engineering and Computer Science da University of Kansas para formular e executar questes nos mecanismos de busca selecionados e para avaliar a relevncia dos resultados. Schilichting & Nilsen solicitaram aos alunos do Lewis and Clark College que formulassem questes, selecionassem e ordenassem as palavras-chaves adequadas, de acordo com sua importncia para o assunto. A execuo da busca foi feita pelos autores, que compilaram os resultados obtidos e enviaram aos alunos para que estes avaliassem os resultados em uma escala de utilidade que variou entre 1 e 7. No trabalho de Lebedev no houve anlise qualitativa e nos sete restantes os prprios autores que analisaram os resultados obtidos.

110 No caso de no estar explicitado quem fez a anlise, assumimos como sendo os prprios autores do trabalho.

83 Na prxima seo apresentamos as concluses obtidas neste estudo e propomos pesquisas para a continuidade do trabalho aqui desenvolvido.

84

CONSIDERAES FINAIS
Esta pesquisa permitiu mapear o desenvolvimento de estudos e pesquisas sobre mecanismos de busca na Web sob o olhar de autores clssicos da Cincia da Informao, em sua vertente de recuperao da informao, o que permite afirmar sua validade, adequao e, principalmente, sua oportunidade. Na seo 1, observa-se que os problemas colocados pelas ferramentas, tanto do tipo diretrio quanto do tipo motor, s podem ser enfrentados com o desenvolvimento de novas tecnologias que melhorem a cobertura, a indexao, o resultado da busca, todos esses aspectos referentes rea de recuperao de informao. Alm disso, a emergncia de um novo tipo de ferramenta para buscar informaes na Web invisvel, considerada a parte mais volumosa da Internet, evidencia a necessidade de maior aprofundamento nos estudos de recuperao de informao na Web, o que no ser possvel com a abordagem que vem sendo utilizada, atualmente, para guiar os estudos aqui revistos. Particularmente, na seo 2, o apoio das teorias clssicas de recuperao da informao se mostra produtivo na construo do modelo de avaliao de mecanismos de busca do tipo motor, ao deixar de fora apenas dois (revocao e tempo de resposta) entre sete critrios de avaliao decorrentes das teorias. Na seo 3, ao incorporar o modelo proposto, deriva-se um check-list para avaliao de metodologias de estudos comparados de mecanismos de busca, que se adequa s exigncias da performance de um sistema de recuperao da informao. Ainda nesta seo, o emprego desse check-list para avaliar dez estudos de comparao de mecanismos de busca do tipo motor, permite observar o seguinte:
a grande maioria dos estudos no informa os procedimentos utilizados, o que no

permite reproduzi-los, indicando, assim, pouca preocupao com o mtodo cientfico;


apenas um estudo se apia nas teorias de recuperao da informao, resultando em:

objetivos extremamente genricos, indicando a dificuldade de aproximao de

questes pontuais, especficas, localizadas na anatomia do sistema de recuperao da informao;

85

ausncia de anlise de questes conceituais que tm um valor mais permanente

ao longo do tempo, gerando resultados do tipo fotografia instantnea da performance dos mecanismos de busca; em resumo, os estudos tornam-se uma espcie de concurso entre os

mecanismos de busca, como se fosse possvel sustentar ao longo do tempo que a ferramenta A melhor que a ferramenta B. Assim sendo, a abordagem utilizada nesses estudos mostra-se inadequada para enfrentar as exigncias de melhoria dos servios de busca de informao na Web, como vamos observar a seguir. Um trabalho111, publicado no boletim da ICSTI (International Council for Scientific and Technical Information) em maro passado, merece destaque principalmente por ter sido escrito por Barry Mahon, diretor executivo desta instituio, que desempenha importante papel no estudo prospectivo de informao cientfica e tecnolgica. Mahon afirma que a maioria das implementaes que esto sendo aplicadas aos mecanismos de busca tende a melhorar a aparncia dos resultados (formato de sada), j que a ordenao oferece ao usurio uma impresso inicial do resultado total. Para melhorar o critrio de ordenao, algumas das tecnologias que esto sendo utilizadas so:
dicionrio de homnimos e sinnimos para o usurio selecionar os termos de

busca ou utilizao automtica pelo sistema do dicionrio;


dicionrio de razes de palavras; cruzamento fuzzy, que a busca por palavras que so similares ao termo

pesquisado, visando compensar erros de digitao e fonticos;


uso de classificao automtica de assuntos, tambm chamada de taxonomia, ou

esquema de classificao ;
uso de linguagem natural.

Alm disso, o autor mapeia tecnologias que esto sendo desenvolvidas, como as seguintes:

111 MAHON, Barry. Information retrieval, a story of research and other strange activities. ICSTI Forum., n. 37, Mar. 2001. Disponvel em: <http://www.icsti.org/icsti/forum/37/>. Acesso em: 08 jun. 2001.

86
interface personalizada para sistemas de recuperao de informao, que

reconhea as peculiaridades do usurio e sugira linhas de abordagem, baseada nas buscas prvias do usurio e tambm na percepo do que outros usurios fizeram na mesma rea de assunto;
agentes inteligentes, que reconheam as informaes que seu usurio j dispe,

percebendo a diferena entre as diversas fontes de informao, avaliando itens importantes;


tecnologia para melhorar o gerenciamento das informaes do estoque do

usurio (hard disk) e da rede. O autor finaliza seu trabalho mostrando que os usurios necessitam de instrumentos que integrem facilmente as informaes encontradas com aquelas j armazenadas, permitindo recuperar conjuntamente as informaes disponveis sobre o assunto desejado: Integrao o desafio, adaptar as ferramentas o meio. 112 De certa forma, esta concluso tambm compartilhada por Schwartz, que escreveu uma resenha113 sobre as discusses ocorridas no ltimo Search Engine Meeting, realizado em abril de 2001. Este trabalho, que acaba de ser publicado, nos oferece informaes extremamente atualizadas sobre as tendncias na rea de mecanismos de busca. A autora apresenta quatro questes fundamentais que observou no evento:
Os aspectos de busca que causam a maioria dos problemas (volume, fontes

heterogneas de dados, buscas pobres) esto se agravando;


As diferentes abordagens de recuperao de informao (mtodos baseados em

freqncia, processamento em linguagem natural, taxonomia construda manual e intelectualmente) sero trabalhadas simultaneamente;
Os resultados de busca precisam seguir o padro just-in-time, o que significa

disponibilidade e devem ser ajustados de acordo com as necessidades e tarefas individuais;


Os portais empresariais so o principal mercado atual dos desenvolvedores de

mecanismos de busca.
MAHON, Barry. Op.cit. SCHWARTZ, Candy. The 2001 Infonortics Search Engine Meeting. Bulletin of the American Society for Information Science and Technology. v.27, n.6. August/September 2001. Disponvel em: <http://www.asis.org/Bulletin/Aug-01/schwartz.html>. Acesso em: 28 ago. 2001.
112 113

87 justamente neste aspecto de desenvolvimento de ferramentas que atendam ao mercado corporativo que a necessidade de integrao de dados ainda maior. O grande desafio a integrao dos dados heterogneos, internos e externos empresa, permitindo a busca e a recuperao efetiva das informaes. Para o enfrentamento das questes de pesquisa em uma agenda que incorpore as tendncias acima observadas, o modelo aqui proposto pode ser ampliado, pois engloba muitos aspectos sugeridos nessas tendncias. Como continuidade deste trabalho, sugerimos o desenvolvimento de estudos e pesquisas que explorem os seguintes aspectos:
anlise da adequao do modelo em sistemas de recuperao de informao

utilizados em empresas;
anlise da aplicabilidade do modelo e check-list em mecanismos de busca dos

tipos diretrio e metaferramentas; e


comparao de mecanismos de busca brasileiros.

Particularmente, quanto aos mecanismos de busca brasileiros, os estudos deixam de lado toda e qualquer preocupao com aspectos tericos envolvidos em sua anatomia. No h clareza quanto ao estado-da-arte que orienta sua construo e performance em um ambiente de crescente volume de informao disponvel e cada vez maior facilidade de acesso dos usurios aos servios de informao na Web. Para finalizar, destacamos uma pesquisa realizada em agosto de 2001, em 24 estados brasileiros, que afirma: A Internet faz parte do cotidiano de 9,4% dos brasileiros. As pesquisas profissionais ou acadmicas so o principal motivo de acesso Internet, com 34,9% das respostas, seguidas da busca por informaes em geral (22%).114 Assim, o investimento na melhoria dos servios de recuperao de informao na Web demonstrase prioritrio para o desenvolvimento da Internet no Brasil.

114 FOLHAONLINE. Internet faz parte do cotidiano de 9,4% dos brasileiros, diz pesquisa. Disponvel em: <http://www.ponto-com.com/NR/exeres/50F4BA6E-5647-4D53-A9C9-29DFBB6AE9AF.htm>. Acesso em: 10 set. 2001.

88

REFERNCIAS BIBLIOGRFICAS
BARRY, Tony, RICHARDSON, Joanna. Indexing the Net: A Review of Indexing Tools. In: AUSWEB: AUSTRALIAN WORLD WIDE WEB CONFERENCE, 6, Cairns,1996. Disponvel em:<http://www.bond.edu.au/Library/jpr/ausweb96/>. Acesso em: 30 maio 2001. BERGMAN, Michel K. The deep Web: surfacing hidden value. Journal of the Electronic Publishing. v.7, n.1, Aug. 2001. Disponvel em: <http://www.press.umich.edu/jep/0701/bergman.html>. Acesso em: 06 set. 2001. BRADLEY, Phil. Finding images on the Internet. Ariadne. v.25, Sep. 2000. Disponvel em: <http://www.ariadne.ac.uk/issue25/search-engines/>. Acesso em: 21 fev. 2001. BRADLEY, Phil. Search Engines. Ariadne. v.20, June 1999. Disponvel em: <http://www.ariadne.ac.uk/issue20/searchengines>. Acesso em: 21 fev. 2001. BRIN, Sergey, PAGE, Lawrence. The anatomy of a large-scale hypertextual web search engine. Disponvel em: <http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm>. Acesso em: 31 jan. 2001. BROOKS, Terrence A. How Good Are the Best Papers of JASIS? Journal of the American Society for Information Science. v.51, n.5, p.485-486, 2000. BUENO, Mrcia Correa, VIDOTTI, Silvana Aparecida Borsetti Gregorio. Ferramentas de busca na Internet: para qu, por qu e como utiliz-las? In SEMINRIO NACIONAL DE BIBLIOTECAS UNIVERSITRIAS, 11., 2000, Florianpolis. Anais... BUTLER, Declan. Souped-up-search engines. Nature, 40512, 1-115 May 2000. Disponvel em: <http://www-tecno.inti.gov.ar/opinion01.htm>. Acesso em: 22 ago. 2000. CENDN, Beatriz Valadares. Ferramentas de busca na Web. Cincia da Informao. V.30, n.1, p.39-49, jan./abr. 2001. Disponvel em: <http://www.ibict.br/cionline/300101/30010106.htm>. Acesso em: 15 jul. 2001. CHALMERS, Rachel. caa de informao. Caderno Mais. Folha de So Paulo. 26 nov. 2000. CHOWDHURY, G.G. The Internet and information retrieval research: a brief review. Journal of Documentation, v.55, n.2, p. 209-225, Mar. 1999. CHU, Heting, ROSENTHAL, Marilyn. Search Engines for the World Wide Web: A Comparative Study and Evaluation Methodology. In: ASIS 1996 Annual Meeting. 1996, Baltimore. Electronic Proceedings. Disponvel em: <http://www.asis.org/annual96/ElectronicProceedings/chu.html>. Acesso em: 26 ago. 2000. CLEVER PROJECT. Hypersearching the Web. Scientific American. Disponvel em: <http://www.sciam.com/1999/0699issue/0699raghavan.html>. Acesso em: 07 jun. 1999. CLEVERDON, C.W. Evaluation of operational information retrieval systems. Part 1: Identification of Criteria. Cranfield, England: College of Aeronautics. Apud LANCASTER, F.W., FAYEN, E.G. Information Retrieval On-Line. Los Angeles, CA: Melville Publishing Co. 1973.

89 CLYDE, Anne. Web search engines: general bibliography and resources. Disponvel em: <http://www.hi.is/~anne/websearch_bibliography.html>. Acesso em: 03 maio 2001. CORNELLA, Alfons. O avano das ferramentas de busca. Infonomia. Disponvel em: <http://www.intexnet.com.br/polors/revista/infonomia/20.htm>. Acesso em: 12 ago. 1999. COURTOIS, Martin P., BERRY, Michael W. Results ranking in web search engines. Online. v. 23, n. 3. May 1999. Disponvel em: <http://www.onlineinc.com/onlinemag/OL1999/courtois5.html>. Acesso em: 03 maio 2001. DONAHUE, Sean. Smarter Returns. Business 2.0. Disponvel em: <http://www.business2.com/articles/1999/08/text/break.html>. Acesso em: 19 ago. 1999. FELDMAN, Susan. Just the answers, please: choosing a web search service. Datasearch. 1997. Disponvel em: <http://www.cs.rpi.edu/~sibel/4962/project/choosing_an_engine.html>. Acesso em: 08 jun. 2001. FOLHAONLINE. Internet faz parte do cotidiano de 9,4% dos brasileiros, diz pesquisa. Disponvel em: <http://www.ponto-com.com/NR/exeres/50F4BA6E-5647-4D53-A9C929DFBB6AE9AF.htm>. Acesso em: 10 set. 2001. FROEHLICH, Thomas J. R. Caveat Web surfer! responsabilidade social e recursos da Internet. Transinformao. Campinas, v.10, n.2, maio/agosto, 1998. Disponvel em: <http://www.puccamp.br/~biblio/transinformacao/old/vol10n2/pag15.html>. Acesso em: 02 fev. 2001. GAUCH, Susan. Wang, Guijun. Information fusion with ProFusion. In WebNet WORLD CONFERENCE OF THE WEBSOCIETY, 1, 1996, San Francisco. Disponvel em: <http://www.ittc.ukans.edu/~sgauch/papers/WebNet96.html>. Acesso em: 08 jun. 2001. GOSUENT, Adriano. A Internet fato consumado. e agora, Mr. Froehlich? Transinformao. Campinas, v.10, n.2, maio/agosto, 1998. Disponvel em: <http://www.puccamp.br/~biblio/transinformacao/old/vol10n2/pag49.html>. Acesso em: 02 fev. 2001. HAHN, Trudi Bellardo. Text Retrieval Online: historical perspective on Web Search Engines. Bulletin ASIS. V.24, n.4, April/May, 1998. Disponvel em: <http://www.asis.org/Bulletin/Apr-98/hahn.html>. Acesso em: 22 jun. 2001. HARMAN, Donna. The Text Retrieval Conferences (TRECs): proving a test-bed for information retrieval systems. ASIS Bulletin. Apr/May 1998. Disponvel em: <http://www.asis.org/Bulletin/Apr-98/harman.html>. Acesso em: 11 ago. 2001. HARRIS, P.E. In search of the Rosetta Stone (search engine capabilities). Online and CDROM Review. v.23, n.4, 1999, p.235-238. HOCK, R. Websearch engines: features and commands. Online. v.23, n.3, may/june 1999, p.24-28. KIRKPATRICK, D. Whats a Google? A great search engine, thats what. Fortune. 8 Nov. 1999, p. 139.

90 LANCASTER, F.W. Information Retrieval System: characteristics, testing and evaluation. USA: John Wiley & Sons, 1979. 318p. LANCASTER, F.W., FAYEN, E.G. Information Retrieval On-Line. Los Angeles, CA: Melville Publishing Co. 1973. LAWRENCE, Steve, GILES, Lee. Accessibility and distribution of information on the Web. Disponvel em: <http://wwwmetrics.com>. Acesso em: 27 jul. 2000. LAWRENCE, Steve, GILES, Lee. Accessibility of information on the web. Nature. v.400, july 1999, p.107-109. LAWRENCE, Steve, GILES, Lee. How big is the Web? How much of the web do the search engine index? How up to date are the search engines?. Disponvel em: <http://www.neci.nec.com/~lawrence/websize.html>. Acesso em: 16 jul. 2001. LAWRENCE, Steve, GILES, Lee. Searching the World Wide Web. Science. v.280, n.5360, p.98-100, 1998. Disponvel em: <http://www.neci.nec.com/~lawrence/science98.html>. Acesso em: 12 jul. 2001. LAZONDER, Ard W., BIEMANS, Harm, J.A., WOPEREIS, Iwan G.J.H. Differences between novice and experienced users in searching information on the World Wide Web. Journal of American Society for Information Science. v.51, n.6, April 2000, p.576-581. LEBEDEV, Alexander. Best search engines for finding scientific information in the Web. Disponvel em: <http://www.chem.msu.su/eng/comparison.html>. Acesso em: 03 maio 2001. LEIGHTON, H. Vernon, SRIVASTAVA, Jaideep. First 20 Precision among World Wide Web Search Services (Search Engines). Journal of the American Society for Information Science. v.50, n.10, July, 1999. LEIGHTON, H. Vernon, SRIVASTAVA, Jaideep. Precision among World Wide Web Search Services (Search Engines): Alta Vista, Excite, Hotbot, Infoseek, Lycos. 1997. Disponvel em: <http://www.winona.msus.edu/library/webind2/webind2.htm> Acesso em: 09 mar. 2001. LYMAN, Peter, VARIAN, Hal R. How much information? Disponvel em: <http://www.sims.berkeley.edu/how-much-info/>. Acesso em: 26 out. 2000. MACHADO, Raymundo das Neves. Servios de busca na Web: algumas reflexes sobre sua avaliao. In: CONGRESSO BRASILEIRO DE BIBLIOTECONOMIA E DOCUMENTAO, 23, 2000, Porto Alegre. Anais... Disponvel em: <http://embauba.ibict.br/cbbd2000/>. Acesso em: 27 abr. 2001. MAHON, Barry. Information retrieval, a story of research and other strange activities. ICSTI Forum, n. 37, Mar. 2001. Disponvel em: <http://www.icsti.org/icsti/forum/37/>. Acesso em: 08 jun. 2001. MALIK, Om. How Google is that? Forbes Magazine. Disponvel em: <http://www.forbes.com/tool/html/99/oct/1004/feat.htm>. Acesso em: 14 ago. 2000. MICKEY, W. A web search trifecta (sources of search engine information). Online. v.23, n.3, may/june 1999, p.79-82 MOREIRA, Walter. As garantias no texto de Froehlich. Transinformao. Campinas, v.10, n.2, maio/agosto, 1998. Disponvel em:

91 <http://www.puccamp.br/~biblio/transinformacao/old/vol10n2/pag38.html>. Acesso em: 02 fev. 2001. MOREIRA, Walter. Eficcia dos mecanismos de busca brasileiros na Internet. In: CONGRESSO BRASILEIRO DE BIBLIOTECONOMIA E DOCUMENTAO, 23, 2000, Porto Alegre. Anais... Disponvel em: <http://embauba.ibict.br/cbbd2000/>. Acesso em: 27 abr. 2001. NOTESS, Greg. Searching the hidden Internet. Database. June/July 1997, p.37-40. PETERSON, Richard Einer. Eight Internet Search Engines Compared. First Monday, Chicago, v.2, n.2, Feb. 1997. Disponvel em: <http://www.firstmonday.dk/issues/issue2_2/peterson/index.html>. Acesso em: 21 mar. 2001. POULTER, Alan. The design of World Wide Web search engines: a critical review. Program, v.31, n.2, p. 131-145, April 1997. RANDALL, Neil. The search engine that could. PC Computing Online. September, 1995. Disponvel em: <http://www.zdnet.com/pccomp/features/internet/search/index.html>. Acesso em: 08 jun. 2001. RIJSBERGEN, C.J. van. Information retrieval. Woburn: Butterworth & Co Ltda, 1979. 208 p. Disponvel em: <http://www.dcs.gla.ac.uk/Keith/Preface.html>. Acesso em: 21 jun. 2001. SARACEVIC, Tefko. Comparative Effects of titles, abstracts and full texts on relevance judgments. Proc. Amer. Soc. Information Sci, v.6, p.293-299. Apud LANCASTER, F.W., FAYEN, E.G. Information Retrieval On-Line. Los Angeles, CA: Melville Publishing Co. 1973. SARACEVIC, Tefko. Relevance: a review of and a framework for the thinking on the notion in Information Science. Journal of the American Society for Information Science. v.26, n.6, p.321-343, 1975. SCHLICHTING, Carsten, NILSEN, Erik. Signal detection analysis of WWW search engines. In: DESIGNING FOR THE WEB: EMPIRICAL STUDIES, 1996. Disponvel em: <http://www.microsoft.com/usability/webconf/schlichting.htm>. Acesso em: 08 jun. 2001. SCHWARTZ, Candy. The 2001 Infonortics Search Engine Meeting. Bulletin of the American Society for Information Science and Technology. v.27, n.6. August/September 2001. Disponvel em: <http://www.asis.org/Bulletin/Aug01/schwartz.html>. Acesso em: 28 ago. 2001. SCHWARTZ, Candy. Web Search Engines. Journal of the American Society for Information Science. v.49, n.11, p.973-982, Sep. 1998. STOBART, Simon, KERRIDGE, Susan. An investigation into World Wide Web search engine use from within the UK preliminary findings. Ariadne. v.6, Nov. 1996. Disponvel em: <http://www.ariadne.ac.uk/issue6/survey/>. Acesso em: 05 fev. 2001. SULLIVAN, D. Crawling under the hood. An update on search engine tecnology. Online, v.23, n.3, may/june 1999, p.30-38.

92 VAZ, Rodolfo Cezar Ranulfo. Metodologia de avaliao de mecanismos de recuperao da informao na rede WWW da Internet. 2000. 165p. Dissertao (Mestrado em Cincia da Informao) Faculdade de Estudos Sociais Aplicados, Departamento de Cincia da Informao e Documentao, Universidade de Braslia. Braslia. WALKER, Leslie. COM-LIVE (The Washington Post interview with Sergey Brin, founder and CEO of Google. Disponvel em: <http://www.washingtonpost.com/wpsrv/liveonline/business/walker/walker110499.htm> Acesso em: 14 ago. 2000. WARD, J. Indexing and classification at Northern Light. NFAIS newsletter. V.41, n.10, Oct. 1999, p.138-140. WESTERA, Gillian. Robot-driven search engine evaluation overview. Disponvel em: <http://lisweb.curtin.edu.au/staff/gwpersonal/senginestudy>. Acesso em: 08 jun. 2001. ZORN, Peggy, EMANOIL, Mary, MARSHALL, Lucy, PANEK, Mary. Advanced searching: tricks of the trade. Online. v.20, n.3. May 1996. Disponvel em: <http://www.onlineinc.com/onlinemag/MayOL/zorn5.html>. Acesso em: 07 jun. 2001.

LISTA DE SITES:
AltaVista. Disponvel em: <http://www.altavista.com>. Acesso em: 20 jun. 2001. Cad. Disponvel em: <http://www.cade.com.br>. Acesso em: 20 jun. 2001. Google. Disponvel em: <http://www.google.com>. Acesso em: 20 jun. 2001. Hobbes Internet Timeline v5.3. Disponvel em: <http://www.zakon.org/robert/internet/timeline/>. Acesso em: 11 jun. 2001. Lycos. Disponvel em: <http://www.lycos.com>. Acesso em: 20 jun. 2001. Mamma. Disponvel em: <http://www.mamma.com>. Acesso em: 20 jun. 2001. Metacrawler. Disponvel em: <http://www.metacrawler.com>. Acesso em: 20 jun. 2001. Miner. Disponvel em: <http://www.miner.com.br>. Acesso em: 20 jun. 2001. Mining Company. Disponvel em: <http://websearch.miningco.com>. Acesso em: 12 ago. 2001. Radix. Disponvel em: <http://www.radix.com.br>. Acesso em: 20 jun. 2001. Search Engine Meeting. Disponvel em: <http://www.infonortics.com/searchengines>. Acesso em: 08 jun. 2001. Search Engine Show Down. Disponvel em: <http://searchengineshowdown.com>. Acesso em: 20 jun. 2001. Search Engine Watch. Disponvel em: <http://www.searchenginewatch.com/>. Acesso em: 20 jun. 2001. Search Engine Watch. Sprechen Sie Search Engines? Disponvel em: <http://www.searchenginewatch.com/facts/sprechen.htm>. Acesso em: 11 jun. 2001. Webopedia. Disponvel em: <http://www.webopedia.com>. Acesso em: 06 jun. 2001.

93 Yahoo News! Disponvel em: <http://fullcoverage.yahoo.com/fc/Tech/Internet_Portals_and_Search_Engines/>. Acesso em: 20 jun. 2001. Yahoo! Disponvel em: <http://www.yahoo.com>. Acesso em: 20 jun. 2001.

94

ANEXO 1
The Search Engine Index
In the spirit of the Harper's Index and Win Treese's Internet Index, the Search Engine Index is a compilation of interesting facts about search engines. Also, see below for resources for more general Internet statistics.

Paid submission to Yahoo and LookSmart and paid listings with GoTo are the most popular paid participation programs, each used by over 30 percent of webmasters surveyed.
CyberAtlas, August 2001 Surplus Of Search Engine Marketing Reports

97 percent of Fortune 100 companies had some type of site architecture problem that might give them problems being found by search engines.
iProspect, May 2001 Surplus Of Search Engine Marketing Reports

Nine out of ten web users visit a search engine, portal or community site each month. They also revisit frequently, nearly five times per month.
Nielsen//NetRatings, May 2001 Three Site Types Dominate Surfing Habits

Users looking for products are far more likely to type the product name into a search engine's search box (28%) than browse shopping "channels" (5%) or click on ads (4%)
Jupiter Media Metrix & NPD, March 2001 Paid Search Engines Picking Up Slack For Depressed Online Ad Market

Search engines generate 7% of traffic to web sites.


StatMarket, Dec. 19, 2000

About 32,000 businesses run paid listings with GoTo.com. They pay an average of 21 cents (US) per visitor.
Firms pay for search engine play AP, Dec. 11, 2000

Meta tags are the most popular search engine optimization technique, used by 61% of those surveyed, followed by optimizing page titles (44%) and link building (32%).
Iconocast, Nov. 2000

About 10 percent of searchers choose the Related Searches option at NBCi


Reported by NBCi, November 2000

95

44% responding to an Iconocast survey cited "search engine positioning" as a promotional method used in the last twelve months. It was fourth behind email marketing (62%), offline branding (54%) and banner ads (53%).
Iconocast, Oct. 26, 2000

Search engines are the top way consumers find new web sites online, used by 73.4% of those surveyed.
Driving Customers, Not Just Site Traffic Forrester, March 28, 2001 (Data from October 2000)

Search engines are the top information resource Americans use when seeking answers, used 32 percent of the time, more than any other option.
Consumer Daily Question Study, Fall 2000

Marketers checking on search engine rankings generated half a million queries per day at Northern Light using position checking software -the numbers are probably similar or more for other major search engines.
Northern Light's CEO David Suess from I-Search Digest #252, Sept. 2000

60 percent of web user sessions involve portals; 1/3 of these sessions involve searching, and portals generate 6 percent of a typical web site's traffic.
Booz-Allen Hamilton, July/August 2000

The most popular portal feature is search, used in 49 percent of visits.


Booz-Allen Hamilton, July/August 2000

Search engine positioning was the top method cited by web site marketers to drive traffic to their sites (66%), followed by email marketing (54%).
Direct Marketing Association, Aug. 2000

On average, Americans experience "search rage" if they don't find what they want within 12 minutes.
WebTop Search Rage Study, August 2000

Americans search the web practically every other day. Nearly 1/3 search once or more per day.
WebTop Search Rage Study, August 2000

On average, Americans spend 1.5 hours per week searching for

96

information.
WebTop Search Rage Study, August 2000

The Open Directory receives 250 site submissions per hour


From the Open Directory, as reported at the Aug. 2000 Search Engine Strategies conference

Search engines are the leading way users in the United Kingdom locate web sites. 81% said search engines helped them find sites. Following links was the next most popular method (59%).
Forrester Research UK Internet User Monitor, May 2000

Over 75 percent of web users use search engines to traverse the web.
April 2000, RealNames Survey

46% of Internet users find new web sites via search engines. Word of mouth (20%) and random searching (20%) were the next most popular methods.
Feb. 21, 2000, "Permission E-mail," IMT Strategies (stats not available at the site but were sent to me directly and can also be found via Search Engines and Blind Luck, eMarketer)

57% of Internet users search the web each day, making search the second most popular Internet activity. 46% say they look for product info, making this the third most popular activity. Email is the most popular activity, with 81% checking each day.
Feb. 17, 2000, "How People Use the Internet," SRI

42% of those who bought from online retail sites arrived via search engines. Entering the URL directly was the most popular method (60%), followed by using bookmarks (48%).
Oct. 1999, "Online Retail Monitor," NFO

20 percent of all search queries conducted on AltaVista are product related.


Oct. 25, 1999, AltaVista

30 percent of traffic to e-commerce sites comes from Yahoo, making it the leading referral web site.
Sept. 10, 1999, "Role of Portals in E-Commerce," Nielsen//NetRatings

1 in every 28 page views on the Web is a search results page (3.5 percent of all page views)

97

June 1, 1999, Alexa Insider

Internet users ranked search as their most important activity, awarding it a 9.1 on a 10-point scale. The next most important activity ranked only 6.3.
Jupiter Research, 1999 (via Infoseek Press Release)

The most widely traveled path on the web in March 1999 was from home.microsoft.com to www.altavista.com
March 1999, Alexa Insider

30% of Lycos revenues come from e-commerce


Lycos Vice President of Marketing Jan Horsfall March 11, 1999, Iconocast,

The average work user spends 73 minutes per month at search engines, second only to 97 minutes at news, info and entertainment sites
(Home users - NIE: 71 mins, adult sites: 65 mins, search engines: 54 mins) February 1999, Media Metrix,

People visit sites linked to a keyboard button 10 times more often than those they've bookmarked
Ronnie Ward, AltaVista VP Feb. 22, 1999, Internet World AltaVista Adds Another Piece

84.8 percent of people use search engines to find new web sites
GVU's 10th WWW User Survey Oct-Dec. 1998

Almost 50 percent of online users turn to search sites for their online news needs.
Dec. 1998, Jupiter Communications survey

56% of users learn about sites from search engines.


(Other methods: Magazines, 38%, Newspapers, 36%, TV news, 26%) July 1998, NetSmart IV (via Iconocast)

71% of frequent web users most often use search engines to find web sites.
April 1997, CommerceNet/Nielsen Study

Other Internet Statistics Resources


Iconocast
A leading resource for statistics, plus a great read!

CyberAtlas
Comprehensive coverage of Internet-related statistics.

98

Nua Internet Surveys


Nua is like a Yahoo for Internet surveys. If someone has published a survey, Nua has cataloged it.

InfoQuest Internet Surveys and Statistics


A short list of major research sites.

Yahoo Internet Statistics Category


A huge list of statistics resources.

Open Directory Internet Statistics Category


Another huge list of statistics resources.

Search Engine Reviews, Ratings & Tests


The section within Search Engine Watch that provides more statistics about search engines

Fonte: Search Engine Watch. The Search Engine Index. Disponvel em: <http://www.searchenginewatch.com/reports/seindex.html> Acesso em: 03 nov. 2001.

99

ANEXO 2
Curso: Carpintaria do Trabalho Acadmico Professor: Maria de Nazar Freitas Pereira Objetivos: 1 Apresentar mtodo de trabalho que facilita o desenvolvimento do trabalho acadmico, integrando em um nico movimento a produo de forma e contedo; 2 Transformar o processo de redao do trabalho acadmico em tarefa rotineira e sistemtica; 3 Permitir o conhecimento substantivo da literatura pertinente a um tema/questo de pesquisa; 4 Ampliar a rede de textos pertinentes ao tema/questo de pesquisa via levantamentos bibliogrficos nos agentes de busca da Internet e na prpria bibliografia dos textos; 5 Construir paulatinamente o texto do trabalho acadmico, ao evoluir do domnio da literatura pertinente redao de pargrafos, sees, captulos, verses preliminares e verso final; 6 Formatar o trabalho acadmico de acordo com padres aceitos no mbito de uma comunidade de pesquisa; 7 Dominar recursos disponveis no editor de texto Word para economia de tempo de trabalho; 8 Organizar os arquivos do trabalho acadmico, usando ferramentas apropriadas para tal fim, e 9 Usar agentes de busca para PC (personal computer) a fim de indexar e recuperar os textos pertinentes redao do trabalho acadmico em seus aspectos mais elementares. Ementa: A metodologia moda antiga da verdade ao texto. Abordagens tradicionais de construo de contedo e forma. A abordagem antropolgica: a informao como transporte da matria que vira signo e de signo que vira matria. Como organizar um Centro de Clculo para comprimir/reduzir matrias do mundo ausente. Metrologia e economia do trabalho acadmico: estilo, teclas de atalho, normas de citao e de referncias bibliogrficas. O processo de reduo/compresso do mundo ausente: do estudo anotado (fontes em papel e fontes eletrnicas) e do controle das fontes de informao. As ferramentas de organizao da informao. Os motores de busca (o agente Discovery): gerncia do processo de indexao e de recuperao. O processo de deslocamento do estudo anotado ao texto do trabalho acadmico. Definindo as pginas pr-textuais do trabalho acadmico (dissertaes e teses): capa, folha de rosto, sumrio, lista de figuras, abreviaes etc.