255 836 1 PB PDF

Revista de Economa Poltica de las Tecnologas de la Informacin y Comunicacin
www.eptic.com.br, vol. IX, n. 3, Sep. Dec. /2007
Quem procura, acha?

O impacto dos buscadores sobre o modelo distributivo da World Wide
Web
Suely Fragoso
Cuando se proclam que la Biblioteca abarcaba todos los libros, la primera impresin fue
de extravagante felicidad. Todos los hombres se sintieron seores de un tesoro intacto y
secreto. No haba problema personal o mundial cuya elocuente solucin no existiera: en
algn hexgono. El universo estaba justificado, el universo bruscamente usurp las
dimensiones ilimitadas de la esperanza.
...
A la desaforada esperanza, sucedi, como es natural, una depresin excesiva. La
certidumbre de que algn anaquel en algn hexgono encerraba libros preciosos y de que
esos libros preciosos eran inaccesibles, pareci casi intolerable.
Jorge Luis Borges, A Biblioteca de Babel
O sculo XX foi o sculo da comunicao de massa, durante o qual a imprensa, o cinema,

o rdio e a televiso floresceram conforme o modelo irradiativo (um-muitos) de distribuio.
Tecnologias de comunicao originalmente vocacionadas para funcionamento epidmico
(muitos-muitos) chegaram a ser reencaminhadas para o modo irradiativo1. Ao final dos anos
1990, entretanto, uma nova prtica emergiria das instalaes militares e dos campi universitrios:
a comunicao mediada por computador (CMC). primeira vista, parecia no se tratar de muito
mais que a transposio para um novo ambiente tecnolgico de alguns modos pr-existentes de
comunicao interpessoal (um-um), como o correio ou o telefone. Entretanto, a configurao
tecnolgica (em rede) e o ambiente cultural (tanto o espao universitrio quanto a proximidade
entre a comunidade hacker e os movimentos da contracultura) eram altamente propcios
comunicao epidmica (muitos-muitos), que de fato viria a florescer. Com a popularizao da
internet, e em especial atravs da World Wide Web, as possibilidades de comunicao muitos-
muitos estenderam-se a um nmero sem precedentes de pessoas. Em um contexto at ento
marcado pela hegemonia aparentemente intransponvel do modelo massivo de comunicao,
poca era praticamente impossvel no saudar o potencial subversivo da CMC.
Unisinos, <suely@unisinos.br>
1
O exemplo clssico o rdio, originalmente uma tecnologia bi-direcional cuja transformao em meio de
comunicao de massa demandou significativos esforos polticos e expressivos investimentos financeiros.
Embora os nmeros absolutos obscuream o fato de que apenas uma reduzidssima

parcela da populao mundial tem pleno acesso s redes digitais de comunicao, inegvel que
a CMC elevou exponencialmente o nmero de indivduos capazes de desempenhar o papel de
emissor em processos comunicacionais de grande escala, provocando um rearranjo no cenrio
miditico. Sem deixar de louvar os mritos dessa nova modalidade de comunicao tecnolgica,
importante atentar tambm para os desdobramentos negativos do modelo muitos-muitos.
Antes de mais nada, um grande nmero de emissores implica um elevado nmero de
mensagens. Em um texto que j se tornou um clssico do tema, Lawrence e Giles estimaram em
800 milhes o nmero de pginas indexveis2 disponveis na web em 1999 (Lawrence e Giles,
1999, p.2). Um ano mais tarde, Murray calculava que o nmero de pginas indexveis j teria
ultrapassado os dois bilhes (Murray, 2000, p.3). Em janeiro de 2005, Gulli e Signorini
calcularam a existncia de pelo menos 11,5 bilhes de pginas (Gulli e Signorini, 2005, p.1). No
bastasse a grandeza desses nmeros, preciso lembrar que a web essencialmente dinmica e
auto-organizada. No mesmo ano de 2000 em que o incremento dirio no nmero total de pginas
era estimado em cerca de 7,3 milhes (Murray, 2000, p. 3), Arasu et al constataram que a meia-
vida das pginas com domnio .com no ultrapassava dez dias3 (Arasu et al., 2001, p.3). Alm
disso, preciso considerar a imensa variedade de linguagens empregadas nas pginas (textos,
sons, imagens estticas e dinmicas) e o dinamismo de seu contedo.
O cenrio assim constitudo de uma tal exuberncia que traz para o primeiro plano a
diferena crucial entre a multiplicao das pessoas capazes de publicar na World Wide Web e a
visibilidade de cada uma delas. A questo no se resume qualidade ou pertinncia do material
disponibilizado, mesmo porque fundamental respeitar as diferentes concepes de pertinncia.
Na hiptese altamente fantasiosa de que todos os milhes de terabytes da web interessassem a
todos e a cada um, o problema do excesso no se resolveria, pelo contrrio. Na ausncia de um
controle por gatekeeping, na entrada, como de praxe nos meios de comunicao analgicos, o
ambiente muitos-muitos da web favorece a emergncia de mecanismos de filtragem e de seleo
na sada. Nesse cenrio, os sistemas de busca configuram uma soluo bvia e aparentemente
incua. Entretanto, no exagero dizer que seus desdobramentos, sobretudo quando se leva em
2
A expresso pginas indexveis designa o contedo da web normalmente acessvel s ferramentas de busca. As
pginas no-indexveis compem a web profunda (deep web), que agrega as pginas que no enviam (ou recebem)
links; o contedo dinmico, gerado em resposta a consultas a bancos de dados e o material de acesso restrito.
3
Ou seja, em dez dias, a metade das pginas .com observadas no estavam mais nos endereos consultados.
conta a configurao que assumiram nos ltimos anos, pem em risco o prprio formato
epidmico da WWW. Para esclarecer devidamente esta ltima colocao, que corresponde
proposio fundamental deste texto, vale a pena revisitar algumas passagens da histria dos
sistemas de busca na internet.
Uma breve (e incompleta) histria (comentada) dos buscadores
A necessidade de orientao em meio profuso de material disponibilizado na internet

anterior World Wide Web: o primeiro indexador, denominado Archie4, surgiu em 1990. Reunia
informaes de arquivos disponveis em servidores ftp annimos e mantinha-os atualizados
checando os dados em intervalos de at 30 dias. Os usurios do Archie procuravam por
sequncias de caracteres nos nomes dos arquivos ou pastas disponveis no ndice. Inicialmente
destinado a uso departamental, Archie foi anunciado publicamente quando abrangia pouco mais
de 200 servidores (Deustch, 1990).
A facilitao da localizao dos arquivos disponveis para ftp pelo Archie inspirou a
criao de um indexador semelhante para Gopher, que foi chamado Veronica5. Veronica era um
banco de dados que reunia os menus dos servidores Gopher, permitindo a realizao de buscas
por tpico (com palavras-chave) ao invs de por servidor (como era inerente ao sistema). Pouco
depois apareceu Jughead6, que teve o mrito de introduzir a possibilidade de realizar buscas
booleanas7 (Salient Marketing, s.d.)
Um outro sistema, em vrios aspectos mais avanado e reunindo caractersticas do prprio
Gopher e dos buscadores que nele operavam, j estava em operao desde o ano anterior. Era o
WAIS (Wide Area Information Server), desenvolvido por iniciativa conjunta de 4 empresas8.
Com o WAIS, era possvel realizar buscas em bases de dados remotas, cujos resultados eram
organizados em ordem decrescente de frequncia das palavras-chave. Clientes WAIS foram
criados para vrios sistemas operacionais, incluindo Windows, Macintosh e Unix, mas a
propriedade privada segurou a popularizao do WAIS. De fato, podia ser arriscado, poca,
contradizer o carter pblico da internet. Diversas boas idias e implementaes competentes
4
Alan Emtage, Bill Heelan e Peter Deutsch na McGill University Montreal, Canad, 1990.
5
Steve Foster e Fred Barrie, University of Nevada System Computing Services Group, 1992.
6
Rhett Jones, University of Utah Computer Centre, 1993.
7
Buscas em que os operadores AND, OR e NOT so utilizados para formar combinaes lgicas com palavras ou
expresses-chave, formulando condies que os sistemas booleanos de busca procuraro satisfazer levando em conta
quais termos esto presentes ou ausentes em um documento ou conjunto de documentos.
8
Thinking Machines Corporation, Apple Computer, KPGM Peat Marwick e Dow Jones Co., 1992.
sucumbiram devido insistncia em comercializ-las. Mesmo assim, de se duvidar que o

CERN (http://www.cern.ch) tivesse idia da escala que assumiriam as consequncias de sua
deciso de abrir mo, em 1993, do direito de propriedade dos cdigos bsicos do projeto de um
sistema global de hipertexto que havia sido iniciado por Tim Berners-Lee em 1989 (CERN,
1993) e que viria a tornar-se a World Wide Web como a conhecemos hoje. Combinado com a
deciso de tornar a WWW um sistema de domnio pblico, o lanamento do primeiro browser
para Windows, o X Windows Mosaic9 e sua posterior adaptao para plataformas Macintosh,
ajudou a popularizar a web numa escala sem precedentes para todos os demais sistemas de
informao.
Poucos meses aps o lanamento do Mosaic, a primeira aranha comeou a rastrear a web.
Era o World Wide Web Wanderer10, o primeiro webrobot11. O Wanderer percorria a web
mapeando cada pgina de um site e prosseguindo para uma das pginas conectadas a ela, para
ento mape-la e prosseguir para a prxima e assim sucessivamente12 e armazenava os endereos
que encontrava num banco de dados. A idia inicial era mapear toda a web (Gray, 1995) e partia
da premissa de que todas as pginas estariam conectadas a pelo menos uma outra, de modo que
seria uma questo de tempo at que o Wanderer percorresse a web inteira13.
Apesar da controvrsia causada pelo impacto da operao do WWW-Wanderer sobre os
servidores da rede, antes do final de 1993 pelo menos mais trs outros bots rastejavam pela web:
JumpStation, World Wide Web Worm e RBSE. O Worm14 indexava os ttulos e endereos das
pginas, enquanto o JumpStation15 inovou ao arquivar tambm os cabealhos. Ambos
apresentavam os resultados na ordem em que os encontravam. O RBSE16 foi o primeiro a
9
Marc Andreesen e Eric Bina, University of Illinois at Urbana-Champaigne, 1993.
10
Matthew Gray, MIT, 1993.
11
Webrobots, tambm chamados crawlers, spiders e, daqui para a frente referidos como rastreadores ou bots, so
programas que percorrem a web passando de um documento para outro atravs dos hiperlinks.
12
Esse tipo de rastreamento conhecido como depth-first (em profundidade) e implica que o rastreador retorna
pgina inicial diversas vezes, o que coloca grande demanda sobre os servidores, comprometendo seu desempenho.
Uma outra abordagem possvel a breadth-first (em abrangncia), em que o rastreador segue todos os links de uma
pgina e s depois prossegue para os links das pginas seguintes.
13
A crena de que todos os endereos esto ao alcance de quem ou o que percorresse os links perdurou at
recentemente, quando foi matematicamente demonstrado que a natureza direcional das hiperconexes da web
implica necessariamente em sua fragmentao. No processo, certos endereos melhor conectados ganham em
acessibilidade, enquanto outros podem chegar a formar pequenos ncleos inacessveis (Barabsi, 2002, p. 167).
14
Oliver McBryan, University of Colorado, 1993.
15
Jonathon Fletcher, University of Stirling, 1993.
16
David Eichmann, Repository Based Software Engineering Program, University of Houston, 1993.
implementar um sistema de ranqueamento baseado na relevncia relativa expresso utilizada

para a busca (Mauldin, 1997; Wall, 2006).
Ainda em 1993 surgiu o primeiro indexador projetado especificamente para a web, o
Archie-Like Indexing of the Web, ou Aliweb17. Fortemente inspirado pelo Archie, o Aliweb no
possua um rastreador, mas compunha seu banco de dados a partir das informaes fornecidas
diretamente pelos webmasters. Isso permitia que o sistema arquivasse descries das pginas, que
eram alimentadas pelos prprios criadores, mas por outro lado tornava a qualidade e atualidade
do banco de dados dependentes da boa vontade de terceiros.
Tambm contando com um banco de dados construdo sem o apoio de rastreadores, surgiu
no ano seguinte o primeiro diretrio web pesquisvel, o Galaxy18. Como listava apenas URLs
que tinham sido fornecidas diretamente, o Galaxy pde organizar os endereos em categorias e
sub-categorias, permitindo que os usurios restringissem a busca a sub-reas de sua base de
dados, o que acelerava e tornava mais preciso o processo.
No demorou a surgiu um bot capaz de associar o registro do contedo completo das
pginas funcionalidade do rastreamento automtico. Para faz-lo, o WebCrawler19 adotou a
indexao vetorial20. A estratgia foi um grande sucesso: aps seis meses de uso, o WebCrawler
j havia indexado milhares de documentos e efetuado quase um quarto de milho de buscas,
atribudas a mais de 23 mil usurios diferentes (Pinkerton, 1994). Em novembro do mesmo ano, o
nmero de buscas realizadas chegou marca de um milho (Pinkerton, s.d.). Logo o sistema da
universidade de Washington deixou de ser capaz de dar suporte ao buscador, um problema que s
seria resolvido com a venda do WebCrawler.
Outros sistemas de busca aperfeioaram ainda mais a combinao de funcionalidade e
abrangncia inaugurada pelo WebCrawler. Um dos mais significativos foi o Lycos21, que alm de
organizar os resultados das buscas conforme sua relevncia, permitia consultas por prefixo e dava
bnus por proximidade entre palavras (Mauldin, 1997). Um dos atrativos iniciais do Lycos foi o
tamanho de seu banco de dados: em agosto de 1994 o Lycos havia identificado 394 mil
17
Martijn Koster, NEXOR, 1993.
18
MCC Research Consortium, University of Texas, Austin, 1994.
19
Brian Pinkerton, University of Washington, 1994.
20
No modelo vetorial de indexao, documentos em linguagem natural so representados atravs de vetores (no
caso, palavras-chave que funcionam como termos de indexao aos quais so atribudas caractersticas vetoriais). O
sistema avalia a relevncia dos documentos conforme sua relao espacial com as palavras-chave utilizadas para a
busca.
21
Michael Mauldin, Carnegie Mellon University, 1994.
documentos, em janeiro de 1995, o catlogo j tinha 1 milho e meio de documentos e em

novembro de 1996, o Lycos j havia indexado mais de 60 milhes de documentos mais que
qualquer outra ferramenta de busca na web (Mauldin, 1997) poca. O peso desse banco de
dados era aliviado pela estratgia de no arquivar o contedo completo das pginas mas apenas
um resumo, que era construdo automaticamente considerando as 100 palavras-chave mais
freqentes em cada pgina, combinadas com as palavras do ttulo, do cabealho e as 20 primeiras
linhas ou os primeiros 10% do documento. Os resumos podiam ser vistos junto com a lista dos
resultados e ajudavam o usurio a decidir qual das pginas encontradas visitar primeiro.
Outro diferencial importante do Lycos foi o funcionamento de seu rastreador, que no
operava depth-first nem breadth-first, mas conforme uma estratgia que Mauldin denominou
best-first. Para definir qual era a melhor pgina, e portanto a prxima a ser rastreada, a aranha
do Lycos levava em conta o nmero de links que cada pgina recebia de outros servidores
(inlinks).
Em meados dos anos 1990, a capacidade da web para atrair volumes significativos de
trfego comeava a chamar a ateno de novos investidores. Os buscadores foram considerados
particularmente interessantes pelo capital publicitrio, inicialmente interessado em incluir
banners e pequenos anncios nas pginas de incio. Logo os sistemas de busca descobriram que a
intensificao do fluxo de pblico era o caminho para atrair mais anunciantes. Com vistas a gerar
seu prprio trfego e incrementar o tempo de permanncia dos usurios em seu domnio, muitos
assumiram o formato de portal, passando a oferecer uma variedade de servios. Um dos
primeiros e mais bem sucedidos portais da web foi, sem dvida, o Yahoo!
O Yahoo! comeou muito modestamente, como uma lista de sites favoritos de dois
primeiranistas de doutorado da University of Stanford (Jerry Yang e David Filo, 1994) A prtica
de publicar listas de favoritos na web era bastante comum na poca, e o grande diferencial do
indce de Yang e Filo era a disponibilizao de breves descries das pginas listadas. Com o
aumento do nmero de indicaes, a lista tornou-se pouco amigvel e os autores criaram uma
estrutura de rvore (categorias e sub-categorias), conferindo ao Yahoo! o perfil de um diretrio.
Para responder ao crescimento da popularidade da lista, adicionaram tambm uma ferramenta de
busca e passaram a aceitar inscries de websites que desejassem figurar em seu banco de dados.
Com menos de um ano de funcionamento, a pgina do Yahoo! celebrou seu milionsimo acesso,
com visitantes vindos de quase 100 mil endereos distintos. (Yahoo! Media Relations, 2005).
Tendo estreado tarde, o AltaVista22 enfrentou uma competio feroz. Era, no entanto,
extremamente mais rpido que as outras ferramentas disponveis poca e prometia aos
webmasters atualizar as informaes recebidas em no mximo 24 horas. Foi tambm a primeira
ferramenta que permitiu buscas a partir de perguntas formuladas em linguagem natural, buscas
em newsgroups e buscas especficas por palavras associadas a imagens, ttulos e outros campos
do cdigo html. Foi tambm a primeira ferramenta a disponibilizar buscas por inlinks
(Sonnenreich, 1998), uma possibilidade que tendia a passar desapercebida dos usurios comuns
mas com importantes implicaes para o marketing. Alm disso, o AltaVista acrescentou um
campo de dicas embaixo da rea de busca, o que ajudou a aumentar a fidelidade ferramenta.
A essa altura, novas formas de integrar o contedo publicitrio aos resultados das buscas,
adaptando-se ao carter push23 da web comeavam a se popularizar. A incluso paga (paid
inclusion), em que o webmaster paga a ferramenta de busca ou diretrio para garantir que seu site
seja includo no banco de dados, j era comum quando surgiu uma verso mais elaborada, a
classificao paga (paid placement), que consiste em pagar o buscador para garantir que o site
figure entre os melhor classificados em buscas por uma determinada palavra (ou vrias). Em
1997, o GoTo (1997, Idealab!) inaugurou um novo modelo de vendas, introduzindo o modelo de
seleo paga (pay-per-click), em que os anunciantes s pagam ao buscador quando o link para o
seu site (do anunciante) selecionado. Rapidamente, os sistemas de busca se tornaram os
principais veculos para a publicidade online (FutureNow, Inc, 2003, p. 15).
O prprio sucesso do negcio de buscas fomentou a concorrncia, e logo havia dezenas de
buscadores diferentes na rede. Cada um deles operava com interface e algoritmos prprios e seus
bancos de dados cobriam diferentes pores da Web. Por conseguinte, consultas a sistemas
diferentes produziam resultados diferentes, e os usurios passaram a repetir as mesmas consultas
em vrias ferramentas, buscando maior amplitude de resposta. Para atender a essa nova demanda
surgiram as ferramentas de meta-busca, que permitem buscar em vrios sistemas de busca ao
mesmo tempo. Os dois primeiros sistemas de meta-busca apareceram quase simultaneamente, em
1995. Savvy Search24 realizava buscas em at 20 outros buscadores por vez e inclusive permitia
acesso a alguns diretrios temticos. No entanto, simplesmente ignorava as opes avanadas dos
22
Digital Research Laboratories, Palo Alto, California, 1995.
23
Em que o contedo no empurrado (pulled) para o usurio, mas solicitado (pushed) por ele.
24
Daniel Dreilinger, Colorado State University, 1995.
vrios sistemas de busca. J o MetaCrawler25, que se tornaria mais popular, enfrentava as

diferenas de sintaxe entre as opes avanadas dos sistemas de busca criando sua prpria sintaxe
e convertendo o input do usurio no comando correspondente em cada sistema de busca
acessado. No sentido inverso, os resultados encontrados eram convertidos para um formato nico
na pgina de resposta (Selberg e Etzioni, 1995).
Do ponto de vista dos sistemas de busca originais os meta-buscadores eram uma pssima
idia, pois desviavam o pblico de suas pginas e por conseguinte afastavam os anunciantes.
Junto aos usurios, entretanto, fizeram grande sucesso em especial o MetaCrawler, que logo
ultrapassou a capacidade dos servidores do campus da University of Washington, tendo sido
ento licenciado para a go2net, que mais tarde se tornaria InfoSpace. Sob a gesto da InfoSpace, o
MetaCrawler encontrou um modelo compatvel com a meta-busca, passando a disponibilizar os
resultados das vrias ferramentas acompanhados dos anncios originais de cada site. O grande
impulso comercial para os meta-buscadores adveio, entretanto, da publicidade pay per click, que
permitia diferenciar entre o trfego originado pela ferramenta original e o oriundo do meta-
buscador.
Em paralelo manipulao dos resultados das buscas pela insero de resultados pagos,
surgiu tambm o search spam26. Do ponto de vista dos buscadores, era fundamental evitar o
spam, pois a ocorrncia de resultados improcedentes ou mal classificados afastava o pblico e,
com ele, os anunciantes. Para isso, os sistemas de busca desenvolviam estratgias de indexao e
classificao cada vez mais sofisticadas. Por outro lado, o nmero de incluses pagas nas listas de
resultados era cada vez maior. Logo a disseminao dessas prticas comearia a comprometer a
confiana dos usurios nos sistemas de busca de um modo geral.
quela altura, a disputa pelo mercado parecia girar em torno do tamanho dos bancos de
dados dos diferentes sistemas de busca. Nmeros portentosos eram exibidos como argumento
para a existncia de grandes quantidades de usurios. Devido aos altos custos envolvidos na
compilao de bancos de dados com tamanho competitivo, a sobrevivncia das pequenas
ferramentas tornou-se praticamente impossvel. Muitas foram compradas pelos buscadores
maiores, interessados tanto em aumentar ainda mais seus bancos de dados quanto, muitas vezes,
em particularidades dos rastreadores e sistemas de classificao que, como de praxe na indstria
25
Eric Selberg e Oren Etzioni, University of Washington, 1995.
26
Search spam consiste em configurar o site de modo a enganar os sistemas de busca para obter melhor
classificao.
da busca, as pequenas empresas mantidas em sigilo. A competio por maiores fatias do mercado
publicitrio era pesadssima, mas as possibilidades de lucro tambm o eram. Os usurios,
entretanto, haviam ficado em segundo plano, reduzidos, sob a forma de fluxo de pblico, a
matria-prima para negociao com os anunciantes.
No mundo acadmico, estava em gesto um sistema de classificao que recolocava no
centro da cena uma das caractersticas mais interessantes do Lycos: a heurstica de
popularidade (Mauldin, 1997). A estratgia foi aperfeioada no BackRub, que classificava os
resultados de acordo com o nmero de back links que cada site recebia. O projeto cresceu
rapidamente e foi renomeado Google27. A princpio, Page e Brin no pareciam estar interessados
em criar uma empresa em torno de seu novo buscador, tanto que tentaram vend-lo ainda em
1998, sem sucesso. Um ano mais tarde, o Google continuava em verso beta, mas a reputao de
ser um novo sistema de busca que fornecia resultados bastante mais confiveis que as outras
ferramentas e que no apenas no inclua resultados pagos entre os resultados orgnicos mas
tambm utilizava um algoritmo de classificao inovador e cuja forma de atuao era de
conhecimento pblico28 j comeava a torn-lo um sucesso. Outros pontos fortes do Google eram
a velocidade das buscas e a simplicidade da interface (comeando pela ausncia de banners e
outro material publicitrio, o que levava a pgina inicial a carregar muito mais rpido que a dos
outros sites de busca). Logo o Google pde enfrentar a concorrncia tambm na batalha pelo
maior banco de dados e passou a anunciar a quantidade de pginas indexadas imediatamente
embaixo do campo de buscas.
Ao final de 2000, o Google comeou a exibir alguns resultados pagos, mas, ao contrrio
da maiora das outras ferramentas, no os mesclou com os resultados orgnicos. quela altura o
Google j havia se estabelecido como o melhor sistema de buscas na mente do pblico, que
aceitou bem a diferenciao de grfica entre os resultados orgnicos e os pagos. Os demais
buscadores foram obrigados a encarar a superioridade da relevncia dos resultados fornecidos
pelo Google e a lealdade que aquela qualidade gerara entre os usurios: muitos outros sistemas de
busca, inclusive alguns grandes como o Yahoo!, fariam acordos para incluir resultados vindos do
Google em suas prprias pginas. Ao final de 2003, chegou-se a estimar que dois teros de todas
as buscas realizadas na web retornavam resultados oriundos do Google (Thies, 2005).
27
Larry Page e Sergey Brin, Stanford University,1998.
28
O algoritmo PageRank foi divulgado no artigo The Anatomy of a Large-Scale Hypertextual Web Search Engine,
apresentado na Seventh International Conference on World Wide Web, Brisbane, Australia, 1998.
Em setembro de 1999, o Microsoft MSN Search comeara a aplicar seu prprio mtodo de
classificao aos dados obtidos junto a diferentes bancos de dados (Sullivan, 1999), dando incio
ao processo de desvinculao dos terceiros que at ento impulsionavam suas buscas (LookSmart,
Inktomi/Yahoo). Em 2003, a Microsoft anunciou a inteno de construir seu prprio rastreador
(Sullivan, 2003) que s seria oficialmente anunciado dois anos mais tarde (Sullivan, 2005).
Pouco mais de um ano depois, em outubro de 2006, a Microsoft lanou o Windows Live Search,
uma nova plataforma de busca com interface mais customizvel e que permite inclusive algum
controle sobre o rankeamento dos resultados (restrito classificao por mais recente, mais
popular e mais exato) (Murray, 2006)
Em paralelo vinda da anlise de hiperlinks para o centro do palco e entrada da
Microsoft no negcio de buscas, os primeiros anos da dcada de 2000 vm sendo marcados
tambm pela redescoberta do potencial da criao colaborativa de listas de favoritos29. A prtca,
que est na origem de buscadores importantes como o Yahoo!, ressurgiu aperfeioada pela
marcao colaborativa, que consiste na associao de palavras-chave ao site apontado como
favorito. Ferramentas baseadas em marcao social procedem buscas em bancos de dados
alimentados pelos prprios usurios, tomando como base as marcaes que os membros da
comunidade escolheram associar aos elementos indexados. Um dos sites de social tagging mais
populares o Del.icio.us (http://del.icio.us), mas existem inmeros outros.
Os sistemas colaborativos so tpicos da chamada Web 2.0 e apostam no poder subversivo
da cauda longa, uma caracterstica h muito conhecida dos estatsticos e recentemente
popularizada30. A idia da cauda longa se aplica perfeitamente web, cuja estrutura de linkagem
obedece a um padro em que poucos sites so muito conectados enquanto a maioria dos sites
recebe poucos links31. Na contramo dos algoritmos que apostam na maior popularidade dos sites
que concentram maior nmero de inlinks, a hiptese da cauda longa pe em foco justamente o
enorme poder dos pequenos sites, cuja audincia pode, cumulativamente, superar a de um grande
portal.
29
Neste texto, as palavras social e colaborativa so utilizadas indistintamente para denominar as prticas coletivas
de criao de listas de favoritos (social ou collaborative bookmarking) e marcaes (social ou collaborative
tagging).
30
A popularizao atribuda a um artigo de Chris Anderson publicado na revista Wired (The Long Tail) e mais
recentemente em um livro do mesmo autor, The Long Tail: Why the Future of Business is Selling Less of More.
(Hyperion, 2006).
31
Representados em um grfico, os muitos sites pouco conectados formam a referida longa cauda.
A fora da grana
(...) 1998 - Lycos comprou o HotBot 2000 Terra comprou o Lycos 2001 AskJeeves
comprou a Teoma 2002 - Yahoo! comprou a Overture 2003 Yahoo! comprou o
AltaVista 2003 Yahoo! comprou o Alltheweb 2003 Google comprou o Blogger
2004 Google comprou o Picasa 2005 Yahoo! comprou o del.icio.us 2005
AskJeeves comprou o Bloglines 2006 Google comprou o YouTube (...)
Infelizmente, no extremo oposto da cauda longa, bocas vorazes avanam sobre as

esperanas de pluralizao do poder na indstria das buscas. por esta razo que, ao abordar a
internet pelo ponto de vista da economia poltica, van Couvering enxerga na rede a mesma
estrutura que caracteriza o modelo irradiativo dos meios de comunicao de massa:
Pode-se argumentar que a internet no um meio de massa no sentido clssico, que os

milhares ou mesmo milhes de sites visveis na web no so resultado de um processo
industrial de produo e nem representam um substrato comum da vida cotidiana. (...)
Eu sugiro que ao aceitar o argumento de que algum contedo produzido em pequena
escala [e escolher concentrar sua ateno nesse contedo] os acadmicos esto
negligenciando o estudo de um importante novo meio de comunicao de massa. (van
Couvering, 2004)
De fato, o alcance global das ferramentas de busca e sua concentrao nas mos de um
reduzidssimo nmero de empreendedores, majoritariamente estadunidenses, ajudam a configurar
um cenrio extremamente semelhante ao dos grandes imprios miditicos tradicionais32. O
movimento de concentrao das ferramentas de busca nas mos de alguns poucos grupos
acelerou aps o estouro da bolha da internet em 2000 e pode ser observado nas representaes
grficas disponibilizadas por Bruce Clay, Inc. (Figura 1).
32
H que se destacar, entretanto, que no se tratam dos mesmos grandes grupos empresariais da mdia analgica.
Figura 1 - Nas representaes grficas disponibilizadas por Bruce Clay, Inc. possvel visualizar a reduo do
nmero de grupos empreendedores envolvidos com o negcio das buscas na web entre os anos 2000 e 2006.
ADAPTADO DE BRUCE CLAY, INC., 2006.
A concentrao aparece de forma ainda mais intensa quando se passa do nmero geral de
players para as relaes existentes entre os onze principais buscadores identificados em janeiro
de 2007: os resultados de todos provm de apenas quatro fontes: Google, Ask.com, MSN e Yahoo!
(Figura 2)
Figura 2 Relaes entre os buscadores: o Google fornece resultados primrios para Netscape e AOL Search e
fornece resultados pagos para Netscape, AOL Search, iWon, Lycos, Ask.com e HotBot. Ask.com fornece resultados
primrios para Lycos, HotBot e iWon e recebe dados secundrios do Google Yahoo! alimenta AltaVista e Alltheweb
com resultados primrios e com resultados pagos. MSN Search fornece resultados secundrios para HotBot.
ADAPTADO DE BRUCE CLAY, INC., 2007.
Evidentemente h uma variedade de pequenos empreendimentos de busca que no esto

representados nos grficos acima e no so levados em conta nas anlises mercadolgicas de van
Couvering. So ferramentas experimentais ou temticas, em sua maioria operando com bancos de
dados pequenos e muitas vezes incubadas em universidades. No seria indito se algum deles
viesse a tomar a frente da indstria das buscas no futuro isso j aconteceu em ocasies
anteriores, por exemplo com o AltaVista e com o Google. No entanto, a crescente consolidao
do negcio das buscas torna esse tipo de ocorrncia cada vez mais difcil de acontecer. Como o
capital da indstria das buscas provm majoritariamente da publicidade, a sobrevivncia no
mercado atual depende da capacidade de conquistar grandes afluxos de pblico. Os usurios, por
sua vez, tendem a se concentrar nas ferramentas mais conhecidas.
Outros; 8,5
Ask; 2,6
AOL; 6,3
MSN; 9,6
Google; 49,2
Yahoo; 23,8
Figura 3: Porcentagens do total de buscas realizadas por usurios estadunidenses em diferentes buscadores em
novembro de 2006. As buscas restritas ao contedo do site em que o usurio se encontra (buscas internas) no foram
computadas. Google inclui todos os sites da marca Google (Google.com, Google.com.br, Google Images, etc)
Yahoo! inclui todos os sites da marca Yahoo!, (Yahoo.com, Yahoo.com.br ou Yahoo.local) No inclui dados de sites
que pertencem ao Yahoo! como Altavista ou Allteweb. MSN mostra dados de todos os sites da marca MSN, como
MSN Search, mas no do Windows LiveSearch (que corresponderia a cerca de 0,02% do total) AOL inclui todos os
sites da marca AOL. Ask inclui buscas no Ask.com mas no nos demais sites do Ask/IAC (MyWay.com, iWon e My
Search). A categoria Outros inclui todas as buscas realizadas em sites no mencionados acima e no nomeados no
grfico. Nenhum site no nomeado no grfico possui mais que 2,5% do pblico. REPRODUZIDO DE SULLIVAN,
2006.
Incapazes de competir com as grandes no que diz respeito ao tamanho de seus bancos de
dados, as ferramentas pequenas tendem a se especializar, concentrando-se em temas especficos
ou na web dinmica. Conforme uma dessas pequenas ferramentas se destaca, atrai a ateno das
maiores, tornando-se uma aquisio em potencial33 Avanos nesse sentido j esto bastante
consolidados nas ferramentas locais34. Sites colaborativos tambm j comearam a ser adquiridos
pelas grandes empresas de busca35.
Os tentculos dos maiores players no se restringem s outras ferramentas de busca.
Inclusive o Google, originalmente uma alternativa ao modelo de portal, avana na direo da
diversificao de atividades. A pletora hoje oferecida pelo Google to variada que sua grandeza
chega a passar desapercebida pela maioria dos usurios. Para alm das buscas especializadas
33
Como aconteceu, por exemplo, com o portal Civil Engineer (http://www.icivilengineer.com) e Insectclopedia
(http://www.insectclopedia.com), ambos atualmente vinculados ao Google.
34
Por exemplo, os portais franceses trouvez.com (http://www.trouvez.com) e Mozbot (http://www.mozbot.fr) e o
Swissguide (http://www.swissguide.ch) trabalham em parceria com o Google; o Cad (http://www.cade.com.br)
pertence ao Yahoo! e o Terra opera em parceria com Google e Ask.com. O UOL trabalha com o Google desde 2001.
35
Por exemplo o Blogger pelo Google, em 2003; o Del.icio.us e o Flickr pelo Yahoo!, ambos em 2005.
(GoogleFinance, Froogle) inclui servios como Google Checkout, Google Calendar, Google
Talk, Gmail e aplicativos como Google Web Accelerator, Google Earth, Picasa and Google
Desktop. A esta altura, o acmulo das buscas em torno do Google, seus parceiros e subsidirios
aponta para um perfil monopolista que tem conferido empresa a reputao de Microsoft da
internet (Mohney, 2003; Maney, 2005).
Num cenrio altamente desregulamentado, o Google e seus concorrentes mais poderosos
comeam inclusive a ensaiar movimentos de convergncia. Ao final de 2006, Google, Yahoo! e
Microsoft anunciaram uma primeira ao conjunta, com a adoo do Google SiteMaps Protocol
como padro comum s trs empresas. Com essa unificao, os webmasters deixam de ter que
informar separadamente os bancos de dados do Google, Yahoo! e MSN sobre suas pginas,
passando a faz-lo de forma unificada (Mills, 2006). Na prtica, isso integra uma parcela dos
bancos de dados das trs empresas.
merc dos buscadores
Ano aps ano, Google, Yahoo! e MSN figuram entre os dez sites mais visitados em todas
as naes pesquisadas pela Nielsen/Netratings (htpp:/www.nielsen-netratings.com). Mais de 80%
das buscas se concentram sobre essas mesmas empresas. Os usurios, por sua vez, utilizam essas
ferramentas inclusive para navegar at os sites mais conhecidos:
Existem dois tipos de usurios que digitam a URL no sistema de busca ao invs de no
campo de endereos do browser: aqueles suficientemente inexperientes para no
compreender a diferena entre os dois e aqueles que so to experientes que esto
habituados a usar os buscadores como um portal para a internet. (...) No importa se este
comportamento motivado por ignorncia ou destreza, o resultado final o mesmo: o
buscador o ponto focal da experincia online para todos os tipos de usurios da
internet. (Ken Cassar in Nielsen/Netratings, 2006)
Outros dois modos de encontrar os sites, digitando a URL diretamente na barra de

endereos e atravessando os links de um site para outro, so praticados em escala bem mais
modesta. Para a maioria dos usurios, tudo se passa como se a web se restringisse ao contedo
dos bancos de dados dos grandes buscadores. Embora estes tenham dimenses expressivas,
cobrem apenas uma parcela da WWW. Mesmo desconsiderando o contedo privado, estimado
entre quinhentas (Cohen, 2006) a duas mil (Bergman, 2001) vezes maior que a Web indexvel,
Gulli e Signorini calcularam que em 2005 os bancos de dados dos principais buscadores no
cobriam mais que 76,2% da web (Google. O alcance do Yahoo! seria 69,3%, do MSN 61,9% e do
Ask 57,6%) (Gulli e Signorini, 2005, p. 2). As taxas de sobreposio entre os bancos de dados dos
quatro sistemas mais populares tambm significativa (Figura 4):
Figura 4: Representao grfica das porcentagens da web indexvel nos bancos de dados das maiores empresas de
busca, com as respectivas interseces. REPRODUZIDO DE GULLI E SIGNORINI, 2005, p. 2.
Mesmo indexados, muitos sites no chegam jamais a constar entre os resultados das
buscas. Uma das razes para isso a restrio do intervalo que as ferramentas efetivamente
dedicam s consultas: para evitar que o usurio desista da busca e v realiz-la em outro sistema,
aps um certo tempo de acesso a busca interrompida, independente da cobertura da consulta (o
Google inclusive indica tempo dedicado pesquisa junto ao nmero de resultados encontrados)
Essa restrio de tempo perde importncia quando se verifica que, apesar de anunciar
quantidades enormes de resultados para os usurios, os grandes buscadores de fato no
disponibilizam mais que no mximo os mil primeiros. Alm disso, apesar dos algoritmos de
des-clusterizao, mais de uma pgina de um mesmo site por vezes figura entre os resultados
apresentados (Fragoso, 2006).
A maioria dos usurios no chega a perceber o limite de pginas efetivamente exibidas
pelos buscadores, pois concentra sua ateno nos primeiros classificados. Verificaes empricas
indicam que no mais de 10% dos usurios prosseguem para alm da 3 pgina de resultados,
sendo que 62% tendem a selecionar um resultado que figura na primeira pgina (iProspect,
2006). O resultado uma acentuadssima canalizao de trfego em alguns poucos endereos,
convergindo para os que se classificam melhor junto s principais ferramentas de busca.
Finalmente, preciso dizer que os resultados das buscas podem ser bastante inconsistentes:
buscas com os mesmos parmetros realizadas em ocasies diferentes, muitas vezes apresentam
resultados diferentes, sobretudo no Google (Fragoso, 2006). Os usurios, no entanto,
[s]entem-se no controle das buscas; quase todos expressam confiana em suas
habilidades para utilizar os buscadores. Esto felizes com os resultados que encontram;
mais uma vez, quase todos dizem ser bem sucedidos e encontrar o que estavam
procurando. Alm disso, os usurios confiam muito nos sistemas de busca: a grande
maioria declarou que os buscadores so fontes de informao justas e neutras (Fallows,
2006, p. 2)
Evidentemente os sistemas de busca no podem deixar de proceder selees e estabelecer

hierarquias, afinal, esta sua primeira finalidade. verdade que sua operao no representa um
re-aprisionamento do plo da emisso e portanto no compromete a liberdade de expresso na
WWW. preciso estar alerta, entretanto, para o fato de que os buscadores funcionam como
verdadeiros gatekeepers digitais - com o agravante de que operam conforme critrios
cuidadosamente mantidos em sigilo e com objetivos estritamente comerciais. amplamente
sabido que as ferramentas de busca tendem a indexar mais sites dos EUA que dos demais pases
(Thellwall e Vaughan, 2004), misturam resultados pagos e orgnicos, seus algoritmos podem ser
manipulados interna ou externamente, etc. Apesar disso, os usurios confiam candidamente nos
buscadores, garantindo a condio final para que a Web reverta para um modelo de distribuio
verticalizado, cujo funcionamento tende a ser ainda mais centralizado e tendencioso que o dos
meios massivos de comunicao.
Referncias
ANDERSON, C. The Long Tail, Wired Magazine, Issue 12.10, Outubro de 2004. Disponvel
online em http://www.wired.com/wired/archive/12.10/tail.html [14/01/2007]
ARASU, A. et al, Searching the Web. ACM Transactions on Internet Technology, Vol. 1, No.
1, Agosto de 2001, p. 2-43. Disponvel a partir de http://.portal.acm.org [acesso restrito]
[25/12/2006]
BERGMAN, M. K. The Deep Web: Surfacing Hidden Value. The Journal of Electronic
Publishing Volume 7, Issue 1, Agosto de 2001. Disponvel online em
http://www.press.umich.edu/jep/07-01/bergman.html [25/12/2006]
BRIN, S. e L. PAGE, The Anatomy of a Large-Scale Hypertextual Web Search Engine, Seventh
International Conference on World Wide Web, Brisbane, Australia, 1998. Disponvel online
em
BRIN, S. et al, The PageRank Citation Ranking: Bringing Order to the Web Technical Report,
Computer Science Department, Stanford University, 29 de Janeiro de 1998. Disponvel online em
BRUCE CLAY, INC, The Histogram of the Search Engine Relationship Chart, 2006.
Disponvel online em http://www.bruceclay.com/serc_histogram/histogram.htm [10/01/2007]
BRUCE CLAY, INC. The Search Engine Relationship Chart, 2007. Disponvel online em
http://www.bruceclay.com/searchenginerelationshipchart.htm [07/01/2007]
CERN, Software freely available. Disponvel online em
http://www.w3.org/History/1993/WWW/Conditions/,FreeofCharge.html [14/01/2007]
COHEN, L., Internet Tutorials. University at Albany, SUNY. Disponvel online em
http://www.internettutorials.net/ [25/12/2006]
DEUTSCH, P. An Internet archive server server (was about Lisp). Mensagem enviada ao
Newsgroup comp.sys.next em 11 de Setembro de 1990. Disponvel online em
http://groups.google.com/group/comp.archives/msg/a77343f9175b24c3?output=gplain
[26/12/2006]
DEUTSCH, P., A. EMTAGE e B. HEELAN, archie - An Electronic Directory Service for the
Internet, 1990. Disponvel online em http://tecfa.unige.ch/pub/documentation/Internet-
Resources/short-guides/whatis.archie [04/01/2006]
FALLOWS, D. Search Engine Users: Internet searchers are confident, satisfied and trusting but
they are also unaware and nave. Pew Internet & American Life Project, 2005 Disponvel
online em http://www.pewinternet.org/ [10/01/2007]
FRAGOSO, S., Sampling the Web: discussing strategies for the selection of Brazilian websites
for quanti-qualitative analysis. In: M. Consalvo e C. Haythornthwaite (orgs.). AoIR Internet
Research Annual. New York: Peter Lang, 2006, v. 4, p. 195-208
FUTURE NOW INC., What converts search engine traffic: understanding audience, vehicle,
message and perspective to optimize your ROI. 2003. Disponvel em
http://jobfunctions.bnet.com/whitepaper.aspx?&tags=E-business%2FE-
commerce&docid=161804 [acesso restrito]
GRAY, M., Measuring the Growth of the Web : June 1993 to June 1995. MIT Report , 1995.
Disponvel online em http://www.mit.edu/people/mkgray/growth/ [14/01/2007]
GULI, A e A. SIGNORINI, The Indexable Web is more than 11.5 billion pages. International
Conference on the WWW 2005, 10 a 14 de Maio, 2005, Chiba, Japo. Disponvel online a partir
de http://www.cs.uiowa.edu/~asignori/web-size/size-indexable-web.pdf [25/12/2006]
http://dbpubs.stanford.edu:8090/pub/1999-66 [18/06/2005]
http://infolab.stanford.edu/~backrub/google.html [08/06/2005]
IPROSPECT, Inc., Search Engine User Behavior Study, Abril de 2006. Disponvel online em
http://www.iprospect.com [26/12/2006]
KAHLE, B. An Information System for Corporate Users: Wide Area Information Servers, WAIS
Corporate Paper version 3. 8 de Abril de 1991.Verso para MS-Word disponvel em
ftp://think.com in /pub/wais/wais-overview-docs.sit.hqx. [04/01/2007]
KOSTER, M., ALIWEB - Archie-Like Indexing in the Web, First International Conference on
the World-Wide Web, Genebra, Sua, 1994. Disponvel online em http://www.informatik.uni-
stuttgart.de/menschen/sommersn_public/aliweb-paper.html [04/01/2007]
KOSTER, M., ANNOUNCEMENT: ALIWEB (Archie-Like Indexing for the WEB)

Mensagem enviada ao Newsgroup comp.infosystems, 1993. Disponvel online em
http://groups.google.com/group/comp.infosystems.www/msg/4b58ee36a52f21ee?oe=UTF-
8&output=gplain [26/12/2006]
LAWRENCE, S. e L. GILES, Accessibility and Distribution of Information on the Web, Nature,
Vol. 400, pp. 107-109, 1999. Verso reduzida disponvel online em 2003 em
http://wwwmetrics.com [02/01/2007]
MANEY, K. Google: The next Microsoft? Noooo! Cyberspeak, USA Today, 31 de Agosto de
2005. Disponvel online em http://www.usatoday.com/tech/columnist/kevinmaney/2005-08-30-
google-microsoft_x.htm [14/01/2007]
MAULDIN, M.L., Lycos: Design choices in an Internet search service. IEEE Expert, Jan-Fev
1997, p. 8-11. Disponvel em IEEE Expert Online, http://www.fuzine.com/lti/pub/ieee97.html
[10/01/2007]
MILLS, E. Google, Yahoo, Microsoft adopt same Web index tool. CNET News.com, 15 de
Novembro de 2006. Disponvel online em http://www.cnet.com/?tag=hdrgif [02/01/2007]
MOHNEY, D: Is Google the next Microsoft? The Inquirer, 1 de Setembro de 2003. Disponvel
online em http://www.theinquirer.net/default.aspx?article=11305 [14/01/2007]
MURRAY, B., Sizing the Internet: a Cyveillance White Paper, 2000. Disponvel online em
http://www.cyveillance.com [02/01/2007]
MURRAY, R. Search Wars Salvo: Microsoft Launches Live Search, Search Insider Media
Post, 6 de Outubro de 2006. Disponvel online em
http://publications.mediapost.com/index.cfm?fuseaction=Articles.showArticleHomePage&art_ai
d=49199 [14/01/2007]
NIELSEN/NETRATINGS, 2006. Top Search Terms Reveal Web Users Rely On Search Engines
To Navigate Their Way To Common Web Sites. Nielsen/Netratings Press Release, 18 de
Janeiro de 2006. New York,. Disponvel online em http://www.nielsen-netratings.com
[14/01/2007]
PINKERTON, B, .WebCrawler Timeline. Disponvel online em
http://thinkpink.com/bp/WebCrawler/History.html [14/01/2007]
PINKERTON, B. Finding What People Want: Experiences with the WebCrawler, Second
International WWW Conference, Chicago, USA, 1994. Disponvel online em
http://thinkpink.com/bp/WebCrawler/WWW94.html [04/01/2007]
SALIENT MARKETING, History of Search Engines. S.d. Disponvel online a partir de
http://www.salientmarketing.com/seo-resources/search-engine-history.html [03/01/2006]
SELBERG, E. e O. Etzioni, Multi-Service Search and Comparison Using the MetaCrawler -
Fourth International World Wide Web Conference, Boston, USA, 1995. Disponvel online
em http://www.w3.org/Conferences/WWW4/Papers/169/ [05/12/2006]
SONNENREICH, W.e T. MACINTA, A History of Search Engines, Wiley Computer
Publishing, 1998. Disponvel online em
http://www.wiley.com/legacy/compbooks/sonnenreich/history.html [26/12/2006]
SULLIVAN, D. Microsoft's MSN Search To Build Crawler-Based Search Engine,

SearchEngineWatch, 1 de Julho de 2003. Disponvel online em
http://searchenginewatch.com/showPage.html?page=2230291 [14/01/2007]
SULLIVAN, D. MSN Search Officially Switches To Its Own Technology SearchEngineWatch
SearchDay, 1 de Fevereiro de 2005. Disponvel online em
http://searchenginewatch.com/searchday/article.php/3466721 [14/01/2007]
SULLIVAN, D. Nielsen NetRatings Search Engine Ratings. SearchEngineWatch Report, 22 de
Agosto de 2006. Disponvel online em
http://searchenginewatch.com/reports/article.php/2156451 [03/01/2007
THIES, D. The Search Engine Marketing Kit, 2005. Disponvel online em
http://www.sitepoint.com/books/sem1/ [04/01/2007]
YAHOO! MEDIA RELATIONS, 2005, The History of Yahoo! - How It All Started.
Disponvel online em http://docs.yahoo.com/info/pr/index.html [4 jan 2007]

255 836 1 PB PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

255 836 1 PB PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Revista de Economa Poltica de las Tecnologas de la Informacin y Comunicacin

www.eptic.com.br, vol. IX, n. 3, Sep. Dec. /2007

Quem procura, acha?

Jorge Luis Borges, A Biblioteca de Babel

O sculo XX foi o sculo da comunicao de massa, durante o qual a imprensa, o cinema,

Embora os nmeros absolutos obscuream o fato de que apenas uma reduzidssima

Uma breve (e incompleta) histria (comentada) dos buscadores

A necessidade de orientao em meio profuso de material disponibilizado na internet

sucumbiram devido insistncia em comercializ-las. Mesmo assim, de se duvidar que o

implementar um sistema de ranqueamento baseado na relevncia relativa expresso utilizada

documentos, em janeiro de 1995, o catlogo j tinha 1 milho e meio de documentos e em

vrios sistemas de busca. J o MetaCrawler25, que se tornaria mais popular, enfrentava as

Infelizmente, no extremo oposto da cauda longa, bocas vorazes avanam sobre as

Pode-se argumentar que a internet no um meio de massa no sentido clssico, que os

Evidentemente h uma variedade de pequenos empreendimentos de busca que no esto

merc dos buscadores

Outros dois modos de encontrar os sites, digitando a URL diretamente na barra de

Evidentemente os sistemas de busca no podem deixar de proceder selees e estabelecer

KOSTER, M., ANNOUNCEMENT: ALIWEB (Archie-Like Indexing for the WEB)

SULLIVAN, D. Microsoft's MSN Search To Build Crawler-Based Search Engine,

Você também pode gostar