Você está na página 1de 12

DA WEB VISVEL

INVISVEL
REVISO
REVIEW

35

As dobras semiticas do ciberespao:


da web visvel invisvel
The semiotic fold of cyberespace: from
the visible to the invisible web
Silvana Drumond MONTEIRO1
Marcos Vinicius FIDENCIO2

Resumo
Aps a instituio do ciberespao, na dcada de 1990, a Web tornou-se o seu principal constructo e vem dobrando e desdobrando-se em vrios sentidos: Web Invisvel, Web Visvel, Web Semntica, Web Pragmtica, Web Social ou 2.0, entre outras. Em relao
Web Invisvel, de acordo com os autores que escrevem sobre o tema, existe a inquietante questo: que nome dar a esse
(des)territrio? Web Invisvel, Profunda, Oculta, Escura? A partir da compreenso do conceito de dobra, criado por Leibniz e
ressignificado por Deleuze, que explica os agenciamentos maqunicos e a viso pragmtica dos aspectos tcnicos e materiais das
semiticas, fez-se uma prospeco conceitual da Web Invisvel e de alguns mecanismos de busca que fazem a dobra com essa
Web no ciberespao. Para alm da literatura, descobriu-se uma Web verdadeiramente escura, a DarkWeb, paralela e underground
utilizada para o bem e para o mal, como previsvel da espcie humana.
Palavras-chave: Ciberespao. Dobra semitica. Web invisvel. Web visvel.

Abstract
After the institution of cyberspace in the 1990s, the Web has become its main construct and has been folding and unfolding in several
directions: Invisible Web, Visible Web, Semantic Web, Pragmatic Web, Web 2.0 or Social, among others. In particular, the Invisible Web,
according to the authors who write on the subject, there is a disturbing question: what to call this (un)territory? Invisible Web, Deep, Hidden,
Dark? From understanding the concept of fold, created by Leibniz and reframed by Deleuze, which explains the machinic assemblages
and pragmatic view of the technical aspects of semiotics and material, a conceptual exploration of the Invisible Web and of some search
engines was made that make the fold with these webs in cyberspace. Going beyond the literature, a Web truly dark was discovered, DarkWeb,
parallel and underground, used for good and for evil, as expected of the human species.
Keywords: Cyberspace. Semiotics fold. Invisible web. Visible web.

Introduo
A partir da proposta epistemolgica de estudar
os agenciamentos maqunicos na organizao do conhecimento e da informao no ciberespao, uma categorizao dos mecanismos foi elaborada e estudada
1

objetivando comprovar as mltiplas sintaxes de organizao, tendo como aporte terico a heterogeneidade e a multiplicidade dos regimes de signos princpios filosficos do Rizoma (Deleuze; Guattari, 1995)
e as matrizes da linguagem-pensamento (Santaella,
2005).

Professora Doutora, Universidade Estadual de Londrina, Departamento de Cincia da Informao. Rod. Celso Garcia, PR 445, km 380, Campus Universitrio,
86055-900, Londrina, PR, Brasil. Correspondncia para/Correspondence to: S.D. MONTEIRO. E-mail: <silvanadrumond@gmail.com>.
Acadmico, Universidade Estadual de Londrina, Departamento de Cincia da Informao, Curso de Biblioteconomia, Londrina, PR, Brasil.
Recebido em 14/9/2012, e aceito para publicao em 30/11/2012.

TransInformao, Campinas, 25(1):35-46, jan./abr., 2013

Assim, essas hipersintaxes tambm refletem o


momento atual - designado ps-moderno (para alguns),
contemporneo (para outros) -, do qual no temos uma
viso esvaziadora, pois as Tecnologias da Informao e
Comunicao (TIC) so mais que ferramentas, so peas
heterogneas que, conjugadas ou amalgamadas com os
homens, formam determinadas mquinas: mquina
abstrata, mquina social, mquina de guerra etc., para
usar expresses deleuzianas.
Ademais, as mquinas tambm formam a dobra,
conceito com espessura epistmica complexa, criado por
Leibniz e ressignificado por Deleuze (1991), que explica os
agenciamentos maqunicos e a viso pragmtica dos
aspectos tcnicos e materiais das semiticas. A dobra
uma prega que, em latim, significa plica, implicar, e quer
dizer: dobrar, unir; j explicar desdobrar. Seu efeito
que:
A dobra, portanto, cria uma nova relao dentro-fora; uma nova topologia: quando o contato se
realiza, isso equivale ao estabelecimento de
ligaes at ento no concretizadas, apenas
potenciais, entre os componentes dispersos
originais (Oliveira, 2003, p.152, grifos do autor).

O prprio signo uma dobra, pois pode dobrar-se, desdobrar-se e redobrar-se em vrios tipos e semiticas. A dobra do signo instaura mais que o desdobramento
do significante/significado, pois pensar a significao
como ato (filosofia pragmtica) implica pensar o signo
como agenciamento maqunico.

36

Pode-se considerar, tambm, a Web Visvel e Invisvel como partes de uma dobra, com fronteiras difusas,
s vezes ambguas, mas intrinsecamente unidas, sendo a
Web Visvel o (des)dobramento da interioridade da Web
Invisvel. Assim, pode-se inferir ainda que, nos agenciamentos maqunicos, nas conexes com as TIC, as dobras estejam sempre presentes, configurando novas
dimenses, novas topologias e novas possibilidades.

S.D. MONTEIRO & M.V. FIDENCIO

O movimento das semiticas nas TIC produz novas


dobras, tanto dos signos quanto do sentido, uma vez
que no h delimitao entre a estrutura fsica e lgica,
lembrando que a dobra a continuidade do avesso e do
direito, e o sentido se distribui dos dois lados, ao mesmo
tempo, pois o signo im-plica o sentido e o sentido ex-plica o signo (Machado, 2009).
Implicao-explicao e envolvimento-desenvolvimento so atributos do signo, pois O prprio sentido
TransInformao, Campinas, 25(1):35-46, jan./abr., 2013

se confunde com esse desenvolvimento do signo, como


o signo se confunde com o enrolamento do sentido
(Deleuze, 2010, p.84), assim o tambm em relao Web
Visvel/Invisvel no ciberespao.
justamente nessa dobra semitica dos mecanismos de busca que surgem as hibridizaes dos mecanismos, das linguagens e da indexao; surgem
tambm as hipersintaxes e as intersemioses. Alm disso,
ao categorizar os mecanismos de busca, em especial aqueles especializados em Web Invisvel, descobriu-se uma
dobra, uma Web maior, oculta, tambm designada
continente escuro, na qual esses mecanismos fazem a
dobra com a Web Visvel e mostram apenas uma pequena
parte, mas insinuam a grande extenso que o ciberespao.
Se por um lado fcil definir a Web Visvel como
aquela composta de pginas da Web em HyperText Markup
Language (HTML), cujos motores de busca optaram por
inclu-las em seus ndices, a Web Invisvel muito mais
difcil de se definir e de se classificar por vrias razes,
sejam elas tecnolgicas, polticas ou operacionais.
De acordo com os autores que escrevem sobre a
Web Invisvel, existe a inquietante profuso conceitual
sobre a Web: Invisvel, Profunda, Oculta e Escura. Pode-se
considerar todos esses conceitos, de acordo com as
dobras de (in)visibilidade do ciberespao? Segundo
Bergman (2001), mais adequado seria a Web Profunda
(para a Web Invisvel), uma vez que o termo invisvel no
seria correto, pois a invisibilidade apenas uma questo
tecnolgica ou mesmo poltica de indexao dos mecanismos de busca.
J Sherman e Price (2001), na descrio das vrias
camadas da Web, deixam perceber que o termo invisvel
no exatamente o par dicotmico da Web Visvel, mas
apenas a existncia de planos de invisibilidade, como as
desdobras ou texturas do ciberespao.
Relacionou-se, em algum momento, a Web Visvel
com a indexvel, pois explicita bem o olhar e interesse
sobre esse objeto. No tocante a seu par, ou suas dobras, o
artigo intenta desvelar seu campo semntico com mais
vagar. Que nome dar a esse (des)territrio escuro? Web
Profunda, Web Invisvel ou Oculta? Ou todos os nomes?
Dessa forma, para continuar a estudar a Web Visvel,
h a necessidade de desenvolver estudos sobre a Web

Como nada to simples nos objetos contemporneos, outra Web emerge, considerada Dark Web (the
dark side of the cyberspace) ou a invisvel, de fato, posto
que servidores e a navegao feita sob o anonimato fazem
a dobra underground do ciberespao.
Mais que uma questo terminolgica, esses agenciamentos para a Cincia da Informao implicaro pensar a mquina resultante da conjuno de determinado
corpo social e suas semiticas e a organizao em espaos
digitais e, qui, explicaro, em parte, o ciberespao.
A web visvel
A preocupao com a indexao e a localizao
de recursos na Web to antiga quanto o surgimento da
prpria. Nos seus primeiros anos, a informao na Web
era, basicamente, recuperada apenas mediante a memorizao da Universal Resource Locator (URL).
Como mtodo pioneiro de indexar e facilitar a
busca na Web, destacam-se as ferramentas de procura
em repositrios File Transfer Protocol (FTP) e os armazenados nos Gophers, como o Archie (Cendn, 2001).
A evoluo incipiente da quantidade de contedo
fez novas formas de organizao ser construdas, aparecendo ento os diretrios, hoje quase extintos no seu
modelo clssico, que consistiam em ndices de sites indexados manualmente, nos quais novas pginas podiam
ser submetidas, na maioria das vezes, pelos prprios
usurios por meio de critrios especficos.
A indexao manual, contudo, mostrava-se cada
vez mais ineficaz, em face do volume de informao na
Web, e sua consequente necessidade de indexao fez
surgirem os mecanismos/motores de busca ou, simplesmente, buscadores (os pioneiros, HotBot, Altavista e
Northern Light, entre outros), cujos ndices eram e ainda
so feitos por intermdio da indexao mecanizada (robs), com a utilizao de algoritmos matemticos prprios para a localizao e a indexao do contedo
disperso no ciberespao.
A evoluo dos diretrios e mecanismos de busca
significativa, em 2000, o Google (motor de busca) e o

Web Top (hbrido, motor de busca e diretrio) indexavam,


respectivamente, 56% e 50% do contedo total do ciberespao (Cendn, 2001). De toda forma, boa parcela desse
volume continua no indexado, ou seja, permanece
invisvel para a indexao mecanizada.
Nesse sentido, Rajaraman (criador do Kosmix) confessa que os mecanismos de busca indexam uma frao
muito pequena do ciberespao. Eu no sei, para ser honesto, que frao. Ningum tem uma estimativa muito
boa de como grande a Web Profunda. De cinco a cem
vezes maior do que a Web de superfcie a nica estimativa que conheo (Beckett, 2009, p.2).
A informao na Web pode ser categorizada, para
fins de indexao, em suas diretrizes: a parte visvel, ou
seja, pginas que podem ser somadas ao banco de dados
dos buscadores, e a parte invisvel, cujo contedo, por
razes expostas, no pode ser indexado pelos buscadores
tradicionais.
Em 1994, Jill Ellsworth utilizou, pela primeira vez, o
termo Invisible Web para designar o contedo que no
era indexado pelos buscadores (Bergman, 2001). A pesquisa de Bergman (que prefere o termo Web Profunda
Web Invisvel) tambm detectou que o contedo invisvel
na Web, ou a Web Invisvel, era de 400 a 550 vezes maior
do que estava at ento na Web indexvel, com 7.500
terabytes de informao comparado com 19 da Web
indexvel (visvel).
interessante observar que os mecanismos de
busca investem grande soma de recursos para incrementar seus algoritmos de indexao e busca, atuando
em uma plataforma de mltiplas sintaxes e semiticas,
trazendo superfcie arquivos que antes eram considerados no indexveis, bem como gerando padres
semnticos de busca a partir da pragmtica dos leitores.
Vale ressaltar ainda que a Web Visvel vem se especializando em nomenclaturas e prticas distintas, como
Web 2.0 ou Social, Web Semntica, Web Pragmtica, entre
outras em devir no ciberespao.
Com o crescimento da Web, seus limites esto
tornando-se turvos. Beckett (2009) pergunta-se Agora a
Web tudo? Responder a esse questionamento im-plica
em explicar alguns conceitos, alm os pertinentes Web
Invisvel.
TransInformao, Campinas, 25(1):35-46, jan./abr., 2013

37
DA WEB VISVEL INVISVEL

Profunda, como uma dobra semitica (ou vrias) que


compe o ciberespao e, especialmente, os buscadores
especficos nesse setor.

Se em certo sentido sim, conceitualmente no, a


Web no tudo, mas o principal constructo (dobra) do
ciberespao e vem crescendo a passos largos.
Ela pode ser definida como a interface de convergncia entre as linguagens e a interoperabilidade
necessria para efetuao das trocas simblicas. J o
ciberespao um espao semntico/semitico, onde o
signo se d em vrias semiticas, desterritorializado,
nmade, em escrita espacializada e com a memria em
constante modificao. Se a Internet a rede mundial de
computadores, base tcnica do ciberespao, este a rede
de signos e pessoas.
A web invisvel
A Web Invisvel nasce juntamente com a tecnologia de banco de dados no ciberespao, posteriormente
com a incluso do e-commerce e, por ltimo, com a
adaptao dos servidores para permitir a visualizao de
informaes por meio da gerao de pginas dinmicas.
Buscando uma definio de partida, Sherman e
Price (2001, p.57, traduo nossa3) a definem como:
Pginas de textos, arquivos, muitas vezes de alta
qualidade e com autoridade informacional disponveis na World Wide Web cujos motores de
buscas gerais no podem, devido a limitaes
tcnicas, ou no querem, por escolha deliberada,
adicionar aos seus ndices de pginas Web. s
vezes tambm referida como Web Profunda
ou material escuro.

- 95% da Web Profunda gratuita, acessvel ao


pblico mediante assinaturas (Bergman, 2001,
p.2).

Sherman e Price (2001), referindo-se ao relatrio


Bright Planet, afirmam que Bergman incluiu, em seu estudo, informaes efmeras, como sites de informaes
sobre o tempo, entre outros. Excluindo essas bases de
dados e outras do gnero, estimam que a Web Invisvel
seja entre 2 e 50 vezes maior que a Web Visvel.
Para ilustrar a indexao realizada pelos mecanismos gerais e especficos em Web Profunda, Bergman
(2001) apresenta uma ilustrao clssica (Figura 1).
Antes de se considerar as camadas de invisibilidade ou as dobras da Web Visvel, elencar-se alguns
motivos pelos quais o contedo do ciberespao no
plenamente indexvel.
O primeiro motivo por questes tcnicas ou
deliberadas; o segundo, por polticas de excluso ou
impossibilidade tecnolgica. Algumas consideraes a
respeito de cada diretriz so tecidas baseadas no exposto
por Sherman e Price (2001) e Branski (2004).
Questes tcnicas deliberadas
Os motores de busca alimentam seus ndices
atravs dos Spiders, Crawlers, ou Robots, termos cujo

SURFACE
WEB

Bergman, em um relatrio de 2001, afirma que a


Web Profunda imensurvel e, no seu estudo, realizado
entre 13 a 30 de maro de 2000, apresentou alguns resultados interessantes, a saber:
38

- a Web Profunda a maior categoria crescente


de informaes no ciberespao;

THE

- existem mais de 200.000 sites profundos;

DEEP
WEB

S.D. MONTEIRO & M.V. FIDENCIO

- o contedo da Web Profunda de alta qualidade;


- a qualidade do contedo total da Web Profunda de 1.000 a 2.000 vezes maior que a
Web de superfcie;
- mais da metade do contedo da Web Profunda
reside em base de dados especializadas;
3

Figura 1. Harvesting the Deep and Surface Web with a Directed


Query Engine.
Fonte: Bergman (2001, p.6).

Text pages, files, or other often high-quality authoritative information available via the World Wide Web that generalpurpose search engines cannot, due to technical
limitations, or will not, due to deliberate choice, add to their indices of Web pages. Sometimes also referred to as the Deep Web or dark matter.

TransInformao, Campinas, 25(1):35-46, jan./abr., 2013

As instrues esto nos arquivos robots.txt em


operao com o Robots Exclusion Protocol, arquivo preparado pelo mantenedor de determinado site especialmente para informar os robs sobre a no indexao
de determinada pgina/recurso aos ndices dos mecanismos.
Essa informao lgica interpretada pelo rob
como a atribuio de instrues especficas mediante o
que programado aps as linhas User-agent e Disallow
dentro do arquivo robots.txt. A lgica simples: aps
User-agent, se houver asterisco, a instruo serve para
qualquer mecanismo de busca, contudo, se houver
alguma especificao, por exemplo, googlebot, o
robots.txt ser aplicado apenas para o Google. J a linha
Disallow instrui o rob de que tudo o que estiver depois
da barra inclinada no poder ser indexado: o webmaster,
ento, poder tornar parcial ou totalmente invisvel determinado site <http://robotstxt.org/robotstxt.html>. Essa
situao pode ser observada no Quadro 1.
H tambm a possibilidade de restringir um site
aos robs com a metatag noindex, colocada no cabealho
de pginas HTML. Seu funcionamento bastante simples:
<html>
<head>
<title>...</title>

<META

NAME=ROBOTS

CONTENT=NOINDEX,

NOFOLLOW>

</head>

O campo meta name indica para quem destina a


instruo (nesse caso, para os robs), enquanto content
a tag com a instruo especfica, seguida, aps a vrgula,
com nofollow, que instrui os robs a no analisar o site
em questo.
H algumas complicaes com a utilizao da
metatag noindex. A The Web Robots Page, pgina dedicada aos robs desde 1995, aponta duas complicaes
principais:
1) os robs podem ignorar a metatag noindex,
principalmente aqueles que trabalham como malware,
alm de spams que varrem a rede procurando endereos
de e-mails;
2) a instruo nofollow s se aplica pgina em
questo. possvel que um rob encontre algum link de
entrada para a pgina instruo de impedimento.
Outra forma de excluso de determinada pgina
do campo da visibilidade tem relao com a forma de
disponibilidade de informao. Sites cujos contedos so
acessados por meio de senhas enquadram-se nessa
situao, como tambm as pginas cuja natureza do contedo exige privacidade.
Excluso por poltica ou por limitao tecnolgica
Essas questes tm grande conexo com o formato de apresentao da informao, que impossibilita
a leitura do contedo pelos robs e, consequentemente,
a indexao. Os mecanismos de busca tm uma sria
dificuldade em indexar materiais no verbais ou que no

Quadro 1. O arquivo robots.txt.


www.site.com.br.html

www.site.com.br/videos.hmtl

www.site.com.br/noticias.html www.site.com.br/esportes.html

Instruo cumulativa

Instruo cumulativa

Instruo cumulativa

Contedo invisvel

Contedo invisvel

Contedo invisvel

Arquivo robots.txt (sempre na raiz


do servidor)
User-agent:
Disallow:/
Contedo invisvel

TransInformao, Campinas, 25(1):35-46, jan./abr., 2013

39
DA WEB VISVEL INVISVEL

significado refere-se a robs que efetuam uma varredura


procura de novas pginas na Web. Tais robs trabalham
com lgicas prprias que, por motivos comerciais, nem
sempre esto acessveis, embora sua funo bsica seja
pesquisar, relacionar, adentrar diretrios e subdiretrios
na Web e som-los aos ndices dos buscadores para os
quais operam. Leem linguagens e instrues, as quais
podem ser escritas exclusivamente para eles nos sites, no
momento de sua construo.

esto em Hypertext Markup Language (HTML), e a maioria


deles no consegue indexar os seguintes tipos (Sherman;
Price, 2001, p.58):
- PDF ou Postscript (exceto o Google);
- Flash;
- Shockwave;
- Programas executveis;
- Material comprimido.

Em todos os casos, a informao encontra-se


comprimida dentro de um formato de arquivo ou extenso (respectivamente, de acordo com os itens supracitados, .pdf, .ps, .flv, .swf, .exe/deb/bat etc, .zip/t.ar.gz/.rar
etc.).
A dificuldade como um rob poder ler e indexar
a informao comprimida em um formato no verbal.
No caso de PDF, o Google um dos nicos que conseguem
estender seus robs para efetuar a leitura do arquivo
formatado, contudo, ler e interpretar multimdia como
os arquivos de vdeo (Flash, Shockwave e outros) no
tarefa tecnologicamente fcil.
Alguns buscadores da Web Invisvel dedicam-se a
buscar informaes desses tipos.
A web invisvel: alguns apontamentos conceituais
Que nome dar a esse (des)territrio escuro? Web
Profunda, Web Invisvel ou Oculta? Arajo (2001) questiona-se: invisvel ou oculta? Para o autor, o termo invisvel
parece ser inadequado por denotar algo completamente
inacessvel, fora de alcance, o que no totalmente verdadeiro, pois basta que se saiba uma ferramenta de busca
especializada ou mesmo a URL para ter acesso a esses
contedos. Nesse sentido, o termo oculta seria mais
apropriado.
40

S.D. MONTEIRO & M.V. FIDENCIO

H, de fato, uma parcela que permanece invisvel


aos mecanismos de busca. Essa parcela da Web composta por banco de dados aos quais o acesso possvel
por meio de pagamento e/ou inscrio, pois Por serem
guardados em diretrios protegidos por senha, eles se
encontram fora do alcance dos motores de busca (Arajo,
2001, online).
J o termo Web Profunda, de certa forma, tambm
est relacionado a uma limitao de muitos motores de
busca; o fato de eles no varrerem todo o contedo de
um site, pois:
TransInformao, Campinas, 25(1):35-46, jan./abr., 2013

Como dito anteriormente, os textos da Web


costumam estar armazenados em diretrios de
modo bastante semelhante forma como guardamos textos em pastas em nossos PC. Uma pasta
(diretrio) pode conter outras pastas e assim por
diante em uma relao de incluso que pode
alcanar vrios nveis de profundidade. O fato
relevante que os motores de busca nem sempre so programados para fazer uma pesquisa
em profundidade nos servidores da Web e param
em determinado nvel. O que estiver alm dele
no ser encontrado nem indexado e, portanto,
estar fora de alcance para o usurio (Arajo, 2001,
online).

Pode-se deduzir, ento, de acordo com Arajo


(2001), que essas trs realidades coexistem: invisvel, oculta
e profunda. Esta ltima seria a Web Opaca, de acordo
com Sherman e Price (2001). Ainda, segundo Sherman e
Price (2001), esse o paradoxo da Web Invisvel, pois
fcil compreender sua existncia, mas difcil defini-la
concretamente com termos especficos.
A literatura sobre o assunto, via de regra, internacional, ademais h uma discusso sobre a terminologia
mais adequada. Em respeito s tradues, usou-se a
terminologia empregada por seus respectivos autores,
em algumas citaes, mesmo sendo estas parafraseadas.
Traar uma linha entre a Web Visvel e a Invisvel
no to simples assim e, mais uma vez, o conceito da
dobra reaparece, posto que os buscadores podem trazer
superfcie alguns contedos.
Para Sherman e Price (2001) no existe uma classificao dicotmica entre visvel e invisvel, mas camadas, gradaes de invisibilidade e acesso aos contedos
no ciberespao. Nesse sentido, apresentam quatro tipos
de invisibilidade, comeam com a opaca, relativamente
acessvel aos mecanismos, at chegarem verdadeiramente invisvel (Figura 2). Dito de outro modo, os motivos
pelos quais os mecanismos no podem ver o contedo
profundo, que so: a Web Opaca; Web Privada; a Web Proprietria e; a Web realmente Invisvel.
Sherman e Price (2001) afirmam que essa classificao diz menos respeito s distines rpidas e complexas e mais ao limite amorfo da Web que, de todo modo,
torna sua definio difcil, a no ser, para ns, pela aproximao de conceito de dobra semitica.

41

Web
Opaca

Profundidade
do
rasteador

Web
Privada

Pginas que
exigem
senhas

URL
desconectadas

robots.txt

Visualizao
mxima
atingida

metatag
NOINDEX

Web
Proprietria

Assinatura ou
login
requerido

Acesso
mediante
pagamento
de taxa

Frequncia
do
rastreador

Web
verdadeiramente
Invisvel

Dark Web

Restries
tecnolgicas

Pginas
dinmicas

Informaes
armazenadas em
bancos de dados

Figura 2. As vrias Web.


Fonte: Adaptado de Ford e Mansourian (2006, p.585).

Web opaca
A Web Opaca compe-se de sites que misturam
arquivos e mdias, dentre os quais alguns so facilmente
indexveis e outros so incompreensveis aos rastreadores.
Por isso mesmo, pela dificuldade em classificar esses sites
em Web Visvel ou Invisvel, so designados como Web
Opaca. Alm disso, segundo Sherman e Price (2001), h
outros motivos de cunho tecnolgico para a existncia
dela, ou seja, arquivos que podem ser, mas no so includos nos ndices dos mecanismos de busca, por vrias
razes, a saber:

em resposta a uma pergunta, o mecanismo de busca


retorna um nmero limite de resultados visveis. As
pginas que os algoritmos no incluram, em ordem de
relevncia, tornam-se irrecuperveis para aquela query
em especial. Esse tipo de limitao cada vez menos
comum. Na maioria das vezes, os mecanismos mostram
a quantidade de pginas recuperadas e, de toda forma,
algumas cifras mostram a impossibilidade de percorrer
at a ltima delas. Uma rpida pesquisa por USA no
Google tem uma revocao prxima de 5 bilhes de
resultados;

a) profundidade do rastreador (crawler): reduzir a


profundidade ajuda a reduzir os custos de indexao. No
passado, era comum trazer apenas pginas exemplares
de um site como citao de (boa) representao de sua
existncia. Apesar de os mecanismos no revelarem sua
profundidade de rastreamento, h uma tendncia para
rastrear mais profundamente e indexar mais pginas;

c) frequncia do rastreador: pode ocultar pginas


da Web Visvel por algum tempo. Por isso importante
que a frequncia seja eficiente, especialmente em sites
que j foram indexados, devido a sua idade mdia;
Sherman e Price (2001) explicam: depois de dois anos,
um site at pode ter o mesmo nmero de URL, mas apenas
a metade das pginas originais permanecem, as demais
so novas;

b)nmero mximo de resultados visveis: quando


o nmero mximo de pginas visualizveis for atingido,

d) URL desconectadas ou pginas que no tm


links: isso ocorre porque existem duas formas bsicas
TransInformao, Campinas, 25(1):35-46, jan./abr., 2013

DA WEB VISVEL INVISVEL

Web Invisvel

para indexar o contedo da Web: ou o autor envia um


pedido de submisso a um mecanismo ou o rob
descobre por si prprio. Para que o segundo seja possvel,
necessrio que outras pginas, j indexadas, apontem
para a nova e, dessa forma, quando o rob visitar uma
pgina indexada verificar a existncia de um novo link e,
consequen-temente, a acrescentar em seus ndices
(Sherman; Price, 2001).

A web verdadeiramente invisvel

A web privada

1) formatos de arquivos como o PDF, Postscript,


Flash, Shocwave, programas executveis e arquivos comprimidos;

A Web Privada consiste em pginas que so deliberadamente excludas dos mecanismos, ou seja, o contedo possui restrio deliberada pelos mantenedores,
por trs motivos:
1) pginas protegidas por password: o contedo
s acessvel para associados ou pessoas que tenham
algum tipo de senha. A maioria dos fruns de discusso
se inclui nesse quesito e, mais recentemente, as redes
sociais;
2) o uso de no index: impede que o rob indexe a
pgina;
3) o uso de arquivos robots.txt para impedir o
acesso de buscadores na pgina.
A diferena entre no index e robots.txt basicamente a abrangncia do limite de proibio da indexao. Enquanto o primeiro restringe o rastreamento
de pginas, o segundo pode proibir a visita de um buscador no site inteiro, mediante uma lista de arquivos ou
partes chamada robots.txt.
A web proprietria
42

S.D. MONTEIRO & M.V. FIDENCIO

Trata-se de contedo indexvel, entretanto, restrito


por ser propriedade de seus mantenedores (instituies
e rgos, entre outros), acessvel mediante registro, em
muitos casos gratuitos, assinatura e/ou pagamento de
taxas.
Portais de contedo cuja visualizao realizada
mediante assinatura enquadram-se nessa parcela da Web
Invisvel. A visualizao geralmente feita por meio de
um nome de usurio e senha fornecidos para o assinante,
o que lhe garante o direito de ter acesso informao
proprietria.
TransInformao, Campinas, 25(1):35-46, jan./abr., 2013

Pode ser caracterizada por quatro motivos, de


acordo com Sherman e Price (2001), embora admitam
que os mecanismos sempre esto desenvolvendo seus
algoritmos e adaptando mtodos para indexar novos
tipos de formatos, o que torna essa caracterizao fluida.
Seguem os quatro motivos que caracterizam a Web Invisvel.

2) poltica de excluso dos mecanismos, uma vez


que alguns arquivos podem ser indexados, mas no o
so, como os formatos PDF;
3) pginas dinmicas que so geradas mediante
solicitao ou consultas;
4) informaes armazenadas em banco de dados.
Como o livro The Invisible Web foi publicado em
2001, os arquivos em formato PDF no eram indexados
pela falta de estrutura de metadados nos documentos
armazenados nas Intranets, embora, poca, o Google j
o fizesse.
Especialmente as imagens e vdeos com pouco
ou nenhum texto constituem outro tipo de linguagem
para a Web Invisvel. Eles podem ser includos (uma dcada
depois j so), entretanto, por fornecerem pouca pista
sobre o seu assunto, os mecanismos hbridos trazem
superfcie resultados com problemas intersemiticos, isto
, de traduo, embora os desenvolvedores estejam
trabalhando para superar essas limitaes.
Dark web: o continente (verdadeiramente)
escuro do ciberespao
Outra forma de invisibilidade foi criada por um
projeto ambicioso, como tese, em 2000, de autoria de Ian
Clarke, ento estudante da Edinburgh University, cujo
resultado foi a criao do programa FreeNet (Becket, 2009).
O FreeNet foi criado pensado na liberdade de
expresso e de contedo, como o prottipo perfeito de
informao livre e sem restries - principalmente judi-

Tambm chamada Dark Net, Web Invisvel e espao


de endereo escuro (embora no sejam exatamente
sinnimos), essas metforas servem para ilustrar e reforar
o carter realmente invisvel dessa modalidade da Web e
significam, de certo modo, [...] para alm dos limites da
vida da maioria das pessoas online [...] ignorada pela mdia
e bem compreendida por apenas alguns cientistas da
computao (Beckett, 2009, p.3).
Iniciativa semelhante ocorreu com a criao do
programa The Onion Router (Thor), um projeto voluntrio

para aqueles que procuram trfego de informao


annima na Internet (Beckett, 2009). O desenvolvimento
inicial do Thor era para o Laboratrio de Pesquisa Naval
Americano, para proteger a comunicao governamental.
Hoje, o Thor pode ser utilizado por qualquer pessoa,
embora essa liberdade tenha causado problemas legais,
como aponta Beckett (2009).
Na prtica, como funciona o Thor? Com seu uso, o
roteamento de pacotes randmico e a informao
encriptografada, ou seja, perde-se a identidade do
solicitante.
Atravs do Thor, surgiu uma iniciativa de construo de sites utilizando o sufixo onion. Todo site que possui
tal sufixo inacessvel e ilegvel a qualquer navegador
Web normal, sendo exclusivo dos usurios da rede Thor.
Os motivos de permanecerem praticamente na total invisibilidade, na maioria das vezes, referem-se ao fato de seu
contedo ser judicialmente ilegal.

Quadro 2. As dobras semnticas da Web Visvel/Invisvel.


Significado

Conceito

Conceito

Parte da Web Visvel, ou seja, pginas que podem ser somadas ao banco de dados
dos buscadores.

Web Visvel
Sherman e Price (2001)

Web de superfcie
Bergman (2001)

Pginas de textos, arquivos (muitas vezes de alta qualidade e com autoridade


informacional) disponveis na Web, os quais os motores de buscas no podem, devido a limitaes tcnicas, ou no querem, por escolha deliberada, adicionar aos ndices de pginas Web.

Web Invisvel
Sherman e Price (2001)

Web Profunda
Arajo (2001)
Bergman (2001)

A Web Opaca consiste em sites que misturam arquivos e mdias, dentre os quais
alguns so facilmente indexveis e outros so incompreensveis aos rastreadores. A
profundidade, a frequncia do rastreador e as pginas desconectadas (URL) podem
ser motivos da opacidade de pginas na Web.

Web Opaca
Sherman e Price (2001)

Web Oculta
Arajo (2001)

A Web Privada consiste em pginas deliberadamente excludas dos mecanismos


pelo mantenedor (protegidas por password, noindex ou robots.txt).

Web Privada
Sherman e Price (2001)

A Web Proprietria diz respeito ao contedo indexvel, mas restrito por ser propriedade de seus mantenedores (instituies e rgos, entre outros), acessvel mediante registro, em muitos casos gratuitos, assinatura e/ou pagamento de taxas.

Web Proprietria
Sherman e Price (2001)

Algo que aparentemente est completamente inacessvel, mas, mediante o uso de


uma ferramenta, possvel localizar. Melhor seria, portanto, dizer que existe significativa parte da Web Oculta para os motores de busca mais populares.

Web Oculta
Arajo (2001)

Rede global de usurios e computadores que operam margem da visibilidade e


das agncias fiscalizadoras, com contedos intencionalmente escondidos e protocolos de comunicao inacessveis para um sistema sem configurao correta.

Dark Web
Web Invisvel, espao de
(Sem autoria determinada) endereo escuro, espao
de endereo sujo
Beckett (2009)

A Dark Net o conjunto de redes e tecnologias utilizadas para compartilhar contedo


digital, como peer-to-peer de compartilhamento de arquivos, CD e DVD. A Dark Net
no uma rede independente, mas uma camada de aplicao e protocolo montados
em redes fsicas j existentes.

Dark Net
Biddle et al. (2002)

Web Profunda
Bergman (2001)
Web Opaca
Sherman e Price (2001)

TransInformao, Campinas, 25(1):35-46, jan./abr., 2013

43
DA WEB VISVEL INVISVEL

ciais -, para seus usurios. Um usurio do FreeNet compartilha, ao participar da rede, uma parcela do seu disco
rgido para armazenar informaes criptografadas que
ele mesmo jamais saber do que se trata. Basicamente, o
FreeNet uma Internet paralela dentro da prpria Internet,
para usurios que querem privacidade sem rastreabilidade.

A Dark Web ilustra bem a tenso entre a privacidade e a publicidade; a liberdade de expresso e at
valores maniquesta do bem e do mal, arqutipos humanos ressignificados ou virtualizados no ciberespao.
Embora o Freenet tenha sido pensado para uma Dark Net,
ou seja, rede para compartilhamento de contedos e
arquivos livres na Web (Biddle et al., 2002) seu uso tem
sido feito, em grande parte, por criminosos, para a pedofilia, trfico e satanismos.
Para efeito de sntese, o Quadro 2 apresenta uma
comparao entre os conceitos da Web Visvel/Invisvel,
de acordo com os autores (indicados no quadro), para
estabelecer as relaes entre eles.

Descobrindo a web invisvel: mecanismos


de busca especializados
Se a Web a dobra semitica do ciberespao, este,
por sua vez, apresenta mquinas dentro de mquinas.
Assim, os mecanismos de busca so as redobras, trazendo visibilidade a Web Invisvel.
Esses buscadores da Web Invisvel so especficos
e acessam uma variedade de interfaces (Sherman; Price,
2001). A Figura 3 apresenta alguns mecanismos de busca
da Web Invisvel e suas principais caractersticas de funcionamento.
Infomine: um buscador desenvolvido por bibliotecrios da Universidade da Califrnia. Indexa livros e
peridicos eletrnicos, boletins, listas de discusses, catlogos de bibliotecas e diretrios de pesquisadores, entre

44

S.D. MONTEIRO & M.V. FIDENCIO

Mecanismo de busca
(Web invisvel)

Figura 3. Mecanismos de busca da Web Invisvel.


Fonte: Elaborada pelos autores.

TransInformao, Campinas, 25(1):35-46, jan./abr., 2013

outros tipos de informaes similares. A pgina inicial do


buscador aceita pesquisas livres e a possibilidade de
percorrer por reas do conhecimento (ou diretrios)
<http://infomine.ucr.edu/>.
Internet Archive: seu propsito ser uma grande
biblioteca do ciberespao para acesso de pesquisadores,
historiadores e o pblico interessado em seu contedo.
O Internet Archive faz a indexao de pginas antigas de
sites que no mais existem ou foram atualizados. O projeto
teve incio em 1996, em So Francisco, e ilustra o interessante estatuto da memria no ciberespao, em constante
modificao <http://www.archive.org/>.
Hakia: os mantenedores do Hakia o denominam
semntico, por ser um buscador que procura resolver os
problemas morfolgicos da lngua. Oferece para a compra
dois outros mecanismos otimizados para negcios e
informaes aeroespaciais, ao que tudo indica, relacionando termos polissmicos s reas especializadas
em questo. O interessante que seus resultados de busca
so separados por Deep Web, Surface Web e Regular Web
<http://www.hakia.com/>.
DeepDyve: a busca nos ndices do DeepDyve livre,
contudo o acesso aos documentos recuperados faz-se
mediante pagamento. A associao a esse buscador tem
um perodo bastante limitado, at 14 dias. Indexa qualquer tipo de informao textual, inclusive grande quantidade de informao tambm visvel para os mecanismos tradicionais <http://www.deepdyve.com/>.
Complete Planet: desenvolvido pelos mantenedores site BrightPlanet <www.brightplanet.com>, de
Michael Bergman, permite a busca de arquivos invisveis
de todos os tipos, seja por busca simples, avanada ou
diretrios.
Biznar: a empresa criadora do BizNar (Deep
WebTechnologies) tambm possui mais buscadores com
o intuito de indexar outros tipos de informao no ligadas ao mundo dos negcios. O que faz do BizNar muito
til so suas relaes semnticas que eliminam boa parte
da polissemia dos buscadores tradicionais, ligando qualquer palavra-chave aos negcios. Alm disso, quando o
mecanismo finaliza a busca, ele mostra categorias dentro
do mundo dos negcios em que o tpico pesquisado
mais apareceu, os Result Topics, como, por exemplo,

Family Search: uma das maiores e mais completas bases genealgicas disponveis no ciberespao. O
Family Search forma seus ndices com censos de vrias
pocas, listas telefnicas e at mesmo listas de obiturios
de todo o mundo. Traz dados de nascimento, morte, residncia, telefone, data de casamento, filiao e at mesmo
o nome do navio em que a pessoa imigrou no caso de
no ser nativo de determinada regio/pas <https://
www.familysearch.org/>.
Metabuscadores da Web Invisvel: (ou metamotores) so mecanismos que utilizam os ndices de vrios
buscadores para responder uma query. Essas ferramentas
no possuem nenhuma base de dados, utilizando exclusivamente dados de outras ferramentas de busca (Cendn,
2001). No caso de metabuscadores da Web Invisvel, o
funcionamento basicamente o mesmo: uma interface
tratar de buscar nos ndices de buscadores de contedo
invisvel.
Turbo10: agrega uma variedade de fontes e o
acesso exclusivo para assinantes. O Turbo10 prefere usar
o termo deep net a outros para designar o contedo
invisvel, pois, segundo Hamilton (2003, online, traduo
nossa4):
[...] o Turbo10, no entanto, prefere usar o termo
Deep Net porque algumas dessas fontes de
informao no so baseadas na Web (por exemplo, redes par-a-par) e os contedos dessas bases
no esto escondidos ou invisveis para os metamotores de busca. O desafio para um metamotor
de busca comercial so, primeiro, conectar-se a
essas fontes da Deep Net; segundo, selecionar o
que mais relevante; terceiro, retornar resultados relevantes o mais rpido possvel.

Consideraes Finais
Muita coisa j mudou desde que os primeiros
artigos a respeito da Web Invisvel foram escritos e parcela
de informao invisvel tornou-se visvel, novos mtodos
de invisibilidade, como o FreeNet e Onion, foram criados.
4

Na tona dessas discusses, atualmente, est o site WikiLeaks


e suas transgresses ticas, pauta de reflexes a respeito
do aspecto pblico e privado das informaes que
circulam na Web Invisvel e as complexidades dos objetos
virtuais e simblicos da sociedade contempornea.
Boa parte das dificuldades, contudo, ainda ligada
forma de indexar o contedo no verbal e s questes
legais. Muitas informaes, que na dcada passada eram
invisveis, j foram implementadas nos buscadores tradicionais, o que demonstra que a evoluo tecnolgica
uma forma de trazer maior quantidade de contedo invisvel para o campo da visibilidade. o caso das informaes a respeito de temperatura (fornecidas mediante
a estratgia temperatura + local em buscadores como
Yahoo! e Google) e informaes geoespaciais ou geopolticas de locais j cartografados (Google Maps,
DuckDuckGo).
Os recursos da chamada Web 2.0 tambm ajudam
na procura de informaes invisveis. Um sujeito pesquisador pode utilizar servios de perguntas e respostas
para buscar questes j formuladas idnticas s suas e
encontrar o que procura. Exemplos desses tipos so as
redes sociais e o Yahoo Answers, este ltimo, em especial,
com vrias perguntas do tipo como eu acho, como
encontro.
Um pouco de familiaridade com os mecanismos
tradicionais tambm pode ser um mtodo de busca, query
como site: <www.site_que_quero_encontrar_algo
palavra-chave> buscar nos ndices apenas do site especificado na maioria dos buscadores, o que muito til
em sites que no fornecem campos de busca.
A evoluo desse tipo de estratgia muito estimulante e muitos mecanismos fornecem uma interface
grfica para esse tipo de busca custom search, podendo
ser implementados dentro do prprio site pelo webmaster.
Enfim, os mecanismos de busca so considerados
o ponto dobra no ciberespao, mquina dentro de mquina, desdobrando a Web Invisvel para a Visvel, a localizao de uma na outra, em um continuum semitico
que o ciberespao.

Turbo10, however, prefers to use the term Deep Net because some of these information sources are not web-based (e.g., peer to peer networks) and the contents
of these databases are not hidden or invisible to metasearch engines. The challenges for a commercial metasearch engine are, first, to connect to these Deep Net
sources, second, to select the most relevant, and third, to return relevant results as fast as possible.

TransInformao, Campinas, 25(1):35-46, jan./abr., 2013

45
DA WEB VISVEL INVISVEL

Marketing, Publicidade & Propaganda etc. <http://biznar.


com/biznar/search.html>.

Referncias
DELEUZE, G.; GUATTARI, F. Mil plats: capitalismo e esquizofrenia. So Paulo: Editora 34, 1995.

ARAJO, J.P. Invisvel, oculta ou profunda?: a web que poucas


ferramentas enxergam. 2001. Disponvel em: <http://www.
comunicar.pro.br/artigos/weboculta.htm>. Acesso em: 21
jun. 2012.

DELEUZE, G. Proust e os signos. 2.ed. Rio de Janeiro: Forense


Universitria, 2010.

BECKETT, A. The dark side of the internet. 2009. Available from:


<http://www.guardian.co.uk/technology/2009/nov/26/darkside-internet-freenet>. Cited: 21 Dec. 2011.

FORD, N.; MANSOURIAN, Y. The invisible web: na empirical


study of cognitive invisibility. Journal of Documentation, v.62,
n.5, p.584-596, 2006.

BERGMAN, M.K. White paper: the deep we surfacing hidden


value. Journal of Eletronic Publishing, v.7, n.1, 2001. Available
from: <http://dx.doi.org/10.3998/3336451.0007.104>. Cited:
23 Sept. 2011.

HAMILTON, N. The mechanics of a deep net metasearch engine.


2003. Available from: <http://www2003.org/cdrom/papers/
poster/p170/poster/poster.html>. Cited: 21 Dec. 2011.

BIDDLE, P. et al. The darknet and the future of content distribution.


2002. Available from: <http://msl1.mit.edu/ESD10/docs/
darknet5.pdf>. Cited: 16 July. 2012.
BRANSKI, R.M. Recuperao da informao na web. Perspectivas em Cincia da Informao, v.9, n.1, p.70-87, 2004.
CENDN, B.V. Ferramentas de busca na web. Cincia da Informao, v.30, n.1, p. 39-49, 2001.
DELEUZE, G. A dobra: Leibniz e o barroco. Campinas: Papirus,
1991.

46

S.D. MONTEIRO & M.V. FIDENCIO

TransInformao, Campinas, 25(1):35-46, jan./abr., 2013

MACHADO, R. Deleuze, a arte e a filosofia. Rio de Janeiro: Jorge


Zahar, 2009.
OLIVEIRA, L.A. Biontes, biides e borgues. In: NOVAES, A. O
homem-mquina: a cincia manipula o corpo. So Paulo:
Companhia das Letras, 2003. p.139-174.
SANTAELLA, L. As matrizes da linguagem e pensamento: sonora,
visual e verbal. So Paulo: FAPESP, 2005.
SHERMAN, C.; PRICE, G. The invisible web: uncovering
information sources: search engines cant see. Medford:
Cyberage Books, 2001.