Você está na página 1de 60

C.E.S.A.

R - CENTRO DE ESTUDOS E SISTEMAS AVANÇADOS DO RECIFE

PRISCILA NAVARRO PEIXOTO DE OLIVEIRA

OS BENEFÍCIOS OCULTOS DA CAMADA MAIS PROFUNDA DA WEB

RECIFE, 2012

ii

C.E.S.A.R – CENTRO DE ESTUDOS E SISTEMAS AVANÇADOS DO RECIFE

OS BENEFÍCIOS OCULTOS DA CAMADA MAIS PROFUNDA DA WEB

Monografia apresentada ao programa de Especialização de Segurança em Engenharia de Software do Centro de Estudos e Sistemas Avançados do Recife – C.E.S.A.R, como requisito para a obtenção do título de Especialista em Engenharia de Software com ênfase em Segurança. Orientação: Prof. Vinicius Cardoso Garcia

RECIFE, 2012

iii

C.E.S.A.R – CENTRO DE ESTUDOS E SISTEMAS AVANÇADOS DO RECIFE

OS BENEFÍCIOS OCULTOS DA CAMADA MAIS PROFUNDA DA WEB

PRISCILA NAVARRO PEIXOTO DE OLIVEIRA

Monografia apresentada ao programa de Especialização de Segurança em Engenharia de Software do Centro de Estudos e Sistemas Avançados do Recife – C.E.S.A.R, como requisito para a obtenção do título de Especialista em Engenharia de Software com ênfase em Segurança.

Data de aprovação: _____ / _____ / 2012.

Banca examinadora:

_____________________________
Prof.(a).Dr.(a) C.E.S.A.R - Centro de Estudos e Sistemas Avançados do Recife

_____________________________
Prof.(a).Dr.(a) C.E.S.A.R - Centro de Estudos e Sistemas Avançados do Recife

_____________________________
Prof.(a).Dr.(a) C.E.S.A.R - Centro de Estudos e Sistemas Avançados do Recife

iv

AGRADECIMENTOS

Agradeço ao Senhor Jesus porque dele, e por meio dele e para ele são todas as coisas. Agradeço à minha mãe Sandra pela presença e apoio constante, sempre buscando proporcionar os melhores meios para eu seguir o meu caminho. Agradeço ao meu pai Múcio, meu grande amigo, meu porto seguro, fonte de paz e tranquilidade. Agradeço ao meu irmão, amigo e companheiro, presente do Senhor que veio pra deixar a minha vida, e a dos meus pais, mais feliz. Agradeço a Mauricio, meu amor, que me inspira, que me motiva e que me fortalece em tudo que eu faço. Agradeço à minha avó Eunice que sempre esteve fortemente presente na minha vida e que agora descansa em paz no Senhor Jesus. Agradeço à minha avó Verônica por sempre irradiar amor, tranqüilidade e otimismo. Agradeço aos meus tios e primos pela constante presença e certeza de que sempre posso contar com eles. Agradeço aos meus amigos pelo apoio, carinho e orações. Agradeço aos meus colegas de curso por me acompanharem nesta trajetória, principalmente aqueles mais próximos que se tornaram amigos. Agradeço a Diego e ao professor Noilson por terem me levado a enxergar além da Web superficial. Agradeço ao meu orientador Vinicius Cardoso por abraçar e fortalecer o meu tema, respondendo com agilidade, clareza e objetividade aos meus contatos. Enfim, agradeço a toda a instituição C.E.S.A.R que me proporcionou o ambiente e as ferramentas necessárias para eu concluir o curso.

v

Porque dele, e por meio dele, e para ele são todas as coisas.
Romanos 11:36

vi

RESUMO

Pesquisando na Web sobre Invisible Web é mais comum encontrar textos superficiais que a generalizam como um mero repositório de material ilícito. Entretanto, a Invisible Web vai além de uma rede fechada que armazena páginas daqueles que querem compartilhar conteúdo ilícito anonimamente. Pode-se entender a Invisible Web como um termo que define todas as páginas que não são indexadas pelos motores de busca convencionais, formando um imenso universo de informação de relevante valor, invisível para a maioria daqueles que utilizam a Web, mas visível para algumas empresas e instituições importantes. Neste contexto, este verdadeiro tesouro merece uma reflexão sobre a melhor forma de obter informação na Web e a necessidade de pesquisas que a explorem através de inteligência acionável. Um único buscador desenvolvido com algoritmos geniais, mas que se limita à camada superficial da Web, parece uma opção prática, embora não aquela que colherá os resultados mais satisfatórios.

Palavras-chave

Invisible Web. Deep Web. Surface Web. Motores de busca. Anonimidade

vii

ABSTRACT

When searching the Web about Invisible Web, it is more common to find superficial texts, which generalizes it as a mere repository of illicit material. However, the Invisible Web goes beyond a closed network that stores pages of those who want to share illegal content anonymously. The term Invisible Web or Deep Web refers to all the pages that are not indexed by conventional search engines. Thus, forming an immense universe of valuable information invisible to most web users, but visible to some companies and important institutions. In this context, this is a true treasure that deserves a reflection on the best way to get information from the Web and the need for research exploring through actionable intelligence. Choosing a single search engine developed with genius algorithms but limited to the superficial layer of the Web, seems to be a practical option, although not one that will reap the most satisfactory results.

Key-words Invisible Web. Deep Web. Surface Web. Search Engines. Anonymity.

viii

LISTA DE FIGURAS

FIGURA 1 - EDITOR DE PLANILHAS NA WEB. FONTE: AUTOR........................................................... 7 FIGURA 2 - ROTEAMENTO EM CAMADAS. FONTE: WIKIPEDIA. ...................................................... 14 FIGURA 3 - ANALOGIA DA WEB COMO UM OCEANO. FONTE: BRANDPOWDER. ................................ 18 FIGURA 4 - EXEMPLO DE UM ARQUIVO ROBOTS.TXT. FONTE: BLOGLOVIN. ...................................... 20 FIGURA 5 - EXEMPLO DO USO DA TAG NOINDEX. FONTE: FIGHTCYBERSTALKING................................ 21 FIGURA 6 - TELA DO APLICATIVO MEDNAR. FONTE: DEEPWEBTECHNOLOGIES. ............................... 34 FIGURA 7 - PORTAL SCIENCE.GOV. FONTE: AUTOR. .................................................................... 35 FIGURA 8 - PORTAL WORLDWIDESCIENCE.ORG. FONTE: AUTOR. ................................................. 36 FIGURA 9 - PORTAL XSEARCH. FONTE: AUTOR. ......................................................................... 37 FIGURA 10 - TELA DO SISTEMA DA INTEL. FONTE: DEEPWEBTECH.................................................. 38 FIGURA 11 - SITE HUMINT. FONTE: AUTOR............................................................................ 40 FIGURA 12 - PORTAL COMPLETEPLANET. FONTE: AUTOR. ........................................................... 41 FIGURA 13 - CONECTANDO À REDE TOR. FONTE: AUTOR............................................................. 44 FIGURA 14 - HIDDEN WIKI. FONTE: AUTOR.............................................................................. 44

ix

LISTA DE SIGLAS

Sigla CERN URL HTTP HTML W3C RDF XML IP TCP OR SSL TOR EUA PDF TMS DOE OSTI LDAP OSINT US GPS VPN SaaS

Significado Conseil Européen pour la Recherche Nucléaire Uniform Resource Locator Hypertext Transfer Protocol Hypertext Markup Language World Wide Web Consortium Resource Description Framework Extensible Markup Language Internet Protocol Transmission Control Protocol Onion Routing Secure Sockets Layer The Onion Router Estados Unidos da América Portable Document Format Texas Medical Center Department of Energy Office of Scientific and Technical Information Lightweight Directory Access Protocol Intelligence Open Source United States Global Positioning System Virtual Private Network Software as a service

x

SUMÁRIO

LISTA DE FIGURAS..................................................................................................VIII LISTA DE SIGLAS ......................................................................................................IX 1 INTRODUÇÃO .................................................................................................... 1 1.1 1.2 1.3 1.4 1.5 1.6 2 TEMA.................................................................................................................. 1 OBJETIVO GERAL ................................................................................................ 2 OBJETIVOS ESPECÍFICOS..................................................................................... 2 METODOLOGIA .................................................................................................. 2 JUSTIFICATIVA .................................................................................................... 2 ESTRUTURA DO DOCUMENTO ........................................................................... 4

FUNDAMENTAÇÃO TEÓRICA.............................................................................. 5 2.1 2.2 2.3 2.4 2.5 2.6 2.7 A INTERNET E A WORLD WIDE WEB ................................................................... 5 OS MOTORES DE BUSCA..................................................................................... 9 PRIVACIDADE, CRIPTOGRAFIA E ANONIMIDADE ............................................. 12 ONION ROUTING .............................................................................................. 13 TOR................................................................................................................... 15 SURFACE WEB .................................................................................................. 17 INVISIBLE WEB.................................................................................................. 19

3

O BOM USO DA CAMADA MAIS PROFUNDA DA WEB ....................................... 32 3.1 3.2 3.3 CASO DE SUCESSO: DEEP WEB TECHNOLOGIES ............................................... 32 CASO DE SUCESSO: BRIGHTPLANET ................................................................. 38 DESMISTIFICANDO A WEB ANÔNIMA .............................................................. 42

4 5

CONSIDERAÇÕES FINAIS .................................................................................. 45 REFERÊNCIAS................................................................................................... 47

1

1 INTRODUÇÃO

1.1

TEMA

De acordo com Sami et al. (2010), no cenário Web o pesquisador tem acesso a uma grande quantidade de informações através dos motores de busca. Entretanto, os motores de busca convencionais rastreiam apenas a camada mais superficial da Web, a Surface Web, deixando oculta uma imensa quantidade de conteúdo numa camada mais profunda, a Invisible Web ou Deep Web [1, 2]. Os motores de busca convencionais, como Google, Yahoo, Bing, obtêm suas listas de duas formas. Na primeira, os autores apresentam as suas próprias páginas da Web para a lista, geralmente uma quantidade menor. Já na segunda, os motores rastreiam e indexam documentos seguindo de um link de hipertexto para outro, através de programas chamados crawlers, que têm limitações técnicas e critérios de seleção deliberados. Assim, as páginas que não são contempladas formam um imenso universo. E neste contexto, afirmase que os motores de busca convencionais não contemplam o conteúdo da Deep Web, que pode ser um conteúdo dinâmico servido em tempo real a partir de um banco de dados, um formato não aceito ou, até mesmo, um conteúdo excluído por uma escolha deliberada. De acordo com dados apresentados por Bergman (2001), a Deep Web é consideravelmente superior à Surface Web na qualidade e quantidade de informações, assim como na aquisição de novas informações. Entretanto, a supracitada camada é predominantemente definida como um espaço exclusivo de práticas ilegais como terrorismo, pornografia, tráfico de drogas, entre outras, apoiadas pelo anonimato oferecido por ferramentas que possibilitam o seu acesso. E, consequentemente, um vasto repositório de sons, imagens, áudio e outros formatos não indexados pelos crawlers se tornam inacessíveis à grande parte daqueles que buscam informação.

2

1.2

OBJETIVO GERAL

Apresentar os benefícios pouco explorados da camada mais profunda da Web que não são acessados pela maioria dos usuários que utilizam este meio.

1.3

OBJETIVOS ESPECÍFICOS

Apresentar a camada profunda da Web que é pouco conhecida por grande parte daqueles que utilizam a Web. Realizar um estudo sobre os casos de sucesso no bom uso da Invisible Web. Desmistificar o conceito da Invisible Web como um mero repositório de conteúdo ilícito. Despertar o investimento de pesquisas na exploração inteligente da Invisible Web.

1.4

METODOLOGIA

Utilizando a pesquisa bibliográfica, haverá um levantamento do material já elaborado, constituído de livros (impressos e eletrônicos), páginas eletrônicas das principais entidades envolvidas no assunto trabalhado, pesquisas, artigos científicos, dissertações, entre outros, construindo a base teórica do trabalho monográfico. A técnica de coleta de dados será a

observação indireta, através da leitura compreensiva e seletiva das publicações levantadas.

1.5

JUSTIFICATIVA

Segundo Filho (2003), o século XX tem sido denominado como a Era da Informação e, atualmente, a grande maioria das informações está disponível

3

em meios eletrônicos como a Internet. Entretanto, uma considerável parte desta fonte está inacessível a um relevante número daqueles que buscam a informação, e a parte que é acessível muitas vezes se apresenta carente de qualidade, como afirmam Tomaél et al (2000). Segundo Raghavan (2001), os motores de busca convencionais contam com programas, os crawlers, que rastreiam as páginas estáticas da camada mais superficial da Web, denominada Surface Web, percorrendo links de hipertexto que apontam para outros links. Porém, este mecanismo tem limitações técnicas que, somadas a escolhas deliberadas, excluem uma grande quantidade de páginas, constituindo a Invisible Web ou Deep Web. Um estudo apresentado por Bergman (2001) estimou que a Invisible Web contém cerca de 7.500 terabytes de informação contra 19 terabytes da Surface Web, 550 bilhões de documentos individuais, 200 mil sites, além de possuir o maior crescimento na aquisição de novas informações e um conteúdo mais profundo do que o encontrado na Surface Web. A qualidade total do conteúdo da camada mais profunda da Web é de 1000 a 2000 vezes maior que a camada mais superficial da Web. Somando-se a estes pontos, a Invisible Web apresenta um conteúdo altamente relevante para cada necessidade de informação, mercado e domínio, mais da metade reside em áreas específicas do banco de dados e 95% da camada é composta de informação livre de taxas ou assinaturas. A Invisible Web apresenta bancos de dados que contemplam uma variedade de áreas. Estes oferecem suporte à Educação com livros, textos, planos de aulas, entre outros arquivos. Fornecem enciclopédia que cataloga mais de 70 mil espécies de plantas e animais, além de proporcionar cobertura às espécies raras e ameaçadas de extinção. Trazem portais que apresentam milhares de revistas e notícias. Armazenam textos, artigos completos, periódicos científicos e acadêmicos que abrangem Ciências, tópicos jurídicos e uma diversidade de temas e linguagens, como descreve Lackie (2009). Entretanto, apesar de existir tecnologias que difundem a exploração desta rica fonte de informações, como a empresa BrightPlanet, a maioria da sociedade que busca informações tem a Invisible Web como exclusivamente um lugar que oferece anonimato para atividades ilegais ou simplesmente não

4

tem conhecimento da existência de uma camada mais profunda na Web, ressalva Paganini (2012). Diante deste cenário, torna-se relevante um estudo que pesquise, analise e descreva o vasto e rico conteúdo que a Invisible Web pode oferecer para a sociedade.

1.6

ESTRUTURA DO DOCUMENTO

O presente relatório segue a seguinte estrutura:

Capítulo 1: introdução da pesquisa, abordando o tema, o objetivo, a justificativa e a metodologia. Capítulo 2: fundamentação teórica, contextualizando o leitor através da descrição dos principais conceitos que envolvem o tema da pesquisa abordada neste documento. Capítulo 3: abordagem do bom uso da Invisible Web, objetivo principal da pesquisa, através da apresentação de casos de sucesso que a envolve, e desmistificação do conceito da Web anônima como um mero repositório de conteúdo ilícito, apontando outros assuntos nela encontrados. Capítulo 4: considerações finais do estudo e pesquisa realizados.

5

2 FUNDAMENTAÇÃO TEÓRICA

2.1

A INTERNET E A WORLD WIDE WEB

A Internet, inicialmente denominada como Arpanet, foi desenvolvida pelo Departamento de Defesa dos Estados Unidos no período da Guerra Fria, com o objetivo de interligar as bases militares e os departamentos de pesquisa do governo americano. Atualmente, segundo Ferreira (1999), a Internet é uma “rede de computadores de âmbito mundial, descentralizada e de acesso público, cujos principais serviços oferecidos seriam o correio eletrônico e a Web”. A World Wide Web ou simplesmente Web foi iniciada em 1989 por Tim Berners-Lee no centro de pesquisa CERN (Conseil Européen pour la Recherche Nucléaire) com a proposta de um grande sistema de hipertexto. A ideia de hipertexto foi enunciada pela primeira vez por Vannevar Bush em 1945, no artigo intitulado “As We May Think”. Entretanto, o termo hipertexto, tem sua origem nos anos sessenta, com Theodor H. Nelson e seu projeto Xanadu. Segundo Lévy (1999, p.55, apud CUNHA, 2003, p.38):

A abordagem mais simples do hipertexto é descrevê-lo, em oposição a um texto linear, como um texto estruturado por nós (os elementos da informação, parágrafos, páginas, imagens, sequências musicais, etc.) e por links entre esses nós, referências, notas, ponteiros, “botões” indicando a passagem de um nó a outro.

Os links ou hiperlinks são apontadores num documento hipertexto para outras partes do documento ou para outros documentos, que, segundo Koch (2005), “permitem ao leitor realizar livremente desvios, fugas, saltos instantâneos para outros locais virtuais da rede, de forma prática, cômoda e econômica”.

6

Neste contexto de hipertexto aplicado à Internet, em 1990 Tim BernersLee já contava com o apoio de Robert Cailliau e tinhas as principais ferramentas necessárias para o funcionamento da Web. Segundo Cunha (2003), ele percebeu que o conceito de hipertexto poderia ser utilizado na grande rede de computadores em conjunto com três tecnologias: Uniform Resource Locator (URL), um endereço único para cada página na Web; Hypertext Transfer Protocol (HTTP), um protocolo de transferência de dados; e HyperText Markup Language (HTML), uma linguagem de marcação que descreve como os elementos (textuais e gráficos) de uma página devem ser exibidos. Dentre as ferramentas necessárias à Web, também está o navegador ou browser, um programa de computador que permite aos usuários da Web o acesso às páginas, e os servidores, responsáveis por receber, processar e responder as requisições HTTP de clientes, geralmente um browser.

2.1.1 A evolução da Web

Desde o seu surgimento, a Web vive um processo evolutivo. Inicialmente, denominada Web 1.0, oferecia um conjunto de páginas estáticas ligadas, cujo conteúdo era alimentado apenas pelos seus responsáveis, tendo o usuário como um mero receptor de informação. A atual fase, após um rápido e grande crescimento, recebeu de Tim O’Reilly o termo Web 2.0, oriundo de uma série de conferências promovidas pela O’Reilly Media e a MediaLive International, que trouxe uma segunda geração de serviços. Segundo O’Reilly (2005), citado por Primo (2007), não há como demarcar precisamente as fronteiras da Web 2.0. Trata-se de um núcleo ao redor do qual gravitam princípios e práticas que aproximam diversos sites que os seguem. Um desses princípios fundamentais é trabalhar a Web como uma plataforma, ou seja, serviços como editor de textos e planilhas, que antes só poderiam ser utilizados através de sua instalação no computador, agora são disponíveis online. Na Figura 1, pode-se observar uma planilha disponível na

7

Web, recurso oferecido pelo Google Docs, um pacote de aplicativos da empresa Google, que também disponibiliza a criação e o compartilhamento de documentos, formulários, entre outros.

Figura 1 - Editor de planilhas na Web. Fonte: Autor .

1

Dentre outros serviços estão as Wikis, páginas para compartilhamento de textos, imagens e vídeos, redes sociais. As Wikis são páginas como a Wikipedia, uma enciclopédia com conteúdo livre que permite o usuário ler, editar e criar artigos. O’Reilly (2005) enfatiza uma arquitetura de participação em que quanto mais usuários na rede, mais arquivos se tornam disponíveis. Assim, páginas estáticas perderam espaço para um conteúdo dinâmico que é gerado pelos próprios usuários. Diante deste imenso e crescente volume de compartilhamento, cresce a importância de ferramentas que possibilitam encontrar conteúdo relevante no meio deste caos de informações. Neste contexto, o World Wide Web Consortium ou W3C liderado por Tim Berners-Lee trabalha atualmente no desenvolvimento da Web 3.0 ou Web Semântica.

1

Imagem capturada pelo autor a partir da tela do aplicativo.

8

Segundo o W3C, a Web 3.0 tem o objetivo de trazer “novas maneiras de conectar a Internet através de uma variedade de dispositivos capazes de pesquisar, combinar e analisar os dados”. De acordo com Berners-Lee (2007, apud JARDIM, 2010, p.20):

A Web Semântica é sobre a colocação de arquivos de dados na Web. Não é apenas uma Web de documentos, mas também de dados. A tecnologia de dados da Web Semântica terá muitas aplicações, todas interconectadas. Pela primeira vez haverá um formato comum de dados para todos os aplicativos, permitindo que os bancos de dados e as páginas da Web troquem arquivos.

Berners-Lee et al. (2001, apud JARDIM, 2010) afirmam ainda que a Web 3.0 é uma extensão da Web atual, em que a informação tem um significado claro e bem definido, possibilitando uma melhor interação entre computadores e pessoas.

A Web tradicional foi desenvolvida para ser entendida apenas pelos usuários, já a Web Semântica foi idealizada para ser compreendida também pelas máquinas. Para isso utiliza diversas tecnologias, que são capazes de operar de maneira eficiente sobre as informações, podendo entender seus significados, assim, auxiliando os usuários em operações na Web (Dziekaniak et al., 2004, apud JARDIM, 2010, p.22).

Segundo o W3C, a Web Semântica foi inicialmente pensada para ser construída com base na flexibilidade da combinação do Resource Description Framework (RDF) e o Extensible Markup Language (XML), trazendo uma representação da informação compreensível para a máquina. Propõe-se que a Web seja mais que um repositório de documentos para exibição, mas de automação, integração e reuso em sistemas diferentes. Os dados não são apenas apresentados, mas também interpretados e compartilhados com organização em escala e completa integração de recursos.

9

2.2

OS MOTORES DE BUSCA

Desde o princípio da Internet houve a preocupação com a criação de ferramentas para localização da informação e, desta forma, surgiram dois tipos básicos: os diretórios e os motores de buscas ou search engines. Os diretórios foram criados quando o conteúdo da Web era pequeno o suficiente para ser pesquisado de forma manual. Os sites são coletados por pessoas, os editores, ou por robôs, e são organizados hierarquicamente pelo assunto, permitindo aos usuários navegarem entre categorias e subcategorias. Os motores de busca surgiram com o significativo aumento dos recursos da Web que tornou inviável a coleta manual dos sites e a busca por navegação. Possuindo uma base de dados com uma grande quantidade de itens, permite a busca por palavras-chave ou linguagem natural. Um motor de busca é composto por quatro partes: o robô ou crawler, um programa que percorre automaticamente a Web seguindo links encontrados nas páginas; o indexador, que processa as páginas acessadas pelo crawler e constrói a base de dados; o motor de busca, propriamente dito, que localiza na base de dados o item pesquisado; e a interface, uma página Web que permite ao usuário realizar a pesquisa. Os crawlers tentam obter o maior número possível de páginas da Web e possuem diversas estratégias para percorrerem os links existentes. Na maioria das vezes iniciam o percurso nos sites mais conhecidos e utilizam seus próprios algoritmos para determinarem quais links seguirão. A coleta de páginas também pode ser realizada pela sugestão dos usuários que têm a opção de não esperar pela varredura regular dos robôs. As informações contidas nas páginas HTML localizadas pelos crawlers são extraídas pelos indexadores e armazenadas na base de dados. A interface, geralmente uma página Web, permite que o usuário realize uma consulta transmitindo-a ao motor de busca, programa que localiza o item pesquisado na base de dados e retorna o resultado (uma lista de sites), contendo a descrição e o link, ordenados de acordo com a relevância. De acordo com Cedón (2001), os motores de busca se diferem entre si levando em consideração o tamanho da base de dados, os critérios para

10

indexação e inclusão de páginas, além de sua interfade de busca, frequência de atualização das páginas e ordenação dos resultados. O tamanho da base de dados, geralmente medido pelo número de URLs, é um parâmetro relevante para que uma ferramenta de busca seja boa, considerando que a informação só pode ser localizada numa pesquisa se a ferramenta a tiver incluído. Um motor que abrange um maior número de URLs tem maior probabilidade de conter a informação procurada e,

consequentemente, tende a ser mais usado. Entretanto, vale ressaltar que nenhum deles consegue conter todas as páginas existentes. Um motor de busca cria índices para tornar dinâmica a busca em sua base de dados. Neles são inseridos todos os termos que podem ser usados numa pesquisa e as URLs das páginas que os contêm. A posição das palavras nas páginas e tags HTML associadas ao texto podem também serem armazenadas para facilitar a recuperação e ordenação dos resultados. Um termo que não é incluído no índice não pode ser localizado, assim, os critérios de indexação influenciam consideravelmente o resultado de uma pesquisa. Os motores de busca geralmente indexam cada palavra visível de uma página. Porém, alguns retiram apenas as palavras mais frequentes, ou as URLs, ou as principais palavras. Há também aqueles que incluem nos índices outros termos que não são visíveis, mas que contém informações úteis, como os textos encontrados nos metatags de classificação, descrição e palavraschave e o ALT da tag image. De acordo com Cédon (2001):

Os metatags de classificação fornecem uma palavra-chave que define o conteúdo da página. Os de descrição retornam a descrição da página feita pelo seu autor no lugar do resumo que o robô criaria automaticamente. Os de palavra-chave fornecem as palavras-chave designadas para descrever seu conteúdo ou assunto. Por exemplo, no metatag <META name = “keyword” content=”Brasil, informação para negócios”>, as palavras Brasil e informação para negócios podem não fazer parte do texto visível da página, entretanto foram indicadas pelo seu autor como indicadores do assunto sobre os quais a página versa.

11

Os critérios utilizados para a inclusão de páginas estabelecem o número de itens que compõem a base de dados dos motores de busca. Alguns tentam incluir todas as páginas de um site, outros incluem apenas as principais páginas. Além do formato HTML, é crescente a variedade coletada e indexada pelos motores. O dinamismo que caracteriza a Internet traz aos motores de busca a necessidade de ter a sua base de dados atualizada, adicionando, alterando ou excluindo novas páginas. E para isso, cada motor possui critérios e tecnologia própria para manter esta atualização. A interface de busca é outro parâmetro que difere um motor de busca. De forma geral, oferecem dois tipos de pesquisa, simples e avançada. A busca avançada se distingue da busca simples por permitir que os usuários utilizem expressões booleanas, além de recursos como truncamento, pesquisa por frase, sensibilidade à caixa de caracteres (caixa-alta ou caixa-baixa), limitação por data, domínio, idioma e formato de arquivo. Diante da quantidade de páginas existentes, geralmente uma pesquisa retorna um grande número de páginas, tornando a ordenação dos resultados um importante critério na caracterização de um motor de busca. Considerando duas ferramentas que trazem a mesma quantidade de itens para uma busca, a melhor será aquela que fornece os itens mais relevantes entre os primeiros resultados. Assim, a maioria dos motores de busca utiliza algoritmos de ordenação dos resultados que levam em consideração uma série de parâmetros que eles definem. Google Search é um motor de busca convencional que permite a busca de informação na camada mais superficial e se destaca entre os mais importantes buscadores por algumas razões. O crawler do Google, o Googlebot, busca por novas informações diariamente. O referido buscador possui ainda um algoritmo, desenvolvido pelos próprios fundadores Larry Page e Sergey Brin, "que atribui uma pontuação a uma página Web, de acordo com a quantidade e a qualidade das ligações (externas ou internas) que apontem para ela”, como afirma a Wikipédia. O Google Search também oferece o recurso “em cache”, que permite o acesso a sites que já não existem mais, além de possuir uma interface simples, clara e leve.

12

Entretanto, Cédon (2001) ressalva que, apesar da grande quantidade de informações na Web supracitada neste documento e das inúmeras ferramentas de pesquisa disponíveis, o usuário fica frequentemente frustrado diante dos insatisfatórios resultados retornados por este complexo universo dos motores de busca e os critérios adotados por eles.

2.3

PRIVACIDADE, CRIPTOGRAFIA E ANONIMIDADE

Segundo Ishitani (2003), privacidade é um conceito abstrato, que tem seu valor e extensão variados de acordo com cada pessoa. No contexto da Web, Wang et al afirma que “privacidade geralmente se refere a informações pessoais, e invasão de privacidade é geralmente interpretada como coleta, publicação ou outro uso não autorizado de informações pessoais, como um resultado direto de transações”. E para Westin (1987), privacidade de informações é “a reivindicação de indivíduos, grupos ou instituições de poderem determinar quando, como e quanto de suas informações podem ser divulgadas a outros”. De acordo com Wang (1998, apud ISHITANI, 2003):

As ferramentas de encriptação são as mais utilizadas e as que obtiveram mais sucesso com relação à proteção da privacidade de usuários da Internet. A vantagem dessas ferramentas é impedir que um terceiro compreenda o conteúdo de mensagens transmitidas entre dois outros indivíduos. Consequentemente, se um terceiro não é capaz de entender uma mensagem, não haverá interesse em coletar e armazenar essas informações.

Entretanto, Ishitana (2003) ressalva que esta prática não é plenamente eficiente contra a mineração de dados, pois mesmo sem a possibilidade de ter o conteúdo de uma mensagem revelado, ainda é possível saber o endereço IP do cliente e servidor, o comprimento dos dados permutados, a hora em que uma comunicação foi realizada e a frequência das transmissões. Desta forma,

13

a encriptação deve ser utilizada em conjunto com outras opções de tecnologia para proteção da privacidade, como programas e protocolos de criptografia. O “anonimato, ou ocultamento do nome do autor de uma ação ou obra, representa uma forma antiga de agir ou produzir obras, com a proteção da privacidade da identidade do autor da ação ou obra”, afirma Ishitani (2003). O seu uso pode ter objetivos socialmente lícitos e ilícitos. Dentre os objetivos lícitos, pode-se mencionar testemunho e denúncia de crimes, participação em grupos de ajuda, entre outros. Quanto ao uso ilícito do anonimato, há fraudes, envio de mensagens ameaçadoras, ações criminosas e terroristas, entre outras práticas. Ainda para Ishitani (2003), a anonimidade é útil para proteger a privacidade. E, no âmbito da Web, o nome que se deseja proteger é o endereço IP, pois estes podem conter informações pessoais, serem utilizados para correlacionar atividades de diferentes sites e revelar a identidade de um usuário. Vale mencionar que existem a pseudo-anonimidade e a anonimidade de uma única vez. A diferença é que o pseudônimo é contínuo, podendo ser utilizado pelo usuário mais de uma vez, e associado a um conjunto de mensagens. Uma falha de anonimidade acontece quando não se protege a anonimidade de um usuário ao permitir que o conteúdo de uma transação informe a identidade do usuário ao servidor Web. Muitas ferramentas Web de anonimidade se baseiam no uso de proxies. O proxy tem o papel de submeter as requisições Web em nome dos usuários, assim, o seu IP é o único revelado aos sites. Considerando o fato de o proxy conhecer a identidade dos usuários, a vulnerabilidade deste sistema se encontra na possibilidade de alguém passar a ter o controle do proxy, monitorando os remetentes e destinatários de todas as comunicações.

2.4

ONION ROUTING

De acordo com Dingledine et al. (2004), Onion Routing é uma rede sobreposta distribuída que fornece anonimidade a aplicativos baseados TCP,

14

como navegadores Web, secure shell e mensagens instantâneas. Os clientes escolhem um caminho através da rede e constroem um circuito, em que cada nó ("onion router" ou "or") no caminho conhece seu antecessor e sucessor, mas não os outros nós do circuito. O roteamento depende do uso de criptografia de chave pública, que permite criptografar em camadas, de tal forma que apenas o receptor de uma camada destinada pode decifrar a mensagem com sua chave privada. De forma mais detalhada, Carvalho (2010) afirma que cada router define o próximo e criptografa a mensagem usando a chave pública do router de destino. Assim, é gerada uma estrutura em camadas, conforme apresentado na Figura 2, em que para chegar na mensagem original é necessário decodificar todas as camadas externas, através do uso da chave privada de cada roteador do caminho, na ordem predeterminada.

Figura 2 - Roteamento em camadas. Fonte: Wikipedia .

1

Depois de estabelecido, o caminho permanece ativo para transmissão de dados por certo período. Neste tempo, o remetente pode enviar mensagens que serão “descascadas” (analogia às camadas de uma cebola), ou seja, descriptografadas pela chave privada do router, dificultando a associação entre mensagens que dele entram e saem.

11

http://en.wikipedia.org/wiki/File:Onion_diagram.svg, acesso em julho de 2012.

15

Carvalho (2010) ressalva que um dos pontos fracos se encontra no fato de que “nós de saída das redes OR dão acesso completo ao conteúdo transmitido (via sniffing) e, portanto, a rede não deve ser utilizada para transmitir informações confidenciais sem o uso de criptografia fim-a-fim, como SSL”. No próximo tópico, o onion routing será um pouco mais detalhado, através da descrição de um projeto que o implementa.

2.5

TOR

The Onion Router, também conhecido como Tor1, é um software livre da segunda geração do onion routing. E, de acordo com a sua página oficial, é uma rede aberta que auxilia a defesa contra uma forma de vigilância que ameaça a liberdade e privacidade de negócios e relacionamentos

confidenciais, assim como a segurança do Estado, conhecida como análise de tráfego. Tor foi originalmente concebido, implementado e implantado como a terceira geração de um projeto de roteamento em camadas do Laboratório de Pesquisa Naval dos EUA. Originalmente desenvolvido com a Marinha dos EUA, tinha o propósito principal de proteger as comunicações do governo. Hoje, ele é usado todos os dias por propósitos. A ferramenta descrita é uma rede de túneis virtuais que permite pessoas e organizações aumentarem a sua segurança e privacidade na Internet. Ele também permite que desenvolvedores de software criem novas ferramentas de comunicação com características de privacidade embutidas. Tor fornece a base para uma gama de aplicações que possibilitam organizações e indivíduos partilharem informação através de redes públicas, sem comprometer a sua privacidade. A variedade de pessoas que o utilizam é parte do que o faz tão seguro. Tor esconde o usuário entre os outros usuários na rede, de modo que o quanto uma grande variedade de perfis e

1

https://www.torproject.org

16

maior e mais diversificada for a base de usuários do Tor, mais o seu anonimato será protegido. Tor oferece proteção contra uma forma comum de vigilância na Internet conhecida como "análise de tráfego”, como foi mencionado nas primeiras linhas deste tópico. A análise de tráfego pode ser usada para inferir quem está falando com quem, através de uma rede pública. Conhecer a origem e o destino do seu tráfego na Internet permite que outro deduza os seus hábitos e interesses. Na análise de tráfego, pacotes de dados na Internet tem duas partes: um bloco de dados e um cabeçalho usado para o encaminhamento. O bloco de dados é o que está sendo enviado, podendo ser uma mensagem de e-mail, uma página Web ou um arquivo de áudio. Mesmo se um indivíduo criptografa a carga de dados de suas comunicações, a análise de tráfego ainda revela muita coisa sobre o que ele está fazendo e, possivelmente, o que ele está dizendo. Isso porque a tecnologia aqui apresentada se baseia no cabeçalho, o que revela origem, destino, tamanho, timing, e assim por diante. Um problema básico de privacidade é que o receptor pode ver o que o emissor envia através dos cabeçalhos. Estes receptores pode ser

intermediários autorizados, como provedores de Internet, e, algumas vezes, intermediários não autorizados também. Uma forma muito simples de análise de tráfego pode envolver alguma parte da sessão entre o remetente e o destinatário na rede, através dos cabeçalhos. Mas também existem formas mais poderosas de análise de tráfego. Alguns atacantes espiam múltiplas partes da Internet e usam técnicas estatísticas sofisticadas para rastrear os padrões de comunicação de muitas organizações e indivíduos. Criptografia não protege contra estes ataques, pois apenas esconde o conteúdo do tráfego da Internet, não os cabeçalhos. Tor promete reduzir os riscos tanto da análise de tráfego simples quanto da sofisticada, distribuindo as suas transações por vários pontos na Internet, tornando difícil a identificação dos pacotes de dados observados na rede . Em vez de seguirem uma rota direta desde a origem até o destino, os pacotes na rede Tor seguem um caminho aleatório através de diversos servidores, que ocultam a sua passagem de forma que um observador em

17

qualquer ponto não tenha condições de afirmar de onde vêm os dados e nem para onde vão. Para criar um caminho privado na rede com Tor, o software do usuário constrói incrementalmente um circuito de conexões encriptadas entre servidores na rede. O pacote é passado de um servidor para outro e cada servidor conhece apenas a máquina que o entregou e a máquina que o receberá. Nenhum servidor conhece o caminho que um pacote percorreu e cada nó do circuito tem um conjunto separado de chaves de encriptação, garantindo que um nó não rastreie as conexões na passagem dos pacotes. Uma vez que o circuito tenha sido estabelecido, muitos tipos de dados podem ser trocados e vários tipos diferentes de aplicações de software podem ser implementadas através da rede Tor. Como cada nó não vê mais do que um salto no circuito, nem um espião, nem um servidor comprometido pode usar a análise de tráfego para ligar a fonte do pacote ao destino.

2.6

SURFACE WEB

Bergman (2001) compara a pesquisa na Internet como lançar uma rede na superfície de um oceano. De forma análoga, uma grande quantidade de informações é capturada pela rede, mas uma imensa quantidade localizada numa área mais profunda não é alcançada. Esta porção capturada é denominada Surface Web e a porção mais profunda é conhecida como Invisible Web ou Deep Web ou, ainda, Hidden Web. A Figura 3 ilustra a analogia da Web como o oceano, enfatizando uma camada superficial acessível aos motores de busca convencionais, como o Google, e uma camada mais profunda de menor alcance.

18

Figura 3 - Analogia da Web como um oceano. Fonte: Brandpowder .

1

Os motores de busca tradicionais rastreiam as páginas da Surface Web, mas não incluem o conteúdo da Invisible Web, que, de uma forma geral, é criado dinamicamente conforme o resultado de uma pesquisa específica ou tem um formato não aceito ou, ainda, não é contemplado pelos seus critérios de escolha . Assim, pelo fato dos indexadores dos mecanismos tradicionais de busca não poderem sondar abaixo da superfície, as páginas da camada mais profunda têm sido invisíveis para a maioria daqueles que buscam informação. Enfatizando a diferença entre a Surface Web e Invisible Web, Bergman mencionou um estudo realizado pela BrightPlanet, que quantificou o tamanho e a relevância da Web mais profunda. Entre os dados apontados, a Invisible Web contém 7.500 terabytes de informação em comparação com dezenove terabytes de informação na Surface Web. A Web profunda contém cerca de 550 bilhões de documentos individuais em relação a um bilhão da Web superficial. Sessenta dos maiores sites da Invisible Web juntos excedem o tamanho da Surface Web em quarenta vezes. A Web profunda é a maior categoria crescente de novas informações sobre a Internet e seus sites tendem a ter um conteúdo mais profundo do que os sites da camada convencional. A qualidade do conteúdo da Web profunda é de 1.000 a 2.000 vezes maior do que a Web superficial.

1

http://brandpowder.files.wordpress.com/2011/10/deep-web.jpg, acesso em março de 2012.

19

2.7

INVISIBLE WEB

Sherman et al. (2003) afirmam que a Invisible Web são as páginas de texto, arquivos ou informação, muitas vezes de alta qualidade, disponíveis na World Wide Web, que os motes de busca convencionais não podem, devido a limitações técnicas ou escolha deliberada, adicionar aos seus índices. No seu nível mais básico, os motores de busca são projetados para indexar a Web e programas chamados crawlers para encontrar e recuperar páginas Web armazenadas em servidores de todo o mundo. Texto, mais especificamente o hipertexto, é o meio fundamental da Web. A principal função dos motores de busca é ajudar os usuários a localizarem documentos de interesse em hipertexto. Os motores de busca são altamente afinados e otimizados para lidar com páginas de texto e, mais especificamente, as páginas de texto que foram codificados com o HyperText Markup Language (HTML). À medida que a Web se desenvolve e outras mídias se tornam comuns, os motores de busca oferecem novas formas de pesquisar informações. Mas, por agora, a função central da maioria dos motores de busca Web é ajudar os usuários a localizar documentos de texto. Documentos HTML são simples. Cada página tem duas partes: um "cabeçalho" e um "corpo" que são claramente separados no código fonte de uma página HTML. O cabeçalho contém um título no topo da janela de um navegador e também pode conter alguns metadados adicionais que descrevem o documento e podem ser usados por um motor de busca para ajudar a classificar o documento. Para a maior parte, além do título, o cabeçalho de um documento contém informações e dados que ajudam o navegador a exibir a página, mas é irrelevante para um motor de busca. A parte do corpo contém o documento propriamente dito e se apresenta como a porção que o motor de pesquisa deseja explorar. A simplicidade do formato HTML torna mais fácil para os motores de busca a recuperação dos documentos, ou seja, indexar cada palavra em cada página e armazená-los em enormes bancos de dados que podem ser pesquisados sob demanda.

20

Os problemas surgem quando o conteúdo não é compatível com este modelo simples de página web. Para entender o porquê, é válido considerar o processo de rastreamento e os fatores que influenciam se uma página poderá ou não ser rastreada e indexada com sucesso. A primeira coisa que um crawler tenta determinar é se o acesso à página desejada contida no servidor é restrito. Há três métodos para prevenir que um motor de busca realize a indexação de uma página. Dois métodos usam técnicas de bloqueio especificadas no Robots Exclusion Protocol, que a maioria dos rastreadores voluntariamente honram, criando-se uma barreira técnica que não pode ser contornada. O Robots Exclusion Protocol é um conjunto de regras que permitem especificar quais partes de um servidor são abertas aos crawlers e quais são restritas. O desenvolvedor simplesmente cria uma lista de arquivos ou diretórios que não devem ser rastreados ou indexados e salva esta lista no servidor em um arquivo chamado robots.txt, opcional e armazenado por convenção no nível superior de um site. A Figura 4 apresenta um exemplo de um arquivo do tipo Robots Exclusion Protocol.

Figura 4 - Exemplo de um arquivo robots.txt. Fonte: Bloglovin .

1

O segundo meio de prevenir a indexação de uma página funciona da mesma maneira que o arquivo robots.txt, entretanto, é específico para página.
1

http://www.bloglovin.com/en/blog/3311583/blog-walker, acesso em julho de 2012.

21

O desenvolvedor inclui uma metatag noindex no cabeçalho do documento, como se pode observar no exemplo da Figura 5. A única diferença entre a metatag noindex e o arquivo robots.txt é que a metatag é específica da página, enquanto o arquivo pode ser usado para impedir a indexação de páginas individuais, grupos de arquivos, ou até mesmo sites inteiros.

Figura 5 - Exemplo do uso da tag noindex. Fonte: Fightcyberstalking .

1

O uso de uma senha é o terceiro meio de impedir o rastreamento e a indexação de uma página por um motor de busca. Esta técnica é muito mais forte que as duas primeiras, uma vez que utiliza uma barreira técnica, e não um padrão voluntário. Porém, páginas protegidas por senha podem ser acessadas apenas pelos seletos usuários que sabem a senha, diferente das páginas que usam o Robots Exclusion Protocol e permitem seu acesso à qualquer pessoa, exceto o de um motor de busca. Páginas usando qualquer um dos três métodos descritos acima fazem parte da Invisible Web. Em muitos casos, eles não contêm obstáculos técnicos que impedem o rastreamento e a indexação das páginas. Eles fazem parte

1

http://www.fightcyberstalking.org/online-safety-tips/how-to-block-your-website-from-the-searchengines.html, acesso em maio de 2012.

22

desta camada porque o desenvolvedor optou por mantê-los fora dos motores de busca. Quando o crawler verifica se é permitido o acesso a uma página, o próximo passo é tentar capturá-la e entregá-la ao indexador do motor de busca. Este passo crucial determina em grande parte se uma página é visível ou invisível.

2.7.1 Barreiras dos crawlers

Sherman et al. (2003) listou e examinou algumas dificuldades encontradas pelos crawlers na descoberta de páginas na Web, usando a mesma lógica que eles fazem para determinar se uma página é indexável ou não.

2.7.1.1 Caso 1

O pesquisador encontra uma página que contém texto HTML simples, eventualmente incluindo alguns elementos gráficos básicos. Este é o tipo mais comum de página Web. É visível e pode ser indexada, crawler pode encontrá-la. assumindo que o

2.7.1.2 Caso 2

O crawler encontra uma página feita de HTML, mas é um formulário, composto de campos de texto, caixas de seleção, ou outros componentes que requerem entrada do usuário. Pode ser uma página de login, exigindo um nome de usuário e senha. Pode ser um formulário que requer a seleção de uma ou mais opções. O formulário em si, uma vez que é feito de HTML simples, pode ser capturado e indexado. Mas o conteúdo que está por trás pode ser invisível para um motor de busca. E, neste caso, há duas possibilidades.

23

O formulário é usado simplesmente para selecionar as preferências do usuário e as outras páginas sobre o site consistem em HTML simples que pode ser rastreado e indexado. Neste caso, a forma e o conteúdo por trás dele são visíveis e podem ser incluídos em um índice do motor de busca. A outra possibilidade ocorre quando o formulário é usado para coletar informações específicas do usuário que irão gerar páginas dinâmicas após submter a informação. Neste exemplo, embora o formulário seja visível, o conteúdo dinâmico é invisível,considerando que única maneira de acessar o conteúdo é inserindo dados no formulário e o fato de o crawler ser projetado simplesmente para solicitar e buscar páginas. A tendência é ter os formulários representando menos dificuldade para os motores de busca, uma vez que estão em andamento projetos visando a criação de crawlers mais inteligentes, capazes de preencher formulários e recuperar informações. Entretanto, não é um problema trivial e se estima que a indexação de todo o conteúdo da Invisible Web possa levar até 50 anos, segundo Sherman (2003).

2.7.1.3 Caso 3

O pesquisador encontra uma página montada dinamicamente e exibida sob demanda. Tecnicamente, essas páginas são parte da camda visível. Crawlers podem buscar qualquer página que pode ser exibida em um navegador Web, independentemente se é uma página estática armazenada em um servidor ou gerada dinamicamente. Páginas geradas dinamicamente representam um desafio para os crawlers. As páginas dinâmicas são criadas por um script, um programa de computador que monta uma página personalizada a partir da seleção de várias opções. Até que o script é realmente executado, um crawler não tem nenhuma maneira de saber o que esse código vai realmente fazer. O script deve simplesmente montar uma página Web personalizada. Infelizmente, desenvolvedores antiéticos criaram scripts maliciosos que podem

24

sobrecarregar os crawlers, gerando inúmeras páginas falsas de spam ou os inserindo em loops infinitos. Estas armadilhas podem ser bastante desagradáveis para os motores, por isso a maioria simplesmente toma a decisão de não rastrear ou indexar URLs que geram conteúdo dinâmico. Entretanto, essa decisão é flexível, podendo existir o rastreamento e a indexação de sites gerados dinamicamente, a partir do momento em que passam a ser conhecidos como confiáves para os motores de busca Uma alternativa que reduziu as barreiras para o conteúdo dinâmico é a crescente adoção de programas denominados paid inclusion pelos principais motores de busca. Estes programas são projetados para permitir que se especifique as páginas que devem ser rastreadas e indexadas em troca de uma taxa anual. As páginas que violarem as políticas dos motores de busca estarão sujeitas à remoção do índice. Paid inclusion é um meio dos motores de busca confiarem no conteúdo dinâmico, na teoria de que ninguém estaria disposto a pagar apenas para ter seu conteúdo removido de qualquer maneira.

2.7.1.4 Caso 4

O pesquisador encontra uma página que não há nada para indexar. Existem inúmeras páginas compostas de HTML básico, mas que contêm apenas Flash, imagens, mídia streaming ou outros elementos não textuais no corpo. Estes tipos de páginas são verdadeiramente parte da camada invisível porque não há conteúdo que os motores possam indexar. Os motores de busca especializados em multimídia são capazes de reconhecer alguns desses tipos de arquivos não textuais e indexar o mínimo de informação sobre eles, tais como nome do arquivo e tamanho, porém são de longe soluções que atendam as buscas por palavras-chave.

25

2.7.1.5 Caso 5

O pesquisador encontra um site que oferece dados dinâmicos e em tempo real. Há uma grande variedade de sites que fornecem este tipo de informação, que vão desde cotação de ações em tempo real a informação de chegada de vôo de companhia aérea. Estes são também parte da Invisible Web porque o fluxo desses dados são, de um ponto de vista prático, não indexáveis. Embora seja tecnicamente possível, o valor seria apenas para fins históricos e, considerando a enorme quantidade de dados capturados e a necessidade de uma maior capacidade de armazenamento de um motor de busca, seria um exercício fútil.

2.7.1.6 Caso 6

O pesquisador encontra um arquivo PDF ou Postscript. PDF e PostScript são formatos de texto que preservam a aparência de um documento, exibindo-o de forma idêntica, independentemente do tipo de computador usado para visualizá-lo. Enquanto muitos motores de busca indexam arquivos PDF, a maioria não indexam o texto integral dos documentos.

2.7.1.7 Caso 7

O pesquisador encontra um banco de dados que oferece uma interface Web. Existem dezenas de milhares de bases de dados contendo informação extremamente valiosa disponível através da Internet. Mas os motores de busca não podem indexar o material em si. Apesar de mencionar como um caso único, este cenário representa essencialmente uma combinação dos casos 2 e 3. Os bancos de dados geram páginas Web de forma dinâmica, respondendo aos comandos emitidos através de um formulário HTML. Embora a interface para o banco de dados é um formulário HTML, o próprio banco de

26

dados pode ter sido criado antes do desenvolvimento do HTML e seu sistema legado é incompatível com os protocolos utilizados pelos motores, ou podem exigir o registro para acessar os dados. Eles também podem ser proprietários, acessível apenas para usuários selecionados ou que pagaram uma taxa de acesso. Ironicamente, a especificação HTTP original desenvolvida pelo inventor da Web Tim Berners-Lee incluiu um recurso chamado formato de negociação que permitiu a um cliente dizer quais tipos de dados poderia manipular e permitiu que um servidor retornasse dados em qualquer formato aceitável. A visão de Berners-Lee abrangeu as informações na Invisible Web, mas esta visão, pelo menos do ponto de vista do motor de busca, tem sido largamente não realizada. 2.7.2 Os quatro tipos da Invisible Web

De acordo com Sherman et al. (2003), além razões técnicas, há outros motivos que fazem alguns tipos de conteúdo não serem acessados dentro ou através da Internet porque não são incluídos pelos motores de busca. Sherman et al. (2003) afirmaram que há quatro tipos de conteúdo na Invisible Web para facilitar a ilustração do limite amorfo que torna tão difícil a definição da Invisible Web. Estes quatro tipos são “Opaque” Web, Private Web, Proprietary Web e Truly Invisible Web.

2.7.2.1 Opaque Web

A “Opaque” Web consiste nos arquivos que podem ser, mas não são, incluídos nos índices de pesquisas. A Web Opaque é muito grande e apresenta um desafio único para um pesquisador, considerando que o conteúdo profundo em muitos sites é acessível se souber como encontrá-lo. A maior parte consiste em arquivos que os motores de busca podem rastrear e indexar, mas simplesmente não o fazem. Sherman et al. (2003) apontaram uma variedade de razões para isso, descritas logo abaixo

27

Profundidade de rastreamento

O rastreamento de um site é uma operação que consome muitos recursos. Custa dinheiro para um motor de busca rastrear e indexar todas as páginas de um site. No passado, a maioria dos motores selecionava apenas algumas páginas de um site ao invés de executar um "rastreamento profundo” que indexava cada página, partindo do pensamento que uma amostra fornecia uma representação boa e suficiente de um site, satisfazendo as necessidades da maioria dos pesquisadores. A limitação da profundidade de rastreamento também reduzia o custo da indexação de um site particular. De uma forma geral, os motores de busca não revelam como se define a profundidade de rastreamento dos sites. Cada vez mais, há uma tendência de rastrear mais profundamente, indexando o maior número possível de páginas. Diante do declínio do custo de rastreamento e indexação, e o tamanho dos índices do motor de pesquisa continuar a ser uma problema competitivo, o problema da profundidade rastreamento está se tornando uma preocupação menor para os pesquisadores. No entanto, não há garantia de que cada página do site será rastreada e indexada. Este problema recebe pouca atenção e é uma das principais razões que fazem com que materiais que podem ser utéis estejam invisíveis para aqueles que só utilizam ferramentas de busca de uso geral para realizar pesquisas.

Freqüência de rastreamento

A Web está em um constante estado de fluxo dinâmico. Novas páginas são adicionadas constantemente e as páginas existentes são alteradas ou retiradas da Web. Diante disto, cada motor de busca deve decidir a melhor forma de implantar os seus crawlers, criando um calendário que determina a freqüência que uma determinada página ou site é visitado. Não é o suficiente para um motor de pesquisa visitar uma página uma vez e assumir que ainda estará disponível posteriormente. Crawlers deve retornar periodicamente a uma página e não só verificar a sua existência, mas

28

também baixar as cópias mais atuais da página e, talvez, buscar novas páginas que foram adicionadas a um site. Os sites mais novos são os mais suscetíveis a fiscalização dos motores de busca porque relativamente poucos outros sites na Web estarão ligados a eles, em comparação aos sites mais estabelecidos. Até que os motores de busca alcancem esses novos sites, eles continuam a fazer parte da camada invisível.

Número máximo de resultados visualizáveis

É bastante comum para um motor de busca relatar um número muito grande de resultados. No entanto, a maioria dos motores restringe o número total de resultados que será exibido para uma consulta. Para consultas que retornam um número enorme de resultados, isso significa que uma considerável parte das páginas que podem ser relevantes ficam inacessíveis, uma vez que foram deixadas de fora da lista dos resultados. Essas páginas que foram excluídas são efetivamente invisíveis. Bons pesquisadores estão cientes desse problema e irão tomar medidas para contornar o problema, usando uma estratégia de pesquisa mais precisa e controles avançados de filtragem e limitação oferecida por muitos motores. No entanto, para muitos pesquisadores inexperientes este limite no número de resultados visualizáveis pode ser um problema, considerando que a resposta que eles procuram pode estar na parte que foi deixada indisponível.

URLs desconectadas

Para um crawler acessar uma página, o autor da página utiliza o "Enviar URL" do motor de busca, recurso para solicitar o rastreamento e a indexação da página, ou o rastreador a descobre a página por conta própria, encontrando um link para a página em alguma outra. Páginas da Web que não são enviadas diretamente aos motores de busca e que não têm links apontando para elas são chamadas de URLs “desconectadas” e não podem

29

ser rastreadas e indexadas simplesmente porque o crawler não tem como encontrá-las. Em resumo, a Opaque Web é grande, mas não é impenetrável. Pesquisadores determinados muitas vezes pode encontrar o material que nela se encontra, e motores de busca estão constantemente melhorando seus métodos para localizar e indexar esse conteúdo.

2.7.2.2 Private Web

A Private Web consiste em páginas Web tecnicamente indexáveis que têm sido deliberadamente retiradas da inclusão nos motores de busca. Anteriormente, foi falado neste documento que um desenvolvedor tem três maneiras que o permitem excluir uma página de um motor de busca. A primeira é realizada através da proteção de uma senha. O crawler não pode ir além de um formulário que requer um nome de usuário e senha. A segunda maneira é usar o arquivo robots.txt para impedir que o crawler acesse a página. E, por fim, a terceira maneira é utilizar a metatag noindex para evitar que o crawler leia o cabeçalho e indexe o corpo da página. Para a maior parte, a Private Web é de pouco interesse para a maioria dos pesquisadores. A páginas privadas usam apenas a Web como um eficiente meio de acesso, mas em geral não são destinadas para uso além das pessoas que têm permissão de acesso. Existem outros tipos de páginas que têm acesso restrito e que podem ser de interesse para pesquisadores, mas elas normalmente não estão incluídas nos motores de busca. Estas páginas são parte da Proprietary Web, descrita no próximo tópico.

2.7.2.3 Proprietary Web

Os motores de busca não podem acessar a maior parte da Proprietary Web porque essas páginas são acessíveis apenas para pessoas que tenham concordado com os termos especiais em troca da visualização do conteúdo.

30

Páginas da Proprietary Web podem ser simplesmente o conteúdo que é acessível apenas para usuários que queiram se registrar-se para acessá-lo. O registro em muitos casos é gratuito, mas um crawler não pode satisfazer as exigências do mais simpres processo de registro. Outros tipos de conteúdo proprietário só estão disponíveis por uma taxa, por página ou algum tipo de assinatura.

2.7.2.4 Truly Invisible Web Alguns sites ou páginas são realmente invisíveis, o que significa que há razões técnicas para que os motores de busca não possam rastrear e indexar o material que eles têm para oferecer. A definição do que constitui um recurso verdadeiramente invisível deve necessariamente ser um pouco fluido, uma vez que os motores estão em constante aperfeiçoamento e adaptação dos seus métodos para abraçar novos tipos de conteúdo. O mais simples, e menos provável de permanecer invisível ao longo do tempo, são páginas da Web que usam formatos de arquivo que os crawlers não estão atualmente programados para manusear. Estes formatos de arquivo incluem PostScript, PDF, Flash, Shockwave, executáveis (programas), e arquivos compactados. Existem duas razões para que os motores de busca não realizem a indexação desses tipos de arquivos atualmente. Primeira, os arquivos têm pouco ou nenhum contexto textual, por isso é difícil classificá-los, ou compará-los por relevância com outros documentos de texto. A adição de metadados ao HTML poderia resolver este problema, contudo, seria indexada a descrição dos metadados e não o conteúdo do arquivo em si. A segunda razão é que certos arquivos não aparecem nos índices de busca simplesmente porque os motores de busca optaram por omití-los. Eles podem ser indexados, mas não são. O mair problema, entretanto, sáo as páginas geradas dinamicamente. Novamente, em alguns casos, não é um problema técnico, mas sim falta de vontade da parte dos motores de indexar este tipo de conteúdo. Isto ocorre especialmente quando um script não interativo é usado para gerar uma página.

31

Estas são páginas estáticas e geram HTML estático que o motor poderia rastrear. O problema é que o uso indevido de scripts também podem levar os crawlers a armadilhas, citadas anteriormente neste documento. Isto é um grande problema para os motores, assim, eles simplesmente optam por não indexar URLs que contêm scripts. Finalmente, a informação armazenada em bases de dados relacionais, que não pode ser extraída sem uma consulta específica para o banco de dados, é verdadeiramente invisível. Crawlers não são programados para entender tanto a estrutura do banco de dados, como a linguagem de comando usada para extrair informações.

2.7.3 Web anônima

Paralelamente, existe uma Web com uma grande quantidade de informações privadas de valor inestimável para empresas privadas, governos e a cibercriminalidade. Na imaginação de muitas pessoas, que se limitam a informações superficiais, generalistas e, muitas vezes, sensacionalistas, os termos Deep Web, Invisible Web e Hidden Web estão associados a intenções criminosas protegidas por um mundo submerso e inacessível pelo conceito de anonimidade. Entretanto, como afirma Paganini (2012), esta imaginação é fruto de uma interpretação errada, afinal, a referida porção abordada neste tópico é uma rede diferente, mas com muitos assuntos comuns à Web acessível pelos motores de busca tradicionais. Dentre as diferenças, o seu acesso é realizado através de um software como o Tor, a busca é mais complexa devido à ausência de indexação do conteúdo e os domínios não tem extensões clássicas (.com, .gov, entre outras), geralmente apresentam o sufixo .onion.

32

3 O BOM USO DA CAMADA MAIS PROFUNDA DA WEB
O presente capítulo abordará o bom uso da Invisible Web, motivação principal da realização da pesquisa tratada neste documento, através da apresentação de dois casos de sucesso na exploração inteligente da supracitada camada profunda da Web. Assim como também desmistificará a visão errônea da porção anônima da Web como um repositório exclusivo para conteúdo ilícito.

3.1

CASO DE SUCESSO: DEEP WEB TECHNOLOGIES Segundo a página1 da empresa, a Deep Web Technologies é líder em

federated search e oferece um produto inovador, o Explorit Research Accelerator, que promete aos usuários acelerar suas pesquisas e atividades de análise, melhorando a qualidade dos resultados da pesquisa, através do acesso à informação que se encontra na Deep Web e não pode ser descoberta pelos motores de busca convencionais. Segundo Jacsó (2004), federated search consiste em transformar uma consulta, transmiti-la a um grupo de banco de dados distintos ou outros recursos da Web, com sintaxe apropriada, e apresentar a fusão dos resultados obtidos num formato unificado e sucinto, com o mínimo de duplicação possível. “Next-Generation” Federated Search é como a Deep Web

Technologies se refere à tecnologia que proporciona uma significativa vantagem sobre as formas tradicionais de pesquisa, porque aumenta significativamente a sua velocidade e abrangência, fornece em tempo real resultados, pode incluir informações de redes sociais como o Twitter, LinkedIn, Facebook, além de manter pesquisadores informados diariamente sobre material novo. Neste contexto, a Deep Web Technologies descreve seu produto Explorit Research Accelerator como a mais poderosa e confiável solução para federated research, sendo um software para bibliotecas e empresas, que
1

http://www.deepwebtech.com

33

pesquisa centenas de repositórios e documentos ao mesmo tempo, permitindo a busca por assunto, autor, título e fonte; oferece resultados relevantes classificados de acordo com filtros selecionados, como data, categoria, entre outros; fornece tecnologia Web 2.0 para permitir a integração da pesquisa Deep Web em intranets existentes; e disponibiliza recursos de alertas que mostram o que é uma informação verdadeiramente nova e importante. Através do uso da tecnologia “Next-Generation” Federated Search e seu produto Explorit Research Accelerator, a referida empresa vem conquistando clientes e gerando serviços que vêm se popularizando. Mednar e Biznar são aplicativos gratuitos para plataforma iOS da empresa Apple, que buscam informações médicas e de negócios em múltiplas fontes da Deep Web para satisfazer as consultas dos usuários. Estes

aplicativos utilizam federated search, pesquisando em tempo real e apresentando os resultados relevantes de acordo com os filtros selecionados pelo usuário. Além de obterem a informação mais relevante, obtém o que há de mais novo disponível. Lederman (2011), presidente e fundador da Web Technologies profundas, comentou: "Estamos no meio de uma mudança de paradigma,

onde mais e mais informação está sendo acessada através de dispositivos móveis inteligentes. Agora, com Biznar e Mednar disponíveis na plataforma iOS, nós temos tido um claro caminho para trazer o conteúdo da Deep Web em qualquer lugar que o usuário esteja” [21]. Trabalhando em parceria com a Texas Medical Center (TMC), a maior instituição médica do mundo e a 3E Enterprises, uma consultoria de software com sede no Texas, a DWT projetou, desenvolveu e testou versões iOS dos aplicativos Biznar e Mednar. Estas aplicações agora servem como protótipos para a implementação de aplicativos personalizados para clientes da plataforma móvel, como a TMC. A Figura 6 mostra o referido aplicativo MedNar.

34

Figura 6 - Tela do aplicativo MedNar. Fonte: DeepWebTechnologies .

1

Outro fruto proveniente das soluções da Deep Web Technologies é o Science.gov, um portal para informações de ciência governamental e resultados de pesquisa. Atualmente em sua quinta geração, Science.gov fornece uma pesquisa em mais de 55 bases de dados científicos e 200 milhões de páginas de informação científica, com apenas uma consulta, tornando-se uma porta de entrada para mais de 2100 sites científicos. Science.gov é uma iniciativa interinstitucional de 17 organizações científicas do governo norte-americano e 13 agências federais. Estas agências formam a Science.gov Alliance, que voluntariamente governa o portal Science.gov, apresentado na Figura 7. Segundo informações do próprio portal, o conteúdo do Science.gov é uma contribuição das agências participantes, comprometidas em atender aos cidadãos interessados em ciência, incluindo cientistas, estudantes, professores e a comunidade empresarial. Muitas destas agências são membros do CENDI2, que presta apoio administrativo ao referido site e mantém sua seção Explore Selected Science Websites by Topic. O site informa, ainda, que a sua pesquisa

http://www.deepwebtech.com/wp-content/uploads/2011/03/Explorit-Datasheet.pdf, acesso em julho de 2012.
2

1

Grupo de gestores de agências do governo dos Estados Unidos.

35

é financiada pelo Department of Energy (DOE) e o Office of Scientific and Technical Information (OSTI), que também o hospeda.

Figura 7 - Portal science.gov. Fonte: Autor .

1

A Deep Web Technologies também apresenta como seu cliente, o WorldWideScience.org2, que se descreve como um portal científico global, que acelera a descoberta e o progresso científico, proporcionando uma busca às bases de dados de todo o mundo, em tempo real e tradução multilingue da literatura científica. A Aliança WorldWideScience, uma parceria multilateral composta por membros países, fornece a estrutura de governança para o

Imagem capturada pelo autor no endereço http://www.science.gov, acessado em julho de 2012.
2

1

http://www.science.gov

36

WorldWideScience.org, desenvolvido e mantido pelo OSTI. A Figura 8 exibe a página principal do referido portal.

Figura 8 - Portal WorldWideScience.org. Fonte: Autor .

1

Desenvolvido numa parceria das bibliotecas da Stanford University e a Deep Web Technologies, o XSearch fornece aos alunos e professores uma opção de pesquisa em várias fontes online. Embora tenha soluções prontas para serem implantadas em universidades e outras organizações, a empresa trabalhou de perto com Stanford para fornecer funcionalidades que a universidade não teria encontrado nas soluções prontas, como a integração com os serviços de autenticação LDAP. Além do trabalho personalizado de integração, o Explorit, já mencionado anteriormente, permite aos estudantes e professores, através de páginas de pesquisa personalizadas, construir seus próprios aplicativos federated search que busca apenas as fontes que eles precisam.

1

Imagem capturada pelo autor no endereço http://worldwidescience.org, acessado em julho de 2012.

37

O lançamento inicial do XSearch, que pode ser visto na Figura 9, incluiu 28 fontes que contêm links para artigos de periódicos, citações de patentes, anais de conferências e ebooks. Lederman (2010), comentou sobre o seu envolvimento na parceria, afirmando "estamos muito satisfeitos por termos trabalhado tão de perto com Stanford para trazer federated search aos seus alunos e funcionários. Stanford tinha uma série de requisitos únicos que não poderiam ter sido resolvidos com outros sistemas de busca (...) ".

Figura 9 - Portal XSearch. Fonte: Autor .

1

O software Explorit também é usado por clientes corporativos, líderes mundiais, como a Boeing, maior empresa do mundo no setor aeroespacial e maior fabricante de aviões militares e comerciais, que também projeta e fabrica helicópteros, mísseis, satélites, sistemas avançados de informação e comunicação, entre outros; a Intel, multinacional americana e maior fabricante mundial de chips semicondutores de tecnologia em semicondutores; e a BASF, maior indútria química do mundo. A Intel, por exemplo, necessitava de uma solução de busca que oferecesse interface fácil de usar, poderosa otimização dos resultados e

1

Imagem capturada pelo autor no endereço https://xsearch.stanford.edu/search, acessado em julho de 2012.

38

capacidade de integrar seguramente uma grande variedade de fontes, incluindo bases de dados internas, eliminando a dificuldade que seus funcionários tinham de realizar pesquisas. Barclay Hill (2009), gerente da Intel Library Web & Systems Group, declarou "os produtos e serviços da Deep Web Technologies contribuiram substancialmente para o nosso sucesso. Atráves da federated search na Deep Web, conseguimos uma perfeita integração da pesquisa com o portal da nossa biblioteca. Temos também uma solução de pesquisa gerenciável e sustentável de federated search que nós podemos construir para o futuro”. A Figura 10 apresenta uma das telas do referido produto da parceria entre a Intel e a Deep Web Technologies.

Figura 10 - Tela do sistema da Intel. Fonte: Deepwebtech .

1

3.2

CASO DE SUCESSO: BRIGHTPLANET A BrightPlanet, de acordo com seu site2, foi a pioneira em inteligência

na Deep Web, sendo, inclusive, a primeira a usar este termo para denominar a camada profunda da Web, supracitada neste documento. Há mais de 10 anos vem atuando com as ferramentas e serviços mais rápidos para ajudar seus clientes. E, através de soluções patenteadas e proprietárias, abraçam o desafio

1

http://www.deepwebtech.com/customers/intel.html, acesso em julho de 2012. http://www.brightplanet.com

2

39

de colher Big Data 1 da camada mais profunda da Web, oferecendo capacidade de inteligência no acesso aos recursos inexplorados desta camada. Dentre estas soluções está o Deep Web Harvester, que a empresa define como a ferramenta mais abrangente disponível para aquisição do conteúdo da Deep Web. Após adquirir o conteúdo, a tecnologia enriquece, normaliza e fornece informações preparadas para seus clientes analisarem. Deep Web Harvester é completamente customizável, tornando mais fácil a personalização de pesquisas, de acordo com a necessidade específica do usuário, além de também apresentar capacidade de filtragem de documentos virtualmente ilimitada, reunindo informações com análises prontas. Este serviço está disponível como uma interface da Web independente através de SaaS ou como uma solução corporativa acessível por trás da segurança do firewall do cliente. Arnold (2009) afirma que a tecnologia BrightPlanet é usada por agências governamentais, negócios, e empresas de serviços para obter informações pertinentes a pessoas, lugares, eventos e outros temas. Dentre as agências, estão as de Intelligence Open Source (OSINT), que a BrightPlanet define, resumidamente, como a prática de usar a Web para criar inteligência. Amplamente, OSINT é uma disciplina de processamento de informação que envolve encontrar, selecionar e adquirir informações de fontes públicas e analisá-las para produzir inteligência acionável. Na Comunidade de Inteligência dos Estados Unidos (U.S. Intelligence Community), o termo "open" se refere às fontes disponíveis publicamente, ao contrário de fontes secretas ou confidenciais. Muitos outros "INTs” existem, como HUMINT, que explora a inteligência dos seres humanos através da comunicação e entrevistas, e o GEOINT, inteligência geo-espacial recolhida a partir de satélites, fotografias aéreas e mapas/terreno de dados. A Figura 11 apresenta uma imagem da página principal da HUMINT.
De acordo com a IBM (http://www-01.ibm.com/software/data/bigdata, acessado em julho de 2012), Big Data é um temo que define a imensa quantidade de dados oriundos de diversas fontes, como sensores utilizados para recolher informação sobre o clima, mensagens de redes sociais, fotos e vídeos digitais, registros de transações de compra, sinais de GPS dos celulares, entre outras.
1

40

Figura 11 - Site HUMINT. Fonte: Autor .

1

Segundo Pederson (2010), CEO da BrightPlanet,

agências de

inteligência dos EUA têm explorado Big Data a partir da Web por mais de uma década. Estas, dependem da capacidade de coletar dados em escala, transformar os dados brutos em informações relevantes e dar sentido à informação para apoiar decisões com inteligência acionável. Entretanto, noventa por cento de conteúdo Big Data está no universo em expansão de conteúdo não-estruturado e a grande maioria destas informações estão ocultas na Deep Web. Neste contexto, Pederson (2010) afirma que durante anos, as agências de inteligência dos EUA têm utilizado ferramentas para encontrar e recuperar dados públicos, visitando sites específicos, tanto da Surface Web como da Deep Web, através de tecnologias da BrightPlanet. Neste documento, é válido mencionar também um projeto da BrightPlanet, o portal CompletePlanet exibido na Figura 12, considerado o

preferido por Will Bushee (um dos líderes da empresa). O portal permite consultar em mais de setenta mil bases de dados da Deep Web, simultaneamente. Oferece, ainda, a possibilidade de pesquisar por temas como agricultura, educação, esportes, literatura, medicamentos, música, viagem, entre outros.

Imagem capturada pelo autor no endereço http://www.humints.com, acessado em julho de 2012.

1

41

Figura 12 - Portal CompletePlanet. Fonte: Autor .

1

Assim como este portal da BrightPlanet, há vários outros, entre eles:

a) InfoMine (http://infomine.ucr.edu): desenvolvido e mantido pela biblioteca da University of California. b) Intute (http://www.intute.ac.uk): criado por universidades da Inglaterra. c) o IncyWincy (http://www.incywincy.com): com recurso de busca por imagens. d) The Virtual Library WWW (http://vlib.org): biblioteca virtual, nas qual as páginas centrais são mantidas por um conselho criado por Tim Berners-Lee. e) InfoPlease (http://www.infoplease.com): contém almanaques, enciclopédias, biografias, entre outros materiais. f) LexiBot (http://ww5.lexibot.com): também produzido pela

BrightPlanet, usuários realizam buscas usando texto simples, linguagem natural ou consultas booleanas em centenas de bases

Imagem capturada pelo autor no endereço http://aip.completeplanet.com, acessado em julho de 2012.

1

42

de dados simultaneamente, para filtrar e analisar os dados, e publicar os resultados como páginas Web. g) Australian Government Geoscience Australia base de

(http://www.ga.gov.au/oracle/nuclear-explosion.jsp):

dados do governo australiano que mantém um histórico com local, tempo e tamanho das explosões nucleares que ocorreram desde 1945. h) World Fact Book (http://www.worldfactbook.com): um diretório pesquisável com informações de países, que incluem perfis, mapas, referências, bandeiras, entre outras. i) Directory of Open Access Journal (http://www.doaj.org/): uma coleção de revistas científicas e acadêmicas mantida pela Lund University. j) PubMed (http://www.ncbi.nlm.nih.gov/pubmed): um serviço da US National Library of Medicine, com mais de 18 milhões de referências sobre Medicina. k) TechDeepWeb (http://www.techdeepweb.com): guia de

informações na Deep Web para profissionais de TI, descrevendo ferramentas de busca úteis, portais e sites.

3.3

DESMISTIFICANDO A WEB ANÔNIMA Finalmente, como mencionado anteriormente, existem páginas da

Invisible Web anônimas que só podem ser acessadas por ferramentas específicas, como o Tor. O referido software se encontra no site oficial do projeto e é capaz de trabalhar em todas as plataformas, além de conter plugins que tornam a integração simples com aplicações existentes, como

navegadores. Recomenda-se navegar na Invisible Web através de uma distribuição de sistema operacional inicializável a partir de qualquer máquina, evitando deixar rastros. Uma vez que o pacote Tor é instalado, uma versão portátil do navegador Firefox é disponível, sendo ideal para a navegação anônima devido

43

a um controle adequado dos plugins instalados, que não vêm na versão comercial do navegador. E, apesar de a rede ter sido projetada para proteger a privacidade do usuário, há aqueles que sugerem o uso de uma VPN, para realmente estar anônimo. Vale mencionar mais uma vez que o usuário deve ter em mente que a navegação na Web anônima é mais complexa pela falta de indexação do seu conteúdo e que é válido adotar uma coleção de Wikis e sites favoritos que têm a finalidade de categorizar e agregar grupos para pesquisa, além do fato das páginas possuírem domínios com extensões .onion. O site Pastebin1 publicou uma lista de links que podem auxiliar a navegação nesta porção da Web, entre estes links estão:

a) HiddenWiki (http://kpvz7ki2v5agwt35.onion): uma das páginas mais conhecidas da rede Tor, apresenta vários links relacionados a diversas categorias .
b) Torch (http://xmh57jrzrnw6insl.onion): um search engine da rede Tor.

c) CircleServices (http://4eiruntyxxbgfv7o.onion): um dos endereços mais conhecidos para serviços de hospedagem de arquivos. d) Onion Fileshare (http://f3ew3p7s6lbftqm5.onion): disponibiliza

2GB de espaço para armazenamento de arquivos. e) Freedom Hosting (http://xqz3u5drneuzhaeo.onion): hospeda uma grande porção dos sites .onion. f) Onionforum (http://65bgvta7yos3sce5.onion): um fórum para discussões.

Na Figura 13 é possível visualizar a janela de conexão do software Tor informando que o usuário está conectado, assim como uma página informando que o navegador, que acompanha o pacote de instalação, está configurado para usar a rede. E a Figura 14 exibe a página da Hidden Wiki, uma das principais páginas da rede Tor, que reúne diversos links, como mencionado anteriormente.
1

http://pastebin.com/ADTynHbX

44

Figura 13 - Conectando à rede Tor. Fonte: Autor .

1

Figura 14 - Hidden Wiki. Fonte: Autor .

2

1

Imagem capturada pelo autor.

2

Imagem capturada pelo autor no endereço http://kpvz7ki2v5agwt35.onion, acessado em julho de 2012.

45

4 CONSIDERAÇÕES FINAIS
Pesquisando na Web sobre Invisible Web ou Deep Web é mais comum encontrar textos superficiais e muitas vezes sensacionalistas, que a generalizam como um mero repositório de material ilícito e que ainda recomendam manter distância àqueles que não querem ter seu computador invadido por vírus destruidores. Sim, a Invisible Web surpreende pela facilidade de encontrar pedofilia, canibalismo, tráfico de drogas e humanos, entre tantas outras práticas abomináveis, que parece ganhar força com o anonimato oferecido por redes fechadas, tal qual Tor. Entretanto, a Invisible Web vai além de uma rede fechada que armazena páginas daqueles que querem compartilhar conteúdo ilícito. Podese entender a Invisible Web como um termo que define todas as páginas que não são indexadas pelos motores de busca convencionais, até mesmo o revolucionário Google, seja por limitações técnicas ou deliberados critérios de escolha. Estas páginas formam um imenso universo de informação de relevante valor, invisível para a maioria, mas visível para empresas pioneiras que já a tornaram seu principal serviço, como a Deep Web Technologies e a BrightPlanet. Fruto do investimento em inteligência na Invisible Web, estas empresas possuem tecnologia que atrai clientes como agências governamentais, importantes universidades do mundo e empresas líderes mundiais que desejam agregar valor aos seus serviços. Automatizar, monitorar e rastrear pesquisas em tempo real, através de inteligência acionável nestas fontes profundas, torna-se uma atraente opção para governos, empresas e indivíduos limitados pelas ferramentas convencionais de busca neste forte meio que é a Web nos dias de hoje. A Invisible Web contempla bases de dados de extensa quantidade, qualidade e variedade, que podem ser pesquisadas simultaneamente. Um verdadeiro tesouro que merece uma reflexão sobre a melhor forma de obter informação na Web. Escolher um único buscador desenvolvido com algoritmos geniais, mas que se limita à camada superficial da Web, parece uma opção prática, embora não aquela que colherá os resultados mais satisfatórios.

46

Neste contexto apresentado, incentiva-se o desenvolvimento de pesquisas e trabalhos futuros que invistam na exploração inteligente da Deep Web. Nos últimos anos, por exemplo, alguns dos motores de busca mais abrangentes têm trabalhado em algoritmos capazes de pesquisar nas porções mais profundas da Web, tentando encontrar arquivos como .pdf, .doc, .xls, .ppt, .ps, entre outros. Estes arquivos são predominantemente utilizados por empresas para comunicação interna e divulgação de informações para mundo externo. Assim, pesquisar essas informações utilizando técnicas de busca mais profunda e algoritmos mais recentes permite obter uma grande quantidade de informações inacessíveis. Vale mencionar também um estudo realizado por membros de algumas universidades, entre elas a University of Illinois, que propõe um clustering interativo capaz de integrar diferentes interfaces de fontes de dados disponíveis na Deep Web. No âmbito da Web Semântica, uma pesquisa da University of Karlsruhe propõe a criação de metadados a partir de informações dinâmicas utilizando um processo de anotação que estruture, contextualize e mapeie estes dados. Enfim, é possível observar que já há pesquisas que investem na Invisible Web, entretanto, juntas ainda somam um número pequeno, desproporcional ao valor dos recursos inestimáveis que esta camada oferece. Diante disto, enfatiza-se a necessidade e o benefício de investir em pesquisas que superem as limitações técnicas e possibilitem ultrapassar cada vez mais a superfície da Web, tornando os dados mais profundos amplamente acessíveis. corporativas que eram anteriormente indisponíveis ou

47

5 REFERÊNCIAS
[1] IFFAT, R., SAMI, L., Understanding the Deep Web. Library Philosophy and Practice, 2010. Disponível em <http://ieeexplore.ieee.org>. Acesso em fevereiro de 2012.

[2] BERGMAN, M. K., The DeepWeb: Surfacing Hidden Value. Journal of Electronic Publishing. BrightPlanet, 2001. Disponível em

<http://www.brightplanet.com/2012/06/the-deep-web-surfacing-hidden-value>. Acesso em fevereiro de 2012.

[3]

FILHO,

A.

M.,

A

era

da

Informação.

Disponível Acesso

em: em:

<http://www.espacoacademico.com.br/002/02col_mendes.htm> fevereiro de 2012.

[4] TOMAÉL, M. I., CATARINO, M. E., VALENTIM, M. L. P., JÚNIOR, O. F. A., SILVA, T. E., ALCARÁ, A. R., SELMINI, D. C., MONTANARI, F. R., Fontes de Informação na Internet. Disponível em:

<http://snbu.bvs.br/snbu2000/docs/pt/doc/t138.doc>. Acesso em fevereiro de 2012.

[5] RAGHAVAN, S., MOLINA-GARCIA, H., Crawling the HiddenWeb. Computer Science Department Stanford University. Disponível em

<http://ieeexplore.ieee.org>. Acesso em fevereiro de 2012.

[6] LACKIE, R. J., Those Dark Hiding Places: The Invisible Web Revealed. Rider University Libraries, 2009. Disponível em

<http://www.robertlackie.com/invisible/index.html>. Acesso em fevereiro de 2012.

[7] PAGANINI, P., What is the Deep Web? A first trip into the abyss. Disponível em: <http://securityaffairs.co/wordpress/5650/cyber-crime/what-is-the-deep-

web-a-first-trip-into-the-abyss.html>. Acesso em março de 2012.

48

[8] FERREIRA, A. B. H., Dicionário Aurélio Eletrônico: século XXI. Versão 3.0. Ed. Nova Fronteira e Lexikon Informática Ltda, 1999.

[9] CUNHA, J. A., Web Semântica: “O estado da arte”. Monografia apresentada à disciplina Monografia do curso de Biblioteconomia do Centro de Ciências Sociais Aplicadas da Universidade Federal do Rio Grande do Norte. Natal, 2006.

[10] KOCH, I. G. V., Desvendando os segredos do texto. 4. ed. São Paulo: Cortez, 2005. 168p.

[11] PRIMO, A., O Aspecto Relacional das interações na Web 2.0. E- Compós (Brasília), v.9, p. 1-21, 2007. Disponível em:

<http://www6.ufrgs.br/limc/PDFs/web2.pdf>. Acesso em março de 2012.

[12] O’REILLY, T., What Is Web 2.0: Design Patterns and Business Models for the Next Generation of Software. Publicado em Copyright 2006 O’Reilly Media, Inc., 2006. Disponível em: <http://www.oreilly.com>. Acesso em março de 2012.

[13] JARDIM, A. L., Aplicações de Modelos Semânticos em Redes Sociais. Dissertação apresentada como requisito parcial para a obtenção do grau de Mestre em Ciência da Computação. Pelotas, 2010.

[14]

W3C:

Uso

de

Padrões

Web

2000.

Disponível

em:

<http://www.w3c.br/palestras/2009/W3CeGovES.pdf>. Acesso em março de 2012.

[15] CENDÓN, B. V., Ferramenta de busca na Web. Ci. Inf., Brasília, v. 30, n. 1, p. 39-49, jan./abr. 2001. Disponível em

<http://revista.ibict.br/ciinf/index.php/ciinf/article/view/222>. Acesso em março de 2012.

49

[16]

Wikipedia.

Google

Search.

Disponível

em:

<http://en.wikipedia.org/wiki/Google_Search>. Acesso em julho de 2012.

[17] WESTIN, A. Privacy and Freedom. Bodley Head, 1987

[18] DINGLEDINE, R., MATHEWSON, G., SYVERSON, P., Tor: The SecondGeneration Onion Router. Disponível em: Acesso

<https://svn.torproject.org/svn/projects/design-paper/tor-design.pdf>. em julho de 2012.

[19]

CARVALHO,

R.

H.,

Sistemas

de

Anonimato.

Disponível

em:

<https://svn.torproject.org/svn/projects/design-paper/tor-design.pdf>. em julho de 2012.

Acesso

[20] SHERMAN, C., PRICE, G., The Invisible Web: Uncovering Sources Search Engines Can’t See. Library Trends, 2003.

[21] NOILSON, C. T. A., Introdução a Invisible Web. Disponível em http://ncaio.wordpress.com/2011/07/18/introducao-a-invisible-web. Acesso em julho de 2012.

[22] Deep Web Technologies. Disponível em <http://www.deepwebtech.com>. Acesso em julho de 2012.

[23] JACSÓ, P. Internet Insights - Thoughts about Federated Searching. Information Today, 21(9) October, 2004, p.17. Disponível Acesso em em

<http://www2.hawaii.edu/~jacso/extra/federated/federated.htm>. julho de 2012.

[24] ARNOLD, S. BrightPlanet Unlocks the Deep Web. Disponível em <http://brightplanet.com/wp-content/uploads/2012/03/BrightPlanet-Unlocks-theDeep-Web.pdf>. Acesso em julho de 2012.

50

[25] PEDERSON, S., Exploiting Big Data from the Deep Web - The new frontier for creating intelligence. BrightPlanet, 2010.

[26] Deep Web Technologies. Deep Web Technologies Mobilizes Federated Search. Santa Fe, 2011. Disponível em

<http://www.deepwebtech.com/2011/11/deep-web-technologies-mobilizesfederated-search>. Acesso em julho de 2012.

[27] BrightPlantet. Disponível em < http://www.brightplanet.com>. Acesso em julho de 2012.