Você está na página 1de 44

Garamond 18

Universidade de Trás-os-Montes e Alto Douro


Garamond 16

Curso de Mestrado em Tecnologias das Engenharias

Britannic Bold 26

Sistemas Automáticos de
Recolha de Informação na WEB

Garamond 12

Garamond 12
António Manuel Silva Pinto Soares

Maio / 2004
Universidade de Trás-os-Montes e Alto Douro

Curso de Mestrado em Tecnologias das Engenharias

Sistemas Automáticos de
Recolha de Informação na WEB
Garamond 16

Dissertação do curso de Mestrado em Tecnologias das Engenharias


de
António Manuel Silva Pinto Soares

Garamond 12

Dissertação submetida à Universidade de Trás-os-Montes e Alto Douro, para


cumprimento dos requisitos necessários à obtenção do grau de Mestre em Tecnologias da
Engenharias, elaborada sob a orientação do Prof. Doutor João Manuel Pereira Barroso,
Professor Auxiliar da Universidade de Trás-os-Montes e Alto Douro, e co-orientação do
Prof. Doutor José Afonso Moreno Bulas Cruz, Professor Catedrático da Universidade de
Trás-os-Montes e Alto Douro.

Vila Real, 17 de Maio de 2004


A todos os meus ...
TitulosOutros

Agradecimentos

Normal1P
TitulosOutros

Não poderia deixar de agradecer deixar de agradecer deixar de agradecer deixar de


agradecer deixar de agradecer deixar de agradecer deixar de agradecer deixar de agradecer
...
Agradeço também também também também também também também também
também também também também também também também.

Quebra de secção
contínua

Normal
Resumo

Com cerca de 8 biliões de páginas, a World Wide Web, ou simplesmente Web, é um campo
fértil de investigação para a área da Recuperação de Informação. A Recuperação de
Informação é definida, actualmente, como sendo a recuperação automática de todos os
documentos relevantes, recuperando, ao mesmo tempo, a menor quantidade possível de
documentos irrelevantes. A recuperação de documentos tem por objectivo satisfazer uma
necessidade de informação do utilizador, expressa ou em linguagem natural, ou na
linguagem de interrogação específica do sistema.
A enorme quantidade de informação disponibilizada na Web gerou uma necessidade
de se desenvolverem sistemas automáticos de recuperação de informação que percorram a
Web, armazenem e indexem o seu conteúdo, permitam a pesquisa ao seu índice,
recuperem documentos relevantes e, face a uma interrogação efectuada pelo utilizador, os
ordenem por um critério de relevância. Estes sistemas automáticos de indexação da Web,
designados como motores de pesquisa, desempenham um papel fundamental na recolha,
no armazenamento, no processamento e na filtragem de informação da Web.
Um estudo completo do funcionamento dos componentes integrantes dos motores
de pesquisa de índole geral implicaria uma análise do modo como estes sistemas
percorrem, armazenam, indexam e ordenam o espaço Web, público e indexável. No
entanto, o trabalho apresentado nesta dissertação foca com maior detalhe: (i) o
enquadramento geral da Recuperação de Informação na Web; (ii) a análise dos desafios
que presidem ao desenvolvimento de motores de pesquisa de grande escala operados
comercialmente; (iii) a forma como estes sistemas são implementados, a nível dos
componentes que lhes permitem o percurso e recolha automáticos de todo o espaço Web,
público e indexável.

Quebra de secção
contínua

Travessões.
Numeração romana

—v—
Abstract

With about 8 billion Web pages, the World Wide Web, or simply the Web, it’s a fertile
ground of investigation for the Information Retrieval field. Information Retrieval is
currently defined as the automatic retrieval of all relevant documents, retrieving, at the
same time, the smallest possible amount of irrelevant documents. Document retrieval aims
at satisfying a user information need, expressed in natural language, or in the system’s
specific query language.
The enormous amount of information available in the Web has generated the need
for the development of automatic information retrieval systems. These crawl the Web,
store and index its contents, allow searching its index, retrieve relevant documents and,
when facing a query submitted by the user, order them by a criterion based on its
relevance. These automatic Web indexation systems, known as search engines, play a
fundamental role in the Web information gathering, storing, processing and filtering
processes.
A complete analysis of the search engine components implies the analysis of the way
that these systems crawl, store, index and rank the Web’s space, public and indexable.
However, the work presented in this thesis is focused on: (i) the general framing of
Information Retrieval in the Web; (ii) the challenges that preside the development of
large-scale search engines commercially operated; (iii) the way that those systems are
implemented in terms of the components that automatically crawl and gather all public
and indexable Web’s space.

Quebra de secção
contínua

— vi —
Índice Analítico

AGRADECIMENTOS......................................................................................................................... IV
RESUMO ................................................................................................................................................. V
ABSTRACT ............................................................................................................................................ VI
ÍNDICE ANALÍTICO.........................................................................................................................VII
ÍNDICE DE FIGURAS ..................................................................................................................... VIII
ÍNDICE DE QUADROS ......................................................................................................................IX
ABREVIATURAS E SIGLAS ............................................................................................................... X
1 INTRODUÇÃO.................................................................................................................................... 1
1.1 ÂMBITO DA DISSERTAÇÃO ............................................................................................................ 2
1.2 ENQUADRAMENTO E PROCESSO DE INVESTIGAÇÃO..................................................................... 4
1.3 ORGANIZAÇÃO DA DISSERTAÇÃO ................................................................................................ 6
2 A RECUPERAÇÃO DE INFORMAÇÃO NA WEB ....................................................................... 7
2.1 ENQUADRAMENTO DA RECUPERAÇÃO DE INFORMAÇÃO APLICADA À WEB ............................. 7
2.1.1 Medidas de Performance de Sistemas IR ....................................................................... 9
2.2 CARACTERÍSTICAS DA WEB RELEVANTES À IR........................................................................... 11
2.2.1 Composição e Estrutura ................................................................................................. 11
2.2.1.1 XML ................................................................................................................... 14
2.3 CONCLUSÃO ................................................................................................................................ 15
3 CONSIDERAÇÕES FINAIS............................................................................................................ 18
3.1 CONSIDERAÇÕES FINAIS .............................................................................................................. 18
3.2 DISCUSSÃO ................................................................................................................................... 18
3.3 CONTRIBUTOS .............................................................................................................................. 19
3.4 TRABALHO FUTURO..................................................................................................................... 20
3.5 CONCLUSÃO ................................................................................................................................ 20
GLOSSÁRIO.......................................................................................................................................... 22
REFERÊNCIAS BIBLIOGRÁFICAS.................................................................................................. 24
ANEXO A................................................................................................................................................ 29
LISTAS DE RESULTADOS PARA AFERIÇÃO DAS PERCENTAGENS DE RESULTADOS QUE O
COPERNIC CONSEGUE RECOLHER DOS MOTORES DE PESQUISA, POR COMPARAÇÃO COM
O NÚMERO TOTAL DE RESULTADOS QUE OS MOTORES DE PESQUISA PODEM RELATAR.............. 29

ANEXO B ................................................................................................................................................ 31
LISTA DE MARCAS REGISTADAS ............................................................................................................ 31

— vii —
Índice de Figuras

Figura 2-1 Permuta de concessões existente em termos da performance de um sistema IR


e relação típica entre precisão e cobertura. ................................................................ 10
Figura 2-2 Um conjunto denso de hubs e autoridades. ..................................................................... 10
Figura 2-3 Aspecto de uma página escrita em HTML....................................................................... 12
Figura 2-4 Extracto do código HTML de uma página Web que ilustra a utilização das
etiquetas HEAD, TITLE e META, entre outras. .......................................................... 13
Figura 2-5 Exemplo de uma porção de código em HTML. .............................................................. 15
Figura 2-6 Exemplo de uma porção de código em XML. ................................................................. 15

— viii —
Índice de Quadros

Quadro 1-1 Referências bibliográficas consideradas pertinentes sobre a Recuperação


de Informação (IR) na Web. ........................................................................................... 4
Quadro 2-1 Comparação das medidas de performance utilizadas em sistemas IR
clássicos e em sistemas IR Web. .................................................................................. 11
Quadro 2-2 Elementos do Dublin Core Metadata Initiative................................................................. 15
Quadro 2-3 Relação entre o número de resultados que os motores de pesquisa relatam
nos diferentes modos de pesquisa e o número que o Copernic consegue
recolher desses mesmos motores de pesquisa........................................................... 16
Quadro 3-1 Número de resultados recolhido pelo Copernic e número de resultados
verificado no Altavista relativo às diferentes interrogações nos diferentes
modos de pesquisa. ....................................................................................................... 30

— ix —
Índice de Equações

—x—
XI

Abreviaturas e Siglas

Glossário

ACM: Association for Computing Machinery.


AIX: Advanced Interactive Executive.
API: Application Programming Interface.
ASCII: American Standard Code for Information Interchange.
Bot: robot.
CERN: Conseil Européen pour la Recherche Nucléaire.
CGI: Common Gateway Interface.
COM: Component Object Model.
CPU: Central Processing Unit.
CRC: Cyclical (ou Cyclic) Redundancy Check.
CSS: Cascading Style Sheets.
DCMI: Dublin Core Metadata Initiative.
DCOM: Distributed Component Object Model.
DHTML: dynamic HTML.
DNS: Domain Name System.
E-mail: electronic mail.
FIFO: First In, First Out.
FTP: File Transfer Protocol.
GB: gigabyte.
HTML: Hypertext Markup Language.
HTTP: Hypertext Transfer Protocol.
HTTPd: Hypertext Transfer Protocol Daemon.
I/O: Input/Output.
IDE: Integrated Device Electronics.
IDF: Inverse Document Frequency.
IEEE: Institute of Electrical and Electronics Engineers, Inc.
IETF: Internet Engineering Task Force.
IP: Internet Protocol.
IR: Information Retrieval.
XII

RDF: Resource Description Framework.


RFC: Request for Comments.
RTF: Rich Text Format.
SGML: Standard Generalized Markup Language.
SMIL: Synchronized Multimedia Language.
TCP/IP: Transmission Control Protocol/Internet Protocol.
TF: Term Frequency.
UNC: Uniform Naming Convention.
URI: Uniform Resource Identifier.
URL: Uniform Resource Locator.
URN: Uniform Resource Name.
W3: World Wide Web.
W3C: World Wide Web Consortium.
WWW: World Wide Web.
XML: Extensible Markup Language.
Título 1

1 INTRODUÇÃO

A World Wide Web, também designada WWW, Web ou W3, surgiu em 1989 na sequência
de um projecto de informação em rede, no Conseil Européen pour la Recherche
Nucléaire1 (CERN), em que Timothy Berners-Lee, agora director do World Wide Web
Consortium2 (W3C), desenvolveu uma visão do projecto que se concretizou no que é
reconhecido actualmente como um dos maiores repositórios de informação mundial, “a
materialização do conhecimento humano” [45].
A Web é um grande espaço digital distribuído e hiperligado, constituído por uma
colecção imensa de documentos com formatos heterogéneos, tais como texto, imagem,
áudio e vídeo, que pode ser encarada como uma grande base de dados não estruturada e
ubíqua. Estes documentos apresentam conteúdos que abordam as mais variadas temáticas:
páginas pessoais, museus virtuais, catálogos de produtos e serviços, livrarias digitais e
publicações científicas. A crescente importância deste meio como forma de disseminação
da informação gerou uma necessidade de se desenvolverem sistemas que, de uma forma
eficiente, automática e precisa, façam a gestão, recuperem e filtrem a informação desta
“base de dados”. Estes sistemas, os que indexam automaticamente a Web, designam-se
motores de pesquisa. Sem estes, grande parte da Web permaneceria invisível ao utilizador.
Os motores de pesquisa permitem que os sites de pequena dimensão se tornem visíveis a
um custo reduzido, contribuindo assim para que a Web não seja dominada pelos sites mais
poderosos, uma vez que estes apresentam uma maior capacidade de se divulgarem por
outros meios (e.g., televisão).
Os motores de pesquisa são sistemas de recuperação de informação que possibilitam
a pesquisa de informação da Web. A Recuperação de Informação3 (Information Retrieval),
uma área bem estabelecida, visa recuperar os documentos relevantes de uma colecção de
documentos. Os motores de pesquisa são, assim, sistemas de recuperação de informação
que, de uma forma automática, percorrem a Web, recolhem as suas páginas e retiram delas
os termos com os quais constróem um índice – face à dinâmica e tamanho imensos da
Web, a indexação é, por excelência, o método que permite, duma forma escalável e eficaz, a
pesquisa da Web. Entenda-se por páginas documentos escritos em HTML ou, mais
simplesmente, páginas Web.
A indexação consiste em extrair, de documentos textuais Web, termos para a
construção de um índice que permita ao motor de pesquisa seleccionar, desse índice, os
documentos que satisfaçam as necessidades de informação do utilizador. Por forma a
satisfazer estas necessidades de informação, o motor de pesquisa fornece uma linguagem
específica na qual o utilizador expressa uma interrogação – normalmente através de um

1http://www.cern.ch Texto de nota de


2http://www.w3c.org rodapé NCHF
3 “Information Retrieval” é traduzido na literatura científica portuguesa de duas diferentes formas: “Extracção de

Informação” e “Recuperação de Informação”. Uma vez que existe uma outra área, distinta da “Information Retrieval”, a
da “Information Extraction”, que, tal como a “Information Retrieval”, se insere num campo mais vasto de investigação que
é o do processamento de linguagem natural, optou-se, por forma a evitar uma ambiguidade, pela tradução
“Recuperação de Informação”.

Numeração arábica

—1—
Sistemas Automáticos de Recolha de Informação na Web 2
Papyrus 11, 12
1 Introdução
Papyrus 9

formulário onde o utilizador introduz os termos de pesquisa. Após o processamento da


interrogação, o motor de pesquisa efectua uma pesquisa ao seu índice e relata ao utilizador
uma lista de apontadores para documentos que, segundo um critério de relevância
proprietário, respondem à interrogação efectuada. Entenda-se por relevância a medida
segundo a qual o motor de pesquisa atribui um grau de importância a um documento em
relação à interrogação efectuada pelo utilizador ao sistema.
Esta dissertação apresenta os desafios implicados no projecto e na implementação
de motores de pesquisa de grande escala operados comercialmente, e analisa as técnicas e
os algoritmos necessários ao percurso e à recolha automáticos de todo o espaço Web,
público e indexável. É efectuado um enquadramento da área da Recuperação de
Informação, visto ser esta a disciplina que fornece as técnicas e os algoritmos de base ao
desenvolvimento de motores de pesquisa. No entanto, a investigação visa primordialmente
focar os métodos e os algoritmos não tradicionais, concretamente aqueles que são
aplicados à Web. NormalFimSeccao

Na secção seguinte apresenta-se o âmbito desta dissertação.


Título 2

1.1 Âmbito da Dissertação

Analisar um grande número de sistemas automáticos de indexação da Web, sendo esta


dinâmica, heterogénea e imensa, é um desafio que implica, por um lado, uma delimitação
da quantidade de tópicos a analisar e, por outro, a consideração de uma certa
obsolescência de alguns aspectos investigados. Sendo assim, esta investigação contempla
somente os sistemas públicos de indexação automática de toda a Web, que possuem uma
base de dados própria da porção textual pública e indexável da Web, dos quais se pode
obter toda a informação relevante. A análise completa do funcionamento dos
componentes integrantes dos motores de pesquisa de índole geral implicaria a descrição do
modo como estes sistemas percorrem, armazenam, indexam e ordenam o espaço Web,
público e indexável. O foco da investigação situa-se, no entanto, mais no enquadramento
geral da Recuperação de Informação na Web e na forma como os motores de pesquisa
percorrem e recolhem todo o espaço textual público e indexável da Web, e também como
mantêm os seus índices actualizados. Procedeu-se também à realização de algum trabalho
experimental com os objectivos de: (i) estimar a Web pública e indexável; (ii) estimar a
cobertura da Web por parte dos maiores motores de pesquisa; (iii) estimar a percentagem
de (hiper)ligações inválidas presente nos índices dos motores de pesquisa analisados.
A porção textual da Web é constituída por documentos de texto, tais como páginas
Web, ficheiros em ASCII, PDF, PostScript, ou do Microsoft Word, ou seja, documentos
que possuam, codificados ou não, termos textuais com os quais os motores de pesquisa
possam construir um índice. Assim, exceptuam-se deste âmbito os motores de pesquisa da
Web “escondida”, as directorias, os motores de metapesquisa, os motores de pesquisa
especializados ou focalizados, e os motores de pesquisa de conteúdo multimédia. Não se
analisam também as técnicas de Aprendizagem Máquina uma vez que não existe
bibliografia acerca da sua aplicação em grande escala. O percurso focalizado (“focused
crawling”) é aplicado principalmente em motores de pesquisa para domínios ou sites
específicos [7] e por essa razão também não é aqui analisado. Barfourosh et al., Crimmins,
e Chakrabarti et al. [7, 16, 19], efectuam uma resenha do estado da arte dos motores de
pesquisa especializados em domínios específicos.
Sistemas Automáticos de Recolha de Informação na Web 3
1 Introdução

Por norma, os motores de pesquisa actuais recolhem o conteúdo da Web pública e


indexável (PIW) [38], isto é, o conjunto de páginas alcançáveis através do percurso
automático da estrutura de hiperligações da Web. A porção da Web “escondida” (“hidden
Web”), estimada numa grandeza 500 vezes superior à PIW [48], é constituída por portais
de acesso a bases de dados, por páginas que requerem uma autorização ou um registo
prévio, pelas páginas geradas dinamicamente através de bases de dados e pelas páginas
excluídas pelo Protocolo Standard de Exclusão de Robots. Segundo Bergman [35], a
designação Web profunda (“deep Web”) é mais correcta para caracterizar esta porção da
Web, uma vez que a “invisibilidade” das bases de dados pesquisáveis deriva do facto de
não serem indexáveis e de não poderem ser interrogadas por motores de pesquisa
convencionais. Não se incluem na PIW, nem na Web “escondida”, os “buracos negros”,
que são inacessíveis tanto aos navegadores (entenda-se navegadores Web), como aos
motores de pesquisa, que se estimaram como perfazendo 5% da Internet [41].
Nas directorias os índices são construídos de forma manual, quer através de descrições
de páginas fornecidas pelos utilizadores, quer através de equipas que as classificam.
Diferem substancialmente dos motores de pesquisa, não só no modo como processam a
indexação e a ordenação das páginas, mas também na abrangência dos seus índices, que é
bastante inferior.
Os motores de metapesquisa não possuem uma base de dados própria do conteúdo da
Web e recorrem, por isso, aos resultados de vários motores de pesquisa para responderem
às interrogações efectuadas pelos utilizadores.
Não são analisados motores de pesquisa de conteúdo multimédia, dado que, até ao
momento, as técnicas a que recorrem não podem ser aplicadas em grande escala [6],
existindo, contudo, aplicações bem sucedidas em domínios específicos, como sejam as de
reconhecimento facial [20].
Os motores de pesquisa aplicam algoritmos e técnicas que derivam de uma área bem
estabelecida que é a da Recuperação de Informação (IR). No entanto, os algoritmos e as
técnicas da IR foram desenvolvidos para colecções de documentos bem definidas e
coerentes, como as de artigos de journals ou as de catalogação de livros em livrarias físicas.
Por oposição, a Web é maciça, dinâmica, incoerente e está espalhada globalmente por
milhares de computadores. Nesta medida, pesquisar a Web requer o desenvolvimento de
novas técnicas, ou a adaptação das existentes na IR clássica, de forma a lidar não só com a
recolha de toda a informação da Web, mas também com a criação de estruturas de
indexação escaláveis, facilmente actualizáveis e discrimináveis. Esta última propriedade
revela-se fundamental, visto que permite ao motor de pesquisa explorar uma característica
peculiar da Web que a distingue das colecções de documentos estáticas e bem definidas da
IR tradicional, que é a da estrutura de ligações entre os seus documentos, possibilitando,
entre outras aplicações, a identificação de páginas relevantes.
Ao longo do texto, a menção a “sistemas IR Web” refere-se somente a motores de
pesquisa, em particular àqueles que pretendem indexar toda a Web pública e indexável, ou
seja, os “sistemas automáticos de indexação da Web”. Por outro lado, e por uma questão
de coerência e de clareza, o conceito “sistemas IR” designará mais precisamente “sistemas
genéricos de recuperação de informação”.
Sistemas Automáticos de Recolha de Informação na Web 4
1 Introdução

1.2 Enquadramento e Processo de Investigação

Os dois principais objectivos desta investigação são os de enquadrar devidamente a área da


Recuperação de Informação aplicada à Web e analisar a forma como os motores de
pesquisa, perante a escala da Web, conseguem, de uma forma eficaz, percorrê-la, recolher
os seus documentos e manter os seus índices actualizados.
Começou-se por identificar os maiores motores de pesquisa de grande escala que
recolhem informação da PIW e que apresentavam uma base dados própria da Web:
AlltheWeb, Altavista, Google, HotBot, Teoma, e WiseNut. De modo a caracterizar o
funcionamento desses motores de pesquisa procedeu-se a uma análise da bibliografia
disponível publicamente sobre estes sistemas. Dos motores de pesquisa identificados, o
Google e o AlltheWeb eram aqueles que se apresentavam mais bem documentados, além
de serem referência neste domínio. No entanto, a informação disponível era relativa mais
aos seus protótipos. Recorreu-se por isso à bibliografia resultante de investigação
directamente relacionada com o desenvolvimento de crawlers de grande escala, já que
fornecem muita informação acerca do desenvolvimento de motores de pesquisa de grande
escala, e em particular de certas especificidades do Google e do AlltheWeb.
Dada a grande quantidade de investigação na área da IR aplicada à Web, efectuou-se
uma análise das várias fontes de informação relevantes. No Quadro 1-1 expõem-se não só
as referências que sustentaram esta análise, mas também aquelas que permitirão
aprofundar alguns assuntos não considerados nesta dissertação, tais como referências em
linha que permitem a pesquisa de artigos na área das ciências da computação,
concretamente sobre a IR na Web. Ao longo dos vários capítulos apresentam-se também,
sempre que necessário, referências que conduzem ao aprofundamento dos temas expostos.
Quadros, Garamond
11

Quadro 1-1 Referências bibliográficas consideradas pertinentes sobre a


Recuperação de Informação (IR) na Web.
Assunto Referência

Journals e publicações JASIS – Journal of the American Society for Information Science [24];
periódicas sobre as Aslib, The Association for Information Management [4]; Information
ciências da Retrieval [37]; Information Research [50]; D-Lib Magazine [18];
informação Information Processing & Management [31]; DoIS: Documents in
Information Science [3].

Motores de pesquisa “Crawling the Hidden Web” [38]; BrightPlanet [10].


para a Web profunda

XML Standards: W3C XML [46]; OASIS [34].


Recursos: “Top XML : What Is XML and Why Should I Care?” [42];
“XML: the future of web markup?” [36]; “Where is meaning when form is gone?
Knowledge representation on the Web” [12].

Meta-informação “SearchTools.com: Background Topics - Meta Data and Search” [40]; “Introduction
para a Web to Metadata (Getty Research Institute)” [5]; “Where is meaning when form is gone?
Knowledge representation on the Web” [12].
Enter
Existem muitas obras escritas por investigadores das ciências da computação para
criadores de sistemas IR na Web. No âmbito deste trabalho consideraram-se
particularmente pertinentes as obras seguintes, das quais se efectua uma breve revisão.
Sistemas Automáticos de Recolha de Informação na Web 5
1 Introdução

Agosti e Smeaton, em “Information Retrieval and Hypertext, 1996” [1], abordam a


confluência da IR para o hipertexto e as técnicas entretanto aplicadas em sistemas IR Web.
Agosti et al., em “Lectures on Information Retrieval, 2001” [2], apresentam leituras sobre
a IR, em que a primeira parte foca os métodos de base da IR e a segunda analisa os vários
aspectos avançados da IR na Web, desde a usabilidade até à pesquisa e à navegação.
Strzalkowski, em “Natural Language Information Retrieval, 1999” [43], aborda os
sistemas de investigação de Processamento de Linguagem Natural (NLP) e a sua avaliação
na IR. Explicita as suas implementações e os seus protótipos. São discutidas técnicas para
uma mais precisa recuperação, categorização de texto, resposta a questões e ordenação de
resultados para o utilizador.
Baeza-Yates e Ribeiro-Neto, em “Modern Information Retrieval, 1999” [6], abordam
grande parte dos tópicos teóricos da IR, incluindo a IR na Web de uma forma breve.
Analisam as técnicas da IR para a ordenação, a pesquisa, a indexação de documentos, a
visualização de objectos multimédia e a pesquisa na Web. Cobrem os principais modelos
clássicos da IR (Clássicos, Redes, Booleano Estendido, Espaço Vectorial, Indexação
Semântica Latente, Fuzzy), as operações de interrogação, as operações no texto, a IR
distribuída, os paradigmas de interface para a formulação de uma interrogação e sua
visualização, as linguagens e as livrarias digitais.
Robert M. Losee, em “Text Retrieval and Filtering - Analytic Models of Performance, 1998”
[30], debruça-se sobre o problema de calcular analiticamente a performance de sistemas
IR. Foca a recuperação e a filtragem de texto em linguagem natural analisando o caso de
interrogações com um termo, com múltiplos termos dependentes ou independentes, e a
utilização de informação gramatical para melhorar a performance de recuperação.
Korfhage, em “Information Storage and Retrieval, 1997” [26], aborda aspectos da IR
com o foco nas estruturas de interrogação e na preparação de documentos para indexação.
Discute em teoria a interrogação, as funções de recuperação e a análise de texto, mas não
tem informação suficiente de modo a que se possa proceder a implementações. Aborda de
uma forma conceptual a IR, mas não examina sistemas específicos. Modelos populares
como o Booleano, de Espaço de Vectores e outros menos comuns, como os “Fuzzy Set
Theoretic Models” e outros modelos probabilísticos, são equacionados. Um capítulo discute a
recuperação quer de páginas Web quer dos outros tipos de ficheiros que normalmente as
acompanham. É também analisado o processamento de imagem e de som, o
processamento de citações e a filtragem de informação.
Witten et al., em “Managing Gigabytes: Compressing and Indexing Documents and Images,
1999” [51], centram-se mais sobre questões de armazenamento, e, embora abordem os
assuntos de indexação, de interrogações e da construção de índices, fazem-no na
perspectiva da compressão. Ilustram o estado da arte no armazenamento, na compressão e
na indexação de dados, de um modo particular na Web.
Meadow et al., em “Text Information Retrieval Systems, 2000” [32], explicam o
funcionamento de sistemas IR ao abordarem os problemas encontrados no
desenvolvimento de sistemas, proporcionando as bases para um estudo mais avançado.
Cobrem a natureza da informação, o modo como ela é organizada de forma a ser
processada num computador, as funções de pesquisa e as teorias subjacentes. Discutem a
interacção entre o utilizador e o sistema, e a avaliação dos itens recuperados, dos
utilizadores e dos sistemas. Abordam a forma como os sistemas IR Web devem ser
projectados.
Soumen Chakrabarti, em “Mining the Web: Analysis of Hypertext and Semi Structured
Data, 2002” [15], analisa as técnicas para a produção de conhecimento através da Web –
Web mining. Através da análise de questões infra-estruturais, tais como o percurso da Web e
Sistemas Automáticos de Recolha de Informação na Web 6
1 Introdução

a indexação, examina as técnicas de baixo nível de Aprendizagem Máquina e as aplicações


actuais para a descoberta de recursos na Web e análise social de redes. O livro foca
principalmente os dois métodos mais empregues nos motores de pesquisa: o agrupamento
e a classificação, análise de hiperligações e a aprendizagem semisupervisionada.
Foi efectuado também, a título extraordinário, um trabalho experimental para aferir
em que medida os motores de pesquisa de grande escala são eficazes nesse percurso e
recolha automáticos, e na manutenção dos seus índices. Assim, estimou-se, no período
compreendido entre Maio e Junho de 2003, o tamanho da PIW, a cobertura da Web por
parte dos maiores motores de pesquisa e a percentagem de ligações inválidas que
apresentavam nos seus índices. Concluiu-se que os maiores motores de pesquisa têm
conseguido acompanhar convenientemente a escala de crescimento e a dinâmica da Web.

Em seguida é apresentada a organização desta dissertação.

1.3 Organização da Dissertação

A dissertação encontra-se organizada da seguinte forma. No capítulo 2 efectua-se um


enquadramento dos vários aspectos a ter em conta no desenvolvimento de motores de
pesquisa de grande escala operados comercialmente. No capítulo 3 são apresentadas as
conclusões da investigação e o trabalho a realizar futuramente.
Algumas notas sobre o conteúdo da dissertação e convenções adoptadas.
Com o glossário incluso pretende-se, por um lado, sistematizar todos os termos
relevantes à área em questão – a da Recuperação de Informação e em particular a aplicada
à Web – dada a falta de algo do género elaborado em língua portuguesa, e, por outro,
contribuir para que a leitura da dissertação dispense, na medida do possível, a consulta de
outras obras.
Certos termos em inglês não são traduzidos por uma de duas razões: ou porque não
existe um termo em português semanticamente equivalente e que normalmente seja
empregue em trabalhos científicos da área, ou porque se pretende facilitar a pesquisa e a
análise posteriores à literatura em língua inglesa. Com o mesmo propósito optou-se por
manter as abreviaturas conforme são empregues na literatura em língua inglesa.
Utiliza-se a fonte Ms Sans Serif para indicar nomes de campos ou de atributos, de
endereços electrónicos e de código de computador (e.g., código HTML). Os valores ou as
expressões que devem ser armazenadas ou introduzidas em computador são colocadas
também na fonte Ms Sans Serif e em MAIÚSCULAS PEQUENAS.
Em certas situações optou-se por referir em nota de rodapé os endereços
electrónicos considerados pertinentes, em vez de se remeter o leitor para a bibliografia.
A utilização de abreviaturas tais comoNCHF i.e. e e.g., pretende, em certas situações,
Código HTML
minimizar a quantidade de texto a apresentar, nomeadamente quando figuram entre
parêntesis.

No capítulo seguinte é contextualizada a área da Recuperação de Informação mais


concretamente a que diz respeito à sua aplicação à Web.

Quebra de secção
contínua
Referência cruzada

2 A RECUPERAÇÃO DE INFORMAÇÃO NA
WEB

Neste capítulo efectua-se um enquadramento dos vários aspectos a ter em conta no


desenvolvimento de motores de pesquisa de grande escala operados comercialmente.
Assim, optou-se por organizá-lo da seguinte forma: Secção 2.1 – enquadramento da área
da Recuperação de Informação, em particular no que respeita à sua aplicação à Web.
Secção 2.2 – caracterização da Web, designadamente da sua composição, da sua estrutura,
da sua forma de funcionamento e das suas propriedades; exposição dos desafios que a
Web coloca ao desenvolvimento de motores de pesquisa de grande escala.

2.1 Enquadramento da Recuperação de Informação


Aplicada à Web

A capacidade de pesquisar e localizar informação é uma das tecnologias fundamentais,


necessárias para que se alcançar em pleno todo o potencial da Web. A área da Recuperação
de Informação (IR) apresenta uma longa história, iniciada já desde a década de 60, altura
em que foram estabelecidas as bases da indexação automática e da extracção completa de
texto. A Web apresenta desafios ao desenvolvimento de motores de pesquisa, razão pela
qual se assiste a um ressurgimento da IR. Os desafios são, entre outros, lidar com a
natureza dinâmica e heterogénea da Web, lidar com questões de escalabilidade e distribuição,
lidar com um grau de qualidade da informação muito variado, e fazer uso da estrutura de
ligações da Web para aumentar a eficiência e “qualidade” dos motores de pesquisa.
Existe uma diferença entre a extracção de dados e a recuperação de informação. Na
extracção de dados o resultado de uma interrogação deve ser preciso e invariável no
tempo, se não ocorrerem mudanças na base de dados. Já na recuperação de informação
esse resultado pode ser diferente, desde que o erro seja insignificante. Esta diferença deriva
do facto de a IR lidar com informação não estruturada, expressa em linguagem natural e
semanticamente ambígua, ao passo que a extracção de dados lida com uma estrutura e uma
semântica bem definidas. Por outro lado, a extracção de dados não pode fornecer uma
solução para um dado assunto ou tópico, ao passo que a recuperação de informação o
permite.
A IR lida com a representação, o armazenamento, a organização e o acesso a itens
de informação [6] e é definida, actualmente, como “a recuperação automática de todos os
documentos relevantes, recuperando ao mesmo tempo a menor quantidade possível de
documentos irrelevantes” [27] em resposta a uma necessidade de informação do utilizador.
O utilizador expressa essa necessidade de informação ao sistema sob a forma de uma
interrogação, que pode ser efectuada em linguagem natural ou na linguagem de
interrogação específica do sistema, dependendo do sistema em causa.Rodapé igual ao da
secção anterior

—7—
Sistemas Automáticos de Recolha de Informação na Web 8
2-A Recuperação de Informação na Web

Da IR advêm as técnicasCabeçalho
e os algoritmos
diferente de indexação de documentos [6], os de
do anterior.
pesquisa Booleanos, os de Modelo de Espaço
Referências Vectorial, em particular, os de Indexação
Semântica Latente (LSI), os Probabilísticos,
cruzadas! os de Agrupamento (Data Clustering), os de
Feedback Relevante e os relacionados com medidas estatísticas dos textos [6, 22]. Todos
estes métodos visam recuperar documentos relevantes de uma colecção em resposta a uma
determinada interrogação [29]. Antes do advento da Internet, a IR resumia-se a pesquisas
de índices. Hoje em dia, a “nova” IR investiga a modelação, a classificação automática de
documentos, a categorização automática de texto, a arquitectura de sistemas, as interfaces
de utilizador, a visualização de dados, a filtragem e as linguagens [6].
Um sistema IR tem por objectivo fundamental a indexação de texto e a pesquisa de
documentos úteis numa colecção, pelo que deve encontrar maneiras de interpretar o
conteúdo dos itens de informação e de pontuá-los de acordo com um grau de relevância
relativamente à interrogação efectuada pelo utilizador. Esta interpretação pode envolver
formas de recuperação de informação, não só sintácticas, como também semânticas.
Sintácticas quando envolve apenas uma pesquisa a palavras ou a padrões no texto. Estas
palavras ou padrões podem, ou não, reflectir a semântica do texto, pelo que as abordagens
de processamento linguagem natural (NLP) tentam capturá-la. Estas técnicas de
pré-processamento de linguagem natural bem como as de extracção da semântica do texto
não são novas, mas são demasiado “pesadas” para grandes quantidades de dados, e, para
além deste aspecto, são mais efectivas com um texto mais estruturado, um léxico e outra
informação contextual [6].
É reconhecido como um “grande desafio” tornar efectiva a IR na Web [20]. Os
motores de pesquisa são baseados em técnicas e algoritmos, por vezes adaptados, da área
da IR. Os modelos IR fornecem as técnicas e os algoritmos de suporte aos motores de
pesquisa na indexação, na classificação e na ordenação de documentos Web. Por causa das
particularidades da Web, novos algoritmos foram desenvolvidos e aplicados pelos motores
de pesquisa, em especial os que são baseados na estrutura de ligações da Web e na
modelação da linguagem.
Os algoritmos baseados na estrutura das ligações analisam os padrões de estruturas
para identificar sites que estão muito ligados, à semelhança das técnicas empregues na
análise de citações de artigos científicos que foram desenvolvidas na década de 70. Por sua
vez, as técnicas probabilísticas baseadas na modelação da linguagem são a base de
algoritmos efectivos para uma série de tarefas relacionadas com a linguagem,
nomeadamente no reconhecimento da fala e na tradução de linguagem, começando a
demonstrar eficácia na sua aplicação em grande escala [20]. Recentemente há mais
investigação na aplicação de técnicas de processamento de linguagem natural, rotuladas de
“resposta a questões” [17, 28], com a finalidade de produzir respostas concisas a perguntas
bem formuladas (e.g., “Porque é que o céu é azul?”). No entanto, certo tipo de perguntas
(e.g., “Qual o melhor tratamento para o cancro da próstata?”) pode requerer a combinação
de dados de várias fontes, conseguida, possivelmente, através de recuperação distribuída e
da sumarização.
Os investigadores da área da Recuperação Distribuída encontram-se a desenvolver
técnicas para identificar fontes de informação relevantes e para descrever o seu conteúdo
de forma a combinar os resultados de múltiplas pesquisas. Da mesma maneira os
investigadores da sumarização procuram obter formas de sumariar não só documentos
isolados como também grupos de documentos. Estes sumários incluem listas de termos,
frases extraídas e texto gerado.
Um dos aspectos chave para melhorar a eficácia da pesquisa de informação da Web
passa por obter melhores descrições da necessidade do utilizador. O facto de o número de
Sistemas Automáticos de Recolha de Informação na Web 9
2-A Recuperação de Informação na Web

termos empregues pelos utilizadores – um ou dois [47] – não ser muito descritivo, tem
levado a um forte desenvolvimento de técnicas de expansão automática da interrogação e
de Aprendizagem Máquina através de Feedback Relevante, no sentido de contornar esse
problema. Barfourosh et al. [7] efectuam uma resenha das técnicas de Aprendizagem
Máquina aplicadas na IR.

2.1.1 Medidas de Performance de Sistemas IR


As medidas quantitativas que permitem avaliar os sistemas IR tradicionais são, muitas
vezes, aplicadas na avaliação da performance de sistemas IR Web. Dessas medidas, as mais
utilizadas na avaliação da performance de recuperação de um sistema IR, ou eficácia
(effectiveness) de recuperação, são as de cobertura (recall) e de precisão [6].
No contexto da IR, a precisão define o quão relevante são os documentos
recuperados face a uma interrogação efectuada ao sistema IR. É definida pela razão entre o
número de documentos relevantes relatados sobre o número total de documentos
relatados. A cobertura, por seu turno, é definida pela razão entre o número de documentos
relevantes relatados sobre Ref. o número total de documentos relevantes existente na colecção
cruzada
relativamente a essa mesma interrogação. Um modelo básico IR reconhece, por norma,
uma permuta de concessões entre velocidade, precisão e cobertura, conforme é ilustrado
na Figura 2-1. Em particular, a precisão e a cobertura apresentam uma relação que
depende não só da forma como a recuperação foi efectuada, mas também do modo como
os valores de relevância foram atribuídos [32]. Um sistema IR é considerado eficaz se
atingir uma alta precisão em praticamente todos os níveis de cobertura [9].
Por seu turno, na recuperação de informação da Web a qualidade das páginas varia Ref. cruzada

imenso e assim somente ser relevante não é suficiente – por norma pretende-se retornar
documentos com relevância e qualidade elevadas, ou seja, páginas valiosas. Estas páginas
são normalmente as de autoridade e as de hub conforme se ilustra na Figura 2-2. Este
conceito, introduzido por Kleinberg no seu algoritmo HITS [25], refere que “os hubs e
autoridades apresentam aquilo a que se pode chamar de uma relação de reforço mútuo: um
bom hub é uma página que aponta para muitas autoridades; uma boa autoridade é uma
página que é apontada por muitos bons hubs”.
Sistemas Automáticos de Recolha de Informação na Web 10
2-A Recuperação de Informação na Web

1
velocidade

0 1
precisão cobertura C
Figura 2-1 Permuta de concessões existente em termos da performance de um sistema IR e
relação típica entre precisão e cobertura.
Esquerda: Permuta de concessões existente na performance de um sistema IR: velocidade,
precisão e cobertura. Direita: Relação típica entre a precisão (P) e a cobertura (C): se o valor
de cobertura é baixo, então a solução consiste em alargar a pesquisa, o que irá implicar, em
princípio, uma precisão mais baixa. De forma análoga, se a precisão é baixa, a solução passa
por colocar uma nova interrogação mais restritiva, implicando que a cobertura diminua.
Adaptado de [32].

hubs autoridades
Figura 2-2 Um conjunto denso de hubs e autoridades.
Adaptado de [25].

Face à enorme expansão de fontes de informação potencialmente relevantes, os motores


de pesquisa apostaram inicialmente na velocidade de resposta e na abrangência dos seus
índices, em detrimento da eficácia de recuperação. No entanto, à medida que a “sobrecarga
de informação” se agrava novas técnicas são aplicadas, de forma a tornar os motores de
pesquisa mais precisos. De facto, a indústria de motores de pesquisa argumenta que os
motores devem ser avaliados não na sua habilidade em recuperar todas as páginas
relevantes possíveis, mas sim na sua capacidade de relatar páginas altamente relevantes [44]
– o motor de pesquisa Google4, por exemplo, dá uma maior ênfase à precisão dos
resultados em prejuízo da cobertura [11]. A abrangência dos índices dos sistemas IR Web
é, de qualquer forma, um dos factores chave na eficácia de um sistema IR Web, pois
quanto maior for, mais lhes permitirá satisfazer certas necessidades de informação dos
Ref. cruzada
utilizadores, únicas e raras (e.g., doenças raras). Por exemplo, num dos maiores motores de
pesquisa, o AlltheWeb5, a percentagem de interrogações comuns colocadas é de 25%,
sendo 75% composta por termos raros ou obscuros [49].
Assim, de modo a reflectir a nova realidade, as medidas clássicas de performance de
sistemas IR sofreram as alterações expressas no Quadro 2-1.

4 http://www.google.com
5 http://www.alltheweb.com
Sistemas Automáticos de Recolha de Informação na Web 11
2-A Recuperação de Informação na Web

Quadro 2-1 Comparação das medidas de performance utilizadas em sistemas IR clássicos e


em sistemas IR Web.
Sistemas IR Clássicos Sistemas IR Web
Velocidade Tempos de resposta interactivos
Precisão Precisão dos resultados exibidos na primeira página
Cobertura Encontrar as páginas mais valiosas, as de autoridade e as de hub

Apesar de a PIW ser uma colecção com características distintas das colecções tradicionais
da IR, os princípios básicos de arquitectura e de operação dos sistemas IR não se
modificaram significativamente, antes sofreram várias alterações e adaptações a este novo
ambiente hiperligado. Por este facto, esta análise concentra-se mais nas técnicas e nos
algoritmos que são aplicados em sistemas IR Web que nos aplicados em sistemas IR
clássicos, uma vez que estes são abordados extensivamente na literatura (vide secção 1.2).

Em seguida são evidenciadas as características da Web que têm implicações profundas no


modo como se projectam, desenvolvem e se operam os motores de pesquisa. Ref. cruzada

2.2 Características da Web Relevantes à IR

Nesta secção procede-se a uma caracterização da Web, dado que a eficácia de


funcionamento de um motor de pesquisa depende sobremaneira da atenção despendida às
suas características. O conhecimento da Web e do seu funcionamento asseveram-se
fundamentais no desenvolvimento dos motores de pesquisa, dado implicarem a aplicação
de técnicas e algoritmos particulares, que lhes permitem lidar de forma eficiente com este
meio extremamente dinâmico, heterogéneo, hiperligado, imenso, e com crescimento
exponencial.

2.2.1 Composição e Estrutura


A Web tem tido um enorme impacto na sociedade e é actualmente o sistema que mais se
aproxima, em termos de capacidades, do Memex de Vannevar Bush [13]. A Web é um
“universo de informação acessível em rede, a materialização do conhecimento humano”
[45]. É uma aplicação de hipertexto, similar ao modelo proposto por Vannevar Bush em
1945, o da “teia de atalhos” [13].
A Web consiste, fundamentalmente, num grande conjunto de unidades de
informação designadas páginas, as quais apresentam tamanhos variáveis. Estas
encontram-se interligadas com o suporte de tecnologia de hipertexto6, através de um

6 Termo cunhado e definido como sendo “escrita não sequencial”, por Ted Nelson em 1965 [33].
Sistemas Automáticos de Recolha de Informação na Web 12
2-A Recuperação de Informação na Web

esquema comum de endereçamento de páginas, o Uniform Resource Locator7 (URL), um


protocolo comum, o Hypertext Transfer Protocol (HTTP), e encontram-se codificadas numa
linguagem comum, a Hypertext Markup Language (HTML). Ao longo do texto, a menção a
páginas Web, ou somente páginas, refere-se a documentos escritos em HTML, ou
simplesmente documentos HTML. Por outro lado, a menção a documentos Web refere-se
a todos os tipos e formatos de documentos existentes na Web.
Ref. cruzada
A HTML é uma linguagem composta de marcas ou etiquetas que especificam a
Ref. cruzada
estrutura lógica e o formato de apresentação de um documento HTML. Cada componente
é explicitamente identificado no código desse documento (e.g., título, resumo, figuras) ao
ser incluído entre um par dessas etiquetas. A Figura 2-3 ilustra a apresentação de uma
página Web, cujo código é indicado na Figura 2-4.
Os documentos HTML podem apresentar outros tipos de ficheiros associados, tais
como imagens e sons, e conter, de igual forma, programas escritos em JavaScript,
denominando-se, neste caso, documentos DHTML (dynamic HTML). Por norma, os
documentos HTML incluem também campos de meta-informação.

Figura 2-3 Aspecto de uma página escrita em HTML.


Fonte: [23].

7 O URL é um mecanismo de Endereçamento Uniforme de Recursos [8] sendo uma especialização, assim como o

Uniform Resource Name (URN), de um conceito mais abstracto que é o Uniform Resource Identifier (URI). Por exemplo, o
endereço “http://www.amazon.com:81/exec/obidos/subst/home/home.html” é um URL – contém o protocolo requerido
para aceder ao recurso (e.g. “http”), um nome de domínio (e.g. “.com”) e de subdomínio (e.g. “amazon”) e uma porta de
acesso (e.g. “81”) – que identifica um computador específico na Internet, e indica a localização de um ficheiro nesse
computador através de uma descrição hierárquica do tipo UNC (e.g, “/exec/obidos/subst/home/home.html”).
Sistemas Automáticos de Recolha de Informação na Web 13
2-A Recuperação de Informação na Web

Figuras

Figura 2-4 Extracto do código HTML de uma página Web que ilustra a utilização das
etiquetas HEAD, TITLE e META, entre outras.
Fonte: [23].

O facto de a HTML não determinar o estilo de apresentação de um documento implicou a


introdução, em 1997, das Cascading Style Sheets (CSS). As CSS são uma especificação da
HTML desenvolvida pelo W3C que permite aos autores Web anexar folhas (sheets) aos
documentos HTML, contendo informação tipográfica que determina a forma como a
página deve ser apresentada (e.g.,
Lista com tipo
marcade fonte), podendo ser usadas umas após as outras
(cascading) para definir o estilo de apresentação dos diferentes elementos da página.
Para esta análise certas características da Web, e em particular da linguagem HTML,
são fundamentais:
− os componentes que ocorrem e estão etiquetados numa página HTML podem ser
URLs de outras páginas. Estas ligações podem formar uma estrutura elaborada de
complexidade arbitrária, já que a Web é um espaço público livre;
− a presença de um URL na página P1 que aponta para a página P2 indica algum
tipo de associação entre essas páginas. A frase etiquetada desse URL pode, ou
não, explicar a razão dessa associação. No entanto, essa razão pode encontrar-se
expressa em linguagem natural e não ser de interpretação imediata para o motor
de pesquisa. O próprio URL pode fornecer pistas acerca do seu significado, uma
NCHF
vez que é uma sequência de caracteres composta por palavras, ou termos, e por
um número estandardizado de componentes colocados numa ordem standard. Se
essas palavras, termos, ou componentes forem bem escolhidos, podem servir
como termos de indexação para os motores de pesquisa. Por exemplo, o URL
http://dmoz.org/Society/Issues/Education/ pode indicar a um motor de pesquisa,
supostamente, que o seu conteúdo é relevante por versar sobre educação
(“Education”) e por pertencer à directoria Open Directory (“dmoz.org”);
− alguns conjuntos de hiperligações podem formar estruturas semânticas com
significados diversos, em virtude de se encontrarem agrupadas pelo mesmo autor,
ou relacionadas segundo um tópico comum. Neste último caso, podem
especificar uma estrutura elaborada de citações, por assunto ou por autor, à
semelhança das citações empregues em artigos científicos, diferindo, no entanto,
Sistemas Automáticos de Recolha de Informação na Web 14
2-A Recuperação de Informação na Web

no seu grau de qualidade, dado que qualquer pessoa pode ser autora numa Web
descentralizada e anárquica;
As aplicações da HTML utilizam, tipicamente, um conjunto pré-definido de etiquetas
definido em conformidade com as especificações da SGML. Se, por um lado, a HTML
liberta os autores de páginas Web dos detalhes de codificação, apresenta, por outro, os
inconvenientes seguintes [6]:
− não permite aos autores especificarem as suas próprias etiquetas, ou atributos, de
modo a possibilitar-lhes a parametrização ou qualificação semântica dos seus
dados;
− não suporta a especificação de estruturas aninhadas, necessárias para representar
esquemas de base de dados, ou hierarquias orientadas ao objecto;
− não suporta um tipo de especificação de linguagem que permita às aplicações
intensivas efectuar a validação estrutural dos dados aquando da sua importação.
Por contraste, a SGML permite a especificação de linguagens de complexidade arbitrária e
torna possíveis as qualidades de extensibilidade, de estrutura e de validação omissas na
HTML, assegurando uma maior interoperabilidade, estabilidade e longevidade. No
entanto, apresenta características que, pelo seu elevado número, impedem a sua aplicação à
Web de uma forma pragmática, razão pela qual foi desenvolvida a metalinguagem XML,
abordada em seguida.

2.2.1.1 XML
Em termos comuns, uma linguagem extensível é uma linguagem que inclui mecanismos
que possibilitam a adição de palavras, duma forma que permita o seu entendimento claro e
íntegro. Tal não acontece num sistema como o da língua portuguesa, onde a adição de
palavras é um processo evolucionário e não um factor que um indivíduo possa determinar.
A eXtensible Markup Language (XML), que se encontra em desenvolvimento pelo W3C, não
é uma linguagem à qual se possam adicionar novas palavras, mas sim um sistema que
permite definir linguagens de marcação completas, incluindo a capacidade de expandir as
Ref. cruzada
existentes.
A XML, sendo um subconjunto simplificado da SGML, caracteriza-se mais como
uma metalinguagem capaz de conter linguagens de marcação, à semelhança da SGML, que
Ref. cruzada
como uma linguagem de marcação, como a HTML. Tal como a SGML, a XML é uma
“linguagem de marcação extensível”, que permite a codificação de dados e de texto, porém
optimizada para a Web. A XML permite também uma marcação semântica inteligível,
tanto ao ser humano, como ao computador. Nos exemplos da Figura 2-5 e da Figura 2-6
são apresentadas, respectivamente, as codificações em HTML e em XML de um mesmo
extracto de um documento, ilustrando-se dessa forma o maior grau semântico conferido
pela XML comparativamente à HTML. A XML permite mais facilmente desenvolver
marcações específicas e facultar uma autoria, uma análise e um processamento automáticos
da informação em rede. De certa forma, a XML permite fazer muitas das tarefas que são
feitas actualmente por scripts ou por outros programas de interface. Por exemplo, pode ser
utilizada para definir quais os tipos de dados que os seus elementos contêm; os criadores
de conteúdo Web podem assim compor etiquetas XML para propósitos específicos,
permitindo que as páginas Web funcionem como registos de bases de dados.
Sistemas Automáticos de Recolha de Informação na Web 15
2-A Recuperação de Informação na Web

<H1 ALIGN="CENTER">CAPTAIN CORELLI&#146;S MANDOLIN</H1>


<P ALIGN="CENTER"><I>LOUIS DE BERNI&EGRAVE;RES</I></P>
<P ALIGN="RIGHT"><FONT SIZE="-1">&COPY; 1994 BY <A
HREF=MAILTO:LDB@LB.COM>LOUIS DE BERNI&EGRAVE;RES</A> </FONT></P>
<HR><P ALIGN="CENTER">TO MY MOTHER AND FATHER</P><HR>
<H2>DR IANNIS COMMENCES HIS HISTORY AND IS FRUSTRATED </H2>
<P>DR IANNIS HAD ENJOYED A SATISFACTORY DAY...
Figura 2-5 Exemplo de uma porção de código em HTML.

<BOOK TITLE="CAPTAIN CORELLI'S MANDOLIN" AUTHOR="LOUIS DE BERNIȲ¥S"


CRDATE="1994" CRBY="AUTHOR">
<DEDICATION ID="C0P1">TO MY MOTHER AND FATHER</DEDICATION>
<CHAPTER ID="C1" TITLE="DR IANNIS COMMENCES HIS HISTORY AND IS FRUSTRATED">
<PARA ID="C1P1">DR IANNIS HAD ENJOYED A SATISFACTORY DAY€¦</PARA>
...
</CHAPTER>
</BOOK>
Figura 2-6 Exemplo de uma porção de código em XML.
Ref. cruzada
Cada um destes 15 elementos possui dez atributos definidos no ISO/IEC 11179, sendo
seis destes atributos, e respectivos valores, comuns a todos os elementos [21], conforme se
ilustra no Quadro 2-2.

Quadro 2-2 Elementos do Dublin Core Metadata Initiative.


Title Contributor Source
Creator Date Language
Subject Type Relation
Description Format Coverage
Publisher Identifier Rights

2.3 Conclusão

Foi efectuada uma análise dos aspectos que presidem ao desenvolvimento de crawlers de
grande escala, tendo sido descrita a forma como se torna possível a implementação de
sistemas deste género para o percurso automático da Web. Foram exemplificadas as
técnicas aplicadas pelos diversos crawlers de grande escala comerciais, e também pelos
crawlers resultantes de investigação, para fazer face às várias questões e desafios que a Web
coloca.
Sistemas Automáticos de Recolha de Informação na Web 16
2-A Recuperação de Informação na Web

Quadro 2-3 Relação entre o número de resultados que os motores de pesquisa relatam nos
diferentes modos de pesquisa e o número que o Copernic consegue recolher desses mesmos
motores de pesquisa.
No modo de pesquisa básico foram seleccionadas as opções que os motores de pesquisa
apresentam por defeito; em modo avançado, as opções de filtragem de conteúdo ofensivo e
agrupamento de resultados foram desactivadas.
Motor de pesquisa AW AV GG HB
Pesquisa
Modo básico – Número total de resultados esperado 91 90 156 88
Modo avançado – Número total de resultados esperado 181 114 356 88
Copernic – Número de resultados recolhidos sem URLs 168 90 156 88
duplicados

Da análise do Quadro 2-3 conclui-se que o Copernic recolhe os resultados através da


interface em modo básico de todos os motores de pesquisa, excepção feita ao motor de
Ref. cruzada
pesquisa AlltheWeb. Todavia esta foi uma situação excepcional, dado que, salvo algumas
excepções (excepções essas que se ficam a dever a algum tipo de inconsistência de
funcionamento do AlltheWeb), o Copernic somente retira os resultados da interface em
modo básico do AlltheWeb, conforme se pôde constatar nas interrogações efectuadas
posteriormente e cujos dados figuram no Anexo A. Assim verifica-se que o Copernic só
consegue recolher os resultados através da interface em modo básico dos motores de
pesquisa. A razão pela qual o faz só através dessa interface pode dever-se, talvez, a uma
impossibilidade técnica. Relativamente a esta questão, a resposta obtida pelo serviço de
assistência do Copernic foi a seguinte:
“Including the omitted or ungrouped results would add many duplicates. Doing this would
greatly increase the number of results but on the other hand it would also greatly diminish the
results relevancy. Copernic's goal is to find the most relevant results so that is why Copernic is
designed that way and does not fetch these omitted results.”
Esta afirmação não é rigorosa, uma vez que o agrupamento de resultados por site, quer no
AlltheWeb, quer no Altavista, e no Google, não Nívelse
1 prende tanto com questões de
Formato do número: 1.
relevância ou de duplicação de resultados, mas Alinhado
mais acom 1 cm
o relatar de um ou dois
resultados por site por parte dos motores de pesquisa.
Posição do texto, tabulação após: 1,63 cm, Avanço 1,63 cm
Todos os cálculos relativos à estimativa da PIW,
Nível N,
2 encontram-se algures. Ilustrando
Formato do número: 1.1.
com um exemplo extraído desse apêndice. Na Alinhado interrogação
a 1,63 cmcom o termo “acockbill”
(interrogação q), efectuada ao par de motores de pesquisa AlltheWeb
Posição do (motor
texto, tabulação após: de
2,5 pesquisa
cm, Avanço a)
2,5 cm
Nível 3
e Altavista (motor de pesquisa b), os resultados foram os seguintes:
Formato do número: 1.1.a)
Alinhado a 2,5 cm
1. n aq , o número de resultados relatadoPosição
pelo domotor de pesquisa
texto, tabulação a essa
após: 4 cm,aAvanço 4 cm
interrogação, foi de 44.
1.1. n bq , o número de resultados relatado pelo motor de pesquisa Altavista ( b ) a
essa interrogação ( q ), foi de 12.
2. n abq , o número de resultados comum relatado pelo par de motores de pesquisa a
essa interrogação ( q ), foi de 7.
Sistemas Automáticos de Recolha de Informação na Web 17
2-A Recuperação de Informação na Web

3. p aq , a estimativa da fracção da PIW coberta pelo motor de pesquisa a, é assim de


7 sobre 12, ou seja, de aproximadamente 58,33%.
3.1. S a , o tamanho do índice do motor de pesquisa a é de, aproximadamente,
2143 milhões de documentos.
3.1.a) Assim, N aq , a estimativa do tamanho da PIW com base no
tamanho do índice do motor de pesquisa a , é de 2143 sobre
58,33%, ou seja, de aproximadamente 3674 milhões de
documentos.
3.1.b) pbq , a estimativa da fracção da PIW coberta pelo motor b, é de,
aproximadamente, 15,9%.
E também que:
4. Sb , o tamanho do índice do motor de pesquisa b, é de 1000 milhões de
documentos.
4.1. Assim, N bq , a estimativa do tamanho da PIW com base no tamanho do
índice do motor b , é de, aproximadamente, 6286 milhões de documentos.
Dado que estas duas medidas podem apresentar diferentes valores, no sentido de obter
Equações
uma melhor estimativa do tamanho da Web, N q , com base numa determinada
interrogação q , poder-se-á calcular a média das duas estimativas anteriores:

Nq = (N a + N bq )
1 q
2

De modo a estimar o valor de N com uma maior precisão torna-se necessário efectuar o
maior número possível de interrogações e calcular a média:

1
N=
Q
∑N
q∈ Q
q

A estimativa da PIW para a interrogação “acockbill”, N q , é então a média das duas


estimativas N aq e N bq , ou seja, de, aproximadamente, 4980 milhões de documentos. Para
o cálculo da estimativa final do tamanho da PIW, N, foi efectuada a média de todas as
estimativas.
3 CONSIDERAÇÕES FINAIS

3.1 Considerações Finais

Os motores de pesquisa de grande escala têm apresentado, nos últimos anos, um grande
avanço relativamente à cobertura que apresentam da PIW, à velocidade com que permitem
a pesquisa de informação a grandes quantidades de dados indexados, e à forma como
proporcionam, ao mesmo tempo, boas respostas face a interrogações com poucos termos.
A investigação da tecnologia de pesquisa de âmbito geral na Web tem amadurecido com
técnicas bem desenvolvidas. De facto, a primeira geração de motores de pesquisa
baseava-se principalmente em modelos clássicos da Recuperação de Informação, tais como
o Modelo de Espaço Vectorial, e análise e pesagem da HTML. Na segunda geração, da
qual o Google é exemplo através do algoritmo PageRank, foram empregues também a
análise quer das ligações, quer do texto de âncora para proporcionar melhores resultados.
Actualmente, a terceira geração de motores de pesquisa tenta quer responder a questões,
quer proporcionar algum contexto às interrogações colocadas pelos utilizadores – por
exemplo, através da correcção ou da proposta de novos termos para a interrogação
efectuada, para além de tentar lidar com conteúdo gerado dinamicamente e com a pesquisa
multilingual.
Existem também cada vez mais estudos relativos à implementação e
desenvolvimento de crawlers de grande de escala que fazem face à dinâmica, tamanho e
qualidade da Web, o que motivou, e proporcionou também, a elaboração desta dissertação.
Existem, no entanto, muitos problemas por resolver relativos à escala da informação, e à
gestão da computação em ambientes heterogéneos, distribuídos e dinâmicos, que, em
confronto com a futura expansão e dinâmica da Web, poderão conduzir a novas formas
ou modelos de pesquisa da Web.

3.2 Discussão

Foi efectuada uma análise dos aspectos que presidem ao desenvolvimento de motores de
pesquisa de grande escala, tendo sido descrita a forma como se torna possível a
implementação de sistemas deste género para o percurso automático em grande escala da
Web. Foram exemplificadas as técnicas aplicadas pelos diversos crawlers de grande escala
comerciais, e também pelos crawlers resultantes de investigação, para fazer face às várias
questões e desafios que a Web coloca.
Ficaram, contudo, várias questões em aberto.
A Web (PIW) continua em expansão e a Web invisível em princípio apresentará uma
maior importância em relação à PIW, pelo que se poderá assistir no futuro a uma mudança
de estratégias por parte dos motores de pesquisa de modo a que consigam recolher toda a
Web.

— 18 —
Sistemas Automáticos de Recolha de Informação na Web 19
3 Considerações Finais

Não se sabe também se os motores de pesquisa actuais conseguirão mesmo escalar


com o tamanho futuro da Web (PIW), pelo que será importante que o crawler consiga
descarregar as páginas que contribuam para um maior grau de “qualidade” dos seus
índices. Nesse sentido a tecnologia push poderá ser crucial para criar sistemas de agregação
e de pesquisa capazes de escalar com a Web a um preço razoável [39].
Por seu turno, a escala da Web, a par com a sua dinâmica, são assuntos que
requerem uma maior investigação e assim a priorização inteligente será cada vez mais
importante para que o crawler actualize partes importantes do índice e relate dessa forma
resultados relevantes e actualizados aos utilizadores. Decidir que partes do índices são
importantes afecta a escalabilidade do sistema e para esse propósito a obtenção de
estatísticas de utilização poderá ser útil. Os sites muito dinâmicos podem fazer mesmo
com que certas práticas dos crawlers sejam inúteis e muito conteúdo tenha de ser percorrido
em tempo real.
Assim, a discussão de estratégias de percurso de grande escala que maximizem quer
a qualidade, quer a frescura do índice, constitui um assunto de investigação a aprofundar.
Não é de excluir a hipótese de haver cada vez mais preponderância de motores de
pesquisa focalizados, já que permitem uma operação mais eficiente num espaço limitado
de tópicos e uma dinâmica mais homogénea, oferecendo assim uma experiência de
pesquisa mais actualizada.
Novos modelos para o percurso automático da Web, que estão ainda em fase de
investigação, nomeadamente o de Castillo e Baeza-Yates [14], poderão, no entanto, abrir
um novo capítulo para os crawlers de grande escala.

3.3 Contributos

Esta dissertação constitui uma contribuição para a área da Recuperação da Informação na


Web procurando abranger grande parte das questões envolvidas no desenvolvimento de
motores de pesquisa de grande escala na Web. Assim, o criador ou investigador de
motores de pesquisa de pesquisa encontrará nesta investigação um meio para iniciar o
desenvolvimento ou investigação de crawlers de grande escala, já que também foi
proporcionada, ao longo da análise, uma extensa lista de referências relevantes sobre os
diversos assuntos abordados. Nesse sentido, foi também elaborado um glossário extenso,
inédito, que faculta um entendimento facilitado a uma variada gama de leitores e, na
medida do possível, uma leitura e compreensão desta investigação sem recurso a outras
fontes.
Nesta dissertação foi também levado a cabo trabalho experimental, com base nas
experiências de Lawrence e Giles, no qual se estimou o tamanho da PIW em termos do
número de documentos que contém, confirmando-se em certa medida as assunções de
Lawrence e Giles quanto à utilização de motores de pesquisa como um método válido para
estimar certas características da Web. Comprovou-se de igual forma que através de uma
ferramenta preexistente, o Copernic, se podem estimar certas propriedades quer da PIW
quer dos motores de pesquisa, em particular da sua cobertura e da frescura dos seus
índices em termos de ligações inválidas.
Sistemas Automáticos de Recolha de Informação na Web 20
3 Considerações Finais

3.4 Trabalho Futuro

Esta dissertação contemplou somente as questões relacionadas com a Web que têm uma
implicação profunda na forma como se devem desenvolver motores de pesquisa de grande
escala, com mais ênfase no percurso automático da Web, e também as técnicas que os
motores de pesquisa de grande escala empregam para analisar a Web de modo a que
possam efectuar, dessa forma, um percurso e uma recolha automáticas eficazes de todo o
espaço Web, público e indexável (PIW).
Futuramente esta análise seria valorizada se fossem analisados todos os
componentes integrantes dos motores de pesquisa de índole geral, nomeadamente os que
permitem o armazenamento, a indexação e a ordenação dos documentos face a uma
determinada interrogação do utilizador. Os aspectos de interface deveriam também ser
considerados relativamente às potencialidades da linguagem de interrogação que permitam
uma experiência de pesquisa eficaz.
De modo a avaliar com mais precisão algumas características da Web e dos motores
de pesquisa deveria também ser desenvolvida uma ferramenta que proporcionasse uma
análise automática dos motores de pesquisa, à semelhança do Copernic, mas com mais
funcionalidades e flexibilidade, uma vez que o Copernic não consegue, por exemplo,
efectuar interrogações em modo avançado aos motores de pesquisa nem analisar ficheiros
em PostScript. O desenvolvimento dessa ferramenta justificar-se-ia também pela
necessidade de efectuar grandes quantidades de testes em batch num reduzido espaço de
tempo, atributo que o Copernic não apresenta. Por outro lado, seria de considerar também
a utilização de um crawler de grande escala configurável e modular, como o Mercator, e sua
implementação, para que se procedesse a um outro tipo de análise da Web, com base na
própria Web e não nos motores de pesquisa. A título de exemplo, poder-se-ia analisar
dessa forma a Web “portuguesa” em termos de tamanho, topologia e dinâmica.

3.5 Conclusão

Nesta dissertação procedeu-se à análise dos motores de pesquisa de grande escala


operados comercialmente que pretendem construir automaticamente um índice de toda a
Web, pública e indexável e, mais precisamente, do modo como estes sistemas percorrem e
recolhem automaticamente a parte textual da Web. Visto serem sistemas de recuperação de
informação, proporcionou-se também um enquadramento da área da Recuperação de
Informação, no que diz respeito à sua aplicação na Web, e uma descrição dos factores que
devem ser tomados em linha de conta no desenvolvimento destes sistemas, visto que, dada
a escala e dinâmica da Web, tanto a colecção de documentos Web como os próprios
sistemas apresentam, necessariamente, características e requisitos diferentes das dos
sistemas tradicionais de recuperação de informação.
Foi efectuada uma análise dos factores a ter em conta no desenvolvimento de
motores de pesquisa de grande escala e mais concretamente sobre as técnicas aplicadas
pelos seus crawlers para lidar com a escala, qualidade e dinâmica da Web, de modo a
permitir uma maior eficácia do seu percurso automático. Foram analisados os vários
componentes de um motor de pesquisa de grande escala, e aprofundado o funcionamento
dos componentes integrantes dos crawlers. Foram investigadas também questões relativas à
Recuperação de Informação na Web, as características da Web, e as arquitecturas e
implementações de alguns motores de pesquisa.
Sistemas Automáticos de Recolha de Informação na Web 21
3 Considerações Finais

Por forma a avaliar em que medida os maiores motores de pesquisa conseguiam


lidar com a Web, procedeu-se também a realização de trabalho experimental cujos
objectivos foram o de estimar a Web pública e indexável, a cobertura da Web por parte
dos maiores motores de pesquisa, e também a percentagem de ligações inválidas presente
nos índices desses motores de pesquisa. Foi estimado assim o tamanho da parte da Web
mais directamente acessível, a PIW, e a cobertura que dela proporcionam os motores de
pesquisa. Esta estimativa foi efectuada tendo por base motores de pesquisa como método
de amostragem aleatório, tendo-se concluído que, por comparação com estudos anteriores,
os motores de pesquisa actuais têm conseguido acompanhar o ritmo de crescimento da
Web, o qual tem apresentado nos últimos uma menor taxa de crescimento. Foram também
efectuados testes à frescura dos índices dos motores de pesquisa através da análise das
ligações inválidas presentes nos seus índices e concluiu-se de igual forma que os maiores
motores de pesquisa têm lidado convenientemente com a dinâmica da Web.
Glossário

ActiveX: último desenvolvimento das tecnologias COM da Microsoft – as quais são a base
de suporte da Object Linking Embedding (OLE) – que permitem a interacção entre
componentes de software, num ambiente em rede, independentemente da linguagem na
qual foram criados. Ao adicionar capacidades de rede – criando assim a Distributed
Component Object Model (DCOM) – e ao reduzir o âmbito da OLE para criar a ActiveX, a
Microsoft criou um conjunto de aplicações baseado em componentes, orientadas à
Internet e à Intranet. Vide controlo ActiveX.
Agrupamento: (1) processo não supervisionado que consiste em agrupar documentos de
uma colecção, ou termos, que partilham um conjunto de propriedades comuns sem
depender de conhecimento externo. A ideia é a de agrupar documentos similares ou
termos que ocorram frequentemente nos documentos. Por exemplo, o agrupamento pode
servir para expandir uma interrogação através da adição de termos novos ou de outros
relacionados. Num Modelo de Espaço Vectorial o agrupamento pode ser conseguido
através da comparação do vector da interrogação com os centróides dos clusters. (2) Refere-se
também à forma como são agrupados os resultados de um motor de pesquisa quando é
somente mostrado um ou dois endereços por site. Vide classificação, categorização automática de
texto, cluster, expansão da interrogação, interrogação, Modelo de Espaço Vectorial, site, termo de
pesquisa, termo.
AIX: acrónimo de Advanced Interactive Executive. Uma versão do sistema operativo UNIX
desenvolvido e suportado pela IBM.
Alias: nomes alternativos de hosts com o mesmo endereço de Internet. Os aliases indicam
que o host com esse alias fornece um serviço de rede em particular, tais como o de FTP ou
de HTTP. A atribuição de serviços a computadores pode ser alterada mudando
simplesmente o alias de um endereço Internet para outro, sem que os clientes necessitem
tomar conhecimento dessa mudança. Vide File Transfer Protocol (FTP), host, host virtual,
Hypertext Transfer Protocol (HTTP), Internet.
American Standard Code for Information Interchange (ASCII): esquema de
codificação que utiliza 7 ou 8 bits para atribuir valores numéricos a 256 caracteres no
máximo. Inclui letras, algarismos, marcas de pontuação, caracteres de controlo e outros
símbolos. Foi desenvolvido em 1968 para estandardizar a transmissão de dados entre
software e hardware díspares, e encontra-se integrado na maior parte dos PCs. O ASCII é
dividido em dois conjuntos: o standard com 128 caracteres e o estendido com os 128
caracteres restantes.
Âncora: No contexto do hipertexto, é um ponto de começo de uma hiperligação. Ao
clicar numa âncora num nó, a ligação associada é seguida para um novo nó ao qual a
âncora está associada. Vide hipertexto, hiperligação, nó.
Applet: programa que pode ser carregado através da Internet e executado na máquina
receptora. Por norma é escrito em Java e é executado dentro de um navegador, sendo

— 22 —
Sistemas Automáticos de Recolha de Informação na Web 23
Glossário

tipicamente utilizado para personalizar ou adicionar elementos interactivos a uma página


Web. Vide Java, navegador Web, página Web.
Application programming interface (API): interface abstracta para os protocolos e
serviços oferecidos por um sistema operativo, envolvendo, geralmente, um conjunto de
chamadas de funções. Os programadores e as aplicações podem utilizar as funções
disponibilizadas nessa interface, para assim obter acesso aos serviços do sistema operativo.
Árvores de sufixo e tabela de sufixo: índices de texto baseados num arranjo
léxicográfico de todos os suficos do texto.
Referências Bibliográficas

1. M. Agosti e A. Smeaton. Information Retrieval and Hypertext. Boston: Kluwer Academic


Publishers, 1996. ISBN 0-7923-9710-X.
Editora em linha: http://www.wkap.nl/prod/b/0-7923-9710-X.

2. M. Agosti, F. Crestani, e G. Pasi. Lectures on Information Retrieval. Lecture Notes in Computer


Science. New York: Springer Verlag, 2001. ISBN 3-540-41933-0. Vol. 1980.
Editora em linha: http://www.springer-ny.com/detail.tpl?isbn=3540419330.

3. Julio Alonso Arévalo, et al. - DoIS : Documents in Information Science [Em linha]. 2003.
[Consult. 4 Jan. 2004].
Disponível em http://dois.mimas.ac.uk/index.html.

4. The Association for Information Management Aslib - Aslib, The Association for Information
Management [Em linha]. 2003.
[Consult. 4 Jan. 2004].
Disponível em http://www.aslib.co.uk.

5. Murtha Baca, et al. - Introduction to Metadata (Getty Research Institute) [Em linha]. 2000.
[Consult. 4 Jan. 2004].
Disponível em http://www.getty.edu/research/institute/standards/intrometadata/index.html.

6. Ricardo Baeza-Yates e Berthier Ribeiro-Neto. Modern Information Retrieval. New York:


Addison Wesley, 1999. ISBN 0-201-39829-X.
Editora em linha: http://www.aw-
bc.com/catalog/academic/product/0,4096,020139829X,00.html.

7. A. Abdollahzadeh Barfourosh, et al. - Information Retrieval on the World Wide Web and Active
Logic: A Survey and Problem Definition. Maryland: Universidade de Maryland, 2002. Artigo.
[Consult. 4 Jan. 2004].
Disponível em http://www.cs.umd.edu/Library/TRs/CS-TR-4291/CS-TR-4291.pdf.

8. Tim Berners-Lee - Web Naming and Addressing Overview (URIs, URLs, ...) [Em linha]. 1993.
[Consult. 10 Jan. 2004].
Disponível em http://www.w3.org/Addressing/.

9. Michael W. Berry e Murray Browne. Understanding Search Engines - Mathematic Modeling and
Text Retrieval. Philadelphia: Society for Industrial and Applied Mathematics - SIAM, 1999.
ISBN 0-89871-437-0.
Editora em linha: http://www.ec-securehost.com/SIAM/SE08.html.

10. BrightPlanet - BrightPlanet - Delivering Deep Content [Em linha]. 2003.


[Consult. 4 Jan. 2004].
Disponível em http://www.brightplanet.com.

— 24 —
Sistemas Automáticos de Recolha de Informação na Web 25
Referências Bibliográficas

11. Sergey Brin e Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine.
Actas do Congresso 7th International World Wide Web Conference. Brisbane, Australia, 14-18
Abr. 1998.
[Consult. 4 Jan. 2004].
Disponível em http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm.

12. Terrence A. Brooks. Where is Meaning when Form is Gone? Knowledge Representation
on the Web. Information Research [Em linha]. Vol. 6, n.º 2 (2001).
[Consult. 4 Jan. 2004].
Disponível em http://informationr.net/ir/6-2/paper93.html.

13. Vannevar Bush. As We May Think. The Atlantic Monthly [Em linha]. Vol. 176, n.º 1 (1945),
p. 101-108.
[Consult. 4 Jan. 2004].
Disponível em http://www.csi.uottawa.ca/~dduchier/misc/vbush/awmt.html.

14. Carlos Castillo e Ricardo Baeza-Yates. A New Model for Web Crawling. Actas do Congresso
11th International World Wide Web Conference. Honolulu, Hawaii, USA, 7-11 Mai. 2002.
[Consult. 4 Jan. 2004].
Disponível em http://www.dcc.uchile.cl/~ccastill/papers/castillo01newcrawling.pdf.

15. Soumen Chakrabarti. Mining the Web - Discovering Knowledge from Hypertext Data. 1.ª ed. San
Francisco: Morgan Kaufmann, 2002. ISBN 1-55860-754-4.
Editora em linha: http://books.elsevier.com/us/mk/us/subindex.asp?isbn=1558607544.

16. Soumen Chakrabarti, Kunal Punera, e Mallela Subramanyam. Accelerated Focused Crawling
through Online Relevance Feedback. Actas do Congresso 11th International World Wide Web
Conference. Honolulu, Hawaii, USA 2002.
[Consult. 4 Jan. 2004].
Disponível em http://www2002.org/CDROM/refereed/336/.

17. Charles L. A. Clarke, Gordon V. Cormack, e Thomas R. Lynam. Exploiting Redundancy in


Question Answering. Actas do Congresso 24th Annual International ACM SIGIR Conference on
Research and Development in Information Retrieval. New Orleans, LA, USA, 9-13 Set. 2001.
[Consult. 4 Jan. 2004].
Disponível em http://doi.acm.org/10.1145/383952.384024.

18. Corporation For National Research Initiatives (CNRI) - D-Lib Magazine [Em linha]. 2003.
[Consult. 4 Jan. 2004].
Disponível em http://www.dlib.org/.

19. Francis Crimmins - Focused Crawling Review [Em linha]. 2001.


[Consult. 4 Jan. 2004].
Disponível em http://dev.funnelback.com/focused-crawler-review.html.

20. Bruce Croft. Web Search, Filtering, and Text Mining: Technology for a New Era of Information
Access. Actas do Congresso Beilstein- Institut Workshop. Bozen, Italy: Chemical Data Analysis
in the Large: The Challenge of the Automation Age, 22-26 Mai. 2000.
[Consult. 4 Jan. 2004].
Disponível em http://www.beilstein-institut.de/bozen2000/proceedings/croft/croft.pdf.

21. Dublin Core Metadata Initiative (DCMI) - Dublin Core Element Set, Version 1.1 - Reference
Description [Em linha]. 2002.
[Consult. 4 Jan. 2004].
Sistemas Automáticos de Recolha de Informação na Web 26
Referências Bibliográficas

Disponível em http://dublincore.org/documents/dces/.

22. Robert E. Filman e Sangam Pant. Searching the Internet. (1998), p. 21-23.
[Consult. 4 Jan. 2004].
Disponível em http://csdl.computer.org/comp/mags/ic/1998/04/w4021abs.htm.

23. NEC Research Institute - Re-Store: A System for Compressing, Browsing, and Searching
(ResearchIndex). Victoria: Universidade de Melbourne, 2002. Artigo.
[Consult. 4 Jan. 2004].
Disponível em http://citeseer.nj.nec.com/518068.html.

24. JASIS - JASIS - Journal of the American Society for Information Science [Em linha]. 2003.
[Consult. 4 Jan. 2004].
Disponível em http://www.asis.org/Publications/JASIS/jasis.html.

25. Jon Kleinberg. Authoritative Sources in a Hyperlinked Environment. Actas do Congresso 9th
Annual ACM-SIAM Symposium on Discrete Algorithms. San Francisco, California, 25-27 Jan.
1998.
[Consult. 4 Jan. 2004].
Disponível em http://www.cs.cornell.edu/home/kleinber/auth.ps.

26. Robert R. Korfhage. Information Storage and Retrieval. New York: John Wiley & Sons, 1997.
ISBN 0-471-14338-3.
Editora em linha: http://www.wiley.com/WileyCDA/WileyTitle/productCd-0471143383.html.

27. Raymond Kosala e Hendrik Blockeel. Web Mining Research: A Survey. SIGKDD
Explorations [Em linha]. Vol. 2, n.º 1 (2000).
[Consult. 4 Jan. 2004].
Disponível em http://www.acm.org/sigs/sigkdd/explorations/issue2-1/kosala.pdf.

28. Cody C. T. Kwok, Oren Etzioni, e Daniel S Weld. Scaling Question Answering to the Web.
Actas do Congresso 10th International World Wide Web Conference. Hong Kong, 1-5 Mai.
2001.
[Consult. 4 Jan. 2004].
Disponível em http://www10.org/cdrom/papers/pdf/p120.pdf.

29. Mildrid Ljosland - Evaluation of Search Engines and the Search for Better Ranking Algorithms.
Trondheim: Norwegian University of Science and Technology, 1999. Artigo.
[Consult. 4 Jan. 2004].
Disponível em http://citeseer.nj.nec.com/ljosland99evaluation.html.

30. Robert M. Losee. Text Retrieval and Filtering - Analytic Models of Performance. Boston: Kluwer
Academic Publishers, 1998. ISBN 0-7923-8177-7.
Editora em linha: http://www.wkap.nl/prod/b/0-7923-8177-7.

31. Elsevier Ltd. - Information Processing & Management [Em linha]. 2003.
[Consult. 4 Jan. 2004].
Disponível em http://www.sciencedirect.com/science/journal/03064573.

32. Charles Meadow, Bert R. Boyce, e Donald H. Kraft. Text Information Retrieval Systems. 2.ª ed.
San Diego: Academic Press, 2000. ISBN 0-12-487405-3.
Editora em linha:
http://books.elsevier.com/us//lifesci/us/subindex.asp?maintarget=&isbn=0124874053.
Sistemas Automáticos de Recolha de Informação na Web 27
Referências Bibliográficas

33. Ted Nelson - Writings of T. Nelson [Em linha]. 1999.


[Consult. 10 Jan. 2004].
Disponível em http://xanadu.com.au/ted/TN/PUBS/WritingsPage.html.

34. OASIS - The CoverPages [Em linha]. 2003.


[Consult. 4 Jan. 2004].
Disponível em http://www.oasis-open.org/cover/.

35. Bright Planet - The Deep Web: Surfacing Hidden Value. 2001. Artigo.
[Consult. 4 Jan. 2004].
Disponível em http://www.brightplanet.com/technology/deepweb.asp.

36. Elliott Pritchard - XML: The Future of Web Markup? [Em linha]. 1999.
[Consult. 4 Jan. 2004].
Disponível em http://panizzi.shef.ac.uk/elecdiss/edl0003/index.html.

37. Kluwer Academic Publishers - Information Retrieval [Em linha]. 2004.


[Consult. 4 Jan. 2004].
Disponível em http://www.kluweronline.com/issn/1386-4564.

38. Sriram Raghavan e Hector Garcia-Molina - Crawling the Hidden Web. 2001. Artigo.
[Consult. 4 Jan. 2004].
Disponível em http://dbpubs.stanford.edu/pub/2001-19.

39. Knut Magne Risvik e Rolf Michelsen - Search Engines and Web Dynamics. Fast Search &
Transfer ASA, 2001. Artigo.
[Consult. 4 Jan. 2004].
Disponível em http://www.idi.ntnu.no/~algkon/generelt/se-dynamicweb1.pdf.

40. SearchTools.com - Metadata Searching - Search Tools Background [Em linha]. 2003.
[Consult. 4 Jan. 2004].
Disponível em http://www.searchtools.com/info/metadata.html.

41. Chris Sherman - SearchDay - Mapping the 'Dark Net' - 24 January 2002 [Em linha]. 2002.
[Consult. 3 Maio 2002].
Disponível em http://www.searchenginewatch.com/searchday/article.php/2159121.

42. Tony Stewart - Top XML : What Is XML and Why Should I Care? [Em linha]. 2002.
[Consult. 4 Jan. 2004].
Disponível em http://www.vbxml.com/xml/articles/whatisxml/.

43. Tomek Strzalkowski. Natural Language Information Retrieval. Text, Speech and Language
Technology, ed. T. Strzalkowski. Boston: Kluwer Academic Publishers, 1999. ISBN 0-7923-
5685-3. Vol. 7.
Editora em linha: http://www.wkap.nl/prod/b/0-7923-5685-3.

44. Ellen M. Voorhees. Evaluation by Highly Relevant Documents. Actas do Congresso 24th Annual
International ACM SIGIR Conference on Research and Development in Information Retrieval. New
Orleans, Louisiana, United States: ACM, 9-13 Set. 2001.
[Consult. 4 Jan. 2004].
Disponível em http://doi.acm.org/10.1145/383952.383963.

45. W3C - About the World Wide Web [Em linha]. 1992.
[Consult. 4 Jan. 2004].
Sistemas Automáticos de Recolha de Informação na Web 28
Referências Bibliográficas

Disponível em http://www.w3c.org/www/.

46. W3C - Extensible Markup Language (XML) [Em linha]. 2003.


[Consult. 4 Jan. 2004].
Disponível em http://www.w3.org/XML/.

47. Search Engine Watch - NPD Search and Portal Site Study [Em linha]. 2000.
[Consult. Maio].
Disponível em http://www.searchenginewatch.com/sereport/article.php/2162791.

48. Search Engine Watch - Invisible Web Gets Deeper [Em linha]. 2000.
[Consult. Maio].
Disponível em http://www.searchenginewatch.com/sereport/article.php/2162871.

49. Search Engine Watch - Numbers, Numbers -- But What Do They Mean? [Em linha]. 2000.
[Consult. 4 Jan. 2004].
Disponível em http://www.searchenginewatch.com/sereport/article.php/2162421.

50. Tom Wilson - Information Research: An International Electronic Journal [Em linha]. 2003.
[Consult. 4 Jan. 2004].
Disponível em http://informationr.net/ir/index.html.

51. Ian H. Witten, Alistair Moffat, e Timothy C. Bell. Managing Gigabytes: Compressing and
Indexing Documents and Images. 2.ª ed. San Francisco: Morgan Kaufmann, 1999. ISBN 1-
55860-570-3.
Editora em linha: http://books.elsevier.com/us/mk/us/subindex.asp?isbn=1558605703.
Anexo A

Listas de resultados para aferição das percentagens de resultados que o


Copernic consegue recolher dos motores de pesquisa, por comparação
com o número total de resultados que os motores de pesquisa podem
relatar.

— 29 —
Sistemas Automáticos de Recolha de Informação na Web 30
Percentagem de documentos extraída pelo Copernic aos motores de pesquisa

Quadro 3-1 Número de resultados recolhido pelo Copernic e número de resultados verificado no
Altavista relativo às diferentes interrogações nos diferentes modos de pesquisa.
Termo Copernic Collapse On (1) Collapse Off (2) (1)/(2) (%)
acockbill 26 26 42 62%
allomorphism 72 72 82 88%
zoogloea 210 210 292 72%
Legenda. A primeira coluna indica o termo de pesquisa.
Anexo B

Lista de marcas registadas

— 31 —
Sistemas Automáticos de Recolha de Informação na Web 32
Lista de marcas registadas

ActiveX é uma marca registada da Microsoft Corporation.


Adobe Acrobat é uma marca registada da Adobe Systems Corporation.
AIX é uma marca registada de International Business Machines Corporation.
Altavista é uma marca registada da Altavista Corporation.
Amazon é uma marca registada da Intelligent Environments partilhada com a
Amazon.com.
AOL é uma marca registada da America Online Corporation.
Apache é uma marca registada da The Apache Software Foundation.
BullsEye é uma marca registada da IntelliSeek Corporation.
C++ é uma marca registada da Microsoft Corporation.
DCOM é uma marca registada da Microsoft Corporation.
DEC Alpha é uma marca registada da Digital Equipment Corporation.
Dell é uma marca registada da Dell Computer Corporation.
Excite é uma marca registada da Excite Corporation.
Flash é uma marca registada da Macromedia Corporation.
FreeBSD é uma marca registada do FreeBSD Project.
GIF é uma marca registada da Compuserve.
Google é uma marca registada da Google Corporation.
Intel é uma marca registada da Intel Corporation.
Internet Explorer é uma marca registada da Microsoft Corporation.
Java é uma marca registada da Sun Microsystems Corporation.
JavaScript é uma marca registada da Sun Microsystems Corporation.
JPEG é uma marca registada do Independent Joint Picture Experts Group.
Linux é uma marca registada de Linus Torvalds.
Lycos é uma marca registada da Carnegie Mellon University.
Macromedia Flash é uma marca registada da Macromedia Corporation.
Metacrawler é uma marca registada da metacrawler.com.
Microsoft Excel é uma marca registada da Microsoft Corporation.
Microsoft PowerPoint é uma marca registada da Microsoft Corporation.
Microsoft Windows é uma marca registada da Microsoft Corporation.
Microsoft Word é uma marca registada da Microsoft Corporation.
Netscape é uma marca registada da Netscape Communications Corporation.
OLE é uma marca registada da Microsoft Corporation.
PDF é uma marca registada da Adobe Systems Corporation.
PostScript é uma marca registada da Adobe Systems Corporation.
RTF é uma marca registada da International Business Machines Corporation.
Solaris é uma marca registada da Sun Microsystems Corporation.
Sun é uma marca registada da Sun Microsystems Corporation.
Visual Basic é uma marca registada da Microsoft Corporation.
Windows é uma marca registada da Microsoft Corporation.
Windows NT é uma marca registada da Microsoft Corporation.
WordPerfect é uma marca registada da Corel Corporation.
Yahoo! é uma marca registada da Yahoo! Corporation.

Você também pode gostar