Escolar Documentos
Profissional Documentos
Cultura Documentos
Documento Modelo PDF
Documento Modelo PDF
Britannic Bold 26
Sistemas Automáticos de
Recolha de Informação na WEB
Garamond 12
Garamond 12
António Manuel Silva Pinto Soares
Maio / 2004
Universidade de Trás-os-Montes e Alto Douro
Sistemas Automáticos de
Recolha de Informação na WEB
Garamond 16
Garamond 12
Agradecimentos
Normal1P
TitulosOutros
Quebra de secção
contínua
Normal
Resumo
Com cerca de 8 biliões de páginas, a World Wide Web, ou simplesmente Web, é um campo
fértil de investigação para a área da Recuperação de Informação. A Recuperação de
Informação é definida, actualmente, como sendo a recuperação automática de todos os
documentos relevantes, recuperando, ao mesmo tempo, a menor quantidade possível de
documentos irrelevantes. A recuperação de documentos tem por objectivo satisfazer uma
necessidade de informação do utilizador, expressa ou em linguagem natural, ou na
linguagem de interrogação específica do sistema.
A enorme quantidade de informação disponibilizada na Web gerou uma necessidade
de se desenvolverem sistemas automáticos de recuperação de informação que percorram a
Web, armazenem e indexem o seu conteúdo, permitam a pesquisa ao seu índice,
recuperem documentos relevantes e, face a uma interrogação efectuada pelo utilizador, os
ordenem por um critério de relevância. Estes sistemas automáticos de indexação da Web,
designados como motores de pesquisa, desempenham um papel fundamental na recolha,
no armazenamento, no processamento e na filtragem de informação da Web.
Um estudo completo do funcionamento dos componentes integrantes dos motores
de pesquisa de índole geral implicaria uma análise do modo como estes sistemas
percorrem, armazenam, indexam e ordenam o espaço Web, público e indexável. No
entanto, o trabalho apresentado nesta dissertação foca com maior detalhe: (i) o
enquadramento geral da Recuperação de Informação na Web; (ii) a análise dos desafios
que presidem ao desenvolvimento de motores de pesquisa de grande escala operados
comercialmente; (iii) a forma como estes sistemas são implementados, a nível dos
componentes que lhes permitem o percurso e recolha automáticos de todo o espaço Web,
público e indexável.
Quebra de secção
contínua
Travessões.
Numeração romana
—v—
Abstract
With about 8 billion Web pages, the World Wide Web, or simply the Web, it’s a fertile
ground of investigation for the Information Retrieval field. Information Retrieval is
currently defined as the automatic retrieval of all relevant documents, retrieving, at the
same time, the smallest possible amount of irrelevant documents. Document retrieval aims
at satisfying a user information need, expressed in natural language, or in the system’s
specific query language.
The enormous amount of information available in the Web has generated the need
for the development of automatic information retrieval systems. These crawl the Web,
store and index its contents, allow searching its index, retrieve relevant documents and,
when facing a query submitted by the user, order them by a criterion based on its
relevance. These automatic Web indexation systems, known as search engines, play a
fundamental role in the Web information gathering, storing, processing and filtering
processes.
A complete analysis of the search engine components implies the analysis of the way
that these systems crawl, store, index and rank the Web’s space, public and indexable.
However, the work presented in this thesis is focused on: (i) the general framing of
Information Retrieval in the Web; (ii) the challenges that preside the development of
large-scale search engines commercially operated; (iii) the way that those systems are
implemented in terms of the components that automatically crawl and gather all public
and indexable Web’s space.
Quebra de secção
contínua
— vi —
Índice Analítico
AGRADECIMENTOS......................................................................................................................... IV
RESUMO ................................................................................................................................................. V
ABSTRACT ............................................................................................................................................ VI
ÍNDICE ANALÍTICO.........................................................................................................................VII
ÍNDICE DE FIGURAS ..................................................................................................................... VIII
ÍNDICE DE QUADROS ......................................................................................................................IX
ABREVIATURAS E SIGLAS ............................................................................................................... X
1 INTRODUÇÃO.................................................................................................................................... 1
1.1 ÂMBITO DA DISSERTAÇÃO ............................................................................................................ 2
1.2 ENQUADRAMENTO E PROCESSO DE INVESTIGAÇÃO..................................................................... 4
1.3 ORGANIZAÇÃO DA DISSERTAÇÃO ................................................................................................ 6
2 A RECUPERAÇÃO DE INFORMAÇÃO NA WEB ....................................................................... 7
2.1 ENQUADRAMENTO DA RECUPERAÇÃO DE INFORMAÇÃO APLICADA À WEB ............................. 7
2.1.1 Medidas de Performance de Sistemas IR ....................................................................... 9
2.2 CARACTERÍSTICAS DA WEB RELEVANTES À IR........................................................................... 11
2.2.1 Composição e Estrutura ................................................................................................. 11
2.2.1.1 XML ................................................................................................................... 14
2.3 CONCLUSÃO ................................................................................................................................ 15
3 CONSIDERAÇÕES FINAIS............................................................................................................ 18
3.1 CONSIDERAÇÕES FINAIS .............................................................................................................. 18
3.2 DISCUSSÃO ................................................................................................................................... 18
3.3 CONTRIBUTOS .............................................................................................................................. 19
3.4 TRABALHO FUTURO..................................................................................................................... 20
3.5 CONCLUSÃO ................................................................................................................................ 20
GLOSSÁRIO.......................................................................................................................................... 22
REFERÊNCIAS BIBLIOGRÁFICAS.................................................................................................. 24
ANEXO A................................................................................................................................................ 29
LISTAS DE RESULTADOS PARA AFERIÇÃO DAS PERCENTAGENS DE RESULTADOS QUE O
COPERNIC CONSEGUE RECOLHER DOS MOTORES DE PESQUISA, POR COMPARAÇÃO COM
O NÚMERO TOTAL DE RESULTADOS QUE OS MOTORES DE PESQUISA PODEM RELATAR.............. 29
ANEXO B ................................................................................................................................................ 31
LISTA DE MARCAS REGISTADAS ............................................................................................................ 31
— vii —
Índice de Figuras
— viii —
Índice de Quadros
— ix —
Índice de Equações
—x—
XI
Abreviaturas e Siglas
Glossário
1 INTRODUÇÃO
A World Wide Web, também designada WWW, Web ou W3, surgiu em 1989 na sequência
de um projecto de informação em rede, no Conseil Européen pour la Recherche
Nucléaire1 (CERN), em que Timothy Berners-Lee, agora director do World Wide Web
Consortium2 (W3C), desenvolveu uma visão do projecto que se concretizou no que é
reconhecido actualmente como um dos maiores repositórios de informação mundial, “a
materialização do conhecimento humano” [45].
A Web é um grande espaço digital distribuído e hiperligado, constituído por uma
colecção imensa de documentos com formatos heterogéneos, tais como texto, imagem,
áudio e vídeo, que pode ser encarada como uma grande base de dados não estruturada e
ubíqua. Estes documentos apresentam conteúdos que abordam as mais variadas temáticas:
páginas pessoais, museus virtuais, catálogos de produtos e serviços, livrarias digitais e
publicações científicas. A crescente importância deste meio como forma de disseminação
da informação gerou uma necessidade de se desenvolverem sistemas que, de uma forma
eficiente, automática e precisa, façam a gestão, recuperem e filtrem a informação desta
“base de dados”. Estes sistemas, os que indexam automaticamente a Web, designam-se
motores de pesquisa. Sem estes, grande parte da Web permaneceria invisível ao utilizador.
Os motores de pesquisa permitem que os sites de pequena dimensão se tornem visíveis a
um custo reduzido, contribuindo assim para que a Web não seja dominada pelos sites mais
poderosos, uma vez que estes apresentam uma maior capacidade de se divulgarem por
outros meios (e.g., televisão).
Os motores de pesquisa são sistemas de recuperação de informação que possibilitam
a pesquisa de informação da Web. A Recuperação de Informação3 (Information Retrieval),
uma área bem estabelecida, visa recuperar os documentos relevantes de uma colecção de
documentos. Os motores de pesquisa são, assim, sistemas de recuperação de informação
que, de uma forma automática, percorrem a Web, recolhem as suas páginas e retiram delas
os termos com os quais constróem um índice – face à dinâmica e tamanho imensos da
Web, a indexação é, por excelência, o método que permite, duma forma escalável e eficaz, a
pesquisa da Web. Entenda-se por páginas documentos escritos em HTML ou, mais
simplesmente, páginas Web.
A indexação consiste em extrair, de documentos textuais Web, termos para a
construção de um índice que permita ao motor de pesquisa seleccionar, desse índice, os
documentos que satisfaçam as necessidades de informação do utilizador. Por forma a
satisfazer estas necessidades de informação, o motor de pesquisa fornece uma linguagem
específica na qual o utilizador expressa uma interrogação – normalmente através de um
Informação” e “Recuperação de Informação”. Uma vez que existe uma outra área, distinta da “Information Retrieval”, a
da “Information Extraction”, que, tal como a “Information Retrieval”, se insere num campo mais vasto de investigação que
é o do processamento de linguagem natural, optou-se, por forma a evitar uma ambiguidade, pela tradução
“Recuperação de Informação”.
Numeração arábica
—1—
Sistemas Automáticos de Recolha de Informação na Web 2
Papyrus 11, 12
1 Introdução
Papyrus 9
Journals e publicações JASIS – Journal of the American Society for Information Science [24];
periódicas sobre as Aslib, The Association for Information Management [4]; Information
ciências da Retrieval [37]; Information Research [50]; D-Lib Magazine [18];
informação Information Processing & Management [31]; DoIS: Documents in
Information Science [3].
Meta-informação “SearchTools.com: Background Topics - Meta Data and Search” [40]; “Introduction
para a Web to Metadata (Getty Research Institute)” [5]; “Where is meaning when form is gone?
Knowledge representation on the Web” [12].
Enter
Existem muitas obras escritas por investigadores das ciências da computação para
criadores de sistemas IR na Web. No âmbito deste trabalho consideraram-se
particularmente pertinentes as obras seguintes, das quais se efectua uma breve revisão.
Sistemas Automáticos de Recolha de Informação na Web 5
1 Introdução
Quebra de secção
contínua
Referência cruzada
2 A RECUPERAÇÃO DE INFORMAÇÃO NA
WEB
—7—
Sistemas Automáticos de Recolha de Informação na Web 8
2-A Recuperação de Informação na Web
Da IR advêm as técnicasCabeçalho
e os algoritmos
diferente de indexação de documentos [6], os de
do anterior.
pesquisa Booleanos, os de Modelo de Espaço
Referências Vectorial, em particular, os de Indexação
Semântica Latente (LSI), os Probabilísticos,
cruzadas! os de Agrupamento (Data Clustering), os de
Feedback Relevante e os relacionados com medidas estatísticas dos textos [6, 22]. Todos
estes métodos visam recuperar documentos relevantes de uma colecção em resposta a uma
determinada interrogação [29]. Antes do advento da Internet, a IR resumia-se a pesquisas
de índices. Hoje em dia, a “nova” IR investiga a modelação, a classificação automática de
documentos, a categorização automática de texto, a arquitectura de sistemas, as interfaces
de utilizador, a visualização de dados, a filtragem e as linguagens [6].
Um sistema IR tem por objectivo fundamental a indexação de texto e a pesquisa de
documentos úteis numa colecção, pelo que deve encontrar maneiras de interpretar o
conteúdo dos itens de informação e de pontuá-los de acordo com um grau de relevância
relativamente à interrogação efectuada pelo utilizador. Esta interpretação pode envolver
formas de recuperação de informação, não só sintácticas, como também semânticas.
Sintácticas quando envolve apenas uma pesquisa a palavras ou a padrões no texto. Estas
palavras ou padrões podem, ou não, reflectir a semântica do texto, pelo que as abordagens
de processamento linguagem natural (NLP) tentam capturá-la. Estas técnicas de
pré-processamento de linguagem natural bem como as de extracção da semântica do texto
não são novas, mas são demasiado “pesadas” para grandes quantidades de dados, e, para
além deste aspecto, são mais efectivas com um texto mais estruturado, um léxico e outra
informação contextual [6].
É reconhecido como um “grande desafio” tornar efectiva a IR na Web [20]. Os
motores de pesquisa são baseados em técnicas e algoritmos, por vezes adaptados, da área
da IR. Os modelos IR fornecem as técnicas e os algoritmos de suporte aos motores de
pesquisa na indexação, na classificação e na ordenação de documentos Web. Por causa das
particularidades da Web, novos algoritmos foram desenvolvidos e aplicados pelos motores
de pesquisa, em especial os que são baseados na estrutura de ligações da Web e na
modelação da linguagem.
Os algoritmos baseados na estrutura das ligações analisam os padrões de estruturas
para identificar sites que estão muito ligados, à semelhança das técnicas empregues na
análise de citações de artigos científicos que foram desenvolvidas na década de 70. Por sua
vez, as técnicas probabilísticas baseadas na modelação da linguagem são a base de
algoritmos efectivos para uma série de tarefas relacionadas com a linguagem,
nomeadamente no reconhecimento da fala e na tradução de linguagem, começando a
demonstrar eficácia na sua aplicação em grande escala [20]. Recentemente há mais
investigação na aplicação de técnicas de processamento de linguagem natural, rotuladas de
“resposta a questões” [17, 28], com a finalidade de produzir respostas concisas a perguntas
bem formuladas (e.g., “Porque é que o céu é azul?”). No entanto, certo tipo de perguntas
(e.g., “Qual o melhor tratamento para o cancro da próstata?”) pode requerer a combinação
de dados de várias fontes, conseguida, possivelmente, através de recuperação distribuída e
da sumarização.
Os investigadores da área da Recuperação Distribuída encontram-se a desenvolver
técnicas para identificar fontes de informação relevantes e para descrever o seu conteúdo
de forma a combinar os resultados de múltiplas pesquisas. Da mesma maneira os
investigadores da sumarização procuram obter formas de sumariar não só documentos
isolados como também grupos de documentos. Estes sumários incluem listas de termos,
frases extraídas e texto gerado.
Um dos aspectos chave para melhorar a eficácia da pesquisa de informação da Web
passa por obter melhores descrições da necessidade do utilizador. O facto de o número de
Sistemas Automáticos de Recolha de Informação na Web 9
2-A Recuperação de Informação na Web
termos empregues pelos utilizadores – um ou dois [47] – não ser muito descritivo, tem
levado a um forte desenvolvimento de técnicas de expansão automática da interrogação e
de Aprendizagem Máquina através de Feedback Relevante, no sentido de contornar esse
problema. Barfourosh et al. [7] efectuam uma resenha das técnicas de Aprendizagem
Máquina aplicadas na IR.
imenso e assim somente ser relevante não é suficiente – por norma pretende-se retornar
documentos com relevância e qualidade elevadas, ou seja, páginas valiosas. Estas páginas
são normalmente as de autoridade e as de hub conforme se ilustra na Figura 2-2. Este
conceito, introduzido por Kleinberg no seu algoritmo HITS [25], refere que “os hubs e
autoridades apresentam aquilo a que se pode chamar de uma relação de reforço mútuo: um
bom hub é uma página que aponta para muitas autoridades; uma boa autoridade é uma
página que é apontada por muitos bons hubs”.
Sistemas Automáticos de Recolha de Informação na Web 10
2-A Recuperação de Informação na Web
1
velocidade
0 1
precisão cobertura C
Figura 2-1 Permuta de concessões existente em termos da performance de um sistema IR e
relação típica entre precisão e cobertura.
Esquerda: Permuta de concessões existente na performance de um sistema IR: velocidade,
precisão e cobertura. Direita: Relação típica entre a precisão (P) e a cobertura (C): se o valor
de cobertura é baixo, então a solução consiste em alargar a pesquisa, o que irá implicar, em
princípio, uma precisão mais baixa. De forma análoga, se a precisão é baixa, a solução passa
por colocar uma nova interrogação mais restritiva, implicando que a cobertura diminua.
Adaptado de [32].
hubs autoridades
Figura 2-2 Um conjunto denso de hubs e autoridades.
Adaptado de [25].
4 http://www.google.com
5 http://www.alltheweb.com
Sistemas Automáticos de Recolha de Informação na Web 11
2-A Recuperação de Informação na Web
Apesar de a PIW ser uma colecção com características distintas das colecções tradicionais
da IR, os princípios básicos de arquitectura e de operação dos sistemas IR não se
modificaram significativamente, antes sofreram várias alterações e adaptações a este novo
ambiente hiperligado. Por este facto, esta análise concentra-se mais nas técnicas e nos
algoritmos que são aplicados em sistemas IR Web que nos aplicados em sistemas IR
clássicos, uma vez que estes são abordados extensivamente na literatura (vide secção 1.2).
6 Termo cunhado e definido como sendo “escrita não sequencial”, por Ted Nelson em 1965 [33].
Sistemas Automáticos de Recolha de Informação na Web 12
2-A Recuperação de Informação na Web
7 O URL é um mecanismo de Endereçamento Uniforme de Recursos [8] sendo uma especialização, assim como o
Uniform Resource Name (URN), de um conceito mais abstracto que é o Uniform Resource Identifier (URI). Por exemplo, o
endereço “http://www.amazon.com:81/exec/obidos/subst/home/home.html” é um URL – contém o protocolo requerido
para aceder ao recurso (e.g. “http”), um nome de domínio (e.g. “.com”) e de subdomínio (e.g. “amazon”) e uma porta de
acesso (e.g. “81”) – que identifica um computador específico na Internet, e indica a localização de um ficheiro nesse
computador através de uma descrição hierárquica do tipo UNC (e.g, “/exec/obidos/subst/home/home.html”).
Sistemas Automáticos de Recolha de Informação na Web 13
2-A Recuperação de Informação na Web
Figuras
Figura 2-4 Extracto do código HTML de uma página Web que ilustra a utilização das
etiquetas HEAD, TITLE e META, entre outras.
Fonte: [23].
no seu grau de qualidade, dado que qualquer pessoa pode ser autora numa Web
descentralizada e anárquica;
As aplicações da HTML utilizam, tipicamente, um conjunto pré-definido de etiquetas
definido em conformidade com as especificações da SGML. Se, por um lado, a HTML
liberta os autores de páginas Web dos detalhes de codificação, apresenta, por outro, os
inconvenientes seguintes [6]:
− não permite aos autores especificarem as suas próprias etiquetas, ou atributos, de
modo a possibilitar-lhes a parametrização ou qualificação semântica dos seus
dados;
− não suporta a especificação de estruturas aninhadas, necessárias para representar
esquemas de base de dados, ou hierarquias orientadas ao objecto;
− não suporta um tipo de especificação de linguagem que permita às aplicações
intensivas efectuar a validação estrutural dos dados aquando da sua importação.
Por contraste, a SGML permite a especificação de linguagens de complexidade arbitrária e
torna possíveis as qualidades de extensibilidade, de estrutura e de validação omissas na
HTML, assegurando uma maior interoperabilidade, estabilidade e longevidade. No
entanto, apresenta características que, pelo seu elevado número, impedem a sua aplicação à
Web de uma forma pragmática, razão pela qual foi desenvolvida a metalinguagem XML,
abordada em seguida.
2.2.1.1 XML
Em termos comuns, uma linguagem extensível é uma linguagem que inclui mecanismos
que possibilitam a adição de palavras, duma forma que permita o seu entendimento claro e
íntegro. Tal não acontece num sistema como o da língua portuguesa, onde a adição de
palavras é um processo evolucionário e não um factor que um indivíduo possa determinar.
A eXtensible Markup Language (XML), que se encontra em desenvolvimento pelo W3C, não
é uma linguagem à qual se possam adicionar novas palavras, mas sim um sistema que
permite definir linguagens de marcação completas, incluindo a capacidade de expandir as
Ref. cruzada
existentes.
A XML, sendo um subconjunto simplificado da SGML, caracteriza-se mais como
uma metalinguagem capaz de conter linguagens de marcação, à semelhança da SGML, que
Ref. cruzada
como uma linguagem de marcação, como a HTML. Tal como a SGML, a XML é uma
“linguagem de marcação extensível”, que permite a codificação de dados e de texto, porém
optimizada para a Web. A XML permite também uma marcação semântica inteligível,
tanto ao ser humano, como ao computador. Nos exemplos da Figura 2-5 e da Figura 2-6
são apresentadas, respectivamente, as codificações em HTML e em XML de um mesmo
extracto de um documento, ilustrando-se dessa forma o maior grau semântico conferido
pela XML comparativamente à HTML. A XML permite mais facilmente desenvolver
marcações específicas e facultar uma autoria, uma análise e um processamento automáticos
da informação em rede. De certa forma, a XML permite fazer muitas das tarefas que são
feitas actualmente por scripts ou por outros programas de interface. Por exemplo, pode ser
utilizada para definir quais os tipos de dados que os seus elementos contêm; os criadores
de conteúdo Web podem assim compor etiquetas XML para propósitos específicos,
permitindo que as páginas Web funcionem como registos de bases de dados.
Sistemas Automáticos de Recolha de Informação na Web 15
2-A Recuperação de Informação na Web
2.3 Conclusão
Foi efectuada uma análise dos aspectos que presidem ao desenvolvimento de crawlers de
grande escala, tendo sido descrita a forma como se torna possível a implementação de
sistemas deste género para o percurso automático da Web. Foram exemplificadas as
técnicas aplicadas pelos diversos crawlers de grande escala comerciais, e também pelos
crawlers resultantes de investigação, para fazer face às várias questões e desafios que a Web
coloca.
Sistemas Automáticos de Recolha de Informação na Web 16
2-A Recuperação de Informação na Web
Quadro 2-3 Relação entre o número de resultados que os motores de pesquisa relatam nos
diferentes modos de pesquisa e o número que o Copernic consegue recolher desses mesmos
motores de pesquisa.
No modo de pesquisa básico foram seleccionadas as opções que os motores de pesquisa
apresentam por defeito; em modo avançado, as opções de filtragem de conteúdo ofensivo e
agrupamento de resultados foram desactivadas.
Motor de pesquisa AW AV GG HB
Pesquisa
Modo básico – Número total de resultados esperado 91 90 156 88
Modo avançado – Número total de resultados esperado 181 114 356 88
Copernic – Número de resultados recolhidos sem URLs 168 90 156 88
duplicados
Nq = (N a + N bq )
1 q
2
De modo a estimar o valor de N com uma maior precisão torna-se necessário efectuar o
maior número possível de interrogações e calcular a média:
1
N=
Q
∑N
q∈ Q
q
Os motores de pesquisa de grande escala têm apresentado, nos últimos anos, um grande
avanço relativamente à cobertura que apresentam da PIW, à velocidade com que permitem
a pesquisa de informação a grandes quantidades de dados indexados, e à forma como
proporcionam, ao mesmo tempo, boas respostas face a interrogações com poucos termos.
A investigação da tecnologia de pesquisa de âmbito geral na Web tem amadurecido com
técnicas bem desenvolvidas. De facto, a primeira geração de motores de pesquisa
baseava-se principalmente em modelos clássicos da Recuperação de Informação, tais como
o Modelo de Espaço Vectorial, e análise e pesagem da HTML. Na segunda geração, da
qual o Google é exemplo através do algoritmo PageRank, foram empregues também a
análise quer das ligações, quer do texto de âncora para proporcionar melhores resultados.
Actualmente, a terceira geração de motores de pesquisa tenta quer responder a questões,
quer proporcionar algum contexto às interrogações colocadas pelos utilizadores – por
exemplo, através da correcção ou da proposta de novos termos para a interrogação
efectuada, para além de tentar lidar com conteúdo gerado dinamicamente e com a pesquisa
multilingual.
Existem também cada vez mais estudos relativos à implementação e
desenvolvimento de crawlers de grande de escala que fazem face à dinâmica, tamanho e
qualidade da Web, o que motivou, e proporcionou também, a elaboração desta dissertação.
Existem, no entanto, muitos problemas por resolver relativos à escala da informação, e à
gestão da computação em ambientes heterogéneos, distribuídos e dinâmicos, que, em
confronto com a futura expansão e dinâmica da Web, poderão conduzir a novas formas
ou modelos de pesquisa da Web.
3.2 Discussão
Foi efectuada uma análise dos aspectos que presidem ao desenvolvimento de motores de
pesquisa de grande escala, tendo sido descrita a forma como se torna possível a
implementação de sistemas deste género para o percurso automático em grande escala da
Web. Foram exemplificadas as técnicas aplicadas pelos diversos crawlers de grande escala
comerciais, e também pelos crawlers resultantes de investigação, para fazer face às várias
questões e desafios que a Web coloca.
Ficaram, contudo, várias questões em aberto.
A Web (PIW) continua em expansão e a Web invisível em princípio apresentará uma
maior importância em relação à PIW, pelo que se poderá assistir no futuro a uma mudança
de estratégias por parte dos motores de pesquisa de modo a que consigam recolher toda a
Web.
— 18 —
Sistemas Automáticos de Recolha de Informação na Web 19
3 Considerações Finais
3.3 Contributos
Esta dissertação contemplou somente as questões relacionadas com a Web que têm uma
implicação profunda na forma como se devem desenvolver motores de pesquisa de grande
escala, com mais ênfase no percurso automático da Web, e também as técnicas que os
motores de pesquisa de grande escala empregam para analisar a Web de modo a que
possam efectuar, dessa forma, um percurso e uma recolha automáticas eficazes de todo o
espaço Web, público e indexável (PIW).
Futuramente esta análise seria valorizada se fossem analisados todos os
componentes integrantes dos motores de pesquisa de índole geral, nomeadamente os que
permitem o armazenamento, a indexação e a ordenação dos documentos face a uma
determinada interrogação do utilizador. Os aspectos de interface deveriam também ser
considerados relativamente às potencialidades da linguagem de interrogação que permitam
uma experiência de pesquisa eficaz.
De modo a avaliar com mais precisão algumas características da Web e dos motores
de pesquisa deveria também ser desenvolvida uma ferramenta que proporcionasse uma
análise automática dos motores de pesquisa, à semelhança do Copernic, mas com mais
funcionalidades e flexibilidade, uma vez que o Copernic não consegue, por exemplo,
efectuar interrogações em modo avançado aos motores de pesquisa nem analisar ficheiros
em PostScript. O desenvolvimento dessa ferramenta justificar-se-ia também pela
necessidade de efectuar grandes quantidades de testes em batch num reduzido espaço de
tempo, atributo que o Copernic não apresenta. Por outro lado, seria de considerar também
a utilização de um crawler de grande escala configurável e modular, como o Mercator, e sua
implementação, para que se procedesse a um outro tipo de análise da Web, com base na
própria Web e não nos motores de pesquisa. A título de exemplo, poder-se-ia analisar
dessa forma a Web “portuguesa” em termos de tamanho, topologia e dinâmica.
3.5 Conclusão
ActiveX: último desenvolvimento das tecnologias COM da Microsoft – as quais são a base
de suporte da Object Linking Embedding (OLE) – que permitem a interacção entre
componentes de software, num ambiente em rede, independentemente da linguagem na
qual foram criados. Ao adicionar capacidades de rede – criando assim a Distributed
Component Object Model (DCOM) – e ao reduzir o âmbito da OLE para criar a ActiveX, a
Microsoft criou um conjunto de aplicações baseado em componentes, orientadas à
Internet e à Intranet. Vide controlo ActiveX.
Agrupamento: (1) processo não supervisionado que consiste em agrupar documentos de
uma colecção, ou termos, que partilham um conjunto de propriedades comuns sem
depender de conhecimento externo. A ideia é a de agrupar documentos similares ou
termos que ocorram frequentemente nos documentos. Por exemplo, o agrupamento pode
servir para expandir uma interrogação através da adição de termos novos ou de outros
relacionados. Num Modelo de Espaço Vectorial o agrupamento pode ser conseguido
através da comparação do vector da interrogação com os centróides dos clusters. (2) Refere-se
também à forma como são agrupados os resultados de um motor de pesquisa quando é
somente mostrado um ou dois endereços por site. Vide classificação, categorização automática de
texto, cluster, expansão da interrogação, interrogação, Modelo de Espaço Vectorial, site, termo de
pesquisa, termo.
AIX: acrónimo de Advanced Interactive Executive. Uma versão do sistema operativo UNIX
desenvolvido e suportado pela IBM.
Alias: nomes alternativos de hosts com o mesmo endereço de Internet. Os aliases indicam
que o host com esse alias fornece um serviço de rede em particular, tais como o de FTP ou
de HTTP. A atribuição de serviços a computadores pode ser alterada mudando
simplesmente o alias de um endereço Internet para outro, sem que os clientes necessitem
tomar conhecimento dessa mudança. Vide File Transfer Protocol (FTP), host, host virtual,
Hypertext Transfer Protocol (HTTP), Internet.
American Standard Code for Information Interchange (ASCII): esquema de
codificação que utiliza 7 ou 8 bits para atribuir valores numéricos a 256 caracteres no
máximo. Inclui letras, algarismos, marcas de pontuação, caracteres de controlo e outros
símbolos. Foi desenvolvido em 1968 para estandardizar a transmissão de dados entre
software e hardware díspares, e encontra-se integrado na maior parte dos PCs. O ASCII é
dividido em dois conjuntos: o standard com 128 caracteres e o estendido com os 128
caracteres restantes.
Âncora: No contexto do hipertexto, é um ponto de começo de uma hiperligação. Ao
clicar numa âncora num nó, a ligação associada é seguida para um novo nó ao qual a
âncora está associada. Vide hipertexto, hiperligação, nó.
Applet: programa que pode ser carregado através da Internet e executado na máquina
receptora. Por norma é escrito em Java e é executado dentro de um navegador, sendo
— 22 —
Sistemas Automáticos de Recolha de Informação na Web 23
Glossário
3. Julio Alonso Arévalo, et al. - DoIS : Documents in Information Science [Em linha]. 2003.
[Consult. 4 Jan. 2004].
Disponível em http://dois.mimas.ac.uk/index.html.
4. The Association for Information Management Aslib - Aslib, The Association for Information
Management [Em linha]. 2003.
[Consult. 4 Jan. 2004].
Disponível em http://www.aslib.co.uk.
5. Murtha Baca, et al. - Introduction to Metadata (Getty Research Institute) [Em linha]. 2000.
[Consult. 4 Jan. 2004].
Disponível em http://www.getty.edu/research/institute/standards/intrometadata/index.html.
7. A. Abdollahzadeh Barfourosh, et al. - Information Retrieval on the World Wide Web and Active
Logic: A Survey and Problem Definition. Maryland: Universidade de Maryland, 2002. Artigo.
[Consult. 4 Jan. 2004].
Disponível em http://www.cs.umd.edu/Library/TRs/CS-TR-4291/CS-TR-4291.pdf.
8. Tim Berners-Lee - Web Naming and Addressing Overview (URIs, URLs, ...) [Em linha]. 1993.
[Consult. 10 Jan. 2004].
Disponível em http://www.w3.org/Addressing/.
9. Michael W. Berry e Murray Browne. Understanding Search Engines - Mathematic Modeling and
Text Retrieval. Philadelphia: Society for Industrial and Applied Mathematics - SIAM, 1999.
ISBN 0-89871-437-0.
Editora em linha: http://www.ec-securehost.com/SIAM/SE08.html.
— 24 —
Sistemas Automáticos de Recolha de Informação na Web 25
Referências Bibliográficas
11. Sergey Brin e Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine.
Actas do Congresso 7th International World Wide Web Conference. Brisbane, Australia, 14-18
Abr. 1998.
[Consult. 4 Jan. 2004].
Disponível em http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm.
12. Terrence A. Brooks. Where is Meaning when Form is Gone? Knowledge Representation
on the Web. Information Research [Em linha]. Vol. 6, n.º 2 (2001).
[Consult. 4 Jan. 2004].
Disponível em http://informationr.net/ir/6-2/paper93.html.
13. Vannevar Bush. As We May Think. The Atlantic Monthly [Em linha]. Vol. 176, n.º 1 (1945),
p. 101-108.
[Consult. 4 Jan. 2004].
Disponível em http://www.csi.uottawa.ca/~dduchier/misc/vbush/awmt.html.
14. Carlos Castillo e Ricardo Baeza-Yates. A New Model for Web Crawling. Actas do Congresso
11th International World Wide Web Conference. Honolulu, Hawaii, USA, 7-11 Mai. 2002.
[Consult. 4 Jan. 2004].
Disponível em http://www.dcc.uchile.cl/~ccastill/papers/castillo01newcrawling.pdf.
15. Soumen Chakrabarti. Mining the Web - Discovering Knowledge from Hypertext Data. 1.ª ed. San
Francisco: Morgan Kaufmann, 2002. ISBN 1-55860-754-4.
Editora em linha: http://books.elsevier.com/us/mk/us/subindex.asp?isbn=1558607544.
16. Soumen Chakrabarti, Kunal Punera, e Mallela Subramanyam. Accelerated Focused Crawling
through Online Relevance Feedback. Actas do Congresso 11th International World Wide Web
Conference. Honolulu, Hawaii, USA 2002.
[Consult. 4 Jan. 2004].
Disponível em http://www2002.org/CDROM/refereed/336/.
18. Corporation For National Research Initiatives (CNRI) - D-Lib Magazine [Em linha]. 2003.
[Consult. 4 Jan. 2004].
Disponível em http://www.dlib.org/.
20. Bruce Croft. Web Search, Filtering, and Text Mining: Technology for a New Era of Information
Access. Actas do Congresso Beilstein- Institut Workshop. Bozen, Italy: Chemical Data Analysis
in the Large: The Challenge of the Automation Age, 22-26 Mai. 2000.
[Consult. 4 Jan. 2004].
Disponível em http://www.beilstein-institut.de/bozen2000/proceedings/croft/croft.pdf.
21. Dublin Core Metadata Initiative (DCMI) - Dublin Core Element Set, Version 1.1 - Reference
Description [Em linha]. 2002.
[Consult. 4 Jan. 2004].
Sistemas Automáticos de Recolha de Informação na Web 26
Referências Bibliográficas
Disponível em http://dublincore.org/documents/dces/.
22. Robert E. Filman e Sangam Pant. Searching the Internet. (1998), p. 21-23.
[Consult. 4 Jan. 2004].
Disponível em http://csdl.computer.org/comp/mags/ic/1998/04/w4021abs.htm.
23. NEC Research Institute - Re-Store: A System for Compressing, Browsing, and Searching
(ResearchIndex). Victoria: Universidade de Melbourne, 2002. Artigo.
[Consult. 4 Jan. 2004].
Disponível em http://citeseer.nj.nec.com/518068.html.
24. JASIS - JASIS - Journal of the American Society for Information Science [Em linha]. 2003.
[Consult. 4 Jan. 2004].
Disponível em http://www.asis.org/Publications/JASIS/jasis.html.
25. Jon Kleinberg. Authoritative Sources in a Hyperlinked Environment. Actas do Congresso 9th
Annual ACM-SIAM Symposium on Discrete Algorithms. San Francisco, California, 25-27 Jan.
1998.
[Consult. 4 Jan. 2004].
Disponível em http://www.cs.cornell.edu/home/kleinber/auth.ps.
26. Robert R. Korfhage. Information Storage and Retrieval. New York: John Wiley & Sons, 1997.
ISBN 0-471-14338-3.
Editora em linha: http://www.wiley.com/WileyCDA/WileyTitle/productCd-0471143383.html.
27. Raymond Kosala e Hendrik Blockeel. Web Mining Research: A Survey. SIGKDD
Explorations [Em linha]. Vol. 2, n.º 1 (2000).
[Consult. 4 Jan. 2004].
Disponível em http://www.acm.org/sigs/sigkdd/explorations/issue2-1/kosala.pdf.
28. Cody C. T. Kwok, Oren Etzioni, e Daniel S Weld. Scaling Question Answering to the Web.
Actas do Congresso 10th International World Wide Web Conference. Hong Kong, 1-5 Mai.
2001.
[Consult. 4 Jan. 2004].
Disponível em http://www10.org/cdrom/papers/pdf/p120.pdf.
29. Mildrid Ljosland - Evaluation of Search Engines and the Search for Better Ranking Algorithms.
Trondheim: Norwegian University of Science and Technology, 1999. Artigo.
[Consult. 4 Jan. 2004].
Disponível em http://citeseer.nj.nec.com/ljosland99evaluation.html.
30. Robert M. Losee. Text Retrieval and Filtering - Analytic Models of Performance. Boston: Kluwer
Academic Publishers, 1998. ISBN 0-7923-8177-7.
Editora em linha: http://www.wkap.nl/prod/b/0-7923-8177-7.
31. Elsevier Ltd. - Information Processing & Management [Em linha]. 2003.
[Consult. 4 Jan. 2004].
Disponível em http://www.sciencedirect.com/science/journal/03064573.
32. Charles Meadow, Bert R. Boyce, e Donald H. Kraft. Text Information Retrieval Systems. 2.ª ed.
San Diego: Academic Press, 2000. ISBN 0-12-487405-3.
Editora em linha:
http://books.elsevier.com/us//lifesci/us/subindex.asp?maintarget=&isbn=0124874053.
Sistemas Automáticos de Recolha de Informação na Web 27
Referências Bibliográficas
35. Bright Planet - The Deep Web: Surfacing Hidden Value. 2001. Artigo.
[Consult. 4 Jan. 2004].
Disponível em http://www.brightplanet.com/technology/deepweb.asp.
36. Elliott Pritchard - XML: The Future of Web Markup? [Em linha]. 1999.
[Consult. 4 Jan. 2004].
Disponível em http://panizzi.shef.ac.uk/elecdiss/edl0003/index.html.
38. Sriram Raghavan e Hector Garcia-Molina - Crawling the Hidden Web. 2001. Artigo.
[Consult. 4 Jan. 2004].
Disponível em http://dbpubs.stanford.edu/pub/2001-19.
39. Knut Magne Risvik e Rolf Michelsen - Search Engines and Web Dynamics. Fast Search &
Transfer ASA, 2001. Artigo.
[Consult. 4 Jan. 2004].
Disponível em http://www.idi.ntnu.no/~algkon/generelt/se-dynamicweb1.pdf.
40. SearchTools.com - Metadata Searching - Search Tools Background [Em linha]. 2003.
[Consult. 4 Jan. 2004].
Disponível em http://www.searchtools.com/info/metadata.html.
41. Chris Sherman - SearchDay - Mapping the 'Dark Net' - 24 January 2002 [Em linha]. 2002.
[Consult. 3 Maio 2002].
Disponível em http://www.searchenginewatch.com/searchday/article.php/2159121.
42. Tony Stewart - Top XML : What Is XML and Why Should I Care? [Em linha]. 2002.
[Consult. 4 Jan. 2004].
Disponível em http://www.vbxml.com/xml/articles/whatisxml/.
43. Tomek Strzalkowski. Natural Language Information Retrieval. Text, Speech and Language
Technology, ed. T. Strzalkowski. Boston: Kluwer Academic Publishers, 1999. ISBN 0-7923-
5685-3. Vol. 7.
Editora em linha: http://www.wkap.nl/prod/b/0-7923-5685-3.
44. Ellen M. Voorhees. Evaluation by Highly Relevant Documents. Actas do Congresso 24th Annual
International ACM SIGIR Conference on Research and Development in Information Retrieval. New
Orleans, Louisiana, United States: ACM, 9-13 Set. 2001.
[Consult. 4 Jan. 2004].
Disponível em http://doi.acm.org/10.1145/383952.383963.
45. W3C - About the World Wide Web [Em linha]. 1992.
[Consult. 4 Jan. 2004].
Sistemas Automáticos de Recolha de Informação na Web 28
Referências Bibliográficas
Disponível em http://www.w3c.org/www/.
47. Search Engine Watch - NPD Search and Portal Site Study [Em linha]. 2000.
[Consult. Maio].
Disponível em http://www.searchenginewatch.com/sereport/article.php/2162791.
48. Search Engine Watch - Invisible Web Gets Deeper [Em linha]. 2000.
[Consult. Maio].
Disponível em http://www.searchenginewatch.com/sereport/article.php/2162871.
49. Search Engine Watch - Numbers, Numbers -- But What Do They Mean? [Em linha]. 2000.
[Consult. 4 Jan. 2004].
Disponível em http://www.searchenginewatch.com/sereport/article.php/2162421.
50. Tom Wilson - Information Research: An International Electronic Journal [Em linha]. 2003.
[Consult. 4 Jan. 2004].
Disponível em http://informationr.net/ir/index.html.
51. Ian H. Witten, Alistair Moffat, e Timothy C. Bell. Managing Gigabytes: Compressing and
Indexing Documents and Images. 2.ª ed. San Francisco: Morgan Kaufmann, 1999. ISBN 1-
55860-570-3.
Editora em linha: http://books.elsevier.com/us/mk/us/subindex.asp?isbn=1558605703.
Anexo A
— 29 —
Sistemas Automáticos de Recolha de Informação na Web 30
Percentagem de documentos extraída pelo Copernic aos motores de pesquisa
Quadro 3-1 Número de resultados recolhido pelo Copernic e número de resultados verificado no
Altavista relativo às diferentes interrogações nos diferentes modos de pesquisa.
Termo Copernic Collapse On (1) Collapse Off (2) (1)/(2) (%)
acockbill 26 26 42 62%
allomorphism 72 72 82 88%
zoogloea 210 210 292 72%
Legenda. A primeira coluna indica o termo de pesquisa.
Anexo B
— 31 —
Sistemas Automáticos de Recolha de Informação na Web 32
Lista de marcas registadas