TI 006.1 Recuperacao Da Informacao Na Internet

RECUPERAÇÃO DA
INFORMAÇÃO NA
INTERNET.
Prof. Vitor Hugo

2011
Ferneda (2003) considera a Web a face
hipertextual da Internet e uma das
principais fontes de informação em
diversas áreas.
Para Santarém (2004) a Internet é atualmente o canal

de comunicação que possibilita a maior interatividade
entre as pessoas na busca por troca de informações e o
maior repositório para armazenamento de informações
existente.
A Web é composta unidades de
informação denominadas páginas e/ou
sites e/ou home-pages, que utilizam a
linguagem de marcação
HTML (HyperText Markup Language)
que permite a criação de ambientes
gráficos e de documentos digitais
facilmente legíveis por humanos.
Para identificar na Web a informação
desejada existem diversos mecanismos
para sua localização na Web, estes
mecanismos são denominados
ferramentas de busca,
como por exemplo:
diretórios, motores de busca ou
search engines, metamotores.
(CENDÓN, 2001; SANTARÉM SEGUNDO, 2004).

Os diretórios foram a primeira solução para
organizar e localizar as informações na Web, organizam
os sites de sua base de dados em categorias,
subcategorias, sucessivamente de forma hierárquica de
assunto.
Os motores de busca não possuem uma

organização hierarquizada dos sites que compõem sua
base de dados. Procuram armazenar o maior número
possível de recursos informacionais através de
softwares de busca denominados de robôs. Estes robôs
varrem a Web seguindo os links, descrevendo e
indexando de forma automática as informações
coletadas.
Os metamotores são
ferramentas de busca que não possuem
nenhuma base de dados própria, são
serviços que utilizam softwares que
pesquisam dados de outras ferramentas
de busca.
Esta ferramenta geralmente realiza um pré-

processamento da consulta realizada por usuários
preparando e estruturando a busca para submissão em
cada ferramenta de busca da Web: diretórios e motores
de busca.
As ferramentas de busca têm
desenvolvido técnicas que proporcionam
uma maior relevância na recuperação da
informação na Web, no entanto algumas
limitações persistem dificultando a
satisfação dos usuários.
- a grande quantidade de documentos e informação disponíveis na

Web;
- velocidade com que estes documentos são produzidos e ao
mesmo tempo desaparecem da Web e a baixa padronização dos
documentos na Internet.
Outras dificuldades:
A facilidade de interpretação que o ser humano

tem em distinguir uma palavra em um
determinado contexto não é encontrada nos
computadores e nos robôs de busca, não
permitindo, assim, que os mesmos consigam
entender o conteúdo significativo de uma
página Web.
No processo de desenvolvimento tecnológico da Web,
novas tecnologias propõem um novo formato para este
ambiente, na busca por uma melhor forma de
organização das informações.
As pesquisas atualmente desenvolvidas procuram

encontrar padrões que possibilitem agregar um maior
nível semântico às páginas Web.
O objetivo destas pesquisas é “aumentar a eficiência

dos mecanismos de busca e de outros tipos de
ferramentas de processamento automático de
documentos através da utilização de linguagens que
permitam definir dados e regras para o raciocínio sobre
esses dados”.
A contribuição da
Web semântica
A Web Semântica
é a proposta de desenvolvimento da
tecnologia Web que tem como objetivo
proporcionar a execução de tarefas mais
sofisticadas pelos computadores e é
resultado destas pesquisas que buscam
dar significado às informações
disponibilizadas em ambientes Web.
TIPOS
Existem dois tipos
básicos de ferramentas
de busca na Web:
os motores de busca
e
os diretórios
Diretórios
São índices que catalogam assuntos por
categorias e sub-categorias em um banco de
dados que pode ser pesquisado pelo usuário.
Diretórios
Os diretórios foram a primeira solução proposta

para organizar e localizar os recursos da Web,
tendo precedido os motores de busca por
palavras-chave.
Foram introduzidos quando o conteúdo da Web

ainda era pequeno o suficiente para permitir
que fosse coletado de forma não automática.
Diretórios
Organizam os sites que compõem sua base de
dados em categorias, as quais podem conter
subcategorias, ou seja, os sites recebem uma
organização hierárquica de assunto e permitem
aos usuários localizar informações, navegando,
progressivamente, para as subcategorias.
Como são ferramentas genéricas, destinadas a um
público variado, procuram incluir, em suas árvores
hierárquicas de assunto, tópicos que são de interesse
amplo.
Search engines
Search Engines são sites através dos quais é possível
localizar na Web sites que apresentem conteúdo sobre
determinado assunto.
Os search engines vasculham a rede Web

constantemente através de programas robôs (chamados
spiders) à procura de novos sites e os vão
acrescentando ao seu banco de dados. Desta forma os
search engines são mais completos que os diretórios
pois não há necessidade de inscrição dos novos sites.
OsSearch engines / motores
de busca não possuem uma organização
hierarquizada dos sites que compõem sua base
de dados. Procuram armazenar o maior número
possível de recursos informacionais através de
softwares de busca denominados de robôs.
Estes robôs varrem a Web seguindo os links,
descrevendo e indexando de forma automática
as informações coletadas.
Encontra-se na literatura especializada diversas denominações para

os robôs de busca: aranhas (spiders), agentes, viajantes
(wanderers), rastreadores (crawlers) ou vermes (worms).
Search engines
Ao contrário dos diretórios, os motores de busca não
organizam hierarquicamente as páginas que
colecionam. Preocupam-se menos com a seletividade
que com a abrangência de suas bases de dados,
procurando colecionar o maior número possível de
recursos através do uso de softwares chamados
robôs.
Como suas bases de dados são extremamente grandes, podendo
alcançar centenas de milhões de itens, permitem aos usuários
localizar os itens desejados mediante buscas por palavras-chave,
ou, às vezes, em linguagem natural.
Search engines: robôs
Os robôs, também chamados de aranhas
(spiders), agentes, viajantes (wanderers),
rastejadores (crawlers) ou vermes (worms), são
programas que o computador hospedeiro da
ferramenta de busca lança regularmente na
Internet, na tentativa de obter dados sobre o
maior número possível de documentos para
integrá-los, posteriormente, à sua base de
dados.
Existem várias estratégias que os robôs podem
utilizar para se locomoverem de um documento
a outro, utilizando-se dos links existentes nas
páginas da Web.
Geralmente, eles iniciam a busca a partir de
sites conhecidos, especialmente daqueles que
possuem muitos links, recuperam a sua home
page e, sistematicamente, seguem os links
encontrados nesta página inicial.
Os documentos encontrados pelos robôs são
encaminhados aos indexadores que extraem a
informação das páginas HTML e as armazenam
em uma base de dados.
Esta base de dados do motor de busca consiste
de informações julgadas importantes como os
URLs ou endereços das páginas HTML, títulos,
resumos, tamanho e as palavras contidas nos
documentos.
FIM

TI 006.1 Recuperacao Da Informacao Na Internet

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

TI 006.1 Recuperacao Da Informacao Na Internet

Enviado por

Direitos autorais:

Formatos disponíveis

RECUPERAÇÃO DA

Prof. Vitor Hugo

Para Santarém (2004) a Internet é atualmente o canal

(CENDÓN, 2001; SANTARÉM SEGUNDO, 2004).

Os motores de busca não possuem uma

Esta ferramenta geralmente realiza um pré-

- a grande quantidade de documentos e informação disponíveis na

A facilidade de interpretação que o ser humano

As pesquisas atualmente desenvolvidas procuram

O objetivo destas pesquisas é “aumentar a eficiência

Os diretórios foram a primeira solução proposta

Foram introduzidos quando o conteúdo da Web

Os search engines vasculham a rede Web

Encontra-se na literatura especializada diversas denominações para

Você também pode gostar