Existem dois tipos básicos de ferramentas de busca na Web: os motores de busca e os diretórios. Os diretórios organizam sites em categorias hierárquicas, enquanto os motores de busca armazenam o maior número possível de sites usando robôs para vasculhar a Web automaticamente. Ambos têm limitações como a grande quantidade de informação disponível e a falta de padronização dos documentos.
Existem dois tipos básicos de ferramentas de busca na Web: os motores de busca e os diretórios. Os diretórios organizam sites em categorias hierárquicas, enquanto os motores de busca armazenam o maior número possível de sites usando robôs para vasculhar a Web automaticamente. Ambos têm limitações como a grande quantidade de informação disponível e a falta de padronização dos documentos.
Existem dois tipos básicos de ferramentas de busca na Web: os motores de busca e os diretórios. Os diretórios organizam sites em categorias hierárquicas, enquanto os motores de busca armazenam o maior número possível de sites usando robôs para vasculhar a Web automaticamente. Ambos têm limitações como a grande quantidade de informação disponível e a falta de padronização dos documentos.
2011 Ferneda (2003) considera a Web a face hipertextual da Internet e uma das principais fontes de informação em diversas áreas.
Para Santarém (2004) a Internet é atualmente o canal
de comunicação que possibilita a maior interatividade entre as pessoas na busca por troca de informações e o maior repositório para armazenamento de informações existente. A Web é composta unidades de informação denominadas páginas e/ou sites e/ou home-pages, que utilizam a linguagem de marcação HTML (HyperText Markup Language) que permite a criação de ambientes gráficos e de documentos digitais facilmente legíveis por humanos. Para identificar na Web a informação desejada existem diversos mecanismos para sua localização na Web, estes mecanismos são denominados ferramentas de busca, como por exemplo: diretórios, motores de busca ou search engines, metamotores.
(CENDÓN, 2001; SANTARÉM SEGUNDO, 2004).
Os diretórios foram a primeira solução para organizar e localizar as informações na Web, organizam os sites de sua base de dados em categorias, subcategorias, sucessivamente de forma hierárquica de assunto.
Os motores de busca não possuem uma
organização hierarquizada dos sites que compõem sua base de dados. Procuram armazenar o maior número possível de recursos informacionais através de softwares de busca denominados de robôs. Estes robôs varrem a Web seguindo os links, descrevendo e indexando de forma automática as informações coletadas. Os metamotores são ferramentas de busca que não possuem nenhuma base de dados própria, são serviços que utilizam softwares que pesquisam dados de outras ferramentas de busca.
Esta ferramenta geralmente realiza um pré-
processamento da consulta realizada por usuários preparando e estruturando a busca para submissão em cada ferramenta de busca da Web: diretórios e motores de busca. As ferramentas de busca têm desenvolvido técnicas que proporcionam uma maior relevância na recuperação da informação na Web, no entanto algumas limitações persistem dificultando a satisfação dos usuários.
- a grande quantidade de documentos e informação disponíveis na
Web; - velocidade com que estes documentos são produzidos e ao mesmo tempo desaparecem da Web e a baixa padronização dos documentos na Internet. Outras dificuldades:
A facilidade de interpretação que o ser humano
tem em distinguir uma palavra em um determinado contexto não é encontrada nos computadores e nos robôs de busca, não permitindo, assim, que os mesmos consigam entender o conteúdo significativo de uma página Web. No processo de desenvolvimento tecnológico da Web, novas tecnologias propõem um novo formato para este ambiente, na busca por uma melhor forma de organização das informações.
As pesquisas atualmente desenvolvidas procuram
encontrar padrões que possibilitem agregar um maior nível semântico às páginas Web.
O objetivo destas pesquisas é “aumentar a eficiência
dos mecanismos de busca e de outros tipos de ferramentas de processamento automático de documentos através da utilização de linguagens que permitam definir dados e regras para o raciocínio sobre esses dados”. A contribuição da Web semântica A Web Semântica é a proposta de desenvolvimento da tecnologia Web que tem como objetivo proporcionar a execução de tarefas mais sofisticadas pelos computadores e é resultado destas pesquisas que buscam dar significado às informações disponibilizadas em ambientes Web. TIPOS Existem dois tipos básicos de ferramentas de busca na Web: os motores de busca e os diretórios Diretórios São índices que catalogam assuntos por categorias e sub-categorias em um banco de dados que pode ser pesquisado pelo usuário. Diretórios
Os diretórios foram a primeira solução proposta
para organizar e localizar os recursos da Web, tendo precedido os motores de busca por palavras-chave.
Foram introduzidos quando o conteúdo da Web
ainda era pequeno o suficiente para permitir que fosse coletado de forma não automática. Diretórios Organizam os sites que compõem sua base de dados em categorias, as quais podem conter subcategorias, ou seja, os sites recebem uma organização hierárquica de assunto e permitem aos usuários localizar informações, navegando, progressivamente, para as subcategorias. Como são ferramentas genéricas, destinadas a um público variado, procuram incluir, em suas árvores hierárquicas de assunto, tópicos que são de interesse amplo. Search engines Search Engines são sites através dos quais é possível localizar na Web sites que apresentem conteúdo sobre determinado assunto.
Os search engines vasculham a rede Web
constantemente através de programas robôs (chamados spiders) à procura de novos sites e os vão acrescentando ao seu banco de dados. Desta forma os search engines são mais completos que os diretórios pois não há necessidade de inscrição dos novos sites. OsSearch engines / motores de busca não possuem uma organização hierarquizada dos sites que compõem sua base de dados. Procuram armazenar o maior número possível de recursos informacionais através de softwares de busca denominados de robôs. Estes robôs varrem a Web seguindo os links, descrevendo e indexando de forma automática as informações coletadas.
Encontra-se na literatura especializada diversas denominações para
os robôs de busca: aranhas (spiders), agentes, viajantes (wanderers), rastreadores (crawlers) ou vermes (worms). Search engines Ao contrário dos diretórios, os motores de busca não organizam hierarquicamente as páginas que colecionam. Preocupam-se menos com a seletividade que com a abrangência de suas bases de dados, procurando colecionar o maior número possível de recursos através do uso de softwares chamados robôs. Como suas bases de dados são extremamente grandes, podendo alcançar centenas de milhões de itens, permitem aos usuários localizar os itens desejados mediante buscas por palavras-chave, ou, às vezes, em linguagem natural. Search engines: robôs Os robôs, também chamados de aranhas (spiders), agentes, viajantes (wanderers), rastejadores (crawlers) ou vermes (worms), são programas que o computador hospedeiro da ferramenta de busca lança regularmente na Internet, na tentativa de obter dados sobre o maior número possível de documentos para integrá-los, posteriormente, à sua base de dados. Search engines: robôs Existem várias estratégias que os robôs podem utilizar para se locomoverem de um documento a outro, utilizando-se dos links existentes nas páginas da Web. Geralmente, eles iniciam a busca a partir de sites conhecidos, especialmente daqueles que possuem muitos links, recuperam a sua home page e, sistematicamente, seguem os links encontrados nesta página inicial. Search engines: robôs Os documentos encontrados pelos robôs são encaminhados aos indexadores que extraem a informação das páginas HTML e as armazenam em uma base de dados. Esta base de dados do motor de busca consiste de informações julgadas importantes como os URLs ou endereços das páginas HTML, títulos, resumos, tamanho e as palavras contidas nos documentos. FIM