Busca e recuperação da informação: estratégias e opções

BIBLIOTECONOMIA
Prof. Wesley Leite

BUSCA E RECUPERAÇÃO DA INFORMAÇÃO
Prof. Wesley Leite

PANORAMA DA AULA
❑ Busca
❑ Estratégia de busca
❑ Opções de busca
❑ Modelos de busca e recuperação da informação
❑ Modelos clássicos de recuperação da informação
❑ Outros modelos de recuperação da informação
❑ Recuperação da informação
Busca e recuperação da informação
Prof. Wesley Leite
PANORAMA DA AULA
❑ Busca e recuperação na web
❑ Ranqueamento em máquinas de busca na web
❑ Mecanismos de busca
❑ Metabuscador

Prof. Wesley Leite
Busca
Para Cunha e Cavalcanti, podemos definir a busca de três maneiras distintas:
● Processo que consiste em situar a informação numa tabela ou arquivo por referência a um
campo especial de cada registro, denominado chave. O objetivo da busca é descobrir um
registro com determinada chave.
● Análise metódica de registros informativos, com o objetivo de encontrar e localizar informações
e dados específicos; investigação.
● ação de submeter palavra ou frase a um mecanismo de busca e receber, como resposta, uma
série de endereços eletrônicos (urls) que contenham aqueles termos ou frases.

Prof. Wesley Leite
Estratégia de busca
● A autora Jennifer Rowley diz que a estratégia de busca é o conjunto de decisões e ações tomadas durante uma
busca. A estratégia de busca varia de pessoa para pessoa, pois há umas mais metódicas que outras durante a
execução da estratégia.
● Cunha diz que a estratégia de busca é a pergunta ou conjunto de perguntas, formada por palavras da
linguagem natural, por palavras-chave ou descritores, podendo estar unidos por operadores lógicos booleanos,
que possibilitam a recuperação de uma informação.

Prof. Wesley Leite
Nos mecanismos de busca em geral, é possível a realização de dois grandes tipos de
busca: a básica ou simples e a avançada.
❖ Busca básica ou simples: o usuário digita termos ou palavras num campo

predeterminado;
❖ Busca avançada: o usuário pode especificar os campos onde deverão ser
pesquisados os termos da estratégia de busca.

Prof. Wesley Leite
Para Rowley, há quatro tipos diferentes de estratégias de busca:
Busca rápida é a que emprega o operador booleano E para recuperar apenas alguns artigos. Isso talvez
corresponda a tudo que é necessário, ou o registro localizado pode ser usado como base para uma busca
subsequente.
Elementos construtivos: é aquela em que a consulta original é expandida tomando-se cada um dos
conceitos numa consulta sucessivamente e incluindo seus sinônimos e termos relacionados usando o
operador OU. Todos os conceitos são em seguida cotejados por meio do operador E, a fim de chegar ao
conjunto final. Esta estratégia é exaustiva, mas toma tempo,
Frações sucessivas: é um método para diminuir um conjunto grande mediante a seleção a que é
submetido com o emprego de E e NÃO.
Desdobramento de uma citação-matriz, que emprega um pequeno conjunto de registros ou somente um
registro como inspiração de termos de busca adequados, realizando-se então as buscas sob esses
termos.

Prof. Wesley Leite
Outras estratégias de busca muito citadas pela literatura são as seguintes:
➢ Busca difusa: é um método de busca que utiliza critérios de aproximação ao invés de resultados exatos. É usado para
encontrar resultados aproximados para consultas, permitindo que o usuário encontre o que procura mesmo sem
conhecer exatamente os termos usados. A busca difusa se tornou um recurso comum em bancos de dados, aplicativos
de pesquisa e ferramentas de recuperação de informação. Uma pesquisa difusa serve para encontrar documentos que
possuam palavras com ortografia parecida com o termo digitado. Uma consulta difusa buscará por sequências de
caracteres que se assemelham, mas não necessariamente são iguais ao termo de pesquisa.
➢ Busca por conceito: é uma estratégia de busca que usa palavras-chave relacionadas a um conceito ou ideia específica.
Esta busca não contém a palavra exata, mas o termos conceitualmente semelhante ao que está sendo buscado. Esta
técnica é útil para encontrar informações em documentos ou em bases de dados, pois ela permite que se encontre
exatamente o que está procurando. Por exemplo, se o usuário estiver procurando por informações sobre a Amazon,
poderá usar palavras-chave como "ecommerce", "varejo online" ou "comércio eletrônico" para encontrar os
resultados relacionados ao tópico.

Prof. Wesley Leite
Opções de busca
➢ Muito relacionado ao tópico anterior, as opções de busca

proporcionadas por um sistema de busca e recuperação da
informação permitem que o usuário descubra novas formas de
realizar a consulta, a recuperação e a visualização do
documento.

Prof. Wesley Leite
Opções de busca
Dentre as opções de busca encontradas nos sistemas de busca e recuperação da informação,
as principais que podem ser citadas são as seguintes:
Lógica booleana: pesquisa mais de um termo simultaneamente. É o tipo de opção

mais presente nos sistemas de busca e recuperação da informação. Os seus
operadores típicos são os seguintes:
▪ And - deve conter pelo menos uma ocorrência de cada palavra ou frase
especificada.
▪ Or - deve conter pelo menos uma ocorrência de qualquer uma das
palavras ou frases especificadas.
▪ Not - não deve conter qualquer ocorrência do termo.

Prof. Wesley Leite
Opções de busca
Fuzzy Expansion: expande a busca por similaridade da escrita ou da
pronúncia. Foi pensado para compensar erros provenientes de um
descuido da escrita ou dúvida quanto à forma correta da palavra. Opção
geralmente disponibilizada para busca à nomes próprios, pois sua
utilização pode pesquisar por uma série de outros termos que não são
interessantes para a consulta. Os seus operadores típicos são os seguintes:
▪ Spelled like (similaridade na escrita)
▪ Sounds like (similaridade na pronúncia)

Prof. Wesley Leite
Opções de busca
Wildcard: expande a busca de uma palavra, partindo de uma origem comum,
sem considerar se ela pertence ou não a mesma origem linguística. Em alguns
sistemas eles são usados como uma propriedade padrão, ou seja, irão expandir
a consulta mesmo sem o usuário ter especificado. Os seus operadores típicos
são o seguintes:
▪ (*) encontra qualquer conjunto de 0 ou mais caracteres, até um
espaço ou pontuação Determinadas bibliotecas utilizam o caracter
(%).
▪ (?) representa o n.º de caracteres que se deseja, após a palavra
origem.
Prof. Wesley Leite
Opções de busca
Stopwords: normalmente são utilizadas com o propósito de ignorar um
determinado conjunto de palavras: conjunções, artigos, caracteres não

alfabéticos, etc. Assim como o wildcard também é uma propriedade
padrão.

Prof. Wesley Leite
Opções de busca
Exactly like/stem expansion: a opção exactly like (busca exata) tem a finalidade de
localizar um item exatamente como foi escrito ao solicitar a consulta. Em alguns
sistemas é também conhecida como Contiguous Word Phrases que considera que
duas ou mais palavras devam ser tratadas como uma simples unidade semântica. A
opção stem expansion expande a busca para variações derivadas da palavra
originária. Os seus operadores típicos são os seguintes:
▪ Expressão "Exatamente como" disponível como opção ao usuário
▪ Colocação entre aspas
▪ Sinal de subtração ligando as palavras
▪ Ou ainda o uso do operador de proximidade ADJ entre as palavras

Prof. Wesley Leite
Opções de busca
Termos relacionados: permite ao usuário localizar sinônimos da palavra
sugerida. Também conhecido como Expansão Thesaurus, o uso desta opção
ainda não é muito comum.
Ordem de Avaliação: as expressões de consulta são avaliadas da mesma forma
que as expressões aritméticas. Como na aritmética, também pode-se usar
parênteses ( ) para controlar a ordem em que o sistema interpreta a
sub-expressão Se eles não forem utilizados o sistema permite uma ordem
precedente dos operadores. Os seus operadores típicos são os seguintes:
▪ Parênteses ( ), geralmente utilizados com operadores lógicos para
especificar a ordem de importância dos termos.
Prof. Wesley Leite
Opções de busca
Proximidade: usada para restringir a distância entre dois termos de busca.
Irá localizar documentos em que os termos especificados, ocorram pelo
menos uma vez e quanto mais próximos estiverem os termos dentro de um
mesmo documento, maior será a sua relevância. Os seus operadores
típicos são os seguintes:
▪ Operadores de direção: Near, after, before, Within.
▪ Também pode ser utilizado o operador (ADJ) significando
Adjacente.

Prof. Wesley Leite
Opções de busca
Case sensitivity: serve para ignorar ou não o uso da palavra escrita em maiúscula,
minúscula ou de ambas as formas. É uma propriedade comum em SRI, embora
pouco disponibilizada como uma opção de escolha ao usuário. Os seus operadores
típicos são os seguintes:
▪ Upper/lower case - a palavra deve aparecer em maiúscula ou minúscula.
▪ Ignore case differences - ignora o aparecimento de maiúscula ou
minúscula na frase.
Accent Sensitivity: consultas insensíveis ou não ao uso de distinção de sinais
diacríticos, que são sinais gráficos que permitem distinguir modulação das vogais,
tais como a vírgula, acento agudo, ponto, etc.

Prof. Wesley Leite
Modelos de busca e recuperação da informação
De acordo com Kuramoto, "os métodos utilizados na recuperação de

informação têm como base o uso da palavra, que representa a unidade
básica de acesso à informação. A partir dessa unidade foram
desenvolvidos vários modelos com o objetivo de facilitar o acesso à
informação e melhorar a precisão do resultado de uma busca ou
consulta".

Prof. Wesley Leite
Modelos de busca e recuperação da informação
Os principais modelos de busca apontados pela literatura são os seguintes:
Modelos clássicos de Recuperação da Informação (RI)

o Booleano;
o Vetorial
o Probabilístico
Texto semi estruturado
o Nodos proximais
o Outros baseados em XML
Web
o Page rank
o Hubs e autoridades
Recuperação multimídia
o Recuperação de imagens
o Recuperação de áudio e música
o Recuperação de vídeo

Prof. Wesley Leite
Modelos clássicos de recuperação da informação
Modelo booleano
Um dos modelos de busca mais utilizados é o booleano. Este modelo possui este nome pois tem como
base o raciocínio algébrico que opera mediante símbolos, idealizado pelo matemático George Boole na
metade do século XIX. Este modelo trabalha com a teoria dos conjuntos.
De acordo com Picalho, Lucas e Amorim, “a estruturação básica de uma pesquisa com operadores
booleanos consiste em: unir dois termos distintos, obrigatoriamente (AND), de forma elegível (OR) ou
excluir um ou mais termos (NOT). Esses operadores são úteis, pois funcionam como conectivos aos
termos empregados na expressão de busca, possibilitando maior precisão ou abrangência de
resultados".

Prof. Wesley Leite
Modelo booleano
Conforme Baeza Yates e Ribeiro Neto, os operadores booleanos mais utilizados durante uma pesquisa são os
seguintes:
✔ OR (busca aditiva): a consulta (e¹ OR e²) seleciona todos os documentos que satisfazem e¹ ou e². Duplicatas são
eliminadas.
✔ AND (busca conjuntiva): A consulta (e¹ AND e²) seleciona todos os documentos que satisfazem tanto e¹ quanto
e².
✔ BUT (busca subtrativa): a consulta (e¹ BUT e²) seleciona todos os documentos que satisfazem e¹, mas não e².
Perceba que a lógica Booleana clássica usa uma operação “NOT”, onde (NOT e²) é válido sempre que e² não o
for. Neste último caso, todos os documentos que não satisfazem e² devem ser recuperados o que pode retornar
uma grande quantidade de texto e provavelmente não é o que o usuário deseja. O operador BUT, por outro
lado, ajusta o universo dos elementos recuperáveis para o resultado de e¹.

Prof. Wesley Leite
Modelo vetorial
✔ Este modelo também pode ser denominado como Modelo Espaço Vetorial.
✔ De acordo com Kuramoto, este modelo se baseia na comparação parcial entre a representação
dos documentos e a da consulta do usuário. Isto é possível por conta da atribuição de pesos,
que ocorre tanto na expressão de busca realizada pelo usuário como na atribuição de termos
de indexação que servem para representar os documentos.
✔ Desta forma, neste modelo se compara o peso da representação dos documentos com as
expressões de busca. Isto permite que se possa calcular o grau de similaridade de uma
expressão de busca com os documentos contidos na base de dados.

Prof. Wesley Leite
Modelo probabilístico
✔ Este modelo é baseado na teoria matemática das probabilidades.
✔ Silva, Santos e Ferneda explicam como este modelo funciona: "esse modelo supõe que exista
um conjunto ideal de documentos que atende a cada uma das possíveis buscas que podem ser
feitas no sistema. A partir do primeiro conjunto de documentos resultantes de uma busca, o
usuário seleciona alguns que considera relevantes para responder à sua necessidade de
informação. A expressão de busca, juntamente com os documentos que foram selecionados
como relevantes, é submetida novamente ao sistema de informação, procurando refinar a busca
e tentando aproximar-se cada vez mais do conjunto ideal de documentos. Este processo
interativo é conhecido como Relevance Feedback".

Prof. Wesley Leite
Comparações dos modelos clássicos de recuperação da informação
Baeza-Yates e Ribeiro Neto oferecem algumas comparações dos modelos clássicos de recuperação
da informação. Nas palavras dos autores:
O modelo Booleano é considerado o mais fraco entre os modelos clássicos. Seu maior
problema é a falta de casamento parcial entre a consulta e os documentos, o que
frequentemente leva a uma qualidade ruim.
O modelo vetorial deve ser melhor do que o modelo probabilístico em coleções
genéricas.
O modelo vetorial, cujo esquema de ponderação está firmemente embasado na teoria da
informação, fornece uma fórmula de ranqueamento que é simples e eficaz para coleções
genéricas.
Prof. Wesley Leite
Outros modelos de recuperação da informação
Modelo baseado em texto semiestruturado
Este modelo tira vantagem da estrutura de determinado documento para auxiliar o usuário na
recuperação da informação.
Baeza-Yates e Ribeiro Neto exemplificam muito bem um uso prático deste modelo: "considere um
usuário que precisa recuperar um livro, mas não se lembra do título nem do autor. Nosso usuário lembra,
contudo, que o livro contém uma figura da Torre Eiffel em uma seção cujo título contém o termo
“França”. Nesse caso, especificar a consulta “França” não é útil, porque possivelmente irá recuperar
muitos documentos. Nosso usuário tem informação suficiente sobre o livro de interesse, mas não
consegue especificar sua consulta usando os modelos de RI que discutimos. A solução para esse
problema é tirar proveito da estrutura dos documentos para melhorar a recuperação. Por motivos de
eficiência, isso implica em construir estruturas de indexação específicas que são mais adequadas para
codificar a informação estrutural".

Prof. Wesley Leite
Modelos baseados em hipertexto
● O hipertexto é uma estrutura navegacional interativa de alto nível que
permite navegar pelo texto na tela do computador de forma não sequencial.
● Estes modelos são baseados na estrutura hipertextual do documento.

Prof. Wesley Leite
Modelos baseados na web
➢ Conforme Monteiro et al "a categorização dos modelos baseados em links utiliza a informação sobre a sua
estrutura para alcançar um bom ranqueamento na Web, uma vez que devido ao grande número de
documentos (ou páginas Web) o ranqueamento baseado somente em texto não é suficiente. Por isso, os links
entre as páginas Web também devem ser considerados no modelo, como acontece no PageRank e no Hubs &
Autoridades".

Prof. Wesley Leite
Modelos de recuperação multimídia
➢ Para Monteiro et al, no modelo de recuperação multimídia, a recuperação de uma imagem

pode ser feita apenas pela comparação entre imagens relacionadas, sem a necessidade de
escrever uma consulta, desta forma, não há a abordagem do ranqueamento da página. Dentre
as estratégias de recuperação multimídia, a mais simples é a recuperação de imagem, por ser
estática. Na recuperação de áudio, música e vídeo, o problema se torna mais difícil, pois é
necessária a inclusão de uma dimensão temporal que torna os arquivos maiores.

Prof. Wesley Leite
Busca de consulta por palavras
➢ Conforme Penha e Marins, "a consulta por palavras é considerada a mais básica que
pode ser formulada em um sistema de busca textual e consiste em uma única palavra".
Busca de consultas textuais
➢ Ainda segundo os autores, no modelo contextual, o sistema de buscas tem a habilidade

de procurar palavras em um dado contexto, ou seja, perto de outras palavras. O
contexto é utilizado, nesse caso, no sentido de proximidade física no texto. “Palavras que
aparecem próximas umas das outras podem indicar maior probabilidade de relevância do
que palavras que aparecem separadas”.

Prof. Wesley Leite
RECUPERAÇÃO DA INFORMAÇÃO
➢ O emprego da busca, com as suas diversas estratégias, proporciona a recuperação da informação. Esta
operação proporciona que a informação seja localizada de uma maneira rápida e eficaz. Desta forma, podemos
definir a recuperação da informação como a busca e localização de informações.
➢ Conforme Cunha e Cavalcanti, a recuperação da informação também pode ser denominada como restituição da
informação. Na visão destes autores, a recuperação da informação é a “restituição dos dados constantes do
sistema, para obtenção de informações específicas ou genéricas. A restituição, ou recuperação, abrange o
processo total de identificação, busca, encontro e extração da informação armazenada. Nesta operação não se
incluem, nem a criação, nem a utilização posterior das informações ou dos dados".
➢ A RI é uma maneira de obter dados de forma seletiva através do uso de argumentos de busca
destinados a identificar os registros que cumprem uma determinada condição”, exprime armazenagem
e dispositivos lógicos para cotejar os dados que se deseja recuperar, com os dados armazenados bem
como métodos e procedimentos para representar o conhecimento e a formulação de estratégias de
busca.

Prof. Wesley Leite
Araújo Júnior nos diz quais são as principais características de um "bom" sistema de
recuperação da informação:
Efetividade (significa quão bem ele desempenha uma tarefa delegada);
Benefício (o quanto se ganha com a sua utilização em determinado contexto); e
Eficiência (relaciona-se com o custo de toda a operação, isto é, equilíbrio entre custo
e benefício).

Prof. Wesley Leite
Resumindo, a recuperação da informação (RI):
Consiste em buscar e localizar informações;
É muito relacionada à descrição e tratamento técnico da informação;
Envolve a utilização de estratégias de buscas;
Está no contexto de máquinas e sistemas que auxiliam a realização das tarefas

acima.

Prof. Wesley Leite
Busca e recuperação na web
A busca e recuperação da informação na web é um enorme desafio, visto que a
quantidade de informações disponíveis na internet é muito grande, e, na maioria das
vezes, a qualidade não é verificada. Há dois grandes desafios no que tange à
recuperação da informação na web: problemas centrados em dados e problemas dos
usuários na sua interação com os dados.

Prof. Wesley Leite
Quanto ao desafio dos problemas centrados em dados, os principais que podem ser destacados são os seguintes:
● Dados distribuídos: os dados da internet estão disponíveis em uma grande quantidade de plataformas e
computadores distribuídos, sem nenhuma padronização quanto à topologia das redes ou largura das bandas;
● Alto índice de dados voláteis: os dados na internet são removidos e/ou se perdem facilmente;
● Grande volume de dados: há muita informação acumulada na internet;
● Dados não estruturados e redundantes: não há uma padronização única sobre a estruturação das páginas web;
● Qualidade dos dados: não há um processo editorial na publicação dos dados da web;
● Dados heterogêneos: Dados surgem de vários tipos de mídia, em diferentes formatos, em diferentes
linguagens, com uma variedade de alfabetos e scripts.

Prof. Wesley Leite
No que tange ao desafio dos problemas dos usuários na sua interação com os dados, os
principais que podem ser destacados são os seguintes:
Expressão de uma consulta: as necessidades de informação de cada usuário

não são fáceis de se expressar.
Interpretação dos resultados: Conforme Baeza-Yates e Ribeiro Neto, mesmo
que o usuário seja capaz de expressar perfeitamente uma consulta, a resposta
pode ser dividida em milhares ou milhões de páginas Web ou nem mesmo
existir.

Prof. Wesley Leite
Os modelos de recuperação da informação prévios à internet baseavam-se no fato
de que a informação a ser recuperada tinha origem em coleções homogêneas e

mais facilmente localizáveis. Tais informações são localizadas frequentemente em
revistas, livros, periódicos, dentre outras mídias tradicionais.
No ambiente web, o desafio da busca e recuperação da informação torna-se mais
complexo, visto que há multiplicidade de documentos, diferentes formatos e

objetos (Extensible Markup Language (XML), Portable Document Format (PDF),
imagens, áudios, linguagens computacionais, dentre outros) o maior desafio de
todos: a falta de controle da informação.

Prof. Wesley Leite
Ranqueamento em máquinas de busca na web
● Ranqueamento é uma ação realizada por mecanismos de busca, na qual eles
melhor posicionam organicamente um site na página de resultados para uma
busca a uma determinada palavra-chave.
● O ranqueamento é uma das mais importantes variáveis que influenciam na

busca de uma informação na web. Através do ranqueamento, os mecanismos
de busca decidem em que ordem as páginas irão aparecer nos resultados de
busca.

Prof. Wesley Leite
Devido à sua importância elevada, os mecanismos de buscas possuem alguns desafios
para executar esta função de forma eficaz. Dentre os principais desafios, podem ser citados os
seguintes:
julgamento adequado de relevância de uma página da web;
identificação do que é conteúdo de qualidade na web;
incentivos econômicos do modelo de negócio da web baseado em anúncio: neste

fator o mecanismo de busca deve ser capaz de conciliar a pressão de sites ou
páginas que aparecem nas primeiras colocações de forma inorgânica (através do
pagamento de anúncios).

Prof. Wesley Leite
● Outros fatores que influenciam o ranqueamento de uma página web são os
denominados sinais de ranqueamento. Pode-se citar dois tipos de sinais de
ranqueamento: os sinais de conteúdo e os sinais estruturais.
● No que se refere aos sinais de conteúdo, fatores como a estrutura do texto,

distribuição de palavras nos documentos, layout da página e distribuição de tags de
conteúdo são levados em consideração. Quanto aos sinais estruturais, eles são bem
ligados à estrutura de links da web. Desta forma, são levados em consideração links
de entrada ou de saída de uma página e textos de âncora associados com os links
que apontam para elas.

Prof. Wesley Leite
Mecanismos de busca
● Mecanismo de busca é uma designação genérica de sistemas, que permite aos
usuários procurar determinados assuntos ou documentos na Web. Monteiro
traz como sinônimos de mecanismos de busca as seguintes expressões:
buscadores, ferramentas de busca, serviços de busca e motores de busca.

Prof. Wesley Leite
Mecanismos de busca
Rowley afirma o seguinte: "os mecanismos de busca diferem entre si no que concerne aos seguintes aspectos
importantes:
● cobertura da base de dados: alguns mecanismos somente proporcionam acesso a recursos da Rede,
enquanto outros o fazem para uma ampla variedade de recursos disponíveis na internet;
● recursos e processo de busca: os mecanismos de busca pesquisam em diferentes partes dos

documentos HTML. Alguns fazem buscas apenas nos títulos e cabeçalhos, mas não no texto integral de
documentos HTML. Também varia a gama de recursos de busca. Alguns mecanismos oferecem buscas
simples com palavras-chave, enquanto outros oferecem buscas booleanas e até mesmo busca por
proximidade;
● lista de resultados: alguns mecanismos apresentam uma simples lista de recursos enquanto outros
incluem o contexto do que foi encontrado, resultados ponderados e opções de ligação com páginas
similares”.

Prof. Wesley Leite
Mecanismos de busca
A anatomia (ou arquitetura) de cada um destes mecanismos de busca pode
variar, mas todos eles devem apresentar :
● processos de coleta e indexação;
● geração de índices;
● processos de busca.

Prof. Wesley Leite
Metabuscador
● Um dos vários tipos de mecanismos de busca é o metabuscador. Cunha define a metabusca da
seguinte maneira: utilização da mesma estratégia de busca em diversos computadores ou
sistemas informatizados para encontrar itens que estejam dispersos em coleções distribuídas; as
diversas respostas recebidas são fundidas pelo sistema e o resultado é apresentado para o
solicitante numa forma integrada e consistente.
● Wadham, citado por Ferreira e Souto entende como metabusca o seguinte: "uma técnica pela
qual as fontes de informação múltiplas podem ser pesquisadas ao mesmo tempo, incluindo
catálogos de bibliotecas, bases de dados comerciais, mecanismos de busca Web e outros
metadados ou bases de dados digitais, sendo que o mecanismo de busca federado, usando um
protocolo de busca tal como o Z39.50, por exemplo, recolhe a informação a partir de várias
fontes e fornece um resultado de busca integrado ao usuário".

Prof. Wesley Leite
Metabuscador
● O metabuscador, também conhecido como metamotor de busca ou metamecanismo de
busca, nas palavras de Cunha, é um mecanismo de busca que realiza uma estratégia de
busca, de forma simultânea, em vários mecanismos de busca. O resultado mostra as
páginas encontradas pelos diversos mecanismos.
● Os metabuscadores realizam buscas federadas.
● Os metabuscadores são provedores de serviços.

Prof. Wesley Leite
Metabuscador
● Monteiro diz que os mecanismos de busca podem ser classificados conforme alguns critérios. Na visão desta
autora, os principais critérios de classificação de mecanismos de busca são os seguintes:

Prof. Wesley Leite
Metabuscador
Anatomia
● Quanto à anatomia, os mecanismos de buscas realizam três processos: crawling; indexing; e searching.
○ Crawler é um programa de varredura do conteúdo no ciberespaço. Este mecanismo realiza esta varredura
através de robôs, de forma periódica, através de seus algoritmos, coletando todas as páginas possíveis
da Web. Como resultado de sua varredura, o crawler gera uma base de dados, que serve de fundamento
para a construção do índice (indexing) no qual servirá de base para a interface de busca do usuário
(searching).

Prof. Wesley Leite
Metabuscador
Forma Geral de Organização ou Indexação
● Quanto a este critério, os mecanismos de busca podem ser classificados da seguinte
maneira: diretórios ou catálogos, programas ou robôs de busca, sistemas híbridos e
metabuscadores.
● Os diretórios organizam o conhecimento em categorias, de modo similar a um grande

catálogo. Um exemplo de diretório é o Yahoo.
● Nos programas ou robôs de busca, há uma varredura dos diversos sites da web. Nesta
varredura, há a indexação do conteúdo dos textos. Neste caso, não há organização do
conhecimento em categorias, como ocorre nos diretórios.

Prof. Wesley Leite
Metabuscador
Forma Geral de Organização ou Indexação
● Os mecanismos híbridos são uma junção das funções apresentadas nos diretórios
com as dos programas ou robôs de busca.
● Os metabuscadores, realizam suas buscas em bases de dados de outros

mecanismos de busca, não realizando a indexação propriamente dita, mas apenas
exibindo resultados. O Metacrawler é um exemplo de metabuscador que agrupa
resultados de vários buscadores, como Google, Yahoo!, Ask About, dentre outros.

Prof. Wesley Leite
Metabuscador
Ordenação dos resultados
● Battelle (2006) diz que a ordenação dos resultados é a tecnologia que faz a ligação
com o índice e a interface de busca. Vários são os fatores que influenciam na
ordenação dos resultados de busca. Os principais são os seguintes: origem ou
localização da informação, grau de manipulação dos algoritmos do mecanismo de
busca, resultados orgânicos e pagos, dentre outros.

Prof. Wesley Leite
Metabuscador
Ordenação dos resultados
O critério da localização/frequência do termo analisa a localização relativa de um termo no texto. Uma outra acepção é deste critério é
baseada na frequência das palavras, pois palavras mais repetidas são consideradas semanticamente mais relevantes.
O método da análise de links é parecido com o fator de impacto nos estudos bibliométricos. O Google foi quem começou a utilizar
este critério. Conforme este método, uma página da web é relevante se muitas outras a citam, através dos links. Neste método, podemos
definir dois conceitos:
● autoridade: muitas outras páginas apontam para ela, isto é, ela é muito citada;
● eixo: ela aponta para muitas outras, ou seja, ela cita muitas páginas.
Este fator de impacto influencia no Pagerank da página, que é um espécie de ranking da sua relevância. Uma página aumenta seu pagerank se
muitas outras a citarem ou se uma página de alto pagerank indicar seus links.
No caso do método de relevância, não há consenso sobre isso, pois cada mecanismo de busca possui o seu algoritmo para determinar quais
os sites são relevantes, conforme os termos de busca empregados.

Prof. Wesley Leite
Apresentação dos resultados
A apresentação dos resultados consiste na forma de visualização

apresentada pelos mecanismos de busca. Conforme este critério, os
mecanismos podem ser por agrupamento ou clusterização,
especializados, personalizados, ontoweb e websemântica.

Prof. Wesley Leite
Metabuscador
Paradigma semiótico
Este modo de busca inova, pois transcende o texto para a busca dos documentos. Embora os
mecanismos de busca atuais realizem a busca em imagens e sons, essa busca é baseada em
texto, pois aquela imagem ou aquele som está descrito para ser encontrado por um
argumento de busca escrito.
No paradigma semiótico o contexto é diferente. Utiliza-se imagens para a realização da busca

de imagens; o som, para a busca de sons, e por aí vai.
Portanto, na abordagem semiótica, os mecanismos de busca são classificados conforme o

paradigma: sonoros, visuais, textuais ou híbridos, que são uma mistura de todos os outros
tipos.
Prof. Wesley Leite
Instituto Consulplan - Ana MP (MPE MG)/MPE MG/Biblioteconomia/2023
Há serviços que fazem a procura de determinado termo em diversos mecanismos de busca na

internet e, normalmente, trazem resultados mais amplos do que a busca num único mecanismo.
Não possuem banco de dados próprio e apresentam um resultado unificado extraído das
diversas fontes. Em poucos segundos compilam os dados obtidos, economizando tempo e
fornecendo uma visão geral. Esses serviços são denominados:
a) Robôs.
b) Agentes.
c) Hipervínculos.
d) Metabuscadores.

Prof. Wesley Leite
DIRENS Aeronáutica - Estágio de Adaptação de Oficiais de Apoio da Aeronáutica
(CIAAR)/Biblioteconomia/2021/EAOAP 2022 - A busca de informação na web pode apresentar dificuldades
ocasionadas por diversos motivos. Uma dificuldade diretamente relacionada ao usuário e a sua interação com
o sistema de recuperação consiste em
A) manter a qualidade dos conteúdos das páginas web considerando que sua vida média é muito curta.
B) atualizar grande volume de dados tendo em vista as altas taxas de crescimento no número de páginas web.
C) especificar os termos que descrevem uma necessidade de informação e/ou entender os resultados
fornecidos pela página web.
D) armazenar dados em computadores de diversos fabricantes, tamanhos, modelos ou sistemas operacionais

que hospedam a página web.

Prof. Wesley Leite
NC UFPR (FUNPAR) - Gestor da Informação (Curitiba)/2019 - Sobre a taxonomia dos modelos de
recuperação da informação (RI), assinale a alternativa correta.
A) No modelo algébrico, os documentos e consultas são representados como conjuntos de termos de

indexação.
B) No modelo vetorial, o arcabouço para representação dos documentos e consultas é baseado na teoria das
probabilidades.
C) São quatro categorias clássicas de modelos de RI: vetorial, algébrico, algébrico estendido e indexado.
D) Na web, o ranqueamento baseado em texto não é suficiente, razão pela qual surgem os modelos de
recuperação baseados em links.
E) Na maioria dos casos, os métodos de recuperação multimídia utilizam os mesmos modelos de RI para
textos, uma vez que incluem diversas formas de ranqueamento semelhantes para imagens, vídeos e áudios.
Prof. Wesley Leite
FGV - Analista Legislativo (ALERO)/Biblioteconomia/2018 - Para expandir a busca por similaridade da escrita ou da
pronúncia, a fim de minimizar erros de grafia, uma biblioteca digital para recuperação da informação faz uso do
mecanismo denominado
A) Fuzzy Expansion.
B) Case Sensity.
C) Boolean Logic.
D) Exactly Like/Stem Expansion.
E) Accent Sensity.

Prof. Wesley Leite
CETREDE - Bibliotecário Documentalista (UFC)/2022 - Sobre os denominados “modelos clássicos” de recuperação da
informação, marque a alternativa que se refere ao modelo descrito no texto a seguir:
“Sua principal desvantagem está ligada ao fato de o modelo trabalhar o conceito de relevância de forma binária, ou
seja, os documentos são analisados sob o critério dualista relevante/não relevante, e não é criada nenhuma espécie de
ordenação dos resultados que atendam às condições de consulta. Assim, o resultado de uma busca caracteriza-se por
uma divisão do corpus documental em dois subconjuntos, separando os documentos que atendem à expressão de
busca daqueles que não atendem, não indicando nenhum tipo de ordenação ou classificação dos documentos”.
A) Booleano.
B) Vetorial.
C) Probabilístico.
D) Redes neurais.

Prof. Wesley Leite
CEBRASPE (CESPE) - Analista Ministerial (MPE CE)/Biblioteconomia/2020 - A
respeito de metabuscadores, julgue o item subsecutivo.
Os metabuscadores permitem ao usuário encontrar documentos por meio de

coleções armazenadas em ambientes digitais na Internet; contudo, para que os
metabuscadores obtenham um resultado positivo, é necessário que o usuário
conheça as bases nas quais ele procurará a informação desejada e saiba como
funciona a ferramenta de busca.

Prof. Wesley Leite
CEBRASPE (CESPE) - Analista Ministerial (MPE
CE)/Biblioteconomia/2020 - A respeito de metabuscadores, julgue o
item subsecutivo.
Os metabuscadores pesquisam apenas em web sites, porque nascem e

se desenvolvem na Internet; catálogos de bibliotecas e bases de dados,
por exemplo, são pesquisados por outros tipos de sistemas de busca.

Prof. Wesley Leite
OBRIGADO
Prof. Wesley Leite

Busca e recuperação da informação: estratégias e opções

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Busca e recuperação da informação: estratégias e opções

Enviado por

Direitos autorais:

Formatos disponíveis

BIBLIOTECONOMIA

Prof. Wesley Leite

Prof. Wesley Leite

Busca e recuperação da informação

Busca e recuperação da informação

Busca e recuperação da informação

❖ Busca básica ou simples: o usuário digita termos ou palavras num campo

Busca e recuperação da informação

Busca e recuperação da informação

Busca e recuperação da informação

➢ Muito relacionado ao tópico anterior, as opções de busca

Busca e recuperação da informação

Lógica booleana: pesquisa mais de um termo simultaneamente. É o tipo de opção

Busca e recuperação da informação

Busca e recuperação da informação

Stopwords: normalmente são utilizadas com o propósito de ignorar um

determinado conjunto de palavras: conjunções, artigos, caracteres não

Busca e recuperação da informação

Busca e recuperação da informação

Busca e recuperação da informação

Busca e recuperação da informação

De acordo com Kuramoto, "os métodos utilizados na recuperação de

Busca e recuperação da informação

Modelos clássicos de Recuperação da Informação (RI)

Busca e recuperação da informação

Busca e recuperação da informação

Busca e recuperação da informação

Busca e recuperação da informação

✔ Este modelo é baseado na teoria matemática das probabilidades.

Busca e recuperação da informação

Busca e recuperação da informação

Busca e recuperação da informação

Busca e recuperação da informação

➢ Para Monteiro et al, no modelo de recuperação multimídia, a recuperação de uma imagem

Busca e recuperação da informação

Busca de consultas textuais

➢ Ainda segundo os autores, no modelo contextual, o sistema de buscas tem a habilidade

Busca e recuperação da informação

Busca e recuperação da informação

Efetividade (signiﬁca quão bem ele desempenha uma tarefa delegada);

Benefício (o quanto se ganha com a sua utilização em determinado contexto); e

Busca e recuperação da informação

Consiste em buscar e localizar informações;

É muito relacionada à descrição e tratamento técnico da informação;

Envolve a utilização de estratégias de buscas;

Está no contexto de máquinas e sistemas que auxiliam a realização das tarefas

Busca e recuperação da informação

Busca e recuperação da informação

● Grande volume de dados: há muita informação acumulada na internet;

Busca e recuperação da informação

Expressão de uma consulta: as necessidades de informação de cada usuário

Busca e recuperação da informação

de que a informação a ser recuperada tinha origem em coleções homogêneas e

No ambiente web, o desaﬁo da busca e recuperação da informação torna-se mais

complexo, visto que há multiplicidade de documentos, diferentes formatos e

Busca e recuperação da informação

● O ranqueamento é uma das mais importantes variáveis que inﬂuenciam na

Busca e recuperação da informação

julgamento adequado de relevância de uma página da web;

identiﬁcação do que é conteúdo de qualidade na web;

incentivos econômicos do modelo de negócio da web baseado em anúncio: neste

Busca e recuperação da informação