Escolar Documentos
Profissional Documentos
Cultura Documentos
● Processo que consiste em situar a informação numa tabela ou arquivo por referência a um
campo especial de cada registro, denominado chave. O objetivo da busca é descobrir um
registro com determinada chave.
● Análise metódica de registros informativos, com o objetivo de encontrar e localizar informações
e dados específicos; investigação.
● ação de submeter palavra ou frase a um mecanismo de busca e receber, como resposta, uma
série de endereços eletrônicos (urls) que contenham aqueles termos ou frases.
● Cunha diz que a estratégia de busca é a pergunta ou conjunto de perguntas, formada por palavras da
linguagem natural, por palavras-chave ou descritores, podendo estar unidos por operadores lógicos booleanos,
que possibilitam a recuperação de uma informação.
Busca rápida é a que emprega o operador booleano E para recuperar apenas alguns artigos. Isso talvez
corresponda a tudo que é necessário, ou o registro localizado pode ser usado como base para uma busca
subsequente.
Elementos construtivos: é aquela em que a consulta original é expandida tomando-se cada um dos
conceitos numa consulta sucessivamente e incluindo seus sinônimos e termos relacionados usando o
operador OU. Todos os conceitos são em seguida cotejados por meio do operador E, a fim de chegar ao
conjunto final. Esta estratégia é exaustiva, mas toma tempo,
Frações sucessivas: é um método para diminuir um conjunto grande mediante a seleção a que é
submetido com o emprego de E e NÃO.
Desdobramento de uma citação-matriz, que emprega um pequeno conjunto de registros ou somente um
registro como inspiração de termos de busca adequados, realizando-se então as buscas sob esses
termos.
➢ Busca difusa: é um método de busca que utiliza critérios de aproximação ao invés de resultados exatos. É usado para
encontrar resultados aproximados para consultas, permitindo que o usuário encontre o que procura mesmo sem
conhecer exatamente os termos usados. A busca difusa se tornou um recurso comum em bancos de dados, aplicativos
de pesquisa e ferramentas de recuperação de informação. Uma pesquisa difusa serve para encontrar documentos que
possuam palavras com ortografia parecida com o termo digitado. Uma consulta difusa buscará por sequências de
caracteres que se assemelham, mas não necessariamente são iguais ao termo de pesquisa.
➢ Busca por conceito: é uma estratégia de busca que usa palavras-chave relacionadas a um conceito ou ideia específica.
Esta busca não contém a palavra exata, mas o termos conceitualmente semelhante ao que está sendo buscado. Esta
técnica é útil para encontrar informações em documentos ou em bases de dados, pois ela permite que se encontre
exatamente o que está procurando. Por exemplo, se o usuário estiver procurando por informações sobre a Amazon,
poderá usar palavras-chave como "ecommerce", "varejo online" ou "comércio eletrônico" para encontrar os
resultados relacionados ao tópico.
Um dos modelos de busca mais utilizados é o booleano. Este modelo possui este nome pois tem como
base o raciocínio algébrico que opera mediante símbolos, idealizado pelo matemático George Boole na
metade do século XIX. Este modelo trabalha com a teoria dos conjuntos.
De acordo com Picalho, Lucas e Amorim, “a estruturação básica de uma pesquisa com operadores
booleanos consiste em: unir dois termos distintos, obrigatoriamente (AND), de forma elegível (OR) ou
excluir um ou mais termos (NOT). Esses operadores são úteis, pois funcionam como conectivos aos
termos empregados na expressão de busca, possibilitando maior precisão ou abrangência de
resultados".
Conforme Baeza Yates e Ribeiro Neto, os operadores booleanos mais utilizados durante uma pesquisa são os
seguintes:
✔ OR (busca aditiva): a consulta (e¹ OR e²) seleciona todos os documentos que satisfazem e¹ ou e². Duplicatas são
eliminadas.
✔ AND (busca conjuntiva): A consulta (e¹ AND e²) seleciona todos os documentos que satisfazem tanto e¹ quanto
e².
✔ BUT (busca subtrativa): a consulta (e¹ BUT e²) seleciona todos os documentos que satisfazem e¹, mas não e².
Perceba que a lógica Booleana clássica usa uma operação “NOT”, onde (NOT e²) é válido sempre que e² não o
for. Neste último caso, todos os documentos que não satisfazem e² devem ser recuperados o que pode retornar
uma grande quantidade de texto e provavelmente não é o que o usuário deseja. O operador BUT, por outro
lado, ajusta o universo dos elementos recuperáveis para o resultado de e¹.
✔ Este modelo também pode ser denominado como Modelo Espaço Vetorial.
✔ De acordo com Kuramoto, este modelo se baseia na comparação parcial entre a representação
dos documentos e a da consulta do usuário. Isto é possível por conta da atribuição de pesos,
que ocorre tanto na expressão de busca realizada pelo usuário como na atribuição de termos
de indexação que servem para representar os documentos.
✔ Desta forma, neste modelo se compara o peso da representação dos documentos com as
expressões de busca. Isto permite que se possa calcular o grau de similaridade de uma
expressão de busca com os documentos contidos na base de dados.
✔ Silva, Santos e Ferneda explicam como este modelo funciona: "esse modelo supõe que exista
um conjunto ideal de documentos que atende a cada uma das possíveis buscas que podem ser
feitas no sistema. A partir do primeiro conjunto de documentos resultantes de uma busca, o
usuário seleciona alguns que considera relevantes para responder à sua necessidade de
informação. A expressão de busca, juntamente com os documentos que foram selecionados
como relevantes, é submetida novamente ao sistema de informação, procurando refinar a busca
e tentando aproximar-se cada vez mais do conjunto ideal de documentos. Este processo
interativo é conhecido como Relevance Feedback".
Baeza-Yates e Ribeiro Neto oferecem algumas comparações dos modelos clássicos de recuperação
da informação. Nas palavras dos autores:
O modelo Booleano é considerado o mais fraco entre os modelos clássicos. Seu maior
problema é a falta de casamento parcial entre a consulta e os documentos, o que
frequentemente leva a uma qualidade ruim.
O modelo vetorial deve ser melhor do que o modelo probabilístico em coleções
genéricas.
O modelo vetorial, cujo esquema de ponderação está firmemente embasado na teoria da
informação, fornece uma fórmula de ranqueamento que é simples e eficaz para coleções
genéricas.
Busca e recuperação da informação
Prof. Wesley Leite
Outros modelos de recuperação da informação
Modelo baseado em texto semiestruturado
Este modelo tira vantagem da estrutura de determinado documento para auxiliar o usuário na
recuperação da informação.
Baeza-Yates e Ribeiro Neto exemplificam muito bem um uso prático deste modelo: "considere um
usuário que precisa recuperar um livro, mas não se lembra do título nem do autor. Nosso usuário lembra,
contudo, que o livro contém uma figura da Torre Eiffel em uma seção cujo título contém o termo
“França”. Nesse caso, especificar a consulta “França” não é útil, porque possivelmente irá recuperar
muitos documentos. Nosso usuário tem informação suficiente sobre o livro de interesse, mas não
consegue especificar sua consulta usando os modelos de RI que discutimos. A solução para esse
problema é tirar proveito da estrutura dos documentos para melhorar a recuperação. Por motivos de
eficiência, isso implica em construir estruturas de indexação específicas que são mais adequadas para
codificar a informação estrutural".
➢ Conforme Monteiro et al "a categorização dos modelos baseados em links utiliza a informação sobre a sua
estrutura para alcançar um bom ranqueamento na Web, uma vez que devido ao grande número de
documentos (ou páginas Web) o ranqueamento baseado somente em texto não é suficiente. Por isso, os links
entre as páginas Web também devem ser considerados no modelo, como acontece no PageRank e no Hubs &
Autoridades".
➢ Conforme Penha e Marins, "a consulta por palavras é considerada a mais básica que
pode ser formulada em um sistema de busca textual e consiste em uma única palavra".
Eficiência (relaciona-se com o custo de toda a operação, isto é, equilíbrio entre custo
e benefício).
● Dados distribuídos: os dados da internet estão disponíveis em uma grande quantidade de plataformas e
computadores distribuídos, sem nenhuma padronização quanto à topologia das redes ou largura das bandas;
● Alto índice de dados voláteis: os dados na internet são removidos e/ou se perdem facilmente;
● Dados não estruturados e redundantes: não há uma padronização única sobre a estruturação das páginas web;
● Qualidade dos dados: não há um processo editorial na publicação dos dados da web;
● Dados heterogêneos: Dados surgem de vários tipos de mídia, em diferentes formatos, em diferentes
linguagens, com uma variedade de alfabetos e scripts.
● cobertura da base de dados: alguns mecanismos somente proporcionam acesso a recursos da Rede,
enquanto outros o fazem para uma ampla variedade de recursos disponíveis na internet;
● lista de resultados: alguns mecanismos apresentam uma simples lista de recursos enquanto outros
incluem o contexto do que foi encontrado, resultados ponderados e opções de ligação com páginas
similares”.
● geração de índices;
● processos de busca.
● Wadham, citado por Ferreira e Souto entende como metabusca o seguinte: "uma técnica pela
qual as fontes de informação múltiplas podem ser pesquisadas ao mesmo tempo, incluindo
catálogos de bibliotecas, bases de dados comerciais, mecanismos de busca Web e outros
metadados ou bases de dados digitais, sendo que o mecanismo de busca federado, usando um
protocolo de busca tal como o Z39.50, por exemplo, recolhe a informação a partir de várias
fontes e fornece um resultado de busca integrado ao usuário".
● Quanto à anatomia, os mecanismos de buscas realizam três processos: crawling; indexing; e searching.
○ Crawler é um programa de varredura do conteúdo no ciberespaço. Este mecanismo realiza esta varredura
através de robôs, de forma periódica, através de seus algoritmos, coletando todas as páginas possíveis
da Web. Como resultado de sua varredura, o crawler gera uma base de dados, que serve de fundamento
para a construção do índice (indexing) no qual servirá de base para a interface de busca do usuário
(searching).
● Nos programas ou robôs de busca, há uma varredura dos diversos sites da web. Nesta
varredura, há a indexação do conteúdo dos textos. Neste caso, não há organização do
conhecimento em categorias, como ocorre nos diretórios.
● Battelle (2006) diz que a ordenação dos resultados é a tecnologia que faz a ligação
com o índice e a interface de busca. Vários são os fatores que influenciam na
ordenação dos resultados de busca. Os principais são os seguintes: origem ou
localização da informação, grau de manipulação dos algoritmos do mecanismo de
busca, resultados orgânicos e pagos, dentre outros.
O critério da localização/frequência do termo analisa a localização relativa de um termo no texto. Uma outra acepção é deste critério é
baseada na frequência das palavras, pois palavras mais repetidas são consideradas semanticamente mais relevantes.
O método da análise de links é parecido com o fator de impacto nos estudos bibliométricos. O Google foi quem começou a utilizar
este critério. Conforme este método, uma página da web é relevante se muitas outras a citam, através dos links. Neste método, podemos
definir dois conceitos:
● autoridade: muitas outras páginas apontam para ela, isto é, ela é muito citada;
● eixo: ela aponta para muitas outras, ou seja, ela cita muitas páginas.
Este fator de impacto influencia no Pagerank da página, que é um espécie de ranking da sua relevância. Uma página aumenta seu pagerank se
muitas outras a citarem ou se uma página de alto pagerank indicar seus links.
No caso do método de relevância, não há consenso sobre isso, pois cada mecanismo de busca possui o seu algoritmo para determinar quais
os sites são relevantes, conforme os termos de busca empregados.
a) Robôs.
b) Agentes.
c) Hipervínculos.
d) Metabuscadores.
A) manter a qualidade dos conteúdos das páginas web considerando que sua vida média é muito curta.
B) atualizar grande volume de dados tendo em vista as altas taxas de crescimento no número de páginas web.
C) especificar os termos que descrevem uma necessidade de informação e/ou entender os resultados
fornecidos pela página web.
B) No modelo vetorial, o arcabouço para representação dos documentos e consultas é baseado na teoria das
probabilidades.
C) São quatro categorias clássicas de modelos de RI: vetorial, algébrico, algébrico estendido e indexado.
D) Na web, o ranqueamento baseado em texto não é suficiente, razão pela qual surgem os modelos de
recuperação baseados em links.
E) Na maioria dos casos, os métodos de recuperação multimídia utilizam os mesmos modelos de RI para
textos, uma vez que incluem diversas formas de ranqueamento semelhantes para imagens, vídeos e áudios.
Busca e recuperação da informação
Prof. Wesley Leite
FGV - Analista Legislativo (ALERO)/Biblioteconomia/2018 - Para expandir a busca por similaridade da escrita ou da
pronúncia, a fim de minimizar erros de grafia, uma biblioteca digital para recuperação da informação faz uso do
mecanismo denominado
A) Fuzzy Expansion.
B) Case Sensity.
C) Boolean Logic.
E) Accent Sensity.
“Sua principal desvantagem está ligada ao fato de o modelo trabalhar o conceito de relevância de forma binária, ou
seja, os documentos são analisados sob o critério dualista relevante/não relevante, e não é criada nenhuma espécie de
ordenação dos resultados que atendam às condições de consulta. Assim, o resultado de uma busca caracteriza-se por
uma divisão do corpus documental em dois subconjuntos, separando os documentos que atendem à expressão de
busca daqueles que não atendem, não indicando nenhum tipo de ordenação ou classificação dos documentos”.
A) Booleano.
B) Vetorial.
C) Probabilístico.
D) Redes neurais.