Você está na página 1de 39

Introdução à Recuperação da

Informação (RI)

Renato Fernandes Corrêa


Recuperação da Informação

DCI-UFPE 1
2

Roteiro
Problemas\Contexto\Motivação
Definição
Sistema de Recuperação de Informação (SRI)
Exemplos de SRI
3

Problemas\Contexto
Problema de RI:
 Necessidade de condensar e
organizar a informação de acordo com
necessidades e objetivos para
recuperação posterior.(OTLET, 1934)
 “A tarefa massiva de tornar mais
acessível, um acervo crescente de
conhecimento“. (VANNEVAR BUSH,
1945)
4

Problemas\Contexto
Problemas na RI:
 Explosão informacional – acervo
crescente de documentos informativos.
 Sobrecarga de informação – muitos
documentos retornados como resultado de
uma busca.
5

Contexto\Motivação
Motivações:
 Importância estratégica da
informação e do conhecimento
 Informação como recurso estratégico
para profissionais, empresas, governos,
sociedades, etc.
6

Contexto\Motivação
Motivações:
 Documentos digitais de conteúdo processável por
computador (desde 1980)
 Web como repositório mundial de informação
digital (desde 1990)
7

Exercícios
Descreva o problema de pesquisa da área de
recuperação de informação.
Cite dois problemas presentes no processo de
recuperação de informação.
Cite motivos para pesquisar o processo de
recuperação de informação.
8

Definição
Calvin MOOERS (1951) cunhou a área de
pesquisa (ou disciplina) denominada
recuperação de informação (do inglês
information retrieval), destacando que
ela:
 "engloba os aspectos intelectuais da
descrição de informações e suas
especificidades para a busca, além de quaisquer
sistemas, técnicas ou máquinas empregados
para o desempenho da operação.“
9

Definição
“Certamente, a recuperação da
informação não foi a única responsável
pelo desenvolvimento da CI [Ciência da
Informação], mas pode ser considerada como
principal; ao longo do tempo, a CI
ultrapassou a recuperação da informação,
mas os problemas principais tiveram sua
origem aí e ainda constituem seu núcleo.”
SARACEVIC (1991)
10

Definição
Buckland(1991) define informação “como
coisa” como: aquilo que é visto como
informativo, pontencial para o processo de
informar, expresso, descrito ou
representado em algum modo físico.
 Físico não é mais aplicável atualmente, mas sim
modo lógico (manipulável e legível por
computador), dada a natureza lógica, abstrata e
numérica da informação digital.
Este é o sentido de informação que os
Sistemas de Recuperação de
Informação (SRI) podem lidar diretamente.
11

Definição
Recuperação de Informação é uma área de pesquisa
e desenvolvimento que
 investiga métodos e técnicas
 para a representação, a organização, o
armazenamento, a busca e a recuperação de itens
de informação

Com objetivo principal de


 facilitar o acesso a documentos (itens de informação)
relevantes à necessidade de informação do usuário
 Geralmente representada através de expressões
de busca (consultas baseadas em palavras-chaves)
12

Recuperação de Informação
O processo de recuperação de
informação é uma tarefa típica onde:
 Dados
 Um corpus de documentos e
 Uma expressão de busca do usuário
 O objetivo é encontrar
 Um conjunto (ordenado) de documentos que
são relevantes para a consulta
Processso de RI: 13

Elementos de um Sistemas de RI


Corpus de
documentos



Expressão Sistema de RI
de busca

1. Doc1
2. Doc2
Usuário Documentos 3. Doc3
4° ordenados .
.
14

Sistemas de RI
Um sistema de recuperação de informação (SRI) pode ser visto
como
 a parte do sistema de informação responsável pelo
armazenamento ordenado dos documentos em base de
dados,
 e sua posterior recuperação

 para responder a expressão de busca usuário.

Etapas principais na construção do SRI:


 Aquisição (seleção) dos documentos

 Preparação dos documentos

 Indexação dos documentos


 Armazenamento
 Recuperação
 Busca (casamento com a representação da expressão de busca
do usuário)
 Ordenamento dos documentos recuperados (do inglês ranking)
15

Exercícios
Defina a área de pesquisa recuperação de
informação.
Defina o processo de recuperação de informação.
Defina o que é um sistema de recuperação de
informação.
Buscando caracterizar o google como um sistema de
recuperação de informação, especifique: a) corpus;
b) usuários; c) expressão de busca d) resultado da
busca.
16
Modelos de Recuperação de
Informação
Como funciona os Sistemas de Recuperação de
Informação?

Necessidade de
Armazenamento Informação
do Índice
Representação Representação Consulta
Documentos

Sistema de Resultado Usuário


Recuperação de Informação
Função de busca
Casamento, Ordenação
Modelos de Recuperação de Informação
Os SRIs adotam modelos de recuperação de
informação que definem principalmente:
 A representação dos documentos
 A visão lógica dos documentos, sua representação no
sistema
 A representação das expressões de busca dos
usuários
 A visão lógica da expressão de busca ou consulta, sua
representação no sistema
 A função de busca: como as duas representações
são comparadas, e como ordenar os documentos que
casam (a lista de resultado).
Além do modo de operação os modelos definem a
eficiência dos SRIs.
A tarefa do usuário

Diante do SRI o usuário pode realizar duas


tarefas:
 Busca ou Recuperação (do inglês Retrieval)

 Navegação (do inglês Browsing)

Dependendo da tarefa a ser realizada pelo


usuário, um modelo computacional de
recuperação de informação deve ser
empregado na construção do SRI.
Tarefas do usuário: Navegação
Navegação

Embrapa - Infoteca

MTTD-UFPE
Tarefas do usuário: Recuperação
(Busca)
22

Exercícios
O que o modelo computacional de recuperação de
informação define nos sistemas de recuperação de
inofrmação?
Quais as tarefas típicas que o usuário pode realizar
através da interface de um sistema de recuperação
de informação na especificação de uma expressão de
busca?
Exemplos de Sistemas de 23

Recuperação de Informação
Catálogo em linha de acesso público
Mecanismos de busca
Serviços de busca em linha
Sistemas de gerenciamento de documentos

Sistemas de Filtragem de Informação


Sistemas de Comércio Eletrônico

Sistemas de fluxo de vídeo/áudio


Catálogo em linha de acesso público
(OPAC)
Sistemas que recuperam informação em
bases de dados catalográficos de bibliotecas.
Exemplo:
25

Mecanismos de Busca

Engenho de Busca

Usuário Servidor de Consultas

2
Consulta 1 Recuperador

Browser Resposta 4 3
Ordenador
Base de
Índices
Motor de
Indexação Indexador

Representação dos Docs


Spider
Docs Pré-Processador
Aquisição
Web
Serviços de busca em linha
Sistemas que recuperam informação em
bases de dados bibliográficos ou de texto
completo.
Exemplos:
Sistemas de gerenciamento de
documentos
Sistemas que gerenciam versões e recuperam
informação em um corpus de documentos digitais.
Exemplos:
 Softwares Proprietários da IBM (FileNet),
Xerox(DocuShare), Microsoft (SharePoint) e
Oracle.
 Softwares Livres
 Alfresco
 KnowledgeTree
 Main//Pyrus DMS
 Nuxeo
 OpenKM
 Archivista
Sistemas de Filtragem de Informação
Sistemas que filtram a informação recuperada
de acordo com o interesse do usuário

Usuário Servidor News

Artigos Perfil do
Indexados usuário

Engenho de
Busca Internet
29

Sistemas de Extração de Informação

Sistemas capazes de extrair de documentos


relevantes apenas a informação requerida
A informação extraída pode ser apresentada
ao usuário e/ou armazenada em BDs.
Página de Hotel
Template
Nome:
Sistema de EI End.:
Fone:
Fax:
Preços:
BD
30

Interface de SRI: Recursos de Busca

Autocompletar
31

Interface de SRI: Recursos de Busca


Motivos para uso do Autocompletar (sugestão
de busca):
 Os usuários da web estão familiarizados com o
autocompletar no endereço na barra dos
navegadores
 Reduz o número de letras digitadas permitindo
uma entrada rápida da consulta
 Previne erros de digitação
 Fornece um retorno ao usuário sobre a validade
da consulta digitada
 Revela assuntos existentes no índice que casam
com o que o usuário está digitando
Requisito: lista de expressões de busca
32

Interface de SRI: Recursos de Busca

Hit Highlights
33

Interface de SRI: Recursos de Busca


Motivos para uso de Hit Highlights (destaque
de ocorrência):
 Explica para o usuário porque o documento foi
retornado como resultado da busca
 Permite visualizar no extrato do conteúdo do
documento (snippet) trechos que contém os
termos buscados mais próximos ou em maior
frequência.
Requisito: o índice deve guardar a posição de
ocorrência das palavras ou de suas
representações (radical, lemma).
34

Interface de SRI: Recursos de Busca

Outros recursos de busca:


 Você quis dizer? (Did you mean?) – útil na
formulação da consulta, permitindo
correção de erros ortográficos na consulta
 Operadores lógicos booleanos: AND, OR,
NOT, ANDNOT.
 Operadores de obrigatoriedade de
ocorrência (+,-)
 Operadores de busca em campo,
geralmente escritos no formato:
nomedocampo: expressão de busca
35

Interface de SRI: Recursos de Busca


Outros recursos de busca:
 Operador de busca por radical (*) – útil na
formulação da consulta, permitindo
casamento com variações sintáticas de um
radical de palavra que denota o mesmo
conceito.
 Operador de caracter coringa (?)
 Operador de busca por frase (“”) – útil na
formulação da consulta, permitindo casamento
com uma sequência de palavras que definem
um conceito ou contexto.
 Operador de proximidade de palavras (NEAR,
WITH)
Interface de SRI: Recursos de 36

filtragem

Busca Facetada
Interface de SRI: Recursos de 37

filtragem
Motivos para uso da Busca Facetada:
 Fornece meios para os usuários navegarem pelo
catálogo, ou discriminarem os resultados de busca
através de facetas (categorias)
 Encoraja a exploração do catálogo de forma
rápida através da seleção de facetas
Requisito: Categorias definidas e catalogadas
no momento da indexação dos documentos
38

Exercício
Escolha um SRI e descreva:
A. URL
B. corpus
C. usuários
D. Resultado da busca
E. Recursos de busca
F. Recursos de filtragem
39

Referências
FERNEDA, E. Introdução aos Modelos
Computacionais de Recuperação de
Informação. Rio de Janeiro: Editora Ciência
Moderna Ltda. 2012.
 Capítulos 1 e 2
BAEZA-YATES, R.; RIBEIRO-NETO, B. Recuperação
de informação: conceitos e tecnologia das
máquinas de busca. 2. ed. Porto Alegre: Bookman,
2013
SARACEVIC, T. Ciência da informação: origem,
evolução e relações. Perspec. Ci. Inf., Belo
Horizonte, v. 1, n. 1, p. 41-62, jan./jun. 1996

Você também pode gostar