Você está na página 1de 39

Prof.

: Lus Carlos Costa Fonseca

Introduo; Conceitos Bsicos; Recuperao de Informaes e as Bibliotecas; Alguns Modelos de RI;


Booleano; Vetorial; LSI;

RI em Contexto; Consideraes Finais;

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

Recuperao de Informao ou Information Retrieval (RI ou IR) lida com:


Representao; Armazenamento; Organizao; Acesso a itens de informao (documentos);

A representao e a organizao da informao deve prover ao usurio acesso fcil a informao de seu interesse.

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

Problema Necessidade do usurio:


Como descrever o que necessrio? Traduzir o que deseja em forma de consultas
Conjunto de palavras chave;

Como um usurio pode ter a certeza de que termos escolher?

Dada uma consulta, o principal objetivo do SRI retornar informaes teis (relevantes) ao usurio; A nfase na recuperao de informao e no na recuperao de dados.
Prof. Lus Carlos Costa Fonseca 21 de maio de 2013 4

Recuperao de dados:
Determinar quais documentos de uma coleo contm as palavras-chave que aparecem na consulta de um usurio; No suficiente na maioria das vezes;

Sistemas de RI:
Devem interpretar o contedo das informaes encontradas nos documentos de uma coleo e orden-los de acordo com um grau de relevncia para o usurio; Relevncia a palavra central de um SRI.

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

Tarefa do Usurio (user task):


Traduzir sua necessidade de informaes em uma consulta, escrita na linguagem fornecida pelo sistema; Implica em especificar um conjunto de palavras que conduzam a semntica de sua necessidade; Neste caso, o usurio est buscando por informaes teis executando uma tarefa de recuperao;

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

Tarefa do Usurio (user task):


Consultas com interesses muito especficos; Uma ferramenta que auxilie este usurio a navegar por diversos documentos de uma coleo de documentos mais interessante, pois ser mais abrangente.

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

Tarefa do Usurio (user task):


SRI clssicos - recuperao de informao rpida; Sistemas de hipertexto - navegao rpida; Bibliotecas digitais modernas e interfaces para a web:
Devem tentar combinar estas duas tarefas, entretanto esta ainda no uma abordagem estabelecida;

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

Viso Lgica dos Documentos:


Documentos em uma coleo so geralmente representados por um conjunto de termos de indexao ou palavras-chaves; Podem ser extradas de duas formas:
Automtica; Selecionados por um especialista humano;

Fornecem uma viso lgica dos Documentos; O texto completo seria a especificao mais adequada -> altos custos computacionais;

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

10

Viso Lgica dos Documentos


Mesmo os computadores mais modernos, em colees muito grandes, precisam reduzir o conjunto de palavras-chave representativas. Isto pode ser acompanhado de:
Remoo de stopwords: artigos e conetivos; Stemming: Substituem palavras flexionadas por seus respectivos radicais) Identificao de substantivos: eliminam adjetivos, advrbios e verbos; Futuramente, tambm poder ser empregada a compresso.

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

11

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

12

Bibliotecas: Um dos primeiros tipos de instituio a adotar sistemas de RI;


A primeira gerao de sistemas apenas automatizava tecnologias j utilizadas, como uso de catlogos; Segunda gerao: acrscimo de funes de busca, pelo uso de palavras-chaves e alguns tipos de consultas mais complexas; Terceira gerao: criao de interfaces grficas, formulrios eletrnicos, caractersticas de hipertexto, e arquiteturas de sistemas abertos.

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

13

Exemplos de empresas que desenvolvem sistemas de gerenciamento de bibliotecas:


Endeavor Information System Inc., Innovative Interfaces Inc., e EOS International;

Exemplos de sistemas desenvolvidos como pesquisa em bibliotecas acadmicas:


Okapi (na City University, Londres), MELVYL (na Universidade da Califrnia), e Cheshire II (em Berkeley).

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

14

Por aproximadamente 4000 anos o homem tem organizado informaes para serem recuperadas e usadas posteriormente; Por exemplo, uma tabela de contedo de um livro; Como o acervo de livros cresceu:
Uma estrutura teve de ser criada para acessar de forma mais rpida as informaes armazenadas nos livros. Criao de ndices;

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

15

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

16

Existem duas diferentes vises do problema de RI:


Centrada no Computador:
Consiste principalmente em construir ndices eficientes, processar consultas de usurios com o melhor desempenho possvel, e desenvolver algoritmos de ordenao que possam trazer qualidade resposta do usurio;

Centrada no Homem:
Consiste no estudo da conduta do usurio, no entendimento de suas principais necessidades, e em como o este entendimento afeta a organizao e as operaes do SRI.
Prof. Lus Carlos Costa Fonseca 21 de maio de 2013 17

Booleano:
Baseado na Teoria dos Conjuntos e na lgebra Booleana; Mais utilizado para recuperao de dados do que para recuperao de informao; bom para usurios que entendem bem a lgebra booleana, mas o usurio comum na maioria dos casos no entende; O modelo Booleano considera que os termos indexados esto presentes ou no em um documento.

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

18

Vetorial:

O Modelo Vetorial reconhece que o uso de pesos binrios muito limitado; Prope um framework onde possvel mensurar uma similaridade parcial; Associao de pesos no-binrios aos termos indexados das consultas e dos documentos; Pesos so utilizados ento para medir o grau de similaridade entre cada documento armazenado no sistema e a consulta do usurio; Classificando os documentos recuperados em ordem decrescente deste grau de similaridade.

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

19

Vetorial:
Leva em conta documentos que se igualam apenas parcialmente com a consulta; O conjunto de documentos ranqueados bem mais preciso que o apresentado pelo Modelo Booleano; No modelo vetorial cada documento representado como um vetor de termos; Cada termo possui um valor associado que indica o grau de importncia (peso) deste no documento; {(palavra_1, peso_1), (palavra_2, peso_2),..., (palavra_n, peso_n)}

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

20

Vetorial:

Ento, um documento dj e uma consulta do usurio q so representados como vetores t-dimensionais; Essa correlao pode ser quantificada, por exemplo, pelo cosseno do ngulo entre estes dois vetores:

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

21

LSI:
A Indexao de Semntica Latente uma tcnica que projeta consultas e documentos em um Espao de Dimenses de Semntica Latente; No Espao de Semntica Latente, uma consulta e um documento podem ter uma alta similaridade de cosseno mesmo que no compartilhem termos pelo fato de seus termos serem semanticamente similares;

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

22

Probabilstico:
baseado no princpio da ordenao probabilstica (Probability Ranking Principle); Neste modelo, busca-se saber a probabilidade de um documento D ser ou no relevante para uma consulta Qa. Tal informao pode ser obtida assumindo-se que a distribuio de termos na coleo seja capaz de informar a relevncia provvel para um documento qualquer da coleo;

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

23

CNG: ;

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

24

O resultado de uma busca realizada em um SRI pode ser avaliado atravs de mtricas provenientes da rea de bibliometria, que encarregada de estudar e aplicar mtodos matemticos e estatsticos em documentos.

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

25

Tendo-se uma coleo de documentos conhecida, pode-se adotar a estratgia de quando o usurio de um SRI dispara uma busca o conjunto de documentos dividido em quatro segmentos lgicos:

Documentos relevantes consulta, que so recuperados pelo SRI; Documentos relevantes consulta, que no foram recuperados pelo SRI; Documentos irrelevantes consulta, mas que foram recuperados; e Documentos irrelevantes e que no foram recuperados.
Prof. Lus Carlos Costa Fonseca 21 de maio de 2013 26

O desempenho de um SRI ento avaliado de acordo com a sua capacidade em recuperar o maior nmero de itens relevantes, ao mesmo tempo em que filtra ao mximo os itens irrelevantes; em cima desta estratgia que as mtricas so desenvolvidas e aplicadas.

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

27

Dentro da computao as mtricas mais importantes para a avaliao do resultado de um SRI so: revocao (recall) e preciso (precision). Porm, pelo fato destas mtricas necessitarem de informaes relativas ao nmero de documentos relevantes consulta e os sistemas no terem como fornec-las (um SRI no tem como saber se existem itens relevantes que no foram recuperados, mesmo porque se soubesse t-los-ia retornado), essas mtricas no so aplicadas na prtica, principalmente em SRI comerciais.
Prof. Lus Carlos Costa Fonseca 21 de maio de 2013 28

Para efeito de comparao de sistemas, principalmente acadmicos, existem colees pblicas de documentos preparadas especialmente para o processo de avaliao; As colees da TREC (Text Retrieval Conference), por exemplo, oferecem uma srie de consultas pr-definidas e conjuntos de documentos relevantes a cada uma delas; Para que sistemas diferentes possam ser avaliados e comparados deve-se adotar uma coleo especfica.

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

29

A recall (revocao ou abrangncia) mede a habilidade do sistema em recuperar os documentos mais relevantes para o usurio.

Mede a quantidade de itens relevantes, dentre os existentes na base de dados, que foram recuperados. Porm, o sistema ou o usurio que est avaliando o resultado deve saber quantos documentos relevantes a sua consulta existem na base de dados e, geralmente esta informao s pode ser estimada estatisticamente.
Prof. Lus Carlos Costa Fonseca 21 de maio de 2013 30

A precision (preciso) mede a habilidade do sistema manter os documentos irrelevantes fora do resultado de uma consulta.

A preciso capaz de indicar o trabalho que o usurio teria para analisar uma determinada busca. Isso significa que, se 60% dos itens retornados fossem relevantes, o usurio teria desperdiado 40% de seu esforo analisando itens irrelevantes.
Prof. Lus Carlos Costa Fonseca 21 de maio de 2013 31

Utilizando-se estas duas medidas, podem ser construdos grficos ou tabelas para uma melhor comparao entre sistemas; Por exemplo:

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

32

As pesquisas em RI esto tendendo para:


Ambientes multimdias, com independncia lingstica, e de modo;

Entretanto, a recuperao dessas informaes vai depender de fatores como:


Tempo, lugar, histrico de interao, tarefa atual do usurio; Alm de outros fatores que no podem ser medidos explicitamente, mas apenas implicitamente nos ambientes de RI; A essas informaes dado o nome de contexto.

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

33

Recuperao de Informaes Interativa (RII):

Contexto implica em RI de forma Interativa;

Definida como sendo o processo interativo de comunicao que ocorre durante a recuperao de informao envolvendo os principais participantes do processo de RI, isto , o usurio, o mediador e o sistema de RI;
Considera as dimensionalidades dos contextos em associao com os motores e sistemas de RI; Essa dimensionalidade varia desde as caractersticas de contedo tradicionais que existem dentro e entre os objetos de informao;

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

34

Como exemplos de dimenses podem ser considerados:


Estruturas internas:
Palavras, sentenas e pargrafos;

Conectores entre documentos:


Referncias, citaes e hiperlinks;

Movimentos do mouse durante Sees de Interao; Tarefa de trabalho; Mdia; Etc.

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

35

Os nmeros no modelo basicamente mostram:


O processo de interao (1-4);
Com a interao social (1);

Diferentes tipos de produo e transformao de cognio ou influencia cognitiva (5-8);

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

36

Peter Ingwersen (2005) define algumas dimenses contextuais:

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

37

A simples incorporao de algumas dessas caractersticas nos algoritmos de recuperao por si s podem se mostrar grandes desafios; RI e RI em Contexto formam um campo de pesquisa ainda rico, abrangente e com muitas aplicaes:
Motores de Busca; Filtragem; Bibliotecas Digitais; Educao a Distancia; Direito; Etc.

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

38

Contato:
E-Mail: lccfonseca@gmail.com

Prof. Lus Carlos Costa Fonseca

21 de maio de 2013

39

Você também pode gostar