Escolar Documentos
Profissional Documentos
Cultura Documentos
21 de maio de 2013
A representao e a organizao da informao deve prover ao usurio acesso fcil a informao de seu interesse.
21 de maio de 2013
Dada uma consulta, o principal objetivo do SRI retornar informaes teis (relevantes) ao usurio; A nfase na recuperao de informao e no na recuperao de dados.
Prof. Lus Carlos Costa Fonseca 21 de maio de 2013 4
Recuperao de dados:
Determinar quais documentos de uma coleo contm as palavras-chave que aparecem na consulta de um usurio; No suficiente na maioria das vezes;
Sistemas de RI:
Devem interpretar o contedo das informaes encontradas nos documentos de uma coleo e orden-los de acordo com um grau de relevncia para o usurio; Relevncia a palavra central de um SRI.
21 de maio de 2013
21 de maio de 2013
21 de maio de 2013
21 de maio de 2013
21 de maio de 2013
Fornecem uma viso lgica dos Documentos; O texto completo seria a especificao mais adequada -> altos custos computacionais;
21 de maio de 2013
10
21 de maio de 2013
11
21 de maio de 2013
12
21 de maio de 2013
13
21 de maio de 2013
14
Por aproximadamente 4000 anos o homem tem organizado informaes para serem recuperadas e usadas posteriormente; Por exemplo, uma tabela de contedo de um livro; Como o acervo de livros cresceu:
Uma estrutura teve de ser criada para acessar de forma mais rpida as informaes armazenadas nos livros. Criao de ndices;
21 de maio de 2013
15
21 de maio de 2013
16
Centrada no Homem:
Consiste no estudo da conduta do usurio, no entendimento de suas principais necessidades, e em como o este entendimento afeta a organizao e as operaes do SRI.
Prof. Lus Carlos Costa Fonseca 21 de maio de 2013 17
Booleano:
Baseado na Teoria dos Conjuntos e na lgebra Booleana; Mais utilizado para recuperao de dados do que para recuperao de informao; bom para usurios que entendem bem a lgebra booleana, mas o usurio comum na maioria dos casos no entende; O modelo Booleano considera que os termos indexados esto presentes ou no em um documento.
21 de maio de 2013
18
Vetorial:
O Modelo Vetorial reconhece que o uso de pesos binrios muito limitado; Prope um framework onde possvel mensurar uma similaridade parcial; Associao de pesos no-binrios aos termos indexados das consultas e dos documentos; Pesos so utilizados ento para medir o grau de similaridade entre cada documento armazenado no sistema e a consulta do usurio; Classificando os documentos recuperados em ordem decrescente deste grau de similaridade.
21 de maio de 2013
19
Vetorial:
Leva em conta documentos que se igualam apenas parcialmente com a consulta; O conjunto de documentos ranqueados bem mais preciso que o apresentado pelo Modelo Booleano; No modelo vetorial cada documento representado como um vetor de termos; Cada termo possui um valor associado que indica o grau de importncia (peso) deste no documento; {(palavra_1, peso_1), (palavra_2, peso_2),..., (palavra_n, peso_n)}
21 de maio de 2013
20
Vetorial:
Ento, um documento dj e uma consulta do usurio q so representados como vetores t-dimensionais; Essa correlao pode ser quantificada, por exemplo, pelo cosseno do ngulo entre estes dois vetores:
21 de maio de 2013
21
LSI:
A Indexao de Semntica Latente uma tcnica que projeta consultas e documentos em um Espao de Dimenses de Semntica Latente; No Espao de Semntica Latente, uma consulta e um documento podem ter uma alta similaridade de cosseno mesmo que no compartilhem termos pelo fato de seus termos serem semanticamente similares;
21 de maio de 2013
22
Probabilstico:
baseado no princpio da ordenao probabilstica (Probability Ranking Principle); Neste modelo, busca-se saber a probabilidade de um documento D ser ou no relevante para uma consulta Qa. Tal informao pode ser obtida assumindo-se que a distribuio de termos na coleo seja capaz de informar a relevncia provvel para um documento qualquer da coleo;
21 de maio de 2013
23
CNG: ;
21 de maio de 2013
24
O resultado de uma busca realizada em um SRI pode ser avaliado atravs de mtricas provenientes da rea de bibliometria, que encarregada de estudar e aplicar mtodos matemticos e estatsticos em documentos.
21 de maio de 2013
25
Tendo-se uma coleo de documentos conhecida, pode-se adotar a estratgia de quando o usurio de um SRI dispara uma busca o conjunto de documentos dividido em quatro segmentos lgicos:
Documentos relevantes consulta, que so recuperados pelo SRI; Documentos relevantes consulta, que no foram recuperados pelo SRI; Documentos irrelevantes consulta, mas que foram recuperados; e Documentos irrelevantes e que no foram recuperados.
Prof. Lus Carlos Costa Fonseca 21 de maio de 2013 26
O desempenho de um SRI ento avaliado de acordo com a sua capacidade em recuperar o maior nmero de itens relevantes, ao mesmo tempo em que filtra ao mximo os itens irrelevantes; em cima desta estratgia que as mtricas so desenvolvidas e aplicadas.
21 de maio de 2013
27
Dentro da computao as mtricas mais importantes para a avaliao do resultado de um SRI so: revocao (recall) e preciso (precision). Porm, pelo fato destas mtricas necessitarem de informaes relativas ao nmero de documentos relevantes consulta e os sistemas no terem como fornec-las (um SRI no tem como saber se existem itens relevantes que no foram recuperados, mesmo porque se soubesse t-los-ia retornado), essas mtricas no so aplicadas na prtica, principalmente em SRI comerciais.
Prof. Lus Carlos Costa Fonseca 21 de maio de 2013 28
Para efeito de comparao de sistemas, principalmente acadmicos, existem colees pblicas de documentos preparadas especialmente para o processo de avaliao; As colees da TREC (Text Retrieval Conference), por exemplo, oferecem uma srie de consultas pr-definidas e conjuntos de documentos relevantes a cada uma delas; Para que sistemas diferentes possam ser avaliados e comparados deve-se adotar uma coleo especfica.
21 de maio de 2013
29
A recall (revocao ou abrangncia) mede a habilidade do sistema em recuperar os documentos mais relevantes para o usurio.
Mede a quantidade de itens relevantes, dentre os existentes na base de dados, que foram recuperados. Porm, o sistema ou o usurio que est avaliando o resultado deve saber quantos documentos relevantes a sua consulta existem na base de dados e, geralmente esta informao s pode ser estimada estatisticamente.
Prof. Lus Carlos Costa Fonseca 21 de maio de 2013 30
A precision (preciso) mede a habilidade do sistema manter os documentos irrelevantes fora do resultado de uma consulta.
A preciso capaz de indicar o trabalho que o usurio teria para analisar uma determinada busca. Isso significa que, se 60% dos itens retornados fossem relevantes, o usurio teria desperdiado 40% de seu esforo analisando itens irrelevantes.
Prof. Lus Carlos Costa Fonseca 21 de maio de 2013 31
Utilizando-se estas duas medidas, podem ser construdos grficos ou tabelas para uma melhor comparao entre sistemas; Por exemplo:
21 de maio de 2013
32
21 de maio de 2013
33
Definida como sendo o processo interativo de comunicao que ocorre durante a recuperao de informao envolvendo os principais participantes do processo de RI, isto , o usurio, o mediador e o sistema de RI;
Considera as dimensionalidades dos contextos em associao com os motores e sistemas de RI; Essa dimensionalidade varia desde as caractersticas de contedo tradicionais que existem dentro e entre os objetos de informao;
21 de maio de 2013
34
21 de maio de 2013
35
21 de maio de 2013
36
21 de maio de 2013
37
A simples incorporao de algumas dessas caractersticas nos algoritmos de recuperao por si s podem se mostrar grandes desafios; RI e RI em Contexto formam um campo de pesquisa ainda rico, abrangente e com muitas aplicaes:
Motores de Busca; Filtragem; Bibliotecas Digitais; Educao a Distancia; Direito; Etc.
21 de maio de 2013
38
Contato:
E-Mail: lccfonseca@gmail.com
21 de maio de 2013
39