Você está na página 1de 36

30/09/2013

1
Modelos Clssicos
de Recuperao de
Informao
Modelos Clssicos
Modelo Booleano
George Boole
(1815 - 1864)
30/09/2013
2
Modelo Booleano
George Boole
Concebeu um sistema de smbolos e regras aplicvel desde nmeros at
enunciados. Com esse sistema possvel codificar proposies em
linguagem simblica e manipul-las quase da mesma maneira como se
faz com os nmeros.
Lgica/lgebra Booleana
Com o trabalho de Boole, a Lgica afasta-se da Filosofia e aproxima-se
da Matemtica.
A lgebra booleana um sistema binrio no qual existem somente dois
valores possveis para qualquer smbolo algbrico: 1 ou 0, verdadeiro ou
falso.
Essa teoria revelou-se ideal para o funcionamento de circuitos
eletrnicos e foi fundamental na idealizao da arquitetura dos
computadores modernos.
Modelo Booleano
No modelo booleano um documento representado
por um conjunto de termos de indexao que
podem ser definidos de forma intelectual (manual) por
profissionais especializados ou automaticamente,
utilizando um algoritmo computacional.
As buscas so formuladas por meio de uma
expresso booleana composta por termos ligados
atravs dos operadores lgicos AND, OR e NOT e
apresentam como resultado os documentos cuja
representao satisfazem s restries lgicas da
expresso de busca.
30/09/2013
3
Modelo Booleano
Uma expresso de busca que utiliza apenas um termo t
1
ter como resultado o conjunto de documentos
indexados por t
1
;
Modelo Booleano
Desmatamento
Mata Atlntica
Madeireiras
Reflorestamento
Desmatamento
Desmatamento
Amaznia
Grilagem de terras
Reflorestamento
30/09/2013
4
Modelo Booleano
Uma expresso conjuntiva de enunciado t
1
AND t
2
recuperar documentos indexados por ambos os
termos (t
1
e t
2
).
Esta operao equivale interseo do conjunto dos
documentos indexados pelo termo t
1
com o conjunto
dos documentos indexados pelo termo t
2
, representado
pela rea cinza na figura.
Modelo Booleano
Desmatamento
Mata Atlntica
Madeireiras
Reflorestamento
Desmatamento
AND
Mata Atlntica
Desmatamento
Amaznia
Grilagem de terras
Reflorestamento
30/09/2013
5
Modelo Booleano
Uma expresso disjuntiva t
1
OR t
2
recuperar o
conjunto dos documentos indexados pelo termo t
1
ou
pelo termo t
2
.
Essa operao equivale unio entre o conjunto dos
documentos indexados pelo termo t
1
e o conjunto dos
documentos indexados pelo termo t
2
.
Modelo Booleano
Desmatamento
Mata Atlntica
Madeireiras
Reflorestamento
Desmatamento
OR
Mata Atlntica
Desmatamento
Amaznia
Grilagem de terras
Reflorestamento
30/09/2013
6
Modelo Booleano
A expresso NOT t
1
recuperar os documentos que
no so indexados pelo termo t
1
, representados pela
rea cinza da figura.
Modelo Booleano
Desmatamento
Mata Atlntica
Madeireiras
Reflorestamento
NOT Desmatamento
Desmatamento
Amaznia
Grilagem de terras
Reflorestamento
30/09/2013
7
Modelo Booleano
As expresses t
1
NOT t
2
ou t
1
AND NOT t
2
tero o
mesmo resultado: o conjunto dos documentos
indexados por t
1
e que no so indexados por t
2
.
Neste caso o operador NOT pode ser visto como um
operador da diferena entre conjuntos.
Modelo Booleano
Termos e operadores booleanos podem ser
combinados para especificar buscas mais detalhadas ou
restritivas.
Como a ordem de execuo das operaes lgicas de
uma expresso influencia no resultado da busca, muitas
vezes necessrio explicitar essa ordem delimitando
partes da expresso por meio de parnteses.
30/09/2013
8
Modelo Booleano
As reas cinza da figura representam o resultado de
duas expresses de busca que utilizam os mesmos
termos e os mesmos operadores, mas diferem na
ordem de execuo.
(Recuperao AND Informao) OR WEB
Recuperao AND (Informao OR WEB)
Modelo Booleano
Desmatamento
Mata Atlntica
Madeireiras
Reflorestamento
( Desmatamento AND Reflorestamento )
OR
Amaznia
Desmatamento
Amaznia
Grilagem de terras
Reflorestamento
30/09/2013
9
Modelo Booleano
Desmatamento
Mata Atlntica
Madeireiras
Reflorestamento
Desmatamento
AND
( Reflorestamento OR Amaznia )
Desmatamento
Amaznia
Grilagem de terras
Reflorestamento
Modelo Booleano
Operadores de Proximidade
Surgimento dos sistemas de texto completo
Recuperao ADJ Informao
Recuperao NEAR/10 Informao
Sistema STAIRS
Recuperao WITH Informao (mesmo pargafo)
Recuperao SAME Informao (mesma frase)
Frase Exata
Recuperao de Informao
Composio de Operadores
Recuperao de ADJ (informao OR documentos)
30/09/2013
10
Modelo Booleano
Operadores de Proximidade
Mesmo utilizando operadores de proximidade, o resultado de
uma busca booleana ser um conjunto de documentos que
respondem verdadeiramente expresso de busca e
presumivelmente sero considerados relevantes pelo usurio.
Apesar de os operadores de proximidade agregarem novos
recursos aos sistemas de texto completo, tais operadores no
alteram substancialmente as vantagens e limitaes do modelo
booleano
Discusso
30/09/2013
11
Discusso
A lgica booleana difere da lgica natural;
gatos e cachorros, intuitivamente imagina-se uma unio entre
o conjunto dos gatos e o conjunto dos cachorros.
Em um sistema de recuperao de informao a expresso t1
AND t2 resultar na interseo entre o conjunto dos
documentos indexados pelo termo t1 e o conjunto dos
documentos indexados por t2.
Na linguagem cotidiana, a expresso caf ou ch expressa uma
escolha ou seleo cujo resultado ser apenas um dos
elementos envolvidos.
Em um sistema de recuperao de informao, a expresso t1
OR t2 resultar uma unio do conjunto de documentos
indexados por t1 com o conjunto de documentos indexados por
t2 (SMITH, 1993).
Discusso
O resultado um conjunto de documentos que
respondem verdadeiramente expresso de busca;
O resultado se caracteriza por uma simples partio do corpus
em dois subconjuntos: os documentos que atendem expresso
de busca e aqueles que no atendem;
No h nenhum mecanismo pelo qual os documentos
resultantes de uma busca possam ser ordenados;
No existe uma forma de atribuir importncia relativa
aos diferentes termos da expresso booleana;
30/09/2013
12
Discusso
Apesar de suas limitaes, o modelo booleano est presente
em quase todos os sistemas de recuperao de informao e
nos sistemas de banco de dados.
Est presente em quase todos os sistemas de recuperao de
informao
Facilidade de implementao;
Flexibilidade e poder, oferecendo certo controle sobre os
resultados;
Desvantagem: inabilidade em ordenar os documentos
resultantes de uma busca;
Apesar de suas limitaes, o modelo booleano pode ser
considerado o modelo mais utilizado no s nos sistemas de
recuperao de informao e nos mecanismos de busca da
Web, mas tambm nos sistemas de banco de dados.
Referncias
bibliogrficas
30/09/2013
13
Referncias bibliogrficas
SMITH, E.S. On the shoulders of giants: from Boole to Shannon to Taube:
the origins and development of computerized information from the mid-
19th century to the present. Information Technology and Libraries, n.
12, 1993 (june). p.217-226.
Modelo Vetorial
Gerard Salton
(1927-1995)
30/09/2013
14
Modelo Vetorial
O modelo vetorial, ou tambm chamado de modelo
espao vetorial, prope um ambiente no qual possvel
obter documentos que respondem parcialmente a uma
expresso de busca.
Isto feito associando-se pesos tanto aos termos de
indexao dos documentos como aos termos utilizados
na expresso de busca.
Como resultado, obtm-se um conjunto de
documentos ordenado pelo grau de similaridade de
cada documento em relao expresso de busca.
Modelo Vetorial:
Um documento representado por um vetor onde cada elemento
representa o peso, ou relevncia, do respectivo termo de indexao
para o documento.
Cada vetor descreve a posio do documento em um espao
multidimensional, onde cada termo de indexao representa uma
dimenso ou eixo.
Cada elemento do vetor (peso) normalizado de forma a assumir
valores entre zero e um. Os pesos mais prximos de 1 indicam
termos com maior importncia para a descrio do documento.
30/09/2013
15
Modelo Vetorial
t
1
t
3
DOC
1
0.3 0.5
Modelo Vetorial
t
1
t
2
t
3
DOC
2
0.5 0.4 0.3
30/09/2013
16
Modelo Vetorial
Os nmeros positivos representam os pesos de seus
respectivos termos. Termos que no esto presentes em
um determinado documento possuem peso igual a zero.
t
1
t
2
t
3
DOC
1
0.3 0.0 0.5
DOC
2
0.5 0.4 0.3
Modelo Vetorial
Uma expresso de busca tambm representada por
um vetor numrico onde cada elemento representa a
importncia (peso) do respectivo termo na
representao da necessidade de informao do usurio,
substanciada na expresso de busca.
30/09/2013
17
Modelo Vetorial:
representao das buscas
A figura mostra a representao da expresso de busca eBUSCA
1
= (0.2, 0.35, 0.1) juntamente com os documentos DOC
1
e DOC
2
em um espao vetorial formado pelos termos t
1
, t
2
e t
3
.
t
1
t
2
t
3
eBUSCA
1
0.2 0.35 0.1
t
1
t
2
t
3
DOC
1
0.3 0.0 0.5
DOC
2
0.5 0.4 0.3
Modelo Vetorial:
clculo da similaridade
A utilizao de uma mesma forma de representao tanto
para os documentos como para as expresses de busca
permite calcular a distncia semntica entre uma
expresso de busca e cada um dos documentos do corpus,
ou ainda entre dois documentos;
Em um espao vetorial contendo N dimenses, a
similaridade (sim) entre um documento d
j
e uma
expresso de busca q pode ser calculada utilizando a
seguinte frmula:

= =
=

=
N
i
q i
N
i
j i
q i
N
i
j i
j
w w
w w
q d sim
1
,
2
1
,
2
,
1
,
) (
) , (
onde w
i,j
o peso do i-simo termo do
documento d
j
e w
i,q
o peso do i-simo
termo da expresso de busca q.
30/09/2013
18
Modelo Vetorial:
clculo da similaridade
t
1
t
2
t
3
eBUSCA
1
0.2 0.35 0.1
t
1
t
2
t
3
DOC
1
0.3 0.0 0.5
DOC
2
0.5 0.4 0.3

= =
=

=
N
i
q i
N
i
j i
q i
N
i
j i
j
w w
w w
q d sim
1
,
2
1
,
2
,
1
,
) (
) , (
sim(DOC
1
, eBUSCA
1
) = 0.45
sim(DOC
2
, eBUSCA
1
) = 0.92
Modelo Vetorial:
corpus documental
onde w
i,n
representa o peso do i-simo termo do n-simo documento.
Um corpus contendo n documentos e i termos de
indexao pode ser representado da seguinte forma:
t
1
t
2
t
3
t
i
DOC
1
w
1,1
w
2,1
w
3,1
w
i,1
DOC
2
w
1,2
w
2,2
w
3,2
... w
i,2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
DOC
n
w
1,n
w
2,n
w
3,n
... w
i,n
30/09/2013
19
O sistema SMART
O sistema SMART
O projeto SMART (System for the Manipulation and
Retrieval of Text) teve incio em 1961 na Universidade
de Harvard.
Mudou-se para a Universidade de Cornell aps 1965.
O sistema SMART o resultado da vida de pesquisa de
Gerard Salton e teve um papel significativo no
desenvolvimento de toda a rea da Recuperao de
Informao.
O SMART uma implementao do modelo vetorial.
30/09/2013
20
O sistema SMART
O sistema SMART fornece um mtodo automtico para
o clculo dos pesos no s dos vetores que
representam os documentos, mas tambm para os
vetores das expresses de busca.
Salton e McGill (1983, p.204-207).
frequncia de um termo (term frequency - tf) como sendo o
nmero de vezes que um determinado termo t aparece no texto
de um documento d.
Essa medida no faz distino entre termos que ocorrem em
todos os documentos do corpus e termos que ocorrem
somente em alguns documentos.
d t d t
freq tf
, ,
=
O sistema SMART
Salton e McGill (1983, p.204-207).
Sabe-se intuitivamente que um termo que aparece em todos os
documentos ter provavelmente pouca utilidade em identificar a
relevncia dos documentos. Portanto, para um clculo preciso do
peso de um determinado termo de indexao preciso uma
estatstica global que caracterize o termo em relao a todo o
corpus.
Esta medida, chamada inverse document frequency (idf),
mostra como o termo distribudo pelo corpus;
Quanto menor o nmero documentos que contm um
determinado termo, maior o idf desse termo. Se todos os
documentos do corpus contiverem um determinado termo, o idf
desse termo ser igual a um (1).
t
t
n
N
idf =
N nmero de documentos no corpus
n
t
nmero de documentos que contm o termo t
30/09/2013
21
O sistema SMART
Finalmente, o peso de um termo t em relao a um
documento d ( wt,d ) calculado pela multiplicao da
medida tf pela medida idf.
Essa medida conhecida como tf x idf e possui a
seguinte frmula:
A medida tf x idf utilizada para atribuir peso a cada
elemento dos vetores que representam os documentos
do corpus. Os melhores termos de indexao (os que
apresentaro maior peso) so aqueles que ocorrem
com grande frequncia em poucos documentos.
t d t d t
idf tf w =
, ,
O sistema SMART
Processo de Indexao
Eliminao de Stop Words
Eliminar do texto as palavras muito frequentes na coleo de
documentos (corpus);
So palavras pobres para discriminar ou identificar o contedo de um
documento;
Identificao de bons termos de indexao - Stemming
Remover os sufixos e (possivelmente tambm os prefixos) para se
chegar ao radical da palavra;
Reduz a variedade de diferentes formas de um mesmo radical
Exemplo: Anlise, Analisando, analisado anali ou anlise
Calculo do peso de cada termo de indexao ( tf x idf )
30/09/2013
22
O sistema SMART
t d t
idf tf
,
Doc
1
? ? ? ?
Calculo automtico dos pesos dos termos de indexao
Desmatamento
Quantas vezes o termo aparece no documento (tf )
Quantas vezes o termo aparece no conjunto de todos os
documentos do sistema ( idf )
O sistema SMART
Assim como os documentos, uma expresso de busca
tambm representada por um vetor. Isso permite ao
usurio atribuir a cada termo da expresso um nmero
que representa a importncia relativa do termo para a
sua necessidade de informao.
Porm, o que aparentemente um recurso bastante til,
por outro lado pode ser confuso para um usurio
inexperiente.
Salton e Buckley (1988) descrevem algumas formas
alternativas para calcular automaticamente os pesos no
s para os termos de indexao, mas tambm dos
termos de busca.
30/09/2013
23
O sistema SMART
O peso de cada termo t de uma expresso de busca
eBUSCA pode ser calculado utilizando a seguinte
frmula:
Com a utilizao desta frmula os pesos dos termos
utilizados na expresso de busca sero calculados
automaticamente, simplificando a tarefa de formular
expresses de buscas.
t
idf
tf
w

+ =
2
5 . 0
d t,
eBUSCA t,
eBUSCA
1
? ? ?
t
3
t
2
t
1
t
idf
tf
w

+ =
2
5 . 0
d t,
eBUSCA t,
Modelo Vetorial:
o sistema SMART
Calculo automtico dos pesos da expresso de busca
30/09/2013
24
O sistema SMART
Outra tcnica pioneira desenvolvida no sistema SMART a
reformulao da expresso de busca do usurio com o
propsito de obter melhores resultados na recuperao.
Essa reformulao pode ser feita automaticamente ou pela
interao do usurio, em um processo conhecido como
Relevance Feedback.
Esse processo visa construir uma nova expresso de busca a
partir dos documentos identificados como relevantes no
conjunto de documentos resultantes de uma busca anterior.
No sistema SMART, o processo de reformulao das
expresses de busca baseado nas seguintes operaes:
Termos que ocorrem em documentos identificados como
relevantes so adicionados expresso de busca. Os termos que j
fazem parte da expresso de busca tm seus pesos aumentados;
Termos que ocorrem nos documentos identificados como no
relevantes so excludos da expresso de busca original ou seus
pesos so apropriadamente reduzidos.
O sistema SMART
1. Aps uma busca, o usurio seleciona (marca) os
documentos que considera relevantes e
submete tal seleo aos sistema;
2. Os termos que ocorrem nos documentos
identificados como relevantes so adicionados
ao vetor da expresso de busca original, ou os
pesos de tais termos so aumentados na
construo de uma nova expresso de busca;
3. Termos que ocorrem em documentos
identificados como no relevantes so
excludos da expresso de busca original, ou os
pesos de tais termos so reduzidos;
Documento considerado no-Relevante
Documento considerado Relevante
?
Expresso de busca original
?
Expresso de busca reformulada
Relevance FeedBack - Alterao da expresso de busca
30/09/2013
25
O Sistema SMART
Cada x representa o vetor de um documento
As circunferncias representam os clusters
Pode ser observado que alguns grupos se intersecionam, possuindo documentos em
comum.
Para que seja possvel a manipulao de uma coleo de clusters, Salton e McGill (1983,
p.125) propem a criao de um tipo especial de vetor denominado centroide.
Um centroide () um vetor que no representa um documento, mas sim um cluster,
podendo ser pensado como o seu centro de gravidade.
Clustering
(agrupamento)
Modelo Vetorial - SMART
Os dois crculos maiores formam duas superclasses (superclusters) com
seus respectivos supercentroides (quadrados numerados)
30/09/2013
26
Discusso
Discusso
Caractersticas do Modelo Vetorial
O resultado de uma busca um conjunto de documentos
ordenados pelo grau de similaridade entre cada documento e a
expresso de busca;
Esse ordenamento permite restringir o resultado a um nmero
mximo de documentos desejados. possvel tambm restringir a
quantidade de documentos recuperados definindo um limite mnimo
para o valor da similaridade;
Utiliza pesos tanto para os termos de indexao quanto para os
termos da expresso de busca. Esta caracterstica permite o clculo
de um valor numrico que representa a relevncia de cada
documento em relao busca;
No permite a formulao de buscas booleanas;
O modelo vetorial define de um dos componentes essenciais de
qualquer teoria cientfica: um modelo conceitual;
Este modelo serviu como base para o desenvolvimento de uma
teoria que alimentou uma grande quantidade de pesquisas.
30/09/2013
27
Discusso
Diferentemente do modelo booleano, o modelo vetorial
utiliza pesos tanto para os termos de indexao quanto para
os termos da expresso de busca.
Essa homogeneidade a caracterstica fundamental que
permite uma grande variedade de operaes relacionadas
recuperao de informao, incluindo indexao, clustering
(agrupamento), relevance feedback, classificao, reformulao
da expresso de busca etc.
Uma limitao do modelo vetorial diz respeito sua
dificuldade em especificar relaes frasais ou de sinonmia
entre os termos das expresses de busca, pois no permite a
utilizao de operadores lgicos ou operadores de
proximidade como no modelo booleano.
Referncias
bibliogrficas
30/09/2013
28
Referncias bibliogrficas
SALTON, G. Recent studies in automatic text analysis and document retrieval,
Journal of the ACM, v. 20, n. 2, 1973. p.258-278
SALTON, G.; McGILL, M. J. Introduction to Modern Information Retrieval.
McGraw Hill, 1983.
SALTON, G.; BUCKLEY, C. Term-Weighting Approaches in Automatic Text Retrieval.
Information Processing and Management, v. 24, n. 5, 1988. p.513-523.
Modelo
Probabilstico
30/09/2013
29
Modelo Probabilstico
Na matemtica, a teoria das probabilidades estuda os
experimentos aleatrios que, repetidos em condies
idnticas, podem apresentar resultados diferentes e
imprevisveis.
Isso ocorre, por exemplo, quando se observa a face
superior de um dado aps o seu lanamento ou quando
se verifica o naipe de uma carta retirada de um baralho.
Por apresentarem resultados imprevisveis, possvel
apenas estimar a possibilidade ou a chance de um
determinado evento ocorrer.
Modelo Probabilstico
Espao amostral ( S ) = conjunto dos possveis
resultados do experimento.
No lanamento de um dado, por exemplo, o conjunto
dos possveis resultados {1, 2, 3, 4, 5, 6}.
Evento ( E ) = conjunto dos valores de interesse em
um determinado experimento.
No lanamento de um dado, por exemplo, pode-se estar
interessado nos nmeros pares {2, 4, 6}.
) n(
) n(
) p(
S
E
E =
30/09/2013
30
Modelo Probabilstico
A probabilidade de um evento elementar E ocorrer em
um espao amostral S a razo entre o nmero de
elementos de E, simbolizado por n(E) e o nmero de
elementos de S ( n(S) ).
No lanamento de um dado o espao amostral S={1,
2, 3, 4, 5, 6} e a probabilidade de sair um nmero par
(E= { 2, 4, 6 }) :
) n(
) n(
) p(
S
E
E =
{ } ( ) 5 . 0
6
3
) ( n
) ( n
2,4,6 p = = =
S
E
Modelo Probabilstico
Quando dois eventos se mostram dependentes, o
clculo da probabilidade envolve as chamadas
Probabilidades Condicionais. A probabilidade da
ocorrncia de um evento A, sabendo-se que o evento B
ocorreu, calculada como:
) ( p
) e ( p
) | ( p
B
B A
B A =
30/09/2013
31
Modelo Probabilstico
Uma pesquisa para provar a relao entre o tabagismo e o cncer
de pulmo foi realizada com duzentas e trinta pessoas. Os
resultados obtidos foram os seguintes:
De acordo com essa tabela, se uma pessoa fumante ela
necessariamente ter mais chances de ter cncer do que uma
pessoa no fumante? Para responder questes como essas se
utiliza o conceito de probabilidade condicional. Estamos
interessados em duas sub-populaes:
A={ pessoas que so fumantes }
B={ pessoas com cncer de pulmo }
com cncer sem cncer
fumante 70 8 78
no fumante 20 132 152
90 140 230
Modelo Probabilstico:
probabilidade condicional
A probabilidade de uma pessoa selecionada ao acaso da
sub-populao B (fumante) estar tambm em A (cncer)
calculada como:
Portanto, a probabilidade de uma pessoa ter cancer,
sabendo-se que ela fumante de 77.77%.
77.77% ou 7777 . 0
90
70
230
90
230
70
) ( p
) e ( p
) | ( p = = = =
B
B A
B A
30/09/2013
32
Modelo Probabilstico
O modelo probabilstico foi proposto inicialmente por
Maron e Kuhns (1960) e posteriormente explorado por
diversos outros pesquisadores. O exemplo que ser
apresentado nesta seo baseado em uma variao
deste modelo proposta por Robertson e Jones (1976) e
que ficou conhecido como Binary Indepence Retrieval.
Utilizao do processo de Relevance Feedback para a
progressiva melhoria dos resultados de uma busca
atravs de clculos de probabilidade
Modelo Probabilstico
O modelo probabilstico tenta representar o processo de recuperao
de informao sob um ponto de vista probabilstico.
Dada uma expresso de busca, pode-se dividir o corpus (com N
documentos) em quatro subconjuntos distintos:
Rel: conjunto dos documentos relevantes;
Rec: conjunto dos documentos recuperados;
RR: conjunto dos documentos relevantes que foram recuperados
Na recuperados e no relevantes
O conjunto dos documentos relevantes e recuperados RR resultante da
interseo dos conjuntos Rel e Rec.
30/09/2013
33
Modelo Probabilstico
Todo clculo de probabilidade resume-se a um problema de
contagem. Portanto, para uma determinada expresso de busca,
pode-se representar os documentos do corpus da seguinte forma:
Considerando um corpus com N documentos e um determinado
termo ti, existe no corpus um total de n documentos indexados por
ti. Desses n documentos apenas r so relevantes.
Relevante no-Relevante
documento contendo t
i
r n-r n
documento que no contm t
i
R-r N-R-n+r N-n
R N-R N
t
1
, t
4
, t
8
, t
9
t
4,
t
10
Qual a probabilidade deste
documento satisfazer a
necessidade de informao
do usurio?
Modelo Probabilstico

t
i
r R r n
r n R N r
eBUSCA d sim
1
) ( ) (
) (
log ) , (
sim = 0.26
30/09/2013
34
Modelo Probabilstico
sim
DOC
4
t
1
, t
4
, t
10
0.51
DOC
1
t
1
, t
4
, t
8
, t
9
0.26
DOC
2
t
8
, t
9
, t
10
0.26

t
i
n
n N
eBUSCA d sim
1
log ) , (

t
i
r R r n
r n R N r
eBUSCA d sim
1
) ( ) (
) (
log ) , (
t
4,
t
10


DOC
4
t
1
, t
4
, t
10
2.02
DOC
2
t
8
, t
9,
t
10
1.65
DOC
1
t
1
, t
4
, t
8
, t
9
0.37 .
.
.
.
.
.
Discusso
30/09/2013
35
Discusso
O processo de recuperao de informao
caracterizado por seu grau de incerteza no julgamento
de relevncia dos documentos em relao expresso
de busca.
Portanto, mais realstico pensar em uma probabilidade
de relevncia do que em uma pretensa relevncia exata,
como a utilizada nos modelos booleano e vetorial.
O modelo probabilstico reconhece que a atribuio de
relevncia uma tarefa do usurio. o nico modelo
que incorpora explicitamente o processo de relevance
feedback como base para a sua operacionalizao.
Discusso
Pode ser facilmente implementado por meio da
estrutura proposta pelo modelo vetorial, permitindo
integrar as vantagens desses dois modelos em um
mesmo sistema de recuperao de informao.
A sua complexidade desencoraja muitos
desenvolvedores de sistema a abandonar os modelos
booleano e vetorial (CHU, 2010, p.120; JONES;
WALKER; ROBERTSON, 2000).
30/09/2013
36
Referncias
bibliogrficas
Referncias bibliogrficas
CHU, H. Information Representation and Retrieval in the Digital Age,
Second Edition, Medford, N.J.: Information Today, 2010. (ASIST monograph series)
JONES, K.S.; WALKER, S.; ROBERTSON, S.E. A probabilistic model of information
retrieval: development and comparative experiments Part 2. Information
Processing and Management, v. 36, n. 6, 2000. p.809-840.
MARON, M.E.; KUHNS, J.L. On relevance, probabilistic indexing and information
retrieval. Journal of the ACM, v. 7, n. 3, 1960, p.216-244.
ROBERTSON, S.E.; JONES, K.S. Relevance weighting of search terms. Journal of
the AmericamSociety for Information Science, v. 27, n. 3, 1976, p.129-146.

Você também pode gostar