Você está na página 1de 38

Foram utilizados os dados da figura 6.

11

Normalização euclidiana de tf
Termos Doc1 Doc2 Doc3
car 0.88 0.09 0.58
auto 0.1 0.71 0
insurance 0 0.71 0.7
best 0.46 0 0.41

* Só fiz esse cálculo para


certeza que são vetores
1.00 1.01 1.00 unários.

Vetores
d1 0.88 0.1 0 0.46
d2 0.09 0.71 0.71 0
d3 0.58 0 0.7 0.41
q1 0.58 0.00 0.58 0.58
Resposta: O resultado obtido dos 3 ("K") documentos mais relevantes é igual, sendo os d2 o mais relevante, seguido de d
consecutivamente. Portanto é possível afirmar que o ranking ordenado pela distância euclidiana é identico ao produzido p
de similaridade, desde que, os vetores estejam todos normalizados em vetores unitários.

Na proxima recomendo colocar


no docs normal mesmo (sem
ser planilha) pq ta muito dificil
de entender o que está sendo
feito e a ordem das coisas
Normaliazação euclidiana da Query ( best car
insurance )

Termos tfq
car 1 0.58
auto 0 0.00
insurance 1 0.58
best 1 0.58

* Só fiz esse cálculo para


certeza que são vetores
unários. 1.73 1 Cosseno
Resposta de
Distancia Cosseno de Distancia similaridad
Euclidiana similaridade Euclidiana e
0.67 0.77 d3 d3
1.05 0.46 d1 d1
0.21 0.98 d2 d2
os d2 o mais relevante, seguido de d1 e d3
a euclidiana é identico ao produzido pelo cálculo do cosseno
rios.
Excercicio 6.19

Excercicio 6.19

N (quantidade de documentos
na coleção)

10000000
consulta
termo tf wf
digital 1 1.00
video 0 0.00
camera 1 1.00
Resposta. O score de símilaridade do documento w com a co

Normalização Euclidiana do documento do exercício


q qn
digital 1 0.52
video 1 0.52
camera 1.3 0.68

1.92
consulta: digital camera
consulta documento
df idf qi=wf-idf tf wf di= normalizado wf
10000 3 3 1 1 0.52
100000 2 0 1 1 0.52
50000 2.3 2.3 2 ### 0.68
ento w com a consulta é de =

20 1.3
qi.di Normalização Euclidiana
1.56
0 car
1.56 auto
insurance
3.12 best

Compr. Euclidiano
Exemplo figua 6.9
w1 wn1 w2 wn2 w3 wn3 compr. Euclideano
27 0.88 4 0.09 24 0.58 55 36.35
3 0.10 33 0.70 0 0.00 33.14 33.14
0 0.00 33 0.70 29 0.70 42.01 43.93
14 0.46 0 0.00 17 0.41 22.02 22.02

30.56 46.84 41.3


Enunciado: Mostre que para a consulta affection, a relativa ordenação dos scores dos três documentos na figura
jealous gossip.

Normalização euclidiana de tf
Termos SaS PaP RH
affection 1 0.99 0.85
jealous 0.09 0.12 0.47
gossip 0.02 0 0.25

* Só fiz esse cálculo para certeza qu


1.00 1.00 1.00 vetores unários.

Vetores
SaS 1 0.09 0.02 0
PaP 0.99 0.12 0 0
RH 0.85 0.47 0.25 0
q("affection") 1 0 0 0
q2("jealouss
gossip") 0 0.71 0.71
Resposta: Respota: Aplicando o cosseno de similaridade, podemos afirmar que, a ordenação relativa do ranking normaliz
resultado inverso em relação a conslulta jealous gossip. Tendo os seguintes resultados. Consulta affection: SaS, PaP e R
obtivemos RH, PaP e SaS
rês documentos na figura 6.13 a ordenação é reversa a obtida dos scores da consulta

Normaliazação euclidiana da Query ( affection ) Normaliazação euclidiana da Q

Termos tfq Termos


affection 1 1 affection
jealous 0 0 jealous
gossip 0 0 gossip

sse cálculo para certeza que são


unários. 1 1
Top K
Cosseno de
Cosseno de similaridade:
similaridade: q2("jealouss Query jealous e
q("affection") gossip") Query affection gossip
0.996 0.074 SaS RH
0.993 0.085 Pap PaP
0.847 0.509 RH SaS
relativa do ranking normalizado dos vetores da consulta affection tem
ulta affection: SaS, PaP e RH, enquanto que na consulta jealous gossip,
maliazação euclidiana da Query ( jealous gossip )

tfq
0 0
1 0.71
1 0.71
0 0

1.41 1
Excercicio 6.21

Ao transformar uma consulta em um vetor unitário, na Figura 6.13, temos atribuídos pesos iguais a cada
dos termos da consulta. Que outras abordagens princípios são plausíveis?

Resposta: Podemos utilizar o tf-idf, desta forma fazer com que seu valor reflita também a importancia do termo entre os
documentos da coleção.
sos iguais a cada

ortancia do termo entre os


Excercicio 6.22

Considerando o estudo de caso de uma termo na consulta que não está no conjunto M de termos indexados; assi
espaço vetorial criado a partir da coleção. Como seria a representação do espaço vetorial adaptado para controla

Normalização euclidiana de tf
Termos Doc1 Doc2 Doc3
car 0.88 0.09 0.58
auto 0.1 0.71 0
insurance 0 0.71 0.7
best 0.46 0 0.41
memory 0 0 0

1.00 1.01 1.00

Espaço vetorial com o termo memory incluído

Vetores car auto insurance


d1 0.88 0.1 0
d2 0.09 0.71 0.71
d3 0.58 0 0.7
q1 0.71 0 0

Resposta:

Um novo termo se tornaria mais uma dimensão no espaço vetorial. Devemos considerar seu peso como sendo 0, em toda
coordenadas. Pôde ser verificado que mesmo que um termo da consulta, não pertença ao grupo de termos de uma determ
de documentos M, essa consulta pode conseguir alta pontuação utilizando o cosseno de similaridade com vetores normal
onjunto M de termos indexados; assim nossa construção padrão do vetor de consulta V(q) não estando no
paço vetorial adaptado para controlar esse caso?

Normaliazação euclidiana da Query ( car memory )

Termos tfq
car 1 0.71
auto 0 0
insurance 0 0
best 0 0
memory 1 0.71

* Só fiz esse cálculo para certeza que são


vetores unários. 1.41 1

Cosseno de
best memory similaridade
0.46 0 0.62
0 0 0.77
0.41 0 1.11
0 0.71 1.00

derar seu peso como sendo 0, em todas as


ença ao grupo de termos de uma determinada coleção
no de similaridade com vetores normalizados.
0

Cosseno de
similaridade
d3
d2
d1
Consulte o tf e idf valores para quatro termos em 3 documentos no exercício 6.10 compute as duas mais pontuad
(ntc.atc)

i) nnn.atc: ou seja (documento: fequencia do termo no documento (tf-raw); consulta: tf aumentado, idf e cosseno)

Normalização euclidiana de tf (Figura 6.9)

Termos Doc1 Doc2


tf normalizada tf normalizada
car 27 0.88 4 0.09
auto 3 0.1 33 0.7
insurance 0 0 33 0.7
best 14 0.46 0 0
30.56 1.00 46.84 1.00

Vetores car auto insurance best


d1 0.883 0.098 0.000 0.458
d2 0.085 0.705 0.705 0.000
d3 0.581 0.000 0.702 0.412
q1 0.555 0.277 0.555 0.555
Termos Doc1 Doc2
tf normalização tf normalização
car 4 0.647 2.64 0.363
auto 3.05 0.493 5.22 0.717
insurance 1.62 0.262 4.06 0.558
best 3.21 0.519 1.5 0.206
6.18 1.000 7.28 1.00

Vetores car auto insurance best


d1 0.647 0.493 0.262 0.519
d2 0.363 0.717 0.558 0.206
d3 0.574 0.304 0.582 0.489
q1 0.555 0.277 0.555 0.555
ute as duas mais pontuados documentos na consulta "best car insurance" para cada um dos seguintes esquemas de pontua

ado, idf e cosseno)

Normaliazação cosseno da Quer

Doc3 Termos
tf normalizada
24 0.58 car
0 0 auto
29 0.7 insurance
17 0.41 best
41.30 1.00

Cosseno de
similaridade
0.77
0.63
0.94
Doc3 Termos
tf normalizacao
3.92 0.574 car
2.08 0.304 auto
3.98 0.582 insurance
3.34 0.489 best
6.83 1.00

Cosseno de
similaridade
0.93
0.82
1.00
1.00
ntes esquemas de pontuação i(nnn.atc) e ii

maliazação cosseno da Query ( best car insurance )

normalização
tfq tf aumentado cosseno

1 1 0.55
0 0.5 0.28
1 1 0.55
1 1 0.55
1 1.8 1
normalização
tfq tf aumentado cosseno

1 1 0.55
0 0.5 0.28
1 1 0.55
1 1 0.55
1 1.8 1
Suponha que a palavra coyote não ocorra na coleção usada no exercicio 6.10 e 6.23.como nós podemos computa

Termos Doc1 Doc2


tf normalização tf normalização
car 4 0.65 2.64 0.36
auto 3.05 0.49 5.22 0.72
insurance 1.62 0.26 4.06 0.56
best 3.21 0.52 1.5 0.21
coyote 0 0 0 0
6.18 1.00 7.28 1.00

Vetores car auto insurance best


d1 0.647 0.493 0.262 0.519
d2 0.363 0.717 0.558 0.206
d3 0.574 0.304 0.582 0.489
q1 0.302 0.302 0.603 0.302
mo nós podemos computar a pontuação ntc.atc para a query coyote insurance?

Normaliazação euclidiana da Qu

Doc3 Termos
tf normalizacao
3.92 0.57 car
2.08 0.3 auto
3.98 0.58 insurance
3.34 0.49 best
0 0 coyote
6.83 1.00

Cosseno de
coyote similaridade
0.000 0.658
0.000 0.724
0.000 0.763
0.603 1.000
maliazação euclidiana da Query ( coyote insurance )

normalização
tfq tf aumentado cosseno

0 0.5 0.302
0 0.5 0.302
1 1 0.603
0 0.5 0.302
1 1 0.603
1 1.66 1

normalização
cosseno

0.3
0.3
0.6
0.3
0.8