Você está na página 1de 58

Uma Abordagem para Indexao e Buscas Full-Text

Baseadas em Contedo em
Sistemas de Armazenamento em Nuvem
Marco Andr Santos Machado
masm@cin.ufpe.br
Orientador: Vinicius Garcia
Co-Orientador: Frederico Duro
vcg@cin.ufpe.br / freddurao@gmail.com

Agenda

Motivao e Definio do Problema

Objetivos

Contextualizao e Trabalhos Relacionados

Ustore

Abordagem Proposta

Experimento

Concluso e Trabalhos Futuros

Motivao

Crescimento exponencial da quantidade


de informao
Diversos sistemas de armazenamento em
nuvem

Motivao

Sistemas de armazenamento baseados


em arquitetura P2P
Buscas baseadas no ttulos dos arquivos
[Kostoff, 2010] e [Berrios, 2002]: buscas
full-text em sistemas peer-to-peer

Definio do Problema
Os resultados retornados em uma busca
em um sistema de armazenamento em
nuvem podem ser melhorados utilizando
indexao e busca full-text baseadas em
contedo?

Busca Full-text

Objetivos

Geral

Abordagem para indexao e buscas full-text


baseadas em contedo para sistemas de
armazenamento em nuvem

Objetivos

Especficos

Identificar propostas existentes

Elicitar Requisitos

Definir Metadados

Definir e implementar abordagem para


indexao e buscas

Realizar um experimento

Contextualizao

Computao em Nuvem

Armazenamento em Nuvem

Contextualizao

Sistema de Armazenamento
em Nuvem

Sistema P2P de Armazenamento


em Nuvem

10

Contextualizao

Arquivo Inteiro X Chunks

Erasure Code

11

Contextualizao

Recuperao de Informao (RI)

RI X Recuperao de Dados

Modelo Booleano

AND, OR, NOT...

Retorno com documento que satisfazem


completamente a consulta

12

Contextualizao

Modelo Espao-Vetorial

Resultados parciais

DOC = vetor / lista de termos ordenados

Frequncia
Pesos associados

13

Trabalhos Relacionados

14

Ustore

Ferramente para armazenamento em


nuvem

Arquitetura P2P hbrida

Protocolo JXTA

15

Ustore

16

Abordagem Proposta

17

Principais Requisitos

Indexar no cliente

Extrair e indexar o contedo dos arquivos

Permitir consultas full-text

Indexao local-global

Replicao

Alta preciso e recall

18

Arquitetura de Componentes

19

Metadados

20

Indexao e Replicao

21

Buscas Full-Text

Buscas Locais

ndice Local -> Consulta sncrona

No depende da rede P2P

Resultados restritos ao atual cliente

22

Buscas Full-Text

Busca atravs da rede P2P

Auto-Descobrimento do JXTA

Mensagens assncronas para todos os


clientes conectados

ndice de cada cliente

Flooding

23

Buscas Full-Text

Servidor de Buscas

Auto-Descobrimento do JXTA

ndice global

Ponto de falha

24

Experimento

25

Experimento

Avaliao de engenhos de busca [Manning


et al, 2008]:

Coleo de Dados

Consultas

Julgamentos de Relevncia

26

Julgamentos de Relevncia

27

Ambiente de Testes

28

Metodologia de Avaliao

Mtodo sistemtico para avaliao de


desempenho [Jain, 1991]

Objetivo

Mtricas

Fatores e Nveis

29

Metodologia de Avaliao

Objetivo:

Avaliar o desempenho do engenho de busca


em um sistema de armazenamento em nuvem

Indexao baseada no nome e contedo

Impacto da incluso da funcionalidade

30

Metodologia de Avaliao

Mtricas

Preciso = X / Y

Recall = Y / Z

F Measure

Tempo consulta

Tempo indexao +
backup

31

Metodologia de Avaliao

Mtricas

Satisfatrio

Preciso: 0,4
Recall: 0,45
F-Measure: 0,42
Tempo de busca: 1000ms

Referncias:

[Tang and Dwarkadas, 2004]


[Lu and Callan, 2003]
[Yang et al., 2006]
32

Metodologia de Avaliao

Fatores e Nveis

33

Cenrios para Avaliao

Quatro cenrios:

Cenrio 1: Indexao local; busca local

Cenrio 2: Indexao local; busca na rede

Cenrio 3: Indexao e busca no servidor

Cenrio 4: Tempo de backup

Sem indexao
Indexao Local
Indexao Local e Servidor

34

Resultados

35

Cenrio 1, 2 e 3

Mtricas: Preciso, Recall, F-Measure e


Tempo de consulta
Cada cliente Ustore com 25 arquivos

36

Resultados no Cenrio 1

Preciso

Comparativo da preciso nos quatro clientes Ustore (busca local)

37

Resultados no Cenrio 1

Recall

Comparativo do recall nos quatro clientes Ustore (busca local)

38

Resultados no Cenrio 1

F-Measure

39

Resultados no Cenrio 1

Tempo de Busca

Intervalo de tempo para realizao de consultas locais

40

Anlise de Resultados (Cenrio 1)

Em mdia,
Contedo

Ttulo

Preciso

0,33

0,28

Recall

0,2

0,14

F-measure

0,22

0,18

Tempo Busca

60 - 180

25 - 42

Concluses Parciais
0,40 > Pconteudo > Ptitulo
0,45 > Rconteudo > Rtitulo
0,42 > Fconteudo > Ftitulo
1000 > Tconteudo > Ttitulo
41

Resultados no Cenrio 2

Preciso

Comparativo da preciso nos quatro clientes Ustore (busca atravs da rede)

42

Resultados no Cenrio 2

Recall

Comparativo do recall nos quatro clientes Ustore (busca atravs da rede)

43

Resultados no Cenrio 2

F-Measure

44

Resultados no Cenrio 2

Tempo de Busca

Intervalo de tempo para realizao de consultas atravs da rede

45

Anlise de Resultados (Cenrio 2)

Em mdia,
Contedo

Ttulo

Preciso

0,34

0,33

Recall

0,16

0,16

F-Measure

0,21

0,20

Tempo Busca

101 - 393

53 - 60

Concluses Parciais
0,40 > Pconteudo > Ptitulo
0,45 > Rconteudo = Rtitulo
0,42 > Fconteudo > Ftitulo
1000 > Tconteudo > Ttitulo
46

Resultados no Cenrio 3

Preciso

Comparativo da preciso utilizando somente o Servidor de Buscas

47

Resultados no Cenrio 3

Recall

Comparativo do recall utilizando somente o Servidor de Buscas

48

Resultados no Cenrio 3

F-Measure

49

Resultados no Cenrio 3

Tempo de Busca

Intervalo de tempo para realizao de consultas utilizando somente o Servidor de Buscas

50

Anlise de Resultados (Cenrio 3)

Em mdia,
Contedo

Ttulo

Preciso

0,43

0,15

Recall

0,21

0,15

F-Measure

0,27

0,12

Tempo Busca

461 - 519

47 - 58

Concluses Parciais
0,40 < Pconteudo > Ptitulo
0,45 > Rconteudo > Rtitulo
0,42 > Fconteudo > Ftitulo
1000 > Tconteudo > Ttitulo
51

Resultados no Cenrio 4

Mtrica: tempo de backup

30 backups de 1 arquivo de 12Mb

3 situaes:

Sem indexao

Indexao local

Indexao local e global

52

Resultados no Cenrio 4

Intervalos de tempo para realizao de backups no Ustore

53

Discusso dos Resultados

Precisoconteudo > Precisotitulo

Recallconteudo > Recalltitulo

F-Measureconteudo > F-Measuretitulo

Em geral, taxas muito baixas de recall e,


em alguns casos, taxas satisfatrias de
preciso
Aumento no tempo de backup 3s
54

Discusso dos Resultados

Possveis Problemas

Classificao de Relevncia

Nmero de repeties X Nmero de Citaes

Atribuio padro de pesos

55

Concluso

Abordagem para indexao e buscas

Implementada em sistema real

Resultados mostram que vivel e


prtica, entretanto, ajustes ainda so
necessrios

56

Trabalhos Futuros

Estender o experimento executado

Arquivos versionados

Sistema de Recomendao

Segurana

57

OBRIGADO!

58