Você está na página 1de 58

Uma Abordagem para Indexação e Buscas Full-Text

Baseadas em Conteúdo em
Sistemas de Armazenamento em Nuvem
Marco André Santos Machado
masm@cin.ufpe.br
Orientador: Vinicius Garcia
Co-Orientador: Frederico Durão
vcg@cin.ufpe.br / freddurao@gmail.com

1

Agenda

Motivação e Definição do Problema

Objetivos

Contextualização e Trabalhos Relacionados

Ustore

Abordagem Proposta

Experimento

Conclusão e Trabalhos Futuros

2

Motivação

Crescimento exponencial da quantidade
de informação
Diversos sistemas de armazenamento em
nuvem

3

Motivação

Sistemas de armazenamento baseados
em arquitetura P2P
Buscas baseadas no títulos dos arquivos
[Kostoff, 2010] e [Berrios, 2002]: buscas
full-text em sistemas peer-to-peer

4

Definição do Problema
“Os resultados retornados em uma busca
em um sistema de armazenamento em
nuvem podem ser melhorados utilizando
indexação e busca full-text baseadas em
conteúdo?”

5

Busca Full-text

6

Objetivos

Geral

Abordagem para indexação e buscas full-text
baseadas em conteúdo para sistemas de
armazenamento em nuvem

7

Objetivos

Específicos

Identificar propostas existentes

Elicitar Requisitos

Definir Metadados

Definir e implementar abordagem para
indexação e buscas

Realizar um experimento

8

Contextualização

Computação em Nuvem

Armazenamento em Nuvem

9

Contextualização

Sistema de Armazenamento
em Nuvem

Sistema P2P de Armazenamento
em Nuvem

10

Contextualização

Arquivo Inteiro X Chunks

Erasure Code

11

Contextualização

Recuperação de Informação (RI)

RI X Recuperação de Dados

Modelo Booleano

AND, OR, NOT...

Retorno com documento que satisfazem
completamente a consulta

12

Contextualização

Modelo Espaço-Vetorial

Resultados parciais

DOC = vetor / lista de termos ordenados

Frequência
Pesos associados

13

Trabalhos Relacionados

14

Ustore

Ferramente para armazenamento em
nuvem

Arquitetura P2P híbrida

Protocolo JXTA

15

Ustore

16

Abordagem Proposta

17

Principais Requisitos

Indexar no cliente

Extrair e indexar o conteúdo dos arquivos

Permitir consultas full-text

Indexação local-global

Replicação

Alta precisão e recall

18

Arquitetura de Componentes

19

Metadados

20

Indexação e Replicação

21

Buscas Full-Text

Buscas Locais

Índice Local -> Consulta síncrona

Não depende da rede P2P

Resultados restritos ao atual cliente

22

Buscas Full-Text

Busca através da rede P2P

Auto-Descobrimento do JXTA

Mensagens assíncronas para todos os
clientes conectados

Índice de cada cliente

Flooding

23

Buscas Full-Text

Servidor de Buscas

Auto-Descobrimento do JXTA

Índice global

Ponto de falha

24

Experimento

25

Experimento

Avaliação de engenhos de busca [Manning
et al, 2008]:

Coleção de Dados

Consultas

Julgamentos de Relevância

26

Julgamentos de Relevância

27

Ambiente de Testes

28

Metodologia de Avaliação

Método sistemático para avaliação de
desempenho [Jain, 1991]

Objetivo

Métricas

Fatores e Níveis

29

Metodologia de Avaliação

Objetivo:

Avaliar o desempenho do engenho de busca
em um sistema de armazenamento em nuvem

Indexação baseada no nome e conteúdo

Impacto da inclusão da funcionalidade

30

Metodologia de Avaliação

Métricas

Precisão = X / Y

Recall = Y / Z

F – Measure

Tempo consulta

Tempo indexação +
backup

31

Metodologia de Avaliação

Métricas

Satisfatório



Precisão: 0,4
Recall: 0,45
F-Measure: 0,42
Tempo de busca: 1000ms

Referências:


[Tang and Dwarkadas, 2004]
[Lu and Callan, 2003]
[Yang et al., 2006]
32

Metodologia de Avaliação

Fatores e Níveis

33

Cenários para Avaliação

Quatro cenários:

Cenário 1: Indexação local; busca local

Cenário 2: Indexação local; busca na rede

Cenário 3: Indexação e busca no servidor

Cenário 4: Tempo de backup


Sem indexação
Indexação Local
Indexação Local e Servidor

34

Resultados

35

Cenário 1, 2 e 3

Métricas: Precisão, Recall, F-Measure e
Tempo de consulta
Cada cliente Ustore com 25 arquivos

36

Resultados no Cenário 1

Precisão

Comparativo da precisão nos quatro clientes Ustore (busca local)

37

Resultados no Cenário 1

Recall

Comparativo do recall nos quatro clientes Ustore (busca local)

38

Resultados no Cenário 1

F-Measure

39

Resultados no Cenário 1

Tempo de Busca

Intervalo de tempo para realização de consultas locais

40

Análise de Resultados (Cenário 1)

Em média,
Conteúdo

Título

Precisão

0,33

0,28

Recall

0,2

0,14

F-measure

0,22

0,18

Tempo Busca

60 - 180

25 - 42

Conclusões Parciais
0,40 > Pconteudo > Ptitulo
0,45 > Rconteudo > Rtitulo
0,42 > Fconteudo > Ftitulo
1000 > Tconteudo > Ttitulo
41

Resultados no Cenário 2

Precisão

Comparativo da precisão nos quatro clientes Ustore (busca através da rede)

42

Resultados no Cenário 2

Recall

Comparativo do recall nos quatro clientes Ustore (busca através da rede)

43

Resultados no Cenário 2

F-Measure

44

Resultados no Cenário 2

Tempo de Busca

Intervalo de tempo para realização de consultas através da rede

45

Análise de Resultados (Cenário 2)

Em média,
Conteúdo

Título

Precisão

0,34

0,33

Recall

0,16

0,16

F-Measure

0,21

0,20

Tempo Busca

101 - 393

53 - 60

Conclusões Parciais
0,40 > Pconteudo > Ptitulo
0,45 > Rconteudo = Rtitulo
0,42 > Fconteudo > Ftitulo
1000 > Tconteudo > Ttitulo
46

Resultados no Cenário 3

Precisão

Comparativo da precisão utilizando somente o Servidor de Buscas

47

Resultados no Cenário 3

Recall

Comparativo do recall utilizando somente o Servidor de Buscas

48

Resultados no Cenário 3

F-Measure

49

Resultados no Cenário 3

Tempo de Busca

Intervalo de tempo para realização de consultas utilizando somente o Servidor de Buscas

50

Análise de Resultados (Cenário 3)

Em média,
Conteúdo

Título

Precisão

0,43

0,15

Recall

0,21

0,15

F-Measure

0,27

0,12

Tempo Busca

461 - 519

47 - 58

Conclusões Parciais
0,40 < Pconteudo > Ptitulo
0,45 > Rconteudo > Rtitulo
0,42 > Fconteudo > Ftitulo
1000 > Tconteudo > Ttitulo
51

Resultados no Cenário 4

Métrica: tempo de backup

30 backups de 1 arquivo de 12Mb

3 situações:

Sem indexação

Indexação local

Indexação local e global

52

Resultados no Cenário 4

Intervalos de tempo para realização de backups no Ustore

53

Discussão dos Resultados

Precisãoconteudo > Precisãotitulo

Recallconteudo > Recalltitulo

F-Measureconteudo > F-Measuretitulo

Em geral, taxas muito baixas de recall e,
em alguns casos, taxas satisfatórias de
precisão
Aumento no tempo de backup ≈ 3s
54

Discussão dos Resultados

Possíveis Problemas

Classificação de Relevância

Número de repetições X Número de Citações

Atribuição padrão de pesos

55

Conclusão

Abordagem para indexação e buscas

Implementada em sistema real

Resultados mostram que é viável e
prática, entretanto, ajustes ainda são
necessários

56

Trabalhos Futuros

Estender o experimento executado

Arquivos versionados

Sistema de Recomendação

Segurança

57

OBRIGADO!

58