Você está na página 1de 43

RecCloud: UM MODELO DE

RECOMENDAÇÃO PARA SISTEMAS
DE ARMAZENAMENTO EM NUVEM
Ricardo Batista Rodrigues
Orientador: Vinicius C. Garcia
Co-orientador: Frederico A. Durão

Recife, 27 de Fevereiro de 2014

Agenda

Conceitos Básicos
 Motivação
 Caracterização do Problema
 Trabalhos Relacionados
 RecCloud
 Avaliação
 Resultados
 Conclusões
 Trabalhos Futuros

2

Conceitos Básicos

Computação em Nuvem
– Conjunto de recursos computacionais virtualizados (Hardware
e software), oferecidos sob demanda (Vaquero et al. 2009).

(Vaqueiro et al. 2009)

3

Conceitos Básicos

Sistemas de Armazenamento de Dados em Nuvem
– Provê recursos e serviços de armazenamento baseado
em servidores remotos, sob demanda (Zeng et al.
2009).
– Características básicas:
 Recursos infinitos
 Baixo custo
 Múltiplas copias dos dados armazenados
– Alta disponibilidade, escalabilidade e usabilidade.

– Desafios
 Segurança
 Filtragem de conteúdo
 Disponibilidade
4

Conceitos Básicos

Sistemas de Recomendação
São softwares que fornecem sugestões de itens uteis ao
usuário (Ricci et al. 2011).

(Souza, 2012)

5

Conceitos Básicos

Sistemas de Recomendação Baseados em
Conteúdo




Similaridade entre itens
A quantidade de usuários no sistemas não interfere
Se baseia no histórico do usuário
Precisa de itens bem descritos
Recomenda sempre itens muito parecidos

Sistemas de Recomendação por Filtragem
Colaborativa
– Similaridade entre os usuários
– Poucos usuários


6

Sistemas de Recomendação Híbridos

Caracterização do Problema

Tempo gasto na filtragem de conteúdo.
Utilização dos recursos em nuvem.

(Zamora, 2011)
7

Motivação
Previsão do crescimento no volume de dado digitais.

(Gantz and Reinsel, 2011)
Relatório publicado pela EMC Corporation em 2005.
8

Objetivo Geral
Propor um modelo de recomendação de arquivos
para sistemas de armazenamento em nuvem,
utilizando características da nuvem associadas a
técnica de recomendação baseada em conteúdo.

(Souza, 2012)
9

Trabalhos Relacionados



10

Lee et al. (2010)
Um sistema de recomendação de canais televisão
digital (DTV) em um ambiente em nuvem
Propõem a análise, a utilização dos padrões de
visualizações do usuário no ambiente para
personalizar a recomendação de canais
Utilizado como referência
Disponibilidade e a conexão do usuário

Trabalhos Relacionados



11

Lai et al. (2011)
Um sistema de recomendação de programas de
televisão (TV) baseado em computação em nuvem e
um framework map-reduce
Determina os pesos de cada canal de acordo com o
tempo em que o usuário utilizou.
Recomendação é efetuada de acordo com a
similaridade de grupos de usuários
A relevância de um arquivo é atribuída de acordo com
o tempo de acesso.

RecCloud

Um modelo de recomendação para sistemas de
armazenamento em nuvem
 Características da nuvem
 Técnica de recomendação baseada em conteúdo
 Fatores:
1. Similaridade
2. Disponibilidade
3. Taxa de Download
4. Tamanho do Arquivo
5. Popularidade do Arquivo

12

RecCloud

Fator Similaridade
 Similaridade entre o arquivo que representa as
preferências do usuários com os arquivos candidatos
a recomendação.
 Técnica de similaridade do Cosseno (Cheng et al.
2003; Lee at al. 2010; Yu and Zhou 2004).

13

RecCloud

Fator Disponibilidade
 Quantidade de horas em que um arquivo esta
disponível na nuvem
 Ex: Arquivo A = 12 horas x Arquivo B = 10 horas
 O Arquivo A será mais bem ranqueado que o Arquivo
B

14

RecCloud

Fator Taxa de Download
 É a taxa disponível para a realização do download.
 Objetivo: Reduzir o tempo gasto no download dos
arquivos recomendados.
 0 a 3 Megabits (Akamai 2013).
 Ex: Arquivo A = 1 Gb x Arquivo B = 10 Gb, mesma
taxa de download.
 O Arquivo A será mais bem ranqueado que o Arquivo
B.

15

RecCloud





16

Fator Tamanho do Arquivo
É o tamanho do arquivo candidato a recomendação
Valor máximo determinado pelo sistema (Gb)
Objetivo: amenizar o tempo gasto no download
Ex: Arquivo A = 1 Gb x Arquivo B = 10 Gb, mesma
taxa de download
O Arquivo A será mais bem ranqueado que o Arquivo
B

RecCloud




17

Fator Popularidade do Arquivo
É a quantidade de downloads realizados de um
arquivo
Popularidade X Similaridade
Ex: Arquivo A = 5 downloads x Arquivo B = 10
downloads
O Arquivo B será mais bem ranqueado que o Arquivo
A

RecCloud

18

Pesos dos Fatores
Fator

Peso

Similaridade

4

Disponibilidade

2

Taxa de Download

2

Tamanho do Arquivo

1

Popularidade do Arquivo

1

RecCloud

19

Processo de Recomendação

RecCloud

20

Cálculo

Avaliação

Coleção de dados
 Foram utilizados artigos acadêmicos indexados no
engenho de busca ACM Digital Library.
 Publicações
da
ACM
Conference
on
Recommendation System – RecSys (2012 e 2013).
 Download de 156 artigos (.pdf)
 10 artigos sobre o trabalho.
 166 artigos foram salvos em um conta de usuário no
Ustore.
 O backup foi realizado em dois clientes Ustore.

21

Avaliação

22

Julgamento de relevância
Maior quantidade de downloads realizados
engenho de busca ACM Digital Library

no

Artigos similares a proposta e com mais de 100
downloads

20% do total de artigos utilizados (32 artigos)

Anexo A.

Métricas de avaliação

23

Métrica

Definição

Precisão

É taxa de itens relevantes
recomendados no resultado em
relação a quantidade de itens
recomendados

Recall

É a taxa de itens relevantes
recomendados em relação a
quantidade total de itens
relevantes

F-measure

É a média ponderada da precisão
e recall

Métricas de avaliação

24

Métrica

Definição

Tempo Gasto no Download

Tempo gasto no download de
arquivos recomendados

Conteúdo Recomendado

Avaliar se o conteúdo
recomendado atende as
preferência do alvo da
recomendação

Avaliação


25

USTORE
Ustore Consiste em uma solução p2p para o
armazenamento de arquivos de forma distribuída.
O Ustore armazena uma enorme variedade de
arquivos de diversos formatos e tamanhos (.doc, .pdf,
.txt, .jpg e etc.)

Avaliação


Sistema de recomendação do Ustore
Protótipo implementado:
Fator Similaridade
– Técnica de similaridade do cosseno.

Fator Disponibilidade
– Medido em horas, foi utilizada a média de
disponibilidade de cada usuário.

Fator Taxa de Download
– Foi utilizada a taxa de download da rede no momento
da realização dos experimentos.

26

Avaliação

Protótipo implementado:
Fator Tamanho do Arquivo
– O tamanho do arquivo é disponibilizado em bytes na
base do Ustore, foram convertidos para GigaBytes
– O tamanho do arquivo máximo foi definido em 10
GigaBytes

Fator Popularidade do Arquivo
– Este fator teve seus valores atribuídos aleatoriamente

27

Avaliação

Ambiente
 Resultado limitado a 10 recomendações para cada
solicitação.
 Foram realizadas 10 solicitações de recomendações.
 Foram geradas 100 recomendações.
 As preferências do usuário foram representadas por
10 artigos escritos sobre a pesquisa.
 Cada recomendação foi avaliada pelas métricas
apresentas.

28

Cenários de avaliação

Cenário I
– Objetivo de avaliar o desempenho do modelo.
– Precisão, recall e F-measure.

Cenário II
– Objetivo de avaliar o tempo gasto no download das
recomendações.
– RecCloud.
– Técnica baseada em conteúdo.

Cenário III
– Avaliar o conteúdo recomendado.

29

Resultados Cenário I



30

Precisão de 0 a 0.5
Melhor precisão: 0.5
Precisão: 0.27
-13%

Resultados Cenário I


31

Recall de 0 a 0.156
Recall: 0.84
-1%

Resultados Cenário I

32

F-Measure: 0.40
-10%

Resultados Cenário II


33

Recomendações: 10x5 = 50
RecCloud: O tempo médio foi de 959,56 ms, variando de 410 ms
a 2.203 ms.
CB: O tempo médio foi de 1.166,42 ms, variando de 129 ms a
2.717 ms.

Resultados Cenário II

34

A redução média foi de 207,06 milissegundos 17,8%.

Resultados Cenário III

35

Foram avaliadas 100 (cem) recomendações.
As recomendações foram avaliadas por um único
usuário (Like/Dislike).

Resultados



36

Possíveis ameaças a validação:
Conjunto de dados utilizado
Ambiente controlado
Métricas de avaliação

Conclusões

37

Os resultados obtidos foram próximos aos resultados
utilizados como referência de validação.

Os resultados mostraram que o conteúdo
recomendado pelo modelo atender as preferências do
usuário.

Conclusões

38

Os resultados mostraram que o modelo proposto
conseguiu amenizar o tempo gasto no download dos
arquivos recomendados em relação

O modelo proposto pode ser aplicado a diversos
sistemas de armazenamento em nuvem

Principais Contribuições

39

Um estudo sobre modelos
baseados em nuvem.

Um modelo de recomendação para sistemas de
armazenamento
em
nuvem,
composto
por
características da nuvem.

A avaliação da proposta em
armazenamento em nuvem real.

de

recomendação

sistemas

de

Conclusões

40

1.

A Cloud-based Recommendation System. IADIS International
Conference WWW-INTERNET (ICWI), Out., 2013, Fort Worth, Texas.

2.

RecCloud: Um Sistema de Recomendação Baseado em Nuvem.
Workshop de Teses e Dissertações do Congresso Brasileiro de Software
(WTDSoft). Set., 2013, Brasília, Distrito Federal, Brasil.

3.

Um Sistema de Recomendação Baseado em Nuvem. III Escola Regional
de Informática de Pernambuco (ERIPE). Nov., 2013, Garanhuns,
Pernambuco, Brasil.

4.

A Cloud-based Recommendation Model. 7th Euro American Association
on Telematics and Information Systems, 2014, Valparaíso, Chile.

5.

RecCloud: A Recommendation Model for Cloud Storage Systems. 10th
International Conference on Web Information Systems and
Technologies, 2014, Barcelona, Espanha.

Trabalhos Futuros

41

Realizar novos experimentos com usuários reais, afim
de, avaliar o conteúdo recomendado pelo modelo
proposto.

Aplicar outras técnicas de avaliação de sistemas de
recomendação ao modelo.

Realizar os experimentos com pesos diferentes para
cada fator do modelo proposto.

Trabalhos Futuros

42

Expansão dos fatores utilizados.

Utilizar a técnica de recomendação por filtragem
colaborativa.

Propor um modelo de recomendação híbrido.

RecCloud: Um Modelo de
Recomendação Para Sistemas de
Armazenamento em Nuvem
Ricardo Batista Rodrigues
rbr@cin.ufpe.br

Recife, 27 de Fevereiro de 2014