Você está na página 1de 43

RecCloud: UM MODELO DE

RECOMENDAO PARA SISTEMAS


DE ARMAZENAMENTO EM NUVEM
Ricardo Batista Rodrigues
Orientador: Vinicius C. Garcia
Co-orientador: Frederico A. Duro

Recife, 27 de Fevereiro de 2014

Agenda

Conceitos Bsicos
Motivao
Caracterizao do Problema
Trabalhos Relacionados
RecCloud
Avaliao
Resultados
Concluses
Trabalhos Futuros

Conceitos Bsicos

Computao em Nuvem
Conjunto de recursos computacionais virtualizados (Hardware
e software), oferecidos sob demanda (Vaquero et al. 2009).

(Vaqueiro et al. 2009)

Conceitos Bsicos

Sistemas de Armazenamento de Dados em Nuvem


Prov recursos e servios de armazenamento baseado
em servidores remotos, sob demanda (Zeng et al.
2009).
Caractersticas bsicas:
Recursos infinitos
Baixo custo
Mltiplas copias dos dados armazenados
Alta disponibilidade, escalabilidade e usabilidade.

Desafios
Segurana
Filtragem de contedo
Disponibilidade
4

Conceitos Bsicos

Sistemas de Recomendao
So softwares que fornecem sugestes de itens uteis ao
usurio (Ricci et al. 2011).

(Souza, 2012)

Conceitos Bsicos

Sistemas de Recomendao Baseados em


Contedo

Similaridade entre itens


A quantidade de usurios no sistemas no interfere
Se baseia no histrico do usurio
Precisa de itens bem descritos
Recomenda sempre itens muito parecidos

Sistemas de Recomendao por Filtragem


Colaborativa
Similaridade entre os usurios
Poucos usurios

Sistemas de Recomendao Hbridos

Caracterizao do Problema

Tempo gasto na filtragem de contedo.


Utilizao dos recursos em nuvem.

(Zamora, 2011)
7

Motivao
Previso do crescimento no volume de dado digitais.

(Gantz and Reinsel, 2011)


Relatrio publicado pela EMC Corporation em 2005.
8

Objetivo Geral
Propor um modelo de recomendao de arquivos
para sistemas de armazenamento em nuvem,
utilizando caractersticas da nuvem associadas a
tcnica de recomendao baseada em contedo.

(Souza, 2012)
9

Trabalhos Relacionados

10

Lee et al. (2010)


Um sistema de recomendao de canais televiso
digital (DTV) em um ambiente em nuvem
Propem a anlise, a utilizao dos padres de
visualizaes do usurio no ambiente para
personalizar a recomendao de canais
Utilizado como referncia
Disponibilidade e a conexo do usurio

Trabalhos Relacionados

11

Lai et al. (2011)


Um sistema de recomendao de programas de
televiso (TV) baseado em computao em nuvem e
um framework map-reduce
Determina os pesos de cada canal de acordo com o
tempo em que o usurio utilizou.
Recomendao efetuada de acordo com a
similaridade de grupos de usurios
A relevncia de um arquivo atribuda de acordo com
o tempo de acesso.

RecCloud

Um modelo de recomendao para sistemas de


armazenamento em nuvem
Caractersticas da nuvem
Tcnica de recomendao baseada em contedo
Fatores:
1. Similaridade
2. Disponibilidade
3. Taxa de Download
4. Tamanho do Arquivo
5. Popularidade do Arquivo

12

RecCloud

Fator Similaridade
Similaridade entre o arquivo que representa as
preferncias do usurios com os arquivos candidatos
a recomendao.
Tcnica de similaridade do Cosseno (Cheng et al.
2003; Lee at al. 2010; Yu and Zhou 2004).

13

RecCloud

Fator Disponibilidade
Quantidade de horas em que um arquivo esta
disponvel na nuvem
Ex: Arquivo A = 12 horas x Arquivo B = 10 horas
O Arquivo A ser mais bem ranqueado que o Arquivo
B

14

RecCloud

Fator Taxa de Download


a taxa disponvel para a realizao do download.
Objetivo: Reduzir o tempo gasto no download dos
arquivos recomendados.
0 a 3 Megabits (Akamai 2013).
Ex: Arquivo A = 1 Gb x Arquivo B = 10 Gb, mesma
taxa de download.
O Arquivo A ser mais bem ranqueado que o Arquivo
B.

15

RecCloud

16

Fator Tamanho do Arquivo


o tamanho do arquivo candidato a recomendao
Valor mximo determinado pelo sistema (Gb)
Objetivo: amenizar o tempo gasto no download
Ex: Arquivo A = 1 Gb x Arquivo B = 10 Gb, mesma
taxa de download
O Arquivo A ser mais bem ranqueado que o Arquivo
B

RecCloud

17

Fator Popularidade do Arquivo


a quantidade de downloads realizados de um
arquivo
Popularidade X Similaridade
Ex: Arquivo A = 5 downloads x Arquivo B = 10
downloads
O Arquivo B ser mais bem ranqueado que o Arquivo
A

RecCloud

18

Pesos dos Fatores


Fator

Peso

Similaridade

Disponibilidade

Taxa de Download

Tamanho do Arquivo

Popularidade do Arquivo

RecCloud

19

Processo de Recomendao

RecCloud

20

Clculo

Avaliao

Coleo de dados
Foram utilizados artigos acadmicos indexados no
engenho de busca ACM Digital Library.
Publicaes
da
ACM
Conference
on
Recommendation System RecSys (2012 e 2013).
Download de 156 artigos (.pdf)
10 artigos sobre o trabalho.
166 artigos foram salvos em um conta de usurio no
Ustore.
O backup foi realizado em dois clientes Ustore.

21

Avaliao

22

Julgamento de relevncia
Maior quantidade de downloads realizados
engenho de busca ACM Digital Library

no

Artigos similares a proposta e com mais de 100


downloads

20% do total de artigos utilizados (32 artigos)

Anexo A.

Mtricas de avaliao

23

Mtrica

Definio

Preciso

taxa de itens relevantes


recomendados no resultado em
relao a quantidade de itens
recomendados

Recall

a taxa de itens relevantes


recomendados em relao a
quantidade total de itens
relevantes

F-measure

a mdia ponderada da preciso


e recall

Mtricas de avaliao

24

Mtrica

Definio

Tempo Gasto no Download

Tempo gasto no download de


arquivos recomendados

Contedo Recomendado

Avaliar se o contedo
recomendado atende as
preferncia do alvo da
recomendao

Avaliao

25

USTORE
Ustore Consiste em uma soluo p2p para o
armazenamento de arquivos de forma distribuda.
O Ustore armazena uma enorme variedade de
arquivos de diversos formatos e tamanhos (.doc, .pdf,
.txt, .jpg e etc.)

Avaliao

Sistema de recomendao do Ustore


Prottipo implementado:
Fator Similaridade
Tcnica de similaridade do cosseno.

Fator Disponibilidade
Medido em horas, foi utilizada a mdia de
disponibilidade de cada usurio.

Fator Taxa de Download


Foi utilizada a taxa de download da rede no momento
da realizao dos experimentos.

26

Avaliao

Prottipo implementado:
Fator Tamanho do Arquivo
O tamanho do arquivo disponibilizado em bytes na
base do Ustore, foram convertidos para GigaBytes
O tamanho do arquivo mximo foi definido em 10
GigaBytes

Fator Popularidade do Arquivo


Este fator teve seus valores atribudos aleatoriamente

27

Avaliao

Ambiente
Resultado limitado a 10 recomendaes para cada
solicitao.
Foram realizadas 10 solicitaes de recomendaes.
Foram geradas 100 recomendaes.
As preferncias do usurio foram representadas por
10 artigos escritos sobre a pesquisa.
Cada recomendao foi avaliada pelas mtricas
apresentas.

28

Cenrios de avaliao

Cenrio I
Objetivo de avaliar o desempenho do modelo.
Preciso, recall e F-measure.

Cenrio II
Objetivo de avaliar o tempo gasto no download das
recomendaes.
RecCloud.
Tcnica baseada em contedo.

Cenrio III
Avaliar o contedo recomendado.

29

Resultados Cenrio I

30

Preciso de 0 a 0.5
Melhor preciso: 0.5
Preciso: 0.27
-13%

Resultados Cenrio I

31

Recall de 0 a 0.156
Recall: 0.84
-1%

Resultados Cenrio I

32

F-Measure: 0.40
-10%

Resultados Cenrio II

33

Recomendaes: 10x5 = 50
RecCloud: O tempo mdio foi de 959,56 ms, variando de 410 ms
a 2.203 ms.
CB: O tempo mdio foi de 1.166,42 ms, variando de 129 ms a
2.717 ms.

Resultados Cenrio II

34

A reduo mdia foi de 207,06 milissegundos 17,8%.

Resultados Cenrio III

35

Foram avaliadas 100 (cem) recomendaes.


As recomendaes foram avaliadas por um nico
usurio (Like/Dislike).

Resultados

36

Possveis ameaas a validao:


Conjunto de dados utilizado
Ambiente controlado
Mtricas de avaliao

Concluses

37

Os resultados obtidos foram prximos aos resultados


utilizados como referncia de validao.

Os resultados mostraram que o contedo


recomendado pelo modelo atender as preferncias do
usurio.

Concluses

38

Os resultados mostraram que o modelo proposto


conseguiu amenizar o tempo gasto no download dos
arquivos recomendados em relao

O modelo proposto pode ser aplicado a diversos


sistemas de armazenamento em nuvem

Principais Contribuies

39

Um estudo sobre modelos


baseados em nuvem.

Um modelo de recomendao para sistemas de


armazenamento
em
nuvem,
composto
por
caractersticas da nuvem.

A avaliao da proposta em
armazenamento em nuvem real.

de

recomendao

sistemas

de

Concluses

40

1.

A Cloud-based Recommendation System. IADIS International


Conference WWW-INTERNET (ICWI), Out., 2013, Fort Worth, Texas.

2.

RecCloud: Um Sistema de Recomendao Baseado em Nuvem.


Workshop de Teses e Dissertaes do Congresso Brasileiro de Software
(WTDSoft). Set., 2013, Braslia, Distrito Federal, Brasil.

3.

Um Sistema de Recomendao Baseado em Nuvem. III Escola Regional


de Informtica de Pernambuco (ERIPE). Nov., 2013, Garanhuns,
Pernambuco, Brasil.

4.

A Cloud-based Recommendation Model. 7th Euro American Association


on Telematics and Information Systems, 2014, Valparaso, Chile.

5.

RecCloud: A Recommendation Model for Cloud Storage Systems. 10th


International Conference on Web Information Systems and
Technologies, 2014, Barcelona, Espanha.

Trabalhos Futuros

41

Realizar novos experimentos com usurios reais, afim


de, avaliar o contedo recomendado pelo modelo
proposto.

Aplicar outras tcnicas de avaliao de sistemas de


recomendao ao modelo.

Realizar os experimentos com pesos diferentes para


cada fator do modelo proposto.

Trabalhos Futuros

42

Expanso dos fatores utilizados.

Utilizar a tcnica de recomendao por filtragem


colaborativa.

Propor um modelo de recomendao hbrido.

RecCloud: Um Modelo de
Recomendao Para Sistemas de
Armazenamento em Nuvem
Ricardo Batista Rodrigues
rbr@cin.ufpe.br

Recife, 27 de Fevereiro de 2014