Escolar Documentos
Profissional Documentos
Cultura Documentos
Storage Services
1. INTRODUO
Nos ltimos anos, a introduo de servios baseados
na nuvem[18], oferecendo s pessoas e empresas a
capacidade de computao e armazenamento em data
centers remotos e abstraindo a complexidade do
gerenciamento de hardware. Testemunhamos uma
corrida de ouro para oferecer recursos de
armazenamento online, com interessados como
Microsoft, Google e Amazon entrando no mercado no
final de abril de 2012. Eles enfrentam um cenrio
lotado contra solues populares como Box.com,
UbuntuOne e Dropbox. O ltimo, ativo desde 2007,
conta atualmente com mais de 50 milhes usurios*,
carregando mais de 500 milhes de arquivos por dia.
Portanto, no surpreendente que o armazenamento
na nuvem tenha ganhado crescente impulso dentro da
comunidade de pesquisa. Alguns trabalhos
explicitamente consideram o design da arquitetura
do sistema[12], enquanto outros se concentram em
questes de segurana e privacidade no armazenamento Comentado [MR1]: Main Point of article presentation
de dados de usurios[19]. Considerando as ofertas
comerciais, pouco se sabe, com a maioria dos
jogadores fornecendo solues proprietrias e no Comentado [MR2]: gigantes
disposto a compartilhar informaes.
Alguns estudos apresentam uma comparao entre
diferentes fornecedores de armazenamento[13,17]: ao
executar benchmarks, eles se concentram no
desempenho alcanado pelo usurio, mas perde a
caracterizao do uso tpico de um servio em nuvem
e do impacto de comportamento do usurio e do
sistema em aplicativos de armazenamento pessoal.
Neste artigo, fornecemos uma caracterizao do
cloudbased sistemas de armazenamento. Analisamos o
trfego coletado de dois campus universitrios e
dois Pontos de Presena (POP) em um grande provedor
de servios de Internet (ISP) por 42 dias
consecutivos. Primeiro, elaboramos uma metodologia
para monitorar trfego de armazenamento em nuvem,
que, com base na criptografia TLS, no fcil de
entender. Em seguida, nos concentramos em Dropbox,
que mostramos ser a nuvem mais amplamente utilizada
sistema de armazenamento em nossos conjuntos de
dados. Dropbox j conta com cerca de 100 GB de Comentado [MR3]: Atualmente mais 1,2 bilies de upload
trfego dirio em uma das redes monitoradas- ou
seja, 4% do trfego total ou cerca de um tero do
trfego do YouTube na mesma rede. Concentramo-nos
primeiro na caracterizao do desempenho do servio,
destacando possveis estrangulamentos e sugestes
de contramedidas. Ento, ns detalhamos hbitos do
usurio, proporcionando assim uma caracterizao
extensiva da carga de trabalho que o sistema tem
para enfrentar. Para ser nosso melhor conhecimento,
somos os primeiros a fornecer uma anlise do uso do
Dropbox na Internet. Os autores de[11] compararam
Dropbox, Mozy, Carbonite e CrashPlan, mas apenas uma
experincia ativa simplista fornecida para avali-
los. Em [16], a possibilidade de acesso no autorizado
aos dados e as implicaes de segurana de armazenar
dados no Dropbox so analisado. Seguimos uma
metodologia similar para dissecar o protocolo
Dropbox, mas, com foco em um tpico completamente
diferente.
Considerando os sistemas de armazenamento em
geral, [8,9] estudam segurana e implicaes de
privacidade da implantao de desduplicao de dados
- o mecanismo no lugar do Dropbox para evitar o
armazenamento de dados duplicados. Da mesma forma,
[1]
apresenta uma performance de anlise da Amazon
Web Services (AWS) em geral, mas no fornece
informaes sobre o armazenamento pessoal.
Finalmente, vrios trabalhos caracterizam servios
populares, como redes sociais[7,15] ou YouTube[3,6].
Nosso trabalho vai em uma direo similar,
derramando luz no Dropbox e possivelmente outros
sistemas relacionados. Nossas principais
descobertas so:
J vemos uma quantidade significativa de
trfego relacionado para armazenamento de nuvem
pessoal, especialmente em redes de campus, onde
so encontradas pessoas com mais conhecimentos
tcnicos. Ns esperamos que esses sistemas se
tornem populares tambm em casa, onde a
penetrao j est acima dos 6%.
Destacamos que o desempenho do Dropbox
impulsionado principalmente pela distncia
entre clientes e centros de dados de
armazenamento. Comentado [MR4]: Desvantagem
Alm disso, os tamanhos de transferncia de
dados curtos, juntamente com um perchunk -
mecanismo de reconhecimento prejudica a taxa de
transferncia, que to pouco quanto
530kbits/s em mdia. Um esquema de agrupamento,
confirmaes demoradas ou uma colocao mais
fina de servidores de armazenamento poderiam
ser adotados para melhorar o desempenho.
Considerando o comportamento dos usurios
domsticos, quatro grupos so claros:
7% das pessoas s fazem upload dados; cerca de
26% apenas o download, e at 37% das pessoas
fazem as duas coisas. Os restantes 30% deixam
seus clientes executando, raramente trocando
arquivos.
Curiosamente, uma das caractersticas mais
apreciadas de Dropbox a capacidade
simplificada de compartilhar contedo: 30% dos
usurios domsticos possuem mais de um
dispositivo vinculado e 70% compartilham pelo
menos uma pasta. Nos campi, o nmero de pastas
compartilhadas aumenta, com 40% dos usurios
compartilhando mais de 5 pastas.
Nossas descobertas mostram que aplicativos
pessoais de armazenamento em nuvem so famintos
com dados e o comportamento do usurio afeta
profundamente seus requisitos de rede.
Acreditamos que nossos resultados so teis
tanto para a comunidade de pesquisa quanto para
ISPs para entender e antecipar o impacto da
adoo macia de tais solues.
Da mesma forma, nossa anlise do desempenho do
Dropbox uma referncia para aqueles que
projetam protocolos e provisionamento data-
centers de dados para servios similares, com
lies valiosas sobre possveis
estrangulamentos introduzidos por algumas
decises de design.
O restante deste artigo est organizado da
seguinte forma:
Sec.2 - Fornece informaes sobre a arquitetura
Dropbox.
Sec.3 descreve nossa coleta de dados e compara a
popularidade de conhecidos sistemas de
armazenamento baseados em nuvem.
Sec.4 - apresenta uma caracterizao do desempenho
do Dropbox. Hbitos de usurio e a carga de trabalho
gerada apresentada na Sec.5. Enquanto essas sees
se concentram principalmente no uso do Software do
cliente Dropbox, Sec.6 discute a interface da Web
menos popular. Finalmente, Sec.7 conclui este
documento, e o apndice A fornece algumas
caractersticas adicionais do trfego de
armazenamento Dropbox.
3. DATAS E POPULARIDADE
3.1 Metodologia
Confiamos em medidas passivas para analisar o
trfego Dropbox nas redes operacionais. Usamos o
Tstat[5], uma ferramenta de monitoramento de cdigo
aberto desenvolvida no Politcnico di Torino, para
coletar dados. O Tstat monitora cada conexo TCP,
expondo informaes sobre mais de 100 metrics 5,
incluindo endereos IP de cliente e servidor,
quantidade de dados trocados, eventuais segmentos
retransmitidos, Round Trip Time (RTT) e o nmero de
segmentos TCP que apresentaram a bandeira PSH [14].
Especificamente visando a anlise do trfego da
Dropbox, implementamos vrios recursos adicionais.
Primeiro, dado que a Dropbox depende do HTTPS,
extramos os certificados TLS / SSL oferecidos pelo
servidor usando uma abordagem DPI clssica. Nossa
anlise mostra que a string*.dropbox.com usada
para assinar todas as comunicaes com os
servidores. Isso fundamental para a classificao
de trfego dos servios. Em segundo lugar,
aumentamos a informao exposta rotulando os
endereos IP do servidor com o nome de domnio
totalmente qualificado original (FQDN) o cliente
solicitado ao servidor DNS[2]. Esta uma
caracterstica chave para revelar informaes sobre
o servidor que est sendo contatado (consulte a Tab.
1) e permite identificar cada servio especfico
relacionado ao Dropbox. Em terceiro lugar, a Tstat
foi instruda para expor a lista de identificadores
de dispositivos e namespaces mais antigos trocados
com os servidores de notificao.
Fig.1 e fig.2
2 imagens ------------------
4. DESEMPENHO DROPBOX
4.1 Desagregao do trfego: armazenamento e
controle
Para entender o desempenho do servio Dropbox e sua
arquitetura, primeiro estudamos a quantidade de
trfego manipulada pelos diferentes conjuntos de
servidores. fig.4 mostra a quebra do trfego
resultante em termos de volume de trfego e nmero
de fluxos. A partir da figura, surge que o
aplicativo cliente Dropbox responsvel por mais
de 80% do volume de trfego em todos os pontos de
vantagem, o que mostra que esse aplicativo
altamente preferido sobre as interfaces da Web para
trocar dados. Uma parcela significativa do volume
(de 7% a 10%) gerada por downloads de links diretos
e a principal interface da Web (ambos representados
como Web na fig.4). Nas redes domsticas, um volume
pequeno, mas no negligencivel, visto na API
Dropbox (at 4%). Finalmente, o volume de dados
causado pelas mensagens de controle insignificante
em todos os conjuntos de dados. Ao considerar o
nmero de fluxos, os servidores de controle so os
principais contribuidores (mais de 80% dos fluxos,
dependendo do conjunto de dados). A diferena na
porcentagem dos fluxos de notificao - cerca de 15%
no Campus 2, Home 1 e Home 2 e menos de 3% no Campus
1 - causada pela diferena na durao tpica das
sesses do Dropbox nessas redes, o que ser Mais
estudado na Sec. 5.5.
Imagem 1 ---------------------
4.2 Locais do servidor e RTT
Mostramos em sees anteriores que o protocolo de
cliente Dropbox depende de servidores diferentes
para realizar tarefas tpicas, como a sincronizao
de arquivos. O Dropbox distribui a carga entre seus
servidores, girando os endereos IP nas respostas
DNS e fornecendo diferentes listas de nomes DNS para
cada cliente. A seguir, queremos entender a
implantao geogrfica desta arquitetura e suas
consequncias no RTT percebido.
2 imagens -------------------
5.2 Dispositivos
Nesta seo, descrevemos a distribuio do nmero
de dispositivos que residem na mesma LAN. Os
dispositivos conectados mesma LAN podem fazer uso
do protocolo LAN Sync para sincronizar arquivos sem
recuperar o contedo duplicado da nuvem. A Fig.12
mostra a distribuio do nmero de dispositivos por
endereo IP em Home 1 e Home 2.
Em cerca de 60% dos agregados familiares que
utilizam o cliente Dropbox, existe apenas um nico
dispositivo ligado ao servio. A maioria dos
agregados familiares remanescentes tem at 4
dispositivos e, surpreendentemente, fazem parte do
grupo pesado identificado na seo anterior. Ao
inspecionar um subconjunto de conexes de
notificao no Home 1, observamos que em cerca de
60% das famlias com mais de 1 dispositivo (cerca
de 25% do total), pelo menos 1 pasta compartilhada
entre os dispositivos. Isso confirma ainda mais
nossas descobertas sobre o uso tpico do Dropbox
entre usurios pesados para a sincronizao de
dispositivos. Desde o trfego da LAN SyncProtocol
no atinge nossas sondas, no podemos quantificar a
quantidade de largura de banda salva nestas casas
pelo uso do protocolo. Contudo, podemos concluir que
no mais de 25% das famlias esto lucrando com
isso. Os usurios restantes sempre contam com
datacenters de armazenamento central para suas
transferncias de dados.
6. ARMAZENAGEM WEB
Alm do aplicativo cliente, o Dropbox permite que
os usurios acessem pastas e arquivos compartilhados
usando sua principal interface da Web e um mecanismo
de download de links diretos. A seguir, analisamos
o uso dessas interfaces. A Fig. 17 apresenta os CDFs
do nmero de bytes nos fluxos de armazenamento da
interface da Web principal do Dropbox. So
apresentados CDFs separados para uploads e
downloads.
Considerando o nmero de bytes carregados, fica
claro que a interface da Web principal dificilmente
usada para carregar contedo. Mais de 95% dos
fluxos enviados com menos de 10kB. Ao considerar os
bytes baixados, at 80% dos fluxos trocaram menos
10kB. Essas distribuies so, no entanto,
fortemente tendenciosas em relao aos tamanhos de
handshake do SSL por dois motivos: (i) a interface
Dropbox recupera as miniaturas dos servidores de
armazenamento usando o SSL; (ii) Os navegadores da
Web abrem vrias conexes paralelas ao recuperar
esses objetos HTTP.
Os fluxos remanescentes tm menos de 10MB em mais
de 95% dos casos, mostrando que apenas arquivos
pequenos so normalmente recuperados desta
interface da Web.Alm disso, analisamos fluxos
relacionados a downloads de links diretos. Observe
que esses fluxos correspondem a 92% dos fluxos de
armazenamento da Web Dropbox no Home 1, confirmando
que esse mecanismo altamente preferido sobre a
interface principal da Dropbox. A Fig.18 mostra o
CDF do tamanho das transferncias de links
diretos.11 Dado que esses downloads nem sempre so
criptografados, o CDF no possui o limite inferior
SSL. Curiosamente, apenas uma pequena porcentagem
de downloads de links diretos maior que 10MB,
sugerindo que seu uso no est relacionado ao
compartilhamento de filmes ou arquivos.
7. CONCLUSES
Para o nosso melhor conhecimento, somos os primeiros
a analisar o uso da Dropbox na internet. Nossa
anlise avaliou o crescente interesse em sistemas
de armazenamento baseados em nuvem. Principais
jogadores como Google, Apple e Microsoft esto
oferecendo o servio. Mostramos que, nesta paisagem,
o Dropbox atualmente o fornecedor mais popular de
um sistema desse tipo.
Ao analisar os fluxos capturados em 4 pontos de
vantagem na Europa ao longo de um perodo de 42 dias
consecutivos, mostramos que
A Dropbox agora responsvel por um volume de
trfego considervel. Em um de nossos conjuntos de
dados, por exemplo, o Dropbox j equivalente a um
tero do trfego do YouTube. Apresentamos uma
extensa caracterizao da Dropbox, tanto em termos
da carga de trabalho do sistema quanto do uso
tpico. Nossas principais descobertas mostram que o
desempenho do servio Dropbox altamente afetado
pela distncia entre os clientes e os centros de
dados, que atualmente esto localizados nos EUA. O
uso de reconhecimentos per-chunk no protocolo do
cliente combinado com os tamanhos tipicamente
pequenos do tamanho profundamente Limita o
rendimento efetivo do servio. Neste artigo,
identificamos duas possveis melhorias no
protocolo:
(i) o uso de um esquema de agrupamento de partes;
(ii) a introduo de reconhecimentos demorados.
Mostramos que a implantao recente de um mecanismo
de agrupamento melhorou o desempenho do sistema
dramaticamente. Alm disso, esperamos que o
desempenho geral seja melhorado pela implantao de
outros centros de dados em diferentes locais. Quanto
carga de trabalho tpica do sistema Dropbox, nossa
anlise mostrou uma variedade de comportamentos de
usurios. Por exemplo, um nmero considervel de
usurios aproveitam as funcionalidades Dropbox,
armazenando e recuperando arquivos e compartilhando
vrias pastas. No entanto, tambm observamos que
cerca de um tero dos usurios abandonam
completamente seus clientes, raramente trocando
dados durante os 42 dias de observaes.
9. REFERENCES
[1] A. Bergen, Y. Coady, and R. McGeer. Client
Bandwidth: The Forgotten Metric of Online Storage
Providers. In Proceedings of the 2011 IEEE Pacific
Rim Conference on Communications, Computers and
Signal Processing, PacRim2011, pages 543548,
2011.
[2] I. Bermudez, M. Mellia, M. M. Munaf`o,
R. Keralapura, and A. Nucci. DNS to the Rescue:
Discerning Content and Services in a Tangled Web.
In
Proceedings of the 12th ACM SIGCOMM Conference
on Internet Measurement, IMC12, 2012.
[3] M. Cha, H. Kwak, P. Rodriguez, Y.-Y. Ahn, and
S. Moon. I Tube, You Tube, Everybody Tubes:
Analyzing the Worlds Largest User Generated
Content Video System. In Proceedings of the 7th ACM
SIGCOMM Conference on Internet Measurement,
IMC07, pages 114, 2007.
[4] N. Dukkipati, T. Refice, Y. Cheng, J. Chu,
T. Herbert, A. Agarwal, A. Jain, and N. Sutin. An
Argument for Increasing TCPs Initial Congestion
Window. SIGCOMM Comput. Commun. Rev.,
40(3):2633, 2010.
[5] A. Finamore, M. Mellia, M. Meo, M. M. Munaf`o,
and
D. Rossi. Experiences of Internet Traffic Monitoring
with Tstat. IEEE Network, 25(3):814, 2011.
[6] A. Finamore, M. Mellia, M. M. Munaf`o, R.
Torres,
and S. G. Rao. YouTube Everywhere: Impact of
Device and Infrastructure Synergies on
UserExperience. In Proceedings of the 11th ACM
SIGCOMM Conference on Internet Measurement,
IMC11, pages 345360, 2011.
[7] M. Gjoka, M. Sirivianos, A. Markopoulou, and
X. Yang. Poking Facebook: Characterization of OSN
Applications. In Proceedings of the First Workshop
on
Online Social Networks, WOSN08, pages 3136, 2008.
[8] S. Halevi, D. Harnik, B. Pinkas, and
A. Shulman-Peleg. Proofs of Ownership in Remote
Storage Systems. In Proceedings of the 18th ACM
Conference on Computer and Communications
Security, CCS11, pages 491500, 2011.
[9] D. Harnik, B. Pinkas, and A. Shulman-Peleg. Side
Channels in Cloud Services: Deduplication in Cloud
Storage. IEEE Security and Privacy, 8(6):4047,
2010.
[10] S. Hatonen, A. Nyrhinen, L. Eggert, S.
Strowes,
P. Sarolahti, and M. Kojo. An Experimental Study of
Home Gateway Characteristics. In Proceedings of the
10th ACM SIGCOMM Conference on Internet
Measurement, IMC10, pages 260266, 2010.
[11] W. Hu, T. Yang, and J. N. Matthews. The Good,
the
Bad and the Ugly of Consumer Cloud Storage. ACM
SIGOPS Operating Systems Review, 44(3):110115,
2010.
[12] A. Lenk, M. Klems, J. Nimis, S. Tai, and
T. Sandholm. Whats Inside the Cloud? An
Architectural Map of the Cloud Landscape. In
Proceedings of the 2009 ICSE Workshop on Software
Engineering Challenges of Cloud Computing,
CLOUD09, pages 2331, 2009.
[13] A. Li, X. Yang, S. Kandula, and M. Zhang.
CloudCmp: Comparing Public Cloud Providers. In
Proceedings of the 10th ACM SIGCOMM Conference
on Internet Measurement, IMC10, pages 114, 2010.
[14] M. Mellia, M. Meo, L. Muscariello, and D.
Rossi.
Passive Analysis of TCP Anomalies. Computer
Networks, 52(14):26632676, 2008.
[15] A. Mislove, M. Marcon, K. P. Gummadi, P.
Druschel,
and B. Bhattacharjee. Measurement and Analysis of
Online Social Networks. In Proceedings of the 7th
ACM SIGCOMM Conference on Internet
Measurement, IMC07, pages 2942, 2007.
[16] M. Mulazzani, S. Schrittwieser, M. Leithner,
M. Huber, and E. Weippl. Dark Clouds on the
Horizon: Using Cloud Storage as Attack Vector and
Online Slack Space. In Proceedings of the 20th
USENIX Conference on Security, SEC11, 2011.
[17] G. Wang and T. E. Ng. The Impact of
Virtualization
on Network Performance of Amazon EC2 Data
Center. In Proceedings of the 29th IEEE INFOCOM,
pages 19, 2010.
[18] Q. Zhang, L. Cheng, and R. Boutaba. Cloud
Computing: State-of-the-Art and Research
Challenges. Journal of Internet Services and
Applications, 1:718, 2010.
[19] M. Zhou, R. Zhang, W. Xie, W. Qian, and A.
Zhou.
Security and Privacy in Cloud Computing: A Survey.
In Sixth International Conference on Semantics
Knowledge and Grid, SKG10, pages 105112, 2010.
A.4 Durao
Fig.19 mostra a durao utilizada ao calcular o
Throughput de um fluxo de armazenamento (t). Uma
vez que os handshakes TCP/SSL iniciais afetam a
percepo de throughput dos usurios, o primeiro
pacote SYN tomado como o incio da transferncia.
Os apertos de mo de terminao, por outro lado, so
ignorados. Nos fluxos da loja, o ltimo pacote com
carga til enviada pelo cliente considerado o fim
da transferncia. Nos fluxos de recuperao, o
ltimo pacote com carga til normalmente um alerta
de servidor sobre o trmino SSL. Ns compensamos
isso subtraindo 60 da durao da recuperao dos
fluxos sempre que a diferena entre o ltimo pacote
com a carga til do servidor e a do cliente est
acima dos 60. Devido nossa topologia de
monitoramento, t no inclui o tempo de viagem entre
clientes e nossas sondas. Por isso, t est
subestimado um pouco. A Fig.19 tambm mostra que so
necessrias 4 ou 5 RTT antes que o cliente comece a
enviar ou a receber dados. Em alguns casos, isso j
representa aproximadamente 500ms na durao do
fluxo. Observe que a janela de congestionamento TCP
inicial instalada nos servidores estava forando uma
pausa de 1 RTT durante o handshake SSL. Este
parmetro foi sintonizado aps o lanamento do
Dropbox 1.4.0, reduzindo a sobrecarga.