Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Introdução
Embora os avanços tecnológicos tenham permitido a construção de unidades de armaze-
namento com capacidades cada vez maiores, estas ainda estão muito longe de satisfazer
aos requisitos exigidos por muitas aplicações. Algumas áreas da Ciência, como a Fı́sica
de Altas Energias (High Energy Physics - HEP), possuem experimentos que geram uma
massiva quantidade de dados que precisam ser armazenados e, posteriormente, processa-
dos. Infelizmente, o espaço de armazenamento exigido por essas aplicações está a ordens
de grandeza acima daquela provida por unidades de disco ou fita.
Uma abordagem que viabiliza muitas aplicações é distribuir os dados entre vários
dispositivos de armazenamento, aumentando consideravelmente sua capacidade. Sur-
gem então os sistemas de armazenamento (SA) de grande escala, onde aspectos como
segurança, tolerância a falhas e desempenho precisam ser tratados por eles no gerencia-
mento desses dados.
Existem ainda propostas de sistemas de armazenamento que trabalham com uma
escala ainda maior, e que se baseiam na união de muitos SAs de grande escala. Os SAs
de larga escala, assim chamados, são geralmente colocados como serviços de dados em
grades computacionais.
Objetivos
Este trabalho tem o objetivo de mostrar os diferentes tipos de SAs de grande escala, de
forma a identificar os aspectos envolvidos no seu uso. Prentende-se, com isso, viabilizar
o desenvolvimento de aplicações e de soluções para SAs de larga escala.
Os exemplos aqui mostrados são todos retirados de projetos da área do HEP, por
ser este o grande usuário desses sistemas.
Após uma descrição dos tipos de SAs de grande escala (x2), apresenta-se critérios
de classificação de SAs na seção 3. Na seqüência (x4), mostra-se como é feito o
gerenciamento do espaço de nomes dentro dos SAs. Por fim, dedica-se a seção 5 para
identificar aspectos da computação em grade envolvidos no uso de SAs de forma global.
As conclusões finalizam o documento (x6).
2. Tipos de Sistemas de Armazenamento de Grande Escala
Entre as propostas de SAs de grande escala, pode-se identificar 4 tipos básicos [2]:
Sistemas Raid;
Caches de Disco Distribuı́das;
Sistemas de Robóticos de Fita;
Sistemas de Armazenamento Hierárquicos;
4. Espaço de Nomes
Um aspecto muito importante no gerenciamento dos SAs de grande escala diz respeito ao
catálogo dos dados. Freqüentemente, usuários precisam procurar por arquivos ou datasets
no SA baseado em metadados1 , ou simplesmente o SA deve indexar os dados de tal forma
que o usuário possa navegar de forma organizada.
1
Metadados são informações referentes aos dados que estão armazenados. Como exemplo, pode-se
citar: tamanho de arquivo, horário da última modificação, dono, permissões, origem e etc
Em ambos os casos, trabalha-se em cima de um espaço de nomes (name spaces),
que é a forma como o usuário enxerga o repositório de dados. O Perfectly Normal File
System (PNFS) [7] é uma estrutura de nomes parecida com a de um sistema de arquivos
convencional. Ele foi introduzido junto aos SAs para prover uma visão dos dados de
forma mais amigável.
PNFS obedece ao protocolo NFS2, sendo portanto suportado por uma grande
quantidade de plataformas. Nesse caso, os metadados são mostrados diretamente ao
usuário enquanto este navega na estrutura de diretórios. Entretanto, PNFS não é NFS.
Este último apresenta limitações [7]:
As operações são sem estado (stateless);
O desempenho das operações de I/O é considerado lento;
O número de operações providas pelo NFS é fixo e limitado.
Algumas estratégias simples são utilizadas junto ao PNFS para contornar os problemas
relacionados, ao mesmo tempo que se mantém a compatibilidade com o protocolo NFS2.
Entretanto, elas não serão aqui descritas.
É importante ressaltar que o repositório de dados do MSS é independente do
PNFS, sendo que o usuário pode ainda acessar os dados brutos no MSS. Para o uso em
conjunto, os repositórios são montados em um diretório no espaço de nomes fornecido
pelo PNFS.
5.4. Catalogação
Embora os repositórios de dados nos SAs possuam uma interface de I/O que permite
ao usuário navegar pelo espaço de nomes (normalmente via NFS), serviços de grades
que catalogam os dados globalmente se fazem necessários, pois do contrário o usuário
precisaria procurar pelos datasets em cada elemento de armazenamento. Os serviços de
catálogo de dados podem ser classificados em duas categorias: serviços de localização de
réplicas (Replica Location Services - RLS) e serviços de metadados (Replica Metadada
Services - RMS). Em um procedimento comum de acesso a dados em projetos do HEP,
o usuário lança uma consulta junto ao RMS procurando por arquivos que satisfazem os
metadados informados. O RMS retorna então nomes lógicos de arquivos como resultado.
Estes nomes são usados em uma nova consulta, desta vez junto a um RLS, para saber que
SEs possuem réplicas do arquivo procurado. O usuário então escolhe um ou mais desses
SEs e os contacta diretamente via interface SRM.
6. Conclusões
O estudo sobre SAs de grande escala aqui apresentado serviu como base para a compre-
ensão de sistemas em escala ainda maior, os SAs de larga escala. Assim, torna-se possı́vel
analisar com mais afinidade os problemas inerentes à utilização de difetentes SAs em um
contexto de grade.
Um dos problemas ainda em aberto diz respeito a especificação de serviços de
arquivos para grades que trabalhem com SRMs e RLS em um único serviço [10]: os cha-
mados Gerenciadores de Réplicas (Réplica Management). Este problema será explorado
como tema de dissertação.
Referências
[1] I.Foster and C. Kesselman and S. Tuecke. The Grid: Blueprint for a New Computing
Infrastructure. Morgan Kaufmann, 1999.
[2] D. Petravick and Timur Perelmutov. Storage Resource Managers by CMS, LCG. Pre-
sentation Slides on Twelfth NASA Goddard and Twenty First IEEE Conference on
Mass Storage Systems and Technologies - Spring 2004, Washington DC.
[3] RAID Systems. http://www.usbyte.com/common/raid_systems.htm
[4] P. Fuhrmann, dCache: the commodity cache, proceedings of the Twelfth NASA Goddard
and Twenty First IEEE Conference on Mass Storage Systems and Technologies,
Washington DC 2004.
[5] M. Ernst, P. Fuhrmann, M. Gasthuber, T. Mkrtchyan and C. Waldman. dCache, a distri-
buted data storage caching system. Chep 2001, Beijing.
[6] P. Fuhrmann. The Tivoli Storage Manager in the LHC Grid World. TSM Symposium, Sep
2005, Oxford.
[7] P. Fuhrmann. A Perfectly Normal Namespace for the DESY Open Storage Manager. Conf.
on Computing in High Energy Physics, Berlin, 1997.
[8] J. Gu, A. Sim and A. Shoshani. The Storage Resource Manager Interface Specifica-
tion, version 2.1. http://sdm.lbl.gov/srm/documents/joint.docs/
SRM.spec.v2.1.final.doc
[9] D. Petravick and T. Perelmutov. Utilization of Storage Resource Managers by Compact
Muon Solenoid Large Hadron Collider Experiment. Twelfth NASA Goddard and
Twenty First IEEE Conference on Mass Storage Systems and Technologies. Spring
2004, Washington DC.
[10] A. Shoshani. Data and Storage Management, Data Transport. PPDG Review. Fermilab,
2003.