Você está na página 1de 30

Frameworks de armazenamento de

dados de big data

Apresentação
Nos últimos anos houve um aumento expressivo da geração de dados, e o armazenamento
tradicional, utilizando dispositivos físicos ou sistemas simples de acesso de arquivo, deixou de ser
capaz de suprir as necessidades atuais.

Novas tecnologias surgiram para atender à demanda de big data, o que inclui requisitos básicos
como velocidade e integridade dos dados armazenados, além de permitir a edição e gravação das
modificações de forma que seja tolerante a falhas.

Nesta Unidade de Aprendizagem, você vai conhecer as principais formas de armazenamento de


dados bem como frameworks gratuitos e comerciais. Também vai saber qual é a diferença existente
entre os direcionados para big data e os tradicionais.

Bons estudos.

Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:

• Descrever os principais frameworks gratuitos para armazenamento de big data.


• Identificar os principais frameworks comerciais para armazenamento de big data.

• Diferenciar frameworks específicos para big data de modelos tradicionais de


armazenamento.
Desafio
O armazenamento para big data é um pouco mais complexo do que o tradicional devido ao grande
volume de dados. Se isso não for observado, pode se tornar um problema para serviços que geram
tantos dados.

Nos últimos anos, o consumo brasileiro da plataforma de streaming Netflix cresceu 90%. A
expectativa de adesão de novos serviços desse tipo é grande e foi documentada pela PWC, como é
possível ver na figura a seguir.

Surgiu uma nova plataforma de streaming no mercado e você foi contratado para ajudar na escolha
da melhor solução de armazenamento para essa plataforma. Algumas informações lhe foram
passadas:

- O plano é começar com um catálogo pequeno e aumentar ao longo do tempo, de acordo com a
aderência das assinaturas.
- Em uma pesquisa de mercado, foi definido um preço inicial para a assinatura mensal da
plataforma, que não opera com uma grande margem de lucro.
- A empresa pensa em futuramente oferecer outras mídias além de vídeo.
- Não há um espaço físico muito grande na sede da empresa.

Qual forma de armazenamento você indicaria e quais vantagens dela sustentam a sua preferência?
Infográfico
O armazenamento em nuvem é a forma mais recente de armazenar grandes volumes de dados de
forma eficiente. Embora ofereça serviços pagos, o crescimento dessa tecnologia é evidente tanto
para o uso de empresas quanto para o uso pessoal.

Grandes empresas estão liderando o mercado de armazenamento, como Amazon, Google,


Microsoft e IBM. A tendência é que esse tipo de armazenamento tome proporções cada vez
maiores e substitua o armazenamento físico o máximo possível.

Confira neste Infográfico algumas metas para o crescimento da computação em nuvem a partir de
2020.
Aponte a câmera para o
código e acesse o link do
conteúdo ou clique no
código para acessar.
Conteúdo do livro
Lidar com o armazenamento de dados é um dos maiores desafios de se trabalhar com big data, mas
o avanço tecnológico nessa área vem facilitando bastante a tomada de decisões a esse respeito. Se
antes os armazenamentos eram feitos em discos locais de modo direto, hoje já é possível lidar com
outras estruturas de armazenamento, inclusive com a tecnologia de distribuição de arquivos em
blocos.

Mais recentemente houve avanços também na área da computação em nuvem voltada para o
armazenamento de grandes volumes. Esse tipo de tecnologia não só possibilita melhor custo-
benefício, como também facilita o acesso dos arquivos em qualquer região do planeta, desde que
haja Internet. Cada tipo de armazenamento tem vantagens e desvantagens que devem ser
analisadas minuciosamente antes da implementação do sistema escolhido.

No capítulo Frameworks de armazenamento de dados de big data, da obra Framework de big data,
você vai conhecer as principais formas de armazenamento de dados e os frameworks gratuitos e
pagos existentes no mercado.

Boa leitura.
FRAMEWORK
DE BIG DATA

Mariana Araújo Pereira


Frameworks de
armazenamento de
dados de big data
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:

 Descrever os principais frameworks gratuitos para armazenamento


de big data.
 Identificar os principais frameworks comerciais para armazenamento
de big data.
 Diferenciar frameworks específicos para big data de modelos tradi-
cionais de armazenamento.

Introdução
Com o aumento exponencial do volume e da complexidade de dados
gerados a cada segundo, muitas ferramentas de processamento e arma-
zenamento existentes ficaram defasadas. Nos últimos anos, novas tecno-
logias foram surgindo, com o objetivo de suprir as atuais necessidades, e
que continuam avançando cada vez mais. Para obter um armazenamento
seguro e efetivo, há alternativas gratuitas e pagas, cada uma com suas
particularidades, vantagens e limitações.
Neste capítulo, você irá conhecer os principais frameworks para arma-
zenamento de grandes volumes de dados e compreender as diferenças
entre os modelos tradicionais de armazenamento e os modelos espe-
cíficos para big data.
2 Frameworks de armazenamento de dados de big data

1 Importância e tipos de armazenamento


Naturalmente, o ser humano sempre buscou formas de armazenar as coisas.
Isso se deve ao fato de que não parece muito lógico efetuar um processo, que
pode ser complexo e dispendioso, se não for possível guardar nada dele. De
que adiantaria realizar um grande plantio se após a colheita não houvesse
silos ou outra forma de armazenagem? Nesse caso, o que não fosse utilizado
imediatamente se perderia e todo o trabalho teria que ser realizado novamente,
além de não restar um modelo anterior para servir de comparação no futuro.
Isso não é diferente quando se trata de informação digital.
O armazenamento de dados é crucial para o crescimento de uma empresa,
pois a informação é um ativo muito importante para entender o que está
acontecendo com o cenário estudado, como conhecer o comportamento de
compras dos clientes ou saber a maneira que determinados benefícios estão
sendo utilizados, por exemplo. Com isso, é possível reajustar e redimensionar
os produtos para que cumpram melhor o objetivo proposto.
Desde o início do trânsito de informações, foram criadas diferentes formas
de armazenamento físico e, recentemente, digital. Os dispositivos de armaze-
namento mais antigos, como disquetes, CDs, pen drives e cartões de memória,
cumpriram o seu papel por um tempo, porém, com o avanço das tecnologias
de captura e geração de dados, o tamanho dos arquivos aumentou e se fez
necessário procurar novas alternativas para armazená-los.
Todas as formas de armazenamento de dados devem ser capazes de gravar,
armazenar e permitir a leitura de informações. Por isso, o “onde” não é a única
característica que deve ser levada em conta na hora de escolher o sistema, pois
é preciso prestar atenção também no “como” e na velocidade e acessibilidade
da informação. Para os dados na escala do big data, deve-se sempre ter em
mente os “cinco Vs” que criam o seu conceito: volume, velocidade, variedade,
veracidade e valor.
Diversas camadas de software são necessárias para oferecer
armazenamento para aplicações que processam grandes volumes de dados.
A primeira camada relevante de software é formada por tecnologias
convencionais de armazenamento que são usadas pelas camadas acima
formadas por frameworks de armazenamento para Big Data. De acordo com
Somasundaram (2011), as principais tecnologias convencionais de
armazenamento presentes na primeira camada são:
Frameworks de armazenamento de dados de big data 3

 RAID;
 DAS;
 NAS;
 SAN;
 IP-SAN.

A tecnologia de matriz redundante de discos não expansivos (RAID, redun-


dant array of inexpensive disks) é a combinação de vários discos rígidos para
formar uma única unidade lógica. Essa é a tecnologia usada em arquiteturas
seguintes, como DAS e NAS.
O sistema de armazenamento direto (DAS, direct attached storage) possi-
bilita que os dados estejam armazenados localmente para um usuário, como
o disco rígido de um computador, por exemplo. Embora esse tipo de sistema
seja de fácil manipulação e organização, algumas desvantagens limitam o
seu uso, como a falta de compartilhamento entre usuários e pouca segurança
de obtenção dos dados.
O sistema de armazenamento de dados em rede (NAS, network attached
storage) utiliza um sistema operacional básico instalado em uma caixa de
hardware simples, para o armazenamento e compartilhamento de dados em
rede. Esse tipo de sistema possibilita que haja a transferência de dados entre
diferentes usuários e dispositivos, mas é recomendado que seja utilizado em
pequena escala, tendo em vista que pode haver o congestionamento da rede
de área local caso o número de usuários seja elevado.
Para comportar um grande volume de tráfego de dados, a rede de área
de armazenamento (SAN, storage area network) é o sistema mais indi-
cado. Esse tipo de armazenamento é baseado em blocos, de forma que o
volume de armazenamento, como um disco rígido, por exemplo, é dividido
em partes menores (blocos) que podem ser formatadas com protocolos
diferentes, garantindo maior flexibilidade. A principal desvantagem desse
tipo de armazenamento é que, devido à estrutura complexa exigida, o
custo de implantação e utilização é alto. IP-SAN é a convergência entre
as tecnologias SAN e NAS, que fornece uma comunicação em blocos mais
consolidados, permitindo a disponibilidade de dados por meio de uma rede
local (LAN) ou de longa distância (WAN).
4 Frameworks de armazenamento de dados de big data

Outras formas de armazenamento ainda incluem armazenamento em


nuvem e definido por software. De acordo com a Microsoft Azure ([201–?],
documento on-line), o armazenamento em nuvem é uma tecnologia que
possibilita o armazenamento de dados transferidos “pela internet ou por
outra rede para um sistema de armazenamento externo mantido por tercei-
ros”. Os tipos de serviços de armazenamento em nuvem variam de acordo
com a finalidade: pessoal, empresarial e comercial. Eles também podem
ser utilizados como backup.
Há ainda o armazenamento definido por software (SDS, software defined
storage), em que um software de gerenciamento opera um hardware subja-
cente. Dessa forma, o SDS pode ser instalado em um NAS, por exemplo,
personalizando o hardware de acordo com a carga de trabalho.
Existem diferentes frameworks disponíveis para uso, gratuitos ou pagos.
Para escolher o mais adequado ao projeto, é necessário estar atento aos se-
guintes fatores: tipos de dados suportados, distribuição, tempo de acesso, taxa
de transferência, replicação, custos de propriedade e de operação.
Frameworks de armazenamento de dados de big data 5

Os “cinco Vs” do big data


O conceito de big data é formado por volume, velocidade, variedade, veracidade e valor.
 Volume: ao se pensar na quantidade de transações bancárias, mensagens trocadas e
fotos postadas todos os dias, é fácil entender o quão grande pode ser o volume de
um conjunto de dados. O volume que define big data é variável e aumenta cada vez
mais. Na década de 1990, já se considerava 1 terabyte como big data. Atualmente,
computadores domésticos já possuem essa capacidade de armazenamento.
 Velocidade: com certeza, você já ficou sem argumentos em um debate e, algum
tempo após o fim, sentiu frustração porque teve uma ideia genial que poderia ter
sido utilizada. Isso não pode acontecer no mundo profissional. A velocidade em
que se acessa uma informação deve ser a mais alta possível, para que se possibilite
solucionar os problemas rapidamente e da melhor forma.
 Variedade: existem três principais tipos de dados — estruturados, que são arma-
zenados em bancos de dados e tabelas; semi-estruturados, os mais difíceis de
identificar devido a padrões heterogêneos; e não estruturados, os quais possuem
fontes diversificadas, como imagens, áudios e texto. Esse último é o tipo mais
popular e não é difícil de imaginar o motivo se pensarmos os diferentes tipos
de informações contidas em uma rede social, como o Facebook, por exemplo. A
tecnologia utilizada para big data deve ser capaz de lidar com isso.
 Veracidade: com o grande volume de dados produzidos a todo momento e por
diferentes fontes, nem sempre é fácil confiar na veracidade das informações que
recebemos. Em big data, é importante que os dados sejam verídicos, a fim de obter
sempre o cenário mais próximo da realidade.
 Valor: os dados são ativos muito importantes para uma empresa. O seu valor não é
apenas definido pela dificuldade e custo de obtenção, mas também pela riqueza
de respostas que podem ser extraídas deles. Se os resultados forem cruciais para
tomadas de decisões importantes, os dados são extremamente valiosos, mesmo
que o processo de obtenção seja custoso.
6 Frameworks de armazenamento de dados de big data

2 Frameworks gratuitos e eficientes


Atualmente, existem diversas opções de código aberto para o gerenciamento e
armazenamento de dados, que são focadas, principalmente, em dados semies-
truturados e não estruturados de larga escala.
O sistema de arquivos distribuídos Hadoop (HDFS, Hadoop Distributed
File System) é um dos mais conhecidos e foi projetado para armazenar uma
quantidade elevada de dados em uma estrutura distribuída em hardware
comum. O HDFS possui diferentes blocos de tamanho fixo — por padrão de
64 MB —, o que facilita o seu escalonamento. Na arquitetura do HDFS, estão
contidos o NameNode e os DataNodes. No NameNode ficam armazenados os
metadados, enquanto nos diferentes DataNodes são armazenados os dados,
de forma que todos os servidores estão totalmente conectados. Para a escrita,
cada arquivo é dividido em uma sequência de blocos diferentes replicados nos
DataNodes, que por padrão são três. Quando o usuário abre esse arquivo para
leitura, é utilizado o NameNode para mapear e ordenar cada bloco que foi
utilizado para a escrita do dado, possibilitando um acesso rápido tanto para
leitura quanto para edição e gravação do arquivo (SHVACHKO et al., 2010).
A utilização desse tipo de tecnologia em blocos possibilita que o escalonamento
seja realizado de forma mais fácil e barata, além de o acesso aos arquivos ser
muito mais rápido do que em servidores de armazenamento tradicionais, pois, a
partir das informações contidas no NameNode, é possível identificar a localização
do arquivo mais facilmente do que se fosse necessário percorrer todos os dados.
O Apache Cassandra é um banco de dados NoSQL (Not only SQL) de
código aberto, gratuito, que armazena os dados orientado a colunas. Cas-sandra
é altamente robusto e utiliza um sistema de replicação sem mestre. Isso significa
que o armazenamento é realizado a partir do princípio de agrupamento,
diferentemente do que ocorre no HDFS, em que metadado e dado são
separados. O Cassandra foi criado pela equipe do Facebook e passou para o
domínio do Apache. Por conta disso, Cassandra possui atributos do Big Table e
do Dynamo Db, tornando-o mais popular e muito robusto no processamento de
uma grande quantidade de dados.
Frameworks de armazenamento de dados de big data 7

A categoria de bancos orientados a documentos possui semelhanças com a


categoria chave-valor. Porém, orientados a documentos suportam consultas mais
complexas e relacionamentos hierárquicos dos dados (Siddiqa et al. 2017).
Abstraindo detalhes técnicos, bancos orientados a documentos extraem
metadados para oferecer otimizações do armazenamento. Bancos de dados
orientados a documentos são utilizados em principalmente redes sociais e
aplicações web. Por exemplo, no Facebook cada perfil de usuário será
armazenado como um documento.
O MongoDB é um banco de dados NoSQL orientado a documentos de
código aberto projetado pela Mongo Inc. De acordo com Siddiqa et al. (2017), o
MongoDB tem escalabilidade horizontal (possibilidade de atingir alto
desempenho), facilidade de desenvolvimento ágil (produtividade), buscando
suportar o armazenamento para todos tipos de dados em documentos. O
MongoDB oferece robustez e a disponibilidade dos dados usando um conjunto
de réplicas que são ativadas caso o servidor principal apresente alguma falha.
Os bancos de dados da categoria de processamento baseado em Grafos são
adequados para armazenar dados que relações entre eles, pois facilitam as
consultas de dados interconectados. Exemplos de relações são processos de
negócios complexos que dados interconectados ou com dependência (precisam
ser executados numa ordem específica). Um exemplo relevante desta categoria
são aplicações da bolsa de valores e sistemas de recomendação que processam
dados baseados em grafos buscando atingir baixas latência. Por exemplo,
imagine uma aplicação de fluxo contínuo de dados (Stream Processing) usada na
bolsa de valores para monitorar a compra e venda de ações, os dados chegam
continuamente e precisam ser rapidamente processados para oferecer
informações aos operadores. Nesse caso, os dados recebidos possuem
informações de cotas compartilhadas ou operações executadas numa ordem
específica. Portanto, os dados são organizados na forma de grafo com relações.
No aspecto desempenho, oportunidades de negócios podem ser perdidas caso
não se tenha baixas latências. Um exemplo de tecnologia é o HyperGraphDB
que distribui os dados usando a técnica peer-to-peer, onde cada peer é
independente e os dados são atualizados de forma assíncrona para produzir
resultados em tempo real (Siddiqa et al. 2017). O HyperGraphDB Implementa
um grafo de relações dos dados usando nodos e arestas.
Além dessas tecnologias, há ainda outras, todavia, as que foram apresentadas
retratam bem o que esperar de outros sistemas de armazenamento para big data e
são de fácil acesso, possibilitando o início da prática a qualquer momento.
8 Frameworks de armazenamento de dados de big data

Usando a capacidade de armazenamento oferecido pelo HDFS, o


armazenamento para Big Data é usualmente suportado por diferentes bancos
de dados. Siddiqa et al. (2017) propôs uma taxonomia de tecnologias de
armazenamento para Big Data, onde ele divide as tecnologias em quatro
principais categorias de armazenamento: Chave-valor (Key-value), Orientado
a coluna (Column-oriented), Orientado a documentos (Document-oriented) e
Grafos (Graph). A escolha de qual categoria a ser usada depende das
características da aplicação de big data e da demanda por desempenho e
eficiência. Abaixo cada categoria é descrita seguida por um exemplo de um
framework popular e open source existente em cada categoria.
Os bancos de dados baseados em Chave-valor são utilizados para
armazenamento de dados estruturados e não-estruturados, o nome chave-valor
é intuitivo pois os dados são armazenados de tal forma que cada chave possui
valor correspondente nos registros de dados. Essa categoria é popular para
aplicações onde é necessária uma resposta rápida nas consultas ao banco pois
suporta grandes volumes de dados com operações simultâneas de consulta.
Além disso, nos bancos de dados de chave-valor armazenam os dados na
forma de objetos o que resulta em um consumo menor consumo de memória.
Exemplos de aplicações que utilizam essa categoria são jogos online, compras
online e aplicativos da web nos quais um grande número de registros de
tamanho pequeno precisam ser processados simultaneamente (alta vazão).
O Scalaris é um exemplo de banco de dados para armazenamento de
chave-valor projetado para aplicações de uso intensivo de I/O. O Scalaris
oferece alta disponibilidade com balanceamento de carga através da
consistência para operações críticas de gravação pois implementa um
protocolo de transações distribuídas (Siddiqa et al. 2017).
A categoria de bancos de dados NoSQL Column-oriented armazenam as
colunas de dados separadamente, enquanto no armazenamento tradicional os
dados são armazenados na forma de registros completos. Consequentemente,
os bancos orientados a colunas têm um desempenho superior, principalmente
para leitura de dados, são altamente escaláveis e usualmente consistentes
(toleram falhas). Exemplos de aplicações que usam essa categoria de banco de
dados são aplicações que fazem análise de registros de clientes, como sistemas
de biblioteca onde é possível agregar itens de dados similares. Outro exemplo
de agregação de dados é um site de compras online que agrupa produtos de
acordo com categorias compartilhadas, por exemplo agrupar os pedidos mais
comuns em uma determinada região ou agrupar os produtos mais vendidos
nos últimos minutos.
Frameworks de armazenamento de dados de big data 9

Colocamos blocos, arquivos e objetos no mesmo local?


Blocos, arquivos e objetos são formatos de armazenamento cujas funções são guardar,
organizar e apresentar os dados de maneiras diferentes. Cada formato tem vantagens
e desvantagens distintas.
Segundo a RedHat ([201–?], documento on-line), em um armazenamento de arquivos,
“os dados são armazenados com uma informação única dentro de uma pasta, assim
como você organizaria folhas de papel em uma pasta de documentos”. Ainda segundo
a mesma documentação, o sistema de blocos “divide os dados em blocos e os armazena
como pedaços separados. Cada bloco de dados recebe um identificador exclusivo,
o que permite ao sistema de armazenamento colocar os menores dados no espaço
que for mais conveniente” (REDHAT, [201–?], documento on-line). No caso de objetos,
trata-se de “[…] uma estrutura plana na qual os arquivos são divididos em pedaços
e distribuídos pelos elementos de hardware” (REDHAT, [201–?], documento on-line).
O armazenamento de blocos, arquivos e objetos ocorre de maneira diferente, de acordo
com a particularidade de cada estrutura. No armazenamento de arquivos, o que o usuário
tem acesso é exatamente igual ao que está contido no disco rígido. O tipo de armazena-
mento de blocos ocorre em armazenamento bruto, no qual os dados são armazenados em
diferentes blocos de tamanhos iguais, mas são exibidos de forma única. No caso de objetos,
os dados são armazenados com metadados e etiquetas. Esse tipo de armazenamento é
indicado para casos em que não é necessário fazer edições no arquivo.
10 Frameworks de armazenamento de dados de big data

3 Frameworks comerciais de armazenamento


Para gerir o armazenamento de dados em uma empresa, muitas vezes, é neces-
sário recorrer a frameworks comerciais. Isso porque, nesse tipo de serviço, há
maior suporte, assistência e correção de bugs se comparado às versões gratuitas.
Além disso, as soluções oferecem pacotes que vão além do gerenciamento de
armazenamento e possibilitam toda estrutura necessária para trabalhar com
big data. Esses frameworks podem ser classificados em on-premise ou cloud.
O termo on-premise se refere a datacenters internos e privados de uma
empresa, sendo necessário ter um local de instalação dos equipamentos, siste-
mas operacionais licenciados, estrutura própria de segurança e backup e uma
equipe disponível para a sua manutenção. Esse tipo de armazenamento ainda
é muito utilizado e visto como vantajoso por algumas empresas, mas requer
avaliação criteriosa de toda a estrutura necessária para a sua implantação,
para que o custo-benefício seja avaliado.
Como exemplos de frameworks comerciais utilizados na estratégia on-
-premise, os principais são a Distribuição Cloudera do Apache Hadoop (CDH,
Cloudera Distribuition Hadoop) e a plataforma de dados MapR.
CDH é uma plataforma robusta que permite armazenar, processar e analisar os
dados de uma empresa de forma rápida e eficaz. Como um de seus diferenciais, a
plataforma fornece uma máquina virtual com toda a estrutura Hadoop para teste
e aprendizado sem a necessidade de uma implementação demorada. Na máquina
virtual, há também um tutorial de como realizar análises e até dados de amostras e
scripts. O preço para a implantação do CDH inicia em US$ 10 mil anuais, conside-
rando uma estrutura de armazenamento de 16 núcleos físicos, 128 GB de RAM e
48 TB de armazenamento por servidor, agrupados em todo o cluster ou ambiente.
Já MapR é uma plataforma completa que também permite, além do arma-
zenamento, a análise e integração dos dados. Segundo a empresa, é possível
armazenar exabytes de dados e um de seus maiores diferenciais frente ao
Cloudera é a segurança unificada de plataforma, criptografia de nível empresa-
rial e autenticação flexível. Além de poder ser executado em implementações
locais, o MapR Data Platform também pode ser executado em nuvem.
O termo cloud se refere à computação em nuvem que, embora seja relati-
vamente recente, vem tomando proporções incríveis e se estabelecendo como
uma forma de armazenamento promissora. Cavanillas, Curry e Wahlster (2016)
estimaram que, até 2020, cerca de 40% do mundo virtual esteja de alguma
maneira associado à computação em nuvem.
Apesar de em big data ser necessário pagar certa quantia por cada giga-
byte utilizado no armazenamento em nuvem, essa nova tecnologia facilita
Frameworks de armazenamento de dados de big data 11

o acesso aos dados de qualquer lugar do mundo com internet e, segundo a


documentação da Amazon, “o armazenamento em nuvem é mais confiável,
escalável e seguro do que sistemas de armazenamento locais tradicionais”
(AWS, [201–?], documento on-line).
O serviço de armazenamento em nuvem da Amazon é um dos mais famosos
do mercado. Existem soluções para todo o tipo de uso, mas, em big data, o
serviço mais utilizado é o Amazon Simple Storage Service, mais conhecido por
Amazon S3. O S3 armazena objetos com uma interface simples de serviço. Ele
foi projetado para oferecer 99,9% de durabilidade e é escalável em trilhões de
objetos. Além do armazenamento primário, o uso do S3 pode ser direcionado
também para data lake, backup e computação sem servidor. O Amazon S3 é
utilizado por empresas como: Netflix, para o oferecimento do conteúdo, data
lake e análises de dados; Finra, para processar e armazenar dados de mais de 75
bilhões de eventos de mercado diariamente; Airbnb, para o armazenamento de
dados de backup e arquivos estatísticos, com mais de 10 petabytes de fotografias
de usuários; e pela GE Healthcare, com a finalidade de armazenar e proteger 1
petabyte de dados de diagnóstico por imagens médicas críticas para o serviço
GE Health Cloud.
Em alternativa aos serviços da Amazon, há também o Google Cloud Storage.
A partir desse serviço, é possível realizar o armazenamento global e a recuperação
de volumes de dados a qualquer momento, o que é útil para a disponibilização
de conteúdo de páginas, armazenamento de dados para arquivamento e recu-
peração de desastres ou distribuição de grandes objetos de dados a usuários
por download direto. O armazenamento da Google também foi projetado para
durabilidade de 99,9% e armazena dados de modo redundante, com somas
de verificação automáticas para garantir a integridade. Segundo a empresa, o
armazenamento é sem limites de objetos e cada um dos objetos individuais pode
ter até 5 TB. O preço do serviço varia de acordo com a demanda de volume e
uso, começando em US$ 0,02 por gigabyte a cada mês, porém, é oferecido um
período de avaliação gratuita de 12 meses, com o adicional de alguns níveis de
uso gratuito antes de assinar o serviço efetivamente.
Os clientes do Google Cloud incluem a plataforma de streaming de áudio
Spotify; o Broad Institute, para análises genômicas; as multinacionais Motorola
e Philips, para armazenamento e análise de dados em geral; dentre outras.
Concorrendo com o S3 e o Google Cloud, há o Azure, um serviço de arma-
zenamento gerenciado pela Microsoft. Azure possibilita o armazenamento de
blobs, arquivos, filas e tabelas. Blobs são equivalentes aos objetos das tecnologias
citadas anteriormente e o seu armazenamento é otimizado para suportar grandes
12 Frameworks de armazenamento de dados de big data

quantidades de dados não estruturados. O armazenamento de blobs é ideal, prin-


cipalmente, para fornecer imagens ou documentos, armazenar arquivos de acesso
distribuído, transmitir informações por streaming, backup e análise de dados.
O modelo de serviço do S3 e do Cloud Storage é bem semelhante. Nos
dois casos, os objetos são armazenados em blocos e cada um deles possui um
registro de metadados que contém informações, como tamanho do objeto, data
da modificação mais recente e tipo de mídia. Já o Azure utiliza uma abordagem
diferente de armazenamento, mas igualmente eficaz. Nessa plataforma, os dados
são armazenados em blobs de blocos, que são equivalentes aos objetos dos outros
dois serviços. No quadro a seguir, estão exemplificadas algumas das semelhanças
e diferenças mais importantes entre os três serviços de armazenamento descritos.

Recurso Amazon S3 Google Cloud Microsoft Azure

Unidade de Repositório Intervalo Contêiner


implantação

Tipo de objeto Objeto Objeto Blobs de blocos

Metadados? Sim Sim Sim

Controle de versão Automático Automático Manual

Preço/GB/mês US$ 0,023 US$ 0,02 US$ 0,02

4 Diferenças entre frameworks para big data


e tecnologias anteriores
A diferença de dados comuns para big data não é apenas o grande volume,
mas também a complexidade necessária para integrá-los, transformá-los em
informação e manter a sua integridade. Por isso, não é possível utilizar as
tecnologias tradicionais, como, por exemplo, servidores de redes como o NAS.
Os “cinco Vs” do big data sempre devem ser considerados.
A seguir, estão listadas algumas diferenças entre os frameworks apresen-
tados em relação ao armazenamento tradicional e entre si:

 os sistemas de arquivo distribuído (HDFS) permitem um


armazenamento distribuído com réplicas, facilitando o acesso aos dados
de forma rápida e íntegra;
Frameworks de armazenamento de dados de big data 13

 comparado a DAS/NAS/SAS a capacidade de armazenamento com os


frameworks para big data é muito maior;
 frameworks para big data são mais robustos e tolerantes a falhas;
 o armazenamento on-premise permite que a própria empresa cuide da
segurança dos dados, o que pode ser vantajoso ou não, a depender do
sistema de segurança e sensibilidade do dado;
 no armazenamento em nuvem, há um controle menor da estrutura de
armazenamento se comparado a outros métodos locais;
 os frameworks atuais ainda apresentam falhas de segurança que estão
sendo cada vez mais consertadas. No caso do armazenamento em nuvem,
por exemplo, a Amazon está trabalhando para que todos os dados em
nuvem sejam criptografados;
 o custo-benefício de um armazenamento em nuvem é vantajoso porque
geralmente só se paga pelo que se consome, ao contrário do armazena-
mento em disco, em que o espaço provisionado inclui o armazenamento
usado e não usado, de forma que o custo está associado ao seu volume
total, mesmo que o uso do disco seja mínimo.

O quadro a seguir apresenta uma comparação de custo entre os armazena-


mentos em nuvem e o HDFS, que é o armazenamento tradicional mais utilizado.
Para fazer a comparação, foi utilizado o cálculo de custo do HDFS realizado
por Xim, Rosen e Pisto (2017), que levou em conta os custos operacionais e
humanos para a sua manutenção. Ao observar o quadro, é possível verificar
a vantagem em longo prazo de adquirir um sistema de armazenamento em
nuvem, pois, além da maior elasticidade proporcionada por esses serviços, é
possível obter a mesma disponibilidade e durabilidade de armazenamento por
um valor até 10 vezes menor.

HDFS Amazon S3 Google Cloud

Elástico? Não Sim Sim

Custo/TB/mês US$ 206 US$ 23 US$ 20

Disponibilidade 99,9% 99,9% 99,9%

Durabilidade 99,9% 99,9% 99,9%


14 Frameworks de armazenamento de dados de big data

Você já parou para pensar que o armazenamento digital possui cerca de 300 anos?
Confira a matéria disponível no link a seguir (PPLWARE, 2013), que traz a história do
armazenamento desde os cartõezinhos furados (IBM cards), em 1725, até o armaze-
namento em nuvem atual.

https://qrgo.page.link/fhUiC

Conhecendo os principais frameworks gratuitos e pagos para big data, bem


como suas vantagens e desvantagens, torna-se mais fácil estudar e decidir
qual é a opção mais adequada para cada tipo de empresa, dado e situação. É
preciso sempre avaliar os custos em curto e longo prazo, o quão os dados são
escalonáveis e qual o tipo de acesso necessário.

AWS. Armazenamento na nuvem com a AWS. AWS, [s. l.], [201–?]. Disponível em: https://
aws.amazon.com/pt/products/storage/. Acesso em: 23 jan. 2020.
CAVANILLAS, J. M.; CURRY, E.; WAHLSTER, W. New horizons for a data-driven economy: a
roadmap for usage and exploitation of big data in Europe. Springer, 2016.
MICROSOFT AZURE. O que é armazenamento em nuvem? Microsoft Azure, [s. l.], [201–?].
Disponível em: https://azure.microsoft.com/pt-br/overview/what-is-cloud-storage/.
Acesso em: 23 jan. 2020.
PPLWARE. A história do armazenamento digital. PPLWARE, [s. l.], 2013. Disponível em:
https://pplware.sapo.pt/internet/a-historia-do-armazenamento-digital/. Acesso em:
23 jan. 2020.
REDHAT. Armazenamento de arquivos, em blocos ou de objetos? Red Hat, [s. l.], [201–?].
Disponível em: https://www.redhat.com/pt-br/topics/data-storage/file-block-object-
-storage. Acesso em: 23 jan. 2020.
SHVACHKO, K. et al. The hadoop distributed file system. In: SYMPOSIUM ON MASSIVE
STORAGE SYSTEMS AND TECHNOLOGIES, 26., 2010, Incline Village, NV. Annals [...]. In-
cline Village, NV: IEEE, 2010. p. 1–10. Disponível em: https://storageconference.us/2010/
Papers/MSST/Shvachko.pdf. Acesso em: 23 jan. 2020.
SOMASUNDARAM, G. Armazenamento e gerenciamento de informações: como armazenar,
gerenciar e proteger informações digitais. Bookman Editora, 2009.
Frameworks de armazenamento de dados de big data 15

Os links para sites da Web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.
Dica do professor
As tecnologias para o armazenamento de dados estão evoluindo a todo o vapor e não pararão tão
cedo. Se hoje já é possível carregar uma grande quantidade de arquivos, amanhã será possível levar
todo um banco de dados no bolso.

Na Dica do Professor, veja inovações do armazenamento de dados e confira tendências que


prometem utilizar o código genético para armazenar.

Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Exercícios

1) Sabe-se que, independente de qual seja, as formas de armazenamento de dados devem ser
capazes de gravar, armazenar e permitir a leitura de informações. Entretanto, quando se
trata de um grande volume de dados, apenas isso não é o suficiente. É necessário que sejam
cobertos pelo menos outros três pontos cruciais para a manipulação de big data. Quais são
eles?

A) Tamanho, volume e preço.

B) Volume, variedade e tamanho.

C) Velocidade, rapidez e volume.

D) Volume, variedade e velocidade.

E) Volume, variedade e preço.

2) Existem diferentes tipos de armazenamento, como visto no nosso capítulo.

Se o seu projeto envolve a transferência de dados entre usuários e dispositivos e o número


de usuários é grande, qual tipo é mais indicado?

A) Direct attached storage.

B) Network attached storage.

C) Storage area network.

D) Attached defined storage.

E) Storage defined storage.

3) Cada framework de armazenamento guarda os dados em um determinado formato, de


acordo com a arquitetura para a qual foi projetado. Esses dados podem ser armazenados em
forma de arquivo, bloco ou objeto.

Qual é a característica de um "objeto"?

A) Possuir metadado e dado.


B) Ser dividido em diferentes partes de tamanhos iguais.

C) Estar dentro de pastas.

D) Ter tamanho inferior a 1 GB.

E) Ter tamanho superior a 60 GB.

4) O armazenamento em nuvem vem ganhando cada vez mais espaço. Os serviços prestados
pela Amazon (S3), Microsoft (Azure) e Google (Cloud Storage) são alguns dos principais do
mercado.

Entre eles existem muitas coisas em comum, mas um se distingue principalmente por:

A) preço.

B) elasticidade.

C) abordagem de armazenamento.

D) quantidade de disponibilidade.

E) durabilidade.

5) O armazenamento dos dados em nuvem apresenta algumas vantagens.

Qual dos itens a seguir representa uma vantagem do armazenamento em nuvem em relação
ao on-premise?

A) O armazenamento em nuvem tem tecnologias mais modernas e mais fáceis de serem usadas
por pessoas sem conhecimento prévio.

B) O HDFS não permite que os dados sejam armazenados de modo distribuído e, por isso, não é
vantajoso.

C) O HDFS na verdade é mais vantajoso que o armazenamento em nuvem porque podemos usar
o espaço livre do disco em outro momento.

D) O armazenamento em nuvem é mais barato porque o usuário geralmente só paga pelo que
consome.

E) O armazenamento em dispositivos como CDs e pendrives é muito melhor porque possibilita


levarmos o dado para qualquer lugar.
Na prática
Algumas empresas crescem tão rápido que nem mesmo os fundadores estão esperando uma
expansão de tal magnitude. Quando isso ocorre, é necessário que decisões rápidas e assertivas
sejam tomadas para garantir o crescimento bem-sucedido.

Veja, Na Prática, como foi que o cofundador do Airbnb se saiu migrando o seu serviço de
armazenamento para o Amazon Web Service.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Saiba +
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor:

Armazenamento e gerenciamento de informações


Confira a Parte II do livro Armazenamento e gerenciamento de informações: como armazenar, gerenciar
e proteger informações digitais, disponível na Biblioteca A. Essa parte trata das tecnologias de
armazenamento e virtualização.

Conteúdo interativo disponível na plataforma de ensino!

Curiosidades sobre o Hadoop


Neste artigo, saiba um pouco mais sobre a replicação de dados utilizada pelo HDFS e uma
estratégia de balanceamento dessas réplicas para otimizar o desempenho do sistema.

Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.

Passo a passo do Microsoft Azure


Descubra mais detalhes do Microsoft Azure a partir deste guia completo, desenvolvido por autores
da Softline. Explore todas as funcionalidades e aproveite para pôr a mão na massa com a versão de
teste disponibilizada.

Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.

Você também pode gostar