Escolar Documentos
Profissional Documentos
Cultura Documentos
90%
4.4 ZETTABYTES
Zetta Exa Peta Tera Giga Mega Kilo Byte
4,400,000,000,000,000,000,000
Source: 2010 IDC Digital Universe Study
EM 2020 O UNIVERSO DIGITAL SERÁ
44 ZETTABYTES
Zetta Exa Peta Tera Giga Mega Kilo Byte
44,000,000,000,000,000,000,000
Source: 2010 IDC Digital Universe Study
VOLUME
uma grande quantidade de dados gerada a cada
segundo. Pense em todos os e-mails, mensagens de
Twitter, fotos e vídeos que circulam na rede a cada
instante. A tecnologia do Big Data serve exatamente
para lidar com esse volume de dados, guardando-os
em diferentes localidades e juntando-os através de
software.
VARIEDADE
No passado, a maior parte dos dados era
estruturada e podia ser colocada em tabelas e
relações. Hoje, 80% dos dados do mundo não
se comportam dessa forma. Com o Big Data,
mensagens, fotos, vídeos e sons, que são
dados não-estruturados, podem ser
administrados juntamente com dados
tradicionais.
VELOCIDADE
Se refere à velocidade com que os dados são criados.
São mensagens de redes sociais se viralizando em
segundos, transações de cartão de crédito sendo
verificadas a cada instante ou os milissegundos
necessários para calcular o valor de compra e venda
de ações. O Big Data serve para analisar os dados no
instante em que são criados, sem ter de armazená-
los em bancos de dados.
VERACIDADE
Um dos pontos mais importantes de qualquer
informação é que ela seja verdadeira. Com o Big Data
não é possível controlar cada hashtag do Twitter ou
notícia falsa na internet, mas com análises e
estatísticas de grandes volumes de dados é possível
compensar as informações incorretas.
VALOR
O último V é o que torna Big Data relevante: tudo
bem ter acesso a uma quantidade massiva de
informação a cada segundo, mas isso não adianta
nada se não puder gerar valor. É importante que
empresas entrem no negócio do Big Data, mas é
sempre importante lembrar dos custos e benefícios e
tentar agregar valor ao que se está fazendo.
Quem está Gerando Big Data?
• Redes de Mídias Sociais
(Todos nós geramos dados)
• Instrumentos Científicos
(coletando todos os tipos de dados)
• Dispositivos Móveis
(Rastrando todos os objetos o tempo
todo)
Redes de sensors de tecnologia
(Medindo todos os tipos de dados)
Aplicação
Big data enfatizam o emprego de ferramentas
analíticas de nova geração (Hadoop, NoSQL)
Hadoop
• Um projeto desenvolvido e mantido pela
Apache Software Foundation
• Um framework de código aberto para o
processamento de software em larga escala
• Garante alto desempenho utilizando
arquitetura em cluster
CLUSTER O nome dado a um sistema que
relaciona dois ou mais computadores para
que estes trabalhem de maneira conjunta
no intuito de processar uma tarefa. Estas
máquinas dividem entre si as atividades
de processamento e executam este
trabalho de maneira simultânea.
ESCALABILIDADE
MODELO DE PROGRAMAÇÃO (MAPREDUCE)
Fase 1: Mapeamento
Na primeira fase, chamada de Map (mapeamento), os dados
são separados em pares de chave e valor, divididos em
fragmentos e distribuídos para os nodes, onde serão
processados.
Fase 2: Redução
Depois disso, acontece a etapa de Reduce (redução), que é a
combinação dos processamentos dos nodes por um master
node. É ele que entregará uma resposta única à requisição
realizada pelo usuário.
O HDFS é implementado em uma arquitetura
mestre/escravo: