Interações Entre Big: Data e Cloud Computing

PÓS-GRADUAÇÃO
Interações entre Big

Data e Cloud Computing
PÓS-GRADUAÇÃO
Gerenciamento de Big
Data: coleta e
processamento de dados
Bloco 1
Aimar Martins Lopes
Introdução
• Compreender a arquitetura Hadoop.

• Capacitar para descrever o funcionamento do sistema
de arquivo HDFS e os programas MapReduce.
• Descrever como opera os componentes integrados
do Hadoop.
• Modelo de programação MapReduce -
NameNode, DataNode e SecondaryNameNode.
• HDFS – JobTracker e TaskTracker.
• Conhecer e identificar a aplicabilidade de projetos
para Hadoop.
Gerenciamento de Big Data
• O Big Data requer: gerenciamento dos dados: coleta,
armazenamento e processamento.
• A plataforma Hadoop é indicada para análise de dados
semiestruturados e não estruturados ou quando se deseja atender
uma necessidade, ou resolver um problema não específico.
Figura 1 – Gráfico futurístico

de análise de dados
Fonte: Hadoop (2019).

Arquitetura Hadoop
• O Hadoop foi baseado:

• No sistema de arquivo distribuído da Google,
o Google File System (GFS).
• No processamento distribuído MapReduce.
• A arquitetura Hadoop:
• Hadoop Distributed File System (HDFS).
• Modelo de programação MapReduce.
HDFS – Sistema de arquivo
distribuído Hadoop
• O HDFS armazena centenas de
dados em formato de blocos
Figura 2 – Arquitetura do HDFS pequenos nos agrupamentos de
servidores (clusters) distribuídos
em milhares de nós da rede.
Fonte: Hanson (2013).

MapReduce - Sistema de arquivo
distribuído Hadoop
Figura 3 – Caracterização do MapReduce • A lógica do MapReduce é o
processamento de volume enorme
• Fácil execução, algumas linguagens: Java, C ++ de dados, de forma distribuída e
Simplici ou Python.
dade paralela. Processa petabytes de
dados, tanto estruturados como não
• Processa petabytes de dados, armazenados no
HDFS em um cluster. estruturados, armazenados no HDFS.
Escalabi
lidade
• Processamento paralelo distribuído, resolve

Veloci problemas em horas ou minutos.
dade
• Tolerante a falhas. Se uma máquina estiver

indisponível, o dado pode ser obtido de outra
Recupe
máquina.
ração
• Move os processos de computação para os

Movimento dados no HDFS e não o contrário.
de dados
Fonte: adaptado de Hortonworks (2019).

Arquitetura Hadoop e seus
processos integrados • Composição MapReduce:
• NameNode.
Figura 4 – NameNode e DataNode • DataNode.
• SecondaryNameNode.
• HDFS:
• JobTracker.
• TaskTracker.

Outros componentes do Hadoop
• Devido ao seu desempenho e ser aberto para uso, o
Hadoop foi facilmente aceito pela comunidade da
computação, que desenvolve novos projetos com
propostas adaptadas a algumas necessidades de mercado.
• Hadoop Common Components
• É uma ampla lista de comandos e um conjunto de
bibliotecas, que dá suporte aos projetos e interfaces para
outros sistemas de arquivos.
• Linguagem de desenvolvimento de aplicações: Pig e Jaql
e outras.
• HYVE: são softwares que manipulam volume grande
de dados e utilizam a linguagem HiveQL para consulta
e análise desses dados.
• Hadoop Stream: permite que a gravação de
mapeamento e redução dos blocos de dados sejam
realizadas por outras linguagens e também por meio
de APIs.
• Avro: esse projeto prove serviço em JSON para
estruturar e seriar dados, é executado remotamente
em formato compactado e binário. Os dados gravados
pelo serviço remoto (RPC) do Avro.
• Hbase: é um software de gerenciamento de banco de
dados orientado a coluna, faz manipulação em tempo real
em tabelas distribuídas.
• Flume: é um canal de direcionamento de fluxo de dados,
o sistema opera por meio de processamento distribuído
na ação de coletar, juntar e mover dados.
• Lucene: é um projeto que realiza pesquisa de texto,
formado por um conjunto de biblioteca de engenharia de
busca de texto de alto desempenho.
• ZooKeeper: prove a centralização de infraestrutura e
serviços para sincronização e coordenação de tarefas das
diversas aplicações no cluster, dentre elas: a configuração
de nós, hierarquia, nome do nó, sincronização de
processos e outras.
PÓS-GRADUAÇÃO
Gerenciamento de Big
Data: coleta e
processamento de dados
Bloco 2
Aimar Martins Lopes
Relação do Big Data com o Hadoop
• Big Data requer uma estrutura para
gerenciamento dos dados:
a) Banco de dados relacional para análise de
dados estruturada (campos conhecidos e
determinados), provenientes de vários
sistemas e com capacidade de produzir
insights descritivos conhecidos.
b) Hadoop para análise de dados

semiestruturado e não estruturado ou
quando se deseja atender uma necessidade
ou resolver um problema não específico.
Arquitetura Hadoop e seus
processos integrados • Composição MapReduce:
• NameNode.
Figura 4 – NameNode e DataNode • DataNode.
• SecondaryNameNode.
• HDFS:
• JobTracker.
• TaskTracker.

PÓS-GRADUAÇÃO
Teoria em Prática
Bloco 3
Aimar Martins Lopes
Big Data e Hadoop na tomada de decisão
• O Haddop é importante, atualmente, pois pode auxiliar as

organizações em suas decisões baseadas em dados em tempo
real, visto que possibilita execução de atividades com vários
formatos de dados (streaming de áudio, vídeo, sentimento de
mídia social e dados de fluxo de cliques) e outros formatos, seja
dado semi e não estruturados.
• Permite transformar os dados do datawarehouse local para um
armazenamento distribuído, consolidar os dados em toda a
organização para aumentar a acessibilidade, diminuir os custos e
acelerar as decisões com mais precisão. (IBM, 2019)
• Baseado no texto, qual a importância da arquitetura Hadoop?
Importância do Hadoop
• NA SOLUÇÃO
• Processamento e armazenamento distribuído.
• Flexível e de baixo custo.
• Tolerante a falhas.
• Alto desempenho no processamento e
armazenamento.
• Poder de processamento: mais nós, mais força.
• NO USO
• Pode ser utilizada em Cloud Computing.
• Qualquer empresa pode utilizar – código aberto.
• É útil para qualquer área de negócio.
PÓS-GRADUAÇÃO
Dica do Professor
Bloco 4
Aimar Martins Lopes
Indicação de filme
• SNOWDEN
EUA, 2016, 134 min. Diretor: Oliver Stone.
O filme narra a história de Edward Snowden (Joseph Gordon-
Levitt), um funcionário da NSA, agência de segurança dos EUA,
que durante seu trabalho descobre que o governo americano
espiou ilegalmente sua população e denuncia a respeito.
Nesse filme, podemos observar como são poderosos os
softwares que atuam na Internet e processam dados.
Fonte: Pinterest (2019).

Indicação de artigo
• An introduction to the
Hadoop Distributed File
System.
• Explorar a estrutura e
subsistemas do HDFS.
• Hanson (2013).
• O autor descreve os
principais recursos do
sistema e apresenta uma
visualização de alto nível
da arquitetura do HDFS.
Referências Bibliográficas
HADOOP. 2019. Apache Hadoop 3.1.2. Disponível em:

<https://hadoop.apache.org/docs/r3.1.2/index.html>.
Acesso em: 25 jun. 2019.
HANSON, J. J. An introduction to the Hadoop Distributed
File System. Explore HDFS framework and subsystems. IBM.
2013
PINTEREST. 2019. Disponível em:
<https://br.pinterest.com/pin/91197961187493635/>.
Acesso em: 31/05/2019.

Interações Entre Big: Data e Cloud Computing

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Interações Entre Big: Data e Cloud Computing

Enviado por

Direitos autorais:

Formatos disponíveis

PÓS-GRADUAÇÃO

Interações entre Big

• Compreender a arquitetura Hadoop.

Figura 1 – Gráfico futurístico

Fonte: Hadoop (2019).

• O Hadoop foi baseado:

Fonte: Hanson (2013).

• Processamento paralelo distribuído, resolve

• Tolerante a falhas. Se uma máquina estiver

• Move os processos de computação para os

Fonte: adaptado de Hortonworks (2019).

Fonte: Hanson (2013).

b) Hadoop para análise de dados

Fonte: Hanson (2013).

• O Haddop é importante, atualmente, pois pode auxiliar as

Fonte: Pinterest (2019).

HADOOP. 2019. Apache Hadoop 3.1.2. Disponível em:

Você também pode gostar