Você está na página 1de 22

PÓS-GRADUAÇÃO

Interações entre Big


Data e Cloud Computing
PÓS-GRADUAÇÃO

Gerenciamento de Big
Data: coleta e
processamento de dados
Bloco 1
Aimar Martins Lopes
Introdução

• Compreender a arquitetura Hadoop.


• Capacitar para descrever o funcionamento do sistema
de arquivo HDFS e os programas MapReduce.
• Descrever como opera os componentes integrados
do Hadoop.
• Modelo de programação MapReduce -
NameNode, DataNode e SecondaryNameNode.
• HDFS – JobTracker e TaskTracker.
• Conhecer e identificar a aplicabilidade de projetos
para Hadoop.
Gerenciamento de Big Data
• O Big Data requer: gerenciamento dos dados: coleta,
armazenamento e processamento.
• A plataforma Hadoop é indicada para análise de dados
semiestruturados e não estruturados ou quando se deseja atender
uma necessidade, ou resolver um problema não específico.

Figura 1 – Gráfico futurístico


de análise de dados

Fonte: Hadoop (2019).


Arquitetura Hadoop

• O Hadoop foi baseado:


• No sistema de arquivo distribuído da Google,
o Google File System (GFS).
• No processamento distribuído MapReduce.
• A arquitetura Hadoop:
• Hadoop Distributed File System (HDFS).
• Modelo de programação MapReduce.
HDFS – Sistema de arquivo
distribuído Hadoop
• O HDFS armazena centenas de
dados em formato de blocos
Figura 2 – Arquitetura do HDFS pequenos nos agrupamentos de
servidores (clusters) distribuídos
em milhares de nós da rede.

Fonte: Hanson (2013).


MapReduce - Sistema de arquivo
distribuído Hadoop
Figura 3 – Caracterização do MapReduce • A lógica do MapReduce é o
processamento de volume enorme
• Fácil execução, algumas linguagens: Java, C ++ de dados, de forma distribuída e
Simplici ou Python.
dade paralela. Processa petabytes de
dados, tanto estruturados como não
• Processa petabytes de dados, armazenados no
HDFS em um cluster. estruturados, armazenados no HDFS.
Escalabi
lidade

• Processamento paralelo distribuído, resolve


Veloci problemas em horas ou minutos.
dade

• Tolerante a falhas. Se uma máquina estiver


indisponível, o dado pode ser obtido de outra
Recupe
máquina.
ração

• Move os processos de computação para os


Movimento dados no HDFS e não o contrário.
de dados

Fonte: adaptado de Hortonworks (2019).


Arquitetura Hadoop e seus
processos integrados • Composição MapReduce:
• NameNode.
Figura 4 – NameNode e DataNode • DataNode.
• SecondaryNameNode.
• HDFS:
• JobTracker.
• TaskTracker.

Fonte: Hanson (2013).


Outros componentes do Hadoop
• Devido ao seu desempenho e ser aberto para uso, o
Hadoop foi facilmente aceito pela comunidade da
computação, que desenvolve novos projetos com
propostas adaptadas a algumas necessidades de mercado.
• Hadoop Common Components
• É uma ampla lista de comandos e um conjunto de
bibliotecas, que dá suporte aos projetos e interfaces para
outros sistemas de arquivos.
• Linguagem de desenvolvimento de aplicações: Pig e Jaql
e outras.
Outros componentes do Hadoop
• HYVE: são softwares que manipulam volume grande
de dados e utilizam a linguagem HiveQL para consulta
e análise desses dados.
• Hadoop Stream: permite que a gravação de
mapeamento e redução dos blocos de dados sejam
realizadas por outras linguagens e também por meio
de APIs.
• Avro: esse projeto prove serviço em JSON para
estruturar e seriar dados, é executado remotamente
em formato compactado e binário. Os dados gravados
pelo serviço remoto (RPC) do Avro.
Outros componentes do Hadoop
• Hbase: é um software de gerenciamento de banco de
dados orientado a coluna, faz manipulação em tempo real
em tabelas distribuídas.
• Flume: é um canal de direcionamento de fluxo de dados,
o sistema opera por meio de processamento distribuído
na ação de coletar, juntar e mover dados.
• Lucene: é um projeto que realiza pesquisa de texto,
formado por um conjunto de biblioteca de engenharia de
busca de texto de alto desempenho.
• ZooKeeper: prove a centralização de infraestrutura e
serviços para sincronização e coordenação de tarefas das
diversas aplicações no cluster, dentre elas: a configuração
de nós, hierarquia, nome do nó, sincronização de
processos e outras.
PÓS-GRADUAÇÃO

Gerenciamento de Big
Data: coleta e
processamento de dados
Bloco 2
Aimar Martins Lopes
Relação do Big Data com o Hadoop
• Big Data requer uma estrutura para
gerenciamento dos dados:
a) Banco de dados relacional para análise de
dados estruturada (campos conhecidos e
determinados), provenientes de vários
sistemas e com capacidade de produzir
insights descritivos conhecidos.

b) Hadoop para análise de dados


semiestruturado e não estruturado ou
quando se deseja atender uma necessidade
ou resolver um problema não específico.
Arquitetura Hadoop e seus
processos integrados • Composição MapReduce:
• NameNode.
Figura 4 – NameNode e DataNode • DataNode.
• SecondaryNameNode.
• HDFS:
• JobTracker.
• TaskTracker.

Fonte: Hanson (2013).


PÓS-GRADUAÇÃO

Teoria em Prática
Bloco 3
Aimar Martins Lopes
Big Data e Hadoop na tomada de decisão

• O Haddop é importante, atualmente, pois pode auxiliar as


organizações em suas decisões baseadas em dados em tempo
real, visto que possibilita execução de atividades com vários
formatos de dados (streaming de áudio, vídeo, sentimento de
mídia social e dados de fluxo de cliques) e outros formatos, seja
dado semi e não estruturados.
• Permite transformar os dados do datawarehouse local para um
armazenamento distribuído, consolidar os dados em toda a
organização para aumentar a acessibilidade, diminuir os custos e
acelerar as decisões com mais precisão. (IBM, 2019)
• Baseado no texto, qual a importância da arquitetura Hadoop?
Importância do Hadoop
• NA SOLUÇÃO
• Processamento e armazenamento distribuído.
• Flexível e de baixo custo.
• Tolerante a falhas.
• Alto desempenho no processamento e
armazenamento.
• Poder de processamento: mais nós, mais força.
• NO USO
• Pode ser utilizada em Cloud Computing.
• Qualquer empresa pode utilizar – código aberto.
• É útil para qualquer área de negócio.
PÓS-GRADUAÇÃO

Dica do Professor
Bloco 4
Aimar Martins Lopes
Indicação de filme
• SNOWDEN
EUA, 2016, 134 min. Diretor: Oliver Stone.
O filme narra a história de Edward Snowden (Joseph Gordon-
Levitt), um funcionário da NSA, agência de segurança dos EUA,
que durante seu trabalho descobre que o governo americano
espiou ilegalmente sua população e denuncia a respeito.
Nesse filme, podemos observar como são poderosos os
softwares que atuam na Internet e processam dados.

Fonte: Pinterest (2019).


Indicação de artigo

• An introduction to the
Hadoop Distributed File
System.
• Explorar a estrutura e
subsistemas do HDFS.
• Hanson (2013).
• O autor descreve os
principais recursos do
sistema e apresenta uma
visualização de alto nível
da arquitetura do HDFS.
Referências Bibliográficas

HADOOP. 2019. Apache Hadoop 3.1.2. Disponível em:


<https://hadoop.apache.org/docs/r3.1.2/index.html>.
Acesso em: 25 jun. 2019.
HANSON, J. J. An introduction to the Hadoop Distributed
File System. Explore HDFS framework and subsystems. IBM.
2013
PINTEREST. 2019. Disponível em:
<https://br.pinterest.com/pin/91197961187493635/>.
Acesso em: 31/05/2019.

Você também pode gostar