Escolar Documentos
Profissional Documentos
Cultura Documentos
E Book Big D
E Book Big D
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Introdução
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
Estrutura do curso
1. Introdução
Este curso é dividido 2. O que é Big Data?
em 10 módulos
3. Introdução ao Hadoop
4. Arquitetura Hadoop
5. Ecosistema Hadoop
6. Soluções Comercias com Hadoop
7. Introdução ao Spark
8. Bancos de Dados NoSQL
9. Como as empresas estão utilizando o Big Data
10. Avaliação
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Curta Nossas Páginas nas Redes Sociais
E fique sabendo das novidades em Data Science, Big Data, Internet das Coisas e muito mais…
www.facebook.com/dsacademybr
twitter.com/dsacademybr
www.linkedin.com/company/data-science-academy
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
Aproximadamente 80%
dos dados são não-
estruturados ou estão em
diferentes formatos, o que
dificulta a análise
www.datascienceacademy.com.br
Big Data
Modelos de análise de
dados estruturados,
possuem limitações
quando precisam tratar
grandes volumes de dados
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
É caro manter e
organizar grandes
volumes de dados não-
estruturados
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
Estamos em um período de
transformação no modo em que
dirigimos nossos negócios e,
principalmente, as nossas vidas
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
Entre 2005 e 2020, o universo digital irá crescer de 130 exabytes para
40.000 exabytes ou 40 trilhões de gigabytes
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
O que é Big Data
www.datascienceacademy.com.br
O que é Big Data
www.datascienceacademy.com.br
O que é Big Data
www.datascienceacademy.com.br
O que é Big Data
www.datascienceacademy.com.br
O que é Big Data
www.datascienceacademy.com.br
O que é Big Data
Qual o tamanho do Big Data?
Zettabyte x 1024
Exabyte x 1024
Petabyte x 1024
Terabyte
x 1024
Gigabyte
www.datascienceacademy.com.br
O que é Big Data
Qual o tamanho do Big Data?
www.datascienceacademy.com.br
A Importância do Big Data
www.datascienceacademy.com.br
A Importância do Big Data
www.datascienceacademy.com.br
A Importância do Big Data
www.datascienceacademy.com.br
A Importância do Big Data
www.datascienceacademy.com.br
A Importância do Big Data
www.datascienceacademy.com.br
A Importância do Big Data
www.datascienceacademy.com.br
A Importância do Big Data
www.datascienceacademy.com.br
A Importância do Big Data
www.datascienceacademy.com.br
A Importância do Big Data
Desafios
• Encontrar profissionais habilitados em Big Data e Hadoop
www.datascienceacademy.com.br
A Importância do Big Data
www.datascienceacademy.com.br
A Importância do Big Data
www.datascienceacademy.com.br
A Importância do Big Data
www.datascienceacademy.com.br
A Importância do Big Data
A Importância do Big Data
www.datascienceacademy.com.br
A Importância do Big Data
www.datascienceacademy.com.br
A Importância do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
Veracidade
Volume Variedade Velocidade
Confiabilidade
Tamanho dos dados Formato dos dados Geração dos dados
dos dados
www.datascienceacademy.com.br
Os 4 Vs do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
Além disso, estima-se que 3.1 trilhões de dólares por ano sejam
desperdiçados devido a problemas de qualidade dos dados.
www.datascienceacademy.com.br
Os 4 Vs do Big Data
Importância: Volume, Velocidade, Variedade
Velocidade
Variedade
Volume
www.datascienceacademy.com.br
Os 4 Vs do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
Processar de forma eficiente Responder ao aumento da
Coletar e analisar dados de
e com baixo custo grandes velocidade de geração dos
diferentes formatos e fontes
volumes de dados dados
www.datascienceacademy.com.br
Introdução ao Hadoop
http://hadoop.apache.org
www.datascienceacademy.com.br
Introdução ao Hadoop
http://hadoop.apache.org
www.datascienceacademy.com.br
Introdução ao Hadoop
http://hadoop.apache.org
www.datascienceacademy.com.br
Introdução ao Hadoop
http://hadoop.apache.org
www.datascienceacademy.com.br
Introdução ao Hadoop
http://hadoop.apache.org
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
E muito mais
ainda está por
vir!!
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
Hadoop HDFS
Hadoop MapReduce
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
Por que o Hadoop está se tornando o padrão nos projetos de Big Data?
www.datascienceacademy.com.br
Introdução ao Hadoop
Por que o Hadoop está se tornando o padrão nos projetos de Big Data?
Baixo Tolerante a
Escalável Flexível
Custo Falhas
Livre
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
Namenode
www.datascienceacademy.com.br
Introdução ao Hadoop
Namenode
www.datascienceacademy.com.br
Introdução ao Hadoop
Datanode
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
Dados
K = Key
A função de Mapeamento V = Value
mapeamento, converte
dados em pares de
chave(K)/valor(V)
K1:V K2:V K3:V K4:V
www.datascienceacademy.com.br
Introdução ao Hadoop
Mapper 1 Reducer 1
Mapper 2 Reducer 2
Mapper 4 Reducer 4
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Introdução ao Hadoop
MapReduce x RDBMS
RDBMS* MapReduce
Tamanho dos dados Gigabytes (10ˆ9) Petabytes (10ˆ12)
Acesso Interativo e Batch Batch
Updates Leitura e Escrita diversas vezes WORM (Write Once, Read Many Times)
Estrutura de Dados Esquema estático Esquema dinâmico
Integridade Alta Baixa
Escalabilidade Não-linear Linear
www.datascienceacademy.com.br
Introdução ao Hadoop
Tipos de Dados
www.datascienceacademy.com.br
Introdução ao Hadoop
Por quê?
www.datascienceacademy.com.br
Introdução ao Hadoop
www.datascienceacademy.com.br
Arquitetura Hadoop
www.datascienceacademy.com.br
Arquitetura Hadoop
Hadoop x RDBMS
Hadoop RDBMS
Conceito de transações
Conceito de Jobs
Modelo de Uma transação é uma unidade de
Cada Job é uma unidade de trabalho
Computação trabalho
Não há controle de concorrência
Controle de concorrência
Qualquer tipo de dado pode ser usado, Dados estruturados com controle
Modelo de
Dados em qualquer formato de esquema
Dados
Modelo de apenas leitura Modelo de leitura/escrita
Modelo de Máquinas de custo mais baixo podem ser Servidores de maior custo são
Custo usadas necessários
Tolerância a Simples, mas eficiente mecanismo de Falhas são raras de ocorrer
Falhas tolerância a falha Mecanismos de recuperação
www.datascienceacademy.com.br
Arquitetura Hadoop
Hadoop HDFS
Hadoop MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
Master node
Worker (slave) node
Slave
www.datascienceacademy.com.br
Arquitetura Hadoop
Cluster Hadoop
Datacenter
www.datascienceacademy.com.br
Arquitetura Hadoop
Slave Nodes
Storage Processamento
HDFS MapReduce
Datanode TaskTracker
Master Node
Storage Processamento
HDFS MapReduce
Datanode TaskTracker
Armazenamento Computação
www.datascienceacademy.com.br
Arquitetura Hadoop
www.datascienceacademy.com.br
Arquitetura Hadoop
NameNode Master
TaskTracker
NameNode
HDFS
Slave DataNode DataNode Slave
www.datascienceacademy.com.br
Arquitetura Hadoop
Cluster Hadoop
MapReduce HDFS
Master Secondary
Nodes JobTracker NameNode
NameNode
www.datascienceacademy.com.br
Arquitetura Hadoop
Passo 1 – Dados são enviados para o cluster Hadoop
Dados
www.datascienceacademy.com.br
Arquitetura Hadoop
Passo 2 – Programas são executados para processar os dados
Programa
www.datascienceacademy.com.br
Arquitetura Hadoop
Programa
Dados
www.datascienceacademy.com.br
Arquitetura Hadoop
Modos de Configuração do Hadoop
Hadoop suporta 3 modos de configuração:
Modo Standalone Todos os serviços Hadoop são executados em uma única JVM, no mesmo servidor
Totalmente Serviços individuais do Hadoop são executados em JVM’s individuais, mas através
Distribuído de cluster
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
Secondary
Master NameNode
NameNone
Slave
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Cluster HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Processamento MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
MapReduce
Listas Ordenadas
www.datascienceacademy.com.br
Arquitetura Hadoop
www.datascienceacademy.com.br
Arquitetura Hadoop
MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
Processo de MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
Processo de MapReduce
Mapeamento dos dados - os dados de entrada são
primeiramente distribuídos em pares key-value e
divididos em fragmentos, que são então atribuídos a
tarefas de mapeamento.
www.datascienceacademy.com.br
Arquitetura Hadoop
Processo de MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
Cache Distribuído
www.datascienceacademy.com.br
Arquitetura Hadoop
Cache Distribuído
Uma vez que você armazena um arquivo em cache para o seu trabalho, a estrutura
Hadoop irá torná-lo disponível em cada node (em sistema de arquivos, não em
memória) onde as tarefas de mapeamento / redução estão em execução.
www.datascienceacademy.com.br
Arquitetura Hadoop
Segurança
www.datascienceacademy.com.br
Arquitetura Hadoop
Segurança
www.datascienceacademy.com.br
Arquitetura Hadoop
Segurança
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Inteligência
(Mahout, Drill)
Interação de Dados Busca
(Pig, Hive, Spark, Storm) (Lucene, Blur)
Gráficos Operação e
(Giraph) Desenvolimento
Segurança (Ooozie,
(Knox, Sentry) Execução de Jobs (MapReduce, YARN) Zookeeper,
Ambari, Whirr,
Serialização (Avro, Trevni, Thrift) Crunch)
Armazenamento de Dados
Sistema de Arquivos (HDFS)
(HBase, Cassandra)
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
http://zookeeper.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
http://zookeeper.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
http://zookeeper.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
O framework ZooKeeper foi originalmente construído no
"Yahoo!" para acessar seus aplicativos de uma forma fácil e
robusta
Mais tarde, Apache ZooKeeper se tornou um padrão para a
organização de serviços do Hadoop, HBase e outras
estruturas distribuídas
Por exemplo, o HBase usa ZooKeeper para acompanhar o
http://zookeeper.apache.org estado de dados distribuídos através do Cluster
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
http://zookeeper.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Oozie
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Oozie
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Oozie
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Oozie
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Oozie
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Hive utiliza:
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Hive utiliza:
MapReduce
(para execução)
http://hive.apache.org
HDFS
(para armazenamento
e pesquisa de dados)
www.datascienceacademy.com.br
Ecosistema Hadoop
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Exemplo:
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
http://sqoop.apache.org Ele também gera classes Java através das quais você pode
facilmente interagir com os dados importados
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Pig
http://pig.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Pig
http://pig.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Pig
http://pig.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Pig
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Pig
www.datascienceacademy.com.br
Ecosistema Hadoop
Componentes do Pig
Apache Pig
Pig Latin Script Language
• Linguagem procedural de fluxo de dados
• Contém sintaxe e comandos que podem ser aplicados
para implementar lógica de negócios
Runtime engine
• Compilador que produz sequências de programas
http://pig.apache.org MapReduce
• Utiliza HDFS para armazenar e buscar dados
• Usado para interagir com sistemas Hadoop
• Valida e compila scripts de operação em sequências
de Jobs MapReduce
www.datascienceacademy.com.br
Ecosistema Hadoop
Pig X SQL
Apache Pig
Pig SQL
Linguagem de script usada para Linguagem de query usada para
interagir com o HDFS interagir com bancos de dados
Passo a passo Bloco único
Avaliação não imediata Avaliação imediata
Requer que um join seja executado 2
http://pig.apache.org
Permite resultados intermediários vezes ou materializado como um
resultado intermediário
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
www.datascienceacademy.com.br
Ecosistema Hadoop
• O HBase é um tipo de banco de dados NoSQL e utiliza o modelo
Apache Hbase key-value (chave-valor).
• Cada valor é identificado por uma chave.
• Chaves e valores são do tipo byte-array.
http://hbase.apache.org • Valores são armazenados por ordem de acordo com a chave.
• Os valores podem ser facilmente acessados por suas respectivas
chaves.
• No HBase, as tabelas não possuem schemas.
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
http://hbase.apache.org
O objetivo do HBase é armazenar tabelas realmente grandes,
com bilhões de dados
www.datascienceacademy.com.br
Ecosistema Hadoop
Arquitetura HBase
Apache Hbase HBase possui 2 tipos de Nodes: Master e RegionServer
Master RegionServer
Somente um node Master pode ser
executado. A alta disponibilidade é Um ou mais podem existir
http://hbase.apache.org
mantida pelo ZooKeeper
Responsável pela gestão de operações
Responsável por armazenar as tabelas,
de cluster, como assignment, load
realizar leituras e buffers de escrita
balancing e splitting
O cliente comunica com o
Não faz parte de operações de
RegionServer para processar operações
read/write
de leitura/escrita
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
www.datascienceacademy.com.br
Ecosistema Hadoop
HBase x RDBMS
Apache Hbase HBase RDBMS
Particionamento manual,
Particionamento automático
realizado pelo administrador
Pode ser escalado de forma Pode ser escalado
http://hbase.apache.org linear e automática com novos verticalmente com a adição de
nodes mais hardware
Requer hardware mais robustos
Utiliza hardware commodity
e portanto, mais caros
Tolerância a falha pode estar
Possui tolerância a falha
presente ou não
Com MapReduce, alavanca Precisa de muitas threads ou
processos batch processos para processamento
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
http://flume.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
http://flume.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
http://flume.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
Ele possui uma arquitetura simples e fléxível beseada em
streaming (fluxo constante) de dados
http://flume.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
http://flume.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Mahout
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Mahout
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Mahout
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Mahout
http://mahout.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Mahout
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
http://kafka.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
http://kafka.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
Baixa latência
http://kafka.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Ambari
www.datascienceacademy.com.br
Ecosistema Hadoop
Ambari Web
Provisionamento
Monitoramento
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Ambari
www.datascienceacademy.com.br
Ecosistema Hadoop
• HDFS é um filesystem desenvolvido em Java e baseado no
Google File System.
www.datascienceacademy.com.br
Ecosistema Hadoop
• HDFS é um filesystem desenvolvido em Java e baseado no
Google File System.
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
YARN significa
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Aplicação
Gerenciamento
Armazenamento
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Característica Descrição
Compatibilidade Aplicações MapReduce desenvolvidas para o Hadoop versão 1.0,
podem usar o YARN para execução com versões mais novas do
Hadoop, sem mudar os processos existentes
Escalabilidade O Resource Manager do YARN tem o foco em gerenciar o cluster, à
medida que novos nodes são adicionados, expandindo o cluster para
milhares de nodes e e petabytes de dados
Utilização do O YARN promove a alocação dinâmica de recursos do cluster,
Cluster melhorando sua utilização e agindo de forma muito mais eficiente que
as regras estáticas do MapReduce
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
Por que usar soluções comerciais com Hadoop?
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
Principais Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
Principais Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
https://aws.amazon.com/elasticmapreduce
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
• Apache Hadoop
• Apache Pig
• Apache Hive
• Apache HBase
• Apache Sqoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
http://www.cloudera.com
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
http://hortonworks.com
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
https://www.mapr.com
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
http://pivotal.io
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
www.datascienceacademy.com.br
Soluções Comerciais com Hadoop
https://azure.microsoft.com/en-us/services/hdinsight
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
Utiliza o Hadoop (HDFS) como base, mas pode ser usado com
Cassandra, HBase e MongoDB
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
O Apache Spark oferece basicamente 3 principais benefícios:
www.datascienceacademy.com.br
Introdução ao Apache Spark
O Apache Spark oferece basicamente 3 principais benefícios:
www.datascienceacademy.com.br
Introdução ao Apache Spark
O Apache Spark oferece basicamente 3 principais benefícios:
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
Spark Framework
www.datascienceacademy.com.br
Introdução ao Apache Spark
Spark Core
www.datascienceacademy.com.br
Introdução ao Apache Spark
Spark SQL
www.datascienceacademy.com.br
Introdução ao Apache Spark
Spark Streaming
www.datascienceacademy.com.br
Introdução ao Apache Spark
Mllib
www.datascienceacademy.com.br
Introdução ao Apache Spark
GraphX
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
A verdade é que criaram o Hadoop para processar grandes volumes de dados em
batch. O Big Data.
O Hadoop MapReduce possui limitações e não atende a alguns requisitos cada vez
mais importantes:
www.datascienceacademy.com.br
Introdução ao Apache Spark
Engine de computação em cluster
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
Hadoop Spark
Armazenamento distribuído + Computação Somente computação distribuída
distribuída
Framework MapReduce Computação genérica
Normalmente processa dados em disco Em disco / Em memória
(HDFS)
Não é ideal para trabalho iterativo Excelente para trabalhos iterativos (Machine
Learning)
Até 10x mais rápido para dados em disco
Processo batch Até 100x mais rápido para dados em
memória
Basicamente Java Suporta Java, Python, Scala
Não possui um shell unificado Shell para exploração ad-hoc
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
Hadoop Spark
Processamento batch Hadoop MapReduce (Java, Pig, Spark RDD (Java, Python, Scala)
Hive)
Query SQL Hadoop: Hive Spark SQL
Processamento Stream / Storm, Kafka Spark Streaming
Processamento em Tempo Real
Machine Learning Mahout Spark ML Lib
Algoritmos iterativos Lento Muito rápido (em memória)
Pig com Spark ou Mix de Spark
Workflow ETL Pig, Flume
SQL e programação RDD
Volume médio (Gigabytes /
Volume de Dados Volume gigante (Petabytes)
Terabytes)
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
www.datascienceacademy.com.br
Introdução ao Apache Spark
Já usa Hadoop?
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
Arquitetura Storm
Master Node
No Master Node
encontramos o serviço
Nimbus, que é
responsável pela
atribuição de tarefas
aos Supervisors
www.datascienceacademy.com.br
Apache Storm
Arquitetura Storm
Coordenação do Cluster
O Zookeeper faz a
coordenação do
funcionamento do
cluster
www.datascienceacademy.com.br
Apache Storm
Arquitetura Storm
Supervisor
Os supervisors são
responsáveis por 1 ou
mais workers e sua
função é garantir que
os workers executem
os jobs
www.datascienceacademy.com.br
Apache Storm
Arquitetura Storm
Worker Node
Os workers nodes,
executam as taferas
(jobs)
www.datascienceacademy.com.br
Apache Storm
Arquitetura Storm
Esta arquitetura
garante uma das
principais
características do
Storm:
No single-point de
falha
www.datascienceacademy.com.br
Apache Storm
Hadoop x Storm
www.datascienceacademy.com.br
Apache Storm
Hadoop x Storm
Hadoop Storm
Processamento em batch Processamento de streams em tempo
real
Arquitetura Master/Slave com ou sem Arquitetura Master/Slave com o
o Zookeeper Zookeeper
www.datascienceacademy.com.br
Apache Storm
Spark x Storm
www.datascienceacademy.com.br
Apache Storm
Spark x Storm
Spark Storm
Linguagem de programação Java, Scala Linguagem de programação Java,
Clojure, Scala
Fonte de streams no HDFS Fonte de streams no Spout
Gestão de Recursos com YARN, Mesos Gestão de Recursos com YARN, Mesos
www.datascienceacademy.com.br
Apache Storm
Situação Framework
Baixa Latência Storm consegue obter melhor latência que o Spark
Baixo custo de Com Spark, o mesmo código pode ser usado para
desenvolvimento processamento em batch e processamento de
streams. No Storm, isso não é possível
Tolerância a falhas Ambos são tolerantes a falhas
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
Alguns afirmam que a sigla significa Not Only SQL, enquanto outros afirmam que
significa Non-SQL. Não há um consenso sobre isso. Mas pense sobre NoSQL como
uma classe de banco de dados não-relacionais que não se enquadram na
classificação de bancos de dados relacionais (RDBMS), que utilizam linguagem SQL.
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
• Graph databases
• Document databases
• Key-values stores
• Column family stores
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
Os principais Bancos de Dados NoSQL são:
Oracle NoSQL DB
Neo4J
MemcacheDB
FlockDB Key-value
Graph Redis
GraphDB
Voldemort
ArangoDB
MongoDB HBase
CouchDB Cassandra*
Document Column
RavenDB Hypertable
Terrastore Accumulo
http://nosql-database.org
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
• Indexação
www.datascienceacademy.com.br
Bancos de Dados NoSQL
• Agregação
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
• Armazenamento
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
MongoDB RDBMS
Database Database
Collection Table
Document Tuple/Row
Field Column
Embedded Documents Table Join
Primary Key Primary Key
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
• Big Data
www.datascienceacademy.com.br
Bancos de Dados NoSQL
• Big Data
• Gestão de Conteúdo
www.datascienceacademy.com.br
Bancos de Dados NoSQL
• Big Data
• Gestão de Conteúdo
• Infraestrutura Social e Mobile
www.datascienceacademy.com.br
Bancos de Dados NoSQL
• Big Data
• Gestão de Conteúdo
• Infraestrutura Social e Mobile
• Gestão de Dados de Usuários
www.datascienceacademy.com.br
Bancos de Dados NoSQL
• Big Data
• Gestão de Conteúdo
• Infraestrutura Social e Mobile
• Gestão de Dados de Usuários
• Data Hub
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
http://cassandra.apache.org
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
http://couchdb.apache.org
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
Manufatura
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
Produtividade
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
Finanças
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
Saúde
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
Varejo
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
http://caesarscorporate.com
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
http://www.cerner.com
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
http://www.cerner.com
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
http://www.eharmony.com.br
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
http://www.eharmony.com.br
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
http://www.mastercard.com/br
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
http://www.mastercard.com/br
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
http://www.mastercard.com/br
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
http://www.nipponpaint.com
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
Outras empresas usando Hadoop:
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
Outras empresas usando Hadoop:
Empresa Especificações Técnicas Utilização
Projetos de Big Data na área financeira,
Accenture De acordo com a demanda do cliente
telecom e varejo
Plataforma de Rede Social, utiliza o Hadoop
Ning --
para relatórios e Big Data Analytics
690 nodes em cluster Hadoop,
Usa Hadoop para geração de conteúdo e
Spotify totalizando 38 TB de memória RAM e 28
agregação de dados
PB de storage
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
O Hadoop já é realidade!
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
Convencido?
Ainda não?
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
Pois saiba que isso raramente acontece, se é que acontece.
Histórias de sucesso envolvendo Big Data tipicamente
começam com pequenas perguntas:
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
Qual seria a “fórmula mágica” da Netflix?
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
Qual seria a “fórmula mágica” da Netflix?
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
5 pontos de atenção que devem ser observados quando usado Big Data:
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Como as empresas estão usando o Big Data
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Encerramento
Claro, esta é uma lista resumida e também não significa que você
precisa aprender tudo.
www.datascienceacademy.com.br
Bibliografia
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Curta Nossas Páginas nas Redes Sociais
E fique sabendo das novidades em Data Science, Big Data, Internet das Coisas e muito mais…
www.facebook.com/dsacademybr
twitter.com/dsacademybr
www.linkedin.com/company/data-science-academy
www.datascienceacademy.com.br