Você está na página 1de 478

Esse e-book não pode ser usado para fins comerciais, mas pode

ser distribuído livremente sob a licença Creative Commons.

Pedimos apenas, a gentileza de citar a fonte, pois todo este

material é resultado de trabalho árduo de nossa equipe.

Esta foi a forma que encontramos de contribuir para uma

sociedade que deve ter a educação como prioridade.

que encontramos de contribuir para uma sociedade que deve ter a educação como prioridade. www.datascienceacademy.com.br
que encontramos de contribuir para uma sociedade que deve ter a educação como prioridade. www.datascienceacademy.com.br

www.datascienceacademy.com.br

que encontramos de contribuir para uma sociedade que deve ter a educação como prioridade. www.datascienceacademy.com.br
Big Data Fundamentos www.datascienceacademy.com.br

Big Data Fundamentos

www.datascienceacademy.com.br

Big Data Fundamentos www.datascienceacademy.com.br
Introdução www.datascienceacademy.com.br www.datascienceacademy.com.br

Introdução

Introdução www.datascienceacademy.com.br www.datascienceacademy.com.br
Introdução www.datascienceacademy.com.br www.datascienceacademy.com.br

Big Data Fundamentos

O que é o curso Big Data Fundamentos?

Big Data Fundamentos O que é o curso Big Data Fundamentos ? www.datascienceacademy.com.br

www.datascienceacademy.com.br

Big Data Fundamentos O que é o curso Big Data Fundamentos ? www.datascienceacademy.com.br

Big Data Fundamentos

Se você chegou até aqui, já sabe que o Big Data está revolucionando a forma como as empresas fazem negócios

aqui, já sabe que o Big Data está revolucionando a forma como as empresas fazem negócios

www.datascienceacademy.com.br

aqui, já sabe que o Big Data está revolucionando a forma como as empresas fazem negócios

Big Data Fundamentos

O volume de dados gerado pela humanidade nunca foi tão grande e novos conceitos e tecnologias surgiram para analisar esta imensidão de dados

grande e novos conceitos e tecnologias surgiram para analisar esta imensidão de dados … www.datascienceacademy.com.br

www.datascienceacademy.com.br

grande e novos conceitos e tecnologias surgiram para analisar esta imensidão de dados … www.datascienceacademy.com.br

Big Data Fundamentos

e extrair informações que permitam as empresas tomarem melhores decisões e oferecerem melhores serviços e produtos

permitam as empresas tomarem melhores decisões e oferecerem melhores serviços e produtos www.datascienceacademy.com.br

www.datascienceacademy.com.br

permitam as empresas tomarem melhores decisões e oferecerem melhores serviços e produtos www.datascienceacademy.com.br

Big Data Fundamentos

Este curso oferece uma introdução detalhada dos principais conceitos envolvendo Big Data, permitindo uma compreensão clara do que há de mais avançado em tecnologia de engenharia de dados

uma compreensão clara do que há de mais avançado em tecnologia de engenharia de dados www.datascienceacademy.com.br

www.datascienceacademy.com.br

uma compreensão clara do que há de mais avançado em tecnologia de engenharia de dados www.datascienceacademy.com.br

Big Data Fundamentos

O que você vai aprender neste curso?

Conceitos e definições de Big Data

Arquitetura Hadoop e Ecossistema Hadoop

Quais são as principais soluções comerciais de Big Data no mercado

Introdução ao Apache Spark

Bancos de Dados NoSQL

Como as empresas estão utilizando Big Data

ao Apache Spark • Bancos de Dados NoSQL • Como as empresas estão utilizando Big Data

www.datascienceacademy.com.br

ao Apache Spark • Bancos de Dados NoSQL • Como as empresas estão utilizando Big Data

Big Data Fundamentos

Quais são os pré-requisitos?

Muita vontade de aprender e entrar no mundo do Big Data

Quais são os pré-requisitos? • Muita vontade de aprender e entrar no mundo do Big Data

www.datascienceacademy.com.br

Quais são os pré-requisitos? • Muita vontade de aprender e entrar no mundo do Big Data

Big Data Fundamentos

Quais os benefícios de realizar este curso?

Big Data é uma das áreas que mais crescem atualmente. Há um déficit de profissionais no mercado e estima-se que até 2019 o mercado precisará de mais de 200 mil

profissionais habilitados em Big Data.

até 2019 o mercado precisará de mais de 200 mil profissionais habilitados em Big Data. www.datascienceacademy.com.br

www.datascienceacademy.com.br

até 2019 o mercado precisará de mais de 200 mil profissionais habilitados em Big Data. www.datascienceacademy.com.br

Big Data Fundamentos

Quais os benefícios de realizar este curso?

Hadoop é a tecnologia base da infraestrutura de Big Data, que está revolucionando o mundo como o conhecemos. Ele permite a análise de grandes volumes

de dados para tomada de decisão. Conhecimento de

Hadoop é um dos skills mais procurados por recrutadores de profissionais de Big Data.

Hadoop é um dos skills mais procurados por recrutadores de profissionais de Big Data. www.datascienceacademy.com.br

www.datascienceacademy.com.br

Hadoop é um dos skills mais procurados por recrutadores de profissionais de Big Data. www.datascienceacademy.com.br

Big Data Fundamentos

Quais os benefícios de realizar este curso?

Apache Spark é uma tecnologia emergente em

processamento de dados em tempo real e seu conhecimento será um diferencial para quem pretende trabalhar com Big Data

real e seu conhecimento será um diferencial para quem pretende trabalhar com Big Data www.datascienceacademy.com.br

www.datascienceacademy.com.br

real e seu conhecimento será um diferencial para quem pretende trabalhar com Big Data www.datascienceacademy.com.br

Big Data Fundamentos

Quais os benefícios de realizar este curso?

Visão geral de conceitos e definições que permitam uma

compreensão clara do que é o universo do Big Data para que você possa avançar sua carreira nesta vibrante área

o universo do Big Data para que você possa avançar sua carreira nesta vibrante área www.datascienceacademy.com.br

www.datascienceacademy.com.br

o universo do Big Data para que você possa avançar sua carreira nesta vibrante área www.datascienceacademy.com.br

Estrutura do curso

Este curso é dividido em 10 módulos

Estrutura do curso Este curso é dividido em 10 módulos Big Data Fundamentos 1. Introdução 2.

Big Data Fundamentos

1.

Introdução

2.

O que é Big Data?

3.

Introdução ao Hadoop

4.

Arquitetura Hadoop

5.

Ecosistema Hadoop

6.

Soluções Comercias com Hadoop

7.

Introdução ao Spark

8.

Bancos de Dados NoSQL

9.

Como as empresas estão utilizando o Big Data

10. Avaliação

www.datascienceacademy.com.br

de Dados NoSQL 9. Como as empresas estão utilizando o Big Data 10. Avaliação www.datascienceacademy.com.br

Big Data Fundamentos

Para tornar sua experiência de aprendizagem ainda mais completa, haverão quizzes e demonstrações ao longo do curso

de aprendizagem ainda mais completa, haverão quizzes e demonstrações ao longo do curso www.datascienceacademy.com.br

www.datascienceacademy.com.br

de aprendizagem ainda mais completa, haverão quizzes e demonstrações ao longo do curso www.datascienceacademy.com.br

Big Data Fundamentos

Você também terá acesso aos e-books que complementam o curso

Big Data Fundamentos Você também terá acesso aos e-books que complementam o curso www.datascienceacademy.com.br

www.datascienceacademy.com.br

Big Data Fundamentos Você também terá acesso aos e-books que complementam o curso www.datascienceacademy.com.br

Curta Nossas Páginas nas Redes Sociais

E fique sabendo das novidades em Data Science, Big Data, Internet das Coisas e muito mais…

www.facebook.com/dsacademybrData Science, Big Data, Internet das Coisas e muito mais… twitter.com/dsacademybr

das Coisas e muito mais… www.facebook.com/dsacademybr twitter.com/dsacademybr

twitter.com/dsacademybrdas Coisas e muito mais… www.facebook.com/dsacademybr www.linkedin.com/company/data-science-academy

www.linkedin.com/company/data-science-academyInternet das Coisas e muito mais… www.facebook.com/dsacademybr twitter.com/dsacademybr www.datascienceacademy.com.br

www.datascienceacademy.com.br

twitter.com/dsacademybr www.linkedin.com/company/data-science-academy www.datascienceacademy.com.br
Big Data www.datascienceacademy.com.br

Big Data

Big Data www.datascienceacademy.com.br

Big Data

Cerca de 90% de todos os dados gerados no planeta, foram gerados nos últimos 2 anos

Big Data Cerca de 90% de todos os dados gerados no planeta, foram gerados nos últimos

www.datascienceacademy.com.br

Big Data Cerca de 90% de todos os dados gerados no planeta, foram gerados nos últimos

Big Data

Aproximadamente 80%

dos dados são não-

estruturados ou estão em diferentes formatos, o que dificulta a análise

dados são não- estruturados ou estão em diferentes formatos, o que dificulta a análise www.datascienceacademy.com.br

www.datascienceacademy.com.br

dados são não- estruturados ou estão em diferentes formatos, o que dificulta a análise www.datascienceacademy.com.br

Big Data

Modelos de análise de

dados estruturados,

possuem limitações quando precisam tratar grandes volumes de dados

dados estruturados, possuem limitações quando precisam tratar grandes volumes de dados www.datascienceacademy.com.br

www.datascienceacademy.com.br

dados estruturados, possuem limitações quando precisam tratar grandes volumes de dados www.datascienceacademy.com.br

Big Data

Muitas empresas não

sabem que dados precisam ser analisados

Big Data Muitas empresas não sabem que dados precisam ser analisados www.datascienceacademy.com.br

www.datascienceacademy.com.br

Big Data Muitas empresas não sabem que dados precisam ser analisados www.datascienceacademy.com.br

Big Data

Muitas empresas nem

mesmo sabem que os dados estão disponíveis

Big Data Muitas empresas nem mesmo sabem que os dados estão disponíveis www.datascienceacademy.com.br

www.datascienceacademy.com.br

Big Data Muitas empresas nem mesmo sabem que os dados estão disponíveis www.datascienceacademy.com.br

Big Data

Dados preciosos são

descartados por falta de

conhecimento ou ferramentas de tratamento

Dados preciosos são descartados por falta de conhecimento ou ferramentas de tratamento www.datascienceacademy.com.br

www.datascienceacademy.com.br

Dados preciosos são descartados por falta de conhecimento ou ferramentas de tratamento www.datascienceacademy.com.br

Big Data

É caro manter e organizar grandes volumes de dados não- estruturados

Big Data É caro manter e organizar grandes volumes de dados não- estruturados www.datascienceacademy.com.br

www.datascienceacademy.com.br

Big Data É caro manter e organizar grandes volumes de dados não- estruturados www.datascienceacademy.com.br
Big Data www.datascienceacademy.com.br

Big Data

Big Data www.datascienceacademy.com.br

Big Data

Estamos em um período de

transformação no modo em que

dirigimos nossos negócios e, principalmente, as nossas vidas

transformação no modo em que dirigimos nossos negócios e, principalmente, as nossas vidas www.datascienceacademy.com.br
transformação no modo em que dirigimos nossos negócios e, principalmente, as nossas vidas www.datascienceacademy.com.br
Big Data Neste exato momento, uma verdadeira enxurrada de dados, ou 2.5 quintilhões de bytes

Big Data

Neste exato momento, uma verdadeira enxurrada de dados, ou 2.5 quintilhões de bytes por dia, é gerada para nortear indivíduos, empresas e governos e está dobrando a cada dois anos

www.datascienceacademy.com.br

gerada para nortear indivíduos, empresas e governos – e está dobrando a cada dois anos www.datascienceacademy.com.br
Big Data Toda vez que fazemos uma compra, uma ligação ou interagimos nas redes sociais,

Big Data

Toda vez que fazemos uma compra,

uma ligação ou interagimos nas redes

sociais, estamos produzindo esses dados

www.datascienceacademy.com.br

uma compra, uma ligação ou interagimos nas redes sociais, estamos produzindo esses dados www.datascienceacademy.com.br
Big Data E com a recente conectividade em objetos, tal como relógios, carros e até

Big Data

E com a recente conectividade em objetos, tal como relógios, carros e até geladeiras, as informações capturadas se tornam massivas e podem ser cruzadas para criar roadmaps cada vez mais elaborados, apontando e, até prevendo, o comportamento de empresas e clientes

www.datascienceacademy.com.br

cada vez mais elaborados, apontando e, até prevendo, o comportamento de empresas e clientes www.datascienceacademy.com.br

Big Data

Entre 2005 e 2020, o universo digital irá crescer de 130 exabytes para 40.000 exabytes ou 40 trilhões de gigabytes

Em 2020, haverá 5.200 gigabytes para cada homem, mulher e criança no planeta

gigabytes para cada homem, mulher e criança no planeta Até 2020, o universo digital irá dobrar

Até 2020, o universo digital irá dobrar de tamanho a cada 2 anos

e criança no planeta Até 2020, o universo digital irá dobrar de tamanho a cada 2

www.datascienceacademy.com.br

e criança no planeta Até 2020, o universo digital irá dobrar de tamanho a cada 2

Big Data

Big Data Dados  Matéria-prima dos negócios! www.datascienceacademy.com.br

Dados Matéria-prima dos negócios!

Big Data Dados  Matéria-prima dos negócios! www.datascienceacademy.com.br

www.datascienceacademy.com.br

Big Data Dados  Matéria-prima dos negócios! www.datascienceacademy.com.br

Big Data

A revolução não está nas máquinas que calculam os dados e sim nos dados em si e na maneira que são utilizados

nas máquinas que calculam os dados e sim nos dados em si e na maneira que
nas máquinas que calculam os dados e sim nos dados em si e na maneira que

www.datascienceacademy.com.br

nas máquinas que calculam os dados e sim nos dados em si e na maneira que
Big Data www.datascienceacademy.com.br

Big Data

Big Data www.datascienceacademy.com.br

www.datascienceacademy.com.br

Big Data

Big Data O Big Data nos dá uma visão clara do que é granular www.datascienceacademy.com.br

O Big Data nos dá uma visão

clara do que é granular

Big Data O Big Data nos dá uma visão clara do que é granular www.datascienceacademy.com.br

www.datascienceacademy.com.br

Big Data O Big Data nos dá uma visão clara do que é granular www.datascienceacademy.com.br

Big Data

Big Data No mundo do Big Data, por sua vez, não temos de nos fixar na

No mundo do Big Data, por sua vez, não

temos de nos fixar na causalidade;

podemos descobrir padrões e correlações nos dados que nos propiciem novas e

valiosas ideias

descobrir padrões e correlações nos dados que nos propiciem novas e valiosas ideias www.datascienceacademy.com.br
descobrir padrões e correlações nos dados que nos propiciem novas e valiosas ideias www.datascienceacademy.com.br

www.datascienceacademy.com.br

O que é Big Data

Mas afinal, o que é Big Data?

Big Data é uma coleção de conjuntos de dados, grandes e

complexos, que não podem ser processados por bancos de dados

ou aplicações de processamento tradicionais

não podem ser processados por bancos de dados ou aplicações de processamento tradicionais www.datascienceacademy.com.br

www.datascienceacademy.com.br

não podem ser processados por bancos de dados ou aplicações de processamento tradicionais www.datascienceacademy.com.br

O que é Big Data

Mas afinal, o que é Big Data?

Capacidade de uma sociedade de obter informações de maneiras

novas a fim de gerar ideias úteis e bens e serviços de valor

significativo

de maneiras novas a fim de gerar ideias úteis e bens e serviços de valor significativo

www.datascienceacademy.com.br

de maneiras novas a fim de gerar ideias úteis e bens e serviços de valor significativo

O que é Big Data

Mas afinal, o que é Big Data?

O Google estima que a humanidade criou nos últimos 5 anos, o

equivalente a 300 Exabytes de dados ou seja:

300.000.000.000.000.000.000 bytes de dados

o equivalente a 300 Exabytes de dados ou seja: 300.000.000.000.000.000.000 bytes de dados www.datascienceacademy.com.br

www.datascienceacademy.com.br

o equivalente a 300 Exabytes de dados ou seja: 300.000.000.000.000.000.000 bytes de dados www.datascienceacademy.com.br

O que é Big Data

O que é Big Data Muitos dos dados gerados, possuem um tempo de vida curto e

Muitos dos dados gerados, possuem um tempo de

vida curto e se não analisados, perdem a utilidade

Dados são transformados em informação, que

precisam ser colocadas em contexto para que

possam fazer sentido

É caro integrar grandes volumes de dados não

estruturados

para que possam fazer sentido É caro integrar grandes volumes de dados não estruturados www.datascienceacademy.com.br

www.datascienceacademy.com.br

para que possam fazer sentido É caro integrar grandes volumes de dados não estruturados www.datascienceacademy.com.br

O que é Big Data

O que é Big Data Dados potencialmente valiosos em sistemas ERP, CRM ou SCM são descartados

Dados potencialmente valiosos em sistemas ERP,

CRM ou SCM são descartados ou perdidos apenas porque ninguém presta atenção a eles

ERP, CRM ou SCM são descartados ou perdidos apenas porque ninguém presta atenção a eles www.datascienceacademy.com.br

www.datascienceacademy.com.br

ERP, CRM ou SCM são descartados ou perdidos apenas porque ninguém presta atenção a eles www.datascienceacademy.com.br

O que é Big Data

Qual o tamanho do Big Data?

O que é Big Data Qual o tamanho do Big Data? Zettabyte x 1024 Exabyte Petabyte
O que é Big Data Qual o tamanho do Big Data? Zettabyte x 1024 Exabyte Petabyte

Zettabyte

x 1024

Exabyte

Data Qual o tamanho do Big Data? Zettabyte x 1024 Exabyte Petabyte Terabyte x 1024 Gigabyte

Petabyte

Terabyte

x 1024

do Big Data? Zettabyte x 1024 Exabyte Petabyte Terabyte x 1024 Gigabyte x 1024 x 1024

Gigabyte

x 1024 x 1024
x 1024
x 1024

www.datascienceacademy.com.br

do Big Data? Zettabyte x 1024 Exabyte Petabyte Terabyte x 1024 Gigabyte x 1024 x 1024
O que é Big Data Qual o tamanho do Big Data? www.datascienceacademy.com.br

O que é Big Data

Qual o tamanho do Big Data?

O que é Big Data Qual o tamanho do Big Data? www.datascienceacademy.com.br
O que é Big Data Qual o tamanho do Big Data? www.datascienceacademy.com.br

A Importância do Big Data

Porque surgiram tecnologias que permitem processar esta grande quantidade de

dados de forma eficiente e

com baixo custo

E por que Big Data tem se tornado tão importante?

de forma eficiente e com baixo custo E por que Big Data tem se tornado tão

www.datascienceacademy.com.br

de forma eficiente e com baixo custo E por que Big Data tem se tornado tão

A Importância do Big Data

Os dados podem ser analisados

em seu formato nativo, seja ele

estruturado, não estruturado

ou streaming (fluxo constante de dados)

E por que Big Data tem se tornado tão importante?

ou streaming (fluxo constante de dados) E por que Big Data tem se tornado tão importante?

www.datascienceacademy.com.br

ou streaming (fluxo constante de dados) E por que Big Data tem se tornado tão importante?

A Importância do Big Data

Dados podem ser

capturados em

tempo real

E por que Big Data tem se tornado tão importante?

Dados podem ser capturados em tempo real E por que Big Data tem se tornado tão

www.datascienceacademy.com.br

Dados podem ser capturados em tempo real E por que Big Data tem se tornado tão

A Importância do Big Data

Dados podem ser transformados em insights de negócios

E por que Big Data tem se tornado tão importante?

transformados em insights de negócios E por que Big Data tem se tornado tão importante? www.datascienceacademy.com.br

www.datascienceacademy.com.br

transformados em insights de negócios E por que Big Data tem se tornado tão importante? www.datascienceacademy.com.br
A Importância do Big Data www.datascienceacademy.com.br

A Importância do Big Data

A Importância do Big Data www.datascienceacademy.com.br
A Importância do Big Data www.datascienceacademy.com.br

A Importância do Big Data

A Importância do Big Data www.datascienceacademy.com.br
A Importância do Big Data www.datascienceacademy.com.br
A Importância do Big Data www.datascienceacademy.com.br
A Importância do Big Data www.datascienceacademy.com.br
A Importância do Big Data www.datascienceacademy.com.br
A Importância do Big Data www.datascienceacademy.com.br

www.datascienceacademy.com.br

A Importância do Big Data www.datascienceacademy.com.br
A Importância do Big Data www.datascienceacademy.com.br

A Importância do Big Data

A Importância do Big Data www.datascienceacademy.com.br

www.datascienceacademy.com.br

A Importância do Big Data www.datascienceacademy.com.br

A Importância do Big Data

A Importância do Big Data www.datascienceacademy.com.br

www.datascienceacademy.com.br

A Importância do Big Data www.datascienceacademy.com.br

A Importância do Big Data

Desafios

Encontrar profissionais habilitados em Big Data e Hadoop

Compreender a plataforma e ferramentas para Big Data

Coletar, armazenar e analisar dados de diferentes fontes, em diferentes formatos e gerados em diferentes velocidades

em diferentes formatos e gerados em diferentes velocidades • Migrar do sistema tradicional de coleta e

Migrar do sistema tradicional de coleta e armazenamento de dados, para uma estrutura de Big Data

www.datascienceacademy.com.br

sistema tradicional de coleta e armazenamento de dados, para uma estrutura de Big Data www.datascienceacademy.com.br

A Importância do Big Data

A Importância do Big Data E você acha que já temos muitos dados atualmente? www.datascienceacademy.com.br

E você acha que já temos muitos

dados atualmente?

A Importância do Big Data E você acha que já temos muitos dados atualmente? www.datascienceacademy.com.br
A Importância do Big Data E você acha que já temos muitos dados atualmente? www.datascienceacademy.com.br

www.datascienceacademy.com.br

A Importância do Big Data

A Importância do Big Data Espere para ver o que a Internet das Coisas vai fazer

Espere para ver o que a Internet das

Coisas vai fazer com o volume atual de dados!

Big Data Espere para ver o que a Internet das Coisas vai fazer com o volume
Big Data Espere para ver o que a Internet das Coisas vai fazer com o volume

www.datascienceacademy.com.br

A Importância do Big Data

A Importância do Big Data www.datascienceacademy.com.br

www.datascienceacademy.com.br

A Importância do Big Data www.datascienceacademy.com.br
A Importância do Big Data

A Importância do Big Data

A Importância do Big Data

A Importância do Big Data

A Importância do Big Data www.datascienceacademy.com.br

www.datascienceacademy.com.br

A Importância do Big Data www.datascienceacademy.com.br

A Importância do Big Data

E como iniciar projetos de Big Data?

Comece compreendendo o valor do retorno sobre o investimento
Comece
compreendendo
o valor do
retorno sobre o
investimento
Não ignore os dados vindos de todos os departamentos da empresa
Não ignore os
dados vindos de
todos os
departamentos
da empresa
Big Data não é apenas sobre tecnologia. É sobre mudança de paradigma
Big Data não é
apenas sobre
tecnologia. É
sobre mudança
de paradigma

Não construa paredes.

Construa pontes!

www.datascienceacademy.com.br

sobre tecnologia. É sobre mudança de paradigma Não construa paredes. Construa pontes! www.datascienceacademy.com.br

A Importância do Big Data

A Importância do Big Data Não inicie um projeto de Big Data, sem antes entender o
A Importância do Big Data Não inicie um projeto de Big Data, sem antes entender o

Não inicie um projeto de Big Data, sem antes entender o ROI (Retorno sobre o Investimento)

www.datascienceacademy.com.br

Não inicie um projeto de Big Data, sem antes entender o ROI (Retorno sobre o Investimento)

A Importância do Big Data

Até 2018, haverá um deficit de 140 a 190 mil profissionais com habilidades em análise
Até 2018, haverá um deficit de 140 a 190 mil profissionais com
habilidades em análise de dados e mais de 1,5 milhão de
gerentes e analistas que saibam usar Big Data de forma efetiva
para tomada de decisões.
- McKinsey Global Institute "Big Data Report 2015"
para tomada de decisões. - McKinsey Global Institute "Big Data Report 2015" www.datascienceacademy.com.br
para tomada de decisões. - McKinsey Global Institute "Big Data Report 2015" www.datascienceacademy.com.br

www.datascienceacademy.com.br

Os 4 Vs do Big Data www.datascienceacademy.com.br

Os 4 Vs do Big Data

www.datascienceacademy.com.br

Os 4 Vs do Big Data www.datascienceacademy.com.br

Os 4 Vs do Big Data

O Big Data possui 4 características que o definem:

Volume Tamanho dos dados
Volume
Tamanho dos dados
4 características que o definem: Volume Tamanho dos dados Variedade Formato dos dados Velocidade Geração dos
Variedade Formato dos dados
Variedade
Formato dos dados
Velocidade Geração dos dados
Velocidade
Geração dos dados
Veracidade Confiabilidade dos dados
Veracidade
Confiabilidade
dos dados

www.datascienceacademy.com.br

Formato dos dados Velocidade Geração dos dados Veracidade Confiabilidade dos dados www.datascienceacademy.com.br
Os 4 Vs do Big Data www.datascienceacademy.com.br

Os 4 Vs do Big Data

Os 4 Vs do Big Data www.datascienceacademy.com.br

Volume

Volume Os 4 Vs do Big Data  Espera-se que 40 zettabytes de dados sejam criados

Os 4 Vs do Big Data

Espera-se que 40 zettabytes de dados sejam criados até 2020 no mundo; Cerca de 2.5 quintillionbytes de dados são criados por dia; Existem atualmente cerca de 6 bilhões de telefones móveis no planeta; Cada empresa americana armazena cerca de 100 terabytes de dados.

www.datascienceacademy.com.br

no planeta;  Cada empresa americana armazena cerca de 100 terabytes de dados. www.datascienceacademy.com.br

Variedade

Os 4 Vs do Big Data

150 exabytes é a estimativa de dados que foram gerados especificamente para tratamento de casos de doença em todo o mundo no ano de 2011;

Mais de 4 bilhões de horas por mês são usadas para assistir

vídeos no YouTube;

30 bilhões de imagens são publicadas por mês no Facebook;

200 milhões de usuários ativos por mês, publicam 400 milhões

 200 milhões de usuários ativos por mês, publicam 400 milhões de tweets por dia. www.datascienceacademy.com.br

de tweets por dia.

www.datascienceacademy.com.br

 200 milhões de usuários ativos por mês, publicam 400 milhões de tweets por dia. www.datascienceacademy.com.br

Velocidade

Os 4 Vs do Big Data

1 terabyte de informação é criada durante uma única sessão

da bolsa de valores Americana, a New York Stock Exchange

(NYSE); Aproximadamente 100 sensores estão instalados nos carros modernos para monitorar nível de combustível, pressão dos

pneus e muitos outros aspectos do veículo;

18.9 billhões de conexões de rede existirão até 2016.

outros aspectos do veículo;  18.9 billhões de conexões de rede existirão até 2016. www.datascienceacademy.com.br

www.datascienceacademy.com.br

outros aspectos do veículo;  18.9 billhões de conexões de rede existirão até 2016. www.datascienceacademy.com.br

Veracidade

Os 4 Vs do Big Data

Atualmente, 1 em cada 3 gestores tem experimentado problemas

relacionados a veracidade dos dados para tomar decisões de

negócios.

Além disso, estima-se que 3.1 trilhões de dólares por ano sejam

desperdiçados devido a problemas de qualidade dos dados.

de dólares por ano sejam desperdiçados devido a problemas de qualidade dos dados. www.datascienceacademy.com.br

www.datascienceacademy.com.br

de dólares por ano sejam desperdiçados devido a problemas de qualidade dos dados. www.datascienceacademy.com.br
Os 4 Vs do Big Data Importância: Volume, Velocidade, Variedade Velocidade Variedade Volume

Os 4 Vs do Big Data

Importância: Volume, Velocidade, Variedade Velocidade Variedade Volume www.datascienceacademy.com.br
Importância: Volume, Velocidade, Variedade
Velocidade
Variedade
Volume
www.datascienceacademy.com.br
4 Vs do Big Data Importância: Volume, Velocidade, Variedade Velocidade Variedade Volume www.datascienceacademy.com.br
4 Vs do Big Data Importância: Volume, Velocidade, Variedade Velocidade Variedade Volume www.datascienceacademy.com.br
4 Vs do Big Data Importância: Volume, Velocidade, Variedade Velocidade Variedade Volume www.datascienceacademy.com.br

Os 4 Vs do Big Data

Os 4 Vs do Big Data O Big Data traz um oceano de oportunidades! www.datascienceacademy.com.br
Os 4 Vs do Big Data O Big Data traz um oceano de oportunidades! www.datascienceacademy.com.br
Os 4 Vs do Big Data O Big Data traz um oceano de oportunidades! www.datascienceacademy.com.br

O Big Data traz um oceano de oportunidades!

www.datascienceacademy.com.br

Os 4 Vs do Big Data O Big Data traz um oceano de oportunidades! www.datascienceacademy.com.br

Os 4 Vs do Big Data

Processar de forma eficiente e com baixo custo grandes volumes de dados

Transformar 12 TB de tweets gerados cada dia em produtos de análise de sentimento

baixo custo grandes volumes de dados Transformar 12 TB de tweets gerados cada dia em produtos

Responder ao aumento da velocidade de geração dos dados

Investigar 5 milhões de eventos de trade nas bolsas de valores a fim de identificar fraudes

de geração dos dados Investigar 5 milhões de eventos de trade nas bolsas de valores a

Coletar e analisar dados de diferentes formatos e fontes

Monitorar milhares de videos de segurança a fim de identificar pontos perigosos em uma cidade

formatos e fontes Monitorar milhares de videos de segurança a fim de identificar pontos perigosos em
Garantir que os dados sejam confiáveis
Garantir que os dados
sejam confiáveis

www.datascienceacademy.com.br

fim de identificar pontos perigosos em uma cidade Garantir que os dados sejam confiáveis www.datascienceacademy.com.br
Introdução ao Hadoop www.datascienceacademy.com.br

Introdução ao Hadoop

www.datascienceacademy.com.br

Introdução ao Hadoop www.datascienceacademy.com.br

Introdução ao Hadoop

Introdução ao Hadoop http://hadoop.apache.org Apache Hadoop é um software open source para armazenamento e

Apache Hadoop é um software open source para armazenamento e processamento em larga escala de grandes

conjuntos de dados (Big Data), em clusters

de hardware de baixo custo.

de grandes conjuntos de dados (Big Data), em clusters de hardware de baixo custo. www.datascienceacademy.com.br

www.datascienceacademy.com.br

de grandes conjuntos de dados (Big Data), em clusters de hardware de baixo custo. www.datascienceacademy.com.br

Introdução ao Hadoop

Introdução ao Hadoop http://hadoop.apache.org Temos visto o aumento crescente da capacidade de armazenamendo dos

Temos visto o aumento crescente da capacidade de armazenamendo dos discos rígidos.

Temos visto o aumento crescente da capacidade de armazenamendo dos discos rígidos. www.datascienceacademy.com.br

www.datascienceacademy.com.br

Temos visto o aumento crescente da capacidade de armazenamendo dos discos rígidos. www.datascienceacademy.com.br

Introdução ao Hadoop

Introdução ao Hadoop http://hadoop.apache.org Mas a velocidade de leitura e escrita dos discos rígidos não tem

Mas a velocidade de leitura e escrita dos discos rígidos não tem crescido na mesma proporção.

de leitura e escrita dos discos rígidos não tem crescido na mesma proporção. www.datascienceacademy.com.br

www.datascienceacademy.com.br

de leitura e escrita dos discos rígidos não tem crescido na mesma proporção. www.datascienceacademy.com.br

Introdução ao Hadoop

Introdução ao Hadoop http://hadoop.apache.org Leitura e escrita paralela e simultânea em diversos discos rígidos,

Leitura e escrita paralela e simultânea em

diversos discos rígidos, requer tecnologia avançada.

e escrita paralela e simultânea em diversos discos rígidos, requer tecnologia avançada. www.datascienceacademy.com.br

www.datascienceacademy.com.br

e escrita paralela e simultânea em diversos discos rígidos, requer tecnologia avançada. www.datascienceacademy.com.br

Introdução ao Hadoop

Introdução ao Hadoop http://hadoop.apache.org Hadoop é um sistema de armazenamento compartilhado, distribuído e

Hadoop é um sistema de armazenamento compartilhado, distribuído e altamente confiável para processamento de grandes

volumes de dados através de clusters de

computadores.

para processamento de grandes volumes de dados através de clusters de computadores. www.datascienceacademy.com.br

www.datascienceacademy.com.br

para processamento de grandes volumes de dados através de clusters de computadores. www.datascienceacademy.com.br

Introdução ao Hadoop

Introdução ao Hadoop Em outras palavras, Hadoop é um framework que facilita o funcionamento de diversos

Em outras palavras, Hadoop é um

framework que facilita o funcionamento de diversos computadores, com o objetivo de

analisar grandes volumes de

dados.

funcionamento de diversos computadores, com o objetivo de analisar grandes volumes de dados. www.datascienceacademy.com.br
funcionamento de diversos computadores, com o objetivo de analisar grandes volumes de dados. www.datascienceacademy.com.br

www.datascienceacademy.com.br

Introdução ao Hadoop

Introdução ao Hadoop Em outras palavras, Hadoop é um framework que facilita o funcionamento de diversos

Em outras palavras, Hadoop é um

framework que facilita o funcionamento de diversos computadores, com o objetivo de

analisar grandes volumes de

dados.

funcionamento de diversos computadores, com o objetivo de analisar grandes volumes de dados. www.datascienceacademy.com.br
funcionamento de diversos computadores, com o objetivo de analisar grandes volumes de dados. www.datascienceacademy.com.br
funcionamento de diversos computadores, com o objetivo de analisar grandes volumes de dados. www.datascienceacademy.com.br

www.datascienceacademy.com.br

Introdução ao Hadoop

Introdução ao Hadoop http://hadoop.apache.org O projeto Apache hadoop é composto de 3 módulos principais: • Hadoop

O projeto Apache hadoop é composto de 3

módulos principais:

Hadoop Distributed File System (HDFS)

Hadoop Yarn

Hadoop MapReduce

• Hadoop Distributed File System (HDFS) • Hadoop Yarn • Hadoop MapReduce www.datascienceacademy.com.br

www.datascienceacademy.com.br

• Hadoop Distributed File System (HDFS) • Hadoop Yarn • Hadoop MapReduce www.datascienceacademy.com.br

Introdução ao Hadoop

Hadoop is for problems too Big for traditional systems to handle

Introdução ao Hadoop Hadoop is for problems too Big for traditional systems to handle www.datascienceacademy.com.br

www.datascienceacademy.com.br

Introdução ao Hadoop Hadoop is for problems too Big for traditional systems to handle www.datascienceacademy.com.br

Introdução ao Hadoop

Pesquisas tem mostrado que o crescimento do Hadoop tem sido vertiginoso:

ao Hadoop Pesquisas tem mostrado que o crescimento do Hadoop tem sido vertiginoso: www.datascienceacademy.com.br
ao Hadoop Pesquisas tem mostrado que o crescimento do Hadoop tem sido vertiginoso: www.datascienceacademy.com.br

www.datascienceacademy.com.br

ao Hadoop Pesquisas tem mostrado que o crescimento do Hadoop tem sido vertiginoso: www.datascienceacademy.com.br

Introdução ao Hadoop

Pesquisas tem mostrado que o crescimento do Hadoop tem sido vertiginoso:

mostrado que o crescimento do Hadoop tem sido vertiginoso: www.datascienceacademy.com.br E muito mais ainda está por
mostrado que o crescimento do Hadoop tem sido vertiginoso: www.datascienceacademy.com.br E muito mais ainda está por

www.datascienceacademy.com.br

E muito mais

ainda está por

vir!!

que o crescimento do Hadoop tem sido vertiginoso: www.datascienceacademy.com.br E muito mais ainda está por vir!!
Introdução ao Hadoop Hadoop é um framework gratuito, baseado em linguagem de programação Java, que

Introdução ao Hadoop

Hadoop é um framework gratuito, baseado

em linguagem de programação Java, que suporta o processamento de grandes conjuntos de dados em ambientes de

computação distribuída (através diversos

computadores simultaneamente).

www.datascienceacademy.com.br

em ambientes de computação distribuída (através diversos computadores simultaneamente). www.datascienceacademy.com.br
Introdução ao Hadoop Ele é baseado no Google File System (GFS) www.datascienceacademy.com.br

Introdução ao Hadoop

Ele é baseado no Google File System (GFS)

www.datascienceacademy.com.br

Introdução ao Hadoop Ele é baseado no Google File System (GFS) www.datascienceacademy.com.br
Introdução ao Hadoop Hadoop permite executar aplicações em sistemas distribuídos através de diversos computadores

Introdução ao Hadoop

Hadoop permite executar aplicações em sistemas distribuídos através de

diversos computadores (nodes),

envolvendo petabytes de dados.

www.datascienceacademy.com.br

distribuídos através de diversos computadores (nodes), envolvendo petabytes de dados. www.datascienceacademy.com.br
Introdução ao Hadoop Hadoop utiliza o HDFS (Hadoop Distributed File System), que permite rápida transferência

Introdução ao Hadoop

Hadoop utiliza o HDFS (Hadoop Distributed File System), que permite

rápida transferência de dados entre os nodes. A segurança do Hadoop é feita

com o Kerberos.

www.datascienceacademy.com.br

transferência de dados entre os nodes. A segurança do Hadoop é feita com o Kerberos. www.datascienceacademy.com.br
Introdução ao Hadoop Hadoop é usado quando problemas muito grandes (Big) precisam de solução

Introdução ao Hadoop

Hadoop é usado quando problemas

muito grandes (Big) precisam de solução

www.datascienceacademy.com.br

ao Hadoop Hadoop é usado quando problemas muito grandes (Big) precisam de solução www.datascienceacademy.com.br
Introdução ao Hadoop Hadoop tem um baixo custo, não apenas por ser livre, mas por

Introdução ao Hadoop

Hadoop tem um baixo custo, não

apenas por ser livre, mas por permitir o uso de hardware simples, computadores de baixo custo

agrupados em cluster

www.datascienceacademy.com.br

mas por permitir o uso de hardware simples, computadores de baixo custo agrupados em cluster www.datascienceacademy.com.br

Introdução ao Hadoop

Introdução ao Hadoop Um das principais características do Hadoop é a confiabilidade e sua capacidade de

Um das principais características do Hadoop é a confiabilidade e sua capacidade de se recuperar

de falhas automaticamente

do Hadoop é a confiabilidade e sua capacidade de se recuperar de falhas automaticamente www.datascienceacademy.com.br
do Hadoop é a confiabilidade e sua capacidade de se recuperar de falhas automaticamente www.datascienceacademy.com.br

www.datascienceacademy.com.br

Introdução ao Hadoop

O Apache Hadoop é composto de 2 componentes principais

Hadoop O Apache Hadoop é composto de 2 componentes principais Hadoop HDFS Hadoop MapReduce www.datascienceacademy.com.br

Hadoop HDFS

Hadoop MapReduce

Hadoop O Apache Hadoop é composto de 2 componentes principais Hadoop HDFS Hadoop MapReduce www.datascienceacademy.com.br

www.datascienceacademy.com.br

Hadoop O Apache Hadoop é composto de 2 componentes principais Hadoop HDFS Hadoop MapReduce www.datascienceacademy.com.br

Introdução ao Hadoop

Introdução ao Hadoop De forma bem simples, podemos dizer: HDFS – armazenamento distribuído MapReduce –

De forma bem simples, podemos dizer:

HDFS armazenamento distribuído

MapReduce computação distribuída

dizer: HDFS – armazenamento distribuído MapReduce – computação distribuída www.datascienceacademy.com.br

www.datascienceacademy.com.br

dizer: HDFS – armazenamento distribuído MapReduce – computação distribuída www.datascienceacademy.com.br

Introdução ao Hadoop

Por que o Hadoop está se tornando o padrão nos projetos de Big Data?

Introdução ao Hadoop Por que o Hadoop está se tornando o padrão nos projetos de Big

www.datascienceacademy.com.br

Introdução ao Hadoop Por que o Hadoop está se tornando o padrão nos projetos de Big

Introdução ao Hadoop

Por que o Hadoop está se tornando o padrão nos projetos de Big Data?

Baixo Custo
Baixo
Custo
se tornando o padrão nos projetos de Big Data? Baixo Custo Escalável Tolerante a Falhas Flexível
Escalável
Escalável
Tolerante a Falhas
Tolerante a
Falhas
Flexível
Flexível
Livre
Livre

www.datascienceacademy.com.br

nos projetos de Big Data? Baixo Custo Escalável Tolerante a Falhas Flexível Livre www.datascienceacademy.com.br

Introdução ao Hadoop

Tolerância a falhas a recuperação automática

Portabilidade entre hardware e sistemas operacionais heterogêneos

Escalabilidade para armazenar e processar grandes

quantidades de dados

Confiabilidade, através da manutenção de várias cópias de dados

de dados • Confiabilidade, através da manutenção de várias cópias de dados www.datascienceacademy.com.br

www.datascienceacademy.com.br

de dados • Confiabilidade, através da manutenção de várias cópias de dados www.datascienceacademy.com.br

Introdução ao Hadoop

Introdução ao Hadoop • Flexibilidade – processa todos os dados independente do tipo e formato, seja

Flexibilidade processa todos os dados independente do tipo e formato, seja estruturado ou não-estruturado

Confiabilidade - permite que os jobs sejam executados em

paralelo e em caso de falhas de um job, outros não são

afetados

Acessibilidade suporte a diversas linguagens de programação como Java, C++, Python, Apache Pig

– suporte a diversas linguagens de programação como Java, C++, Python, Apache Pig www.datascienceacademy.com.br

www.datascienceacademy.com.br

– suporte a diversas linguagens de programação como Java, C++, Python, Apache Pig www.datascienceacademy.com.br

Introdução ao Hadoop

Introdução ao Hadoop HDFS (Hadoop Distributed File System) • Foi desenvolvido utilizando o projeto do sistema

HDFS (Hadoop Distributed File System)

Foi desenvolvido utilizando o projeto do sistema de arquivos distribuídos (DFS). Ele é executado em hardware commodity (baixo custo). Ao contrário de outros sistemas distribuídos,

HDFS é altamente tolerante a falha.

Ao contrário de outros sistemas distribuídos, HDFS é altamente tolerante a falha. www.datascienceacademy.com.br

www.datascienceacademy.com.br

Ao contrário de outros sistemas distribuídos, HDFS é altamente tolerante a falha. www.datascienceacademy.com.br

Introdução ao Hadoop

DFS (Distributed File System) - foi criado para gestão de armazenamento em uma rede de computadores.

• •

HDFS é otimizado para armazenar grandes arquivos.

HDFS foi pensado para executar em clusters de computadores de baixo custo.

executar em clusters de computadores de baixo custo. • HDFS foi pensado para ser ótimo em

HDFS foi pensado para ser ótimo em performance do tipo WORM (Write Once, Read Many Times), que é um eficiente padrão de processamento de dados.

HDFS foi pensando considerando o tempo de leitura de um

conjunto de dados inteiro e não apenas o primeiro registro.

www.datascienceacademy.com.br

o tempo de leitura de um conjunto de dados inteiro e não apenas o primeiro registro.

Introdução ao Hadoop

Introdução ao Hadoop HDFS cluster possui 2 tipos de nodes: Namenode (master node) Datanode (worker node)

HDFS cluster possui 2 tipos de nodes:

Namenode (master node) Datanode (worker node)

possui 2 tipos de nodes: Namenode (master node) Datanode (worker node) Namenode Datanode www.datascienceacademy.com.br

Namenode

possui 2 tipos de nodes: Namenode (master node) Datanode (worker node) Namenode Datanode www.datascienceacademy.com.br

Datanode

www.datascienceacademy.com.br

possui 2 tipos de nodes: Namenode (master node) Datanode (worker node) Namenode Datanode www.datascienceacademy.com.br
Introdução ao Hadoop Namenode • Gerencia a estrutura do filesystem • Gerencia os metadados de

Introdução ao Hadoop

Namenode

Gerencia a estrutura do filesystem

Gerencia os metadados de todos os

arquivos e diretórios dentro da estrutura

www.datascienceacademy.com.br

filesystem • Gerencia os metadados de todos os arquivos e diretórios dentro da estrutura www.datascienceacademy.com.br
Introdução ao Hadoop Datanode • Armazena e busca blocos de dados quando solicitado pelo cliente

Introdução ao Hadoop

Datanode

Armazena e busca blocos de dados quando solicitado pelo cliente ou

Namenode

Reporta periodicamente para o

Namenode com a lista de blocos

que foram armazenados

www.datascienceacademy.com.br

• Reporta periodicamente para o Namenode com a lista de blocos que foram armazenados www.datascienceacademy.com.br
Introdução ao Hadoop • MapReduce é um modelo de programação para processamento e geração
Introdução ao Hadoop • MapReduce é um modelo de programação para processamento e geração

Introdução ao Hadoop

MapReduce

é

um

modelo

de

programação

para

processamento e geração de grandes conjuntos de dados.

MapReduce

transforma

o

problema

de

análise

em

um

processo computacional que usa conjuntos de chaves e

valores.

MapReduce foi desenvolvido para tarefas que consomem

minutos ou horas em computadores conectados em rede de alta velocidade gerenciados por um único master.

MapReduce usa um tipo de análise de dados por força

bruta. Todo o conjunto de dados é processado em cada

query.

www.datascienceacademy.com.br

análise de dados por força bruta. Todo o conjunto de dados é processado em cada query.
Introdução ao Hadoop • MapReduce é um modelo de programação para processamento e geração de
Introdução ao Hadoop • MapReduce é um modelo de programação para processamento e geração de

Introdução ao Hadoop

MapReduce é um modelo de programação para processamento e geração de grandes conjuntos de dados.

MapReduce

transforma

o

problema

de

análise

em

um

processo computacional que usa conjuntos de chaves e

valores.

MapReduce foi desenvolvido para tarefas que consomem

minutos ou horas em computadores conectados em rede de alta velocidade gerenciados por um único master.

MapReduce usa um tipo de análise de dados por força

bruta. Todo o conjunto de dados é processado em cada

query.

Modelo de processamento em batch.

 

www.datascienceacademy.com.br

é processado em cada query. • Modelo de processamento em batch.   www.datascienceacademy.com.br

Introdução ao Hadoop

Introdução ao Hadoop A função de mapeamento, converte dados em pares de chave(K)/valor(V) Dados Mapeamento K1:V

A função de

mapeamento, converte

dados em pares de chave(K)/valor(V)

de mapeamento, converte dados em pares de chave(K)/valor(V) Dados Mapeamento K1:V K2:V K3:V K4:V
Dados
Dados

Mapeamento

K1:V

K2:V

K3:V

K4:V

www.datascienceacademy.com.br

K

= Key

V

= Value

de chave(K)/valor(V) Dados Mapeamento K1:V K2:V K3:V K4:V www.datascienceacademy.com.br K = Key V = Value

Introdução ao Hadoop

Mapper 1

Reducer 1

Big Data
Big Data
Resultado
Resultado
Introdução ao Hadoop Mapper 1 Reducer 1 Big Data Resultado Mapper 2 Reducer 2 Mapper 3

Mapper 2

Reducer 2

Mapper 3

Reducer 3

Mapper 4

Reducer 4

www.datascienceacademy.com.br

1 Reducer 1 Big Data Resultado Mapper 2 Reducer 2 Mapper 3 Reducer 3 Mapper 4
Introdução ao Hadoop Seek Time x Transfer Rate www.datascienceacademy.com.br

Introdução ao Hadoop

Seek Time x Transfer Rate

Introdução ao Hadoop Seek Time x Transfer Rate www.datascienceacademy.com.br

Introdução ao Hadoop

MapReduce permite a execuçao de queries ad-hoc em todo

• MapReduce permite a execuçao de queries ad-hoc em todo o conjunto de dados em um
• MapReduce permite a execuçao de queries ad-hoc em todo o conjunto de dados em um

o conjunto de dados em um tempo escalável

Muitos sistemas distribuídos combinam dados de múltiplas fontes (o que é bem complicado), mas MapReduce faz isso de forma eficiente e efetiva

O segredo da performance do MapReduce, está no balanceamento entre seeking e transfer: reduzir operações de seeking e usar de forma efetiva as operações de transfer

Seek time é o delay para encontrar um arquivo.

Transfer rate é a velocidade para encontrar o arquivo.

Transfer rates tem melhorado significamente

(é bem mais veloz que Seek times)

www.datascienceacademy.com.br

o arquivo. Transfer rates tem melhorado significamente (é bem mais veloz que Seek times ) www.datascienceacademy.com.br
Introdução ao Hadoop • O MapReduce é bom para atualizar todo (ou a maior parte)
Introdução ao Hadoop • O MapReduce é bom para atualizar todo (ou a maior parte)

Introdução ao Hadoop

O

MapReduce é bom para atualizar todo (ou a maior parte)

de um grande conjunto de dados.

RDBMS (Relational Database Management System) são ótimos para atualizar pequenas porções de grandes bancos

de dados.

RDBMS utiliza o tradiocional B-Tree, que é altamente dependente de operações de seek.

MapReduce utiliza operações de SORT e Merge para recriar

banco de dados, o que é mais dependente de operações de transfer.

o

www.datascienceacademy.com.br

recriar banco de dados, o que é mais dependente de operações de transfer. o www.datascienceacademy.com.br
Introdução ao Hadoop O MapReduce se baseia em operações de transfer, o que deixa o
Introdução ao Hadoop O MapReduce se baseia em operações de transfer, o que deixa o

Introdução ao Hadoop

O MapReduce se baseia em operações de transfer,

o que deixa o acesso aos dados muito mais veloz

www.datascienceacademy.com.br

se baseia em operações de transfer, o que deixa o acesso aos dados muito mais veloz

Introdução ao Hadoop

MapReduce x RDBMS

 

RDBMS*

MapReduce

Tamanho dos dados

Gigabytes (10ˆ9)

Petabytes (10ˆ12)

Acesso

Interativo e Batch

Batch

Updates

Leitura e Escrita diversas vezes

WORM (Write Once, Read Many Times)

Estrutura de Dados

Esquema estático

Esquema dinâmico

Integridade

Alta

Baixa

Escalabilidade

Não-linear

Linear

* RDBMS = Relational Database Management System

www.datascienceacademy.com.br

Escalabilidade Não-linear Linear * RDBMS = Relational Database Management System www.datascienceacademy.com.br

Introdução ao Hadoop

Dados Estruturados
Dados
Estruturados

Dados que são representados em formato tabular

Estruturados Dados que são representados em formato tabular Tipos de Dados Dados Semi Estruturados Dados que

Tipos de Dados

Dados Semi Estruturados
Dados Semi
Estruturados

Dados que não

possuem um modelo

formal de organização

Dados que não possuem um modelo formal de organização Dados Não Estruturados Dados sem estrutura pré-definida
Dados Não Estruturados
Dados Não
Estruturados

Dados sem estrutura pré-definida

um modelo formal de organização Dados Não Estruturados Dados sem estrutura pré-definida www.datascienceacademy.com.br

www.datascienceacademy.com.br

um modelo formal de organização Dados Não Estruturados Dados sem estrutura pré-definida www.datascienceacademy.com.br

Introdução ao Hadoop

MapReduce é muito efetivo com dados semi ou não estuturados!

ao Hadoop MapReduce é muito efetivo com dados semi ou não estuturados! Por quê ? www.datascienceacademy.com.br

Por quê?

ao Hadoop MapReduce é muito efetivo com dados semi ou não estuturados! Por quê ? www.datascienceacademy.com.br

www.datascienceacademy.com.br

ao Hadoop MapReduce é muito efetivo com dados semi ou não estuturados! Por quê ? www.datascienceacademy.com.br

Introdução ao Hadoop

MapReduce interpreta dados durante as sessões de processamento de dados. Ele não utiliza propriedades intrínsecas. Os parâmetros usados para selecionar os dados, são definidos pela pessoa que está fazendo a análise.

usados para selecionar os dados, são definidos pela pessoa que está fazendo a análise. www.datascienceacademy.com.br

www.datascienceacademy.com.br

usados para selecionar os dados, são definidos pela pessoa que está fazendo a análise. www.datascienceacademy.com.br
Arquitetura Hadoop www.datascienceacademy.com.br

Arquitetura Hadoop

www.datascienceacademy.com.br

Arquitetura Hadoop www.datascienceacademy.com.br

Arquitetura Hadoop

Hadoop x RDBMS

 

Hadoop

RDBMS

   

Conceito de transações

Modelo de Computação

Conceito de Jobs

Cada Job é uma unidade de trabalho

Uma transação é uma unidade de trabalho

Controle de concorrência

Não há controle de concorrência

Modelo de

Dados

Qualquer tipo de dado pode ser usado,

Dados em qualquer formato

Dados estruturados com controle de esquema

Modelo de apenas leitura

Modelo de leitura/escrita

Modelo de

Máquinas de custo mais baixo podem ser

Servidores de maior custo são

Custo

usadas

necessários

Tolerância a

Simples, mas eficiente mecanismo de

Falhas são raras de ocorrer

Falhas

tolerância a falha

Mecanismos de recuperação

www.datascienceacademy.com.br

são raras de ocorrer Falhas tolerância a falha  Mecanismos de recuperação www.datascienceacademy.com.br

Arquitetura Hadoop

O Apache Hadoop é composto de 2 componentes principais

Hadoop O Apache Hadoop é composto de 2 componentes principais Hadoop HDFS Hadoop MapReduce www.datascienceacademy.com.br

Hadoop HDFS

Hadoop MapReduce

Hadoop O Apache Hadoop é composto de 2 componentes principais Hadoop HDFS Hadoop MapReduce www.datascienceacademy.com.br

www.datascienceacademy.com.br

Hadoop O Apache Hadoop é composto de 2 componentes principais Hadoop HDFS Hadoop MapReduce www.datascienceacademy.com.br

Cluster Hadoop possui 2 tipos de nodes:

Master node

Worker (slave) node

possui 2 tipos de nodes: Master node Worker (slave) node Arquitetura Hadoop Master Slave www.datascienceacademy.com.br

Arquitetura Hadoop

possui 2 tipos de nodes: Master node Worker (slave) node Arquitetura Hadoop Master Slave www.datascienceacademy.com.br

Master

possui 2 tipos de nodes: Master node Worker (slave) node Arquitetura Hadoop Master Slave www.datascienceacademy.com.br

Slave

www.datascienceacademy.com.br

possui 2 tipos de nodes: Master node Worker (slave) node Arquitetura Hadoop Master Slave www.datascienceacademy.com.br

Cluster Hadoop

Cluster Hadoop Arquitetura Hadoop Datacenter www.datascienceacademy.com.br

Arquitetura Hadoop

Datacenter
Datacenter
Cluster Hadoop Arquitetura Hadoop Datacenter www.datascienceacademy.com.br

www.datascienceacademy.com.br

Arquitetura Hadoop

Slave Nodes

Master Node Storage Processamento HDFS MapReduce Namenode JobTracker
Master Node
Storage
Processamento
HDFS
MapReduce
Namenode
JobTracker

Storage

Processamento

HDFS

MapReduce

Datanode

TaskTracker

Storage

Processamento

HDFS

MapReduce

Datanode

TaskTracker

Storage

Processamento

HDFS

MapReduce

Datanode

TaskTracker

Armazenamento

www.datascienceacademy.com.br

Computação

Processamento HDFS MapReduce Datanode TaskTracker Armazenamento www.datascienceacademy.com.br Computação

Arquitetura Hadoop

Arquitetura Hadoop www.datascienceacademy.com.br
Arquitetura Hadoop www.datascienceacademy.com.br

www.datascienceacademy.com.br

Arquitetura Hadoop www.datascienceacademy.com.br
 Secondary NameNode  DataNode  JobTracker  TaskTracker Arquitetura Hadoop Serviços Base do Hadoop

Secondary NameNode

DataNode

JobTracker

TaskTracker

NameNode  DataNode  JobTracker  TaskTracker Arquitetura Hadoop Serviços Base do Hadoop Slave Slave

Arquitetura Hadoop

Serviços Base do Hadoop

Slave

Slave

Arquitetura Hadoop Serviços Base do Hadoop Slave Slave TaskTracker DataNode Master JobTracker TaskTracker NameNode

TaskTracker

Hadoop Serviços Base do Hadoop Slave Slave TaskTracker DataNode Master JobTracker TaskTracker NameNode DataNode

DataNode

Master

JobTracker

TaskTracker

NameNode

DataNode

Slave

Slave

DataNode Master JobTracker TaskTracker NameNode DataNode Slave Slave MapReduce HDFS www.datascienceacademy.com.br
DataNode Master JobTracker TaskTracker NameNode DataNode Slave Slave MapReduce HDFS www.datascienceacademy.com.br

MapReduce

HDFS

www.datascienceacademy.com.br

Master Nodes Slave Nodes Arquitetura Hadoop Cluster Hadoop Cliente Processamento Distribuído MapReduce Armazenamento

Master

Nodes

Slave

Nodes

Arquitetura Hadoop

Master Nodes Slave Nodes Arquitetura Hadoop Cluster Hadoop Cliente Processamento Distribuído MapReduce Armazenamento
Master Nodes Slave Nodes Arquitetura Hadoop Cluster Hadoop Cliente Processamento Distribuído MapReduce Armazenamento

Cluster Hadoop

Cliente

Processamento

Distribuído

MapReduce

Armazenamento

Distribuído

HDFS

JobTracker

DataNode

TaskTracker

NameNode

Secondary

NameNode

DataNode

TaskTracker

DataNode

TaskTracker

www.datascienceacademy.com.br

TaskTracker NameNode Secondary NameNode DataNode TaskTracker DataNode TaskTracker www.datascienceacademy.com.br

Arquitetura Hadoop

Passo 1 Dados são enviados para o cluster Hadoop

Arquitetura Hadoop Passo 1 – Dados são enviados para o cluster Hadoop Dados www.datascienceacademy.com.br
Arquitetura Hadoop Passo 1 – Dados são enviados para o cluster Hadoop Dados www.datascienceacademy.com.br
Arquitetura Hadoop Passo 1 – Dados são enviados para o cluster Hadoop Dados www.datascienceacademy.com.br
Arquitetura Hadoop Passo 1 – Dados são enviados para o cluster Hadoop Dados www.datascienceacademy.com.br

Dados

Arquitetura Hadoop Passo 1 – Dados são enviados para o cluster Hadoop Dados www.datascienceacademy.com.br

www.datascienceacademy.com.br

Arquitetura Hadoop Passo 1 – Dados são enviados para o cluster Hadoop Dados www.datascienceacademy.com.br

Arquitetura Hadoop

Passo 2 Programas são executados para processar os dados

Arquitetura Hadoop Passo 2 – Programas são executados para processar os dados Programa www.datascienceacademy.com.br
Arquitetura Hadoop Passo 2 – Programas são executados para processar os dados Programa www.datascienceacademy.com.br
Arquitetura Hadoop Passo 2 – Programas são executados para processar os dados Programa www.datascienceacademy.com.br

Programa

Arquitetura Hadoop Passo 2 – Programas são executados para processar os dados Programa www.datascienceacademy.com.br

www.datascienceacademy.com.br

Arquitetura Hadoop Passo 2 – Programas são executados para processar os dados Programa www.datascienceacademy.com.br

Arquitetura Hadoop

Arquitetura Hadoop Programa Dados www.datascienceacademy.com.br

Programa

Arquitetura Hadoop Programa Dados www.datascienceacademy.com.br
Arquitetura Hadoop Programa Dados www.datascienceacademy.com.br

Dados

Arquitetura Hadoop Programa Dados www.datascienceacademy.com.br

www.datascienceacademy.com.br

Arquitetura Hadoop

Modos de Configuração do Hadoop

Hadoop suporta 3 modos de configuração:

Modo Standalone
Modo Standalone
Pseudo Distribuído
Pseudo Distribuído
Totalmente Distribuído
Totalmente
Distribuído
Todos os serviços Hadoop são executados em uma única JVM, no mesmo servidor
Todos os serviços Hadoop são executados em uma única JVM, no mesmo servidor
Serviços individuais do Hadoop são atribuídos a JVM’s individuais, no mesmo servidor
Serviços individuais do Hadoop são atribuídos a JVM’s individuais, no mesmo
servidor
Serviços individuais do Hadoop são executados em JVM’s individuais, mas através de cluster
Serviços individuais do Hadoop são executados em JVM’s individuais, mas através
de cluster

www.datascienceacademy.com.br

individuais do Hadoop são executados em JVM’s individuais, mas através de cluster www.datascienceacademy.com.br

Arquitetura Hadoop

Arquitetura HDFS

Arquitetura Hadoop Arquitetura HDFS Secondary Master NameNode NameNone Slave DataNode DataNode DataNode
Secondary Master NameNode NameNone Slave DataNode DataNode DataNode
Secondary
Master
NameNode
NameNone
Slave
DataNode
DataNode
DataNode
Arquitetura HDFS Secondary Master NameNode NameNone Slave DataNode DataNode DataNode www.datascienceacademy.com.br

Arquitetura Hadoop

Arquitetura HDFS

O Hadoop Distributed File System (HDFS) é um sistema de arquivos distribuído projetado para executar em hardwares simples (computadores básicos)

arquivos distribuído projetado para executar em hardwares simples (computadores básicos) www.datascienceacademy.com.br

www.datascienceacademy.com.br

arquivos distribuído projetado para executar em hardwares simples (computadores básicos) www.datascienceacademy.com.br

Arquitetura Hadoop

Arquitetura HDFS

Ele tem muitas semelhanças com sistemas de arquivos distribuídos existentes

No entanto, as diferenças de outros sistemas de arquivos distribuídos são significativas

No entanto, as diferenças de outros sistemas de arquivos distribuídos são significativas www.datascienceacademy.com.br

www.datascienceacademy.com.br

No entanto, as diferenças de outros sistemas de arquivos distribuídos são significativas www.datascienceacademy.com.br

Arquitetura Hadoop

Arquitetura HDFS

HDFS é altamente tolerante a falhas e é projetado para ser implementado em hardware de baixo custo

altamente tolerante a falhas e é projetado para ser implementado em hardware de baixo custo www.datascienceacademy.com.br

www.datascienceacademy.com.br

altamente tolerante a falhas e é projetado para ser implementado em hardware de baixo custo www.datascienceacademy.com.br

Arquitetura Hadoop

Arquitetura HDFS

HDFS oferece acesso de alta taxa de transferência de dados de aplicativos e é adequado para aplicações que têm grandes conjuntos de dados

de dados de aplicativos e é adequado para aplicações que têm grandes conjuntos de dados www.datascienceacademy.com.br

www.datascienceacademy.com.br

de dados de aplicativos e é adequado para aplicações que têm grandes conjuntos de dados www.datascienceacademy.com.br
Arquitetura Hadoop Arquitetura HDFS 1. Os serviços NameNode e SecondaryNode, constituem os serviços Master. Os
Arquitetura Hadoop Arquitetura HDFS 1. Os serviços NameNode e SecondaryNode, constituem os serviços Master. Os

Arquitetura Hadoop

Arquitetura HDFS

1. Os serviços NameNode e SecondaryNode, constituem os serviços Master. Os serviços DataNode são os slaves.

www.datascienceacademy.com.br

e SecondaryNode, constituem os serviços Master. Os serviços DataNode são os slaves. www.datascienceacademy.com.br
Arquitetura Hadoop Arquitetura HDFS 2. O serviços Master é responsável por aceitar os Jobs das
Arquitetura Hadoop Arquitetura HDFS 2. O serviços Master é responsável por aceitar os Jobs das

Arquitetura Hadoop

Arquitetura HDFS

2. O serviços Master é responsável por aceitar os Jobs das aplicações clientes e garantir que os dados requeridos para a operação sejam carregados e segregados em pedaços de blocos de dados.

www.datascienceacademy.com.br

requeridos para a operação sejam carregados e segregados em pedaços de blocos de dados. www.datascienceacademy.com.br
Arquitetura Hadoop Arquitetura HDFS 3. O HDFS permite que os dados sejam armazenados em arquivos.
Arquitetura Hadoop Arquitetura HDFS 3. O HDFS permite que os dados sejam armazenados em arquivos.

Arquitetura Hadoop

Arquitetura HDFS

3. O HDFS permite que os dados sejam armazenados em arquivos. Um arquivo é dividido em um ou mais blocos que são armazenados e replicados pelos DataNodes. Os blocos de dados são então distribuídos para o sistema de DataNodes

dentro do cluster. Isso garante que as réplicas de dados sejam

mantidas.

www.datascienceacademy.com.br

de DataNodes dentro do cluster. Isso garante que as réplicas de dados sejam mantidas. www.datascienceacademy.com.br
Arquitetura Hadoop Arquitetura HDFS 4. As réplicas de cada bloco de dados são distribuídas em
Arquitetura Hadoop Arquitetura HDFS 4. As réplicas de cada bloco de dados são distribuídas em

Arquitetura Hadoop

Arquitetura HDFS

4. As réplicas de cada bloco de dados são distribuídas em computadores em todo o cluster para permitir o acesso de dados confiável e de forma rápida.

www.datascienceacademy.com.br

em todo o cluster para permitir o acesso de dados confiável e de forma rápida. www.datascienceacademy.com.br

Arquitetura Hadoop

Cluster HDFS

Cluster Single-Node

Cluster Multi-Node

Hadoop é instalado em um único computador (chamado node)

Hadoop é instalado em diversos nodes.

São usados para processamento mais simples, bem como operações triviais de MapReduce e HDFS

São usados para computação complexa, normalmente envolvendo aplicações de Analytics

www.datascienceacademy.com.br

São usados para computação complexa, normalmente envolvendo aplicações de Analytics www.datascienceacademy.com.br
Arquitetura Hadoop Processamento MapReduce www.datascienceacademy.com.br

Arquitetura Hadoop

Processamento MapReduce

Arquitetura Hadoop Processamento MapReduce www.datascienceacademy.com.br

Arquitetura Hadoop

MapReduce

MapReduce Listas Ordenadas Listas Ordenadas ainda menores

Listas Ordenadas

MapReduce Listas Ordenadas Listas Ordenadas ainda menores

Listas Ordenadas ainda menores

Arquitetura Hadoop MapReduce Listas Ordenadas Listas Ordenadas ainda menores www.datascienceacademy.com.br

www.datascienceacademy.com.br

Arquitetura Hadoop MapReduce Listas Ordenadas Listas Ordenadas ainda menores www.datascienceacademy.com.br

Arquitetura Hadoop

Em resumo, MapReduce foi projetado para usar computação paralela distribuída em Big Data e transformar os dados em pedaços menores

computação paralela distribuída em Big Data e transformar os dados em pedaços menores www.datascienceacademy.com.br

www.datascienceacademy.com.br

computação paralela distribuída em Big Data e transformar os dados em pedaços menores www.datascienceacademy.com.br

Arquitetura Hadoop

MapReduce

MapReduce funciona através de 2 operações:

Mapeamento e Redução.

No processo de mapeamento (Map), os dados são separados em pares (key- value pairs), transformados e filtrados. Então os dados são distribuídos para os nodes e processados.

No processo de redução (Reduce), os dados são agregados em conjuntos de

dados (datasets) menores. Os dados resultantes do processo de redução são transformados em um formato padrão de chave-valor (key-value), onde a chave (key) funciona como o identificador do registro e o valor (value) é o

dado (conteúdo) que é identificado pela chave.

www.datascienceacademy.com.br

do registro e o valor (value) é o dado (conteúdo) que é identificado pela chave. www.datascienceacademy.com.br
Arquitetura Hadoop MapReduce www.datascienceacademy.com.br

Arquitetura Hadoop

MapReduce

Arquitetura Hadoop MapReduce www.datascienceacademy.com.br

www.datascienceacademy.com.br

Arquitetura Hadoop MapReduce www.datascienceacademy.com.br

Arquitetura Hadoop

Arquitetura Hadoop Processo de MapReduce Todo o processo se inicia com a requisição feita pelo cliente

Processo de MapReduce

Todo o processo se inicia com a requisição feita

pelo cliente e o job submetido. O Job Tracker se encarrega de coordenar como o job será

distribuído.

www.datascienceacademy.com.br

e o job submetido. O Job Tracker se encarrega de coordenar como o job será distribuído.

Arquitetura Hadoop

Arquitetura Hadoop Processo de MapReduce Mapeamento dos dados - os dados de entrada são primeiramente distribuídos

Processo de MapReduce

Mapeamento dos dados - os dados de entrada são

primeiramente distribuídos em pares key-value e divididos em fragmentos, que são então atribuídos a tarefas de mapeamento.

www.datascienceacademy.com.br

key-value e divididos em fragmentos, que são então atribuídos a tarefas de mapeamento. www.datascienceacademy.com.br

Arquitetura Hadoop

Arquitetura Hadoop Processo de MapReduce Redução dos dados - cada operação de redução dos dados tem

Processo de MapReduce

Redução dos dados - cada operação de redução dos dados tem um fragmento atribuído.

www.datascienceacademy.com.br

dos dados - cada operação de redução dos dados tem um fragmento atribuído. www.datascienceacademy.com.br

Arquitetura Hadoop

MapReduce

MapReduce em Tempo Real

MapReduce vem sendo largamente utilizado em aplicações real-time. Alguns exemplos :

Classificação Bayesiana para operações de data mining. Operações de search engine, como indexação de keywords, rendering e page rank.

Análise Gaussian para localização de objetos astronômicos.

Web Semântica e Web 3.0.

Análise Gaussian para localização de objetos astronômicos.  Web Semântica e Web 3.0. www.datascienceacademy.com.br
Análise Gaussian para localização de objetos astronômicos.  Web Semântica e Web 3.0. www.datascienceacademy.com.br

www.datascienceacademy.com.br

Arquitetura Hadoop

Cache Distribuído

Distributed Cache ou Cache Distribuído, é uma funcionalidade do Hadoop que permite

cache dos arquivos usados pelas aplicações.

Isso permite ganhos consideráveis de performance quando tarefas de map e reduce

precisam acessar dados em comum. Permite ainda, que um node do cluster acesse os

arquivos no filesystem local, ao invés de solicitar o arquivo em outro node.

local, ao invés de solicitar o arquivo em outro node. É possível fazer o cache de

É possível fazer o cache de arquivos zip e tar.gz.

www.datascienceacademy.com.br

de solicitar o arquivo em outro node. É possível fazer o cache de arquivos zip e

Arquitetura Hadoop

Cache Distribuído

Uma vez que você armazena um arquivo em cache para o seu trabalho, a estrutura Hadoop irá torná-lo disponível em cada node (em sistema de arquivos, não em memória) onde as tarefas de mapeamento / redução estão em execução.

arquivos, não em memória) onde as tarefas de mapeamento / redução estão em execução. www.datascienceacademy.com.br

www.datascienceacademy.com.br

arquivos, não em memória) onde as tarefas de mapeamento / redução estão em execução. www.datascienceacademy.com.br

Arquitetura Hadoop

Segurança

O Hadoop utiliza o Kerberos, um mecanismo de autenticação usado por exemplo no sistema de diretórios dos servidores Windows e também no sistema operacional Linux

no sistema de diretórios dos servidores Windows e também no sistema operacional Linux www.datascienceacademy.com.br

www.datascienceacademy.com.br

no sistema de diretórios dos servidores Windows e também no sistema operacional Linux www.datascienceacademy.com.br

Arquitetura Hadoop

Segurança

Por padrão Hadoop é executado no modo não-seguro em que não é necessária a autenticação real. Após ser configurado, o Hadoop é executado em modo de segurança e cada usuário e serviço precisa ser autenticado pelo Kerberos, a fim de

utilizar os serviços do Hadoop.

e serviço precisa ser autenticado pelo Kerberos, a fim de utilizar os serviços do Hadoop. www.datascienceacademy.com.br

www.datascienceacademy.com.br

e serviço precisa ser autenticado pelo Kerberos, a fim de utilizar os serviços do Hadoop. www.datascienceacademy.com.br

Arquitetura Hadoop

Segurança

Depois que o Kerberos estiver configurado, a autenticação Kerberos é usada para

validar as credenciais do lado do cliente. Isso significa que o cliente deve solicitar uma

permissão de serviço válido para o ambiente Hadoop.

que o cliente deve solicitar uma permissão de serviço válido para o ambiente Hadoop. www.datascienceacademy.com.br

www.datascienceacademy.com.br

que o cliente deve solicitar uma permissão de serviço válido para o ambiente Hadoop. www.datascienceacademy.com.br
Ecosistema Hadoop www.datascienceacademy.com.br

Ecosistema Hadoop

www.datascienceacademy.com.br

Ecosistema Hadoop www.datascienceacademy.com.br
Ecosistema Hadoop Ecosistema Apache Hadoop www.datascienceacademy.com.br

Ecosistema Hadoop

Ecosistema Hadoop Ecosistema Apache Hadoop www.datascienceacademy.com.br

Ecosistema Apache Hadoop

www.datascienceacademy.com.br

Ecosistema Hadoop Ecosistema Apache Hadoop www.datascienceacademy.com.br

Ecosistema Hadoop

Pense no ecosistema como as apps do sistema operacional iOS ou Android
Pense no ecosistema como as apps do sistema operacional iOS ou Android
Os aplicativos servem para aprimorar a capacidade do SO
Os aplicativos servem para aprimorar a capacidade do SO
Mesmo raciocínio pode ser aplicado para os componentes do ecosistema Hadoop
Mesmo raciocínio pode ser aplicado para os componentes do ecosistema Hadoop
do SO Mesmo raciocínio pode ser aplicado para os componentes do ecosistema Hadoop www.datascienceacademy.com.br
do SO Mesmo raciocínio pode ser aplicado para os componentes do ecosistema Hadoop www.datascienceacademy.com.br

www.datascienceacademy.com.br

Segurança (Knox, Sentry)

Ecosistema Hadoop

Interação de Dados (Pig, Hive, Spark, Storm)

Inteligência (Mahout, Drill)

Busca

(Lucene, Blur)

Gráficos

(Giraph)

Execução de Jobs (MapReduce, YARN)

Serialização (Avro, Trevni, Thrift)

Sistema de Arquivos (HDFS)

Armazenamento de Dados

(HBase, Cassandra)

Transferência de Dados (Flume, Sqoop, Kafka, Falcon)

www.datascienceacademy.com.br

Operação e Desenvolimento

(Ooozie,

Zookeeper,

Ambari, Whirr,

Crunch)

Falcon) www.datascienceacademy.com.br Operação e Desenvolimento (Ooozie, Zookeeper, Ambari, Whirr, Crunch)

Apache Zookeeper

Apache Zookeeper http://zookeeper.apache.org Ecosistema Hadoop Zookeeper é uma solução open-source de alta performance,
Apache Zookeeper http://zookeeper.apache.org Ecosistema Hadoop Zookeeper é uma solução open-source de alta performance,

Ecosistema Hadoop

Zookeeper é uma solução open-source de alta performance, para coordenação de serviços em aplicações distribuídas

Ele é uma espécie de guardião do Zoo!

www.datascienceacademy.com.br

de serviços em aplicações distribuídas Ele é uma espécie de guardião do Zoo! www.datascienceacademy.com.br

Apache Zookeeper

Apache Zookeeper http://zookeeper.apache.org Ecosistema Hadoop ZooKeeper é um serviço de coordenação distribuída para
Apache Zookeeper http://zookeeper.apache.org Ecosistema Hadoop ZooKeeper é um serviço de coordenação distribuída para

Ecosistema Hadoop

ZooKeeper é um serviço de coordenação distribuída para gerenciar grandes conjuntos de hosts (Clusters)

www.datascienceacademy.com.br

serviço de coordenação distribuída para gerenciar grandes conjuntos de hosts (Clusters) www.datascienceacademy.com.br

Apache Zookeeper

Apache Zookeeper http://zookeeper.apache.org Ecosistema Hadoop Coordenação e gestão de um serviço em um ambiente
Apache Zookeeper http://zookeeper.apache.org Ecosistema Hadoop Coordenação e gestão de um serviço em um ambiente

Ecosistema Hadoop

Coordenação e gestão de um serviço em um ambiente distribuído é um processo complicado

ZooKeeper resolve este problema com a sua arquitetura

simples

www.datascienceacademy.com.br

é um processo complicado ZooKeeper resolve este problema com a sua arquitetura simples www.datascienceacademy.com.br

Apache Zookeeper

Apache Zookeeper http://zookeeper.apache.org Ecosistema Hadoop ZooKeeper permite que os desenvolvedores se concentrem na
Apache Zookeeper http://zookeeper.apache.org Ecosistema Hadoop ZooKeeper permite que os desenvolvedores se concentrem na

Ecosistema Hadoop

ZooKeeper permite que os desenvolvedores se concentrem na lógica do aplicativo principal sem se preocupar com a natureza distribuída do aplicativo

www.datascienceacademy.com.br

lógica do aplicativo principal sem se preocupar com a natureza distribuída do aplicativo www.datascienceacademy.com.br

Apache Zookeeper

Apache Zookeeper http://zookeeper.apache.org Ecosistema Hadoop O framework ZooKeeper foi originalmente construído no
Apache Zookeeper http://zookeeper.apache.org Ecosistema Hadoop O framework ZooKeeper foi originalmente construído no

Ecosistema Hadoop

O framework ZooKeeper foi originalmente construído no "Yahoo!" para acessar seus aplicativos de uma forma fácil e robusta

Mais tarde, Apache ZooKeeper se tornou um padrão para a

organização de serviços do Hadoop, HBase e outras

estruturas distribuídas

Por exemplo, o HBase usa ZooKeeper para acompanhar o estado de dados distribuídos através do Cluster

www.datascienceacademy.com.br

o HBase usa ZooKeeper para acompanhar o estado de dados distribuídos através do Cluster www.datascienceacademy.com.br

Apache Zookeeper

Apache Zookeeper http://zookeeper.apache.org Ecosistema Hadoop ZooKeeper proporciona um ponto comum de acesso a uma ampla
Apache Zookeeper http://zookeeper.apache.org Ecosistema Hadoop ZooKeeper proporciona um ponto comum de acesso a uma ampla

Ecosistema Hadoop

ZooKeeper proporciona um ponto comum de acesso a uma ampla variedade de objetos utilizados em ambientes de Cluster

www.datascienceacademy.com.br

um ponto comum de acesso a uma ampla variedade de objetos utilizados em ambientes de Cluster

Apache Oozie

Apache Oozie http://oozie.apache.org Ecosistema Hadoop Apache Oozie é um sistema de agendamento de workflow usado para
Apache Oozie http://oozie.apache.org Ecosistema Hadoop Apache Oozie é um sistema de agendamento de workflow usado para

Ecosistema Hadoop

Apache Oozie é um sistema de agendamento de workflow usado para gerenciar principalmente os Jobs de MapReduce

www.datascienceacademy.com.br

sistema de agendamento de workflow usado para gerenciar principalmente os Jobs de MapReduce www.datascienceacademy.com.br

Apache Oozie

Apache Oozie http://oozie.apache.org Ecosistema Hadoop Oozie é integrado com o restante dos componentes do ecosistema
Apache Oozie http://oozie.apache.org Ecosistema Hadoop Oozie é integrado com o restante dos componentes do ecosistema

Ecosistema Hadoop

Oozie é integrado com o restante dos componentes do

ecosistema Hadoop para apoiar vários tipos de trabalhos do Hadoop (como Java Map-Reduce, streaming Map-Reduce, Pig, Hive e Sqoop), bem como jobs específicos do sistema (como

programas Java e scripts shell)

www.datascienceacademy.com.br

Hive e Sqoop), bem como jobs específicos do sistema (como programas Java e scripts shell) www.datascienceacademy.com.br

Apache Oozie

Apache Oozie http://oozie.apache.org Ecosistema Hadoop Oozie é um sistema de processamento de fluxo de trabalho que
Apache Oozie http://oozie.apache.org Ecosistema Hadoop Oozie é um sistema de processamento de fluxo de trabalho que

Ecosistema Hadoop

Oozie é um sistema de processamento de fluxo de trabalho que

permite aos usuários definir uma série de jobs escritos em diferentes linguagens - como Map Reduce, Pig e Hive e então inteligentemente ligá-los um ao outro

www.datascienceacademy.com.br

- como Map Reduce, Pig e Hive – e então inteligentemente ligá-los um ao outro www.datascienceacademy.com.br

Apache Oozie

Apache Oozie http://oozie.apache.org Ecosistema Hadoop Oozie permite aos usuários especificar, por exemplo, que uma
Apache Oozie http://oozie.apache.org Ecosistema Hadoop Oozie permite aos usuários especificar, por exemplo, que uma

Ecosistema Hadoop

Oozie permite aos usuários especificar, por exemplo, que uma

determinada consulta só pode ser iniciada após os jobs anteriores que acessem os mesmo dados sejam concluídos

www.datascienceacademy.com.br

só pode ser iniciada após os jobs anteriores que acessem os mesmo dados sejam concluídos www.datascienceacademy.com.br

Apache Oozie

Apache Oozie http://oozie.apache.org Ecosistema Hadoop Oozie é um sistema versátil que pode ser usado para configurar

Ecosistema Hadoop

Oozie é um sistema versátil que pode ser usado para configurar e automatizar até mesmo o mais complicado workflow de processamento de dados

Lembre-se que estamos falando em processamento de Big Data, em Clusters que podem chegar a milhares de nodes

falando em processamento de Big Data, em Clusters que podem chegar a milhares de nodes www.datascienceacademy.com.br

www.datascienceacademy.com.br

falando em processamento de Big Data, em Clusters que podem chegar a milhares de nodes www.datascienceacademy.com.br

Apache Hive

Apache Hive http://hive.apache.org Ecosistema Hadoop Apache Hive é um Data Warehouse que funciona com Hadoop e
Apache Hive http://hive.apache.org Ecosistema Hadoop Apache Hive é um Data Warehouse que funciona com Hadoop e

Ecosistema Hadoop

Apache Hive é um Data Warehouse que funciona com Hadoop e MapReduce

www.datascienceacademy.com.br

Ecosistema Hadoop Apache Hive é um Data Warehouse que funciona com Hadoop e MapReduce www.datascienceacademy.com.br

Apache Hive

Apache Hive http://hive.apache.org Ecosistema Hadoop Hive é um sistema de armazenamento de dados para Hadoop que
Apache Hive http://hive.apache.org Ecosistema Hadoop Hive é um sistema de armazenamento de dados para Hadoop que

Ecosistema Hadoop

Hive é um sistema de armazenamento de dados para Hadoop que facilita a agregação dos dados para relatórios e análise de grandes conjuntos de dados (Big Data)

www.datascienceacademy.com.br

a agregação dos dados para relatórios e análise de grandes conjuntos de dados (Big Data) www.datascienceacademy.com.br

Apache Hive

Apache Hive http://hive.apache.org Ecosistema Hadoop Hive permite consultas sobre os dados usando uma linguagem SQL-like,
Apache Hive http://hive.apache.org Ecosistema Hadoop Hive permite consultas sobre os dados usando uma linguagem SQL-like,

Ecosistema Hadoop

Hive permite consultas sobre os dados usando uma linguagem SQL-like, chamada HiveQL (HQL)

www.datascienceacademy.com.br

Hive permite consultas sobre os dados usando uma linguagem SQL-like, chamada HiveQL (HQL) www.datascienceacademy.com.br

Apache Hive

Apache Hive http://hive.apache.org Ecosistema Hadoop Provê capacidade de tolerância a falha para armazenamento de dados
Apache Hive http://hive.apache.org Ecosistema Hadoop Provê capacidade de tolerância a falha para armazenamento de dados

Ecosistema Hadoop

Provê capacidade de tolerância a falha para armazenamento de dados e depende do MapReduce para execução

www.datascienceacademy.com.br

de tolerância a falha para armazenamento de dados e depende do MapReduce para execução www.datascienceacademy.com.br

Apache Hive

Apache Hive http://hive.apache.org Ecosistema Hadoop Ele permite conexões JDBC / ODBC, por isso é facilmente integrado
Apache Hive http://hive.apache.org Ecosistema Hadoop Ele permite conexões JDBC / ODBC, por isso é facilmente integrado

Ecosistema Hadoop

Ele permite conexões JDBC / ODBC, por isso é facilmente integrado com outras ferramentas de inteligência de negócios como Tableau, Microstrategy, Microsoft Power BI entre outras

www.datascienceacademy.com.br

de inteligência de negócios como Tableau, Microstrategy, Microsoft Power BI entre outras www.datascienceacademy.com.br

Apache Hive

Apache Hive http://hive.apache.org Ecosistema Hadoop Hive é orientado a batch e possui alta latência para execução
Apache Hive http://hive.apache.org Ecosistema Hadoop Hive é orientado a batch e possui alta latência para execução

Ecosistema Hadoop

Hive é orientado a batch e possui alta latência para execução de

queries

Assim como o Pig, gera jobs MapReduce que executam no cluster Hadoop

www.datascienceacademy.com.br

execução de queries Assim como o Pig, gera jobs MapReduce que executam no cluster Hadoop www.datascienceacademy.com.br

Apache Hive

Apache Hive http://hive.apache.org Ecosistema Hadoop • Foi desenvolvido pelo Facebook. www.datascienceacademy.com.br
Apache Hive http://hive.apache.org Ecosistema Hadoop • Foi desenvolvido pelo Facebook. www.datascienceacademy.com.br

Ecosistema Hadoop

Foi desenvolvido pelo Facebook.

www.datascienceacademy.com.br

Apache Hive http://hive.apache.org Ecosistema Hadoop • Foi desenvolvido pelo Facebook. www.datascienceacademy.com.br

Apache Hive

Apache Hive http://hive.apache.org Ecosistema Hadoop Hive é um sistema para gestão e query de dados não
Apache Hive http://hive.apache.org Ecosistema Hadoop Hive é um sistema para gestão e query de dados não

Ecosistema Hadoop

Hive é um sistema para gestão e query de dados não estruturados, em formato estruturado.

Hive utiliza:

www.datascienceacademy.com.br

para gestão e query de dados não estruturados, em formato estruturado. Hive utiliza: www.datascienceacademy.com.br

Apache Hive

Apache Hive http://hive.apache.org Ecosistema Hadoop Hive é um sistema para gestão e query de dados não
Apache Hive http://hive.apache.org Ecosistema Hadoop Hive é um sistema para gestão e query de dados não

Ecosistema Hadoop

Hive é um sistema para gestão e query de dados não estruturados, em formato estruturado.

Hive utiliza:

MapReduce (para execução) HDFS (para armazenamento e pesquisa de dados)
MapReduce
(para execução)
HDFS
(para armazenamento
e pesquisa de dados)

www.datascienceacademy.com.br

Hive utiliza: MapReduce (para execução) HDFS (para armazenamento e pesquisa de dados) www.datascienceacademy.com.br

Apache Hive

Apache Hive http://hive.apache.org Ecosistema Hadoop Arquitetura e Componentes Hive www.datascienceacademy.com.br
Apache Hive http://hive.apache.org Ecosistema Hadoop Arquitetura e Componentes Hive www.datascienceacademy.com.br

Ecosistema Hadoop

Arquitetura e Componentes Hive

Apache Hive http://hive.apache.org Ecosistema Hadoop Arquitetura e Componentes Hive www.datascienceacademy.com.br

www.datascienceacademy.com.br

Apache Hive http://hive.apache.org Ecosistema Hadoop Arquitetura e Componentes Hive www.datascienceacademy.com.br

Apache Hive

Apache Hive http://hive.apache.org Ecosistema Hadoop Hive Query Language - HQL Hive Query Language (HQL) é a
Apache Hive http://hive.apache.org Ecosistema Hadoop Hive Query Language - HQL Hive Query Language (HQL) é a

Ecosistema Hadoop

Hive Query Language - HQL

Hive Query Language (HQL) é a lingugem de queries para o engine Hive

HQL suporta os conceitos básicos da linguagem SQL

Clásula From

ANSI Join (somente equi-join)

Insert

Group-by

Sampling

www.datascienceacademy.com.br

Clásula From • ANSI Join (somente equi-join) • Insert • Group-by • Sampling www.datascienceacademy.com.br

Apache Hive

Apache Hive http://hive.apache.org Ecosistema Hadoop Hive Query Language - HQL Exemplo: hive> select * from
Apache Hive http://hive.apache.org Ecosistema Hadoop Hive Query Language - HQL Exemplo: hive> select * from

Ecosistema Hadoop

Hive Query Language - HQL

Exemplo:

hive> select * from tb_folha_pagamento; hive> show tables; hive> describe tb_folha_pagamento;

www.datascienceacademy.com.br

* from tb_folha_pagamento; hive> show tables; hive> describe tb_folha_pagamento; www.datascienceacademy.com.br

Apache Sqoop

Apache Sqoop http://sqoop.apache.org Ecosistema Hadoop Sqoop é um projeto do ecosistema do Apache Hadoop, cuja
Apache Sqoop http://sqoop.apache.org Ecosistema Hadoop Sqoop é um projeto do ecosistema do Apache Hadoop, cuja

Ecosistema Hadoop

Sqoop é um projeto do ecosistema do Apache Hadoop, cuja

responsabilidade é importar e exportar dados de bancos de dados relacionais

www.datascienceacademy.com.br

Hadoop, cuja responsabilidade é importar e exportar dados de bancos de dados relacionais www.datascienceacademy.com.br

Apache Sqoop

Apache Sqoop http://sqoop.apache.org Ecosistema Hadoop Sqoop é um projeto do ecosistema do Apache Hadoop, cuja
Apache Sqoop http://sqoop.apache.org Ecosistema Hadoop Sqoop é um projeto do ecosistema do Apache Hadoop, cuja

Ecosistema Hadoop

Sqoop é um projeto do ecosistema do Apache Hadoop, cuja

responsabilidade é importar e exportar dados de bancos de dados relacionais

Sqoop significa SQL-to-Hadoop

www.datascienceacademy.com.br

é importar e exportar dados de bancos de dados relacionais Sqoop significa SQL-to-Hadoop www.datascienceacademy.com.br

Apache Sqoop

Apache Sqoop http://sqoop.apache.org Ecosistema Hadoop Basicamente, o Sqoop permite mover os dados de bancos tradicionais
Apache Sqoop http://sqoop.apache.org Ecosistema Hadoop Basicamente, o Sqoop permite mover os dados de bancos tradicionais

Ecosistema Hadoop

Basicamente, o Sqoop permite mover os dados de bancos

tradicionais como Microsoft SQL Server ou Oracle, para o Hadoop

www.datascienceacademy.com.br

mover os dados de bancos tradicionais como Microsoft SQL Server ou Oracle, para o Hadoop www.datascienceacademy.com.br

Apache Sqoop

Apache Sqoop http://sqoop.apache.org Ecosistema Hadoop É possível importar tabelas individuais ou bancos de dados
Apache Sqoop http://sqoop.apache.org Ecosistema Hadoop É possível importar tabelas individuais ou bancos de dados

Ecosistema Hadoop

É possível importar tabelas individuais ou bancos de dados

inteiros para o HDFS e o desenvolvedor pode determinar que colunas ou linhas serão importadas

www.datascienceacademy.com.br

para o HDFS e o desenvolvedor pode determinar que colunas ou linhas serão importadas www.datascienceacademy.com.br

Apache Sqoop

Apache Sqoop http://sqoop.apache.org Ecosistema Hadoop Ferramenta desenvolvida para transferir dados do Hadoop para RDBMS
Apache Sqoop http://sqoop.apache.org Ecosistema Hadoop Ferramenta desenvolvida para transferir dados do Hadoop para RDBMS

Ecosistema Hadoop

Ferramenta desenvolvida para transferir dados do Hadoop

para RDBMS e vice-versa