glyyShrRJ1LVl3NfLOOapfull Gerenciamento Big Data Aula-1

Gerenciamento de Big Data
Mathias Brem Garcia

GERENCIAMENTO DO BIG DATA
● Definições de Big Data e Data Science
● Habilidades necessárias nas áreas de
Data Science
Aula 1 ●
●
Perfis profissionais das áreas de Dados
Fundamentos de Arquitetura Paralela
● Fundamentos de Arquitetura Distribuída
● Algoritmos de MPP
● LAB 1 - Hands-On Hadoop e ETL
INTRODUÇÃO AO BIG DATA
Desafios do universo de dados e mercado

profissional
Os 3V’s de Big Data
De acordo com o NIST, são os 3 V’s
de Big Data:
● Volume
● Velocidade
● Variedade
Fonte: NIST.http://dx.doi.org/10.6028/NIST.SP.1500-1
5V’s de Big Data
Habilidades necessárias nas áreas de
Data Science
Unicórnio
Fonte: WIKIPÉDIA.https://en.wikipedia.org/wiki/Unicorn#/media/File:Oftheunicorn.jpg
Fatiando o Unicórnio
Engenheiro de Dados
Engenheiro de Machine Learning
Cientista de Dados
Arquiteto de Big Data
Especialista do Negócio / Analista de Dados
Especialista em Governança de Dados
BASIC QUALIFICATIONS
· Highly technical and analytical with 10 or more years of ETL and analytics systems development and deployment experience
· Strong verbal and written communications skills are a must, as well as the ability to work effectively across internal and external
organizations and virtual teams.
· Ability to think understand complex business requirements and render them as prototype systems with quick turnaround time.
· Implementation and tuning experience in the Big Data Ecosystem, (such as Hadoop, Spark, Presto, Hive), Database (such as Oracle,
MySQL, PostgreSQL, MS SQL Server) and Data Warehouses (such as Redshift, Teradata, Vertica)
· Knowledge of foundation infrastructure requirements such as Networking, Storage, and Hardware Optimization with Hands-on
experience with Amazon Web Services (AWS)
· BS level technical degree required; Computer Science or Mathematics background preferred
Fonte: AWS .https://www.amazon.jobs/en/jobs/923606/big-data-architect

Como se tornar um Arquiteto de Big Data?
BIG DATA
DATA ARCHITECT
Para se tornar um Arquiteto de
ENGINEER SR
DATA Big Data de verdade você
Experiência em
ENGINEER JR projetos envolvendo
deverá possuir experiência em
DBA SR Engenheiro de
Cloud, Infraestrutura
negócios, SQL, Programação,
Infraestrutura, Cloud, Gestão
Administrador de Dados. Fora
DBA JR Local, diferentes
de Projeto, Pessoas,ótima
Banco de Dados linguagem SQL
Administrador de ferramentas de ETL.
comunicação verbal, empatia,
Sênior. SQL e Vasta utiliza programação.
Banco de Dados. Python, Java, API’s e
Shell, Python e Java detalhista e paciente. Estar
experiência com automação.
Conhecimentos em atento às novas tecnologias e
Infraestrutura e
SQL
Obs:.Baseado nos conhecimentos e experiência
Linux do professor e do mercado, além disso também foram utilizadas vagas em aberto por:inovações será fundamental
Amazon, Google, Uber, Airbnb.
para se manter atualizado e em
Engenheiro de Dados vs Cientista de
Dados
Fonte: DATACAMP. https://www.datacamp.com/community/blog/data-scientist-vs-data-engineer

Conclusão sobre a carreira do
Engenheiro de Dados Arquiteto de Big Data
Fonte: POKEMON. https://www.pokemon.com/br/

Arquitetura Paralela
● SISD (single instruction single data) – Um contador de programa – Computadores

seqüenciais
● SIMD (single instruction multiple data) – Um contador de programa, uma
instrução executada por diversos processadores sobre diferentes dados –
Computadores
● MISD (multiple instructions single data)
● MIMD (multiple instructions multiple data)
■ Os vários computadores paralelos e distribuídos atuais
○ SMPs (Symmetric MultiProcessors) - Mesma memória
○ MPPs (Massively Parallel Processors)
○ Cluster ( Network of Computation )
WKIPEDIA, https://en.wikipedia.org/wiki/Flynn%27s_taxonomy
● Exemplos de computação paralela aplicadas a projetos em larga escala são os

computadores da Sun Microsystem, HP, IBM entre outros listados no famoso
top500.
● O problema em torno da computação paralela é que ela exige a execução de
hardware específico, criado para tal propósito e com controles específicos
capazes de interconectar os computadores a nível de hardware ( chip )
● Pensar de forma paralela é difícil, portanto criar algoritmos para tal computação é
demorado e custoso
● É caro!
Arquitetura Distribuída
● Inicialmente inferior a computação paralela listada anteriormente

● Computação distribuída é mais geral e abrangente do que computação paralela
● Sistema paralelo e distribuído é uma coleção de componentes de hardware e
software que otimizam o desempenho por problema, vazão de múltiplos
problemas e confiabilidade, ou uma combinação destes
WKIPEDIA, https://pt.wikipedia.org/wiki/Sistema_de_processamento_distribu%C3%ADdo
● Exemplos de computação paralela aplicadas a projetos em larga escala são os

computadores da Sun Microsystem, HP, IBM entre outros listados no famoso
top500.
● O problema em torno da computação paralela é que ela exige a execução de
hardware específico, criado para tal propósito e com controles específicos
capazes de interconectar os computadores a nível de hardware ( chip )
● É caro!
ECOSSISTEMA HADOOP
Entendendo profundamente os
componentes de Big Data ( Sistema de
Arquivos )
HDFS, S3, GEN2, OBS, GS
MPPs ( Massively Parallel Processors )
● Redes dedicadas e rápidas

● Cada nó executa sua própria cópia do Sistema Operacional
● Imagem única do sistema
● Visibilidade dos mesmos sistemas de arquivo
● Um escalonador de tarefas
● Partições diferentes para aplicações diferentes
MPPs ( Massively Parallel Processors )
NODE 1 NODE 2 NODE 3
CPU CPU CPU
MEMÓRIA MEMÓRIA MEMÓRIA ESCALONADOR

Hadoop, por onde começar?
WHITE, T. Hadoop: The Definitive Guide, 4th Edition, O’Reilly Media, 2015.
O que é o Hadoop?
O Apache Hadoop é uma Framework ou Plataforma desenvolvida em

Java, para computação distribuída, usada para processamento de
grandes quantidades de informação. Originalmente criado no Yahoo
por Doug Cutting fundador da Cloudera. Esse nome foi dado graças ao
brinquedo preferido de seu filho!
Ecossistema do Hadoop ( Meet Hadoop )
O Ecossistema Hadoop ( Meet Hadoop )
● Hive
○ A SQL-like interface to Hadoop files
● Spark ( Spark SQL )
○ An in-memory execution system
● Yarn
○ A distributed resource manager
● Oozie
○ A workflow system
● HBase
○ A NoSQL Database
GORELIK, A. The Enterprise Big Data Lake, O’Reilly Media, 2019.

O que é o MapReduce?
● MapReduce é o algoritmo de chave que o Hadoop

MapReduce engine usa para distribuir o trabalho no cluster;
● É um framework introduzido pelo Google para suportar

computações paralelas; ( Escrito em 2004 )
○ https://research.google/pubs/pub62/
● Permite que programadores sem experiência com sistemas

paralelos e distribuídos facilmente utilizem os recursos de
um grande sistema distribuído;
GORELIK, A. The Enterprise Big Data Lake, O’Reilly Media, 2019.

Como o MapReduce funciona no Hadoop?
Como funciona o HDFS?
Como funciona a replicação de blocos?
Sqoop ( SQL to Hadoop )
● O Sqoop ou também conhecido como SQL to Hadoop, do SQL para o

Hadoop foi criado com a finalidade de facilitar a ingestão de bases de
dados SQL para o Hadoop, mas ele também possui o poder de
exportar dados do Hadoop para bases SQL realizando assim o
processo interverso e sendo portanto uma ferramenta de integração
entre bases de dados e o ecossistema Hadoop.
● Originalmente criado como ferramenta de linha de comando o
mesmo foi aprimorado gerando a versão Sqoop2 que é a evolução do
Sqoop1, após aprimoramentos o mesmo se tornou um framework
sendo assim integrado ao ecossistema de desenvolvimento Java API.
Sqoop ( SQL to Hadoop )
Sqoop ( Hadoop to SQL )

glyyShrRJ1LVl3NfLOOapfull Gerenciamento Big Data Aula-1

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

glyyShrRJ1LVl3NfLOOapfull Gerenciamento Big Data Aula-1

Enviado por

Direitos autorais:

Formatos disponíveis

Gerenciamento de Big Data

Mathias Brem Garcia

Desafios do universo de dados e mercado

Fonte: AWS .https://www.amazon.jobs/en/jobs/923606/big-data-architect

Fonte: DATACAMP. https://www.datacamp.com/community/blog/data-scientist-vs-data-engineer

Engenheiro de Dados Arquiteto de Big Data

Fonte: POKEMON. https://www.pokemon.com/br/

● SISD (single instruction single data) – Um contador de programa – Computadores

● Exemplos de computação paralela aplicadas a projetos em larga escala são os

● Inicialmente inferior a computação paralela listada anteriormente

● Exemplos de computação paralela aplicadas a projetos em larga escala são os

● Redes dedicadas e rápidas

NODE 1 NODE 2 NODE 3

CPU CPU CPU

MEMÓRIA MEMÓRIA MEMÓRIA ESCALONADOR

O Apache Hadoop é uma Framework ou Plataforma desenvolvida em

GORELIK, A. The Enterprise Big Data Lake, O’Reilly Media, 2019.

● MapReduce é o algoritmo de chave que o Hadoop

● É um framework introduzido pelo Google para suportar

● Permite que programadores sem experiência com sistemas

GORELIK, A. The Enterprise Big Data Lake, O’Reilly Media, 2019.

● O Sqoop ou também conhecido como SQL to Hadoop, do SQL para o

Você também pode gostar