Você está na página 1de 35

Gerenciamento de Big Data

Mathias Brem Garcia


GERENCIAMENTO DO BIG DATA
● Definições de Big Data e Data Science
● Habilidades necessárias nas áreas de
Data Science

Aula 1 ●

Perfis profissionais das áreas de Dados
Fundamentos de Arquitetura Paralela
● Fundamentos de Arquitetura Distribuída
● Algoritmos de MPP
● LAB 1 - Hands-On Hadoop e ETL
INTRODUÇÃO AO BIG DATA

Desafios do universo de dados e mercado


profissional
Os 3V’s de Big Data
De acordo com o NIST, são os 3 V’s
de Big Data:

● Volume
● Velocidade
● Variedade

Fonte: NIST.http://dx.doi.org/10.6028/NIST.SP.1500-1
5V’s de Big Data

Fonte: NIST.http://dx.doi.org/10.6028/NIST.SP.1500-1
Habilidades necessárias nas áreas de
Data Science

Fonte: NIST.http://dx.doi.org/10.6028/NIST.SP.1500-1
Unicórnio

Fonte: WIKIPÉDIA.https://en.wikipedia.org/wiki/Unicorn#/media/File:Oftheunicorn.jpg
Fatiando o Unicórnio

Engenheiro de Dados
Engenheiro de Machine Learning
Cientista de Dados
Arquiteto de Big Data
Especialista do Negócio / Analista de Dados
Especialista em Governança de Dados

Fonte: NIST.http://dx.doi.org/10.6028/NIST.SP.1500-1
Arquiteto de Big Data
BASIC QUALIFICATIONS

· Highly technical and analytical with 10 or more years of ETL and analytics systems development and deployment experience
· Strong verbal and written communications skills are a must, as well as the ability to work effectively across internal and external
organizations and virtual teams.
· Ability to think understand complex business requirements and render them as prototype systems with quick turnaround time.
· Implementation and tuning experience in the Big Data Ecosystem, (such as Hadoop, Spark, Presto, Hive), Database (such as Oracle,
MySQL, PostgreSQL, MS SQL Server) and Data Warehouses (such as Redshift, Teradata, Vertica)
· Knowledge of foundation infrastructure requirements such as Networking, Storage, and Hardware Optimization with Hands-on
experience with Amazon Web Services (AWS)
· BS level technical degree required; Computer Science or Mathematics background preferred

Fonte: AWS .https://www.amazon.jobs/en/jobs/923606/big-data-architect


Como se tornar um Arquiteto de Big Data?

BIG DATA
DATA ARCHITECT
Para se tornar um Arquiteto de
ENGINEER SR
DATA Big Data de verdade você
Experiência em
ENGINEER JR projetos envolvendo
deverá possuir experiência em

DBA SR Engenheiro de
Cloud, Infraestrutura
negócios, SQL, Programação,
Infraestrutura, Cloud, Gestão
Administrador de Dados. Fora
DBA JR Local, diferentes
de Projeto, Pessoas,ótima
Banco de Dados linguagem SQL
Administrador de ferramentas de ETL.
comunicação verbal, empatia,
Sênior. SQL e Vasta utiliza programação.
Banco de Dados. Python, Java, API’s e
Shell, Python e Java detalhista e paciente. Estar
experiência com automação.
Conhecimentos em atento às novas tecnologias e
Infraestrutura e
SQL
Obs:.Baseado nos conhecimentos e experiência
Linux do professor e do mercado, além disso também foram utilizadas vagas em aberto por:inovações será fundamental
Amazon, Google, Uber, Airbnb.
para se manter atualizado e em
Engenheiro de Dados vs Cientista de
Dados

Fonte: DATACAMP. https://www.datacamp.com/community/blog/data-scientist-vs-data-engineer


Conclusão sobre a carreira do
Arquiteto de Big Data

Engenheiro de Dados Arquiteto de Big Data

Fonte: POKEMON. https://www.pokemon.com/br/


Arquitetura Paralela

● SISD (single instruction single data) – Um contador de programa – Computadores


seqüenciais
● SIMD (single instruction multiple data) – Um contador de programa, uma
instrução executada por diversos processadores sobre diferentes dados –
Computadores
● MISD (multiple instructions single data)
● MIMD (multiple instructions multiple data)
■ Os vários computadores paralelos e distribuídos atuais
○ SMPs (Symmetric MultiProcessors) - Mesma memória
○ MPPs (Massively Parallel Processors)
○ Cluster ( Network of Computation )

WKIPEDIA, https://en.wikipedia.org/wiki/Flynn%27s_taxonomy
Arquitetura Paralela

● Exemplos de computação paralela aplicadas a projetos em larga escala são os


computadores da Sun Microsystem, HP, IBM entre outros listados no famoso
top500.
● O problema em torno da computação paralela é que ela exige a execução de
hardware específico, criado para tal propósito e com controles específicos
capazes de interconectar os computadores a nível de hardware ( chip )
● Pensar de forma paralela é difícil, portanto criar algoritmos para tal computação é
demorado e custoso
● É caro!

WKIPEDIA, https://en.wikipedia.org/wiki/Flynn%27s_taxonomy
Arquitetura Distribuída

● Inicialmente inferior a computação paralela listada anteriormente


● Computação distribuída é mais geral e abrangente do que computação paralela
● Sistema paralelo e distribuído é uma coleção de componentes de hardware e
software que otimizam o desempenho por problema, vazão de múltiplos
problemas e confiabilidade, ou uma combinação destes

WKIPEDIA, https://en.wikipedia.org/wiki/Flynn%27s_taxonomy
WKIPEDIA, https://pt.wikipedia.org/wiki/Sistema_de_processamento_distribu%C3%ADdo
Arquitetura Paralela

● Exemplos de computação paralela aplicadas a projetos em larga escala são os


computadores da Sun Microsystem, HP, IBM entre outros listados no famoso
top500.
● O problema em torno da computação paralela é que ela exige a execução de
hardware específico, criado para tal propósito e com controles específicos
capazes de interconectar os computadores a nível de hardware ( chip )
● É caro!

WKIPEDIA, https://en.wikipedia.org/wiki/Flynn%27s_taxonomy
ECOSSISTEMA HADOOP

Entendendo profundamente os
componentes de Big Data ( Sistema de
Arquivos )
HDFS, S3, GEN2, OBS, GS
MPPs ( Massively Parallel Processors )

● Redes dedicadas e rápidas


● Cada nó executa sua própria cópia do Sistema Operacional
● Imagem única do sistema
● Visibilidade dos mesmos sistemas de arquivo
● Um escalonador de tarefas
● Partições diferentes para aplicações diferentes
MPPs ( Massively Parallel Processors )

NODE 1 NODE 2 NODE 3

CPU CPU CPU

MEMÓRIA MEMÓRIA MEMÓRIA ESCALONADOR


Hadoop, por onde começar?

WHITE, T. Hadoop: The Definitive Guide, 4th Edition, O’Reilly Media, 2015.
O que é o Hadoop?

O Apache Hadoop é uma Framework ou Plataforma desenvolvida em


Java, para computação distribuída, usada para processamento de
grandes quantidades de informação. Originalmente criado no Yahoo
por Doug Cutting fundador da Cloudera. Esse nome foi dado graças ao
brinquedo preferido de seu filho!

WHITE, T. Hadoop: The Definitive Guide, 4th Edition, O’Reilly Media, 2015.
Ecossistema do Hadoop ( Meet Hadoop )

WHITE, T. Hadoop: The Definitive Guide, 4th Edition, O’Reilly Media, 2015.
O Ecossistema Hadoop ( Meet Hadoop )
● Hive
○ A SQL-like interface to Hadoop files
● Spark ( Spark SQL )
○ An in-memory execution system
● Yarn
○ A distributed resource manager
● Oozie
○ A workflow system
● HBase
○ A NoSQL Database

GORELIK, A. The Enterprise Big Data Lake, O’Reilly Media, 2019.


O que é o MapReduce?

● MapReduce é o algoritmo de chave que o Hadoop


MapReduce engine usa para distribuir o trabalho no cluster;

● É um framework introduzido pelo Google para suportar


computações paralelas; ( Escrito em 2004 )
○ https://research.google/pubs/pub62/

● Permite que programadores sem experiência com sistemas


paralelos e distribuídos facilmente utilizem os recursos de
um grande sistema distribuído;
O que é o MapReduce?

WHITE, T. Hadoop: The Definitive Guide, 4th Edition, O’Reilly Media, 2015.
O que é o MapReduce?

GORELIK, A. The Enterprise Big Data Lake, O’Reilly Media, 2019.


O que é o MapReduce?

WHITE, T. Hadoop: The Definitive Guide, 4th Edition, O’Reilly Media, 2015.
O que é o MapReduce?

WHITE, T. Hadoop: The Definitive Guide, 4th Edition, O’Reilly Media, 2015.
Como o MapReduce funciona no Hadoop?

WHITE, T. Hadoop: The Definitive Guide, 4th Edition, O’Reilly Media, 2015.
Como funciona o HDFS?

WHITE, T. Hadoop: The Definitive Guide, 4th Edition, O’Reilly Media, 2015.
Como funciona a replicação de blocos?

WHITE, T. Hadoop: The Definitive Guide, 4th Edition, O’Reilly Media, 2015.
Sqoop ( SQL to Hadoop )

● O Sqoop ou também conhecido como SQL to Hadoop, do SQL para o


Hadoop foi criado com a finalidade de facilitar a ingestão de bases de
dados SQL para o Hadoop, mas ele também possui o poder de
exportar dados do Hadoop para bases SQL realizando assim o
processo interverso e sendo portanto uma ferramenta de integração
entre bases de dados e o ecossistema Hadoop.
● Originalmente criado como ferramenta de linha de comando o
mesmo foi aprimorado gerando a versão Sqoop2 que é a evolução do
Sqoop1, após aprimoramentos o mesmo se tornou um framework
sendo assim integrado ao ecossistema de desenvolvimento Java API.

WHITE, T. Hadoop: The Definitive Guide, 4th Edition, O’Reilly Media, 2015.
Sqoop ( SQL to Hadoop )

WHITE, T. Hadoop: The Definitive Guide, 4th Edition, O’Reilly Media, 2015.
Sqoop ( Hadoop to SQL )

WHITE, T. Hadoop: The Definitive Guide, 4th Edition, O’Reilly Media, 2015.

Você também pode gostar