Escolar Documentos
Profissional Documentos
Cultura Documentos
ESPECIALISTAS EM CLOUDS.
1
ÍNDICE
+ Sobre mim + Definindo papéis
+ Big Data + Principais desafios
+ Data Lake + Como podemos te ajudar
+ Por onde começar + Contato
+ Exemplos de arquiteturas
2
VOLTAR PARA O ÍNDICE
SOBRE MIM
SOBRE MIM... VOLTAR PARA O ÍNDICE
https://www.linkedin.com/in/edumarreto
Gerente de Big Data - Data Engineering;
eduardo.marreto@rivendel.com.br
4
VOLTAR PARA O ÍNDICE
BIG DATA
INDÚSTRIA 4.0 VOLTAR PARA O ÍNDICE
● 1ª Revolução industrial
Máquina a vapor;
● 2ª Revolução industrial
Indústria Química, Elétrica,
Petróleo e Aço;
● 4ª Revolução (a partir de
2016)
● 3ª Revolução Big data, Inteligência Artificial,
Computadores e Cloud IoT e disrupções;
Computing; (Klaus Schwab, “Fórum Econômico Mundial”)
6
COMO DADOS TEM MUDADO O MUNDO? VOLTAR PARA O ÍNDICE
● CRM e Campanhas
○ Generalização -> Personalização;
○ Engines de Recomendação;
7
VOLTAR PARA O ÍNDICE
8
PRINCÍPIO DO BIG DATA - 5 V’S VOLTAR PARA O ÍNDICE
9
GRANDES DESAFIOS VOLTAR PARA O ÍNDICE
10
VOLTAR PARA O ÍNDICE
DATA LAKE
ARQUITETURA DATA LAKE VOLTAR PARA O ÍNDICE
12
DATA LAKE (DE VERDADE) VOLTAR PARA O ÍNDICE
13
DATA LAKE vs DATA WAREHOUSE VOLTAR PARA O ÍNDICE
Fonte: http://www.dataversity.net/data-warehouse-vs-data-lake-technology-different-approaches-managing-data/
14
DATA LAKE vs DATA WAREHOUSE VOLTAR PARA O ÍNDICE
15
VOLTAR PARA O ÍNDICE
NÃO-GERENCIADA GERENCIADA
● Maior liberdade para seleção de ferramentas; ● Menor esforço operacional;
● Maior liberdade em setup e customização; ● Confiabilidade da cloud;
● Maior esforço operacional; ● Possibilidade de “Vendor lock-in”;
● Maiores riscos de indisponibilidade; ● Menor liberdade de seleção e setup de
ferramentas;
17
ENTENDENDO MEUS DADOS VOLTAR PARA O ÍNDICE
18
SELECIONANDO AS FERRAMENTAS IDEAIS VOLTAR PARA O ÍNDICE
Azure Data
lake
19
20
VOLTAR PARA O ÍNDICE
EXEMPLOS DE ARQUITETURAS
ARQUITETURA LÓGICA VOLTAR PARA O ÍNDICE
EL KAIM (2016)
22
ARQUITETURA NÃO GERENCIADA EM AWS VOLTAR PARA O ÍNDICE
23
ARQUITETURA GERENCIADA AWS - “S3” VOLTAR PARA O ÍNDICE
24
ARQUITETURA GERENCIADA GOOGLE CLOUD VOLTAR PARA O ÍNDICE
25
VOLTAR PARA O ÍNDICE
DEFININDO PAPÉIS
DATA ENGINEER VOLTAR PARA O ÍNDICE
Atividades:
● Responsáveis por preparar o ambiente Big Data;
● Desenvolvem arquiteturas de integração entre diferentes origens e formatos de dados;
● Executam tasks de Extração, Transformação e Carga no Data Lake;
● Fornecem estruturas de dados ao time de Data Science;
● Desenvolvem tasks de marcações de Qualidade de Dados;
● Podem realizar “Data Wrangling”;
Conhecimentos: Hadoop, Spark, MapReduce, Hive, Pig, Nifi, Data Streaming, NoSQL, SQL, APIs,
DevOps, Dev (Java, Scala, Python);
27
DATA SCIENTIST VOLTAR PARA O ÍNDICE
Atividades:
● Transforma dados em insights;
● Capacidade de “Story Telling”;
● Estuda variáveis de negócios e modelos;
● Efetuam Data mining e preparam os dados;
● Criam modelos de Machine Learning e Recomendações;
28
VOLTAR PARA O ÍNDICE
PRINCIPAIS DESAFIOS
DESAFIOS VOLTAR PARA O ÍNDICE
Tecnologia
● Ambiente Hadoop é muito vasto;
● Novas tecnologias a todo momento;
● Aplicações/Legados não preparadas para integrações;
● Cargas iniciais de dados;
Governança de dados
● Tipicamente os dados estão duplicados, desformatados e esparramados;
● Data gravity;
● Regulações e compliance;
● Tipicamente as empresas desconhecem as formas de acessos aos dados;
Pessoas
● Formar pessoas é um processo demorado (e árduo);
● Competitividade por pessoas;
30
VOLTAR PARA O ÍNDICE
32
VOLTAR PARA O ÍNDICE
Eduardo Marreto
Gerente de Tecnologia e Data Engineer
especialistascloud@mandic.net.br
4007-2442 – www.mandic.com.br