Você está na página 1de 33

MANDIC + RIVENDEL.

ESPECIALISTAS EM CLOUDS.

Big Data &


Estratégia Data Lake
Eduardo Marreto

1
ÍNDICE
+ Sobre mim + Definindo papéis
+ Big Data + Principais desafios
+ Data Lake + Como podemos te ajudar
+ Por onde começar + Contato
+ Exemplos de arquiteturas

Big Data &


Estratégia Data Lake

2
VOLTAR PARA O ÍNDICE

SOBRE MIM
SOBRE MIM... VOLTAR PARA O ÍNDICE

10+ anos no mercado de Software;


Experiência em Consultorias e Startups;

Professor de Pós-graduação (Lato sensu);


Pesquisador em Grupo de Data Science - USP
Mestre em Engenharia da Computação;
Eduardo Marreto

https://www.linkedin.com/in/edumarreto
Gerente de Big Data - Data Engineering;
eduardo.marreto@rivendel.com.br

4
VOLTAR PARA O ÍNDICE

BIG DATA
INDÚSTRIA 4.0 VOLTAR PARA O ÍNDICE

● 1ª Revolução industrial
Máquina a vapor;

● 2ª Revolução industrial
Indústria Química, Elétrica,
Petróleo e Aço;

● 4ª Revolução (a partir de
2016)
● 3ª Revolução Big data, Inteligência Artificial,
Computadores e Cloud IoT e disrupções;
Computing; (Klaus Schwab, “Fórum Econômico Mundial”)

6
COMO DADOS TEM MUDADO O MUNDO? VOLTAR PARA O ÍNDICE

● Dados em toda a parte;


○ Transações, Geoposicional, Social,
Áudio, Imagens, IoT…;

● Empresas Analytics driven;


○ Dados em “real-time“;
○ Gestão de produto, KPIs;

● CRM e Campanhas
○ Generalização -> Personalização;
○ Engines de Recomendação;

7
VOLTAR PARA O ÍNDICE

Fonte: Cumulous Media

8
PRINCÍPIO DO BIG DATA - 5 V’S VOLTAR PARA O ÍNDICE

9
GRANDES DESAFIOS VOLTAR PARA O ÍNDICE

● Grande volume de dados;

● Dados não-estruturados e descentralizados;


○ 80% dos dados corporativos são não-estruturados (Gartner);
● Limitação dos times de Data Science para acesso aos dados;

Arquitetura Data lake

10
VOLTAR PARA O ÍNDICE

DATA LAKE
ARQUITETURA DATA LAKE VOLTAR PARA O ÍNDICE

“Se você pensar em um Data Mart


como uma garrafa de água - limpa,
embalada e estruturada para fácil
consumo - o Data Lake é onde a água
se encontra em seu estado mais
natural. O conteúdo provém de
diversas origens e várias usuários do
lago podem examinar, mergulhar ou
colher amostras da água.”
(James Dixon, 2010 - Pentaho)

12
DATA LAKE (DE VERDADE) VOLTAR PARA O ÍNDICE

“Repositório raw e centralizado de


todos os dados de sua empresa
(streaming, arquivos, sensores,
imagens, vídeos...)”

13
DATA LAKE vs DATA WAREHOUSE VOLTAR PARA O ÍNDICE

Fonte: http://www.dataversity.net/data-warehouse-vs-data-lake-technology-different-approaches-managing-data/

14
DATA LAKE vs DATA WAREHOUSE VOLTAR PARA O ÍNDICE

● Foco na Exploração e descoberta de estruturas;


○ Novos questionamentos em dados desconhecidos;
● Maior liberdade aos Data Scientists;

● Foco na Exploração de estruturas conhecidas;


● Menos liberdade aos Data Scientists, maior agilidade aos BI
Analysts;

Ambas estruturas podem coexistir

15
VOLTAR PARA O ÍNDICE

POR ONDE COMEÇAR?


DEFININDO UMA ARQUITETURA VOLTAR PARA O ÍNDICE

NÃO-GERENCIADA GERENCIADA
● Maior liberdade para seleção de ferramentas; ● Menor esforço operacional;
● Maior liberdade em setup e customização; ● Confiabilidade da cloud;
● Maior esforço operacional; ● Possibilidade de “Vendor lock-in”;
● Maiores riscos de indisponibilidade; ● Menor liberdade de seleção e setup de
ferramentas;

Custos: variável de acordo com cenário;


Tudo tende a ser ecosistema Hadoop;

17
ENTENDENDO MEUS DADOS VOLTAR PARA O ÍNDICE

● Por onde começar a entregar valor?


○ Primeiras integrações;
● Onde estão dispostos meus dados?
● Quais os volumes esperados?
● Quais os formatos?
● Como consumir estes dados?

18
SELECIONANDO AS FERRAMENTAS IDEAIS VOLTAR PARA O ÍNDICE

● Exemplo de ferramentas para processamento de dados

● Exemplo de ferramentas para armazenamento e acesso a dados

Azure Data
lake

19
20
VOLTAR PARA O ÍNDICE

EXEMPLOS DE ARQUITETURAS
ARQUITETURA LÓGICA VOLTAR PARA O ÍNDICE

EL KAIM (2016)

22
ARQUITETURA NÃO GERENCIADA EM AWS VOLTAR PARA O ÍNDICE

23
ARQUITETURA GERENCIADA AWS - “S3” VOLTAR PARA O ÍNDICE

24
ARQUITETURA GERENCIADA GOOGLE CLOUD VOLTAR PARA O ÍNDICE

25
VOLTAR PARA O ÍNDICE

DEFININDO PAPÉIS
DATA ENGINEER VOLTAR PARA O ÍNDICE

Atividades:
● Responsáveis por preparar o ambiente Big Data;
● Desenvolvem arquiteturas de integração entre diferentes origens e formatos de dados;
● Executam tasks de Extração, Transformação e Carga no Data Lake;
● Fornecem estruturas de dados ao time de Data Science;
● Desenvolvem tasks de marcações de Qualidade de Dados;
● Podem realizar “Data Wrangling”;

Conhecimentos: Hadoop, Spark, MapReduce, Hive, Pig, Nifi, Data Streaming, NoSQL, SQL, APIs,
DevOps, Dev (Java, Scala, Python);

27
DATA SCIENTIST VOLTAR PARA O ÍNDICE

Atividades:
● Transforma dados em insights;
● Capacidade de “Story Telling”;
● Estuda variáveis de negócios e modelos;
● Efetuam Data mining e preparam os dados;
● Criam modelos de Machine Learning e Recomendações;

Conhecimentos: Estatística, Negócios, R, Scala, Spark, Hadoop, Python (Notebooks);

28
VOLTAR PARA O ÍNDICE

PRINCIPAIS DESAFIOS
DESAFIOS VOLTAR PARA O ÍNDICE

Tecnologia
● Ambiente Hadoop é muito vasto;
● Novas tecnologias a todo momento;
● Aplicações/Legados não preparadas para integrações;
● Cargas iniciais de dados;

Governança de dados
● Tipicamente os dados estão duplicados, desformatados e esparramados;
● Data gravity;
● Regulações e compliance;
● Tipicamente as empresas desconhecem as formas de acessos aos dados;

Pessoas
● Formar pessoas é um processo demorado (e árduo);
● Competitividade por pessoas;

30
VOLTAR PARA O ÍNDICE

COMO PODEMOS TE AJUDAR?


COMO PODEMOS TE AJUDAR? VOLTAR PARA O ÍNDICE

● Especialistas em Data Engineering;


● Especialistas em Clouds;
● Experiência em estruturação e desenvolvimento de Arquitetura Data Lake;

32
VOLTAR PARA O ÍNDICE

Eduardo Marreto
Gerente de Tecnologia e Data Engineer
especialistascloud@mandic.net.br
4007-2442 – www.mandic.com.br

Você também pode gostar