Resumo Trilha 3

RESUMO TRILHA 3 - PIPELINES E DATA LAKES
 Arquitetura de referência.
 Objetivos e processos envolvidos.
 Recebimento de raw data, prepararação de dados, EDA, transformações.
 Ferramentas de apoio.
Prof° Fabio Lopes
DAG – Processo que tem, começo, meio e fim. Não tem retroalimentação.
Data Lake: Onde os dados ficam armazenados.
Como funciona na prática?
Modelo preditivo, não é 100% exato, pode ou não acontecer a predição.

O Data Lake precisa ser catalogado (meta dados), saber o máximo de informações de cada
dado. Fazer isso, evita que a empresa gasta dinheiro armazenando informações não
necessárias. Há ferramentas que realizam essas catalogações, scripts em R, python, data
bricks.
Gerar os metadados DEVE ser automatizados, pois, através da programação a segurança do

MD se torna mais confiável.
Ferramentas disponíveis para trabalhar com pipeline. Escolher qual a mais adequada para
empresa é uma tarefa difícil e requer um estudo da área responsável.

Resumo Trilha 3

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Resumo Trilha 3

Enviado por

Direitos autorais:

Formatos disponíveis

RESUMO TRILHA 3 - PIPELINES E DATA LAKES

 Objetivos e processos envolvidos.

 Recebimento de raw data, prepararação de dados, EDA, transformações.

Prof° Fabio Lopes

Data Lake: Onde os dados ficam armazenados.

Como funciona na prática?

Modelo preditivo, não é 100% exato, pode ou não acontecer a predição.

Gerar os metadados DEVE ser automatizados, pois, através da programação a segurança do

Você também pode gostar