Você está na página 1de 4

RESUMO TRILHA 3 - PIPELINES E DATA LAKES

 Arquitetura de referência.

 Objetivos e processos envolvidos.

 Recebimento de raw data, prepararação de dados, EDA, transformações.

 Ferramentas de apoio.

Prof° Fabio Lopes

DAG – Processo que tem, começo, meio e fim. Não tem retroalimentação.

Data Lake: Onde os dados ficam armazenados.

Como funciona na prática?

Modelo preditivo, não é 100% exato, pode ou não acontecer a predição.


O Data Lake precisa ser catalogado (meta dados), saber o máximo de informações de cada
dado. Fazer isso, evita que a empresa gasta dinheiro armazenando informações não
necessárias. Há ferramentas que realizam essas catalogações, scripts em R, python, data
bricks.

Gerar os metadados DEVE ser automatizados, pois, através da programação a segurança do


MD se torna mais confiável.

Ferramentas disponíveis para trabalhar com pipeline. Escolher qual a mais adequada para
empresa é uma tarefa difícil e requer um estudo da área responsável.

Você também pode gostar