Você está na página 1de 4

COLETA E ARMAZENAMENTO DE DADOS

Prof° Fabio Lopes

 Fontes de dados / dados abertos. 

 Coleta em fluxo e em lote. 

 ETL vs. ELT.

 Arquitetura lambda e análise em tempo real. 

 Ferramentas de apoio.

Objetivos de aprendizagem:

 Conhecer fontes de origem dos dados para big data analytics.

 Estudar as modalidades de coleta e as ferramentas de apoio para estas atividades do


pipeline.

RESUMO TRILHA 2: FONTES E RECEBIMENTO DOS DADOS

Fonte primarias: dados que a empresa desenvolve o método, captura, processamento e dados
estruturados.

Carece de maior recurso para ser adquirido, porém, tem maior liberdade para
personalização/filtragem

Fontes secundarias: Podem ser governamentais, publicas, acadêmicas, gratuitas ou pagas.

São dados que já vem prontos para realizar o analytics, porém, não temos como fazer
muito personalizações, são dados prontos. Algumas empresas como SERASA e BOA VISTA
vendem dados para as empresas.
Os sensores são de extrema importância para coletarmos dados e posteriormente realizarmos
o tratamento deles para finalidade desejada. Por exemplo, um sensor de pressão na suspensão
dos metros da linha amarela, gera um dado de qual vagão está mais cheio ou vazio. Com base
nisso, você pode tomar a decisão de qual vagão ira embarcar.

ORIGENS DOS DADOS

STRAMING – Tratar os dados em tempo real, por exemplo, a variação de uma ação na
B3.

DADOS OPERACIONAIS – Extraidos do próprio sistema da empresa

Saas/API – Extrair de um sistema fora do ambiente da empresa


ETL – Recebe o dado (extract), transforma os dados e no final entrega o relatório já
estruturado para o analytics

ELT – Extrai os dados, armazena os dados (data lake) e só transforma os dados quando precisa,
mantem o dado bruto (raw data) dando liberdade para efetuar analises mais personalizadas.

Arquiteturas Lambda e Kappa


RESUMO

Você também pode gostar