Você está na página 1de 7

Programa Semantix Big

Data Engineering
Conteúdo programático
O Treinamento tem duração de 11 semanas e
é formado por 6 módulos, com a seguinte
divisão:

Big Data Foundations (Semana 1, 2 e 3):

Conhecimento de ferramentas atuais no


mercado de Big Data;
Criação e funcionamento de um cluster
Hadoop para Big Data em Docker;
Manipulação de dados com HDFS;
Manipulação de dados com uso do Hive;
Otimização de consultas em grandes
volumes de dados estruturados e
semiestruturados com uso de Hive;
Ingestão de dados relacionais para o
HDFS/Hive, com uso do Sqoop;
Otimização de importação no Sqoop;
Exportação de dados do HDFS para o
SGBD, com uso do Sqoop;
Manipulação de dados com HBase;
Operações com Dataframe em Spark para
processamento de dados em batch;
Uso do Spark SQL Queries para consultas
de dados estruturados e semiestruturados.

MongoDB - Básico (Semana 4):

Entendimento de conceitos e arquitetura


NoSQL e MongoDB;
Instalação de cluster MongoDB através de
container e Cloud;
Manipular coleções, documentos e índices;
Realizar diversas pesquisas no MongoDB
com diferentes operadores;
Fazer uso das interfaces gráficas
MongoExpress e MongoCompass;
Trabalhar com pipeline de agregações;
Entendimento de Replicação e shards.

Redis – Básico (Semana 5):


Entendimento de conceitos e arquitetura
NoSQL e Redis;
Instalação de cluster Redis através de
container;
Manipulação de diversos tipos de estrutura
de dados com Redis-CLI;
Implementar paradigma de mensagens
Pub/Sub;
Configurações básicas de persistência de
dados.

Kafka – Básico (Semana 6):

Entendimento de conceitos e arquitetura


do Kafka e da Confluent;
Instalação de cluster Kafka através de
container;
Gerenciamento de tópicos;
Produção e consumo de dados através do
console;
Entendimento das guias do Control Center;
Desenvolvimento de stream com uso do
KSQL;
Aplicação de KSQL Datagen;
Produção e consumo de dados com uso do
Schema Registry;
Trabalhando com Kafka Connect;
Custos com Confluent Cloud;
Otimização de parâmetros;
Melhores práticas em um cluster Kafka.

Elastic Essential I (Semana 7 e 8):

Entendimento de conceitos e arquitetura


da Elastic;
Instalação de cluster Elastic através de
container;
Realizar operações de CRUD em índices;
Gerenciamento de índices;
Alteração de mapeamento e reindex;
Desenvolvimento de consultas do tipo
term, terms, range, match e multi_match,
com uso de bool query;
Aplicação de analyzers em atributos;
Desenvolvimento de agregações básicas;
Ingestão de dados através de beats e
logstash;
Entendimento das guias do Kibana;

Spark - Big Data Processing (Semana 9, 10 e


11)

Uso do Jupyter Notebooks para a criação


de projetos em Spark com Python
Spark batch intermediario
Operações com RDD em Spark para
processamento de dados em batch;
Uso de Partições com RDD;
Operações com Dataset em Spark para
processamento de dados em batch;
Uso de Dataset em Dataframe e RDD;
Comandos avançados com Dataset;
Uso do IntelliJ IDEA para a criação de
projetos em Spark com Scala;
Struct Streaming para leitura de dados do
Kafka;
Spark Streaming para leitura de dados do
Kafka;
Otimizações com uso de Variáveis
Compartilhadas;
Criações de User defined Function;
Configurações de Tunning para o Spark
Application.

Requisitos mínimos para o treinamento:

Conhecimento intermediário de pelo menos


uma destas linguagens:
Python (Preferível);
Scala;
Java.
Conhecimento intermediário em SQL;
Conhecimento básico em Git.

Intro - Hadoop
Software

open-source

para computação

distribuída e escalável
Intro - HDFS

Você também pode gostar