Você está na página 1de 5

Índice de Conteúdos: 

 
● Introdução 
○ Slides 
● Base Comum Teórica 
○ Slides 
○  
● Parte I 
○ Introdução à Cloud 
■ Slides 
■ Lab 0 
■ Lab 1 
○ Bancos NoSQL 
■ Slides 
■ Lab 2 
○ Batch Processing e Data Lake 
■ Slides 
 
● Parte II 
○ Streaming Processing 
○ APIs de Coleta 
○ Produtizando Machine Learning 
■ Slides 
● Concluindo e Próximos Passos 
○ Apéndice A: Git e GitHub 
■ Slides 
■ Lab 
 

   
EMENTA 

Curso Completo de Engenharia de Dados na 


AWS 
 
Curso Completo de Engenharia de Dados na AWS 

Tópicos 
Introdução 
Base comum teórica 
Parte I 
Introdução à Cloud 
Bancos NoSQL 
Batch Processing e Data Lake 
Parte II 
Streaming Processing 
APIs de Coleta 
Produtizando Machine Learning 
Concluindo e Próximos Passos 
Apéndice A: Git e GitHub 
 
 

   
Tópicos 

Introdução 
 
● Seja Bem-Vindo! 
● Pra quem é este curso/livro? 
● O que você aprenderá nesse curso 
● Entre no chat exclusivo para alunos! 
● Agenda do curso 
● O que é Engenharia de Dados? 
● O que faz um Engenheiro de Dados? 
● Os tipos de Engenheiros de Dados. 
● Cientista de Dados vs Engenheiro de Dados 
 

Base comum teórica 


 
● O que é Big Data? Um problema! 
● Arquitetura Democrática de Dados 
● Databases vs Datastores 
● SQL vs NoSQL 
● Teorema CAP e ACID 
● Batch e Streaming 
 

NoSQL, Data Lakes e Batch Processing - Parte I 

Introdução à Cloud 
 
● O que é e como surgiu a Cloud? 
● A grande batalha: AWS x Google Cloud x Azure 
● Lab 0: Criando sua conta na AWS 
● AWS EC2: Servidores na Cloud 
● AWS RDS: Bancos SQL na Cloud 
● Lab 1: Deploy do Metabase + AWS RDS 
 
Bancos NoSQL 
● Tipos de bancos NoSQL 
● O queridinho dos devs: MongoDB 
● Lab 2: Cluster MongoDB com Réplicas 
● Ultra velocidade na memória com Redis 
● Lab 3: Cache de aplicação com Redis 
● A Ascensão de um intruso: ElasticSearch 
● Lab 4: Dashboards Near-Realtime com AWS ElasticSearch Services 

meBatch Processing e Data Lake 


● Sistemas de Arquivos distribuídos 
● Tipos de Storage na AWS 
● O serviço mais usado da AWS: o S3 
● Estruturando Data Lakes de verdade! 
● Não deixe seu Lake se tornar Swamp: Governança de Dados! 
● Lab 5: um protótipo de Data Lake com Amazon S3 e Dremio 
● Plataformas de Computação Distribuída 
● O declínio do Elefantinho: Hadoop 
● O onipresente e multi-funcional Apache Spark 
● RDD: o Spark por debaixo dos panos 
● Lab 6: Subindo um cluster AWS EMR 
● Lab 7: Batch Processing com Spark e Zeppelin 

Streaming Processing, APIs e ML - Parte II 

Streaming Processing 
● A necessidade do Tempo-Real 
● Plataformas de Streaming Distribuídas 
● Será que devo usar Kafka? 
● Lab 8: Entregando dados em tempo real com Kinesis Stream e Firehose 
● Telinha é para os fracos: Provisionando tudo com Terraform! 
● Lab 8.5: Provisionando ambientes com Terraform 
● Pra quê dificultar? SQL no Streaming! 
● Lab 9: Kinesis Analytics e Real-time Notification 
 

APIs de Coleta 
● Coleta de Dados em tempo-real 
● Lab 10: Coletando dados de diversas fontes com Logstash 
● AWS VPC: A Network na Cloud 
● Docker: sim, você também precisa dominá-lo! 
● Lab 11: Subindo uma API altamente disponível e escalável no AWS Fargate 

Produtizando Machine Learning 


 
● Seja o melhor amigo do Cientista de Dados! 
● Tipos de Aprendizado de Máquina. 
● Principais separações de projetos de ML: Modelagem e Predição 
● Serverless: mas o quê?? 
● Lab 12: Modelagem de ML usando AWS Glue 
● Lab 13: Predição com AWS Lambda + S3 

Concluindo e Próximos Passos 


● E agora? Pra onde ir? 
● Agradecimento e Referências 

Apéndice A: Git e GitHub 


● O que é e pra que: versionamento de código. 
● Git e GitHub: são a mesma coisa? 
● Primeiros comandos básicos de Git 
● GitFlow: Fluxo colaborativo básico de produção de software. 
● Lab A: Evoluindo softwares com GitHub. 

Você também pode gostar