Você está na página 1de 20

CARREIRA DE

CIENTISTA DE DADOS
Plano de estudos
A CODERHOUSE é uma escola digital com
cursos online e ao vivo nas áreas de
Design, Produto, Marketing, Programação
e Dados. Nascemos para democratizar a
educação digital e tecnológica na
América Latina. Criamos uma plataforma
para tornar este ensino online e ao vivo um
meio de transformação. Individual.
Coletiva. E ofertamos programas de
educação aplicados que mudam a sua
carreira porque te ajudam a executar mais
e melhor. Mais de 70.000 estudantes de
diversos países já passaram por nossos
cursos. Entre para a maior comunidade de
aprendizagem da América Latina.
Carreira de Cientista de Dados
Nesta carreira você aprenderá os conceitos gerais de bancos de
dados para trabalhar em bancos de dados relacionais. Você vai estar
apto a atuar como analista técnico e como usuário de bancos de
dados relacionais usando a linguagem de consulta estruturada (SQL).
Você vai projetar e desenvolver dashboard com a ferramenta Power BI,
usando DAX (Data Analysis Expressions), M Language e Power Query.
Ao concluir o primeiro curso, você poderá desenvolver projetos de
análise de dados como analista full stack, desde o levantamento inicial
até a criação de uma base de dados e de painéis de controle. Além
disso, no segundo curso, você aprenderá a teoria e a implementação
de projetos de Data Science.

MODALIDADE DO CURSO DURAÇÃO DO CURSO


Online e ao vivo 38 semanas

Plano de estudos
Cursos da Carreira

1. Data Analytics
Você vai aprender como implementar projetos de estruturação e análise
de dados, de ponta a ponta. Você projetará e desenvolverá painéis com a
ferramenta Power BI, usando DAX (Data Analysis Expressions), linguagem M
e Power Query. No final do curso, você será capaz de desenvolver projetos
de análise de dados como analista de dados full stack, desde a pesquisa
inicial até a criação de um dashboard.

2. Data Science
Você vai aprender a teoria e os fundamentos técnicos para a construção
de modelos de Machine Learning. Você vai praticar a linguagem de
programação Python para construir algoritmos de aprendizagem que
apoiam a tomada de decisão. Ao final, você será capaz de criar modelos
de Machine Learning do zero e poderá criar um portfólio no GitHub, para
demonstrar seu conhecimento para futuros empregadores.

Plano de estudos
REQUISITOS:

Preciso ter quais conhecimentos prévios?


Conhecimento básico em Excel: como fazer uma tabela dinâmica, e uso de
funções básicas, como CONDICIONAIS, SE, e VLOOKUP.
Nota: o conhecimento prévio de Excel é base para o uso do Power BI.

Além disso, você vai precisar de:


+ Processador Intel Pentium 4, AMD Opteron ou mais recente. Quatro
núcleos ou mais.
+ 4 GB de memória RAM.
+ Espaço livre mínimo no disco rígido de 1,5 GB.
+ Resolução de tela de 1366×768 ou superior.
+ Instalação do aplicativo Power BI em sua versão mais recente.
+ Instalação da versão SQL SERVER Express

Nota: O Windows 8 ou superior é necessário para a instalação do software.


Se você usar outro sistema operacional, deverá instalar uma máquina
virtual para executar os programas.

Plano de estudos
PRINCIPAIS FERRAMENTAS USADAS NO CURSO:

Você vai precisar dessas ferramentas nos cursos.

Plano de estudos
POR QUE A CODERHOUSE?

INTERNACIONAL CODERBOLSA CARREIRA


Acesso à plataforma Preço mais acessível para Acesso a lista de vagas, e
interativa permite troca todos os estudantes que suporte na elaboração
de experiência com possuem +85% de de currículo e preparação
profissionais de toda a presença e 100% de para entrevista (serviço
América Latina. entrega dos desafios. adquirido à parte).

AULAS ONLINE E AO VIVO APRENDER FAZENDO ATIVIDADES COLABORATIVAS


As aulas ao vivo Programa aplicado: Programa contém
possibilitam troca de o professor explica, discussões e desafios
experiência entre os depois faz, e, finalmente, práticos junto com outros
estudantes, os o estudante faz. estudantes, em grupos
professores e os tutores. reduzidos.

Plano de estudos
CONTEÚDO

Data analytics:
Aula 1: Data Analytics Aula 4: Sublinguagem SQL DDL
O analista de dados. Linguagem SQL.
BI x Data Analytics. Sublinguagem DDL.
Tipos de análises. Sentenças e sintaxe.
Ciclo de vida dos dados.
Aula 5: Sublinguagem SQL DML
Aula 2: Banco de Dados Sublinguagem DML.
Componentes. Sentenças e sintaxe.
Modelo de banco de dados. Sintaxe SQL.
Linguagens de consultas. Sentenças SQL mais usadas.
Data warehouse.
Aula 6: Linguagem SQL
Aula 3: Bancos de dados relacionais Operadores.
Tabelas. Funções.
Vantagens do modelo relacional.
Tipos de relacionamentos. Aula 7: Funções escalares e subconsultas
Tipos de chaves. Funções escalares.
Modelo entidade-relacionamento. Tipos de funções.
Caracteres.
Data e tempo.
Matemática e conversão.
Subconsultas.

Plano de estudos
CONTEÚDO

Aula 8: JOIN e UNION Aula 12: Gráficos eficientes


INNER JOIN. Visualização eficiente.
LEFT JOIN. Estrutura e design.
RIGHT JOIN. Gráficos apropriados.
OUTER JOIN. Formato.
UNION. Acessibilidade.
Filtros e parâmetros.
Aula 9: Workshop de Banco de Dados Erros de visualização.
Implementação dos conhecimentos
adquiridos durante o módulo de Aula 13: Introdução ao Power BI
banco de dados. Barra de ferramentas.
Identificação do modelo relacional Visualização.
de um banco de dados. Conectores.
Desenvolvimento de consultas SQL. Paginação.
Painéis.
Aula 10: Especialista convidado Dimensões e medidas.
Funções DAX.
Aula 11: Histórias baseadas em dados
Storytelling. Aula 14: Transformação de dados
Visualização de dados. Ferramentas mais usadas.
Diagramação de dashboards. Modelagem relacional.
Componentes de um dashboard. Bridge table.
Mockup.

Plano de estudos
CONTEÚDO

Aula 15: Dimensões e medidas. Aula 18: Workshop Power BI


Dimensões. Criação de um dashboard.
Medidas. Implementação de storytelling.
Tabela calendário. Criação de medidas calculadas.
Serviço do Power BI. Uso de filtros e segmentações.
Publicar no Power BI.
Aula 19: Especialista convidado
Aula 16: Gráficos e segmentações
Gráficos. Aula 20: Medidas de tendência central
Tipos de visualizações. Estatística descritiva.
Configurando visualizações. Medidas de tendência central.
Interações de filtros e gráficos. Medidas de posição.
Caixas de texto. Gráficos para medidas de posição.
Imagens.
Botões. Aula 21: Tips and Tricks
Bookmarks.
Aula 17: Medidas calculadas avançadas Tooltip.
Função IF.
Função CALCULATE. Aulas 22 e 23: Projeto final
Variáveis. Apresentação e feedbacks.
Parâmetros.

Plano de estudos
CONTEÚDO

PROJETO FINAL

Projeto: Análise e visualização de dados


Você desenvolverá o Projeto Final em grupo. Deverá gerenciar um
projeto com as características necessárias para sua implementação no
nível estratégico e no nível operacional de uma organização. Você
implementará um banco de dados de acordo com o tópico a ser
discutido. Desenvolverá e desenhará um modelo de dados relacional,
com o referido banco de dados, com a extensão de tabela necessária.
Ele será definido no Power BI.

Plano de estudos
CONTEÚDO

Data Science:
Aula 1: A Necessidade de Informação na Aula 4: Programação com arrays:
Indústria 4.0 introdução ao NumPy
Transformação digital e indústria 4.0. Recall: list, tuple, dict, set.
Estratégia data-driven. Array: NumPy e ndarrays.
Componentes da estratégia Acesso ao ndarrays
data-driven. Operações com o NumPy.

Aula 2: Introdução à Programação Aula 5: Introdução à Manipulação


com Python I de Dados com Panda (Parte I)
Programação e linguagem Data Wrangling e Pandas.
Interpretado x Compilado As estruturas de dados no Pandas.
Python tradicional Seleção de elementos:
IPython e notebooks series e data frames.
Operações básicas.
Aula 3: Introdução à Programação
com Python II Aula 6: Introdução à Manipulação
Revisão de noções básicas de de Dados com Panda (Parte II)
programação. Operações: agregações e
Estrutura de controle: for, while, if. operações sobre strings
Funções, argumentos e retorno. Introdução às séries
Tipos de dados no Python. cronológicas.

Plano de estudos
CONTEÚDO

Aula 7: Visualizações em Python (Parte I) Aula 10: Ferramentas de visualização


Introdução ao Matplotlib: interfaces, Visualização de dados.
gráficos comuns, subgráficos. Análise básica: bar chart e
Introdução ao Seaborn: visualização histogramas.
de distribuições, desagregação por Relação: séries temporais;
variáveis categóricas. diagramas de dispersão; e correlação.
Análises de distribuição: boxplot.
Aula 8: Visualizações em Python Gráficos de mais de duas dimensões.
(Parte II)
Personalização do Matplotlib. Aula 11: Pré-processamento de dados
A biblioteca Seaborn. Conceito de pré-processamento.
Detecção e tratamento de outliers.
Aula 9: Estatística Descritiva Dados ausentes.
Tipos de variáveis. Componentes principais.
Medidas de resumo.
Distribuição das variáveis. Aula 12: Introdução à análise preditiva
com regressão
Conceito de regressão.
Correlação, causalidade e
dependência.
Função linear.
Modelo de Regressão Linear.
Condições e uso do modelo.

Plano de estudos
CONTEÚDO

Aula 13: Fundamentos de bancos de Aula 16: Modelos Analíticos para


dados Ciência de Dados I
Sistemas de gerenciamento de Machine learning: fundamentos,
banco de dados (DBMS). benefícios, aplicações.
Bancos de dados relacionais e Estruturação de um projeto de
não-relacionais (NoSQL). machine learning.

Aula 14: Linguagem de Consulta Aula 17: Modelos Analíticos para


Estruturada - SQL - Parte I Ciência de Dados II
Introdução SQL. Aprendizado supervisionado.
DDL e suas sentenças. Algoritmos de Classificação:
DML, sentenças e predicados. árvore de decisão e
K-Nearest-Neighbor (K-NN).
Aula 15: Linguagem de Consulta Algoritmos de Regressão.
Estruturada SQL - Parte II
Consultas de maior complexidade. Aula 18: Modelos Analíticos para
TCL, transações e operações. Ciência de Dados III
Aprendizado não supervisionado.
Clustering.
Regras de Associação.
Redução da Dimensionalidade.
PCA.

Plano de estudos
CONTEÚDO

Aula 19: Estudos de Casos de Modelos Aula 22: Algorítmos e Validação de


Analíticos I Modelos de Machine Learning
Casos de sucesso com modelos Dataset, registro, atributo, objetivo,
analíticos no mercado brasileiro. engenharia de recursos, outlier.
Overfitting; underfitting.
Aula 20: Estudos de Casos de Modelos Matriz de confusão.
Analíticos II Métricas e modelos de regressão:
Casos de sucesso com modelos RMSE; MAE; R2.
analíticos no mercado brasileiro.
Aula 23: Stack Tecnológico I
Aula 21: Introdução à Inteligência Tecnologias de bancos de dados:
Artificial (IA) relacionais; não-relacionais.
História da Inteligência Artificial. Linguagens: R; Python.
Tipos de Inteligência. Visualização: Power BI; Tableau.
IA e Robótica (RPA).
Aplicações na Indústria. Aula 24: Stack Tecnológico II
Riscos e Desafios da IA. Cloud Computing: principais
provedores.
Big Data: principais ferramentas.
ETL: principais ferramentas.
CONTEÚDO

Aula 25: Data Acquisition I Aula 29: Data Wrangling III


Leitura de fontes de dados com Boas práticas do data wrangling.
Pandas: leitura de tabelas em Revisão de data wrangling.
arquivos simples.
Aula 30: Exploratory Data Analysis (EDA)
Aula 26: Data Acquisition II Etapas da EDA
Conexão a modelos relacionais Análise Estatística.
SQL usando Pandas. Correlações e Variáveis.
JSON. Identificação de Outliers.
Introdução a APIs: Requests.get Valores ausentes.

Aula 27: Data Wrangling I Aula 31: Gramática dos Gráficos I


Data wrangling em um projeto de Princípios do design analítico.
ciência de dados. Gestalt.
Etapas do data wrangling.
Fusão de DataFrames. Aula 32: Gramática dos Gráficos II
Fundamentos do Storytelling.
Aula 28: Data Wrangling II Principios de Data Storytelling.
Data transformation: opções de CX, UX, UI.
remoção de duplicados; índices Teoria da cor.
hierárquicos; pivot; groupby; apply;
outras funções.
CONTEÚDO

Aula 33: Gramática dos Gráficos III Aula 39: Algoritmos de Classificação II
Análise de Dados Espaciais. KNN.
Mapas em Python. Random Forest.
Regressão Logística.
Aula 34: Análise Univariada
Análise estatística univariada. Aula 40: Algoritmos de Classificação III
Gráficos. SVM (Support Vector Machine).
Hypertuning.
Aula 35: Análise Bivariada
Tipos de análise bivariada. Aula 41: Algoritmos de Clustering I
k-means.
Aula 36: Análise Multivariada HDBSCAN.
Tipos de análise multivariada.
Aula 42: Algoritmos de Clustering II
Aula 37: Workshop Análise Multivariada Redução de Dimensionalidade.
Aula prática. PCA.
Detecção de Outliers.
Aula 38: Algoritmos de Classificação I
Machine learning no Python. Aula 43: Seleção de Algoritmo e
Scikit-learn. Treinamento de Modelo I
Matriz de confusão e suas métricas.
CONTEÚDO

Aula 44: Seleção de Algoritmo e Aula 48: Modelos de Ensamble e


Treinamento de Modelo II Boosting
Métricas para algoritmos de Algoritmos de Bagging.
regressão. Algoritmos de Boosting.

Aula 45: Validação de Modelos - Aula 49: Implementação de Modelos -


Métricas MLOPS
Índice de Silhouette. Fundamentos de computação na
nuvem.
Aula 46: Melhoria de Modelos de DevOps.
Machine Learning I MLOps.
Viés x Variância.
Validação simples. Aula 50 - Workshop
LOOCV. Trabalho sobre o Projeto.
Otimização de modelos. Entrevista com Especialista.

Aula 47: Melhora de Modelos de Aulas 51 a 53


Machine Learning II Apresentação dos Projetos.
K-fold cross validation.
Stratified k-fold.
CONTEÚDO

PROJETO FINAL

Modelo Preditivo com Machine Learning


Você desenvolverá o Projeto Final em grupo. Você vai gerenciar um
projeto com as características necessárias para sua implementação em
nível técnico de uma organização. Você implementará um modelo
analítico de acordo com o tema a ser discutido. Você projetará e
desenvolverá um Modelo de Machine Learning com o algoritmo
apropriado e sua respectiva documentação. O modelo será
desenvolvido em Python. O modelo de bloco comentado deve ser
definido no Jupyter Notebook. O desenvolvimento terá pelo menos uma
iteração para otimizar o modelo construído. Todas as métricas devem
ser documentadas. Você irá redigir um Documento Executivo que
permitirá informar qualquer pessoa sobre o projeto finalizado e as
possíveis iniciativas que podem ser realizadas para complementar o
projeto.
CARREIRA DE CIENTISTA DE DADOS

ajuda@coderhouse.com
www.coderhouse.com.br
instagram.com/coderhouse.br

Você também pode gostar