Você está na página 1de 29

PROGRAMA: CIÊNCIA DE

DADOS IMPRESSIONADOR
1 Proposta e Objetivo do Curso

Esse será uma formação em Ciência de Dados. Usamos o conceito de formação pois
vamos te ensinar todos os conteúdos necessários para que você consiga seguir a
carreira de cientista de dados ou simplesmente utilizar os conhecimentos de ciência
de dados para melhorar qualquer processo na sua empresa, o que vai te ajudar a se
destacar na sua carreira. Isso inclui desde técnicas de alinhamento com o negócio
até conceitos estatísticos importantes. Toda a formação se baseia nos 3 principais
pilares de ciência de dados que são: negócios, estatística e python.

Conceitualmente, Ciência de Dados é uma área multidisciplinar que busca analisar o


negócio usando tecnologia e estatística. Hoje em dia temos uma abundância de
dados e podemos usar esses dados para encontrar padrões que estavam
desconhecidos e, com esses padrões, fazer sugestões para o negócio e até
inferências sobre o futuro. Ciência de Dados está presente desde a autorização da
sua transação do cartão de crédito na padaria até se o banco vai aprovar seu
empréstimo para comprar uma casa.

2 Ementa e carga horária


A formação Ciências de Dados Impressionadora possui atualmente 56 horas
gravadas, com diversos conteúdos planejados. Focamos o curso em módulos
totalmente direcionados a situações onde você já vai conseguir aplicar de forma
prática desde o início do curso.

3 Apostila e Suporte
No Impressionador, temos uma equipe de experts focada no suporte, portanto
conseguimos tirar dúvidas além do conteúdo, incluindo coisas que você precise fazer
no seu trabalho (não é uma consultoria, então não fazemos com você, mas
conseguimos tirar dúvidas de qualquer ferramenta que você esteja construindo sim),
além de apostila completa que será disponibilizada nas próximas semanas,
exercícios extras e atualização constante.

Nas próximas páginas você pode visualizar a ementa completa do curso.

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


01
Módulo 1

O que é Ciência de Dados?

1. O que é ciência de dados?


2. O que eu quero responder?
3. Os pilares da Ciência de Dados

Módulo 2

Introdução a Ciência de Dados

1. O que é ser um cientista


2. Framework para Ciência de Dados
3. Resumindo ciência de dados
4. Python como ferramenta de Data Science
5. O mercado de trabalho para um cientista de dados

Módulo 3

Python Básico
1. Explicando esse módulo
2. Instalando o Python no Windows
3. Problemas na Instalação - Resolvido
4. Mac, Linux e Google Colab
5. Criando seu Primeiro Programa
6. Variáveis
7. Tipos de Variáveis
8. Estrutura do if - Condições no Python
9. Elif
10. Comparadores
11. And e Or
12. Listas em Python
13. Índices em Lista, Consultando e Modificando Valores

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


02
Módulo 3

Python Básico
14. Estrutura de Repetição For
15. For each - Percorrer cada item de uma lista
16. For e If
17. Estrutura While
18. Loop Infinito no While
19. Tuplas
20. Unpacking em Tuplas
21. Dicionários em Python
22. Pegar item Dicionário e Verificar Item Dicionário
23. Range
24. Functions no Python
25. Retornar um valor na Function
26. Argumentos e Parâmetros numa Function
27. (Opcional) Aplicação em um Exemplo de argumento
28. O que são Módulos e qual a importância

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


03
Módulo 4

Pandas e Numpy: As bibliotecas básicas para Ciência


de Dados

1. Comparando Pandas e Excel


2. Comparando Pandas e Excel na prática
3. A importância do NumPy
4. Propriedades de uma array
5. Trabalhando com arrays
6. Importando e visualizando uma base no Pandas
7. Entendendo os conceitos de DataFrame e Series
8. Tipos de dados, valores nulos e seleção de colunas
9. Informações estatísticas e filtros na base
10. Criando gráficos básicos no Pandas

Módulo 5

Projeto 1 - Analisando o engajamento do Instagram

1. Explicando o projeto
2. Importando e tratando a base com Pandas
3. Tratando valores nulos da coluna Carrossel
4. Analisando informações estatísticas e 5 melhores / 5 piores
publicações
5. O group by no pandas e a análise do engajamento
6. Analisando Tags: Separando valores de uma coluna em linhas
diferentes (split e explode)
7. Analisando Tags: Analisando o engajamento por Tags
8. Analisando Tags: Finalizando a análise da nossa base (analisando
tag, pessoas e campanhas)

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


04
Módulo 6

Introdução à Estatística

1. Introdução a Estatística e Estatística Descritiva


2. Tabela de frequência e histograma
3. Entendendo o conceito da média
4. Mediana e sua relação com a média
5. Usando Python para entender a relação entre média e mediana
6. Média, mediana e moda
7. Entendendo de forma prática a relação entre média, mediana e
moda

Módulo 7

Matplotlib: Criando gráficos em Python

1. Apresentando o Matplotlib
2. Introdução ao Matplotlib
3. Usando a documentação para criar nosso primeiro gráfico (gráfico
de linha)
4. (Opcional) Entendendo a documentação do Matplotlib
5. Usando gráficos (de linha) para entender os dados (máximo,
mínimo e média mensal de curtidas)
6. Filtrando a base usando o contains (e fillna para tratar valores
vazios)
7. Criando e ajustando o visual (rotacionando o eixo x) de um gráfico
de barras
8. Usando o annotate para adicionar rótulos de dados no gráfico
9. Criando um scatter plot usando apenas a documentação
10. (Opcional) Revisando o datetime e o astype

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


05
Módulo 8

Boas práticas para apresentação de dados

1. Introdução aos conceitos básicos de apresentação de dados


2. Reduzindo o esforço para entender sua apresentação (eixo Y
começando no zero e eixos secundários)
3. Melhorando o seu visual (Proximidade e Similaridade)
4. Melhorando o seu visual (Acercamento, Fechamento,
Continuidade e Conexão)
5. Contraste e atributos pré-atentivos
6. Visualização de dados no Python: Passo a passo para melhorar
seus visuais no matplotlib
7. Visualização de dados no Python: Ajustando o plot e colocando
barras lado a lado em um gráfico de barras
8. Visualização de dados no Python: Adicionando rótulo nos dados
(annotate)
9. Visualização de dados no Python: Retirando as bordas, ajustando
os eixos e separando realizado x projetado
10. Boas práticas de visualização no Python: Separando em dois
gráficos e alterando o tipo de gráfico
11. Boas práticas de visualização no Python: Ajustando as barras e
adicionando rótulo de dados nos gráficos de barra e de linha
12. Boas práticas de visualização no Python: Melhorando o visual do
gráfico de linhas e separando realizado x projetado

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


06
Módulo 9

Projeto 2 - Criando uma apresentação executiva

1. Apresentando o projeto
2. Importando e analisando a base
3. Tratando valores vazios
4. Usando o datetime para tratar datas
5. Criando um gráfico de barras no matplotlib
6. Adicionando título no gráfico e ajustando o eixo x
7. Adicionando e formatando rótulo de dados, ajustando o eixo y e
retirando bordas
8. Vendas por mês e transformando índices em colunas com o
reset_index
9. Entendendo o deslocamento das barras em um gráfico de barras
horizontais
10. Adicionando todos os anos no gráfico de barras e colocando
rótulo nos dados
11. Mudando os rótulos do eixo x e finalizando o visual da venda por
mês
12. Respondendo qual foi a categoria mais vendida
13. Criando um gráfico de barras horizontais para o top N itens
14. Usando o merge para unir 2 bases no pandas
15. Usando o merge para criar a relação de top N itens pelos anos
16. Criando o gráfico de barras horizontais do top N itens pelos anos
17. Concluindo o projeto e respondendo as informações do negócio
18. Apresentando as informações em um PowerPoint

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


07
Módulo 10

Introdução ao Aprendizado de Máquinas

1. O que é Aprendizado de Máquinas (Machine Learning)?


2. O aprendizado de máquinas no Instagram
3. Explicando o Aprendizado de Máquinas
4. Caso Real: Uso do Aprendizado de Máquinas pelo Walmart
5. Como funciona um modelo de Aprendizado de Máquinas?
6. O erro no processo de aprendizado
7. O Aprendizado de Máquinas no Python
8. Regressão Linear no Scikit-Learn: importanto, tratando e
entendendo os dados
9. Usando Regressão Linear do Scikit-Learn para calcular a Venda
utilizando apenas o Preço
10. Calculando a regressão linear com Scikit-Learn utilizando Preço
Original e Desconto
11. Usando o sklearn.metrics para calcular os erros de cada um dos
modelos
12. A descrição estatística do Pandas
13. A variância e o desvio padrão (medidas de dispersão)
14. Separatrizes: entendendo os quartis

Módulo 11

Como as máquinas aprendem?

1. Os tipos de aprendizado de máquinas: aprendizado


supervisionado e não supervisionado
2. Os tipos de aprendizado de máquinas: aprendizado semi
supervisionado e por reforço
3. A diferença entre aprender e decorar
4. Considerações importantes para o Aprendizado de Máquinas

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


08
Módulo 12

Projeto 3 - Criando um modelo de classificação


1. Entendendo e importando o dataset iris do scikit-learn
2. Tratando os dados do dataset e transformando em um
DataFrame do pandas
3. Escolhendo visualmente quais colunas da base iremos usar no
modelo
4. Criando uma reta capaz de separar os dados do modelo
5. Classificando um novo ponto usando o modelo visual que
acabamos de criar
6. Criando uma função em Python para classificar um novo ponto
no modelo
7. Entendendo o Perceptron e usando esse algoritmo nos nossos
dados
8. Usando o Perceptron para criar um modelo de aprendizado de
máquinas

Módulo 13

Utilizando o Aprendizado de Máquinas


1. Revisando a imporação da base usando o pandas
2. Revisando a visualização do scatter plot com o matplotlib
3. Criando uma reta capaz de separar os dados em 2 classes
diferentes
4. (Opcional) Entendendo a reta criada para classificar os pontos
5. Criando uma função que classfica os dados usando a reta gerada
pelo scatter plot
6. Avaliando um modelo de classificação
7. A matriz de confusão para um modelo de classificação
8. Acurácia, precisão e recall em um modelo de classificação
9. Gerando a matriz de confusão no Scikit-Learn (avaliando modelos
de classificação)
10. Calculando acurácia, precisão e recall no Scikit-Learn (avaliando
modelos de classificação)
11. Avaliando os dados de TREINO do modelo que criamos

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


09
Módulo 13

Utilizando o Aprendizado de Máquinas


12. Avaliando os dados de TESTE do modelo que criamos
13. Usando o train_test_split do Scikit-Learn para separar os dados em
treino e teste
14. Usando o train_test_split e avaliando o modelo criado
15. Explicando o que é uma Árvore de Decisão
16. Entendendo a classificação dos dados utilizando a Árvore de
Decisão
17. Importando e tratando os dados do projeto 3 (iris) para aplicarmos
diferentes modelos de classificação
18. Separando em treino e teste e analisando os dados de TREINO
19. Traçando uma reta capaz de separar os dados de TREINO
20. Criando uma árvore de decisão capaz de separar os dados de
TREINO
21. Avaliando os dados de TESTE para os dois modelos criados

Módulo 14

Análise Exploratória de Dados


1. Explicando a Análise Exploratória e a base que vamos usar
(dataset do Titanic)
2. Importando e entendendo a base do Titanic
3. Analisando as informações da base e o resumo estatístico
4. Entendendo a cardinalidade de uma base
5. Visualizando os dados de forma gráfica
6. Gerando um boxplot usando o matplotlib
7. Interpretando o boxplot
8. Outras opções de gráficos
9. Correlação entre as variáveis e o KDE (Kernel Density Estimation)
10. Criando um mapa de calor da correlação entre as variáveis
11. Tratando valores vazios e outliers
12. O Pandas Profiling
13. (Opcional) Corrigindo o erro ao carregar o Pandas Profiling
14. Apresentando sua análise exploratória de forma executiva

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


10
Módulo 15

O Scikit-Learn

1. Apresentando a documentação do Scikit-Learn


2. Importando o dataset iris do Scikit-Learn e transformando em um
DataFrame do pandas
3. O Perceptron no Scikit-Learn
4. Entendendo o resultado gerado pelo perceptron
5. A árvore de decisão no Scikit-Learn
6. Classificação no Scikit-Learn: entendendo o dataset e criando os
classificadores
7. Classificação no Scikit-Learn: Avaliando erros de classificação
8. (Opcional) O average no precision_score
9. Classificação no Scikit-Learn: separando os dados em treino e
teste e avaliando o modelo
10. Classificação no Scikit-Learn: adicionando novos algoritmos
(Regressão Logística) e melhorando o resultado do Perceptron
11. A equação da reta
12. Entendendo a regressão linear
13. O erro na regressão linear
14. A regressão linear no Scikit-Learn
15. Regressão no Scikit-Learn: explicando o problema e importando a
base
16. Regressão no Scikit-Learn: utilizando regressão linear simples
para prever o volume de ações
17. Regressão no Scikit-Learn: utilizando regressão linear múltipla
18. Regressão no Scikit-Learn: tratando a variável de data e utilizando
no modelo

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


11
Módulo 16

Projeto 4 - Criando um algoritmo de regressão

1. Explicando o projeto e importando a base de casas da Califórnia


2. Visualizando os dados de maneira gráfica
3. Entendendo a base, verificando valores duplicados e tratando
outliers
4. Separando a base em treino e teste e usando Regressão Linear
Simples
5. Utilizando o for para fazer a regressão de todas as colunas da base
6. Entendendo o coeficiente de determinação (r quadrado)
7. Métricas de erro para regressão
8. Avaliando o erro na regressão com Scikit-Learn
9. Avaliando os erros do nosso modelo e escolhendo o melhor
modelo de Regressão Linear Simples
10. A Regressão Linear Múltipla
11. Utilizando o for para escolher o melhor par de variáveis na
Regressão Linear Múltipla
12. Utilizando Árvore de Regressão e Support Vector Regression nos
dados
13. Concluindo o projeto e visualizando os resultados de forma gráfica

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


12
Módulo 17

Conceitos básicos de SQL para Ciência de Dados

1. Apresentando o sqlite3
2. Transformando dados do SQL em um DataFrame do pandas
3. Selecionando (SELECT) dados de um banco de dados com SQL
4. Utilizando o WHERE para filtrar a nossa tabela
5. (Opcional) Revisando o SELECT utilizando o sqlite3
6. (Opcional) Revisando o SELECT DISTINCT e o WHERE (AND, OR e
NOT)
7. Utilizando o GROUP BY e o ORDER BY no SQL
8. Limitando a base com o TOP / LIMIT e usando o HAVING para
filtrar a tabela
9. Definindo condicionais no SQL com o CASE
10. Utilizando subquery no SQL
11. Outros filtros no SQL (IN e LIKE)
12. Bases de dados com mais de 1 tabela
13. Revisando o merge do pandas
14. Unindo duas bases no SQL utilizando o JOIN
15. O UNION e o FULL JOIN no SQL

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


13
Módulo 18

Técnicas de storytelling com dados: Utilizando o SQL


com dados reais de venda

1. Apresentando a base de dados que vamos utilizar nesse módulo


2. Usando a biblioteca os para buscar os arquivos da nossa base de
dados
3. Importando todas as bases de dados para o pandas
4. Analisando a base de ordens, itens e pagamentos para iniciar o
entendimento dos dados
5. Utilizando o groupby do pandas para analisar as ordens com mais
de 1 item
6. Fazendo o pivot (pivotando) da tabela para analisar diferentes
itens na mesma ordem
7. Finalizando o entendimento da base analisando pagamentos,
vendedores e review
8. (Opcional) Criando um banco de dados utilizando a
documentação do sqlite3
9. (Opcional) Criando uma tabela utilizando um DataFrame do
pandas
10. (Opcional) Inserindo dados em uma tabela utilizando o to_sql e o
INSERT
11. (Opcional) Atualizando e deletando registros em uma tabela
utilizando UPDATE e DELETE
12. Usando a biblioteca os para visualizar os arquivos que iremos
transformar em tabelas
13. Criando um banco de dados e a nossa primeira tabela
14. Adicionando todos os arquivos da pasta como tabelas no banco
de dados
15. Ajustando as colunas de datas e usando o if_exists para substituir
tabelas em uma banco
16. Criando uma função para automatizar as consultas no nosso
banco de dados
17. Apresentando o banco de dados de vendas

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


14
Módulo 18

Técnicas de storytelling com dados: Utilizando o SQL


com dados reais de venda

18. Exercício: Melhorando a satisfação do cliente


19. Criando uma história com seus dados
20. Dicas para uma boa apresentação de dados
21. A estrutura de uma história
22. Resolução - O problema realmente existe? Conectando ao banco
e começando a analisar a tabela de pedidos
23. Resolução - Tratando as colunas de data que estão como texto
(usando o to_datetime do pandas)
24. Resolução - Calculando o atraso na entrega e verificando a média
de atraso utilizando o datetime
25. Resolução - Utilizando o to_period para calcular a média do atraso
em cada um dos meses
26. Resolução - Analisando o máximo e mínimo do atraso e
visualizando graficamente utilizando o matplotlib
27. Resolução - Criando uma função para contar o número de
pedidos atrasados (usando apply e lambda function)
28. (Opcional) Formatando o gráfico de pedidos atrasados no
matplotlib
29. Resolução - Relação da avaliação com o atraso (Analisando a
tabela de avaliações e a tabela de pedidos)
30. Resolução - Entendendo a relação entre a tabela de pedidos e a
de avaliações (pedidos sem avaliação e pedidos com mais de
uma avaliação)
31. Resolução - Avaliando a média e o máximo das notas para
pedidos com mais de uma avaliação
32. Resolução - Finalizando o tratamento da base e analisando o
impacto de utilizar o máximo ao invés da média das notas para
pedidos com mais de uma avaliação
33. Resolução - Entendendo a relação entre o atraso e a avaliação dos
clientes

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


15
Módulo 18

Técnicas de storytelling com dados: Utilizando o SQL


com dados reais de venda

34. Resolução - Calculando a média da avaliação por cada período de


atraso e apresentando graficamente essa informação
35. (Opcional) Formatando o gráfico de atraso no pedido x avaliação
36. Resolução - Avaliando os comentários de pedidos atrasados
37. Resolução - Usando o wordcloud para verificar as palavras mais
frequentes nas reclamações
38. Resolução - Melhorando a núvem de palavras (wordcloud) e
criando uma núvem de frases
39. Criando uma história com os dados gerados na nossa análise

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


16
Módulo 19

Projeto 5 - Criando um modelo de identificação de


fraude

1. Mostrando a base desse módulo e apresentando o Kaggle e a sua


importância para nossos projetos de ciência de dados
2. Entendendo a base de transações e analisando a relação entre
fraude e não fraude
3. Criando um modelo de classificação de fraude usando a base
desbalanceada e analisando a acurácia, precisão e recall desse
modelo
4. Apresentando o imbalanced-learn e utilizando o undersampling
e o oversampling para os nossos dados de crédito
5. (Opcional) Importando e visualizando a base de transações
6. Revisando o undersampling e o oversampling do
imbalanced-learn e visualizando de forma gráfica as novas bases
geradas
7. Explicando o RandomUnderSampler do imblearn
8. Apresentando de forma visual o funcionamento do
RandomUnderSampling
9. Utilizando o ClusterCentroids e o NearMiss para realizar o
undersampling
10. Explicando o RandomOverSampler do imblearn
11. Usando o shrinkage do RandomOverSampler e visualizando
graficamente os novos dados
12. Utilizando SMOTE e ADASYM para realizar o oversampling
13. Realizando o undersampling com o RandomUnderSampler na
base de transações e analisando a acurácia e o recall
14. Fazendo o oversampling com o RandomOverSampler para essa
mesma base e comparando os resultados
15. Utilizando o ClusterCentroids e o NearMiss para o undersampling
para o modelo de classificação de fraude
16. Utilizando SMOTE e ADASYM para o oversampling e testando
combinar os métodos para o modelo de classificação de fraude

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


17
Módulo 20

Subindo seu modelo para produção (Deploy)

1. Criando um modelo de Regressão Linear passo a passo


2. Persistindo o modelo (usando o dump e load do joblib)
3. (Opcional) Utilizando o modelo nos mesmos dados para provar
que temos exatamente o mesmo modelo
4. Utilizando o modelo criado em dados de produção
5. Colocando nosso modelo em produção utilizando um arquivo do
Jupyter Notebook
6. Utilizando um arquivo .py para colocar o modelo em produção
7. Criando um executável para realizar a previsão utilizando o
modelo criado
8. Apresentando o Streamlit para criarmos uma tela para o usuário
acessar o modelo
9. Criando campos de entrada para os valores numéricos de preço e
desconto e o botão de "PREVER"“
10. Criando uma tela para o usuário utilizar o nosso modelo com o
Streamlit
11. (Opcional) Explicando o predict

Módulo 21

Ajustando os dados para o modelo (Data Cleaning)

1. Explicando a importância da limpeza dos dados e importando a


base
2. Buscando na base por valores nulos e linhas duplicadas
3. Procurando na base alguns problemas que podem ter sido
gerados por erros humanos
4. Tratando valores vazios e linhas duplicadas

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


18
Módulo 21

Ajustando os dados para o modelo (Data Cleaning)

5. Tratando valores digitados errados (erros humanos)


6. Limpeza de Dados – Exercício
7. Entendendo a base e respondendo as perguntas sem fazer o
tratamento dos dados
8. Contando a quantidade de alunos que responderam o questionário
9. Eliminando valores duplicados e discutindo sobre o tratamento do
ID_aluno
10. Somando a matrícula dos alunos que responderam (visualizando e
tratando outliers)
11. Verificando o tamanho da blusa para todos os alunos
12. Descobrindo quantos alunos vão participar da formatura
13. Estimando a altura de um aluno usando média e mediana dos dados
14. Aprofundando no tratamento de dados: Entendendo a base de notas
de português
15. Usando o drop_duplicates para retirar valores duplicados da base
16. Analisando o describe e o boxplot e tratando outliers nos dados
17. Criando a função para transformar as notas dadas em conceitos
(textos) em números de 1 a 10
18. Otimizando a função criada, unindo duas bases e calculando a média
final dos alunos
19. Apresentando a base de cadastro dos alunos e tratando e-mails
escritos errados
20. Tratando a data e ajustando as colunas de texto no cadastro dos alunos
21. Exercício: limpeza dos dados no dataset do titanic
22. Tratando as informações de embarque vazias e usando a mediana para
as idades
23. Analisando a média das idades pela classe, gênero e pelo título
extraído do nome
24. Usando o transform para substituir as idades vazias pelo resultado do
groupby e eliminando colunas desnecessárias
25. Analisando outliers, cardinalidade e eliminando colunas desnecessárias

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


19
Módulo 22

Outros modelos supervisionados

1. Relembrando o Perceptron e importando o dataset íris


2. Criando um modelo utilizando o perceptron
3. Utilizando o coef_ e o intercept_ para traçar a reta gerada pelo
perceptron
4. Explicando o Perceptron para mais de 2 classes e para dados que
não são linearmente separáveis
5. Relembrando a árvore de decisão e aprofundando teoricamente
6. Importando novamente o dataset iris e criando um modelo
utilizando a árvore de classificação
7. Visualizando graficamente como funciona uma árvore de decisão
8. Fazendo a previsão utilizando o predict e as regiões gráficas que
criamos
9. Utilizando todo o dataset iris para criar nossa árvore de decisão
10. Explicando o índice gini e a entropia utilizados no "criterion“
11. (Opcional) Visualizando graficamente o índice gini e a entropia
12. O tamanho da árvore: utilizando o max_depth para melhorar a
acurácia do modelo
13. Relembrando a regressão linear
14. Visualizando graficamente a vantagem da regressão linear ao
criar a melhor reta (menor erro quadrático)
15. Utilizando a regressão linear de forma prática no dataset de casas
da Califórnia
16. Apresentando os conceitos do K-Nearest Neighbors (KNN)
17. Utilizando o KNN e entendendo o cálculo da distância entre os
pontos (euclidiana e manhattan)

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


20
Módulo 22

Outros modelos supervisionados

18. Calculando manualmente as distâncias euclidiana e manhattan


do ponto central
19. Utilizando o kneighbors para visualizar os pontos mais próximos e
mudando a ordem dos dados para avaliar a previsão
20. 20. Utilizando o KNN com um dataset real (dataset iris) e
avaliando a previsão desse algoritmo
21. Entendendo visualmente a previsão feita para o dataset iris
22. Apresentando a Regressão Logística e importando o dataset iris
23. Utilizando a regressão logística e visualizando graficamente o
gráfico gerado
24. Entendendo o predict_proba (prevendo a probabilidade de cada
uma das classes)
25. Utilizando a regressão logística para um problema com 3 classes
26. Utilizando todo o dataset iris para criar a regressão logística
27. Apresentando o Support Vector Machine (SVM)
28. Importando novamente o dataset iris (passo a passo)
29. Utilizando o SVM (SCV) e visualizando graficamente o resultado
em dados linearmente separáveis
30. Explicando o hiperparâmetro C e as margens rígidas e flexíveis do
SVM
31. Utilizando o SVM para dados que não são linearmente separáveis
e analisando o dataset iris completo

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


20
Módulo 23

Aprendizado Não Supervisionado

1. Revisando os tipos de aprendizado e relembrando o aprendizado


não supervisionado
2. Apresentando os principais conceitos da aprendizagem não
supervisionada
3. Explicando o K-means para clusterização / agrupamento dos
dados
4. Detalhando o K-means e explicando o hiperparâmetro init e o
Elbow Method (método do cotovelo)
5. Importando o dataset iris e utilizando o K-means para criar 2
clusters nesses dados
6. Entendendo matematicamente a classificação dos pontos em
cada um dos clusters / grupos
7. Entendendo a distância euclidiana
8. Visualizando os clusters / grupos para diferentes valores de K e
utilizando o Elbow Method (Método do Cotovelo) para a escolha
de K
9. Comparando os clusters gerados com as classes do dataset iris
para valores de k próximos ao número de classes
10. Exercício: utilizando o K-Means para agrupar os valores do dataset
load_digits
11. Entendendo a base e utilizando a documentação para importar o
K-Means
12. Utilizando o Elbow Method (método do cotovelo) para escolher
um valor de K para iniciarmos nossa análise
13. Utilizando K = 9 e transformando os números do label em letras
para analisarmos os grupos
14. Visualizando a tabela relacionando os rótulos (targets) reais dos
dados com os grupos gerados pelo K-Means
15. Entendendo os dígitos classificados errados e discutindo como
essa avaliação poderia ser feito sem os rótulos (targets) dos dados

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


20
Módulo 23

Aprendizado Não Supervisionado

16. Usando os grupos para classificar os dados e avaliando os erros


dessa classificação
17. Testando diferentes valores de k e buscando a melhor
clusterização para os dados
18. Métricas de avaliação no aprendizado não supervisionado
19. Clusterizando o dataset iris e analisando a relação entre target
(rótulo) e os labels do kmeans
20. Utilizando a classe mais frequente no cluster para fazer a previsão
dos dados (criando um y_pred como na classiifação)
21. Avaliando a clusterização utilizando as métricas de classificação
(matriz de confusão, acurácia, precisão e recall)
22. Explicando a base teórica do Rand Index e usando essa métrica
para avaliar a clusterização
23. Apresentando o ajuste do Rand Index (Adjusted Rand Index) e
comparando as duas métricas
24. Utilizando o Rand Index (e o índice ajustado) no dataset iris e
avaliando diferentes valores de k
25. Apresentando a médida V (V Measure), a homogeneidade e a
completude
26. Usando a medida V, homogeneidade e completude para avaliar o
dataset iris
27. Revisando a inércia e apresentando os conceitos do "Coeficiente
Silhueta" (silhouette_score)
28. Apresentando matematicamente o cálculo do coeficiente
silhueta para um ponto de dado (silhouette_samples)
29. Calculando o silhouette_score para os dados e entendendo os
principais conceitos dessa métrica
30. Criando um plot para visualiar o silhoutte_score, o
silhoutte_simples e os clusters dos dados

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


20
Módulo 23

Aprendizado Não Supervisionado

31. Criando uma visualização considerando o silhoutte_score e os


clusters dos dados para o dataset iris
32. Apresentando o PCA (Principal Component Analysis)
33. Passo a passo para a definição dos componentes principais do
PCA
34. Utilizando o PCA nos dados e entendendo os principais
parâmetros e atributos da documentação
35. Reduzindo o dataset de 3 dimensões para 2 utilizando o PCA e
utilizando o PCA no dataset iris
36. A ciência além dos dados: ética em Data Science
37. Livro: Algoritmos de destruição em massa (exemplos práticos)
38. Cuidados importantes para garantirmos a ética em nossos
projetos de Data Science

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


20
Módulo 24

Feature Engineering

1. O que é Feature Engineering?


2. Utilizando lambda function para transformar uma coluna de
texto em uma nova coluna de valores 1 ou 0
3. O OneHotEncoder para tratamento de colunas com texto
4. Unindo nosso dataset com os dados gerados pelo
OneHotEncoder e fazendo o Encoding para todas as colunas de
texto
5. Fazendo o One Hot Encoding utilizando o get_dummies do
pandas
6. Utilizando o max_categories e o min_frequency do
OneHotEncoder para limitar o número de colunas geradas
7. Alertando sobre o cuidado ao usar o get_dummies quando a
coluna pode receber diferentes valores em produção
8. Utilizando o handle_unknown do OneHotEncoder para tratar
categorias desconhecidas nos dados de produção
9. Apresentando o OrdinalEncoder para colunas com texto que
possuem relação entre os rótulos
10. Definindo a ordem das categorias e tratando valores
desconhecidos (categories, handle_unknown e unknown_value
no OrdinalEncoder)
11. Escolhendo o tipo de dado (dtype) no OrdinalEncoder e fazendo o
encoding para mais de uma coluna
12. Tratando features com diferença de escala (padronização e
normalização)
13. Utilizando a padronização (escala padrão) na coluna Age do
dataset Titanic
14. Utilizando a normalização com o MinMaxScaler nessa mesma
coluna

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


20
Módulo 24

Feature Engineering

15. Apresentando o MaxAbsScaler para dados esparsos (dispersos) e


o RobustScaler para dados com outliers
16. Apresentando visualmente a diferenç entre a escala padrão, o
MinMax, o MaxAbs e o RobustScaler
17. Realizando o cálculo matemático passo a passo de cada uma das
transformações vistas até agora (Standard, MinMax, MaxAbs e
Robust)
18. Fazendo a padronização e normalização dos dados da coluna
Fare
19. Visualizando o histograma de cada transformação e comparando
entre eles
20. Utilizando o Normalizer para fazer a normalização das linhas de
um dataset
21. Transformando valores contínuos em atributos discretos com a
Discretização
22. Dividindo o intervalo em grupos com o mesmo comprimento
utilizando o KBinsDiscretizer com "strategy=uniform"
23. Utilizando o quantile do KBinsDiscretizer para gerar "grupos" com
uma quantidade próxima de dados
24. Binarizando os dados utilizando um limite através do Binarizer

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


20
Módulo 25

R Básico

1. Primeiros passos em R: Apresentando e instalando o R e o


RStudio
2. Visão geral do RStudio (entendendo a IDE) e importando /
salvando arquivos
3. Escrevendo comentários e imprimindo valores na tela (print)
4. Criando variáveis em R
5. Operações matemáticas básicas em R
6. Operações lógicas e de comparação em R
7. [Em breve - E muito mais!]

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


20
Módulos em Planejamento

A formação Ciência de Dados Impressionadora contará ainda com


uma série de módulos adicionais além dos 19 módulos e 5 projetos
descritos anteriormente. Abaixo, listamos alguns desses módulos que
serão incluídos no curso.

• Módulo 26 - ‘Como criar seu portfólio’ (Previsão 03/Mar)


• Módulo 27 - ‘Projeto 6 - Criando um modelo ponta a ponta para
seu portfólio’ (Previsão 31/Mar)
• Módulo 28 - ‘Criando um projeto de Aprendizado de Máquinas
em R’ (Previsão 14/Abr)
• Módulo 29 - Seleção do modelo (Previsão 28/Abr)
• Módulo 30 - Projeto 7 - Utilizando o aprendizado não
supervisionado para clusterização (Previsão 12/Mai)
• Módulo 31 - Redes Neurais (Previsão 02/Jun)
• Módulo 32 - Deep Learning (Previsão 23/Jun)
• Módulo 33 - Projeto 8 - Aplicando Redes Neurais e Deep Learning
(Previsão 30/Jun)
• Módulo 34 - Reconhecimento de Imagem (Previsão 21/Jul)
• Módulo 35 - Projeto 9 - Utilizando Deep Learning para
Reconhecimento de Imagem (Previsão 28/Jul)
• Módulo 36 - Processamento de Linguagem Natural (Previsão
18/Ago)
• Módulo 37 - Projeto 10 - Análise de Sentimento em Avaliação de
Compra (Previsão 25/Ago)
• Módulo 38 - Sistemas de Recomendação (Previsão 08/Setembro)
• Módulo 39 - Projeto 11 - Desenvolvendo seu próprio modelo de
recomendação (Previsão 15/Setembro)
• Módulo 40 - Consumindo dados de APIs (Em breve)
• Módulo 41 - Webscraping, dados de internet e Big data (Em
breve)
• Módulo 42 - ETL e Engenharia de Dados (Em breve)

Obs: importante destacar que as datas informadas são uma previsão,


podendo sofrer alterações.

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS


21

Você também pode gostar