Escolar Documentos
Profissional Documentos
Cultura Documentos
Data Science Partner
Data Science Partner
SCIENCE
br.digitalhouse.com
crie seu futuro digital
2 Avenida Doutor Cardoso de Melo, 90 - Vila Olímpia - São Paulo | Tel.: (11) 4858-4000
ESTUDANTES, PROFISSIONAIS DE
DIVERSAS ÁREAS
Economistas, administradores de empresas, cientistas
sociais, físicos, químicos, médicos, entre outros que
desejam aprender Data Science (Ciência de Dados) para
conquistar novas habilidades, criar novos projetos e
melhorar sua comunicação com engenheiros de Big Data ou
especialistas em Machine Learning.
PROFISSIONAIS DE MARKETING
que queiram enriquecer sua análise de dados para
inovar nas suas estratégias de segmentação,
personalização da oferta e predições de todos os tipos
sobre seus clientes.
ENGENHEIROS DE SISTEMAS E
ANALISTAS DE SISTEMAS
que queiram se especializar, incorporar os
conhecimentos de estatística e Machine Learning e
adquirir habilidades práticas com as ferramentas
específicas para fazer análises e organização de dados.
EMPREENDEDORES
que queiram criar seu próprio negócio com base em dados
e/ou técnicas de inteligência artificial.
PROGRAMADORES
que precisam se atualizar e conhecer as principais
técnicas da ciência de dados.
CIENTISTAS
de qualquer área em busca de ferramentas mais
sofisticadas para realizar suas análises de dados
3
Programa
do curso
4 Avenida Doutor Cardoso de Melo, 90 - Vila Olímpia - São Paulo | Tel.: (11) 4858-4000
Construir, implementar e avaliar
problemas de Data Science usando
os algoritmos de Machine
Learning.
Usar as ferramentas de
visualização adequadas para
comunicar suas conclusões.
5
Proposta
do curso
6 Avenida Doutor Cardoso de Melo, 90 - Vila Olímpia - São Paulo | Tel.: (11) 4858-4000
A necessidade de contar com analistas
de dados qualificados cresce
rapidamente em todos os setores
empresariais e
industriais, assim como nos âmbitos onde se
desenvolvem novos paradigmas educacionais,
sociais e científicos.
MÓDULO 0: MÓDULO 1:
Fundamentos: NumPy, Exploratory Data Analysis
Stats, SQL e DataViz (EDA), Pandas e SciPy
• Python e Numpy: demonstrar conceitos • Pandas e Tabelas Pivot: introdução a
de programação usando as ferramentas Pandas (biblioteca para ler, limpar, realizar o
Python e NumPy para tratar bases de parsing e representar por gráficos os dados
dados e DataFrames. usando funções booleanas, indexação, séries,
joins e outras funcionalidades).
• Estatística descritiva: rever e
aplicar os fundamentos de estatística • Limpeza de dados: conceitos de “tidy
descritiva. data”, estruturação de dados, introdução ao
problema de dados faltantes e noções de
• SQL e Bancos de Dados: conhecer
expressões regulares.
diferentes tipos de bancos de dados, rever
comandos em SQL e realizar atividades
• EDA: Análise Exploratória de Dados em
práticas, obtendo dados de bancos de
Pandas, com visualização de insights
dados.
sobre recursos de dados
• Introdução a Gráficos e
• Estatística Inferencial: Noções de
Visualização: Realizar atividades
probabilidade, distribuições amostrais,
práticas usando notebooks Jupyter com
intervalos de confiança, testes de
biblioteca plotly e matplotlib para
hipótese. Uso de biblioteca SciPy.
visualização de dados.
DESAFIO 0 DESAFIO 1
8 Avenida Doutor Cardoso de Melo, 90 - Vila Olímpia - São Paulo | Tel.: (11) 4858-4000
INTRODUÇÃO A REGRESSÃO, WEB SCRAPING, MACHINE
LEARNING, CLASSIFICAÇÃO e CLUSTERIZAÇÃO DE DADOS.
MÓDULO 2: MÓDULO 3:
Introdução a Regressão SQL, Web Scrapping,
Linear, Modelagem Consumindo APIs,
Estatística, Regressão Introdução ao Machine
Logística, Statsmodels Learning, Compressão e
e Scikit-Learn Clusterização de dados
• Regressão Linear Simples e • Machine Learning: introdução a
Múltipla: estimativa e interpretação conceitos nodais: desvio, variância,
dos coeficientes, suposições, medidas overfitting, underfitting. Identificação
de ajuste. Introdução a não linearidades de diferentes tipos de algoritmos de
no modelo. Machine Learning (supervisionados e não
supervisionados). Formas de estimar o
• Regressão Logística: princípio de
erro de generalização (train-test split,
transformação matemática sobre a
cross-validation). Apresentação geral das
regressão linear, interpretação dos
técnicas mais utilizadas.
estimadores, introdução a métricas
para modelos de classificação • APIs e Web Scraping: Selenium e
Beautiful Soup para raspar sites, e
• Modelagem Estatística: análise
estrutura de dados JSON para uso de APIs
Exploratória de dados e feature
engineering com foco no aumento da
• Redução de Dimensionalidade:
explicabilidade dos dados.
introdução ao PCA. Apresentação de
• Statsmodels e Scikit-Learn: Análise de Correspondência Múltipla.
introdução ao uso das duas bibliotecas Manifold Learning: Técnicas para redução
para estimar modelos estatísticos e de dimensionalidade não lineares: Escala
algoritmos de Machine Learning em Multidimensional (MDS), Locally Linear
Python. API, tipos e objetos na Embeddings e Isomaps. Diferenças em
Scikit-Learn. relação ao PCA. Métricas de distância.
DESAFIO 2 DESAFIO 3
9
INTRODUÇÃO a ALGORITMOS DE CLASSIFICAÇÃO, ÁRVORES DE
DECISÃO, REGULARIZAÇÃO, ENSEMBLES e SISTEMAS DE
RECOMENDAÇÃO
MÓDULO 4: MÓDULO 5:
Classificação, árvores de Ensembles e sistemas
Decisão e regularização de recomendação
DESAFIO 4 DESAFIO 5
Avenida Doutor Cardoso de Melo, 90 - Vila Olímpia - São Paulo | Tel.: (11) 4858-4000
10
CRIAÇÃO DE APIs, DEPLOY, SÉRIES TEMPORAIS, INTERPRETAÇÃO
de MODELOS, AGILE, ÉTICA e PRIVACIDADE.
MÓDULO 6: MÓDULO 7:
Criação de APIs, Deploy de Agile, Ética e Privacidade e
Modelos, Séries Temporais Apresentação do Projeto
e interpretação de Modelos Integrador
• Criação de APIs: Utilização de • Agile: metodologia de gerenciamento
ferramentas de Deploy e configuração de projeto de programação com curtos e
em URL pública.. testes frequentes para agilidade na
execução de tasks, com trabalho em
equipe.
• Deploy de Modelos: Pipelines:
automatização e encapsulamento de • Ética e Privacidade: Apresentação dos
etapas do workflow. Deploy de modelos de desafios da Ciência de Dados na sociedade
machine learning em ambiente Web atual, e análise crítica da LGPD (Lei Geral de
Proteção de Dados) com as permissões de
• Séries Temporais: Pré-processamento utilização de dados, preservação de direitos
de séries. Enfoque clássico (tendência, e o que fazer para se adequar à legislação
ciclo e resíduo). Sazonalidade. Modelos evitando tomada de risco empresarial
básicos: média constante, tendência
determinística, média móvel, suavização
• Projeto Integrador: projeto de Data
exponencial simples. Modelos avançados:
Science a ser executado pelos alunos,
processos AR, MA, ARMA, ARIMA e
divididos em grupos de 5 a 7 participantes,
ARIMAX.
contendo todas as etapas de um trabalho
• Interpretabilidade de Modelos: semelhante ao encontrado na vida real das
Utilização de pacotes especiais do Python empresas. Os professores caminham junto
como Shap e Lime para interpretação de com os alunos durante o processo de
modelos caixa preta, que não oferecem construção da solução até a apresentação
uma possibilidade de entendimento sobre final
explicabildade do modelo.
PROJETO INTEGRADOR
DESAFIO 6
Ao longo do curso os alunos
Utilizando dados de tráfego em
desenvolverão em grupo um projeto
páginas Web, os alunos farão uma
de ciência de dados, de ponta a
análise de como os acessos variam
ponta, sobre um problema ou desafio
com o tempo e qual tendência de
decidido pelo próprio grupo. O
comportamento é possível extrair dos
trabalho, então, será apresentado no
dados para os diferentes grupos e
último dia de aula e será avaliado e
levando em conta os eventos do
comentado pelos professores e por
cenário mundial.
uma banca avaliadora convidada.
9
Os candidatos a alunos devem ter conhecimentos sólidos
em estatística descritiva (eg., medidas de tendência
central e dispersão, histograma etc.), lógica e aritmética
básicas e noções de programação de computadores,
como estruturas de dados, controle de fluxo, definição de
funções etc. É recomendável, mas não obrigatório, ter
noções de estatística inferencial (amostragem, intervalos
de confiança, testes de hipótese e distribuições de
probabilidade) e programação com a linguagem Python
(versão 2 ou 3).
11
A disponibilidade de vagas nos cursos
é limitada a você deverá passar pelo
1. Candidate-se seguinte processo de admissão
2. Estude (nivelamento)
01
3. Faça o desafio PARA SE
4. Entrevista
CANDIDATAR
Solicitar e Preencher
o formulário de
Inscrição no site
FORMULÁRIO DE INSCRIÇÃO
02
DESAFIO
ON-LINE
Faça um exercício
real que enviaremos
para podermos
entender a sua
forma de pensar e de
resolver situações
03
ENTREVISTA
DE ADMISSÃO
Agende uma
entrevista para
conhecermos o seu
perfil, seus
interesses e
expectativas com
relação ao curso
13
FAQs
POSSO FAZER O CURSO SEM TER EXPERIÊNCIA E/OU
CONHECIMENTOS PRÉVIOS COM DADOS?
Sim. Porém, nesse caso recomendamos o curso Data Analytics, que em
geral é mais adequado para quem está começando nessa área.
É uma conversa, online com um professor. Ela visa (1) verificar se seu
interesse pela ciência dos dados, seus motivos e objetivos estão alinhados
com a proposta do curso, bem como (2) orientá-lo(a) sobre os desafios do
curso e, finalmente, (3) verificar seus conhecimentos sobre os
pré-requisitos do curso.
14 Avenida Doutor Cardoso de Melo, 90 - Vila Olímpia - São Paulo | Tel.: (11) 4858-4000
PRECISO COMPRAR OU LEVAR UM NOTEBOOK PARA FAZER O CURSO?
Na modalidade presencial você contará com os equipamentos necessários
em sala de aula (você também pode levar seu notebook, se preferir); na
modalidade online, você precisa providenciar um computador. Qualquer
que seja o caso, é imprescindível que você tenha um equipamento para
praticar fora da sala de aula.
15
CONTATO@BR.DIGITALHOUSE.COM
BR.DIGITALHOUSE.COM