Você está na página 1de 5

Elaborado em 2 de julho de 2019 pelo GT da

Certificação de Conhecimento em Ciência de


Dados (instituído pelo DIP GP/CE/UP
000006/2019)

Conteúdo programático e referencial bibliográfico

Conteúdo programático

1. Aprendizado supervisionado

 Regressão e Classificação
 Métricas de avaliação
 Sobreajuste e Subajuste de modelos
 Seleção de modelos: Erro de Generalização; Validação Cruzada; Conjuntos de Treino,
Validação e Teste
 Trade off entre Variância e Viés
 Algoritmos
o Regressão Linear e Regressão Logística
o Árvores de decisão
o Máquina de vetores de suporte
o Naive Bayes
o k-NN
o Ensembles

2. Aprendizado não supervisionado

 Redução de dimensionalidade: PCA


 Agrupamento K-Means
 Agrupamento Hierárquico
 Regras de associação

3. Redes neurais artificiais

 Conceitos Básicos em Redes Neurais Artificiais: Definições e Arquitetura.


 Funções de Ativação
 Otimização de Redes Neurais Artificiais: método do gradiente, método do gradiente
estocástico, algoritmo Backpropagation, métodos de inicialização dos pesos,
Vanishing Gradients.
 Métodos de regularização: penalização com normas L1 e L2, Dropout e Early
Stopping.
 Busca por hiperparâmetros
 Definições básicas de Redes Neurais Convolucionais.
 Definições básicas de Redes Neurais Recorrentes.

4. Manipulação, tratamento e visualização de dados

http://www.petrobras.com.br/pt/
Elaborado em 2 de julho de 2019 pelo GT da
Certificação de Conhecimento em Ciência de
Dados (instituído pelo DIP GP/CE/UP
000006/2019)

 Técnicas de visualização de dados


 Lidando com valores faltantes
 Lidando com dados categóricos
 Normalização de dados
 Detecção e tratamento de outliers

5. Probabilidade e estatística

 Conceitos de Probabilidade: Modelo de probabilidade, Probabilidade Condicional,


Independência, Variáveis Aleatórias, Variância e Covariância
 Distribuições Contínuas e Discretas: Normal, t-Student, Poisson, Exponencial,
Binomial, Dirichlet.
 Estatísticas Descritivas
 Inferência Estatística: Teorema do Limite Central, Teste de Hipótese e Intervalo de
Confiança, Estimador de Máxima Verossimilhança, Inferência Bayesiana

6. Processamento de Linguagem Natural e Mineração de Texto

 Introdução à NLP (Processamento de Linguagem Natural) e suas tarefas


 Tratamento de texto
 Frequência de termos em documentos
 Classificação de texto
 Modelagem de tópicos (LDA, MNF)
 Extraindo Features de texto
 Word Embeddings: Conceitos e técnicas: Glove, word2vec, fasttext

7. Big Data

 Ecossistema Hadoop
o Núcleo (HDFS, MapReduce, YARN)
o Hive
o Sqoop
o Zookeeper
o Spark

8. Cálculo de uma variável

 Pré-cálculo: Conjuntos, Coordenadas Cartesianas, Cônicas e produtos Notáveis


 Funções
 Limites

http://www.petrobras.com.br/pt/
Elaborado em 2 de julho de 2019 pelo GT da
Certificação de Conhecimento em Ciência de
Dados (instituído pelo DIP GP/CE/UP
000006/2019)

 Derivadas
 Máximos e Mínimos
 Esboços de Gráficos de Funções
 Integrais

9. Álgebra Linear para Ciência de Dados

 Notação de vetores e matrizes


 Operação com vetores e matrizes
 Matriz identidade, inversa e transposta
 Transformações lineares
 Normas (L1, L2)
 Autovalores e autovetores
 Decomposição SVD

10. Banco de dados e data warehouse

 Modelo entidade-relacionamento
 Mapeamento lógico relacional
 Normalização
 Linguagem de definição e manipulação de dados (SQL)
 Conceitos de Data warehousing
 Modelagem multidimensional (esquema estrela)
 Processamento e otimizaçâo de consultas
 Bancos NoSQL

11. Modelos Estatísticos de Previsão de Séries Temporais

 Conceitos Básicos em Séries Temporais


 Amortecimento Exponencial
 Box & Jenkins
 Regressão Linear
 Regressão Dinâmica
 Combinação de Previsões

12. Algoritmos e Estrutura de Dados

 Complexidade de algoritmos e notação assintótica (Big O)

Referencial Bibliográfico

http://www.petrobras.com.br/pt/
Elaborado em 2 de julho de 2019 pelo GT da
Certificação de Conhecimento em Ciência de
Dados (instituído pelo DIP GP/CE/UP
000006/2019)

Kevin Patrick Murphy. Machine Learning: a Probabilistic Perspective. MIT Press, 2012.

Christopher M. Bishop. Pattern Recognition and Machine Learning. Springer, 2011.

Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning. MIT Press, 2016.

Jake VanderPlas. Python Data Science Handbook: Essential Tools for Working with Data.
O'Reilly Media, 2016.
Item acima ou, equivalentemente, o abaixo:
Hadley Wickham, Garrett Grolemund. R for Data Science: Import, Tidy, Transform,
Visualize, and Model Data. O'Reilly Media, 2016.

Sam K. Kachigan. Statistical Analysis: An Interdisciplinary Introduction to Univariate &


Multivariate Methods. Radius Press, 1986.

Athanasios Papoulis, S. Unnikrishna Pillai. Probability, Random Variables and Stochastic


Processes. McGraw-Hill, 2002.

Douglas C. Montgomery, George C. Runger. Applied Statistics and Probability for


Engineers. Wiley, 2014.

Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python.
O'Reilly Media, 2016.
Item acima ou, equivalentemente, o abaixo:
Julia Silge, David Robinson. Text Mining with R: A Tidy Approach. O'Reilly Media, 2017.

Tom White. Hadoop: The Definitive Guide. O'Reilly Media, 2015.

Bill Chambers, Matei Zaharia. Spark: The Definitive Guide. O'Reilly Media, 2018.

Louis Leithold. O Cálculo Com Geometria Analítica – Volume 1. Harbra, 1994.

Iaci Malta, Sinésio Pesco, Hélio Lopes. Cálculo a Uma Variável – Volumes 1 e 2. Elsevier,
2015.

David Poole. Álgebra Linear - Uma Introdução Moderna. Cengage Learning, 2016.

Gilbert Strang. Álgebra linear e suas aplicações. Cengage Learning, 2010.

C. J. Date. Projeto de Banco de Dados e Teoria Relacional. O'Reilly / Novatec, 2015.

http://www.petrobras.com.br/pt/
Elaborado em 2 de julho de 2019 pelo GT da
Certificação de Conhecimento em Ciência de
Dados (instituído pelo DIP GP/CE/UP
000006/2019)

Ramez Elmasri, Shamkant B. Navathe. Sistemas de Banco de Dados. Pearson, 2010.

Pedro A. Morettin, Clélia M. C. Toloi. Análise de Séries Temporais. Blucher, 2018.

Lilian Markenzon, Jayme Luiz Szwarcfiter. Estruturas de Dados e Seus Algoritmos. LTC,
2010.

http://www.petrobras.com.br/pt/

Você também pode gostar