Você está na página 1de 29

GUIA

DATA MASTER

Probabilidade
DATA MASTER
CIENTISTA DE DADOS
Olá, seja muito bem-vindo ao Guia DATA
MASTER de Cientista de Dados! Aqui,
você encontrará uma seleção de conteúdos
completos para auxiliá-lo na sua certificação.

Sabemos que cada pessoa tem sua preferência em


como estudar. Por isso, buscamos neste guia,
disponibilizar conteúdos em formatos variados como
vídeos, artigos, cursos, livros etc. Esta diversidade de
materiais lhe proporcionará um aprendizado incrível.

2
Antes de começar, sugerimos que faça uma
autoavaliação de seus conhecimentos, veja na próxima
página a lista de temas que abordaremos ao longo
deste guia.

Com estes conhecimentos, você será capaz de


exercer a função de um Cientista de Dados!
Mas você sabe qual a principal função deste
cargo?

Éanalisar e solucionar problemas complexos, e


atrelado a isso existe uma série de pré requisitos,
dentre eles estão: a limpeza, a estruturação, a
organização e a preparação de dados.

Vamos aos estudos então?

Esperamos que aproveite esta jornada ao máximo


e conquiste sua Certificação!

3
VOCÊ ENCONTRARÁ...

06 Estatística 15 Programação 22 Agrupamento


• Conceitos básicos; • Lógica; • K-means;
• Probabilidade Condicional • Boas Práticas de Programação; • Algoritmos hierárquicos
e Independência de Eventos; • Bibliotecas de APIs de Machine. aglomerativos e divisivos;
• Principais Distribuições; Learning; • Latent Dirichlet Allocation.
• Variáveis Aleatórias


Vetores Aleatórios
Distribuições Discretas Mais 18 Regressão
24 Teoria do Aprendizado
Importante.
• Linear;


Distribuições Contínuas
Análise exploratória;
• Múltipla; 25 Cursos e Livros
• Ridge(E Lasso);
• Medidas de Centro; • Seleção de Variáveis;
• Amostragem; • Avaliação de performance
• Inferência. de modelos.

12 Big Data
20 Classificação
• Conceitos de Modelagem de • Regressão Logística;
Dados; • Árvores de Decisão;
• Comandos SQL e NoSQL; • Naive Bayes.
• Conceitos de Big Data.

4
ICONOGRAFIA
No conteúdo deste e-book, você encontrará diversos materiais, dentre
eles opções pagas e abertas.

Abaixo você confere os significados de cada ícone e ao visualizá-los,


basta clicar para acessar.

Artigo PDF

Curso Vídeo

Nível Básico
Livro Nível Intermediário
Nível Avançado
5
ESTATÍSTICA
CONCEITOS BÁSICOS

Nessa seção do Guia DATA MASTERS, você encontrará


uma série de conteúdos que auxiliarão no
Probabilidade:
entendimento do conceito básico de Probabilidade
Conceitos Básicos
até as principais distribuições, ou seja, você irá 13min
conferir como utilizar a teoria de Probabilidade para
estimar a chance de um evento acontecer.
Cálculo de
Há quem diga que os primeiros estudos utilizando Probabilidades
estatística foram iniciados em 1662, e suas 10min

principais aplicações estavam voltadas para a


formulação de políticas públicas e fornecimento de
Probabilidade da União
dados demográficos e econômicos.
de Dois Eventos
13min
Apesar de ser uma ciência relativamente antiga,
com o passar do tempo ela vem sendo aplicada de
diversas maneiras. É comum encontramos
estatística em Biostabiliometria, Controle de
Qualidade, Pesquisa Operacional e claro, em
Ciência de Dados. 6
PROBABILIDADE CONDICIONAL VARIÁVEIS ALEATÓRIAS
E INDEPENDÊNCIA DE EVENTOS

O que são Variáveis Aleatórias


Probabilidade Discretas e Contínuas | Distribuição
Condicional de Probabilidades
9min 14min

VETORES ALEATÓRIOS
Probabilidade
Condicional
5min Variáveis Aleatórias
Independentes
11min

Probability Events
Conditional
15min

Independent Events (Basics

Probabilidade
of Probability: Independence
of Two Events)
21min
8
PRINCIPAIS DISTRIBUIÇÕES

O que são e como fazer Binomial Distribution


Distribuição de Probabilidades
9min 12min

Montando uma distribuição de Processo de Poisson 1


probabilidades para variável discreta
8min 12min

DISTRIBUIÇÕES DISCRETAS Processo de Poisson 2

11min

Binomial Distribution

30min

Probabilidade
8
DISTRIBUIÇÕES CONTÍNUAS ANÁLISE EXPLORATÓRIA

Distribuição Gaussiana Análise Exploratória


de Dados - UEL
7min 6h

Exploratory Data Analysis


Curso completo de
Probabilidade 20min
35h

Probabilidade
9
MEDIDAS DE CENTRO AMOSTRAGEM

Medidas de Centro Amostragem Estatística

10min 25min

Introdução à estatística: Tipos de amostragens -


média, mediana e moda Introdução à Estatística
20min 3min

Revisão dos métodos


de amostragem
10min

Estatística
10
INFERÊNCIA

Estimadores Pontuais

30min

Curso Completo
de Estatística
10h

Estatística
11
BIG
DATA CONCEITOS DE MODELAGEM
DE DADOS

Entenda o que é a modelagem


Em Manipulação de Dados, vamos analisar de Banco de Dados
requisitos, definir o modelo conceitual e o modelo 8min

lógico. Por fim, entenderemos como aplicar o


modelo físico. Ficou confuso?
Modelagem de Dados -
Não se preocupe! Nessa seção, vamos abordar os
Conceitos de Bancos de Dados
conceitos e modelagem de dados e compreender 21min
como aplicar os comandos da Linguagem SQL.

Explicaremos o que é NoSQL e lhes


apresentaremos de maneira simples o que é
BIG DATA.

12
COMANDOS SQL E NoSQL

Comandos básicos em SQL - O que é NoSQL?


INSERT, UPDATE, DELETE e SELECT
15min 2h

Guia completo Top 6 NoSQL


de SQL Databases
10h 30min

Introdução a SQL: Consulta e


gerenciamento de dados
8h

Manipulação de Dados
SQL Tutorial

10h

13
CONCEITOS DE BIG DATA

The Complete SQL


Big Data Bootcamp 2022: Go from
Zero to Hero
6min
6min

Big Data - O que é e qual


sua importância?
30min
Spark and Python for Big
Data with PySpark
6min
O que é Big Data -
Conceitos básicos
18min

Manipulação de Dados
14
PROGRAMAÇÃO
LÓGICA

Muito bem! Agora que você chegou até aqui, vamos Lógica de Programação
lhe apresentar os seguintes conteúdos: Conceitos
básicos de Lógica, Algoritmos, Linguagem de 1h30

Programação, Boas práticas e algumas bibliotecas e


APIs de Machine Learning.
Lógica de Programação
com Python
Se você não tiver familiaridade com a linguagem de 2h

programação, fique tranquilo! Pois, nessa seção, você


encontrará uma introdução sobre Python e como ele
está presente no cotidiano de um Cientista de Dados. Curso Python 01 - Introdução -
Aprenda Programar do ZERO
2h

15
BOAS PRÁTICAS DE PROGRAMAÇÃO
Introdução à programação
com Python por Nilo Ney Coutinho Menezes
Pago R$ 73,00

DESIGN
PATTERNS
Learning Python 10min
por Mark Lutz - Editora O’Reilly
Pago R$ 270,01

Design Patterns
Python
Lógica de Programação 1h
e Algoritmos
3h Pago R$ 29,99

Design Patterns in Python


by Peter Ullrich
1h

Programação
16
BIBLIOTECAS E APIS DE MACHINE
LEARNING

10 ferramentas e bibliotecas para


trabalhar com data mining e Big Data
35min

Deployment of Machine
Learning Models
3h

Deployment of Machine
Learning Models
3h

Programação
17
REGRESSÃO
AVALIAÇÃO DE PERFORMANCE DE
MODELOS

Aqui vão algumas perguntas para você pensar! Você


Model Evaluation -
sabe quais são os fatores mais importantes de um
Classification
conjunto de dados? E quais podem ser ignorados? 30min
Para enriquecer seu estudo, separamos as melhores
técnicas utilizadas em Análise de Dados e realizamos
uma completa seleção desde a Introdução aos Model Evaluation -
Conceitos de Análise de Regressão até a Avaliações de Regression
25min
Performance de Modelos.

18
RIDGE (E LASSO)

Métodos de Shrinkage
Pg. 16
30min

SELEÇÃO DE VARIÁVEIS

Variable selection

1h

Técnicas de Regressão
19
CLASSIFICAÇÃO REGRESSÃO LOGÍSTICA

Regressão Logística

A criação de modelos que permitam a predição de 11min

valores é essencial para um Cientista de Dados.


Neste tópico, você se aprofundará
em mais algumas Técnicas Estatísticas de
Regressão, irá entender o Conceito de Árvore de
Decisão e o Naive Bayes (Algoritmo de
Classificação).

20
ÁRVORES DE DECISÃO NAIVE BAYES

Árvore Binária de Busca Algoritmo de classificação


Naive Bayes
15min 40min

Árvores de Decisão Naive Bayes - Georgia Tech -


Machine Learning
1h 8min

Naive Bayes Theorem | Introduction


to Naive Bayes Theorem | Machine
Learning Classification
10min

Técnicas de Classificação
21
K-MEANS

AGRUPAMENTO Entenda o Algoritmo


K-Means
41min

Nesta seção, vamos abordar os temas que são


extremamente importantes para o dia a dia de um K-Means com Python Parte 1/2
Cientista de Dados. Você poderá conhecer o Exemplo Visual
15min
Algoritmo K-Means, os Métodos sobre
Agrupamento de Dados, a Análise de Cluster,
o Algoritmo LDA e a Introdução ao Agrupamento K-Means com Python Parte 2/2
Hierárquico. Exemplo Visual
13min

StatQuest: K-means clustering

9min

22
Algoritmos hierárquicos LATENT DIRICHLET ALLOCATION
aglomerativos e divisivos

Métodos de Agrupamento LDA Algorithm Description


de Dados
1h 10min

O que é análise de Cluster Latent Dirichlet Allocation

35min 50min

Introdução ao A Text Mining Research

Técnicas de Grupamento e relacionanadas


agrupamento hierárquico Based on LDA Topic Modelling
13min 20min

Topic Modeling and Latent


Dirichlet Allocation (LDA) in Python
20min

23
TEORIA DO Structuring Machine

APRENDIZADO
Learning Projects

Machine Learning - The


Nesta seção, vamos abordar os temas que são Summer Edition!
extremamente importantes sobre a Teoria do
Aprendizado.

O aprendizado de máquina (em inglês, machine


learning) é um método de análise de dados que
automatiza a construção de modelos analíticos. É
um ramo da inteligência artificial baseado na ideia
de que sistemas podem aprender com dados,
identificar padrões e tomar decisões com o mínimo
de intervenção humana.

24
CURSOS E
LIVROS Introdução à Ciência de Dados
versão 3 .0
8h

• Introdução;
Para você que aprecia um estudo de forma linear, como • O Que é Ciência de Dados?;
• Ciência de Dados e Big Data;
uma trilha de aprendizado, separamos alguns Cursos e • Ciência de Dados e Estatística;
Livros para complementar no seu processo de • Aprendizado de Máquina (Machine
Learning);
aprendizagem.
• Aplicações da Ciência de Dados;
• Ciclo de Vida de Projetos de Data
Os cursos abordam de forma transversal os assuntos do Science;
• Carreiras em Data Science;
Guia DATA MASTERS, mas indicamos que você também • Como Se Tornar um Cientista de
estude todos os conteúdos, pois assim você vai garantir a Dados;
• Avaliação.
total compreensão dos temas.
Bons estudos!

25
Big Data Fundamentos 2.0 The Data Science Course 2022:
Complete Data Science Bootcamp
8h 6meses

• Introdução;
• O Que é Big Data?;
• Introdução ao Hadoop; Python Fundamentos para Análise
• Arquitetura Hadoop;
de Dados
• Ecossistema Hadoop;
54h
• Soluções Comerciais com
Hadoop; • Introdução;
• Introdução ao Apache Spark; • Variáveis, Tipos e Estruturas de Dados;
• Bancos de Dados NoSQL; • Loops, Condicionais, Métodos e Funções;
• Como Iniciar um Projeto de Big • Tratamento de Arquivos, Módulos, Pacotes
Data?; e Funções Built-in;
• Avaliação e Certificado de • Orientação a Objetos;
Conclusão. • Manipulando Banco de Dados em Python;
• Desafio DAS;
• Módulos Python para Análise de Dados;
• Introdução à Análise de Dados com
Formação Cientista de Dados Python;
• Introdução ao TensorFlow;
• Introdução a Machine Learning com
376h Pago R$ 2.720,00

Cursos e Livros
Python;
• Bônus - Introdução a Deep Learning;
• Desenvolvimento Web;
• Introdução ao Web Scraping;
28
• Avaliação Final.
PDF
An Introduction to Statistical
Learning: With Applications Estatística Básica
in R. Springer Pago R$ 104,90

An Introduction to Statistical Data Scientist with Python


Learning: With Applications
in R. Springer 96 hours
Pago R$ 289,71

The Elements of Statistical


Python Para Análise de Dados: Learning: Data Mining,
Tratamento de Dados com Inference, and Prediction
Pandas, NumPy e IPython
Pago R$ 102,96

Hands-On Machine Learning


with Scikit-Learn, Keras, and
Probabilidade -
Tensorflow
Aplicações à Estatística
Pago R$ 200,76

Cursos e Livros
27
Bootcamp Completo em Data
Science com Python 2022
8h

Credit Risk Modeling in Python 2022

8h

Web Scraping and API


Fundamentals in Python
8h

Python for Data Science and


Machine Learning Bootcamp
8h

Cursos e Livros
28
Cursos e Livros
29

Você também pode gostar