Escolar Documentos
Profissional Documentos
Cultura Documentos
Python e Spark
www.datascienceacademy.com.br
Análise Estatística de Dados
www.datascienceacademy.com.br
Os números constituem a única verdade universal.
Nathanael West
www.datascienceacademy.com.br
Introdução
Análise Estatística de Dados
www.datascienceacademy.com.br
Introdução
O que é Estatística?
www.datascienceacademy.com.br
Introdução
www.datascienceacademy.com.br
Introdução
www.datascienceacademy.com.br
Introdução
Coletar dados
www.datascienceacademy.com.br
Introdução
Interpretar
Coletar
os Dados
Descrever Organizar
Apresentar
www.datascienceacademy.com.br
Introdução
Tipos de Dados
www.datascienceacademy.com.br
Introdução
Exemplo
www.datascienceacademy.com.br
Introdução
Sistema de Cotas
Branco Negro
Pardo
www.datascienceacademy.com.br
Introdução
Idade dos Estudantes
27
17
1
7
18
19 19
25
20
www.datascienceacademy.com.br
Tipos de Dados
Qualitativos Quantitativos
(categóricos) (numéricos)
• Número de
• Escolaridade Filhos • Altura
• Profissão • Classe Social • Peso
• Número de
• Sexo • Fila • Salário
carros
• Religião
• Número de
acessos
www.datascienceacademy.com.br
Introdução
Exemplo
www.datascienceacademy.com.br
Dados Qualitativos Nominais – representam
descrições para os dados e não permitem
ranqueamento. Exemplo: CEP (70.098-080).
www.datascienceacademy.com.br
Dados Qualitativos Ordinais - existe uma ordenação
entre as categorias (ranqueamento) e os dados
podem ser medidos.
www.datascienceacademy.com.br
Dados Quantitativos Discretos – valores baseados
em observações que podem ser contados,
normalmente representados por valores inteiros.
www.datascienceacademy.com.br
Dados Quantitativos Contínuos – valores baseados
em observações que podem ser medidas e
normalmente representados por valores decimais.
www.datascienceacademy.com.br
Introdução
Exercício
www.datascienceacademy.com.br
Introdução
Dados Tipo de Dados
1 – Masculino / 2 - Feminino
Qualitativo
Branco / Pardo / Negro
Quantitativo Discreto
3.125,44
1 – Acima da Média /
2 – Abaixo da Média
www.datascienceacademy.com.br
Introdução
Razão/Ratio
Intervalar
Ordinal
Nominal
www.datascienceacademy.com.br
Introdução
www.datascienceacademy.com.br
População
www.datascienceacademy.com.br
Introdução
www.datascienceacademy.com.br
Introdução
www.datascienceacademy.com.br
Introdução
www.datascienceacademy.com.br
Introdução
Exemplo
www.datascienceacademy.com.br
São Paulo
Roraima
44,4 505,7 mil
milhões
0,2%
21,7%
Número de Brasileiros =
Minas Gerais
N= 204.450.649
20,86 milhões
População
Rio de
Janeiro Bahia
16,55 15,2 milhões
milhões
www.datascienceacademy.com.br
São Paulo
Roraima
44,4 505,7 mil
milhões
0,2% 1,09% da
21,7%
população é
amarela
Número de Brasileiros =
Minas Gerais
N= 204.450.649
20,86 milhões
População
Rio de
Janeiro Bahia
16,55 15,2 milhões
milhões
www.datascienceacademy.com.br
Introdução
www.datascienceacademy.com.br
Introdução
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Introdução
Exemplo
www.datascienceacademy.com.br
População
www.datascienceacademy.com.br
Amostra
www.datascienceacademy.com.br
Introdução
Investigação:
O propósito de um estudo estatístico está na
razão ou motivo da pesquisa ou investigação.
www.datascienceacademy.com.br
Introdução
Perguntas tais:
www.datascienceacademy.com.br
Introdução
Exercício
www.datascienceacademy.com.br
Introdução
www.datascienceacademy.com.br
Introdução
A Universidade de Brasília,
deseja saber a nota média
do Enem para os alunos que
se candidatam para o curso
de medicina. E que estão
cursando a disciplina
Fundamentos de Morfologia.
www.datascienceacademy.com.br
Introdução
Métodos de Amostragem
Amostragem: é a técnica, processo ou a pesquisa que
podem ser realizadas para obter uma amostra.
www.datascienceacademy.com.br
Introdução
Amostragem
Sistemática
Estratificada
Conglomerados
Reamostragem (Bootstrap)
www.datascienceacademy.com.br
Introdução
Amostragem probabilística é uma amostra em que todos os
membros da população tem chance de pertencer a amostra.
www.datascienceacademy.com.br
Introdução
Exemplo
www.datascienceacademy.com.br
Introdução
www.datascienceacademy.com.br
Introdução
Pesquisa de internet, aquelas enquetes que você vê quando
acessa os mais diversos sites.
www.datascienceacademy.com.br
Introdução
As pessoas ficam impressionadas quando veem os números
nas pesquisas, normalmente respondidas por milhares de
pessoas (internautas).
www.datascienceacademy.com.br
Introdução
Exemplo
www.datascienceacademy.com.br
Introdução
Sem querer entrar em polêmicas aqui, talvez você se
lembre de uma pesquisa feita no site da FIFA alguns
anos atrás. Nela, o organizador perguntava: Quem foi o
melhor jogador de futebol do século?
www.datascienceacademy.com.br
Introdução
Na pesquisa feita pela
internet, Maradona foi
escolhido o melhor jogador
do século e Pelé ficou em
segundo. 1º
2º
www.datascienceacademy.com.br
Introdução
www.datascienceacademy.com.br
Introdução
Maradona ficou em quinto lugar e Pelé em primeiro.
1º 2º 3º
4º 5º
www.datascienceacademy.com.br
Introdução
A que se atribui tal diferença?
www.datascienceacademy.com.br
Introdução
Veja a pesquisa aqui:
https://pt.wikipedia.org/wiki/Melhor_Jogador_do_S%C3%A9culo_da_FIFA
www.datascienceacademy.com.br
Introdução
www.datascienceacademy.com.br
Introdução
www.datascienceacademy.com.br
Introdução
Valores que descrevem características da
Parâmetro população, como média e mediana da
população.
www.datascienceacademy.com.br
Introdução
Erro de amostragem = x -
Onde:
x = média da amostra
= média da população
www.datascienceacademy.com.br
Introdução
Exemplo
www.datascienceacademy.com.br
Introdução
Em uma pesquisa eleitoral para senador foi divulgado o
resultado:
Pesquisa Eleitoral
10%
Senador A
47% Senador B
43%
Senador C
www.datascienceacademy.com.br
Introdução
Considerando uma margem de erro de 0.03 para mais ou
para menos:
Pesquisa Eleitoral
10%
Senador A
47% Senador B
43%
Senador C
www.datascienceacademy.com.br
Introdução
Pesquisa Eleitoral Senador A tem a proporção de
votos de 47%.
10%
Senador A
47%
43%
Senador B
Senador C
A proporção real fica entre:
0,47 + 0,03 = 50% ( para mais)
0,47 – 0,03 = 44% (para menos)
www.datascienceacademy.com.br
Introdução
Estudos Estatísticos
www.datascienceacademy.com.br
Introdução
Observacional
Experimental
www.datascienceacademy.com.br
Introdução
www.datascienceacademy.com.br
Introdução
Exemplo
www.datascienceacademy.com.br
Introdução
50 alunos receberam um formulário de avaliação
educacional.
o 25 alunos receberam a instrução de enviar a
resposta por e-mail.
o 25 alunos receberam a instrução de enviar a
resposta por carta sem identificação.
www.datascienceacademy.com.br
Introdução
www.datascienceacademy.com.br
Introdução
A Análise de Dados é o meio através do qual
utilizamos a estatística para apresentar e demonstrar
os resultados dos dados que foram avaliados.
www.datascienceacademy.com.br
Introdução
Estatística não tem sido usada apenas por técnicos, mas
também por gestores de todos os níveis.
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
Análise Estatística de Dados
www.datascienceacademy.com.br
A matemática é o alfabeto que Deus usou para escrever o universo.
Galileu Galilei
www.datascienceacademy.com.br
Estatística Descritiva
www.datascienceacademy.com.br
Estatística Descritiva
www.datascienceacademy.com.br
Estatística Descritiva
O principal propósito de métodos gráficos é
organizar e apresentar os dados de forma
gerencial e ágil.
www.datascienceacademy.com.br
Estatística Descritiva
A Estatística Descritiva tem por objetivo sumarizar e mostrar
os dados, de forma que se possa rapidamente obter uma visão
geral da informação que está sendo analisada.
www.datascienceacademy.com.br
Estatística Descritiva
Por meio da Estatística Descritiva entendemos melhor um
conjunto de dados através de suas características.
As três principais características são:
www.datascienceacademy.com.br
Estatística Descritiva
www.datascienceacademy.com.br
Estatística Descritiva
www.datascienceacademy.com.br
Estatística Descritiva
www.datascienceacademy.com.br
Estatística Descritiva
Visualização de dados
www.datascienceacademy.com.br
Estatística Descritiva
Um dos meios mais simples de descrever dados é
através de tabelas de frequência, que refletem as
observações feitas nos dados.
www.datascienceacademy.com.br
Estatística Descritiva
Número de tablets vendidos por dia Frequência
0 5
1 8
2 14
3 13
4 6
Exemplo de uma tabela de frequência
www.datascienceacademy.com.br
Estatística Descritiva
Cada linha em uma tabela de frequência corresponde a
uma classe.
Número de tablets vendidos por dia Frequência
0 5
1 8
2 14 Classe
3 13
4 6
www.datascienceacademy.com.br
Estatística Descritiva
Número de tablets vendidos por dia Frequência
0 5
1 8
2 14
Classe
3 13
4 6
Distribuição de Frequência
www.datascienceacademy.com.br
Distribuição de Frequência
www.datascienceacademy.com.br
Estatística Descritiva
Como construir uma Distribuição de Frequência?
www.datascienceacademy.com.br
Para construir uma tabela de Distribuição de Frequência nós precisamos:
1 Criar o Rol
2 Definir a Amplitude
www.datascienceacademy.com.br
Estatística Descritiva
Exemplo
www.datascienceacademy.com.br
Fazer a Distribuição de Frequência das Notas de 30
alunos da Turma C, do Colégio BluSky.
www.datascienceacademy.com.br
Fazer a Distribuição
de Frequência das
Notas de 30 alunos
da Turma C, do
Colégio BluSky.
www.datascienceacademy.com.br
1 Criar o Rol é…
www.datascienceacademy.com.br
2 Definir a Amplitude é…
At = Vmáx - Vmín
At = 10,0 – 1,0 = 9
www.datascienceacademy.com.br
3 Determinar o Número de Classes é…
www.datascienceacademy.com.br
Resposta: O número de classe é = 6
K= nn
K= 30
K = 5,4772
Obs: Nesse caso arredondamos para 6, pois não é possível termos 5,4772 linhas
www.datascienceacademy.com.br
4 Determinar o Tamanho do Intervalo de Classe é…
At
Fórmula: h=
K
h= Tamanho do intervalo
Onde: At = Amplitude Total
K = Número de classes
www.datascienceacademy.com.br
Resposta: O tamanho do intervalo de classe é = 1,50
At
h=
K
9
h=
6
h = 1,50
www.datascienceacademy.com.br
5 Fazer a Distribuição de Frequência é…
www.datascienceacademy.com.br
Vamos apresentar os 4 tipos de distribuição de
Frequência:
www.datascienceacademy.com.br
5.1
Distribuição de Frequência Simples ou Absoluta - fi
Fórmula: fi = n
www.datascienceacademy.com.br
Resposta: Distribuição de Frequência Simples é = 30
Colegio BlueSky - Turma C
Notas fi fri Fi Fri
1.0 1
2.0 1
3.0 3
4.0 3 fi = n
5.0 6
6.0 2
7.0
8.0
5
3
fi = 30
9.0 3
10.0 3
Total 30
www.datascienceacademy.com.br
5.2
Distribuição de Frequência Relativa Simples - fri
fi
Fórmula:
fri =
fi
Sempre = 1 ou 100%
www.datascienceacademy.com.br
Resposta: Distribuição de Frequência Relativa Simples
Colegio BlueSky - Turma C
Notas fi fri Fi Fri
1.0
2.0
1 1 / 30
1 1 / 30
3%
3%
fri = fi
3.0 3 3 / 30 10%
4.0 3 3 / 30 10% fi
5.0 6 6 / 30 20%
6.0 2 2 / 30 7%
7.0 5 5 / 30 17% 1
8.0
9.0
3 3 / 30
3 3 / 30
10%
10%
fri = 30
10.0 3 3 / 30 10%
Total 30 30 / 30 100%
www.datascienceacademy.com.br
5.3
Distribuição de Frequência Acumulada - Fi
Fórmula:
Fk = f1 + f2 + … +
fk
www.datascienceacademy.com.br
Resposta: Distribuição de Frequência Acumulada
Colegio BlueSky - Turma C
Notas fi fri Fi Fri
1.0 1 1 / 30 3% 1 Fk = f1 + f2 + … + fk
2.0 1 1 / 30 3% 2
3.0 3 3 / 30 10% 5
4.0 3 3 / 30 10% 8
5.0 6 6 / 30 20% 14
6.0 2 2 / 30 7% 16
7.0 5 5/ 30 17% 21
8.0 3 3 / 30 10% 24
9.0 3 3 / 30 10% 27
10.0 3 3 / 30 10% 30
Total 30 30 / 30 100%
www.datascienceacademy.com.br
5.4
Distribuição de Frequência Relativa Acumulada - Fri
Fi
Fórmula:
Fri =
fi
www.datascienceacademy.com.br
Resposta: Distribuição de Frequência Relativa Acumulada
Colegio BlueSky - Turma C
Notas fi fri Fi Fri Fi
1.0 1 1 / 30 3% 1 3% Fri =
2.0 1 1 / 30 3% 2 6% fi
3.0 3 3 / 30 10% 5 16%
4.0 3 3 / 30 10% 8 26%
5.0 6 6 / 30 20% 14 46% 14
6.0 2 2 / 30 7% 16 53% Fri =
7.0 5 5/ 30 17% 21 70% 30
8.0 3 3 / 30 10% 24 80% Obs: Posso
9.0 3 3 / 30 10% 27 90% demonstrar em %
10.0 3 3 / 30 10% 30 100% multiplicando por 100
Total 30 30 / 30 100%
www.datascienceacademy.com.br
Estatística Descritiva
Visualização de Dados
www.datascienceacademy.com.br
Nós já sabemos que Dados qualitativos descrevem
características dos dados, tais como sexo, nível de educação
ou cor dos olhos. Estes tipos de dados são tratados de forma
diferente dos dados quantitativos.
www.datascienceacademy.com.br
Quais as principais ferramentas e/ou elementos usadas para
visualização de dados qualitativos?
www.datascienceacademy.com.br
Quais as principais ferramentas e/ou elementos usadas para
visualização de dados qualitativos?
www.datascienceacademy.com.br
Gráfico de Barras
Grades Frequência
A 7
B 14
C 6
D 1
E 0
F 2
www.datascienceacademy.com.br
Frequência
16
14
14
12
Grades Frequência 10
A 7
Frequencia
B 14 8
C 6
7
D 1 6
6
E 0
F 2
4
2
2
1
0
A B C Grades de Notas D 0E F
www.datascienceacademy.com.br
Gráfico de Pareto
Frequencia
Frequência Frequência
Razões de Atraso de Voo Relativa
(fi) Relativa (fri)
Acumulada (Fri)
Mau Tempo 44 0.489 0.489
Tráfego Aéreo 18 0.200 0.689
Problemas Mecanicos 14 0.156 0.844
Tripulação Reduzida 7 0.078 0.922
Abastecimento 5 0.056 0.978
Outros 2 0.022 1.000
Total 90 1.000
www.datascienceacademy.com.br
Gráfico de Pareto
Frequencia
Razões de Atraso de Frequência Frequência
Relativa
Voo (fi) Relativa (fri)
Acumulada (Fri)
Mau Tempo 44 0.489 0.489
Tráfego Aéreo 18 0.200 0.689
Problemas Mecanicos 14 0.156 0.844
Tripulação Reduzida 7 0.078 0.922
Abastecimento 5 0.056 0.978
Outros 2 0.022 1.000
Total 90 1.000
www.datascienceacademy.com.br
Gráfico de Pizza
Número Computadores
Empresa
Vendidos
HPTP 4228
Dello 3996
Acert 2076
Applex 1135
Tosser 1005
Outros 2837
Total 15277
www.datascienceacademy.com.br
Gráfico de Pizza
Número Computadores Vendidos
HPTP
14%
Número Computadores
Empresa Dello
Vendidos 13%
Total
HPTP 4228 50%
Total 15277
www.datascienceacademy.com.br
Gráfico de Linhas
Faturamento Vendas
Ano
XPTO - Milhões de Reais
2004 8.5
2005 10.4
2006 12.5
2007 18.7
2008 11.4
2009 22.8
2010 21.4
2011 23.7
2012 24
2013 25
2014 28.6
2015 32.4
www.datascienceacademy.com.br
Gráfico de Linhas
Faturamento Vendas Faturamento de Vendas
Ano
XPTO - Milhões de Reais 2060
www.datascienceacademy.com.br
Tabela de Contingência
Cliente Sexo Condição de Pagamento
1 Feminino Dinheiro
2 Masculino Cartão
3 Masculino Dinheiro
4 Masculino Dinheiro
5 Feminino Cartão
6 Feminino Cartão
7 Masculino Dinheiro
8 Feminino Cartão
9 Masculino Cartão
10 Feminino Dinheiro
11 Masculino Cartão
12 Feminino Cartão
13 Masculino Dinheiro
14 Feminino Cartão
15 Feminino Dinheiro
www.datascienceacademy.com.br
Tabela de Contingência
Cliente Sexo Condição de Pagamento
1 Feminino Dinheiro
2 Masculino Cartão Soma de Cliente Rótulos de Coluna
3 Masculino Dinheiro Rótulos de Linha Cartão Dinheiro Total Geral
4 Masculino Dinheiro
5 Feminino Cartão Feminino 45 26 71
6 Feminino Cartão
7 Masculino Dinheiro Masculino 22 27 49
8 Feminino Cartão
Total Geral 67 53 120
9 Masculino Cartão
10 Feminino Dinheiro
11 Masculino Cartão
12 Feminino Cartão
13 Masculino Dinheiro
14 Feminino Cartão
15 Feminino Dinheiro
www.datascienceacademy.com.br
Gráfico de Dispersão
Tamanho da TV LED Preço da TV R$
46 2600
46 3980
32 1200
40 1480
26 970
32 1115
46 3400
46 5560
32 2400
40 1120
26 1130
32 1320
www.datascienceacademy.com.br
Gráfico de Dispersão
Tamanho da TV LED Preço da TV R$ Preço da TV R$
6000
46 2600
46 3980 5000
32 1200
40 1480 4000
26 970
3000
32 1115
46 3400
2000
46 5560
32 2400 1000
40 1120
26 1130 0
32 1320 0 5 10 15 20 25 30 35 40 45 50
www.datascienceacademy.com.br
Histograma
Pontuação
Frequência Frequência Relativa
Campeonato Frequência
Relativa Acumulada
Golf
275-279 5 0.083 0.083
280-284 17 0.283 0.367
285-289 21 0.350 0.717
290-294 13 0.217 0.933
295-299 3 0.050 0.983
300-304 1 0.017 1.000
Total 60 1.000
www.datascienceacademy.com.br
Histograma
Histograma
Pontuação Frequência Relativa
Frequência Frequência Relativa 25
Campeonato Golf Acumulada
20
275-279 5 0.083 0.083
280-284 17 0.283 0.367
Frequencia
15
285-289 21 0.350 0.717
290-294 13 0.217 0.933 10
295-299 3 0.050 0.983
5
300-304 1 0.017 1.000
Total 60 1.000 0
275-279 280-284 285-289 290-294 295-299 300-304
Pontuação
www.datascienceacademy.com.br
Histograma
Histograma
Pontuação Frequência Relativa
Frequência Frequência Relativa 25
Campeonato Golf Acumulada
20
275-279 5 0.083 0.083
280-284 17 0.283 0.367
Frequencia
15
285-289 21 0.350 0.717
290-294 13 0.217 0.933 10
295-299 3 0.050 0.983
5
300-304 1 0.017 1.000
Total 60 1.000 0
275-279 280-284 285-289 290-294 295-299 300-304
Pontuação
www.datascienceacademy.com.br
Histograma
Exemplo
www.datascienceacademy.com.br
Histograma
Considerando uma pesquisa realizada em 4 regiões do país
para identificar o número de Taxoplasmose congênita (doença
que pode ser fatal ou levar a cegueira, icterícia que é a pele
amarelada, convulsões ou retardo mental) em crianças de 0 a
12 anos de idade.
www.datascienceacademy.com.br
Histograma
www.datascienceacademy.com.br
Histograma
www.datascienceacademy.com.br
Histograma
www.datascienceacademy.com.br
Histograma
www.datascienceacademy.com.br
Caule e Folha
O Gráfico Caule e Folha, divide os dados em duas partes:
O caule (ramo): são os valores maiores e ficam à esquerda do
traço vertical.
www.datascienceacademy.com.br
Caule e Folha
As folhas são os menores valores, ficam à direita do traço
vertical. Listando todas folhas à direita de cada caule,
podemos graficamente descrever como os dados estão
distribuídos.
www.datascienceacademy.com.br
Caule e Folha
A beleza do Caule e folha é a simplicidade. Ele não requer um
software para ser construído, mostra cada um dos valores e
prove uma visão tipo histograma da distribuição dos dados.
www.datascienceacademy.com.br
Caule e Folha
Exemplo
www.datascienceacademy.com.br
Considerando essa tabela fictícia de notas de Exame, vamos
montar o gráfico de Caule e Folha:
www.datascienceacademy.com.br
1º Passo
Ordenar os valores.
www.datascienceacademy.com.br
2º Passo
Traçar a linha vertical
www.datascienceacademy.com.br
Notas dos Exames
3º Passo 78
80
78
81
79
81
79
82
79
83
80
83
80
84
80
84
84 85 86 87 88 90 92 95
Colocar os valores das dezenas
7
8
9
www.datascienceacademy.com.br
Notas dos Exames
4º Passo 78
80
78
81
79
81
79
82
79
83
80
83
80
84
80
84
84 85 86 87 88 90 92 95
Fazer a distribuição das unidades
7 8 8 9 9 9
8 0 0 0 0 1 1 2 3 3 4 4 4 5 6 7 8
9 0 2 5
www.datascienceacademy.com.br
Notas dos Exames
Gráfico Concluído 78
80
78
81
79 79 79 80
81 82 83 83
80
84
80
84
84 85 86 87 88 90 92 95
7 8 8 9 9 9
8 0 0 0 0 1 1 2 3 3 4 4 4 5 6 7 8
9 0 2 5
www.datascienceacademy.com.br
Você como um Analista de Dados deve ter os conceitos
de estatística em seu rol de conhecimentos e saber
utilizar as ferramentas adequadas para realizar o
trabalho de análise de Dados.
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
Medidas de Tendência Central e
Dispersão
www.datascienceacademy.com.br
Os números governam o mundo
Pitágoras
www.datascienceacademy.com.br
Média, Mediana, Desvio Padrão e Variância
www.datascienceacademy.com.br
Altura Idade Sexo
1
2
133
135
11
12
F
M
Análise
3
4
137
145
11
17
M
F
Exploratória
5
6
168
173
14
15
F
F de Dados
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
www.datascienceacademy.com.br
Estatística
Altura Idade Descritiva
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
133 + 135+137+145+168+173+194+205+180+160+160+168+173+194+205
Média = __________________________________________________________________
15
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
133 + 135+137+145+168+173+194+205+180+160+160+168+173+194+205
Média = __________________________________________________________________
15
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6 173 15 F
7 194 19 M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
11 + 12 + 11 + 17 + 14 + 15 + 19 + 22 + 22 + 19 + 19 + 18 + 22 + 19 + 19 + 20
Média = __________________________________________________________________
15
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
11 + 12 + 11 + 17 + 14 + 15 + 19 + 22 + 22 + 19 + 19 + 18 + 22 + 19 + 19 + 20
Média = __________________________________________________________________
15
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Desvio = 169-133 = 36
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6 173 15 F
7 194 19 M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Desvio = 169-133 = 36
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6 173 15 F
7 194 19 M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Desvio = 169-133 = 36
36 ^ 2 = 1296
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 Q1= 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 133 1 133 11 F
Count 15 15 135 2
3
135
137
12
11
M
M
137
mean 169 17 145 4
5
145
168
17
14
F
F
160
std 24.22 3.68 160 6
7
173
194
15
19
F
M
168
min 133 11 168 8 205 22 M
173 9 180 19 M
25% 152.5 14.5 173 10 160 19 F
11 160 18 M
50% 168 19 180
194 12 168 22 M
13 173 19 M
75% 187 19 194
205 14 194 19 F
15 205 20 M
max 205 22 205
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6 173 15 F
7 194 19 M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6 173 15 F
7 194 19 M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Mode = 160 e 19
www.datascienceacademy.com.br
Sem dúvida, médias são as formas mais simples de
identificar tendências em um conjunto de dados.
Entretanto, médias podem trazer armadilhas que levam
a conclusões distorcidas.
www.datascienceacademy.com.br
O que usar? Vantagens Desvantagens
Relativamente fácil de Pode ser muito afetada por
Média calcular valores extremos
Fácil de compreender seu
significado
Não é afetada por valores Requer mais esforço para
Mediana extremos ser determinada que a
Média
Pode ser usada com dados Pode não existir em um
Moda descritivos conjunto de dados
Pode não ser única (pode
existir mais de uma moda)
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
Medidas de Forma
www.datascienceacademy.com.br
Você quer ficar o resto da sua vida vendendo água com açúcar ou
você quer uma chance de mudar o mundo?
Steve Jobs
www.datascienceacademy.com.br
Medidas de Forma
www.datascienceacademy.com.br
Medidas de Assimetria
www.datascienceacademy.com.br
Medidas de Assimetria
www.datascienceacademy.com.br
Medidas de Curtose
www.datascienceacademy.com.br
Medidas de Curtose
Mesocúrtica
www.datascienceacademy.com.br
Medidas de Curtose
Platicúrtica
www.datascienceacademy.com.br
Medidas de Curtose
Leptocúrtica
www.datascienceacademy.com.br
Coeficiente de Curtose
www.datascienceacademy.com.br
Coeficiente de Curtose
www.datascienceacademy.com.br
Coeficiente de Curtose
www.datascienceacademy.com.br
Coeficiente de Curtose
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
Aquilo a que chamamos acaso não é, não pode deixar de ser, senão a
causa ignorada de um efeito conhecido.
Voltaire
www.datascienceacademy.com.br
Introdução à Probabilidade
Lenis Poisson
www.datascienceacademy.com.br
Introdução à Probabilidade
A probabilidade
é uma medida matemática do acaso
www.datascienceacademy.com.br
Introdução à Probabilidade
Probabilidade é um valor numérico que indica a chance, ou
probabilidade, de um evento específico ocorrer. Este valor
numérico vai estar entre 0 e 1 .
www.datascienceacademy.com.br
Introdução à Probabilidade
Evento – um ou mais resultados de um experimento.
www.datascienceacademy.com.br
Introdução à Probabilidade
Probabilidade Clássica : é usada quando nós sabemos o número
de possíveis resultados do evento de interesse e podemos
calcular a probabilidade do evento com a seguinte fórmula:
www.datascienceacademy.com.br
Introdução à Probabilidade
A Probabilidade Empírica, envolve conduzirmos um
experimento, para observarmos a frequência com que um
evento ocorre.
Para calcularmos a probabilidade empírica, usamos a fórmula:
www.datascienceacademy.com.br
Introdução à Probabilidade
Usamos Probabilidade Subjetiva, quando:
www.datascienceacademy.com.br
Introdução à Probabilidade
1ª Regra
www.datascienceacademy.com.br
Introdução à Probabilidade
2ª Regra
www.datascienceacademy.com.br
Introdução à Probabilidade
3ª Regra
www.datascienceacademy.com.br
Introdução à Probabilidade
4ª Regra
A soma de todas as probabilidades para um evento simples, em um
espaço de amostra, será igual a 1.
www.datascienceacademy.com.br
Introdução à Probabilidade
5ª Regra
www.datascienceacademy.com.br
Introdução à Probabilidade
Tabela de Contingência
www.datascienceacademy.com.br
Introdução à Probabilidade
As Tabelas de Contingência são os meios de organizar as
informações correspondentes aos dados classificados segundo
dois critérios.
www.datascienceacademy.com.br
Introdução à Probabilidade
www.datascienceacademy.com.br
Introdução à Probabilidade
www.datascienceacademy.com.br
Introdução à Probabilidade
Nós usamos Tabela de Contingência para comparar 2
variáveis.
www.datascienceacademy.com.br
Introdução à Probabilidade
www.datascienceacademy.com.br
Introdução à Probabilidade
Exemplo
www.datascienceacademy.com.br
Introdução à Probabilidade
Tabela de Contingência
Grau de Instrução
Sexo 3o Grau 3o Grau Pós- Total
1o Grau 2o Grau Incompleto Completo Graduação Mestrado Doutorado
Masculino (M) 200 250 650 740 150 40 15 2045
Feminino (F) 310 560 800 900 270 80 35 2955
Total 510 810 1450 1640 420 120 50 5000
www.datascienceacademy.com.br
Introdução à Probabilidade
Dessa Tabela de Contingência nós podemos tirar as
seguintes conclusões:
www.datascienceacademy.com.br
Introdução à Probabilidade
www.datascienceacademy.com.br
Introdução à Probabilidade
www.datascienceacademy.com.br
Introdução à Probabilidade
3ª Conclusão: O número de mulheres com curso superior
completo é de 900.
Grau de Instrução
Sexo 3o Grau 3o Grau Pós- Total
1o Grau 2o Grau Incompleto Completo Graduação Mestrado Doutorado
www.datascienceacademy.com.br
Introdução à Probabilidade
4ª Conclusão: o percentual de mulheres que concluem o 2º
grau é de 69%, enquanto que o percentual de homens que
concluem o 2º grau é de somente 31%.
Grau de Instrução
Sexo 3o Grau 3o Grau Pós- Total
1o Grau 2o Grau Incompleto Completo Graduação Mestrado Doutorado
www.datascienceacademy.com.br
Introdução à Probabilidade
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
A Matemática apresenta invenções tão sutis que poderão servir não só
para satisfazer os curiosos, como também para auxiliar as artes e
poupar trabalho aos homens.
Descartes
www.datascienceacademy.com.br
Introdução à Probabilidade
Árvore de Decisão
www.datascienceacademy.com.br
Árvore de Decisão é um instrumento de apoio à
tomada de decisão que consiste em uma representação
gráfica das alternativas disponíveis, geradas a partir de
uma decisão inicial.
www.datascienceacademy.com.br
Árvore de Decisão é um instrumento de apoio à tomada de
decisão que consiste em uma representação gráfica das
alternativas disponíveis, geradas a partir de uma decisão inicial.
Analista de Dados?
Está Estudando
Excelente Salário
Estatística?
www.datascienceacademy.com.br
Introdução à Probabilidade
Para efetuar a representação gráfica da Árvore de Decisão são
geralmente usadas linhas para identificar a decisão (por
exemplo "sim" ou "não") e nós para identificar as questões
sobre as quais se deve decidir.
www.datascienceacademy.com.br
Introdução à Probabilidade
www.datascienceacademy.com.br
Introdução à Probabilidade
Além da gestão, Árvores de Decisão são também muito
utilizadas em outras áreas, com especial destaque para a
criação de algorítmos de computação e análise de dados.
www.datascienceacademy.com.br
Introdução à Probabilidade
Exemplo
www.datascienceacademy.com.br
Introdução à Probabilidade
www.datascienceacademy.com.br
Introdução à Probabilidade
www.datascienceacademy.com.br
Introdução à Probabilidade
Árvores de Decisão são similares a regras Se-então. Que é uma
estrutura muito usada na implementação de sistemas de
computação e em problemas de classificação.
www.datascienceacademy.com.br
Introdução à Probabilidade
Árvores de Decisão tomam como entrada uma situação
descrita por um conjunto de atributos e retorna uma decisão,
que é o valor previsto para o valor de entrada.
www.datascienceacademy.com.br
Introdução à Probabilidade
Árvores de Decisão também são muito usadas em aprendizado
de máquina (Machine Learning), onde computadores são
programados para tomar decisão baseados em respostas aos
eventos.
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
Uma verdade matemática não é simples nem complicada por si mesma.
É uma verdade.
Emile Lemoine
www.datascienceacademy.com.br
Introdução à Probabilidade
Análise Combinatória
www.datascienceacademy.com.br
Introdução à Probabilidade
As principais ferramentas da Análise Combinatória são:
Permutação
Arranjo
Combinação
www.datascienceacademy.com.br
Introdução à Probabilidade
Qual delas utilizar para resolver um problema específico?
www.datascienceacademy.com.br
Introdução à Probabilidade
Permutação
www.datascienceacademy.com.br
Introdução à Probabilidade
www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula Permutação=
Pn = n!
www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula Permutação – Quando Usar?
www.datascienceacademy.com.br
Introdução à Probabilidade
Você deve usar a Fórmula Permutação quando você quiser
contar quantas possibilidades existem de se organizar um
número de objetos de forma distinta.
www.datascienceacademy.com.br
Introdução à Probabilidade
Exemplo
www.datascienceacademy.com.br
Introdução à Probabilidade
www.datascienceacademy.com.br
Introdução à Probabilidade
O número de anagramas da palavra FORÇA é uma permutação
de 5 elementos, calculada através de:
5! = 5 x 4 x 3 x 2 x 1 = 120.
www.datascienceacademy.com.br
Introdução à Probabilidade
O número de anagramas da palavra FORÇA é uma permutação
de 5 elementos, calculada através de:
5! = 5 x 4 x 3 x 2 x 1 = 120.
www.datascienceacademy.com.br
Introdução à Probabilidade
www.datascienceacademy.com.br
Introdução à Probabilidade
O número de filas que podem ser formadas com 15 pessoas é
15! (15 fatorial), calculada através de:
15! = 15 x 14 x 13 x 12 x 11x...1
www.datascienceacademy.com.br
Introdução à Probabilidade
Arranjo
www.datascienceacademy.com.br
Introdução à Probabilidade
Um arranjo de n elementos dispostos p a p, com p menor ou
igual a n, é uma escolha de p entre esses n objetos na qual a
ordem importa.
www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula Arranjo =
www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula Arranjo – Quando Usar?
www.datascienceacademy.com.br
Introdução à Probabilidade
Devemos usar o arranjo quando o que importa é a ordem dos
elementos.
www.datascienceacademy.com.br
Introdução à Probabilidade
Exemplo
www.datascienceacademy.com.br
Introdução à Probabilidade
Em uma competição de 20 jogadores, quantas são as
possibilidades de se formar um pódio com os três primeiros
lugares?
www.datascienceacademy.com.br
Introdução à Probabilidade
Note que, neste problema, queremos dispor 20 jogadores em 3
lugares, onde a ordem importa, afinal o pódio formado por
Marcelo, por Josias e por Damião não é o mesmo formado por
Damião, por Marcelo e por Josias.
www.datascienceacademy.com.br
Introdução à Probabilidade
Outro exemplo é o número de possibilidades de se formar
uma foto com n pessoas.
www.datascienceacademy.com.br
Introdução à Probabilidade
Perceba que as permutações nada mais são do que casos
particulares de arranjos onde n = p.
www.datascienceacademy.com.br
Introdução à Probabilidade
Combinação
www.datascienceacademy.com.br
Introdução à Probabilidade
www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula da Combinação =
www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula da Combinação – Quando Usar?
www.datascienceacademy.com.br
Introdução à Probabilidade
Devemos usar a combinação quando o importante do
resultado deva ser a natureza, ou seja, os elementos devem
ser diferentes.
www.datascienceacademy.com.br
Introdução à Probabilidade
Exemplo
www.datascienceacademy.com.br
Introdução à Probabilidade
Como formar uma comissão de 3 pessoas escolhidas entre 10
pessoas?
www.datascienceacademy.com.br
Introdução à Probabilidade
Diferentemente do pódio do exemplo anterior, uma comissão
formada por Mauro, por Joana e por Paula é a mesma
comissão formada por Joana, por Paula por Mauro.
www.datascienceacademy.com.br
Introdução à Probabilidade
Se desejarmos saber quantas duplas podemos fazer com 7
jogadores de vôlei, usaremos a combinação, uma vez que, o
importante é a natureza, ou seja os jogadores devem ser
diferentes, pois a dupla Marcelo e Tedy é a mesma que Tedy e
Marcelo.
www.datascienceacademy.com.br
Introdução à Probabilidade
Trabalhar como um Analista de dados, requer tomar
decisões probabilísticas, avaliar riscos e manipular
números.
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
Distribuição de Probabilidade
www.datascienceacademy.com.br
É claro que meus filhos terão computadores, mas antes terão livros.
Bill Gates
www.datascienceacademy.com.br
Em estatística, uma Distribuição de Probabilidade descreve a
chance que uma variável (discreta ou contínua) pode assumir
ao longo de um espaço de valores.
www.datascienceacademy.com.br
Variáveis Aleatórias
www.datascienceacademy.com.br
Variáveis Aleatórias
Discreta Contínua
www.datascienceacademy.com.br
Distribuição de Probabilidade
Tipos de Distribuição
de Probabilidade
Distribuição Distribuição
Discreta Contínua
Binomial Normal
Poisson Uniforme
Bernoulli Exponencial
Geométrica Gama
Hipergeométrica tStudent
www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta
Distribuição Binomial
www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta
www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta
www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta
www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta
Ou seja:
p=1–q
Onde:
p = probabilidade de sucesso
q = probabilidade de fracasso
www.datascienceacademy.com.br
Distribuição Binomial
São realizadas n repetições no experimento, onde n é
uma constante.
www.datascienceacademy.com.br
Distribuição Binomial
Os parâmetros da Distribuição
Binominal são n e p.
A Média de uma Distribuição Binomial,
representa a média de longo prazo de
sucessos esperados, baseado no
número de observações.
Fórmula:
Média = = n.P
www.datascienceacademy.com.br
Distribuição Binomial
A Variância de uma Distribuição
Binomial, representa a variação que
existe no número de sucessos (p) sobre
um número (n) de observações.
Fórmula:
Variância = 2 = (n.p).(1-p)
www.datascienceacademy.com.br
Distribuição Binomial
Exemplo
www.datascienceacademy.com.br
Distribuição Binomial
Numa fábrica de HD (Discos Rígidos) de computador, um
engenheiro extrai uma amostra de HD para cada 15 HD’s
aleatoriamente fabricados.
Sabendo que 85% dos HD’s são aceitáveis.
Qual a probabilidade de que 10 HD’s extraídos sejam
aceitáveis?
www.datascienceacademy.com.br
Distribuição Binomial
p= 1 – q
p = 0,85% (probabilidade de sucesso) 0,85 = 1 – q
q = 0,15% (probabilidade de fracasso) q = 0,15
x = 10
n = 15 (amostra extraída)
www.datascienceacademy.com.br
Distribuição Binomial
Fórmula da Função binomial
P (x) = 4,5%
www.datascienceacademy.com.br
Distribuição Binomial
E = 10 x 0.27
E = 2,70
www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta
Distribuição Poisson
www.datascienceacademy.com.br
Distribuição Poisson
A Distribuição Poisson é utilizada para descrever
cenários onde existe a probabilidade de ocorrência de
um intervalo contínuo.
www.datascienceacademy.com.br
Distribuição Poisson
O número de ocorrências dependem do tamanho do
intervalo.
www.datascienceacademy.com.br
Distribuição Poisson
O único parâmetro da
Distribuição Poisson é
chamado λ (lambda),
que representa a taxa
de eventos por
unidade.
www.datascienceacademy.com.br
Distribuição Poisson
www.datascienceacademy.com.br
Distribuição Poisson
Exemplo
www.datascienceacademy.com.br
Distribuição Poisson
www.datascienceacademy.com.br
Distribuição Poisson
X=2
λ=5
www.datascienceacademy.com.br
Distribuição Poisson
X=2
λ=5
P= 8,42%
www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Cada amostra de cada experimento é um conjunto novo
de dados.
www.datascienceacademy.com.br
Distribuição Hipergeométrica
www.datascienceacademy.com.br
A Distribuição Hipergeométrica é uma distribuição de
probabilidade discreta que descreve o número de
sucesso numa sequência de n extrações de uma
população finita, ou seja, sem reposição.
www.datascienceacademy.com.br
A Distribuição Hipergeométrica é usada quando as
amostras são colhidas de uma população finita sem ser
substituída.
www.datascienceacademy.com.br
Quando a amostragem é sem substituição, a
probabilidade de sucesso muda durante o processo de
amostragem, isso viola os requisitos para uma
distribuição de probabilidade binomial.
www.datascienceacademy.com.br
Fórmula da Distribuição Hipergeométrica
Cn - x × R C x
P( x) = N -R
N Cn
onde:
N = Tamanho da população
R = O número de sucessos da população
n = Tamanho da Amostra
x = Número de sucessos da amostra
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Exemplo
www.datascienceacademy.com.br
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Precisamos encontrar:
P(x ≥ 1) = 1 – P(x = 0)
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Considerando um comércio onde 5 de 50 contas estão
inadimplentes. Se um auditor seleciona aleatoriamente 10
Usamos: contas sem substituição, qual é a probabilidade de que pelo
menos uma conta possa ser inadimplente?
N = 50 = Tamanho da população
R = 5 = O número de sucessos da população
n = 10 = Tamanho da Amostra
x = 0 = Número de sucessos da amostra
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Fórmula:
Cn - x × R C x
P( x) = N -R Sendo:
N Cn P(0) = 0.31,
C10 - 0 ×5 C0 C10 ×5 C0 P(x ≥ 1) = 1 – P(x = 0)
P (0) = 50 - 5
= 45
= 1 – 0.31
50 C10 50 C10
= 0.69
45! 5!
×
(45 - 10)! (10)! (5 - 0)! (0)!
= = 0.31
50!
(50 - 10)! (10)!
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Sendo:
P(0) = 0.31,
P(x ≥ 1) = 1 – P(x = 0)
= 1 – 0.31
= 0.69
Assim, a probabilidade de que pelo menos uma conta inadimplente
será encontrada numa amostra de dez contas é de 69%.
www.datascienceacademy.com.br
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Fórmula para Média da Distribuição Hipergeométrica
nR
m=
N
onde:
N = Tamanho da população
R = O número de sucessos da população
n = Tamanho da Amostra
www.datascienceacademy.com.br
Fórmula para Desvio Padrão da Distribuição
Hipergeométrica
nR( N - R) N - n
s=
N 2
N -1
onde:
N = Tamanho da população
R = O número de sucessos da população
n = Tamanho da Amostra
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Exemplo I
www.datascienceacademy.com.br
Distribuição Hipergeométrica
nR (10)(5)
m= = = 1.0
N 50
www.datascienceacademy.com.br
Distribuição Hipergeométrica
nR (10)(5)
m= = = 1.0
N 50
www.datascienceacademy.com.br
Para o exemplo da conta inadimplente: O Desvio
Padrão da Distribuição Hipergeométrica é
nR ( N - R) N - n (10)(5)(50 - 5) 50 - 10
s = =
N 2
N -1 (50)2 50 - 1
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Exemplo II
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Imagine uma rede de supermercados que possuem 22
funcionários, sendo que 8 possuem idade superior a 55
anos (vamos nos referir aos funcionários com mais de 55
anos como “funcionários antigos” para diferenciar do
outro grupo, que chamaremos de “funcionários novos”)
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Devido a uma recente crise econômica, o supermercado
decide demitir 7 funcionários, destes, 5 são funcionários
antigos.
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Se os funcionários foram demitidos randomicamente,
qual a probabilidade de eles serem funcionários
antigos?
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Esta informação seria útil para advogados tentando
identificar se houve ou não discriminação na escolha dos
funcionários a serem demitidos.
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Vamos definir como sucesso, um funcionário antigo ser
selecionando randomicamente para demissão.
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Este é um exemplo claro de uma amostra de uma
população finita, cuja variável não pode ser reposta, pois
uma vez que um funcionário foi selecionado para
demissão, ele não poderá ser selecionado novamente.
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Consequentemente, a probabilidade de funcionários
antigos serem selecionados para demissão, muda a
cada seleção.
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Evento A = randomicamente selecionar funcionários
antigos para demissão:
P(A) = 8 / 22
P(A) = 0.364
www.datascienceacademy.com.br
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Vamos supor que o primeiro funcionário selecionado
para demissão foi um funcionário antigo.
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Qual a probabilidade que o próximo selecionado também
seja funcionário antigo?
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Perceba que o número de funcionários antigos diminuiu
de 8 para 7, pois um já foi selecionado. Desta forma:
P(A) = 7 / 21 = 0.333
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Perceba que a Probabilidade de Sucesso em nosso
exemplo muda, durante o processo de amostragem.
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Isso viola uma das regras da Distribuição Binomial e
por isso ela não poderia ser usada neste caso.
www.datascienceacademy.com.br
Distribuição Hipergeométrica
E qual a regra de Distribuição que devemos usar nesse
caso?
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Muito bem!!!
www.datascienceacademy.com.br
Distribuição de Probabilidade Continua
www.datascienceacademy.com.br
Distribuição de Probabilidade Continua
Distribuição Normal
www.datascienceacademy.com.br
Distribuição Normal
www.datascienceacademy.com.br
A Distribuição Normal é útil quando os dados tendem a
estar próximos ao centro da distribuição (próximos da
média) e quando valores extremos (outliers) são muito
raros.
www.datascienceacademy.com.br
Distribuição de Probabilidade Continua
Distribuição Uniforme
www.datascienceacademy.com.br
A Distribuição Uniforme é usada para descrever os
dados quando todos os valores têm a mesma chance de
ocorrer.
www.datascienceacademy.com.br
Distribuição de Probabilidade Continua
Distribuição Exponencial
www.datascienceacademy.com.br
A Distribuição Exponencial é usada para descrever os
dados quando valores mais baixos tendem a dominar a
distribuição e quando valores muito altos não ocorrem
com frequência .
www.datascienceacademy.com.br
Distribuição de Probabilidade Continua
Distribuição t de Student
www.datascienceacademy.com.br
A Distribuição t de Student é uma das principais
distribuições de probabilidade, com inúmeras aplicações
em inferência estatística.
www.datascienceacademy.com.br
Resumindo
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
Quando achamos a matemática e a física teórica muito
difíceis, voltamo-nos para o misticismo.
Stephen Hawking
www.datascienceacademy.com.br
Teorema do Limite Central
www.datascienceacademy.com.br
Teorema do Limite Central
Teorema do Limite Central – é fundamental para a estatística,
uma vez que diversos procedimentos estatísticos comuns
requerem que os dados sejam aproximadamente normais e o
Teorema do Limite Central permite aplicar esses
procedimentos úteis a população que são fortemente não-
normais.
www.datascienceacademy.com.br
Teorema do Limite Central
Esse teorema possibilita medir o quanto sua média amostral
irá variar, sem ter que pegar outra média amostral para fazer
a comparação. Ou seja, permite-nos conduzir alguns
procedimentos de inferência sem ter qualquer conhecimento
de distribuição da população.
www.datascienceacademy.com.br
Teorema do Limite Central
Esse teorema basicamente diz que sua média amostral tem
uma distribuição normal, independente da aparência da
distribuição dos dados originais.
www.datascienceacademy.com.br
Teorema do Limite Central
www.datascienceacademy.com.br
Formatos de Distribuição de Frequência
O formato da Distribuição de Frequência está relacionado a
concentração de valores no intervalo de variação da variável.
Mudanças de uma medida de variação provocam alterações
no aspecto visual do gráfico de Distribuição de Frequencia .
www.datascienceacademy.com.br
Formatos de Distribuição de Frequência
Simetria indica que o formato de distribuição é o mesmo à
esquerda e a direita do eixo de um gráfico.
www.datascienceacademy.com.br
Numa distribuição simétrica a média é o ponto de simetria.
média
www.datascienceacademy.com.br
Numa distribuição Unimodal a Simetria implica que a média,
mediana e moda são coincidentes, ou estejam muito
próximas.
Média=moda=mediana
www.datascienceacademy.com.br
Muitos procedimentos pressupõem que uma Distribuição
Normal é uma Distribuição Simétrica.
www.datascienceacademy.com.br
Formatos de Distribuição de Frequência
Assimetria indica variação no formato de distribuição.
Distribuição Assimétrica
Positiva :
www.datascienceacademy.com.br
Formatos de Distribuição de Frequência
Assimetria indica variação no formato de distribuição.
Distribuição Assimétrica
Negativa
www.datascienceacademy.com.br
Curtose vem da palavra grega, Kurtos, que significa Curvatura. Esse
termo está relacionado com o grau de concentração das
observações no centro e nas caudas de distribuição dos gráficos. Ou
seja, o grau de achatamento da curva.
www.datascienceacademy.com.br
Classificação da Curtose
Distribuição Normal
www.datascienceacademy.com.br
Distribuição Normal
Os valores de grandes conjuntos de dados,
normalmente se localizam ao redor da média ou da
mediana.
www.datascienceacademy.com.br
Distribuição Normal
Em uma distribuição normal de dados, simétrica, nós
podemos esperar que 68%, 95% e 99.7% dos valores estarão
em, respectivamente, 1, 2 e 3 desvios padrões acima e abaixo
da média.
www.datascienceacademy.com.br
Distribuição Normal
www.datascienceacademy.com.br
Distribuição Normal
Perceba que este conceito somente se aplica, quando os
dados criam um histograma simétrico.
www.datascienceacademy.com.br
Distribuição Normal
A Distribuição Normal também é utilizada para ajudar a medir a
precisão de muitas estatísticas, incluindo a média, por meio da
utilização de um importante resultado em estatística como o
Teorema do Limite Central.
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
Amostragem
www.datascienceacademy.com.br
A Matemática não mente. Mente quem faz mau uso dela
Albert Einstein
www.datascienceacademy.com.br
Populações
Finitas x Infinitas
www.datascienceacademy.com.br
Amostragem
www.datascienceacademy.com.br
Principais Técnicas de Amostragem
www.datascienceacademy.com.br
Amostragem Probabilística ou Aleatória
www.datascienceacademy.com.br
Principais Técnicas de Amostragem Probabilística
www.datascienceacademy.com.br
Amostragem Sistemática
www.datascienceacademy.com.br
Amostragem Estratificada
www.datascienceacademy.com.br
Amostragem Por Conglomerados
www.datascienceacademy.com.br
Resumindo
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
Devemos investigar e aceitar os resultados. Se não resistirem a estes
testes, até as palavras de Buda devem ser rejeitadas.
Dalai Lama
www.datascienceacademy.com.br
Teste de Hipótese
www.datascienceacademy.com.br
Teste de Hipótese
Um Teste de Hipótese Estatística é um procedimento de
decisão que nos possibilita decidir entre Ho (hipótese nula)
ou Ha (hipótese alternativa), com base nas informações
contidas na amostra
www.datascienceacademy.com.br
Teste de Hipótese
Ho = é a hipótese que assumimos como verdade para construção
do teste
Ha = é a hipótese que consideramos caso a hipótese nula não
tenha evidência.
Erro Tipo I = é a probabilidade de rejeitarmos a hipótese nula
quando ela é efetivamente verdadeira
Erro Tipo II = é a probabilidade de rejeitarmos a hipótese
alternativa quando ela é efetivamente verdadeira.
www.datascienceacademy.com.br
Procedimento para o Teste de Hipótese
Se a média
Escolher um Se a média
da amostra
Coletar uma Traçar a nível de Calcular a da amostra
estiver na
Formular as amostra de média da significância estatística, estiver em
região
hipóteses tamanho n amostra no com base os valores uma das
branca do
nula e e calcular a eixo x da na críticos e a caudas nós
gráfico NÃO
alternativa. média da distribuição gravidade região rejeitamos a
rejeitamos a
amostra. da amostra. do erro tipo crítica. hipótese
hipótese
I. nula.
nula.
www.datascienceacademy.com.br
Teste de Hipótese
www.datascienceacademy.com.br
Teste de Hipótese
O teste Unilateral ou Unicaudal é usado quando a
hipótese alternativa é expressa como:
< ou >
www.datascienceacademy.com.br
O teste Unilateral ou Unicaudal é usado quando a
hipótese alternativa é expressa como < ou >.
Teste Cauda Superior: nós assumimos que μ = 1.8 a Teste Cauda Inferior: nós assumimos que μ = 1.8 a
menos que a média da amostra seja maior que the 1.8 menos que a média da amostra seja menor que 1.8
www.datascienceacademy.com.br
Se a média estiver dentro da região branca do gráfico,
não rejeitamos a hipótese nula, caso contrário, a
rejeitamos.
Não rejeitar H0
Rejeitar H0
1.8 x scale
escala
H 0
www.datascienceacademy.com.br
Se a média estiver dentro da região branca do gráfico,
não rejeitamos a hipótese nula, caso contrário, a
rejeitamos.
Teste Unilateral Direito:
Não rejeitar H0
Rejeitar H0 (Superior)
H0: μ = valor numérico
1.8 x scale
escala
H 0
HA: μ > valor numérico
Não rejeitar H0 Rejeitar H0
www.datascienceacademy.com.br
Se a média estiver dentro da região branca do gráfico,
não rejeitamos a hipótese nula, caso contrário, a
rejeitamos.
Não rejeitar H0
Teste Unilateral Esquerdo:
Rejeitar (Inferior)
H0
1.8 x scale
escala H0: μ = valor numérico
H 0
www.datascienceacademy.com.br
Teste de Hipótese
Exemplo
www.datascienceacademy.com.br
Teste de Hipótese
Uma escola possui um grupo de alunos (população)
considerados obesos. A distribuição de probabilidade do peso
dos alunos dessa escola entre 12 e 17 anos é normal com uma
média de 80 kgs e desvio padrão de 10 kgs. O diretor da escola
propõe uma campanha de tratamento com acompanhamento
médico para combater a obesidade. Esse tratamento será
composto por dietas, exercícios físicos e mudança de hábito
alimentar. O médico afirma que o resultado do tratamento será
apresentado em 4 meses. E que os alunos terão seus pesos
diminuídos nesse período.
www.datascienceacademy.com.br
Teste de Hipótese
Portanto, as hipóteses que deverão ser testadas são:
H0: μ = 80
HA: μ < 80
www.datascienceacademy.com.br
Teste de Hipótese
www.datascienceacademy.com.br
O teste Bilateral é usado sempre que a hipótese alternativa é
expressa como ≠ de:
H0: μ = 1.8 Nós assumimos que μ = 1.8 a menos que a média da
HA: μ ≠ 1.8 amostra seja ≠ que 1.8
Rejeitar Rejeitar
Não Rejeitar H0
H0 H0
1.8 x scale
escala
H 0
www.datascienceacademy.com.br
Rejeitar Rejeitar
Não Rejeitar H0
H0 H0
1.8 x scale
escala
H 0
www.datascienceacademy.com.br
Rejeitar Rejeitar
Não Rejeitar H0
H0 H0
1.8 x scale
escala
H 0
www.datascienceacademy.com.br
Rejeitar
Rejeitar Não Rejeitar H0
H0
H0
1.8 x scale
escala
H 0
www.datascienceacademy.com.br
Teste Bilateral:
H0 : μ = Valor numérico.
HA : μ ≠ Valor numérico.
www.datascienceacademy.com.br
Teste de Hipótese
Exemplo
www.datascienceacademy.com.br
Uma fábrica de biscoitos
empacota as caixas com peso de
500 gramas. O peso é monitorado
periodicamente. O departamento
de qualidade estabeleceu que o
peso deve ser mantido em 500
gramas. Qual a condição para que o
departamento de qualidade
interrompa a produção dos
biscoitos?
www.datascienceacademy.com.br
Portanto, as hipóteses que deverão ser testadas são:
H0: μ = 500
HA: μ ≠ 500
A condição requerida para
a empresa continuar
empacontando os biscoitos.
www.datascienceacademy.com.br
Teste de Hipótese
www.datascienceacademy.com.br
O propósito do teste de hipótese é verificar a validade
de uma afirmação sobre um parâmetro da população,
baseado em amostragem.
www.datascienceacademy.com.br
Como estamos tomando amostra como base, estamos
expostos ao risco de conclusões erradas sobre a
população, por conta de erros de amostragem.
www.datascienceacademy.com.br
A hipótese nula pode ser verdadeira,
caso tenhamos coletado uma amostra
que não seja representativa da
população.
Ou
www.datascienceacademy.com.br
Vimos que para testar a H0, é preciso definir uma regra
de decisão com o objetivo de estabelecer uma zona de
rejeição da hipótese, ou seja, definir um nível de
significância, , sendo os mais consensuais os alfas
0.10, 0.05 e 0.01.
www.datascienceacademy.com.br
Se o valor do parâmetro da população, defendido pela
H0, cair na zona de rejeição, então esse valor é muito
pouco provável de ser o valor verdadeiro da população e
a H0 será rejeitada em favor da HA.
www.datascienceacademy.com.br
Pode acontecer, que apesar de rejeitada com base em
dados de uma amostra, a H0 de fato seja verdadeira.
Nesse caso, estaríamos cometendo um erro de decisão.
www.datascienceacademy.com.br
Quando o valor defendido pela H0 cair fora da zona de
rejeição, então consideramos que não há evidência para
rejeitar H0 em prejuízo da HA. Mas aqui, também
podemos estar cometendo um erro se a HA, apesar de
descartada pelos dados em mãos, for de fato verdadeira.
www.datascienceacademy.com.br
Portanto,
A Hipótese Nula é A Hipótese Nula
Condição Verdadeira é Falsa
D Decidimos rejeitar a Erro Tipo I Decisão correta
E hipótese nula. (Rejeição de uma
C hipótese nula
I verdadeira)
S Não rejeitamos a Decisão correta Erro Tipo II
à hipótese nula. (Não rejeição de
O uma hipótese
nula falsa)
www.datascienceacademy.com.br
Teste de Hipótese
Exemplo
www.datascienceacademy.com.br
A eficácia de certa vacina após um ano é de 25% (isto é,
o efeito imunológico se prolonga por mais de 1 ano em
apenas 25% das pessoas que a tomam). Desenvolve-se
uma nova vacina, mais cara e deseja-se saber se esta é,
de fato, melhor.
www.datascienceacademy.com.br
A eficácia de certa vacina após um ano é de 25% (isto é,
o efeito imunológico se prolonga por mais de 1 ano em
apenas 25% das pessoas que a tomam). Desenvolve-se
uma nova vacina, mais cara e deseja-se saber se esta é,
de fato, melhor.
www.datascienceacademy.com.br
Resposta:
www.datascienceacademy.com.br
A probabilidade de se cometer um Erro Tipo I depende
dos valores dos parâmetros da população e é designada
por (alfa - nível de significância).
Dizemos então que o nível de significância alfa de um
teste, é a probabilidade máxima com que desejamos
correr o risco de um Erro Tipo I.
O valor alfa é tipicamente predeterminado e escolhas
comuns são = 0.05 e = 0.01
www.datascienceacademy.com.br
A probabilidade de se cometer um Erro Tipo II é
designada por .
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
A estatística mostra que este ano aumentou em 60% o
roubo nos bancos brasileiros. Não diz de que lado.
Millôr Fernandes
www.datascienceacademy.com.br
Intervalo de Confiança é uma amplitude (ou um
intervalo) de valores que tem a probabilidade de conter
o valor verdadeiro da população.
Desculpe
, Não
podemos
confiar
em você
www.datascienceacademy.com.br
Intervalo de Confiança
www.datascienceacademy.com.br
Observe que na definição de intervalo de confiança, está
associado uma probabilidade. A esta probabilidade
chamamos de:
www.datascienceacademy.com.br
Intervalo de Confiança
Essas probabilidades podem vir a partir de escolhas
comuns do grau de confiança que se deseja alcançar,
dentre os mais comuns temos:
www.datascienceacademy.com.br
Descrição dos termos:
Considerando:
www.datascienceacademy.com.br
Intervalo de Confiança
www.datascienceacademy.com.br
Significância Estatística
O principal objetivo da análise estatística de
dados é estabelecer se os resultados possuem
ou não significância estatística, de acordo com
os parâmetros estabelecidos.
www.datascienceacademy.com.br
Significância Estatística
Ao formular uma hipótese sob uma
determinada característica de uma
população.
www.datascienceacademy.com.br
Significância Estatística
O nível de significância é o limite que se
estabelece para afirmar que um certo desvio
é decorrente de acaso ou não.
www.datascienceacademy.com.br
Significância Estatística
P=0,05 •5%
P=0,01 •1%
www.datascienceacademy.com.br
Intervalo de Confiança
Exemplo
www.datascienceacademy.com.br
Em uma pesquisa eleitoral para senador foi divulgado o
resultado:
Pesquisa Eleitoral
10%
Senador A
47% Senador B
43%
Senador C
www.datascienceacademy.com.br
Considerando uma margem de erro de 0.03 para mais
ou para menos:
Pesquisa Eleitoral
10%
Senador A
47% Senador B
43%
Senador C
www.datascienceacademy.com.br
Pesquisa Eleitoral
Senador A tem a proporção
10% de votos de 47%.
Senador A
47% Senador B
43%
Senador C
www.datascienceacademy.com.br
Pesquisa Eleitoral
A proporção real fica entre:
10% Senador A 0,47 + 0,03 = 50% ( para
47% Senador B
43% Senador C mais)
0,47 – 0,03 = 44% (para
menos)
www.datascienceacademy.com.br
Uma das mais importantes Funções da estatística no
mundo atual é coletar informações sobre uma amostra
e então usar esta informação para analisar a população
da qual a amostra foi extraída.
www.datascienceacademy.com.br
O que fará um Analista de Dados com essas
informações?
www.datascienceacademy.com.br
O Analista de Dados irá utilizar recursos de intervalo de
confiança diariamente para:
www.datascienceacademy.com.br
Calcular a variabiliade de tempo de atendimento à
clientes (bancos, centrais de atendimento,
estabelecimentos em geral)
www.datascienceacademy.com.br
Calcular o tempo de aterrissagem de voo
www.datascienceacademy.com.br
Calcular o tempo de substituição de aparelhos
eletrônicos em uma Central de Processamento de
Dados inteligentes.
www.datascienceacademy.com.br
Calcular a vida útil de componentes elétricos e eletrônicos
em ambientes de trabalho e domésticos.
www.datascienceacademy.com.br
Calcular os resultados de pesquisas eleitorais ou outras
pesquisas em geral
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
Porque eu fazia do amor um cálculo matemático errado: pensava que,
somando as compreensões, eu amava. Não sabia que, somando as
incompreensões é que se ama verdadeiramente
Clarice Lispector
www.datascienceacademy.com.br
Intervalo de Confiança
Intervalos de Confiança para Desvio
Padrão da População Conhecido
www.datascienceacademy.com.br
Intervalo de Confiança
Vamos assumir que o desvio padrão da população
(sigma) é conhecido.
www.datascienceacademy.com.br
Intervalo de Confiança
O propósito de gerar um Intervalo de Confiança é
prover uma estimativa para o valor da média da
população.
www.datascienceacademy.com.br
Intervalo de Confiança
www.datascienceacademy.com.br
Intervalo de Confiança
O intervalo de confiança para a média tem um limite de
confiança máximo e um limite de confiança mínimo.
www.datascienceacademy.com.br
Intervalo de Confiança
O intervalo de confiança para a média tem um limite de
confiança máximo e um limite de confiança mínimo.
www.datascienceacademy.com.br
Intervalo de Confiança
Os limites descrevem o range em que nós temos um
grau de confiança onde a média da população será
encontrada.
www.datascienceacademy.com.br
Intervalo de Confiança
A Margem de erro, são os valores adicionados ou
subtraídos da estimativa pontual, para formar o intervalo
de confiança.
www.datascienceacademy.com.br
Margem de Erro
A Margem de erro, são os valores adicionados ou
subtraídos da estimativa pontual, para formar o intervalo
de confiança.
Margem de erro Margem de erro
Limite Limite
mínimo de máximo de
confiança Estimativa Pontual confiança
Intervalo de confiança
www.datascienceacademy.com.br
Margem de Erro
www.datascienceacademy.com.br
Margem de Erro
Limite Limite
mínimo de máximo de
confiança Estimativa Pontual confiança
Intervalo de confiança
www.datascienceacademy.com.br
Margem de Erro
Calculamos a Margem de Erro (ME) da seguinte forma:
MEx = zα/ 2σ x
Onde:
www.datascienceacademy.com.br
Margem de Erro
www.datascienceacademy.com.br
Intervalo de Confiança
Exemplo
www.datascienceacademy.com.br
Intervalo de Confiança
www.datascienceacademy.com.br
Intervalo de Confiança
Considerando que a média da amostra seja R$ 129,20.
Com uma margem de erro de R$11,80 e limites de
confiança máximo e mínimo de R$117.40 e R$141.00
respectivamente.
www.datascienceacademy.com.br
Intervalo de Confiança
Interpretar o intervalo de confiança, não é simples
como parece. Um erro muito comum, é fazer a seguinte
afirmação:
www.datascienceacademy.com.br
Intervalo de Confiança
Interpretar o intervalo de confiança, não é simples
como parece. Um erro muito comum, é fazer a seguinte
afirmação:
www.datascienceacademy.com.br
Interpretar o intervalo de confiança, não é simples
como parece. Um erro muito comum, é fazer a seguinte
afirmação:
www.datascienceacademy.com.br
Intervalo de Confiança
Note que a margem de erro é a mesma, pois o tamanho
da amostra e o desvio padrão da população não foram
alterados e todos os intervalos representam 90% de nível
de confiança.
90% de nível de confiança
Média da Margem de Limite Limite
Amostra
Amostra Erro Mínimo Máximo
1 R$ 129,20 R$11,80 R$117,40 R$141.00
www.datascienceacademy.com.br
A média da população é R$125,00.
www.datascienceacademy.com.br
Intervalo de Confiança
Ou seja, os intervalos de confiança realmente incluem
a média da população.
www.datascienceacademy.com.br
Entretanto, olhe a amostra 5. Ela não contém a média
da população.
www.datascienceacademy.com.br
Intervalo de Confiança
Veja que a amostra 5 não contém a média da
população. Sendo assim, fazer a afirmação abaixo seria
um erro:
www.datascienceacademy.com.br
Intervalo de Confiança
www.datascienceacademy.com.br
Além disso, perceba que 9 das 10 amostras coletadas,
incluem a média da população.
90% de nível de confiança
Média da Margem de Limite Limite
Amostra
Amostra Erro Mínimo Máximo
1 R$ 129,20 R$11,80 R$117,40 R$141.00
2 R$ 132,00 R$11,80 R$120,20 R$143,80
3 R$ 117,50 R$11,80 R$105,70 R$129,30
4 R$ 128,20 R$11,80 R$116,40 R$140,00
5 R$ 108,80 R$11,80 R$97,00 R$120,60
6 R$ 130,10 R$11,80 R$118,30 R$141,90
7 R$ 117,90 R$11,80 R$106,10 R$129,70
8 R$ 120,10 R$11,80 R$108,30 R$131,90
9 R$ 133,80 R$11,80 R$122,00 R$145,60
10 R$ 119,00 R$11,80 R$107,20 R$130,80
www.datascienceacademy.com.br
Intervalo de Confiança
Esta é a correta definição do nível de confiança.
www.datascienceacademy.com.br
Intervalo de Confiança
Entretanto, não há garantia que 9 de cada 10 intervalos
de confiança irão incluir a média da população.
www.datascienceacademy.com.br
Intervalo de Confiança
Entretanto, não há garantia que 9 de cada 10 intervalos
de confiança irão incluir a média da população.
www.datascienceacademy.com.br
Intervalo de Confiança
No caso anterior, lidamos com tamanho de amostra
superior a 30 elementos.
www.datascienceacademy.com.br
Intervalo de Confiança
No caso anterior, lidamos com tamanho de amostra
superior a 30 elementos.
www.datascienceacademy.com.br
Intervalo de Confiança
Mas o que acontece quando o tamanho da amostra é
menor que 30, assumindo que o desvio padrão da
população é conhecido?
www.datascienceacademy.com.br
Intervalo de Confiança
Bem, neste caso não podemos mais nos apoiar no
Teorema do Limite Central.
www.datascienceacademy.com.br
Intervalo de Confiança
Até agora, assumimos que o desvio padrão da
população (sigma) era conhecido.
www.datascienceacademy.com.br
Intervalo de Confiança
Entretanto, na maioria das vezes, não temos
conhecimento deste valor, ou seja, o desvio padrão da
população é desconhecido.
www.datascienceacademy.com.br
Intervalo de Confiança
Sob estas circunstâncias, nós substituímos s (desvio
padrão da amostra) e no seu lugar calculamos o erro
padrão.
www.datascienceacademy.com.br
Intervalo de Confiança
Sob estas circunstâncias, nós substituímos s (desvio
padrão da amostra) e no seu lugar calculamos o erro
padrão.
n onde:
å (x - x )
i
2 x = média da amostra
n = tamanho da amostra (quantidade de
s= i =1
valores)
n -1 (xi – x ) = diferença entre cada valor e a
média da amostra
www.datascienceacademy.com.br
Intervalo de Confiança
Fórmula para o erro padrão aproximado da média
onde:
s
σˆ x
n = Erro padrão aproximado da média
= Desvio padrão da amostra
www.datascienceacademy.com.br
Intervalo de Confiança
E quando:
N < 30
www.datascienceacademy.com.br
Intervalo de Confiança
E quando:
=?
www.datascienceacademy.com.br
Intervalo de Confiança
O que devo fazer?
www.datascienceacademy.com.br
Intervalo de Confiança
www.datascienceacademy.com.br
Distribuição T - Student
A distribuição t de Student é uma
distribuição de probabilidade estatística
contínua, publicada por um autor que se
chamou de Student, pseudônimo de William
Sealy Gosset, que não podia usar seu nome
verdadeiro para publicar trabalhos enquanto
trabalhasse para a cervejaria Guinness.
William Sealy Gosset
www.datascienceacademy.com.br
Distribuição T - Student
www.datascienceacademy.com.br
Distribuição T - Student
A distribuição t de Student é usada no lugar da
distribuição normal de probabilidade quando o desvio
padrão da amostra (s) é usado no lugar do desvio padrão
da população ().
www.datascienceacademy.com.br
Distribuição T - Student
A distribuição t de Student, ou simplesmente,
distribuição t possui as seguintes propriedades:
www.datascienceacademy.com.br
Distribuição T - Student
É em formato de sino e simétrica em torno da média.
www.datascienceacademy.com.br
Distribuição T - Student
É simétrica e semelhante à curva normal padrão, porém
com caudas mais largas, ou seja, uma simulação da t de
Student pode gerar valores mais extremos que uma
distribuição normal.
www.datascienceacademy.com.br
Distribuição T - Student
www.datascienceacademy.com.br
Graus de Liberdade
Normalmente as pessoas tem dificuldade em compreender
o conceito de graus de liberdade.
www.datascienceacademy.com.br
Graus de Liberdade
Em estatística, o número de graus de liberdade é o
número de valores no cálculo final de uma estatística que
são livres para variar.
www.datascienceacademy.com.br
Graus de Liberdade
O número de maneiras independentes por um sistema
dinâmico que pode mover-se, sem violar nenhuma
restrição imposta sobre ele, é chamado número de graus
de liberdade.
www.datascienceacademy.com.br
Graus de Liberdade
O número de graus de liberdade pode ser definido como
o número mínimo de coordenadas independentes que
podem especificar a posição do sistema completamente.
www.datascienceacademy.com.br
Graus de Liberdade
Quando se usa uma distribuição t (t de student) para
estimar uma média populacional, o número de graus de
liberdade é igual ao tamanho da amostra menos 1.
Graus de Liberdade = n - 1
www.datascienceacademy.com.br
Você como um Analista de
Dados, precisa ter em
mente essas regras aqui
aplicadas.
www.datascienceacademy.com.br
O Intervalo de confiança é o
valor estimado onde a média
de um parâmetro de uma
amostra tem uma dada
Probabilidade de ocorrer.
www.datascienceacademy.com.br
O Intervalo de confiança é
usado para apresentar a
confiabilidade de uma
estimativa.
www.datascienceacademy.com.br
Cuidado com os seguintes equívocos:
www.datascienceacademy.com.br
Portanto,
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
Estatística: a ciência que diz que se eu comi um frango e tu não
comeste nenhum, teremos comido, em média, meio frango cada um.
Dino Segre
www.datascienceacademy.com.br
O teorema de Bayes
relaciona informações, com a
probabilidade de ocorrência,
para gerar uma nova
probabilidade quando os
fatos acontecem de maneira
relacionada ou são
dependentes.
Thomas Bayes (1701-1761)
www.datascienceacademy.com.br
Teorema de Bayes
www.datascienceacademy.com.br
Teorema de Bayes
Inferências Intuitivas
Inferências Experimentais
www.datascienceacademy.com.br
Teorema de Bayes
www.datascienceacademy.com.br
Teorema de Bayes
Treinamento
Profissional
www.datascienceacademy.com.br
Teorema de Bayes
Machine Lerning
www.datascienceacademy.com.br
Teorema de Bayes
www.datascienceacademy.com.br
Teorema de Bayes
www.datascienceacademy.com.br
Teorema de Bayes
Exemplo
www.datascienceacademy.com.br
Teorema de Bayes
www.datascienceacademy.com.br
Teorema de Bayes
Para evitar que os HD’s defeituosos cheguem ao mercado, o
controle de qualidade realiza inspeções individuais em todos os
HD’s fabricados.Calcule as seguintes probabilidades:
www.datascienceacademy.com.br
Teorema de Bayes
Considere os seguintes eventos:
www.datascienceacademy.com.br
Teorema de Bayes
Portanto:
www.datascienceacademy.com.br
Teorema de Bayes
www.datascienceacademy.com.br
Teorema de Bayes
Logo :
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
A Estatística é a gramática da ciência.
Karl Pearson
www.datascienceacademy.com.br
Modelos de Regressão
www.datascienceacademy.com.br
Modelos de Regressão
Modelo de
Regressão
Simples Múltiplo
Não Linear
Linear Não Linear Linear
www.datascienceacademy.com.br
Modelos de Regressão
1 Varível Dependente Y
2 Variáveis Independente X, Xi
1 Varível Dependente Y
1 Variável Independente X Modelo de
Regressão
Simples Múltiplo
Não Linear
Linear Não Linear Linear
www.datascienceacademy.com.br
Relação Linear
www.datascienceacademy.com.br
Relação Linear
www.datascienceacademy.com.br
A presença ou ausência de relação linear
pode ser investigada sob dois pontos de vista:
www.datascienceacademy.com.br
Análise de Regressão
www.datascienceacademy.com.br
Análise de Regressão
www.datascienceacademy.com.br
Análise de Regressão
www.datascienceacademy.com.br
Coeficiente de Correlação
www.datascienceacademy.com.br
Coeficiente de Correlação
www.datascienceacademy.com.br
Coeficiente de Correlação
O Coeficiente de Correlação
é um valor numérico, para o grau de
associação entre duas variáveis.
www.datascienceacademy.com.br
Coeficiente de Correlação
Correlação positiva
www.datascienceacademy.com.br
Coeficiente de Correlação
Correlação negativa
www.datascienceacademy.com.br
Análise de Correlação
Para realizar a Análise de Correlação nós podemos utilizar dois
coeficientes:
www.datascienceacademy.com.br
Coeficiente de Correlação de Pearson
O coeficiente de correlação de Pearson mede o grau de associação
entre as variáveis mas não é sensível às unidades de medida.
www.datascienceacademy.com.br
A existência de correlação não implica causalidade
www.datascienceacademy.com.br
Erro Amostral
www.datascienceacademy.com.br
Erro Amostral
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Intercepto β0 - valor esperado para a
variável dependente y quando x é igual
a zero
www.datascienceacademy.com.br
Método dos Mínimos Quadrados
www.datascienceacademy.com.br
Método dos Mínimos Quadrados
www.datascienceacademy.com.br
Método dos Mínimos Quadrados
www.datascienceacademy.com.br
Avaliando Modelos de Regressão
www.datascienceacademy.com.br
Avaliando Modelos de Regressão
RMSE
Mede a taxa de erro de
Root Mean
um modelo de regressão
Square Error
em unidades
semelhantes.
Onde:
Erro Médio a = valor observado
p = valor previsto
Quadrático
www.datascienceacademy.com.br
Avaliando Modelos de Regressão
RMSLE
Root Mean Aplica a transformação
Square Log log (Y+1) nas previsões.
Error Para medir a precisão de
algoritmos
Erro de Log
da Raíz
Quadrada
www.datascienceacademy.com.br
Avaliando Modelos de Regressão
RSE
Relative Mede a taxa de erro de
Square Error um modelo de regressão
em unidades diferentes.
Onde:
Erro Relativo a = valor observado
Quadrático p = valor previsto
www.datascienceacademy.com.br
Avaliando Modelos de Regressão
MAE
Mede a taxa de erro de
Mean
um modelo de regressão
Absolute
em unidades
Error
semelhantes em escalas
de menor magnitude.
Onde:
Erro Médio a = valor observado
Absoluto p = valor previsto
www.datascienceacademy.com.br
Avaliando Modelos de Regressão
RAE
Relative
Mede a taxa de erro de
Absolute
um modelo de regressão
Error
em unidades diferentes.
Onde:
Erro Relativo a = valor observado
Absoluto p = valor previsto
www.datascienceacademy.com.br
Coeficiente de Determinação
www.datascienceacademy.com.br
Coeficiente de Determinação
Onde:
SSR = Soma dos Quadrados da Regressão
SST = Soma dos Quadrados Totais
SSE = Soma dos Quadrados dos Resíduos
www.datascienceacademy.com.br
Coeficiente de Determinação
www.datascienceacademy.com.br
Coeficiente de Determinação
Modelo linear pouco adequado
www.datascienceacademy.com.br
Coeficiente de Determinação – R2
www.datascienceacademy.com.br
Coeficiente de Determinação – R2
www.datascienceacademy.com.br
Coeficiente de Determinação – R2
O Modelo de
Regressão não pode
Se o SSE = SST explicar a variância e
o r2 é igual a 0.
www.datascienceacademy.com.br
Coeficiente de Determinação – R2
Exemplo
www.datascienceacademy.com.br
Coeficiente de Determinação – R2
Imagine que você está trabalhando para um banco e precisa
desenvolver um modelo de regressão para prever as condições futuras
do mercado.
www.datascienceacademy.com.br
Coeficiente de Determinação – R2
No primeiro modelo aplicado você encontrou um r2 = 89%.
www.datascienceacademy.com.br
Coeficiente de Determinação – R2
No primeiro modelo aplicado você encontrou um r2 = 89%.
Ao aplicar uma nova previsão trocando suas variáveis o r2 caiu para
49%.
www.datascienceacademy.com.br
Coeficiente de Determinação – R2
No primeiro modelo aplicado você encontrou um r2 = 89%.
Ao aplicar uma nova previsão trocando suas variáveis o r2 caiu para
49%.
Isso pode indicar um modelo super-ajustado.
www.datascienceacademy.com.br
Coeficiente de Determinação – R2
Contudo, o modelo não irá ajudá-lo a realizar novas previsões mais
exatas a partir das suas novas observações, pois ele ajusta seus dados
existentes.
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
Teste qui-quadrado
X 2
www.datascienceacademy.com.br
O que sabemos é uma gota; o que ignoramos é um oceano.
Isaac Newton
www.datascienceacademy.com.br
Medidas de Associação entre Variáveis Qualitativas
www.datascienceacademy.com.br
Medidas de Associação entre Variáveis Qualitativas
www.datascienceacademy.com.br
Estatística qui-quadrado
www.datascienceacademy.com.br
Teste qui-quadrado
www.datascienceacademy.com.br
Teste qui-quadrado
Suponha um determinado experimento que observou um
conjunto de eventos possíveis:
www.datascienceacademy.com.br
Teste qui-quadrado
Suponha um determinado experimento que observou um conjunto de
eventos possíveis:
www.datascienceacademy.com.br
Teste qui-quadrado
Onde:
www.datascienceacademy.com.br
Teste qui-quadrado
O teste qui-quadrado é representado pelas seguintes hipóteses:
www.datascienceacademy.com.br
Teste qui-quadrado
Pela regra de rejeição nós temos:
www.datascienceacademy.com.br
Teste qui-quadrado
O gráfico ao lado mostra a divisão
entre as distribuições das
hipóteses H0 e Ha, sendo ambas
separadas pelo valor do qui-
quadrado definido em uma tabela
padrão.
Se o valor do teste qui-quadrado
Ha for menor que X2 da tabela,
aceitamos a hipótese H0.
www.datascienceacademy.com.br
Teste qui-quadrado
www.datascienceacademy.com.br
Teste qui-quadrado
gl 1 2 3 4 5 6 7 8 9
X2a 3,84 6 7,8 9,5 11,1 12,6 14,1 15,5 16,9
www.datascienceacademy.com.br
Teste qui-quadrado
Exemplo
www.datascienceacademy.com.br
Teste qui-quadrado
Vamos considerar que você como Analista de Dados, foi procurado pelo seu
gerente para realizar um teste para saber se o lançamento de um novo produto
irá impactar no percentual das ações da Empresa para qual você trabalha.
www.datascienceacademy.com.br
Passo
1
www.datascienceacademy.com.br
Passo
2
www.datascienceacademy.com.br
Passo
3
Analisar as hipóteses H0 e Ha
www.datascienceacademy.com.br
Passo
4
www.datascienceacademy.com.br
Passo
5
Calcular o Qui-Quadrado = X2
X2 = 73,4
www.datascienceacademy.com.br
Passo
6
n-1 = 3 – 1 = 2
= 0,05
X2a = 5,991
www.datascienceacademy.com.br
Passo
7
Conclusão
www.datascienceacademy.com.br
Passo
8
Conclusão
www.datascienceacademy.com.br
Teste qui-quadrado
www.datascienceacademy.com.br
Obrigado