04 Slides Modulo 4 PDF

Big Data Real-Time Analytics com
Python e Spark
www.datascienceacademy.com.br
Análise Estatística de Dados
Os números constituem a única verdade universal.
Nathanael West
Introdução
Introdução
O que é Estatística?
Introdução
É a ciência que nos permite aprender a

partir dos dados.
Introdução
Com a Estatística nós podemos:
Introdução
Coletar dados
O principal objetivo é determinar quais os dados são mais relevantes no

momento do levantamento dos dados. A qualidade e confiabilidade da
análise estatística está diretamente ligada à qualidade e a confiabilidade
dos dados.
Introdução
Interpretar
Coletar
os Dados
Descrever Organizar
Apresentar
Introdução
Tipos de Dados
Introdução
Exemplo
Introdução
Sistema de Cotas
Branco Negro
Pardo
Introdução
Idade dos Estudantes
27
17
1
7
18
19 19
25
20
Tipos de Dados
Qualitativos Quantitativos
(categóricos) (numéricos)
Nominais Ordinais Discretas Contínuas
• Número de
• Escolaridade Filhos • Altura
• Profissão • Classe Social • Peso
• Número de
• Sexo • Fila • Salário
carros
• Religião
• Número de
acessos
Introdução
Exemplo
Dados Qualitativos Nominais – representam
descrições para os dados e não permitem
ranqueamento. Exemplo: CEP (70.098-080).
Dados Qualitativos Ordinais - existe uma ordenação
entre as categorias (ranqueamento) e os dados
podem ser medidos.
Dados Quantitativos Discretos – valores baseados
em observações que podem ser contados,
normalmente representados por valores inteiros.
Dados Quantitativos Contínuos – valores baseados
em observações que podem ser medidas e
normalmente representados por valores decimais.
Introdução
Exercício
Introdução
Dados Tipo de Dados
1 – Masculino / 2 - Feminino
Qualitativo
Branco / Pardo / Negro
Quantitativo Discreto
3.125,44
3 filhos Quantitativo Contínuo
1 – Acima da Média /
2 – Abaixo da Média
Introdução
Níveis de Medição dos Dados
Razão/Ratio
Intervalar
Ordinal
Nominal
Introdução
A População é a coleção completa de todos os

dados de interesse que estão sob observação.
População
Introdução
Censo é a colação de dados de cada membro

da população
Introdução
O tamanho da população = número de membros
Introdução
O tamanho da população = número de membros
Introdução
Exemplo
São Paulo
Roraima
44,4 505,7 mil
milhões
0,2%
21,7%
Número de Brasileiros =
Minas Gerais
N= 204.450.649
20,86 milhões
População
Rio de
Janeiro Bahia
16,55 15,2 milhões
milhões
Fonte IBGE 2010
São Paulo
Roraima
44,4 505,7 mil
milhões
0,2% 1,09% da
21,7%
população é
amarela
Número de Brasileiros =
Minas Gerais
N= 204.450.649
20,86 milhões
População
Rio de
Janeiro Bahia
16,55 15,2 milhões
milhões
Fonte IBGE 2010
Introdução
Amostra é a parte da população da qual os

dados foram recolhidos.
Introdução
O Tamanho da Amostra = número de objetos

pertencentes à amostra
Introdução
Exemplo
População
Amostra
18% = 180 g/L
Introdução
Investigação:
O propósito de um estudo estatístico está na
razão ou motivo da pesquisa ou investigação.
Introdução
Perguntas tais:
 Quem são os membros de interesse da população?

 Quais dados são os mais relevantes para pesquisa?
 Como os dados devem ser coletados?
Introdução
Exercício
Introdução
Identificar o problema a ser investigado da população

e da amostra a seguir. E determinar se a amostra é
representativa da população.
Introdução
A Universidade de Brasília,
deseja saber a nota média
do Enem para os alunos que
se candidatam para o curso
de medicina. E que estão
cursando a disciplina
Fundamentos de Morfologia.
Introdução
Métodos de Amostragem
Amostragem: é a técnica, processo ou a pesquisa que
podem ser realizadas para obter uma amostra.
Introdução
Amostragem
Amostragem Probabilística Amostragem Não-Probabilistica
Aleatória Simples Conveniência
Sistemática
Estratificada
Conglomerados
Reamostragem (Bootstrap)
Introdução
Amostragem probabilística é uma amostra em que todos os
membros da população tem chance de pertencer a amostra.
Introdução
Exemplo
Introdução
Amostragem Não Probabilística

A amostra em que a probabilidade de selecionar um membro
da população para a amostra, não é conhecida, é criada
através de amostragem não-probabilística.
Introdução
Pesquisa de internet, aquelas enquetes que você vê quando
acessa os mais diversos sites.
Introdução
As pessoas ficam impressionadas quando veem os números
nas pesquisas, normalmente respondidas por milhares de
pessoas (internautas).
Introdução
Exemplo
Introdução
Sem querer entrar em polêmicas aqui, talvez você se
lembre de uma pesquisa feita no site da FIFA alguns
anos atrás. Nela, o organizador perguntava: Quem foi o
melhor jogador de futebol do século?
Introdução
Na pesquisa feita pela
internet, Maradona foi
escolhido o melhor jogador
do século e Pelé ficou em
segundo. 1º
2º
Introdução
Quando a pesquisa foi feita usando amostragem

probabilística (selecionando para a amostra técnicos,
jornalistas esportivos, ex-jogadores e profissionais do
futebol).
Introdução
Maradona ficou em quinto lugar e Pelé em primeiro.
1º 2º 3º
4º 5º
Introdução
A que se atribui tal diferença?
Introdução
Veja a pesquisa aqui:
https://pt.wikipedia.org/wiki/Melhor_Jogador_do_S%C3%A9culo_da_FIFA
Introdução
Não ter controle sobre a amostra, reduz muito a

confiabilidade dos resultados de análise.
Introdução
A amostragem é uma técnica fabulosa, que nos

permite obter informações sobre uma população
inteira, analisando apenas uma porção dos
dados.
Introdução
Valores que descrevem características da
Parâmetro população, como média e mediana da
população.
Estatística Valores calculados a partir da amostra,

como média e mediana da amostra.
Introdução
Erro de amostragem = x - 
Onde:
x = média da amostra
 = média da população
Introdução
Exemplo
Introdução
Em uma pesquisa eleitoral para senador foi divulgado o
resultado:
Pesquisa Eleitoral
10%
Senador A
47% Senador B
43%
Senador C
Introdução
Considerando uma margem de erro de 0.03 para mais ou
para menos:
Pesquisa Eleitoral
10%
Senador A
47% Senador B
43%
Senador C
Introdução
Pesquisa Eleitoral Senador A tem a proporção de
votos de 47%.
10%
Senador A
47%
43%
Senador B
Senador C
A proporção real fica entre:
0,47 + 0,03 = 50% ( para mais)
0,47 – 0,03 = 44% (para menos)
Portanto, a margem de erro é a distância entre o

valor populacional e o valor amostral.
Introdução
Estudos Estatísticos
Introdução
Há dois tipos de estudos estatísticos:
 Observacional
 Experimental
Introdução
Em um estudo de observação, os dados e as

características específicas são recolhidas e
observadas, entretanto, não há iniciativa de
modificar os estudos que estão sendo
realizados.
Introdução
Exemplo
Introdução
50 alunos receberam um formulário de avaliação
educacional.
o 25 alunos receberam a instrução de enviar a
resposta por e-mail.
o 25 alunos receberam a instrução de enviar a
resposta por carta sem identificação.
Introdução
Em um estudo experimental, cada indivíduo é

aleatoriamente atribuído a um grupo de
tratamento, em seguida, os dados e as
características específicas são observadas e
coletadas
Introdução
A Análise de Dados é o meio através do qual
utilizamos a estatística para apresentar e demonstrar
os resultados dos dados que foram avaliados.
Introdução
Estatística não tem sido usada apenas por técnicos, mas
também por gestores de todos os níveis.
Para onde se olha, se vê Estatística sendo aplicada, desde o

planejamento corporativo, até decisões simples do dia a dia.
Obrigado
Muito Obrigada por Participar!
A matemática é o alfabeto que Deus usou para escrever o universo.
Galileu Galilei
Estatística Descritiva
É um conjunto de métodos estatísticos

utilizados para descrever as principais
características dos dados.
O principal propósito de métodos gráficos é
organizar e apresentar os dados de forma
gerencial e ágil.
A Estatística Descritiva tem por objetivo sumarizar e mostrar
os dados, de forma que se possa rapidamente obter uma visão
geral da informação que está sendo analisada.
Por meio da Estatística Descritiva entendemos melhor um
conjunto de dados através de suas características.
As três principais características são:
Um valor representativo do conjunto de dados. Ex.: uma

média
Uma medida de dispersão ou variação. Ex: Variância,

desvio padrão.
A natureza ou forma da distribuição dos dados: sino,

uniforme ou assimétrica
Visualização de dados
Um dos meios mais simples de descrever dados é
através de tabelas de frequência, que refletem as
observações feitas nos dados.
Número de tablets vendidos por dia Frequência
0 5
1 8
2 14
3 13
4 6
Exemplo de uma tabela de frequência
Cada linha em uma tabela de frequência corresponde a
uma classe.
0 5
1 8
2 14 Classe
3 13
4 6
0 5
1 8
2 14
Classe
3 13
4 6
Cada classe corresponde a uma categoria em uma

tabela de frequência.
Distribuição de Frequência
Distribuição de Frequência
Mostra o número de observações de dados que estão

em um intervalo específico.
Como construir uma Distribuição de Frequência?
Para construir uma tabela de Distribuição de Frequência nós precisamos:
1 Criar o Rol
2 Definir a Amplitude
3 Determinar o Número de Classes
4 Determinar o Tamanho do Intervalo de Classes
5 Fazer a Distribuição de Frequência
Exemplo
Fazer a Distribuição de Frequência das Notas de 30
alunos da Turma C, do Colégio BluSky.
Fazer a Distribuição
de Frequência das
Notas de 30 alunos
da Turma C, do
Colégio BluSky.
1 Criar o Rol é…
Colocar os números em uma ordem de grandeza crescente

ou decrescente. O rol representa o conjunto dos dados
organizados.
2 Definir a Amplitude é…
Estabelecer a diferença entre os valores extremos do

conjunto de dados.
Fórmula: At = Vmáx - Vmín

At = Amplitude Total
Onde: Vmáx = Maior Valor
Vmín = Menor Valor
Resposta: Amplitude Total é = 9
At = Vmáx - Vmín
At = 10,0 – 1,0 = 9
3 Determinar o Número de Classes é…
Definir a quantidade de intervalos de dados que iremos

trabalhar, ou seja, quantas linhas terão a tabela de
distribuição de frequência.
Para determinar o número de classes nós podemos
utilizar:
4 regras:
Resposta: O número de classe é = 6
K= nn
K= 30
K = 5,4772
Obs: Nesse caso arredondamos para 6, pois não é possível termos 5,4772 linhas
4 Determinar o Tamanho do Intervalo de Classe é…
Realizar a razão da Amplitude Total pelo número de classes.
At
Fórmula: h=
K
h= Tamanho do intervalo
Onde: At = Amplitude Total
K = Número de classes
Resposta: O tamanho do intervalo de classe é = 1,50
At
h=
K
9
h=
6
h = 1,50
5 Fazer a Distribuição de Frequência é…
Montar a sua Tabela de Distribuição de Frequência a partir dos

dados coletados selecionando o tipo de distribuição desejada.
Para tanto, vamos apresentar os 4 tipos de distribuição de

Frequência:
Vamos apresentar os 4 tipos de distribuição de
Frequência:
1 Distribuição de Frequência Simples ou Absoluta - fi
2 Distribuição de Frequência Relativa Simples - fri

3 Distribuição de Frequência Acumulada - Fi
4 Distribuição de Frequência Relativa Acumulada - Fri
5.1
Distribuição de Frequência Simples ou Absoluta - fi
São os valores que representam o número de dados de cada classe.

A soma das frequências simples é igual ao número total dos dados.
Fórmula: fi = n
Resposta: Distribuição de Frequência Simples é = 30
Colegio BlueSky - Turma C
Notas fi fri Fi Fri
1.0 1
2.0 1
3.0 3
4.0 3 fi = n
5.0 6
6.0 2
7.0
8.0
5
3
fi = 30
9.0 3
10.0 3
Total 30
5.2
Distribuição de Frequência Relativa Simples - fri
Permite visualizar os valores das razões entre as Frequências Simples e

a Frequência Total.
fi
Fórmula:
fri =
fi
Sempre = 1 ou 100%
Resposta: Distribuição de Frequência Relativa Simples
Notas fi fri Fi Fri
1.0
2.0
1 1 / 30
1 1 / 30
3%
3%
fri = fi
3.0 3 3 / 30 10%
4.0 3 3 / 30 10% fi
5.0 6 6 / 30 20%
6.0 2 2 / 30 7%
7.0 5 5 / 30 17% 1
8.0
9.0
3 3 / 30
3 3 / 30
10%
10%
fri = 30
10.0 3 3 / 30 10%
Total 30 30 / 30 100%
5.3
Distribuição de Frequência Acumulada - Fi
Permite visualizar o total das Frequências de todos os valores inferiores

ao limite superior do intervalo de uma dada classe.
Fórmula:
Fk = f1 + f2 + … +
fk
Resposta: Distribuição de Frequência Acumulada
Notas fi fri Fi Fri
1.0 1 1 / 30 3% 1 Fk = f1 + f2 + … + fk
2.0 1 1 / 30 3% 2
3.0 3 3 / 30 10% 5
4.0 3 3 / 30 10% 8
5.0 6 6 / 30 20% 14
6.0 2 2 / 30 7% 16
7.0 5 5/ 30 17% 21
8.0 3 3 / 30 10% 24
9.0 3 3 / 30 10% 27
10.0 3 3 / 30 10% 30
Total 30 30 / 30 100%
5.4
Distribuição de Frequência Relativa Acumulada - Fri
Permite visualizar a frequência acumulada da classe, dividida pela

frequência total da distribuição.
Fi
Fórmula:
Fri =
fi
Resposta: Distribuição de Frequência Relativa Acumulada
Notas fi fri Fi Fri Fi
1.0 1 1 / 30 3% 1 3% Fri =
2.0 1 1 / 30 3% 2 6% fi
3.0 3 3 / 30 10% 5 16%
4.0 3 3 / 30 10% 8 26%
5.0 6 6 / 30 20% 14 46% 14
6.0 2 2 / 30 7% 16 53% Fri =
7.0 5 5/ 30 17% 21 70% 30
8.0 3 3 / 30 10% 24 80% Obs: Posso
9.0 3 3 / 30 10% 27 90% demonstrar em %
10.0 3 3 / 30 10% 30 100% multiplicando por 100
Total 30 30 / 30 100%
Visualização de Dados
Nós já sabemos que Dados qualitativos descrevem
características dos dados, tais como sexo, nível de educação
ou cor dos olhos. Estes tipos de dados são tratados de forma
diferente dos dados quantitativos.
Quais as principais ferramentas e/ou elementos usadas para
visualização de dados qualitativos?
Quais as principais ferramentas e/ou elementos usadas para
visualização de dados qualitativos?
Tabela de Frequência Gráfico de Pizza Ramos e Folhas
Gráfico de Barras Gráfico de Linha Pontos de Dispersão
Gráfico de Pareto Tabela de Contingência Histograma
Gráfico de Barras
Grades Frequência
A 7
B 14
C 6
D 1
E 0
F 2
Frequência
16
14
14
12
Grades Frequência 10
A 7
Frequencia
B 14 8
C 6
7
D 1 6
6
E 0
F 2
4
2
2
1
0
A B C Grades de Notas D 0E F
Gráfico de Pareto
Frequencia
Frequência Frequência
Razões de Atraso de Voo Relativa
(fi) Relativa (fri)
Acumulada (Fri)
Mau Tempo 44 0.489 0.489
Tráfego Aéreo 18 0.200 0.689
Problemas Mecanicos 14 0.156 0.844
Tripulação Reduzida 7 0.078 0.922
Abastecimento 5 0.056 0.978
Outros 2 0.022 1.000
Total 90 1.000
Gráfico de Pareto
Frequencia
Razões de Atraso de Frequência Frequência
Relativa
Voo (fi) Relativa (fri)
Acumulada (Fri)
Mau Tempo 44 0.489 0.489
Tráfego Aéreo 18 0.200 0.689
Problemas Mecanicos 14 0.156 0.844
Tripulação Reduzida 7 0.078 0.922
Abastecimento 5 0.056 0.978
Outros 2 0.022 1.000
Total 90 1.000
Gráfico de Pizza
Número Computadores
Empresa
Vendidos
HPTP 4228
Dello 3996
Acert 2076
Applex 1135
Tosser 1005
Outros 2837
Total 15277
Gráfico de Pizza
Número Computadores Vendidos
HPTP
14%
Número Computadores
Empresa Dello
Vendidos 13%
Total
HPTP 4228 50%
Dello 3996 Acert

7%
Acert 2076 Applex
Applex 1135 Tosser 4%
Tosser 1005 3%
Outros
Outros 2837 9%
Total 15277
HPTP Dello Acert Applex Tosser Outros Total
Gráfico de Linhas
Faturamento Vendas
Ano
XPTO - Milhões de Reais
2004 8.5
2005 10.4
2006 12.5
2007 18.7
2008 11.4
2009 22.8
2010 21.4
2011 23.7
2012 24
2013 25
2014 28.6
2015 32.4
Gráfico de Linhas
Faturamento Vendas Faturamento de Vendas
Ano
XPTO - Milhões de Reais 2060
2004 8.5 2050

2005 10.4
2040
2006 12.5
2007 18.7 2030
2008 11.4
2020
2009 22.8
2010 21.4 2010
2011 23.7
2000
2012 24
2013 25 1990
2014 28.6
1980
2015 32.4 1 2 3 4 5 6 7 8 9 10 11 12
Ano Faturamento Vendas XPTO - Milhões de Reais
Tabela de Contingência
Cliente Sexo Condição de Pagamento
1 Feminino Dinheiro
2 Masculino Cartão
3 Masculino Dinheiro
5 Feminino Cartão
6 Feminino Cartão
8 Feminino Cartão
9 Masculino Cartão
10 Feminino Dinheiro
11 Masculino Cartão
12 Feminino Cartão
14 Feminino Cartão
Cliente Sexo Condição de Pagamento
1 Feminino Dinheiro
2 Masculino Cartão Soma de Cliente Rótulos de Coluna
3 Masculino Dinheiro Rótulos de Linha Cartão Dinheiro Total Geral
5 Feminino Cartão Feminino 45 26 71
6 Feminino Cartão
7 Masculino Dinheiro Masculino 22 27 49
8 Feminino Cartão
Total Geral 67 53 120
9 Masculino Cartão
11 Masculino Cartão
12 Feminino Cartão
14 Feminino Cartão
Gráfico de Dispersão
Tamanho da TV LED Preço da TV R$
46 2600
46 3980
32 1200
40 1480
26 970
32 1115
46 3400
46 5560
32 2400
40 1120
26 1130
32 1320
Gráfico de Dispersão
Tamanho da TV LED Preço da TV R$ Preço da TV R$
6000
46 2600
46 3980 5000
32 1200
40 1480 4000
26 970
3000
32 1115
46 3400
2000
46 5560
32 2400 1000
40 1120
26 1130 0
32 1320 0 5 10 15 20 25 30 35 40 45 50
Histograma
Pontuação
Frequência Frequência Relativa
Campeonato Frequência
Relativa Acumulada
Golf
275-279 5 0.083 0.083
280-284 17 0.283 0.367
285-289 21 0.350 0.717
290-294 13 0.217 0.933
295-299 3 0.050 0.983
300-304 1 0.017 1.000
Total 60 1.000
Histograma
Histograma
Pontuação Frequência Relativa
Frequência Frequência Relativa 25
Campeonato Golf Acumulada
20
275-279 5 0.083 0.083
280-284 17 0.283 0.367
Frequencia
15
285-289 21 0.350 0.717
290-294 13 0.217 0.933 10
295-299 3 0.050 0.983
5
300-304 1 0.017 1.000
Total 60 1.000 0
275-279 280-284 285-289 290-294 295-299 300-304
Pontuação
Histograma
Histograma
Pontuação Frequência Relativa
Frequência Frequência Relativa 25
Campeonato Golf Acumulada
20
275-279 5 0.083 0.083
280-284 17 0.283 0.367
Frequencia
15
285-289 21 0.350 0.717
290-294 13 0.217 0.933 10
295-299 3 0.050 0.983
5
300-304 1 0.017 1.000
Total 60 1.000 0
275-279 280-284 285-289 290-294 295-299 300-304
Pontuação
Histograma
Exemplo
Histograma
Considerando uma pesquisa realizada em 4 regiões do país
para identificar o número de Taxoplasmose congênita (doença
que pode ser fatal ou levar a cegueira, icterícia que é a pele
amarelada, convulsões ou retardo mental) em crianças de 0 a
12 anos de idade.
Histograma
Histograma
Histograma
Histograma
Caule e Folha
O Gráfico Caule e Folha, divide os dados em duas partes:
O caule (ramo): são os valores maiores e ficam à esquerda do
traço vertical.
Caule e Folha
As folhas são os menores valores, ficam à direita do traço
vertical. Listando todas folhas à direita de cada caule,
podemos graficamente descrever como os dados estão
distribuídos.
Caule e Folha
A beleza do Caule e folha é a simplicidade. Ele não requer um
software para ser construído, mostra cada um dos valores e
prove uma visão tipo histograma da distribuição dos dados.
Caule e Folha
Exemplo
Considerando essa tabela fictícia de notas de Exame, vamos
montar o gráfico de Caule e Folha:
Notas dos Exames

80 86 78 80 81 82 92 90
79 83 84 95 85 88 80 78
84 79 80 83 79 87 84 80
1º Passo
Ordenar os valores.
Notas dos Exames

78 78 79 79 79 80 80 80
80 81 81 82 83 83 84 84
84 85 86 87 88 90 92 95
2º Passo
Traçar a linha vertical
Notas dos Exames
3º Passo 78
80
78
81
79
81
79
82
79
83
80
83
80
84
80
84
84 85 86 87 88 90 92 95
Colocar os valores das dezenas
7
8
9
Notas dos Exames
4º Passo 78
80
78
81
79
81
79
82
79
83
80
83
80
84
80
84
84 85 86 87 88 90 92 95
Fazer a distribuição das unidades
7 8 8 9 9 9
8 0 0 0 0 1 1 2 3 3 4 4 4 5 6 7 8
9 0 2 5
Notas dos Exames
Gráfico Concluído 78
80
78
81
79 79 79 80
81 82 83 83
80
84
80
84
84 85 86 87 88 90 92 95
7 8 8 9 9 9
8 0 0 0 0 1 1 2 3 3 4 4 4 5 6 7 8
9 0 2 5
Você como um Analista de Dados deve ter os conceitos
de estatística em seu rol de conhecimentos e saber
utilizar as ferramentas adequadas para realizar o
trabalho de análise de Dados.
Obrigado
Medidas de Tendência Central e
Dispersão
Os números governam o mundo
Pitágoras
Média, Mediana, Desvio Padrão e Variância
São as principais medidas de tendência central

utilizadas em Análise Exploratória de Dados
Altura Idade Sexo
1
2
133
135
11
12
F
M
Análise
3
4
137
145
11
17
M
F
Exploratória
5
6
168
173
14
15
F
F de Dados
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
Estatística
Altura Idade Descritiva
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
Altura Idade 1 133 11 F
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Altura Idade Sexo
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Altura Idade Sexo
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
133 + 135+137+145+168+173+194+205+180+160+160+168+173+194+205
Média = __________________________________________________________________
15
Altura Idade Sexo
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
133 + 135+137+145+168+173+194+205+180+160+160+168+173+194+205
Média = __________________________________________________________________
15
Altura Idade Sexo
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6 173 15 F
7 194 19 M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Altura Idade Sexo
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
11 + 12 + 11 + 17 + 14 + 15 + 19 + 22 + 22 + 19 + 19 + 18 + 22 + 19 + 19 + 20
Média = __________________________________________________________________
15
Altura Idade Sexo
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
11 + 12 + 11 + 17 + 14 + 15 + 19 + 22 + 22 + 19 + 19 + 18 + 22 + 19 + 19 + 20
Média = __________________________________________________________________
15
Altura Idade Sexo
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Desvio = 169-133 = 36
Altura Idade Sexo
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6 173 15 F
7 194 19 M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Desvio = 169-133 = 36
Altura Idade Sexo
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6 173 15 F
7 194 19 M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Desvio = 169-133 = 36
36 ^ 2 = 1296
Altura Idade Sexo
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Variância = Soma dos quadrados de todos os desvios / 15
Altura Idade Sexo
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Std = Raíz quadrada da Variância Variância
Altura Idade Sexo
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Altura Idade Sexo
Count 15 15 Q1= 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Altura Idade Sexo
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Altura Idade Sexo
Altura Idade 133 1 133 11 F
Count 15 15 135 2
3
135
137
12
11
M
M
137
mean 169 17 145 4
5
145
168
17
14
F
F
160
std 24.22 3.68 160 6
7
173
194
15
19
F
M
168
min 133 11 168 8 205 22 M
173 9 180 19 M
25% 152.5 14.5 173 10 160 19 F
11 160 18 M
50% 168 19 180
194 12 168 22 M
13 173 19 M
75% 187 19 194
205 14 194 19 F
15 205 20 M
max 205 22 205
Altura Idade Sexo
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6 173 15 F
7 194 19 M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Altura Idade Sexo
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6 173 15 F
7 194 19 M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Altura Idade Sexo
Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22
Mode = 160 e 19
Sem dúvida, médias são as formas mais simples de
identificar tendências em um conjunto de dados.
Entretanto, médias podem trazer armadilhas que levam
a conclusões distorcidas.
O que usar? Vantagens Desvantagens
 Relativamente fácil de  Pode ser muito afetada por
Média calcular valores extremos
 Fácil de compreender seu
significado
 Não é afetada por valores  Requer mais esforço para
Mediana extremos ser determinada que a
Média
 Pode ser usada com dados  Pode não existir em um
Moda descritivos conjunto de dados
 Pode não ser única (pode
existir mais de uma moda)
Obrigado
Medidas de Forma
Você quer ficar o resto da sua vida vendendo água com açúcar ou
você quer uma chance de mudar o mundo?
Steve Jobs
Medidas de Forma
As medidas de assimetria (skewness) e curtose (kurtosis)

caracterizam a forma da distribuição de elementos da população
amostrados em torno da média.
Medidas de Assimetria
Medidas de Assimetria
Distribuição Assimétrica Distribuição Assimétrica

Distribuição Simétrica
Positiva ou à direita Negativa ou à esquerda
Medidas de Curtose
Medidas de Curtose
Mesocúrtica
Medidas de Curtose
Platicúrtica
Medidas de Curtose
Leptocúrtica
Coeficiente de Curtose
Se k = 0,263 – curva mesocúrtica

Se k > 0,263 – curva platicúrtica
Se k < 0,263 – curva leptocúrtica



Obrigado
Aquilo a que chamamos acaso não é, não pode deixar de ser, senão a
causa ignorada de um efeito conhecido.
Voltaire
Introdução à Probabilidade
Blaise Pascal Pierre de Fermat
Carl Friedrich Gauss
Lenis Poisson
A probabilidade
é uma medida matemática do acaso
Probabilidade é um valor numérico que indica a chance, ou
probabilidade, de um evento específico ocorrer. Este valor
numérico vai estar entre 0 e 1 .
Se um evento não possui chance de ocorrer, sua probabilidade

é 0 (ou 0%) .
Se temos certeza sobre a ocorrência do evento, sua

probabilidade é 1 (ou 100%).
Evento – um ou mais resultados de um experimento.
O resultado e/ou resultados são um subconjunto do espaço da

amostra.
Probabilidade Clássica : é usada quando nós sabemos o número
de possíveis resultados do evento de interesse e podemos
calcular a probabilidade do evento com a seguinte fórmula:
P(A) = Número de possíveis resultados do evento A

Número total de possíveis resultados dentro do
espaço da amostra
Onde: P(A) é a probabilidade de um evento ocorrer.
A Probabilidade Empírica, envolve conduzirmos um
experimento, para observarmos a frequência com que um
evento ocorre.
Para calcularmos a probabilidade empírica, usamos a fórmula:
P(A) = Frequência em que o evento A ocorre

Número total de observações
Usamos Probabilidade Subjetiva, quando:
Dados ou experimentos não estão disponíveis para calcular a

probabilidade.
1ª Regra
Se P(A) = 1, então podemos garantir que o evento A ocorrerá.
2ª Regra
Se P(A) = 0, então podemos garantir que o evento A NÃO ocorrerá.
3ª Regra
A probabilidade de qualquer evento sempre será entre 0 e 1.

Probabilidades nunca podem ser negativas ou maior que 1.
4ª Regra
A soma de todas as probabilidades para um evento simples, em um
espaço de amostra, será igual a 1.
5ª Regra
O complemento do evento A é definido como todos os resultados em

um espaço de amostra, que não fazem parte do evento A. Ou seja:
P(A) = 1 – P(A’), onde P(A’) é o complemento do evento A.
As Tabelas de Contingência são os meios de organizar as
informações correspondentes aos dados classificados segundo
dois critérios.
As Tabelas de Contingência permitem representar os

dados quer sejam eles qualitativos ou quantitativos.
Nas Tabelas de Contingência podemos ter os dados

das linhas representados por um critério e os dados
das colunas representados por outro critério
totalmente diferente.
Nós usamos Tabela de Contingência para comparar 2
variáveis.
As Tabelas de Contingência, são muito utilizadas com

probabilidades.
Exemplo
Grau de Instrução
Sexo 3o Grau 3o Grau Pós- Total
1o Grau 2o Grau Incompleto Completo Graduação Mestrado Doutorado
Masculino (M) 200 250 650 740 150 40 15 2045
Feminino (F) 310 560 800 900 270 80 35 2955
Total 510 810 1450 1640 420 120 50 5000
Dessa Tabela de Contingência nós podemos tirar as
seguintes conclusões:
1ª Conclusão: O número de homens que concluíram o

mestrado é de 40.
Grau de Instrução
Masculino (M) 200 250 650 740 150 40 15 2045

Feminino (F) 310 560 800 900 270 80 35 2955
2ª Conclusão: A probabilidade de Homens que concluem o

doutorado é de apenas 1%.
Grau de Instrução
Masculino (M) 200 250 650 740 150 40 15 2045

Feminino (F) 310 560 800 900 270 80 35 2955
3ª Conclusão: O número de mulheres com curso superior
completo é de 900.
Grau de Instrução
Masculino (M) 200 250 650 740 150 40 15 2045

Feminino (F) 310 560 800 900 270 80 35 2955
4ª Conclusão: o percentual de mulheres que concluem o 2º
grau é de 69%, enquanto que o percentual de homens que
concluem o 2º grau é de somente 31%.
Grau de Instrução
Masculino (M) 200 250 650 740 150 40 15 2045

Feminino (F) 310 560 800 900 270 80 35 2955
Ou seja, para essa amostra de estudantes, um

Analista de dados pode tirar n conclusões e utilizá-las
para realizar diversos cálculos e estruturar sua
pesquisa para alcançar os seus objetivos finais.
Obrigado
A Matemática apresenta invenções tão sutis que poderão servir não só
para satisfazer os curiosos, como também para auxiliar as artes e
poupar trabalho aos homens.
Descartes
Árvore de Decisão
Árvore de Decisão é um instrumento de apoio à
tomada de decisão que consiste em uma representação
gráfica das alternativas disponíveis, geradas a partir de
uma decisão inicial.
Árvore de Decisão é um instrumento de apoio à tomada de
decisão que consiste em uma representação gráfica das
alternativas disponíveis, geradas a partir de uma decisão inicial.
Analista de Dados?
Está Estudando
Excelente Salário
Estatística?
Está Pensando em Conseguirá uma

Estudar? Colocação no Mercado
Vai Perder uma Grande

Oportunidade Parabéns!!!
Uma das grandes vantagens da Árvore de Decisão é a
possibilidade de transformação/decomposição de um
problema complexo em diversos subproblemas mais simples.
Para efetuar a representação gráfica da Árvore de Decisão são
geralmente usadas linhas para identificar a decisão (por
exemplo "sim" ou "não") e nós para identificar as questões
sobre as quais se deve decidir.
Cada um dos ramos formado por linhas e nós termina numa

espécie de folha que identifica a consequência mais provável
da sequência de decisões tomadas.
Além da gestão, Árvores de Decisão são também muito
utilizadas em outras áreas, com especial destaque para a
criação de algorítmos de computação e análise de dados.
Exemplo
Árvores de Decisão são similares a regras Se-então. Que é uma

estrutura muito usada na implementação de sistemas de
computação e em problemas de classificação.
Árvores de Decisão são similares a regras Se-então. Que é uma
estrutura muito usada na implementação de sistemas de
computação e em problemas de classificação.
Árvores de Decisão tomam como entrada uma situação
descrita por um conjunto de atributos e retorna uma decisão,
que é o valor previsto para o valor de entrada.
Árvores de Decisão também são muito usadas em aprendizado
de máquina (Machine Learning), onde computadores são
programados para tomar decisão baseados em respostas aos
eventos.
Obrigado
Uma verdade matemática não é simples nem complicada por si mesma.
É uma verdade.
Emile Lemoine
Análise Combinatória
As principais ferramentas da Análise Combinatória são:
Permutação
Arranjo
Combinação
Qual delas utilizar para resolver um problema específico?
Permutação
Uma permutação de n elementos distintos é um agrupamento

ordenado desses elementos.
Fórmula Permutação=
Pn = n!
Fórmula Permutação – Quando Usar?
Você deve usar a Fórmula Permutação quando você quiser
contar quantas possibilidades existem de se organizar um
número de objetos de forma distinta.
Exemplo
Qual o número de anagramas da palavra FORÇA?
O número de anagramas da palavra FORÇA é uma permutação
de 5 elementos, calculada através de:
5! = 5 x 4 x 3 x 2 x 1 = 120.
O número de anagramas da palavra FORÇA é uma permutação
de 5 elementos, calculada através de:
5! = 5 x 4 x 3 x 2 x 1 = 120.
Uma vez que, para a primeira posição você pode colocar

5 letras. Para a segunda, restaram 4, para a terceira, 3 e
assim por diante.
Qual o número de filas que podem ser formadas com 15

pessoas?
O número de filas que podem ser formadas com 15 pessoas é
15! (15 fatorial), calculada através de:
15! = 15 x 14 x 13 x 12 x 11x...1
Pois, para o primeiro lugar da fila temos 15 possibilidades, para

o segundo 14 e assim por diante...
Arranjo
Um arranjo de n elementos dispostos p a p, com p menor ou
igual a n, é uma escolha de p entre esses n objetos na qual a
ordem importa.
Fórmula Arranjo =
Fórmula Arranjo – Quando Usar?
Devemos usar o arranjo quando o que importa é a ordem dos
elementos.
Exemplo
Em uma competição de 20 jogadores, quantas são as
possibilidades de se formar um pódio com os três primeiros
lugares?
Note que, neste problema, queremos dispor 20 jogadores em 3
lugares, onde a ordem importa, afinal o pódio formado por
Marcelo, por Josias e por Damião não é o mesmo formado por
Damião, por Marcelo e por Josias.
Outro exemplo é o número de possibilidades de se formar
uma foto com n pessoas.
Perceba que as permutações nada mais são do que casos
particulares de arranjos onde n = p.
Combinação
As Combinações de n elementos tomados p a p são escolhas

não ordenadas desses elementos.
Fórmula da Combinação =
Fórmula da Combinação – Quando Usar?
Devemos usar a combinação quando o importante do
resultado deva ser a natureza, ou seja, os elementos devem
ser diferentes.
Exemplo
Como formar uma comissão de 3 pessoas escolhidas entre 10
pessoas?
Diferentemente do pódio do exemplo anterior, uma comissão
formada por Mauro, por Joana e por Paula é a mesma
comissão formada por Joana, por Paula por Mauro.
Se desejarmos saber quantas duplas podemos fazer com 7
jogadores de vôlei, usaremos a combinação, uma vez que, o
importante é a natureza, ou seja os jogadores devem ser
diferentes, pois a dupla Marcelo e Tedy é a mesma que Tedy e
Marcelo.
Trabalhar como um Analista de dados, requer tomar
decisões probabilísticas, avaliar riscos e manipular
números.
Obrigado
Distribuição de Probabilidade
É claro que meus filhos terão computadores, mas antes terão livros.
Bill Gates
Em estatística, uma Distribuição de Probabilidade descreve a
chance que uma variável (discreta ou contínua) pode assumir
ao longo de um espaço de valores.
Variáveis Aleatórias
Variáveis Aleatórias
Discreta Contínua
Distribuição de Probabilidade
Tipos de Distribuição
de Probabilidade
Distribuição Distribuição
Discreta Contínua
Binomial Normal
Poisson Uniforme
Bernoulli Exponencial
Geométrica Gama
Hipergeométrica tStudent
Distribuição de Probabilidade Discreta
Distribuição Binomial
A Distribuição Binomial é utilizada para descrever

cenários em que os resultados de uma variável
aleatória podem ser agrupados em duas categorias.
No geral, as duas categorias de uma distribuição

binomial são classificadas como:
Sucesso
Falha
Portanto, a probabilidade de sucesso podemos

chamar de p.
E, a probabilidade de falha vamos chamar de q.
Ou seja:
p=1–q
Onde:
p = probabilidade de sucesso
q = probabilidade de fracasso
São realizadas n repetições no experimento, onde n é
uma constante.
Só existem dois resultados possíveis em cadas

repetição, Sucesso e Falha.
A probabilidade de sucesso e a de falha permanencem

constantes em todas as repetições.
Todas as repetições são independentes. Os resultados

não são influenciados por resultados externos.
Os parâmetros da Distribuição
Binominal são n e p.
A Média de uma Distribuição Binomial,
representa a média de longo prazo de
sucessos esperados, baseado no
número de observações.
Fórmula:
Média = = n.P
Onde: n = número de tentativas

A Variância de uma Distribuição
Binomial, representa a variação que
existe no número de sucessos (p) sobre
um número (n) de observações.
Fórmula:
Variância = 2 = (n.p).(1-p)
Onde: n = número de tentativas

Exemplo
Numa fábrica de HD (Discos Rígidos) de computador, um
engenheiro extrai uma amostra de HD para cada 15 HD’s
aleatoriamente fabricados.
Sabendo que 85% dos HD’s são aceitáveis.
Qual a probabilidade de que 10 HD’s extraídos sejam
aceitáveis?
p= 1 – q
p = 0,85% (probabilidade de sucesso) 0,85 = 1 – q
q = 0,15% (probabilidade de fracasso) q = 0,15
x = 10
n = 15 (amostra extraída)
Fórmula da Função binomial
P (x) = 4,5%
E = 10 x 0.27
E = 2,70
Distribuição Poisson
A Distribuição Poisson é utilizada para descrever
cenários onde existe a probabilidade de ocorrência de
um intervalo contínuo.
O número de ocorrências dependem do tamanho do
intervalo.
As ocorrências não interferem sobre as ocorrências de

intervalos externos.
A probabilidade de duas ou mais ocorrências

acontecerem num mesmo intervalo de tempo é muito
pequena.
O único parâmetro da
Distribuição Poisson é
chamado λ (lambda),
que representa a taxa
de eventos por
unidade.
Exemplo
Um consultório médico recebe 5 pacientes por hora.

Qual a probabilidade de receber 2 pacientes numa
hora aleatória?
X=2
λ=5
X=2
λ=5
P= 8,42%
Distribuição Hipergeométrica
Um dos pontos chave das Distribuições Binomial e

Poisson é que os eventos são independentes uns dos
outros.
Cada amostra de cada experimento é um conjunto novo
de dados.
Desta forma, a probabilidade de sucesso ou de

número de ocorrências, se mantém constante.
A Distribuição Hipergeométrica é uma distribuição de
probabilidade discreta que descreve o número de
sucesso numa sequência de n extrações de uma
população finita, ou seja, sem reposição.
A Distribuição Hipergeométrica é usada quando as
amostras são colhidas de uma população finita sem ser
substituída.
Quando a amostragem é sem substituição, a
probabilidade de sucesso muda durante o processo de
amostragem, isso viola os requisitos para uma
distribuição de probabilidade binomial.
Então, nesse caso use a Distribuição Hipergeométrica.
Fórmula da Distribuição Hipergeométrica
Cn - x × R C x
P( x) = N -R
N Cn
onde:
N = Tamanho da população
R = O número de sucessos da população
n = Tamanho da Amostra
x = Número de sucessos da amostra
Exemplo
Considerando um comércio onde 5 de 50 contas estão

inadimplentes. Se um auditor seleciona aleatoriamente
10 contas sem substituição, qual é a probabilidade de
que pelo menos uma conta possa ser inadimplente?
Precisamos encontrar:
P(x ≥ 1) = 1 – P(x = 0)
Considerando um comércio onde 5 de 50 contas estão
inadimplentes. Se um auditor seleciona aleatoriamente 10
Usamos: contas sem substituição, qual é a probabilidade de que pelo
menos uma conta possa ser inadimplente?
N = 50 = Tamanho da população
R = 5 = O número de sucessos da população
n = 10 = Tamanho da Amostra
x = 0 = Número de sucessos da amostra
Fórmula:
Cn - x × R C x
P( x) = N -R Sendo:
N Cn P(0) = 0.31,
C10 - 0 ×5 C0 C10 ×5 C0 P(x ≥ 1) = 1 – P(x = 0)
P (0) = 50 - 5
= 45
= 1 – 0.31
50 C10 50 C10
= 0.69
45! 5!
×
(45 - 10)! (10)! (5 - 0)! (0)!
= = 0.31
50!
(50 - 10)! (10)!
Sendo:
P(0) = 0.31,
P(x ≥ 1) = 1 – P(x = 0)
= 1 – 0.31
= 0.69
Assim, a probabilidade de que pelo menos uma conta inadimplente
será encontrada numa amostra de dez contas é de 69%.
Assim como as outras distribuições, a Distribuição

Hipergeométrica também possui média e desvio
padrão.
Fórmula para Média da Distribuição Hipergeométrica
nR
m=
N
onde:
Fórmula para Desvio Padrão da Distribuição
Hipergeométrica
nR( N - R) N - n
s=
N 2
N -1
onde:
Exemplo I
Para o exemplo da conta inadimplente: A média da

Distribuição Hipergeométrica é
nR (10)(5)
m= = = 1.0
N 50
nR (10)(5)
m= = = 1.0
N 50
A média é de 1,0: 10% da população é inadimplente

(5 de 50) então, nós esperamos que 10% da amostra
seja inadimplente (1 de 10).
Para o exemplo da conta inadimplente: O Desvio
Padrão da Distribuição Hipergeométrica é
nR ( N - R) N - n (10)(5)(50 - 5) 50 - 10
s = =
N 2
N -1 (50)2 50 - 1
= 0.9 0.8163 = (0.9487)(0.9035) = 0.8571
σ = 0,8571 representa a variação que esperamos ver

no número de contas inadimplentes encontrados em
uma amostra de dez contas.
Exemplo II
Imagine uma rede de supermercados que possuem 22
funcionários, sendo que 8 possuem idade superior a 55
anos (vamos nos referir aos funcionários com mais de 55
anos como “funcionários antigos” para diferenciar do
outro grupo, que chamaremos de “funcionários novos”)
Devido a uma recente crise econômica, o supermercado
decide demitir 7 funcionários, destes, 5 são funcionários
antigos.
Se os funcionários foram demitidos randomicamente,
qual a probabilidade de eles serem funcionários
antigos?
Esta informação seria útil para advogados tentando
identificar se houve ou não discriminação na escolha dos
funcionários a serem demitidos.
Vamos definir como sucesso, um funcionário antigo ser
selecionando randomicamente para demissão.
Este é um exemplo claro de uma amostra de uma
população finita, cuja variável não pode ser reposta, pois
uma vez que um funcionário foi selecionado para
demissão, ele não poderá ser selecionado novamente.
Consequentemente, a probabilidade de funcionários
antigos serem selecionados para demissão, muda a
cada seleção.
Evento A = randomicamente selecionar funcionários
antigos para demissão:
P(A) = 8 / 22
P(A) = 0.364
Entretanto, a probabilidade não é constante neste

processo.
Vamos supor que o primeiro funcionário selecionado
para demissão foi um funcionário antigo.
Qual a probabilidade que o próximo selecionado também
seja funcionário antigo?
Perceba que o número de funcionários antigos diminuiu
de 8 para 7, pois um já foi selecionado. Desta forma:
P(A) = 7 / 21 = 0.333
Perceba que a Probabilidade de Sucesso em nosso
exemplo muda, durante o processo de amostragem.
Isso viola uma das regras da Distribuição Binomial e
por isso ela não poderia ser usada neste caso.
E qual a regra de Distribuição que devemos usar nesse
caso?
Muito bem!!!
Usamos a regra de Distribuição

Hipergeométrica.
Distribuição de Probabilidade Continua
Distribuição Normal
A Distribuição Normal é útil quando os dados tendem a
estar próximos ao centro da distribuição (próximos da
média) e quando valores extremos (outliers) são muito
raros.
Distribuição Uniforme
A Distribuição Uniforme é usada para descrever os
dados quando todos os valores têm a mesma chance de
ocorrer.
Distribuição Exponencial
A Distribuição Exponencial é usada para descrever os
dados quando valores mais baixos tendem a dominar a
distribuição e quando valores muito altos não ocorrem
com frequência .
Distribuição t de Student
A Distribuição t de Student é uma das principais
distribuições de probabilidade, com inúmeras aplicações
em inferência estatística.
Resumindo
Obrigado
Quando achamos a matemática e a física teórica muito
difíceis, voltamo-nos para o misticismo.
Stephen Hawking
Teorema do Limite Central
Teorema do Limite Central – é fundamental para a estatística,
uma vez que diversos procedimentos estatísticos comuns
requerem que os dados sejam aproximadamente normais e o
Teorema do Limite Central permite aplicar esses
procedimentos úteis a população que são fortemente não-
normais.
Esse teorema possibilita medir o quanto sua média amostral
irá variar, sem ter que pegar outra média amostral para fazer
a comparação. Ou seja, permite-nos conduzir alguns
procedimentos de inferência sem ter qualquer conhecimento
de distribuição da população.
Esse teorema basicamente diz que sua média amostral tem
uma distribuição normal, independente da aparência da
distribuição dos dados originais.
O formato da Distribuição de Frequência está relacionado a

concentração de valores no intervalo de variação da variável.
Formatos de Distribuição de Frequência
O formato da Distribuição de Frequência está relacionado a
concentração de valores no intervalo de variação da variável.
Mudanças de uma medida de variação provocam alterações
no aspecto visual do gráfico de Distribuição de Frequencia .
O formato de uma distribuição de frequência está relacionado

aos conceitos de Simetria e Curtose.
Simetria indica que o formato de distribuição é o mesmo à
esquerda e a direita do eixo de um gráfico.
Numa distribuição simétrica a média é o ponto de simetria.
Dessa forma, os valores do intervalo serão os mesmos à

direita e à esquerda.
média
Numa distribuição Unimodal a Simetria implica que a média,
mediana e moda são coincidentes, ou estejam muito
próximas.
Média=moda=mediana
Muitos procedimentos pressupõem que uma Distribuição
Normal é uma Distribuição Simétrica.
Assimetria indica variação no formato de distribuição.
Assimetria Positiva - Implica em uma

concentração maior de valores menores, e o
gráfico possuirá uma cauda mais longa à
direita.
Distribuição Assimétrica
Positiva :
Assimetria indica variação no formato de distribuição.
Assimetria Negativa - implica em uma

concentração de valores maiores, e o gráfico
possuirá uma cauda maior à esquerda.
Distribuição Assimétrica
Negativa
Curtose vem da palavra grega, Kurtos, que significa Curvatura. Esse
termo está relacionado com o grau de concentração das
observações no centro e nas caudas de distribuição dos gráficos. Ou
seja, o grau de achatamento da curva.
Classificação da Curtose
Mesocúrtica: quando a concentração das

observações ocorre da mesma forma que na
Distribuição normal.
Leptocúrtica: Ocorre quando há alta concentração de

valores no centro e na cauda
Platicúrtica: Ocorre quando a concentração

no centro é baixa, tornando a distribuição
mais achatada que a distribuição normal.
Os valores de grandes conjuntos de dados,
normalmente se localizam ao redor da média ou da
mediana.
Desta forma, um histograma dos dados, mostraria

uma curva simétrica bem definida (em forma de sino).
Em uma distribuição normal de dados, simétrica, nós
podemos esperar que 68%, 95% e 99.7% dos valores estarão
em, respectivamente, 1, 2 e 3 desvios padrões acima e abaixo
da média.
Ou seja, em uma curva simétrica dos dados, praticamente

todos os dados estarão em até 3 desvios padrões do centro
dos dados (média).
Perceba que este conceito somente se aplica, quando os
dados criam um histograma simétrico.
A Distribuição Normal também é utilizada para ajudar a medir a
precisão de muitas estatísticas, incluindo a média, por meio da
utilização de um importante resultado em estatística como o
Teorema do Limite Central.
Obrigado
Amostragem
A Matemática não mente. Mente quem faz mau uso dela
Albert Einstein
Populações
Finitas x Infinitas
Amostragem
Principais Técnicas de Amostragem
Amostragem Probabilística ou Aleatória
Principais Técnicas de Amostragem Probabilística
• Amostragem Aleatória Simples

• Amostragem Aleatória Simples sem reposição
• Amostragem Aleatória Simples com reposição
Amostragem Sistemática
Amostragem Estratificada
Amostragem Por Conglomerados
Resumindo
Obrigado
Devemos investigar e aceitar os resultados. Se não resistirem a estes
testes, até as palavras de Buda devem ser rejeitadas.
Dalai Lama
Teste de Hipótese
Teste de Hipótese
Um Teste de Hipótese Estatística é um procedimento de
decisão que nos possibilita decidir entre Ho (hipótese nula)
ou Ha (hipótese alternativa), com base nas informações
contidas na amostra
Teste de Hipótese
Ho = é a hipótese que assumimos como verdade para construção
do teste
Ha = é a hipótese que consideramos caso a hipótese nula não
tenha evidência.
Erro Tipo I = é a probabilidade de rejeitarmos a hipótese nula
quando ela é efetivamente verdadeira
Erro Tipo II = é a probabilidade de rejeitarmos a hipótese
alternativa quando ela é efetivamente verdadeira.
Procedimento para o Teste de Hipótese
Se a média
Escolher um Se a média
da amostra
Coletar uma Traçar a nível de Calcular a da amostra
estiver na
Formular as amostra de média da significância estatística, estiver em
região
hipóteses tamanho n amostra no  com base os valores uma das
branca do
nula e e calcular a eixo x da na críticos e a caudas nós
gráfico NÃO
alternativa. média da distribuição gravidade região rejeitamos a
rejeitamos a
amostra. da amostra. do erro tipo crítica. hipótese
hipótese
I. nula.
nula.
Teste de Hipótese
Teste de Hipótese Unilateral
Teste de Hipótese
O teste Unilateral ou Unicaudal é usado quando a
hipótese alternativa é expressa como:
< ou >
O teste Unilateral ou Unicaudal é usado quando a
hipótese alternativa é expressa como < ou >.
H0: μ = 1.8 H0: μ =1.8

HA: μ > 1.8 HA: μ < 1.8
Teste Cauda Superior: nós assumimos que μ = 1.8 a Teste Cauda Inferior: nós assumimos que μ = 1.8 a
menos que a média da amostra seja maior que the 1.8 menos que a média da amostra seja menor que 1.8
Não rejeitar H0 Rejeitar Rejeitar Não rejeitar H0

H0 H0
x scale x scale
escala
1.8 escala 1.8
H
H 0 0
Não rejeitar H0 Rejeitar H0 Rejeitar H0 Não rejeitar H0
Se a média estiver dentro da região branca do gráfico,
não rejeitamos a hipótese nula, caso contrário, a
rejeitamos.
Não rejeitar H0
Rejeitar H0
1.8 x scale
escala
H 0
Não rejeitar H0 Rejeitar H0
Teste Unilateral Direito
rejeitamos.
Teste Unilateral Direito:
Não rejeitar H0
Rejeitar H0 (Superior)
H0: μ = valor numérico
1.8 x scale
escala
H 0
HA: μ > valor numérico
Não rejeitar H0 Rejeitar H0
Teste Unilateral Direito
rejeitamos.
Não rejeitar H0
Teste Unilateral Esquerdo:
Rejeitar (Inferior)
H0
1.8 x scale
escala H0: μ = valor numérico
H 0
Rejeitar H0 Não rejeitar H0

HA: μ < valor numérico
Teste Unilateral Esquerdo
Teste de Hipótese
Exemplo
Teste de Hipótese
Uma escola possui um grupo de alunos (população)
considerados obesos. A distribuição de probabilidade do peso
dos alunos dessa escola entre 12 e 17 anos é normal com uma
média de 80 kgs e desvio padrão de 10 kgs. O diretor da escola
propõe uma campanha de tratamento com acompanhamento
médico para combater a obesidade. Esse tratamento será
composto por dietas, exercícios físicos e mudança de hábito
alimentar. O médico afirma que o resultado do tratamento será
apresentado em 4 meses. E que os alunos terão seus pesos
diminuídos nesse período.
Teste de Hipótese
Portanto, as hipóteses que deverão ser testadas são:
H0: μ = 80
HA: μ < 80
Onde: μ = média dos pesos dos alunos após os

4 meses.
Teste de Hipótese
Teste de Hipótese Bilateral
O teste Bilateral é usado sempre que a hipótese alternativa é
expressa como ≠ de:
H0: μ = 1.8 Nós assumimos que μ = 1.8 a menos que a média da
HA: μ ≠ 1.8 amostra seja ≠ que 1.8
Rejeitar Rejeitar
Não Rejeitar H0
H0 H0
1.8 x scale
escala
H 0
Rejeitar H0 Não Rejeitar H0 Rejeitar H0
Rejeitar Rejeitar
Não Rejeitar H0
H0 H0
1.8 x scale
escala
H 0
A curva acima representa a distribuição da

amostragem da média de utilização de banda larga.
Assume-se que a média da população é 1.8 GB, de
acordo com a hipótese nula H0 :  = 1.8.
Rejeitar Rejeitar
Não Rejeitar H0
H0 H0
1.8 x scale
escala
H 0
Por existirem duas regiões de rejeição no gráfico (regiões

em amarelo), este é chamado teste de hipótese bilateral
ou bicaudal.
Rejeitar
Rejeitar Não Rejeitar H0
H0
H0
1.8 x scale
escala
H 0
Como a hipótese nula é expressa como ≠ ela pode ser

maior ou menor que, por isso o teste é bilateral.
Teste Bilateral:
H0 : μ = Valor numérico.
HA : μ ≠ Valor numérico.
Teste de Hipótese
Exemplo
Uma fábrica de biscoitos
empacota as caixas com peso de
500 gramas. O peso é monitorado
periodicamente. O departamento
de qualidade estabeleceu que o
peso deve ser mantido em 500
gramas. Qual a condição para que o
departamento de qualidade
interrompa a produção dos
biscoitos?
Portanto, as hipóteses que deverão ser testadas são:
H0: μ = 500
HA: μ ≠ 500
A condição requerida para
a empresa continuar
empacontando os biscoitos.
Teste de Hipótese
Erros Tipo I e Tipo II
O propósito do teste de hipótese é verificar a validade
de uma afirmação sobre um parâmetro da população,
baseado em amostragem.
Como estamos tomando amostra como base, estamos
expostos ao risco de conclusões erradas sobre a
população, por conta de erros de amostragem.
A hipótese nula pode ser verdadeira,
caso tenhamos coletado uma amostra
que não seja representativa da
população.
Ou
talvez, a amostra tenha sido muito

pequena.
Vimos que para testar a H0, é preciso definir uma regra
de decisão com o objetivo de estabelecer uma zona de
rejeição da hipótese, ou seja, definir um nível de
significância,  , sendo os mais consensuais os alfas
0.10, 0.05 e 0.01.
Grau de Nível de Significância

Confiança
90% 0,10
95% 0,05
99% 0,01
Se o valor do parâmetro da população, defendido pela
H0, cair na zona de rejeição, então esse valor é muito
pouco provável de ser o valor verdadeiro da população e
a H0 será rejeitada em favor da HA.
Não Rejeitar H0 Rejeitar

Rejeitar H0
H0
n x scale
escala
H 0
Pode acontecer, que apesar de rejeitada com base em
dados de uma amostra, a H0 de fato seja verdadeira.
Nesse caso, estaríamos cometendo um erro de decisão.
Esse erro é chamado de Erro Tipo I, cuja probabilidade

de ocorrência depende do alfa escolhido.
Quando o valor defendido pela H0 cair fora da zona de
rejeição, então consideramos que não há evidência para
rejeitar H0 em prejuízo da HA. Mas aqui, também
podemos estar cometendo um erro se a HA, apesar de
descartada pelos dados em mãos, for de fato verdadeira.
Esse erro é chamado Erro Tipo II.
Portanto,
A Hipótese Nula é A Hipótese Nula
Condição Verdadeira é Falsa
D Decidimos rejeitar a Erro Tipo I Decisão correta
E hipótese nula. (Rejeição de uma
C hipótese nula
I verdadeira)
S Não rejeitamos a Decisão correta Erro Tipo II
Ã hipótese nula. (Não rejeição de
O uma hipótese
nula falsa)
Teste de Hipótese
Exemplo
A eficácia de certa vacina após um ano é de 25% (isto é,
o efeito imunológico se prolonga por mais de 1 ano em
apenas 25% das pessoas que a tomam). Desenvolve-se
uma nova vacina, mais cara e deseja-se saber se esta é,
de fato, melhor.
A eficácia de certa vacina após um ano é de 25% (isto é,
o efeito imunológico se prolonga por mais de 1 ano em
apenas 25% das pessoas que a tomam). Desenvolve-se
uma nova vacina, mais cara e deseja-se saber se esta é,
de fato, melhor.
Que hipóteses devem ser formuladas?

Que erros podemos encontrar?
Resposta:
Hipótese Nula H0 : p = 0,25

Hipótese alternativa HA : p > 0,25
Erro Tipo I : aprovar a vacina quando, na realidade, ela não

tem nenhum efeito superior ao da vacina em uso.
Erro Tipo II : rejeitar a nova vacina quando ela é,

de fato, melhor que a vacina em uso.
A probabilidade de se cometer um Erro Tipo I depende
dos valores dos parâmetros da população e é designada
por  (alfa - nível de significância).
Dizemos então que o nível de significância alfa de um
teste, é a probabilidade máxima com que desejamos
correr o risco de um Erro Tipo I.
O valor alfa é tipicamente predeterminado e escolhas
comuns são  = 0.05 e  = 0.01
A probabilidade de se cometer um Erro Tipo II é
designada por .
Obrigado
A estatística mostra que este ano aumentou em 60% o
roubo nos bancos brasileiros. Não diz de que lado.
Millôr Fernandes
Intervalo de Confiança é uma amplitude (ou um
intervalo) de valores que tem a probabilidade de conter
o valor verdadeiro da população.
Desculpe
, Não
podemos
confiar
em você
Intervalo de Confiança
Observe que na definição de intervalo de confiança, está

associado uma probabilidade. A esta probabilidade
chamamos de:
Observe que na definição de intervalo de confiança, está
associado uma probabilidade. A esta probabilidade
chamamos de:
Essas probabilidades podem vir a partir de escolhas
comuns do grau de confiança que se deseja alcançar,
dentre os mais comuns temos:
Grau de Nível de Significância Valor Crítico

Confiança Z
90% 0,10 1,645
95% 0,05 1,96
99% 0,01 2,575
Descrição dos termos:
Considerando:
Probabilidade {c1 <=  <= c2} = 1 - 

Onde:
 O intervalo (c1, c2) é chamado de intervalo de confiança.

  = média da população.
  é o nível de significância.
 100 (1 - ) é nível de confiança.
 1 -  é o coeficiente de confiança.
Um Intervalo de Confiança funciona como um indicador
da precisão da sua medida. E indica qual o grau de
estabilidade da sua estimativa, a qual pode ser
calculada para determinar o quanto você está próximo de
sua estimativa original quando realiza um ou mais
experimentos.
Intervalo de Confiança está associado a um grau de

confiança que é uma medida da nossa certeza de que o
intervalo contém o parâmetro populacional.
Significância Estatística
O principal objetivo da análise estatística de
dados é estabelecer se os resultados possuem
ou não significância estatística, de acordo com
os parâmetros estabelecidos.
Ao formular uma hipótese sob uma
determinada característica de uma
população.
O nível de significância é o limite que se
estabelece para afirmar que um certo desvio
é decorrente de acaso ou não.
P=0,05 •5%
P=0,01 •1%
Exemplo
Em uma pesquisa eleitoral para senador foi divulgado o
resultado:
Pesquisa Eleitoral
10%
Senador A
47% Senador B
43%
Senador C
Considerando uma margem de erro de 0.03 para mais
ou para menos:
Pesquisa Eleitoral
10%
Senador A
47% Senador B
43%
Senador C
Pesquisa Eleitoral
Senador A tem a proporção
10% de votos de 47%.
Senador A
47% Senador B
43%
Senador C
Pesquisa Eleitoral
A proporção real fica entre:
10% Senador A 0,47 + 0,03 = 50% ( para
47% Senador B
43% Senador C mais)
0,47 – 0,03 = 44% (para
menos)
a margem de erro = intervalo de

confiança
Uma das mais importantes Funções da estatística no
mundo atual é coletar informações sobre uma amostra
e então usar esta informação para analisar a população
da qual a amostra foi extraída.
O que fará um Analista de Dados com essas
informações?
O Analista de Dados irá utilizar recursos de intervalo de
confiança diariamente para:
Calcular a variabiliade de tempo de atendimento à
clientes (bancos, centrais de atendimento,
estabelecimentos em geral)
Calcular o tempo de aterrissagem de voo
Calcular o tempo de substituição de aparelhos
eletrônicos em uma Central de Processamento de
Dados inteligentes.
Calcular a vida útil de componentes elétricos e eletrônicos
em ambientes de trabalho e domésticos.
Calcular os resultados de pesquisas eleitorais ou outras
pesquisas em geral
Obrigado
Porque eu fazia do amor um cálculo matemático errado: pensava que,
somando as compreensões, eu amava. Não sabia que, somando as
incompreensões é que se ama verdadeiramente
Clarice Lispector
Intervalos de Confiança para Desvio
Padrão da População Conhecido
Vamos assumir que o desvio padrão da população 
(sigma) é conhecido.
O propósito de gerar um Intervalo de Confiança é
prover uma estimativa para o valor da média da
população.
O intervalo de confiança para a média tem um limite de

confiança máximo e um limite de confiança mínimo.
LMax = limite máximo de confiança
LMax = limite máximo de confiança

LMin = limite mínimo de confiança
Os limites descrevem o range em que nós temos um
grau de confiança onde a média da população será
encontrada.
A Margem de erro, são os valores adicionados ou
subtraídos da estimativa pontual, para formar o intervalo
de confiança.
Margem de Erro
A Margem de erro, são os valores adicionados ou
subtraídos da estimativa pontual, para formar o intervalo
de confiança.
Margem de erro Margem de erro
Limite Limite
mínimo de máximo de
confiança Estimativa Pontual confiança
Intervalo de confiança
Margem de Erro
A margem de erro representa a largura do intervalo de

confiança entre a média da amostra e seu limite máximo
e entre a média e seu limite mínimo de confiança.
Margem de Erro
Margem de erro Margem de erro
Limite Limite
mínimo de máximo de
confiança Estimativa Pontual confiança
Intervalo de confiança
Margem de Erro
Calculamos a Margem de Erro (ME) da seguinte forma:
MEx = zα/ 2σ x
Onde:
LMax = Média + Margem de erro

LMin = Média – Margem de erro
Margem de Erro
Podemos reduzir a margem de erro e ainda manter um

nível de confiança de 90%, simplesmente aumentando o
tamanho da amostra.
Exemplo
Desejamos estimar a média de dinheiro que uma pessoa

de uma determinada cidade, gasta comprando produtos
anunciados em um canal de televisão.
Para começar, precisamos coletar uma amostra
aleatória.
Considerando que a média da amostra seja R$ 129,20.
Com uma margem de erro de R$11,80 e limites de
confiança máximo e mínimo de R$117.40 e R$141.00
respectivamente.
Interpretar o intervalo de confiança, não é simples
como parece. Um erro muito comum, é fazer a seguinte
afirmação:
afirmação:
“Há 90% de probabilidade de que a média de gastos

com produtos anunciados em propagandas de TV
esteja entre R$117.40 e R$141.00”.
afirmação:
Embora a afirmação acima pareça bastante

razoável, ela não pode ser suportada com os
cálculos do intervalo de confiança.
Vamos coletar mais amostras e calcular os intervalos de
confiança:
90% de nível de confiança
Média da Margem de Limite Limite
Amostra
Amostra Erro Mínimo Máximo
1 R$ 129,20 R$11,80 R$117,40 R$141.00
2 R$ 132,00 R$11,80 R$120,20 R$143,80
3 R$ 117,50 R$11,80 R$105,70 R$129,30
4 R$ 128,20 R$11,80 R$116,40 R$140,00
5 R$ 108,80 R$11,80 R$97,00 R$120,60
6 R$ 130,10 R$11,80 R$118,30 R$141,90
7 R$ 117,90 R$11,80 R$106,10 R$129,70
8 R$ 120,10 R$11,80 R$108,30 R$131,90
9 R$ 133,80 R$11,80 R$122,00 R$145,60
10 R$ 119,00 R$11,80 R$107,20 R$130,80
Um ponto importante que precisa ser esclarecido aqui, é
que cada amostra extraída da população, tem seu
próprio intervalo de confiança, conforme pudemos ver
na tabela anterior.
Note que a margem de erro é a mesma, pois o tamanho
da amostra e o desvio padrão da população não foram
alterados e todos os intervalos representam 90% de nível
de confiança.
Amostra
1 R$ 129,20 R$11,80 R$117,40 R$141.00
A média da população é R$125,00.
Ou seja, os intervalos de confiança realmente incluem
a média da população.
Entretanto, olhe a amostra 5. Ela não contém a média
da população.

Amostra
1 R$ 129,20 R$11,80 R$117,40 R$141.00
2 R$ 132,00 R$11,80 R$120,20 R$143,80
3 R$ 117,50 R$11,80 R$105,70 R$129,30
4 R$ 128,20 R$11,80 R$116,40 R$140,00
5 R$ 108,80 R$11,80 R$97,00 R$120,60
6 R$ 130,10 R$11,80 R$118,30 R$141,90
7 R$ 117,90 R$11,80 R$106,10 R$129,70
8 R$ 120,10 R$11,80 R$108,30 R$131,90
9 R$ 133,80 R$11,80 R$122,00 R$145,60
10 R$ 119,00 R$11,80 R$107,20 R$130,80
Sendo assim, fazer a afirmação a seguir seria um erro:
“Há 90% de probabilidade de que a média de

gastos com produtos anunciados em
propagandas de TV esteja entre R$117.40 e
R$141.00”.
Veja que a amostra 5 não contém a média da
população. Sendo assim, fazer a afirmação abaixo seria
um erro:
“Há 90% de probabilidade de que a média de gastos

com produtos anunciados em propagandas de TV esteja
entre R$117.40 e R$141.00”.
A lição aqui é: não há garantia que cada intervalo de

confiança irá incluir a média da população.
Além disso, perceba que 9 das 10 amostras coletadas,
incluem a média da população.
Amostra
1 R$ 129,20 R$11,80 R$117,40 R$141.00
2 R$ 132,00 R$11,80 R$120,20 R$143,80
3 R$ 117,50 R$11,80 R$105,70 R$129,30
4 R$ 128,20 R$11,80 R$116,40 R$140,00
5 R$ 108,80 R$11,80 R$97,00 R$120,60
6 R$ 130,10 R$11,80 R$118,30 R$141,90
7 R$ 117,90 R$11,80 R$106,10 R$129,70
8 R$ 120,10 R$11,80 R$108,30 R$131,90
9 R$ 133,80 R$11,80 R$122,00 R$145,60
10 R$ 119,00 R$11,80 R$107,20 R$130,80
Esta é a correta definição do nível de confiança.
Nós esperamos que 90% das médias das amostras de

uma população, irão produzir um intervalo de confiança
que inclua a média da população.
Entretanto, não há garantia que 9 de cada 10 intervalos
de confiança irão incluir a média da população.
Entretanto, não há garantia que 9 de cada 10 intervalos
de confiança irão incluir a média da população.
Isso é uma estimativa.
O mesmo raciocínio pode ser aplicado para 95% e 99%

de nível de confiança.
No caso anterior, lidamos com tamanho de amostra
superior a 30 elementos.
No caso anterior, lidamos com tamanho de amostra
superior a 30 elementos.
Sob estas condições, as médias das amostras tendem a

seguir uma distribuição de probabilidade normal,
independente do formato da distribuição de probabilidade
da população.
Mas o que acontece quando o tamanho da amostra é
menor que 30, assumindo que o desvio padrão da
população é conhecido?
Bem, neste caso não podemos mais nos apoiar no
Teorema do Limite Central.
Até agora, assumimos que o desvio padrão da
população  (sigma) era conhecido.
Entretanto, na maioria das vezes, não temos
conhecimento deste valor, ou seja, o desvio padrão da
população é desconhecido.
Sob estas circunstâncias, nós substituímos s (desvio
padrão da amostra) e no seu lugar calculamos o erro
padrão.
Sob estas circunstâncias, nós substituímos s (desvio
padrão da amostra) e no seu lugar calculamos o erro
padrão.
n onde:
å (x - x )
i
2 x = média da amostra
n = tamanho da amostra (quantidade de
s= i =1
valores)
n -1 (xi – x ) = diferença entre cada valor e a
média da amostra
Fórmula para o erro padrão aproximado da média
onde:
s
σˆ x 
n = Erro padrão aproximado da média
= Desvio padrão da amostra
= Raíz do tamanho da amostra
E quando:
O tamanho da amostra é menor que 30:
N < 30
E quando:
O tamanho da amostra é menor que 30:

N < 30
E o desvio padrão da população é desconhecido:
=?
O que devo fazer?
Devemos usar a Distribuição t (t de student)!
Distribuição T - Student
A distribuição t de Student é uma
distribuição de probabilidade estatística
contínua, publicada por um autor que se
chamou de Student, pseudônimo de William
Sealy Gosset, que não podia usar seu nome
verdadeiro para publicar trabalhos enquanto
trabalhasse para a cervejaria Guinness.
William Sealy Gosset
A distribuição t de Student é uma das distribuições mais

utilizadas na estatística, com aplicações que vão desde a
modelagem estatística até testes de hipóteses.
A distribuição t de Student é usada no lugar da
distribuição normal de probabilidade quando o desvio
padrão da amostra (s) é usado no lugar do desvio padrão
da população ().
A distribuição t de Student, ou simplesmente,
distribuição t possui as seguintes propriedades:
É em formato de sino e simétrica em torno da média.
O formato da curva depende do grau de liberdade, que

corresponde ao número de valores que são livres para
variar.
Quando lidamos com a média da amostra, o grau de

liberdade é igual a n – 1.
A área em torno da curva é igual a 1.
É simétrica e semelhante à curva normal padrão, porém
com caudas mais largas, ou seja, uma simulação da t de
Student pode gerar valores mais extremos que uma
distribuição normal.
A distribuição t é na verdade uma família de distribuições.

À medida que o grau de liberdade aumenta, o formato da
distribuição t se torna uma distribuição normal.
Com mais de 100 graus de liberdade (tamanho da amostra

superior a 100), as duas distribuições (t e normal) são
praticamente idênticas.
Quando usamos distribuição t de Student, precisamos
assumir que a população de interesse segue uma
distribuição de probabilidade normal.
Graus de Liberdade
Normalmente as pessoas tem dificuldade em compreender
o conceito de graus de liberdade.
Graus de Liberdade
Em estatística, o número de graus de liberdade é o
número de valores no cálculo final de uma estatística que
são livres para variar.
Graus de Liberdade
O número de maneiras independentes por um sistema
dinâmico que pode mover-se, sem violar nenhuma
restrição imposta sobre ele, é chamado número de graus
de liberdade.
Graus de Liberdade
O número de graus de liberdade pode ser definido como
o número mínimo de coordenadas independentes que
podem especificar a posição do sistema completamente.
Graus de Liberdade
Quando se usa uma distribuição t (t de student) para
estimar uma média populacional, o número de graus de
liberdade é igual ao tamanho da amostra menos 1.
Graus de Liberdade = n - 1
Você como um Analista de
Dados, precisa ter em
mente essas regras aqui
aplicadas.
O Intervalo de confiança é o
valor estimado onde a média
de um parâmetro de uma
amostra tem uma dada
Probabilidade de ocorrer.
O Intervalo de confiança é
usado para apresentar a
confiabilidade de uma
estimativa.
Cuidado com os seguintes equívocos:
 Um intervalo de confiança de 99% não siginifica que,

para um dado intervalo calculado a partir dos dados,
haverá uma probabilidade de 99% do parâmetro da
população estar dentro do intervalo.
Portanto,
Você analista de dados irá lidar com incertezas, que

farão parte do resultado de derivação dos dados que
também fazem parte de um conjunto selecionado
aleatoriamente a partir de uma população.
Obrigado
Estatística: a ciência que diz que se eu comi um frango e tu não
comeste nenhum, teremos comido, em média, meio frango cada um.
Dino Segre
O teorema de Bayes
relaciona informações, com a
probabilidade de ocorrência,
para gerar uma nova
probabilidade quando os
fatos acontecem de maneira
relacionada ou são
dependentes.
Thomas Bayes (1701-1761)
Teorema de Bayes
Teorema de Bayes
Inferências Intuitivas
Inferências Experimentais
Teorema de Bayes
No Teorema de Bayes as probabilidades associadas a

um dados evento devem ser definidas previamente e
atualizadas assim que se recebem novas informações.
Teorema de Bayes
Treinamento
Profissional
Teorema de Bayes
Machine Lerning
Teorema de Bayes
Teorema de Bayes
Teorema de Bayes
Exemplo
Teorema de Bayes
Em uma fábrica de HD’s para computador, as linhas de

montagem I, II e III respondem respectivamente por 50, 30 e 20
porcento da produção.
Alguns HD’s saem destas linhas com defeitos. A porcentagem de
HD’s defeituosos é de 0,4%, 0,6% e 1,2% respectivamente para
as linhas I, II e III.
Teorema de Bayes
Para evitar que os HD’s defeituosos cheguem ao mercado, o
controle de qualidade realiza inspeções individuais em todos os
HD’s fabricados.Calcule as seguintes probabilidades:
a) de um HD qualquer produzido ser defeituoso.

b) de um HD defeituoso ter sido produzido na linha de produção I.
Teorema de Bayes
Considere os seguintes eventos:
A = o monitor foi produzido na linha I, logo P(A) = 0,50;

B = o monitor foi produzido na linha II, logo P(B) = 0,30;
C = o monitor foi produzido na linha III, logo P(C) = 0,20;
D = o monitor apresentou defeito;
Teorema de Bayes
Portanto:
P(D|A) = probabilidade do monitor defeituoso ter sido produzido

na linha I = 0,004;
P(D|B) = probabilidade do monitor defeituoso ter sido produzido

na linha II = 0,006;
P(D|C) = probabilidade do monitor defeituoso ter sido produzido

na linha III = 0,012;
Teorema de Bayes
O problema pede para calcularmos duas probabilidades: a

probabilidade de um monitor qualquer fabricado nesta empresa
ser defeituoso = P(D)
e a probabilidade de um monitor defeituoso ter sido fabricado
na linha I = P(A|D).
Teorema de Bayes
Logo :
P(D) = 0,0020 + 0,0018 + 0,0024 = 0,0062
P(A|D) = P(A) x P(D|A) = (0,50) x (0,004) = 0,3226

P(D) (0,0062)
Obrigado
A Estatística é a gramática da ciência.
Karl Pearson
Modelos de Regressão
O modelo de regressão é um dos métodos

estatísticos mais usados para investigar a
relação entre variáveis.
Modelo de
Regressão
Simples Múltiplo
Não Linear
Linear Não Linear Linear
1 Varível Dependente Y
2 Variáveis Independente X, Xi
1 Varível Dependente Y
1 Variável Independente X Modelo de
Regressão
Simples Múltiplo
Não Linear
Linear Não Linear Linear
Relação Linear
A relação entre duas variáveis pode ser:

Linear
Não Linear
Relação Linear
Relação Relação Relação

Linear Não Linear Inexiste
A presença ou ausência de relação linear
pode ser investigada sob dois pontos de vista:
Quantificando a força dessa relação Correlação
Quantificando a forma dessa relação Regressão
Análise de Regressão
Análise de regressão: metodologia estatística que

estuda (modela) a relação entre duas ou mais
variáveis.
Regressão Linear Simples: Examina a relação linear

entre duas variáveis contínuas: uma dependente (Y)
e uma independente (x). Quando as duas variáveis
são relacionadas é possível predizer um valor de
resposta com uma precisão independente.
Regressão Linear Múltipla: examina as relações

lineares existes entre uma resposta contínua a duas
ou mais variáveis independentes.
Coeficiente de Correlação
A análise de correlação é usada para medir o grau de

associação entre variáveis quantitativas.
Quanto maior a correlação maior a força.
O Coeficiente de Correlação
é um valor numérico, para o grau de
associação entre duas variáveis.
O coeficiente de correlação pode variar entre:

–1 (correlação negativa perfeita) e
+1 (correlação positiva perfeita).
Correlação positiva
Correlação negativa
Análise de Correlação
Para realizar a Análise de Correlação nós podemos utilizar dois
coeficientes:
Coeficiente de Correlação de Pearson
Coeficiente de Correlação de Spearman
Coeficiente de Correlação de Pearson
O coeficiente de correlação de Pearson mede o grau de associação
entre as variáveis mas não é sensível às unidades de medida.
O coeficiente de correlação de Pearson é bastante sensível à presença

de outliers.
O coeficiente de correlação de Pearson entre as variáveis x e y é

calculado dividindo a covariância entre x e y pelos seus desvios
padrões:
O coeficiente de correlação pode assumir valores entre -1 e +1.

Coeficiente de Correlação de Spearman
• Avalia a relação monotônica entre duas variáveis, ou seja,
as variáveis tendem a mudar mas numa velocidade
diferente.
• Se baseia nos valores classificados de cada variável. Ao
invés de se balizar em dados brutos.
• É muito utilizado para avaliação de relações de variáveis
ordinais.
• O coeficiente de correlação pode assumir valores
entre -1 e +1.
A existência de correlação não implica causalidade
Erro Amostral
Erro Amostral
Intercepto β0 - valor esperado para a
variável dependente y quando x é igual
a zero
Coeficiente angular β1 - variação

esperada na variável dependente,
quando a variável independente
aumenta uma unidade
Método dos Mínimos Quadrados
O Método dos Quadrados Mínimos, ou Quadrados

Mínimos Ordinários (MQO) ou OLS (do inglês Ordinary
Least Squares) é uma técnica que objetiva minimizar os
resíduos encontrados no modelo de regressão linear.
Avaliando Modelos de Regressão
Após contruir os modelos de regressão nós podemos

utilizar alguns critérios para avaliar e comparar os modelos
criados.
RMSE
Mede a taxa de erro de
Root Mean
um modelo de regressão
Square Error
em unidades
semelhantes.
Onde:
Erro Médio a = valor observado
p = valor previsto
Quadrático
RMSLE
Root Mean Aplica a transformação
Square Log log (Y+1) nas previsões.
Error Para medir a precisão de
algoritmos
Erro de Log
da Raíz
Quadrada
RSE
Relative Mede a taxa de erro de
Square Error um modelo de regressão
em unidades diferentes.
Onde:
Erro Relativo a = valor observado
Quadrático p = valor previsto
MAE
Mean
Absolute
em unidades
Error
semelhantes em escalas
de menor magnitude.
Onde:
Erro Médio a = valor observado
Absoluto p = valor previsto
RAE
Relative
Absolute
Error
em unidades diferentes.
Onde:
Erro Relativo a = valor observado
Absoluto p = valor previsto
Coeficiente de Determinação
A divisão entre SSR (Soma dos Quadrados da Regressão)

e SST (Soma dos Quadrados Totais)nos dá uma medida da
proporção da variação total que é explicada pelo modelo
de regressão. Essa medida é o coeficiente de Determinação
(r2)
Onde:
SSR = Soma dos Quadrados da Regressão
SST = Soma dos Quadrados Totais
SSE = Soma dos Quadrados dos Resíduos
Esse coeficiente pode ser utilizado como uma medida da

confiança depositada na equação de regressão como
instrumento de previsão.
Modelo linear pouco adequado
Modelo linear muito adequado
Modelo linear pouco adequado
Modelo linear muito adequado
Coeficiente de Determinação – R2
SSE = 0 Modelo de Regressão

r2 = 1 Linear perfeito
O Modelo de
Regressão não pode
Se o SSE = SST explicar a variância e
o r2 é igual a 0.
Exemplo
Imagine que você está trabalhando para um banco e precisa
desenvolver um modelo de regressão para prever as condições futuras
do mercado.
No primeiro modelo aplicado você encontrou um r2 = 89%.
Ao aplicar uma nova previsão trocando suas variáveis o r2 caiu para
49%.
Ao aplicar uma nova previsão trocando suas variáveis o r2 caiu para
49%.
Isso pode indicar um modelo super-ajustado.
Contudo, o modelo não irá ajudá-lo a realizar novas previsões mais
exatas a partir das suas novas observações, pois ele ajusta seus dados
existentes.
Obrigado
Teste qui-quadrado
X 2
O que sabemos é uma gota; o que ignoramos é um oceano.
Isaac Newton
Medidas de Associação entre Variáveis Qualitativas
Medidas de Associação entre Variáveis Qualitativas
• Estatística qui-quadrado – utilizada para variáveis qualitativas

nominais e ordinais
• Coeficiente de Spearman – para variáves qualitativas ordinais
• Coeficiente Phi - coeficiente de contingência
• Coeficiente V de Cramer – para variáveis nominais e baseadas no qui-

quadrado
Estatística qui-quadrado
A estatística qui-quadrado (χ2) mede a discrepância entre uma

tabela de contingência observada e uma tabela de contingência
esperada, partindo da hipótese de que não há associação entre
as variáveis estudadas.
Teste qui-quadrado
É usado para testar se uma distribuição de frequência se encaixa

em uma distribuição esperada.
Teste qui-quadrado
Suponha um determinado experimento que observou um
conjunto de eventos possíveis:
E1, E2, E3, …, En
Em que ocorram as frequências observadas:
O1, O2, O3, ..., On
Teste qui-quadrado
Suponha um determinado experimento que observou um conjunto de
eventos possíveis:
E1, E2, E3, …, En
Em que ocorram as frequências observadas:
O1, O2, O3, ..., On

Pelas regras da probabilidade, espera-se que ocorra as frequências observadas O1, O2,
etc...a diferença entre o observado e o esperado nesse caso é a estatística qui-
quadrado.
Teste qui-quadrado
Esta fórmula representa o teste do qui-quadrado
Onde:
K = número de categorias de variável qualitativa

Oi = número de frequências observadas
Ei = número de frequências esperadas
Teste qui-quadrado
O teste qui-quadrado é representado pelas seguintes hipóteses:
Não há diferença significativa entre as frequências observadas

H0
e as frequências esperadas.
Há diferença significativa entre as frequências observadas e
Ha
esperadas.
Teste qui-quadrado
Pela regra de rejeição nós temos:
Se X2 calculado > X2a, rejeitar H0
Caso contrário, não rejeitar H0
Teste qui-quadrado
O gráfico ao lado mostra a divisão
entre as distribuições das
hipóteses H0 e Ha, sendo ambas
separadas pelo valor do qui-
quadrado definido em uma tabela
padrão.
Se o valor do teste qui-quadrado
Ha for menor que X2 da tabela,
aceitamos a hipótese H0.
Teste qui-quadrado
Para encontrar o valor do qui-quadrado (X2) que

faz a divisão das regiões de H0 e Ha, devemos
saber o número de graus de liberdade da tabela
do qui-quadrado.
Calculamos o número de graus de liberdade por:
Ha gl = (número de linhas -1)(número de colunas – 1)
Teste qui-quadrado
Os valores de referência de X2a para tomada de decisão em função dos

graus de liberdade para 95% de confiança:
gl 1 2 3 4 5 6 7 8 9
X2a 3,84 6 7,8 9,5 11,1 12,6 14,1 15,5 16,9
Teste qui-quadrado
Exemplo
Teste qui-quadrado
Vamos considerar que você como Analista de Dados, foi procurado pelo seu
gerente para realizar um teste para saber se o lançamento de um novo produto
irá impactar no percentual das ações da Empresa para qual você trabalha.
Passo
1
Você precisa analisar o cenário e coletar os dados:

 Coletar o percentual das ações da sua empresa - TecEx e de algumas
concorrentes:
Exemplo:
Empresa Loroy = 50%
Empresa CVVA = 20%
Empresa TecEx = 30%
 Estimar o número de consumidores: (amostra)

2000 consumidores
Passo
2
 Questionar os 2000 consumidores sobre qual a empresa eles preferem

realizar a compra e calcular a frequência observada da preferência dos
consumidores.
Empresa Loroy = 980 (consumidores)

Empresa CVVA = 540 (consumidores)
Empresa TecEx = 480 (consumidores)
Passo
3
 Analisar as hipóteses H0 e Ha
H0 = p(Loroy) = 0,50 ; p(Cvva) =0,20 ; p(TecEx) = 0,30
Ha = p(Loroy 0,50 ; p(Cvva) 0,20 ; p(TecEx) 0,30
Passo
4
 Calcular a Frequência Esperada
Empresa Loroy = 2000 x 0,50 = 1000

Empresa CVVA = 2000 x 0,20 = 400
Empresa TecEx = 2000 x 0,30 = 600
Passo
5
 Calcular o Qui-Quadrado = X2
X2 = (480 – 600)2 + (980 – 1000)2 + (540 – 400)2

600 1000 400
X2 = 73,4
Passo
6
 Encontrar o Valor Crítico (X2a)
 n-1 = 3 – 1 = 2
 = 0,05
X2a = 5,991
Passo
7
 Conclusão
 Como X2 calculado > X2a, rejeita-se H0

 73,4 > 5,991
Passo
8
 Conclusão
 Como X2 calculado > X2a, rejeita-se H0

 73,4 > 5,991
H0 = p(Loroy) = 0,50 ; p(Cvva) =0,20 ; p(TecEx) = 0,30
Teste qui-quadrado
Obrigado

04 Slides Modulo 4 PDF

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

04 Slides Modulo 4 PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Big Data Real-Time Analytics com

É a ciência que nos permite aprender a

Com a Estatística nós podemos:

O principal objetivo é determinar quais os dados são mais relevantes no

Nominais Ordinais Discretas Contínuas

3 filhos Quantitativo Contínuo

Níveis de Medição dos Dados

A População é a coleção completa de todos os

Censo é a colação de dados de cada membro

O tamanho da população = número de membros

O tamanho da população = número de membros

Fonte IBGE 2010

Fonte IBGE 2010

Amostra é a parte da população da qual os

O Tamanho da Amostra = número de objetos

18% = 180 g/L

 Quem são os membros de interesse da população?

Identificar o problema a ser investigado da população

Amostragem Probabilística Amostragem Não-Probabilistica

Aleatória Simples Conveniência

Amostragem Não Probabilística

Quando a pesquisa foi feita usando amostragem

Não ter controle sobre a amostra, reduz muito a

A amostragem é uma técnica fabulosa, que nos

Estatística Valores calculados a partir da amostra,

Portanto, a margem de erro é a distância entre o

Há dois tipos de estudos estatísticos:

Em um estudo de observação, os dados e as

Em um estudo experimental, cada indivíduo é

Para onde se olha, se vê Estatística sendo aplicada, desde o

Muito Obrigada por Participar!

É um conjunto de métodos estatísticos

Um valor representativo do conjunto de dados. Ex.: uma

Uma medida de dispersão ou variação. Ex: Variância,

A natureza ou forma da distribuição dos dados: sino,

Cada classe corresponde a uma categoria em uma

Mostra o número de observações de dados que estão

3 Determinar o Número de Classes

4 Determinar o Tamanho do Intervalo de Classes

5 Fazer a Distribuição de Frequência

Colocar os números em uma ordem de grandeza crescente

Estabelecer a diferença entre os valores extremos do

Fórmula: At = Vmáx - Vmín

Definir a quantidade de intervalos de dados que iremos

Realizar a razão da Amplitude Total pelo número de classes.

Montar a sua Tabela de Distribuição de Frequência a partir dos

Para tanto, vamos apresentar os 4 tipos de distribuição de

1 Distribuição de Frequência Simples ou Absoluta - fi

2 Distribuição de Frequência Relativa Simples - fri

São os valores que representam o número de dados de cada classe.

Permite visualizar os valores das razões entre as Frequências Simples e

Permite visualizar o total das Frequências de todos os valores inferiores

Permite visualizar a frequência acumulada da classe, dividida pela

Tabela de Frequência Gráfico de Pizza Ramos e Folhas

Gráfico de Barras Gráfico de Linha Pontos de Dispersão

Gráfico de Pareto Tabela de Contingência Histograma

Dello 3996 Acert

HPTP Dello Acert Applex Tosser Outros Total

2004 8.5 2050

Ano Faturamento Vendas XPTO - Milhões de Reais

Notas dos Exames

Notas dos Exames