Escolar Documentos
Profissional Documentos
Cultura Documentos
Departamento de Estatística
Universidade Federal do Paraná
População
Estatística
Descritiva
Amostra
Amostragem
Estatísticas:
ȳ, S 2 , θ̂, r,
Parâmetros: Freq(Y ≤ y), etc.
µ, σ 2 , θ, ρ, Inferência
P(Y ≤ y), etc. Estatística
Figura 4. O CRISP-DM (Cross Industry Standard Process for Data Mining) estabelece etapas para a análise de
dados. As caixas em azul são as etapas que envolvem análise exploratória de dados.
I Motivação e utilidade
Os números têm uma importante história para
da Estatística
contar. Eles dependem de você dar-lhes uma
Descritiva.
clara e convincente voz.
I Tipos de variáveis e – StephenFew
formas de análise.
I Distribuição de
frequências.
I Medidas descritivas
numéricas.
Departamento de Estatística
Universidade Federal do Paraná
População
Estatística
Descritiva
Amostra
Amostragem
Estatísticas:
ȳ, S 2 , θ̂, r,
Parâmetros: Freq(Y ≤ y), etc.
µ, σ 2 , θ, ρ, Inferência
P(Y ≤ y), etc. Estatística
Estatística Inferencial
A Estatística Inferencial utiliza dados de uma amostra para fazer estimativas, previsões,
decisões ou outras generalizações sobre um grande conjunto de dados (a população).
I Diagnóstica ou confirmatória.
I Preditiva.
I Prescritiva.
Amostra
Uma amostra é um subconjunto das
unidades amostrais de uma população.
Figura 2. População e amostra.
Variável ou característica
Uma variável é uma característica ou
propriedade de uma unidade amostral
individual.
Figura 3. Medidas no corpo humano que
apresentam a razão áurea. Fonte:
https://rb.gy/8tv7yp.
x1 y1 x2 y2 x3 y3 x4 y4
10 8.04 10 9.14 10 7.46 8 6.58
8 6.95 8 8.14 8 6.77 8 5.76
13 7.58 13 8.74 13 12.74 8 7.71
9 8.81 9 8.77 9 7.11 8 8.84
11 8.33 11 9.26 11 7.81 8 8.47
14 9.96 14 8.10 14 8.84 8 7.04
6 7.24 6 6.13 6 6.08 8 5.25
4 4.26 4 3.10 4 5.39 19 12.50
12 10.84 12 9.13 12 8.15 8 5.56
7 4.82 7 7.26 7 6.42 8 7.91
5 5.68 5 4.74 5 5.73 8 6.89
12.5
10.0
Valores de y
7.5
5.0
5 10 15 5 10 15 5 10 15 5 10 15
Valores de x
ŷ = β̂0 + β̂1 x.
O que é feito?
I Análise de dados históricos.
I O que aconteceu/está acontecendo?
I Explorar e descrever os dados brutos.
I Ter impressões preliminares.
Qual a utilidade?
I Recursos para comunicação: data storytelling.
I Auxilia no pré-processamento e curadoria de dados.
I Determinante para o processo de inferência estatística.
Figura 5. O CRISP-DM (Cross Industry Standard Process for Data Mining) estabelece etapas para a análise de
dados. As caixas em azul são as etapas que envolvem análise exploratória de dados.
Revisão
I Importância da Os números têm uma importante história para
Estatística Descritiva. contar. Eles dependem de você dar-lhes uma
I Para que serve. clara e convincente voz.
– StephenFew
I Aspectos da qualidade
dos dados.
Departamento de Estatística
Universidade Federal do Paraná
I Variáveis qualitativas.
I Tabelas de frequência (uma variável).
I Tabelas de frequências cruzadas
(mais de uma variável).
I Variáveis quantitativas.
I Medidas de posição ou tendência
central.
I Medidas de dispersão ou
variabilidade.
I Separatrizes.
Figura 4. Exemplos de medidas descritivas: Retirado
I Medidas de associação. de https://www.pluralsight.com/guides/exploring-
I Coeficientes/índices específicos. data-set-r.
Revisão
I Aspectos da análise descritiva de
dados.
I Tipos de variáveis.
I Formas de descrição dos dados.
I Objetivos da descrição de dados.
I As principais medidas descritivas.
I As principais funções gráficas.
Departamento de Estatística
Universidade Federal do Paraná
I Tabelas de frequência.
I Tipos de frequência.
I Cálculo de frequência.
I Tabelas de frequência cruzada.
I Gráficos para distribuição de
frequência.
Frequência da classe
Frequência da classe é o número de Percentual da classe
observações no conjunto de dados que Percentual da classe é a frequência
pertence a uma particular classe. relativa de classe multiplicada por 100.
Frequência 200
150
100
50
0
Biolog Eng Exatas Humanas Saúde Sociais
Área
Figura 2. Gráfico de barras com a frequência absoluta para as classes da variável Área.
Sociais Sociais
Saúde Saúde
Humanas Humanas
Área
Área
Exatas Exatas
Eng Eng
Biolog Biolog
0 50 100 150 200 250 0.00 0.05 0.10 0.15 0.20 0.25
Frequência Frequência relativa
Figura 3. Gráfico de barras com a frequência absoluta (esq.) e relativa (dir.) para as classes da variável Área.
Figura 4. Gráfico de barras empilhadas com a frequência relativa para as classes da variável Área.
Área
Biolog
Eng
0.50
Figura 5. Gráfico de setores com a frequência relativa para as classes da variável Área.
Área
Biolog
Eng
0.50
Figura 6. Gráfico de rosca com a frequência relativa para as classes da variável Área.
I Variáveis nominais.
I Não há ordenação natural das classes.
I Não há ordem para exibição das frequências das classes.
I Ordem alfabética auxilia procurar pela classe quando existem muitas.
I A ordenação pela frequência auxilia identificar as classes predominantes e minoritárias.
I Variáveis ordinais.
I Há ordenação natural das classes.
I Procurar manter a ordem das classes para uma exibição coerente.
I Quando for o caso, pode-se ordenar pela frequência.
Tabela 6. Tabela de frequência (absoluta) cruzada para as variáveis Email e Área considerando as
observações do recorte aleatório.
Tabela 7. Tabela de frequência relativa cruzada para as variáveis Email e Área considerando as observações
do recorte aleatório.
Tabela 8. Tabela de frequência (absoluta) cruzada para as variáveis Email e Área para todos os respondentes.
Tabela 9. Tabela de frequência relativa cruzada, em percentual, para as variáveis Email e Área para todos os
respondentes.
200
Email
Frequência
150 gmail
hotmail
100 outros
ufpr
50
0
Sociais Humanas Exatas Biolog Saúde Eng
Área
Figura 9. Gráfico de barras empilhadas com a frequência absoluta para as combinações das variáveis Email
e Área.
Email
80
Frequência
gmail
hotmail
outros
40
ufpr
0
Sociais Humanas Exatas Biolog Saúde Eng
Área
Figura 10. Gráfico de barras lado a lado com a frequência absoluta para as combinações das variáveis Email
e Área.
0.75 Email
Frequência
gmail
0.50 hotmail
outros
ufpr
0.25
0.00
Sociais Humanas Exatas Biolog Saúde Eng
Área
Figura 11. Gráfico de barras empilhadas relativo com a frequência relativa para as combinações das variáveis
Email e Área.
ufpr
ufpr
outros
outros
hotmail
hotmail Email
gmail
Email
hotmail
outros
gmail
gmail ufpr
Figura 12. Gráfico de mosaico com a frequência relativa para as combinações das variáveis Email e Curso.
Departamento de Estatística
Universidade Federal do Paraná
I Tabelas de frequência.
I Agrupar valores em classes.
I Tipos de frequência.
I Cálculo de frequência e densidade.
I Gráficos para a distribuição de
variáveis quantitativas.
Amplitude amostral
Notação
y a<y≤b (a, b] a⟝b
y0 y1 y2 y3 y4 y5 y6 y7 a≤y<b [a, b) a⟞b
Amplitude de classe Limite de classe
Frequência acumulada
Frequência acumulada é a frequência absoluta (ou relativa) acumulada conforme
disposição das i) classes de uma variável ordinal ou ii) das classes de uma variável
quantitativa que foi agrupada em classes.
Densidade
A densidade de uma classe é o quociente da frequência relativa (fr ) da classe pela
amplitude da classe (a). Em gráficos que exibem a densidade no eixo y, a área abaixo da
curva ou a soma dos retângulos é igual a 1.
Valores ordenados
150 180 200 225 240 240 270 300 480 500
Informações
I Número de dados: 10.
I Menor valor: 150.
I Maior valor: 500.
I Amplitude: 350.
I Amplitude de classe: 43.75?
Tabela 6. Frequência com classes de mesmo Tabela 7. Frequências com classes de amplitude
amplitude. para valores próximos de frequência.
100
Frequência
50
0
0 200 400
CH
Frequência
Frequência
75 100
50
50
25
0 0
0 200 400 0 200 400
CH CH
100
200
Frequência
Frequência
75
150
100 50
50 25
0 0
0 200 400 600 0 100 200 300 400 500
CH CH
400 400
Frequência
Frequência
200 200
0 0
[0,1] (1,2] (2,5] (5,15] 0 5 10 15
Residentes Residentes
0.002
Densidade
0.001
0.000
0 200 400
CH
A densidade (d) é
fr
d=
, logo fr = a · d,
a
em que fr é a frequência relativa e a é a amplitude de classe.
Tabela 8. Exemplo de cálculo da densidade. Apenas as primeiras linhas da tabela são exibidas.
0.20
Densidade
0.15
0.10
0.05
0.00
0 5 10 15
Residentes
750
Frequência
500
250
0
0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00
Valores da variável
Figura 8. Histogramas exibindo assimetria à esquerda, simetria e assimetria à direita para uma variável
contínua hipotética.
Frequência relativa
0.75
I O comprimento
horizontal é a
0.50
distância entre valores
consecutivos da
variável. 0.25
I Computacionalmente
intensivo.
I Depende de escolher:
0.002
I A função kernel.
Densidade
I Largura de banda
ou tamanho de
vizinhança. 0.001
I A área abaixo da
curva (em azul) é 1.
I Veja aplicação web: 0.000
http://shiny.leg.ufpr. 0 100 200 300 400 500
br/walmes/density/. CH
I Histograma de frequência.
I Para examinar a simetria da distribuição.
I Para classes de mesma amplitude.
I Histograma de densidade.
I Para examinar a simetria da distribuição.
I Para classes de amplitude variável.
I Frequência acumulada.
I Para examinar frequências relativas e separatrizes.
I Densidade.
I Para examinar a simetria da distribuição.
I Para determinar as modas da distribuição.
I Histograma.
I Escolha apropriada do número de classes agrupamento dos dados contínuos em
classes.
I Não usar barras separadas (como os feitos para variáveis qualitativas).
I O histograma é um gráfico de barras mas que enfatiza a continuidade por não
apresentar espaço entre barras.
I Use densidade quando as classes são de amplitude variável.
I Densidade.
I Escolha apropriadamente a função kernel e principalmente a largura de banda.
I Esteja ciente dos valores ausentes.
I Função da análise:
I Uma variável: descrever o Figura 11. Photo by nappy from Pexels. Fonte
comportamento → distribuição de https://rb.gy/nigarg.
frequências.
I Duas ou mais: investigar relações →
será visto em outro vídeo.
Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 27
Medidas de posição
Departamento de Estatística
Universidade Federal do Paraná
X
n
SQD(µ) = (yi − µ)2 .
i=1
e determine a média.
5 10 15 20 25
Fazendo os cálculos: Valores
I Ela é usada para calcular médias sobre valores que são taxas ou tem relação
divisiva.
I Exemplo: 3 amigos dirigem 100 km cada um mantendo a velocidade de 50, 65 e 75
km/h em cada trecho. Qual é a velocidade média da viagem?
y(1) y(2) y(3) y(4) y(5) y(6) y(7) y(8) y(9) y(10) y(11)
1ª metade 2ª metade
n par mediana
(y(n/2) + y(n/2+1))/2 = (y(6) + y(7) )/2
y(1) y(2) y(3) y(4) y(5) y(6) y(7) y(8) y(9) y(10) y(11) y(12)
1ª metade 2ª metade
4 9 10 12 15
Frequência relativa
7 10 12 15
0.75
11
8 10 11 13 18 0.50
8 10 12 14 24
0.25
e determine a mediana. 11
0.00
5 10 15 20 25
Fazendo os cálculos: Valores
Densidade
I Para variáveis onde todos os valores 0.08
0.04
são distintos, a moda fica indefinida já 0.00
10.61
Densidade
I
0.10 Moda: 4.55
Medidas
Candidato: Quanto ganha um funcionário Média: 6.33
mente?
I O salário médio?
5 10 15 20
I O salário intermediário? Salário
I Ou o salário típico? Figura 8. Salários dos funcionários de uma
empresa. n = 15.
Densidade
Mediana: distribuição assimétrica ou
Moda: 0.53
I 0.2
As três medidas:
Densidade
0.04
I
I Perdem significado em distribuições 0.02
multimodais.
0.00
I Aproximam-se em distribuições 140 160
Valores
180
unimodais simétricas.
Figura 9. Média, mediana e moda para
I Sempre faça gráficos! distribuição assimétrica (topo) e distribuição
bimodal (base).
Prof. Walmes M. Zeviani Medidas de posição 16
Medidas de posição relativa
(separatrizes)
Freq. relativa
1.00
ordenados em ordem crescente, é um 0.75
Valores
15
13.5
I Cálculo do 3º quartil é a mediana da segunda
11.0
porção 10
9.5
11, 12, 12, 12, 13, 14, 15, 15, 18, 24. Logo, q3 = 13.5.
I Apesar de simples, essa forma de calcular não é a 5
única. 4.0
1ª metade 2ª metade
q1 q2 q3
n + 1 múltiplo de 4
y(1) y(2) y(3) y(4) y(5) y(6) y(7) y(8) y(9) y(10) y(11)
1ª metade 2ª metade
q1 q2 q3
n múltiplo de 2
y(1) y(2) y(3) y(4) y(5) y(6) y(7) y(8) y(9) y(10)
Figura 12. Cálculo dos quartis
1ª metade 2ª metade
para as 4 situações possíveis
q1 q2 q3 conforme o tamanho da amostra
n + 1 múltiplo de 2
pelo método dos 5 números de
y(1) y(2) y(3) y(4) y(5) y(6) y(7) y(8) y(9) Tukey (Tukey’s hinge method).
1ª metade 2ª metade
AIQ = q3 − q1 . 18.50
Valores
15
I
valores limites, além dos quais as observações são 13.25
q1 − k · AIQ e q3 + k · AIQ,
5
4.50
em que k é uma constante amplamente utilizada
4.00
Freq. relativa
- P)% à sua direita. 0.50
0.55
11.45
I Da mesma forma que os quartis são
0.00
percentis múltiplos de 25.
5 10 15 20 25
I As separatrizes podem ser obtidas por
meio do gráfico de frequências Figura 14. Gráfico de probabilidades acumulada
indicando o uso para determinação de percentis.
acumuladas.
Departamento de Estatística
Universidade Federal do Paraná
Frequência
0
I Não é seguro analisar um conjunto de Após treinamento
dados somente pelo emprego de 60
medidas de tendência central. 40 20.01
20
I Por isso, precisamos de medidas que 0
caracterizem a dispersão ou 15.0 17.5 20.0 22.5 25.0
Profundidade da cova
variabilidade dos dados em relação a
um valor central. Figura 2. Histogramas exibindo a profundidade das
covas para transplante de mudas antes e após ser
dado treinamento sobre cultivo.
1X
n
desvio mediano = abs(yi − md),
n
i=1
em que abs(.) é a função que retorna o valor absoluto ou módulo. Assim, abs(y) é o
mesmo que |y|.
Desvio absoluto médio da média (desvio da média)
I Usa a média como medida de posição central. É defido por
1X
n
desvio médio = abs(yi − y).
n
i=1
1 X
n
2
s = Var(y) = (yi − y)2
n−1
i=1
Pn !
1 Xn
( y ) 2
i=1 i
= y2i −
n−1 n
i=1
4 8 9 10 10 11 12 13 15 18
7 8 10 10 11 12 12 14 15 24
1 h i
s2 = (4 − 11.65)2 + (7 − 11.65)2 + · · · + (24 − 11.65)2
19
1
= [58.5225 + 21.6225 + · · · + 152.5225]
19
= 18.34.
I Para ter uma medida de dispersão com a mesma unidade de medida dos dados
originais, definiu-se o desvio-padrão como
p
s = s2 .
O coeficiente de variação é
4.283
CV = 100 · = 36.765%.
11.65
X
k X
k X
k
H= pi log(1/pi ) = pi (− log pi ) = − pi log(pi ),
i=1 i=1 i=1
n
X 3
1 yi − y
Frequência
b1 = . 600
n s
i=1
300
b1 = − 0.626 b1 = − 0.001 b1 = 0.612
I Assimetria à esquerda quando b1 < 0
e assimetria à direita quando b1 > 0. 0
0.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.00
Valores da variável
n Mesocúrtica
1 X yi − y 4
Densidade
b2 = 0.306
b2 = − 3,
0.10
n s 0.05
i=1 0.00
Leptocúrtica
0.5
y2
0.0
−0.5
y1
1 X
n
Cov(y1 , y2 ) = (y1i − y1 ) · (y2i − y2 ).
n−1
i=1
y1 < ȳ1 & y2 > ȳ2 y1 > ȳ1 & y2 > ȳ2
O coeficiente de correlação é
Pn
(y1i − y1 ) · (y2i − y2 )
r = qP i=1 qP .
n n
y¯2 (y
i=1 1i − y1 ) 2· (y
i=1 2i − y2 )
y2
y1
plantas de milho.
0.85
Produção da planta
Comp. Prod. Comp. Prod. Comp. Prod. 0.80
0.0369
r=√ = 0.7555,
0.2731 · 0.0087
y2
3 4