Você está na página 1de 21

Estatística descritiva: Medidas

de Dispersão
a) Variância
b) Desvio-padrão
c) Coeficiente de Variação
d) Amplitude Total
e) Amplitude Interquartílica
2. Medidas de dispersão ou Medidas de
Variabilidade
• As medidas de dispersão são estatísticas descritivas, que quantificam
de algum modo a variabilidade dos dados, geralmente utilizando
como referência uma medida de posição.
• Caracterizar um conjunto de dados apenas por medidas de posição é
inadequado, pois conjuntos com medidas de posição semelhantes
podem apresentar características muito diferentes. Por exemplo: com
relação à variabilidade do conjunto de valores.
2. Medidas de dispersão ou Medidas de
Variabilidade
• Exemplos:
• Amostra A: 4, 8, 3, 9, 7, 5
4+8+3+9+7+5
𝑋ത𝐴 = =6
6

• Amostra B: 1, 5, 2, 14, 3, 11
1 + 5 + 2 + 14 + 3 + 11
𝑋ത𝐵 = =6
6

• As médias das amostras são iguais, porém, a dispersão dos valores na


amostra B é maior.
2.1. Variância amostral (s²)
• A variância mede a dispersão dos valores em torno da média.
• É dada pela soma dos quadrados dos desvios em relação à média
aritmética, dividida pelo número de graus de liberdade.
• Para uma amostra de n valores, X1,X2, . . . ,Xn, a variância amostral é
dada por:
n n

d ( X −X)
2 2
i i
S2 = i =1
= i =1

n −1 n −1
Graus de Liberdade
• É possível demonstrar que, utilizando-se o denominador n − 1,
obtém-se um estimador não tendencioso da variância populacional,
isto é, E 𝑆 2 = 𝜎 2 .
• De uma maneira geral, o número de graus de liberdade associados a
uma estatística é o número de elementos da amostra, n, menos o
número de parâmetros (medidas da população) já estimados.
• Existem n − 1 desvios independentes.
2.1 Variância amostral
Exemplo: Considere dois conjuntos de dados, de duas amostras:
Amostra A: 4, 8, 3, 9, 7, 5 Amostra B: 1, 5, 2, 14, 3, 11
n
S² para amostra A:
( X −X)
2
i 4+8+3+9+7+5
S = 2 i =1
𝑋ത = =6
n −1 6
𝑋𝑖 − 𝑋ത = −2,2, −3,3,1, −1
2 2 2 2 2 2
2
−2 + 2 + −3 + 3 + 1 + −1
𝑆 = =
6−1
2
4 + 4 + 9 + 9 + 1 + 1 28
𝑆 = = = 5,6
5 5
2.1 Variância amostral
Amostra B: 1, 5, 2, 14, 3, 11
n

( X −X)
2
i 1 + 5 + 2 + 14 + 3 + 11
S =
2 i =1
𝑋ത = =6
n −1 6
𝑋𝑖 − 𝑋ത = −5, −1, −4,8, −3,5
2 2 2
2 2 2
−5 + −4+ −1+ 8 + −3 + 5
𝑆2 = =
6−1
2
25 + 1 + 16 + 64 + 9 + 25 140
𝑆 = = = 28
6−1 5
2.1. Variância amostral (s²) – fórmula prática
• Pode-se mostrar que
σ 𝒏 𝟐
𝒏 𝟐 𝒊=𝟏 𝑿𝒊
σ 𝑛
𝑑 2
σ 𝑛
𝑋 − ሜ
𝑋 2 σ𝒊=𝟏 𝑿𝒊 −
𝑆2 =
𝑖=1 𝑖
=
𝑖=1 𝑖
= 𝒏
𝑛−1 𝑛−1 𝒏−𝟏

S² para amostra A: 4, 8, 3, 9, 7, 5
σ𝑛𝑖=1 𝑋𝑖 2 = 42 + 82 + 32 + 92 + 72 + 52 = 244
𝑛 2
2 S² para amostra B como exercício!
෍ 𝑋𝑖 = 4+8+3+9+7+5 = 1296
𝑖=1
𝑛 2
𝑛 2 σ 𝑖=1 𝑋𝑖 1296
σ𝑖=1 𝑋𝑖 − 244 −
𝑆2 = 𝑛 = 6 = 5,6
𝑛−1 6−1
2.1 Variância amostral
• Se aos valores X1,X2, . . . ,Xn estiverem associados às frequências, f1, f2,
..., fk, a variância amostral será dada por:

𝑘 2
σ𝑖=1 𝑓𝑖 𝑋𝑖
𝑘 ሜ 2 σ𝑘𝑖=1 𝑓𝑖 𝑋𝑖 2 −
σ𝑖=1 𝑓𝑖 × 𝑋𝑖 − 𝑋 σ𝑘𝑖=1 𝑓𝑖
𝑆2 = ou 𝑆2 =
σ𝑘𝑖=1 𝑓𝑖 − 1 σ𝑘𝑖=1 𝑓𝑖 − 1
𝑘

෍ 𝑓𝑖 = 𝑛
𝑖=1
2.1 Variância amostral 𝑋ത = 3,85
Exemplo:
Nº de pessoas k

 f ( X −X)
2

residentes/domicílio (xi) fi (Xi - 𝑋ത )2 fi×(Xi - 𝑋ത )2 i i

1 1 8,1225 8,1225 S2 = i =1

n −1
2 3 3,4225 10,2675
3 4 0,7225 2,89
2
40,55
4 5 0,0225 0,1125 𝑆 = = 2,13
5 4 1,3225 5,29 19
6 3 4,6225 13,8675
Total 20 40,55
2.1 Variância amostral (fórmula alternativa)
2
Exemplo: 𝑘
σ𝑖=1 𝑓𝑖 𝑋𝑖
σ𝑘𝑖=1 𝑓𝑖 𝑋𝑖 2 −
Nº de pessoas σ𝑘𝑖=1 𝑓𝑖
𝑆2 =
residentes/domicílio (xi) fi fi×Xi fi×Xi2 σ𝑘𝑖=1 𝑓𝑖 − 1
1 1 1 1
2 3 6 12 77 2
3 4 12 36 337 −
𝑆2 = 20 = 𝟐, 𝟏𝟑
4 5 20 80 20 − 1
5 4 20 100
6 3 18 108
Total 20 77 337
2.2 Variância Populacional 2
(𝜎 )
• Quando a população não é muito grande, é preferível realizar o
censo, isto é, obter as informações sobre todos os elementos que
constituem a população.
• Nesse caso temos a variância populacional, representada 𝜎 2 (leia-se
sigma ao quadrado), e é calculada através da expressão:
n

( X − )
2
i
2 = i =1

N
• Em que μ é a média na população e N é o tamanho da população.
2.3 Desvio-Padrão Amostral (s)
• Como medida de dispersão, a variância tem a desvantagem de
apresentar unidade de medida igual ao quadrado da unidade de
medida dos dados.
• Assim, por exemplo, se os dados são medidos em metros, a variância
é dada em metros ao quadrado.
• Para voltarmos à unidade de medida original, precisamos de uma
outra medida de dispersão. Então, se define desvio-padrão como a
raiz quadrada da variância.

S(X ) = S 2
(X )
2.3 Desvio-padrão amostral Variância amostral:
2
Voltando ao Exemplo: 𝑘
σ𝑖=1 𝑓𝑖 𝑋𝑖
σ𝑘𝑖=1 𝑓𝑖 𝑋𝑖 2 −
Nº de pessoas σ𝑘𝑖=1 𝑓𝑖
𝑆2 =
residentes/domicílio (xi) fi fi×Xi fi×Xi2 σ𝑘𝑖=1 𝑓𝑖 − 1
1 1 1 1
2 3 6 12 77 2
337 −
3 4 12 36 𝑆2 = 20 = 𝟐, 𝟏𝟑
4 5 20 80 20 − 1
5 4 20 100
6 3 18 108 Desvio-padrão amostral:
Total 20 77 337
𝑆= 2,13 = 1,5
2.4 Coeficiente de Variação (CV)
• O CV é utilizado quando temos interesse em comparar variabilidades
em situações onde as médias são muito diferentes ou as unidades de
medida são diferentes, como por exemplo, as variáveis altura, em
centímetros, e o peso, em gramas.
• Nesses casos, o CV é indicado por ser uma medida relativa percentual
da variabilidade dos dados em torno da média.
• O CV, expresso em percentagem, é dado por:
𝑆
𝐶𝑉 % = × 100
𝑋ത
2.4 Coeficiente de Variação (C.V.)
• O CV é uma medida de dispersão relativa porque estabelece uma
relação entre o desvio padrão e a média amostral.
• Por ser uma medida independente da unidade da variável, o CV é útil
para se estudar comparativamente duas ou mais distribuições.
• O CV é utilizado para analisar qual amostra/variável é mais
homogênea, ou seja, a que possui menor variabilidade.
Exemplo: Foi realizado um experimento para avaliar o desenvolvimento
inicial de mudas de cupuaçuzeiro considerando diferentes substratos.
Foram avaliadas várias variáveis, dentre elas, destacamos duas: altura
das plantas (em cm) e massa seca da raiz (em gramas). Considere os
seguintes valores obtidos (hipotéticos):

Altura (em cm) 42.7 35.6 44.1 39.2 35.4 42.5


Massa seca da
raiz (em g) 10.3 7.5 9.1 10.1 9.6 10.5
Exemplo: Experimento com cupuaçu
Altura (cm) Massa Seca Raiz (g)
𝑋ത𝐴 = 39,92 cm 𝑋ത𝑀𝑆𝑅 = 9,52 g
𝑆 2𝐴 = 14,3 cm2 𝑆 2 𝑀𝑆𝑅 = 2,35 g2
𝑆𝐴 = 3,78 cm 𝑆𝑀𝑆𝑅 = 1,11 g

Qual é a variável mais homogênea (menor variabilidade)?


3, 78 1,11
CVA = 100 = 9, 47% CVMSR = 100 = 11, 66%
39,92 9,52
Assim, a variável com menor variabilidade é a altura da planta. Observe
que pelos valores dos desvios padrão a conclusão seria diferente.
2.4 Classificação do Coeficiente de Variação
• Alguns analistas consideram:

Baixa dispersão: CV ≤ 15%


Média dispersão: 15% < CV < 30%
Alta dispersão: CV ≥ 30%
2.5 Amplitude interquartílica (AI)
• Da mesma forma que a média aritmética, a variância é uma medida
de dispersão, que representa bem a realidade, quando os dados
apresentam pelo menos aproximadamente uma distribuição normal.
• Para distribuições assimétricas, uma medida da variabilidade é dada
pela amplitude interquartílica, calculada por:

𝐴𝐼 = 𝑄3 − 𝑄1
• Esta medida abrange 50% dos dados e é útil para detectar valores
discrepantes.
• Quanto maior a AI, maior a dispersão.
2.5 Amplitude interquartílica
• Considerando os dados de nº de pessoas residentes por domicilio:
1 2 2 2 3 3 3 3 4 4 4 4 4 5 5 5 5 6 6 6

• A amplitude interquartílica é:
𝐴𝐼 = 𝑄3 − 𝑄1
𝐴𝐼 = 5 − 3 = 2
• Temos que pelo menos 50% dos valores encontram-se no intervalo de
3 a 5. (No exemplo, exatamente 65%)!

Você também pode gostar