Você está na página 1de 16

Capítulo 4

Medidas de Dispersão

4.1 Introdução
O resumo de uma amostra de dados através de uma medida de posição, como por
exemplo, a média, não revela toda a informação sobre a variabilidade ou dispersão dessa
amostra de dados.
Como exemplo, considere as notas de três provas de estatística, de uma amostra de
três alunos matriculados na disciplina, dadas por:
- Aluno A: 8,5; 8,5; 8,5;
- Aluno B: 8,2; 8,4; 8,9;
- Aluno C: 7,6; 8,0; 9,9.
Calculando a média das notas para os três alunos, tem-se:
- Aluno A
8,5  8,5  8,5
xA   8,5 .
3
- Aluno B
8,2  8,4  8,9
xB   8,5 .
3
- Aluno C
7,6  8,0  9,9
xC   8,5 .
3
Como se observa os três alunos obtiveram a mesma média (8,5), sendo que o aluno
A obteve as três notas das provas iguais, já os alunos B e C tiveram notas diferentes nas
três provas, se dispersando mais.
As medidas de posição são medidas de tendência central, e não informam sobre a
variabilidade dos dados. Assim, faz-se necessário a utilização de uma medida que
sumarizem a variabilidade de um conjunto de dados, que permite, por exemplo, comparar
diferentes amostras de dados baseando-se em algum critério.
As medidas de dispersão, também conhecidas como medidas de variabilidade, são
medidas que indicam o grau de afastamento de uma amostra de dados ao redor de um valor
Estatística e Probabilidade 44

central, e são necessárias para junto com a média representar bem um amostra de dados.
A seguir são apresentadas as medidas de dispersão utilizadas para expressar a
dispersão ou variabilidade de uma amostra de dados.

4.2 Amplitude Total


Uma das formas mais simples de se medir a dispersão (variabilidade) de uma
amostra de dados é através da amplitude total (A).
Define-se amplitude total como sendo a diferença entre o maior e o menor valor
observado de uma amostra de dados. Para dados agrupados em uma Tabela de Distribuição
de Freqüências com intervalos de classes, a amplitude total é a diferença entre os pontos
médios da última e da primeira classe.
EXEMPLOS:
a) Para o exemplo das notas de três provas de estatística, de uma amostra de três
alunos matriculados na disciplina, tem-se:
- Aluno A
A = 8,5 – 8,5 = 0,0.
- Aluno B
A = 8,9 – 8,2 = 0,7.
- Aluno C
A = 9,9 – 7,6 = 2,3.

b) Considerando o exemplo dos dados da resistência à compressão de uma amostra de


50 corpos de prova de uma liga de alumínio-lítio, em psi
QUADRO 6 – Resistência à compressão de 50 corpos de prova de uma liga de alumínio-
lítio.
21,0 23,0 24,5 25,3 26,0 26,5 27,2 28,1 29,2 30,5
21,6 23,7 24,5 25,6 26,1 26,8 27,2 28,1 29,3 31,0
22,1 24,1 24,9 25,8 26,2 26,8 27,2 28,5 29,5 31,3
22,2 24,2 25,0 25,9 26,2 26,9 27,2 28,6 29,6 31,8
22,8 24,3 25,2 26,0 26,5 26,9 27,8 28,7 29,8 33,0

A = 33,0 – 21,0 = 12,0 psi.

Apesar de ser uma medida fácil de ser calculada a amplitude total não é muito
Capítulo 4 – Medidas de dispersão 45

utilizada para expressar a variabilidade de uma amostra de dados, pois considera apenas
dois dados, não considerando a totalidade dos dados da amostra. Assim faz-se necessário a
apresentação de outras medidas que possam expressar a variabilidade de uma amostra de
dados, que reflitam as diferenças de todos os dados da amostra. Neste caso surge a
variância e o desvio padrão, descritos a seguir.

4.3 Variância e Desvio Padrão


Outra medida de dispersão amplamente utilizada para medir a variabilidade de uma
amostra de dados é a variância. A variância mede a dispersão de uma amostra de dados em
relação à sua média, e indica o quanto, em média, os dados se desviam em relação à média.
A variância permite também comparar a variabilidade entre amostras de dados que
possuam a mesma média e a mesma unidade. Quanto menor for à variância menos variável
é a amostra de dados.

4.3.1 Dados Não Agrupados


No caso de uma população a variância é definida pela razão entre a soma de
quadrados dos desvios de cada dado em relação à sua média e o número total de dados,
dada por:

 (x
N

i - μ) 2
2  i 1
.
N
E no caso de uma amostra a variância é dada por:

 (x
n

i - x) 2
s2  i 1
.
n -1
Que também pode ser expressa por:

( x i ) 2
n

x
n
2
- i 1
n
i
s2  i 1
.
n -1

A variância é expressa na unidade dos dados ao quadrado (kg2, g2, cm2, m2, etc.).
Estatística e Probabilidade 46

EXEMPLOS:
a) Considerando o exemplo das notas de três provas de estatística, de uma amostra de
três alunos matriculados na disciplina, tem-se:
- Aluno A:
(8,5  8,5) 2  (8,5  8,5) 2  (8,5  8,5) 2 (0) 2  (0) 2  (0) 2
s  2

3 1 2
A

s 2A  0,0 .
Que também pode ser obtida por:

8,5  8,5  8,35  8,5


2
 8,52  8,52 
216,75  216,75
2

s 2A  
3 1 2
s 2A  0,0 .
- Aluno B:
(8,2  8,5) 2  (8,4  8,5) 2  (8,9  8,5)2 (0,3) 2  (0,1) 2  (0,4) 2
s 2B  
3 1 2
s 2B  0,13 .
Que também pode ser obtida por:

8,2  8,2  8,34  8,9


2
 8,42  8,92 
217,01  216,75
2

s 2B  
3 1 2
s 2B  0,13 .
- Aluno C:
(7,6  8,5) 2  (8,0  8,5) 2  (9,9  8,5) 2 (0,9) 2  (0,5) 2  (1,4) 2
s C2  
3 1 2
s C2  1,51 .

Que também pode ser obtida por:

7,6  7,6  8,30  9,9


2
 8,02  9,92 
219,77  216,75
2

s C2  
3 1 2
s C2  1,51 .

Observa-se que o aluno C tem variância maior que os alunos A e B, indicando que
seus dados dispersam mais em torno da média.
Capítulo 4 – Medidas de dispersão 47

b) Considerando os dados da resistência à compressão de uma amostra de 50 corpos


de prova de uma liga de alumínio-lítio, em psi (QUADRO 6), tem-se que a
variância é dada por:

21,0 2
 21,6  22,1    31,3  31,8
2 2 2 2
 33,0  
2 21,0  21,6  22,1    31,3  31,8  33,0
2

s2  50
50  1

35745,1 
1330,2 
2

s2  50
49
s2 = 7,2747 (psi)2.

Sendo a variância uma medida expressa na unidade dos dados ao quadrado, isto
pode trazer problemas do ponto de vista de interpretação. Logo, faz-se necessário o uso de
outra medida que retorne os dados para sua unidade original. Assim tem-se o desvio
padrão que é a raiz quadrada positiva da variância.
No caso de uma população o desvio padrão é dado por:

σ  σ2 .
E no caso de uma amostra dado por:

s  s2 .
EXEMPLOS:
a) No exemplo das notas de três provas de estatística, de uma amostra de três alunos
matriculados na disciplina, tem-se:
- Aluno A :
s A  0,0  0,0 .
- Aluno B:
s B  0,13  0,36 .
- Aluno C:
s C  1,51  1,23 .

b) Para o exemplo dos dados da resistência à compressão de uma amostra de 50


corpos de prova de uma liga de alumínio-lítio, em psi (QUADRO 6), tem-se:
Estatística e Probabilidade 48

s  7,2747  2,6972 psi .

4.3.2 Dados Agrupados


Se os dados estiverem agrupados em uma Tabela de Distribuição de Freqüências
com intervalos de classes a variância é dada pela expressão:
2
k 
  Fi X i 
2  i 1 
k
 Fi X i  k
i 1
 Fi
s2  i 1 .
k
 Fi  1
i 1

Em que:
- Fi é a freqüência da classe i;
- Xi é o ponto médio da classe i.

EXEMPLO:
Considerando o exemplo da resistência à compressão de uma amostra de 50 corpos
de prova de uma liga de alumínio-lítio, em psi, têm-se a seguinte Tabela de Distribuição de
Freqüências abaixo.
TABELA 4 – Resistência à compressão, em psi, de 50 corpos de prova de uma liga de
alumínio-lítio. UFSJ, Ouro Branco, MG, 2009.
Classes Xi Fi
[20,0 ; 22,0) 21,0 2
[22,0 ; 24,0) 23,0 5
[24,0 ; 26,0) 25,0 12
[26,0 ; 28,0) 27,0 16
[28,0 ; 30,0) 29,0 10
[30,0 ; 32,0) 31,0 4
[32,0 ; 34,0) 33,0 1
Total 50
Fonte: Dados fictícios.
Capítulo 4 – Medidas de dispersão 49

Pode-se, alternativamente, acrescentar mais duas colunas na tabela referentes à


Fi X i e Fi X i2 , para facilitar os cálculos.
Assim, tem-se:
TABELA 4 – Resistência à compressão, em psi, de 50 corpos de prova de uma liga de
alumínio-lítio. UFSJ, Ouro Branco, MG, 2009.
Classes Xi Fi FiXi Fi X i2
[20,0 ; 22,0) 21,0 2 42,0 882,0
[22,0 ; 24,0) 23,0 5 115,0 2.645,0
[24,0 ; 26,0) 25,0 12 300,0 7.500,0
[26,0 ; 28,0) 27,0 16 432,0 11.664,0
[28,0 ; 30,0) 29,0 10 290,0 8.410,0
[30,0 ; 32,0) 31,0 4 124,0 3.844,0
[32,0 ; 34,0) 33,0 1 33,0 1.089,0
Total 50 1.336,0 36.034,0
Fonte: Dados fictícios.
2
 k 
  Fi X i 
2  i 1 
k
 Fi X i  k
i 1
 Fi (1.336,0) 2
36.034,0 
s2  i 1  50
k 50  1
 Fi  1
i 1

s2 = 6,86 (psi)2.
O desvio padrão é:

s  s 2  6,86

s = 2,62 psi.
A diferença deste valor em relação ao desvio padrão calculado com os dados não
agrupados (2,6972 psi) se deve ao erro de agrupamento.

4.3.3 Propriedades
A variância e o desvio padrão apresentam as seguintes propriedades:
i) Somando-se ou subtraindo-se um mesmo valor a cada dado da amostra, a variância
e o desvio padrão não se alteram.
Estatística e Probabilidade 50

EXEMPLO:
Sejam as notas do aluno B, dada por:
8,2; 8,4; 8,9.
A variância e o desvio padrão são dados por:
s 2B  0,13 e s B  0,36 .
Somando 0,4 a cada dado, tem-se:
8,6; 8,8; 9,3.
Logo,

8,6  8,6  8,83  9,3


2
 8,82  9,32 
237,89  237,63
2

s 2B'   ;
3 1 2
s 2B'  0,13 .

s B'  0,13  0,36 .


Como se observa, a variância e o desvio padrão não se alteraram.

ii) Multiplicando-se ou dividindo-se cada dado da amostra por um mesmo valor


diferente de zero, a variância fica multiplicada ou dividida por este valor ao
quadrado, e o desvio padrão fica multiplicado ou dividido por este valor.

EXEMPLO:
Sejam as notas do aluno B, dada por:
8,2; 8,4; 8,9.
A variância e o desvio padrão são dados por:
s 2B  0,13 e s B  0,36 .
Multiplicando todos os dados por 2, tem-se:
16,4; 16,8; 17,8.
Logo,

16,4  16,4  16,83  17,8


2
 16,82  17,8 
868,04  867,00
2

s 2B'  
3 1 2
s 2B'  0,52 .

s B'  0,52  0,72 .


Capítulo 4 – Medidas de dispersão 51

Assim,

s 2B'  2 2 (0,13) e s B'  2(0,36) .

4.4 Coeficiente de Variação


O coeficiente de variação é uma medida de dispersão relativa que expressa o desvio
padrão em termos da média de forma percentual.
Para uma amostra de dados o coeficiente de variação é dados por:
100 s
cv  .
x
O coeficiente de variação é usado para comparar a variabilidade de duas ou mais
amostras de dados que possuam diferentes unidades e/ou diferentes médias.

EXEMPLOS:
a) Para o exemplo dos dados da resistência à compressão de uma amostra de 50
corpos de prova de uma liga de alumínio-lítio, em psi, tem-se:
100(2,6972)
cv   10,14% .
26,6

b) Sejam as notas finais (média geral e desvio padrão) das disciplinas de estatística e
cálculo dos alunos da UFSJ, dadas por:
x  8,5;
Estatística 
s  1,9.
x  6,2;
Cálculo 
s  3,3.
Tem-se que:
100(1,9)
cv Estatística   22,35% ;
8,5
100(3,3)
cvCálculo   53,23% .
6,2
Logo as notas de cálculo variaram mais que as notas de estatística, pois apresentou
um maior cv.
Estatística e Probabilidade 52

c) Têm-se abaixo informações climáticas mensais de uma determinada região.


Medida Média Desvio padrão
Temperatura (º C) 22 2,0
Precipitação (mm) 100 15,5

Qual das medidas, temperatura ou precipitação, possui maior variabilidade?


Tem-se que:
100(2,0)
cvTemperatura   9,09% ;
22
100(15,5)
cv Precipitação   15,50% .
100
Logo nesta região a precipitação possui uma maior variabilidade que a temperatura,
pois apresentou um maior cv.
As conclusões sobre a magnitude da variabilidade (alta ou baixa) de apenas uma
amostra de dados dependem exclusivamente da experiência do pesquisador que trabalha
com os dados.

4.5 Erro Padrão da Média


O erro padrão da média é uma medida que dá uma idéia da precisão com que a
média populacional foi estimada, e é obtido por:
s
s(x)  .
n
Em que:
- s é o desvio padrão da amostra;
- n é o tamanho da amostra.

EXEMPLO:
Seja o exemplo dos dados da resistência à compressão de uma amostra de 50 corpos
de prova de uma liga de alumínio-lítio, em psi, onde se obteve:
x  26,6 psi;

s  2,6972 psi.
Logo o erro padrão da média é dado por:
Capítulo 4 – Medidas de dispersão 53

s 2,6972
s(x)    0,38 psi .
n 50
Este resultado quer dizer que a média populacional foi estimada com um erro de
0,38 psi.
Tem-se de modo geral que quanto menor for o erro padrão da média mais precisa
será a estimativa da média populacional ().
O erro padrão da média é diretamente proporcional ao desvio padrão da amostra, ou
seja:
> s  > s(x) ;

< s  < s(x) .


O erro padrão da média é inversamente proporcional ao tamanho da amostra, isto é:
> n  < s(x) ;

< n  > s(x) .

4.6 Medidas de Assimetria e de Curtose


Foi visto no capítulo 2 que a forma do polígono de freqüências permite classificar a
distribuição de freqüências quanto à simetria. Viu-se também que as medidas de posição e
dispersão fornecem importantes informações sobre o comportamento de uma amostra de
dados. É possível ainda fornecer outras informações estatísticas adicionais de maneira a
completar o diagnóstico de uma amostra de dados. Assim surgem os coeficientes de
assimetria e curtose, descritos a seguir.

4.6.1 Coeficiente de Assimetria


As medidas de dispersão conseguem captar o desvio em torno de um valor central,
mas não conseguem transmitir a idéia do formato deste desvio. Assim surge o conceito de
simetria, que é o comportamento de uma curva a ambos os lados de um eixo de simetria.
O coeficiente de assimetria mede o grau de desvio de uma curva no sentido
horizontal, ou seja, quantifica o distanciamento de uma amostra de dados em relação à
simetria, e é dado por:
Estatística e Probabilidade 54

 (x
n

i  x)3
a3  i 1
.
n s3
O valor de a3 pode ser:
- Positivo: sendo a assimetria à direita;
- Negativo: sendo a assimetria à esquerda;
- Zero: apresentando uma simetria perfeita.

EXEMPLO:
Considerando os dados da resistência à compressão de uma amostra de 50 corpos
de prova de uma liga de alumínio-lítio, em psi, cujos dados são os seguintes:
QUADRO 6 – Resistência à compressão de 50 corpos de prova de uma liga de alumínio-
lítio.
21,0 23,0 24,5 25,3 26,0 26,5 27,2 28,1 29,2 30,5
21,6 23,7 24,5 25,6 26,1 26,8 27,2 28,1 29,3 31,0
22,1 24,1 24,9 25,8 26,2 26,8 27,2 28,5 29,5 31,3
22,2 24,2 25,0 25,9 26,2 26,9 27,2 28,6 29,6 31,8
22,8 24,3 25,2 26,0 26,5 26,9 27,8 28,7 29,8 33,0

Tem-se que a média e o desvio padrão desta amostra de dados são: 26,6 psi e
2,6972 psi, respectivamente, e assim, o coeficiente de assimetria é dado por:
(21,0  26,6)3  (21,6  26,6)3  (22,1  26,6)3    (31,8  26,6)3  (33,0  26,6)3
a3 
50(2,6972)3
126,5540
a3   0,1290 .
981,0914
Este valor indica uma leve assimetria à direita.

4.6.2 Coeficiente de Curtose


O conceito de curtose busca identificar se a curva que representa uma distribuição
de freqüências apresenta uma forma achatada ou alongada.
O coeficiente de curtose mede o grau de achatamento de uma curva tendo a curva
normal como referência e é dado por:
Capítulo 4 – Medidas de dispersão 55

 (x
n

i  x) 4
a4  i 1
.
n s4
O valor de a4 pode ser:
- Maior que 3:
Onde a curva apresenta um pico elevado, chamada de leptocúrtica, apresentando
um formato semelhante ao da figura abaixo.

FIGURA 8 – Distribuição leptocúrtica.

- Menor que 3:
Sendo a curva achatada, semelhante a Figura 9, denominada de platicúrtica.

FIGURA 9 – Distribuição platicúrtica.

- Igual a 3:
Apresentado uma curva intermediária, chamada de mesocúrtica, com um formato
parecido com a Figura 10.
Estatística e Probabilidade 56

FIGURA 10 – Distribuição mesocúrtica.

EXEMPLO:
Considerando os dados da resistência à compressão de uma amostra de 50 corpos
de prova de uma liga de alumínio-lítio (QUADRO 6), em psi, tem-se:
(21,0  26,6) 4  (21,6  26,6) 4  (22,1  26,6) 4    (31,8  26,6) 4  (33,0  26,6) 4
a4 
50(2,6972) 4
6.922,9210
a4   2,6162 .
2.646,1997
Indicando uma curva com um formato aproximadamente mesocúrtica.

4.7 Box-Plots
As informações representadas pelo esquema dos cinco números, vistos no capítulo
3, podem ser representadas graficamente num diagrama chamado de Box-Plot.

O Box-Plot é um gráfico que tem por objetivo apresentar várias informações sobre
o comportamento de uma amostra de dados, tais como: posição, dispersão, simetria e dados
discrepantes.

Neste tipo de gráfico considera-se um retângulo em que a mediana (2o Quartil) é


representada pela parte central do retângulo, e os quartis inferior (1o Quartil) e superior (3o
Quartil) pelas linhas inferiores e superiores que delimitam o retângulo, respectivamente,
conforme a Figura 11. A posição da mediana, central ou mais próxima a um dos quartis,
indica a presença ou não de assimetria nos dados. A dispersão dos dados é dada por:

dq = q(0,75) – q(0,25).
Capítulo 4 – Medidas de dispersão 57

A partir da linha superior do retângulo segue uma linha vertical para cima, que não
exceda o limite superior, dado por:

LS = q(0,75) + (1,5)dq.

E a partir da linha inferior do retângulo segue uma linha vertical para baixo, que
não exceda o limite inferior, dado por:

LI = q(0,25) – (1,5)dq.

Os dados que estiverem compreendidos entre esses dois limites, são chamados de
valores adjacentes. As observações que estiverem fora desses limites (superior ou inferior)
serão chamadas de dados discrepantes e representadas por asteriscos (*).

Dados discrepantes
*

Limite superior

3o Quartil – q(0,75)

2o Quartil – q(0,50)
(Mediana)
1o Quartil – q(0,25)

Limite inferior

* Dados discrepantes

FIGURA 11 – Gráfico de Box-Plot.

EXEMPLO:
Considerando os dados da resistência à compressão de uma amostra de 50 corpos
de prova de uma liga de alumínio-lítio, em psi, tem-se o seguinte gráfico de Box-Plot
abaixo.
Estatística e Probabilidade 58

35
34
33
32
31
Resistência à compressão (psi)

30
29
28
27
26
25
24
23
22
21
20

FIGURA 12 – Resistência à compressão de 50 corpos de prova de uma liga de alumínio-


lítio, em psi. UFSJ, Ouro Branco, MG, 2009.

Observa-se pelo gráfico de Box-Plot acima que a distribuição é aproximadamente


simétrica e que os dados não apresentam valores discrepantes.

Você também pode gostar