Você está na página 1de 10

UNIVERSIDADE EDUARDO MONDLANE

Faculdade de Ciências
Departamento de Matemática e informática

Estatistica Básica - 1ºano

Tema 4: Resumo Numérico de Dados Ano de 2018 Ficha de Leitura 5

4.2 Medidas de dispersão ou de variabilidade

Vimos nas aulas anteriores que um conjunto de valores pode ser convenientemente sintetizado ou resumido, por meio
de procedimentos matemáticos, em poucos valores representativos – média, mediana e moda. Tais valores podem
servir de comparação para dar a posição de qualquer elemento do conjunto.

Por vezes não é suficiente usar apenas uma das medidas de posição para caracterizar perfeitamente um conjunto de
valores, pois, mesmo sabendo, por exemplo, que a temperatura média de duas cidades é a mesma, e igual a 24ºC,
ainda assim somos levados a pensar a respeito do clima dessas cidades. Em uma delas a temperatura poderá variar
entre limites de muito calor e de muito frio e, haver, ainda, uma temperatura média de 24ºC. A outra poderá ter uma
variação pequena de temperatura, mas mantendo uma média de 24ºC.

Vemos, então, que a média ainda que considerada como um número que tem a faculdade de representar uma série
de valores, não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os
valores que compõem um conjunto.

Consideremos os seguintes conjuntos de valores das variáveis X, Y e Z:

X: 70, 70, 70, 70, 70 Y: 68, 69, 70, 71, 72 Z: 5, 15, 50, 120, 160

Calculando a média aritmética de cada um desses conjuntos, obtemos:

x 
x i

350
 70 y 
y i

350
 70 z 
z i

350
 70
n 5 n 5 n 5

Vemos, então, que os três conjuntos apresentam a mesma média aritmética de 70. Entretanto, é fácil notar que o
conjunto X é mais homogêneo que os conjuntos Y e Z, já que todos os valores são iguais a média. O conjunto Y, por
sua vez, é mais homogêneo que o conjunto Z, pois há menor diversificação entre cada um de seus valores e a média
é representativa.

Chamamos de dispersão ou de variabilidade a maior ou menor diversificação dos valores de uma variável em torno de
um valor de tendência central, tomado como ponto de comparação. Assim podemos dizer que o conjunto X apresenta
dispersão ou variabilidade nula e que o conjunto Y apresenta uma distribuição ou variabilidade menor que o conjunto
Z.

Portanto, para qualificar os valores de uma dada variável, ressaltando a maior ou menor dispersão ou variabilidade
entre esses valores e a sua medida de posição, a Estatística recorre às medidas de dispersão ou de variabilidade.
Dessas medidas, serão descritas a amplitude total, o desvio-padrão, variância, coeficiente de variação e o erro padrão.

1
I) Medida de Dispersão Absoluta:

- Amplitude total;

- Desvio médio;

- Variância e desvio-padrão.

II) Medidas de Dispersão relativa:

- Coeficiente de variação de Pearson

Amplitude Total

A amplitude total de um conjunto de dados é a diferença entre o maior e o menor valor deste conjunto. Para calculá-la,
basta subtrair o menor valor do maior.
At  xmáx  xmín
Quanto maior a amplitude total de um conjunto de dados, maior é a dispersão ou variabilidade dos valores. A
amplitude total observada nos dados de Y é: At = 72 – 68 = 4

Se os dados vierem dispostos em uma tabela de freqüências, com os valores agrupados em classes, há duas formas
de se definir a amplitude total:

Primeiro Método: At = Ponto médio da última classe - ponto médio da primeira classe.

Segundo Método: At = Limite superior da última classe - limite inferior da primeira classe.

Exemplo 1: Calcular a amplitude total dos valores dispostos na tabela abaixo.

Tabela 1 - Consumo de água (m3)

Classes fj Xj
10 ├ 20 5 15
20 ├ 30 12 25
30 ├ 40 20 35
40 ├ 50 14 45
50 ├ 60 10 55
60 ├ 70 4 65
n = 65

Pelo primeiro método: At = 65 - 15 = 50  At = 50

Nesse método, os valores extremos são eliminados.

Pelo segundo método: At = 70 - 10 = 60  At = 60

Restrições ao uso da Amplitude Total

2
Embora a amplitude total seja a mais simples das medidas de dispersão, há uma forte restrição ao seu uso em virtude
de sua grande instabilidade, uma vez que ela leva em conta apenas os valores extremos da série. Comparemos os
conjuntos A e B do exemplo 1:

Tabela 2
Conjunto Média Amplitude Total: A t
A = {10, 12, 13, 15, 20, 25, 45} x = 20 AT A = 35
B = {17, 18, 19, 20, 21, 22, 23} x = 20 AT B = 6

A média aritmética de cada um desses conjuntos é igual a 20. Portanto, no que diz respeito a uma medida de posição,
ambos os conjuntos podem ser considerados idênticos. Ao calcularmos a amplitude total, verificaremos que os valores
do conjunto A apresentam maior dispersão. Todavia, no cálculo da amplitude total não são levados em consideração
os valores da série que se encontram entre os extremos, o que poderia conduzir o analista a interpretações
equivocadas. Muitas vezes, um valor particularmente anormal poderá afetar de maneira acentuada a medida. O
conjunto A, por exemplo, apresenta o último valor (45) sensivelmente distante do penúltimo (25), facto que talvez
tenha provocado uma amplitude total de tal magnitude (35).

Além da insensibilidade aos valores entre os extremos anormais, a amplitude total é sensível ao tamanho de amostra.
Ao aumentar essa última, a amplitude total tende a aumentar, ainda que não proporcionalmente. Finalmente, a
amplitude total apresenta muita variação de uma amostra para outra, mesmo que ambas sejam extraídas da mesma
população.

Apesar dos inconvenientes dessa medida, os quais não justificam, na maioria das vezes, seu uso, há situações
especiais em que ela resulta satisfatória. É o caso, por exemplo, da amplitude da temperatura em um dia ou no ano.
Outra situação seria aquela em que os dados são raros ou demasiadamente esparsos para justificar o emprego de
uma medida mais precisa.

É importante acrescentar que, ao descrever uma série por uma medida de tendência central (média, por exemplo) e de
dispersão, se essa última for a amplitude total, é recomendável que se indiquem os valores extremos da série.

Variância

Vimos que a Amplitude total é uma medida que se deixa influenciar pelos valores extremos, que em grande maioria
são devidos ao acaso.

A variância é uma medida que leva em consideração valores extremos e os valores intermédios, isto é, expressa
melhor os resultados obtidos. A variância relaciona os desvios em torno da média, ou mais exactamente, é a média
aritmética dos quadrados dos desvios.

Quanto menor é a variância, mais próximos os valores estão da média; mas quanto maior ela é, mais os valores estão
distantes da média.

A variância amostral é definida como:

 x  x  x  x  fi
2 2

 
i i
Dados não agrupados: s 2
ou s 2
, para dados agrupados.
n 1 n 1

A variância populacional é:
xi   2
2  
N

3
Observação: É mais comum na estatística trabalhar com amostra e não com a população. Neste caso o denominador
do cálculo da variância amostral passa a ser (n - 1) em vez de n, pois assim teremos uma melhoria na estimativa do
parâmetro da população. Para a população x é substituído por  e n -1 por N.

Para valores grandes de n (n > 30) não há grande diferença entre os resultados proporcionados pela utilização de
qualquer dos dois divisores, n ou n - 1. Entretanto, daremos preferência para a fórmula que proporciona uma
estimativa mais justa da variância da população.

 x i  x 
2
A variância também é denominada de segundo momento, sendo: m 2 
n

Em geral, a finalidade do cálculo de uma estatística amostral (como a média, o desvio-padrão ou a variância) é estimar
o parâmetro populacional correspondente. Se extrairmos muitas amostras de uma população que tem média  , e
calcularmos as médias amostrais x e se tomarmos as médias de todas as estimativas de , veremos que essa
média fica muito próxima de . Entretanto, se calculássemos a variância de cada amostra pela fórmula:
 x  x 
2

s 2

n

e tomássemos a média de todas essas supostas estimativas de 2, provavelmente obteríamos uma média inferior a
2. Teoricamente, mostra-se que podemos compensar essa desvantagem dividindo por n-1 em vez de n na fórmula de
s2. Isto é:
 x  x 
2

s 2

n 1

Desvio-Padrão

A amplitude total é uma medida instável, pois se deixa influenciar pelos valores extremos, que são, na sua maioria,
devidos ao acaso. O desvio-padrão e a variância são medidas que fogem dessa falha, pois levam em consideração a
totalidade dos valores da variável em estudo, o que faz delas índices de variabilidade bastante estáveis e, por isso,
são os mais geralmente empregados.

O desvio padrão é uma das mais utilizadas medidas de variação de um grupo de dados. A vantagem que apresenta
sobre a variância é de permitir uma interpretação directa da variação do conjunto de dados, pois o desvio padrão é
expresso na mesma unidade de medida da variável em estudo (Kg, cm, atm...).

Assim, pode-se definir o desvio-padrão como uma medida da magnitude do espalhamento ou dispersão dos dados
em relação à média da série estatística.

A expressão para o cálculo do desvio-padrão amostral (s) é:

 x  x  x  x  fi
2 2

Dados não agrupados: s  s


i i
ou para dados agrupados
n 1 n 1

Onde:
xi é cada elemento do conjunto de dados,
x é a média do conjunto e
n é o número total de elementos deste.
se os valores vierem agrupados em classes, xi corresponde ao ponto médio da classe,
O desvio-padrão populacional () é dado pela expressão:

4
 x  
2


i

Onde:
xi é cada elemento da população,
 e N são, respectivamente, a média e o número total de elementos da população.

Uma regra que auxilia na interpretação do valor de um desvio-padrão é a regra empírica, aplicável somente a
conjuntos de dados aproximadamente em forma de sino (curva normal), conforme o gráfico a seguir. Esse gráfico
mostra como a média e o desvio-padrão estão relacionados com a proporção dos dados que se enquadram em
determinados limites. Assim é que, com uma distribuição em forma de sino, temos 95% dos seus valores a menos de
dois desvios-padrão da média. A regra empírica costuma ser designada abreviadamente como a regra 68-95-99.

A regra 68-95-99 diz que:

a) cerca de 68% dos valores estão a menos de 1 desvio-padrão a contar da média;


b) cerca de 95% dos valores estão a menos de 2 desvios-padrão a contar da média;
c) cerca de 99,7% dos valores estão a menos de 3 desvios-padrão a contar da média.

Gráfico: Relação entre o desvio-padrão e a curva normal.

Coeficiente de Variação de Pearson (CV)

O desvio-padrão por si só não revela muita coisa. Assim, um desvio padrão pode ser considerado pequeno para uma
média e para outra é extremamente grande. Por exemplo, um desvio-padrão de 40 pode ser considerado pequeno
para uma média de 350, entretanto, se a média for 4, este se torna muito grande.

Quando precisamos comparar duas ou mais séries de valores quanto à sua dispersão e variabilidade e esses
conjuntos estão expressos em grandezas diferentes é preciso dispor de outra medida. Para contornar essas
dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados de maneira relativa ao seu
valor médio. Essa medida que mede o grau de concentração dos valores em torno da média é denominada de
Coeficiente de Variação.

É uma medida de dispersão relativa empregada para estimar a precisão de experimentos e representa o desvio-
padrão expresso como percentagem da média. Sua principal qualidade é a capacidade de comparação de
5
distribuições diferentes. portanto, o coeficiente de variação pode ser útil para se comparar a variabilidade de diferentes
conjuntos de dados em duas situações:

a) Médias muito diferentes, mas provenientes de uma mesma variável


b) Comparar a homogeneidade de variáveis diferentes.

desvio padrão s
Coeficiente de variação  x 100  CV  x 100
média x

O uso do coeficiente de variação é usualmente recomendado para variáveis quantitativas do tipo razão (na qual exista
um zero absoluto), tais como altura, peso e velocidade. Se a variável não é do tipo razão (ex: temperatura em graus
Célsius), o coeficiente de variação poderá assumir valores negativos (ex: caso a média seja negativa) e sua
interpretação dependerá do ponto de referência (ponto considerado como "0" na escala), levando a interpretações
equivocadas e relativas.

O coeficiente de variação pode ser interpretado da seguinte forma:

CV  20 % : trata-se de amostra homogênea

CV > 20% : trata-se de amostra heterogênea.

Por outro lado, alguns autores propõem o seguinte:

CV  15 % : trata-se de uma dispersão fraca

15% < CV  30 % : trata-se de uma dispersão moderada

CV > 30% : trata-se de uma dispersão alta

Em todo caso, quanto maior o valor do coeficiente de variação, maior é a dispersão dos valores do conjunto e quanto
menor o valor do coeficiente de variação, mais homogêneo é o conjunto.

Exemplo 2: Imagine dois grupos de pessoas. No primeiro grupo, as pessoas têm idades 3, 1 e 5 anos e no segundo
grupo as pessoas tem idades 55, 57 e 53 anos.

No primeiro grupo a média de idade é de 3 anos e, no segundo grupo, a média de idade é de 55 anos. Em ambos os
casos o desvio padrão é de dois. Mas as diferenças de dois anos são muito mais importantes no primeiro grupo, que
tem médias três, do que no segundo grupo, que tem média 55. Agora veja esse argumento explicado por meio do
coeficiente de variação.

2
No primeiro grupo o coeficiente de variação é: CV =  100  66,67%
3

2
No segundo grupo o coeficiente de variação é: CV =  100  3,64%
55

Um coeficiente de variação igual a 66, 67% no primeiro grupo indica que a dispersão dos dados em relação á media é
muito grande, ou seja, a dispersão relativa é alta. E o coeficiente de variação igual a 3,64% no segundo grupo grupo
indica que a dispersão dos dados é pequena em relação a média.

Exemplo 3: Considere os dados da tabela abaixo e determine: amplitude total, variância, desvio padrão e coeficiente
de variação.

6
xi fi xi f i xi  x xi  x 2 xi  x 2 f i
17 3 51 -1,84 3,3856 10,1568
18 18 324 -0,84 0,7056 12,7008
19 17 323 0,16 0,0256 0,4352
20 8 160 1,16 1,3456 10,7648
21 4 84 2,16 4,6656 18,6624
Σ 50 942 52,72

x
x i  fi

942
 18,84 At  xmáx  xmín  21  17  4
n 50

 x  x  fi  x  x  fi
2 2
52,72 52,72
   1,0759 s   1,0759  1,04
2 i i
s
n 1 50  1 n 1 49
s 1,04
CV   100   100  5,52%
x 18,84
Desvio padrão em tabelas com Intervalos de Classe

Quando tivermos que calcular o desvio padrão para tabelas de dados com intervalos de classes usaremos as mesmas
fórmulas para dados sem intervalos de classes, utilizando para xi os pontos médios de cada classe, seguindo com os
mesmos procedimentos.

Exemplo 4: Com dados da tabela a seguir, calcule o desvio-padrão da distribuição de frequências do consumo de
energia elétrica (Kwh)

Tabela: Distribuição de freqüências do consumo de energia elétrica


Número de xi xi f i ( xi  79,5) ( xi  79,5) 2 ( x i 79,5) 2 f i
Consumo usuários f i
5 ├ 25 4 15 60 - 64,5 4160,25 16641,0
25├ 45 6 35 210 - 44,5 1980,25 11881,5
45├ 65 14 55 770 - 24,5 600,25 8403,5
65├ 85 26 75 1950 - 4,5 20,25 526,5
85 ├ 105 14 95 1330 15,5 240,25 3363,5
105├ 125 8 115 920 35,5 1260,25 10082,0
125├ 145 6 135 810 55,5 3080,25 18481,5
145├ 165 2 155 310 75,5 5700,25 11400,5
 6360 80780

A média aritmética do consumo é:

x
x i fi

6360
 79,5 Kwh
n 80

O desvio-padrão é:

 x   x  79,5 f j
k 8
2
x
2
j fj j
j 1 j 1 80780
S    1022,53  S  31,98 Kwh
n 1 80  1 79

7
Exemplo 5: Na Empresa XYZ, o salário médio dos homens é de 1500 u.m. com desvio-padrão de 650 u.m. e o salário
médio das mulheres é de 1200 u.m. com desvio padrão de 580 u.m.. A dispersão relativa dos salários é maior para os
homens?

Solução:
Homens: x H  1500 e SH  650
Mulheres xM  1200 e SM  580
SH 650
Para os homens: C.V .   100   43,3%
xH 1500
SM 580
Para as mulheres: C.V .   100   48,3%
xM 1200

Os salários das mulheres têm dispersão relativa maior que a dos salários dos homens. As duas distribuições
apresentam alta dispersão (C.V. > 30%).

___________________________________________________________________________________________

FICHA # 5: Medidas de Dispersão


___________________________________________________________________________________________

1. A variância do conjunto de dados tabelados abaixo será:

Classes 3-8 8 -13 13 - 18 18 - 23


fi 5 15 20 10

a) ( ) 1,36 b) ( ) 18,35 c) ( ) 4,54 d) ( ) 20,66

2. As notas finais de estatística para alunos de um determinado curso foram as seguintes:

7, 5, 4, 5, 6, 3, 8, 4, 5, 4, 6, 4, 5, 6, 4, 6, 6, 3, 8, 4, 5, 4, 5, 5 e 6.

a) Determine a mediana, a média e o desvio padrão.


b) Multiplique cada um dos dados por 3 e determine as novas medidas que foram pedidas na
alínea a).
c) Some a cada um dos dados o valor 2 e determine as novas medidas que foram pedidas na
alínea a).
d) Separe o conjunto de dados original em dois grupos denominados “aprovados” com nota pelo
menos igual a 5, e “reprovados” para os demais. Compare a variância desses dois grupos

3. O quadro seguinte representa as alturas (em cm) de 40 alunos de uma classe.

Classes 148 - 153 153 – 158 158 – 163 163 –168 168 – 173 173 -178 Total
fi 2 6 12 12 6 2 40

Determine:
a) A amplitude total;
b) A variância e o desvio- padrão.
c) O coeficiente de variação

8
4. Numa empresa o salário médio dos homens é de 4000 Mt com um desvio-padrão de 1500 Mt, e o das
mulheres é em média 3000 Mt com desvi- padrão de 1200 Mt. Qual dos sexos apresenta maior dispersão.
a) ( ) as mulheres b) ( ) os homens c) ( ) homens e mulheres d) ( ) nenhuma das anteriores

5. Dois grupos diferentes de uma turma do Curso de Administração e Gestão fazem o mesmo teste-surpresa,
com as notas relacionadas a seguir.

Grupo 1 : 1 20 20 20 20 20 20 20 20 20 20
Grupo 2 : 2 3 4 5 6 14 15 16 17 18 19

a) Encontre a amplitude total e o desvio padrão para cada grupo.


b) Que conclusões sobre a variação nos dois grupos os valores da amplitude total sugerem?
c) Por que a amplitude total é enganosa neste caso?
d) Que conclusões sobre a variação nos dois grupos o desvio padrão sugere?

6. Suponha que você é um administrador, e deve comprar lâmpadas para um hospital. Escolheria as lâmpadas
AAA, que têm vida média de 3000 horas e desvio padrão de 200 horas, ou as lâmpadas BBB, com vida
média de 3000 horas e desvio padrão de 250 horas ? Explique.

7. Para comparar a precisão de dois micrômetros, um técnico estuda medidas tomadas com ambos os
aparelhos. Com um, mediu repetidamente o diâmetro de uma pequena esfera de rolamento; as medições
acusaram média de 5,32 mm e desvio-padrão de 0,019 mm. Com o outro, mediu o comprimento natural de
uma mola, tendo as medições acusado média de 6,4 cm e desvio-padrão de 0,03 cm. Supondo que o
verdadeiro valor do diâmetro da esfera seja de 5,32 mm e do comprimento da mola seja de 6,4 cm, qual dos
dois aparelhos é relativamente mais preciso ?

8. Considere os dados abaixo oriundos de uma amostra e complete as tabelas:


a)
i Xi fi xi . fi ( xi  x) 2 ( xi  x)2  fi
1 2 1
2 3 7
3 4 2
4 5 2
Total
b)
i Nº Acid p/Dia Nº Dias xi . fi ( xi  x) 2 ( xi  x)2  fi
1 0 30
2 1 5
3 2 3
4 3 1
5 4 1
Total

c)
i Salários em u.m. Nº Func. xi xi . fi ( xi  x) 2 ( xi  x)2  fi
1 1.000 1.200 2
2 1.200 1.400 6
3 1.400 1.600 10
4 1.600 1.800 5
5 1.800 2.000 2
Total

9
d)
i Valor da Venda em u.m. Nº de N. F. xi xi . fi ( xi  x) 2 ( xi  x)2  fi
1 0 |--- 50 10
2 50 |--- 100 28
3 100 |--- 150 12
4 150 |--- 200 2
5 200 |--- 250 1
6 250 |--- 300 1
Total

9. Calcule a amplitude total, o desvio-padrão e o coeficiente de variação das séries abaixo. Coloque-as em
ordem crescente de dispersão:
A: 8 10 7 9 3 15 12 10
B: 3 8 16 7 6 3 9 18
C: 15 2 8 14 1 2 23 20

10. Um fabricante de caixas de cartolina fabrica 3 tipos de caixas. Testa-se a resistência de cada caixa, tomando-se
uma amostra de 100 caixas e determinando-se a pressão necessária para romper cada caixa. São os seguintes
os resultados dos testes:

Tipos de caixa A B C
Pressão média de ruptura 150 200 300
Desvio padrão das pressões 40 50 60

a) Que tipo de caixa apresenta a maior variação absoluta na pressão de ruptura?


b) Que tipo de caixa apresenta a maior variação relativa na pressão de ruptura?

11. Cronometrando o tempo para várias provas de uma gincana automobilística, encontramos:

Equipe 1: 40 provas Equipe 2: Tempo (X): 20 40 50 80


Tempo médio: 45 segundos N° de provas (fi): 10 15 30 5
Variância: 400 segundos ao quadrado

a) Qual o coeficiente de variação relativo à equipe 1?


b) Qual a média da equipe 2?
c) Qual o desvio padrão relativa à equipe 2?
d) Qual equipe tem resultados mais homogêneos?

12. Uma empresa tem duas filiais praticamente idênticas quanto às suas características funcionais. Um
levantamento sobre os salários (em u.m.) dos empregados dessas filiais resultou nos seguintes valores:
Filial A: XA= 400 e σA = 20
Filial B: XB = 500 e σB = 25
Podemos afirmar que as duas filiais apresentam a mesma dispersão?

13. Um grupo de 85 moças tem estatura média de 160,6 cm, com um desvio padrão igual a 5,97 cm. Outro grupo
de 125 moças tem uma estatura média de 161,9 cm, sendo o desvio padrão igual 6,01 cm. Qual é o
coeficiente de variação de cada um dos grupos ? Qual o grupo mais homogêneo?

10