Você está na página 1de 14

FACULDADE DE CIÊNCIAS ECONÓMICAS E EMPRESARIAIS

DEPARTAMENTO DE AGRICULTURA E TURISMO

Ficha de Leitura Métodos Quantitativos Ano de 2020

SUMÁRIO: Medidas Numéricas de Dados

Medidas de dispersão ou de variabilidade

Vimos nas aulas anteriores que um conjunto de valores pode ser convenientemente sintetizado ou
resumido, por meio de procedimentos matemáticos, em poucos valores representativos – média, mediana e
moda. Tais valores podem servir de comparação para dar a posição de qualquer elemento do conjunto.

Por vezes não é suficiente usar apenas uma das medidas de posição para caracterizar perfeitamente um
conjunto de valores, pois, mesmo sabendo, por exemplo, que a temperatura média de duas cidades é a
mesma, e igual a 24ºC, ainda assim somos levados a pensar a respeito do clima dessas cidades. Em uma
delas a temperatura poderá variar entre limites de muito calor e de muito frio e, haver, ainda, uma
temperatura média de 24ºC. A outra poderá ter uma variação pequena de temperatura, mas mantendo uma
média de 24ºC.

Vemos, então, que a média ainda que considerada como um número que tem a faculdade de representar
uma série de valores, não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que
existe entre os valores que compõem um conjunto.

Consideremos os seguintes conjuntos de valores das variáveis X, Y e Z:

X: 70, 70, 70, 70, 70 Y: 68, 69, 70, 71, 72 Z: 5, 15, 50, 120, 160

Calculando a média aritmética de cada um desses conjuntos, obtemos:

x   i  350  70
x
y  y i 350 z  z i 350
  70   70
n 5 n 5 n 5

Vemos, então, que os três conjuntos apresentam a mesma média aritmética de 70. Entretanto, é fácil notar
que o conjunto X é mais homogêneo que os conjuntos Y e Z, já que todos os valores são iguais a média. O
conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor diversificação entre cada um
de seus valores e a média é representativa.

Chamamos de dispersão ou de variabilidade a maior ou menor diversificação dos valores de uma variável
em torno de um valor de tendência central, tomado como ponto de comparação. Assim podemos dizer que
o conjunto X apresenta dispersão ou variabilidade nula e que o conjunto Y apresenta uma distribuição ou
variabilidade menor que o conjunto Z.
1
Portanto, para qualificar os valores de uma dada variável, ressaltando a maior ou menor dispersão ou
variabilidade entre esses valores e a sua medida de posição, a Estatística recorre às medidas de dispersão
ou de variabilidade. Dessas medidas, serão descritas a amplitude total, o desvio-padrão, variância e
coeficiente de variação.

I) Medida de Dispersão Absoluta:


- Amplitude total;
- Desvio médio;
- Variância e desvio-padrão.
II) Medidas de Dispersão relativa:
- Coeficiente de variação de Pearson

Amplitude Total

A amplitude total de um conjunto de dados é a diferença entre o maior e o menor valor deste. Para calculá-
la, basta subtrair o menor valor do maior.
At  xmáx  xmín
Quanto maior a amplitude total de um conjunto de dados, maior é a dispersão ou variabilidade dos valores. A
amplitude total observada nos dados de Y é: At = 72 – 68 = 4

Se os dados vierem dispostos em uma tabela de freqüências, com os valores agrupados em classes, há
duas formas de se definir a amplitude total:
Primeiro Método: AT = Ponto médio da última classe - ponto médio da primeira classe.
Segundo Método: AT = Limite superior da última classe - limite inferior da primeira classe.
Exemplo 1: Calcular a amplitude total dos valores dispostos na tabela abaixo.
Tabela 1 - Consumo de água (m3)

Classes Fj Xj
10 ├ 20 5 15
20 ├ 30 12 25
30 ├ 40 20 35
40 ├ 50 14 45
50 ├ 60 10 55
60 ├ 70 4 65
n = 65

Pelo primeiro método: AT = 65 - 15 = 50  AT = 50


Nesse método, os valores extremos são eliminados.
Pelo segundo método: AT = 70 - 10 = 60  AT = 60
2
Restrições ao uso da Amplitude Total

Embora a amplitude total seja a mais simples das medidas de dispersão, há uma forte restrição ao seu uso
em virtude de sua grande instabilidade, uma vez que ela leva em conta apenas os valores extremos da
série. Comparemos os conjuntos A e B do exemplo 1:

Tabela 2
Conjunto Média Amplitude Total: A t
A = {10, 12, 13, 15, 20, 25, 45} x = 20 AT A = 35
B = {17, 18, 19, 20, 21, 22, 23} x = 20 AT B = 6

A média aritmética de cada um desses conjuntos é igual a 20. Portanto, no que diz respeito a uma medida
de posição, ambos os conjuntos podem ser considerados idênticos. Ao calcularmos a amplitude total,
verificaremos que os valores do conjunto A apresentam maior dispersão. Todavia, no cálculo da amplitude
total não são levados em consideração os valores da série que se encontram entre os extremos, o que
poderia conduzir o analista a interpretações equivocadas. Muitas vezes, um valor particularmente anormal
poderá afetar de maneira acentuada a medida. O conjunto A, por exemplo, apresenta o último valor (45)
sensivelmente distante do penúltimo (25), facto que talvez tenha provocado uma amplitude total de tal
magnitude (35).

Além da insensibilidade aos valores entre os extremos anormais, a amplitude total é sensível ao tamanho de
amostra. Ao aumentar essa última, a amplitude total tende a aumentar, ainda que não proporcionalmente.
Finalmente, a amplitude total apresenta muita variação de uma amostra para outra, mesmo que ambas
sejam extraídas da mesma população.

Apesar dos inconvenientes dessa medida, os quais não justificam, na maioria das vezes, seu uso, há
situações especiais em que ela resulta satisfatória. É o caso, por exemplo, da amplitude da temperatura em
um dia ou no ano. Outra situação seria aquela em que os dados são raros ou demasiadamente esparsos
para justificar o emprego de uma medida mais precisa.

É importante acrescentar que, ao descrever uma série por uma medida de tendência central (média, por
exemplo) e de dispersão, se essa última for a amplitude total, é recomendável que se indiquem os valores
extremos da série.

Variância

Vimos que a Amplitude total é uma medida que se deixa influenciar pelos valores extremos, que em grande
maioria são devidos ao acaso.
A variância é uma medida que leva em consideração valores extremos e os valores intermediários, isto é,
expressa melhor os resultados obtidos. A variância relaciona os desvios em torno da média, ou mais
claramente, é a média aritmética dos quadrados dos desvios.

Quanto menor é a variância, mais próximos os valores estão da média; mas quanto maior ela é, mais os
valores estão distantes da média.
3
A variância amostral é definida como:

x  x x  x  f
2 2
i
Dados não agrupados: s 2  ou s 2 
i i
, para dados
n 1 n 1
agrupados

já a variância populacional é:

 2   xi   
2

Observação: É mais comum na estatística trabalhar com amostra e não com a população. Neste caso o
denominador do cálculo da variância amostral passa a ser (n - 1) em vez de n, pois assim teremos uma
melhora na estimativa do parâmetro da população. Para a população x é substituído por  e n -1 por N.
Para valores grandes de n (n > 30) não há grande diferença entre os resultados proporcionados pela
utilização de qualquer dos dois divisores, n ou n - 1. Entretanto, daremos preferência para a fórmula que
proporciona uma estimativa mais justa da variância da população.

x i  x2
A variância também é denominada de segundo momento, sendo: m2 
n

Em geral, a finalidade do cálculo de uma estatística amostral (como a média, o desvio-padrão ou a variância)
é estimar o parâmetro populacional correspondente. Se extrairmos muitas amostras de uma população que
tem média m, calcularmos as médias amostrais x e se tomarmos as médias de todas as estimativas de m,
veremos que essa média fica muito próxima de m. Entretanto, se calculássemos a variância de cada
amostra pela fórmula:
x  x 
2

s 2

n

e tomássemos a média de todas essas supostas estimativas de 2, provavelmente obteríamos uma média
inferior a 2. Teoricamente, mostra-se que podemos compensar essa desvantagem dividindo por n-1 em vez
de n na fórmula de s2. Isto é:

s 2
 
x  x  2

n 1

Desvio-Padrão

A amplitude total é uma medida instável, pois se deixa influenciar pelos valores extremos, que são, na sua
maioria, devidos ao acaso. O desvio-padrão e a variância são medidas que fogem a essa falha, pois levam
em consideração a totalidade dos valores da variável em estudo, o que faz delas índices de variabilidade
bastante estáveis e, por isso, são os mais geralmente empregados.

O desvio padrão é uma das mais utilizadas medidas de variação de um grupo de dados. A vantagem que
apresenta sobre a variância é de permitir uma interpretação directa da variação do conjunto de dados, pois o
desvio padrão é expresso na mesma unidade que a variável em estudo (Kg, cm, atm...).

4
Assim, pode-se definir o desvio-padrão como uma medida da magnitude do espalhamento ou dispersão dos
dados em relação à média da série.

A expressão para o cálculo do desvio-padrão amostral (s) é:

x  x  x  x  f
2 2

Dados não agrupados: s  ou s  para dados agrupados


i i i

n 1 n 1

onde
xi é cada elemento do conjunto de dados,
x é a média do conjunto e
n é o número total de elementos deste.
se os valores vierem agrupados em classe, o xi corresponde ao ponto médio da classe,

Já para o desvio-padrão populacional () a expressão é:

   
 onde

xi é cada elemento da população,


 e N são respectivamente a média e o número total de elementos da população.

 Uma regra que auxilia na interpretação do valor de um desvio-padrão é a regra empírica, aplicável
somente a conjuntos de dados aproximadamente em forma de sino, conforme o gráfico a seguir.
Esse gráfico mostra como a média e o desvio-padrão estão relacionados com a proporção dos
dados que se enquadram em determinados limites. Assim é que, com uma distribuição em forma de
sino, temos 95% dos seus valores a menos de dois desvios-padrão da média. A regra empírica
costuma ser designada abreviadamente como a regra 68-95-99.

A regra 68-95-99 diz que:

a) cerca de 68% dos valores estão a menos de 1 desvio-padrão a contar da média;


b) cerca de 95% dos valores estão a menos de 2 desvios-padrão a contar da média;
c) cerca de 99,7% dos valores estão a menos de 3 desvios-padrão a contar da média.

Gráfico: Relação entre o desvio-padrão e a curva normal.

5
Coeficiente de Variação de Pearson (Cv)

O desvio-padrão por si só não revela muita coisa. Assim, um desvio padrão pode ser considerado pequeno
para uma média e para outra é extremamente grande. Por exemplo, um desvio-padrão de 40 pode ser
considerado pequeno para uma média de 350, entretanto, se a média for 4, este se torna muito grande.

Quando precisamos comparar duas ou mais séries de valores quanto à sua dispersão e variabilidade e
esses conjuntos estão expressos em grandezas diferentes é preciso dispor de outra medida. Para contornar
essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados de maneira
relativa ao seu valor médio. Essa medida que mede o grau de concentração dos valores em torno da média
é denominada de Coeficiente de Variação.

É uma medida de dispersão relativa empregada para estimar a precisão de experimentos e representa o
desvio-padrão expresso como percentagem da média. Sua principal qualidade é a capacidade de
comparação de distribuições diferentes. portanto, o coeficiente de variação pode ser útil para se comparar a
variabilidade de diferentes conjuntos de dados em duas situações:

a) Médias muito diferentes, mas provenientes de uma mesma variável


b) Comparar a homogeneidade de variáveis diferentes.

desvio padrão s
Coeficiente de variação  x 100  CV  x 100
média x

O uso do coeficiente de variação é usualmente recomendado para variáveis quantitativas do tipo razão (na
qual exista um zero absoluto), tais como altura, peso e velocidade. Se a variável não é do tipo razão (ex:
temperatura em graus Célsius), o coeficiente de variação poderá assumir valores negativos (ex: caso a
média seja negativa) e sua interpretação dependerá do ponto de referência (ponto considerado como "0" na
escala), levando a interpretações equivocadas e relativas.
O coeficiente de variação pode ser interpretado da seguinte forma:

CV  15 % = trata-se de uma dispersão fraca

15% < CV  30 % = trata-se de uma dispersão moderada

CV > 30% = trata-se de uma dispersão alta

Por outro lado, alguns autores consideram o seguinte:

CV  15 % = trata-se de amostra homogênea

CV > 20% = trata-se de amostra heterogênea.

Em todo caso, quanto maior o valor do coeficiente de variação, maior é a dispersão dos valores do conjunto e
quanto menor o valor do coeficiente de variação, mais homogêneo é o conjunto.

6
Exemplo 2: Imagine dois grupos de pessoas. No primeiro grupo, as pessoas têm idades 3, 1 e 5 anos e no
segundo grupo as pessoas tem idades 55, 57 e 53 anos.

No primeiro grupo a média de idade é de 3 anos e, no segundo grupo, a média de idade é de 55 anos. Em
ambos os casos o desvio padrão é de dois. Mas as diferenças de dois anos são muito mais importantes no
primeiro grupo, que tem médias três, do que no segundo grupo, que tem média 55. Agora veja esse
argumento explicado por meio do coeficiente de variação.
2
No primeiro grupo o coeficiente de variação é: CV = 100  66,67%
3
2
No segundo grupo o coeficiente de variação é: CV = 100  3,64%
55

Um coeficiente de variação igual a 66, 67% no primeiro grupo indica que a dispersão dos dados em relação
á media é muito grande, ou seja, a dispersão relativa é alta. E o coeficiente de variação igual a 3,64% no
segundo grupo grupo indica que a dispersão dos dados é pequena em relação a média.

Exemplo 3: Considere os dados da tabela abaixo e determine: amplitude total, variância, desvio padrão e
coeficiente de variação.
xi  x   xi  x 2 f
xi Fi xi fi xi  x 2 i
17 3 51 -1,84 3,3856 10,1568
18 18 324 -0,84 0,7056 12,7008
19 17 323 0,16 0,0256 0,4352
20 8 160 1,16 1,3456 10,7648
21 4 84 2,16 4,6656 18,6624
Σ 50 942 52,72

x
 xf i i 
942
 18,84 At  xmáx  xmín  2117  4
n 50

  xi  x  fi  x  f  52,72 
2 

52,72  1,0759 s  1,0759  1,04


2
s 
i

n 1 50 1 n 1 49
s
CV  100  1,04 100  5,52%

x 18,84

Desvio padrão em tabelas com Intervalo de Classes

Quando tivermos que calcular o desvio padrão para tabelas de dados com intervalos de classes usaremos
as mesmas fórmulas para dados sem intervalos de classes, utilizando para xi os pontos médios de cada
classe, seguindo com os mesmos procedimentos.

Exemplo 4: Com dados da tabela a seguir, calcule o desvio-padrão da distribuição de frequências do


consumo de energia elétrica (Kwh)

7
Tabela: Distribuição de freqüências do consumo de energia elétrica
Número de xi fi (xi  79,5) (xi  79,5) (x i 79,5) f i
2 2
xi
Consumo usuários fi
5 ├ 25 4 15 60 - 64,5 4160,25 16641,0
25├ 45 6 35 210 - 44,5 1980,25 11881,5
45├ 65 14 55 770 - 24,5 600,25 8403,5
65├ 85 26 75 1950 - 4,5 20,25 526,5
85 ├ 105 14 95 1330 15,5 240,25 3363,5
105├ 125 8 115 920 35,5 1260,25 10082,0
125├ 145 6 135 810 55,5 3080,25 18481,5
145├ 165 2 155 310 75,5 5700,25 11400,5
 6360 80780

A média aritmética do consumo já foi calculada anteriormente:


x
 xi f i  6360  79,5
n 80
Cálculo do Desvio-padrão pela Fórmula Original :

S    1022,53  S  31,98

O desvio-padrão do consumo de energia elétrica é 31,98 Kwh

Exemplo 5: Na Empresa Carrefour, o salário médio dos homens é de $1500 com desvio-padrão de $650 e o
salário médio das mulheres é de $1200 com desvio padrão de $580. A dispersão relativa dos salários é
maior para os homens?
Solução:
Homens: xH 1500 e SH 650
Mulheres xM 1200 e SM 580
SH 650
Para os homens: C.V .  100   43,3%
1500
xH

Para as mulheres: C.V. .  100  580  48,3%
SM 1200
xM
Os Salários das mulheres têm dispersão relativa maior que os salários dos homens. As duas distribuições
apresentam alta dispersão (C.V. > 30%)

8
Amplitude Iinterquartil
IQ  Q3 - Q1

9
A Amplitudeinterquatil  IQ  Q3 - Q1
dá a concentração de 50% dos dados que se encontram dispersos relativamente ao centro.
Este conjunto de dados vai desde o primeiro até ao terceiro quartil.

Resumo das principais definições sobre medidas de dispersão

Estatística Notação Definição, propriedades

Amplitude  É a distância entre o valor mínimo e máximo e da variável


  lmax  lmin
Amplitude IQ É a distância entre o valor do primeiro e do terceiro quartil
Interquartílica IQ = Q3 – Q1
Variância S2 É a média dos quadrados dos desvios dos valores da
Variável em relação à média
Desvio padrão S É a raiz quadrada da variância
Coeficiente de Cv É uma medida de dispersão relativa. É definida como o
variação quociente entre o desvio padrão e a média, multiplicado por
S
100, para expressar percentagem, isto é:C  100%
v
X

Medidas de Assimetria

Duas distribuições também podem diferir uma da outra em termos de assimetria ou


achatamento, ou ambas. Como veremos, assimetria e achatamento (o nome técnico
utilizado para esta última característica de forma da distribuição é curtose) têm
importância devido a considerações teóricas relativas à inferência estatística que são
frequentemente baseadas na hipótese de Populações distribuídas normalmente. Medidas
de assimetria e de curtose são, portanto, úteis para se precaver contra erros aos
estabelecer esta hipótese.

Diversas medidas de assimetria são disponíveis, mas introduziremos apenas uma, que
oferece simplicidade no conceito assim como no cálculo. Esta medida, a medida de
assimetria de Pearson, é baseada nas relações entre a média, mediana e moda. Recorde
que estas três medidas são idênticas em valor para uma distribuição unimodal simétrica,
mas para uma distribuição assimétrica a média distancia-se da moda, situando-se a
mediana numa posição intermediária à medida que aumenta a assimetria da distribuição.
Consequentemente, a distância entre a média e a moda poderia ser usada para medir a
assimetria. Precisamente,

Assimetria = média - moda


Quanto maior é for esta distância, seja negativa ou positiva, maior é a assimetria da
distribuição. Tal medida, entretanto, tem dois defeitos na aplicação. Primeiro, porque ela é
uma medida absoluta, o resultado é expresso em termos da unidade original de medida da
distribuição e, portanto, ela muda quando a unidade de medida muda. Segundo, a mesma
grandeza absoluta de assimetria tem diferentes significados para diferentes séries de
dados com diferentes graus de variabilidade. Para eliminar estes defeitos, podemos medir
uma medida relativa de assimetria. Esta é obtida pelo coeficiente de assimetria de Pearson,
10
denotado por 𝑆𝑘𝑝 𝑜𝑢 𝑒1 e dado por:

̅ −𝑴𝒐
𝑿 ̅ −𝑴𝒆)
𝟑∗(𝑿
𝒆𝟏 = ou 𝒆𝟏 =
𝑺 𝑺

̅)
Assimetria positiva (𝑴𝟎 < 𝑴𝒆 < 𝑿

̅)
Distribuição Simétrica ((𝑴𝟎 = 𝑴𝒆 = 𝑿

̅ < 𝑴 𝒆 < 𝑴𝒐 )
Assimetria Negativa (𝑿

11
Ficha de Exercicios

1. A variância do conjunto de dados tabelados abaixo será:

Classes 3-8 8 -13 13 - 18 18 - 23


fi 5 15 20 10
a) ( ) 1,36 b) ( ) 18,35 c) ( ) 4,54 d) ( ) 20,66

2. As notas finais de estatística para alunos de um determinado curso foram as seguintes:


7, 5, 4, 5, 6, 3, 8, 4, 5, 4, 6, 4, 5, 6, 4, 6, 6, 3, 8, 4, 5, 4, 5,5 e 6.
a) Determine a mediana, a média e o desvio padrão.
b) Multiplique cada um dos dados por 3 e determine as novas medidas que foram pedidas na letra
(a).
c) Some a cada um dos dados o valor 2 e determine as novas medidas que foram pedidas na letra
(a).
d) Separe o conjunto de dados original em dois grupos denominados “aprovados” com notas pelo
menos igual a 5, e “reprovados” para os demais. Compare a variância desses dois grupo

3. O quadro seguinte representa as alturas (em cm) de 40 alunos de uma classe.


Classes 148 - 153 153 – 158 158 – 163 163 –168 168 – 173 173 -178 Total
fi 2 6 12 12 6 2 40
Determine:
a) Calcular a amplitude total;
b) A variância e o desvio padrão.
c) Coeficiente de variação

4. Numa empresa o salário médio dos homens é de 4000 Mt com um desvio padrão de 1500 Mt, e o das
mulheres é na média de 3000 Mt com desvio padrão de 1200 Mt. Qual dos sexos apresenta maior dispersão.
a) ( ) as mulheres b) ( ) os homens c) ( ) homens e mulheres d) ( ) nenhuma das anteriores

5. Dois grupos diferentes de uma turma de administração e Gestão fazem o mesmo teste-surpresa, com as
notas relacionadas a seguir.
Grupo 1 : 1 20 20 20 20 20 20 20 20 20 20
Grupo 2 : 2 3 4 5 6 14 15 16 17 18 19
a) Encontre a amplitude total e o desvio padrão para cada grupo.
b) Que conclusões sobre a variação nos dois grupos os valores da amplitude total sugerem?
c) Por que a amplitude total é enganosa neste caso?
d) Que conclusões sobre a variação nos dois grupos o desvio padrão sugere?

6. Suponha que voce é um administrador, e deve comprar lâmpadas para um Restaurante. Escolheria as
lâmpadas Philips, que têm vida média de 3000 horas e desvio padrão de 200 horas, ou as lâmpadas Osram
Dulux, com vida média de 3000 horas e desvio padrão de 250 horas? Explique.

12
7. Considere os dados abaixo oriundos de uma AMOSTRA e complete as tabelas:
a)
i Xi fi xi . fi (xi  x)2 (xi  x)2  fi
1 2 1
2 3 7
3 4 2
4 5 2
Total

b)
i Nº Acid p/Dia Nº Dias xi . fi (xi  x)2 (xi  x)2  fi
1 0 30
2 1 5
3 2 3
4 3 1
5 4 1
Total

c)
Salários em $ Nº Func. xi xi . fi
1.000 1.200
1.200 1.400
1.400 1.600 10
1.600 1.800
1.800 2.000
Total
d)
i Valor da Venda $ Nº de N. F. xi xi . fi (xi  x)2 (xi  x)2  fi
1 0 |--- 50 10
2 50 |--- 100 28
3 100 |--- 150 12
4 150 |--- 200 2
5 200 |--- 250 1
6 250 |--- 300 1
Total

8. O quadro seguinte representa as alturas (em cm) de 40 alunos de uma turma.


Classes 153 – 158 158 – 163 163 –168 168 – 173 173 -178 Total
Fi 4 8 16 8 4 40
Determine:
a) Calcular a amplitude total;
b) A variância e o desvio padrão.
c) Coeficiente de variação

13
9. Calcule a amplitude total, o desvio padrão e o coeficiente de variação das séries abaixo. Após,
coloque-as em ordem crescente de dispersão:
A: 8 10 7 9 3 15 12 10
B: 3 8 16 7 6 3 9 18
C: 15 2 8 14 1 2 23 20

10. Um fabricante de caixas de cartolina fabrica 3 tipos de caixas. Testa-se a resistência de cada caixa,
tomando-se uma amostra de 100 caixas e determinando-se a pressão necessária para romper cada
caixa. São os seguintes os resultados dos testes:

Tipos de caixa A B C
Pressão média de ruptura 150 200 300
Desvio padrão das pressões 40 50 60

a) Que tipo de caixa apresenta a maior variação absoluta na pressão de ruptura?


b) Que tipo de caixa apresenta a maior variação relativa na pressão de ruptura?

11. Um grupo de 85 moças tem estatura média de 160,6 cm, com um desvio padrão igual a 5,97 cm.
Outro grupo de 125 moças tem uma estatura média de 161,9 cm, sendo o desvio padrão igual 6,01
cm. Qual é o coeficiente de variação de cada um dos grupos ? Qual o grupo mais homogêneo?

Você também pode gostar