Você está na página 1de 22

Instituto Federal de Educação, Ciência e Tecnologia de Sergipe

Diretoria de Ensino
Gerência de Ensino Superior
Coordenadoria do Curso de Licenciatura em Matemática
DISCIPLINA: PROBABILIDADE E ESTATÍSTICA PROFESOR: IVONALDO P. SANTANA TURMA:_________

MEDIDAS DESCRITIVAS

MEDIDAS DE POSIÇÃO

1.0. Introdução

As medidas de posição, também chamadas de tendência central, constituem um procedimento para a


redução de dados estatísticos expressados por valores que se encontram situados entre os extremos de
uma série ou distribuição. Normalmente estas medidas tendem a se aproximar do centro da distribuição.
As três medidas mais comuns são: a média, a mediana e a moda.
Podemos estabelecer um conceito geral de média para as médias que vamos trabalhar. A idéia chave é
a da substituição de uma sequência de valores por um valor que represente todos.

Definição.
Considere uma sequência finita de números reais ( x1 , x2 , x3 ,..., xn ) e uma operação * sobre os
membros da sequência. Uma média dos elementos da sequência com respeito à operação * é um número
real M com a propriedade de substituir todos os elementos da sequência no que diz respeito a operação
*, isto é:

x1  x2  x3  ...  xn = M  M  M  ...  M = n  M

1.1. Média Aritmética Simples

Para o conjunto de dados amostrais x1 , x2 , x3 ,..., xn , chama-se média aritmética simples o número real
___
X , tal que:
n

___ x i
x1 + x2 + x3 + ... + xn
X = i =1
=
n n
n

x i
Para dados populacionais, representamos a média por  = i =1
n
Podemos destacar algumas características para a média:

a) Pode ser calculada para qualquer conjunto de dados;


b) A média é sempre única, em qualquer conjunto de dados;
c) As médias de muitas amostras, extraídas de uma mesma população, não flutuam tanto quanto outras
medidas estatísticas, fato esse, usado para estimar a média populacional;
d) A média leva em conta todos os elementos de um conjunto de dados.

Exemplo 1. Os gastos com alimentação, em reais, durante seis dias de um estudante foram:
15 - 13 - 12 10 - 14 - 11 . O gasto médio diário foi de:

___
15 + 13 + 12 + 10 + 14 + 11 75
X = = = R$12,50 .
6 6

Isso significa que, caso o estudante gastasse o mesmo valor diariamente, esse valor corresponderia
à média aritmética. A quantia de R$12,50 substitui igualmente todos os valores da série
( 6  12,50 = 75,00 ) .

Prof. Ivonaldo P. Santana


Exemplo 2. A média aritmética de 15 números é 26. Retirando-se um deles, a média dos demais passa a
ser 25. Qual foi o número retirado?

x1 + x2 + x3 + ... + x15
Solução. = 26  x1 + x2 + x3 + ... + x15 = 390 .
15
Vamos retirar o número x15 .
x + x2 + x3 + ... + x14
Daí, 1 = 25  x1 + x2 + x3 + ... + x14 = 350
14
A diferença ( x1 + x2 + x3 + ... + x15 ) − ( x1 + x2 + x3 + ... + x14 ) indica o número retirado, ou seja,
40.

Exemplo 3. A média de “pesos” de 25 clientes hospedadas em um spa era de 84 kg. A ela juntou-se um
grupo de n amigas. Curiosamente, cada amiga desse grupo “pesava” 90 kg. Determine o valor de n,
sabendo que a média de “pesos” de todas as clientes hospedadas no spa aumentou em 1 quilograma. 5

1.2. Propriedades da Média Aritmética

P1. A média aritmética simples deverá estar situada entre o menor e o maior valor observado;

P2. Somando-se ou subtraindo-se todos os valores xi da série a uma constante c(c  0) , a nova média
__
Y fica somada ou subtraída dessa constante c .

___
x1 + x2 + x3 + ... + xn
Prova. Seja X = {x1 , x2 , x3 ,..., xn } tal que X = . Tomemos
n
Y = {x1 + c, x2 + c, x3 + c,..., xn + c} .Temos:

__
x1 + c + x2 + c + x3 + c + ... + xn + c ( x1 + x2 + x3 + ... + xn ) + (c + c + c + ... + c)
Y= =
n n
__
x + x + x3 + ... + xn n  c __
Y= 1 2 + = X+c
n n

P3. Multiplicando-se ou dividindo-se todos os valores xi da série a uma constante c(c  0) , a nova
__
média Y fica multiplicada ou dividida dessa constante c .

Prova (exercício).

Prof. Ivonaldo P. Santana


Exemplo 4. A média dos salários dos funcionários de uma loja é de R$ 620,00. Qual será a nova média
salarial se:

a) cada funcionário receber um aumento de R$ 50,00? R$ 670,00


b) cada funcionário receber um aumento de 20%? R$ 744,00

P4. A soma algébrica dos desvios calculados entre os valores da série e a média aritmética é nula, ou
n n __
seja:  di =  ( xi − X ) = 0
i =1 i =1

n n __ __ __ __ __
Prova.  di =  ( xi − X ) = ( x1 − X ) + ( x2 − X ) + ( x3 − X ) + ... + ( xn − X ) =
i =1 i =1
__
x1 + x2 + x3 + ... + xn
= ( x1 + x2 + x3 + ... + xn ) − n X = ( x1 + x2 + x3 + ... + xn ) − n  =
n
= ( x1 + x2 + x3 + ... + xn ) - ( x1 + x2 + x3 + ... + xn ) = 0

Exemplo 5. Considere os gastos com alimentação, em R$, de estudante: 15 - 13 - 12 - 10 – 14 - 11


cuja média é R$ 12,50. A soma dos desvios em relação à média é:

 = 2,50 + 0,50 + (-0,50) + (-2,50) + 1,50 + (-1,50) = 0.

P5. A soma dos quadrados dos desvios de um conjunto de números xi , em relação a qualquer número
___
c , é um mínimo se c = X .
n
Prova. Devemos obter o mínimo valor para a expressão  ( x − c)
i =1
i
2
mostrando que esse mínimo ocorre
___ n
para c = X . Seja f (c) =  ( xi − c) 2 , temos:
i =1
n n n n
f (c) =  xi − 2 xi c + c 2 =  xi − 2c  xi +  c 2
2 2

i =1 i =1 i =1 i =1
n n
f (c) = n  c 2 − (2 xi )  c +  xi (Função do 2° grau na variável “ c ” com concavidade voltada para
2

i =1 i =1
b
cima, pois n  0 . Essa função tem valor mínimo quando xv = − , ou seja:
2a
n n
2 xi x i __
cmín = i =1
= i =1
=X
2n n

Exemplo 6. (Simulação)

Prof. Ivonaldo P. Santana


1.3. Média Aritmética Ponderada (Dados agrupados)

Seja X a variável que assume os valores x1 , x2 , x3 ,..., xn aos quais de atribuem os fatores de
ponderação (frequências absolutas) f1 , f 2 , f3 ,..., f n respectivamente. A média aritmética ponderada é o
n

___ ___ x  f i i
x1  f1 + x2  f 2 + x3  f 3 + ... + xn  f n
número real X , tal que: X = i =1
=
n n

Exemplo 7. Numa empresa 20 colaboradores têm salário bruto de R$ 998,00; 8 colaboradores recebem
R$ 1200,00 e 2 colaboradores recebem R$ 1720,00. Qual o salário médio dessa empresa?

Solução. Podemos organizar esses valores numa distribuição de freqüências. Observe:

Salários fi xi  f i
R$
998,00 20 19960
1200,00 8 9600
1720,00 2 3440
 30 33000
n

___ x  f i
33000 i
X = i =1
=
= R$1.100 ,00
n 30
Interprete o resultado:

Exemplo 8. Obter a média aritmética das emissões de SO, emitidas por uma indústria durante 30 dias:

i Emissões de f i (nº de
Óxido de SO2 xi xi  f i
emissões)
1 5 |----- 9 5 7 35
2 9 |-----13 6 11 66
3 13 |-----17 10 15 150
4 17 |-----21 4 19 76
5 21 |----- 25 3 23 69
6 25 |-----29 2 27 54
Total 30 450

Solução. Admitindo uma distribuição homogênea dos valores originais entre as classes, toma-se a média
aritmética ponderada dos pontos médios xi de cada classe:
___
x1  f1 + x2  f 2 + x3  f3 + ... + xn  f n 7  5 + 11  6 + 15  10 + 19  4 + 23  3 + 27  2 450
X = = = = 15t
n 30 30

A emissão média de 15 toneladas de óxido de enxofre significa que, caso a poluição fosse idêntica em
todos os dias do mês, em cada dia seria emitido 15 t.

1.4. Mediana

Em algumas situações, a média aritmética pode ser muito afetada quando encontramos valores
discrepantes em um conjunto de dados, tornando-a uma medida de centralidade pouco representativa
do resumo de dados. Observe o consumo em Kwh de uma casa residencial durante seis meses:

100 - 110 - 35 - 105 - 115 – 27

Prof. Ivonaldo P. Santana


n

___ x i
492
A média aritmética X = i =1
= = 82 Kwh ficou afetada pelos valores discrepantes de 35 Kwh e 27
n 6
Kwh .

1.4.1. Definição

Considere o rol de números x1 , x2 , x3 ,..., xn . A mediana desse conjunto de valores, indicada por M d ,
é o valor real que divide o rol em dois conjuntos de valores com o mesmo número de elementos, ou seja,
é o valor central:

 x n +1  , se n ímpar
  2 

Md = x + x
n n 
  2   +1 
2 
 2
, se n par

Exemplo 9. Obter a mediana dos seguintes conjuntos de valores

a) Estaturas (em cm) de 9 pessoas: 167 – 165 – 169 – 168 – 170 – 163 – 166 – 169 – 166

O rol correspondente é: 163 – 165 – 166 – 166 – 167 – 168 – 169 – 169 - 170
 9 +1
Como n é impar ( n = 9) , a posição central é   = 5ª . Logo, a mediana é o elemento da 5ª posi
 2 
ção ( x5 ) , ou seja, M d = 167 cm

b) Temperaturas (ºC): 10 – 11 – 12 – 13 – 14 – 10 – 12 – 15 – 17 – 15
O rol correspondente é: 10 – 10 – 11 – 12 – 12 – 13 – 14 – 15 – 15 - 17
 10   10 
Como n é par ( n = 10 ) , as posições dos termos centrais são   = 5ª e  + 1 = 6 ª . Logo, a
2  2 
12 + 13
mediana será a média aritmética dos termos centrais (x5 ) e (x6 ) , ou seja, M d = = 12,5º C .
2

Exemplo 10. Uma pesquisa realizada com 280 pessoas fez o levantamento da freqüência anual de
visitas ao dentista. Os resultados aparecem na tabela ao abaixo. Qual o número mediano de visitas?

Nº de visitas ao Nº de
dentista por ano pessoas
0 63
1 105
2 39
3 47
4 16
5 ou mais 10
Total 280

Solução. Os elementos da distribuição já se encontram ordenados. Como n é par ( n = 280 ) ,as posições
 280   280 
dos termos centrais são   = 140 ª e  + 1 = 141 ª . Logo, a mediana será a média aritmética dos
 2   2 
termos centrais (x140 ) e (x141) . Através da frequência acumulada observamos que esses elementos se
1+1
encontram na 2ª classe, ou seja, x140 = 1 e x141 = 1 . Portanto, M d = = 1 visita. Podemos afirmar que
2
50% das pessoas fazem 1 visita ou menos ao dentista por ano e 50% fazem 1 visita ou mais.

Prof. Ivonaldo P. Santana


1.4.2. Mediana (Variável Contínua)

Para dados agrupados como variáveis contínuas (em intervalos de classes) admite-se que 50% dos
dados encontram-se abaixo da mediana e 50% acima dela.
Peso fi Fi
(Kg)
4 |---- 8 2 2
8 |---- 12 5 7
12 |---- 16 9 16
16 |---- 20 4 20
20 |---- 24 2 22
 22

Podemos afirmar que o valor mediano é o ponto de abscissa cuja ordenada equivale a f i
=
n
.
2 2
n
No exemplo acima, = 11º elemento , encontra-se na 3ª classe ou classe mediana. Através do gráfico
2
___
podemos afirmar que M d = li + AB (I), onde li representa o limite inferior da classe mediana e ainda,
ABD  ACE . Daí,
___ ___ ___
___ ___ ___ ___ ___ ___
AB BD BD
___
= ___
 AB CE = AC  BD  AB = ___
 AC (II)
AC CE CE

Mas,
___ ___
AC = h (ampitude da classe mediana) ; CE = fi (frequênci a absoluta da classe mediana) ;
___
n
BD = − Fant ( Fant é a frequência acumulada anterior da classe mediana)
2

n 
 − Fant 
Substituindo em (II), temos AB =   h
___
2
fi
n 
 − Fant 
Substituindo (I) em (I), temos: M d = li +   h
2
fi
n
Para a distribuição dos pesos acima, obtemos: = 11 . A mediana ocupa a 11ª posição. Através da
2
frequência acumulada observa-se que o elemento 11ª posição encontra-se na 3ª classe, ou seja,
12 |---- 16 (classe mediana):
li = 12 h=4 fi = 9 e Fant = 7
 22 
 − 7
M d = 12 +    4 = 12 + 16 = 13,78 Kg
2
9 9
Exemplo 11. Obter a mediana das emissões de SO, emitidas por uma indústria durante 30 dias e
interprete o resultado obtido.

i Emissões de f i (nº de
Óxido de SO2
emissões)
1 5 |----- 9 5
2 9 |-----13 6
3 13 |-----17 10
4 17 |-----21 4
5 21 |----- 25 3
6 25 |-----29 2
Total 30

1.5. Moda

Considere a amostra de números x1 , x2 , x3 ,..., xn . Chama-se Moda ( M o ), desse conjunto, o elemento


que ocorre com maior frequência. Empregamos a moda quando desejamos obter uma medida rápida e
aproximada de posição.

Exemplo 12. Obter a moda das seguintes séries de valores

a) Idades (em anos): 17 – 20 – 25 – 22 – 25 – 18 – 19 – 30 – 25 – 34 - 37


A idade mais freqüente é 25, portanto a moda é M o = 25 anos

b) Notas de uma prova: 3,0 – 5,5 – 7,0 – 3,0 – 6,0 – 7,0 – 7,0 – 4,0 – 3,0
As notas de maior frequência são 3,0 e 7,0. Nesse caso, a mostra é Bimodal com modas iguais a
M o = 3,0 e M o = 7,0

c) Temperatura (ºC): 15 – 16 – 32 - 15 – 32 - 16 – 29 – 29
Nesse caso todos os valores têm a mesma frequência, dizemos que a amostra é Amodal, não existe
moda.

d) Pesos de um grupo de 40 estudantes

Pesos (Kg) fi
56 8
59 10
62 6
65 10
71 4
80 2
 40

Nesse caso, a distribuição possui dois valores de maior frequência, 59 e 65, amostra Bimodal cujas
modas são M o = 59 Kg e M o = 65 Kg .

1.5.1. Moda (Variável Contínua)

Para dados agrupados como variáveis contínuas (em intervalos de classes) a moda pode ser obtida
mediante os processos de Czuber, King ou Pearson.

 Moda de Czuber

Vamos utilizar o exemplo da distribuição dos pesos de 22 crianças e o respectivo histograma:


Peso (Kg) fi
4 |---- 8 2
8 |---- 12 5
12|---- 16 9
16|---- 20 4
20|---- 24 2
 22

No histograma identificamos a Classe Modal (classe de maior frequência) e indicamos li e ls


como os limites inferior e superior da classe modal respectivamente.
___ ___ ___ ___ ___
Na classe modal traçamos os segmentos AC , BD e MN . No ponto de intersecção entre AC e BD ,
____
ponto O, traçamos uma perpendicular à base. O valor da moda será M o = li + OM (I).
Os triângulos AOD e COD são semelhantes. Daí,
___ ___ ___ ___ ___
OM ON OM + ON OM
___
= ___
 ___ ___
= ___
(II). Mas,
AB CD AB + CD AB

___ ___
OM + ON = h (ampitude da classe modal) ;
___
AB = d1 (diferença entre a frequência absoluta da classe modal e a ;
frequência absoluta da classe anterior)
___
CD = d 2 (diferença entre a frequência absoluta da classe modal e a ;
frequência absoluta da classe posterior)
____
OM = M o − li

h M −l
Substituindo em (II), vem: = o i  ( M o − li )  (d1 + d 2 ) = h  d1 
d1 + d 2 d1
h  d1 d1
M o − li =  M o = li +  h (Moda de Czuber)
d1 + d 2 d1 + d 2

Para a distribuição dos pesos acima, temos:

li = 12
h = 4
 4 16
Classe modal: 12 |---- 16  M o = 12 +  4 = 12 + = 13,78 Kg
d1 = 9 − 5 = 4 4+5 9
d 2 = 9 − 4 = 5

Prof. Ivonaldo P. Santana


Exemplo 13. Obter a moda das emissões de SO, emitidas por uma indústria durante 30 dias e interprete
o resultado obtido.

i Emissões de f i (nº de
Óxido de SO2
emissões)
1 5 |----- 9 5
2 9 |-----13 6
3 13 |-----17 10
4 17 |-----21 4
5 21 |----- 25 3
6 25 |-----29 2
Total 30

MEDIDAS SEPARATRIZES

1.0. Introdução.

São números reais que dividem uma sequência ordenada de dados (rol) em partes que contêm a
mesma quantidade de elementos da série. Desta forma, a mediana que divide a sequência ordenada em
dois grupos, cada um deles contendo 50% dos valores da sequência, é também uma medida separatriz.
Além da mediana, destacamos os quartis, decis e percentis.

1.1. Quartis ( Qi )

São valores que dividem o conjunto de dados ordenados (rol) em 4(quatro) partes iguais.

Primeiro Quartil ( Q1 ) - valor situado de tal modo na série de dados que 25% das observações são
menores ou iguais que ele e 75% são maiores ou iguais.

Segundo Quartil ( Q2 ) - valor situado de tal modo na série de dados que 50% das observações são
menores ou iguais que ele e 50% são maiores ou iguais; coincide com a mediana.

Terceiro Quartil ( Q3 ) - valor situado de tal modo na série de dados que 75% das observações são
menores ou iguais que ele e 25% são maiores ou iguais.

Exemplo 1. Uma variável X possui os seguintes valores: 3, 15, 6, 9, 10, 4, 12, 30, 15, 17, 20, 29.

Vamos dividir esse conjunto em quatro partes com a mesma quantidade de elementos.

Ordenando esses valores obtemos, X: 3 4 6 9 10 12 15 15 17 20 29 30

Q2 = 13,5 que é a mediana. Para obtermos Q1 e Q3 é razoável obtermos a mediana dos 5


primeiros e dos 5 últimos, respectivamente. Temos: Q1 = 7,5 e Q3 = 18,5

3 4 6 (7,5) 9 10 12 (13,5) 15 15 17 (18,5) 20 29 30


Q1 Q2 Q3

Prof. Ivonaldo P. Santana


1.2. Decis ( Di )

São valores que dividem o conjunto de dados ordenados (rol) em 10(dez) partes iguais.

Primeiro Decil ( D1 ) - valor situado de tal modo na série de dados que 10% das observações são
menores ou iguais que ele e 90% são maiores ou iguais.

Segundo Decil ( D2 ) - valor situado de tal modo na série de dados que 20% das observações são
menores ou iguais que ele e 80% são maiores ou iguais.



Nono Decil ( D9 ) - valor situado de tal modo na série de dados que 90% das observações são menores
ou iguais que ele e 10% são maiores ou iguais.

1.3. Percentis ou Centis ( Pi )

São valores que dividem o conjunto de dados ordenados (rol) em 100(cem) partes iguais.

Primeiro Percentil ( P1 ) - valor situado de tal modo na série de dados que 1% das observações são
menores ou iguais que ele e 99% são maiores ou iguais.

Segundo Percentil ( P2 ) - valor situado de tal modo na série de dados que 2% das observações são
menores ou iguais que ele e 98% são maiores ou iguais.

Terceiro Percentil ( P3 ) - valor situado de tal modo na série de dados que 3% das observações são
menores ou iguais que ele e 97% são maiores ou iguais.



Nonagésimo Nono Percentil ( P99 ) - valor situado de tal modo na série de dados que 99% das
observações são menores ou iguais que ele e 1% são maiores ou iguais.

Observe que os quartis e os decis são múltiplos, assim, todas as medidas separatrizes poderão ser
calculadas através dos percentis, isto é, da divisão do conjunto 100 partes iguais.

Q1 = P25 D1 = P10
Q2 = P50 = M d D2 = P20
Q3 = P75 D3 = P30


D9 = P90
Prof. Ivonaldo P. Santana
Exemplo 2. Se desejamos dividir uma produção em 5 partes iguais: Ruim, Boa, Muito Boa, Ótima e
Excelente, devemos recorrer aos percentis P20 , P40 , P60 e P80 . Observe a figura abaixo:

Percebe-se que a produção Ruim envolverá valores de P0 a P20 . A produção Boa envolverá valores
de P20 a P40 . A produção Muito Boa envolverá valores de P40 a P60 . A produção Ótima de P60 a P80 e a
produção Excelente de P80 a P100 .

1.4. Cálculo das Medidas Separatrizes – Variável Contínua

Para dados agrupados como variáveis contínuas (em intervalos de classes) podemos obter qualquer
medida separatriz através da generalização da fórmula obtida para cálculo da mediana, mudando apenas
os valores da posição referente a separatriz desejada.

in 
 − Fant 
Pi = lPi +   h .
100
f Pi
in
Note que, M d = P50 . Na expressão , quando substituímos i = 50 recaímos na expressão posicional
100
50  n n
da mediana: = .
100 2

 Pi : Percentil i (1,2,3,4,5,...,99 )
l : Limite inferior da classe que contém P
 Pi i

n : tamanho da amostra



 Fant : Frequência acumulada da classe anterior à classe de Pi
 f P : Frequência absoluta da classe de Pi
 i
h : Amplitude da classe de Pi

Exemplo 2. Considere a distribuição das estaturas de 40 estudantes. Obter:

a) O primeiro quartil

Solução. Inicialmente identificamos a classe de Q1 = P25


in 25  40
Substituindo i = 25 e n = 40 em , vem: = 10 º elemento ou 10ª estatura.
100 100
Pela frequência acumulada a 10ª estatura encontra-se 2ª classe: 154|----- 162. Temos:
Q1 = P25 = 154 +
(10 − 4)  4 = 154 + 24 = 156 ,7
cm
9 9
Isso significa que 25% dos estudantes têm estaturas menores ou iguais a 156,7 cm.

Prof. Ivonaldo P. Santana


b) O terceiro quartil

Solução. Inicialmente identificamos a classe de Q3 = P75


in 75  40
Substituindo i = 75 e n = 40 em , vem: = 30 º elemento ou 30ª estatura.
100 100
Pela frequência acumulada a 30ª estatura encontra-se 4ª classe: 162|----- 166. Temos:

Q3 = P75 = 162 +
(30 − 24 )  4 = 162 + 24 = 165 cm
8 8
Isso significa que 75% dos estudantes têm estaturas menores ou iguais a 165 cm.

c) O nono decil

Solução. Inicialmente identificamos a classe de D9 = P90


in 90  40
Substituindo i = 90 e n = 40 em , vem: = 36 º elemento ou 36ª estatura.
100 100
Pela frequência acumulada a 36ª estatura encontra-se 5ª classe: 166|----- 170. Temos:

D9 = P90 = 166 +
(36 − 32 )  4 = 166 + 16 = 169 ,2 cm
5 5
Isso significa que 90% dos estudantes têm estaturas menores ou iguais a 169,2 cm.

Observe no gráfico do polígono de frequência acumulada as posições geométricas assumidas pelas


separatrizes acima calculadas:

Exemplo 3. Obter o décimo percentil e o nonagésimo percentil das emissões de SO, emitidas por uma
indústria durante 30 dias e interprete o resultado obtido.

i Emissões de f i (nº de
Óxido de SO2
emissões)
1 5 |----- 9 5
2 9 |-----13 6
3 13 |-----17 10
4 17 |-----21 4
5 21 |----- 25 3
6 25 |-----29 2
Total 30

Prof. Ivonaldo P. Santana


Exemplo 4. Uma amostra do tempo de vida útil de uma peça forneceu a seguinte distribuição:

Nº de horas Nº de
(vida útil) peças
0 |-----100 6
100 |-----200 42
200 |-----300 86
300 |-----400 127
400 |-----500 64
500 |-----600 8

Se o produtor deseja estabelecer uma garantia mínima para o número de horas de vida útil de uma peça,
trocando a peça que não apresentar este número mínimo de horas, qual é a garantia, se ele está disposto
a trocar 8% das peças? 149,14 h

MEDIDAS DE DISPERSÃO

1.0. Introdução.

São medidas estatísticas usadas para avaliar o grau de homogeneidade dos valores de uma série ou
distribuição em torno da média.
Considere as seguintes séries representando os tempos (em h) de realização de uma mesma tarefa
por dois colaboradores:

__
Colaborador A: 3,5 - 4,0 - 3,5 - 4,0 - 4,0 com X A = 3,8h
__
Colaborador B: 3,0 - 7,0 - 2,0 - 4,0 - 3,0 com X B = 3,8h

Observe que apenas a informação das médias não é suficiente para avaliar qual dos colaboradores
foi mais regular, ou seja, teve tempos de realização da tarefa mais homogêneos. De forma intuitiva, e,
considerando que o conjunto de valores é pequeno, concluímos o colaborador A realiza essa tarefa de
forma mais homogênea. Com o estudo das medidas de dispersão veremos esse resultado de forma
matemática.

1.1. Desvio Relativo

Considera a diferença ou afastamento da medida da série em relação a média dessa série.


__ n
di = xi − X . Já provamos a seguinte propriedade:  d i = 0
i =0

Exemplo 1.
Colaborador A: d1 = 3,5 − 3,8 = −0,3 Colaborador B: d1 = 3,0 − 3,8 = −0,8
d2 = 4,0 − 3,8 = 0,2 d2 = 7,0 − 3,8 = 3,2
d3 = 3,5 − 3,8 = −0,3 d3 = 2,0 − 3,8 = −1,8
d4 = 4,0 − 3,8 = 0,2 d4 = 4,0 − 3,8 = 0,2
d5 = 4,0 − 3,8 = 0,2 d5 = 3,0 − 3,8 = −0,8

Prof. Ivonaldo P. Santana


Dessa forma, como a soma dos desvios relativos de todos os tempos dos colaboradores A e B
será sempre igual a zero, pela propriedade acima, essa modalidade de desvio é insuficiente a
comparação, pois, a média desses desvios é sempre nula.

1.2. Desvio Médio Absoluto


n __

 xi − X
Trata-se da média aritmética dos desvios tomados em módulo: Dm = i =1
.
n

Exemplo 2. Vamos determinar o desvio médio absoluto dos tempos dos colaboradores do exemplo da
Introdução.

| 3,5 − 3,8 | + | 4 − 3,8 | + | 3,5 − 3,8 | + | 4 − 3,8 | + | 4 − 3,8 |


Dm =
A: 5
| −0,3 | + | 0,2 | + | −0,3 | + | 0,2 | + | 0,2 | 1,2
Dm = = = 0,24 h
5 5

| 3 − 3,8 | + | 7 − 3,8 | + | 2 − 3,8 | + | 4 − 3,8 | + | 3 − 3,8 |


Dm =
B: 5
| −0,8 | + | 3,2 | + | −1,8 | + | 0,2 | + | 0,8 | 6,8
Dm = = = 1,36 h
5 5

O resultado 0,24 significa que, em média, os tempos do colaborador A se afastam 0,24 h da


média aritmética, para cima ou para baixo.
Do ponto de vista comparativo, como 0,24 < 1,36, isso significa que a série de tempos do
colaborador A é mais homogênea ou menos dispersa que a série do colaborador B.

1.3. Variância

Podemos tomar os desvios ao quadrado em relação à média, definindo assim a variância como
uma medida do grau de variabilidade dos dados em estudo:

2
n
 ___

  x i − X
 2 = i =1  
n

Exemplo 3. Vamos determinar a variância dos tempos dos colaboradores do exemplo introdutório.

A:
(3,5 − 3,8) 2 + (4 − 3,8)2 + (3,5 − 3,8) 2 + (4 − 3,8) 2 + (4 − 3,8) 2 0,3
2 = = = 0,06 h 2
5 5

B:
(3 − 3,8) 2 + (7 − 3,8) 2 + (2 − 3,8) 2 + (4 − 3,8) 2 + (3 − 3,8) 2 14,8
2 = = = 2,96 h 2
5 5

Observe que a variância se mostrou suficiente para diferenciar a dispersão das duas séries, como
0,06 < 2,96, concluímos que a série de tempos do colaborador A é mais homogênea ou menos dispersa
que a série de tempos do colaborador B. A desvantagem do uso da variância está na incompatibilidade
da unidade obtida nos cálculos. Qual o significado de h 2 (horas quadradas)?

Para uniformizar as unidades precisaremos definir outra medida de dispersão.

Prof. Ivonaldo P. Santana


1.3.1. Propriedades da Variância
__
Seja X uma variável quantitativa que assume os valores x1 , x2 , x3 ,..., xn . Considere X a média
aritmética e  2 a variância desse conjunto.

P.1. Se a cada xi ( i = 1,2,3,..., n ) adicionarmos uma constante real c , a variância não se altera.

( )
Prova. Considere  2 a nova variância. Devemos mostrar que  2 =  2
'
( ) '

Seja yi = xi + c ( i = 1,2,3,..., n ) os novos valores assumidos pela variável x .


__ __
Por propriedade da média aritmética, Y = X + c .
Da definição de variância, segue que:
2
n
 ___
 n __ n __
  yi − Y [( xi + c) − ( X + c)]2  ( xi + c − X − c)
( 2 ) ' = i =1   = i
= i =1
n n n
n __

 (x i − X)
( ) =
2 ' i =1
=2
n

P.2. Se a cada xi ( i = 1,2,3,...,n ) multiplicarmos uma constante real c , a variância fica


2
multiplicada por c .

( )
Prova. Considere  2 a nova variância. Devemos mostrar que  2 = c 2   2
'
( ) '

Seja yi = xi  c ( i = 1,2,3,..., n ) os novos valores assumidos pela variável x .


__ __
Por propriedade da média aritmética, Y = X  c .
Da definição de variância, segue que:
2
n
 ___
 n __ n __
  yi − Y   (c  xi − c  X )2 [c( xi − X )]2
( 2 )' = i =1   = i
= i =1
n n n
n __ n __

c 2
 ( xi − X ) 2  (x i − X )2
( 2 )' = i =1
= c2  i =1
= c2   2
n n

1.4. Desvio Padrão

Seja X uma variável quantitativa que assume os valores x1 , x2 , x3 ,..., xn . Chama-se desvio padrão
de X , indicamos por  , a raiz quadrada da variância de X .

2
n
 ___

 
i =1 
xi − X

=
n

Exemplo 4. Vejamos o desvio padrão dos tempos dos colaboradores do exemplo introdutório.

A:  = 0,06 h 2 = 0,24 h e B:  = 2,96 h2 = 1,72 h

Observe que o desvio padrão dos tempos do colaborador A é menor que o de B. Isso mostra,
mais uma vez, a série dos tempos do colaborador A é mais homogênea ou menos dispersa que a série
dos tempos do colaborador B. Quanto mais próximo de zero for o desvio padrão, mais homogêneo ou
menos disperso estão os valores da série em torno da média.

Prof. Ivonaldo P. Santana


1.4.1. Propriedades do Desvio Padrão

Decorrente das propriedades vistas para a variância, temos:

P.1. Quando adicionamos uma constante a cada elemento de uma série de valores, o desvio padrão
não se altera;

P.2. Quando multiplicamos uma constante real c a cada elemento de uma série de valores, o desvio
padrão fica multiplicado por c .

1.4.2. Fórmulas Adaptadas para a Variância e o Desvio Padrão

Através das propriedades dos somatórios podemos obter uma fórmula equivalente, mais precisa
para o cálculo da variância e do desvio padrão onde se minimiza erros de aproximação da média.

2
 n ___

  x i − X
Observe:  2 = i =1  
n

Desenvolvendo o produto notável, temos:

n __ __ 2 n __ n __ 2

(x − 2  xi  X + X ) x − 2  X   xi + n  X
2 2
i i
 =
2 i =1
= i =1 i =1
n n
n

__ x i
Como, X = i =1
, podemos escrever:
n
2 2 2
n
 n   n   n 
 xi n   xi    x i    xi 
  xi + n   i =1 2    +  i =1 
n n

 xi − 2  i =1
 xi − 2  i =1
2 2

n i =1 n n n
 2 = i =1 = i =1
n n

2
 n 
  xi  2
 n 
2
 n 
xi −  i =1 
n n n


2
 xi
  xi 
2
 x
2
i   xi 
−  i =1 2  = −  i =1 
n
 2 = i=1 = i =1 i =1
n n n n  n 
 
 

Para o desvio padrão, temos:

2
n
 n 
   xi 
2
xi
= i =1
−  i =1 
n  n 
 
 
1.4.3. Observação

As expressões das medidas de dispersão apresentadas referem-se à variância (desvio padrão)


populacional. Para dados coletados a partir de uma amostra da população, obtém-se como medida de
dispersão a variância amostral, representada por S 2 , tal que:

Prof. Ivonaldo P. Santana


2
 n ___

  xi − X
S 2 = i =1  
n −1
2
n
 ___

 
i =1 
xi − X

Por conseguinte, o desvio padrão amostral: S =
n −1

Convencionaremos que, nas aplicações seguintes, salvo observações em contrário,


consideraremos sempre a variância e o desvio padrão populacional,  2 e  .

Exemplo 5. A poluição causada por óleo em mares e oceanos estimula o crescimento de certos tipos de
bactérias. Uma contagem de microorganismos presentes no petróleo (nº de bactérias por 100 mL), em
6 porções de água do mar, indicou as seguintes medidas: 49 – 70 – 54 – 67 - 59 – 61.
Obter o desvio padrão populacional e o desvio padrão amostral.
Solução.

1.4.4. Variância e Desvio Padrão – Dados agrupados por frequência

Para dados agrupados por frequência, seja variável discreta ou contínua, as fórmulas da
variância populacional e desvio padrão populacional sofrem as seguintes adaptações:

2 2 2
n
 ___
 
n ___
  n  n

  xi − X   fi   xi − 
X   fi
x i  f i   xi  f i 
2

 2 = i =1    = i =1  
e  = i=1 −  i=1 
n n n  n 
 
 
Exemplo 6. A tabela abaixo informa a distribuição do número de cartões amarelos recebida por um
time durante os 35 jogos de um torneio. Calcule o desvio padrão do número de cartões amarelos
recebidos.

Nº de cartões Nº de jogos
0 5
1 19
2 10
3 7
4 4

__
0  5 + 1  19 + 2  10 + 3  7 + 4  4 76
X= =  1,69
5 + 19 + 10 + 7 + 4 45

(0 − 1,69 ) 2  5 + (1 − 1,69 ) 2  19 + (2 − 1,69 ) 2  10 + (3 − 1,69 ) 2  7 + (4 − 1,69 ) 2  4


2 =
45

14 ,28 + 9,05 + 0,96 + 12 ,01 + 21,34 57 ,64


2 = = = 1,28   = 1,28  1,13 cartão
45 45

Prof. Ivonaldo P. Santana


Nº de cartões Nº de jogos xi  f i xi  f i
2

xi fi
0 5 0 0
1 19 19 19
2 10 20 40
3 7 21 63
4 4 16 64
 76 186

2
n
 n 
    xi  f i 
2
x f 2
 = 186 −  76  = 4,13 − (1,69 ) 2
i i
 = i =1 −  i =1
n  n  45  45 
 
 
 = 4,13 − 2,86 = 1,27  1,13 cartão

Exemplo 7. Obter o desvio padrão das emissões de SO, emitidas por uma indústria durante 30 dias.

Emissões de Nº de dias xi xi  f i xi  f i
2

Óxido de SO2
fi
5 |---- 9 5
9 |---- 13 6
13 |---- 17 10
17 |---- 21 4
21 |---- 25 3
25 |---- 29 2
 30

1.5. Desvio Padrão - Interpretação

Para dados de uma série com distribuição simétrica (curva de freqüência representativa em
forma de sino), o desvio padrão possui as seguintes características:

Prof. Ivonaldo P. Santana


__ __
a) O intervalo [ X −  , X +  ] contém aproximadamente 68% dos valores da série;
__ __
b) O intervalo [ X − 2 , X + 2 ] contém aproximadamente 95% dos valores da série;
__ __
c) O intervalo [ X − 3 , X + 3 ] contém aproximadamente 99,7% dos valores da série;

Os percentuais citados poderão ser comprovados posteriormente no estudo da distribuição


normal de probabilidades. Quando a distribuição de valores não é perfeitamente simétrica estes
percentuais sofrem pequenas variações, para ou para menos, conforme a assimetria.

Exemplo 8. Os níveis de barulho, medido em decibéis (dB), durante 30 dias num determinado local
do IFS Campus Aracaju estão representados na tabela abaixo.

Nível (dB) Nº de dias


20 |---- 30 8
30 |---- 40 7
40 |---- 50 12
50 |---- 60 2
60 |---- 70 1
 30
__
Para a distribuição acima, vimos que a média é aproximadamente X = 38,7dB e o desvio padrão
 = 10,5 dB . Estabeleça as conclusões relativas aos intervalos de afastamento do desvio padrão em
relação à média.

1.6. Coeficiente de Variação (C.V.)

É uma medida de dispersão relativa usada para comparar em termos relativos o grau de
concentração dos valores de uma série em torno da média. É expressa por:

 __
C.V . = __
 100 % , onde X é a média e  é o desvio padrão.
X

Exemplo 9. Numa empresa, o salário médio dos homens é de R$ 1400,00 com desvio padrão de R$
200,00, e o das mulheres é em média de R$ 1100,00, com desvio padrão de R$ 180,00.

Do ponto de vista da dispersão absoluta, os salários das mulheres são menos dispersos (mais ,
homogêneos) pois, R$ 180,00 < R$ 200,00. No entanto, se levarmos em consideração as médias das
séries de salários, o desvio padrão  H que é 200 em relação 1400 é um valor menos significativo que o
desvio padrão  M que é de 180 em relação a 1100. Observe:

200 180
C.V .H =  100 %  14 ,3% e C.V .M =  100 %  16 ,4%
1400 1100
Prof. Ivonaldo P. Santana
Portanto, concluímos que os salários das mulheres apresentam maior dispersão relativa que o
salário dos homens.

1.6.1. Observação

O fato de o desvio padrão, na forma de medida absoluta, ser expresso na mesma unidade de
medida dos valores da série, seu emprego fica limitado quando desejamos comparar o grau de
dispersão de séries de valores com unidades distintas.

Exemplo 10. Para um grupo de estudantes foi calculada a média e o desvio padrão das estaturas (em
cm) e dos pesos ( em Kg), conforme tabela abaixo:

Medida __ 
X
Estatura 175 cm 5 cm
Peso 68 Kg 2 Kg

Não podemos comparar 2Kg < 5cm. Devemos utilizar o coeficiente de variação:

5 2
C.V .ESTATURAS =  100 %  2,85 % e C.V .PESOS =  100 %  2,94 %
175 68
Portanto, nesse grupo de estudantes, os pesos apresentam maior grau de dispersão.

Exemplo 11. Em experimentos para a determinação de clorofila em plantas, levantou-se a questão de


que se o método utilizado poderia fornecer resultados mais consistentes. Três métodos foram
colocados à prova e 12 folhas de abacaxi foram analisadas com cada um dos métodos. Os resultados
foram os seguintes:

Método __ 
(unidade) X
1(100cm3) 13,71 1,20
2(100g) 61,40 5,52
3(100g) 337,00 31,20

Qual dos métodos mostrou-se menos consistente?

MEDIDAS DE ASSIMETRIA E CURTOSE

1.0. Assimetria

Denomina-se assimetria o grau de desvio ou afastamento da unidade de simetria de uma


distribuição. Se a curva de frequência (polígono de frequência regularizado) de uma distribuição tem
uma “cauda” mais longa à direita da ordenada máxima do que à esquerda, diz-se que a distribuição tem
assimetria positiva. Caso contrário, tem assimetria negativa.
Numa distribuição Simétrica (curva em forma de sino), média, mediana e moda são iguais

Para distribuições assimétricas, as relações de desigualdades entre a média, a mediana e a moda


definem uma medida simples de assimetria.

Prof. Ivonaldo P. Santana


Curva Assimétrica Positiva Curva Assimétrica Negativa
(direita) (esquerda)

A diferença entre a média e a moda pode nos indicar, de forma absoluta se uma distribuição é
simétrica, no entanto, a possibilidade de comparação entre 2 distribuições é obtida através dos
Coeficientes de Assimetria de Pearson.

1º Coeficiente de Assimetria de Pearson 2º Coeficiente de Assimetria Pearson

Se AS = 0, a distribuição é simétrica;

Se 0 < |AS| < 0,15 a distribuição é praticamente simétrica;

Se 0,15 < |AS| < 1, a assimetria é considerada moderada;

Se |AS| > 1, a assimetria é considerada forte.

Exemplo 1. Uma medição do tamanho (em cm), de uma amostra de 40 mudas de Eucalyptus Alba
resultou na seguinte distribuição. Classifique, quanto à assimetria a curva correspondente a essa
distribuição:

Tamanho (cm) f i (nº de mudas)

13 |----- 17 4
17 |-----21 10
21 |-----25 15
25 |-----29 6
29 |-----33 5
Total 30

___
x1 + x2 + x3M+ ...=+167
xn cm __ __
Temos: X = = 22,8 cm ; d = 22,6 X,0−ecm
cm ; M o ==322,4 ,MXo;+=7,0
= 4,55 cm.
n

Através do 1º e do 2º Coeficiente de Assimetria Pearson concluímos que se trata de uma distribuição


com assimetria positiva (à direita), porém, como |AS| < 0,15 ela é praticamente simétrica.

Prof. Ivonaldo P. Santana


1.1. Curtose

Denomina-se curtose o grau de achatamento da curva de uma distribuição em relação a uma


distribuição padrão, denominada curva normal.
Se a distribuição apresenta uma curva mais fechada que a normal, recebe o nome de leptocúrtica.
Se a distribuição apresenta uma curva mais aberta que a normal, recebe o nome de platicúrtica.
A curva normal, base de referência recebe o nome de mesocúritica.

Para medir o grau de curtose podemos utilizar o coeficiente percentílico de curtose:

D1 = PD
onde, Q1 e Q3 são respectivamente o 1º e 3º quartil, = P90 o 10º e o 90º percentil.
109 e

Se K = 0,263, então a curva é mesocúrtica;


Se K < 0,263, então a curva é leptocúrtica;
Se K > 0,263, então a curva é platicúrtica.

Exemplo 2. Classifique, quanto ao grau de curtose, a seguinte distribuição:

fi
Tamanho
(cm) (nº de
mudas)
13 |----- 17 4
17 |-----21 10
21 |-----25 15
25 |-----29 6
29 |-----33 5
Total 30

Temos: Q1 = 19,4 cm; Q3 = 25,7 D1 = P10 = 17 cm


cm; D9 e= P90 = 29,8. Daí,

Através do coeficiente percentílico de curtose, , concluímos que se trata de uma


distribuição leptocúrtica.

Exemplo 3. Classifique quanto à assimetria e quanto à curtose a curva correspondente a distribuição das
30 emissões de óxido de enxofre:
i Emissões de f i (nº de
Óxido de SO2
emissões)
1 5 |----- 9 5
2 9 |-----13 6
3 13 |-----17 10
4 17 |-----21 4
5 21 |-----25 3
6 25 |-----29 2
Total 30
Prof. Ivonaldo P. Santana

Você também pode gostar