Escolar Documentos
Profissional Documentos
Cultura Documentos
Medidas Estatísticas
1 − Introdução ........................................................................................................................... 3
3 − Medidas de Variabilidade.................................................................................................. 25
3.1 − Introdução.................................................................................................................. 25
4.1 − Introdução.................................................................................................................. 41
4.4 – Cálculo do percentil usando gráfico de freqüência acumulada (Ogiva de Galton) ... 49
5 - Anexo................................................................................................................................. 67
6 - Bibliografia ......................................................................................................................... 69
Unidade 03 – Medidas estatísticas
1 − Introdução
Na unidade anterior, o nosso esforço foi tentar organizar e resumir os dados coletados de
forma a facilitar o trabalho de quem está analisando os dados. Com a ajuda das tabelas de
freqüência e dos gráficos, vistos anteriormente, podemos ver como é a distribuição dos valores
assumidos por uma variável, ou seja, podemos ver quais os valores que ocorrem com mais
freqüência e quais os valores que ocorrem com menos freqüência. O Gráfico 3.1 mostra a
1
distribuição do PIB per capita dos municípios brasileiros. Neste gráfico podemos observar que
a maioria dos municípios brasileiros apresenta PIB per capita abaixo de 45 mil reais. É ainda
possível observar uma pequena minoria de municípios com PIB per capita acima de 90 mil
reais.
GRÁFICO 3.1 – Distribuição do PIB per capita dos municípios brasileiros em 2004.
2500
2000
Quantidade de municípios
1500
10
0
1000 90 135 180 225 270 315
500
zoom
0
10 45 90 135 180 225 270 315
PIB per capita (em mil reais)
Pelo Gráfico 3.1, podemos notar que há outras características da distribuição que devem ser
consideradas em uma análise estatística. Uma das características que devemos destacar é o
valor típico da distribuição e uma outra é a dispersão dos valores em torno desse valor típico. O
valor típico e a dispersão dos valores quando expressos em números torna-se mais fácil fazer
comparações entre as diversas distribuições. Por exemplo, podemos comparar as distribuições
do PIB per capita dos municípios ano a ano ou mesmo entre estados.
1
O Produto Interno Bruto per capita de cada município foi estimado pelo quociente entre o valor do PIB
do município por sua população residente.
Máquina A
média
Máquina B
média
Máquina C
média
Máquina D
480 485 490 495 500 505 510 515 520 525
média
Peso dos pacotes (em gramas)
Solução ------------------------------------------------------------------------------------------------------------------
Os pacotes de café enchidos pela máquina “A” apresentam um peso típico em torno de 490
gramas (10 gramas a menos do especificado), enquanto que, na máquina B, os pacotes
apresentam um peso típico em torno de 510 gramas (10 gramas a mais). Quanto à dispersão
(ou variabilidade) dos pesos, parece que eles estão igualmente dispersos em torno dos valores
3
típicos. Podemos ainda destacar a presença de um pacote com peso considerado extremo na
máquina “A” (peso de 480 gramas).
Na máquina “C”, os pesos dos pacotes giram em torno de 500 gramas (igual ao especificado),
mas a dispersão dos pesos é muito grande, indicando alguma instabilidade na máquina (os
pesos estão variando de 481 gramas a 520 gramas).
Na máquina “D”, encontramos uma situação que podemos dizer ideal, os pesos giram em torno
do valor especificado (de 500 gramas) e com uma pequena dispersão dos pesos.
2
No gráfico de ponto, cada ponto representa o peso de um pacote de café.
3
Em estatística, costumamos chamar esse valor extremo de outlier.
É a medida estatística que “melhor” representa um conjunto de dados, ela tende a ser o valor
mais típico ou o mais representativo do conjunto de dados. As medidas de posição central
usuais são: média simples, média ponderada, mediana e a moda.
As medidas abaixo se referem aos dados brutos, ou seja, dados não agrupados em tabelas de
freqüência.
• Média
∑x i =1
i
x1 + x 2 + L + x n
x= =
n n
onde
xi = i-ésimo valor da variável
n = tamanho da amostra (quantidade de valores na amostra)
Solução ------------------------------------------------------------------------------------------------------------------
n
∑x
i =1
i
12 + 4 + 12 + 9 + 3 40
x= = = = 8,0 km
n 5 5
média
3 4 5 6 7 8 9 10 11 12
Distância percorrida
A distância média percorrida até a empresa pelos funcionários amostrados é de 8,0 km.
Por outro lado, quando trabalhamos com os dados de uma população (o que não é tão comum
assim na prática), a média passa a ser denominada de média populacional e é denotada pela
letra grega µ (leia-se mi). Na realidade, o cálculo é igual ao da média amostral.
N
∑x
i =1
i
x1 + x 2 + L + x N
µ= =
N N
onde
xi = i-ésimo valor da variável X
N = tamanho da população (quantidade de valores na população)
EXEMPLO 03 - Imagine uma pequena região fictícia com apenas 8 famílias. Abaixo
estão listados as renda (em reais) destas famílias.
Assumindo que esta região é a sua população de interesse, calcule a renda média
populacional destas famílias.
Solução ------------------------------------------------------------------------------------------------------------------
∑x
i =1
i
450 + 560 + L + 580 3960
µ= = = = 495 reais
N 8 8
• Mediana
A mediana de um conjunto de dados é o valor que está exatamente no centro deste conjunto
de valores ordenados. A mediana, portanto, “deixa” metade dos valores abaixo dela e a outra
metade acima. A mediana pode ser denotada por Md ou ~ x (leia-se x til).
Dependendo se n é ímpar ou par, a mediana poderá ter um único valor central ou a média
dos dois valores centrais.
Se n é par
Se n é ímpar
A mediana será a média dos dois valores
A mediana será o único valor central.
centrais.
10 + 15
x = {8, 10, 15} → Md = 10 x = {8, 10, 15, 30} → Md = = 12,5
2
Solução ------------------------------------------------------------------------------------------------------------------
Dados ordenados: 3 4 9 12 12
Como n é ímpar, o conjunto ordenado só tem um único valor central, que é o 9. Portanto, a
mediana amostral será o Md = 9 km. Veja o gráfico e pontos abaixo.
mediana
Cerca da metade (50%) dos funcionários
percorrem menos de 9 km para ir até a
3 4 5 6 7 8 9 10 11 12 empresa.
Distância percorrida
No EXEMPLO anterior, a posição da mediana é pos = 5/2 = 2,5. Como esse valor não é inteiro,
deverá ser arredondado para cima (pos = 3). Portanto, a mediana está na 3ª posição (na série
ordenada), que é Md = 9 km.
Solução ------------------------------------------------------------------------------------------------------------------
Média amostral
n
∑x
i =1
i
12 + 4 + 120 + 9 + 3 140
x= = = = 28,0 km
n 5 5
O valor alto de 120 km fez com a média pulasse de 8 km para 28 km. O cálculo matemático da
média está correto, mas uma média de 28 km não está representando bem as distâncias
percorridas pelos funcionários. Com a exceção de um, todos os valores são menores do que
28 km.
4
Denominados de outliers em estatística.
Mediana amostral
Mesmo com o valor alto de 120 km, a mediana permaneceu em 9 km. Dizemos, então, que a
mediana foi pouco influenciada pelo valor atípico.
• Moda
A moda, denotada por Mo, é o valor que ocorre com mais freqüência no conjunto de dados. Em
uma empresa, por exemplo, o salário modal dos empregados seria o salário mais comum, isto
é, o salário recebido pelo maior número de empregados.
No EXEMPLO 02, só temos uma moda (Mo = 12 km), mas algumas vezes podemos ter
conjuntos de dados com mais de uma moda:
• Média aparada de k%
É a média simples dos dados que permanecem, quando k% das observações ordenadas são
removidas (aparadas) de cada extremidade. A média aparada, denotada por x ap , é uma
medida de posição central que procura ser menos sensível aos valores atípicos (tal como era a
mediana).
EXEMPLO 06 - Os dados abaixo são as idades de vinte alunos de uma sala de aula.
8, 75, 21, 19, 18, 21, 19, 20, 21, 19, 19, 20, 22, 21, 21, 20, 19, 19, 21, 19
Vamos considerar que de fato há um aluno com 75 anos e que o valor 8 foi erro de digitação.
Calcule a média aparada de 10%.
Solução ------------------------------------------------------------------------------------------------------------------
Dados ordenados:
8, 18, 19, 19, 19, 19, 19, 19, 19, 20, 20, 20, 21, 21, 21, 21, 21, 21, 22, 75
Como queremos média aparada de 10%, a quantidade de valores que devem ser retiradas de
cada extremidade é
T = 10⋅20/100 = 2 valores (= 10% de 20)
19 + 19 + L + 21 319
A média aparada é x ap = = = 19,9 anos
16 16
• Média ponderada
É a média das observações x1, x2, ..., xn levando em consideração seus respectivos pesos w1,
w2, ..., wn. A média ponderada, denotado por x p , é dada por:
n
∑w xi =1
i i
w 1x 1 + w 2 x 2 + L + w n x n
xp = =
n w1 + w 2 + L + w n
∑w
i =1
i
Solução ---------------------------------------------------------------------------------------------
Nota (xi) 20 25 28 10
Peso (wi) 1 2 4 8
∑w x
i =1
i i
1 ⋅ 20 + 2 ⋅ 25 + 4 ⋅ 28 + 8 ⋅ 10
Média ponderada: x p = = = 17,47 pontos
n 1+ 2 + 4 + 8
∑w
i =1
i
Sem levar em consideração os pesos de cada prova, a nota média seria igual a 20,75 pontos,
maior que os 17,47 pontos obtidos pela ponderação. O motivo dessa queda é que o aluno tirou
uma nota muito baixa em uma prova com maior peso.
Uma maneira mais prática de calcular a média ponderada é trabalhar com os dados dispostos
em uma tabela.
Observação:
Se os pesos (wi) forem todos iguais, então a média ponderada será igual a média aritmética
simples. Por exemplo, se wi = k, então:
kx + kx 2 + L + kx n k (x 1 + x 2 + L + x n ) x 1 + x 2 + L + x n
∑x i =1
i
xp = 1 = = = =x
k + k +L+ k n⋅k n n
• Média geométrica
A média geométrica dos n valores (positivos) x1, x2, ..., xn é a raiz n-ésima do produtos destes n
valores. A média geométrica, denotada por x g , é calculada algebricamente por:
xg = n x1 ⋅ x 2 ⋅L ⋅ x n
xg = 4 8⋅5⋅3⋅6 = 4
720 = 5,18
Aplicação:
A média geométrica mede a taxa média de variação de uma variável ao longo do tempo, por
exemplo, um crescimento médio de juros compostos com taxas variáveis ao longo de um
período ou uma taxa média de retorno de um investimento ao longo do tempo.
Solução ------------------------------------------------------------------------------------------------------------------
Se houve crescimento de 30%, 26%, 48% e 15% nos faturamentos, então os faturamentos de
cada ano foram multiplicados por 1,30, 1,26, 1,48 e 1,15, respectivamente. Vamos calcular,
então, a média geométrica dos valores 1,30, 1,26, 1,48 e 1,15.
A tabela a seguir mostra a evolução dos faturamentos ao longo do período para o exemplo
anterior, partindo de um faturamento de R$ 100 antes de 2005,
Se usássemos a média geométrica obtida (29,22%) para cada ano teríamos o mesmo
faturamento em 2008
F2008 = 100 * (1,2922 ) * (1,2922 ) * (1,2922 ) * (1,2922 ) = 100 * (1,2922 ) 4 = 278,8 reais
Note que chegamos aos mesmos 278,8 em 2008 na tabela anterior. Esta é a finalidade das
médias - obter o mesmo efeito produzido pelos valores individuais. Caso usássemos a média
aritmética simples das taxas, a taxa média seria de 29,75% (ligeiramente maior que a média
geométrica).
30 + 26 + 48 + 15
x= = 29,75 %
4
Estes 29,75% produziriam um faturamento de R$ 283,4 em 2008, diferente dos R$ 278,8
esperados.
• Média harmônica
4 4
xh = = = 4,848
1 1 1 1 0,8250
+ + +
8 5 3 6
5
Aplicação :
Problemas envolvendo média de velocidades, vazões, taxas e freqüências são, em geral,
resolvidos com a média harmônica. Por exemplo, ao percorrer um mesmo trajeto a 60 km/h na
ida e a 40 km/h na volta, sua velocidade média no percurso não será a média aritmética entre
as velocidades (50 km/h), mas sim a média harmônica, que é igual a 48 km/h.
Algumas observações
É importante destacar que em todas as médias o resultado sempre estará entre o maior e o
menor número dado no conjunto e que para ara os mesmos valores, a média aritmética terá o
maior valor, seguida da média geométrica e depois a média harmônica. Resumidamente, se
xmin e xmax é, respectivamente, o menor e maior valor do conjunto de dados, então temos que:
x mi ≤ x h ≤ x g ≤ x ≤ x max
Se y i = xi ± a ⇒ y = x±a
5
José Luiz Pastore Mello, mestre em ensino de matemática pela USP e professor do Colégio Santa Cruz
em especial para folha de São Paulo.
(2) Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante b,
a média do conjunto fica multiplicada (ou dividida) dessa constante.
Se yi = bxi ⇒ y = bx
(3) Combinando as propriedades (1) e (2), temos:
Se yi = bxi ± a ⇒ y = bx ± a
(4) A soma dos desvios de cada valor xi em torno da média é sempre zero, ou seja,
n
∑ d i = 0 , onde d i = x i − x .
i =1
Solução ------------------------------------------------------------------------------------------------------------------
1 -2 7 4
2 -1 8 8
3 0 9 12
3 0 9 12
4 1 10 16
5 2 11 20
média = 3 soma = 0 média = 9 média = 12
Solução ------------------------------------------------------------------------------------------------------------------
Se cada funcionário recebeu um aumento de 20%, então seu salário foi multiplicado por 1,20.
Portanto, o salário médio após o aumento é de 960 reais (= 800 * 1,20) pela propriedade 3.
• Média
Por esse motivo, o cálculo de uma média amostral é bem parecido com o cálculo da média
ponderada, tendo as freqüências como pesos dos valores.
[x i f i ] ∑
x=
fi ∑
onde xi = i-ésimo valor da variável
fi = freqüência de xi
Σ fi = n tamanho da amostra
Quantidade de
Número de
funcionários
Filhos
(fi)
0 5
1 7
2 5
3 2
4 1
Solução ------------------------------------------------------------------------------------------------------------------
Para facilitar o cálculo da média, vamos acrescentar coluna xifi que é o produto de cada valor xi
pela sua respectiva freqüência fi.
• Mediana
O cálculo da mediana para dados agrupados é bem semelhante àquele utilizado em dados
não-agrupados. Só vamos acrescentar a freqüência acumulada (Fi) para agilizar a localização
da mediana na tabela.
Procedimento
Observação:
No caso de existir uma freqüência acumulada Fi exatamente igual a pos = n/2, a mediana será
igual a média entre dois valores da variável. Um destes valores corresponderá ao Fi e o outro
valor corresponderá ao Fi seguinte.
Solução ------------------------------------------------------------------------------------------------------------------
Solução ------------------------------------------------------------------------------------------------------------------
xi fi Fi
0 4 5 A posição da mediana é pos = n/2 = 20/2 = 10
1 6 10 Como existe uma Fi = 10, então
2 7 17
3 2 19 Md = (1+2)/2 = 1,5 filho
4 1 20
Total ∑fi = 20 -- Portanto, a mediana é Md = 1,5 filho
• Moda
Solução ------------------------------------------------------------------------------------------------------------------
• Média
Como estamos trabalhando com intervalos, temos de decidir qual valor usar para a variável em
cada classe. Se optar por trabalhar com o limite inferior das classes, a média tende a ser
subestimada (ser menor do que realmente é), por outro lado, se optar por trabalhar com o limite
superior das classes, a média tende a ser superestimada (ser maior do que realmente é). Para
evitar a subestimação e superestimação da média, assumimos que os valores estão
distribuídos de forma uniforme dentro da classe e calculamos o ponto médio xi de cada classe.
O cálculo da média é:
[x i f i ]∑
x=
fi ∑
onde: xi e fi são o ponto médio e a freqüência absoluta da classe i
Σ fi = n é o tamanho da amostra
Solução ------------------------------------------------------------------------------------------------------------------
Complete a tabela acrescentando uma coluna com o ponto médio de cada classe (xi) e uma
coluna com o produto x i f i .
• Mediana
l+L
Mediana bruta Md = (ponto médio da classe mediana)
2
n
− Fant
2
Método da interpolação linear Md = l + ⋅ (L − l )
fi
onde,
fi , l e L = freqüência absoluta, limite inferior e superior da classe mediana,
respectivamente.
Fant = freqüência absoluta acumulada anterior à classe mediana.
classes fi Fi
...
f ant Fant
l
| L fi Fi
classe mediana ...
f pos Fpos
Observação:
No caso de existir uma freqüência acumulada Fi exatamente igual a pos = n 2 , a mediana
será o limite superior da classe correspondente.
Solução ------------------------------------------------------------------------------------------------------------------
Md =
8 + 12
= 10 SM Md = 8 +
(10 − 5) ⋅ (12 − 8) = 10,86 SM
2 7
• Moda
A moda em uma tabela de freqüência com classe provavelmente está dentro da classe com a
maior freqüência. Essa classe é denominada de classe modal.
Identificar a classe modal e calcule a moda usando um dos dois métodos abaixo:
l+L
Moda bruta Mo =
2
⋅ (L − l )
D1
Método de Czuber Mo = l +
D1 + D 2
f pos
Método de King Mo = l + ⋅ (L − l )
f ant + f pos
Mo = 3 ⋅ Md − 2 ⋅ x
6
Método de Pearson
onde,
Solução ------------------------------------------------------------------------------------------------------------------
A classe modal é a 8 | 12 (segunda classe), pois ela apresenta a maior freqüência absoluta
(fi = 7).
6
O método de Pearson fornece boa aproximação para o cálculo da moda quando a distribuição analisada
apresenta uma razoável simetria em torno da média. Algumas outras relações também são interessantes, a
partir desse método. Por exemplo, Md = (Mo + 2 ⋅ x ) 3 ou x = (3 ⋅ Md − Mo ) 2 .
Método de Czuber
⋅ (L − l ) ⋅ (12 − 8) = 9,6 SM
D1 2
Mo = l + → Mo = 8 +
D1 + D 2 2+3
Método de King
f pos
⋅ (L − l ) ⋅ (12 − 8) = 9,8 SM
4
Mo = l + → Mo = 8 +
f ant + f pos 5+4
Método de Pearson
Mo = 3 ⋅ Md − 2 ⋅ x → Mo = 3 ⋅ (10,86) − 2 ⋅ (11,6 ) = 9,4SM
EXERCÍCIO 01 - Abaixo temos os saldos (em 100 reais) na conta corrente do Sr. DJ nos
últimos seis meses. Considerando estes dados como amostra, calcule a média amostral, a
mediana e a moda.
EXERCÍCIO 05 - Um jornal anunciou que uma pessoa gasta, em média, 45 minutos por dia
ouvindo música (The Des Moines Register, 5 de Dezembro de 1997). Os seguintes dados
foram obtidos para o número de minutos gastos ouvindo música em uma amostra de 30
indivíduos.
a) Calcule o tempo médio que estes indivíduos amostrados ouvem música. Os dados
amostrados são coerentes com a média populacional anunciada pelo jornal?
b) Calcule a mediana do tempo ouvindo música
EXERCÍCIO 08 - Dona Maria foi à feira e encontrou batatas a R$ 1,50 o quilo e resolveu
comprar 8 kg de batatas. Andando mais um pouco pela feira, ela encontrou batatas a R$ 1,00
kg e comprou mais 4 kg. No caminho de casa, notou que a quitanda do Sr. Manoel estava
vendendo as batatas por R$ 0,60 e resolveu comprar mais 15 kg (vai gostar de batata, hein!).
Qual foi o preço médio que Dona Maria pagou pelo quilo da batata?
Preço Quilo
(xi) (wi)
1,50 8
1,00 4
0,60 15
Quantidade
Peso
de frangos
(em gramas)
fi
960 | 980 60
980 | 1000 160
1000 | 1020 280
1020 | 1040 260
1040 | 1060 160
1060 | 1080 80
EXERCÍCIO 10 - De uma amostra de 500 divórcios ocorridos em uma cidade, foi registado a
duração do casamento (em anos). Os dados estão na tabela abaixo.
Anos de Quantidade de
casamentos divórcios (fi)
0 | 6 280
6 | 12 140
12 | 18 60
18 | 24 15
24 | 30 5
Número de Quantidade de
vestibular candidatos
prestado (fi)
1 75
2 47
3 21
4 7
EXERCÍCIO 12 - O histograma abaixo mostra a distribuição das notas finas de uma turma da
disciplina de Introdução à Estatística. O eixo vertical representa a quantidade de aluno.
Obtenha as seguintes medidas estatísticas: nota média, nota mediana (por interpolação linear),
moda (por Czuber) das notas.
30
24
Quantidade de alunos (fi)
20
11
10
6
5 5
4
3
2
0
20 30 40 50 60 70 80 90 100
Notas
3 − Medidas de Variabilidade
3.1 − Introdução
Para quantificar a variação presente em um conjunto de dados, temos de nos valer das
medidas de dispersão ou de variabilidade. As medidas usuais são:
As medidas abaixo se referem aos dados brutos, ou seja, dados não agrupados em tabelas de
freqüência.
• Amplitude
At = Máximo − Mínimo
At = 10 − 4 = 6
É a medida mais simples de dispersão. Quanto maior for a amplitude, mais afastados estão os
valores (maior dispersão ou variabilidade). A amplitude será sempre maior ou igual a zero,
NUNCA negativa.
Solução ------------------------------------------------------------------------------------------------------------------
Os dois conjuntos abaixo têm mesma amplitude, deixando a entender que ambos têm a
mesma variabilidade, mas o que vemos pelo diagrama de pontos é que a variabilidade não é
igual (é maior no conjunto y).
x = {7, 7, 4, 7, 10} At = 6
3 4 5 6 7 8 9 10 11 12
Distância percorrida
y = {9, 4, 5, 10, 7} At = 6
3 4 5 6 7 8 9 10 11 12
Distância percorrida
A amplitude tem grande aplicação na área de controle de qualidade ou em situações onde
desejamos uma rápida medida de variabilidade dos dados.
O grande inconveniente da amplitude é que ela usa apenas os valores extremos dos dados,
deixando de lado os demais valores. Uma medida que considera todos os valores do conjunto
seria mais interessante e mais justo para representar a variabilidade dos dados.
O desvio médio absoluto, representado por DMA, é uma das medidas de dispersão que leva
em consideração todos os valores do conjunto. O DMA analisa a dispersão dos dados em torno
de um valor central, representado pela média aritmética. O desvio médio absoluto é dado pela
fórmula abaixo:
n
∑x
i =1
i −x
x1 − x + x 2 − x + L + x n − x
DMA = =
n n
onde
xi = i-ésimo valor da variável
n = número de valores (tamanho da amostra)
x i − x = módulo do desvio de xi em relação à média
Como se vê, o desvio médio absoluto pode ser visto como uma média do afastamento dos
valores em relação à média do conjunto. Quanto maior o DMA, mais afastados os valores
estarão da média, portanto maior será a variabilidade. O DMA é uma medida sempre maior ou
igual à zero, NUNCA negativa.
EXEMPLO 19 - Calcule o desvio médio absoluto dos dois conjuntos de dados abaixo.
Solução ------------------------------------------------------------------------------------------------------------------
O modo mais prático de calcular o desvio médio absoluto é formar uma tabela com os valores e
calcular o módulo dos desvios em torno da média. Veja abaixo como ficariam os cálculos.
Conjunto x Conjunto y
xi x −x i xi − x yi y i
−y yi − y
7 0 0 9 2 2
7 0 0 4 -3 3
4 -3 3 5 -2 2
7 0 0 10 3 3
10 3 3 7 0 0
- ∑=0 ∑=6 - ∑=0 ∑ = 10
n n
∑i =1
xi − x
6
∑y
i =1
i −y
10
DMAX = = = 1,2 DMAY = = = 2,0
n 5 n 5
Como o DMAY foi maior que o DMAX, conclui-se que o conjunto y apresenta maior variabilidade
em seus valores do que o conjunto x.
Apesar de usar todos os valores do conjunto e resolver aquele “problema” apresentado pela
amplitude, o desvio médio absoluto também apresenta alguns pontos fracos, dentre eles:
• O DMA é bastante influenciado pelos valores atípicos (outliers);
• Pelo fato de trabalhar com o módulo, certas propriedades estatísticas do DMA são
7
difíceis de serem verificadas .
•
2
Variância amostral (s ) e desvio-padrão amostral (s)
2
A variância amostral, representada por s , é uma medida de variabilidade baseada nos desvios
de cada valor em torno da média. Como esses desvios podem assumir valores positivos e
negativos, a soma de todos eles será sempre zero. Para evitar que a soma dê sempre zero, a
8
variância trabalha com os desvios elevados ao quadrado . A variância é dada pela fórmula
abaixo:
n
∑ (x
i =1
i − x )2
s2 =
n −1
onde
n
∑ (xi =1
i − x )2 = (x 1 − x )2 (x 2 − x )2 + L + (x n − x )2 (soma dos desvios ao quadrado)
A variância é uma média dos desvios ao quadrado. Quanto maior a variância, mais afastados
os valores estarão da média, portanto maior será a variabilidade dos valores. A variância é uma
medida sempre maior ou igual a zero, NUNCA negativa.
Solução ------------------------------------------------------------------------------------------------------------------
Conjunto x Conjunto y
xi x −x i (x i − x ) 2 yi y i
−y (y i − y)2
7 0 0 9 2 4
7 0 0 4 -3 9
4 -3 9 5 -2 4
7 0 0 10 3 9
10 3 9 7 0 0
- ∑=0 ∑ = 18 - ∑=0 ∑ = 26
n n
∑ (x i − x )2
i =1 18
∑ (y
i =1
i − y )2
26
s 2x = = = 4,5 s 2y = = = 6,5
n −1 5 −1 n −1 5 −1
2 2
Como o s X foi menor que o s Y , conclui-se que o conjunto x apresenta menor variabilidade em
seus valores do que o conjunto y (os valores de x estão mais homogêneos em torno da média).
7
Verificar se um estimador é não-viciado e com menor variabilidade.
8
O DMA calcula o módulo de cada desvio, em vez de elevar cada desvio ao quadrado.
Pelo fato de trabalhar com os desvios elevados ao quadrado, a unidade de medida da variância
é também elevada ao quadrado também. Por exemplo, se conjunto x do exemplo anterior se
2
referir à idade (em anos) de cinco crianças, então a variância será igual a 4,5 anos . Se o
conjunto se referir ao salário (em mil reais) de cinco funcionários, então a variância será igual a
2
4.500 reais e, por fim, se o conjunto se referir ao número de filhos de cinco famílias, então a
2
variância será igual 4,5 filhos .
Fica difícil ter alguma interpretação prática para a variância, já que sua unidade de medida não
é a mesma dos dados originais. Para resolver essa pequena inconveniência, bastou tirar a raiz
quadrada do valor da variância, dessa forma, surgiu o desvio-padrão.
∑ (x
i =1
i − x )2
s = variância → s=
n −1
Solução ------------------------------------------------------------------------------------------------------------------
Quanto maior o valor do desvio-padrão, mais afastados os valores estarão da média, portanto
maior será a variabilidade dos valores. A unidade de medida do desvio-padrão é a mesma
unidade dos dados originais. Por exemplo, se conjunto x do exemplo anterior se referir à idade
(em anos) de cinco crianças, então o desvio-padrão será igual a 2,12 anos e, por fim, se o
conjunto se referir ao salário (em mil reais) de cinco funcionários, então o desvio-padrão será
igual a 2.120 reais.
Essa é a pergunta mais freqüente do aluno. O que podemos dizer é que o desvio-padrão é
uma medida do quanto os valores estão afastados da média (ou uns dos outros para ser mais
fácil de entender), sua utilidade é mais visível quando ele é usado para comparar a
variabilidade entre diversos conjuntos de valores. Por exemplo, suponha alguém esteja
interessado em um emprego oferecido por duas pelas empresas. O resumo dos salários
dessas empresas está na tabela abaixo:
Desvio-padrão
Empresa Salário médio
dos salários
A 1500 reais 50 reais
B 1500 reais 250 reais
O salário médio de ambas as empresas é 1500 reais, então a pessoa interessada deve estar
ciente de que o seu salário vai girar em torno desse valor. Analisando o desvio-padrão, vemos
que a variabilidade dos salários na empresa ‘A’ é muito menor indicando que os salários dessa
empresa estão bem próximos de 1500 do que os salários da empresa ‘B’. Então, se a escolha
não fosse influenciada por outros fatores (plano de carreira, plano de saúde, vale refeição, etc),
a empresa ‘A’ seria mais interessante do que a ‘B’.
Por outro lado, quando trabalhamos com os dados de uma população (o que não é tão comum
assim na prática), a variância passa a ser denominada de variância populacional e é
denotado pelo símbolo σ (leia-se sigma ao quadrado). Na realidade, o cálculo é semelhante ao
2
∑ (x
i =1
i − µ )2
σ2 =
N
onde
xi = i-ésimo valor da variável X
µ = média populacional
N = amanho da população
∑ (xi =1
i − µ )2
σ=
N
EXEMPLO 22 - Imagine uma pequena região fictícia com apenas 8 famílias. Abaixo
estão listados as renda (em reais) destas famílias.
Solução ------------------------------------------------------------------------------------------------------------------
∑x
i =1
i
450 + 560 + L + 580 3960
Média populacional: µ = = = = 495 reais
N 8 8
Desvio-padrão populacional:
∑ (x
i =1
i − µ )2
(450 − 495)2 + (560 − 495)2 + L + (580 − 495)2 79200
σ= = = = 99,50
N 8 8
Quando temos os dados de toda a população, o cálculo da variância é feito dividindo a soma
dos desvios ao quadrado pelo tamanho da população N, obtendo, então, uma média desses
desvios. Entretanto, na estatística, freqüentemente trabalhamos com uma amostra apenas e o
desejo é usar essa amostra para obter estimativas de parâmetros da população, entre eles a
2
variância populacional (σ ).
2 2
Ao calcular a variância amostral (s ) usando n no denominador, o valor obtido de s estará
2 2
subestimando a real variância (σ ). Então, para melhorar a estimativa da real variância (σ ),
calculamos a variância usando o n – 1 no denominador, em vez de n.
Há uma fórmula alternativa que nos permite calcular a variância e o desvio-padrão amostral.
n
2 n
2
n
∑
xi
n
∑
xi
1 1 i =1
s2 = ⋅
n −1 ∑
i =1
xi −
2 i =1
n
s=
n −1
⋅ ∑
i =1
xi −
2
n
n n
onde: ∑ x i = x1 + x 2 + L + x n
i =1
∑x
i =1
2
i = x12 + x 22 + L + x 2n
xi Variância:
x i2
7 49 s2 =
1
⋅ 263 −
(35)2
= 4,5
7 49 5 − 1 5
4 16
7 49
10 100 Desvio-padrão:
2
∑ x i = 35 ∑ xi = 263 s = 4,5 = 2,12
Propriedades do desvio-padrão
Suponha que os dados do conjunto x = {x1, x2,..., xn} têm um desvio-padrão sx:
(1) Somando-se (ou subtraindo-se) uma constante a a todos os valores de uma variável, o
desvio-padrão do conjunto não se altera.
Se y i = xi ± a ⇒ s y = sx
(2) Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante b, o
desvio-padrão do conjunto fica multiplicado (ou dividido) dessa constante.
Se yi = bxi ⇒ s y = bs x
(3) Combinando as propriedades (1) e (2), temos:
Se yi = bxi ± a ⇒ s y = bs x
a) Se cada xi for adicionado o valor 6, qual será o desvio-padrão dos ‘novos’ valores?
b) Se cada xi for multiplicado pelo valor 4, qual será o desvio-padrão dos ‘novos’ valores?
Solução ------------------------------------------------------------------------------------------------------------------
Solução ------------------------------------------------------------------------------------------------------------------
Y=
4
( X − 10) + 6 = 4 X − 4 10 + 6 = 4 X − 8 + 6 = 4 X − 2
5 5 5 5 5
4 4 4
Portanto, Y = X − 2 e aplicando a propriedade (3) s y = s x = ⋅ 15 = 12 .
5 5 5
s
CV =
x
Como se pode ver, o CV é adimensional (não tem unidade de medida) e multiplicando o valor
obtido por 100, ele será expresso em percentual (%). O coeficiente de variação é indicado para
comparar variabilidade de variáveis com unidades diferentes ou comparar variabilidade entre
conjuntos com médias bem diferentes.
QUADRO RESUMO
X = Peso de recém- Y = Peso da mãe Z = Altura da mãe Q = Altura do pai
nascidos dos recém-nascidos dos recém-nascidos dos recém-nascidos
(em kg) (em kg) (em cm) (em cm)
média = 5 kg média = 67 kg média = 171 cm média = 175 cm
dp = 0,82 kg dp = 6,78 kg dp = 8,08 cm dp = 10,8 cm
CV = 16,3% CV = 9,4% CV = 4,7% CV = 6,2%
dp = desvio-padrão
9
Variação em torno da média.
Se os dados estão agrupados em tabela sem classe, então xi é o valor da nossa variável de
interesse e fi é a freqüência desse valor. Da mesma forma que levamos em consideração as
freqüências fi no cálculo da média agrupada, também devemos considerá-las no cálculo da
variância e desvio-padrão. As duas fórmulas dão os mesmos resultados e, em se tratando de
tabelas, a segunda fórmula abaixo é mais prática.
n n
2
∑ ( xi − x ) 2
fi
1
n
∑ xi f i
s =
2 i =1
n −1
ou s =
2
⋅
n − 1 i =1 ∑
xi f i −
2 i =1
n
Quantidade de
Número de
funcionários
Filhos
(fi)
0 5
1 7
2 5
3 2
4 1
Solução ------------------------------------------------------------------------------------------------------------------
Para facilitar o cálculo da média, vamos acrescentar coluna xifi, que é o produto de cada valor xi
pela sua respectiva freqüência fi.
Se os dados estão agrupados em tabela com intervalo de classe, então xi é o ponto médio da
classe e fi é a freqüência dessa classe. As duas fórmulas dão os mesmos resultados e, em se
tratando de tabelas, a segunda fórmula abaixo é novamente a mais prática.
n n
2
∑ (x i − x )2 f i
1 n 2
∑ x i fi
i =1
s2 = i =1
ou s2 = ⋅ ∑ x i fi −
n −1 n − 1 i =1 n
Quantidade de
Salários
funcionários
(em SM)
fi
4,0 | 8,0 5
8,0 | 12,0 7
12,0 | 16,0 4
16,0 | 20,0 3
20,0 | 24,0 1
Solução ------------------------------------------------------------------------------------------------------------------
Complete a tabela acrescentando uma coluna com o ponto médio de cada classe (xi) e uma
coluna com o produto x i f i .
Variância amostral
n
2
n
∑ xi f i
= 1 ⋅ 3120 − (232)
2
1
s =
2
⋅
n − 1 i =1∑xi f i −
2 i =1
n 20 − 1 20
= 22,574 (SM)2
a) Regra empírica
Para conjunto de dados simétricos em forma de sino, uma útil regra prática pode ser aplicada a
estes dados. Esta regra, algumas vezes chamada de regra empírica, nos diz que:
Como exemplo, suponha que as notas dos candidatos em um vestibular tenham uma média de
90 pontos com um desvio-padrão de 20 pontos. Assumindo que as notas se distribuem
simetricamente em torno da média (em forma de sino), podemos dizer que:
Cerca de 95,4% dos alunos obtiveram notas dentro do intervalo 90 ± (2*20) = 90 ± 40, ou seja,
de 50 pontos a 130 pontos (nove de cada dez tiram notas de 50 a 130 pontos).
A regra acima deve ser usada em conjunto de dados distribuídos simetricamente em torna da
média em forma de sino. Veja as figuras abaixo que mostra uma distribuição simétrica e
assimétrica.
Uma alternativa é o uso da regra do Tchebychev, usada para situações mais gerais.
b) Regra Tchebychev
<<< Incluir depois >>>
valor − média
z= onde dp = desvio-padrão
dp
O escore z pode ser usado para classificar um valor como atípico (valor não-usual, não
comum ou outlier) ou típico (valor usual ou comum). Para conjunto de dados simétricos em
torno da média podemos usar a regra abaixo:
Como exemplo, considere que os homens adultos em geral têm uma altura média de 175 cm
com um desvio-padrão de 6 cm. O jogador de basquetebol norte-americano Michael Jordan
tem uma altura de 1,98 metro, portanto seu escore z é
Como z = 3,8 é maior que 2, então podemos concluir que a altura de Michael Jordan não é
comum em homens adultos em geral (esta altura seria um valor não-usual).
E o jogador brasileiro Romário que tem altura de 1,69 metro, o que você poderia dizer sobre
sua altura? Tente responder.
O escore z também pode ser usado comparar valores vindo de diferentes conjuntos de
dados.
Por exemplo, suponha que uma prova foi aplicada aos alunos de duas turmas (A e B). Na
turma A, a nota média foi de 10 pontos com desvio-padrão de 5 pontos. Na turma B, a nota
média foi de 15 pontos com desvio-padrão de 10 pontos. Vamos comparar o desempenho de
dois alunos:
18 − 10
z Narizinho = = 1,6 Significa que a nota de Narizinho está 1,6 desvio-padrão acima
5 da média da sua turma (A).
Usando o escore z podemos concluir que a aluna Narizinho teve um desempenho melhor
dentro da sua turma do que o aluno Pedrinho.
EXERCÍCIO 15 - De uma amostra de 500 divórcios ocorridos em uma cidade, foi registado a
duração do casamento (em anos). Os dados estão na tabela abaixo.
Anos de Quantidade de
casamentos divórcios (fi)
0 | 6 280
6 | 12 140
12 | 18 60
18 | 24 15
24 | 30 5
EXERCÍCIO 16 - O histograma abaixo mostra a distribuição das notas finas de uma turma da
disciplina de Introdução à Estatística. O eixo vertical representa a quantidade de aluno. Calcule
o coeficiente de variação (CV) das notas obtidas pelos alunos.
30
24
Quantidade de alunos (fi)
20
11
10
6
5 5
4
3
2
0
20 30 40 50 60 70 80 90 100
Notas
Operário 1 2 3 4 5 6 7 8 9
Atual seqüência 24 25 27 22 23 28 26 28 29
Nova seqüência 21 23 28 27 24 26 25 22 23
Diferenças (D= A-N) 3
10
Isto é denominado de intervalo de confiança para dados emparelhados.
4.1 − Introdução
As medidas separatrizes abaixo se referem aos dados brutos, ou seja, dados não-agrupados
em tabelas de freqüência.
• Quartil
Há três quartis (Q1, Q2, Q3), que juntos dividem a distribuição em quatro partes iguais com
cerca de um quarto (ou seja, 25%) dos elementos em cada parte.
Primeiro Quartil
O primeiro Quartil, simbolizado por Q1, é o valor que divide o conjunto ordenado de valores
em duas partes, tais que um quarto (ou 25%) dos valores sejam menores do que ele e três
quartos (ou 75%) dos valores dos restantes sejam maiores (ver figura a).
Segundo Quartil
O segundo Quartil, simbolizado por Q2, é o valor que divide o conjunto ordenado de valores
em duas partes, tais que dois quartos (ou 50%) dos valores sejam menores do que ele e dois
quartos (ou 50%) dos valores dos restantes sejam maiores. Note que o segundo quartil é a
própria mediana, ou seja, Q2 = Md (ver figura b).
Terceiro Quartil
O terceiro Quartil, simbolizado por Q3, é o valor que divide o conjunto ordenado de valores
em duas partes, tais que três quartos (ou 75%) dos valores sejam menores do que ele e um
quarto (ou 25%) dos valores dos restantes sejam maiores (ver figura c).
Q1 Q2 = Md Q3
(a) (b) (c)
25% 25%
25%
25%
Q1 Q2 Q3 Livro do Barbeta, 2004
Primeiro
Quartil Segundo Terceiro
Quartil Quartil
Não há um consenso mundial sobre um procedimento único para obter os quartis. Vamos usar
o seguinte procedimento:
Solução ------------------------------------------------------------------------------------------------------------------
Ordenando os dados: 2, 2, 2, 3, 3, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 15, 15, 16, 18, 18 n = 20
3+6
Q1 = = 4,5 km Cerca de 25% dos funcionários percorrem menos de 4,5 km
2 até a empresa e os restantes (75%) percorrem mais de 4,5
km.
Segundo quartil (Q2)
k=2 posição → pos = 2 ⋅ 20 4 = 10 (o Q1 será a média dos valores que estão na 10ª e 11ª
posição no conjunto ordenado)
Obs: O cálculo acima não precisava ser feito. Um número entre 8 e 8 só pode ser o 8 mesmo.
9 + 15
Q3 = = 12,0 km Cerca de 75% dos funcionários percorrem menos de 12 km
2
até a empresa e os restantes (25%) percorrem mais de 12
km.
• Decil
Há nove decis (D1, D2, ..., D9), que juntos dividem a distribuição em dez partes iguais com cerca
de 10% dos elementos em cada parte. Lembre-se de que a divisão em partes iguais se refere
ao número de elementos em cada parte.
Decil k (k = 1, 2, ...., 9)
O Decil k, simbolizado por Dk, é o valor que divide o conjunto ordenado de valores em duas
partes, tais que (10*k)% dos valores sejam menores do que ele e os restantes sejam maiores.
Por exemplo:
Decil 7 (D7)
É o valor que divide em duas partes, tais que 70% dos valores sejam menores do que ele e
os 30% restantes sejam maiores.
Decil 5 (D5)
É o valor que divide em duas partes, tais que 50% dos valores sejam menores do que ele e
os 50% restantes sejam maiores.
O procedimento que vamos usar é o mesmo usado para o cálculo dos quartis.
Solução ------------------------------------------------------------------------------------------------------------------
Ordenando os dados: 2, 2, 2, 3, 3, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 15, 15, 16, 18, 18 n = 20
Decil 9 (D9)
k=9 posição → pos = 9 ⋅ 20 10 = 18 (o D9 será a média dos valores que estão na 18ª e 19ª
posição no conjunto ordenado)
16 + 18
D9 = = 17 km Cerca de 90% dos funcionários percorrem menos de 17 km até
2 a empresa e os 10% restantes percorrem mais de 17 km.
• Percentil
Há 99 percentis (P1, P2, ..., P99), que juntos dividem a distribuição em cem partes iguais com
cerca de 1% dos elementos em cada parte.
O Percentil k, simbolizado por Pk, é o valor que divide o conjunto ordenado de valores em
duas partes, tais que k% dos valores sejam menores do que ele e os restantes sejam maiores.
Por exemplo:
Percentil 70 (P70)
É o valor que divide em duas partes, tais que 70% dos valores sejam menores do que ele e
os 30% restantes sejam maiores.
Percentil 50 (P50)
É o valor que divide em duas partes, tais que 50% dos valores sejam menores do que ele e
os 50% restantes sejam maiores. Note que o P50 é a mediana.
O procedimento que vamos usar é o mesmo usado para o cálculo dos quartis.
Solução ------------------------------------------------------------------------------------------------------------------
Ordenando os dados: 2, 2, 2, 3, 3, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 15, 15, 16, 18, 18 n = 20
↑ ↑
Percentil 25 (P25) - k = 25 posição → pos = 25 ⋅ 20 100 = 5
Como 5 é um valor inteiro, então o percentil P25 será a média dos 5º e 6º valores no conjunto
ordenado. Ou seja,
3+6
P25 = = 4,5 km Cerca de 25% dos funcionários percorrem até 4,5 km até a
2 empresa e os 75% restantes percorrem mais de 4,5 km.
O cálculo do quartil, decil e percentil para dados agrupados em tabelas de freqüência (com ou
sem intervalo de classe) segue o mesmo raciocínio empregado no cálculo da mediada.
Como há uma relação entre o percentil e o quartil e decil, os cálculos que serão visto a seguir
serão feitos apenas para os percentil.
Observação:
No caso de existir uma freqüência acumulada Fi exatamente igual a pos = k⋅n/100, o Percentil
será a média aritmética entre o valor da variável correspondente a essa freqüência acumulada
é a seguinte.
Quantidade de
Número de
funcionários
Filhos
(fi)
0 5
1 7
2 5
3 2
4 1
Solução ------------------------------------------------------------------------------------------------------------------
Número de filhos
fi Fi
xi
0 5 5
1 7 12
2 5 17
3 2 19
4 1 20
Total ∑ fi = 20 --
• Percentil 75 (P75)
• Percentil 95 (P95)
pos = 95 ⋅ 20 100 = 19 (como existe um pos = Fi = 19, então o percentil será uma média do
valor xi = 3 dessa linha com o valor xi = 4 da linha seguinte)
3+4
P95 = = 3,5
2
• Decil 3 (D3)
Pk = l +
pos − Fant (
⋅ (L − l )
)
fi
onde,
fi , l e L = freqüência absoluta, limite inferior e superior da classe percentil,
respectivamente.
Fant = freqüência absoluta acumulada anterior à classe percentil.
classes fi Fi
...
f ant Fant
l
| L fi Fi
classe percentil ...
f pos Fpos
Observação:
No caso de existir uma freqüência acumulada Fi exatamente igual a pos = (k ⋅ n ) 100 , o
percentil será o limite superior da classe correspondente.
Solução ------------------------------------------------------------------------------------------------------------------
Salários fi Fi
4,0 | 8,0 5 5
8,0 | 12,0 7 12
12,0 | 16,0 4 16
16,0 | 20,0 3 19
20,0 | 24,0 1 20
Total 20 --
• Percentil 95 (P95)
pos = 95 ⋅ 20 100 = 19 (P95 está na quarta classe, pois é Fi = 20 é imediatamente
superior a 19)
Pk = 20 +
(19 − 19)
⋅ (24 − 20) = 20
1
• Q3
Pk = 12 +
(15 − 12)
⋅ (16 − 12) = 15
4
• Decil 3 (D3)
Pk = 8 +
(6 − 5) ⋅ (12 − 8) = 8,57
7
O gráfico boxplot (ou gráfico de caixa) é uma representação gráfica que descreve as seguintes
características importantes de uma distribuição de dados: medida de posição central, medida
de dispersão, desvio da simetria e identificação de valores atípicos ou extremos (outliers).
Há duas formas de construir o boxplot. Uma delas é a construção do gráfico sem se preocupar
com a identificação de valores extremos e a segunda com a identificação dos valores atípicos
(caso existam).
D = Q3 – Q1
Q1 Q2 Q3
o Boxplot com identificação de valores atípicos ou extremos.
Segundo o critério usado pelo boxplot, todo valor que não pertence ao intervalo
[Q1 − 1,5 ⋅ D ; Q3 + 1,5 ⋅ D ] é considerado um valor atípico (outlier) e é identificado no gráfico
com o asterisco (*).
* * *
Valores atípicos
Valor atípico
Q1 − 1,5D Q1 Q2 Q3 Q3 + 1,5D
D = Q3 – Q1
As linhas verticais em Q1 - 1,5⋅D e Q3 + 1,5⋅D não precisam estar no gráfico, elas só foram
colocadas para ajudá-lo a visualizar os limites máximo e mínimo dos valores considerados
“normais” (que não são valores extremos) .
Quanto maior o comprimento da caixa maior é variabilidade dos dados, portanto a distância
interquatílica (D) pode ser vista também como uma medida de dispersão, tal como são a
variância e o desvio-padrão.
Os gráficos boxplot abaixo comparam as notas finais de uma disciplina em três turmas. A
inspeção dos gráficos revela que existe uma grande variabilidade nas notas dos alunos na
11
turma B e uma pequena variabilidade nas notas na turma A . A performance foi melhor na
12
turma A e pior na turma C .
Existe um valor extremo (um aluno com uma nota muito grande) na turma A e um alunos com
nota muito pequena na turma C. Não existe nenhum valor extremo em B.
100
90
80
Notas finais
70
60
50
40
30
Turma A Turma B Turma C
11
Observe que a caixa, na turma B, é mais comprida (maior D =distância interquatílica), enquanto que, na turma A, a caixa é menor
em comprimento.
12
Observe a linha do meio (a linha da mediana), ela está em torno de 80 pts, na turma A, e em torno de 60 pts na turma C.
Quartis
Região Rendimento familiar per capita (em SM) Q1 Q2 Q3
Brasil 30 44 80 100 130 150 180 352 580 ? 130 180
São Paulo 50 82 150 180 208 250 300 500 650 150 208 300
Nordeste 10 15 55 65 68 75 80 192 300 55 68 ?
FONTE: Dados hipotéticos SM (salário-minimo
em 1999) = 136,00 reais
900
800
700
*
600
Salário-mímimo
500
400
300
200
100
Na distribuição assimétrica à direita, a média tende a estar à direita da mediana, enquanto que
na distribuição assimétrica à esquerda, a média tende a estar à esquerda da mediana (veja as
"formas" teóricas na figura abaixo). Então, se você tem um conjunto de dados, onde a média é
bem maior do que a mediana é provável que seus dados apresentem assimetria à direita, por
outro lado se a média for bem menor do que a mediana, então provavelmente seus dados
apresentam assimetria à esquerda.
3 ⋅ (x − Md )
As =
dp
Q 3 − 2Md + Q1
IQ =
(Q 3 − Q1 )
OBS: As = módulo de As
-1 -0,15 0 +0,15 +1
Forte Moderada Fraca Moderada Forte
assimetria assimetria assimetria assimetria assimetria
Solução ------------------------------------------------------------------------------------------------------------------
3 ⋅ (9,95 − 9,90)
Distribuição 1: As = = 0,08 → Fraca assimetria positiva
1,90
3 ⋅ (2,38 − 2,23)
Distribuição 2: As = = 0,44 → Moderada assimetria positiva
1,03
3 ⋅ (0,85 − 0,94)
Distribuição 3: As = = -1,42 → Forte assimetria negativa
0,19
Se a linha no meio (que representa a mediana) do gráfico boxplot estiver bem no centro da
caixa é provável que os dados venham de uma distribuição simétrica (ver painel A).
Caso a linha do meio esteja mais próxima do terceiro quartil (Q3) é provável que os dados
venham de uma distribuição com assimetria negativa (ver painel B).
Caso a linha do meio esteja mais próxima do primeiro quartil (Q1) é provável que os dados
venham de uma distribuição com assimetria positiva (ver painel C).
Tipos de curtose
Para medir a curtose podemos usar o coeficiente percentílico de curtose, cuja fórmula é:
Q 3 − Q1
C=
2(P90 − P10 )
0,263
Curva
Mesocúrtica
Solução ------------------------------------------------------------------------------------------------------------------
935 − 814
C= = 0,252
2 ⋅ (1012 − 772)
80,3 − 63,7
C= = 0,263
2 ⋅ (86,6 − 55,0)
45,6 − 28,8
C= = 0,287
2 ⋅ (49,8 − 20,5)
EXERCÍCIO 18 - Um jornal anunciou que uma pessoa gasta, em média, 45 minutos por dia
ouvindo música (The Des Moines Register, 5 de Dezembro de 1997). Os seguintes dados
foram obtidos para o número de minutos gastos ouvindo música em uma amostra de 30
indivíduos.
funcionário 1 2 3 4 5 6 7 8 9 10 11 12
salário 2210 2255 2825 2350 2380 2390 2420 2380 2440 2450 2550 2630
b) Classifique o salário 2.825 reais como sendo "usual" ou "raro" usando o z-escore.
Justifique.
c) Salários fora do intervalo [Q1 – 1,5*D ; Q3 + 1,5*D ], com D = Q3 –Q1, são considerados
atípicos (outliers) em relação aos demais salário. Dos funcionários amostrados, liste
(se houver) os funcionários com rendimentos considerados muito pequenos ou
grandes.
d) Uma outra forma de verificar valores atípicos é verificar se há valores fora do intervalo
[ x − 2 ⋅ dp ; x + 2 ⋅ dp ]. Dos funcionários amostrados, liste (se houver) os funcionários com
salários considerados atípicos.
EXERCÍCIO 20 - tabela abaixo mostra a duração do casamento (em anos) de uma amostra
de 500 divórcios ocorridos em uma cidade.
Anos de Quantidade de
casamentos divórcios (fi)
0 | 6 280
6 | 12 140
12 | 18 60
18 | 24 15
24 | 30 5
QUESTÃO 1 - O Sr. José anotou o saldo (em reais) em sua conta corrente no final de cada
mês durante o segundo semestre de 20xx. Considere este dados como se fosse uma amostra.
-100 150 -80 150 203 -200
a) Calcule as medidas de posição central usuais para o saldo: média amostral, mediana
amostral e a moda.
b) Calcule as medidas de dispersão usuais para o saldo: variância amostral, desvio-padrão
amostral, amplitude e coeficiente de variação.
c) Calcule as seguintes medidas de posição não-central para o saldo: Percentil 80 (P80) e o
primeiro quartil (Q1).
Solução -------------------------------------------------------------------------------------------------------------------
a) Calcule as medidas de posição central usuais para o saldo: média amostral, mediana
amostral e a moda.
Repare que temos dados brutos, ou seja dados individuais que não estão agrupados em tabela
de freqüência.
x=
∑ x i = (−100) + 150 + (−80) + 150 + 203 + (−200) = 123 = 20,5 reais
n 6 6
Como o conjunto tem seis valores (n = 6), não teremos um único valor central e sim DOIS
valores centrais. A mediana, portanto será a média entre estes dois valores.
Lembre-se
Se n = par A mediana será a média dos dois valores centrais
Se n = ímpar A mediana será o único valor central
mo = 150 reais (valor que repete mais, ou seja, que aparece mais vezes)
• Variância amostral:
s2 =
∑ (x i − x )2 = (x1 − x )2 + (x 2 − x )2 + L (x n − x )2
n −1 n −1
(−100 − 20,5) + (150 − 20,5) + (−80 − 20,5) 2 + (150 − 20,5) 2 + (203 − 20,5) 2 + (−200 − 20,5) 2
2 2
=
6 −1
(−120,5) 2 + (129,5) 2 + (−100,5) 2 + (129,5) 2 + (182,5) 2 + (−220,5) 2
=
6 −1
140087,5
= = 28017,5 (reais) 2
5
• Desvio-padrão amostral:
• Amplitude
• Coeficiente de variação
OBS: Quando temos nos dados valores positivos e negativos, a média costuma ser muito
pequena em relação ao desvio-padrão. Nestes casos, não é comum calcular o CV, pois seu
valor poderá ser muito alto (como foi neste exemplo).
• Percentil 80 (P80)
P80 = 150 reais (Interpretação: Cerca de 80% das vezes o saldo do Sr. José será menor
ou igual que 203 reais)
• Percentil 50 (P50)
Interpretação: Cerca de 50% das vezes o saldo do Sr. José será menor ou igual a 35 reais
Q1 = -100 reais (Interpretação: Cerca de 25% das vezes o saldo do Sr. José será menor ou
igual a -100 reais)
QUESTÃO 2 - O histograma abaixo mostra a distribuição das notas obtidas pelos alunos na
primeira prova presencial de Estatística em 2007 no curso virtual de Ciências Contábeis.
34
35
30
Número de alunos
25
25
22
20
15
10
7 8
0
0 6 12 18 24 30
Pontos obtidos na primeira prova presencial
c) Calcule a mediana (Md) e o terceiro quartil (Q3) dos pontos obtidos pelos alunos. Escreva
uma frase interpretando o Q3.
d) Qual a moda (usando método de Czuber) dos pontos obtidos pelos alunos.
e) Compare a variabilidade das notas obtidas pelos alunos com a variabilidade do saldo na
conta corrente do Sr. José (QUESTÃO 1). Onde ocorreu a maior variabilidade? Qual a
medida estatística que você usou para comparar as variabilidades?
Solução -------------------------------------------------------------------------------------------------------------------
Os pontos dos alunos foram divididos em cinco classes (intervalos) com a mesma amplitude. A
primeira classe é a 0 | 6 pontos e a última é 24 | 30 pontos. O eixo vertical representa a
quantidade de alunos. A tabela que representa o histograma acima é:
Note que agora temos os dados agrupados em TABELA DE FREQÜÊNCIA COM CLASSE.
Para calcular a média, mediana e o desvio-padrão iremos precisar calcular inicialmente o ponto
2
médio de cada classe (xi) e depois os produtos xi*fi, xi *fi
Para ver como foram feitos os cálculos, pegaremos a quarta classe como referência.
• Media amostral:
x=
∑ [x f ] = 1.722 = 17,94 pontos
i i
∑f i 96
2
• Variância amostral (s ) e desvio-padrão amostral (s)
RESPOSTA: A média amostral foi 17,94 pontos e o desvio-padrão amostral foi 6,91 pontos.
b) Calcule a mediana (Md) e o terceiro quartil (Q3) dos pontos obtidos pelos alunos. Escreva
uma frase interpretando o Q3.
A classe onde está Md é a classe com freqüência absoluta acumulada (Fi) imediatamente
superior a 48. Portanto, seria a 3ª classe (12 | 18 )
n *
− Fant
Md = l * +
2
( )
⋅ L* − l * = 12 +
(48 − 15)
⋅ (18 − 12) = 17,82 pontos
f i* 34
A classe onde está Q3 é classe com freqüência acumulada (Fi) imediatamente superior a
24).
pos = 72. Portanto, a classe é quarta classe (18 |
Q3 = l* +
(pos − F ) ⋅ (L
*
ant *
)
− l * = 18 +
(72 − 49)
⋅ (24 − 18) = 23,52 pontos
f i* 25
INTERPRETAÇÃO: Cerca de 75% dos alunos obtiveram notas menores ou iguais a 23,52
pontos.
c) Qual é a moda (usando método de Czuber) dos pontos obtidos pelos alunos.
Primeiro vamos identificar a classe modal que é a aquela com maior freqüência absoluta (fi)
Classe modal: 3ª classe (12 | 18)
D1 = f i − f ant = 34 – 8 = 26
D 2 = f i − f pos = 34 – 25 = 9
Mo = l * +
D1
D1 + D 2
(
⋅ L* − l * = 12 + )
26
26 + 9
⋅ (18 − 12) = 16,46 pontos
d) Compare a variabilidade das notas obtidas pelos alunos com a variabilidade do saldo na
conta corrente do Sr. José (QUESTÃO 1). Onde ocorreu a maior variabilidade? Qual a
medida estatística que você usou para comparar as variabilidades?
Solução -------------------------------------------------------------------------------------------------------------------
Como se trata de variáveis com unidades de medidas diferentes (um é em pontos e o outro é
em reais), então não há como usar o desvio-padrão para comparar a variabilidade. Devemos,
portanto, usar o coeficiente de variação (CV)
Solução -------------------------------------------------------------------------------------------------------------------
a) Qual a média salarial dos funcionários que permaneceram? Houve uma grande diferença
no salário médio desta empresa com o gerente e sem o gerente?
Se o salário médio dos 15 era 1800, então os 15 juntos ganhavam um salário total de
15*1800 = 27000 reais. Se o gerente saiu, e ele ganhava 15000, então os 14 funcionários que
ficaram passaram a ganhar 27000 – 15000 = 12000 reais. Portanto, a média agora será
média = 12000 / 14 = 857,14 reais
média = 857,14 reais
b) Você acha justo dizer (antes de o gerente sair) que os funcionários ganhavam em média
R$ 1.800,00?
Não acho que 1800 reais fosse uma média salarial que melhor representasse os salários
daqueles funcionários. O alto salário do gerente era o responsável pela média salarial ser tão
alta.
QUESTÃO 4 - Considerando a amostra x = {62, 75, b, 78, 82, 64} e que a média amostral é
x = 69,5 , determine a o valor de ‘b’.
Solução -------------------------------------------------------------------------------------------------------------------
x ==
∑ x i = 62 + 75 + b + 78 + 82 + 64 = 69,5
n 6
361 + b = 6*69,5
361 + b = 417
b = 417 – 361
b = 56
5 - Anexo
Na grande maioria das vezes os dados que temos representam uma amostra retirada de uma
população de interesse. E se, de repente, os nossos dados representarem uma população,
como iremos calcular a média populacional, a variância populacional e o desvio-padrão
populacional?
Média
Média populacional (µ) Média amostral ( x )
N n
∑ xi
x + x2 + L + x N
∑x
i =1
i
x1 + x 2 + L + x n
i =1
µ= = 1 x= =
N N n n
Na realidade, para as médias a única diferença é na notação usada: µ para média populacional
e x para média amostral.
Variância
2 2
Variância populacional (σ ) Variância amostral (s )
N n
∑ (x i − µ )2 ∑ (x
i =1
i − x )2
i =1
σ2 = s2 =
N n −1
2 2
Além da diferença na notação usada (σ para variância populacional e s para variância
amostral) note que no denominador de σ usa-se N, enquanto que s o usa-se n – 1.
2 2
Desvo-padrão
Desvio-padrão populacional (σ) desvio-padrão amostral (s)
N n
∑ (x i − µ )2 ∑ (xi =1
i − x )2
i =1
σ= s=
N n −1
6 10 16 12
∑x
i =1
i
6 + 10 + 16 + 12 44
Média populacional: µ = = = = 11 milhões (PIB médio destes estados)
4 4 4
∑ (x
i =1
i − µ )2
(6 − 11)2 + (10 − 11)2 + (16 − 11)2 + (12 − 11)2
Variância populacional: σ 2 = =
N 4
25 + 1 + 25 + 1 52
= = = 13
4 4
N
∑ (x
i =1
i − µ )2
Desvio-padrão populacional: σ = = var iância = 13 = 3,61 milhões
N
EXEMPLO: Imaginem um país hipotético com vários estados, onde apenas 4 estados foram
sorteados aleatoriamente (amostra de 4 estrados) e registrado o PIB (em milhões de dólares)
de cada um deles.
6 10 16 12
Como os 4 estados foram sorteados de uma população de vários estados, então os valores
acima vêm de uma amostra (n = 4) e não de uma população. Neste caso, a média amostral, a
variância amostral e o desvio-padrão amostral são:
4
∑x
i =1
i
6 + 10 + 16 + 12 44
Média amostral: x = = = = 11 milhões (PIB médio destes estados)
4 4 4
n
∑ (x
i =1
i − x )2
Variância amostral: s2 =
n −1
=
(6 − 11)2 + (10 − 11)2 + (16 − 11)2 + (12 − 11)2
4 −1
25 + 1 + 25 + 1 52
= = 17,33 milhões
2
=
3 3
n
∑ (x
i =1
i − x )2
Desvio-padrão amostral: s = = var iância = 17,33 = 4,16 milhões
n −1
6 - Bibliografia