Você está na página 1de 26

Universidade de São Paulo

FFCLRP: Introdução a Estatística


Aula – Medidas de Dispersão

Profa: Fernando FF

Ribeirão Pretro
Maio - 2020
MEDIDAS DE DISPERSÃO
Por que Estudar DISPERSÃO?
Considere a seguinte situação
A B C
70 68 10
70 69 30
70 70 90
70 71 100
70 72 120

Média média Média


70 70 70

A média não é suficiente para diferenciar os conjuntos A, B e C


Como Estudar DISPERSÃO?
vamos calcular o desvio de cada valor dos
conjuntos em relação à média

A B C A B C
70 68 10 xi-média xi-média Xi-média
70 69 30 0 -2 -60
70 70 90 0 -1 -40
70 71 100 0 0 20
70 72 120 0 1 30
0 2 50
Média média Média Média média Média
70 70 70 0 0 0

O desvio da média é sempre zero!!!!


Como Estudar DISPERSÃO?
vamos calcular o desvio absoluto
A B C A B C
xi-média xi-média Xi-média |xi-média| |xi-média| |xi-média|
0 -2 -60 0 2 60
0 -1 -40 0 1 40
0 0 20 0 0 20
0 1 30 0 1 30
0 2 50 0 2 50
Média média Média Média média Média
0 0 0 0 1.2 40

A média do desvio absoluto:


𝒏
𝒊=𝟏 𝒙𝒊 − 𝒙
𝑫𝒂 =
𝒏
Como Estudar DISPERSÃO?
Há uma alternativa ao desvio absoluto médio?

A média do desvio absoluto:

𝒏
𝒊=𝟏 𝒙𝒊 − 𝒙
𝑫𝒂 =
𝒏
Como Estudar DISPERSÃO?
Há uma alternativa ao desvio absoluto médio?

A média do desvio absoluto:

𝒏
𝒊=𝟏 𝒙𝒊 − 𝒙
𝑫𝒂 =
𝒏
Sim, a média do desvio quadrático:
𝒏 𝟐
𝒊=𝟏 𝒙𝒊 − 𝒙
𝑫𝒒 =
𝒏
Variância
• Tanto a média quanto a mediana busca resumir o
conjunto de dados. Ou seja, se o conjunto tem 1000
elementos, poderíamos eleger a média ou a mediana
como o representante desse conjunto.
• A ideia é boa, pois a gente não consegue processar
mentalmente 1000 números e dizer o que esta
acontecendo.
• Ao resumir um conjunto tão grande com uma medida,
perdemos informação.

• A variância é uma forma de recuperar parte da


informação perdida.

• Como ela faz isso?


Variância
• A variância mede a flutuação dos dados em torno da
média.

• Dados não agrupados


𝑵
𝟐 𝒙𝒊 −𝒙 𝟐
• σ = 𝒊
variância populacional (tamanho N)
𝑵
𝑵 𝟐
𝒊 𝒙𝒊 −𝒙
• 𝑺𝟐 = variância amostral (tamanho n)
𝒏−𝟏

• Dados agrupados em tabela de frequência (fi)


𝒏
𝒙𝒊 −𝒙 𝟐 𝒇𝒊 𝒏
• σ𝟐 = 𝒊
𝒏𝒇 variância populacional ( tamanho da População: 𝒊 𝒇𝒊 )
𝒊 𝒊
𝒎 𝟐
𝒊 𝒙𝒊 −𝒙 𝒇𝒊
• 𝑺𝟐 = 𝒎 𝒇 −𝟏 variância amostral ( tamanho da amostra: 𝒎
𝒊 𝒇𝒊 )
𝒊 𝒊
Desvio-Padrão
• O desvio-padrão também mede a distância dos dados
em relação à média (desv.padrão= 𝑽𝒂𝒓𝒊â𝒏𝒄𝒊𝒂).

• Dados não agrupados

𝑵 𝒙𝒊 −𝒙 𝟐
• 𝝈= 𝒊
desvio-padrão populacional (tamanho N)
𝑵
𝒏 𝒙𝒊 −𝒙 𝟐
• 𝑺= 𝒊
desvio-padrão amostral (tamanho n)
𝒏−𝟏

• Dados agrupados em tabela de frequência (fi)

𝒏 𝒙𝒊 −𝒙 𝟐 𝒇𝒊
• 𝝈= 𝒊
𝒏𝒇 desvio-padrão populacional
𝒊 𝒊
𝒏 𝒙𝒊 −𝒙 𝟐 𝒇𝒊
• 𝑺 == 𝒊
𝒏 𝒇 −𝟏 desvio-padrão amostral
𝒊 𝒊
Propriedades e Interpretações
• A variância é sempre maior ou igual a zero.

• Portanto o desvio padrão também será um valor positivo ou


zero.
• A variância é uma medida de heterogeneidade dos valores
no conjunto.

• O desvio-padrão esta na mesma escala da média.

• Quando o desvio-padrão é pequeno, significa que os dados


estão próximos da média.
Quando o desvio-padrão grande
significa que os dados estão
longe. O desvio-padrão se
relaciona com a amplitude
dos dados.
Coeficiente de Variação
• O coeficiente de variação é uma medida muito utilizada
para comparar a variação entre dois conjuntos

• Ela também pode ser utilizada para um único conjunto


quando o objetivo é medir o nível de flutuação em
relação à média.

𝝈 𝑺
𝑪𝑽 = ou 𝑪𝑽 = .
𝒙 𝒙

ou

𝝈 𝑺
𝑪𝑽 = . 𝟏𝟎𝟎 (%) ou 𝑪𝑽 = . 𝟏𝟎𝟎 (%)
𝒙 𝒙
Exemplo
 Considere o conjunto de dados da tabela abaixo. Calcule a variância, o
devio-padrão e o coeficiente de variação populacionais.

x fi
2 4
4 5
5 8
7 6
10 2
Total 25
Exemplo

xi fi xifi 𝒙𝒊 − 𝒙 𝟐 𝒇 𝒊

2 4 6 𝟐 − 𝒙 𝟐𝟒

4 5 20 𝟒 − 𝒙 𝟐𝟓

5 8 40 𝟓 − 𝒙 𝟐𝟖

7 6 42 𝟕 − 𝒙 𝟐𝟔

10 2 20 𝟏𝟎 − 𝒙 𝟐 𝟐

Total 25 130

130
média = 5.2 variância
25
xi fi xifi 𝒙𝒊 − 𝒙 𝟐 𝒇 𝒊 𝒙𝒊 − 𝒙 𝟐 𝒇 𝒊

2 4 6 𝟐 − 𝟓. 𝟐 𝟐 𝟒
81,92

4 5 20 𝟒 − 𝟓. 𝟐 𝟐 𝟓
28,8

5 8 40 𝟓 − 𝟓. 𝟐 𝟐 𝟖
1,6

7 6 42 𝟕 − 𝟓. 𝟐 𝟐 𝟔
136,08

10 2 20 𝟏𝟎 − 𝟓. 𝟐 𝟐 𝟐
460,8
Total 25 130 709,2

130 Variância 709,2


média = 5.2 populacional =28,368
25 25
média Variância Desvio-padrão
populacional populacional Coeficiente de variação

28,368 5.32𝑥100
5.2 28,368 =5.32 𝑐𝑣 =
5.2
= 102.426%
Dados Agrupados com Intervalos de Classe
Exemplo: Calcule a variância amostral, desvio-padrão amostral e
coeficiente de variação. Compare a variação deste conjunto com a
variação do conjunto do exercício anterior.

classe fi
0 |----- 200 6
200 |----- 400 14
400 |----- 600 20
600 |----- 800 10
Total 50
Solução
 Montando a tabela :
classe xi fi
0 |----- 200 100 6
200 |----- 400 300 14
400 |----- 600 500 20
600 |----- 800 700 10
Total Total 50
Solução
 Montando a tabela :

xi fi xi fi xi f i
100 6 100 6 600
300 14 300 14 4200
500 20 500 20 10000
700 10 700 10 7000
Total 50 Total 50 21800

21800
média = 436
50
Solução
 Montando a tabela :

xi fi xi f i xi fi 𝒙𝒊 − 𝒙 𝟐 𝒇𝒊 𝒙𝒊 − 𝒙 𝟐 𝒇𝒊
100 6 600 50 6 𝟏𝟎𝟎 − 𝟒𝟑𝟔 𝟐 𝟔 677376
300 14 4200 100 14 𝟐𝟎𝟎 − 𝟒𝟑𝟔 𝟐 𝟏𝟒 258944
500 20 10000 200 20 𝟓𝟎𝟎 − 𝟒𝟑𝟔 𝟐 𝟐𝟎 81920
700 10 7000 270 10 𝟕𝟎𝟎 − 𝟒𝟑𝟔 𝟐 𝟏𝟎 696960
Total 50 21800

Total 50 1715200
21800
média = 436
50
Solução
 Montando a tabela :

xi fi 𝒙𝒊 − 𝒙 𝟐 𝒇𝒊 𝒙𝒊 − 𝒙 𝟐 𝒇𝒊
50 6 𝟏𝟎𝟎 − 𝟒𝟑𝟔 𝟐 𝟔 677376
100 14 𝟐𝟎𝟎 − 𝟒𝟑𝟔 𝟐 𝟏𝟒 258944
200 20 𝟓𝟎𝟎 − 𝟒𝟑𝟔 𝟐 𝟐𝟎 81920
270 10 𝟕𝟎𝟎 − 𝟒𝟑𝟔 𝟐 𝟏𝟎 696960

1715200
Variância Amostral
50 − 1 𝑆 2 = 35004
Solução

A) Variância amostral, desvio padrão amostral e coeficiente de variação

Variância Coeficiente de
média Amostral Desvio-padrão Amostral Variação

187𝑥100
𝑐𝑣 =
436 35004 35004 = 187,1 436
𝑐𝑣 = 43.11%

B) Compare a variação deste conjunto com a variação do conjunto do exercício


anterior.
Coeficiente de Variação do
exercício anterior Coeficiente de
Variação

187𝑥100
𝑐𝑣 =
5.32𝑥100
= 102.426% 𝑐𝑣 =
5.2 436
𝑐𝑣 = 43.11%
Quartis

Se dividirmos a série ordenada em quatro partes, cada uma


ficara com seus 25% de seus elementos. Os elementos que
separam estes grupos são chamados de quartis.

Assim, o primeiro quartil, que indicaremos por Q1, separa a


sequência ordenada deixando 25% de seus valores à
esquerda e 75% de seus valores a direita. Q3 é o contrário.

O segundo quartil, que indicaremos por Q2, separa a


sequência ordenada deixando 50% de seus valores à
esquerda e 50% de seus valores à direita. É a mediana
Amplitude Interquartil
a medida de dispersão que não se altera tanto na
presença de tais valores atípicos. Essa medida se
baseia nos quartis. Portanto é uma medida de dispersão
alternativa ao desvio padrão, chamada de distância ou
Amplitude Interquartil, definida como a diferença entre o
terceiro e o primeiro quartis, ou seja,

𝑨𝑰𝑸 = 𝑸𝟑 − 𝑸𝟏

0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10

Média=3,73 e Mediana=3

S=2,6424 Q1=2 Q3=6 AIQ=4


Amplutde Interquartil

Fonte Pacheco, 2017

Na ausência de outliers o método apresentado na


aula passada para construir o box-plot é um bom
procedimento. Contudo, a presença de outlier
precisa ser colocado em evidência. A regra acima
é o critério que ajuda a resolver este problema.
Referências

 CRESPO, Antônio Arnot. Estatística fácil. Editora Saraiva, 2017.

 VIEIRA, Sonia. Estatística básica. São Paulo: Cengage


Learning, v. 9, 2012..

 DA CUNHA, Sonia Baptista; CARVAJAL, Santiago


Ramírez. Estatistica Basica-a Arte de Trabalhar com Dados.
Elsevier Brasil, 2009.

 PACHECO et al. Aprendendo R. Escola Nacional de Saúde


Público: Fiocruz, 2017.

Você também pode gostar