Você está na página 1de 52

AULA 3

Medidas estatísticas associadas à variáveis


quantitativas
Medidas de posição ou de tendência central

Mostram o valor representativo em torno do qual os dados se distribuem. São


utilizadas para sintetizar em um único número o conjunto de dados observados
Média aritmética
A média aritmética (ou simplesmente média) de um conjunto de n observações,
x1, x2, ... , xn, da variável X (é usual denotar variáveis por X, Y, Z, etc) é o
quociente da divisão por n da soma dos valores, distintos ou não, dessas
observações. Pode-se escrever:

𝒏
𝒙𝟏 + 𝒙𝟐 + 𝒙𝟑 + ⋯ + 𝒙𝒊 𝟏
𝒙= = 𝒙𝒊 𝒄𝒐𝒎 𝒊 = 𝟏, 𝟐, 𝟑 … . , 𝒏
𝒏 𝒏
𝒊=𝟏
Se ni representa a freqüência da observação 𝒙𝒊 𝒐𝒏𝒅𝒆 𝒊 = 𝟏, 𝟐, … , 𝒌 , então

𝒌
𝒏𝟏 . 𝒙𝟏 + 𝒏𝟐 . 𝒙𝟐 + 𝒏𝟐 . 𝒙𝟑 + ⋯ + 𝒏𝒌 . 𝒙𝒌 𝟏
𝒙= = 𝒏 𝒊 . 𝒙𝒊
𝒏 𝒏
𝒊=𝟏
𝒌
𝒏𝟏 . 𝒙𝟏 + 𝒏𝟐 . 𝒙𝟐 + 𝒏 𝟐 . 𝒙𝟑 + ⋯ + 𝒏𝒌 . 𝒙𝒌 𝟏
𝒙= = 𝒏𝒊 . 𝒙 𝒊
𝒏 𝒏
𝒊=𝟏

𝒏
em que se 𝐧 = 𝒌𝒊=𝟏 𝒏𝒊 ; e se𝒇𝒊 = 𝒏𝒊 representa a freqüência relativa da
observação xi, i = 1, 2, ..., k, então a equação anterior também pode ser escrita
como:
𝒌

𝒙= 𝒇𝒊 . 𝒙𝒊
𝒊=𝟏

Exemplo 1. Considerando a tabela apresentada na sequência, determine o valor


da resistência elétrica média.
Exemplo

𝒙𝟏 + 𝒙𝟐 + 𝒙𝟑 + ⋯ + 𝒙𝒊 𝟏𝟔𝟔 + 𝟏𝟔𝟐 + 𝟏𝟓𝟓 + ⋯ + 𝟏𝟔𝟏


𝒙= = = 𝟏𝟔𝟎, 𝟔𝟐𝟓
𝒏 𝟒𝟎
Caso os dados tenham sido tabulados em frequências:
R(Ω) Frequência nixi
150 1 150
151 1 151
152 1 152
153 1 153
154 1 154
155 4 620
156 3 468
157 1 157
158 2 316
160 5 800
161 4 644
162 2 324
163 2 326
164 3 492
165 1 165
166 1 166
167 1 167
168 2 336
169 1 169
170 1 170
172 1 172
173 1 173
Total 40 6425

𝒌
𝟏 𝟏𝟓𝟎. 𝟏 + 𝟏𝟓𝟏. 𝟏 + ⋯ + 𝟏𝟔𝟖. 𝟐 + ⋯ + 𝟏𝟕𝟑. 𝟏 𝟔𝟒𝟐𝟓
𝒙= 𝒏𝒊 . 𝒙𝒊 = = = 𝟏𝟔𝟎, 𝟔𝟐𝟓 𝛀
𝒏 𝟒𝟎 𝟒𝟎
𝒊=𝟏
E usando a frequência relativa:

𝒙= 𝒇𝒊 . 𝒙𝒊
𝒊=𝟏
R(W) Frequência Frequencia relativa(fi= ni/n) xi.fi
150 1 0,025 3,75
151 1 0,025 3,775
152 1 0,025 3,8
153 1 0,025 3,825
154 1 0,025 3,85
155 4 0,1 15,5
156 3 0,075 11,7
157 1 0,025 3,925
158 2 0,05 7,9
160 5 0,125 20
161 4 0,1 16,1
162 2 0,05 8,1
163 2 0,05 8,15
164 3 0,075 12,3
165 1 0,025 4,125
166 1 0,025 4,15
167 1 0,025 4,175
168 2 0,05 8,4
169 1 0,025 4,225
170 1 0,025 4,25
172 1 0,025 4,3
173 1 0,025 4,325
∑ 40 1 160,625
Média ponderada 𝒙𝒑
Em algumas situações, as observações têm graus de
importância diferentes. Usa-se então a média ponderada.

Chama-se média ponderada entre n observações, x1, x2, ..., xn, o


número:
𝒏
𝒊=𝟏 𝝎𝒊 𝒙𝒊
𝒙𝒑 = 𝒏
Clique para 𝒊=𝟏 𝝎𝒊
adicionar
texto
onde 𝝎𝒊 é o peso associado à i-ésima observação (isto é, ele
mede a importância relativa da i-ésima observação em
relação às demais).
Exemplo
Sabe-se que num sistema tem-se ruídos de frequências 1000
Hz, 2700 Hz, 32750 Hz e 275564 Hz. Respectivamente, o peso
de cada ruído em uma interferência produzida por estas
frequências é 0,07;0,13;0,50 e 0,30. Qual a média ponderada
da frequência dos ruídos.

𝒏
𝒊=𝟏 𝝎𝒊 𝒙𝒊 𝟏𝟎𝟎𝟎. 𝟎, 𝟎𝟕 + 𝟐𝟕𝟎𝟎. 𝟎, 𝟏𝟑 + 𝟑𝟐𝟕𝟓𝟎. 𝟎, 𝟓𝟎 + 𝟐𝟕𝟓𝟓𝟔𝟒. 𝟎, 𝟑𝟎
𝒙𝒑 = 𝒏 =
𝒊=𝟏 𝝎𝒊 𝟎, 𝟎𝟕 + 𝟎, 𝟏𝟑 + 𝟎, 𝟓𝟎 + 𝟎, 𝟑𝟎

𝟕𝟎 + 𝟑𝟓𝟏 + 𝟏𝟔𝟑𝟕𝟓 + 𝟖𝟐𝟔𝟔𝟗, 𝟐


𝒙𝒑 = = 𝟗𝟗𝟒𝟔𝟓, 𝟐 𝑯𝒛
𝟏
Mediana (Md)

É a realização que ocupa a posição central de uma série (n) de


observações, quando estão ordenadas segundo suas
grandezas, crescente ou decrescentemente (Rol).

Se n é ímpar, esse valor é único. Se n é par, Md é a média dos


dois valores centrais.
Exemplo . Qual a mediana dos valores de resistência apresentados nas
tabelas. R(Ω) R(Ω) R(Ω) R(Ω)
153 158 153 158
151 163 151 163
155 164 155 164
150 164 150 164
154 161 154 161
152 164 152 164
156 168 156 168
160 165 160 165
156 161 156 161
155 169 155 169
160 168 160 168
160 166 160 166
157 172 157 172
155 170 155 170
162 173 162 173
161 167 161 167
158 156 158 156
160 155 160 155
163 161 163 161
162 162 160

Na tabela da esquerda, tem-se 39 valores, sendo a mediana representada


pelo valor da posição 20 ou seja Md= 162.

Na tabela da direita tem-se 40 valores sendo a mediana a média dos valores


entre as posições 20 e 21. Assim:
𝟏𝟔𝟐 + 𝟏𝟓𝟖
𝑴𝒅 = = 𝟏𝟔𝟎
𝟐
Comparação entre média e mediana

Para 39 valores:
𝑀𝑑 = 162

150 𝑥 = 160,641 173

Para 40 valores:

𝑀𝑑 = 160

150 𝑥 = 160,625 173


Quando uma medida de posição for pouco afetada por mudanças de uma
pequena porção das observações, é dito que ela é resistente.

A mediana é uma medida resistente, enquanto que a média não o é.

Como ilustração, tome as observações (dados) da seguinte tabela de


resistências:
R(Ω) 150 151 153 155 155 155 156 156 157 158 158 160 160 160

A média deste valores será 156 e a mediana será 156. Ao mudarmos o


último valor da tabela,
R(Ω) 150 151 153 155 155 155 156 156 157 158 158 160 160 500

a média será 180 e a mediana continuará sendo 156.


Observe que a média aumentou em 24. Portanto, a mediana
não é afetada por observações muito grandes ou muito
pequenas, enquanto que a presença de tais extremos tem
um significante efeito sobre a média.

Assim, para distribuições extremamente assimétricas, a


mediana é, provavelmente, uma medida de centro mais
adequada do que a média. Caso contrário, a média é
preferida e mais amplamente usada, isto porque a mediana
carece de algumas vantagens teóricas relacionadas à
inferência estatística.
Quantis

Se o número de observações é grande (maior, digamos, do que


20 ou 30) é útil estender a noção de mediana e dividir o
conjunto de dados em quantis.

O quantil de ordem 𝟏𝟎𝟎𝒒 de um conjunto de valores dispostos


em ordem crescente é um valor tal que até ele (inclusive)
haja pelo menos 𝟏𝟎𝟎𝒒% das observações e, a partir dele
(inclusive) haja pelo menos 𝟏𝟎𝟎(𝟏 – 𝒒)% das observações
(𝟎 < 𝒒 < 𝟏).

Os quantis de ordem 25, 50, 75 são chamados quartis (Q1, Q2,


Q3). Naturalmente, 𝑸𝟐 = 𝑴𝒅. Os decis são os quantis de
ordem 10, 20, ..., 90 (D1, D2, ..., D9) e os percentis são os
quantis de ordem 1, 2, ..., 99 (P1, P2, ..., P99).
Ilustraremos, a seguir, um método para se determinar quartis,
com um exemplo envolvendo poucas observações.

Exemplo . Considerando o conjunto de valores, já ordenados do


menor para o maior obter os quartis.
R(Ω) 150 151 153 155 155 155 156 156 157 158 158 160 160 160

Solução.
O número de observações ≤ 𝑸𝟏 é 𝟎, 𝟐𝟓. 𝟏𝟒 = 𝟑, 𝟓, ou seja 4, ≥ 𝑸𝟏 é
𝟎, 𝟕𝟓. 𝟏𝟒 = 𝟏𝟎, 𝟓, ou seja 10.
Contando 4 valores do menor para o maior e 10 valores do maior para o menor,
encontramos 155.
R(Ω) 150 151 153 155 155 155 156 156 157 158 158 160 160 160
1 2 3 4 5 6 7 8 9 10 11 12 13 14

Este é, portanto, 𝑸𝟏 . Assim procedendo, obtêm-se os outros dois quartis.

≤ 𝑸𝟐 é 𝟎, 𝟓𝟎. 𝟏𝟒 = 𝟕 e ≥ 𝑸𝟐 é 𝟎, 𝟓𝟎. 𝟏𝟒 = 𝟕,assim 𝑸𝟐 = 𝑴𝒅 = 𝟏𝟓𝟔

≤ 𝑸𝟑 é 𝟎, 𝟕𝟓. 𝟏𝟒 = 𝟏𝟎, 𝟓(𝟏𝟎) e ≥ 𝑸𝟑 é 𝟎, 𝟐𝟓. 𝟏𝟒 = 𝟑, 𝟓 (𝟒),assim 𝑸𝟑 = 𝟏𝟓𝟖


Média e mediana de dados agrupados
Sempre que possível, as medidas estatísticas devem ser calculadas antes
dos dados serem agrupados. Não raro, entretanto, é conhecermos só o
quadro de distribuição de freqüência para os dados agrupados.

Com os dados agrupados em classes, como já mencionado, perde-se


informação sobre cada observação individual, e uma boa aproximação é
supor que todos os dados dentro de uma classe tenham seus valores
iguais ao ponto médio dessa classe.

Fazendo, então, 𝒙𝟏, 𝒙𝟐, … , 𝒙𝒌 os pontos médios das 𝒌 classes, e


𝒏𝟏, 𝒏𝟐, . . . , 𝒏𝒌 (ou 𝒇𝟏, 𝒇𝟐, . . . , 𝒇𝒌) as respectivas freqüências, a média é,
então, calculada como nas equações já apresentadas.
EXEMPLO:
Exemplo 4. Considerando os dados agrupados em intervalos de
classes das resistências elétricas, determine a média.

𝒌 𝒌
𝟏 𝟏𝟓𝟎. 𝟏 + 𝟏𝟓𝟏. 𝟏 + ⋯ + 𝟏𝟔𝟖. 𝟐 + ⋯ + 𝟏𝟕𝟑. 𝟏
𝒙= 𝒏𝒊 . 𝒙𝒊 = 𝒇 𝒊 . 𝒙𝒊 =
𝒏 𝟒𝟎
𝒊=𝟏 𝒊=𝟏
𝒙 = 𝟏𝟔𝟎, 𝟔𝟐𝟓
EXEMPLO:
Exemplo 4. Considerando os dados agrupados em intervalos de classes das
resistências elétricas, determine a mediana
A mediana corresponde ao ponto médio da classe que contém a mediana.
R(Ω) Frequência Frequência Acumulada
150 1 1
151 1 2
152 1 3
153 1 4
154 1 5
155 4 9
156 3 12
157 1 13
158 2 15
Posição 16 17 18 19 20 21 22 23 24
160 5 20
161 4 24 R(Ω) 160 160 160 160 160 161 161 161 161
162 2 26
163 2 28
164 3 31
165 1 32
166 1 33
167 1 34
168 2 36
169 1 37
170 1 38
172 1 39
173 1 40
Total 40

Observando a tabela com a frequência acumulada observa-se que a


mediana estará entre 160 Ω e 161 Ω. Assim o ponto média seria 160,5 Ω
Exemplo:
Considere um conjunto de valores já distribuídos em dados
agrupados referente a medidas de frequências ruidosas detectadas
entre 4,00 kHz e 24,00 kHz. Determine a média.
Classe da frequência (kHz) fi
4,00 Ⱶ 8,00 10
8,00 Ⱶ 12,00 12
12,00 Ⱶ 16,00 8
16,00 Ⱶ 20,00 5
20,00 Ⱶ 24,00 1
Total 36

Classe da frequência (kHz) fi ponto médio(xpm) fi.xpm


4,00 Ⱶ 8,00 10 6,00 60,00
8,00 Ⱶ 12,00 12 10,00 120,00
12,00 Ⱶ 16,00 8 14,00 112,00
16,00 Ⱶ 20,00 5 18,00 90,00 𝟒𝟎𝟒
𝐱= = 𝟏𝟏, 𝟐𝟐
20,00 Ⱶ 24,00 1 22,00 22,00 𝟑𝟔
Total 36 404
Moda (Mo)

É definida como a realização mais freqüente do conjunto de valores


observados.

Nesta tabela a 𝑴𝒐 = 𝟏𝟔𝟎, pois ocorreu 5 vezes.

Em alguns casos, a distribuição de valores pode ser bimodal,


trimodal, etc.
No caso de dados agrupados, é o ponto médio da classe de maior
freqüência (classe modal), desde que as classes tenham a mesma
amplitude.
Exemplo 6. Para os dados da Tabela

A moda será:
𝟗𝟒 + 𝟗𝟔
𝑴𝒐 = = 𝟗𝟓 𝛀
𝟐
Medidas de dispersão ou
variabilidade
Medidas de dispersão ou variabilidade

O resumo de um conjunto de dados, por meio de uma única medida


representativa de posição central, esconde toda informação sobre a
variabilidade do conjunto de valores.

Consideremos dois conjuntos A e B de observações que possuem médias 𝒙 𝑨 =


𝒙 𝑩 = 𝟑𝟏.
Verifica-se que ambos têm a mesma média, porém os conjuntos são:

𝑨 = {𝟐𝟓, 𝟐𝟖, 𝟑𝟏, 𝟑𝟒, 𝟑𝟕} 𝑩 = {𝟏𝟕, 𝟐𝟑, 𝟑𝟎, 𝟑𝟗, 𝟒𝟔}

A identificação de cada um desses conjuntos de dados pela suas médias, nada


informa sobre as diferentes variabilidades dos mesmos.
Então, nota-se a conveniência de se criar uma medida que sintetize a
variabilidade de uma série de valores e que nos permita comparar conjuntos
diferentes de valores, como os antes discutidos, segundo algum critério
estabelecido.

O critério freqüentemente usado para resumir a variabilidade de uma série de


valores é o que mede a concentração dos dados em torno de sua média e a
medida mais usada é a variância.

A variância (𝑽𝒂𝒓 = 𝝈𝟐 ) nada mais é do que a variação dos dados em torno da


média.
Inicialmente tem-se o denominado desvio, que representa o quanto um valor 𝒙𝒊 ,
está afastado da média 𝒙.
𝒅𝒆𝒔𝒗𝒊𝒐 = (𝒙𝒊 − 𝒙)

O princípio básico é analisar os desvios (𝒙𝒊 − 𝒙).


Assim, poderíamos pensar na soma desses desvios, mas, como para qualquer
conjunto de dados, 𝒏𝒊=𝟏 𝒙𝒊 − 𝒙 = 𝟎 ,ou seja, 𝒏𝒊=𝟏 𝒙𝒊 − 𝒙 = 𝒏𝒊=𝟏 𝒙𝒊 −
𝒏
𝒊=𝟏 𝒙 = 𝒏𝒙 − 𝒏𝒙 = 𝟎.
Este resultado ocorre, pois os valores dos desvios positivos acima da média
somado aos valores dos desvios negativos abaixo da média tenderia a dar o
resultado nulo.
R(Ω) 150 151 153 155 155 155 156 156 157 158 158 160 160 173 ∑
Desvio (xi -xm) -6,93 -5,93 -3,93 -1,93 -1,93 -1,93 -0,93 -0,93 0,07 1,07 1,07 3,07 3,07 16,07 0,00
xm = 156,93

16,07
3,07

-6,93 -5,93
Assim a alternativa para se eliminar os valores negativos é se elevar ao quadrado
os desvios e soma-los e depois extrair a raiz quadrada. Assim vem:

𝒏
𝟐
𝒙𝒊 − 𝒙
𝒊=𝟏

R(Ω) 150 151 153 155 155 155 156 156 157 158 158 160 160 173 ∑
Desvio (xi -xm) -6,93 -5,93 -3,93 -1,93 -1,93 -1,93 -0,93 -0,93 0,07 1,07 1,07 3,07 3,07 16,07 0,00
(xi -xm)2 48,01 35,15 15,43 3,72 3,72 3,72 0,86 0,86 0,01 1,15 1,15 9,43 9,43 258,29 390,93
xm = 156,93
O uso deste total, no entanto, pode causar dificuldades quando se comparam
conjuntos de dados com números diferentes de observações. Deste modo,
exprime-se esta medida como média ou seja, a variância.

Variância (Var)

Considerando, então, a soma de quadrados dos desvios em relação à média, se


estabelece uma medida de variabilidade para um conjunto de dados, chamada
variância e definida como:

𝒏
𝟐 𝒊=𝟏(𝒙𝒊 − 𝒙)𝟐
𝑽𝒂𝒓 𝑿 = 𝝈 =
𝒏

Onde 𝑿 = 𝒙𝒊 , 𝒆 𝒊 = 𝟏, 𝟐, 𝟑, … , 𝒏
Será visto no estudo de“Estatística e distribuição amostral” que a variância de uma amostra
é calculada, por motivos associados à inferência estatística, usando 𝒏 − 𝟏 em lugar de 𝒏
nessa expressão, no entanto, para grandes amostras, pouca diferença fará o uso d𝒆 n ou
𝒏 − 𝟏.

Consideremos os conjuntos de observações

𝑨 = {𝟐𝟓, 𝟐𝟖, 𝟑𝟏, 𝟑𝟒, 𝟑𝟕} 𝑩 = {𝟏𝟕, 𝟐𝟑, 𝟑𝟎, 𝟑𝟗, 𝟒𝟔}

Verificou-se que ambos tinham a mesma média, 𝒙 𝑨 = 𝒙 𝑩 = 𝟑𝟏. Calculando-se a


variância vem:
A 25 28 31 34 37 ∑
B 17 23 30 39 46
Desvio A -6 -3 0 3 6 0
Desvio B -14 -8 -1 8 15 0
(xi - xm)2 (A) 36 9 0 9 36 90
(xi - xm)2 (B) 196 64 1 64 225 550
Var(A) 18
Var(B) 110
xm,A = 31
xm,B = 31
A 25 28 31 34 37 ∑
B 17 23 30 39 46
Desvio A -6 -3 0 3 6 0
Desvio B -14 -8 -1 8 15 0
(xi - xm)2 (A) 36 9 0 9 36 90
(xi - xm)2 (B) 196 64 1 64 225 550
Var(A) 18
Var(B) 110
xm,A = 31
xm,B = 31

Olhando os resultados da variância podemos concluir que na


amostra A tem-se uma maior homogenidade dos resultados, pois
sua variância é menor.
No final desta aula tem o estudo complementar que apresenta a
avaliação da variância. Desta avaliação se obtêm:

𝒌 𝟐 𝒌
𝒊=𝟏 𝒏 𝒊 . 𝒙𝒊
𝑽𝒂𝒓 𝑿 = − 𝒙𝟐 = 𝒇𝒊 𝒙𝟐𝒊 − 𝒙𝟐
𝒏
𝒊=𝟏

Sendo a variância uma medida que expressa um desvio quadrático


médio, pode causar alguns problemas de interpretação. Para evitar
isto, costuma-se usar o desvio padrão
Desvio padrão (DP)

É definido como a raiz quadrada positiva da variância, ou seja

𝒏
𝒊=𝟏(𝒙𝒊 − 𝒙)𝟐
𝑫𝒑 𝑿 = 𝝈 𝒙 =
𝒏

Note que a unidade de medida do desvio padrão será a mesma dos dados
originais.

Temos, então, uma medida (básica) de variabilidade expressa na mesma unidade


dos valores do conjunto de dados.

O desvio padrão indica a dispersão dos dados dentro da amostra, isto é, o


quanto os dados em geral diferem da média. Quanto menor o desvio padrão,
mais parecidos são os valores da série estatística
Numa distribuição normal e simétrica, o desvio padrão é calculado dá uma ideia
de onde estão localizados os valores da amostra, em torno da média, da seguinte
maneira:

• 68% dos valores da série estão até 1 desvio padrão de distância da média, isto
é, estão entre 𝒙 − 𝝈 𝒙 e 𝒙 + 𝝈 𝒙

• 95% dos valores da série estão até 2 desvios padrão de distância da média,
isto é, estão entre 𝒙 − 𝟐𝝈 𝒙 e 𝒙 + 𝟐𝝈 𝒙

• 99,7% dos valores da série estão até 3 desvios padrão de distância da média,
isto é, estão entre 𝒙 − 𝟑𝝈 𝒙 e 𝒙 + 𝟑𝝈 𝒙
No exemplo dos conjuntos A e B

A 25 28 31 34 37 A 25 28 31 34 370
B 17 23 30 39 46 B 17 23 30 39 46
𝑥 31 𝑥 97,6
𝑥 31 𝑥 31
(𝑥 −𝑥 )( ) -6 -3 0 3 6 (𝑥 −𝑥 )( ) -72,6 -69,6 -66,6 -63,6 272,4
(𝑥 −𝑥 )( ) -14 -8 -1 8 15 (𝑥 −𝑥 )( ) -14 -8 -1 8 15
(𝑥 −𝑥 ) ( ) 36 9 0 9 36 90 (𝑥 −𝑥 ) ( ) 5270,76 4844,16 4435,56 4044,96 74201,76 92797,2
(𝑥 −𝑥 ) ( ) 196 64 1 64 225 550 (𝑥 −𝑥 ) ( ) 196 64 1 64 225 550
𝒏 𝒏
𝒊=𝟏(𝒙𝒊−𝑥 )𝟐 𝒊=𝟏(𝒙𝒊−𝑥 )𝟐
(A) (A)
𝒏 𝒏
18 18559,44
𝒏 𝒏
𝒊=𝟏(𝒙𝒊−𝑥 )𝟐 𝒊=𝟏(𝒙𝒊−𝑥 )𝟐
(B) (B)
𝒏 110 𝒏 110
𝒏 (𝒙 −𝑥 )𝟐 𝒏 (𝒙 −𝑥 )𝟐
𝒊=𝟏 𝒊 𝒊=𝟏 𝒊
(A) (A)
𝒏 4,242640687 𝒏 136,2330356
𝒏 (𝒙 −𝑥 )𝟐 𝒏 (𝒙 −𝑥 )𝟐
𝒊=𝟏 𝒊 𝒊=𝟏 𝒊
(B) 10,48808848 (B) 10,48808848
𝒏 𝒏

O desvio padrão não é uma medida resistente.

No caso do exemplo, onde foi mostrado que a mediana é uma medida resistente,
utilizando-se as observações 25, 28, 31, 34 e 37, obtêm-se 𝑫𝒑 =4,24.

Após a mudança de 37 para 370, obtêm-se 136,23, isto é, mais de 32 vezes a


anterior; enquanto que a mediana não muda. Sendo ela 31 para os dois casos.
No exemplo dos conjuntos A e B

A 25 28 31 34 37 A 25 28 31 34 370
B 17 23 30 39 46 B 17 23 30 39 46
𝑥 31 𝑥 97,6
𝑥 31 𝑥 31
(𝑥 −𝑥 )( ) -6 -3 0 3 6 (𝑥 −𝑥 )( ) -72,6 -69,6 -66,6 -63,6 272,4
(𝑥 −𝑥 )( ) -14 -8 -1 8 15 (𝑥 −𝑥 )( ) -14 -8 -1 8 15
(𝑥 −𝑥 ) ( ) 36 9 0 9 36 90 (𝑥 −𝑥 ) ( ) 5270,76 4844,16 4435,56 4044,96 74201,76 92797,2
(𝑥 −𝑥 ) ( ) 196 64 1 64 225 550 (𝑥 −𝑥 ) ( ) 196 64 1 64 225 550
𝒏 𝒏
𝒊=𝟏(𝒙𝒊−𝑥 )𝟐 𝒊=𝟏(𝒙𝒊−𝑥 )𝟐
(A) (A)
𝒏 𝒏
18 18559,44
𝒏 𝒏
𝒊=𝟏(𝒙𝒊−𝑥 )𝟐 𝒊=𝟏(𝒙𝒊−𝑥 )𝟐
(B) (B)
𝒏 110 𝒏 110
𝒏 (𝒙 −𝑥 )𝟐 𝒏 (𝒙 −𝑥 )𝟐
𝒊=𝟏 𝒊 𝒊=𝟏 𝒊
(A) (A)
𝒏 4,242640687 𝒏 136,2330356
𝒏 (𝒙 −𝑥 )𝟐 𝒏 (𝒙 −𝑥 )𝟐
𝒊=𝟏 𝒊 𝒊=𝟏 𝒊
(B) 10,48808848 (B) 10,48808848
𝒏 𝒏

Com base nos resultados acima tem-se:


• 68% dos valores entre 𝒙 − 𝝈 𝒙 e 𝒙 + 𝝈 𝒙
• 95% dos valores entre 𝒙 − 𝟐𝝈 𝒙 e 𝒙 + 𝟐𝝈 𝒙
• 99,7% dos valores entre 𝒙 − 𝟑𝝈 𝒙 e 𝒙 + 𝟑𝝈 𝒙
% teórico %real
A 26,76 35,24 60
68% B 20,51 41,49 60
A 22,51 39,49 100
95% B 10,02 51,98 100
A 18,27 43,73 100
99,70% B -0,46 62,46 100
Com base nos resultados acima tem-se:
• 68% dos valores entre 𝒙 − 𝝈 𝒙 e 𝒙 + 𝝈 𝒙
• 95% dos valores entre 𝒙 − 𝟐𝝈 𝒙 e 𝒙 + 𝟐𝝈 𝒙
• 99,7% dos valores entre 𝒙 − 𝟑𝝈 𝒙 e 𝒙 + 𝟑𝝈 𝒙

% teórico %real
A 26,76 35,24 60
68% B 20,51 41,49 60
A 22,51 39,49 100
95% B 10,02 51,98 100
A 18,27 43,73 100
99,70% B -0,46 62,46 100

• A diferença entre o valor % previsto teoricamente e o % real deve-se ao fato


de que a amostra é pequena.

• A medida que o tamanho da amostra aumentar, os % reais se aproximarão


dos valores dos % teóricos.
Coeficiente de variação (CV)
O desvio padrão, apesar de sua utilidade como medida de variabilidade, deve
ser usado com cuidado, quando se compara variabilidades de diferentes
conjuntos de dados. Na tabela abaixo tem-se os dados da capacitância do
equipamento e de seu isolante.
CE (nF) CI (nF)
40 620
48 623
52 624
49 622
61 639
52 625

Fazendo-se os cálculos da média, desvios e variância tem-se:


CE (nF) CI (nF) (𝑥 −𝑥) ( ) (𝑥 −𝑥) ( ) (𝑥 −𝑥) ( 1 ) (𝑥 −𝑥) ( 2 )
40 620 -10,33333333 -5,5 106,7777778 30,25
48 623 -2,333333333 -2,5 5,444444444 6,25
52 624 1,666666667 -1,5 2,777777778 2,25
49 622 -1,333333333 -3,5 1,777777778 12,25
61 639 10,66666667 13,5 113,7777778 182,25
52 625 1,666666667 -0,5 2,777777778 0,25
∑ 302 3753 -1,42109E-14 0 233,3333333 233,5
𝑥
𝑥=
50,3333333 625,5
(𝑥 −𝑥)2
=
38,8888889 38,9166667

(𝑥 −𝑥) 2
=
6,23609564 6,23832242
O desvio padrão para 𝑪𝑬 = 𝑪𝑰 = 𝟔, 𝟐𝟒 𝒏𝑭, pode ser considerado pequeno, se
obtido em 𝑪𝑰 com capacitância média 𝑪𝑰 = 𝟔𝟐𝟓, 𝟓 𝒏𝑭, mas seria considerado
grande se calculado para o equipamento com 𝑪𝑬 = 𝟓𝟎, 𝟑𝟑 𝒏𝑭.
Calculando o CV para cada um dos grupos, tem-se:
CE (nF) CI (nF) (𝑥 −𝑥) ( ) (𝑥 −𝑥) ( ) (𝑥 −𝑥) ( 1 ) (𝑥 −𝑥) ( )
40 620 -10,33333333 -5,5 106,7777778 30,25
48 623 -2,333333333 -2,5 5,444444444 6,25
52 624 1,666666667 -1,5 2,777777778 2,25
49 622 -1,333333333 -3,5 1,777777778 12,25
61 639 10,66666667 13,5 113,7777778 182,25
52 625 1,666666667 -0,5 2,777777778 0,25
∑ Clique para adicionar
302 3753 -1,42109E-14 0 233,3333333 233,5
𝑥
𝑥= texto
50,3333333 625,5
(𝑥 −𝑥)2
=
38,8888889 38,9166667

(𝑥 −𝑥)
=
6,23609564 6,23832242

=
12,389594 0,99733372

Para 𝑪𝑬 , o CV é 12,39 %, enquanto que para 𝑪𝑰 , o CV é 1,000 %. Assim, desvios


de 𝟔, 𝟐𝟒 𝒏𝑭 são muito mais importantes para 𝑪𝑬 do que para 𝑪𝑰 , isto é, a
dispersão dos dados em torno da média é muito grande para 𝑪𝑬 .
Como a média e o desvio padrão são expressos na mesma unidade de medida, o
coeficiente de variação é adimensional (independe da magnitude ou da unidade
de medida dos dados).

Deste modo, o CV pode ser usado como um índice de variabilidade, sendo que
sua grande utilidade é permitir a comparação das variabilidades de diferentes
conjuntos de dados.
Estudo Complementar
Quantis de dados agrupados
Processo gráfico
Histograma
Usando-se o histograma, pode ser formulado o seguinte
procedimento para se encontrar quantis de uma variável com
dados agrupados.
O cálculo do quantil desejado, por exemplo, a mediana (2o quartil),
é feito, conforme sua definição, localizando-se o ponto da abscissa
que divide a área do histograma em duas partes iguais (50% para
cada lado).
Então, usando argumentos geométricos pode-se encontrar um
ponto satisfazendo esta propriedade.
Como exemplo considere um conjunto de valores já distribuídos
em dados agrupados referente a medidas de frequências ruidosas
detectadas entre 4,00 kHz e 24,00 kHz.

Vejamos por meio do gráfico de barras apresentado a seguir, onde


a mediana irá corresponder ao valor (𝑴𝒅 ).
Distribuição da frequência de detecção de ruídos na faixa de 4,00 kHz a 24,00 kHz

Classe da frequência (kHz) fi ponto médio % de fi % de fi acum


4,00 Ⱶ 8,00 10 6,00 27,78 27,78
8,00 Ⱶ 12,00 12 10,00 33,33 61,11
12,00 Ⱶ 16,00 8 14,00 22,22 83,33
16,00 Ⱶ 20,00 5 18,00 13,89 97,22
20,00 Ⱶ 24,00 1 22,00 2,78 100,00
Total 36 100

Observe que abaixo da mediana deve-se ter 50% da amostragem.

Assim se identifica que a mediana se encontra no segundo


retângulo.
50 % 50 %

md

Como a mediana encontra-se na classe 8,00 Ⱶ 12,00, seu valor pode ser
determinado por proporcionalidade de áreas.
A proporcionalidade entre a área e a base dos retângulos que define a mediana
(linha vermelha) e o que define a classe mediana.

𝒃𝒂𝒔𝒆 𝒅𝒂 𝒄𝒍𝒂𝒔𝒔𝒆 𝒒𝒖𝒆 𝒄𝒐𝒏𝒕é𝒎 𝒂 𝒎𝒆𝒅𝒊𝒂𝒏𝒂 𝒃𝒂𝒔𝒆 𝒅𝒐 𝒓𝒆𝒕â𝒏𝒈𝒖𝒍𝒐 𝒅𝒆𝒇𝒊𝒏𝒊𝒅𝒐 𝒑𝒆𝒍𝒂 𝒎𝒆𝒅𝒊𝒂𝒏𝒂
=
á𝒓𝒆𝒂 𝒅𝒂 𝒄𝒍𝒂𝒔𝒔𝒆 𝒒𝒖𝒆 𝒄𝒐𝒏𝒕é𝒎 𝒂 𝒎𝒆𝒅𝒊𝒂𝒏𝒂 á𝒓𝒆𝒂 𝒅𝒐 𝒓𝒆𝒕â𝒏𝒈𝒖𝒍𝒐 𝒅𝒆𝒇𝒊𝒏𝒊𝒅𝒐 𝒑𝒆𝒍𝒂 𝒎𝒆𝒅𝒊𝒂𝒏𝒂
50 % 50 %

md

Pelos 50% abaixo

𝒃𝒂𝒔𝒆 𝒅𝒂 𝒄𝒍𝒂𝒔𝒔𝒆 𝒒𝒖𝒆 𝒄𝒐𝒏𝒕é𝒎 𝒂 𝒎𝒆𝒅𝒊𝒂𝒏𝒂 𝒃𝒂𝒔𝒆 𝒅𝒐 𝒓𝒆𝒕â𝒏𝒈𝒖𝒍𝒐 𝒅𝒆𝒇𝒊𝒏𝒊𝒅𝒐 𝒑𝒆𝒍𝒂 𝒎𝒆𝒅𝒊𝒂𝒏𝒂
=
á𝒓𝒆𝒂 𝒅𝒂 𝒄𝒍𝒂𝒔𝒔𝒆 𝒒𝒖𝒆 𝒄𝒐𝒏𝒕é𝒎 𝒂 𝒎𝒆𝒅𝒊𝒂𝒏𝒂 á𝒓𝒆𝒂 𝒅𝒐 𝒓𝒆𝒕â𝒏𝒈𝒖𝒍𝒐 𝒅𝒆𝒇𝒊𝒏𝒊𝒅𝒐 𝒑𝒆𝒍𝒂 𝒎𝒆𝒅𝒊𝒂𝒏𝒂

𝟏𝟐, 𝟎𝟎 − 𝟖, 𝟎𝟎 𝑴𝒅 − 𝟖, 𝟎𝟎
= = 𝟏𝟎, 𝟔𝟔𝟔 = 𝟏𝟎, 𝟔𝟕 𝒌𝑯𝒛
𝟑𝟑, 𝟑𝟑 (𝟓𝟎, 𝟎𝟎 − 𝟐𝟕, 𝟕𝟖)
50 % 50 %

Pelos 50% acima md

𝒃𝒂𝒔𝒆 𝒅𝒂 𝒄𝒍𝒂𝒔𝒔𝒆 𝒒𝒖𝒆 𝒄𝒐𝒏𝒕é𝒎 𝒂 𝒎𝒆𝒅𝒊𝒂𝒏𝒂 𝒃𝒂𝒔𝒆 𝒅𝒐 𝒓𝒆𝒕â𝒏𝒈𝒖𝒍𝒐 𝒅𝒆𝒇𝒊𝒏𝒊𝒅𝒐 𝒑𝒆𝒍𝒂 𝒎𝒆𝒅𝒊𝒂𝒏𝒂
=
á𝒓𝒆𝒂 𝒅𝒂 𝒄𝒍𝒂𝒔𝒔𝒆 𝒒𝒖𝒆 𝒄𝒐𝒏𝒕é𝒎 𝒂 𝒎𝒆𝒅𝒊𝒂𝒏𝒂 á𝒓𝒆𝒂 𝒅𝒐 𝒓𝒆𝒕â𝒏𝒈𝒖𝒍𝒐 𝒅𝒆𝒇𝒊𝒏𝒊𝒅𝒐 𝒑𝒆𝒍𝒂 𝒎𝒆𝒅𝒊𝒂𝒏𝒂

𝟏𝟐, 𝟎𝟎 − 𝟖, 𝟎𝟎 𝟏𝟐, 𝟎𝟎 − 𝑴𝒅
= = 𝟏𝟎, 𝟔𝟔𝟔 = 𝟏𝟎, 𝟔𝟕 𝒌𝑯𝒛
𝟑𝟑, 𝟑𝟑 (𝟓𝟎, 𝟎𝟎 − (𝟐𝟐, 𝟐𝟐 + 𝟏𝟑, 𝟖𝟗 + 𝟐, 𝟕𝟖))
Esse procedimento de cálculo pressupõe que as observações
estejam em ordem crescente e igualmente espaçadas dentro de
cada classe.

O cálculo dos demais quantis pode ser feito de modo análogo, ou


seja, por interpolação linear, que se reduz a uma regra de três
simples.
Avaliação da fórmula da variância
𝒏
𝒊=𝟏(𝒙𝒊 − 𝒙)𝟐
𝑽𝒂𝒓 𝑿 = 𝝈𝟐 =
𝒏
𝒏
𝟏
𝑽𝒂𝒓 𝑿 = 𝒙𝒊 𝟐 − 𝟐. 𝒙𝒊 . 𝒙 + 𝒙𝟐
𝒏
𝒊=𝟏
𝟏 𝒏 𝟐 𝟏 𝒏 𝟏 𝒏 𝟐
𝑽𝒂𝒓 𝑿 = 𝒏 𝒊=𝟏 𝒙𝒊 −𝒏 𝒊=𝟏 𝟐. 𝒙𝒊 . 𝒙 +𝒏 𝒊=𝟏 𝒙
𝒏
𝟏
𝟐. 𝒙𝒊 . 𝒙
𝒏
𝒊=𝟏
onde 𝒏𝒊=𝟏 𝒙𝒊 = 𝒏𝒙
𝟏
𝑽𝒂𝒓 𝑿 = 𝒏 𝒏𝒊=𝟏 𝒙𝒊 𝟐 − 𝒙𝟐
Se 𝐧𝐢 representa a freqüência da observação 𝐱𝐢, 𝐢 = 𝟏, 𝟐, … , 𝐤, então podemos
definir a variância como:
𝒌 𝟐 𝟐 𝒌
(𝒙
𝒊=𝟏 𝒊 − 𝒙 ). 𝒏𝒊 𝟐
𝑽𝒂𝒓 𝑿 = = 𝒇𝒊 𝒙𝒊 − 𝒙
𝒏
𝒊=𝟏
𝒏𝒊
onde 𝒏 = 𝒏𝒊 𝒆 𝒇𝒊 = 𝒏
Desenvolvendo a equação

𝒌 𝟐 𝒌
𝒊=𝟏 (𝒙𝒊 − 𝒙𝟐 ). 𝒏𝒊 𝟐
𝑽𝒂𝒓 𝑿 = = 𝒇𝒊 𝒙𝒊 − 𝒙
𝒏
𝒊=𝟏

Chega-se a:

𝒌 𝟐 𝒌
𝒊=𝟏 𝒏𝒊 . 𝒙𝒊
𝑽𝒂𝒓 𝑿 = − 𝒙𝟐 = 𝒇𝒊 𝒙𝟐𝒊 − 𝒙𝟐
𝒏
𝒊=𝟏

𝒌
onde 𝒊=𝟏 𝒏𝒊 . 𝒙𝒊 = 𝒏𝒙

Sendo a variância uma medida que expressa um desvio quadrático médio, pode
causar alguns problemas de interpretação. Para evitar isto, costuma-se usar o
desvio padrão
Medidas de dispersão para dados agrupados
O cálculo das medidas de dispersão, neste caso, é feito de modo análogo àquele
usado para encontrar a média, ou seja, considerando-se que todas as
observações no intervalo de classe, estão localizadas no ponto médio do
intervalo. Para exemplificar, considere a tabela abaixo:

Rmédio(Ω) Frequência 𝑥 (𝑥 −𝑥) (𝑥 −𝑥) (𝑥 − 𝑥)


R(Ω) Frequência
91 93 92 25 2300 -5,13 26,32 657,92
25
95 26 2470 -2,13 4,54 117,96
94 96 26
98 18 1764 0,87 0,76 13,62
97 99 18 101 15 1515 3,87 14,98 224,65
00 102 15 104 16 1664 6,87 47,20 755,15
103 10 16 ∑ 100 9713 4,35 93,78 1769,31
Total 100 𝑥
𝑥=
97,13
(𝑥 − 𝑥)
=
17,69
(𝑥 − 𝑥 )
=
4,21

Assim o valor médio da resistência elétrica é 97,13 Ω, com uma variância de


17,69 Ω2 e com um desvio padrão de 4,21 Ω.
Assim o valor médio da resistência elétrica é 97,13 Ω, com uma variância de
17,69 Ω2 e com um desvio padrão de 4,21 Ω.
Estes resultados mostram que teoricamente 68% dos valores reais da resistência
elétrica encontram-se em torno da média num intervalo compreendido entre

𝟗𝟕, 𝟏𝟑 − 𝟒, 𝟐𝟏 𝛀 𝒆 𝟗𝟕, 𝟏𝟑 + 𝟒, 𝟐𝟏 𝛀
Ou seja:
𝟗𝟐, 𝟗𝟐 𝛀 𝒆 𝟏𝟎𝟏, 𝟑𝟒 𝛀
Ao se observar a tabela com os dados originais verifica-se que vários valores
encontram-se fora deste intervalo.
PRÓXIMA AULA

Medidas de dispersão ou
variabilidade

Você também pode gostar