Escolar Documentos
Profissional Documentos
Cultura Documentos
Medidas
Além da descrição gráfica, muitas vezes é necessário resumir certas características das distribuições
de freqüência por meio de certas quantidades. Tais quantidades são chamadas de medidas
Temos
• Medidas de posição
• Medidas de dispersão
• Medidas de assimetria
• Medidas de achatamento ou curtose
1. Medidas de Posição
As medidas de posição servem para localizar a distribuição de freqüências sobre o eixo de variação
da variável em questão. Estudaremos três tipos: Média, Mediana e Moda.
1.1 Media (aritmética) Podemos definir vários tipos de médias de um conjunto de dados.
∑ xi
i=1
x =
n
Podemos verificar se os dados estiverem em uma tabela de freqüência formada por k linhas,
poderemos escrever x da seguinte forma:
∑ xi i k
i=1
x = =∑ x i f i
n i=1
Considerando uma distribuição por classes de freqüências, podemos definir a média como o valor
obtido pela aplicação da expressão (2) substituindo os x i pelos pontos médios das classes e
considerando os f i como as respectivas freqüências ( ou freqüência relativas) . A média assim
calculada para os dados agrupados em classes deverá se aproximadamente igual à média aritmética
exata dos n dados originais.
Podemos ainda dizer:
• Multiplicando-se todos os valores de uma variável por uma constante á média do conjunto
fica multiplicada por essa constante
• Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a média do
conjunto fica acrescida ou diminuída dessa constantes.
Outro procedimento, muito usado para valores agrupados em classes de igual amplitude, é chamada
codificação dos dados . Consiste em se aplicar aos valores x i uma transformação linear;
xi− x0
z i=
h
x i=h z i x 0
1.2. Moda : É o valor que ocorre com maior freqüência, podemos ter séries unimodais,
bimodais, multimodais ou mesmo amodais.
Notação : Mo
Obs: A moda é usada como medida rápida
altura i
150 |-- 154 4
154 |-- 158 9
158 |-- 162 11
162 |-- 166 8
166 |-- 170 5
170 |-- 174 3
40
O método mais simples é verificar a maior frequência absoluta (fi) e calcular o ponto médio do
intervalo
158162
Para a tabela acima Mo= =160 m
2
De uma maneira mais exata podemos obter a Moda de outra forma a Moda de Czuber:
d1
Mo= Li h
d 1d 2
onde
Li =o limite inferior da classe modal
2
d 1=11−9=2 , d 2=11−8=3 , Li =158 , h=4 , logo Mo=158 4=159,6
5
1.3. Mediana
A mediana é uma quantidade que, como a média, também procura caracterizar o centro da
distribuição de freqüência, porém de acordo com um critério diferente. Ela é baseada na ordem dos
valores que formam o conjunto de dados.
n1
• Para n ímpar a posição da mediana é dada por: Q2 =
2
• Para n par a posição a mediana poderia ser definida como qualquer valor situado entre o de
ordem n/2 e (n/2)+1, por simplificação iremos considerar o valor médio entre os valores de
ordem n/2 e (n/2)+1 do conjunto de dados
Ex1: 5 13 10 2 18 15 6 16 9
Ordenar : 2 5 6 9 10 13 15 16 18
n1 91
n impar para acharmos a posição = =5 quinta posição
2 2
Ex2: 2 6 7 10 12 13 18 21
mediana = 11
n1 81
n par para acharmos a posição = =4,5 posição
2 2
1012
temos que que calcular o ponto médio : =11 mediana
2
# de filhos i Fi
0 4 4
1 5 9
2 7 16
3 3 19
5 1 20
20
Olhar na tabela e verificar o valor de freqüência acumulada (Fi) mais próximo , neste caso é 9
Logo Md = 1
A mediana mostra que o numero de filhos é de 1.
altura i Fi
150 |-- 154 4 4
154 |-- 158 9 13
158 |-- 162 11 24
162 |-- 166 8 32
166 |-- 170 5 37
170 |-- 174 3 40
40
∑ i 40
i=1 = =20
2 2
Qual valor na freqüência acumulada (Fi) está mais próximo de 20?? resp: 24
∑ i
i=1 − frequência acumalada da classe anterior
2
. amplitude dointervalo
frequência relativa da classe onde a mediana está localizada
20−13
4
11
20−13
Md =158 4=1582,54=160,54 m
11
n/2−F a
Md = Li h md
md
sendo
A expressão acima resulta da definição anterior, admitindo-se que os valores observados da variável
tenham se distribuído homogeneamente dentro das diversas classes. A mediana pode ser usada
como alternativa, em relação a média, para caracterizar o centro do conjunto de dados. Por
exemplo, no caso de distribuições de rendas, a mediana é , em geral, um melhor indicados central
que a média, pois não sofre influência de valores extremos. Também no caso de distribuições de
freqüências que apresentam nos extremos de classes abertas ( do tipo menor que ou maior que), a
mediana dever ser usada, ao invés da média, para a caracterização do centro da distribuição, pois
em tais casos, o cálculo da média pode, a rigor ser executado
A mediana de uma distribuição em classes de freqüências pode ser geometricamente interpretada
como o ponto tal que uma vertical por ele traçada divide a área sob o histograma em duas partes
iguais.
mediana−50 60−50
= mediana=57,75 unidade de medida
0,34 0,44
x −Mo=2 x −Md
A expressão pode ser apresentada sob diversas formas e indica geometricamente que a mediana
situa-se entre a média e a moda, sendo sua distância à moda o dobro de sua distância à média.
2. Medidas de dispersão
As medidas de posição são insuficientes, pois não revelam a variabilidade dos dados
Medidas de Dispersão : Amplitude Total, variância, desvio padrão, coeficiente de variação, quartis
2.1 Amplitude Total: É a diferença entre o maior valor e o menor valor observado.
Notação: At
Ex: 40 45 48 52 54 62 70
At = 70 – 40 = 30
At = 5 – 0 = 5
# de filhos i
0 4
1 5
2 7
3 3
5 1
20
altura i
150 |-- 154 4
154 |-- 158 9
158 |-- 162 11
162 |-- 166 8
166 |-- 170 5
170 |-- 174 3
40
At = Diferença entre o limite superior da última classe e o limite inferior da primeira classe.
At = L(max) – l(min) = 174 – 150 = 24 cm
Obs: Inconveniente desta medida que leva em consideração somente os extremos não
considerando os valores intermediários o que quase sempre invalida esta medida.
Esta medida é usada quando se deseja determinar por exemplo a amplitude da temperatura num
dia ou ano ou no controle de qualidade e também como medida de cálculo rápido, quando a
compreensão popular é mais importante que a exatidão e a estabilidade.
2.2 Quantils
Tanto a media como o desvio padrão podem não ser medidas adequadas para representar um
conjunto de dados, pois:
Para contornar esses fatos, outras medidas têm de ser consideradas. Vimos que a mediana é um
valor que deixa metade dos dados abaixo dela e metade acima. De modo geral, podemos definir a
mediana, chamada quantil de ordem p ou p-quantil, indicada por q p onde p é uma proporção
qualquer, 0 p1 , tal que 100%p das observações sejam menores do que q p
Suponha que você queira calcular q 0,20: , ou seja, aquele valor que deixa 20% das
observações à sua esquerda; mas qual valor devemos tomar? Para responder esta questão devemos
usar a distribuição acumulada ou empírica. Esta função fornece, para cada número real x , a
proporção das observações menores ou iguais a x
temos q 0,50=x 5=8 . Queremos 20% dos dados mas 20% corresponde a 1,8. Qual a valor
tomar? 3 ou 5? ou um valor entre 3 e 5?
Note que não nenhum valor de x tal F(x)=0,5, por outro lado F(2)=1/9, F(3)=2/9.... F(15)=1. Em
particular, F(md)=F( x 5 )=F(8)=5/9=0,556.
n1
Primeiro Quartil ( q 1 )– Quarta parte – 25% Q 1= posição
4
n1
Segundo Quartil ( q 2 )– Mediana – 50 % Q 2= posição
2
3n1
Terceiro Quartil - ( q 3 )Terça parte – 75 % Q 3 posição
4
ordenar : 3 5 5 6 7 8 9 11 12 15 18
111
Q 1= =3 posição q 1=5
4
111
Q2 = =6 posição q 2=8
2
3111
Q 3= =9 posição q 3=12
4
Logo temos:
q1 q2 q3
3 55 6 7 8 9 1112 15 18
- Para tabelas de frequências com classes: Quando os dados estão agrupados , para
determinar os quartis usamos a mesma técnica do cálculo da mediana.
●
Tabela: Distribuição de frequencia de referente a altura de 40 alunos de uma determinada classe.
altura i Fi
150 |-- 154 4 4
154 |-- 158 9 13
158 |-- 162 11 24
162 |-- 166 8 32
166 |-- 170 5 37
170 |-- 174 3 40
40
Primeiro Quartil - q 1
6
∑ i
i=1 40 posição olhar na frequência acumulada (Fi) e observar o valor
Q 1= =
=10
4 4
mais próximo = 13
Faremos da mesma forma que foi feito para a mediana: A primeira etapa já foi calculado acima
2. Segunda etapa :
∑ i
i=1 − frequência acumalada da classe anterior
4
. amplitude dointervalo
frequência relatica da classe onde a medida está localizada
Temos portanto:
10−4
. 4=2,67
9
q 1=1542,67=156,67
6
∑ i
i=140 posição olhar na tabela na frequência acumulada (Fi) e observar
Q2 = =
=20
2 2
o valor mais próximo = 24
2. Segunda etapa :
6
∑ i
i=1 frequência acumalada da classe anterior
2
. amplitude dointervalo
frequência relatica da classe onde a medida está localizada
Temos portanto:
20−13
. 4=2,54
11
q 2=1582,54=160,54
- Terceiro Quartil - q 3
1. Primeira etapa:
6
3 ∑ i
i =1 3. 40 posição olhar na tabela na frequência acumulada e observar o
Q 3= ==30
4 4
valor mais próximo = 32
2. Segunda etapa :
∑ i
3 i=1 − frequência acumalada da classe anterior
4
. amplitude dointervalo
frequência relatica da classe onde a medida está localizada
Temos portanto:
30−24
. 4=3
8
q 3=1623=165
O desvio interquartílico d q=q 3−q 1 é muitas vezes usado como medida de dispersão, quanto
mais dispersa a distribuição maior será o valor de d q . Em distribuições mais dispersas, os
valores dos quartis ( e dos extremos) ficam mais distantes. Em distribuições simétricas a distância
entre o quartil inferior e a mediana é igual à distância entre a mediana e o quartil superior, enquanto
em distribuições assimétricas essas distâncias são diferentes.
2.2.1 Boxplot:
∑ x i− x 2
S 2= i=1
n−1
x1 x2 x3 x4
Ex: Dados não agrupados: , 4 , 5 , 8 , 5
x 1−x 2=4−5,52=2,25
2 2
x 2− x =5−5,5 =0,25
x 3− x 2=8−5,52=6,25
x 4− x 2 =5−5,52=0,25
Somando tudo:
i
∑ x 1− x 2=2,250,256,250,25=9
i=1
∑ x i− x 2 9
S 2= i=1 = =3
4−1 3
Obs: O cálculo da variância da amostra é feito dividindo por (n-1) mas para a população deve-se
dividir por n , logo a variância da população dada por:
n
∑ x i− x 2
2 = i =1
n
xi i i . xi i . xi
2
0 2 0 2. 0 2 =0
1 6 6 6 12 = 6
2 12 24 12 2 2 = 48
3 7 21 7 32 = 63
4 3 12 3 4 2 = 48
30 63 165
n n
∑ i x ∑ i x i
2
i n
1
∑ i xi2−n x 2
2 i=1 i=1
S= − =
n−1 n−1 n−1 i=1
Aplicando a fórmula:
165−30x 2,12
S 2= =1,13 unidade de medida2
30−1
Essas propriedades permitem introduzir simplificações úteis no cálculo da variância. Uma delas,
consiste em subtrair de todos os valores do conjunto de dados uma constante antes de realizar-se o
cálculo, pois pela segunda propriedade , o resultado não será afetado.
2. 4- Desvio Padrão: Sendo a variância calculada a partir dos quadrados dos desvios,
x i− x 2 ela é um número em unidade quadrada em relação a variável em questão, o que, sob o
ponto de vista prático, é muito inconveniente. Na prática o desvio- padrão é mais usado do que a
variância, a razão disto é que o desvio-padrão tem a mesma unidade de medida que a média, em
vez da unidade elevada ao quadrado.
Por isto temos a medida chamada desvio padrão definida como a raiz quadrada da variância:
s= S =
2
∑ xi −x 2
n−1
s
cv x= .100
x
Sua vantagem é caracterizar a dispersão dos dados em termos relativos a seu valor médio. Por ser
adimensional o coeficiente de variação fornece uma maneira de se compararem as dispersões de
variáveis cujas unidades são irregulares .
1,06
temos que o cv x= .100=50,48 %
2,10
Ex:
média s cv(x)
observando a tabela os alunos são 2 vezes mais dispersos quanto ao peso do que quanto altura.
∑ x ti
M t = i=1
n
∑ xi −at
M at = i=1
n
∑ xi − x t
mt = i=1
n
Como já vimos nos casos da média e da variância, as expressões precedentes podem ser reescritas
levando-se em consideração as freqüências dos diferentes valores existentes. Portanto temos:
n
∑ x ti i
M t = i=1
n
∑ xi −at i
M at = i=1
n
n
∑ xi − x t i
mt = i=1
n
Essas expressões podem ser usadas no caso de dados agrupados em classes de freqüências, como
foi visto anteriormente.
Interessa também obtermos os momentos centrados de terceira e quarta ordem, que são dados por:
n n
∑x 3
i ∑ xi2
m3= i=1 −3 x i=1
2 x 3
n n
n n n
∑x 4
i ∑x 3
i ∑ x i2
m4 = i =1 i=1
−4 x 6 x 2 i=1 −3 x 4
n n n
∑ x 3i i ∑ x 2i i
m3= i=1 −3 x i=1
2 x 3
n n
n n n
∑ x 4i i ∑ x 3i i ∑ x 2i i
m4 = i =1 i =1
−4 x 6 x 2 i =1 −3 x 4
n n n
4. Medidas de assimetria
2) Assimetria Negativa
O momento centrado de terceira ordem pode ser usado como medida da assimetria de uma
distribuição. Entretanto é mais conveniente a utilização de uma medida adimensional , o que leva a
definição de coeficiente de assimetria , obtido a partir do terceiro momento e pelo cubo do desvio
padrão
m3 m3
a 3= 3
=
s m
3
2
Este coeficiente indica o sentido da assimetria e , sendo adimensional, pode ser usado para
comparar diversos casos.
Obs: O cálculo de m 3 para variável codificada z exige apenas que se acrescente o cálculo de
3
z i f i , iremos trabalhar com z e não mais com x ( variáveis originais).
altura i fi pto x 2i i x 3i i
médio
xi
150 |-- 154 4 0,100 152 92.416 14.047.232
154 |-- 158 9 0,225 156 219.024 34.167.744
158 |-- 162 11 0,275 160 281.600 45.056.000
162 |-- 166 8 0,200 164 215.168 35.287.552
166 |-- 170 5 0,125 168 141.120 23.708.160
170 |-- 174 3 0,075 172 88.752 15.265.344
40 1 1038080 167532032
∑ xi i n
i=1
x = =∑ x i f i =162,35 m
n i=1
6
m2 =s 2 =∑ xi −x 2. f i =152−162,352 0,100172−162,352 0,075=4,661694
i=1
n n
∑x 3
i i ∑ x 2i i 167532032 1038080
m3= i=1 i=1
−3 x 2 x 3= −3 162,35 2162,353
n n 40 40
167532032 1038080
−3162,35 2 162,352=4.188.300,08−12.639.921,68.558.287,556
40 40
4.188.300,08−12.639.921,68.558.287,556=106.666,036
o valor é positivo, mostra uma assimetria positiva, podemos notar pelo histograma também.
Obs: Notem que os valores foram muito altos, uma codificação nos dados seria o ideal par que
possamos trabalhar com valores menores. De que forma poderíamos ter feito isso, seria necessário
definir um valor para ser retirado de cada variável x i .
x −Mo
A=
sx
x −Mo 162,35−160
A= = =0,504109
sx 4,661694
Para o exemplo podemos observar que o índice de assimetria de Pearson nos dá uma melhor noção
da assimetria dos dados, onde podemos dizer que existe uma assimetria moderada.
Essas medidas procuram caracterizar forma da distribuição quanto o seu achatamento. O termo
médio de comparação é dado pela distribuição Normal, modelo teórico de distribuição estudado em
Probabilidade.
A distribuição acima quanto ao seu achatamento ela é dita mesocúrtica. As distribuições mais
achatadas que a normal são ditas platicúrticas e menos achatadas leptocúrticas
A caracterização do achatamento de uma distribuição só tem sentido, em termos práticos, se a
distribuição for pelo menos aproximadamente simétrica. Dentre as possíveis medidas de
achatamento, mencionaremo apenas o coeficiente de curtose, obtido pelo quociente do momento
centrado de quarta ordem pelo quadrado da variância , ou seja:
m4
a 4=
s4
6. Transformações
Vários procedimentos estatísticos são baseados na suposição de que os dados provêm de uma
distribuição normal ou então mais ou menos simétrica. Mas em muitos situações de interesse
prático, a distribuição dos dados da amostra é assimétrica e pode conter valores atípicos, como
vimos anteriormente.
Se quisermos utilizar tais procedimentos, o que se propõe é efetuar uma transformação das
observações, de modo a se obter uma distribuição mais simétrica e próxima da normal.
p
Uma família de transformações frequentemente usada é, x
• x p se p0
• ln x se p=0
• −x p se p0