Você está na página 1de 24

Universidade Federal de Mato Grosso

Notas de aula -Estatística Descritiva


Prof(a) Sílvia Maria Prado

Medidas

Além da descrição gráfica, muitas vezes é necessário resumir certas características das distribuições
de freqüência por meio de certas quantidades. Tais quantidades são chamadas de medidas

Temos

• Medidas de posição
• Medidas de dispersão
• Medidas de assimetria
• Medidas de achatamento ou curtose

1. Medidas de Posição

As medidas de posição servem para localizar a distribuição de freqüências sobre o eixo de variação
da variável em questão. Estudaremos três tipos: Média, Mediana e Moda.

1.1 Media (aritmética) Podemos definir vários tipos de médias de um conjunto de dados.

Denotaremos por  x a média amostral e µ a media populacional sendo x i os valores


da variável, e n o número total de elementos da amostra e N o numero total da população.

Definimos a média da forma:


n

∑ xi
i=1
x =
n
Podemos verificar se os dados estiverem em uma tabela de freqüência formada por k linhas,
poderemos escrever  x da seguinte forma:

∑ xi i k
i=1
x = =∑ x i f i
n i=1

Considerando uma distribuição por classes de freqüências, podemos definir a média como o valor
obtido pela aplicação da expressão (2) substituindo os x i pelos pontos médios das classes e
considerando os f i como as respectivas freqüências ( ou freqüência relativas) . A média assim
calculada para os dados agrupados em classes deverá se aproximadamente igual à média aritmética
exata dos n dados originais.
Podemos ainda dizer:
• Multiplicando-se todos os valores de uma variável por uma constante á média do conjunto
fica multiplicada por essa constante
• Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a média do
conjunto fica acrescida ou diminuída dessa constantes.

Utilizando as propriedades acima, podemos introduzir simplificações no cálculo da média, o que


será particularmente útil se os valores x i forem elevados. Portanto podemos subtrair uma
constante conveniente a todos os valores, calculando então uma média e depois somando ao
resultado.

Outro procedimento, muito usado para valores agrupados em classes de igual amplitude, é chamada
codificação dos dados . Consiste em se aplicar aos valores x i uma transformação linear;

xi− x0
z i=
h

onde x 0 é um valor convenientemente escolhido entre os valores x i , h é a amplitude das


classes. Obtém-se então a média z dos valores z i considerando-se que ,

x i=h z i  x 0

que resulta em  x =h z x 0 . A codificação é usada para simplificar no cálculo da media,


principalmente quando os valores de x i forem elevados. Assim poderíamos subtrair uma
constante convenientemente a todos os valores, calculando então a média e depois somando essa
constante ao resultado.

1.2. Moda : É o valor que ocorre com maior freqüência, podemos ter séries unimodais,
bimodais, multimodais ou mesmo amodais.
Notação : Mo
Obs: A moda é usada como medida rápida

Dados não agrupados – deve-se colocar em ordem crescente.

Ex : 7 8 9 10 10 11 12 13 15  o valor com maior freqüência = 10

Logo a Moda é dada por : Mo = 10

Para os dados agrupados na tabela de freqüência: basta verificar a maior freqüência.


Tabela : Distribuição de freqüência referente ao número de filhos de um departamento da
UFMT
# de filhos i fi
0 4 0,20
1 5 0,25
2 7 0,35
3 3 0,15
5 1 0,05
20 1,0

Observamos que a maioria das pessoas possui 2 filhos

Tabelas de frequência com classes

Tabela: Distribuição de frequencia de referente a altura de 40 alunos de uma


determinada classe.

altura i
150 |-- 154 4
154 |-- 158 9
158 |-- 162 11
162 |-- 166 8
166 |-- 170 5
170 |-- 174 3
40

O método mais simples é verificar a maior frequência absoluta (fi) e calcular o ponto médio do
intervalo

158162
Para a tabela acima Mo= =160 m
2

A altura média dos alunos é de 1m 60 cm

De uma maneira mais exata podemos obter a Moda de outra forma a Moda de Czuber:

d1
Mo= Li h
d 1d 2

onde
Li =o limite inferior da classe modal

d 1=a diferença entre a frequência da classe modal e a clase imediatamente anterior

d 2=a diferença entre a frequência da classe modal e a clase imediatamente seguinte


d 1 a diferença entre a frequência da classe modal e a clase imediatamente anterior
h=amplitude das classes

Usando o exemplo anterior temos

2
d 1=11−9=2 , d 2=11−8=3 , Li =158 , h=4 , logo Mo=158 4=159,6
5

1.3. Mediana
A mediana é uma quantidade que, como a média, também procura caracterizar o centro da
distribuição de freqüência, porém de acordo com um critério diferente. Ela é baseada na ordem dos
valores que formam o conjunto de dados.

n1
• Para n ímpar a posição da mediana é dada por: Q2 =
2
• Para n par a posição a mediana poderia ser definida como qualquer valor situado entre o de
ordem n/2 e (n/2)+1, por simplificação iremos considerar o valor médio entre os valores de
ordem n/2 e (n/2)+1 do conjunto de dados

A idéia é dividir o conjunto ordenado de valores em duas partes iguais .

- Dados não agrupados

Ex1: 5 13 10 2 18 15 6 16 9

Ordenar : 2 5 6 9 10 13 15 16 18

n1 91
n  impar para acharmos a posição  = =5  quinta posição
2 2

Ex2: 2 6 7 10  12 13 18 21
mediana = 11

n1 81
n  par para acharmos a posição = =4,5  posição
2 2

1012
temos que que calcular o ponto médio : =11  mediana
2

- Para dados em tabelas de frequência:


Tabela: Distribuição de freqüência referente ao número de filhos de um departamento
da UFMT.

# de filhos i Fi
0 4 4
1 5 9
2 7 16
3 3 19
5 1 20
20

Calculando a média das freqüências absolutas =


∑ i 20
i=1
= =10
2 2

Olhar na tabela e verificar o valor de freqüência acumulada (Fi) mais próximo , neste caso é 9

Logo Md = 1
A mediana mostra que o numero de filhos é de 1.

– Para dados agrupados em tabelas de freqüências com classes:

Tabela: Distribuição de freqüência de referente a altura de 40 alunos de uma determinada classe.

altura i Fi
150 |-- 154 4 4
154 |-- 158 9 13
158 |-- 162 11 24
162 |-- 166 8 32
166 |-- 170 5 37
170 |-- 174 3 40
40

Faremos o cálculo da mediana através de etapas

1. Primeira etapa: Encontrar a classe


6

∑ i 40
 i=1 = =20
2 2

Qual valor na freqüência acumulada (Fi) está mais próximo de 20?? resp: 24

encontramos a classe onde está localizada a mediana,que está na posição 20

2. Segunda etapa: Encontrar a distância


6

∑ i
 i=1 − frequência acumalada da classe anterior 
2
. amplitude dointervalo
 frequência relativa da classe onde a mediana está localizada

20−13
 4
11

3. Terceira etapa : Calcular a mediana

 20−13
Md =158  4=1582,54=160,54 m
11

Ou podemos escrever a equação da forma:

 n/2−F a
Md = Li h md
md

sendo

Li =o limite inferior da classe que contém a mediana


n
n=∑ f i=o número de elementos do conjunto de dados
i=1
F a=a soma das frequências das classes anteriores à que contém a mediana
md =a frequência da classe que contém a mediana e
h md =a amplitude da clase que contém a mediana

A expressão acima resulta da definição anterior, admitindo-se que os valores observados da variável
tenham se distribuído homogeneamente dentro das diversas classes. A mediana pode ser usada
como alternativa, em relação a média, para caracterizar o centro do conjunto de dados. Por
exemplo, no caso de distribuições de rendas, a mediana é , em geral, um melhor indicados central
que a média, pois não sofre influência de valores extremos. Também no caso de distribuições de
freqüências que apresentam nos extremos de classes abertas ( do tipo menor que ou maior que), a
mediana dever ser usada, ao invés da média, para a caracterização do centro da distribuição, pois
em tais casos, o cálculo da média pode, a rigor ser executado
A mediana de uma distribuição em classes de freqüências pode ser geometricamente interpretada
como o ponto tal que uma vertical por ele traçada divide a área sob o histograma em duas partes
iguais.

mediana−50 60−50
=  mediana=57,75 unidade de medida
0,34 0,44

1.4. Relação empírica entre média, mediana e moda

A relação empírica em geral subsiste aproximadamente para os conjuntos de dados ordenados :

x −Mo=2  x −Md 

A expressão pode ser apresentada sob diversas formas e indica geometricamente que a mediana
situa-se entre a média e a moda, sendo sua distância à moda o dobro de sua distância à média.

2. Medidas de dispersão
As medidas de posição são insuficientes, pois não revelam a variabilidade dos dados

Ex: Notas do Aluno A : 6, 6, 6, 6 ,6: Média = 6

Notas do Aluno B : 7, 5, 6, 4, 8 : Média = 6

O Aluno A possui um comportamento homogêno e o aluno B não. As medidas de dispersão nos


fornecem esta variação.

Medidas de Dispersão : Amplitude Total, variância, desvio padrão, coeficiente de variação, quartis

A informação fornecida pelas medidas de posição necessita em geral se complementadas pelas


medidas de dispersão. Estas servem para indicar o quanto os dados se apresentam dispersos em
torno da região central. Mostram o grau de variação existente no conjunto de valores.

2.1 Amplitude Total: É a diferença entre o maior valor e o menor valor observado.

Notação: At

- Dados não agrupados ( devem estar ordenados de forma crescente)

Ex: 40 45 48 52 54 62 70

At = 70 – 40 = 30

Quanto maior a amplitude total maior é a dispersão dos dados

- Dados em tabelas de freqüências:

At = 5 – 0 = 5

Tabela: Distribuição de freqüência referente ao número de filhos de um departamento da UFMT.

# de filhos i
0 4
1 5
2 7
3 3
5 1
20

- Dados agrupados em tabelas de freqüências com classes:

Tabela: Distribuição de frequencia de referente a altura de 40 alunos de uma determinada classe.

altura i
150 |-- 154 4
154 |-- 158 9
158 |-- 162 11
162 |-- 166 8
166 |-- 170 5
170 |-- 174 3
40

At = Diferença entre o limite superior da última classe e o limite inferior da primeira classe.
At = L(max) – l(min) = 174 – 150 = 24 cm

Obs: Inconveniente desta medida que leva em consideração somente os extremos não
considerando os valores intermediários o que quase sempre invalida esta medida.
Esta medida é usada quando se deseja determinar por exemplo a amplitude da temperatura num
dia ou ano ou no controle de qualidade e também como medida de cálculo rápido, quando a
compreensão popular é mais importante que a exatidão e a estabilidade.

2.2 Quantils

Tanto a media como o desvio padrão podem não ser medidas adequadas para representar um
conjunto de dados, pois:

• São afetados, de forma exagerada, por valores extremos.


• Apenas com estes dois valores não temos idéia da simetria ou assimetria da distribuição dos
dados.

Para contornar esses fatos, outras medidas têm de ser consideradas. Vimos que a mediana é um
valor que deixa metade dos dados abaixo dela e metade acima. De modo geral, podemos definir a
mediana, chamada quantil de ordem p ou p-quantil, indicada por q  p onde p é uma proporção
qualquer, 0 p1 , tal que 100%p das observações sejam menores do que q  p

Alguns quantils e seus nomes :

• q 0,25: 1º Quartil = 25º percentil


• q 0,50: Mediana = 50º percentil
• q 0,75: 3º Quartil = 75º percentil
• q 0,40: 4º Decil
• q 0,95: :95º Percentil

Suponha que você queira calcular q 0,20: , ou seja, aquele valor que deixa 20% das
observações à sua esquerda; mas qual valor devemos tomar? Para responder esta questão devemos
usar a distribuição acumulada ou empírica. Esta função fornece, para cada número real x , a
proporção das observações menores ou iguais a x

Exemplo Suponha que tenhamos os seguintes valores de uma variável X

15, 5, 3, 8, 10, 2, 7, 11, 12

Ordenando os valores, obtemos:

2, 3 , 5, 7, 8, 10, 11, 12, 15

temos q 0,50=x  5=8 . Queremos 20% dos dados mas 20% corresponde a 1,8. Qual a valor
tomar? 3 ou 5? ou um valor entre 3 e 5?

Usando a distribuição acumulada obtemos:


0 se x < 2
1/9 se 2x3
2/9 se 5 x7
3/9 se 2x5
4/9 se 5 x7
F(x) 5/9 se 7 x8
6/9 se 8 x9
7/9 se 9 x10
8/9 se 10 x11
1 se x 15

Note que não nenhum valor de x tal F(x)=0,5, por outro lado F(2)=1/9, F(3)=2/9.... F(15)=1. Em
particular, F(md)=F( x 5 )=F(8)=5/9=0,556.

2.1- Quartis: divide em 4 partes iguais:

n1
Primeiro Quartil ( q 1 )– Quarta parte – 25% Q 1=  posição
4

 n1
Segundo Quartil ( q 2 )– Mediana – 50 % Q 2=  posição
2

3n1
Terceiro Quartil - ( q 3 )Terça parte – 75 % Q 3  posição
4

Ex: Sejam os dados : 15 18 5 7 9 11 3 5 6 8 12

ordenar : 3 5 5 6 7 8 9 11 12 15 18

111
Q 1= =3  posição q 1=5
4

111
Q2 = =6  posição q 2=8
2

3111
Q 3= =9  posição q 3=12
4

Logo temos:
q1 q2 q3
3 55 6 7 8 9 1112 15 18

- Para tabelas de frequências com classes: Quando os dados estão agrupados , para
determinar os quartis usamos a mesma técnica do cálculo da mediana.

Tabela: Distribuição de frequencia de referente a altura de 40 alunos de uma determinada classe.

altura i Fi
150 |-- 154 4 4
154 |-- 158 9 13
158 |-- 162 11 24
162 |-- 166 8 32
166 |-- 170 5 37
170 |-- 174 3 40
40

Primeiro Quartil - q 1

6
∑ i
i=1 40  posição olhar na frequência acumulada (Fi) e observar o valor
Q 1= =
=10
4 4
mais próximo = 13

O primeiro quartil estará no intervalo correspondente 154 | – 158

Faremos da mesma forma que foi feito para a mediana: A primeira etapa já foi calculado acima

2. Segunda etapa :

∑ i
 i=1 − frequência acumalada da classe anterior 
4
. amplitude dointervalo
 frequência relatica da classe onde a medida está localizada
Temos portanto:

10−4
 . 4=2,67
9

3. Terceira etapa Calculo do primeiro quartil:

q 1=1542,67=156,67

Os 25% dos dados estão localizados até a altura 156,67 cm

- Segundo Quartil - q 2 ( já foi calculado em um exemplo anterior - mediana)

1. Primeira etapa do cálculo:

6
∑ i 
i=140  posição olhar na tabela na frequência acumulada (Fi) e observar
Q2 = =
=20
2 2
o valor mais próximo = 24

O segundo quartil estará no intervalo correspondente 158 | – 162

2. Segunda etapa :
6

∑ i
 i=1  frequência acumalada da classe anterior 
2
. amplitude dointervalo
 frequência relatica da classe onde a medida está localizada

Temos portanto:
20−13
 . 4=2,54
11

3.Terceira etapa Cálculo do segundo quartil:

q 2=1582,54=160,54

Os 50% dos dados estão localizados até a altura 160,54 cm

- Terceiro Quartil - q 3
1. Primeira etapa:

6
3 ∑ i 
i =1 3. 40  posição olhar na tabela na frequência acumulada e observar o
Q 3= ==30
4 4
valor mais próximo = 32

O primeiro quartil estará no intervalo correspondente 162 | – 166

2. Segunda etapa :

∑ i
3 i=1 − frequência acumalada da classe anterior
4
. amplitude dointervalo
 frequência relatica da classe onde a medida está localizada

Temos portanto:

30−24
 . 4=3
8

3- Terceira etapa Cálculo do terceiro quartil:

q 3=1623=165

Os 75 % dos dados estão localizados até a altura 165 cm

A melhor medida de posição para um específico conjunto de dados depende frequentemente do


modo pelo qual os valores estão distribuídos.

O desvio interquartílico d q=q 3−q 1 é muitas vezes usado como medida de dispersão, quanto
mais dispersa a distribuição maior será o valor de d q . Em distribuições mais dispersas, os

valores dos quartis ( e dos extremos) ficam mais distantes. Em distribuições simétricas a distância
entre o quartil inferior e a mediana é igual à distância entre a mediana e o quartil superior, enquanto
em distribuições assimétricas essas distâncias são diferentes.
2.2.1 Boxplot:

A representação gráfica Boxplot é bastante informativa e mostra a variabilidade e simetria dos


dados, como mostra os gráficos abaixo. O retângulo representa o desvio quartílico. Ele representa
50% dos valores mais típicos da distribuição. O retângulo é dividido no valor da mediana , assim
ele indica o quartil inferior, mediana e quartil superior. Entre os quartis são traçadas linhas.. Para
construir este diagrama : a partir do retângulo, par cima, segue uma linha até o ponto mais remoto
que não exceda LS =q 31,5 dq chamado de limite superior. De modo similar, da parte inferior
LS =q 1−1,5 dq , chamado de limite inferior. Os valores compreendido entre esses dois limites
são chamados de valores adjacentes. As observações que estiverem acima do limite superior ou
abaixo do limite inferior estabelecido serão chamados de pontos exteriores e representados por
asteriscos. Essas são observações destoantes das demais e podem ou não ser o que chamamos de
outliers ou valores atípicos.
70
60
50
40
30
200
150
100
50

2.3.Variância: Baseia- se na distância de cada variável em relação a média. A fórmula


variância amostral é dada por:
n

∑  x i− x 2
S 2= i=1
n−1

x1 x2 x3 x4
Ex: Dados não agrupados: , 4 , 5 , 8 , 5

 x 1−x 2=4−5,52=2,25

2 2
 x 2− x  =5−5,5 =0,25

 x 3− x 2=8−5,52=6,25
 x 4− x 2 =5−5,52=0,25

Somando tudo:
i

∑  x 1− x 2=2,250,256,250,25=9
i=1

Logo a variância é dada por:

∑  x i− x 2 9
S 2= i=1 = =3
4−1 3

Obs: O cálculo da variância da amostra é feito dividindo por (n-1) mas para a população deve-se
dividir por n , logo a variância da população dada por:
n

∑  x i− x 2
 2 = i =1
n

- Dados agrupados na tabela de frequências :

xi i i . xi i . xi
2

0 2 0 2. 0 2 =0
1 6 6 6 12 = 6
2 12 24 12 2 2 = 48
3 7 21 7 32 = 63
4 3 12 3 4 2 = 48
30 63 165

A fórmula da variância para dados agrupados em tabelas de freqüências é dada por :

 
n  n
∑ i x   ∑ i x i 
2
i n
1
∑ i xi2−n  x 2
2 i=1 i=1
S= − =
 n−1 n−1 n−1 i=1
Aplicando a fórmula:

165−30x 2,12
S 2= =1,13 unidade de medida2
30−1

Logo a variância dos dados é dada por 1,13

A variância tem as seguintes propriedades:


1. Multiplicando-se todos os valores de uma variável por uma constante, a variância do
conjunto fica multiplicada pelo quadrado dessa constante.
2. Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a variância
não se altera.

Essas propriedades permitem introduzir simplificações úteis no cálculo da variância. Uma delas,
consiste em subtrair de todos os valores do conjunto de dados uma constante antes de realizar-se o
cálculo, pois pela segunda propriedade , o resultado não será afetado.

2. 4- Desvio Padrão: Sendo a variância calculada a partir dos quadrados dos desvios,
 x i− x 2 ela é um número em unidade quadrada em relação a variável em questão, o que, sob o
ponto de vista prático, é muito inconveniente. Na prática o desvio- padrão é mais usado do que a
variância, a razão disto é que o desvio-padrão tem a mesma unidade de medida que a média, em
vez da unidade elevada ao quadrado.

Por isto temos a medida chamada desvio padrão definida como a raiz quadrada da variância:

s= S =
2

 ∑  xi −x 2
n−1

2. 5-Coeficiente de variação : Ele é definido como o quociente entre o desvio-padrão e a média.


É frequentemente apresentado em porcentagem. O coeficiente de variação é mais útil para se
comparar dois ou mais conjuntos de dados. Como é independente das unidades de medida, pode ser
usado para avaliar a variação relativa entre quaisquer dois conjuntos de observações.

s
cv  x= .100
x

Sua vantagem é caracterizar a dispersão dos dados em termos relativos a seu valor médio. Por ser
adimensional o coeficiente de variação fornece uma maneira de se compararem as dispersões de
variáveis cujas unidades são irregulares .

Usando novamente o exemplo anterior onde s= 1,06 e x =2,10

1,06
temos que o cv  x= .100=50,48 %
2,10
Ex:

média s cv(x)

Altura 1,143m 0,063m 5,50%


Peso 50 kg 6kg 12,00%

observando a tabela os alunos são 2 vezes mais dispersos quanto ao peso do que quanto altura.

3. Momentos de uma distribuição de freqüência

Definimos o momento de ondem t de um conjunto de dados como

∑ x ti
M t = i=1
n

Definimos o momento de ordem t centrado em relação a uma constante a como

∑  xi −at
M at = i=1
n

Temos interesse quando o momento é centrado em x , onde chamamos de momento centrado:

∑  xi − x t
mt = i=1
n
Como já vimos nos casos da média e da variância, as expressões precedentes podem ser reescritas
levando-se em consideração as freqüências dos diferentes valores existentes. Portanto temos:
n

∑ x ti i
M t = i=1
n

∑  xi −at i
M at = i=1
n
n

∑  xi − x t i
mt = i=1
n
Essas expressões podem ser usadas no caso de dados agrupados em classes de freqüências, como
foi visto anteriormente.

Podemos ver que M t =x , m1=0 e m2 =S 2

Interessa também obtermos os momentos centrados de terceira e quarta ordem, que são dados por:

n n

∑x 3
i ∑ xi2
m3= i=1 −3 x i=1
2 x 3
n n

n n n

∑x 4
i ∑x 3
i ∑ x i2
m4 = i =1 i=1
−4 x 6 x 2 i=1 −3 x 4
n n n

Usando as freqüências temos as seguintes expressões:


n n

∑ x 3i i ∑ x 2i i
m3= i=1 −3 x i=1
2  x 3
n n

n n n

∑ x 4i i ∑ x 3i i ∑ x 2i i
m4 = i =1 i =1
−4 x 6  x 2 i =1 −3 x 4
n n n

4. Medidas de assimetria

Essas medidas procuram caracterizar como e quanto a distribuição de freqüências se afasta da


condição de simetria. As distribuições à direita são ditas positivamente assimétricas, e as alongadas
à esquerda, negativamente assimétricas. As medidas de assimetria, conforme sejam positivas ,
negativas ou aproximadamente nulas, procuram indicar o tipo de distribuição quanto a esse aspecto.
1) Assimetria Positiva

2) Assimetria Negativa

O momento centrado de terceira ordem pode ser usado como medida da assimetria de uma
distribuição. Entretanto é mais conveniente a utilização de uma medida adimensional , o que leva a
definição de coeficiente de assimetria , obtido a partir do terceiro momento e pelo cubo do desvio
padrão

m3 m3
a 3= 3
=
s m
3
2

Este coeficiente indica o sentido da assimetria e , sendo adimensional, pode ser usado para
comparar diversos casos.

Obs: O cálculo de m 3 para variável codificada z exige apenas que se acrescente o cálculo de
3
z i f i , iremos trabalhar com z e não mais com x ( variáveis originais).

Exemplo: Usando o exemplo da altura dos alunos de uma classe.

Tabela: Distribuição de frequencia de referente a altura de 40 alunos de uma determinada classe.

altura i fi pto x 2i i x 3i i
médio
 xi 
150 |-- 154 4 0,100 152 92.416 14.047.232
154 |-- 158 9 0,225 156 219.024 34.167.744
158 |-- 162 11 0,275 160 281.600 45.056.000
162 |-- 166 8 0,200 164 215.168 35.287.552
166 |-- 170 5 0,125 168 141.120 23.708.160
170 |-- 174 3 0,075 172 88.752 15.265.344
40 1 1038080 167532032

∑ xi i n
i=1
x = =∑ x i f i =162,35 m
n i=1

6
m2 =s 2 =∑  xi −x 2. f i =152−162,352 0,100172−162,352 0,075=4,661694
i=1

n n

∑x 3
i i ∑ x 2i i 167532032 1038080
m3= i=1 i=1
−3 x 2  x 3= −3 162,35 2162,353
n n 40 40

167532032 1038080
−3162,35 2 162,352=4.188.300,08−12.639.921,68.558.287,556
40 40

4.188.300,08−12.639.921,68.558.287,556=106.666,036

s 2= m2=  4.661694 = 101,305095=10,065043


3 3
m3=106.666,036
m3 m3 106.666,036
a 3= 3
= = =10.597.67315
s m 3
2
10,065043

o valor é positivo, mostra uma assimetria positiva, podemos notar pelo histograma também.
Obs: Notem que os valores foram muito altos, uma codificação nos dados seria o ideal par que
possamos trabalhar com valores menores. De que forma poderíamos ter feito isso, seria necessário
definir um valor para ser retirado de cada variável x i .

Uma outra medida é o índice de assimetria de Pearson :

x −Mo
A= 
sx

onde Mo é a moda , usando o exemplo anterior, temos:

x −Mo 162,35−160
A=  = =0,504109
sx 4,661694

Quando ∣A∣0,15 , podemos considerar a distribuição como praticamente simétrica.Por outro


lado, costuma-se considerar a assimetria como moderada se 0,15∣A∣1 , e forte se ∣A∣1 .

Para o exemplo podemos observar que o índice de assimetria de Pearson nos dá uma melhor noção
da assimetria dos dados, onde podemos dizer que existe uma assimetria moderada.

5. Medidas de achatamento ou curtose:

Essas medidas procuram caracterizar forma da distribuição quanto o seu achatamento. O termo
médio de comparação é dado pela distribuição Normal, modelo teórico de distribuição estudado em
Probabilidade.

figura: distribuição normal

A distribuição acima quanto ao seu achatamento ela é dita mesocúrtica. As distribuições mais
achatadas que a normal são ditas platicúrticas e menos achatadas leptocúrticas
A caracterização do achatamento de uma distribuição só tem sentido, em termos práticos, se a
distribuição for pelo menos aproximadamente simétrica. Dentre as possíveis medidas de
achatamento, mencionaremo apenas o coeficiente de curtose, obtido pelo quociente do momento
centrado de quarta ordem pelo quadrado da variância , ou seja:

m4
a 4=
s4

Este coeficiente é adimensional, sendo a 4 3 para as distribuições platicúrticas, a 4 =3 para


as distribuições mesocúrticas e a 4 3 para as distribuições leptocúrticas .

6. Transformações

Vários procedimentos estatísticos são baseados na suposição de que os dados provêm de uma
distribuição normal ou então mais ou menos simétrica. Mas em muitos situações de interesse
prático, a distribuição dos dados da amostra é assimétrica e pode conter valores atípicos, como
vimos anteriormente.

Se quisermos utilizar tais procedimentos, o que se propõe é efetuar uma transformação das
observações, de modo a se obter uma distribuição mais simétrica e próxima da normal.
p
Uma família de transformações frequentemente usada é, x

• x p se p0
• ln  x se p=0
• −x p se p0

Normalmente, o que se faz é experimentar os valores de p na seqüência, .....-3,-2,-1,-1/2,-


1/4,0,1/3,1/2.....

Você também pode gostar