Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatistica Descritiva Amostras Classes Texto
Estatistica Descritiva Amostras Classes Texto
ESA 2005/2006 1
ESTATSTICA DESCRITIVA
Amostras com dados agrupados em classes
Nas prximas seces iremos abordar a anlise estatstica de uma amostra em que os
dados numricos esto agrupados em classes, ou seja, em intervalos.
Este agrupamento em classes pode dever-se a diversos motivos:
fonte de informao: os dados podem ter sido obtidos em fontes em que os
dados j esto no formato de classes, e no se dispe dos dados individualizados
para todos os elementos da amostra. o que acontece frequentemente em dados
recolhidos de publicaes de diversas Instituies (por exemplo, Anurios do
Instituto Nacional de Estatstica);
no processo de recolha de informao, os dados foram recolhidos em classes, e
no individualizados. Imaginemos, por exemplo, a recolha de dimetros de
rvores num povoamento florestal, em que se registaram o nmero de rvores
cujos dimetros se encontram nos intervalos ]15 , 20], ]20 , 25], ]25, 30], etc, em
vez de se registarem os dimetros individualmente;
a dimenso da amostra demasiado grande, agrupando-se os dados em classes, a
fim de facilitar a anlise (esta vantagem actualmente insignificante, face aos
meios de clculo disponveis).
Muitas das variveis numricas so de natureza contnua, em que o processo de
quantificao do valor dessa varivel pressupe de algum modo a discretizao da
varivel. Imaginemos, por exemplo, a recolha de pesos de uma amostra de borregos; a
caracterstica peso tipicamente de natureza contnua; porm, ao pesar cada um dos
borregos, o operador faz um registo que corresponde a um valor aproximado do peso
desse borrego, e no do seu peso exacto; os erros de arredondamento, ou aproximao,
que se fazem nestas situaes, dependem fundamentalmente dos objectivos do estudo,
do material usado, etc.
Nesta perspectiva, ao falar-se de um valor de peso de borrego de 4.5 kg, rigorosamente
o que se est a fazer arredondar para este valor toda a gama de pesos que com maior
preciso de pesagem podero estar no intervalo ]4.45 , 4.55].
Isto , muitas das amostras tratadas como amostras de valores discretos correspondem
na realidade a variveis contnuas mas que so discretizadas (ou arredondadas) para o
valor da marca ou centro do intervalo, no acto de obteno do valor da varivel.
Quando o estatstico tem possibilidade de definir o nmero de classes (relativamente aos
trs casos anteriormente referidos, o estatstico s no tem essa possibilidade no
primeiro dos casos; em ambos os outros, cabe ao estatstico definir as classes ou
intervalos nos quais vai agrupar os dados), um aspecto importante tem a ver com o
nmero de classes a formar.
Em muitas situaes, esta definio efectuada antes de se realizar a recolha de dados,
de modo que ao efectuar as medies ou o processo de recolha de informao, ao
Estatstica Descritiva
ESA 2005/2006 2
estatstico apenas resta a liberdade de colocar no intervalo ou classe respectiva cada
uma das observaes.
Numa situao deste gnero, as classes so de um modo geral estabelecidas de modo a
facilitar a obteno e o registo das observaes.
Se o estatstico dispe do rol (ou listagem) de todas as observaes individualizadas, e
pretende classificar ou agrupar os dados em intervalos (seja simplesmente para elaborar
o histograma, seja para clculo dos parmetros estatsticos), a primeira operao
definir o nmero de classes.
Existem diversas propostas empricas para a definio do nmero de classes k a definir;
uma regra consiste em definir um nmero de classes prximo raiz quadrada do
nmero de observaes:
k N
Esta regra parece funcionar bastante bem, se o nmero de dados no demasiado
grande (vejamos que, se na amostra existem 400 dados, esta regra sugere a realizao de
20 classes de dados). Outra regra, tambm muito usual, consiste em usar um nmero de
classes definido por (em que log(.) representa o logaritmo decimal):
( ) 1 3.3 log k N = + , arredondado ao inteiro superior
Em qualquer dos casos, devem definir-se classes com a mesma amplitude.
Estas regras tm um carcter meramente indicativo, devendo ser tomadas em conta as
vantagens de ordem prtica que advm da definio das classes cujos limites inferior e
superior coincidam com valores fceis de manusear.
Exemplo:
Considere-se uma amostra de 100 dados de pesos, expressos em gramas, que tomam
valores desde
min
297.47 x g = e
max
305.13 x g = . As regras anteriores sugerem a
formao de 10 classes e 8 classes, respectivamente.
Combinando estas indicaes com o aspecto prtico, se fixarmos os limites do intervalo
de variao em | | 279.00, 306.00 , a amplitude deste intervalo de 9.00 g, sugerindo a
realizao de 9 classes, de amplitude 1.00 g, definidas como:
| | | | | | | | 297.00, 298.00 , 298.00, 299.00 , 299.00, 300.00 ,..., 305.00, 306.00
Repare-se que, de um modo geral se esto a respeitar as indicaes tericas do nmero
de classes a formar, em conjugao com o aspecto prtico dos limites das classes
ficarem bem definidos.
Nota acerca dos limites das classes: subsiste sempre alguma confuso acerca dos limites
das classes, se devero ser abertos no limite inferior e fechados no limite superior, isto
Estatstica Descritiva
ESA 2005/2006 3
, do tipo
inf sup
, L L ( (
, ou se os limites devem ser ao contrrio, isto ,
inf sup
, L L
. Vamos
adoptar a definio
inf sup
, L L ( (
, j que desta maneira estamos a ser coerentes com a
definio da funo cumulativa de probabilidades.
Pressupe-se que em cada uma das classes, todas as observaes dessa classe esto
concentradas no centro ou marca da classe.
Nas seces seguintes vamos usar, para alm de outros exemplos espordicos usados
para ilustrar as explicaes de alguns conceitos, a seguinte amostra de pesos (em g) de
100 embalagens de manteiga (os pesos variam entre
min
297.47 x g = e
max
305.13 x g = ,
conforme anteriormente referido; no se registaram as observaes individualizadas,
mas apenas se contaram o nmero de ocorrncias em cada uma das classes); o nmero
de classes 9 k = , e amplitude de cada classe de 1 unidade:
Limites das classes (peso, em g) N de garrafas
]297.00 , 298.00] 8
]298.00 , 299.00] 21
]299.00 , 300.00] 28
]300.00 , 301.00] 15
]301.00 , 302.00] 11
]302.00 , 303.00] 10
]303.00 , 304.00] 5
]304.00 , 305.00] 1
]305.00 , 306.00] 1
TOTAL N = 100
Tabela de frequncias e histograma
A tabela de frequncias e o histograma tm o seguinte aspecto, onde
i
i
n
f
N
= a
frequncia relativa da observao
i
x , e , Fac fra so as frequncias absolutas
acumuladas e as frequncias relativas acumuladas:
Classes de peso (g)
i
n
Fac
i
f
fra
]297.00 , 298.00] 8 8 0.08 0.08
]298.00 , 299.00] 21 29 0.21 0.29
]299.00 , 300.00] 28 57 0.28 0.57
]300.00 , 301.00] 15 72 0.15 0.72
]301.00 , 302.00] 11 83 0.11 0.83
]302.00 , 303.00] 10 93 0.10 0.93
]303.00 , 304.00] 5 98 0.05 0.98
]304.00 , 305.00] 1 99 0.01 0.99
]305.00 , 306.00] 1 100 0.01 1.00
TOTAL
9
1
100
i
i
N n
=
= =
9
1
1
i
i
f
=
=
Estatstica Descritiva
ESA 2005/2006 4
O histograma das frequncias absolutas que uma estimativa da funo de
distribuio de probabilidades da populao de onde a amostra foi recolhida - tem o
seguinte aspecto (o histograma das frequncias relativas tem exactamente o mesmo
aspecto, diferindo apenas a escala do eixo das ordenadas, que em vez de escala absoluta,
vem em escala relativa):
A escala do eixo das abcissas pode definir os limites das classe, como no exemplo, ou
ento a marca da classe (isto , o centro de cada uma das classes).
O histograma d diversas informaes acerca da distribuio das frequncias,
nomeadamente em termos de valores mais frequentes (classe modal, que no caso a
classe ]299.00 , 300.00], simetria (no exemplo, nota-se que a distribuio assimtrica
esquerda ou assimtrica positiva), regies do intervalo de variao onde no existem
observaes, bem como da representatividade de cada uma das classes.
O histograma das frequncias relativas acumuladas (que constitui uma estimativa da
funo cumulativa de probabilidades) apresenta-se em seguida.
Quanto maior for um degrau de um valor
1 i
x
= + = +
em que
classeanterior
Fac ,
classeanterior
fra so, respectivamente, a frequncia absoluta
acumulada ou a frequncia relativa acumulada at classe anterior classe mediana,
classemediana
n ,
classemediana
f so a frequncia absoluta ou a frequncia relativa da classe
mediana,
inf
L o limite inferior da classe mediana e a amplitude da classe mediana.
Estatstica Descritiva
ESA 2005/2006 9
Para a amostra em estudo, a classe mediana a classe ]299.00 , 300.00],
inf
299.00 L = ,
29
classeanterior
Fac = , 28
classe mediana
n = e 1.00 = ; assim, a mediana :
inf
50 29
2
. 299.00 1.00 299.75
28
classeanterior
classemediana
N
Fac
Med L
n
= + = + =
Quartis, decis, percentis
Tal como para o caso das amostras discretas ou de pequena dimenso, os quartis
dividem a amostra em quatro sub-amostras ou quatro intervalos quartlicos, definidos
respectivamente por
| | | | | | | |
min 1 1 2 2 3 3 max
, ; , ; , ; , x Q Q Q Q Q Q x .
Para definir cada um dos quartis, localiza-se a classe quartlica respectiva (isto , a
classe onde ocorrem 25%, 50% e 75% das observaes), e de seguida determina-se qual
dos valores de cada uma dessas classes teoricamente o respectivo quartil, usando a
seguinte expresso:
, ,
inf, inf,
.
4 4
. . 1, 2, 3
j j
classeanterior j classeanterior j
j j j
classeQ classeQ
j N j
Fac fra
Q L L j
n f
= + = + =
1 quartil (j=1):
1 classe quartlica: ]298.00 , 299.00]
8
classeanterior
Fac =
1
21
classeQ
n =
1
,1
1 inf,1
100
8
4 4
. 298.00 1.00 298.81
21
classeanterior
classeQ
N
Fac
Q L
n
= + = + =
3 quartil (j=3):
3 classe quartlica: ]301.00 , 302.00]
72
classeanterior
Fac =
3
11
classeQ
n =
3
,3
3 inf,3
3. 3 100
72
4 4
. 301.00 1.00 301.27
11
classeanterior
classeQ
N
Fac
Q L
n
= + = + =
Naturalmente, o 2 quartil coincide com a mediana:
2
299.75 Q Med = .
Estatstica Descritiva
ESA 2005/2006 10
A expresso anterior generaliza-se de uma maneira lgica para qualquer percentil:
, ,
inf, inf,
.
100 100
. . 1, 2, 3,...,100
j j
classeanterior j classeanterior j
j j j
classe P classe P
j N j
Fac fra
P L L j
n f
= + = + =
em que
classeanterior
Fac ,
classeanterior
fra so, respectivamente, a frequncia absoluta
acumulada ou a frequncia relativa acumulada at classe anterior classe do percentil
pretendido,
j
classe P
n ,
j
classe P
f so a frequncia absoluta ou a frequncia relativa da classe
do percentil pretendido,
inf
L o limite inferior da classe do percentil e a amplitude
da classe do percentil em considerao.
Para os decis, basta fazer 10, 20, 30,..., 90 j = na expresso anterior.
Vejamos, por exemplo, os percentis
5 10 90 95
, , , P P P P :
Percentil 5% (j=5):
Classe do percentil 5%: ]297.00 , 298.00]
0
classeanterior
Fac =
5
8
classe P
n =
5
,5
5 inf,5
5. 5 100
0
100 100
. 297.00 1.00 297.625
8
classeanterior
classe P
N
Fac
P L
n
= + = + =
Percentil 10% (j=10):
Classe do percentil 10%: ]298.00 , 299.00]
8
classeanterior
Fac =
10
21
classe P
n =
10
,10
10 inf,10
10. 10 100
8
100 100
. 298.00 1.00 298.095
21
classeanterior
classe P
N
Fac
P L
n
= + = + =
Percentil 90% (j=90):
Classe do percentil 90%: ]302.00 , 302.00]
83
classeanterior
Fac =
90
10
classe P
n =
90
,90
90 inf,90
90. 90 100
83
100 100
. 302.00 1.00 302.7
10
classeanterior
classe P
N
Fac
P L
n
= + = + =
Estatstica Descritiva
ESA 2005/2006 11
Percentil 95% (j=95):
Classe do percentil 95%: ]303.00 , 304.00]
93
classeanterior
Fac =
95
5
classe P
n =
95
,95
95 inf,95
95. 95 100
93
100 100
. 303.00 1.00 303.4
5
classeanterior
classe P
N
Fac
P L
n
= + = + =
Nota: de um modo geral h sempre interesse em calcular, para alm da mediana e dos
quartis, os percentis
10
P e
90
P , pois entram no clculo de coeficientes de assimetria e de
achatamento.
Mdia
Tal como no caso de amostras de pequena dimenso, mas onde existem dados repetidos,
sendo
i
n a frequncia absoluta da i.sima classe 1, 2, 3,..., i k = , tal que
1
k
i
i
n N
=
=
, a
mdia de uma amostra agrupada em classes calculada por:
1
.
k
i i
i
n x
x
N
=
=
Nesta situao, o valor
i
x a marca (ou valor central) da i.sima classe 1, 2, 3,..., i k = .
Para calcular a mdia, elabora-se a seguinte tabela como ferramenta de clculo:
Classe
i
x
i
n .
i i
n x
]297.00 , 298.00] 297,5 8 2380,0
]298.00 , 299.00] 298,5 21 6268,5
]299.00 , 300.00] 299,5 28 8386,0
]300.00 , 301.00] 300,5 15 4507,5
]301.00 , 302.00] 301,5 11 3316,5
]302.00 , 303.00] 302,5 10 3025,0
]303.00 , 304.00] 303,5 5 1517,5
]304.00 , 305.00] 304,5 1 304,5
]305.00 , 306.00] 305,5 1 305,5
9
1
. 30011.0
i i
i
n x
=
=
Estatstica Descritiva
ESA 2005/2006 12
Logo, a mdia
1
.
30011
300.11
100
k
i i
i
n x
x
N
=
= = =
Nota:
1
1 1 1
.
.
. .
k
i i k k k
i i i i
i i i
i i i
n x
n x n
x x f x
N N N
=
= = =
= = = =
, em que
i
i
n
f
N
= a frequncia relativa
da observao
i
x . Isto :
Classe
i
x
i
f .
i i
f x
]297.00 , 298.00] 297,5 0,08
23,800
]298.00 , 299.00] 298,5 0,21
62,685
]299.00 , 300.00] 299,5 0,28
83,860
]300.00 , 301.00] 300,5 0,15
45,075
]301.00 , 302.00] 301,5 0,11
33,165
]302.00 , 303.00] 302,5 0,1
30,250
]303.00 , 304.00] 303,5 0,05
15,175
]304.00 , 305.00] 304,5 0,01
3,045
]305.00 , 306.00] 305,5 0,01
3,055
9
1
. 300.11
i i
i
x f x
=
= =
No exemplo nota-se que 299.35 299.75 300.11 Mod Med x = < = < = , o que um
sintoma de que a amostra tem uma cauda superior mais prolongada, isto , a amostra
denota uma tendncia de assimetria direita, ou assimetria positiva.
Parmetros de disperso
Para alm de caracterizar a distribuio de uma amostra pela sua tendncia de
localizao ou tendncia central, temos de descrever igualmente a sua tendncia de
disperso ou variabilidade, que um indicador da variabilidade das observaes em
torno dos valores centrais.
Intervalo e amplitude de variao
O intervalo de variao da amostra o intervalo definido por:
| |
1
,
N
x x
isto , o intervalo definido pelos valores mnimo e mximo da amostra. A Amplitude d
variao (Range) a amplitude deste intervalo:
1 N
R x x =
Estatstica Descritiva
ESA 2005/2006 13
O intervalo de variao da amostra em anlise [297.47 , 305.13] e a amplitude de
variao 305.13 297.47 7.66 R = = .
Amplitude inter-quartlica
A amplitude inter-quartlica definida como:
3 1
Q Q
Embora esta estimativa da variabilidade no seja tanto influenciada pelos valores
extremos e traduza melhor que a amplitude da amostra a maior ou menor tendncia de
concentrao dos valores em torno da mdia, ainda no leva em conta todas as
observaes presentes na amostra.
Estas medidas de disperso, amplitude e amplitude inter-quartlica, so mais teis na
comparao da variabilidade de diversas amostras retiradas da mesma populao do que
na descrio da disperso de uma nica amostra.
Para a amostra dos pesos das embalagens de manteiga, a amplitude inter-quartlica de
3 1
301.27 298.81 2.46 Q Q = = .
Diagrama de extremos-e-quartis
Este diagrama, tambm designado por caixa-com-bigodes (da traduo literal da sua
designao em Ingls, boax-and-whiskers) permite efectuar uma anlise grfica da
variabilidade de uma amostra, bem como analisar a distribuio da concentrao nas
quatro sub-amostras definidas pelos quartis (intervalos quartlicos).
Esta representao grfica consiste em desenhar um rectngulo, com a base na escala
das observaes, e em que os dois lados laterais so respectivamente o 1 e 3 quartis;
ligam-se estes lados com um segmento de recta escala, respectivamente ao valor
mnimo e ao valor mximo da amostra. O rectngulo, que representa a amplitude inter-
quartlica, dividido pela mediana.
Pela amplitude de cada uma destas quatro sub-amostras, possvel ficar-se com uma
ideia bastante rigorosa de como o comportamento da amostra, em termos de disperso
ou concentrao de valores, bem como deduzir acerca da sua simetria.
Na amostra em estudo, este diagrama tem o seguinte aspecto:
Estatstica Descritiva
ESA 2005/2006 14
Repare-se que a amostra mais concentrada no 2 intervalo quartlico. A zona de maior
disperso de valores ocorre no 4 intervalo quartlico.
Nota-se a ocorrncia de um valor (valor mximo) que deve ser considerado como
outlier moderado, j que:
( )
max 3 3 1
305.13 1.5 301.27 1.5 2.46 304.96 x Q Q Q = > + = + =
Contudo, no outlier extremo porque:
( )
max 3 3 1
305.13 3 301.27 3 2.46 308.65 x Q Q Q = < + = + =
Desvio mdio
Uma medida da disperso em torno da mdia resulta da soma dos desvios de cada
observao para a mdia:
1
N
i
i
x x
dm
N
=
=
Para dados agrupados em classes, o desvio mdio calcula-se pela expresso seguinte,
em que
i
x a marca de cada uma das k classes:
1
1 1
.
. .
k
i i k k
i i
i i i
i i
n x x
n
dm x x f x x
N N
=
= =
= = =
Estatstica Descritiva
ESA 2005/2006 15
Este parmetro mede o afastamento mdio de cada observao para a mdia: quanto
maior for (comparativamente com a mdia ou com os dados originais), mais dispersa
ser a amostra, e consequentemente menos representativa a mdia.
Na tabela de clculo seguinte apresentam-se os clculos do desvio mdio da amostra em
anlise:
Classe
i
x
i
n
i
x x .
i i
n x x
]297.00 , 298.00] 297,5 8 -2,61 20,88
]298.00 , 299.00] 298,5 21 -1,61 33,81
]299.00 , 300.00] 299,5 28 -0,61 17,08
]300.00 , 301.00] 300,5 15 0,39 5,85
]301.00 , 302.00] 301,5 11 1,39 15,29
]302.00 , 303.00] 302,5 10 2,39 23,9
]303.00 , 304.00] 303,5 5 3,39 16,95
]304.00 , 305.00] 304,5 1 4,39 4,39
]305.00 , 306.00] 305,5 1 5,39 5,39
9
1
. 143.54
i i
i
n x x
=
=
O desvio mdio
1
.
143.54
1.4354
100
k
i i
i
n x x
dm
N
=
= = =
.
O desvio mdio tambm podia ser calculado usando as frequncias relativas:
i
x
i
f
i
x x .
i i
f x x
]297.00 , 298.00] 297,5 8 0,2088
]298.00 , 299.00] 298,5 21 0,3381
]299.00 , 300.00] 299,5 28 0,1708
]300.00 , 301.00] 300,5 15 0,0585
]301.00 , 302.00] 301,5 11 0,1529
]302.00 , 303.00] 302,5 10 0,2390
]303.00 , 304.00] 303,5 5 0,1695
]304.00 , 305.00] 304,5 1 0,0439
]305.00 , 306.00] 305,5 1 0,0539
9
1
. 1.4354
i i
i
dm f x x
=
= =
O desvio mdio, quando comparado com os valores originais ou com o valor da mdia,
revela-se bastante pequeno o que traduz uma pequena tendncia de disperso, ou
equivalentemente, uma forte tendncia de concentrao em torno da mdia; uma
comparao mais objectiva poder ser obtida pela proporo
1.4354
0.0048
300.11
dm
x
= = ,
isto , o desvio mdio da ordem de 0.48% do valor da mdia.
Estatstica Descritiva
ESA 2005/2006 16
Varincia
A varincia o parmetro de disperso mais usual, e aquele que apresenta melhores
propriedades estatsticas.
A varincia, tal como o desvio mdio, uma medida do afastamento mdio de cada uma
das observaes em torno da mdia. No caso do desvio mdio, o mdulo da diferena
para a mdia , por definio, o afastamento de cada observao para a mdia. No caso
da varincia, usa-se o quadrado da distncia das observaes para a mdia.
Para a populao, a varincia , por definio:
( )
2
2 1
N
i
i
x
N
=
=
Contudo, na Estatstica no se tem a populao, mas sim uma amostra de observaes,
geralmente de muito menor dimenso que a populao. Demonstra-se que a expresso
anterior, quando aplicada a amostras relativamente diminutas em comparao com a
populao (e usando a mdia amostral x como estimativa da mdia da populao )
sub-valoriza o valor da varincia (isto , o valor da varincia amostral seria menor que o
valor da varincia da populao de onde a amostra foi retirada). Para evitar este
enviesamento, utiliza-se a seguinte expresso de clculo da varincia amostral, denotada
com o smbolo
2
s :
( )
2
2 1
1
N
i
i
x x
s
N
=
=
Isto , para evitar a sub-valorizao, o divisor 1 N .
Esta expresso, para clculo manual, de difcil manuseamento. Desenvolvendo
aritmeticamente a expresso anterior, e considerando existem k classe, cujas marcas so
genericamente
i
x , e as frequncias absolutas so
i
n , obtm-se a seguinte expresso,
mais fcil de implementar numa tabela de clculo:
2
1 2 2 2 2
1 1
.
1 1
. . .
1 1
k
i i
k k
i
i i i i
i i
n x
s n x n x N x
N N N
=
= =
| |
| |
|
|
| |
\ . |
= =
|
|
\ .
|
|
\ .
Repare-se que o valor da varincia vem expresso numa escala quadrtica, no podendo
portanto comparar-se com os valores originais. Para podermos comparar duas
quantidades, estas tm de estar nas mesmas unidades. Assim, calcula-se a varincia, e
de seguida reduz-se para a escala em que esto as observaes:
Estatstica Descritiva
ESA 2005/2006 17
s
s s =
Este indicador estatstico (s) designa-se por desvio padro.
Para comparar o desvio padro com os valores originais, calcula-se o seguinte
indicador, designado por coeficiente de variao:
s
cv
x
=
Como regra de geral, alguns autores consideram a distribuio concentrada se 0.1 cv ,
e dispersa caso 0.1 cv > .
Para a amostra das embalagens de manteiga em anlise, elabore-se a seguinte tabela de
clculo:
Classe
i
x
i
n
2
.
i i
n x
]297.00 , 298.00] 297,5 8 708050,00
]298.00 , 299.00] 298,5 21 1871147,25
]299.00 , 300.00] 299,5 28 2511607,00
]300.00 , 301.00] 300,5 15 1354503,75
]301.00 , 302.00] 301,5 11 999924,75
]302.00 , 303.00] 302,5 10 915062,50
]303.00 , 304.00] 303,5 5 460561,25
]304.00 , 305.00] 304,5 1 92720,25
]305.00 , 306.00] 305,5 1 93330,25
9
2
1
. 9006907.0
i i
i
n x
=
=
Para calcular a varincia, basta fazer:
( )
2 2 2 2
1
1 1
. . 9006907 100 300.11 3.0888
1 99
k
i i
i
s n x N x
N
=
| |
= = =
|
\ .
O desvio padro
2
3.0888 1.7575 s s = = = . O coeficiente de variao
1.7575
0.0059
300.11
s
cv
x
= = = , isto , o desvio padro da ordem de 0.59% do valor da
mdia, o que traduz, tal como o desvio mdio, uma variabilidade bastante pequena das
observaes em torno da mdia.
Parmetros de assimetria
A assimetria (em ingls, skewness) o grau de desvio ou afastamento da simetria de
uma distribuio. Se a curva de frequncias de uma distribuio tem uma cauda mais
Estatstica Descritiva
ESA 2005/2006 18
longa direita, relativamente ordenada mxima (moda), diz-se que a distribuio
assimtrica para a direita, ou que tem assimetria positiva. Se a cauda mais longa a
esquerda, a distribuio assimtrica para a esquerda, ou assimtrica negativa.
Para distribuies assimtricas, a mdia tende a situar-se do mesmo lado da moda que a
cauda mais longa:
Assim, uma medida da assimetria proporcionada pela diferena entre a mdia e a
moda, ponderada por uma medida de disperso (desvio padro):
x moda
Assimetria
s
):
( ) ( )
( )
3
1
3 1
1 3 3
1 1
2 2
N
i N
i
x x
N N N N
m
g
N s N s
=
= =
Este coeficiente calculado em diversos programas estatsticos (SPSS, MINITAB,
STATGRAPHICS, etc), muito embora o seu clculo manual seja algo moroso.
Est provado que para N>150 o coeficiente
1
g assintticamente normal com mdia
zero e varincia
6
N
; o coeficiente de assimetria estandardizado :
1
6
s
g
g
N
=
Todos estes coeficientes so nulos quando a amostra perfeitamente simtrica; so
positivos se a amostra assimtrica positiva ou assimtrica direita, e so negativos
para amostras assimtricas negativas.
Para a amostra de pesos das embalagens de manteiga, estes coeficientes so:
1 coeficiente de assimetria de Pearson:
300.11 299.35
0.4324
1.7575
x moda
Assimetria
s
= = =
2 coeficiente de assimetria de Pearson:
( ) ( ) 3 3 300.11 299.75
0.2048
1.7575
x mediana
Assimetria
s
= = =
Coeficiente quartlico de assimetria:
( )
( )
3 2 1
3 1
2
301.27 2 299.75 298.81
0.2358
301.27 298.81
Q Q Q
Q Q
+
+
= =
Coeficiente percentlico de assimetria:
( )
( )
90 50 10
90 10
2
302.7 2 299.75 298.095
0.2812
302.7 298.095
P P P
P P
+
+
= =
O coeficiente de assimetria de Fisher :
Estatstica Descritiva
ESA 2005/2006 20
( ) ( )
( )
3
1
3 1
1 3 3 3
366.7062
1 1
100 99
100
0.6858
2 2 98 1.7575
N
i N
i
x x
N N N N
m
g
N s N s
=
= = = =
Todos estes coeficientes indicam que a distribuio da amostra ligeiramente enviezada
direita, ou assimtrica positiva.
Parmetros de forma
Alm da simetria, as distribuies tambm se costumam caracterizar quanto altura do
ponto mximo da curva de distribuio. Esta caracterstica designada por achatamento
ou curtose (em ingls, kurtosis).
A distribuio chamada mesocrtica tem no centro uma altura correspondente curva
da funo de densidade da distribuio normal.
A distribuio diz-se platicrtica se tem altura inferior da curva normal. Repare-se que
o facto de a distribuio ter altura menor no centro, significa maior proporo de
observaes nas caudas, isto , sintoma de uma forte disperso.
A distribuio diz-se leptocrtica se tem altura superior da curva normal. O facto de a
distribuio ter altura maior no centro, significa maior proporo de observaes nas
proximidades dos valores centrais, isto , sintoma de uma forte concentrao em torno
da mdia.
Um coeficiente numrico para caracterizar o achatamento o coeficiente percentlico de
achatamento:
( )
3 1
90 10
2
Q Q
k
P P
Para uma curva normal, o valor deste coeficiente 0.263 k = . Um valor inferior
sintoma de uma curva muito achatada, e um valor superior sintoma de uma curva
demasiado alta.
Platicrtica
Mesocrtica
Leptocrtica
Estatstica Descritiva
ESA 2005/2006 21
Os programas estatsticos usam outro coeficiente de achatamento, designado por
coeficiente de achatamento de Fisher, que baseado no 4 momento centrado na mdia
( ( )
4
1
4
1
N
i N
i
m x x
=
=
):
( )( )
( )( )
( )
4
2 4
1 1 3 1
2 3 1
N N N
m
g
N N s N
+ (
=
(
+
Para uma curva normal, o valor deste coeficiente 0 k = . Um valor negativo sintoma
de uma curva muito achatada, e um valor positivo sintoma de uma curva demasiado
alta.
Para a amostra de borregos, o coeficiente percentlico de achatamento :
( )
3 1
90 10
301.27 298.81
2 2
0.2671
302.7 298.095
Q Q
k
P P
= = =
indicando que a distribuio tem uma altura na classe modal muito semelhante altura
de uma distribuio normal. O coeficiente baseado no 4 momento
2
0.0505 g = que,
tal como o coeficiente percentlico de achatamento, d a informao de que a altura da
curva da distribuio praticamente normal.
Consideraes finais
1 . O facto de se agruparem os dados em classes, e estimar os parmetros com base nas
marcas das classes, e no com todos os dados individualizados, conduz necessariamente
a umas estimativas dos parmetros ligeiramente diferentes das que se obteriam
trabalhando com os N dados individualizados. Estas diferenas sero tanto mais graves
quanto mais distintos, em cada uma das classes, os valores nelas includos forem
diferentes da marca da classe.
Assim, de modo a minimizar o efeito de enviezamento nas estimativas dos parmetros
estatsticos, as classes devem ser definidas de tal modo que as respectivas marcas
fiquem sensivelmente no centro das observaes includas em cada uma das classes. Por
exemplo, se o processo de obteno das observaes conduz sistematicamente a valores
do tipo xx.8, xx.9, xx.1, xx.2, as classes devem ser definidas de modo a que a marca
seja do tipo xx.0. Repare-se que a definio de classes de modo que as marcas fossem
do tipo xx.5, os valores teriam tendncia a estar mais afastados da marca, send maior o
enviezamento provocado pela organizao da amostra em classes.
2 . Com os meios computacionais actualmente disponveis, no h grande vantagem na
realizao de classes. Um dos principais motivos para a organizao da amostra em
classes, era a vantagem de clculo resultante dessa organizao, quando os clculos
tinham de ser efectuados manualmente.
Estatstica Descritiva
ESA 2005/2006 22
Com o incremento e divulgao dos programas estatsticos informticos, essa vantagem
desprezvel, de modo que as estimativas so mais rigorosas se forem efectuadas com
todos os dados, e no com as marcas das classes.
A justificao para as metodologias de clculo com os dados organizados em classes
prende-se com o facto de muita da informao disponvel para tratamento e anlise
estatstica est por natureza agrupado em classes. Como exemplo, refiram-se as
informaes socio-econmicas que a cada dia se obtm de anurios do Instituto
Nacional de Estatstica, ou outras publicaes do gnero, em que a quantidade de
informao a divulgar de tal modo extensa que se tem de apresentar resumida em
classes.
3 . Para melhor nos apercebermos do enviezamento resultante da organizao da
amostra em classes, consideremos a situao em que se tem acesso aos 100 valores
individualizados dos pesos da amostra de embalagens de manteiga (exemplo usado
neste texto). Esses valores so apresentados em anexo.
Estes valores foram introduzidos em dois programas estatsticos (MINITAB e
STATGRAPHICS). Os resultados obtidos apresentam-se de seguida.
- MINITAB:
- STATGRAPHICS
Estatstica Descritiva
ESA 2005/2006 23
Como se pode constatar, alguns parmetros diferem ligeiramente entre as estimativas
levadas a cabo com a amostra organizada em classes (clculos no texto) e as estimativas
efectuadas pelos programas (sobre todos os valores). Por exemplo, a mdia calculada
com classes 300.11 x = e a calculada sobre os valores individualizados 300.125 x =
e a varincia
2
3.0888 s = e
2
2.9885 s = , consoante foi estimada com classes ou com
os valores individualizados.