Você está na página 1de 23

Estatstica Descritiva

ESA 2005/2006 1
ESTATSTICA DESCRITIVA

Amostras com dados agrupados em classes

Nas prximas seces iremos abordar a anlise estatstica de uma amostra em que os
dados numricos esto agrupados em classes, ou seja, em intervalos.

Este agrupamento em classes pode dever-se a diversos motivos:

fonte de informao: os dados podem ter sido obtidos em fontes em que os
dados j esto no formato de classes, e no se dispe dos dados individualizados
para todos os elementos da amostra. o que acontece frequentemente em dados
recolhidos de publicaes de diversas Instituies (por exemplo, Anurios do
Instituto Nacional de Estatstica);

no processo de recolha de informao, os dados foram recolhidos em classes, e
no individualizados. Imaginemos, por exemplo, a recolha de dimetros de
rvores num povoamento florestal, em que se registaram o nmero de rvores
cujos dimetros se encontram nos intervalos ]15 , 20], ]20 , 25], ]25, 30], etc, em
vez de se registarem os dimetros individualmente;

a dimenso da amostra demasiado grande, agrupando-se os dados em classes, a
fim de facilitar a anlise (esta vantagem actualmente insignificante, face aos
meios de clculo disponveis).

Muitas das variveis numricas so de natureza contnua, em que o processo de
quantificao do valor dessa varivel pressupe de algum modo a discretizao da
varivel. Imaginemos, por exemplo, a recolha de pesos de uma amostra de borregos; a
caracterstica peso tipicamente de natureza contnua; porm, ao pesar cada um dos
borregos, o operador faz um registo que corresponde a um valor aproximado do peso
desse borrego, e no do seu peso exacto; os erros de arredondamento, ou aproximao,
que se fazem nestas situaes, dependem fundamentalmente dos objectivos do estudo,
do material usado, etc.

Nesta perspectiva, ao falar-se de um valor de peso de borrego de 4.5 kg, rigorosamente
o que se est a fazer arredondar para este valor toda a gama de pesos que com maior
preciso de pesagem podero estar no intervalo ]4.45 , 4.55].

Isto , muitas das amostras tratadas como amostras de valores discretos correspondem
na realidade a variveis contnuas mas que so discretizadas (ou arredondadas) para o
valor da marca ou centro do intervalo, no acto de obteno do valor da varivel.

Quando o estatstico tem possibilidade de definir o nmero de classes (relativamente aos
trs casos anteriormente referidos, o estatstico s no tem essa possibilidade no
primeiro dos casos; em ambos os outros, cabe ao estatstico definir as classes ou
intervalos nos quais vai agrupar os dados), um aspecto importante tem a ver com o
nmero de classes a formar.

Em muitas situaes, esta definio efectuada antes de se realizar a recolha de dados,
de modo que ao efectuar as medies ou o processo de recolha de informao, ao
Estatstica Descritiva
ESA 2005/2006 2
estatstico apenas resta a liberdade de colocar no intervalo ou classe respectiva cada
uma das observaes.

Numa situao deste gnero, as classes so de um modo geral estabelecidas de modo a
facilitar a obteno e o registo das observaes.

Se o estatstico dispe do rol (ou listagem) de todas as observaes individualizadas, e
pretende classificar ou agrupar os dados em intervalos (seja simplesmente para elaborar
o histograma, seja para clculo dos parmetros estatsticos), a primeira operao
definir o nmero de classes.

Existem diversas propostas empricas para a definio do nmero de classes k a definir;
uma regra consiste em definir um nmero de classes prximo raiz quadrada do
nmero de observaes:

k N

Esta regra parece funcionar bastante bem, se o nmero de dados no demasiado
grande (vejamos que, se na amostra existem 400 dados, esta regra sugere a realizao de
20 classes de dados). Outra regra, tambm muito usual, consiste em usar um nmero de
classes definido por (em que log(.) representa o logaritmo decimal):

( ) 1 3.3 log k N = + , arredondado ao inteiro superior

Em qualquer dos casos, devem definir-se classes com a mesma amplitude.

Estas regras tm um carcter meramente indicativo, devendo ser tomadas em conta as
vantagens de ordem prtica que advm da definio das classes cujos limites inferior e
superior coincidam com valores fceis de manusear.

Exemplo:

Considere-se uma amostra de 100 dados de pesos, expressos em gramas, que tomam
valores desde
min
297.47 x g = e
max
305.13 x g = . As regras anteriores sugerem a
formao de 10 classes e 8 classes, respectivamente.

Combinando estas indicaes com o aspecto prtico, se fixarmos os limites do intervalo
de variao em | | 279.00, 306.00 , a amplitude deste intervalo de 9.00 g, sugerindo a
realizao de 9 classes, de amplitude 1.00 g, definidas como:

| | | | | | | | 297.00, 298.00 , 298.00, 299.00 , 299.00, 300.00 ,..., 305.00, 306.00

Repare-se que, de um modo geral se esto a respeitar as indicaes tericas do nmero
de classes a formar, em conjugao com o aspecto prtico dos limites das classes
ficarem bem definidos.

Nota acerca dos limites das classes: subsiste sempre alguma confuso acerca dos limites
das classes, se devero ser abertos no limite inferior e fechados no limite superior, isto
Estatstica Descritiva
ESA 2005/2006 3
, do tipo
inf sup
, L L ( (

, ou se os limites devem ser ao contrrio, isto ,
inf sup
, L L

. Vamos
adoptar a definio
inf sup
, L L ( (

, j que desta maneira estamos a ser coerentes com a
definio da funo cumulativa de probabilidades.

Pressupe-se que em cada uma das classes, todas as observaes dessa classe esto
concentradas no centro ou marca da classe.

Nas seces seguintes vamos usar, para alm de outros exemplos espordicos usados
para ilustrar as explicaes de alguns conceitos, a seguinte amostra de pesos (em g) de
100 embalagens de manteiga (os pesos variam entre
min
297.47 x g = e
max
305.13 x g = ,
conforme anteriormente referido; no se registaram as observaes individualizadas,
mas apenas se contaram o nmero de ocorrncias em cada uma das classes); o nmero
de classes 9 k = , e amplitude de cada classe de 1 unidade:

Limites das classes (peso, em g) N de garrafas
]297.00 , 298.00] 8
]298.00 , 299.00] 21
]299.00 , 300.00] 28
]300.00 , 301.00] 15
]301.00 , 302.00] 11
]302.00 , 303.00] 10
]303.00 , 304.00] 5
]304.00 , 305.00] 1
]305.00 , 306.00] 1
TOTAL N = 100


Tabela de frequncias e histograma

A tabela de frequncias e o histograma tm o seguinte aspecto, onde
i
i
n
f
N
= a
frequncia relativa da observao
i
x , e , Fac fra so as frequncias absolutas
acumuladas e as frequncias relativas acumuladas:

Classes de peso (g)
i
n
Fac
i
f
fra
]297.00 , 298.00] 8 8 0.08 0.08
]298.00 , 299.00] 21 29 0.21 0.29
]299.00 , 300.00] 28 57 0.28 0.57
]300.00 , 301.00] 15 72 0.15 0.72
]301.00 , 302.00] 11 83 0.11 0.83
]302.00 , 303.00] 10 93 0.10 0.93
]303.00 , 304.00] 5 98 0.05 0.98
]304.00 , 305.00] 1 99 0.01 0.99
]305.00 , 306.00] 1 100 0.01 1.00
TOTAL
9
1
100
i
i
N n
=
= =



9
1
1
i
i
f
=
=




Estatstica Descritiva
ESA 2005/2006 4
O histograma das frequncias absolutas que uma estimativa da funo de
distribuio de probabilidades da populao de onde a amostra foi recolhida - tem o
seguinte aspecto (o histograma das frequncias relativas tem exactamente o mesmo
aspecto, diferindo apenas a escala do eixo das ordenadas, que em vez de escala absoluta,
vem em escala relativa):

A escala do eixo das abcissas pode definir os limites das classe, como no exemplo, ou
ento a marca da classe (isto , o centro de cada uma das classes).

O histograma d diversas informaes acerca da distribuio das frequncias,
nomeadamente em termos de valores mais frequentes (classe modal, que no caso a
classe ]299.00 , 300.00], simetria (no exemplo, nota-se que a distribuio assimtrica
esquerda ou assimtrica positiva), regies do intervalo de variao onde no existem
observaes, bem como da representatividade de cada uma das classes.

O histograma das frequncias relativas acumuladas (que constitui uma estimativa da
funo cumulativa de probabilidades) apresenta-se em seguida.

Quanto maior for um degrau de um valor
1 i
x

(anterior) para o valor


i
x (actual), maior
a frequncia de observaes do valor
i
x , e vice-versa. Note-se que nos primeiros
valores de x os degraus entre os diversos patamares so bastante elevados,
correspondendo a maiores frequncias para os respectivos valores de x, enquanto que
para os ltimos valores de x, os degraus so bastante pequenos, significando que as
respectivas frequncias so baixas.



0,0
10,0
20,0
30,0
297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0
Histograma de frequncias absolutas
Peso (g)
C
o
u
n
t
Estatstica Descritiva
ESA 2005/2006 5


Repare-se por exemplo no seguinte histograma de frequncias acumuladas,
correspondente a uma distribuio uniforme das frequncias pelos diversos valores de x.
Num caso destes, os degraus entre os sucessivos valores de x tm todos a mesma altura:




Diagrama de pontos e diagrama de caule-e-folhas

0,0
25,0
50,0
75,0
100,0
297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0
Histograma de frequncias acumuladas
Peso (g)
P
e
r
c
e
n
t
0,0
25,0
50,0
75,0
100,0
297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0
Histograma de frequncias acumuladas
x
P
e
r
c
e
n
t
Estatstica Descritiva
ESA 2005/2006 6
Para grandes amostras, estes diagramas ficam muito pesados, e so de interpretao
mais difcil. Alis, se estes tipos de grficos ganham vantagem sobre o histograma, no
caso de pequenas amostras, para grandes amostras perdem essa vantagem, e deve usar-
se preferencialmente o histograma.

Quer o diagrama de pontos, quer o diagrama de caule-e-folhas, s podem ser elaborados
se dispusermos dos registos de todas as observaes; se se dispuser apenas da tabela de
frequncias, no se podem elaborar estes grficos.

Admitindo que, afinal, sempre se dispunha de toda a amostra dos pesos das 100
embalagens de manteiga (anexo), e no apenas a tabela de frequncias, estes diagramas
apresentam-se de seguida.

Diagrama de pontos:

Veja-se que este diagrama agora, ao contrrio do que acontecia para pequenas
amostras, pouco informativo, j que mostra a localizao de uma nuvem enorme de
pontos sobre a escala da varivel. Pode, inclusivamente, induzir a diversas anlises
menos correctas, por exemplo, detectar diversas modas na amostra, considerar o valor
mximo como outlier, quando na realidade no o , etc.

Diagrama de caule-e-folhas

Repare-se que, elaborando o diagrama com incremento de uma unidade na parte do
caule (diagrama no lado esquerdo), obtm-se o histograma deitado, no se ganhando
Estatstica Descritiva
ESA 2005/2006 7
mais informao do que a obtida pelo histograma. Fazendo o incremento de 0.5
unidades (diagrama do lado direito), d uma ideia mais precisa da distribuio, agora
em classes de 0.5 g de amplitude. Mas esta mesma informao se poderia tambm obter
no histograma, aumentando o nmero e diminuindo a amplitude das classes.

Para l da informao que o histograma tambm fornece, obtm-se a indicao mais
imediata da classe mediana.


Parmetros estatsticos

Parmetros de localizao

Moda

o valor mais frequente (com maior frequncia absoluta ou relativa) na amostra.

Da tabela de frequncias apresentada anteriormente, do histograma, ou do diagrama de
caule-e-folhas, deduz-se a moda ocorre na classe ]299.00, 300] (classe modal).

Pretendendo um valor nico, e no uma classe de valores, para a moda, este valor ser
um ponto no interior da classe modal, desviado mais para o limite inferior limie
superior, de acordo com as frequncias nas classes adjacentes.

O valor da moda calculado pela seguinte expresso:


1
inf
1 2
.
d
Mod L
d d
= +
+


onde:


inf
L Limite inferior da classe modal;

1 classemodal classeanterior
d n n = ou
1 classemodal classeanterior
d f f =

2 classemodal classeseguinte
d n n = ou
1 classemodal classeseguinte
d f f =
Amplitude da classe modal.

No exemplo, temos:


inf
299.00 L =

1 classemodal classeanterior
28 21 7 d n n = = =

2 classemodal classeseguinte
28 15 13 d n n = = =
1 =


1
inf
1 2
7
. 299.00 1.00 299.35
7 13
d
Mod L
d d
= + = + =
+ +

Repare-se que o valor da moda no est rigorosamente no centro da classe modal, mas
est mais deslocado para o lado do limite inferior da classe modal, pois a frequncia da
Estatstica Descritiva
ESA 2005/2006 8
classe anterior (
classeanterior
28 n = ) superior frequncia da classe seguinte classe
modal (
classeseguinte
15 n = ).



Mediana

A mediana o valor
i
x tal que metade da amostra se localiza abaixo e a outra metade de
amostra se localiza acima desse valor.

Para amostras classificadas, a classe mediana deduz-se a partir da tabela de frequncias
ou do histograma das frequncias acumuladas (valor
i
x para o qual a frequncia
absoluta acumulada igual ou superior a metade da amostra), ou a partir do diagrama de
caule-e-folhas. O valor da mediana um valor contido nesta classe, e estimado pela
seguinte expresso, conforme se utilizem frequncias absolutas acumuladas ou
frequncias relativas acumuladas:


inf inf
0.5
2
. .
classeanterior
classeanterior
classemediana classemediana
N
Fac
fra
Med L L
n f


= + = +

em que
classeanterior
Fac ,
classeanterior
fra so, respectivamente, a frequncia absoluta
acumulada ou a frequncia relativa acumulada at classe anterior classe mediana,
classemediana
n ,
classemediana
f so a frequncia absoluta ou a frequncia relativa da classe
mediana,
inf
L o limite inferior da classe mediana e a amplitude da classe mediana.
Estatstica Descritiva
ESA 2005/2006 9

Para a amostra em estudo, a classe mediana a classe ]299.00 , 300.00],
inf
299.00 L = ,
29
classeanterior
Fac = , 28
classe mediana
n = e 1.00 = ; assim, a mediana :

inf
50 29
2
. 299.00 1.00 299.75
28
classeanterior
classemediana
N
Fac
Med L
n


= + = + =


Quartis, decis, percentis

Tal como para o caso das amostras discretas ou de pequena dimenso, os quartis
dividem a amostra em quatro sub-amostras ou quatro intervalos quartlicos, definidos
respectivamente por
| | | | | | | |
min 1 1 2 2 3 3 max
, ; , ; , ; , x Q Q Q Q Q Q x .

Para definir cada um dos quartis, localiza-se a classe quartlica respectiva (isto , a
classe onde ocorrem 25%, 50% e 75% das observaes), e de seguida determina-se qual
dos valores de cada uma dessas classes teoricamente o respectivo quartil, usando a
seguinte expresso:


, ,
inf, inf,
.
4 4
. . 1, 2, 3
j j
classeanterior j classeanterior j
j j j
classeQ classeQ
j N j
Fac fra
Q L L j
n f

= + = + =


1 quartil (j=1):

1 classe quartlica: ]298.00 , 299.00]
8
classeanterior
Fac =

1
21
classeQ
n =
1
,1
1 inf,1
100
8
4 4
. 298.00 1.00 298.81
21
classeanterior
classeQ
N
Fac
Q L
n

= + = + =

3 quartil (j=3):

3 classe quartlica: ]301.00 , 302.00]
72
classeanterior
Fac =

3
11
classeQ
n =
3
,3
3 inf,3
3. 3 100
72
4 4
. 301.00 1.00 301.27
11
classeanterior
classeQ
N
Fac
Q L
n


= + = + =

Naturalmente, o 2 quartil coincide com a mediana:
2
299.75 Q Med = .

Estatstica Descritiva
ESA 2005/2006 10
A expresso anterior generaliza-se de uma maneira lgica para qualquer percentil:


, ,
inf, inf,
.
100 100
. . 1, 2, 3,...,100
j j
classeanterior j classeanterior j
j j j
classe P classe P
j N j
Fac fra
P L L j
n f

= + = + =

em que
classeanterior
Fac ,
classeanterior
fra so, respectivamente, a frequncia absoluta
acumulada ou a frequncia relativa acumulada at classe anterior classe do percentil
pretendido,
j
classe P
n ,
j
classe P
f so a frequncia absoluta ou a frequncia relativa da classe
do percentil pretendido,
inf
L o limite inferior da classe do percentil e a amplitude
da classe do percentil em considerao.

Para os decis, basta fazer 10, 20, 30,..., 90 j = na expresso anterior.

Vejamos, por exemplo, os percentis
5 10 90 95
, , , P P P P :

Percentil 5% (j=5):

Classe do percentil 5%: ]297.00 , 298.00]
0
classeanterior
Fac =

5
8
classe P
n =
5
,5
5 inf,5
5. 5 100
0
100 100
. 297.00 1.00 297.625
8
classeanterior
classe P
N
Fac
P L
n


= + = + =

Percentil 10% (j=10):

Classe do percentil 10%: ]298.00 , 299.00]
8
classeanterior
Fac =

10
21
classe P
n =
10
,10
10 inf,10
10. 10 100
8
100 100
. 298.00 1.00 298.095
21
classeanterior
classe P
N
Fac
P L
n


= + = + =

Percentil 90% (j=90):

Classe do percentil 90%: ]302.00 , 302.00]
83
classeanterior
Fac =

90
10
classe P
n =
90
,90
90 inf,90
90. 90 100
83
100 100
. 302.00 1.00 302.7
10
classeanterior
classe P
N
Fac
P L
n


= + = + =

Estatstica Descritiva
ESA 2005/2006 11

Percentil 95% (j=95):

Classe do percentil 95%: ]303.00 , 304.00]
93
classeanterior
Fac =

95
5
classe P
n =
95
,95
95 inf,95
95. 95 100
93
100 100
. 303.00 1.00 303.4
5
classeanterior
classe P
N
Fac
P L
n


= + = + =

Nota: de um modo geral h sempre interesse em calcular, para alm da mediana e dos
quartis, os percentis
10
P e
90
P , pois entram no clculo de coeficientes de assimetria e de
achatamento.


Mdia

Tal como no caso de amostras de pequena dimenso, mas onde existem dados repetidos,
sendo
i
n a frequncia absoluta da i.sima classe 1, 2, 3,..., i k = , tal que
1
k
i
i
n N
=
=

, a
mdia de uma amostra agrupada em classes calculada por:


1
.
k
i i
i
n x
x
N
=
=



Nesta situao, o valor
i
x a marca (ou valor central) da i.sima classe 1, 2, 3,..., i k = .

Para calcular a mdia, elabora-se a seguinte tabela como ferramenta de clculo:

Classe
i
x
i
n .
i i
n x
]297.00 , 298.00] 297,5 8 2380,0
]298.00 , 299.00] 298,5 21 6268,5
]299.00 , 300.00] 299,5 28 8386,0
]300.00 , 301.00] 300,5 15 4507,5
]301.00 , 302.00] 301,5 11 3316,5
]302.00 , 303.00] 302,5 10 3025,0
]303.00 , 304.00] 303,5 5 1517,5
]304.00 , 305.00] 304,5 1 304,5
]305.00 , 306.00] 305,5 1 305,5

9
1
. 30011.0
i i
i
n x
=
=





Estatstica Descritiva
ESA 2005/2006 12
Logo, a mdia
1
.
30011
300.11
100
k
i i
i
n x
x
N
=
= = =



Nota:
1
1 1 1
.
.
. .
k
i i k k k
i i i i
i i i
i i i
n x
n x n
x x f x
N N N
=
= = =
= = = =


, em que
i
i
n
f
N
= a frequncia relativa
da observao
i
x . Isto :


Classe
i
x
i
f .
i i
f x
]297.00 , 298.00] 297,5 0,08
23,800
]298.00 , 299.00] 298,5 0,21
62,685
]299.00 , 300.00] 299,5 0,28
83,860
]300.00 , 301.00] 300,5 0,15
45,075
]301.00 , 302.00] 301,5 0,11
33,165
]302.00 , 303.00] 302,5 0,1
30,250
]303.00 , 304.00] 303,5 0,05
15,175
]304.00 , 305.00] 304,5 0,01
3,045
]305.00 , 306.00] 305,5 0,01
3,055

9
1
. 300.11
i i
i
x f x
=
= =




No exemplo nota-se que 299.35 299.75 300.11 Mod Med x = < = < = , o que um
sintoma de que a amostra tem uma cauda superior mais prolongada, isto , a amostra
denota uma tendncia de assimetria direita, ou assimetria positiva.


Parmetros de disperso

Para alm de caracterizar a distribuio de uma amostra pela sua tendncia de
localizao ou tendncia central, temos de descrever igualmente a sua tendncia de
disperso ou variabilidade, que um indicador da variabilidade das observaes em
torno dos valores centrais.

Intervalo e amplitude de variao

O intervalo de variao da amostra o intervalo definido por:

| |
1
,
N
x x

isto , o intervalo definido pelos valores mnimo e mximo da amostra. A Amplitude d
variao (Range) a amplitude deste intervalo:


1 N
R x x =
Estatstica Descritiva
ESA 2005/2006 13

O intervalo de variao da amostra em anlise [297.47 , 305.13] e a amplitude de
variao 305.13 297.47 7.66 R = = .

Amplitude inter-quartlica

A amplitude inter-quartlica definida como:


3 1
Q Q

Embora esta estimativa da variabilidade no seja tanto influenciada pelos valores
extremos e traduza melhor que a amplitude da amostra a maior ou menor tendncia de
concentrao dos valores em torno da mdia, ainda no leva em conta todas as
observaes presentes na amostra.

Estas medidas de disperso, amplitude e amplitude inter-quartlica, so mais teis na
comparao da variabilidade de diversas amostras retiradas da mesma populao do que
na descrio da disperso de uma nica amostra.

Para a amostra dos pesos das embalagens de manteiga, a amplitude inter-quartlica de
3 1
301.27 298.81 2.46 Q Q = = .

Diagrama de extremos-e-quartis

Este diagrama, tambm designado por caixa-com-bigodes (da traduo literal da sua
designao em Ingls, boax-and-whiskers) permite efectuar uma anlise grfica da
variabilidade de uma amostra, bem como analisar a distribuio da concentrao nas
quatro sub-amostras definidas pelos quartis (intervalos quartlicos).

Esta representao grfica consiste em desenhar um rectngulo, com a base na escala
das observaes, e em que os dois lados laterais so respectivamente o 1 e 3 quartis;
ligam-se estes lados com um segmento de recta escala, respectivamente ao valor
mnimo e ao valor mximo da amostra. O rectngulo, que representa a amplitude inter-
quartlica, dividido pela mediana.

Pela amplitude de cada uma destas quatro sub-amostras, possvel ficar-se com uma
ideia bastante rigorosa de como o comportamento da amostra, em termos de disperso
ou concentrao de valores, bem como deduzir acerca da sua simetria.

Na amostra em estudo, este diagrama tem o seguinte aspecto:

Estatstica Descritiva
ESA 2005/2006 14

Repare-se que a amostra mais concentrada no 2 intervalo quartlico. A zona de maior
disperso de valores ocorre no 4 intervalo quartlico.

Nota-se a ocorrncia de um valor (valor mximo) que deve ser considerado como
outlier moderado, j que:

( )
max 3 3 1
305.13 1.5 301.27 1.5 2.46 304.96 x Q Q Q = > + = + =

Contudo, no outlier extremo porque:

( )
max 3 3 1
305.13 3 301.27 3 2.46 308.65 x Q Q Q = < + = + =


Desvio mdio

Uma medida da disperso em torno da mdia resulta da soma dos desvios de cada
observao para a mdia:


1
N
i
i
x x
dm
N
=

=



Para dados agrupados em classes, o desvio mdio calcula-se pela expresso seguinte,
em que
i
x a marca de cada uma das k classes:


1
1 1
.
. .
k
i i k k
i i
i i i
i i
n x x
n
dm x x f x x
N N
=
= =

= = =



Estatstica Descritiva
ESA 2005/2006 15


Este parmetro mede o afastamento mdio de cada observao para a mdia: quanto
maior for (comparativamente com a mdia ou com os dados originais), mais dispersa
ser a amostra, e consequentemente menos representativa a mdia.

Na tabela de clculo seguinte apresentam-se os clculos do desvio mdio da amostra em
anlise:

Classe
i
x
i
n
i
x x .
i i
n x x
]297.00 , 298.00] 297,5 8 -2,61 20,88
]298.00 , 299.00] 298,5 21 -1,61 33,81
]299.00 , 300.00] 299,5 28 -0,61 17,08
]300.00 , 301.00] 300,5 15 0,39 5,85
]301.00 , 302.00] 301,5 11 1,39 15,29
]302.00 , 303.00] 302,5 10 2,39 23,9
]303.00 , 304.00] 303,5 5 3,39 16,95
]304.00 , 305.00] 304,5 1 4,39 4,39
]305.00 , 306.00] 305,5 1 5,39 5,39




9
1
. 143.54
i i
i
n x x
=
=



O desvio mdio
1
.
143.54
1.4354
100
k
i i
i
n x x
dm
N
=

= = =

.

O desvio mdio tambm podia ser calculado usando as frequncias relativas:

i
x
i
f
i
x x .
i i
f x x
]297.00 , 298.00] 297,5 8 0,2088
]298.00 , 299.00] 298,5 21 0,3381
]299.00 , 300.00] 299,5 28 0,1708
]300.00 , 301.00] 300,5 15 0,0585
]301.00 , 302.00] 301,5 11 0,1529
]302.00 , 303.00] 302,5 10 0,2390
]303.00 , 304.00] 303,5 5 0,1695
]304.00 , 305.00] 304,5 1 0,0439
]305.00 , 306.00] 305,5 1 0,0539


9
1
. 1.4354
i i
i
dm f x x
=
= =


O desvio mdio, quando comparado com os valores originais ou com o valor da mdia,
revela-se bastante pequeno o que traduz uma pequena tendncia de disperso, ou
equivalentemente, uma forte tendncia de concentrao em torno da mdia; uma
comparao mais objectiva poder ser obtida pela proporo
1.4354
0.0048
300.11
dm
x
= = ,
isto , o desvio mdio da ordem de 0.48% do valor da mdia.
Estatstica Descritiva
ESA 2005/2006 16

Varincia

A varincia o parmetro de disperso mais usual, e aquele que apresenta melhores
propriedades estatsticas.

A varincia, tal como o desvio mdio, uma medida do afastamento mdio de cada uma
das observaes em torno da mdia. No caso do desvio mdio, o mdulo da diferena
para a mdia , por definio, o afastamento de cada observao para a mdia. No caso
da varincia, usa-se o quadrado da distncia das observaes para a mdia.

Para a populao, a varincia , por definio:


( )
2
2 1
N
i
i
x
N

=

=



Contudo, na Estatstica no se tem a populao, mas sim uma amostra de observaes,
geralmente de muito menor dimenso que a populao. Demonstra-se que a expresso
anterior, quando aplicada a amostras relativamente diminutas em comparao com a
populao (e usando a mdia amostral x como estimativa da mdia da populao )
sub-valoriza o valor da varincia (isto , o valor da varincia amostral seria menor que o
valor da varincia da populao de onde a amostra foi retirada). Para evitar este
enviesamento, utiliza-se a seguinte expresso de clculo da varincia amostral, denotada
com o smbolo
2
s :


( )
2
2 1
1
N
i
i
x x
s
N
=

=



Isto , para evitar a sub-valorizao, o divisor 1 N .

Esta expresso, para clculo manual, de difcil manuseamento. Desenvolvendo
aritmeticamente a expresso anterior, e considerando existem k classe, cujas marcas so
genericamente
i
x , e as frequncias absolutas so
i
n , obtm-se a seguinte expresso,
mais fcil de implementar numa tabela de clculo:



2
1 2 2 2 2
1 1
.
1 1
. . .
1 1
k
i i
k k
i
i i i i
i i
n x
s n x n x N x
N N N
=
= =
| |
| |
|
|
| |
\ . |
= =
|
|

\ .
|
|
\ .




Repare-se que o valor da varincia vem expresso numa escala quadrtica, no podendo
portanto comparar-se com os valores originais. Para podermos comparar duas
quantidades, estas tm de estar nas mesmas unidades. Assim, calcula-se a varincia, e
de seguida reduz-se para a escala em que esto as observaes:
Estatstica Descritiva
ESA 2005/2006 17


s
s s =

Este indicador estatstico (s) designa-se por desvio padro.

Para comparar o desvio padro com os valores originais, calcula-se o seguinte
indicador, designado por coeficiente de variao:


s
cv
x
=

Como regra de geral, alguns autores consideram a distribuio concentrada se 0.1 cv ,
e dispersa caso 0.1 cv > .

Para a amostra das embalagens de manteiga em anlise, elabore-se a seguinte tabela de
clculo:

Classe
i
x
i
n
2
.
i i
n x
]297.00 , 298.00] 297,5 8 708050,00
]298.00 , 299.00] 298,5 21 1871147,25
]299.00 , 300.00] 299,5 28 2511607,00
]300.00 , 301.00] 300,5 15 1354503,75
]301.00 , 302.00] 301,5 11 999924,75
]302.00 , 303.00] 302,5 10 915062,50
]303.00 , 304.00] 303,5 5 460561,25
]304.00 , 305.00] 304,5 1 92720,25
]305.00 , 306.00] 305,5 1 93330,25


9
2
1
. 9006907.0
i i
i
n x
=
=




Para calcular a varincia, basta fazer:

( )
2 2 2 2
1
1 1
. . 9006907 100 300.11 3.0888
1 99
k
i i
i
s n x N x
N
=
| |
= = =
|

\ .



O desvio padro
2
3.0888 1.7575 s s = = = . O coeficiente de variao
1.7575
0.0059
300.11
s
cv
x
= = = , isto , o desvio padro da ordem de 0.59% do valor da
mdia, o que traduz, tal como o desvio mdio, uma variabilidade bastante pequena das
observaes em torno da mdia.


Parmetros de assimetria

A assimetria (em ingls, skewness) o grau de desvio ou afastamento da simetria de
uma distribuio. Se a curva de frequncias de uma distribuio tem uma cauda mais
Estatstica Descritiva
ESA 2005/2006 18
longa direita, relativamente ordenada mxima (moda), diz-se que a distribuio
assimtrica para a direita, ou que tem assimetria positiva. Se a cauda mais longa a
esquerda, a distribuio assimtrica para a esquerda, ou assimtrica negativa.


Para distribuies assimtricas, a mdia tende a situar-se do mesmo lado da moda que a
cauda mais longa:


Assim, uma medida da assimetria proporcionada pela diferena entre a mdia e a
moda, ponderada por uma medida de disperso (desvio padro):

x moda
Assimetria
s

= (primeiro coeficiente se assimetria de Pearson)



Para evitar o uso da moda, pode adoptar-se uma relao emprica entre a mdia, a
mediana e a moda: ( ) 3 x moda x mediana = e a assimetria dada por:

( ) 3 x mediana
Assimetria
s

= (segundo coeficiente se assimetria de Pearson)



Outros coeficientes de assimetria so definidos em termos dos quartis e decis; o
coeficiente quartlico de assimetria definido como:


( ) ( )
( )
( )
( )
3 2 2 1 3 2 1
3 1 3 1
2 Q Q Q Q Q Q Q
Q Q Q Q
+
=



e o coeficiente percentlico de assimetria :


( ) ( )
( )
( )
( )
90 50 50 10 90 50 10
90 10 90 10
2 P P P P P P P
P P P P
+
=



Assimetria positiva Simtrica Assimetria negativa
Assimetria positiva
Moda x
Assimetria negativa
Moda x
Estatstica Descritiva
ESA 2005/2006 19
Um outro coeficiente de assimetria o coeficiente se assimetria de Fisher, que utiliza o
terceiro momento centrado na mdia ( ( )
3
1
3
1
N
i N
i
m x x
=
=

):


( ) ( )
( )
3
1
3 1
1 3 3
1 1
2 2
N
i N
i
x x
N N N N
m
g
N s N s
=


= =




Este coeficiente calculado em diversos programas estatsticos (SPSS, MINITAB,
STATGRAPHICS, etc), muito embora o seu clculo manual seja algo moroso.

Est provado que para N>150 o coeficiente
1
g assintticamente normal com mdia
zero e varincia
6
N
; o coeficiente de assimetria estandardizado :


1
6
s
g
g
N
=


Todos estes coeficientes so nulos quando a amostra perfeitamente simtrica; so
positivos se a amostra assimtrica positiva ou assimtrica direita, e so negativos
para amostras assimtricas negativas.

Para a amostra de pesos das embalagens de manteiga, estes coeficientes so:

1 coeficiente de assimetria de Pearson:

300.11 299.35
0.4324
1.7575
x moda
Assimetria
s

= = =

2 coeficiente de assimetria de Pearson:

( ) ( ) 3 3 300.11 299.75
0.2048
1.7575
x mediana
Assimetria
s

= = =

Coeficiente quartlico de assimetria:

( )
( )
3 2 1
3 1
2
301.27 2 299.75 298.81
0.2358
301.27 298.81
Q Q Q
Q Q
+
+
= =



Coeficiente percentlico de assimetria:

( )
( )
90 50 10
90 10
2
302.7 2 299.75 298.095
0.2812
302.7 298.095
P P P
P P
+
+
= =



O coeficiente de assimetria de Fisher :
Estatstica Descritiva
ESA 2005/2006 20

( ) ( )
( )
3
1
3 1
1 3 3 3
366.7062
1 1
100 99
100
0.6858
2 2 98 1.7575
N
i N
i
x x
N N N N
m
g
N s N s
=



= = = =




Todos estes coeficientes indicam que a distribuio da amostra ligeiramente enviezada
direita, ou assimtrica positiva.


Parmetros de forma

Alm da simetria, as distribuies tambm se costumam caracterizar quanto altura do
ponto mximo da curva de distribuio. Esta caracterstica designada por achatamento
ou curtose (em ingls, kurtosis).


A distribuio chamada mesocrtica tem no centro uma altura correspondente curva
da funo de densidade da distribuio normal.

A distribuio diz-se platicrtica se tem altura inferior da curva normal. Repare-se que
o facto de a distribuio ter altura menor no centro, significa maior proporo de
observaes nas caudas, isto , sintoma de uma forte disperso.

A distribuio diz-se leptocrtica se tem altura superior da curva normal. O facto de a
distribuio ter altura maior no centro, significa maior proporo de observaes nas
proximidades dos valores centrais, isto , sintoma de uma forte concentrao em torno
da mdia.

Um coeficiente numrico para caracterizar o achatamento o coeficiente percentlico de
achatamento:


( )
3 1
90 10
2
Q Q
k
P P



Para uma curva normal, o valor deste coeficiente 0.263 k = . Um valor inferior
sintoma de uma curva muito achatada, e um valor superior sintoma de uma curva
demasiado alta.


Platicrtica

Mesocrtica
Leptocrtica

Estatstica Descritiva
ESA 2005/2006 21
Os programas estatsticos usam outro coeficiente de achatamento, designado por
coeficiente de achatamento de Fisher, que baseado no 4 momento centrado na mdia
( ( )
4
1
4
1
N
i N
i
m x x
=
=

):


( )( )
( )( )
( )
4
2 4
1 1 3 1
2 3 1
N N N
m
g
N N s N
+ (
=
(
+



Para uma curva normal, o valor deste coeficiente 0 k = . Um valor negativo sintoma
de uma curva muito achatada, e um valor positivo sintoma de uma curva demasiado
alta.

Para a amostra de borregos, o coeficiente percentlico de achatamento :

( )
3 1
90 10
301.27 298.81
2 2
0.2671
302.7 298.095
Q Q
k
P P


= = =



indicando que a distribuio tem uma altura na classe modal muito semelhante altura
de uma distribuio normal. O coeficiente baseado no 4 momento
2
0.0505 g = que,
tal como o coeficiente percentlico de achatamento, d a informao de que a altura da
curva da distribuio praticamente normal.


Consideraes finais

1 . O facto de se agruparem os dados em classes, e estimar os parmetros com base nas
marcas das classes, e no com todos os dados individualizados, conduz necessariamente
a umas estimativas dos parmetros ligeiramente diferentes das que se obteriam
trabalhando com os N dados individualizados. Estas diferenas sero tanto mais graves
quanto mais distintos, em cada uma das classes, os valores nelas includos forem
diferentes da marca da classe.

Assim, de modo a minimizar o efeito de enviezamento nas estimativas dos parmetros
estatsticos, as classes devem ser definidas de tal modo que as respectivas marcas
fiquem sensivelmente no centro das observaes includas em cada uma das classes. Por
exemplo, se o processo de obteno das observaes conduz sistematicamente a valores
do tipo xx.8, xx.9, xx.1, xx.2, as classes devem ser definidas de modo a que a marca
seja do tipo xx.0. Repare-se que a definio de classes de modo que as marcas fossem
do tipo xx.5, os valores teriam tendncia a estar mais afastados da marca, send maior o
enviezamento provocado pela organizao da amostra em classes.

2 . Com os meios computacionais actualmente disponveis, no h grande vantagem na
realizao de classes. Um dos principais motivos para a organizao da amostra em
classes, era a vantagem de clculo resultante dessa organizao, quando os clculos
tinham de ser efectuados manualmente.

Estatstica Descritiva
ESA 2005/2006 22
Com o incremento e divulgao dos programas estatsticos informticos, essa vantagem
desprezvel, de modo que as estimativas so mais rigorosas se forem efectuadas com
todos os dados, e no com as marcas das classes.

A justificao para as metodologias de clculo com os dados organizados em classes
prende-se com o facto de muita da informao disponvel para tratamento e anlise
estatstica est por natureza agrupado em classes. Como exemplo, refiram-se as
informaes socio-econmicas que a cada dia se obtm de anurios do Instituto
Nacional de Estatstica, ou outras publicaes do gnero, em que a quantidade de
informao a divulgar de tal modo extensa que se tem de apresentar resumida em
classes.

3 . Para melhor nos apercebermos do enviezamento resultante da organizao da
amostra em classes, consideremos a situao em que se tem acesso aos 100 valores
individualizados dos pesos da amostra de embalagens de manteiga (exemplo usado
neste texto). Esses valores so apresentados em anexo.

Estes valores foram introduzidos em dois programas estatsticos (MINITAB e
STATGRAPHICS). Os resultados obtidos apresentam-se de seguida.

- MINITAB:


- STATGRAPHICS

Estatstica Descritiva
ESA 2005/2006 23


Como se pode constatar, alguns parmetros diferem ligeiramente entre as estimativas
levadas a cabo com a amostra organizada em classes (clculos no texto) e as estimativas
efectuadas pelos programas (sobre todos os valores). Por exemplo, a mdia calculada
com classes 300.11 x = e a calculada sobre os valores individualizados 300.125 x =
e a varincia
2
3.0888 s = e
2
2.9885 s = , consoante foi estimada com classes ou com
os valores individualizados.

Você também pode gostar