Você está na página 1de 53

]||

Distribuio Normal Multivariada


||[
44..11. . nntr troduo oduo
A generalizao da densidade normal univariada para duas ou mais
dimenses desempenha um papel fundamental na anlise multivariada. De fato, a
maioria das tcnicas multivariadas parte do pressuposto de que os dados foram
gerados de uma distribuio normal multivariada. Apesar dos dados originais no
serem quase nunca "exatamente normal multivariados, a densidade normal se
constitui muitas vezes numa aproximao adequada e til da verdadeira distribuio
populacional.
A distribuio normal, alm da sua atratividade pela sua facilidade de
tratamento matemtico, possui duas razes prticas que justificam a sua utilidade. A
primeira, diz que a distribuio normal a mais adequada para modelos populacionais
em vrias situaes; e a segunda refere-se ao fato da distribuio amostral de muitas
estatsticas multivariadas ser aproximadamente normal, independentemente da forma
da distribuio da populao original, devido ao efeito do limite central.
106
44..22.. PPrreess ssupo upossiie es s da das s ana anali lissees s mmuullttiivvaarriiada ada
importante compreender que as anlises estatsticas de modelos com
erros aditivos baseiam-se na pressuposio de normalidade. A distribuio normal
requerida refere-se, no a variao dos dados, mas a variao residual entre as
observaes e o modelo ajustado. A variao sistemtica dos dados deve-se
presumidamente aos efeitos fixos dos modelos e o restante da variao aleatria
devida pequenas influncias independentes, as quais produzem resduos com
distribuio normal (Bock, 1975).
Um segundo ponto, muitas vezes negligenciado nas discusses das
pressuposies sobre a distribuio, refere-se ao fato de que as afirmaes
probabilsticas dos testes de significncia e dos intervalos de confiana, dizem respeito
a estatsticas tais como mdias amostrais ou diferenas entre mdias, e no a
distribuio das observaes individuais. conhecido que a distribuio destas
estatsticas torna-se tipicamente normal quando a amostra aumenta de tamanho. Este
resultado se deve ao teorema do limite central.
Do ponto de vista prtico existe considerveis vantagens de se trabalhar
com grandes amostras. Nestes casos, a violao da pressuposio de que a populao
seja normal menos crtica para os testes estatsticos e intervalos de confiana, e a
preciso da estimao de parmetros desconhecidos "melhor.
44..33.. DDen enssiidade no dade norrmmaal l mmuullttiivvaarriiada e ada e ssua uas s pprrop oprriiedade edadess
107
A densidade normal multivariada uma generalizao da densidade
normal univariada. Para a distribuio normal univariada com mdia 22 e varincia
2
88
, a
funo de densidade de probabilidade bem conhecida e dada por:

f x e
x
( ) =

1
2
2
1
2
2
t o

o
x e ]-, +[ (4.1)
O grfico da funo (4.1) tem a forma de sino e est apresentado na
Figura 4.1. As probabilidades so reas sob a curva entre dois valores da varivel X,
limitada pela abcissa. bem conhecido o fato de que as reas entre 1 desvio padro
da mdia e 2 desvios padres da mdia so respectivamente 68,3% e 95,4%, como
ilustrado na Figura 4.1.
108
2
0,683
0,954
28
28 28 28
Figura 4.1. Densidade normal univariada com mdia 22 e varincia
2
88
, destacando-se
as reas entre 22 88 22 88 e 2 .
O expoente da funo de densidade normal univariada:
x
x x

22
22 22
88
88
2
2
2 1
( )( ) ( ) (4.2)
109
mede a distncia quadrada de x em relao em unidade de desvio padro. Esta
distncia pode ser generalizada para o caso multivariado, com um vetor X

de
observaes (px1), dada por,

1
X '( ) (X )

E


(4.3)
Nesta expresso (4.3) o vetor

(px1) representa o valor esperado do


vetor X

e a matriz $$ (pxp) representa a sua covarincia. Ento, (4.3) representa a


distncia generalizada de X

para

.
Substituindo a expresso (4.3) na funo de densidade (4.1), a constante
univariada de normalizao 2
2
55
88
deve ser trocada de modo a fazer com que o
volume sob a superfcie da funo de densidade multivariada obtida, seja igual a
unidade para qualquer p. Pode-se demonstrar (Anderson, 1984) que esta constante

p
1
2 2
2

t E , sendo a densidade dada por:

1
1
2
p
1
2 2
( )(x )' (x ) 1
f (X)
2
e

E
=
t E

(4.4)
110
PPrrop oprriiedade edades s da d da diisstr triibu buiio no o norrmmaal l mmuullttiivvaarriiada ada
Seja um vetor X

tendo distribuio normal multivariada, ento:


1. Combinaes lineares dos componentes de X

sero normalmente distribudos: seja


a combinao linear a

' X

=a
1
X
1
+a
2
X
2
+...+ a
p
X
p
, ento, a

' X

ter distribuio
N( a

'

, a

'$$a

);
2. Todos os subconjuntos de X

tem distribuio normal (multivariada). Pelos resultados


da propriedade 1, fazendo alguns a
i
's iguais a zero, isto se torna evidente;
i) Fazendo a

' X

= (
1
2
1
p
X
X
1 0 0 X
X
(
(
(
=
(
(
(

a propriedade 2 se torna evidente. Assim,


X
1
~ N( a

'

=
1
, a

'$$a

=
11
o ). De uma forma mais geral pode-se afirmar que todo
componente X
i
tem distribuio N(
i
,
ii
o ).
ii) A distribuio de vrias combinaes lineares :

11 1 1p p
q p p 1 q
q1 1 qp p
a X ... a X
A X N A ; A A'
a X ... a X
( +
(
= E
(
(
+

iii) Todos os subconjuntos de X

tem distribuio normal (multivariada)


111
Tomando-se uma partio:
q 1
1
p 1
(p q) 1 2
X
X
X
X X

(
(
= =
(
(
(


e suas correspondentes parties
no vetor de mdia e de covarincia, dadas por:
q 1 1
p 1
(p q) 1 2
( (
= = ( (

( (


e
q q q ( p q)
( p q) q ( p q) ( p q)
11 12
21 22


E E (
E = (
E E
(

Logo,
1 q 1 11
X N ; E

Prova: Basta fazer


q
A
p
=[
q
l
q
|
q
0
(p-q)
] e aplicar (ii).
3. Componentes de covarincia zero entre dois subconjuntos de X

implica em dizer
que eles so independentemente distribudos. Esta propriedade s valida se X

tiver distribuio normal multivariada; e


4. A distribuio condicional de componentes de X

normal (multivariada).
Dada a partio
q 1
1
p 1
(p q) 1 2
X
X
X
X X

(
(
= =
(
(
(


, logo a distribuio condicional de
1 2 2
X / X x =


normal e tm mdia e covarincia dados por:

1
c 1 12 22 2 2
x

= + E E


e
1
c 11 12 22 21

E = E E E E
44..44.. DDiisstr triibu buiio no o norrmmaal l bbiivvaarriiada ada
112
Sejam X
1
e X
2
duas variveis com parmetros E(X
1
)=
1
, E(X
2
)=
2
,
Var(X
1
)=o
11
, Var(X
2
)=o
22
e
12
12
11 22
1 2

o
o o
= = Corr X X ( , ).
A matriz de covarincia
$$ =

(
11 12
21 22
88 88
88 88
Cuja inversa ,
$$

1
11 22 12
2
22 12
21 11
1
88 88 88
88 88
88 88
Fazendo
12
12
11 22
88
77
88 88
= , obtm-se $$ = =
11 22 12
2
11 22
12
2
1
88 88 88 88 88
77 ( ), e
a distncia generalizada de (4.3) ser:
(
(
(

|
|
.
|

\
|
o

|
|
.
|

\
|
o


|
|
.
|

\
|
o

+
|
|
.
|

\
|
o


=
=
(



(
(

o o o

o o

o


o o
22
2
2
11
1
1
12
2
22
2
2
2
11
1
1
2
12
2
2
1
1
11 22 11
12
22 11
12
22
2
2
1
1
2
12
22 11
X X
2
X X
1
1
X
X
X X
) 1 (
1
(4.5)
113
Desde que, |E|=o
11
o
22
- (o
12
)
2
= o
11
o
22
(1-
12
2
77 ), pode-se substituir E
-1
e |E|
em (4.4) para se ter a expresso da densidade normal bivariada, apresentada a seguir.
1 2
2
11
12 22
2 2
1 2 1 2
1 2 1 2
2
12
11 22 11 22
12
1
f(x , x )
2 (1 )
1
exp 2
2(1 )
x x x x
=
t
(
| | | | | | | |


(
| | | |
+
`
(
| | | |

\ . \ . \ . \ .
(
)
o
o

o o o o
(4.6)
Se X
1
e X
2
no so correlacionadas,
12
77 =0, a densidade conjunta pode ser
escrita como produto das densidades normais univariadas, ambas com a forma de
(4.1), ou seja, f(x
1
,x
2
)= f(x
1
) f(x
2
), alm do que X
1
e X
2
so ditas independentes, como
comentado na propriedade nmero 3 da seo 4.3. Duas distribuies normais
bivariadas com varincias iguais so mostradas nas Figuras 4.2. e 4.3. A Figura 4.2
mostra o caso em que X
1
e X
2
so independentes (
12
77 =0) e a Figura 4.3 o caso de
12
77 =0.8. Observa-se que a presena de correlao faz com que as probabilidades se
concentrem ao longo de uma linha.
114
Figura 4.2. Distribuio normal bivariada com
11 22
88 88 = e
12
77 =0.
Figura 4.3. Distribuio normal bivariada com
11 22
88 88 = e
12
77 =0.8.
115
Da anlise da expresso (4.4), relativa densidade de p-variveis
normais, fica claro que alguns valores padres de X

fornecem alturas constantes para


as densidades elipsides. lsto significa que a densidade normal constante em
superfcies cujas distncias quadrticas
1
(X ) '( ) (X )

E


so constantes. Esses
padres so chamados de contornos ou curvas de nvel.
Contornos={todo X

tal que
1
(X ) '( ) (X )

E


=c
2
} (4.7)
A expresso (4.7) uma superfcie de uma elipside centrada em

,
cujos eixos possuem direo dos autovetores de $$
-1
e seus comprimentos so
proporcionais ao recproco da raiz quadrada dos seus autovalores. Demonstra-se que
se
i
e
i
e

so os autovalores e autovetores, respectivamente, de $$, ento a elipside


1
(X ) '( ) (X )

E


=c
2
centrada em

e tem eixos na direo de


i
i
c e

(i=1, 2, ..., p).


Considerando como ilustrao a densidade normal bivariada com
11 22
88 88 = , os eixos da elipside dados por (4.7) so fornecidos pelos autovalores e
autovetores de $$. Portanto para obt-los a equao |$$-I|=0 deve ser resolvida.
2
2 11 12
11 12
12 11
11 12 11 12
( ) 0
( )( )

= =

= +
o o
o o
o o
o o o o
116
Conseqentemente os autovalores so:
1 11 12 2 11 12
88 88 88 88 = + = e
Os autovetores so determinados por:
$$
i
e

=
i
i
e

Para i=1, tem-se:


11 12
12 11
1
2
11 12
1
2
o o
o o
o o

(
= +

(
e
e
e
e
( )
ou,
11 1 12 2 11 12 1
12 1 11 2 11 12 2
o o o o
o o o o
e e e
e e e
+ = +
+ = +
( )
( )
Essas equaes levam ao resultado de que e
1
=e
2
, e aps normalizao, o
primeiro autovetor :
1
2
1
1
2
e
(
=
(

117
De forma similar foi obtido o segundo autovetor, o qual :
1
2
2
1
2
e

(
=
(

Se a covarincia positiva,
1 11 12
88 88 = + o maior autovalor e seu
autovetor associado se posiciona ao longo de uma linha de 45
0
atravs do ponto
( 22 22 22 ' =
1 2
, para qualquer
12
0 88 > . Os eixos so fornecidos por
i i
c e

(i=1, 2) e
esto representados na Figura 4.4.

c
v
o o
11 12 -
c
v
o o
11
12 +
Figura 4.4. Curva de nvel de densidade constante para a distribuio normal bivariada
com
11 22
88 88 = e
12
0 88 > .
Anderson (1984) demonstra que a escolha de c
2
=
p
2
.. ,, ( ), em que
p
2
.. ,, ( ) o
percentil (100o) superior da distribuio de Qui-quadrado com p graus de liberdade,
118
leva a contornos que contm (1-o)x100% de probabilidade. Para a distribuio normal
multivariada (p variada), a elipside dos valores de X

satisfazendo,
1
(X ) '( ) (X )

E


s
p
2
.. ,, ( ) (4.8)
tem probabilidade 1-o.
Os contornos contendo 95% e 99% de probabilidade sob a densidade
normal bivariada das Figuras 4.2 e 4.3, esto representados nas Figuras 4.5 e 4.6.
2
2
X
1
0
X
2
0
2
1
95%
90%
Figura 4.5. Curvas de nveis de 95% e 99% de probabilidade para a distribuio normal
bivariada apresentada na Figura 4.2,
11 22
88 88 = e
12
77 =0.
119
95%
99%
Figura 4.6. Curvas de nveis de 95% e 99% de probabilidade para a distribuio normal
bivariada apresentada na Figura 4.3,
11 22
88 88 = e
12
77 =0.8.
A densidade (4.4) possui mximo quando X =

. Portanto,

o ponto de
mxima densidade ou moda, bem como o valor esperado de X

, ou mdia.
44..55.. DDiisstr triibu buiio a o ammoosstr traal l de de X

e e 88
Se a pressuposio de que as linhas de
120
11 12 1p
21 22 2p
n p
n1 n2 np
x x x
x x x
X
x x x

(
(
(
=
(
(
(

se constituem numa amostra aleatria de uma populao normal com mdia

e
covarincia $$ for verdadeira, ento este fato suficiente para completamente definir a
distribuio amostral de X

e de S. Ser apresentado a seguir estas distribuies


amostrais, fazendo-se um paralelo com a distribuio amostral univariada que j
familiar e bem conhecida.
No caso univariado (p = 1), sabe-se que X possui distribuio normal com
mdia 22 (mdia populacional) e varincia
2
88
n
Varincia popuIacionaI
tamanho da amostra
=
O resultado para o caso multivariado (p>2) similar a este, no sentido que
X

possui distribuio normal com mdia

e matriz de covarincia (1/n)$$.


Para a varincia amostral, caso univariado, sabe-se que a distribuio de
2
2
(n 1)S
o
possui distribuio de Qui-quadrado com n - 1 graus de liberdade. Para o
caso multivariado, a distribuio da matriz de covarincia chamada de distribuio de
Wishart, aps sua descoberta, com (n 1) graus de liberdade. Os resultados a seguir
resumem detalhes destas distribuies:
121
Devido a $$ no ser conhecida, a distribuio de X

no pode ser usada


diretamente para se fazer inferncia sobre

. Felizmente, S fornece informao


independente sobre $$ e a distribuio de S no depende de

. lsto permite que se


construa estatsticas para fazer inferncia sobre

, como ser abordado no captulo 5.


DDen enssiidade da d dade da diisstr triibu buiio de o de WWiissha hart rt
Seja S uma matriz positiva definida, com n>p, ento se pode definir,

1
(n p 2)/ 2
tr(S )/ 2
n 1
p
(n 1)/2
p(n 1)/ 2 p(p 1)/4
1
2
i 1
S e
w (S/ )
2 (n i)


=
E =
t E I
[
(4.9)
em que, I(.) representa a funo gama.
Sendo
1
X

,
2
X

, ...,
n
X

uma amostra aleatria de tamanho n de uma populao normal


p-variada com mdia

e matriz de covarincia $$. Ento,


1. X

possui distribuio normal com mdia

e matriz de covarincia (1/n)$$.


2. (n-1)S possui distribuio de uma matriz aleatria de Wishart com n-1 gl.
3. X

e S so independentes.
122
Retornando ao caso da distribuio das mdias amostrais, o resultado
4.1, sintetiza um importante teorema em estatstica.
Como j foi comentado quando n grande, S converge em probabilidade
para $$, consequentemente, a substituio de $$ por S causa efeitos apenas negligveis
nos clculos de probabilidades. Desta forma, utilizando a expresso (4.8), pode-se
obter o importante resultado, apresentado a seguir.
ResuItado 4.1. (teorema do limite central) Sendo
1
X

,
2
X

, ...,
n
X

uma amostra aleatria


de n independentes observaes de uma populao qualquer com mdia

e matriz de
covarincia $$, finita e no singular. Ento,

n X

possui distribuio aproximadamente normal N


p
( 0

, $$) para grandes


amostras. Aqui n deve ser tambm bem maior do que p (nmero de variveis).
123
Para a distribuio normal univariada, se e o so conhecidos, as
probabilidades sob a curva para a distribuio de X, podem ser obtidos das tabelas da
distribuio normal, ou da integral da funo apresentada em (4.1) nos intervalos
apropriados, com =0 e o=1, sendo
z
X
n
=

o
(4.10)
Alternativamente, pode-se obter a aproximao de Hasting (1955) citado
por Bock (1975), com erro mximo de 10
-6
, dada por
ResuItado 4.2. (teorema do limite central) Sendo
1
X

,
2
X

, ...,
n
X

uma amostra aleatria


de n independentes observaes de uma populao qualquer com mdia

e matriz de
covarincia $$, finita e no singular. Ento,

n X

possui distribuio aproximadamente normal N


p
( 0

, E)
e

1
n X ' X

E


se distribui aproximadamente como
p
2
.. para n - p grande.
124
u( ) z
G se z
G se z
~
s
>

0
1 0
(4.11)
em que,
u( ) z a probabilidade acumulada sob a curva da distribuio normal de
- a z;
G a a a a a z = + + + + ( ) ( )
1 2
2
3
3
4
4
5
5
q q q q q | ;
q=
+
1
1 0 2316418 , , , z
;
| t ( ) ( ) z e
z
=

2
1
2
2
2
;
a
1
=0,319381530
a
2
=-0,356563782
a
3
=1,781477937
a
4
=-1,821255978
a
5
=1,330274429
125
44..66.. DDiisstr triibu buiie es s aammoosstr traall ddeerriivvada da ada da ddiisstr triibu buiio no o norrmmaal l
mmuullttiivvaarriiada ada
TTeo eorriia da a da DDiisstr triibu buiio da o das s ggrrande andes s aammoosstr traas s
e d e diisstr triibu buiio exa o exattaa
Na anlise dos dados freqentemente so utilizadas funes das
observaes chamadas estatsticas, as quais servem como estimadores dos
parmetros ou como critrio para os testes de hipteses. A importncia de tais
estatsticas muitas vezes depende do conhecimento da (1) distribuio assumida para
as observaes, (2) do mtodo de amostragem, e (3) da natureza da funo das
observaes. A dois tipos de teoria amostral avaliada para derivar a distribuio
amostral. A teoria das grandes amostras, a qual fornece a distribuio aproximada
medida que o tamanho amostral cresce indefinidamente, e a teoria das pequenas
amostras ou teoria exata, a qual vlida para qualquer tamanho amostral.
As distribuies derivadas assumindo o tamanho amostral
indefinidamente grande so chamadas de distribuies assintticas ou "limitante. A
teoria assinttica especialmente simples, como conseqncia do teorema do limite
central que demonstra que muitas estatsticas tm distribuio normal como limite. Para
tais estatsticas necessrio somente obter a mdia e a varincia para ter a
distribuio assinttica.
A distribuio amostral sem considerar os argumentos da teoria
assinttica, geralmente depende do tamanho da amostra e pode ser no-normal para
pequenas amostras, mesmo se a forma limite for normal. Se este for o caso, algum
indicativo de qual tamanho amostral necessrio para uma dada acurcia na teoria
126
assinttica extremamente til para trabalhos prticos. Como exemplo, pode citar que
a distribuio de F, de razes de varincias, com v
1
graus de liberdade do numerador e
v
2
do denominador, se aproxima de qui-quadrado dividido por v
1
quando v
2
cresce sem
limite.
lim ( , )
( )
2
1
1 2
2
1
u
u
u u
_
u

= E
Comparando as tabelas de F e qui-quadrado dividido por v
1
, pode-se
concluir que ao nvel de 0,05, com erro de duas unidades na segunda casas decimal,
quando v
2
for maior que 40, haver boa concordncia. Semelhantemente, ao nvel de
0,01 a concordncia com a mesma preciso se d quando o valor de v
2
excede 100.
DDiisstr triibu buiio da o da ssoomma de quad a de quadrrado ados s de n de de n desv sviioos s
no norrmmaaiis s aallea eattrriiooss
Seja Z um vetor v x 1 de v observaes normais N(0,1) padronizadas. A
estatstica
( )
' ...
v u
_
2
1
2
2
2 2
= = + + + Z Z z z z (4.12)
127
distribuda como uma varivel qui-quadrado com v graus de liberdade. Foi obtida em
1876 por Helmert e independentemente em 1900 por Karl Pearson. A funo de
distribuio de qui-quadrado pode ser expressa pela funo gamma incompleta.
P t e dt
t
( / )
( )
( ) 2
2
1
0
1
2
2
2 2
_ _ u
u
u
u
_
s = )

I
(4.13)
A funo de distribuio (4.13) pode ser aproximada para aplicaes em
computadores pela srie convergente apresentada a seguir.

P
e
n
n
n
( / )
2
0 1
_ _ u
_
_
u
_
u
s =
+ +

I
(4.14)
quando
1
2
1
2
13 _ u < max( , ), e caso contrrio pela expanso assinttica:
P e ( / )
( )( )
...
2 1
2
1
1 1 2
_ _ u _
u
_
u u
_
u _
s ~ +

+

+


(4.15)
Os valores de I( ) a pode ser obtida pela frmula de Stirling:
I( ) ( )! ( )
/ /
a a e a
a a a a
a a
= = + +


1 2 1
1
12
1
288
139
51840
571
2488320
12 12
2 3 4
t
(4.16)
128
A forma recursiva I( ) a +1 =aI( ) a e I( ) 2 =I( ) 1 pode ser usada quando "a
for pequeno. Sabe-se que a mdia da distribuio de qui-quadrado, E(
2
_ ), v e que
sua varincia 2v. Para v>30, as probabilidades podem ser obtidas usando a
aproximao normal assinttica usando 2 2 1
2
_ u como um desvio normal unitrio.
RRaazzo en o entr tre e iindepende ndependennttees s ..
22
{{F de F F de Fiisshe herr}}
Sejam
1
2
_ e
2
2
_ , dois
2
_ independentes com v
1
e v
2
graus de liberdade,
respectivamente. Ento,
E =
1
2
1
2
2
2
_ u
_ u
possui distribuio de uma varivel F com v
1
e v
2
graus de liberdade. A distribuio de
F foi derivada por R. A. Fisher (1924). A funo de distribuio de F pode ser
aproximada pela srie convergente da funo beta incompleta:
(

+ +
+ +
+

=
+
0 n
1 n
b a
x
x
) 1 n , b a ( B
) 1 n , 1 a ( B
1
) b , a ( aB
) x 1 ( x
) b , a ( I
(4.17)
em que, B a b
a b
a b
( , )
( ) ( )
( )
=
+
I I
I
129
Ento,
P E I
x
( , , ) ( , )
1 2
2 1
1
2 2
u u
u u
=
em que, x
E
=
+
2
2 1
u
u u
44..77. . VVeerriiffiicando a no cando a norrmmaali lidade dade
A pressuposio de que cada vetor de observao
j
X

veio de uma
distribuio normal multivariada ser requerida nas tcnicas estatsticas que sero
abordadas nos captulos subsequentes. Por outro lado, nas situaes em que a
amostra grande e as tcnicas dependem apenas do comportamento de X

, ou
distncias envolvendo X

da forma

'
1
n X S X




, a pressuposio de
normalidade das observaes individuais
j
X

menos crucial. lsto devido


aproximao da distribuio normal assinttica das principais estatsticas. No entanto,
melhor ser a qualidade da inferncia quanto mais prxima populao parental se
assemelhar da forma da distribuio normal multivariada. imperativo que exista
procedimentos para detectar os caso onde os dados exibam desvios de moderados a
extremos do esperado sob normalidade multivariada.
130
Baseado na distribuio normal, sabe-se que todas as combinaes
lineares de variveis normais so normais e que contornos da densidade normal so
elipsides. Devido s dificuldades de avaliao de um teste conjunto em todas as
dimenses, os testes para checar a normalidade sero concentrados em uma ou duas
dimenses. Obviamente se paga um preo por estas simplificaes, como no revelar
algumas caractersticas que s podem ser observadas em dimenses maiores.
possvel por exemplo, construir uma distribuio no normal bivariada com marginais
normais. No entanto, muitos tipos de no normalidade so revelados em geral nas
distribuies marginais, e para aplicaes prticas ser suficiente checar a normalidade
em uma ou duas dimenses.
VVeerriiffiicando a cando a vvaali lidade da no dade da norrmmaali lidade dade po por r mmeeiio o
da d da diisstr triibu buiio o mmaarrggiina nall
Textos elementares muitas vezes recomendam que a normalidade
univariada seja investigada, examinando o histograma de freqncia amostral para
avaliar discrepncias entre as freqncias observadas e esperadas pelo ajuste da
distribuio normal. Usualmente, sugere-se tambm que as discrepncias sejam
submetidas ao teste de aderncia de qui-quadrado. Um
2
_ significativo (P<0,05) tido
como evidncia contra a normalidade da populao.
Apesar deste mtodo ter a virtude da simplicidade de computao e ser
livre do tipo de desvios da normalidade que esteja sendo testado (curtose, assimetria,
etc.), tem a desvantagem, quando aplicados a dados contnuos, de depender da
131
arbitrariedade da escolha dos intervalos de agrupamento dos dados. Essa escolha
determina a resoluo do histograma e o nmero de termos a ser somado para obter a
estatstica de
2
_ . Uma escolha errada pode levar a resultados no consistentes. Se a
escolha dos intervalos for muito estreitas, o histograma pode ser irregular e a acurcia
do
2
_ pode ser grandemente afetada devido aos pequenos valores esperados. Se os
intervalos so largos, desvios de normalidade podem ser obscurecidos tanto no
histograma quanto no teste de
2
_ .
Uma melhor aproximao, evitando todas essas dificuldades,
conseguida fazendo uso de mtodos que no requerem agrupamento de escores.
Felizmente, excelentes procedimentos grficos e computacionais existem para este
propsito.
aa}} DDiisstr triibu buiio de p o de prropo oporre ess
A distribuio normal univariada possui probabilidade de 0,683 para o
intervalo ( o o
i ii i ii
+ ; e probabilidade de 0,954 para o intervalo
( o o
i ii i ii
+ 2 2 ; (Figura 4.1). Consequentemente, para grandes amostras de
tamanho n, esperado que a proporo de

P
i1
observaes contidas no intervalo
( X s X s
i
ii
i
ii
+ ; seja de cerca de 0,683, e de forma semelhante, espera-se que a
proporo

P
i 2
de observaes em ( X s X s
i
ii
i
ii
+ 2 2 ; seja de cerca de
0,954. Usando a aproximao normal da distribuio de

P
i
, ento se
132
,

, ,
, , ,
i
P
n n
1
0 683 3
0 683 0 317 1396
>

=
,

, ,
, , ,
i
P
n n
2
0 954 3
0 954 0 046 0 628
>

=
devem indicar desvios da distribuio normal para i-sima caracterstica (Johnson &
Wichern, 1988).
bb}} PPrroce ocess ssoos s ggrraaffiico coss
Os grficos so em geral teis para avaliar desvios da normalidade. Dois
processos grficos sero considerados neste captulo.
ii}} QQ--Q Q pplloott
Esses grficos so obtidos da distribuio marginal das observaes de
cada varivel. Consiste em plotar em um plano cartesiano os percentis amostrais
versus os percentis esperados pelo ajuste de uma distribuio normal. Se os pontos
pertencem a uma linha reta, a pressuposio de normalidade deve ser aceita.
Sejam x
1
, x
2
, ..., x
n
as n observaes de uma varivel X. Sejam x
(1)
, x
(2)
, ...,
x
(n)
essas observaes ordenadas crescentemente, ou seja, x
(1)
a menor observao
e x
(n)
a maior. Quando os x
(j)
so distintos, exatamente j observaes so menores ou
iguais a x
(j)
(isto teoricamente verdadeiro quando as observaes so do tipo
133
contnuo, o que em geral ser assumido). A proporo amostral j/n aproximada por (j-
)/n, onde usado para correo de descontinuidade.
Os percentis esperados sob normalidade so dados por (q
(j)
):
j
n
e dz
q
z
j

= )

1
2
1
2
2
2
t
( )
/
(4.18)
Os percentis q
(j)
podem ser obtidos, como pode ser visto em (4.18) pela
inverso da funo de distribuio de probabilidade da normal, em rotinas apropriadas
em computadores ou atravs de tabelas da distribuio normal. (Tabela A.1).
Os percentis q
(j)
e x
(j)
so plotados em um sistema cartesiano com q
(j)
na
abcissa e x
(j)
na ordenada. Desvios da normalidade podem ser observados pela
inspeo deste tipo de grfico, cujos pontos, quando da normalidade devem pertencer
a uma linha reta (de qualquer inclinao). O exemplo 4.1, ilustrar os clculos
necessrios para obteno dos Q-Q plots.
EExe xemmppllo 4 o 4..11
Seja uma amostra (n=10) obtida de uma populao normal N(3; 4) apresentada a
seguir. Neste caso, a observao 4 constitui-se um "outlier, propositadamente gerado.
{3,74; 2,91; 4,79; 8,65; 2,06; 4,59; 4,02; 0,46; 1,79; 3,30}
134
Dessa forma para se obter o Q-Q plot necessrio os seguintes passos:
1) ordenar a amostra: x
(1)
, x
(2)
, ..., x
(n)
e obter os seus valores correspondentes de
probabilidade acumulada (j-)/n.
j x
(j)
(j-)/n q
(j)
1
2
3
4
5
6
7
8
9
10
*
0,46
1,79
2,06
2,91
3,30
3,74
4,02
4,59
4,79
8,65
0,05
0,15
0,25
0,35
0,45
0,55
0,65
0,75
0,85
0,95
-1,645
-1,036
-0,675
-0,385
-0,126
0,126
0,385
0,675
1,036
1,645
2) calcular os percentis da distribuio normal padro.
Ex. Para a observao 1 tem-se:
j
n
e dz
q
z

= = )

1
2
1
2
1
2
2
1
10
0 05
1
2
,
( )
/
t
Portanto, q
(1)
= -1,645, e assim sucessivamente.
3) plotar (q
(1)
, x
(1)
), (q
(2)
, x
(2)
), ..., (q
(n)
, x
(n)
) e examinar os resultados
135
Q-Q PIot
Q
(j)
-2 -1 0 1 2
X
(
j
)
0
2
4
6
8
10
Outlier
Figura 4.7. Q-Q plot para os dados do exemplo 4.1, destacando a presena de um
outlier.
Observa-se que os pontos amostrais se situam praticamente em uma
linha reta imaginria, com exceo da presena de um outlier, destacado na Figura 4.6.
O procedimento adequado seria de eliminar esta observao e refazer a anlise para
os dados amostrais remanescentes, o que fica a cargo do leitor.
136
Este processo grfico, embora bastante poderoso para se verificar
desvios da normalidade, no se constitui num teste formal deste propsito. Para
contornar esta limitao, Johnson & Wichern (1988) apresentam um teste
complementar a este processo grfico, o qual mede o ajuste dos pontos do Q-Q Plot a
linha reta imaginria, atravs de uma medida de um coeficiente de correlao,
apresentado a seguir.


r
x x q q
x x q q
Q
j j
j
n
j
j
n
j
j
n
=

=
= =
( ) ( )
( ) ( )
1
1
2
1
2
(4.19)
Um poderoso teste de normalidade pode ser construdo, baseado neste
coeficiente de correlao (4.19). Formalmente, rejeita-se a hiptese de normalidade se
o valor calculado for menor que os valores crticos para um determinado nvel de
significncia (Tabela 4.1).
Tabela 4.1. Valores crticos para o teste para normalidade baseado no coeficiente de
correlao Q-Q plot.
Tamanho amostral Nvel de significncia (o)
n 0,01 0,05 0,10
5 0,8299 0,8788 0,9032
137
10
15
20
25
30
40
50
60
75
100
150
200
300
0,8801
0,9126
0,9269
0,9410
0,9479
0,9599
0,9671
0,9720
0,9771
0,9822
0,9879
0,9905
0,9935
0,9198
0,9389
0,9508
0,9591
0,9652
0,9726
0,9768
0,9801
0,9838
0,9873
0,9913
0,9931
0,9953
0,9351
0,9503
0,9604
0,9665
0,9715
0,9771
0,9809
0,9836
0,9866
0,9895
0,9928
0,9942
0,9960
Fonte: Johnson & Wichern (1998)
EExe xemmppllo 4 o 4..1 1 {{con conttiinuao nuao}}
Calculando a correlao amostral, atravs de (4.19), obteve-se:
r
Q
= =
18 77109
44 15849 8 798094
0 9523
,
, ,
,
Como, o valor tabelado ao nvel de 5% de probabilidade (0,918) inferior
ao valor calculado (0,9523), ento, no existe razo para duvidar da hiptese de
normalidade.
ii} Grafico das probabilidades acumuladas
Um segundo processo grfico, bastante utilizado, refere-se aos grficos
em que so plotados as probabilidades amostrais acumuladas versus a probabilidades
acumuladas da distribuio normal (Bock, 1975). O algoritmo :
138
1) ordenar a amostra: x
(1)
, x
(2)
, ..., x
(n)
e obter os seus valores correspondentes de
probabilidade acumulada p
j
= (j-)/n, amostrais.
2) Calcular a mdia amostral e o desvio padro viesado
S
x
n
n
j
j
n
x
n
j
j
n
=

=
2
1
2
1
( )
(4.20)
3) Obter as probabilidades normais acumuladas utilizando (4.11) ou tabelas da
distribuio normal, atravs de:
j
j
n
x x
z
S

=
P
j
=u(z
j
)
4) Plotar P
j
(abcissa) contra p
j
(na ordenada)
EExe xemmppllo 4 o 4..2 2
Com os dados do exemplo 4.1, o algoritmo apresentado no item (ii) foi executado,
resultando nos seguintes valores:
139
j x
(j)
p
j
= (j-)/n P
j
1
2
3
4
5
6
7
8
9
10
*
0,46
1,79
2,06
2,91
3,30
3,74
4,02
4,59
4,79
8,65
0,05
0,15
0,25
0,35
0,45
0,55
0,65
0,75
0,85
0,95
0,066
0,189
0,227
0,367
0,436
0,520
0,575
0,677
0,709
0,992
Na Figura 4.8 esto plotados os pontos P
j
(abcissa) contra p
j
(na
ordenada).
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
p
j
P
j
Figura 4.8. Grfico normal acumulado da amostra simulada no exemplo 4.1.
140
Se a populao for normal, os pontos tendem a cair em uma linha definida
pela reta P
j
=p
j
. Uma vez que o grfico apresenta efeitos cumulativos, os pontos no
so independentes e ainda pode-se afirmar que sucessivos pontos no tendero a se
situar aleatoriamente em ambos os lados da linha. Em outras palavras, um grupo de
pontos sucessivos poder estar de um lado da reta ou de outro, sem ser um indicativo
de desvio da normalidade. Alguma familiaridade com este tipo de grfico, indicaro a
forma da distribuio e os desvios da normalidade que possam ocorrer.
De maneira geral, as situaes mais comuns devem se enquadrar nos
seguintes tipos de grficos. Distribuies assimtricas esquerda tendero a ter seus
pontos de extremos no lado superior da reta, e os pontos intermedirios no lado inferior
da mesma. Para distribuies assimtricas direita, o oposto deve ocorrer, ou seja,
pontos extremos no lado inferior da reta e pontos intermedirios no lado superior.
Os achatamentos da distribuio, conhecidos por curtose, tambm podem
ser detectados. Nas distribuies leptocrticas, os pontos de menor densidade
acumulada se concentram no lado inferior da reta, vindo a cruz-la no centro. Os
pontos de maior densidade, se concentram no lado superior da reta, a partir do centro.
Nas distribuies platicrticas, o oposto se d, ou seja, pontos de menor densidade
acumulada se concentram no lado superior, e os pontos de maior densidade no lado
inferior da reta, vindo a cruz-la no centro. Distribuies bimodais possuem grficos
que representam os casos extremos da distribuio platicrtica.
141
cc}} UUsso do o dos s mmoommen enttooss
Os momentos no centrados para a mdia, podem ser calculados a partir
dos dados amostrais, fazendo 1/n como densidade para cada ponto amostral. Desta
forma, pode-se definir, o r-simo momento amostral no centrado para mdia por:
~
m
n
x
r j
r
j
n
=

=
1
1
(4.21)
Pode-se ento, definir a mdia amostral, e o segundo, terceiro e quarto
momentos centrados na mdia, em funo dos momentos no centrados por:
Mdia:
1
0 =

(4.22)
Varincia:
~ ~ ~

2 2 1
2
= m m
(4.23)
Assimetria
~ ~ ~ ~ ~

3 3 1 2 1
3
3 2 = + m m m m
(4.24)
Curtose
~ ~ ~ ~ ~ ~ ~

4 4 1 3 1
2
2 1
4
4 6 3 = + m m m m m m
(4.25)
Os valores amostrais de o coeficiente de assimetria e curtose so,
respectivamente:
142
b
1
3
2 2
=
~
~ ~


(4.26)
b
2
4
2
2
=
~
~

(4.27)
Os coeficientes de assimetria populacional, para a distribuio normal,
|
1
=0 e o coeficiente de curtose |
2
=3. Se |
1
<0, ento, a distribuio assimtrica a
esquerda, caso contrrio, |
1
>0, a distribuio assimtrica a direita. Distribuies com
|
2
<3 so platicrticas (menos pontudas com caudas mais baixas do que a normal), e
aquelas com |
2
>3 so leptocrticas (mais pontudas e com caudas mais altas do que a
normal).
EExe xemmppllo 4 o 4..3 3
Utilizando os dados do exemplo 4.1 calcular os momentos e os coeficientes de
assimetria e curtose amostrais.
x x
2
x
3
x
4
0,46
1,79
2,06
2,91
3,30
0,2116
3,2041
4,2436
8,4681
10,8900
0,0973
5,7353
8,7418
24,6422
35,9370
0,0448
10,2663
18,0081
71,7087
118,5921
143
3,74
4,02
4,59
4,79
8,65
36,31
13,9876
16,1604
21,0681
22,9441
74,8225
176,0001
52,3136
64,9648
96,7026
109,9022
647,2146
1046,2520
195,6530
261,1585
443,8648
526,4317
5598,4070
7244,1350
Tm-se:
~
m
1
=36,31/10=3,631
~
m
2
=176,0001/10=17,6000
~
m
3
=1046,2520/10=104,6252
~
m
4
=7244,135/10=724,4135
~

1
= 3,631
~

2
= 17,6 - (3,631)
2
= 4,4158
~

3
= 104,6252 - 3 x 3,631 x 17,6 + 2 x (3,631)
3
= 8,6518
~

4
= 724,4135 - 4 x 3,631 x 104,6252 + 6 x (3,631)
2
x 17,6 - 3 x (3,631)
4
= 75,6182
b
1
= 8,6518/(4,4158 x 4,4158
1/2
) = 0,9324
144
b
2
= 75,6182/(4,4158)
2
= 3,8780
cc..11}} UUsso do coe o do coeffiicciien entte de a e de ass ssiimmeetr triiaa
Para se avaliar o grau de assimetria da distribuio, um teste baseado no
coeficiente de assimetria (4.26), pode ser realizado. Nveis crticos para a estatstica
b
1
, podem ser encontrados em Pearson e Hartley (1966) para n>24, e em D'Agostino
e Tietjen (1973) para n variando de 5 a 35. A assimetria ser a esquerda se b
1
for
negativo, e a direita se b
1
for positivo, significativamente. Em grandes amostras, os
valores crticos de b
1
podem ser obtidos com boa aproximao usando como desvio
da normal padro a estatstica:
z b
n n
n
1 1
1 3
6 2
=
+ +

( )( )
( )
(4.28)
cc..22}} UUsso do coe o do coeffiicciien entte de cu e de curt rtoossee
Valores crticos para o coeficiente de curtose (4.27), podem ser
encontrados em Pearson e Hartley (1966) para n>49 e D'Agostino e Tietjen (1971) para
n variando de 7 a 50. Em grandes amostras, os valores crticos para o teste de
145
achatamento da curva, podem ser aproximados usando como desvio normal a seguinte
estatstica:
z b
n
n n n
n n n
2 2
2
3
6
1
1 3 5
24 2 3
= +
+
+ + +

( )
( ) ( )( )
( )( )
(4.29)
Valores de b
2
maiores que 3 indicam que a distribuio mais pontuda
com caldas mais altas do que a normal; valores menores que 3 indicam uma
distribuio achatada no centro e com caudas mais baixas do que a distribuio
normal.
EExe xemmppllo 4 o 4..3 3 {{con conttiinuao nuao}}
Os valores de z
1
e z
2
, para o teste de assimetria e curtose foram:
z
1
=1,609 com P(Z>|z
1
|)=0,1074
z
2
=1,886 com P(Z>|z
2
|)=0,0592
Desta forma, ao nvel de 5% de probabilidade se aceita a hiptese de
simetria e de no achatamento da curva, demonstrando no se ter desvio da
normalidade.
146
VVeerriiffiicando a no cando a norrmmaali lidade dade po por r mmeeiio o
da d da diisstr triibu buiio b o biivvaarriiada ada
Em geral se deseja verificar a normalidade para dimenses superiores a
1, ou seja, para a distribuio p-variada, p>2. Como j comentado anteriormente,
suficiente para propsitos prticos, avaliar apenas as distribuies univariadas e
bivariadas. O caso bivariado ser enfocado nesta seo.
Pelo resultado 4.2, dado vetor X

com distribuio normal bivariada,


tem-se que,
1 2
2
(x )' (x ) (1 )

E s_ o


Atravs deste resultado, pode-se ento, generalizar o processo grfico
conhecido como Q-Q plot. Dada uma amostra bivariada com n observaes, o
algoritmo seguinte pode ser usado para generalizar o processo grfico mencionado.
importante salientar que este processo no limitado apenas ao espao bidimensional.
O algoritmo ser apresentado, utilizando os dados do exemplo 1.1, com
X
1
representando a quantidade de reais pela venda de rao, e X
2
sendo o nmero de
sacos de raes vendidos, por n=4 firmas de Minas Gerais.
EExe xemmppllo 4 o 4..44
1) Calcular a distncia quadrada generalizada amostral d
(j)
de cada observao em
relao mdia amostral, dada por:
147
2 1
j j j
d (x x) 'S (x x)

=

, j=1, 2, ..., n
Os valores da mdia e da matriz de covarincia amostrais foram
apresentados no exemplo 1.2, e so:
100
X
9
(
=
(

e
(

=
667 , 6 000 , 20
000 , 20 333 , 333
S
A matriz inversa de S :
(

1829 , 0 0110 , 0
0110 , 0 0037 , 0
S
1
A distncia generalizada para primeira observao :
( 0853 , 2
9 10
100 80
1829 , 0 0110 , 0
0110 , 0 0037 , 0
9 10 100 80 d
1
=
(

=
E assim sucessivamente, para as demais observaes:
d
2
= 1,7926
d
3
= 1,3536
d
4
= 0,7683
148
2) ordenar as distncias quadrticas amostrais do menor para o maior d
(1)
2
sd
( ) 2
2
s...sd
n ( )
2
.
3) Obter os valores correspondentes, percentis, de probabilidade acumulada
q
(j)
=_
p
2
((j-)/n), da distribuio de qui-quadrado. Estes percentis dependem da inversa
da funo de distribuio de qui-quadrado, e podem ser obtidos em vrios softwares
estatsticos.
J d
j ( )
2
(j-)/n q
(j)
1
2
3
4
0,7683
1,3536
1,7926
2,0853
0,125
0,375
0,625
0,875
0,2671
0,9400
2,2479
4,1589
4) Plotar (d
j ( )
2
; q
(j)
) e examinar os resultados
149
d
( j )
0 1 2 3
q
(
j
)
0
1
2
3
4
5
2
Figura 4.9. Q-Q plot para os dados do exemplo 1.1, destacando a possibilidade de
utilizao deste processo para os casos de dimenses superiores ou iguais
a 2.
Pela Figura 4.9, verifica-se que no existem razes para duvidar de que a
distribuio do nmero de sacos de raes vendidos e o montante de dinheiro
arrecadado pelas firmas de raes em Minas Gerais, no seja normal bivariada, apesar
do pequeno tamanho de amostras.
VVeerriiffiicando a no cando a norrmmaali lidade dade mmuullttiivvaarriiada ada po por r mmeeiioo
da cu da curt rtoosse e e e aass ssiimmeetr triia de a de MMaarrddiiaa
150
Os coeficientes de assimetria e curtose de uma distribuio multivariada
qualquer so definidos por:

<
3
'
1
1,p
E X Y

= E
|


(4.30)
em que
~
X independente de
~
Y, mas tem a mesma distribuio; e

<
2
'
1
2,p
E X X

= E
|


(4.31)
Essas esperanas para a distribuio normal multivariada so:
0
p , 1
= | e ) 2 p ( p
p , 2
+ = |
Para uma amostra de tamanho n, os estimadores de |
p , 1
e |
p , 2
so:
=
|
= =
n
1 i
n
1 j
3
ij 2 p , 1
g
n
1
`
= =
|
= =
n
1 i
4
i
n
1 i
2
i i p , 2
d
n
1
g
n
1
`
em que,

'
1
i j i n j
g X X S X X

=

e
i i i
g d =
151
Os estimadores
|
`
p , 1
(quadrado do coeficiente de assimetria quando p=1) e
|
`
p , 2
(igual ao coeficiente de curtose univariado quando p=1) so no-negativos. Sob
distribuio normal multivariada espera-se que a E(
|
`
p , 1
) seja prxima de zero. O
estimador
|
`
p , 2
muitas vezes usado para avaliar observaes que esto a grandes
distncias da mdia amostral.
Mardia (1970) mostra que para grandes amostras,
6
`
n
k
p , 1
1
|
=
segue a distribuio de _
2
com p(p+1)(p+2)/6 graus de liberdade, e
<
2 / 1
p , 2
2
n
) 2 p ( p 8
) 2 p ( p
`
k
(

+
+
|
=
segue a distribuio normal padro. Para pequenos valores de n, as tabelas de valores
crticos para testar a hiptese multivariada de normalidade so fornecidas por Mardia
(1974).
EExe xemmppllo 4 o 4..55
Usando o exemplo das raes testar a normalidade multivariada pelo teste dos desvios
de assimetria e curtose. Os valores amostrais so:
Obs Reais Vendas
1 80 10
152
2
3
4
120
90
110
12
6
8
As estatsticas amostrais so:
100
X
9
(
=
(

=
5 15
15 250
S
n (

243902 , 0 014634 , 0
014634 , 0 004878 , 0
S
1
n
ou
(

250 15
15 5
1025
1
S
1
n
Os desvios de cada observao da mdia amostral (
i
c

):
1. (
'
1
20 1 c =

2. (
'
2
20 3 c =

3. (
'
3
10 3 c =

4. (
'
4
10 1 c =

i) Teste baseado no coeficiente de assimetria


necessrio calcular os valores de g
ij
para todos os pares de i e j, obtidos
da seguinte forma:
Para i=1 e j=1, ( 7805 , 2
1
20
S
1 20 g
1
n
1 1
=
(

Para i=1 e j=2, (


1
12
n
20
g 20 1 0, 6341
3
S
(
= =
(

Para as demais combinaes, tm-se: g
1 3
=-0,4878, g
1 4
=-1,6585,
g
2 2
=2,3902, g
2 3
=-1,8537, g
2 4
=0,0976, g
3 3
=1,8049, g
3 4
=0,5366 e g
4 4
=1,0244.
Logo,
153

3 3 3
1,2
2, 7805 2( 0, 6341) 1, 0244
`
16
+ + +
| =

=1,2766
ento,
8511 , 0
6
2766 , 1 4
6
`
n
k
2 , 1
1
=

=
|
=
Como k
1
~
2
_ com p(p+1)(p+2)/6=4 graus de liberdade, e sabendo que
488 , 9
2
4 ; 05 , 0
= _ , ento H
0
no deve ser falseada, ou seja, no existe razes para
suspeitar da violao da simetria da distribuio multivariada.
ii) Teste baseado no coeficiente de curtose
lnicialmente, estima-se o coeficiente de curtose da seguinte forma:
4378 , 4
4
7513 , 17
0244 , 1 8049 , 1 3902 , 2 7805 , 2
4
1
g
n
1
`
2 2 2 2
n
1 i
2
i i p , 2
= = + + + = =
|
=
e em seguida, estima-se o valor estimado da normal (0, 1):
8905 , 0
4
5621 , 3
4
4 2 8
) 2 2 ( 2 4378 , 4
k
2
1 2
=

=
|
.
|

\
|

=
No existem razes para duvidar de que a distribuio multivariada tenha
algum desvio de curtose, uma vez que 96 , 1 z k
025 , 0 2
= < .
iii) Programa SAS para o teste de normalidade
154
A seguir so apresentados um programa SAS usando o Proc Calis para o
teste da curtose e um programa em lML, para ambos parmetros. O programa fornece
as estatsticas amostrais e os valores das significncias exatas.
Data ER;
Input Reais Vendas;
cards;
80 10
120 12
90 6
110 8
;
Proc Calis dataER Kurtosis;
Title1 j1 "Uso do Calis para testar a
normalidade";
Title2 "pela Curtose de Mardia";
Lineqs
Reaise1,
vendase2;
std
e1eps1, e2eps2;
Cov
e1eps1, e2eps2;
Run;
Proc IML;
use ER;
read next 4 into X; /* lendo n observacoes dentro de X */
nnrow(X);pncol(X);
dfchip*(p1)*(p2)/6; /*definindo GL para B1,p */
qi(n) - (1/n)*j(n,n,1); /* criando qI-1/nJ, auxiliar */
S(1/n)*x`*q*x; /* matriz de covariancias viesada */
Sinvinv(S); /* inversa de S */
print s sinv;
gq*x*sinv*x`*q; /* matriz com gij */
print g;
beta1(sum(g#g#g))/(n*n); /*produto elem. a elem. E sua soma/n`2 */
beta2trace(g#g)/n; /* idem com tomada do traco/n */
print beta1 beta2;
k1n*beta1/6; /* definindo k1 e k2, transformacoes de b1,p e b2,p */
k2(beta2-p*(p2))/sqrt(8*p*(p2)/n);
pvalskew1-probchi(k1,dfchi); /* calculo dos pvalues respectivos */
pvalkurt2*(1-probnorm(abs(k2)));
print k1 pvalskew;
print k2 pvalkurt;
Quit; /* abandonando IML */
Finalmente apresentado a seguir um programa SAS para orientar os
leitores na simulao de dados com distribuio normal multivariada com mdia e
covarincia especificada. O exemplo apresentado gera uma distribuio normal
trivariada.
Proc lML;
SlG={8 4 1,
4 10 3,
1 3 18};
St=Root(sig);
mu={1, 10, 8};
x=j(100,3,0);
do i=1 to 100;
zi=j(3,1,0);
do ii=1 to 3;
zi[ii]=rannor(0);
end;
155
xi=st`*zi+mu;
do ii=1 to 3;
x[l,ii]=xi[ii];
end;
end;
print x;
create dtnorm from x;
append from x;
quit;
proc print data=dtnorm;
run;quit;
44..88. . EExe xerrcciicciiooss
4.8.1. Com os dados do exemplo 4.4, tendo como hiptese que os mesmos seguem a
distribuio normal bivariada, utilize o resultado 4.2, ao nvel de 50%, de que as
distncias generalizadas seguem a distribuio qui-quadrado. Utilizando ento a
distribuio de propores, item (a), verifique a normalidade bivariada dos
dados, contando a proporo observada (

P
i
) de distncias que pertencem a
elipse, e comparando com a estatstica abaixo.
,

, ,
, , ,
i
P
n
n
>

= 0 5 3
0 5 0 5 1 5
4.8.2. Utilizando os dados deste exemplo (1.1), realize todos os testes univariados,
propostos, neste captulo, para ambas variveis.
156
4.8.3. Utilizando os dados climticos, obtidos por Diniz (1996), na fazenda
Cooparaso-EPAMlG, Jacu, MG, de agosto de 1994 a janeiro de 1995, teste a
pressuposio de normalidade tridimensional dos mesmos. Utilize para isso, o
processo grfico apresentado, e o teste do exerccio nmero 4.8.1 e o teste
baseado nos desvios de assimetria e curtose de Mardia.
Temperatura Umidade Relativa (%) Precipitao (mm)
22,7
23,7
24,3
24,4
24,5
25,2
25,5
24,7
24,3
24,7
24,9
64,1
56,1
54,9
58,2
62,8
70,3
75,2
81,4
79,3
74,6
78,0
7,9
1,5
0,0
0,0
8,7
22,5
57,0
75,7
123,2
124,4
148,0
4.8.4. Utilize os dados de uma amostra de 24 cochonilhas, fmeas adultas, de
Quadraspidiotus perniciosus (Comst.), por ramo de pessegueiro, na regio de
Jacu-MG, e teste a pressuposio de normalidade dos dados, utilizando os
procedimentos apresentados univariados na seo 4.7.
0,8 1,0 0,6 0,6 0,2 0,8 2,5 1,5 0,3 1,7 1,9 2,5 1,1 5,0 0,9 1,7 2,6 4,5 1,8
1,0 0,5 0,4 1,8 0,7
44..99. . RReeffeerrnc nciiaass
ANDERSON, T.W. An introduction to muItivariate statisticaI anaIysis. 2nd ed.
New York, John Wiley, 1984, 675p.
157
BOCK, R.D. MuItivariate statisticaI methods in behavioraI research. McGrawn
Hill, 1975.
D'AGOSTlNO, R.B.;TlTJEN, G.L. Simulation probability points of b
2
in small
samples, Biometrika, v.58, p.:669-672, 1971.
_______________.;_____________ Approaches to the null distribution of b
1
,
Biometrica, v.60, p.:169-173, 1973.
DlNlZ, L. de C. Dinmica popuIacionaI do pioIho-de-so jos
Quadraspidiotus perniciosus (Comstock, 1881) (Homoptera:
Diaspididae) em pessegueiro, no municpio de Jacu-Minas Gerais.
Lavras, Universidade Federal de Lavras, 1996. 61p. (tese Ms)
JOHNSON, R.A.; WlCHERN, D.W. AppIied muItivariate statisticaI anaIysis. 4th
edition. Prentice Hall, New Jersey, 1998. 816p.
MARDlA, K.V. Measures of multivariate skewness and kurtosis with applications.
Biometrika, p.519-530, 1970.
MARDlA, K.V. Applications of some measures of multivariate skewness and
kurtosis for testing normality and robustness studies. Sanky. A36,
p.115-128, 1974.
PEARSON, E.S.; HARTLEY, H.O. Biometrika TabIes for Statisticians Vol. 1 ed
ed., Cambridge University Press, New York, 1966