Você está na página 1de 400

MINISTRIO DA EDUCAO E DO DESPORTO

UNIVERSIDADE FEDERAL DE LAVRAS


DEPARTAMENTO DE CINCIAS EXATAS

ANLISE MULTIVARIADA

Daniel Furtado Ferreira

LAVRAS, MG
1996

ii

SUMRIO
1. Aspectos da anlise multivariada

Pg.
1

1.1. Introduo

1.2. Aplicao das tcnicas multivariadas

1.3. Organizao de dados

1.4. Distncias

15

1.5. Exerccios

24

2. lgebra vetorial e matricial

25

2.1. Introduo

25

2.2. Elementos de lgebra vetorial

26

2.3. Elementos de lgebra matricial

34

2.4. Exerccios

82

3. Amostragem multivariada

89

3.1. Introduo

89

3.2. Geometria amostral

90

3.3. Amostras aleatrias e esperanas do vetor de mdia e da


matriz de covarincia amostral.

101

3.4. Varincia generalizada

104

3.5. Varincia generalizada de variveis generalizadas

113

3.6. Outra generalizao da varincia

116

3.7. Exerccios

117

iii

4. Distribuio normal multivariada

119

4.1. Introduo

119

4.2. Pressuposies das anlises multivariadas

120

4.3. Densidade normal multivariada e suas propriedades

121

4.4. Distribuio normal bivariada

125

4.5. Distribuio amostral de X e S




133

4.6. Distribuies amostral derivada da distribuio normal


multivariada

138

4.7. Verificando a normalidade

143

4.8. Exerccios

169

5. Inferncias sobre o vetor mdia

171

5.1. Introduo

171

5.2. Inferncias sobre mdia de uma populao normal

171

5.3. Regio de confiana e comparaes simultneas de


componentes de mdia

177

5.4. Inferncias sobre propores de grandes amostras

190

5.5. Comparaes pareadas

192

5.6. Comparaes de vetores de mdias de duas populaes

199

5.7. Exerccios

215

6. Anlise de varincia multivariada

219

6.1. Introduo

219

6.2. Delineamento de classificao simples

220

iv

6.3. Intervalos de confiana simultneos para o efeito de


tratamentos

230

6.4. Exerccios

232

7. Componentes principais

233

7.1. Introduo

233

7.2. Componentes principais populacionais

234

7.3. Componentes principais amostrais

250

7.4. Grficos dos componentes principais

256

7.5. Inferncias para grandes amostras

259

7.6. Exerccios

282

8. Anlise de agrupamento

285

8.1. Introduo

285

8.2. Medidas de parecena (similaridades e dissimilaridades)

286

8.3. Agrupamentos

296

8.4. Exerccios

308

9. Anlise de fatores

309

9.1. Introduo

309

9.2. Modelo de fatores ortogonais

310

9.3. Estimao de cargas fatoriais

316

9.4. Rotao fatorial

342

9.5. Teste da falta de ajuste do modelo fatorial

346

9.6. Escores fatoriais

349

9.7. Exerccios

354

10. Anlise de correlao cannica

355

10.1. Introduo

355

10.2. Variveis cannicas e correlao cannica populacionais

356

10.3. Variveis e correlaes cannicas amostrais

371

10.4. Inferncias para grandes amostras

380

10.5. Exerccios

386

11. Referencias bibliogrficas

389

Apndices

395

ndice remissivo

397

||[

Aspectos da
anlise multivariada

]||

1.1. Introduo

Nos trabalhos cientficos, o problema de se inferir, a partir de dados


mensurados pelo pesquisador, sobre os processos ou fenmenos fsicos,
biolgicos ou sociais, que no se pode diretamente observar, uma realidade
constante. A pesquisa cientfica se constitui num processo interativo de
aprendizado. Para explicao de um fenmeno, o pesquisador em geral coleta e
analisa dados de acordo com uma hiptese. Por outro lado, a anlise destes
mesmos dados coletados de amostragem ou experimentao geralmente sugere
modificaes da explicao do fenmeno, alm disso, devido complexidade
destes fenmenos, o pesquisador deve coletar observaes de diferentes
variveis. Neste contexto, a inferncia estatstica realizada de acordo com o
paradigma hipottico-dedutivo (Bock, 1975).
Devido aos fenmenos serem estudados a partir de dados coletados
ou mensurados em muitas variveis, os mtodos estatsticos delineados para
obter informaes a partir destes conjuntos de informaes, so denominados de
mtodos de anlises multivariados. A necessidade de compreenso das relaes

1. Aspectos da anlise multivariada

entre as diversas variveis faz com que as anlises multivariadas sejam


complexas ou at mesmo difceis. O objetivo do presente material apresentar a
utilidade das tcnicas multivariada de uma forma clara, usando exemplos
ilustrativos e evitando o mximo de possvel de clculo.
Sendo assim, os objetivos gerais, para os quais a anlise
multivariada conduz so:
a. reduo de dados ou simplificao estrutural: o fenmeno sob estudo
representado da maneira mais simples possvel, sem sacrificar
informaes valiosas e tornando as interpretaes mais simples;

b. ordenao e agrupamento: agrupamento de objetos (tratamentos) ou


variveis similares, baseados em dados amostrais ou experimentais;

c. investigao da dependncia entre variveis: estudos das relaes


estruturais entre variveis muitas vezes de interesse do pesquisador;

d. predio: relaes entre variveis devem ser determinadas para o


propsito de predio de uma ou mais varivel com base na observao
de outras variveis;

e. construo e teste de hipteses.

Os modelos multivariados possuem em geral, um propsito atravs


do qual o pesquisador pode testar ou inferir a respeito de uma hiptese sobre um

Ferreira, D.F. Estatstica multivariada

determinado fenmeno. No entanto a sua utilizao adequada depende do bom


conhecimento das tcnicas e das suas limitaes. A frase utilizada por Marriott
(1974) descreve bem este fato: No h mgica com os mtodos numricos, e que
apesar de serem uma importante ferramenta para anlise e interpretao de
dados, no devem ser utilizados como mquinas automticas de encher lingia,
transformando massas numricas em pacotes de fatos cientficos.

1.2. Aplicao de tcnicas multivariadas

As tcnicas estatsticas constituem se uma parte integral da pesquisa


cientfica e em particular as tcnicas multivariadas tem sido regularmente aplicada
em vrias investigaes cientficas nas reas de biologia, fsica, sociologia e
cincias mdicas. Parece, neste instante, ser apropriado descrever as situaes
em que as tcnicas multivariadas tm um grande valor.

Medicina

Nos estudos onde as reaes de pacientes a um determinado


tratamento so mensuradas em algumas variveis e possuem difcil diagnstico,
as tcnicas multivariadas podem ser usadas para construir uma medida de
resposta simples ao tratamento, na qual preservada a maior parte da informao
da amostra e das mltiplas variveis respostas. Em outras situaes as tcnicas

1. Aspectos da anlise multivariada

multivariadas podem ser usadas tambm quando a classificao de um paciente,


baseada nos sintomas medidos em algumas variveis, difcil de ser realizada.
Neste caso, uma tcnica multivariada de classificao, em que se cria uma funo
que pode ser usada para separar as pessoas doentes das no doentes, pode ser
implementada.

Sociologia

Em alguns estudos o inter-relacionamento e o agrupamento de


indivduos, cidades ou estados em grupos homogneos em relao mobilidade,
nmero de estrangeiros nascidos e de segunda gerao em determinado pas
necessria em alguns estudos sociolgicos. As tcnicas de anlise multivariada,
conhecidas como anlise de agrupamento (Cluster analysis), pode ser empregada
com esta finalidade.

Biologia

No melhoramento de plantas necessrio, aps o final de uma


gerao, selecionar aquelas plantas que sero os genitores da prxima gerao. a
seleo deve ser realizada de maneira que a prxima gerao seja melhorada em
relao resposta mdia de uma srie de caractersticas da gerao anterior. O
objetivo do melhorista consiste em maximizar o ganho gentico em um espao

Ferreira, D.F. Estatstica multivariada

mnimo de tempo. As anlises multivariadas podem ser usadas para converter


uma srie de caractersticas para um ndice, na qual a seleo e escolha dos pais
possam ser feitas.
Em algumas situaes se deseja a separao de algumas espcies,
e as tcnicas multivariadas tm sido utilizadas com esta finalidade. Uma funo
construda e os seus valores so usados para esta separao.

1.3. Organizao de dados

Atravs deste material pretende-se tratar das anlises realizadas em


muitas caractersticas ou variveis. Essas medidas, muitas vezes chamadas de
dados, devem ser organizadas e apresentadas em vrias formas. Por exemplo, a
utilizao de grficos e arranjos tabulares so importantes auxiliares nas anlises
de dados. Por outro lado, nmeros que resumem, ou seja, que descrevem
quantitativamente certas caractersticas, so essenciais para a interpretao de os
dados amostrais ou experimentais.

Arranjos

Os dados multivariados so provenientes de uma pesquisa em


determinada rea em que so selecionadas p 1 variveis ou caractersticas para

1. Aspectos da anlise multivariada

serem mensuradas. As medidas so tomadas em cada unidade da amostra ou do


experimento. A representao destes dados feita com a notao xjk para indicar
um valor particular da j-sima unidade amostral ou experimental e da k-sima
varivel mensurada. Conseqente, estas medidas de p variveis em n unidades
amostrais ou experimentais, podem ser representadas conforme o arranjo
apresentado na Tabela 1.1.

Tabela 1.1. Representao de dados atravs da notao xjk para indicar um valor
particular da k-sima varivel mensurada na j-sima unidade amostral
ou experimental.
Variveis
Unidades amostrais
ou experimentais

2 ...

k ...

X11

X12...

X1k...

X1p

X21

X22...

X2k...

X2p

.
.
.
j

.
.
.
Xj1

.
.
.
Xj2...

.
.
.

.
.
.
Xjp

.
.
.
n

.
.
.
Xn1

.
.
.
Xn2...

Xjk...
.
.
.
Xnk...

.
.
.
Xnp

Ferreira, D.F. Estatstica multivariada

Estes

valores,

apresentados

na

Tabela

1.1,

podem

ser

representados em um arranjo retangular, denominado de X, com n linhas e p


colunas, da seguinte forma:

x11
x
21
#
X =
x j1
#

xn1

x12 " x1k " x1 p


x22 " x2 k " x2 p
#
#
#
#
#

x j 2 " x jk " x jp
#
#
# % #

xn 2 " xnk " xnp

Exemplo 1.1
Uma seleo de 4 firmas de rao de Minas Gerais foi obtida para
avaliar a venda de raes. Cada observao bivariada forneceu a quantidade de
sacos de rao vendidos e a quantidade de reais de cada venda. Os dados
obtidos na forma tabular so:
Varivel 1 (Reais/venda)

80

120

90

110

Varivel 2 (nmero de
sacos de rao vendidos)

10

12

Usando a notao proposta anteriormente, tem-se:

X11=80

X21=120

X31=90

X41=110

E a matriz X dos dados :

X12=10

X22=12

X32=6

X42=8

1. Aspectos da anlise multivariada

80 10
120 12

X =
90 6

110 8

A organizao dos dados em arranjos facilita a exposio e permite


que os clculos sejam efetuados de uma forma ordenada e eficiente. Os ganhos
na eficincia so: (1) descrio dos clculos como operaes com matrizes e
vetores; e (2) sua fcil implementao em computadores.

ESTATSTICAS DESCRITIVAS

Grandes conjuntos de dados possuem um srio obstculo para


qualquer tentativa de extrao de informaes visuais pertinentes aos mesmos.
muitas das informaes contidas nos dados podem ser obtidas por clculo de
certos nmeros, conhecidos como estatsticas descritivas. Por exemplo, a mdia
aritmtica ou mdia amostral, uma estatstica descritiva que fornece informao
de posio, isto , representa um valor central para o conjunto de dados. Como
um outro exemplo, a mdia das distncias ao quadrado de cada dado em relao
mdia, fornece uma medida de disperso, ou variabilidade.
s estatsticas descritivas que mensuram posio, variao e
associao linear so enfatizadas. As descries formais destas medidas esto
apresentadas a seguir.
A mdia amostral, simbolizada por X , dada por:

Ferreira, D.F. Estatstica multivariada

Xk =

1 n
X jk
n j =1

k=1, 2, ..., p

(1.1)

Uma medida de variao fornecida pela varincia amostral,


definida para as n observaes de i-sima varivel por:

Sk2 = Skk =

2
1 n
X jk X k )
(

n 1 j =1

k = 1, 2, ..., p

A raiz quadrada da varincia amostral,

(1.2)

S kk , conhecida como

desvio padro amostral. Esta medida de variao est na mesma unidade de


medida das observaes.
Uma medida de associao entre as observaes de duas variveis,
variveis k e k, dada pela covarincia amostral:

S kk ' =

1 n
( X jk X k )( X jk ' X k ' )
n 1 j =1

k, k=1,2, ..., p

(1.3)

Se grandes valores de uma varivel so observados em conjunto


com grandes valores da outra varivel, e os pequenos valores tambm ocorrem
juntos, Skk ser positiva. Se grandes valores de uma varivel ocorrem com
pequenos valores da outra, Skk ser negativa. Se no h associao entre os

1. Aspectos da anlise multivariada

10

valores das duas variveis, Skk ser aproximadamente zero. Quando k=k, a
covarincia reduz-se a varincia amostral. Alm disso, Skk= Skk, para todo k e k.
A ltima estatstica descritiva a ser considerada aqui o coeficiente
de correlao amostral. Esta medida de associao linear entre duas variveis
no depende da unidade de mensurao. O coeficiente de correlao amostral
para k-sima e k-sima varivel, definido por:

( X jk X k )( X jk ' X k ' )
n

rkk ' =

S kk '
= n j =1
n
2
2
S kk S k ' k '
( X jk X k ) ( X jk ' X k ' )
j =1

(1.4)

j =1

Verifica-se que rkk=rkk para todo k e k. O coeficiente de correlao


amostral a verso estandardizada da covarincia amostral, onde o produto das
razes das varincias das amostras fornece a estandardizao.
O coeficiente de correlao amostral pode ser considerado como
uma covarincia amostral. Suponha que os valores Xjk e Xjk sejam substitudos
pelos valores padronizados,

( X jk X k )
S kk

( X jk ' X k ' )
Sk ' k '

. Esses valores padronizados

so expressos sem escalas de medidas (adimensionais), pois so centrados em


zero e expressos em unidades de desvio padro. O coeficiente de correlao
amostral justamente a covarincia amostral das observaes estandardizadas.
A
propriedades:

correlao

amostral

(r),

em

resumo,

tem

as

seguintes

Ferreira, D.F. Estatstica multivariada

11

1. Os valores de r devem ficar compreendidos entre -1 e 1;

2. Se r = 0, implica em inexistncia de associao linear entre as variveis. Por


outro lado, o sinal de r, indica a direo da associao: se r < 0 h uma
tendncia de um dos valores do par ser maior que sua mdia, quando o outro
for menor do que a sua mdia, e r > 0 indica que quando um valor do par for
grande o outro tambm o ser, alm de ambos valores tender a serem
pequenos juntos;

3. Os valores de rkk no se alteram com a alterao da escala de uma das


variveis.

As estatsticas Skk e rkk, em geral, no necessariamente refletem


todo o conhecimento de associao entre duas variveis. Associaes no
lineares existem, as quais, no podem ser reveladas por estas estatsticas
descritivas. Por outro lado, estas estatsticas so muito sensveis a observaes
discrepantes (outliers).
Alm destas, outras estatsticas como a soma de quadrados de
desvios em relao mdia (Wkk) e a soma de produtos de desvios (Wkk), so
muitas vezes de interesse. Essas esto apresentadas a seguir:

1. Aspectos da anlise multivariada

12
n

( X jk X k )
W kk =
j =1

Wkk ' = ( X jk X k )( X jk ' X k ' )


j =1

As estatsticas descritivas multivariadas calculadas de n observaes


em p variveis podem ser organizadas em arranjos.

Mdias da amostra

X1

X2
X =
 #

X p

Matriz de covarincia amostral

S11

S 21
S =
#
S
p1

S12

"

S22

"

Sp 2

"

S1p

S2 p

#
S pp

Ferreira, D.F. Estatstica multivariada

13

Matriz de correlaes amostral

r21
R =
#
r
p1

r12

"

"

rp 2

"

r1p

r2 p

#
1

Exemplo 1.2
Considerando os dados introduzidos no exemplo 1.1, encontrar as o
vetor de mdias X e as matrizes S e R. Neste exemplo, cada firma de rao,

representa uma das observaes multivariadas, com p = 2 variveis (valor da
venda em reais e nmero de sacos de raes vendidas).
As mdias amostral so:

X1 =

1 4
1
X j1 = (80 + 120 + 90 + 110) = 100

4 j=1
4

X2 =

1 4
1
X j2 = (10 + 12 + 6 + 8) = 9

4 j=1
4

X 100
X = 1 =
 X2 9

A matriz de covarincia amostral :

1. Aspectos da anlise multivariada

14

S11=[(80-100)2+(120-100)2+(90-100)2+(110-100)2]/3 = 333,333

S22=[(10-9)2+(12-9)2+(6-9)2+(8-9)2]/3 = 6,667

S12=[(80-100)(10-9)+(120-100)(12-9)+(90-100) (6-9)+(110-100)(8-9)]/3 = 20,000

S21=S12=20,000, e

333,333
S=
20,000

20,000
6,667

A correlao amostral :

r12 =

20
33,333 6,667

= 0,424 3

r21=r12=0,4243

Portanto,

1, 0000 0, 4243
R=

0, 4243 1, 0000

Ferreira, D.F. Estatstica multivariada

15

1.4. Distncias

A maioria das tcnicas multivariadas baseada no simples conceito


de distncia, por mais formidvel que isso possa parecer. O conceito de distncia
euclidiana deve ser familiar para a maioria dos estudantes. Se for considerado um
ponto P=(x1, x2) no plano cartesiano, a distncia deste ponto P da origem O=(0, 0),
definida por d(O,P), dada pelo teorema de Pitgoras por:

d (O, P ) =

x 12 + x 22

(1.5)

Esta situao ilustrada na Figura 1.1. Em geral, se o ponto P tem p


coordenadas, de tal forma que P=(x1, x2, ... xp), a distncia de P da origem
O=(0, 0, ..., 0), pode ser generalizada por:

d (O, P ) =

x 12 + x 22 +...+ x 2p

(1.6)

1. Aspectos da anlise multivariada

16

X2

d(O, P)

X1

Figura 1.1. Distncia entre um ponto P=(x1, x2) e a origem O=(0, 0), fornecida pelo
teorema de Pitgoras.

Todos os pontos (x1, x2, .., xp) que contm uma distncia ao
quadrado, denominada c2, da origem, satisfaz a equao:

d (O, P ) = x 12 + x 22 +...+ x 2p = c

(1.7)

A expresso em (1.7) representa a equao de uma hiperesfera (um


crculo se p = 2), e os pontos eqidistantes da origem por uma distncia d(O, P)
pertencem a essa hiperesfera. A distncia de um ponto P a um ponto arbitrrio Q,
com coordenadas P=(x1, x2, ... xp) e Q=(y1, y2, ... yp) dada por:

d ( P ,Q ) =

( x 1 y 1) 2 + ( x 2 y 2 ) 2 +...+( x p y p )

(1.8)

Ferreira, D.F. Estatstica multivariada

17

A distncia euclidiana insatisfatria para muitas situaes


estatsticas. Isso ocorre devido contribuio de cada coordenada ter o mesmo
peso para o clculo da distncia. Quando estas coordenadas representam
medidas so provenientes de um processo que sofre flutuaes aleatrias de
diferentes magnitudes muitas vezes desejvel ponderar as coordenadas com
grande variabilidade por menores pesos em relao quelas com baixa
variabilidade. Isto sugere o uso de uma nova medida de distncia.
Ser apresentada a seguir uma distncia que considera as
diferenas de variao e a presena de correlao. Devido a escolha de a
distncia depender das varincias e das covarincias amostrais, a partir deste
instante, ser utilizado o termo distncia estatstica para distinguir de distncia
euclidiana.
A princpio, ser considerada a construo de uma distncia entre
um ponto P, com p coordenadas, da origem. O argumento que pode ser usado
refere-se ao fato de que as coordenadas de P podem variar no espao produzindo
diferentes posies para os pontos. Para ilustrar, suponha que se tenha n pares
de medidas em duas variveis (x1 e x2) e que as medidas de x1 variam
independentemente das mensuraes em x2. O significado de independente neste
ponto pode ser dado pelo fato de que os valores de x1 no podem ser preditos
com nenhuma acurcia a partir dos valores de x2 e vice-versa. Em adio,
assumido que as observaes de x1 possuem maior variabilidade que as de x2.
Uma ilustrao desta situao est apresentada na Figura 1.2.

1. Aspectos da anlise multivariada

18

6
5
4
3
2

X2

-6

-4

-2

0
-1

-2
-3
-4
-5
-6

Figura 1.2. Diagrama de disperso, mostrando a maior variabilidade na direo de


x1 do que na direo de x2.

Observando a Figura 1.2, verifica-se que no surpreendente


encontrar desvios na direo de x1 que se afastem da origem consideravelmente,
o que no ocorre na direo de x2. Parece ser razovel, ento, ponderar x2 com
mais peso do que x1 para um mesmo valor, quando as distncias da origem forem
calculadas.

Ferreira, D.F. Estatstica multivariada

19

Um modo de fazer isso dividir cada coordenada pelo desvio padro


amostral. Aps a diviso, tm-se as coordenadas estandardizadas x 1* = x 1
x *2 = x 2

s 22

s11

. Aps eliminar as diferenas de variabilidade das variveis

(coordenadas), determina-se a distncia usando a frmula euclidiana padro:

* 2

* 2

d (O, P ) = ( x 1 ) + ( x 2 ) =

x 12
S 11

x 22
S 22

(1.9)

Usando a equao (1.9) todos os pontos tendo como coordenadas


(x1, x2) e com distncia quadrada (c2) da origem devem satisfazer:

x 12
S 11

x 22
S 22

=c

(1.10)

A expresso (1.10) a equao de uma elipse, cujos maiores e


menores eixos coincidem com os eixos das coordenadas. A Figura 1.3 mostra o
caso geral para p = 2 coordenadas.

1. Aspectos da anlise multivariada

20

X2

0.5

cS 22

0.5

-cS 11

0.5

cS 11

X1

0.5
-cS 22

Figura 1.3. Elipse de uma distncia estatstica quadrtica d2(O,P)=

x 12
S 11

x 22
S 22

=c

Exemplo 1.3
Um conjunto de pares (x1, x2) de duas variveis forneceu X1 = X 2 = 1 ,
S11=9 e S22=1. Supe-se que as observaes de x1 so independentes de x2. A
distncia quadrtica de um ponto arbitrrio (P) da origem, uma vez que as
varincias da amostra no so iguais, dada por:

d (O, P ) =

x1
9

x2
1

Ferreira, D.F. Estatstica multivariada

21

Todos os pontos (x1, x2) que possuem distncias quadrada da origem igual a 1,
satisfazem a equao:

x1
9

x2
1

(1.11)

=1

As coordenadas de alguns pontos com distncia quadrtica unitria


da origem foram apresentadas na Tabela 1.2.

Tabela 1.2. Coordenadas de alguns pontos com distncia quadrtica unitria da


origem.
Coordenadas (x1, x2)
( 0, 1)
( 0,-1)

Distncia ao quadrado
2

0
9

0
9

+ 11 = 1

+
2

( 3, 0)

3
9

(-3, 0)

( 3 )
9

( 1)
1

+
2

0
1

=1

=1
2

0
1

=1

O grfico da equao (1.11) uma elipse centrada na origem (0,0),


cujo maior eixo o da direo de x1 e o menor da direo de x2. A metade do
maior eixo (semi-eixo maior) c S11 = 3 e do menor c S 22 = 1 . A elipse de distncia
quadrtica unitria foi plotada na Figura 1.4.

1. Aspectos da anlise multivariada

22

x2

4
3
2
1
0
-5

-4

-3

-2

-1

0
-1

x1 5

-2
-3
-4
-5

Figura 1.4. Elipse de distncia unitria quadrtica da origem obtida a partir da


equao 1.11.

A expresso (1.9) pode ser generalizada para o clculo da distncia


entre pontos P e Q, cujas coordenadas variam, mutuamente independentemente
uma da outra. O caso mais geral, em que a hiptese de independncia no
satisfeita, ser abordado futuramente.

d (P ,Q ) =

(x1 y1)
S11

(x 2 y 2 )
S 22

+"+

(x p y p )
S pp

(1.12)

Ferreira, D.F. Estatstica multivariada

23

Todos os pontos (P) situados a uma distncia quadrtica constante


de Q, pertencem a uma hiperelipside centrada em Q, cujos maiores e menores
eixos so paralelos aos eixos das coordenadas.
O programa SAS, apresentado a seguir, contm os cdigos
necessrios para a obteno das principais estatsticas descritivas multivariadas
apresentadas nesse captulo. O programa contm cdigos matriciais e ser
abordado com mais detalhe nos prximos captulos. Os dados do exemplo 1.1 so
utilizados para a ilustrao.

Proc IML;
X={ 80 10,
120 12,
90
6,
110 8};
Print X;
n=nrow(X);p=ncol(X);
Xbar=x`*j(n,1,1)/n;
Print Xbar;
q=i(n)-(1/n)*j(n,n,1);
print q;
S=(1/(n-1))*X`*q*X;
W=(n-1)*S;
print S W;
V=diag(S);
Vroot=half(V);
IVroot=inv(Vroot);
R=Ivroot*S*Ivroot;
Print V Vroot IVroot;
Print R;
Quit;

Foi motivado nesse captulo o estudo das anlises multivariadas e


tentou-se fornecer alguns rudimentares, mas importantes, mtodos de organizar e
resumir os dados. Em adio, o conceito geral de distncia foi apresentado, e ser
abordado e generalizado nos prximos captulos.

1. Aspectos da anlise multivariada

24

1.5. Exerccios

Considere as amostras com 8 observaes e 3 variveis apresentadas a seguir:


x1

x2

11

11

15

16

10

12

x3

14

13

a) Construa o grfico de disperso dos pontos das variveis x1 e x2, x1 e x3, x2 e x3.
Comente sobre sua aparncia.

b) Calcule: X , S e R e interprete os valores em R.

c) Calcule

distncia

euclidiana

dada

em

(1.8)

de

P=( x1, x2, x3)=(5, 12, 8) em relao a origem e em relao a X .

d) Calcule as mesmas distncias do item c, usando (1.12).

um

ponto

||[

lgebra vetorial e matricial

]||

2.1. Introduo

desejvel que as p respostas multivariadas sejam representadas


por uma notao concisa. Os dados multivariados podem ser dispostos
convenientemente como um arranjo de nmeros, como foi apresentado no
captulo 1. Em geral, um arranjo retangular destes nmeros, com n linhas e p
colunas, por exemplo, chamada de matriz de dimenses n x p. Se por outro lado,
o arranjo consiste em n mensuraes em apenas 1 varivel, ou ainda, de uma
observao multivariada em p variveis, esses arranjos so denominados de
vetores.
Com esse arranjo bidimensional, no s, a notao fica mais
concisa, mas os muitos resultados matemticos de lgebra vetorial e matricial
facilitam a derivao e exposio dos mtodos estatsticos multivariados. Neste
material, os elementos de lgebra vetorial e matricial, sero considerados como
conhecidos. Nesse captulo, no entanto, para os estudantes no familiarizados
com o assunto, ser apresentada uma breve reviso.

2. lgebra vetorial e matricial

26

2.2. Elementos de lgebra vetorial

De um ponto de vista geomtrico, as observaes multivariadas,


podem ser consideradas como pontos no espao p-dimensional, cujas
coordenadas so dadas por (x1, x2, ..., xp). Esse ponto pode ser visto como o final
de um segmento de reta da origem (0, 0, ..., 0) ao ponto (x1, x2, ..., xp). Tal
segmento de reta denominado de vetor de posio e pode ser denotado
simplesmente por X . O vetor de posies apenas um exemplo de vetor, para os
quais pode ser elaborada a lgebra, baseada nos seguintes postulados.

POSTULADOS

1. Para qualquer vetor X dado um nmero escalar c, a multiplicao do escalar


pelo vetor, resulta em outro vetor Y , definido por:

Y = cX

c ser considerado um nmero real;

2. A adio de dois vetores conduz a um nico vetor definido como:

Ferreira, D.F.

Estatstica multivariada

27

Z = X + Y

3. A adio de vetores :

Comutativa: X + Y = Y + X

Associativa: X + ( Y + Z ) = ( X + Y ) + Z

4. Se 0 o vetor nulo, ento:

X + 0 = X
0 .X = 0

COMPRIMENTO, NGULO E DISTNCIA


Inicialmente, definido produto interno entre dois vetores, que
representa a soma de produtos de pares de coordenadas correspondentes. Para
dois vetores (n x 1) de posio X e Y , o produto interno ser o escalar, dado por:

X.Y = x i yi = x1 y1 + x 2 y 2 +
i =1

+ x n yn

2. lgebra vetorial e matricial

28

fcil verificar que X.Y = Y.X . Por meio, do produto interno


possvel generalizar o teorema de Pitgoras para o espao euclidiano
n-dimensional:

X = X.X = x i2 = x12 + x 22 +
2

i =1

+ x 2n = d 2 (P, O)

(2.1)

em que P, o ponto do espao n-dimensional, definido pelas coordenadas do


vetor

X . A expresso (2.1) o comprimento ao quadrado do vetor X . A

expresso entre mdulo | X | indica a norma de X .


Dessa forma o comprimento do vetor definido por:

X = X.X

(2.2)

O ngulo entre dois vetores ( X e Y ) pode ser expresso em funo


do produto interno e do comprimento dos vetores, obtido atravs da lei dos
cosenos, por:

Cos ( ) =

X.Y
X.X Y.Y

(2.3)

As distncias apresentadas no captulo 1, entre os pontos


coordenados dos vetores X

e Y , podem ser expressos agora como o

Ferreira, D.F.

Estatstica multivariada

29

comprimento do vetor diferena das coordenadas de X e Y . A distncia entre X


e Y :

d(X, Y) = X Y = (X Y).(X Y)

(2.4)

Alm de ser no negativa, essa distncia entre os dois vetores


independente da direo das medidas e satisfaz a desigualdade triangular:

d( X , Y ) d( X , Z ) + d( Y , Z )

(2.5)

Derivada a partir da desigualdade de Cauchy-Schwars:

a.b a . b

(2.6)

O que implica, no fato, que o valor do co-seno do ngulo entre a e b


no pode exceder a unidade.

ORTOGONALIDADE

Dois vetores no nulos so denominados ortogonais, se o co-seno


do ngulo entre eles for zero. Isto indica que:

2. lgebra vetorial e matricial

30

X.Y = 0

(2.7)

Muitas vezes desejvel (em sistemas de equaes lineares)


construir uma base ortonormal de vetores, isto , cada vetor da base possui
comprimento unitrio

( X .X
i

( Xi .Xi = 1)

e cada par de vetor da base so ortogonais

= 0, i j) . Para um conjunto de vetores arbitrrios pode-se empregar a

construo de Gram-Schimidt. O algoritmo est apresentado a seguir,


considerando o conjunto X1 , X 2 , ..., X n de vetores:

Passo 1: normalize X1 :
X1 =

X1
X1.X1

X1 .X1 0

Passo 2: Ortonormalize X 2 calculando o produto interno entre X1* e X 2 , e


subtraindo de X 2 os componentes de X1* :

Ortogonalizando X1 e X 2 :

X 2 = X 2 ( X 2 .X1* ) X1*

Ento, normalizando-se X 2 :

Ferreira, D.F.

Estatstica multivariada

X*2 =

31

X .X

X 2 ; X 2 .X 2 0

Passo 3: Calcule o produto interno de X 3 com X1* e X*2 , e subtraia de X 3 os


componentes de X1* e X*2 ,

X 3 = X 3 ( X 3 .X1* ) X1* ( X 3 .X*2 ) X*2

Ento, normalizando-se X 3 :

X*3 =

X .X

X 3 ; X 3 .X 3 0

E assim por diante, at o n-simo estgio, quando todos os vetores


entrarem na construo. Se o i-simo vetor for linearmente dependente dos
vetores anteriores, ento X i ser igual ao vetor nulo, X i = 0 , devendo ser
eliminado do conjunto e o processo deve continuar com o vetor X i +1 . O nmero de
vetores no nulos remanescentes no conjunto, constituem a dimenso do espao
vetorial original.

2. lgebra vetorial e matricial

32

Exemplo 2.1
Dado o conjunto de vetores, a seguir, utilizar como ilustrao a construo de
Gram-Schimidt.

1
1
X=
1

1
1
0
0

0
0
1

Os vetores de X so dados por:

X = [ X1 X 2 X 3 ]

Passo 1. Normalize X1 :

1 1
X1* =
2 1

Passo 2: Ortonormalize X 2 :

Produto interno: X 2 . X1* = 1

Ferreira, D.F.

Estatstica multivariada

33

1
1
1
1
1

1 1 1

ortogonalizao: X 2 =
1.
=
0
2 1 2 1


0
1
1

1
1
1

1 1
1 1
Normalizao: X*2 = . =
1 2 1 2 1


1
1

Passo 3: Ortonormalizao de X 3

Produto interno: X 3 .X1* = 1 e X 3 .X*2 = 1

0
1
1 0 12 + 12 0

0


1 1
1 1 0 12 + 12 0

1.
(1).
=
=
ortogonalizao: X 3 =
1
2 1
2 1 1 12 12 0

1 1
1
1
1 1 2 2 0

Verifica-se neste passo que X 3 linearmente dependente dos


vetores X1 e X 2 , e deve ser eliminado da base vetorial. fcil verificar que
X 3 = X1 X 2 . Agrupando os vetores linearmente independentes ortonormalizados

obtm-se a base vetorial de Gram-Schimidt.

2. lgebra vetorial e matricial

34

12
1
X 2 = 12
2
1
2

12

12
1
2
1
2

Pode ser observar facilmente que o produto interno dos vetores em


X2, igual a zero.
Um importante tipo de matriz inversa, denominado de inversa de MoorePenrose, obtido de uma base ortonormal das colunas de uma matriz para a qual
se deseja obter a inversa generalizada de Moore-Penrose. Seja A uma matriz de
dimenso qualquer nxp e seja U a base ortonormal de vetores obtida da
ortonormalizao das colunas de A, ento, defini-se T por:

T=UA

Logo, a inversa generalizada de Moore-Penrose (A+) definida por:

A+ = T(TT)-1U.

2.3. Elementos de lgebra matricial

Na lgebra matricial as relaes e operaes so definidas atravs


de operaes em arranjos retangulares dos elementos, denominados de matrizes.
Um exemplo de matriz :

Ferreira, D.F.

Estatstica multivariada

35

a 11

a
= 21
A
n x p

a n1

a
a
a

12
22

n2

a
a

2p

a np
1p

O nmero de linhas de uma matriz denominado de ordem de linha


e o nmero de colunas, ordem de colunas. Se o nmero de linhas n e o nmero
de colunas p, diz-se que a matriz possui ordem nxp. Pode-se representar a
matriz por:

A=[aij]

i=1, 2,..., n

j=1, 2, ..., p

(2.8)

Nas anlises multivariadas, muitas vezes, ser feito referncias a


matriz de dados, a qual consiste de p respostas de n observaes ou unidades
experimentais, e ter ordem nxp.

POSTULADOS

1. Igualdade: Duas matrizes necessariamente com o mesmo nmero de linhas e


colunas so iguais, se e somente se os elementos correspondentes, forem
iguais:

A=B

aij=bij

i=1, 2, ..., n e j=1, 2, ..., p

2. lgebra vetorial e matricial

36

2. Adio: A soma de duas matrizes de mesma ordem obtida pela soma dos
elementos correspondentes:

A+B = [ aij] + [bij] = [aij + bij]

A adio com matriz nula 0, contendo elementos iguais a zero :

nAp + n0p

= nAp

3. Multiplicao por escalar: o produto de um escalar e uma matriz obtido pela


multiplicao de cada elemento da matriz pelo nmero escalar:

cA = c[ aij] = [ caij]

4. Multiplicao de matriz: a multiplicao de matrizes definida para aquelas em


que a ordem coluna do fator que pr multiplica igual a ordem linha do fator
que ps multiplica. Tais matrizes so denominadas conformveis para
multiplicao. O elemento (i, k) da matriz resultante do produto a soma dos
produtos dos elementos correspondentes, da i-sima linha do fator que pr
multiplica com os da k-sima coluna do fator que ps multiplica.

A
B
=
AB
=
n q q p
a ij b jk = [ai1b1k + ai2b2k + ... + aiqbqk] = [cik] = C
j=1

Ferreira, D.F.

Estatstica multivariada

37

Em geral AB BA.

A matriz quadrada com unidades na diagonal e zero nas demais


partes denominada de matriz unitria ou identidade:

1 0
0 1
=

0 0

0
0

Verifica-se que:

nAp pp

= nAp

nn nAp

= nAp

A matriz quadrada cujos elementos fora da diagonal principal so


iguais a zero denominada matriz diagonal:

d1 0
0 d
2
D = diag[d1, d2, ..., dn] =

0 0

0
0

d n

2. lgebra vetorial e matricial

38

A pr-multiplicao por uma matriz diagonal, simplesmente re-escala


as linhas do fator que ps multiplica, e a ps-multiplicao re-escala as colunas do
pr-fator.

5. Inverso de matriz: a inversa de uma matriz quadrada A, nxn, chamada de A-1


e definida de tal forma que A A-1 = A-1 A = .

A inversa de um produto de matrizes o produto do inverso dos fatores em


ordem inversa a ordem de multiplicao original:

(AB)-1 = B-1A-1

Pois, B-1A-1AB = B-1B = e AB B-1A-1 = AA-1 =

6. Matriz transposta: uma matriz obtida pela troca de linhas por colunas a partir de
uma matriz especfica denominada de matriz transposta. denotada por A.

nAP

= [aij], ento, pAn = [aij] = [aji]

(A + B) = A + B

(AB) = BA

Ferreira, D.F.

Estatstica multivariada

39

(A-1) = (A)-1

7. Matrizes particionadas: deixe as r linhas de uma matriz A (mxn) ser particionada


das restantes s=m-r linhas, e as p colunas particionadas das remanescentes
q = n - p colunas. Ento, A pode ser representada por submatrizes, como a
seguir:

A12 r
A
A = 11

A 21 A 22 s
p
q

Seja B uma matriz particionada de forma similar e sejam A e B tais


que suas parties sejam conformveis para adio, logo,

A + B11
A + B = 11
A 21 + B21
p

A12 + B12 r
A 22 + B22 s
q

Suponha agora que B seja particionada em p e q linhas e em t e u


colunas. Ento, possvel verificar que:

2. lgebra vetorial e matricial

40

r A
AB = 11
s A 21
p

A12 B11
A 22 B21
q
t

A B + A12 B21
= 11 11
A 21B11 + A 22 B21
t

B12 p
B22 q
u
A11B12 + A12 B22 r
A 21B12 + A 22 B22 s
u

Ainda possvel verificar que:

1
1
p A B
p A 1 + A 1B ( D CA 1B ) CA 1
=
1
q C D
q
( D CA 1B ) CA 1
p q
p

1
A 1B ( D CA 1B )

( D CA 1B )1
q

Mtodo prtico para clculo de matrizes inversas

As rotinas para computadores usualmente fazem uso da verso


compacta do mtodo de Gauss, denominado de mtodo de Gauss-Jordan
(Householder, 1953, 1964).
Os clculos do mtodo de Gauss-Jordan so recursivos, sendo que
os elementos da matriz no estgio i+1 so trocados pelos resultados da chamada
operao pivotante dos elementos do estgio i, por:

( i +1)
k

(i)
k

=a

a (kji ) a (ji )
a (jji )

ke

Ferreira, D.F.

( i +1)
j

( i +1)
kj

a (ji )

41

a (jji )

a (jji +1) =

Estatstica multivariada

a (kji )
a (jji )

kj

1
a (jji )

O elemento a (jji ) chamado de piv, e sua linha e coluna so


chamados de linha e coluna pivotais. Aps n operaes pivotantes, a matriz
original substituda pela sua inversa, garantindo-se que cada linha e coluna seja
pivotada somente uma vez.

Exemplo 2.2
Use o algoritmo de Gauss-jordan para inverter a matriz A (2x2) a seguir:

4 2
A(0) =

2 2

Passo 1. Um bom compromisso com a preciso pivotar a linha e coluna cujo


elemento da diagonal seja o maior de todos os no pivotados. Assim o

2. lgebra vetorial e matricial

42

elemento escolhido para piv o elemento a11=4. A matriz aps a


primeira ao pivotante :

A (1) = 4
2
4

2
1
1
4 = 4 2

2 2 21 1
2
4

Passo 2. Neste passo, a nica coluna ou linha no pivotada a 2. Portanto o piv


a22=1, e a matriz resultante da operao pivotante :

( 2)

1 12 ( 12 )
= 4 1 1
2
1

12
1
1
1

1
= 21
2

12 1 1 1
=
1 2 1 2

Ao final da operao pivotante, a matriz resultante, A(2), a matriz


inversa de A.

Matrizes ortogonais

Classes especiais de matrizes, que sero utilizadas rotineiramente


nas tcnicas multivariadas, so denominadas de matrizes ortogonais, sendo
simbolizadas em geral por Q e caracterizada por:

Ferreira, D.F.

Estatstica multivariada

43

QtQ = QQt = ou Qt = Q-1

O nome deriva da propriedade de que se Q tem i-sima linha q it ,


ento, se QQt = implica que q it q i = 1 e q it q j = 0 para ij, sendo que as linhas
possuem tamanho unitrio e so mutuamente ortogonais (perpendiculares). De
acordo com a condio de que QtQ = , as colunas tm a mesma propriedade.

Exemplo 2.3
Dado a matriz Q, a seguir, verifique sua ortogonalidade:

12
Q= 1
2

2
1
2

A transposta de Q dada por:

Q =

1
2
1
2

1
2
1
2

ento,

12
QQ = 1
2
t

1
2

1
2

1
2
1
2

1
2
1
2

1 2 0 1 0
=
=

2 0 2 0 1

2. lgebra vetorial e matricial

44

e,

QQ=

1
2
1
2

1
2
1
2

12
1
2

1 2 0 1 0
=

= 0 1
1
0
2
2

2
1
2

sendo, QtQ = QQt = ou Qt = Q-1, verificou-se que Q ortogonal.

Determinantes

Uma funo escalar importante de uma matriz A quadrada nxn, o


determinante da mesma. O determinante da matriz A simbolizado por |A| e
definido por:

A = a11
n

A = a ij A ij ( 1)

se n = 1
i+ j

se n > 1

(2.9)

j=1

em que Aij a matriz quadrada (n-1)x(n-1) obtida deletando-se a i-sima linha e a


j-sima coluna de A, para qualquer escolha arbitrria de i=1, 2, ..., n.

Exemplo 2.4
Para ilustrar a definio (2.9), sero consideradas as seguintes matrizes:

Ferreira, D.F.

Estatstica multivariada

A = [4]

45

4 2 2
C = 2 2 0
2 0 2

4 1
B=

1 2

A = 4;
B = 4 2 (1) 2 + 1 1 (1)3 = 4.2.1 1 1 1 = 7 ;

C = 4

2 0
0 2

(1) 2 + 2

2 0
2 2

(1)3 + 2

2 2
2 0

(1) 4

= 4 [2 2 (1) 2 + 0 0 (1)3 ] (1) 2 + 2 [2 2 (1) 2 + 0 2 (1)3 ] (1)3 +


+ 2 [2 0 (1) 2 + 2 2 (1)3 ] (1) 4 = 16 8 8 = 0
C =0

Propriedades dos determinantes

1. A t = A ;

2. Se uma linha ou coluna de A for multiplicada por uma constante k, o


determinante ficar multiplicado pela constante;

3. Se A multiplicada por uma constante k, o determinante resultante ficar


multiplicado por kn;

2. lgebra vetorial e matricial

46

kA = k n A

4. Se duas linhas ou duas colunas so trocadas de posio, ento o determinante


muda de sinal;

5. Se duas linhas ou duas colunas so proporcionais, ento o determinante de A


ser igual a zero;

6. O determinante obtido deletando a i-sima linha e j-sima coluna de A


denominado menor de A, e denotado por |Aij|. A relao entre |A| e |Aij| foi
apresentada na definio de determinante (2.9);

7. A 1 =

1
1
=A ;
A

8. |AB| = |A||B|.

Determinante e posto (rank)

Se |A|0, ento, A denominada de posto completo, ou como mais


comum dizer, A no-singular e A-1 existe. Uma condio necessria e suficiente
para a existncia da inversa de A que |A|0.

Ferreira, D.F.

Estatstica multivariada

47

Teorema da multiplicao

Seja a matriz A de ordem 2n x 2n, particionada em sub-matrizes


n x n dadas por:

B C n
A=

D E n
n n

Supe-se que o determinante de A no nulo, e se necessrio for,


linhas e colunas correspondentes de A devem ser trocadas para assegurar que B
seja no-singular. Como o nmero de trocas de linhas e colunas
necessariamente par, o valor de |A| no se altera. Considere matrizes
elementares, com determinante 1, dadas por:

0 B1C

DB1 e

Se A for pr e ps-multiplicada, respectivamente, por essas matrizes


o resultado :

2. lgebra vetorial e matricial

48


DB1

0 B C B1C

D E 0

C
0
B
B1C B

1
1
0 E DB C
0 DB C + E 0

Ento, A foi reduzida para sua forma quase-diagonal ou bloco


diagonal. Seja uma matriz V (2n x 2n) particionada da seguinte forma:

V
V= 1
0
n

0 n
V2 n
n

ento, o determinante de v dado por:

V = V1 V2

Aplicando essa regra a A transformada pela pr e ps-multiplicao por


matrizes elementares, cujo determinante igual a 1, o que no altera o valor de
|A|, tem-se:

A =

B
0

0
1

E DB C

= B E DB1C

Observe que se A for quasi-triangular, ou seja, triangular por blocos,


o determinante o produto dos determinantes de suas sub-matrizes principais:

Ferreira, D.F.

Estatstica multivariada

49

B C
0

=B E

Agora possvel apresentar e provar o teorema da multiplicao. Se


A e B so matrizes quadradas n x n, ento, |AB|=|A|.|B|. Considere para isso a
identidade:

I A A 0 0 AB
0 I I B = I B

O produto do lado esquerdo da igualdade envolve operaes


elementares que no afeta o determinante. Assim, o determinante de ambos os
lados igualado e o resultado obtido :

I B

AB

Colocando o lado direito na forma quasi-triangular por meio de trocas


nas ltimas n colunas o resultado obtido dado por:

I B

= ( 1)n

AB

2. lgebra vetorial e matricial

50

Usando o resultado do determinante de uma matriz triangular por


blocos, tm-se:

n
A B = ( 1) AB I
n
n
A B = ( 1) ( 1) AB
2n
A B = ( 1) AB

AB = A B

Infelizmente, no h teorema simples para a soma de matrizes.


Decorre desse teorema que:

A 1A = I
A 1 A = 1
1
= A 1
A 1 =
A

Derivadas de vetores e matrizes

As derivadas de funes envolvendo vetores e matrizes so


necessrias em inmeras aplicaes na multivariada e em outras reas. Apesar
de ser possvel escrever essas mesmas funes em uma forma expandida e
tomar as derivadas elemento a elemento pelas regras de diferenciao escalar,
vantajoso definir regras que retenham vetores e matrizes na notao (Bock, 1975).

Ferreira, D.F.

Estatstica multivariada

51

A seguir so apresentadas as principais regras de diferenciao vetorial e


matricial.

Derivadas de matrizes de funes em relao


a variveis escalares
Seja A uma matriz m x n cujos elementos so funes diferenciveis
com relao a uma varivel escalar x. A derivada de A em relao a x uma
matriz m x n:

a11
x
A
=
x
a
m1
x

a1n
x

a mn

(2.10)

Seja A uma matriz m x n de funes diferenciveis em x e B outra


matriz p x q cujos elementos, tambm, so diferenciveis em x. Para cada caso
abaixo, so adotadas dimenses tais que as operaes matriciais sejam
conformveis.

( A + B ) A B
=
+
;
x
x x

( AB )
B A
=A
+
B;
x
x x

m = p, n = q

(2.11)

n=p

(2.12)

2. lgebra vetorial e matricial

( A 1 )
A 1
A ;
= A 1
x
x

52

m = n, A 0

(2.13)

Seja X uma matriz m x n com o elemento xij na i-sima linha e


j-sima coluna, ento,

X
= 1ij
x ij

(2.14)

em que 1ij uma matriz m x n com 1 na i-sima linha e j-sima coluna e 0 nas
demais posies. Se X for uma matriz diagonal n x n, logo,

X
= 1ii
x ii

(2.15)

Derivadas de uma funo escalar de matrizes em


relao a um vetor ou matriz varivel
Seja g uma funo escalar qualquer de uma matriz X, que pode ser por
exemplo o determinante, o trao, entre outras, ento, a diferenciao de g em
relao a X :

Ferreira, D.F.

Estatstica multivariada

g
g

x
x1n
11
g
=
X
g
g
x
x mn
m1

53

(2.16)

a) o trao

O trao de uma matriz n x n uma funo que aparece com muita


freqncia na estatstica multivariada, o qual a soma dos elementos da diagonal
principal dessa matriz:

tr ( A ) = a ii

(2.17)

i =1

Para as matrizes A, B e C de ordem m x n, p x q e r x s,


respectivamente, o trao tem as seguintes propriedades:

tr ( A + B ) = tr ( A ) + tr ( B ) ,

tr ( A ) = tr ( A ) ,

tr ( A t ) = tr ( A ) ,

tr ( AB ) = tr ( BA ) ,

m=n=p=q

m=n

m=n

m = q, n = p

(2.18)

(2.19)

(2.20)

(2.21)

2. lgebra vetorial e matricial

54

tr ( ABC ) = tr [ (AB)C] = tr ( CAB ) ,

m = s, n = p, q = r

(2.22)

Seja C uma matriz r x s de constantes e X uma matriz u x v de


variveis. As seguintes diretivas de derivao do trao de funes de C e X com
relao aos elementos de X, resultam em matrizes de dimenso u x v:

tr ( C )
= 0,
X

r=s

(2.23)

tr ( X )
= I,
X

r =s

(2.24)

tr ( XC )
= Ct ,
X

r = v, s = u

tr ( X t CX )
= ( C + C t ) X,
X

r=v=s=u

(2.25)

(2.26)

Essas diretivas de derivao so invariantes as permutaes cclicas


sofridas por transposio ou permutao dos fatores de multiplicao de matrizes.
no entanto, as derivadas com relao a transposta de X resultam em transpostas
das matrizes anteriores de ordem v x u. Em particular:

Ferreira, D.F.

Estatstica multivariada

tr ( XC )
= Ct ,
X t

r = v, s = u

tr ( X t CX )
= X t ( Ct + C ) ,
t
X

r=v=s=u

55

(2.27)

(2.28)

Para obter derivadas de funes elementares das matrizes algumas


diretivas tambm so definidas. Sejam os elementos de A e B funes de X, e
seja C uma matriz de constantes. Ento,

tr ( A + B ) tr ( A ) tr ( B )
=
+
, m=n=p=q
X
X
X

(2.29)

tr ( AB ) tr ( AB ) tr ( AB )
=
+
, m = q, n = p
X
X
X

(2.30)

tr ( A 1 )
tr ( A 2 A )
, m = n, A 0
=
X
X

(2.31)

tr ( A 1C )
tr ( A 1CA 1A )
=
, m = n = r = s, A 0
X
X

(2.32)

A barra acima das matrizes anteriores em (2.29) a (2.32) indica que


essas so consideradas constantes para fins de diferenciao.

2. lgebra vetorial e matricial

56

b) determinante

X
t
= adj ( X t ) = X ( X 1 ) ,
X

u = v, X 0

(2.33)

ln X adj ( X t )
t
=
= ( X 1 ) ,
X
X

u = v, X 0

(2.34)

Restries da varivel de diferenciao


Alguns problemas esto sujeitos a maximizao ou minimizao com
relao a uma varivel que por sua vez est sujeita a restries. Os casos
especiais so queles em que X simtrica. Logo X=Xt e os elementos fora da
diagonal so sujeitos a:

xij = xji

i<j

(2.35)

Uma abordagem apropriada para o problema impor restries por


meio de multiplicadores de Lagrange. Para aplicar esse mtodo, deve-se
diferenciar com relao a x no restrita a expresso da forma:

1
g + tr [ U ( X X t )]
2

Ferreira, D.F.

Estatstica multivariada

57

em que g uma funo escalar de X, U a n x n matriz de multiplicadores de


Lagrange. Logo, X deve satisfazer:

g 1
+ ( U Ut ) = 0
X 2

(2.36)

Como tambm

t
g 1 t
g 1 t

+ (U U) =
(U U) = 0
X 2
X 2

(2.37)

Somando essas expresses obtm-se a condio para o extremo


restrito:

g g

+
=0
X X

(2.38)

Outro caso importante de matriz X restrita : se X uma matriz


diagonal n x n e Y uma matriz funo de X, ento,

tr(Y)
tr(Y)
= Diag
X
x11

tr(Y)
x 22

E se X = x , ento,

tr(Y)
x nn

(2.39)

2. lgebra vetorial e matricial

58

tr(Y) tr(Y)
=
X
x

(2.40)

Regra da cadeia para funes escalares de matrizes


Seja g uma funo escalar de A diferencivel com relao aos
elementos de A, e deixe os elementos de A ser funo diferencivel de x. Ento,

g
g A t
= tr

x
A x

(2.41)

Por exemplo, para |A|0, g=ln|A| de (2.34) tem-se:

g ln A
ln A A t
=
= tr
x
x
A x

1 t A t
tr
=

( A ) x

(2.42)

derivada de uma funo de um vetor com


relao a um vetor
Seja um vetor z m x 1, cujos elementos so diferenciveis pelos
elementos 1 x n do vetor x t = [ x1
a matriz m x n:

x2

x n ] . A derivada de Z em relao a x t

Ferreira, D.F.

Estatstica multivariada

59

z z i = 1, 2, ..., m
=

x t x j ij j = 1, 2, ..., n

(2.43)

Por exemplo, de (2.26) tem-se a primeira derivada de x t Ax , sendo A


simtrica,

t
x t Ax tr ( x Ax )
=
= 2Ax
x
x

(2.44)

De (2.43), a segunda derivada representada em forma matricial


por:

t
x t Ax ( x Ax x ) 2Ax
=
=
= 2A
x t x
x t
x t

(2.45)

Formas quadrticas

Definindo A como uma matriz simtrica no nula (nxn), e o vetor

x t = [X1

X2

X n ] a expresso:

n 1

i =1

i =1

Q = x t A x = a ii X i2 + 2

a XX

j= i +1

ij

2. lgebra vetorial e matricial

60

dita forma quadrtica, pois s contm termos quadrados

( x i2 )

e de produtos

( xix j ) .

Exemplo 2.5
Obtenha a expanso da forma quadrtica, dado o vetor x e a matriz A, a seguir:

x = [ x1

Q = [ x1

x2 ]

4 1
A=

1 2

4 1 x1
x2 ]
= [ 4x1 + x 2
1 2 x 2

x
x1 + 2x 2 ] 1
x2

Q = 4x12 + 2x1 x 2 + 2x 22

Assumindo, para o momento, que p elementos x1, x2, ..., xp, de um


vetor x so realizaes de p variveis aleatrias X1, X2, ..., Xp pode-se
consider-los como coordenadas de um ponto no espao p-dimensional. A
distncia desse ponto [x1

x2

x p ] da origem pode e deve, nesse caso, ser

interpretada em termos de unidades de desvio padro. Desse modo, pode-se


considerar a incerteza inerente (variabilidade) s observaes. Pontos com a
mesma incerteza associada so considerados de mesma distncia da origem.
Introduzindo agora uma frmula geral de distncia mais apropriada tm-se:

Ferreira, D.F.

Estatstica multivariada

n 1

61

d ( 0,P ) = a ii x + 2 a ijx i x j
2

i =1

2
i

(2.46)

i =1 j=i +1

e garantindo que d2 > 0 para todo ponto P0, e fazendo aij=aji, tm-se:

0 < d 2 = x t Ax = x 1

a 11

a 21
x p

a p1

a
a
a

12
22

p2

a
a

2p

a pp
1p

x
1


x p

(2.47)

Verifica-se que (2.47) uma forma quadrtica, o que permite que a


interprete como uma distncia. A determinao, dos coeficientes da matriz A de
(2.47) ser apresentada oportunamente.

Classificao de formas quadrticas

As formas quadrticas podem ser classificadas, quanto aos


resultados que produzem. Nesta seo, o interesse residir nas formas
quadrticas no negativas e nas matrizes associadas (denominadas positivas
definidas). Uma condio necessria e suficiente para que A seja positiva definida
(pd) que esta possa ser fatorada por:

2. lgebra vetorial e matricial

62

A n = n Sn n Snt

e que o posto de S seja n, em que S uma matriz triangular, denominada fator de


Cholesky de A (Bock, 1975). Portanto, se uma matriz admite o fator de Cholesky,
ela positiva definida.

Q = x t Ax = x t (SSt )x = (St x) t (St x) = z t z


= Z12 + Z22 +

+ Z2n

Devido a S ter posto coluna completo, no existe x no nulo, tal que


z = St x = 0 . Portanto, a forma quadrtica Q sempre positiva, como foi afirmado.

Se por outro lado, o posto de S for rn, ento o posto de A ser r, e a forma
quadrtica Q = x ' Ax 0, denominada positiva semidefinida (psd). Isso se deve
ao fato de que para algum vetor x 0, a igualdade Q = 0, acontece. O algoritmo
para obteno do fator de Cholesky de uma matriz pd, est apresentado a seguir.

Algoritmo para obteno do fator de Cholesky


de uma matriz positiva definida

1. Dada uma matriz A (nxn), com elementos aij.

Ferreira, D.F.

Estatstica multivariada

63

2. Obteno da transposta do fator de Cholesky St, dada pelo algoritmo abaixo,


sendo que os elementos desta matriz no contemplados pelo mtodo devem
ser considerados iguais a zero:

1a linha:

S11 = a11

S1j =

a1j

j >1

S11

i-sima linha:

i 1

2
Sii = a ii Sri
r =1

Sij =

i 1
1

ij

S
riSrj
Sii
r =1

i2

j>i

3. A obteno de S-1, inversa de S, com elementos Sij, dada por:

Sii =

1
Sii

para i < j

Sij =

1
Sii

i 1

S S
r =1

ri

rj

i> j

Sij = 0

4. A obteno da A-1, inversa de A, com elementos aij, em que aij=aji, dada por:

2. lgebra vetorial e matricial

64
n

a ii = ( Sri )

a ij = SriSrj

r =i

i> j

r =i

Exemplo 2.6
Obtenha o fator de Cholesky (S), sua inversa (S-1) e a matriz inversa (A-1), a partir
da matriz A, apresentada a seguir:

4 2 0
A = 2 2 1
0 1 2

Obteno de St:

Primeira linha:

S11 = 4 = 2; S12 =

2
0
= 1; S13 = = 0
2
2

Segunda linha:

S22 = 2 12 = 1
2

Terceira linha:

S23 =

1
[1 1 0] = 1
1

Ferreira, D.F.

Estatstica multivariada

65

S33 = 2 ( 02 + 12 ) = 1
1

Logo,

2 1 0
S = 0 1 1
0 0 1
t

2 0 0
S = 1 1 0
0 1 1

A matriz S-1 obtida por:

Linha 1:

1
S11 = ;
2

S12 = S13 = 0 i < j

Linha 2:

1
S22 = = 1;
1

1
1
S21 = 1 1 = ;
2
2

S12 = 0 pois i < j

linha 3:

1
S33 = = 1;
1

1
1 1
S31 = 1 0 + 1 =
2 2
2

S32 = 1 (1 1) = 1

2. lgebra vetorial e matricial

66

logo,

0 0
2

1
S1 =
1 0
2

1 1

A matriz A-1 obtida por:

Diagonal principal:

3
1 1 1
a = + + =
4
2 2 2
11

a 22 = 12 + ( 1) = 2
2

a 33 = 12 = 1

Demais elementos:

1
1
a 21 = 1 + (1) = 1;
2
2
1 1
a 31 = 1 = ; a 32 = 1 (1) = 1;
2 2
1
a12 = a 21 = 1; a13 = a 31 = ; a 23 = a 32 = 1
2

Ferreira, D.F.

Estatstica multivariada

67

Logo,

34 1 12
A 1 = 1 2 1
12 1 1

O fator de Cholesky S e sua inversa tm as seguintes propriedades:

1. SSt = A

2. S-1S = St(S-1) t =

3. S-1A = S t

4. A(S-1) t = S

5. (S-1)A(S-1) t =

6. (S-1) t (S-1) = A-1

2. lgebra vetorial e matricial

68

Maximizao de formas quadrticas

Na estatstica multivariada e em outras reas aplicadas, muitas


vezes necessria a maximizao de uma forma quadrtica. Devido forma
quadrtica Q = x t Ax poder ser feita arbitrariamente grande tomando-se os valores
dos elementos de x grandes, necessrio maximizar Q condicionada a alguma
restrio no comprimento de x . Uma conveniente alternativa tomar uma soluo
normalizada de x , ou seja, uma soluo tal que x tenha comprimento unitrio.
Ento a maximizao da forma quadrtica Q pode ser transformada na
maximizao da razo:

x t Ax
xtx

para toda matriz A simtrica real. Para a maximizao deve-se tomar a derivada
em relao a x e igualar a zero, resolvendo o sistema obtido, como demonstrado
a seguir.

Q x t Ax
=
= 2Ax
x
x

usando a regra do quociente:

x t x
= 2x
x

Ferreira, D.F.

Estatstica multivariada

69

2
x t Ax
2Ax(x t x) 2(x t Ax)x
=
= t A t x
(x t x) 2
x x
xx
x

igualando a zero essa derivada e dividindo-a por 2 ( x t x ) , obtido o sistema


homogneo de equaes:

x t Ax

x = 0
A

xtx

Desde que

x t Ax
= , ento para um ponto estacionrio qualquer i,
xtx

( A i ) x i = 0

(2.48)

Para que o sistema de equaes em (2.48) no possua apenas a


soluo trivial, A-i no pode ter posto completo. Isto significa que seu
determinante deve ser zero:

|A-i| = 0

(2.49)

A equao polinomial em , resultado da expanso dos termos a


esquerda na equao (2.49) atravs do uso da definio (2.9), chamada de
equao caracterstica de A. A i-sima raiz da equao (i) denominada de valor

2. lgebra vetorial e matricial

70

caracterstico de A; x i denominado vetor caracterstico de A associado a i.


Outras terminologias podem ser empregadas, tais como, autovalores e
autovetores, ou, valores e vetores prprios, ou ainda, raiz e vetor latente.

Pares de formas quadrticas

de fundamental importncia na anlise multivariada o problema de


maximizar razo entre duas formas quadrticas:

x t Ax
x t Bx

B 0

em que B uma matriz pd. O mximo dado da mesma forma que apresentado
anteriormente, a partir da derivada em relao a x , igualando-a a zero, como
apresentado a seguir:

x t Ax
x t Bx
Bx = (A B)x = 0

= Ax t
2
x Bx
x

(2.50)

O sistema homogneo de equaes (2.50) ter soluo no trivial


( x 0 ), se e somente se,

A B = 0

(2.51)

Ferreira, D.F.

Estatstica multivariada

71

Os autovalores () de A em relao a B so denominados de valores


prprios, razes caractersticas, e os autovetores de vetores caractersticos ou
prprios. Desde que B seja pd, possvel fator-la atravs do fator de Cholesky,
por:

B = SBSBt

Ento definindo-se z = SBt x e usando as propriedades do fator de


Cholesky tem-se que x = ( SB1 ) z . Agora, se (2.50) for pr multiplicada por SB1 e
t

x = ( SB1 ) z for substitudo na expresso, tm-se:


t

SB1A SB1B ( SB1 ) z = 0


t

(2.52)
S1A ( S
B

1 t
B

z = 0

desde que SB1B ( SB1 ) =


t

A soluo de (2.52) a mesma da obtida pela maximizao de uma


forma quadrtica, apresentada em (2.48), exceto que x = ( SB1 ) Z deve ser
t

recuperado, uma vez que Z obtido. Os autovalores, no entanto, so invariantes


transformao no-singular realizada.

2. lgebra vetorial e matricial

72

Clculo prtico dos autovalores e autovetores

Ser apresentado aqui o mtodo denominado Power method


derivado por Hotelling (1936). Esse mtodo apropriado para problemas em que
somente r autovalores de maior magnitude e os seus respectivos autovetores so
necessrios (rn). O mtodo iterativo, dado um vetor inicial arbitrrio v (0) . O
vetor do estgio i ser representado por v (i) e o da prxima iterao ser obtido
por:

v (i +1) = Av (i)

Usualmente um vetor de elementos iguais a 1 usado como vetor


inicial. Os vetores caractersticos devem ser normalizados em cada estgio, para
que o critrio de convergncia seja verificado. Quando uma aproximao desejada
para 1 e x1 sejam alcanados, o segundo autovalor e autovetor devem ser
encontrados na matriz A2, definida por:

A 2 = A 1 x1 x1t

(2.53)

E assim o processo repetido at que um nmero rn de pares de


autovalores e autovetores sejam obtidos.

Ferreira, D.F.

Estatstica multivariada

73

Exemplo 2.7
aplicar o power method e determinar os autovalores e autovetores da matriz
apresentada a seguir:

4 2
A=

2 1

1. Determinao de 1 e x1

1
O vetor v (0) ser considerado como: v (0) =
1

Na avaliao da convergncia, o autovetor em cada estgio ser


padronizado atravs da diviso pelo elemento de maior valor do mesmo.

(i)

(1)

= Av

(0)

4 2 1 6
=
=
2 1 1 3

Normalizando v (1) :

(1)

66 1
= 3 = 1
6 2

2. lgebra vetorial e matricial

74

Para avaliar a convergncia, os vetores v (0) e v (1) devem ser comparados. Ser
considerado, convergente se todos os elementos de v (1) forem semelhantes aos
elementos correspondentes de v (0) , para uma preciso pr estipulada, ou seja, de
1x10-8. Neste caso, os vetores diferem consideravelmente.

(ii)

4 2 1 5
v (2) = Av (1) =
1 = , normalizando
2 1 2 2.5
1
v (2) = 1
2

Comparando-se v (2) com v (1) , padronizados, verifica-se que so idnticos,


indicando que o critrio de convergncia foi alcanado.
O autovetor x1 obtido pela normalizao de

v (2) e o primeiro

autovalor 1, por 1 = x1t A x1 .

V (2)
V (2)t V (2)

0,8944
=

0, 4472

0,8944
1 = x1t A x1 = [ 4, 4721 2, 2361]
=5
0, 4472

2. determinao de 2 e x 2

4 2
0,8944
0 0
5
[ 0,8944 0, 4472] =
A 2 = A 1x1 x1t =

2 1
0, 4472
0 0

Ferreira, D.F.

Estatstica multivariada

75

Portanto os demais autovalores e autovetores de A so nulos (2=0 e


x 2 = 0 ).

Os autovalores da matriz da forma quadrtica podem servir para


classificao das mesmas. Demonstra-se que se todos os autovalores da matriz
A, dado Q = x t Ax , forem positivos e maiores que zero a matriz A positiva
definida e a forma quadrtica positiva. Se A possui autovalores positivos e nulos
a matriz ser psd, e a forma quadrtica poder ser nula para um vetor x 0 .
Os resultados apresentados at agora, a respeito de formas
quadrticas, so conseqncias da expanso de matrizes simtricas em um
processo denominado de decomposio espectral. A decomposio espectral de
uma matriz A (nxn), simtrica, dada por:

A = 1e1e1t + 2 e 2 e 2t +

+ n e n ent

(2.54)

em que i (i=1, 2, ..., n) so os autovalores de A e ei so os autovetores


normalizados associados.

Exemplo 2.8
Considere a matriz simtrica:

4 2
A=

2 2

com os autovalores e autovetores normalizados, apresentados a seguir:

2. lgebra vetorial e matricial

76

0,8507
1 = 5, 2361 e1 =

0,5257

0,5257
2 = 0, 7639 e 2 =

0,8507

Obtenha a decomposio espectral de A.

3, 7893 2,3417
1e1e1t =

2,3417 1, 4471

0, 2111 0,3416
2 e 2 e 2t =

0,3416 0,5528

4 2 3, 7893 2,3417 0, 2111 0,3416


2 2 = 2,3417 1, 4471 + 0,3416 0,5528

A expresso da distncia como raiz quadrada de uma forma


quadrtica positiva definida permite que se obtenha a interpretao geomtrica
baseada nos autovalores e autovetores de uma matriz. Dada uma matriz A, pxp, e
suponha que p=2, os pontos x t =[x1, x2] de distncia constante
satisfazem a:

x t Ax = a11X12 + a 22 X 22 + 2a12 X1 X 2 = c 2

pela decomposio espectral de A, como no exemplo 2.8, tem-se:

da origem

Ferreira, D.F.

Estatstica multivariada

77

A = 1e1e1t + 2 e 2 e 2t
x t Ax = 1 ( X t e1 ) + 2 ( X t e 2 )
2

Fazendo yi = x t ei , obtm-se: c 2 = 1 y12 + 2 y 22 que uma elipse, pois i>0. Verifica-

se que x = c1 2 e1 satisfaz x t Ax = 1 c1 2 e1t e1


1

= c2 e x = c 2 2 e 2 fornece a
1

apropriada distncia na direo de e 2 . Portanto, os pontos de distncia

pertencem a uma elipse cujos eixos so dados pelos autovetores de A com


tamanhos proporcionais ao recproco da raiz quadrada dos autovalores. A
constante de proporcionalidade c. A situao ilustrada na Figura 2.1. Se p>2
os pontos pertencem a uma hiperelipside de distncia c constante da origem,
cujos eixos so dados pelos autovetores de A. O semi eixo na direo i tem
comprimento de

e
2
-0,5

e
1

c
1
-0,5

Figura 2.1. Pontos de distncia c constante da origem (1 < 2).

2. lgebra vetorial e matricial

78

Matriz raiz quadrada

A partir da decomposio espectral, possvel definir uma categoria


de matriz, em funo dos autovalores e autovetores, denominada de matriz raiz
quadrada.
Sendo A (nxn), uma matriz com decomposio espectral dada por
n

A = i ei eit , pode-se construir uma matriz P, cujas colunas so os autovetores


i =1

normalizados de A, tal que, P = [ e1 e 2

e n ] , e uma matriz diagonal, como os

autovalores de A, tal que, =diag[i]. fcil verificar que:

A = P P t
n
1

A 1 = P 1P t = ei eit
i =1 i

Definindo, 1/2 como uma matriz diagonal com

(2.55)

i como elemento

da i-sima diagonal, ento, a matriz a seguir definida como matriz raiz quadrada
de A e simbolizada por A1/2.

A = i ei eit = P 2 P t
1
2

i =1

(2.56)

Ferreira, D.F.

Estatstica multivariada

79

As suas propriedades so:

1. (A1/2)t= A1/2

(A1/2 simtrica)

2. A1/2A1/2=A

( )

3. A

=
i =1

1
i

ei eit = P 2 P t

4. A1/2A-1/2=A-1/2A1/2=

A-1/2A-1/2=A-1

em que A-1/2 = (A1/2)-1

Exemplo 2.9
Obtenha a matriz raiz quadrada e a inversa da matriz utilizada no exemplo (2.8),
usando as equaes (2.55) e (2.56):

4 2
A=

2 2

com autovalores e autovetores normalizados, apresentados a seguir:

2. lgebra vetorial e matricial

80

0,5257
2 = 0, 7639 e 2 =

0,8507

0,8507
1 = 5, 2361 e1 =

0,5257

As matrizes P e foram obtidas pelos autovalores e autovetores, e


esto apresentadas a seguir:

0,8507 0,5257
P=

0,5257 0,8507

0
5, 2361
=
0, 7639
0

0,8507 0,5257 1 5,2361


A 1 = P 1P t =

0,5257 0,8507 0

0 0,8507 0,5257 1 2 1 2
=

1
0,8507 1 2 1
0,7639 0,5257

A 2 = P 2 P t =
1

0,8507 0,5257 5, 2361


=

0
0,5257 0,8507

0,8507 0,5257 1,8975 0, 6324

0, 7639 0,5257 0,8507 0, 6324 1, 2649


0

A seguir, um programa SAS apresentado contendo os principais


comandos para a realizao das vrias operaes matriciais e vetoriais descritas
nesse captulo.

Ferreira, D.F.

Estatstica multivariada

/* Capitulo 2 de multivariada - principais operaes matriciais descritas */


/* por meio do proc iml. Rotinas de inverso, multiplicao, transposio */
options nodate nonumber ps=1000 ls=76;
proc iml;
/* elementos de algebra vetorial*/
x1={1,1,1,1};
x2={1,1,0,0};
x3={0,0,1,1};
print x1 x2 x3;
y=4*x1;
z=x1+x2;
print y z;
yz=y` * z;
yy=y`*y; /*distancia quadratica*/
dy=sqrt(yy); /* distancia da origem*/
zz=z`*z;
dz=sqrt(zz);
costeta=yz/(dy*dz);
print yz yy zz dy dz costeta;
/* elementos de algebra matricial*/
x=x1||x2||x3;/* concatenando vetores para obter uma matriz*/
xpx=x`*x;
xx=xpx#xpx;
/* produto de xpx elemento a elemento por xpx*/
print x xpx xx;
/*calculo da base ortonormal de Gramshimidt - a matriz p contm as colunas ortonormalizadas de X*/
Call Gsorth(p, t, lindep, X);
print lindep p t;
/* calculo de autovalores e autovetores */
pu=eigvec(xpx); /* pu matriz de autovetores */
au=eigval(xpx); /* au vetor de autovalores */
print pu; print au;
a={4 2,2 2}; /* matriz A*/
ainv=inv(a); /* inversa de A*/
deta=det(a); /* determinante de A*/
print a ainv deta;
c={4 2 2,2 2 0, 2 0 2};
detc=det(c);
print c detc;
/* fator de Cholesky A=S`S em que S e uma matriz triangular superior */
/* S e a transposta do fator de Cholesky
*/
Sc=root(c);
/* matriz c e singular, porem o SAS calcula assim mesmo o fator de Cholesky */
/* pode-se observar que a ultima linha, da matriz Sc e nula devido a isso*/
Sa=root(a);
b={4 2 0,2 2 1,0 1 2};
print b;
sb=root(b);
print Sc Sa sb;
/*maximizao de pares de formas quadrticas */
/* resolver (D - lG)e=0
*/
D={4 2,2 2};
G={7 1,1 4};
print D G;
Sg=root(G); /* transposta do fator de Cholesky de G
*/
Sginv=inv(Sg); /* inversa da transposta do fator de Cholesky de G */

81

2. lgebra vetorial e matricial

82

print Sg Sginv;
II=Sginv`*G*Sginv; /* mostrar que igual a identidade */
print ii;
H=Sginv`*D*Sginv; /* operar D, e em seguida extrair auto valores e vetores */
print H; /* D transformada */
zh=eigvec(H); /* zh matriz de autovetores */
auh=eigval(H); /* auh vetor de autovalores */
xh=Sginv*zh; /* matriz de autovetores recuperados */
teste=xh`*g*xh;
print teste;/*mostrar que resulta na identidade*/
print xh;
print auh;
/* obtencao de matriz raiz quadrada - exemplificar com a matriz D */
aud=eigval(D); /* autovalores de D*/
lamb=diag(aud); /* diagonalizando aud e resultado em lamb
*/
print lamb;
lambS=root(lamb); /* achando a raiz quadrada de lamb
*/
avd=eigvec(D); /* autovetores de D em avd
*/
Droot=avd*lambS*avd`;
/* usando a definio para encontrar a matriz raiz quadrada de D */
print Droot;
DD=avd*lamb*avd`; /* checando propriedades */
print DD;
/* deve ser igual a D */
quit;

2.4. Exerccios

2.1. Sejam os vetores x =[3, 2, 4] e y ' =[-1, 2, 2]

(a) plote os dois vetores

(b) encontre (i) o comprimento de x , (ii) o ngulo entre x e y , e (iii) a distncia


entre x e y .

(c) plote os vetores x x.1 e y y.1 ( x = 3 e y = 1).

Ferreira, D.F.

Estatstica multivariada

83

2.2. Dada a matriz


1
1

X = 1

1
1

1 0 0
1 0 0
0 1 0

0 1 0
0 0 1

(a) Ortonormalize as colunas de X, usando a construo de Gram-Schimidt.

(b) Determine o vetor (coluna de x) linearmente dependente.

(c) Determine o posto coluna de X, a partir da construo de Gram-Schimidt


realizada em (a).

2.3. Dadas as matrizes


4 2 2
A = 2 2 0
2 0 4

6 4 2
B = 4 4 0
2 0 6

(a) Obtenha a inversa de A e de B, usando o algoritmo de Gauss-Jordan.

(b) Verifique usando o processo de Gauss-Jordan que (AB)-1=B-1A-1.

2.4. Verifique se a matriz

2. lgebra vetorial e matricial

84

0,8507 0,5257
P=

0,5257 0,8507

uma matriz ortogonal.

2.5. Seja

8 1
A=

1 2

(a) Calcule o determinante de A.

(b) Com base em (a) a matriz A pode ser considerada positiva definida? Porque?

(c) Obtenha o fator de Cholesky, e confirme a resposta dada em (b).

(d) Determine os autovalores e autovetores de A.

(e) Obtenha a decomposio espectral de A.

(f) Encontre A-1.

Ferreira, D.F.

Estatstica multivariada

85

(g) Encontre os autovalores e autovetores de A-1. Verifique que relao tem como
os valores encontrados em (d).

2.6. Considere as matrizes

4, 001
4
A=

4, 001 4, 002

4, 001
4
B=

4, 001 4, 002001

As matrizes so idnticas, exceto por pequenas diferenas no


elemento, a22 e b22 devida a arredondamentos. Mostre que A-1 = -3B-1 (pequenas
mudanas, talvez devido a arredondamentos, podem causar substanciais
diferenas na inversa).

2.7. Verifique se a forma quadrtica

Q = 2x12 2x1 x 2 + 4x 22

positiva definida.

Sugesto: Verificar se Q = x t Ax positiva, pode ser feita verificando se A pd.

2.8. Dada as matrizes

2. lgebra vetorial e matricial

86

4 1
A=

1 2

2 1
B=

1 1

(a) determine os autovalores e autovetores que maximizam a razo

x t Ax
= t
x Bx

B 0

Obs. O que equivalente a resolver o sistema determinantal dado por (2.51)

A B = 0 .

(b) Determine a matriz raiz quadrada de A e de B.

2.9. Dada a matriz de covarincia amostral (S)

25
S=
2

(a) Determine R, dada D1/2, definida por:

2
4

Ferreira, D.F.

Estatstica multivariada

87

S11

0
1
D 2 =

( ) S (D )

Sendo R = D

Spp

0
S22
0

(b) Verifique a relao

( ) R (D )

S= D

2. lgebra vetorial e matricial

88

||[

Amostragem multivariada

]||

3.1. Introduo

Com os conceitos de lgebra vetorial introduzidos no captulo 2,


pode-se aprofundar na interpretao geomtrica das estatsticas descritivas X , S

e R. A maioria das explicaes usam a representao das colunas de X, como p
pontos no espao n dimensional. Ser introduzida neste instante a pressuposio
de que as observaes constituem uma amostra aleatria. De uma forma
simplificada, amostra aleatria significa (i) que as medidas tomadas em diferentes
itens (unidades amostrais ou experimentais) so no relacionadas uma com as
outras, e (ii) que a distribuio conjunta das p variveis permanece a mesma para
todos os itens. Essa estrutura de amostra aleatria que justifica uma escolha
particular de distncia e dita a geometria para a representao n dimensional dos
dados. Finalmente, quando os dados podem ser tratados como uma amostra
aleatria inferncia estatstica ter por base um slido fundamento.

3. Amostragem multivariada

90

3.2. Geometria amostral

Uma observao multivariada uma coleo de medidas em p


variveis tomadas na mesma unidade amostral ou experimental. No captulo 1,
item 1.3, as n observaes obtidas foram dispostas em um arranjo (Matriz) X por,

x11
x
21
#
X =
x j1
#

xn1

x12 " x1k " x1 p


x22 " x2 k " x2 p
#
#
#
#
#

x j 2 " x jk " x jp
#
#
# % #

xn 2 " xnk " xnp

em que cada linha de X representa uma observao multivariada. Desde que o


conjunto todo de mensuraes muitas vezes uma particular realizao de
variveis aleatrias, diz-se que os dados representam uma amostra de tamanho n
de uma populao p variada.
Os dados podem ser plotados por um grfico com p coordenadas. As
colunas de X representam n pontos no espao p dimensional. Esse tipo de grfico
fornece informaes de locao dos pontos e de variabilidade. Se os pontos
pertencem a uma esfera, o vetor de mdias amostrais, X , o centro de balano

ou de massa. Se a variabilidade ocorre em mais de uma direo, pode-se detectar
pela matriz de covarincia, S. Uma medida numrica nica de variabilidade
fornecida pelo determinante da matriz de covarincia.

Ferreira, D.F.

Estatstica multivariada

91

Exemplo 3.1
Calcule o vetor mdia X para a matriz X apresentada a seguir. Plote os n = 3

pontos no espao p=2 (bidimensional) e localize X no diagrama resultante.


2 1
X = 3 0
2 2

A mdia amostral dada por:

2 + ( 3) + ( 2 )
X =

(1 + 0 + 2 )

3 1
=
3 1

O primeiro ponto dado por X1t = [ 2 1] , o segundo por X 2t = [ 3 0] , e




o terceiro por X 3t = [ 2 2] . A Figura 3.1 mostra os pontos juntamente com X ,


centro de massa ou de balano, obtidos a partir da matriz X.

3. Amostragem multivariada

92

3
x3

2
_
x

x1

1
x2
-4

-3

0
-2

-1

1
0

-1

-2

-3

Figura 3.1. Diagrama com n=3 pontos no espao bidimensional (p=2) mostrando o
centro de massa, X .


Uma representao alternativa obtida atravs da considerao de p


pontos no espao n dimensional. Os elementos das linhas de X so utilizados
como coordenadas.

Ferreira, D.F.

Estatstica multivariada

x11
x
21
#
X =
x j1
#

xn1
= y1


93

x12 " x1k " x1 p


x22 " x2 k " x2 p
#
#
#
#
#

x j 2 " x jk " x jp
#
#
# % #

xn 2 " xnk " xnp


y2


" yk


" y p


As coordenadas do k-simo ponto

y kt = [ x1k


x 2k " x nk ]

determinada pela n-upla de todas as medidas da k-sima varivel. conveniente


representar y kt como vetor ao invs de pontos.


Exemplo 3.2
Plote os dados da matriz X, com p=2 vetores no espao tridimensional (n=3)

2 1
X = 3 0
3 2

y1t = [ 2 3 2] e y 2t = [1 0 2]



3. Amostragem multivariada

94
3

Y2

Y1

2
1

Figura 3.2. Diagrama da matriz de dados X como p=2 vetores no espao


tridimensional.

Muita das expresses algbricas que sero encontradas na anlise


multivariada, podem ser relacionadas s noes geomtricas de ngulos,
comprimento (norma) e volumes. Isto importante, pois representaes
geomtricas facilitam a compreenso e conduz a novas vises. Infelizmente, o ser
humano est limitado a visualizar objetos no espao tridimensional, e as
representaes da matriz X no sero teis se n>3. No entanto, os
relacionamentos geomtricos e os conceitos estatsticos associados, descritos
para o espao tridimensional ou bidimensional, permanecem vlidos para
dimenses maiores.

Ferreira, D.F.

Estatstica multivariada

95

possvel, em funo do exposto, prover uma interpretao


geomtrica ao processo de encontrar a mdia amostral. O vetor 1 (nx1) ser

definido por 1t =[1 1 1]. O vetor 1 forma um ngulo igual com cada um dos


eixos coordenados, de tal forma que

(1 n )1

tenha comprimento unitrio e

mesmo ngulo de direo. Considerando o vetor y kt = [ x1k




projeo em 1

x 2k " x nk ] , cuja

n 1 :


1 1
y
1
1=
 n  n 
t
k

X
j=1

jk

( )

1
1 = y kt 1 1 = X k 1
 n   


Pois, a projeo geral de X em Y dada por:





Xt Y
Proj ( X em Y ) =   Y


Y 


Dessa forma X k =

( )

1 t
y k 1 corresponde a um mltiplo de 1, obtido a
n  

partir da projeo de y kt em um vetor 1 , de acordo com o esquema a seguir.





3. Amostragem multivariada

y


96

e


1


= y


1


1


em que, y k X k 1 perpendicular a X k 1 . Observe, tambm, que e k = y k X k 1








definido como desvio da k-sima varivel em relao a sua mdia amostral, e
consiste nos elementos apresentados a seguir:

x1k X k

x 2k X k

ek = yk X k 1 =



#


x nk X k

A decomposio de yi , nos vetores mdia e desvio da mdia est



apresentada esquematicamente na Figura 3.3 para p=2 e n=3.

Ferreira, D.F.

Estatstica multivariada

97

x3

1
_
x 11

_
x 21

e1
e2

x1

Y1

Y2
x2

Figura 3.3. Decomposio de y k em componentes de mdia X k 1 e componentes




de desvio e k = y k X k 1 .




Exemplo 3.3
Faa a decomposio de y k em componentes de mdia X k 1 e componentes de


desvio e k = y k X k 1 , k=1, 2, para os dados do exemplo 3.2.




3. Amostragem multivariada

98

2 1
X = 3 0
3 2

X1 =

2 + (3) + (2)
= 1
3

X2 =

y1t = [ 2 3 2]


y 2t = [1 0 2]


1+ 0 + 2
=1
3

1 1
X11 = 1 1 = 1

1 1

1 1
X 2 1 = 1 1 = 1

1 1

2 1 3
e1 = y1 X11 = 3 1 = 2

 
2 1 1

1 1 0
e 2 = y 2 X 2 1 = 0 1 = 1



1 1 1

Observa-se que: X11 e e1 , X 2 1 e e 2 , so perpendiculares.


 



( X 1 ) (
t

3
y1 X11 = [ 1 1 1] 2 = 3 + 2 + 1 = 0


1

A decomposio :

Ferreira, D.F.

Estatstica multivariada

2 1 3
y1 = 3 = 1 + 2 ; e
 2 1 1

99

1 1 0
y 2 = 0 = 1 + 1 .
 2 1 1

Os vetores de resduos podem ser plotados a partir da origem, como


apresentado na Figura 3.4, para os resduos do exemplo 3.3.

X3

e2
e1

X2

X1

Figura 3.4. Vetores de desvios ei do exemplo 3.3.




Considere o comprimento ao quadrado dos vetores de desvios,


obtidos por (2.2):

| e k |2= e k . e k = ( x jk X k ) 2

 
j =1

(3.1)

Observa-se por (3.1) que o comprimento ao quadrado dos vetores de


desvios proporcional varincia da i-sima varivel. Equivalentemente, o

3. Amostragem multivariada

100

comprimento proporcional ao desvio padro. Vetores longos representam


maiores variabilidades que os vetores mais curtos.
Para dois vetores desvios e k e eA :



ekt eA = ( x jk X k )( x jA X A )
 
j =1

(3.2)

De (2.3) e denotando o ngulo ik como o ngulo formado pelos


vetores e k e e A , tem-se:



Cos ( kA ) =

e kt eA
 
e kt e k eAt eA
 
 

(3.3)

Usando (3.1) e (3.2) fcil verificar que (3.3) :

rkA = Cos ( kA ) =

SkA
Skk SAA

(3.4)

O coseno do ngulo formado entre dois vetores desvios igual ao


coeficiente de correlao amostral. Portanto, se os dois vetores de desvios
possuem a mesma orientao, o coeficiente de correlao ser prximo de 1. Se
os dois vetores esto prximos de serem perpendiculares, a correlao amostral
ser prxima de zero. Se os dois vetores forem orientados em direes opostas, o
coeficiente de correlao amostral ser prximo de -1. Os conceitos de

Ferreira, D.F.

Estatstica multivariada

101

comprimento e ngulos permitem que se faam interpretaes das estatsticas


amostrais geometricamente, e auxiliam na compreenso dos seus significados.

3.3. Amostras aleatrias e esperanas do vetor de


mdia e da matriz de covarincia amostral.
Com a finalidade de estudar a variabilidade amostral de estatsticas
como X e S com a finalidade de se fazer inferncias, necessrio fazer

pressuposies a respeito das variveis cujos valores observados constituem um
conjunto de dados X.
Supondo que os dados no foram ainda observados, mas
pretende-se obter n mensuraes em p variveis. Antes de serem mensurados,
os valores no podem em geral ser preditos exatamente. Conseqentemente,
estes so tratados como variveis aleatrias. Neste contexto, os elementos (j, k)
da matriz de dados representam realizaes de uma varivel aleatria, Xjk. Cada
conjunto de medidas X j em p variveis um vetor aleatrio.


x11
x
21
#
X =
x j1
#

xn1

x12

" x1k

x22 " x2 k
#

x j 2 " x jk
#

xn 2 " xnk

" x1 p X 1t

" x2 p X 2t

#
# #
=
" x jp X tj

% # #

" xnp X nt


(3.5)

3. Amostragem multivariada

102

Uma amostra aleatria pode ser definida por: Se o vetor coluna


X1 , X 2 , ..., X n em (3.5), representa independentes observaes com distribuio
 


conjunta com densidade f( x )=f(x1, x2, ..., xp), ento X1 , X 2 , ..., X n uma amostra
 


aleatria. Se a funo conjunta de densidade igual ao produto das marginais
f( x 1) . f( x 2) . ..., . f( x n), sendo f( x j)=f(xj1, xj2, ..., xjp), ento, X1 , X 2 , ..., X n uma
 





amostra aleatria.
Algumas concluses podem ser obtidas da distribuio de X e S

sem pressuposies sobre a forma da distribuio conjunta das variveis. Dessa
forma, considere X1 , X 2 , ..., X n como sendo uma amostra aleatria de uma
 

distribuio conjunta com vetor mdia e matriz de covarincia . Ento, X um


estimador no viciado de e sua matriz de covarincia


E( X ) =



. Isto ,

(vetor mdia populacional)

Cov( X ) =


(Matriz de covarincia populacional dividida pelo tamanho da


amostra).

PROVA:

X =( X 1+ X 2+...+ X n)/n





Ferreira, D.F.

Estatstica multivariada

103

E(X) = E ( n1 X1 + n1 X 2 + " + n1 X n )




= E ( n1 X1 ) + E ( n1 X 2 ) + " + E ( n1 X n )



=

1
1
nE ( X j ) = n
 n
n


E(X) =



Para provar o valor da covarincia, pode-se observar que:

1 n
( X - ) ( X - ) = Xj
 
 

n j=1 
t

1 n
1

XA = 2
 n
n A =1 

( X

E ( X

j=1 A =1

)(

XA
 


Ento,

)(

t
1
Cov ( X ) = E X X = 2
   

n

j=1 A =1

)(

XA
 


)(

Sendo j A e considerando que E X j X A



 


igual a zero,

devido a covarincia entre os elementos independentes X j e X A ser nula, ento,





1
Cov ( X ) = 2

n

E ( X
n

j=1

)(

Xj
 


3. Amostragem multivariada

104

)(

Desde que = E X j X j

 


a covarincia populacional comum

dos componentes X j , tm-se:




1
Cov ( X ) = 2

n
=

E ( X
n

j=1

)(

t
1
X j = 2 ( + + " + ) =
n
 


1
1
(n) =
2
n
n

3.4. Varincia Generalizada

Com uma nica varivel, a varincia da amostra usada para


descrever a variao nas mensuraes desta varivel. Quando p variveis so
observadas em cada unidade da amostra ou do experimento, a variao descrita
pela matriz de varincia e covarincia amostral.

S 11
S
21
S=
#
S
p1

S 12
S 22
#

Sp2

" S 1p
" S 2p

% #
" S pp

A matriz de covarincia amostral contm p varincias e p(p-1)


covarincias, potencialmente diferentes. Algumas vezes, no entanto, deseja-se
expressar a variao por um nico valor numrico. Uma escolha deste valor o
determinante de S, o qual reduz varincia amostral usual para o caso de uma

Ferreira, D.F.

Estatstica multivariada

105

nica varivel (p=1). Este determinante denominado de varincia amostral


generalizada.

Varincia amostral Generalizada=|S|

(3.6)

Exemplo 3.4
O peso de espiga PE (X1), e o nmero de espigas NE (X2), foi avaliado em 28
variedades de milho em Sete Lagoas, MG. A matriz de covarincia amostral S,
obtida dos dados :

2,905 9,096
S=

9,096 90,817

A varincia generalizada neste caso :

Varincia amostral Generalizada = |S| = 2,905x90,817 - 9,0962 = 181,0862

A varincia amostral generalizada se constitui numa forma de


escrever toda a informao de todas as varincias e covarincias como um nico
valor numrico. Obviamente, quando p>1 possvel que algumas informaes
amostrais sejam perdidas no processo. A interpretao geomtrica, no entanto,
poder mostrar a fora e as fraquezas desta estatstica descritiva.

3. Amostragem multivariada

106

Considerando-se o volume (rea) gerado no plano definido por dois


vetores de desvios e1 = Y1 X11 e e 2 = Y2 X 2 1 . Seja Le1 e Le2 os comprimentos






dos vetores e1 e e 2 , respectivamente. Da geometria tm-se:



e1

h= Le1Sen()

Le2

e2


A rea do trapezide Le1 x Sen() x Le2, podendo ser expressa por:

rea= Le1 Le 2 1 cos 2 ( )

Mas,
L e1 =

L e2 =

(X
j=1

X1 ) 2 = (n 1)S11

j1

(X
j=1

j2

X 2 ) 2 = (n 1)S22

Cos()=r12

Portanto,

Ferreira, D.F.

Estatstica multivariada

107

rea = (n 1) S11S22 (1 r122 )

(3.7)

Por outro lado,

S=

S11 S21
S11
=
S12 S22
S11 S22 r12

S11 S22 r12


S22
(3.8)

2
2
)
= S11 S22 S11 S22 r12
= S11 S22 (1 r12

Se (3.7) e (3.8) forem comparados, pode-se observar que:

|S|=(rea)2/(n-1)2

Esta expresso pode ser generalizada para p vetores desvios por


induo:

Varincia amostral Generalizada = |S| = (Volume)2.(n-1)-p

(3.9)

A equao (3.9) mostra que a varincia amostral proporcional ao


quadrado do volume gerado pelos p vetores desvios. Na Figura 3.5 (a) e (b)
mostra-se

regies

trapezoidais

geradas

com

p=3

vetores

resduos

correspondentes a grandes e pequenas varincias amostrais generalizadas,


respectivamente.

3. Amostragem multivariada

108

(a)

e3
e2

(b)

e2
e1

e3

e1

Figura 3.5. (a) grande varincia amostral generalizada, e (b) pequena varincia
amostral generalizada, para p=3.

Para um tamanho amostral fixo, bvio que |S| cresce com o


aumento do comprimento dos vetores de desvios ei (ou


( n 1)Sii ). Em adio, o

volume aumentar para um comprimento fixado, se os vetores residuais forem


movidos at possurem ngulos retos. Por outro lado se um ou mais dos vetores
residuais aproximar do hiperplano formado por outros vetores residuais, o volume
diminuir tendendo a zero.
Apesar de a varincia amostral generalizada possuir algumas
interpretaes geomtricas formidveis como as ilustradas na Figura 3.5, ela sofre

Ferreira, D.F.

Estatstica multivariada

109

alguns problemas como estatstica amostral capaz de sumariar a informao


contida na matriz S. Para ilustrar estas deficincias, considere as matrizes de
covarincias e os coeficientes de correlaes apresentados a seguir.

10 8
S=

8 10

10 8
S=

8 10
r12 =

8
= 0,8
10 10

| S |= 36

r12 =

8
= 0,8
10 10

| S |= 36

6 0
S=

0 6
r12 =

0
= 0, 0
6 6

| S |= 36

Apesar das trs matrizes possurem a mesma varincia amostral


generalizada (|S|=36), elas possuem estruturas de correlaes distintas. Portanto,
diferentes estruturas de correlaes no so detectadas pela varincia amostral
generalizada. As situaes em que p>2 podem ser ainda mais obscuras.
Muitas vezes desejvel mais informaes do que um simples valor
como |S| pode oferecer como resumo de S. Pode-se mostrar que |S| pode ser
expresso como produto dos autovalores de S (|S|=1.2....p). A elipside centrada
na mdia baseada em S-1, possui eixos de comprimento proporcionais a raiz
quadrada de is de S, que reflete a variabilidade no sentido do i-simo autovalor.
Esta elipside apresentada a seguir.

( X X ) 'S ( X X ) = c
1

(3.10)

3. Amostragem multivariada

110

Demonstra-se que o volume desta hiperelipside proporcional


raiz quadrada de |S|. Desta forma, os autovalores, fornecem informaes da
variabilidade em todas as direes da representao no espao p-dimensional dos
dados. Portanto, mais til apresentar seus valores individuais do que seu
produto. Este tpico ser abordado com mais detalhe quando se discutir sobre os
componentes principais.
A varincia amostral generalizada ser zero se um ou mais vetores
residuais pertencerem a um (hiper) plano formado por uma combinao linear dos
outros, ou seja, quando as linhas da matriz de desvios, forem linearmente
dependentes.

Exemplo 3.5
Mostre que |S|=0 para

3 3 6
X = 1 3 4
2 0 2

O vetor mdia :

X t = [ 2 2 4]


Os vetores dos desvios so:

Ferreira, D.F.

Estatstica multivariada

111

X 1 X t = [ e1 e2
 
 

1 1 2
e3 ] = 1 1 0

0 2 2

Verifica-se que e3t = e1t + e 2t , ou seja:


  

[2 0 -2] = [1 -1 0] +[1 1 -2] = [2 0 -2] c.q.d.

Isto significa que um dos vetores resduos, pertence ao plano gerado


pelos outros dois. Desta forma o volume tridimensional zero (degenerescncia).
Este caso ilustrado na Figura 3.6 e demonstrado numericamente atravs da
obteno de |S|.

1 0 1

S = 0 3 3
1 3 4

Pela definio (2.9), tm-se:

| S| = 1

3 3
3 4

( 1) 2 + 0

0 1
3 4

= 131
. . + 0 + 1.( 3).1 = 3 3 = 0

( 1) 3 + 1

0 1
3 3

( 1) 4 =

3. Amostragem multivariada

112
3

e1

e3

e2

Figura 3.6 Caso em que |S|=0 (degenerescncia) para o volume tridimensional.

Em qualquer anlise estatstica o resultado |S|=0 indica que existem


variveis redundantes, ou seja, que possuem a mesma informao, e que estas
podem ser removidas do estudo. A matriz de covarincia reduzida, ser de posto
completo e a varincia generalizada diferente de zero. A questo de quais
variveis devem ser removidas no caso de degenerescncia no fcil de
responder e ser abordado nos estudos de componentes principais. No entanto,
quando h possibilidade de escolha, o pesquisador deve reter as medidas de uma
varivel (presumidamente) causal ao invs de uma caracterstica secundria.

Ferreira, D.F.

Estatstica multivariada

113

3.5.Varincia generalizada de variveis padronizadas


A varincia amostral generalizada influenciada pela diferena de
variabilidade das mensuraes das variveis individuais, ou seja, caso a varincia
amostral de uma determinada varivel (Sii) seja grande ou pequena em relao s
demais. O vetor residual correspondente ei = Yi x i 1 ser muito longo ou muito



curto, do ponto de vista geomtrico e ter um papel importante na determinao
do volume. muitas vezes necessrio, em funo do exposto, padronizar os
vetores residuais, de tal forma que eles tenham o mesmo comprimento.
A padronizao destes vetores residuais equivalente a transformar
as variveis originais xjk pelos seus valores

(x

jk

xk )

S kk . A matriz de

covarincia amostral das variveis padronizadas ser ento igual a R, ou seja,


igual a matriz de correlao das variveis originais. Dessa forma pode-se definir:

Varincia generalizada amostral das variveis padronizadas=|R|

(3.11)

Os vetores resduos resultantes, cujos valores so dados por


ejk= ( x jk xk )

S kk , possuem todos os comprimentos iguais a

n 1. A varincia

generalizada amostral das variveis padronizadas ser grande se estes vetores


forem perpendiculares e ser pequena se dois ou mais deles tiverem prximas da
mesma direo. Em (3.4) foi visto que o co-seno do ngulo ik entre os vetores
residuais ei e e k , com ik, igual ao coeficiente de correlao amostral rik. Dessa



3. Amostragem multivariada

114

forma, o |R| ser grande quando todos os rik forem prximos de zero e ser
pequeno quando um ou mais dos rik for prximo de -1 ou de +1.
Utilizando os mesmos argumentos que conduziram a (3.9) pode-se
verificar que:

|R|=(n-1)-p(volume)2

(3.12)

volume

gerado

pelos

vetores

desvios

de

p=3

variveis

padronizadas est ilustrado na Figura 3.7. Estes vetores desvios padronizados


so correspondentes aos vetores desvios da Figura 3.5, cuja comparao revela
que a influncia do vetor e 2 (com grande variabilidade na direo de x2) no volume

quadrado de |S| maior do que sua influncia no volume quadrado de |R|.

(a)

(b)

e3
e2

e1

e2

e3

e1

Figura 3.7. Volume gerado por trs variveis padronizadas: (a) grande varincia e
(b) pequena varincia generalizada.

As quantidades |S| e |R| so relacionadas por:

Ferreira, D.F.

Estatstica multivariada

|S| = (S11 S22 ... Spp) |R|

115

(3.13)

Exemplo 3.6
ilustrada atravs deste exemplo a relao (3.13) entre |S| e |R| para p=3
caracteres de milho (x1: dimetro do colmo; x2: nmero de folhas; e x3:
comprimento de folhas). A matriz R e S obtidas so:

100
4,935 0,552 2,921
,
0,30 0,31

,
,
0,55
S = 0,552 0,686 1932
e R = 0,30 100
0,31 0,55 100
2,921 1932
,
17,993
,

Usando-se a definio de determinante (2.9), tem-se:

|S|=37,3878

|R|=0,6137

Usando (3.13) e os resultados obtidos:

|S| = (S11 S22 ... Spp) |R|

37,3878 = (4,935 x 0,686 x 17,993) x 0,6137

3. Amostragem multivariada

37,387837,3828

(verificado,

116

apesar

da

pequena

diferena

devido

aproximaes nos clculos)

3.6. Outra generalizao da varincia

Uma outra medida capaz de sintetizar a informao contida na matriz


de covarincia que utilizada em componentes principais definida pela soma
dos elementos da diagonal da matriz de covarincia S e denominada de
varincia amostral total. Portanto,

Varincia amostral total = Trao de S= Tr(S) =S11+S22+...+Spp

(3.14)

Exemplo 3.7
Calcular a varincia amostral total da matriz S do exemplo (3.6)

Tr(S)= S11+S22+S33=4,935+0,686+17,993=23,614

Geometricamente a varincia amostral total representa a soma dos


comprimentos ao quadrado dos vetores residuais ei (i=1, 2, ...,p) dividido por n-1.

Ela no considera as orientaes dos vetores residuais, sendo portanto limitada

Ferreira, D.F.

Estatstica multivariada

117

para ser utilizada com variveis padronizadas, pois seu valor ser sempre o
mesmo para distintos conjuntos de dados desde que o nmero de variveis destes
seja igual.

3.7. Exerccios

3.7.1. Plote os n=4 pontos no diagrama bidimensional e localize X no diagrama



resultante.

1 1
1 1

X =
1 1

1 1

3.7.2. Encontre o ngulo entre os vetores y1 e y 2 do exemplo 3.1. Calcule o




co-seno do mesmo e discuta sobre o significado deste resultado.

3.7.3. Obtenha a decomposio dos vetores y1 e y 2 do exemplo 3.1 em




componente

de

mdia

componente

de

desvio.

Comprove

ortogonalidade dos componentes de mdia com os vetores de desvios ou


residuais.

3. Amostragem multivariada

118

3.7.4. Calcule usando (3.3) o coseno do ngulo entre os vetores residuais e1 e e 2




obtidos em 3.3. Calcule o coeficiente de correlao usando (1.4) entre as
variveis 1 e 2, e compare os resultados obtidos.

3.7.5. Obtenha as matrizes de covarincia amostral para o conjunto de dados do


exerccio 3.7.1, e calcule as varincias amostrais generalizadas das
variveis originais e padronizadas. Calcule tambm a varincia amostral
total.

3.7.6. Qual a rea do trapezide gerado pelos p=2 vetores desvios, do exerccio
3.7.1.

Distribuio normal multivariada


4.1. Introduo

A generalizao da densidade normal univariada para duas ou mais


dimenses desempenha um papel fundamental na anlise multivariada. De fato, a
maioria das tcnicas multivariadas parte do pressuposto de que os dados foram
gerados de uma distribuio normal multivariada. Apesar dos dados originais no
serem quase nunca exatamente normal multivariados, a densidade normal se
constitui muitas vezes numa aproximao adequada e til da verdadeira
distribuio populacional.
A distribuio normal, alm da sua atratividade pela sua facilidade de
tratamento matemtico, possui duas razes prticas que justificam a sua utilidade.
A primeira, diz que a distribuio normal a mais adequada para modelos
populacionais em vrias situaes; e a segunda refere-se ao fato da distribuio
amostral de muitas estatsticas multivariadas ser aproximadamente normal,
independentemente da forma da distribuio da populao original, devido ao
efeito do limite central.

4. Distribuio normal multivariada

120

4.2. Pressuposies das anlises multivariada

importante compreender que as anlises estatsticas de modelos


com erros aditivos baseiam-se na pressuposio de normalidade. A distribuio
normal requerida refere-se, no a variao dos dados, mas a variao residual,
dos erros existentes entre as observaes e o modelo ajustado. A variao
sistemtica dos dados deve-se presumidamente aos efeitos fixos dos modelos e o
restante da variao aleatria devida a pequenas influncias independentes, as
quais produzem resduos com distribuio normal (Bock, 1975).
Um segundo ponto, muitas vezes negligenciado nas discusses das
pressuposies sobre a distribuio, refere-se ao fato de que as afirmaes
probabilsticas dos testes de significncia e dos intervalos de confiana, dizem
respeito a estatsticas tais como mdias amostrais ou diferenas entre mdias, e
no a distribuio das observaes individuais. conhecido que a distribuio
destas estatsticas torna-se tipicamente normal quando a amostra aumenta de
tamanho. Este resultado se deve ao teorema do limite central.
Do ponto de vista prtico existem considerveis vantagens de se
trabalhar com grandes amostras. Nestes casos, a violao da pressuposio de
que a populao seja normal menos crtica para os testes estatsticos e
intervalos de confiana e a preciso da estimao de parmetros desconhecidos
melhor.

Ferreira, D.F.

Estatstica multivariada

4.3. Densidade
normal
propriedades

121

multivariada

suas

A densidade normal multivariada uma generalizao da densidade


normal univariada. Para a distribuio normal univariada com mdia e varincia

2 , a funo de densidade de probabilidade bem conhecida e dada por:

f (x) =

1
22

1 ( x )
2 2

x ]; + [

(4.1)

O grfico da funo (4.1) tem forma de sino e est apresentado na


Figura 4.1. As probabilidades so reas sob a curva entre dois valores da varivel
X, limitada pela abscissa. bem conhecido o fato de que as reas entre 1 desvio
padro da mdia e 2 desvios padres da mdia so respectivamente 68,3% e
95,4%, como ilustrado na Figura 4.1.

4. Distribuio normal multivariada

122

0,683
2

0,954

+ +2

Figura 4.1. Densidade normal univariada com mdia

2 ,

e varincia

destacando-se as reas entre e 2 .

O expoente da funo de densidade normal univariada:

(x )

= ( x ) ( 2 )

( x )

(4.2)

mede a distncia quadrada de x em relao em unidade de desvio padro.


Esta distncia pode ser generalizada para o caso multivariado, com
um vetor X de observaes (p x 1), dada por,


Ferreira, D.F.

Estatstica multivariada

123

( X  ) ( ) ( X  )
t

(4.3)

Nesta expresso (4.3) o vetor (px1) representa o valor esperado



do vetor X e a matriz (pxp) representa a sua covarincia. Ento, (4.3)

representa a distncia generalizada de X para .


Substituindo a expresso (4.3) na funo de densidade (4.1), a
constante univariada de normalizao

22 deve ser trocada de modo a fazer

com que o volume sob a superfcie da funo de densidade multivariada obtida,


seja igual a unidade para qualquer p. Pode-se demonstrar (Anderson, 1984) que
esta constante ( 2 )

f (X) =


( 2 )

p
2

p2

12

, sendo a densidade dada por:

t
1

1 X
exp
X
1
2 
 

2

(4.4)

Propriedades da distribuio normal multivariada

Seja um vetor X tendo distribuio normal multivariada, ento:




1. Combinaes lineares dos componentes de X sero normalmente distribudos:



seja a combinao linear
distribuio N( a t , a t a );
   

a t X =a1X1+a2X2+...+ apXp, ento,


 

at X
 

ter

4. Distribuio normal multivariada

124

2. Todos os subconjuntos de X tem distribuio normal (multivariada). Pelos



resultados da propriedade 1, fazendo alguns ais iguais a zero, isto se torna
evidente;
X1
X
2
i) Fazendo a t X = [1 0 " 0] = X1 a propriedade 2 se torna evidente. Assim,

#
 

X p

X1 N( a t = 1 , a t a = 11 ). De uma forma mais geral pode-se afirmar que todo


 
 
componente Xi tem distribuio N( i , ii ).

ii) A distribuio de vrias combinaes lineares :

a11 X1 + ... a1p X p

#
%
# ~ N q ( A; AA ')
q A p p X1 =

a q1 X1 + ... a qp X p

iii) Todos os subconjuntos de X tem distribuio normal (multivariada)



Tomando-se uma partio:

q X1 X1
X
=
 =  e suas correspondentes

p 1

X2
1
(p q) X



parties no vetor de mdia e de covarincia, dadas por:

q 11q
q 1 1
e

=
=

 
p 1
 (p q) 1 2
( pq ) 21q



12( pq )

22
( p q )
( p q )

Ferreira, D.F.

Estatstica multivariada

125

Logo,

X1 ~ N q 1 ; 11



Prova: Basta fazer qAp=[qIq | q0(p-q)] e aplicar (ii).

3. Se os componentes de covarincia forem zero entre dois subconjuntos de X ,



implica em dizer que eles so independentemente distribudos. Esta
propriedade s valida se X tiver distribuio normal multivariada; e


4. A distribuio condicional de componentes de X normal (multivariada).




Dada a partio

q X1 X1
X1 =
 =  , logo a distribuio condicional de

(p q) X1 X 2



X1 / X 2 = x 2 normal e tm mdia e covarincia dados por:


 


c = 1 + 12 221 x 2 2 e c = 11 12 221 21





4.4. Distribuio normal bivariada

Sejam X1 e X2 duas variveis com parmetros E(X1)=1, E(X2)=2,


Var(X1)=11, Var(X2)=22 e 12 =

12
11 22

= Corr( X1 , X 2 ) . A matriz de covarincia

4. Distribuio normal multivariada

126

= 11
21

12
22

Cuja inversa ,

1 =

Fazendo

22
11 22 21
1

2
12

12
11

12 = 12 11 22 ,

obtm-se

= 11 22 122 = 11 22 (1 122 ) , e a distncia generalizada de (4.3) ser:

1
22
[X1 1 X2 2]
2
11 22 (1 12 )
12 11 22

12 11 22 X1 1

=
X 2 2
11
(4.5)

1
=
2
1 12

2 2
X1 1 X 2 2
2

X1 1 + X 2
212

11 22
11
22

Desde que, ||=11 22 - (12)2 = 11 22 (1- 122 ), podem ser


substitudos -1 e || em (4.4) para se ter a expresso da densidade normal
bivariada, apresentada a seguir.

Ferreira, D.F.

f(x1 ,x2 ) =

Estatstica multivariada

127

1
2 1122 (1 122 )

(4.6)
2

1 X1 1
exp

2(1 12 ) 11

2
X2 2
X1 1 X2 2
+
212



22
11
22

Se X1 e X2 no so correlacionadas, 12 =0, a densidade conjunta


pode ser escrita como produto das densidades normais univariadas, ambas com a
forma de (4.1), ou seja, f(x1,x2)= f(x1) f(x2), alm do que X1 e X2 so ditas
independentes, como comentado na propriedade nmero 3 da seo 4.3. Duas
distribuies normais bivariadas com varincias iguais so mostradas nas Figuras
4.2. e 4.3. A Figura 4.2 mostra o caso em que X1 e X2 so independentes ( 12 =0)
e a Figura 4.3 o caso de 12 =0.8. Observa-se que a presena de correlao faz
com que as probabilidades se concentrem ao longo de uma linha.

4. Distribuio normal multivariada

Figura 4.2. Distribuio normal bivariada com 11 = 22 e 12 =0.

Figura 4.3. Distribuio normal bivariada com 11 = 22 e 12 =0.8.

128

Ferreira, D.F.

Estatstica multivariada

129

Da anlise da expresso (4.4), relativa a densidade de p-variveis


normais, fica claro que alguns valores padres de X fornecem alturas constantes

para as densidades elipsides. Isto significa que a densidade normal constante

em superfcies cujas distncias quadrticas X


 

) ( ) ( X  )
t

so constantes.

Esses padres so chamados de contornos ou curvas de nvel.

Contornos={todo X tal que X


 


) ( ) ( X  ) =c
t

(4.7)

A expresso (4.7) uma superfcie de uma elipside centrada em ,



cujos eixos possuem direo dos autovetores de -1 e seus comprimentos so
proporcionais ao recproco da raiz quadrada dos seus autovalores. Demonstra-se
que se i e ei so os autovalores e autovetores, respectivamente, de , ento a

elipside
c

( X  ) ( ) ( X  ) =c
t

centrada em e tem eixos na direo de




ei (i=1, 2, ..., p).




Considerando como ilustrao a densidade normal bivariada com

11 = 22 , os eixos da elipside dados por (4.7) so fornecidos pelos autovalores e


autovetores de . Portanto, para obt-los, a equao |-I|=0 deve ser resolvida.

11 i
12
2
= ( 11 i ) 122 = 0
12 11 i
= ( i 11 12 )( i 11 + 12 ) = 0

4. Distribuio normal multivariada

130

Conseqentemente os autovalores so:

1 = 11 + 12 e 2 = 11 12

Os autovetores so determinados por:

e i = i e i



Para i=1, tem-se:

11 12 e1
e = (11 + 12 )
12 11 2

e1
e
2

ou,

11 e1 + 12 e2 = (11 + 12 ) e1
12 e1 + 11 e2 = (11 + 12 ) e2

Essas equaes levam ao resultado de que e1=e2, e aps


normalizao, o primeiro autovetor :

e1 =


1
2

1
2

Ferreira, D.F.

Estatstica multivariada

131

De forma similar foi obtido o segundo autovetor, o qual :

e1 =


1
2

1
2

Se a covarincia positiva, 1 = 11 + 12 o maior autovalor e seu


autovetor associado se posiciona ao longo de uma linha de 450 atravs do ponto

t = [ 1 2 ] , para qualquer 12 > 0 . Os eixos so fornecidos por c i ei (i=1, 2)




e esto representados na Figura 4.4.

11

11

12
12

Figura 4.4. Curva de nvel de densidade constante para a distribuio normal


bivariada com 11 = 22 e 12 > 0 .

Anderson (1984) demonstra que a escolha de c2= p2 (), em que


p2 () o percentil (100) superior da distribuio de qui-quadrado com p graus de

4. Distribuio normal multivariada

132

liberdade, leva aos contornos que contm (1-)x100% de probabilidade. Para a


distribuio normal multivariada (p variada), a elipside dos valores de X

satisfazendo,

( X  ) ( ) ( X  )
t

2
p

()

(4.8)

tem probabilidade 1-.


Os contornos contendo 95% e 99% de probabilidade sob a
densidade normal bivariada das Figuras 4.2 e 4.3, esto representados nas

X2

Figuras 4.5 e 4.6.

99%
95%

0
0

X1

Figura 4.5. Curvas de nveis de 95% e 99% de probabilidade para a distribuio


normal bivariada apresentada na Figura 4.2, 11 = 22 e 12 =0.

Ferreira, D.F.

Estatstica multivariada

133

95%
99%

Figura 4.6. Curvas de nveis de 95% e 99% de probabilidade para a distribuio


normal bivariada apresentada na Figura 4.3, 11 = 22 e 12 =0,8.

A densidade (4.4) possui mximo quando X = . Portanto, o


 

ponto de mxima densidade ou moda, bem como o valor esperado de X , ou

mdia.

4.5. Distribuio amostral de X e S




Se a pressuposio de que as linhas de

4. Distribuio normal multivariada

134

x 11

x
= 21
p
#

x n1

x
x

12
22

n2

x
x

"
2p

% #
" x np
"

1p

se constituem numa amostra aleatria de uma populao normal com mdia e



covarincia for verdadeira, ento este fato suficiente para completamente
definir a distribuio amostral de X e de S. So apresentadas a seguir estas

distribuies amostrais, fazendo-se um paralelo com a distribuio amostral


univariada que j familiar e bem conhecida.
No caso univariado (p = 1), sabe-se que X possui distribuio normal
com mdia (mdia populacional) e varincia

2
n

O resultado para o caso multivariado (p2) similar a este, no


sentido que X possui distribuio normal com mdia e matriz de covarincia


(1/n).
Para a varincia amostral, caso univariado, sabe-se que a
distribuio de (n 1)S2 2 possui distribuio de qui-quadrado com n - 1 graus de
liberdade. Para o caso multivariado, a distribuio da matriz de covarincia

Ferreira, D.F.

Estatstica multivariada

135

chamada de distribuio de Wishart, aps sua descoberta, com (n 1) graus de


liberdade. Os resultados a seguir resumem detalhes destas distribuies:

Sendo X1 , X 2 , ..., X n uma amostra aleatria de tamanho n de uma populao


 

normal p-variada com mdia e matriz de covarincia . Ento,

1. X possui distribuio normal com mdia e matriz de covarincia (1/n).


2. (n-1)S possui distribuio de uma matriz aleatria de Wishart com n-1 gl.
3. X e S so independentes.

Devido a no ser conhecida, a distribuio de X no pode ser

usada diretamente para se fazer inferncia sobre . Felizmente, S fornece



informao independente sobre e a distribuio de S no depende de . Isto

permite que se construam estatsticas para fazer inferncia sobre , como ser

abordado no captulo 5.

Densidade da distribuio de Wishart

Seja S uma matriz positiva definida, com n>p, ento se pode definir,

wn1(S/ ) =

(np2)/2 tr(S 1)/2

p(n1)/2 p(p1)/4

(n1)/2

[
i=1

1
2

(n i)]

(4.9)

4. Distribuio normal multivariada

136

em que, (.) representa a funo gama.


Retornando ao caso da distribuio das mdias amostrais, o
resultado 4.1, sintetiza um importante teorema em estatstica.

Resultado 4.1. (teorema do limite central) Sendo X1 , X 2 , ..., X n uma amostra


 


aleatria de n independentes observaes de uma populao qualquer com mdia

e matriz de covarincia , finita e no singular. Ento,




n X possui distribuio aproximadamente normal Np( 0 , ) para grandes


 

amostras. Aqui n deve ser tambm bem maior do que p (nmero de variveis).

Como j foi comentado quando n grande, S converge em


probabilidade para , consequentemente, a substituio de por S causa efeitos
apenas negligveis nos clculos de probabilidades. Desta forma, utilizando a
expresso (4.8), pode-se obter o importante resultado, apresentado a seguir.

Resultado 4.2. (teorema do limite central) Sendo X1 , X 2 , ..., X n uma amostra


 


aleatria de n independentes observaes de uma populao qualquer com mdia

e matriz de covarincia , finita e no singular. Ento,




n X possui distribuio aproximadamente normal Np( 0 , )


 


n X 1 X se distribui aproximadamente como p2 para n - p grande.


 
 

Ferreira, D.F.

Estatstica multivariada

137

Para a distribuio normal univariada, se e so conhecidos, as


probabilidades sob a curva para a distribuio de X , podem ser obtidos das
tabelas da distribuio normal, ou da integral da funo apresentada em (4.1) nos
intervalos apropriados, com =0 e =1, sendo

z=

(4.10)

Alternativamente, pode-se obter a aproximao de Hasting (1955)


citado por Bock (1975), com erro mximo de 10-6, dada por

G se z 0
( z )
1 G se z > 0

(4.11)

em que,

Sendo que ( z ) representa a probabilidade acumulada sob a curva


da distribuio normal de - a z;

G = ( a1 + a2 2 + a3 3 + a4 4 + a5 5 ) ( z );

4. Distribuio normal multivariada

138

1
;
1 + 0,2316418| z|

(z) = (2 ) 2 e
1

z2

a1=0,319381530

a2=-0,356563782

a3=1,781477937

a4=-1,821255978

a5=1,330274429

4.6. Distribuies amostral


normal multivariada

derivada

da

distribuio

Teoria da Distribuio das grandes amostras


e distribuio exata
Na anlise dos dados freqentemente so utilizadas funes das
observaes chamadas estatsticas, as quais servem como estimadores dos
parmetros ou como critrio para os testes de hipteses. A importncia de tais

Ferreira, D.F.

Estatstica multivariada

139

estatsticas muitas vezes depende do conhecimento da (1) distribuio assumida


para as observaes, (2) do mtodo de amostragem, e (3) da natureza da funo
das observaes. H dois tipos de teoria amostral avaliada para derivar a
distribuio amostral. A teoria das grandes amostras, a qual fornece a distribuio
aproximada medida que o tamanho amostral cresce indefinidamente, e a teoria
das pequenas amostras ou teoria exata, a qual vlida para qualquer tamanho
amostral.
As

distribuies

derivadas

assumindo

tamanho

amostral

indefinidamente grande so chamadas de distribuies assintticas ou limitante.


A teoria assinttica especialmente simples, como conseqncia do teorema do
limite central que demonstra que muitas estatsticas tm distribuio normal como
limite. Para tais estatsticas necessrio somente obter a mdia e a varincia para
ter a distribuio assinttica.
A distribuio amostral sem considerar os argumentos da teoria
assinttica, geralmente depende do tamanho da amostra e pode ser no-normal
para pequenas amostras, mesmo se a forma limite for normal. Se este for o caso,
algum indicativo de qual tamanho amostral necessrio para uma dada acurcia
na teoria assinttica extremamente til para trabalhos prticos. Como exemplo,
pode citar que a distribuio de F, de razes de varincias, com 1 graus de
liberdade do numerador e 2 do denominador, se aproxima de qui-quadrado
dividido por 1 quando o valor de 2 cresce sem limite.

lim F(1 , 2 ) =

(21)
1

4. Distribuio normal multivariada

140

Comparando as tabelas de F e qui-quadrado dividido por 1, pode-se


concluir que ao nvel de 0,05, com erro de duas unidades na segunda casa
decimal, quando 2 for maior que 40, haver boa concordncia. Semelhantemente,
considerando o valor nominal de significncia de 0,01, verifica-se que a
concordncia com a mesma preciso se d quando o valor de 2 excede 100.

Distribuio da soma de quadrados de n desvios


normais aleatrios
Seja Z um vetor x 1 de observaes normais N(0,1) padronizadas.
A estatstica

(2) = Z' Z = z12 + z22 +...+ z2

(4.12)

distribuda como uma varivel qui-quadrado com graus de liberdade. Foi obtida
em 1876 por Helmert e independentemente em 1900 por Karl Pearson. A funo
de distribuio de qui-quadrado pode ser expressa pela funo gama incompleta.

P(2 / ) =

t ( 2 )1e 2 dt

2 ( 2) 0

(4.13)

Ferreira, D.F.

Estatstica multivariada

141

A funo de distribuio (4.13) pode ser aproximada para aplicaes


em computadores pela srie convergente apresentada a seguir.

P( / ) =
2

quando

e
n

n=0 ( + n +1)

(4.14)

1
1
< max( ,13) , e caso contrrio pela expanso assinttica:
2
2

2
1 (1)(2)
P( / ) 1e 1+ +
+...
2

(4.15)

Os valores de ( a) podem ser obtidos pela frmula de Stirling:

1
139
571
1
(a) =(a1)!eaaa1/2(2)1/2 1+ + 2

3
4
12a 288a 51840a 2488320a

(4.16)

A forma recursiva ( a +1) =a ( a ) e ( 2) = (1) pode ser usada quando


a for pequeno. Sabe-se que a mdia da distribuio de qui-quadrado, E( 2 ),
e que sua varincia 2. Para >30, as probabilidades podem ser obtidas usando
a aproximao normal assinttica usando
unitrio.

2 2 2 1 como um desvio normal

4. Distribuio normal multivariada

142

Razo entre independentes 2 (F de Fisher)

Sejam 12 e 22 , dois 2 independentes com 1 e 2 graus de liberdade,


respectivamente. Ento,

12 1
F= 2
2 2

possui distribuio de uma varivel F com 1 e 2 graus de liberdade. A


distribuio de F foi derivada por R. A. Fisher (1924). A funo de distribuio de F
pode ser aproximada pela srie convergente da funo beta incompleta:

Ix (a, b) =

xa (1 x)b B(a +1, n +1) n+1


1+
x
aB(a, b) n=0B(a + b, n +1)

em que, B( a, b ) =

( a )( b )
( a + b )

Ento,

P( F, 1 , 2 ) = 1 I x (

em que, x =

2 1
, )
2 2

2
2 + 1 F

(4.17)

Ferreira, D.F.

Estatstica multivariada

143

4.7. Verificando a normalidade

A pressuposio de que cada vetor de observao X j veio de uma



distribuio normal multivariada ser requerida nas tcnicas estatsticas que sero
abordadas nos captulos subsequentes. Por outro lado, nas situaes em que a
amostra grande e as tcnicas dependem apenas do comportamento de X , ou


distncias envolvendo X da forma n X S1 X , a pressuposio de


 
 

normalidade das observaes individuais X j menos crucial. Isto devido

aproximao da distribuio normal assinttica das principais estatsticas. No
entanto, melhor ser a qualidade da inferncia quanto mais prxima populao
parental se assemelhar da forma da distribuio normal multivariada. imperativo
que existam procedimentos para detectar os casos em que os dados exibam
desvios de moderados a extremos em relao ao esperado sob normalidade
multivariada.
Baseado na distribuio normal sabe-se que todas as combinaes
lineares de variveis normais so normais e que contornos da densidade normal
so elipsides. Devido s dificuldades de avaliao de um teste conjunto em todas
as dimenses, os testes para checar a normalidade sero concentrados em uma
ou duas dimenses. Obviamente se paga um preo por estas simplificaes, como
no revelar algumas caractersticas que s podem ser observadas em dimenses
maiores. possvel, por exemplo, construir uma distribuio no normal bivariada

4. Distribuio normal multivariada

144

com marginais normais. No entanto, muitos tipos de no normalidade so


revelados em geral nas distribuies marginais, e para aplicaes prticas ser
suficiente checar a normalidade em uma ou duas dimenses.

Verificando a validade da normalidade por meio


da distribuio marginal
Textos elementares muitas vezes recomendam que a normalidade
univariada seja investigada, examinando o histograma de freqncia amostral para
avaliar discrepncias entre as freqncias observadas e esperadas pelo ajuste da
distribuio normal. Usualmente, sugere-se tambm que as discrepncias sejam
submetidas ao teste de aderncia de qui-quadrado. Um 2 significativo (P<0,05)
tido como evidncia contra a normalidade da populao.
Apesar de este mtodo ter a virtude da simplicidade de computao
e ser livre do tipo de desvios da normalidade que esteja sendo testado (curtose,
assimetria, etc.), tem a desvantagem, quando aplicados a dados contnuos, de
depender da arbitrariedade da escolha dos intervalos de agrupamento dos dados.
Essa escolha determina a resoluo do histograma e o nmero de termos a ser
somado para obter a estatstica de 2 . Uma escolha errada pode conduzir a
resultados no consistentes. Se a escolha de a amplitude dos intervalos for muito
estreita, o histograma pode ser irregular e a acurcia do 2 pode ser grandemente
afetada devido aos pequenos valores esperados. Se os intervalos so largos,
desvios de normalidade podem ser obscurecidos tanto no histograma quanto no
teste de 2 .

Ferreira, D.F.

Estatstica multivariada

145

Uma melhor aproximao, evitando todas essas dificuldades,


conseguida fazendo uso de mtodos que no requerem agrupamento de escores.
Felizmente, excelentes procedimentos grficos e computacionais existem para
este propsito.

a) Distribuio de propores

A distribuio normal univariada possui probabilidade de 0,683 para


o intervalo

ii ; i + ii

e probabilidade de 0,954 para o intervalo

2 ii ; i + 2 ii (Figura 4.1). Consequentemente, para grandes amostras de

tamanho n, esperado que a proporo de P i1 observaes contidas no intervalo

[X

s ii ; X i + s ii

seja de cerca de 0,683, e de forma semelhante, espera-se

que a proporo P i2 de observaes em X i 2 s ii ; X i + 2 s ii seja de cerca de


0,954. Usando a aproximao normal da distribuio de P i , ento se

| P i1 0,683 | > 3

0,683 0,317 1,396


=
n
n

| P i 2 0,954 | > 3

0,954 0,046 0,628


=
n
n

4. Distribuio normal multivariada

146

devem indicar desvios da distribuio normal para i-sima caracterstica (Johnson


& Wichern, 1988).

b) Processos grficos
Os grficos so em geral teis para avaliar desvios da normalidade.
Dois processos grficos sero considerados neste captulo.

i) Q-Q plot

Esses grficos so obtidos da distribuio marginal das observaes


de cada varivel. Consiste em plotar em um plano cartesiano os percentis
amostrais versus os percentis esperados pelo ajuste de uma distribuio normal.
Se os pontos pertencem a uma linha reta a pressuposio de normalidade deve
ser aceita.
Sejam x1, x2, ..., xn as n observaes de uma varivel X. Sejam x(1),
x(2), ..., x(n) essas observaes ordenadas crescentemente, ou seja, x(1) a menor
observao e x(n) a maior. Quando os x(j) so distintos, exatamente j
observaes so menores ou iguais a x(j) (isto teoricamente verdadeiro quando
as observaes so do tipo contnuo, o que em geral ser assumido). A proporo
amostral j/n aproximada por (j-)/n, onde usado para correo de
descontinuidade.
Os percentis esperados sob normalidade so dados por (q(j)):

Ferreira, D.F.

j 12
=
n

Estatstica multivariada

q( j )

1
2

e z

/2

dz

147

(4.18)

Os percentis q(j) podem ser obtidos, como se percebe por (4.18), pela
inverso da funo de distribuio de probabilidade da normal, em rotinas
apropriadas em computadores ou atravs de tabelas da distribuio normal.
(Tabela A.1).
Os percentis q(j) e x(j) so plotados em um sistema cartesiano com q(j)
na abscissa e x(j) na ordenada. Desvios da normalidade podem ser observados
pela inspeo deste tipo de grfico, cujos pontos, quando da normalidade devem
pertencer a uma linha reta de mnimos quadrados. No exemplo 4.1 ilustram-se os
clculos necessrios para obteno dos Q-Q plots.

Exemplo 4.1
Seja uma amostra (n=10) obtida de uma populao normal N(3; 4) apresentada a
seguir. Neste caso, a observao 4 constitui-se um outlier, propositadamente
gerado.

{3,74; 2,91; 4,79; 8,65; 2,06; 4,59; 4,02; 0,46; 1,79; 3,30}

Dessa forma para se obter o Q-Q plot necessrio os seguintes


passos:

4. Distribuio normal multivariada

148

1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de
probabilidade acumulada (j-)/n.
j

x(j)

(j-)/n

q(j)

1
2
3
4
5
6
7
8
9
10*

0,46
1,79
2,06
2,91
3,30
3,74
4,02
4,59
4,79
8,65

0,05
0,15
0,25
0,35
0,45
0,55
0,65
0,75
0,85
0,95

-1,645
-1,036
-0,675
-0,385
-0,126
0,126
0,385
0,675
1,036
1,645

2) calcular os percentis da distribuio normal padro.

Ex. Para a observao 1 tem-se:

j 12 1 12
=
= 0, 05 =
n
10

q(1)

1
2

e z

/2

dz

Portanto, q(1) = -1,645, e assim sucessivamente.

3) plotar (q(1), x(1)), (q(2), x(2)), ..., (q(n), x(n)) e examinar os resultados

Ferreira, D.F.

Estatstica multivariada

10

149

Q-Q Plot
Outlier

X(j)

0
-2

-1

Q(j)

Figura 4.7. Q-Q plot para os dados do exemplo 4.1, destacando a presena de um
outlier.

Observa-se que os pontos amostrais se situam praticamente em uma


linha reta de mnimos quadrados, com exceo da presena de um outlier,
destacado na Figura 4.6. O procedimento adequado seria de eliminar esta

4. Distribuio normal multivariada

150

observao e refazer a anlise para os dados amostrais remanescentes, o que


deixado a cargo do leitor.
Este processo grfico, embora bastante poderoso para se verificar
desvios da normalidade no constitui num teste formal deste propsito. Para
contornar esta limitao, Johnson & Wichern (1988) apresentam um teste
complementar a este processo grfico, o qual mede o ajuste dos pontos do Q-Q
Plot a linha reta de mnimos quadrados por meio de uma medida de um
coeficiente de correlao apresentada a seguir.

(x
n

rQ =

j=1

(x

x
2

j=1

( j)

( j)

) (q

( j)

) (q
n

j=1

( j)

(4.19)

Um poderoso teste de normalidade pode ser construdo tomando-se


por base este coeficiente de correlao (4.19). Formalmente rejeita-se a hiptese
de normalidade se o valor calculado for menor que os valores crticos para um
determinado nvel de significncia (Tabela 4.1).

Ferreira, D.F.

Estatstica multivariada

151

Tabela 4.1. Valores crticos para o teste para normalidade baseado no coeficiente
de correlao Q-Q plot.
Tamanho amostral

Nvel de significncia ()

0,01

5
0,8299
10
0,8801
15
0,9126
20
0,9269
25
0,9410
30
0,9479
40
0,9599
50
0,9671
60
0,9720
75
0,9771
100
0,9822
150
0,9879
200
0,9905
300
0,9935
Fonte: Johnson & Wichern (1998)

0,05

0,10

0,8788
0,9198
0,9389
0,9508
0,9591
0,9652
0,9726
0,9768
0,9801
0,9838
0,9873
0,9913
0,9931
0,9953

0,9032
0,9351
0,9503
0,9604
0,9665
0,9715
0,9771
0,9809
0,9836
0,9866
0,9895
0,9928
0,9942
0,9960

Exemplo 4.1 (continuao)


Calculando a correlao amostral, atravs de (4.19), obteve-se:

rQ =

18, 77109
44,15849 8, 798094

= 0,9523

Como, o valor tabelado ao nvel de 5% de probabilidade (0,918)


inferior ao valor calculado (0,9523), ento, no existe razo para duvidar da
hiptese de normalidade.

4. Distribuio normal multivariada

152

ii) Grfico das probabilidades acumuladas

Um segundo processo grfico, bastante utilizado, refere-se aos


grficos em que so plotados as probabilidades amostrais acumuladas versus
probabilidades acumuladas da distribuio normal (Bock, 1975). O algoritmo :

1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de
probabilidade acumulada pj = (j-)/n, amostrais.

2) Calcular a mdia amostral e o desvio padro viesado

Sn =

Xj

n
j=1

X2j

n
j=1
n

(4.20)

3) Obter as probabilidades normais acumuladas utilizando (4.11) ou tabelas da


distribuio normal, atravs de:

Zj =

Xj X
Sn

Pj=(Zj)

Ferreira, D.F.

Estatstica multivariada

153

4) Plotar Pj (abcissa) contra pj (na ordenada)

Exemplo 4.2
Com os dados do exemplo 4.1, o algoritmo apresentado no item (ii) foi executado,
resultando nos seguintes valores:
j
1
2
3
4
5
6
7
8
9
10*

x(j)

pj = (j-)/n

Pj

0,066
0,05
0,46
0,189
0,15
1,79
0,227
0,25
2,06
0,367
0,35
2,91
0,436
0,45
3,30
0,520
0,55
3,74
0,575
0,65
4,02
0,677
0,75
4,59
0,709
0,85
4,79
0,992
0,95
8,65
Na Figura 4.8 esto plotados os pontos Pj (abcissa) contra pj (na

ordenada).

1.0

0.8

0.6

pj
0.4

0.2

0.0
0.0

0.2

0.4

0.6

0.8

1.0

Pj

Figura 4.8. Grfico normal acumulado da amostra simulada no exemplo 4.1.

4. Distribuio normal multivariada

154

Se a populao for normal, os pontos tendem a cair em uma linha


definida pela reta Pj=pj. Uma vez que o grfico apresenta efeitos cumulativos, os
pontos no so independentes e ainda pode-se afirmar que sucessivos pontos
no tendero a se situar aleatoriamente em ambos os lados da linha. Em outras
palavras, um grupo de pontos sucessivos poder estar de um lado da reta ou de
outro, sem ser um indicativo de desvio da normalidade. Alguma familiaridade com
este tipo de grfico indicar a forma da distribuio e os desvios da normalidade
que possam ocorrer.
De maneira geral, as situaes mais comuns devem se enquadrar
nos seguintes tipos de grficos. Distribuies assimtricas esquerda tendero a
ter seus pontos de extremos no lado superior da reta, e os pontos intermedirios
no lado inferior da mesma. Para distribuies assimtricas direita, o oposto deve
ocorrer, ou seja, pontos extremos no lado inferior da reta e pontos intermedirios
no lado superior.
Os achatamentos da distribuio, conhecidos por curtose, tambm
podem ser detectados. Nas distribuies leptocrticas, os pontos de menor
densidade acumulada se concentram no lado inferior da reta, vindo a cruz-la no
centro. Os pontos de maior densidade se concentram no lado superior da reta, a
partir do centro. Nas distribuies platicrticas, o oposto se d, ou seja, pontos de
menor densidade acumulada se concentram no lado superior, e os pontos de
maior densidade no lado inferior da reta, vindo a cruz-la no centro. Distribuies
bimodais possuem grficos que representam os casos extremos da distribuio
platicrtica.

Ferreira, D.F.

Estatstica multivariada

155

c) Uso dos momentos

Os momentos no centrados para a mdia, podem ser calculados a


partir dos dados amostrais, fazendo 1/n como densidade para cada ponto
amostral. Desta forma, pode-se definir, o r-simo momento amostral no centrado
para mdia por:

n
~ =1
m
x rj
r
n j=1

(4.21)

Pode-se ento, definir a mdia amostral, e o segundo, terceiro e


quarto momentos centrados na mdia, em funo dos momentos no centrados
por:

Mdia:

 1 = 0

(4.22)

Varincia:

~
~ m
~2
2 = m
2
1

(4.23)

Assimetria

~
~ 3m
~ m
~ + 2m
~3
3 = m
3
1
2
1

(4.24)

Curtose

 4 4 m
1 m
 3 + 6m
 12 m
 2 3m
 14
 4 = m

(4.25)

4. Distribuio normal multivariada

156

Os valores amostrais de o coeficiente de assimetria e curtose so,


respectivamente:

b1 =

3
~
~
2
2

(4.26)

b 2 = ~ 42
2

(4.27)

O coeficiente de assimetria populacional, para a distribuio normal,

1 = 0 e o coeficiente de curtose 2=3. Se

assimtrica esquerda, caso contrrio,

1 < 0 , ento, a distribuio

1 > 0 , a distribuio assimtrica

direita. Distribuies com 2<3 so platicrticas (menos pontudas com caudas


mais baixas do que a normal), e aquelas com 2>3 so leptocrticas (mais
pontudas e com caudas mais altas do que a normal).

Exemplo 4.3
Utilizando os dados do exemplo 4.1 calcular os momentos e os coeficientes de
assimetria e curtose amostrais.

Ferreira, D.F.

Estatstica multivariada

157

x2

x3

x4

0,46
1,79
2,06
2,91
3,30
3,74
4,02
4,59
4,79
8,65
36,31

0,2116
3,2041
4,2436
8,4681
10,8900
13,9876
16,1604
21,0681
22,9441
74,8225
176,0001

0,0973
5,7353
8,7418
24,6422
35,9370
52,3136
64,9648
96,7026
109,9022
647,2146
1046,2520

0,0448
10,2663
18,0081
71,7087
118,5921
195,6530
261,1585
443,8648
526,4317
5598,4070
7244,1350

Tm-se:
~ =36,31/10=3,631
m
1

~ =176,0001/10=17,6000
m
2

~ =1046,2520/10=104,6252
m
3

~ =7244,135/10=724,4135
m
4

~ = 3,631

~ = 17,6 - (3,631)2 = 4,4158

~ = 104,6252 - 3 x 3,631 x 17,6 + 2 x (3,631)3 = 8,6518

~ = 724,4135 - 4 x 3,631 x 104,6252 + 6 x (3,631)2 x 17,6 - 3 x (3,631)4 = 75,6182

4. Distribuio normal multivariada

158

b 1 = 8,6518/(4,4158 x 4,41581/2 ) = 0,9324

b2 = 75,6182/(4,4158)2 = 3,8780

c.1) Uso do coeficiente de assimetria

Para se avaliar o grau de assimetria da distribuio, um teste


baseado no coeficiente de assimetria (4.26), pode ser realizado. Nveis crticos
para a estatstica

b 1 , podem ser encontrados em Pearson e Hartley (1966) para

n>24, e em DAgostino e Tietjen (1973) para n variando de 5 a 35. A assimetria


ser esquerda se

b1

for negativo, e direita se

significativamente. Em grandes amostras, os valores crticos de

b1

for positivo,
b 1 podem ser

obtidos com boa aproximao usando como desvio da normal padro a estatstica:

Z1 = b1

(n + 1)(n + 3)
6(n 2)

(4.28)

c.2) Uso do coeficiente de curtose

Valores crticos para o coeficiente de curtose (4.27), podem ser


encontrados em Pearson e Hartley (1966) para n>49 e DAgostino e Tietjen (1971)

Ferreira, D.F.

Estatstica multivariada

159

para n variando de 7 a 50. Em grandes amostras, os valores crticos para o teste


de achatamento da curva, podem ser aproximados usando como desvio normal a
seguinte estatstica:

6 (n +1)2 (n +3) (n +5)

Z2 = b2 3 +

n +1 24n(n 2) (n 3)

(4.29)

Valores de b2 maiores que 3 indicam que a distribuio mais


pontuda com caldas mais altas do que a normal; valores menores que 3 indicam
uma distribuio achatada no centro e com caudas mais baixas do que a
distribuio normal.

Exemplo 4.3 (continuao)


Os valores de Z1 e Z2, para o teste de assimetria e curtose foram:

Z1=1,609 com P(Z>|Z1|)=0,1074

Z2=1,886 com P(Z>|Z2|)=0,0592

Desta forma, ao nvel de 5% de probabilidade se aceita a hiptese de


simetria e de no achatamento da curva, demonstrando no se ter desvio da
normalidade.

4. Distribuio normal multivariada

160

Verificando a normalidade multivariada


Em geral se deseja verificar a normalidade para dimenses
superiores a 1, ou seja, para a distribuio p-variada, p2. Mesmo que seja
suficiente, como j comentado anteriormente, avaliar apenas as distribuies
univariadas e bivariadas o procedimento apresentado nessa seo vlido para
qualquer p. O caso bivariado ser enfocado nesta seo, devido s facilidades de
clculos para fins didticos.
Pelo resultado 4.2, dado vetor X com distribuio normal p-variada,

tem-se que,

( x  ) ( x  ) (1)
t

2
p

Atravs deste resultado, pode-se ento, generalizar o processo


grfico conhecido como Q-Q plot. Dada uma amostra bivariada com n
observaes, o algoritmo seguinte pode ser usado para generalizar o processo
grfico mencionado. importante salientar que este processo no limitado
apenas ao espao bidimensional.
O algoritmo ser apresentado, utilizando os dados do exemplo 1.1,
com X1 representando a quantidade de reais pela venda de rao, e X2 sendo o
nmero de sacos de raes vendidos, por n = 4 firmas de Minas Gerais.

Ferreira, D.F.

Estatstica multivariada

161

Exemplo 4.4
1) Calcular a distncia quadrada generalizada amostral d(j) de cada observao
em relao mdia amostral, dada por:

d 2j = (x j x) 'S1 (x j x) , j=1, 2, ..., n


 
 

Os valores da mdia e da matriz de covarincia amostrais foram


apresentados no exemplo 1.2, e so:

333,333 20,000
100
X= e S=

 9
20,000 6,667

A matriz inversa de S :

0,0037 0,0110
S 1 =
0,1829
0,0110

A distncia generalizada para primeira observao :

0, 0037 0, 0110 80 100


= 2, 0853
d12 = [80 100 10 9]
0,1829 10 9
0, 0110

E assim sucessivamente, para as demais observaes:

4. Distribuio normal multivariada

162

d 22 = 1,7926; d 32 = 1,3536 e d 24 = 0,7683.

2) ordenar as distncias quadrticas amostrais do menor para o maior


2
d (1)
d (22 ) ... d (2n ) .

3) Obter os valores correspondentes, percentis, de probabilidade acumulada


q(j)= 2p ((j-)/n), da distribuio de qui-quadrado. Estes percentis dependem da
inversa da funo de distribuio de qui-quadrado, e podem ser obtidos em vrios
softwares estatsticos.

d (2j)

(j-)/n

q(j)

1
2
3
4

0,7683
1,3536
1,7926
2,0853

0,125
0,375
0,625
0,875

0,2671
0,9400
2,2479
4,1589

4) Plotar ( d (2j) ; q(j)) e examinar os resultados

Ferreira, D.F.

Estatstica multivariada

163

q(j)

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0

2.2

d(j)

Figura 4.9. Q-Q plot para os dados do exemplo 1.1, destacando a possibilidade de
utilizao deste processo para os casos de dimenses superiores ou
iguais a 2.

Pela Figura 4.9, verifica-se que no existem razes para duvidar de


que a distribuio do nmero de sacos de raes vendidos e o montante de
dinheiro arrecadado pelas firmas de raes em Minas Gerais, no seja normal
bivariada, apesar do pequeno tamanho de amostras.

Verificando a normalidade multivariada por meio


da curtose e assimetria de Mardia
Os coeficientes de assimetria e curtose de uma distribuio
multivariada qualquer so definidos por:

4. Distribuio normal multivariada

{(

1,p = E X 1 Y
 
 

164

)}

(4.30)

em que a varivel X independente de Y , mas tem a mesma distribuio com




mdia e covarincia ; e


{(

2,p = E X 1 X
 
 

)}

(4.31)

Essas esperanas para a distribuio normal multivariada so:

1,p = 0 e 2,p = p(p + 2)

Para uma amostra de tamanho n, os estimadores de 1,p e 2,p so:

1
1,p = 2
n

g
i =1 j=1

3
ij

1 n
1 n
2,p = g i2i = d i4
n i =1
n i =1
em que,

g i j = ( X i X ) Sn1


t

( X

X) e


di = gi i

Ferreira, D.F.

Estatstica multivariada

165

Os estimadores 1,p (quadrado do coeficiente de assimetria quando


p=1) e 2,p (igual ao coeficiente de curtose univariado quando p=1) so no-

( )

negativos. Sob distribuio normal multivariada espera-se que a E( E 1,p ) seja


zero. O estimador 2,p muitas vezes usado para avaliar observaes que esto a
grandes distncias da mdia amostral.
Mardia (1970) mostra que para grandes amostras,

k1 =

n 1,p
6

segue a distribuio de 2 com p(p+1)(p+2)/6 graus de liberdade, e

k2 =

2 ,p

p(p + 2)

8p(p + 2)

1/ 2

segue a distribuio normal padro. Para pequenos valores de n, as tabelas de


valores crticos para testar a hiptese multivariada de normalidade so fornecidas
por Mardia (1974).

Exemplo 4.5
Usando o exemplo das raes testar a normalidade multivariada pelo teste dos
desvios de assimetria e curtose. Os valores amostrais so:

4. Distribuio normal multivariada

Obs
1
2
3
4

166

Reais
80
120
90
110

Vendas
10
12
6
8

As estatsticas amostrais so:

250 15 1 0,004878 0,014634


100
1 5 15
ou S n1 =
X = Sn =
Sn =

 9
0,243902
1025 15 250
15 5
0,014634

Os desvios de cada observao da mdia amostral ( i ):




1. 1t = [ 20 1] 2. 2t = [ 20 3]



3. 3t = [ 10 3]


4. 4t = [10 1]


i) Teste baseado no coeficiente de assimetria


necessrio calcular os valores de gij para todos os pares de i e j,
obtidos da seguinte forma:

20
Para i=1 e j=1, g 1 1 = [ 20 1]Sn1
= 2,7805
1

20
Para i=1 e j=2, g1 2 = [ 20 1] Sn1 = 0, 6341
3

Ferreira, D.F.

Estatstica multivariada

167

Para as demais combinaes, tm-se: g1 3=-0,4878, g1 4=-1,6585,


g2 2=2,3902, g2 3=-1,8537, g2 4=0,0976, g3 3=1,8049, g3 4=0,5366 e g4 4=1,0244.

Logo,

( 2, 7805

1,2 =

+ 2(0, 6341)3 + " + 1, 02443 )


16

=1,2766

ento,

k1 =

n 1, 2
6

4 1,2766
= 0,8511
6

Como k1 2 com p(p+1)(p+2)/6=4 graus de liberdade, e sabendo


que 02,05; 4 = 9,488 , ento H0 no deve ser falseada, ou seja, no existe razes
para suspeitar da violao da simetria da distribuio multivariada.

ii) Teste baseado no coeficiente de curtose

Inicialmente, estima-se o coeficiente de curtose da seguinte forma:

1 n 2 1
17,7513
2
2
2
2
= 4,4378
2,p = g i i = 2,7805 + 2,3902 + 1,8049 + 1,0244 =
n i =1
4
4

4. Distribuio normal multivariada

168

em seguida, estima-se o valor estimado da normal (0, 1):

k2 =

4, 4378 2(2 + 2)
8 2 4

3,5621
= 0,8905
4

No existem razes para duvidar de que a distribuio multivariada


tenha algum desvio de curtose, uma vez que k 2 < z 0, 025 = 1,96 .

iii) Programa SAS para o teste de normalidade

A seguir so apresentados um programa SAS usando o Proc Calis


para o teste da curtose e um programa em IML, para ambos parmetros. O
programa fornece as estatsticas amostrais e os valores das significncias
observadas.
Data FR;
Input Reais Vendas;
cards;
80 10
120 12
90 6
110 8
;
Proc Calis data=FR Kurtosis;
Title1 j=1 "Uso do Calis para testar a
normalidade";
Title2 "pela Curtose de Mardia";
Lineqs
Reais=e1,
vendas=e2;
std
e1=eps1, e2=eps2;
Cov
e1=eps1, e2=eps2;
Run;

Proc IML;
use FR;
read next 4 into X; /* lendo n observacoes dentro de X */
n=nrow(X);p=ncol(X);
dfchi=p*(p+1)*(p+2)/6; /*definindo GL para B1,p
*/
q=i(n) - (1/n)*j(n,n,1); /* criando q=I-1/nJ, auxiliar
*/
S=(1/n)*x`*q*x;
/* matriz de covariancias viesada
*/
S_inv=inv(S);
/* inversa de S
*/
print s s_inv;
g=q*x*s_inv*x`*q;
/* matriz com gij
*/
print g;
beta1=(sum(g#g#g))/(n*n); /*produto elem. a elem. E sua soma/n^2 */
beta2=trace(g#g)/n; /* idem com tomada do traco/n
*/
print beta1 beta2;
k1=n*beta1/6; /* definindo k1 e k2, transformacoes de b1,p e b2,p */
k2=(beta2-p*(p+2))/sqrt(8*p*(p+2)/n);
pvalskew=1-probchi(k1,dfchi); /* calculo dos p_values respectivos
*/
pvalkurt=2*(1-probnorm(abs(k2)));
print k1 pvalskew;
print k2 pvalkurt;
Quit; /* abandonando IML
*/

Ferreira, D.F.

Estatstica multivariada

169

Finalmente apresentado a seguir um programa SAS para orientar


os leitores na simulao de dados com distribuio normal multivariada com mdia
e covarincia especificada. O exemplo apresentado gera uma distribuio normal
trivariada.

Proc IML;
n=100;p=3;
SIG={8 4 1,
4 10 3,
1 3 18};
st=Root(sig);
mu={1, 10, 8};
x=j(n,p,0);
zi=j(p,1,0);
do i=1 to n;
do ii=1 to p;
zi[ii]=rannor(0);
end;
xi=st`*zi+mu;
do ii=1 to p;
x[I,ii]=xi[ii];
end;
end;
print x;
create dtnorm from x;
append from x;
quit;
proc print data=dtnorm;
run;quit;

4. Distribuio normal multivariada

170

4.8. Exerccios

4.8.1. Com os dados do exemplo 4.4, tendo como hiptese que os mesmos
seguem a distribuio normal bivariada, utilize o resultado 4.2, ao nvel de
50%, de que as distncias generalizadas seguem a distribuio
qui-quadrado. Utilizando ento a distribuio de propores, item (a),
verifique a normalidade bivariada dos dados, contando a proporo
observada ( P i ) de distncias que pertencem a elipse, e comparando com a
estatstica abaixo.

| P i 0,5 | > 3

0,5 0,5 1,5


=
n
n

4.8.2. Utilizando os dados deste exemplo (1.1), realize todos os testes univariados,
propostos, neste captulo, para ambas variveis.

4.8.3. Utilizando os dados climticos, obtidos por Diniz (1996), na fazenda


Cooparaso-EPAMIG, Jacu, MG, de agosto de 1994 a janeiro de 1995,
teste a pressuposio de normalidade tridimensional dos mesmos. Utilize
para isso, o processo grfico apresentado, e o teste do exerccio nmero
4.8.1 e o teste baseado nos desvios de assimetria e curtose de Mardia.

Ferreira, D.F.

Estatstica multivariada

171

Temperatura

Umidade Relativa (%)

Precipitao (mm)

22,7
23,7
24,3
24,4
24,5
25,2
25,5
24,7
24,3
24,7
24,9

64,1
56,1
54,9
58,2
62,8
70,3
75,2
81,4
79,3
74,6
78,0

7,9
1,5
0,0
0,0
8,7
22,5
57,0
75,7
123,2
124,4
148,0

4.8.4. Utilize os dados de uma amostra de 24 cochonilhas, fmeas adultas, de

Quadraspidiotus perniciosus (Comst.), por ramo de pessegueiro, na regio


de Jacu-MG, e teste a pressuposio de normalidade dos dados, utilizando
os procedimentos apresentados univariados na seo 4.7.
0,8 1,0 0,6 0,6 0,2 0,8 2,5 1,5 0,3 1,7 1,9 2,5 1,1 5,0 0,9 1,7 2,6 4,5
1,8 1,0 0,5 0,4 1,8 0,7

||[

Inferncias sobre o vetor mdia

]||

5.1. Introduo

Este captulo o primeiro deste material a apresentar inferncias,


utilizando as tcnicas, os conceitos e os resultados apresentados nos captulos
prvios. Este captulo, por estar intimamente relacionado inferncia estatstica,
ou seja, voltado para obteno de concluses vlidas para a populao com
base nas informaes amostrais. As inferncias realizadas neste captulo so
relativas a vetor populacional de mdias e nos seus componentes. Umas das
mensagens centrais da anlise multivariada, que dever ser abordada neste e nos
prximos captulos, que p variveis correlacionadas devem ser analisadas
simultaneamente.

5.2. Inferncias sobre mdia de uma populao


normal
Nesta seo sero abordados os testes de significncia e a obteno
de intervalos de confiana (IC) para a mdia de uma populao normal.

5. Inferncias sobre o vetor mdia

172

Inicialmente ser abordado o problema de verificar se um determinado valor 0



um possvel valor (plausvel) para a verdadeira mdia populacional desconhecida.
Do ponto de vista dos testes de hipteses este problema pode ser abordado
atravs do teste:

H0 : = 0
 

H1 : 0
 

vs

aqui, H0 a hiptese nula e H1 a hiptese (bilateral) alternativa. Considerando o


caso univariado, e se X1, X2, ..., Xn representam uma amostra aleatria extrada de
uma populao normal, o teste estatstico apropriado para esta hiptese, quando p
igual a 1, :

t=

( X ) , em que, X = 1 X
0

S
n

n j=1

e S2 =

1 n
(Xj X)2 .
n 1 j=1

O teste em questo segue a distribuio de t-student com n-1 graus


de liberdade. A hiptese H0 ser rejeitada se o valor observado de |t| exceder um
valor crtico especificado da distribuio de t-student com n-1 graus de liberdade
(GL).
Analogamente, considerando agora a distncia quadrada da mdia
amostral X para o valor a ser testado, pode-se rejeitar H0 a um nvel de
significncia , se

Ferreira, D.F.

Estatstica multivariada

173

t2 = n(X0)(S2)1 (X0) tn21( 2)

(5.1)

em que, t n2 1 ( / 2) representa o quantil quadrtico superior 100(/2) da distribuio


de t-student com n-1 GL.
Se H0 no rejeitada, ento se conclui que 0 um valor plausvel
para representar a mdia populacional normal. No entanto, uma pergunta natural
pode surgir: existem outros valores de que so consistentes com os dados? A
resposta sim. De fato, existe um conjunto de valores plausveis que serviriam
como

mdia

para

populao

normal

estudada.

Da

bem

conhecida

correspondncia entre a regio de aceitao dos testes de hipteses e o intervalo


de confiana para tem-se:

X 0
< tn1( / 2) (no rejeitar H0) equivalente a:
S
n

X t n 1 ( / 2 )

S
S
0 X + t n 1 ( / 2 )
n
n

(5.2)

Antes de a amostra ser retirada, o intervalo de confiana de


100(1-)% de (5.2) um intervalo aleatrio, pois seus limites dependem das
variveis aleatrias X e S. A probabilidade do intervalo conter 100(1-)% e

5. Inferncias sobre o vetor mdia

174

entre um grande nmero independentes de tais intervalos, 100(1-)% deles


contero .
considerada agora a generalizao do caso univariado para o
multivariado. O problema de determinar se um dado vetor 0 (p x 1) um valor

plausvel da mdia de uma distribuio normal multivariada. Uma generalizao da
distncia quadrada apresentada em (5.1) :

T 2 = n X 0 S1 X 0
 
 

(5.3)

em que,

t
1 n
1 n
X = Xj , S =
X j X )( X j X )
(

 n j=1 
 

n 1 j=1 

01

02
e 0 =
#


0p

A estatstica T2 chamada de chamada de T2 de Hotelling, em honra


a Harold Hotelling (Bock, 1975), um pioneiro da estatstica multivariada, que pela
primeira vez obteve a sua distribuio. Felizmente, tabelas especiais dos pontos
percentuais para a distribuio T2 no so necessrias na realizao dos testes de
hipteses, devido estatstica:

T2 ser distribuda como

(n 1)p
Fp,n p
np

(5.4)

Ferreira, D.F.

Estatstica multivariada

175

em que, Fp,n-p representa uma varivel com distribuio F com p e n-p GL.
De uma forma geral a distribuio de T2 considerando graus de
liberdade e dimenso p dada por:

T 2 = Fp,+1 p

p
+1 p

(5.5)

Desta forma para se testar a hiptese H 0 : = 0 versus H1 : 0 ,


 
 
no valor nominal de significncia, deve-se rejeitar H0 em favor de H1 se

t
(n 1)p
T 2 = n X 0 S1 X 0 >
Fp,n p ()
 
 
np

(5.6)

Infelizmente, raro, nas situaes multivariadas, o pesquisador se


satisfazer com o teste da hiptese H 0 : = 0 , em que todos os componentes do
 
vetor mdia so especificados sob a hiptese de nulidade. Em geral prefervel
encontrar regies de valores de que so plausveis para serem o vetor de mdia

populacional na luz dos dados observados.

Exemplo 5.1
A matriz X, apresentada a seguir, representa uma amostra de n=3 observaes
retiradas de uma distribuio normal bivariada.

5. Inferncias sobre o vetor mdia

176

11 2
X = 10 4
9 3

Teste a hiptese de que 0t =[9 2] seja um valor plausvel para representar a mdia

populacional.
A estatsticas amostrais so:

10
1,0 0,5
X= e S=

 3
0,5 1,0

Ento,

S1 =

1 4 2
3 2 4

E o valor de T2 ser obtido da seguinte forma:

T 2 = 3 [10 9 3 2]

1 4 2 10 9
= 12
3 2 4 3 2

O valor de F2,1 ao nvel de 5% 199,5, ento, H0 ser rejeitada se o


valor observado de T2 superar

Ferreira, D.F.

Estatstica multivariada

177

(n 1)p
4
F2,1 = 199,5 = 798,0 .
1
np

Como neste caso, o valor de T2 observado (12,0) foi inferior ao valor


crtico (798,0), ento, H0 no deve ser rejeitada. importante salientar neste
ponto, que a hiptese H0 ser rejeitada se um ou mais dos componentes do vetor
mdia amostral, ou alguma combinao de mdias, diferir muito do valor hipottico
0t = [9 2]. Neste estgio, no se tem idia de quais os valores hipotticos no so


suportados pelos dados.

5.3. Regio
de
confiana
e
Comparaes
simultneas de componentes de mdia
Ser inicialmente, generalizado o conceito univariado de intervalo de
confiana para o multivariado de regio de confiana, R(X). A regio de confiana
conter 100(1-)% se antes de a amostra ser selecionada,

P[R(X) cobrir o verdadeiro ] = 1




(5.7)

em que , representa um vetor de parmetros desconhecidos (Krzanowski, 1993).



No caso, a regio de confiana para de uma distribuio normal p variada, ser

todos os valores de tais que:


5. Inferncias sobre o vetor mdia

178

(n 1)p
P n X S1 X
Fp,n p ()
 
np
 

(5.8)

Para determinar se um dado valor 0 um valor plausvel de ,




basta calcular a distncia quadrada generalizada n(X ) t S1 (X ) e comparar
 
 
com

(n 1)pFp,n p () /(n p) .

Se

distncia

quadrada

for

maior

que

(n 1)pFp,n p () /(n p) , ento 0 no pertence regio de confiana. Isto



equivalente a testar a hiptese H0: = 0 contra a H1: 0, a qual possibilita
 
 
afirmar que a regio de confiana constitui-se em todos os valores de 0 cujo

teste T2 no rejeitaria a hiptese nula a favor da alternativa, em um nvel de
significncia .
Para p4 no se pode fazer o grfico da regio de confiana para .

Pode se, no entanto, calcular os eixos da elipside de confiana e seus tamanhos
relativos, os quais so determinados pelos autovalores i e autovetores ei de S.

Os tamanhos dos semi-eixos de

t
p(n 1)
n X S1 X c2 =
Fp,np ()
 
 
n p

so determinados por

) (

Ferreira, D.F.

i c
n

Estatstica multivariada

179

= i [p(n 1)Fp,n p ()]/[n(n p)] unidades ao longo de ei .




Comeando do centro, determinado por X , os eixos da elipside



so:

i [p(n 1)Fp,n p ( )] /[n(n p)] ei




Exemplo 5.2
A partir dos dados do exemplo 5.1, obter a regio de confiana de 95%, e verificar
se o ponto 0t =(13, 4) pertence a mesma.


10
1,0 0,5
1 4 2
1
=
e
S
X = , S=

 3
3 2 4
0,5 1,0

Os autovalores e autovetores de S, so:

1 = 1,5

e1t = [ 0, 707107 0, 707107 ]




2 = 0,5

e 2t = [ 0, 707107


0, 707107 ]

5. Inferncias sobre o vetor mdia

180

A elipse de confiana 95% para consiste de todos os valores



(1, 2) que satisfazem:

1 4 2 10 1 2 (2)
3 [10 1 , 3 2 ]

199,5
3 2 4 3 2
1

ou, 4(10 1 ) 2 + 4(10 1 )(3 2 ) + 4(3 2 ) 2 798

Para verificar se o ponto 0t =(13, 4) pertence a elipse, calcula-se:




4(10 13) 2 + 4(10 13)(3 4) + 4(3 4) 2 = 52 798,0

o que permite que se conclua que o ponto testado est na regio de confiana. O
grfico da elipse obtida pode ser visualizado na Figura 5.1. com a anlise grfica,
pode-se confirmar que o ponto em questo pertence regio de confiana.

Ferreira, D.F.

Estatstica multivariada

181

x2

x1

Figura 5.1. Elipse de 95% de confiana para o vetor populacional de mdias,


obtido a partir dos dados do exemplo 5.1.

Exemplo 5.3
Para exemplificar a regio tridimensional para a mdia populacional, os dados de
produo comercial (t/ha), produo de tubrculos grados (t/ha) e peso mdio de
tubrculos grados (g) de 15 clones de batata selecionados em Maria da F e
Lavras (Moment, 1994), foram utilizados e encontram-se no quadro a seguir.
Obter a regio de 95% de confiana para o vetor mdia populacional.
Verificar se o ponto 0t = (16,89 8, 76 109, 23) pertence a regio de confiana (ponto

referente a cultivar Achat). Traar a regio de confiana.

5. Inferncias sobre o vetor mdia

182

Clones

Produo
comercial
1
47,82
2
42,40
3
41,82
4
40,77
5
40,27
6
39,84
7
38,36
8
38,15
9
37,55
10
36,19
11
36,15
12
35,17
13
34,90
14
34,57
15
34,15
Fonte: Moment, 1994

Produo de
tubrculos grados
40,40
26,96
27,33
21,81
33,06
22,31
32,81
26,02
21,69
25,65
23,46
25,29
22,92
16,25
21,75

Peso mdio de
tubrculos grados
146,30
94,58
143,66
127,29
115,17
99,32
150,13
131,17
152,04
154,83
95,43
105,97
113,59
86,39
119,50

O vetor de mdias e a matriz de covarincia amostrais so:

38,541
X = 25,854

122,358

13,8195 15,8284 24,7250


S = 15,8284 34,8769 63,0215
24,7250 63,0215 540,1553

Os autovalores e autovetores de S so:

1 = 549, 208

e1t = (0, 049 0,123 0,991)




2 = 34, 460

e 2t = (0,500 0,856 0,131)




3 = 5,185

e3t = (0,865 0,502 0, 019)




Ferreira, D.F.

Estatstica multivariada

183

A regio de confiana fica determinada por:

p(n 1)
n(X ) t S1 (X ) c 2 =
Fp,n p ()
 
 
np

15 [38,541 1

25,854 2

Sim.
0,15149

122,358 3 ] 0, 07124 0, 06983

0, 00138 0, 00489 0, 002358

38,541 1
25,854
2

122,358 3

3 14
3, 49 = 12, 215
12
= 2, 27(38,541 1 ) 2 2,14(38,541 1 )(25,854 2 ) + 0,04(38,541 1 )(122,358 3 ) +
+1,05(25,854 2 ) 2 0,15(25,854 2 )(122,358 3 ) + 0,04(122,358 3 ) 2 12, 215

Para verificar se o ponto 0t = (16,89 8, 76 109, 23) pertence regio



de confiana, basta substituir os valores de 1 por 16,89, de 2 por 8,76 e o de 3
por 109,23. O valor encontrado de 563,4964 superior a 12,215, o que indica que
a mdia da Cultivar Achat, no pertence regio de 95% de confiana para mdia
das 15 famlias clonais estudadas.
Utilizando o programa Maple, atravs da seguinte macro, foi traado
o grfico, elipside de confiana (Figura 5.2), da regio de 95% de confiana para

. Pode-se visualizar tambm que o ponto em questo no pertence a elipside



de confiana.

5. Inferncias sobre o vetor mdia

184

x3

x2

x1

Figura 5.2. Elipside de 95% de confiana para o vetor de mdias populacional,


obtida a partir dos dados do exemplo 5.3.

Intervalos de confiana simultneos

Enquanto a regio de confiana fornece corretamente o conjunto de


valores plausveis para a mdia de uma populao normal, qualquer resumo de
concluses, em geral, inclui intervalos de confiana sobre mdias individuais.
Assim, adota-se que todos os intervalos de confiana sejam verdadeiros
simultaneamente com uma alta probabilidade especfica. Isto garante com alta

Ferreira, D.F.

Estatstica multivariada

185

probabilidade que qualquer afirmao no seja incorreta, o que conduz ao termo


intervalo de confiana simultneo (Johnson e Wichern, 1998).
Considerando uma combinao linear das mdias amostrais,

A t X = A1 X1 + A 2 X 2 + " + A p X p
 

cuja distribuio amostral possui estimador da covarincia dado por:

A t SA
 
n

Dessa forma poderia se pensar em se obter intervalos de confiana


de 95% baseados na distribuio de t-student,

A t SA
A X t n 1 ( / 2)  
 
n
t

(5.9)

O intervalo da expresso (5.9) pode ser interpretado como intervalos


sobre componentes do vetor de mdia, assim, por exemplo, fazendo-se
A t = [1 0 .... 0] , a expresso (5.9) se torna o intervalo clssico para a mdia de uma


populao normal univariada. Neste caso tem-se uma srie de inferncias sobre
os componentes de , cada um associado com o coeficiente de confiana de 1-,

atravs de diferentes escolhas de A . No entanto o coeficiente de confiana para


5. Inferncias sobre o vetor mdia

186

todos os intervalos tomados simultaneamente no 1-. Para corrigir esta


imperfeio demonstra-se (Johnson e Wichern, 1988; Anderson, 1984) que para
garantir o coeficiente nominal de confiana simultneo de 1- para a cobertura de
os valores paramtricos necessrio recorrer distribuio de T2. Este resultado
est apresentado a seguir:

p(n 1)
At X
Fp,n p ( )A t SA
 
 
n(n p)

(5.10)

Mtodo de Bonferroni para Comparaes mltiplas

Muitas vezes um pequeno nmero de intervalos de confiana


requerido. Nestas situaes pode-se ter uma melhor opo do que as
comparaes simultneas, proposta em (5.10), obtendo intervalos de confiana
mais curtos (mais precisos) do que o intervalo simultneo de T2. Esta alternativa
de intervalo conhecida por mtodo de Bonferroni.
A seguir ser apresentado o mtodo para obtenes de intervalo de
confiana para os componentes de mdia. Se as m=p mdias forem consideradas,
ento, o mtodo de Bonferroni :

Xi tn1(2m
)

Sii
n

i =1,2,...,p = m

(5.11)

Ferreira, D.F.

Estatstica multivariada

187

Exemplo 5.4
Utilizando os dados do exemplo 5.2, obter os intervalos clssicos de t-student, T2 e
Bonferroni, para os componentes individuais do vetor de mdia, e compar-los
entre si, quanto ao comprimento.
O vetor de mdias e a matriz de covarincia amostral so:

10
1,0 0,5
X= e S=

 3
0,5 1,0

1. Intervalo T2

IC1 (0,95) = X1

p(n 1)
S
Fp,n p () 11
np
n

IC1 (0,95) = 10

2(3 1)
1
199,5
32
3

IC1 (0,95) = 10 16,31 = [6,31; 26,31]

IC2 (0,95) = 3

2(3 1)
1
199,5
3 2
3

IC2 (0,95) = 3 16,31 = [13,31; 19,31]

5. Inferncias sobre o vetor mdia

188

Observa-se que os limites dos intervalos de confiana mltiplos


representam os limites da elipse de confiana de 95% (Figura 5.1), projetados nos
respectivos eixos.

2. Intervalo de Bonferroni

Neste caso, m=p=2, portanto /2m=0,0125. O valor de t-student


correspondente, com n-1=2 GL 6,21. Ento,

1
3

IC1 (0,95) = 10 6, 21

IC1 (0,95) = [6, 41; 13,59]

IC2 (0,95) = 3 6, 21

1
3

IC2 (0,95) = [0,59; 6,59]

Observa-se nesta situao que os intervalos so bem mais estreitos


que o seu correspondente em 1.

Ferreira, D.F.

Estatstica multivariada

189

3. Intervalo t de Student

Neste caso /2=0,025 e o valor de t-student correspondente com 2


GL 4,30. Ento,

IC1 (0,95) = 10 4,30

1
3

IC1 (0,95) = [7,52; 12, 48]

IC2 (0,95) = 3 4,30

1
3

IC2 (0,95) = [0,52; 5, 48]

Apesar de estes ltimos intervalos individualmente garantir com 95%


de probabilidade que as mdias populacionais esto contidas nos mesmos, no h
garantia de que simultaneamente eles contenham as mdias populacionais no
mesmo valor nominal do coeficiente de confiana, diga-se 95%. Na melhor das
hipteses, variveis no correlacionadas, o valor real do coeficiente de confiana

(1-)p=0,952=0,9025.

5. Inferncias sobre o vetor mdia

5.4. Inferncias
amostras

190

sobre

propores

de

grandes

Freqentemente, algumas caractersticas de interesse na populao


esto na forma de atributos. Cada indivduo nesta populao pode ser descrito em
termos dos atributos que possui, os quais so codificados, pela sua presena e
ausncia. Na populao, com q caracterstica, a proporo de elementos que
possui os atributos 1, 2, ..., q p1, p2, ..., pq. Considerando q atributos mutuamente
exclusivos e caractersticas exaustivas, ento, pq=1-(p1+p2+...+pq-1).
Numa grande amostra de tamanho n, pelo teorema do limite central,
p possui distribuio aproximadamente normal, com


p1
p
2

E(p) =
 #

p q

p1 p 2
p1 (1 p1 )
p p
p 2 (1 p 2 )
1
2 1
=
e Cov(p)
#
#
n


pq p 2
p q p1

p1 p q
p 2 p q 1
"
= .
n
%
#

" p q (1 p q )
"

Para grandes amostras, a aproximao continua vlida se um

()

estimador de Cov p , (1/n) , for utilizado.



Uma vez que cada elemento da populao est associado a apenas
um atributo, ento, pq=1-(p1+p2+...+pq-1), o que trs como conseqncia que o
posto de igual a q-1, portanto sua inversa no existe. Apesar disso, pode-se
desenvolver intervalos de confiana simultneos aproximados de 100(1-)%, para
qualquer combinao A t p .
 

Ferreira, D.F.

Estatstica multivariada

191

Para uma amostra de tamanho n, considerando q categorias da


distribuio multinomial, o intervalo aproximado de confiana simultneo de
100(1-)%, para qualquer combinao A t p = A1p1 + A 2 p 2 + ... + A q p q , dado por:
 

A t A
A t p q2 1 ()  
 
n

(5.12)

garantindo que n-1-q seja grande. Segundo Johnson e Wichern (1988), o valor
grande de n-q-1, significa que np k deve estar em torno de 20 para cada categoria
k=1, 2, ..., q.

Exemplo 5.5
Numa amostra de n=35 cochonilhas, obtida na regio de Jacu, MG, em fevereiro
de 1995, em plantas de pessegueiro tratadas, Diniz (1996) obteve os seguintes
resultados:
Fmeas adultas
5

Ninfa mvel
11

Ninfa fmea
15

Ninfa macho
4

Total
35

Obter os intervalos de confiana simultneos de 95% usando a aproximao de


grandes amostras para propores de insetos em cada categoria.
O vetor de propores e a matriz de covarincia amostral so:

5. Inferncias sobre o vetor mdia

192

Sim.
0,1429
0,1225

0,0449 0, 2155

0,3143

p =
e =

0,
4286
0,0612
0,1347
0,
2449

0,0163 0,0359 0,0489 0,1012


0,1142

O valor de 32 (0, 05) 7,815, e os intervalos so:

p1 : 0,1429 7,815

0,1225
= 0,1429 0,1654 = [0,0225; 0,3083]
35

p 2 : 0,3143 7,815

0, 2155
= [0,0949; 0,5337]
35

p3 : 0, 4286 7,815

0, 2449
= [0,1948; 0,6624]
35

p 4 : 0,1142 7,815

0,1012
= [0,0361; 0, 2645]
35

5.5. Comparaes pareadas

Em muitas situaes experimentais deseja-se testar o efeito ou


eficcia de um tratamento. Para isso, medidas so tomadas nas unidades
experimentais antes e aps a aplicao do tratamento. Uma outra situao em
que esta comparao pode ser de interesse quando na mesma unidade

Ferreira, D.F.

Estatstica multivariada

193

amostral ou experimental dois tratamentos so aplicados. Estas respostas so


denominadas medidas pareadas, e podem ser analisadas calculando-se suas
diferenas, eliminando a influncia da variao entre as unidades experimentais
ou amostrais.
Ser, inicialmente, abordado o caso univariado e, em seguida, a sua
respectiva generalizao para o caso multivariado. Denotando X1j a resposta do
tratamento 1 (ou resposta antes do tratamento) e X2j a resposta do tratamento 2
(ou resposta aps o tratamento) para a j-sima unidade amostral ou experimental,
em que (X1j, X2j) so medidas tomadas na mesma unidade amostral ou
experimental, ento as n diferenas:

Dj = X2j - X1j , j=1, 2, ..., n

(5.13)

devem refletir somente o efeito diferencial entre os tratamentos.


Assumindo que as diferenas Dj so observaes independentes de
uma distribuio normal N(, 2D ), a varivel

t=

D
SD
n

segue a distribuio de t-student com n-1 graus de liberdade, em que:

(5.14)

5. Inferncias sobre o vetor mdia

D=

1 n
Dj e
n j=1

SD =

194

1 n
Dj D
n 1 j=1

1
=
n 1

Dj

n
j=1

D 2j

n
j=1

(5.15)

Conseqentemente, para um coeficiente de confiana de 1-, o teste


para a hiptese:

H0 : = 0 (efeito nulo de tratamento)


H1 : 0
pode ser realizado comparando-se | t | com tn-1(/2), o quantil 100(/2) superior da
distribuio de t-student com n-1 graus de liberdade.
O intervalo de confiana de 100(1-)% para o efeito do tratamento
(ou diferena de efeitos dos tratamentos) dado pela maneira usual e
apresentado a seguir.

D t n 1 ( / 2)

SD
n

(5.16)

Para extenso multivariada dos procedimentos adotados no caso


univariado, a seguinte notao utilizada, pois existe a necessidade de distinguir
entre os ndices para os dois tratamentos (1o ndice), a resposta da j-sima
unidade experimental ou amostral (2o ndice) e as p variveis (3o ndice). Neste
caso, X1jk representa a resposta do tratamento 1 (ou medida antes de se aplicar o

Ferreira, D.F.

Estatstica multivariada

195

tratamento) na k-sima varivel tomada na j-sima unidade e, X2jk representa a


resposta do tratamento 2 (ou medida aps se aplicar o tratamento) na k-sima
varivel tomada na j-sima unidade, sendo que j=1, 2, ..., n; k=1, 2, ..., p.
As diferenas tm a mesma notao com exceo do primeiro ndice,
do efeito do tratamento, que deve desaparecer. Isto se deve ao fato de as
diferenas refletirem o efeito diferencial dos tratamentos. Assim, Djk representa a
diferena entre os tratamentos na j-sima unidade amostral ou experimental obtida
na k-sima varivel. Fazendo D tj = D j1


D j2 " D jp e assumindo que

distribudo normal e independentemente, Np( , D ), a estatstica T2 se aplica para



se realizar inferncias sobre o vetor mdia das diferenas. Os seguintes
resultados podem ser obtidos, a partir das pressuposies assumidas.
Dadas

as

diferenas

observadas

D tj = D j1


D j2 " D jp ,

j=1, 2, ..., n, um teste de a hiptese H o : = 0 vs H1 : 0 deve rejeitar H0 se o


 
 
valor observado

t
p(n 1)
T 2 = n ( D 0 ) Sd1 ( D 0 ) >
Fp,n p ()
 
 
(n p)

em que,

1 n
D = Dj
 n j=1 

e SD =

t
1 n
D j D )( D j D )
(

 

n 1 j=1 

(5.17)

5. Inferncias sobre o vetor mdia

196

A regio de confiana de 100(1-)% para consiste em todos os



valores de tais que


p(n 1)
T 2 = n(D ) t SD1 (D )
Fp,n p ( )
 
 
(n p)

(5.18)

Os intervalos de confiana simultneos 100(1-)% para as diferenas


de mdias individuais i so dados por:

ICi (1 ) : Di

SD(ii)
p(n 1)
Fp,n p ()
(n p)
n

(5.19)

em que, Di o i-simo elemento de D e SD(ii) i-simo elemento da diagonal de



SD.

Para n-p grande, [(n-1)p/(n-p)]Fp,n-p() p2 () , e a normalidade no


precisa ser assumida.
O intervalo simultneo de Bonferroni 100(1-)% para as mdias
individuais das diferenas i :

SD(ii)
ICi (1 ) : Di t n 1
n
2p

(5.20)

Ferreira, D.F.

Estatstica multivariada

197

Exemplo 5.6
Em uma amostra de n=4 fazendas em Marechal Cndido Rondon foram
mensuradas a produo leiteira diria mdia por animal (X1) e a renda total diria
da produtividade de leite (X2) antes da aplicao do plano governamental panela
cheia e aps a aplicao. Testar a hiptese de que o plano foi ineficiente em
aumentar a mdia dos dois ndices zootcnicos. Os dados da amostra so:

Antes

Aps

X1j1

X1j2

X2j2

X2j2

10
11
9
8

80
80
60
60

13
15
16
19

90
92
88
90

A hiptese a ser testada :

0
H0 : = 0 =
  0

As diferenas foram obtidas e so dadas por:


Dj1

Dj2

3
4
7
11

10
12
28
30

As estimativas amostrais so:

5. Inferncias sobre o vetor mdia

198

6, 25
12,9167 34, 6667
e SD =
D=

 20, 00
34, 6667 109,3333

O valor da estatstica T2 pode ser computado por:

0,5195 0,1647 6, 25
T 2 = 4 [ 6, 25 20]

= 14, 6515
0,1647 0, 0614 20, 00

O valor crtico :

p(n 1)
2 (4 1)
Fp,n p (5%) =
F2,4 2 (5%) = 3 19 = 57
(n p)
(4 2)

Como T2=14,6515<57, ento, H0 no pode ser falseada para o valor


nominal de 5% de significncia.
Os intervalos de confiana simultneos so:

IC1 (0,95) : D1

2(4 1)
12,9167
F2,4 2 (0, 05)
= 6, 25 13,57 = [ 7,32;19,82]
(4 2)
4

IC2 (0,95) : D 2

2(4 1)
109,3333
= 20 39, 47 = [ 19, 47; 59, 47 ]
F2,4 2 (0, 05)
(4 2)
4

Ferreira, D.F.

Estatstica multivariada

5.6. Comparaes
populaes

199

de

vetores

mdias

de

duas

O teste T2 para testar a igualdade de vetores mdia de duas


populaes pode ser desenvolvido por analogia ao procedimento univariado. Este
teste T2 apropriado para comparar a resposta mdia de um grupo experimental
(populao 1) com a resposta mdia independente de outro grupo experimental
(populao 2). Se possvel, as unidades experimentais devem ser sorteadas para
cada conjunto de observaes de ambas as populaes, o que abrandar o efeito
da variabilidade entre unidades na comparao entre tratamentos. Apesar disto,
este tipo de comparao, em geral, menos preciso do que o caso de
comparaes pareadas.
Considerando uma amostra aleatria de tamanho n1 da populao 1
e uma amostra n2 da populao 2. As observaes das p variveis podem ser
organizadas como:

Amostra
(Populao 1)
X11 , X12 , ..., X1n1




Estatsticas amostrais
t
1
1 n1
X1 = X1j
S1 =
X1j X1 )( X1j X )
(





n1 j=1 
n1 1 j=1 
n1

(Populao 2)
1 n2
=
X
X 21 , X 22 , ..., X 2n 2
X2 j
2

n 2 j=1 



Subscritos 1 e 2, denotam a populao.

S2 =

t
1 n2
X 2 j X 2 )( X 2 j X 2 )
(




n 2 1 j=1 

5. Inferncias sobre o vetor mdia

200

Deseja-se realizar inferncia a respeito da diferena de mdias


populacionais ( 1 2 ), para verificar se esta diferena nula, o que equivale a
 
afirmar que no existe efeito dos tratamentos. De forma equivalente, pode-se fazer
tal inferncia, testando a hiptese de igualdade dos vetores mdias populacionais
( H 0 : 1 = 2 ). Algumas pressuposies devem ser obedecidas para a validade dos


testes e da inferncia realizada. Entre as pressuposies destaca-se a
necessidade de que sejam realizadas amostras aleatrias, de tamanho n1 e n2, de
ambas as populaes (populao 1 com mdia 1 e covarincia 1 , e populao 2

com mdia 2 e covarincia 2 ); alm disso, supe-se que as observaes da

amostra 1 so independentemente obtidas em relao aquelas da amostra 2.
Ainda necessrio assumir que ambas as populaes sejam normais que a matriz
de covarincia amostral seja a mesma ( 1 = 2 = ).
As matrizes de covarincia S1 e S2 so estimadores de 1 e de 2 ,
respectivamente. Conseqentemente, pode-se combinar as informaes de
ambas as amostras para estimar a varincia comum da seguinte forma:

Sp =

(n1 1)S1 + (n2 1)S2


n1 + n2 2

(5.21)

Para se testar a hiptese H 0 : 1 2 = 0 , considera-se os seguintes



 
resultados:

Ferreira, D.F.

Estatstica multivariada

201

E X1 X 2 = 1 2


 

(5.22)

1 1
Cov X1 X 2 = +


n1 n 2

(5.23)

Devido ao resultado (5.21), em que Sp um estimador de , ento,

1 1
+ Sp
n1 n2

um estimador de Cov X1 X 2 .


Demonstra-se que o teste da razo de verossimilhana para a
hiptese,

H 0 : 1 2 = 0

 

dado pela distncia quadrada T2. Rejeita-se H0 se

1 1
(n1 + n 2 2)p
T = [X1 X 2 0 ] + Sp [X1 X 2 0 ] >
Fp,n + n p 1 ( )



 n1 n 2 

(n1 + n 2 p 1) 1 2
2

5. Inferncias sobre o vetor mdia

202

Exemplo 5.7
Os dados a seguir referem-se produtividade e altura de plantas de duas
variedades de milho (A e B). Determinar a regio de 95% de confiana para
diferena 1 2 .
 

A
Produtividade

Altura da planta

Produtividade

B
Altura da planta

5,7
8,9
6,2
5,8
6,8
6,2

2,10
1,90
1,98
1,92
2,00
2,01

4,4
7,5
5,4
4,6
5,9

1,80
1,75
1,78
1,89
1,90

As estatsticas amostrais so:

6,57
1, 4587 0,0514
X1 =
, S1 =


1,99
0,0514 0,0051

5,56
1,5430 0,0366
X2 =
, S2 =


1,82
0,0366 0,0045

A matriz de varincia e covarincia amostral combinada :

1, 4962 0,0448
Sp =

0,0448 0,0048

Ferreira, D.F.

Estatstica multivariada

203

Os autovalores e autovetores de Sp so:

1 = 1, 4975

e1t = [ 0,9995 0, 0300]




2 = 0, 0035

e 2t = [ 0, 0300


0,9995]

O valor de F2,8(0,05)=4,459. A regio de confiana dada por:

1 1
(n1 + n 2 2)p
T = [X1 X 2 0 ] + Sp [X1 X 2 0 ]
Fp,n + n p 1 ( )



 n1 n 2 

(n1 + n 2 p 1) 1 2
2

21
em que, 0 = 1 = 11


2 12 22

Desta forma com os valores amostrais, tem-se:

[1,01 1

0,17 2 ]

8,6575 1,01 1
30 0,9276

10,0328

11 8,6575 289,1364 0,17 2

Esta equao foi implementada no programa Maple, para se obter a


elipse de 95% de confiana, apresentada na Figura 5, cujos comandos esto
apresentados a seguir:

5. Inferncias sobre o vetor mdia

204

12 22

11 21
Figura 5.3. Elipse de 95% de confiana para diferena do vetor mdia de ambas
as variedades de milho.

Verifica-se pela Figura 5.3 que a origem 0 t =[0, 0], no pertence a



regio de confiana, indicando que as duas variedades diferem quanto ao vetor
mdia.

Ferreira, D.F.

Estatstica multivariada

205

Intervalos de confiana simultneos

Para desenvolver intervalos de confiana simultneos para um


componente de 1 2 , adota-se o vetor A tal que a combinao A t ( 1 2 ), ser

  
 
abrangida com probabilidade 1-, para qualquer escolha de A , por


1 1
(n1 + n 2 2)p
A t ( X1 X 2 )
Fp,n1 + n 2 p 1 () + A tSp A
 

n1 + n 2 p 1
n1 n 2  

(5.24)

Mtodo de Bonferroni para comparaes mltiplas

O intervalo de confiana simultneo de 100(1-)% de Bonferroni para


as p diferenas entre duas mdias populacionais dado por:

1 1
1i 2i : (X1i X 2i ) t n1 + n 2 2 + Sii
2p n1 n 2

(5.25)

Comparaes entre vetores mdias quando 1 2

Quando 1 2 , a distribuio das estatsticas dependem de uma


medida de distncia que no so independentes das covarincias populacionais
desconhecidas. Por serem desconhecidas as covarincias populacionais, o teste

5. Inferncias sobre o vetor mdia

206

de Bartlett pode ser usado para testar H0: 1 2 . No entanto, este teste
fortemente afetado se a pressuposio de normalidade for violada. O teste em
questo

no

pode

diferenciar

entre

ausncia

de

normalidade

heterogeneidade das covarincias. Quando ambos n1-p e n2-p so grandes,


pode-se evitar as complicaes da desigualdade de varincias, utilizando a
elipside de 100(1-)% de confiana aproximada, dada por (5.26). O problema de
covarincias heterogneas, quando as amostras so provenientes de populaes
normais conhecido como problema de Behrens-Fisher multivariado.

1
1
[X1 X 2 0 ] S1 + S2 [X1 X 2 0 ] p2 ()



n2 
 n1

t

(5.26)

O intervalo de confiana simultneo aproximado dado por:

1
1
A t ( X1 X 2 ) p2 ( ) A t S1 + S2 A
 

 n1
n2 

(5.27)

Sete solues para o problema multivariado de Behrens-Fisher foram


estudadas por Christensen e Rencher (1997) por meio de simulao Monte Carlo,
comparando as taxas de erro tipo I e o poder destas solues. Algumas dessas
solues estudadas por estes autores so apresentadas a seguir.

Ferreira, D.F.

Estatstica multivariada

207

a) Aproximao de Bennett

A primeira dessas alternativas quela estudada por Bennett (1951),


a qual assume que n2n1, o que no limitante. Para contornar o problema, caso
essa condio no seja atendida, basta trocar os nomes das amostras, isto , a
amostra 1 passa ser a amostra 2 e vice-versa. Inicialmente necessrio calcular
os vetores Z j , j = 1, 2, " , n1 da seguinte forma.


n
1
Z j = X1j 1 X 2 j +


n2 
n 1n 2

n1

1
X2 j

n2
j=1 

n2

X
k =1

2k

(5.28)

Em seguida calcula-se a mdia ( Z ) e a covarincia (SZ) a partir das n1



observaes amostrais p-variadas obtidas na expresso (5.28). A estatstica

T 2 = n1Zt SZ1Z



(5.29)

possui distribuio T2 de Hotelling com dimenso p e =n1-1 graus de liberdade,


que pode ser dada pela expresso geral (5.5).

b) Aproximao de James

A aproximao de James (1954) envolve uma correo do valor de 2


quando se utiliza a estatstica T*2, definida por:

5. Inferncias sobre o vetor mdia

208

1
1
T = [X1 X 2 ] S1 + S2 [X1 X 2 ] ~ p2



n2 
n1
2

(5.30)

James (1954) prope valores crticos ajustados ao invs de utilizar a


distribuio aproximada de qui-quadrado diretamente. Os valores crticos
propostos por James (1954) so dados em (5.31).

2p ( ) ( A + B 2p ( ) )

(5.31)

em que 2p () o quantil superior da distribuio de qui-quadrado e A e B so


dados em (5.32) e (5.33).

1 2 1 1 Si
A = 1+
tr Se
2p i =1 n i 1
ni

2
2
2
1
1 1 Si 1 Si
B=
tr 2 Se
+ tr Se

2p(p + 2) i =1 n i 1
ni
ni

(5.32)

(5.33)

em que:

Se =

S1 S2
+
n1 n 2

(5.34)

Ferreira, D.F.

Estatstica multivariada

209

c) Aproximao de Yao

A aproximao de Yao (1965) uma extenso da aproximao de


Welch para os graus de liberdade. A estatstica (T*2) apresentada em (5.30)
aproximada por uma T2 de Hotelling com dimenso p e graus de liberdade dados
por (5.35).

1
1
=
( T 2 ) 2

2
1

t 1 S
1
i
Se ( X1 X 2 )

( X1 X 2 ) Se



ni
i =1 n i 1 

(5.35)

d) Aproximao de Johansen

A aproximao de Johansen (1980) usa a estatstica T*2 de (5.30)


dividida por uma constante C para que a estatstica resultante tenha distribuio
aproximada pela distribuio F com 1=p e 2= graus de liberdade. Assim, os
valores necessrios para calcular a estatstica Fc de Johansen (1980) so:

Fc =

T 2
C

C = p

2D + 6D
p(p 1) + 2

(5.36)

(5.37)

5. Inferncias sobre o vetor mdia


2

D=
i =1

210

1
tr ( I V 1V )2 + tr ( I V 1V ) 2
i
i

2(n i 1)

p(p + 2)
3D

(5.38)

(5.39)

com Vi=(Si/ni)-1 para i=1 ou 2 e V=V1+V2.

e) Aproximao de Nel e Van der Merwe

A aproximao de Nel e Van der Merwe (1986) usa a estatstica T*2


de (5.30), a qual aproximada pela T2 de Hotelling com dimenso p e graus de
liberdade , em que:

tr ( Se ) + tr ( Se )
=
2
2
2
2
1 S1 S1
1 S2 S2
tr + tr +
tr + tr
n1 1 n1 n 1 n 2 1 n 2 n 2

(5.40)

conveniente chamar a ateno para o fato de que nas expresses


anteriormente apresentadas aparece um termo como: tr(A)2. Esse termo significa
que necessrio calcular tr(A*A). Em outras ocasies os termos eram [tr(A)]2, o
que significa que o trao da matriz A deve ser calculado e o seu quadrado a
resposta almejada.

Ferreira, D.F.

Estatstica multivariada

211

f) Aproximao de Kim

A aproximao de Kim (1992) a mais elaborada de todas e tambm


se refere a uma extenso da aproximao dos graus de liberdade de Welch, como
acontece com o procedimento de Yao (1965). O procedimento de Kim requer a
maximizao de um par de formas quadrticas dado por:

S
qt 1 q
n
d=  1 
S
qt 2 q
 n2 

A maximizao desse par de formas quadrticas resulta na soluo


do sistema de equaes homogneas dado por (5.41).

S1
S2
dk qk = 0
n2 

n1

(5.41)

A soluo desse sistema pode ser obtida conforme descrito no


captulo 2. O autovalores dk e os autovetores q k (k=1, 2, ..., p) so utilizados para

definir a matriz D=diag(d1, d2, ..., dp) e Q = q1 q 2 " q p . A partir dessas
 

matrizes definem-se as seguintes quantidades:

w = Q t ( X1 X 2 )




(5.42)

5. Inferncias sobre o vetor mdia

212

p
2p
r = dk
k =1

Ak =

dk + 1

dk + r

c=

2
k

k =1
p

k =1

(5.43)

(5.44)

(5.45)

Ak
k =1
f = p
A2k

(5.46)

k =1

O prximo passo calcular a estatstica do teste que tem uma


aproximao F dada na expresso (5.48) com 1=f e 2=-p+1 graus de liberdade.
O valor definido em (5.49).

G = w t ( D1/ 2 + rI )


Fc =

( p + 1)G
cf

(D

1/ 2

+ rI ) w

1

(5.47)

(5.48)

Ferreira, D.F.

Estatstica multivariada

1
1 w t D(D + I) 2 w
1 w t (D + I) 2 w
=
+




n1 1 w t (D + I) 1 w n 2 1 w t (D + I) 1 w





213

(5.49)

Teste de Bartlett para igualdade de matrizes de covarincias

O teste da razo de verossimilhana para igualdade de matrizes de


covarincias de populaes Wishart foi apresentado por Bartlett (1947). Este autor
demonstrou que sob a hiptese

H o : 1 = 2 = " = k =

a estatstica da expresso (5.50) tem distribuio assinttica de qui-quadrado com

=(k-1)p(p+1)/2 graus de liberdade. Em que, k o nmero de grupos ou


subpopulaes amostradas, p a dimenso das matrizes.

k 1
1 2p 2 + 3p 1

= 1

n k 6(p + 1)(k 1)
j=1 n j 1

2
c

(5.50)
k

( n j 1) ln S j (n k) ln Sp
j=1

5. Inferncias sobre o vetor mdia

214

em que: Sj o estimador no viesado da covarincia da sub-populao j, baseado


k

em nj observaes multivariadas de dimenso p; n = n j ; j=1, 2, ..., k, e


j=1

Sp =

(n
j=1

1) S j

nk

Exemplo 5.8. Testar a hiptese de igualdade das covarincias de 2 populaes.


Uma amostra de 11 observaes foi obtida da primeira populao e outra de 15 da
segunda. Duas variveis foram mensuradas, sendo as estimativas amostrais
apresentadas a seguir (Fonte: Bock, 1975).

0,51964 0, 44700
0,85143 0, 73786
S1 =
com n1=11 e S2 =

com n2=15
0, 44700 0, 47600
0, 73786 1,54828

O valor de n=11+15=26 e de k=2 (populaes). A hiptese a ser


testada :

H o : 1 = 2 =
Os demais valores necessrios para a realizao do teste de
hiptese so:

ln S1 = 3, 0692181 ; ln S2 = 0, 2564228 ; e ln Sp = 0,9031351

Ferreira, D.F.

Estatstica multivariada

215

Logo,

1
1
1 2 22 + 3 2 1
c2 = 1 +

6 3 1

10 14 24

(10 ( 3, 0692181) + 14 ( 0, 2564228 ) ) 24 ( 0,9031351) =

= 11, 43

Os graus de liberdade so =1x2x3/2=3 e os valores crticos 5% e


1% da distribuio de qui-quadrado so 32 (0, 05) = 7,8147 e 32 (0, 01) = 11,3448 .
Como o valor calculado (11,43) superior aos valores crticos, rejeita-se H0 com
P<0,01. Portanto, existem evidncias de que as covarincias das duas populaes
no sejam iguais.

5.7. Exerccio

5.7.1. A matriz X, apresentada a seguir, representa uma amostra de n=4


observaes retiradas de uma distribuio normal bivariada.

5. Inferncias sobre o vetor mdia

216

11
10
X =
9

10

2
4
3

a) Teste a hiptese de que 0 = [9 2] seja um valor plausvel para representar a



mdia populacional.

b) Obtenha a regio de 95% de confiana e esboce graficamente a mesma,


destacando o valor hipottico nessa regio.

5.7.2. Com os dados do exerccio 5.7.1, determine os intervalos de confiana


simultneo para os componentes de mdia individual por:

a) T2 de Hotelling

b) Procedimento de Bonferroni

c) Teste de t de student univariado.

5.7.3. Com os dados do exemplo 5.3, utilizando as duas primeiras variveis, teste
a pressuposio de normalidade univariada (marginal) e bivariada,
utilizando os procedimentos apresentados no captulo 4.

Ferreira, D.F.

Estatstica multivariada

217

5.7.4. Utilizando os dados do exemplo 5.5, faa o IC simultneo para propores


de 90% de confiana.

5.7.5. Os dados abaixo se referem ao peso e ao teor de protena, medidos em 6


animais antes e aps um perodo de dieta balanceada. Teste a hiptese de
que no houve efeito da dieta. Determinar a regio de confiana e o esboo
da regio de confiana, o intervalo de confiana simultneo e de Bonferroni,
no nvel de 5% de probabilidade.

Antes

Aps

Peso

Teor de protena
(%)

Peso

Teor de protena
(%)

250
300
350
320
400
320

10
12
13
15
9
11

280
320
360
380
410
350

12
16
13
18
15
12

5. Inferncias sobre o vetor mdia

218

5.7.6. Com os dados do exemplo 5.7, reapresentados a seguir, obter os intervalos


de confiana de 95% simultneos e de Bonferroni, para as diferenas de
mdias marginais. Compare os resultados com a Figura 5.3, e obtenha
concluses de interesse.

A
Produtividade

Altura da planta

Produtividade

5,7
8,9
6,2
5,8
6,8
6,2

2,10
1,90
1,98
1,92
2,00
2,01

4,4
7,5
5,4
4,6
5,9

B
Altura da planta
1,80
1,75
1,78
1,89
1,90

||[

Anlise de varincia multivariada

]||

6.1. Introduo

Com o desenvolvimento da estatstica no sculo XX a possibilidade


de conduo e anlise de experimentos propiciou grande sucesso s pesquisas,
principalmente pela habilidade de lidar com variaes no controlveis. O primeiro
a representar os resultados experimentais por um modelo foi W. S. Gosset
(Student, 1908).
As

terminologias

dos

delineamentos

experimentais,

independentemente da rea de aplicao, se tornaram iguais aos dos


experimentos em agricultura. Portanto, unidades experimentais so denominadas
de parcelas e o valor da varivel aleatria como resposta. Experimentos com
apenas uma classificao dos tratamentos so denominados de delineamentos
inteiramente casualizados ou de classificao simples. Experimentos em que
vrios

tipos

de

tratamentos

so

aplicados

ao

material

experimental

simultaneamente so denominados de fatoriais. Outra classe de experimentos


gerada pelos arranjos hierarquizados dos materiais.

6. Anlise de varincia multivariada

220

O presente captulo tem por objetivo apresentar a extenso


multivariada dos mtodos univariados de anlise de varincia. As idias bsicas
desse captulo podem ser estendidas a todos os tipos de delineamentos e arranjos
das estruturas de tratamentos, embora sejam apresentas na situao mais
simples, a do delineamento de classificao simples.

6.2. Delineamento de classificao simples

O caso mais simples dos delineamentos experimentais o de


classificao simples ou delineamento inteiramente casualizado. O arranjo
experimental

consiste

em

tratamentos,

possivelmente

incluindo

a(s)

testemunha(s), para os quais as unidades experimentais so aleatorizadas.


As amostras aleatrias de cada tratamento so representadas por:

Tratamento 1: X11 , X12 , ..., X1n1






Tratamento 2: X 21 , X 22 , ..., X 2n 2




Tratamento g: X g1 , X g 2 , ..., X gn g




Ferreira, D.F.

Estatstica multivariada

221

A anlise de varincia multivariada (MANAVA) usada para


investigar se os vetores de mdias de tratamento so os mesmos, e se no, qual
componente de mdia difere significativamente. Algumas pressuposies da
estrutura dos dados devem ser obedecidas para validade da inferncia estatstica:
(a) X i1 , X i2 ," , X i ni deve ser uma amostra aleatria de tamanho ni do tratamento i,
 

com mdia i , i=1, 2, ..., g. As amostras dos tratamentos devem ser

independentes; (b) todos os tratamentos possuem covarincia comum ; e
(c) cada tratamento tem distribuio normal multivariada.
O modelo de anlise de varincia multivariada est apresentado a
seguir. Neste modelo cada componente um vetor de p componentes.

Xi j = + i + ei j

  

i = 1, 2, ", g e j = 1, 2, ", n i

(6.1)

em que, ei j independentemente e identicamente distribudo e Np(0, ) para todo i



e j; o vetor mdia geral e i representa o vetor de efeitos do i-simo


g

tratamento. Pode-se adotar a restrio paramtrica

n 
i =1

i i

=0.


Os erros do vetor X i j so correlacionados, no entanto a matriz de



covarincia a mesma para todos os tratamentos.
O vetor de observaes pode ser decomposto em:

6. Anlise de varincia multivariada

222

Xi j
=
X..
+
(X i. X.. )
+




Observao Estimativa da
Estimativa do
mdia geral efeito do tratamento

(X i j X i. )


resduo

(6.2)

Analogamente, demonstra-se que a soma de quadrados e produtos


totais possui a seguinte decomposio:

Soma de quadrados e produtos (SQP)

= SQP tratamentos

SQP resduo

total corrigido
g

ni

( X
i =1 j=1

ij

)(

X.. X i j X..




(6.3)
g

ni

= n i ( X i. X.. )( X i. X.. ) + X i j X i.





i =1
i =1 j=1 
t

)( X

ij

X i.


A soma de quadrados e produtos do resduo pode ser expressa por:

ni

)(

E = X i j X i. X i j X i.



i =1 j=1 

= (n1 1)S1 + (n 2 1)S2 + ... + (n g 1)Sg

(6.4)

em que Si a matriz de covarincia amostral do i-simo tratamento.


O teste da hiptese de inexistncia de efeitos de tratamentos,

H 0 : 1 = 2 = " = g = 0
 



(6.5)

Ferreira, D.F.

Estatstica multivariada

223

realizado considerando as magnitudes das somas de quadrados e produtos de


tratamento e resduo pela varincia generalizada.
O esquema de anlise de varincia multivariada (MANAVA) est
apresentado na Tabela 6.1. A fonte de variao total particionada em causas de
variao devido a tratamento e ao erro experimental ou resduo.

Tabela 6.1. Tabela de MANAVA para testar a hiptese de igualdade do vetor de


efeito dos tratamentos em um delineamento de classificao simples.
FV

GL

Matriz de SQP

Tratamento

g-1

B = n i X i. X.. X i. X..




i =1

Resduo

= ni g
i =1

Total corrigido

n
i =1

)(

)(

ni

E = X i j X i. X i j X i.



i =1 j=1 
g

ni

)(

B + E = X i j X.. X i j X..



i =1 j=1 

Os critrios para o teste da hiptese apresentada em (6.5), envolvem


varincias generalizadas e autovalores e autovetores da maximizao de duas
formas quadrticas dadas em (2.15 e 2.16).
De maneira geral, supondo que H seja a matriz de SQP relativa aos
efeitos dos tratamentos que se deseja testar a igualdade, para o exemplo H=B,
ento a soluo da equao determinantal dada por:

6. Anlise de varincia multivariada

224

( H k E ) ek = 0


fornece as estimativas dos autovalores e autovetores, necessrios aos testes de


hiptese (6.5), os quais esto apresentados na Tabela 6.2. Quatro critrios
existem para o teste desta hiptese. Muitos autores recomendam utilizar o critrio
de Wilks como referncia, por se tratar de um teste baseado na razo de
verossimilhana. Outros recomendam que a hiptese nula deva ser rejeitada se
pelo menos trs dos quatro critrios forem significativos em um nvel nominal de
significncia previamente adotado. Esses critrios podem ser aproximados pela
distribuio F. Essas aproximaes, tambm, se encontram apresentadas na
Tabela 6.2.

Ferreira, D.F.

Estatstica multivariada

225

Tabela 6.2. Estatsticas multivariadas e suas equivalncia aproximada com a


distribuio F.
Critrio

Estatstica

Aproximao F

GL de F

|E|
1
=
|H+E| k 1+k

1 1t rt 2f
F = 1
t pq

v1=pq

V = tr[H(H + E)1] = k
1+k

V 2n + s + 1
F=

s V 2m + s + 1

v1=s(2m+s+1)

2(sn +1)U
s (2m + s +1)

v1=s(2m+s+1)

( d + q)
d

v1=d

Wilks

Trao de Pillai

Trao de
Hotelling
Lawley

U = tr(HE1) = k

Raz mxima

= 1

de Roy

F=

F=

v2=rt-2f

v2=s(2n+s+1)

v2=2(sn+1)

v2= d + q

p: nmero de variveis = posto(H+E); q: GL de tratamento (ou


do contraste); : GL do erro; S=min(p,q); r=- (p-q+1)/2;
f=(pq-2)/4; d=max(p,q); m=(|p-q|-1)/2; n=(-p-1)/2; e
p2q 2 4

t = p2 + q 2 5

Se p 2 + q 2 5 > 0
cc

Obs. Critrio de Wilks possui aproximao exata de F se


min(p,q)2

6. Anlise de varincia multivariada

226

Exemplo 6.1
Num experimento envolvendo 4 variedades de feijo, avaliou-se na seca, a
produtividade (P) em kg/ha e nmero de gro por vagem (NGV), utilizando 5
repeties. Os resultados obtidos foram:

Cultivar
A

NGV

NGV

NGV

NGV

1082
1070
1180
1050
1080
5462

4,66
4,50
4,30
4,70
4,60
22,76

1163
1100
1200
1190
1170
5823

5,52
5,30
5,42
5,62
5,70
27,56

1544
1500
1550
1600
1540
7734

5,18
5,10
5,20
5,30
5,12
25,90

1644
1600
1680
1700
1704
8328

5,45
5,18
5,18
5,40
5,50
26,71

Teste a hiptese de igualdade do vetor mdia de tratamentos.

Os vetores de mdias amostrais de tratamento so:

1092, 400
1164, 600
1546,800
1665, 600
X1. =
X 2. =
X 3. =
X 4. =


5,180 
5,512 

5,342
4,552 

E a mdia geral:

1367,35000
X.. =

5,1465

Ferreira, D.F.

Estatstica multivariada

227

A matriz B obtida por:

1092, 400 1367,3500


[1092, 400 4,552] [1367,3500 5,1465] +"+
B = 5

5,512
4,552
1665,600 1367,3500
[1665, 600 5,512] [1367,3500 5,1465]
+ 5

5,512
5,342

Obviamente, quando os clculos no so realizados no computador,


mais fcil de se obter as matrizes de somas de quadrados e produtos, pelas
expresses apresentadas a seguir. Para isso, considere que Xi j k representa o
valor observado do i-simo tratamento, na j-sima unidade experimental e na
k-sima varivel. Ento,

SQBkk =
i =1

2
X i.k
X2
g ..k
ni
ni

(6.6)

i =1

representa a soma de quadrados de tratamento para o i-simo componente, e

SPBkA =
i =1

X i.k X i.A X..A X..k


g
ni
ni

(6.7)

i =1

representa a soma de produtos de tratamento entre as variveis k e


k A =1, 2, ..., p.

A , com

6. Anlise de varincia multivariada

228

Para o total as SQ e SP so:

ni

SQTkk = X ijk
i =1 j=1

X
n
g

i =1

ni

SPTkA = X ijk X ijA


i =1 j=1

(6.8)

..k
i

X X
n
..k
g

i =1

..A

(6.9)

Para o resduo basta obter a diferena:

E=T-B

(6.10)

No exemplo, as matrizes B, E e T so:

1189302,1500 768,3605
B =
768,3605
2, 6318

1218360,5500 778, 2645


T =
778,2645
2,9517

29058, 4000 9,9040


E = T B =
9,9040 0,3199

O quadro de MANAVA est apresentado a seguir:

Ferreira, D.F.

Estatstica multivariada

FV

GL

Tratamento

229

SQ&P
1189302,1500 768, 3605
B=
768, 3605
2, 6318

Erro

16

29058, 4000
E=
9, 9040

9, 9040
0, 3199

Total Corrigido

19

1218360,5500 778, 2645


T=
778, 2645
2,9517

Para o teste da hiptese H 0 : 1 = 2 = " = g = 0 , a razo entre o par


 


de formas quadrticas e kt Be k e e kt Eek , deve ser maximizada. Isto equivale a
 
 
resolver o sistema de equao,

( B k E ) ek = 0


Para o exemplo, os autovalores e autovetores so:

1 = 41,3463 e1t = [ 0, 0058 0,1952]




2 = 6, 6781 e 2t = [ 0, 0012 1, 7667 ]




Algum desavisado poderia pensar que o valor do segundo elemento


do segundo autovetor (1,7667) fosse algum tipo de erro de digitao, por se tratar
de um valor superior a 1. No entanto, isto perfeitamente possvel, pois os

6. Anlise de varincia multivariada

230

autovetores, no caso da maximizao da razo entre duas formas quadrticas,


so normalizados da seguinte forma: e kt Ee k = 1 e e kt EeA = 0 (k A) , o que pode ser
 
 
facilmente verificado.
Todos os critrios utilizados rejeitaram a hiptese de igualdade dos
vetores efeitos tratamento (P<0,01), como pode ser visto no quadro seguinte.

Critrio

Estatstica

Wilks
Trao de Pillai

G.L.

Pr>F

=0,0030756 85,16

v1=6 e v2=30

0,0001

V=1,846145

64,00

v1=6 e v2=32

0,0001

U=48,0244

112,06

v1=6 e v2=28

0,0001

de =41,3463

220,51

v1=3 e v2=16

0,0001

Trao de Hotelling
Lawley
Raz

mxima

Roy
p=2; q=3; v=16; s=2; r=16; f=1; d=3; m=0; n=6,5; e t=2

6.3. Intervalos de confiana simultneos para o efeito


de tratamentos
Quando a hiptese de efeitos iguais para tratamentos rejeitada,
aqueles efeitos que levaram a rejeio so de interesse. Para comparaes
simultneas duas a duas, a aproximao de Bonferroni pode ser usada para
construir intervalos de confiana simultneos para os componentes da diferena
h i (diferenas de efeitos dos tratamentos h e i, respectivamente). Esses
 

intervalos so mais curtos que os obtidos para todos os contrastes, e requerem


apenas valores crticos da estatstica univariada t.

Ferreira, D.F.

Estatstica multivariada

231

Fazendo ik o k-simo componente de i . Desde que i pode ser




estimado por i = X i. X.. , ento,




ik = X i.k X..k

(6.11)

Devido a (6.11) corresponder a diferena entre duas mdias


amostrais independentes, o teste de t de duas amostras vlido, modificando-se
adequadamente o nvel de significncia. A estimativa da varincia do contraste
entre duas mdias de tratamentos dada por,

^
1 1 E
Var(X h.k X i.k ) = + kk
nh ni

(6.12)

A diviso de Ekk pelos seus respectivos graus de liberdade (),


devido ao fato de que, o elemento em questo (Ekk) refere-se a uma soma de
quadrados. Desta forma, desde que p variveis so consideradas e g(g-1)/2
comparaes duas a duas sero realizadas, ento o intervalo de confiana
protegido por Bonferroni para diferena de efeitos de tratamento dado por:

1 1 E kk

X h.k X i.k t
+
pg(g 1) n h n i

para todos os k = 1, 2, ..., p e todas as diferenas h < i = 1, 2, ..., g .

(6.13)

6. Anlise de varincia multivariada

232

6.4. Exerccio

6.7.1. Repetir a anlise de varincia do exemplo 6.1 utilizando o proc GLM do


SAS e solicitar a realizao dos seguintes contrastes: i) A e B vs C e D; ii) A
vs B e iii) C vs D.

||[

Componentes principais

]||

7.1. Introduo

A anlise de componentes principais est relacionada com a


explicao da estrutura de covarincia por meio de poucas combinaes lineares
das variveis originais em estudo. Os objetivos dessa anlise so: i) reduo da
dimenso original; e ii) facilitao da interpretao das anlises realizadas. Em
geral, a explicao de toda a variabilidade do sistema determinado por p variveis
s pode ser efetuada por p componentes principais. No entanto, uma grande parte
dessa variabilidade pode ser explicada por um nmero r menor de componentes,
rp. Os componentes principais so uma tcnica de anlise intermediria e,
portanto no se constituem em um mtodo final e conclusivo. Esse tipo de anlise
se presta fundamentalmente como um passo intermedirio em grandes
investigaes cientficas.
Essa tcnica pode ser aplicada, ainda, na anlise de regresso
mltipla, principalmente, nos casos de colinearidade ou de multicolinearidade;
aplica-se tambm anlise de agrupamento e como estimadores de fatores nas
tcnicas multivariadas denominadas de anlises fatoriais. Muitas outras aplicaes

7. Componentes principais

234

de componentes principais so encontradas nas literaturas aplicadas. A tcnica


AMMI (additive multiplicative interaction model) considera modelos lineares com
interao entre dois fatores e aplica como base para seus procedimentos a anlise
de componentes principais.

7.2. Componentes principais populacionais


Algebricamente

os

componentes

principais

representam

combinaes lineares de p variveis aleatrias X1, X2, , Xp. Geometricamente,


essas combinaes lineares representam a seleo de novos eixos coordenados,
os quais so obtidos por rotaes do sistema de eixos original, representados por
X1, X2, , Xp. Os novos eixos representam as direes de mxima variabilidade.
Como pode ser demonstrado, os componentes principais dependem
somente da matriz de covarincia (ou da matriz de correlao ) e de
X1, X2, , Xp. Seu desenvolvimento no requer pressuposies de normalidade
multivariada, mas possuem interpretaes teis em termos da constante elipside
de densidade, se a normalidade existir. A princpio, sero definidos os conceitos
de componentes principais populacionais. Posteriormente, naturalmente esses
conceitos sero estendidos para a situao amostral.
Seja o vetor aleatrio X t = X1 X 2

X p

amostrado de uma

populao com covarincia , cujos autovalores so 12p0, ento, os

Ferreira, D.F.

Estatstica multivariada

235

componentes principais (Y1, Y2,,Yp) so as combinaes lineares dadas por


(7.1)

Y1 = e1t X = e11X1 + e12 X 2 + ... + e1p X p


Y2 = e 2t X = e 21X1 + e 22 X 2 + ... + e 2p X p

(7.1)

Yp = e pt X = e p1X1 + e p2 X 2 + ... + e pp X p

fcil verificar que:

Var(Yi ) = Var ( eit X ) = eit Var ( X ) ei = eit ei

(7.2)

Cov(Yi , Yk ) = Cov ( eit X,e kt X ) = eit e k

(7.3)

Dessa forma, pode-se definir o i-simo componente principal (Yi) por


(7.4), assumindo que o vetor X possui covarincia , com pares de autovalores e
autovetores ( i ,ei ) , i = 1, 2, ..., p , em que 12p0.

Yi = eit X = ei1X1 + ei2 X 2 + ... + eip X p

i = 1, 2,..., p

(7.4)

No captulo 2, verificou-se que a maximizao de uma forma


quadrtica resultava na soluo dada pelo conjunto de todos os pares de
autovalores e autovetores da matriz ncleo. Os autovetores da soluo eram

7. Componentes principais

236

restritos ao comprimento unitrio. Seja a forma quadrtica dada por =

e t e
, ento
et e

o seu mximo obtido pela resoluo da equao (7.5).

( i I ) ei = 0

(7.5)

fcil perceber que dessa equao surge a seguinte e bvia


relao, obtida no ponto mximo, dada por: ei = i ei . Portanto, a varincia e a
covarincia de Yi, especificadas em (7.2) e em (7.3) so dadas por:

Var(Yi ) = eit ei = eit i ei = i eit ei = i

Cov(Yi , Yk ) = eit e k = eit k e k = k eit e k = 0

(7.6)

ik

(7.7)

Utilizando algumas propriedades matriciais estudadas no captulo 2,


pode-se demonstrar que:

i =1

i =1

Var(Xi ) = Var(Yi )
11 + 22 + ... + pp = 1 + 2 + ... + p

A variao total existente nas variveis Xi, i=1, 2,...,p igual


variao existente nos p componentes principais. Para demonstrar isso, seja a

Ferreira, D.F.

Estatstica multivariada

matriz de covarincia

237

entre as p variveis X, cujos pares de autovalores e

autovetores so dados por (i, ei ). O componente principal Yi definido por

Yi = eit X , o qual possui varincia igual a i.


Da decomposio espectral de =PP e sabendo que PPt=PtP=I
verifica-se que:

tr() = tr ( PP t )

Uma propriedade do trao de uma matriz : tr(AB)=tr(BA). Fazendo


A=P e B=Pt, ento,

i =1

i =1

tr() = ii = tr ( PP t ) = tr ( P t P ) = tr ( ) = i

E, portanto, a porcentagem da variao total explicada pelo k-simo


componente principal dada por (7.8).

%VarExp(Yk ) =

k
p

100

(7.8)

i =1

Em muitas situaes em que se aplicam os componentes principais


se uma porcentagem de 70% ou mais for atribuda aos primeiros r componentes
principais, ento, esses podem substituir as p variveis originais sem perda de

7. Componentes principais

238

uma quantidade demasiada de informaes. A determinao dessa porcentagem


da variao explicada pelos primeiros r componentes deve ser feita pelo
pesquisador interessado e que possui maior conhecimento da rea estudada. A
determinao do nmero r de componentes para que uma determinada
porcentagem fixada da informao seja contemplada por eles um dos problemas
que dificulta o emprego dessa metodologia.
Os componentes do autovetor eit = ei1 ei2

eip podem informar

sobre a importncia das variveis para o i-simo componente principal, por meio
de suas magnitudes. No entanto, esses componentes so influenciados pela
escala das variveis. Para contornar tal problema, os pesquisadores podem
utilizar uma importante medida de associao, a qual no depende da magnitude
das mensuraes (escala) das variveis originais, que o coeficiente de
correlao entre Yi e Xk. Esse coeficiente de correlao est apresentado em (7.9)
.

Yi ,Xk =

eik i
kk

, i, k = 1, 2,..., p

(7.9)

Demonstrao: Para demonstrar (7.9), primeiro apresentada a definio do


coeficiente de correlao. Posteriormente, foi avaliado cada termo dessa
expresso individualmente.

Yi ,Xk =

Cov ( Yi , X k )
Var ( Yi ) Var ( X k )

Ferreira, D.F.

Estatstica multivariada

239

Mas,
Cov ( Yi , X k ) = Cov ( eit X, X k ) = Cov ( eit X, t X )

com,

= [ 0 ...1... 0] , vetor composto de valores 0 e com 1 na k-sima posio.

Logo,

Cov ( Yi , X k ) = Cov ( eit X, t X ) = eit = t ei

Como ei = i ei , ento,

Cov ( Yi , X k ) = t ei = t i ei = i t ei = i eik

Da mesma forma as varincias de Yi e Xk so:

Var ( Yi ) = Var ( eit X ) = eit ei = i eit ei = i

e,

Var(X k ) = kk

Assim, a prova fica completa, conforme descrito a seguir:

7. Componentes principais

240

Cov ( Yi , X k )

Yi ,Xk =

Var ( Yi ) Var ( X k )

i eik
i kk

i eik
kk

Exemplo 7.1
Sejam as variveis aleatrias X1, X2 e X3 com covarincia dada por:

4 1 0
= 1 4 0
0 0 2

Obter os componentes principais, a correlao das variveis originais com os


componentes e verificar a veracidade da afirmativa a seguir de forma numrica:
p

i =1

i =1

Var(Xi ) = Var(Yi )
11 + 22 + ... + pp = 1 + 2 + ... + p

Aplicando-se o power method, determinaram-se os pares de


autovalores e autovetores de , os quais so:

1 = 5 e1t = [ 0,7071 0,7071 0] , 2 = 3 e 2t = [ 0,7071 0,7071 0] e 3 = 2 e3t = [ 0 0 1]

Os componentes principais so:

Ferreira, D.F.

Estatstica multivariada

241

Y1 = e1t X = 0,7071X1 + 0,7071X 2

Y2 = e 2t X = 0,7071X1 0,7071X 2

Y3 = e3t X = X 3

A varivel X3 individualmente um de os componentes principais por


no ser correlacionada com nenhuma das outras duas variveis. As varincias de
os componentes principais so:

Var(Y1 ) = 1 = 5 , Var(Y2 ) = 2 = 3 e Var(Y3 ) = 3 = 2

Pode-se mostrar, a ttulo de ilustrao, que:

2
2

2
2
Var(Y1 ) = Var
X1 +
X 2 = Var
X1 + Var
X 2 + 2Cov
X1 ,
X 2 =
2
2
2

1
1
2 2
1
1
= Var ( X1 ) + Var ( X 2 ) + 2
Cov ( X1 , X 2 ) = 4 + 4 + 1 = 5 = 1
2
2
2 2
2
2

Verifica-se, tambm, que:

11 + 22 + 33 = 1 + 2 + 3

4+4+2=5+3+2
10=10 c.q.m.

7. Componentes principais

242

A porcentagem da variao explicada por cada componente


apresentada na tabela seguinte.

Componente
Y1
Y2
Y3

Var(Yi)=i
5
3
2

% da variao explicada
50
30
20

% variao acumulada
50
80
100

Os coeficientes de correlao entre os componentes e as variveis


originais so:
Componente
Y1
Y2
Y3

X1
0,7906
0,6124
0,0000

X2
0,7906
-0,6124
0,0000

X3
0,0000
0,0000
1,0000

Para ilustrar um dos clculos usando a expresso (7.9), apresenta-se


a seguir a correlao entre Y1 e X1.

Y1 ,X1 =

e11 1
11

2
5
= 2
= 0,7906 .
4

Para o componente principal mais importante (Y1), concluiu-se que


X1 e X2 so igualmente importantes.
Os componentes principais podem ser obtidos pela padronizao das
variveis originais por:

Ferreira, D.F.

Estatstica multivariada

243

Zi =

X i i
ii

(7.10)

Em notao matricial tem-se:

Z = V 1/ 2 X

(7.11)

em V-1/2 uma matriz diagonal com os elementos da diagonal dados 1

ii .

fcil verificar que:

E ( Z ) = 0 e Cov ( Z ) = V 1/ 2 V 1/ 2 =

Ento, os componentes principais de Z so dados pelos autovalores


e autovetores de , matriz de correlao de X . Os autovalores e autovetores de
so, em geral, diferentes daqueles derivados de .
Sejam as variveis padronizadas Z1, Z2, ...., Zp disposta no vetor Z
com Cov ( Z ) = , ento, os componentes principais so dados por:

Yi = eit Z = eit V 1/ 2 X ,

Da mesma forma, verifica-se que:

i=1, 2, ..., p

(7.12)

7. Componentes principais

244
p

i =1

i =1

Var(Yi ) = Var(Zi ) = p
(7.13)

i = p
i =1

Tambm se verifica que:

Yi ,Zk = eik i

(7.14)

Sendo que em todos esses casos (i, ei ) so os autovalores e


autovetores de , com 12...p. As demonstraes de (7.12), (7.13) e (7.14)
podem ser realizadas da mesma forma que as demonstraes anteriores,
substituindo por .
Para algumas matrizes de covarincia, com estruturas especiais,
existem simples formas de se expressar os componentes principais. Sero
tratados alguns desses casos, conforme apresentado em Johnson e Wichern,
(1998) e em Morrison (1976). Para uma matriz diagonal,

11 0
0
22
=

0
0

0
0

pp

Os autovalores e autovetores so dados por:

(7.15)

Ferreira, D.F.

Estatstica multivariada

i=ii e eit = [ 0

0 1 0

245

0] com 1 na i-sima posio e 0 nas demais.

A demonstrao disso pode ser facilmente realizada, uma vez que


das equaes de maximizao de formas quadrticas verifica-se que : ei = i ei .
Assumindo-se as definies anteriores para os autovalores e autovetores verificase que:

e i = i e i
= ei = ii ei
11 0
0
22
=

0
0

0
0

0
0
0

1 = ii 1

0
0
pp



0
0

Dessa forma, pode-se concluir que (ii, ei ), com ei definido


anteriormente, so os pares de autovalores e autovetores de . Desde que os
componentes principais so dados pelas combinaes lineares eit X =Xi, ento, os
componentes principais so as prprias variveis originais no correlacionadas,
cujos autovalores so as prprias varincias originais das respectivas variveis
aleatrias. Do ponto de vista de extrao de componentes principais nada pode
ser ganho, uma vez que os eixos originais j esto no sentido de maior
variabilidade. Dessa forma no h necessidade para fazer rotao dos eixos

7. Componentes principais

246

originais. A estandardizao no altera a situao, uma vez que =I, e o par


autovalor e componente principal dado por (1, Zi), em que Zi a i-sima varivel
padronizada.
Outro tipo de matriz de covarincia com determinado padro
apresentado a seguir, o qual descreve muitas vezes o comportamento de
entidades

biolgicas,

desempenha

um

papel

importante

na

teoria

dos

componentes principais.

2
2

2
2
2

(7.16)

A matriz de correlao correspondente dada por:

1
1
=

(7.17)

que implica em uma estrutura de igualdade de correlao entre as p variveis


estudadas.
Morrison (1976) demonstra que os componentes principais de (7.16)
so dados por dois grupos. O primeiro grupo com o primeiro componente e o
segundo com os demais componentes principais. O primeiro componente principal
de (7.16) definido pelo par autovalor e autovetor apresentado a seguir.

Ferreira, D.F.

Estatstica multivariada

247

1 = 2 [1 + (p 1)]

(7.18)

1 1
1
e1t =
,
,...,

p
p p

(7.19)

Para a matriz de correlao definida em (7.17), pode-se demonstrar


que 7.18 e 7.19 permanecem vlidos, sendo necessrio apenas fazer 2=1. A
proporo da explicao do primeiro componente principal dada por
100 [1 + (p 1)] / p (%) do total do conjunto de variveis. Se prximo a 1 o

primeiro componente principal ter uma elevada explicao da variao total.


Os

demais

(p-1)

componentes

principais

possuem

valores

caractersticos iguais, dados por:

i = 2 (1 ) ;

i = 2, 3,

e seus respectivos autovetores so iguais a:

,p

(7.20)

7. Componentes principais

t
e 2 =

t
e 3 =

eit =

e t =
p

248

1
1

,
, 0,..., 0
1 2 1 2

1
1
2

,
,
, 0,..., 0
23 23 23

(7.21)

1
1
(i 1)
,...,
,
, 0,..., 0
(i 1) i
(i 1) i (i 1) i

1
1
(p 1)
,...,
,

(p 1) p
(p 1) p (p 1) p

Finalmente tratada a situao em que o vetor X uma varivel

aleatria da distribuio normal multivariada, ou seja, X N p , . Nesse caso os


componentes principais tm uma atrativa interpretao. Foi demonstrado no
captulo 4 que a densidade de X constante na elipside centrada em ,

(X ) (X ) = c
t

= p2 ( )

cujos eixos so dados por 2p ( ) i ei , i = 1, 2, ..., p , em que (i, ei ) so os pares


de autovalor-autovetor de . possvel verificar, fazendo = 0 por convenincia
de algumas demonstraes que se seguem, que:

2p ( ) = X t 1X =

2
1 t 2 1 t 2
1
e1X ) + ( e 2 X ) + ... + ( e pt X )
(
1
2
p

Ferreira, D.F.

Estatstica multivariada

249

em que eit X, i = 1, 2, ..., p so os componentes principais de X . Fazendo

Yi = eit X, i = 1, 2, ..., p tem-se

2p ( ) = X t 1X =

1 2 1 2
1
Y1 + Y2 + ... + Yp2
1
2
p

Essa ltima equao define uma elipside com os eixos coordenados


Y1, Y2, ..., Yp dispostos nas direes de e1 , e 2 , ..., e p , respectivamente. Como 1 o
maior autovalor, o maior eixo tem a direo definida por e1 , os eixos
remanescentes tm a direo definida por e 2 , ..., e p .
Foi assumido que = 0 . No entanto, pouco provvel que isso
acontea

em

uma

situao

real.

Todavia,

as

interpretaes

definidas

anteriormente so vlidas da mesma forma, apenas sendo necessrio definir o


i-simo componente principal centrado na mdia, por:

Yi = eit X , i = 1, 2, ..., p

(7.22)

o qual tem mdia zero e direo definida por ei . Na Figura 7.1 ilustram-se os
componentes principais bivariados com densidade fixa de 95%. A rotao dos
eixos X1 e X2 nos novos eixos Y1 e Y2 so a essncia dos componentes principais.

7. Componentes principais

250

Y1

Y2

Figura 7.1. A elipse de 95% de densidade constante e os componentes principais


Y1 e Y2 para a distribuio normal bivariada com mdia = 0 .

7.3. Componentes principais amostrais


Seja X1 , X 2 ,

, X n uma amostra aleatria retirada de uma populao

p-variada qualquer com mdia e covarincia . O vetor de mdias amostrais


X , a matriz de covarincia amostral S e a matriz de correlao amostral R. O

objetivo dessa seo apresentar os conceitos de componentes principais para a


estrutura de covarincia amostral.
As combinaes lineares das variveis mensuradas que maximizam
a variao total da amostra e que so mutuamente ortogonais so chamadas de
componentes principais amostrais. Seja a forma quadrtica

Ferreira, D.F.

Estatstica multivariada

251

= Var(e

Q = Var(Y)
X) = e t Se

O mximo de Q no existe, pois quanto maior for o comprimento de

e maior ser o valor de Q. conveniente tomar-se o mximo de Q restrito ao


comprimento unitrio de e . Dessa forma, o mximo tem que ser obtido da forma
quadrtica restrita seguinte.

e tSe
et e

O mximo obtido tomando-se a derivada em relao a e e


igualando-se a derivada a zero. O sistema obtido resolvido em relao a e e as
solues obtidas referem-se ao mximo.

t e)
2(e tSe)e

2
e tSe
2Se(e
S
=
=

e = 0

2
(e t e)
e 'e
e t e
e

e t Se
S t e = 0
ee

A equao resultante dada por:

(S ) e = 0

(7.23)

7. Componentes principais

252

A soluo de (7.23) conduz aos pares de autovalores e autovetores

( ; e )
i

de S, que correspondem a varincia amostral e combinao linear que

definem os componentes principais amostrais, para i=1, 2, ..., p.


Portanto, o i-simo componente principal amostral :

= e t X = e X + e X + ... + e X , i = 1, 2, ..., p
Y
i
i
i1 1
i2 2
ip p

(7.24)

em que 1 2 ... p 0 so os autovalores amostrais de S correspondentes.


O estimador da varincia amostral dos componentes principais :

( )

= ,
Var
Y
k
k

k = 1, 2,..., p

(7.25)

e a covarincia entre dois componentes principais (i e k) :

,Y
= 0, i k = 1, 2,..., p
Y
Cov
i
k

(7.26)

Pela mesma razo apresentada para os componentes principais


populacionais, verifica-se que a variao total explicada pelos componentes
principais amostrais igual a

i =1

i =1

i = Sii . A partir da decomposio espectral de

P t e da propriedade que tr(AB)=Tr(BA) demonstra-se que:


S, dada por S = P

Ferreira, D.F.

Estatstica multivariada

253

( )

P t = tr
P t P = tr
=
tr(S) = Sii = tr P
i
i =1

i =1

Dessa forma, a explicao do k-simo componente principal amostral


da variao total do sistema :

) = k 100
%VarExp(Y
k
p
i

(7.27)

i =1

e Xk definida por:
A correlao amostral entre Y
i

rY ,X =
i

e ik i
Skk

, i, k = 1, 2,..., p

(7.28)

Os componentes principais podem ser definidos por componentes


principais amostrais centrados na mdia amostral X , da seguinte forma:

= e t ( X X ) = e ( X X ) + e ( X X ) + ... + e ( X X ) , i = 1, 2, ..., p (7.29)


Y
i
i
i1
1
1
i2
2
2
ip
p
p

Se o vetor X for substitudo em (7.29) por X j (vetor de observaes


amostrais), pode-se obter os escores dos componentes principais. Esses escores
so plotados, muitas vezes, com o intuito de agrupar objetos ou itens, simplificar a
representao para uma ou duas dimenses, entre outras aplicaes.

7. Componentes principais

254

Os componentes principais, em geral, no so invariantes com


relao a transformaes nas escalas. A mudana de escala mais usual aquela
que transforma as escalas das variveis para uma outra escala sem dimenso,
cuja mdia igual a zero e a varincia igual a 1. A padronizao obtida por:

Z j = D 1/ 2 ( X j X ) ,

j = 1, 2,..., n

(7.30)

em que D-1/2= Diag 1/ S11 ,1/ S22 ,...,1/ Spp . O estimador de a covarincia de Z
dado por:

1/ 2

= D 1/ 2 Cov(X)D
= D 1/ 2SD 1/ 2 = R
Cov(Z)

(7.31)

Os componentes principais obtidos de R so definidos pelos pares

de autovalores e autovetores de R i ; e i . Assim, o i-simo componente principal


amostral obtido da matriz de correlao amostral dado por:

= e t Z = e Z + e Z + ... + e Z ,
Y
i
i
i1 1
i2 2
ip p

i = 1, 2, ..., p

(7.32)

A variao total explicada pelo k-simo componente principal dada


por:

) = k 100
%VarExp(Y
k
p

(7.33)

Ferreira, D.F.

Estatstica multivariada

255

e Zk definida por:
A correlao amostral entre Y
i

rY ,Z = e ik i ,
i

i, k = 1, 2,..., p

(7.34)

Pequenos valores para os ltimos autovalores, tanto de S como de


R, indicam, em geral, a presena de dependncia linear no conjunto de dados.
Neste contexto pelo menos uma varivel redundante e pode ser eliminada do
conjunto de variveis originais.
Existe sempre a questo importante de o nmero de componentes a
ser retido. No existe uma resposta definitiva para essa questo. Os aspectos que
devem ser considerados incluem a quantidade da variao amostral explicada, o
tamanho relativo dos autovalores e a interpretao subjetiva dos componentes.
Uma ferramenta visual importante para auxiliar a determinao de o nmero
suficiente de componentes a ser retido o scree plot. O termo scree refere-se
ao acumulo de rochas nas bases de um penhasco, portanto os scree plots sero
considerados grficos de cotovelos. Na Figura 7.2 observa-se que um cotovelo
formado aproximadamente na posio i=4. Isso significa que os componentes
acima de 3 possuem aproximadamente a mesma magnitude e so relativamente
pequenos. Isso indica que os trs primeiros, talvez os quatros primeiros
componentes so suficientes para resumir a variao amostral total.

7. Componentes principais

256

^ 10

0
1

componente principal

Figura 7.2. Scree plot de um exemplo com p=6 componentes principais para
ilustrar o processo de determinao de o nmero apropriado de
componentes a ser retido.

7.4. Grficos dos componentes principais


Os grficos provenientes dos componentes principais podem ser
reveladores de diversos aspectos presentes nos dados de interesse do
pesquisador. Em muitas reas os pesquisadores utilizam os primeiros e mais
importantes componentes para agrupar objetos e itens de acordo com a
representao em duas ou no mximo trs dimenses retidas. Os grficos dos
componentes principais podem revelar observaes suspeitas, como tambm

Ferreira, D.F.

Estatstica multivariada

257

permitir uma avaliao da suposio de normalidade. Por se tratarem de


combinaes lineares de p variveis, supostamente normais, possvel assumir a
normalidade para os componentes principais. O teste de normalidade pode ser
feito em apenas alguns poucos componentes, o que pode simplificar a
complexidades das anlises necessrias e reduzir o nmero de testes a ser
realizado.
Os valores amostrais dos componentes principais obtidos a partir de
os dados amostrais originais so chamados de escores. A equao (7.35)
refere-se a definio do escore do k-simo componente principal, para a j-sima
observao amostral.

= e t X = e X + e X + ... + e X , k = 1, 2, ..., p; j = 1, 2,..., n


Y
jk
k
j
k1 j1
k2
j2
kp
jp

(7.35)

De uma forma geral, os escores dos p componentes principais,

t = Y


representados pelo vetor Y
j
j1 Yj2 ... Yjp para a j-sima observao amostral

X tj = X j1 X j2 ... X jp , so dados por:

e1t
t

t
= P X = e 2 X
Y
j
j
j

e pt

(7.36)

7. Componentes principais

258

Para o agrupamento de objetos e tambm para avaliar desvios de


normalidade obtm-se grficos dos primeiros componentes retidos em um
diagrama contendo pares de componentes. Tambm, possvel obter os
Q-Q plots para cada componente, conforme descrio realizada no captulo 4.
Desvios de normalidade podem ser verificados e o teste da correlao Q-Q plot
pode ser realizado.
Para a verificao de observaes suspeitas os grficos dos ltimos
componentes principais tomados dois a dois so utilizados. Esse tipo de grfico
pode ajudar a identificar observaes suspeitas. Tambm, com esse intuito os QQ plots desses componentes, de menor importncia para a variao total, so
utilizados.
Da equao (7.36) e relembrando que P uma matriz ortogonal,

( )

t = P t P = , portanto P t
pois PP

= P , pode-se demonstrar que:

= e e
X j = PY
j
1 2

e p Y
j
(7.37)

e + Y
e +
Xj = Y
j1 1
j2 2

e
+Y
jp p

Essa uma importante equao que mostra que a observao


amostral multivariada X j pode ser recuperada dos escores dos componentes
principais correspondentes. Constitui-se, portanto, em uma proeminente forma de
identificar com elevada preciso as observaes suspeitas. Para isso um nmero
q de componentes principais qp retido para ajustar as n observaes amostrais

Ferreira, D.F.

Estatstica multivariada

259

multivariadas. Dessa forma, uma medida da qualidade desse ajuste obtida

e + Y
e +
avaliando quanto Y
j1 1
j2 2

e difere de X , tendo como desvio o valor


+Y
jq q
j

e + Y
e +
dado por Y
jq +1 q +1
jq + 2 q + 2

e . Essa medida feita tomando-se o


+Y
jp p

quadrado desse desvio, o qual refere-se ao seu comprimento quadrtico, ou seja,

2 +Y
2 +
por Y
j q +1
j q+2

2 . As observaes consideradas suspeitas so aquelas que


+Y
jp

,Y
,
possuem pelo menos uma das coordenadas de Y
j q +1
j q+2

que contribui
,Y
jp

para o comprimento quadrtico total com grande valor.

7.5. Inferncias para grandes amostras


Foram apresentados os conceitos fundamentais dos componentes
principais. A essncia dos componentes principais est na obteno dos
autovalores e autovetores da matriz de covarincia (correlao). Os autovetores
determinam a rotao a ser realizada nos eixos coordenados originais nos
sentidos de maior variabilidade e os autovalores determinam as varincias desses
novos eixos coordenados. As decises com relao aos componentes principais
devem ser tomadas com base nos pares de autovalores-autovetores,

( ; e ) ,
i

estimados na amostra. Esses autovalores e autovetores so diferentes dos


respectivos valores populacionais devido s variaes amostrais. Derivaes
respeito das distribuies amostrais de i e de e i so apresentadas em Anderson

7. Componentes principais

260

(1963). Os resultados relativos aos resultados de grandes amostras so


apresentados a seguir, de uma forma resumida.
Suponha que X1 , X 2 ,

, X n seja uma amostra aleatria retirada de

uma populao p-variada qualquer com mdia e covarincia . O vetor de


mdias amostrais X , a matriz de covarincia amostral S e a matriz de
correlao amostral R. Suponha que possui autovalores (desconhecidos)
distintos e positivos, quais sejam, 1 > 2 >
autovetores (desconhecidos) e1 , e 2 ,

> p > 0 com correspondentes

, ep . O estimador amostral de S, sendo

que os estimadores de i e ei so 1 > 2 >

> p > 0 e e1 , e 2 ,

, e p .

Girshik (1939), Lawley (1956) e Anderson (1963) demonstraram que


os resultados doravante apresentados se verificam para grandes amostras. Dessa
forma, os resultados proporcionados referem-se a teoria de distribuies de
grandes amostras para os autovalores t = 1 2

p e para os autovetores

, e p de S. Fazendo uma matriz diagonal dos autovalores 1 , 2 ,

e1 , e 2 ,

, p de

, ento,
1.

n tem distribuio aproximadamente N p ( 0, 2 2 ) .

2. Seja

k
Ei = i
e et
2 k k
k =1 ( )

k
i
k i

ento,

n ( e i ei ) N p 1 ( 0, E i ) .

(7.38)

Ferreira, D.F.

Estatstica multivariada

261

3. Cada i tem distribuio independente dos elementos do vetor caracterstico


associado e i .
4. A covarincia do r-simo elemento de e i e o s-simo elemento de e j (ij) :

Cov ( e ir , e js ) =

i jeis e jr

n ( i j )

(i j)

(7.39)

Os resultados 1 a 4 so referentes s propriedades distribucionais de


grandes amostras e vlidas para o caso de p distintas razes caractersticas.
Entretanto, Anderson (1963) aponta que o resultado 2 requer somente que i seja
distinto dos demais p-1 valores caractersticos, os quais podem ter qualquer
multiplicidade. Esses resultados podem ser utilizados para construir testes de
hipteses e intervalos de confiana para os autovalores e autovetores
populacionais.
O resultado 1 implica, em grande amostras, que os i s so
independentemente distribudos com distribuio aproximadamente N ( i , 2 i2 / n ) .
As inferncias podem ser derivadas desse resultado. O intervalo de confiana
para i pode ser obtido a partir da afirmativa probabilstica:

7. Componentes principais

262

i i

Z ( / 2 ) = 1
P
2

i n

(7.40)

O intervalo de confiana resultante dado por:

i
i

ICi (1 ) :
;
2
2

1 + Z ( / 2 ) n 1 Z ( / 2 ) n

(7.41)

Obviamente os valores de e de n devem ser apropriados para que


o limite superior de (7.41) seja vlido. Caso o limite superior no seja vlido e n for
suficientemente grande, possvel obter o intervalo alternativo substituindo a
varincia paramtrica de i pelo seu estimador. Assim,

2
2
ICi (1 ) : i Z ( / 2 ) i
; i + Z ( / 2 ) i

n
n

(7.42)

Testes de hipteses de o tipo H o : i = 0 podem ser realizados


calculando-se o escore normal padro:

Zc =

i 0
2
0
n

(7.43)

Ferreira, D.F.

Estatstica multivariada

263

Uma inferncia importante e mais geral sobre a estrutura de


dependncia apresentada por Anderson (1963). O teste de hiptese de que os r
autovalores intermedirios de sejam iguais apresentado. A hiptese de
interesse :

H 0 : q +1 = q + 2 =

= q+r

(7.44)

Aos q maiores e aos (p-q-r) menores autovalores no so impostas


restries quanto aos seus valores ou multiplicidades. A hiptese alternativa
especificada da seguinte forma: H1: pelo menos um dos r autovalores difere dos
demais intermedirios. O teste de razo de verossimilhana conduz a estatstica

q+r
j
q+r
j= q +1
2

c = (n 1) ln j + (n 1)r ln
j= q +1
r

( )

(7.45)

que tem distribuio aproximadamente de qui-quadrado sob H0 com =r(r+1)/2 - 1


graus de liberdade para grandes amostras.
Um caso especial importante deste teste de hiptese ocorre quando
q+r=p ou quando a variao das ltimas r dimenses esfrica.
Outro importante teste refere-se aos autovetores. A hiptese de que
o i-simo autovetor populacional de igual a um vetor de constantes com norma
1 apresentada a seguir.

7. Componentes principais

264

H 0 : ei = e0

(7.46)

O teste da hiptese nula (7.46) realizado com base no resultado 2


dessa seo e na matriz de covarincia Ei definida em (7.38) devidamente
substituda pelo seu estimador E i , o qual obtido pela substituio de i e ei
pelos seus estimadores i e e i . Assim, Anderson (1963) demonstra que o teste
estatstico dado por:

1
t
c2 = n i e0t S1e0 + e0t Se0 2 = n ( e i e0 ) E ig ( e i e0 )

(7.47)

tem distribuio assinttica de qui-quadrado com p-1 graus de liberdade se H0 for


verdadeira. Em que E ig uma inversa generalizada de E i .

Demonstrao: A matriz Ei do resultado 2 pode ser rescrita na forma matricial


como se segue. Para isso, sero definidas as seguintes matrizes:

Ferreira, D.F.

Estatstica multivariada

( 1 i )

i =

265

2
( p i )

( 2 i )

uma matriz (p-1)x(p-1) originria da

j
, pxp.
eliminao da i-sima linha e i-sima coluna de uma matriz Diag
( )2
i
j

Pi = e1 e 2

e p p (p 1), sendo e j os autovetores de , com ji e dimenso

px(p-1).
Assim, pode-se definir Ei por:

p
j
t
E i = i Pi i Pit = i
e
e
2 j j

j=1 ( )
i
j

j i

e sua inversa generalizada, devido a Ei ter posto (dimenso) p-1, por:

1
1
E = Pi i1Pit =
i
i
g
i

( )2

i
j
t

e je j

j
j=1

j i
p

No captulo 4 foi visto que sob normalidade ou para grandes


amostras a forma quadrtica

n ( ei e0 ) E ig n ( ei e0 ) 2p 1
t

7. Componentes principais

266

Os graus de liberdade so iguais a (p-1) e no a p devido a Ei ter


posto incompleto (p-1). Devido aos autovetores de E ig e o autovetor ei serem
ortogonais, a forma quadrtica anterior pode ser simplificada por:

n ( ei e 0 )

p ( )
n
i
j
g
t g
t
t

E i ( ei e0 ) = ne0 E i e0 = e0
e je j e 0 =
i j=1
j

j i

2
2

p
p

n t p ( j 2 i j + i ) t
n tp
1
t
t
2
t

e je j e0 = e0 je je j 2 i e je j + i e je j e0 =
= e0
i j=1
j
i j=1
j=1
j=1 j


j i
j i
j i
j i

Como

je jetj = ,
j=1

termo da expresso

alm disso, somando e subtraindo i ei eit ao

je je tj , tem-se que:
j=1
j i

je je tj + i ei eit i ei eit = i ei eit


j=1
j i

1
Utilizando o mesmo raciocnio para 1 = e je tj somando e
j=1 j

subtraindo ao termo

1
1
1
e je tj + ei eit ei eit = 1 ei eit
i
i
j=1 j
i

j i
p

1
ei eit , tem-se:
e je tj a quantidade dada por

j=1 j

j i
p

Ferreira, D.F.

Estatstica multivariada

Finalmente, o termo

267
p

e je tj

equivalente a seguinte expresso,

j=1
j i

lembrando que os autovetores tm norma 1 e so ortogonais e ainda aplicando-se


o mesmo tipo de artifcio:

e je tj = I ei eit
j=1
j i

Assim, retornando ao desenvolvimento anterior da aproximao de


qui-quadrado tem-se:

p
p

n tp
1
t
t
2
t

e0 j e j e j 2 i e j e j + i e j e j e0 =
i j=1
j=1
j=1 j

j i
j i
ji

n t
1
e0 i ei eit 2 i ( I ei eit ) + i2 1 ei eit e0 =
i
i

e t e
et e et e
e t Ie
et e et e
e t 1e0
et e et e
i2 0 i i 0 =
= n 0 0 0 i i 0 i 0 0 2 i + 2 i 0 i i 0 + i2 0
i
i
i
i i
i
i
e t e

= n 0 0 e0t ei eit e0 2e0t e0 + 2e0t ei eit e0 + i e0t 1e0 e0t ei eit e0 =


i

e t e

= n 0 0 + i e0t 1e0 2
i

7. Componentes principais

268

Substituindo nessa ltima expresso pelo estimador S, a


distribuio ainda continua aproximadamente de qui-quadrado para grandes
amostras. Dessa forma, a prova fica completa.
Um outro importante teste de interesse o da hiptese de mesma
estrutura de correlao, ou seja, Cov(X i , X k )= ii kk ou Corr(X i , X k )= , para
todo ik. Nesse caso, os autovalores de no so todos distintos e os resultados
anteriores no se aplicam. Embora as distribuies amostrais dos componentes
principais obtidos da matriz R sejam difceis de derivar, esse caso especial conduz
a resultados tratveis (Morrison, 1976).
Lawley (1963) props um teste para essa hiptese que alternativo
e equivalente quele baseado na razo de verossimilhana, para a estrutura de
eqicorrelao da matriz de correlao populacional (pxp). Para isso basta
aplicar o teste da hiptese de igualdade de todas as p(p-1)/2 correlaes (ij). A
hiptese de interesse dada por:

1
1
H 0 : = 0 =


vs H 0 : 0

(7.48)

Essa hiptese pode ser escrita na forma equivalente H 0 : ij = para


todos os subscritos ij. O procedimento de Lawley (1963) requer as seguintes
quantidades:

Ferreira, D.F.

Estatstica multivariada

rk =

269

1 p
rik ; k = 1, 2, ..., p
p 1 i =1

(7.49)

ik

r=

2 p 1 p
rik
p(p 1) i =1 k =i +1

(p 1) 2 1 (1 r ) 2
p (p 2)(1 r ) 2

(7.50)

(7.51)

Verifica-se facilmente que rk de (7.49) a mdia dos elementos fora


da diagonal para as k colunas de R e r de (7.50) a mdia de todos os
elementos fora da diagonal principal de R. Lawley (1963) mostrou que quando n
tende para infinito o teste estatstico:

c2 =

p
2
n 1 p 1 p
2

r
r
rk r )
(
)
(

ik
2
(1 r ) i =1 k =i +1
k =1

(7.52)

tem distribuio de qui-quadrado com =(p+1)(p-2)/2 graus de liberdade.


Finalmente, o teste, denominado de teste de esfericidade,
apresentado. A hiptese de interesse dada por:

H0 : = 0 = 2 I

(7.53)

7. Componentes principais

270

Para o teste dessa hiptese, suponha uma amostra aleatria da


distribuio normal p-variada com mdia
X1 , X 2 ,

e covarincia , dada por

, X n . A seguir apresentado o teste de razo de verossimilhanas para

testar a hiptese de interesse. A funo de verossimilhana sob a hiptese

H 0 : = dada por:

n
1 n

t
L ( , X ) = f ( X j ) = ( 2 ) np / 2 n / 2 exp ( X j ) 1 ( X j )
j =1
2 j =1

A funo suporte determinada pelo logaritmo natural (neperiano) da


funo de verossimilhana. O mximo de L deve ser obtido, no entanto, o mximo
da funo suporte com relao a e coincidem. A funo suporte dada por:

t
n

np
n
1 n
X

,
X
f
S(
) = ln ( j ) = 2 ln ( 2 ) 2 ln 2 ( X j ) 1 ( X j )
j =1
j =1

Para obter o mximo dessa funo, necessrio derivar em relao


aos parmetros e . Igualar as derivadas a zero e achar a soluo do sistema
de equaes formado. Esses resultados esto apresentados na seqncia.

a) Derivada de S ( , X ) em relao a

Ferreira, D.F.

Estatstica multivariada

271

S ( , X )

= 1 ( X j )
j =1

Igualando a zero e resolvendo a equao formada obtm-se:

(X
j =1

) = 0
n

n = X j
j =1
n

j =1

Xj
n

=X

b) Derivada de S ( , X ) em relao a

S ( , X )

n
1
t
= ( 1 ) + n 1S n 1
2
2

Igualando a zero e resolvendo a equao para , substituindo-se o


valor de encontrado em (a), tem-se as seguintes passagens.

7. Componentes principais

272

S ( , X )

=0

n 1 t 1 1 1
( ) + n Sn = 0
2
2

1 1 1 n 1
n S n = ( )
2
2
1S n 1 = 1

Pr e ps multiplicando ambos os lados dessa ltima equao por


obtm-se:

1S 1 =
1

n
1 n
1 n
= S n = ( X j X )( X j X )t = W j
n j =1
n j =1

Substituindo as solues obtidas em L obtm-se o seu mximo da


seguinte forma:

L , = ( 2 ) np / 2 S n

n / 2

= ( 2 ) np / 2 S n

n / 2

= ( 2 ) np / 2 S n

n / 2

1 n

t
exp ( X j X j ) S n1 ( X j X j )
2 j =1

1 n 1
exp tr S n ( X j X j )( X j X j )
2 j =1

t

1 1 n
exp tr S n ( X j X j )( X j X j )
j =1
2

Ferreira, D.F.

Estatstica multivariada

273

= ( 2 ) np / 2 Sn

n / 2

= ( 2 ) np / 2 S n

n / 2

= ( 2 ) np / 2 Sn

n / 2

exp tr Sn1nSn
2

exp tr [ ]
2

np
exp
2

Sob H 0 : = 0 = 2 I a verossimilhana e a funo suporte so


dadas por:

L ( , 0 X ) = ( 2 ) np / 2 0
= ( 2 ) np / 2 ( 2 )

n / 2

1 n

t
exp ( X j ) 01 ( X j )
2 j =1

np / 2

1 n

t
exp 2 ( X j ) ( X j )
2 j =1

S , 2 X =

t
np
np
1 n
ln ( 2 ) ln ( 2 ) 2 ( X j ) ( X j )
2
2
2 j =1

Para obter o mximo dessa funo, necessrio derivar em relao


aos parmetros e 2 . Em seguida deve se igualar s derivadas a zero e achar a
soluo do sistema de equaes formado.

7. Componentes principais

274

c) Derivada de S , 2 X em relao a

S , 2 X

)=

1 n
( X j )
22 j =1

Igualando a zero e resolvendo a equao formada obtm-se:

(X

j =1

) = 0
n

n = X j
j =1
n

Xj

j =1

=X

Essa soluo a mesma do caso anterior.

d) Derivada de S , 2 X em relao a 0

S , 2 X

) = np
2

1
2( )

2 2

(X
j =1

)t ( X j )

Igualando a zero e resolvendo a equao para 2 , substituindo-se o


valor de encontrado em (a), tem-se os seguintes resultados.

Ferreira, D.F.

Estatstica multivariada

275

S , 2 X

) =0

n
np
1
+
( X j X )t ( X j X ) = 0
2
2
2

2
2 ( ) j =1

1
2 ( )

2 2

tr ( X
j =1

X )t ( X j X ) =

np
2 2

n
np
( X j X )( X j X )t = 2
tr

2
( 2 ) j =1

1

Pr e ps multiplicando ambos os lados dessa ltima equao por

2 , e simplificando algumas Expresses obtm-se:

( )

2 2

tr ( nS n ) =

np 2

np
p
1
=
=
2

n tr ( S n ) tr ( S n )
2 =

tr ( S n )
p

Substituindo as solues obtidas em L ( , 0 X ) obtm-se o seu


mximo da seguinte forma:

7. Componentes principais

276

tr ( S n )
L , 0 = ( 2 ) np / 2

= ( 2 )

np / 2

= ( 2 )

np / 2

np / 2

tr ( S n )

np / 2

tr ( S n )

np / 2

n
t
p

X j X j ) ( X j X j )
exp
(

2tr ( S n ) j =1

p
exp
tr ( nS n )
2tr ( S n )

np
exp
2

Para testar a hiptese H 0 : = 0 = 2 I obtm-se a razo do mximo


de as duas funes de verossimilhana. Ento, baseando-se no resultado de que
o logaritmo natural multiplicado por -2 tem distribuio aproximada de
qui-quadrado, pode-se efetuar um teste para essa hiptese. Assim, seja:

1 =

( )=
L ( , )

L , 0

( 2 )

np / 2

tr ( S n )

( 2 ) np / 2

np / 2

np
exp
n/2
Sn
2
=
np / 2
n / 2
np
tr ( S n )
exp
Sn

2
p

Ou ainda, se for considerado que Sn for substitudo por S, no h


alterao dos resultados obtidos, e se for considerado tambm que i o i-simo
autovalor de S, ento 1 pode ser expresso por:

np / 2

1 =

n/2

[ tr(S) / p]

np / 2

np / 2
p

p
i
i
i =1

=
= p i =1
np / 2
p

i / p

/
p

i =1

i =1

(7.54)

Ferreira, D.F.

Estatstica multivariada

277

Um teste estatstico pode ser obtido, conforme mencionado


anteriormente por:

np
n

c2 = 2ln ( 1 ) = 2 ln S + {ln [tr ( S )] ln ( p )} =


2
2

p

np p
n
2
= 2 ln ( ) +
ln ln ( p )
2 i =1
2 i =1

(7.55)

A distribuio aproximada de qui-quadrado possui graus de


liberdade, que referem-se a diferena entre o nmero de parmetros do modelo
completo e o nmero de parmetros do modelo sob a hiptese nula. Como so
estimadas p mdias, p varincias e p(p-1)/2 covarincias no modelo completo e p
mdias e 2 no modelo sob a hiptese nula, os graus de liberdade so dados por:

= p+

p ( p + 1)
p ( p + 1) 2 ( p + 2)( p 1)
p 1 =
=
2
2
2

Bartlett (1954) sugere uma correo no teste anterior para uma


melhor performance, sendo que para grandes amostras a estatstica dada por:

(2p 2 + p + 2)
c2 = 2 1
ln ( 1 )
6pn

(7.56)

tem distribuio aproximadamente de qui-quadrado com =(p+2)(p-1)/2 graus de


liberdade sob H0 dada em (7.53).

7. Componentes principais

278

O teste (7.56) da hiptese nula (7.53) denominado de teste de


esfericidade, porque os contornos da densidade so esferas quando = 2 I .
Um teste mais geral do que o teste (7.56) para a hiptese de que
todas as variveis sejam independentes dado pelo teste de razo de
verossimilhana. Seja a hiptese

11 0
0
22
H0 : =

0
0

0
0
; ii >0

pp

(7.57)

A seguinte estatstica deve ser calculada inicialmente:

2 =

n/2

Sii
i =1

n/2

= R

n/2

(7.58)

Para grandes amostras, sob H0, o teste estatstico:

(2p + 11)
c2 = 2 1
ln ( 2 )
6n

(7.59)

tem distribuio aproximadamente de qui-quadrado com =p(p-1)/2 graus de


liberdade sob H0 dada em (7.57). Essa aproximao devida a Bartlett (1954) em

Ferreira, D.F.

Estatstica multivariada

279

substituio a aproximao usual -2ln(2). O resultado (7.59) melhora a


aproximao qui-quadrado usual.
Lawley (1940) mostra que o teste (7.59) pode ser aproximado por:

(2p + 11) p 1 p 2

c2 n
rik

6
i =1 k = i +1

(7.60)

Essa expresso representa uma melhor aproximao de (7.59) para


pequenas correlaes e para grandes amostras pouco provvel que conduza a
diferentes resultados dos obtidos pela frmula determinantal exata (7.59),
Morrison (1976).
apresentado a seguir um programa SAS no procedimento de
matrizes IML para a realizao de todas as inferncias propostas nessa seo.
Um exemplo apresentado, com comentrios, para que o usurio possa
reproduzir os testes e os procedimentos de estimao propostos.

options ps=5000 ls=75 nodate nonumber;;


proc iml;
S={4.9810 3.8063 4.7740,
3.8063 3.0680 3.7183,
4.7740 3.7183 4.8264};
p=ncol(S);n=24;alpha=0.05;
print 'Valor de p tamanho da amostra e alpha';
print p n alpha;
print 'Matriz de covariancias amostral: S';
print S;
Ls=diag(eigval(s));
Ps=eigvec(S);
print 'Matriz de autovalores de S';
print Ls;
print 'Matriz de autovetores de S';
print Ps;
D=diag(S);
D_12=inv(root(D));
*print D_12;

7. Componentes principais

280

Rs=D_12*S*D_12;
print 'Matriz de correlacoes amostrais R';
print Rs;
Lr=diag(eigval(Rs));
print 'Matriz de autovalores de R';
print Lr;
Pr=eigvec(Rs);
print 'Matriz de autovetores de R';
print Pr;
/*intervalo de confianca para autovalores de S - equacao 7.41*/
za2=probit(1-alpha/2);
print 'Intervalos de confianca para os autovalores de S, sendo 1alpha=' alpha;
print 'Autovalor
Li
Ls';
do i=1 to p;
lin=ls[i,i]/(1+za2*(2/n)**0.5);
lsu=ls[i,i]/(1-za2*(2/n)**0.5);
print i
lin
lsu;
end;
/*Testar a hipotese de que o maior autovalor de S e igual a l0=12.35 equacao 7.42 */
/* este teste eh motivado pelo fato de l1=sig2(1+(p-1)rho), com
sig2=4.2 e rho=0.97
*/
l0=12.35;
Zc=(ls[1,1]-l0)/(l0*(n/2))**0.5;
przc=2*(1-probnorm(abs(zc)));
print 'Teste de H0: l1=12.35 (igual correlacao). Esse valor eh apenas
um exemplo';
print 'Valor de Zc valor de prob>|zc|';
print 'Se [prob>|zc|]>valor de alpha Ho nao deve ser rejeitada';
print Zc przc;
/* teste 7.43 igualdade de r autovalores intermediarios*/
/* neste exemplo sera testado Ho: l2 = l3
*/
/*q=1, r=2, p=3 -teste 7.44
*/
aux1=0;aux2=0;q=1;r=2;
do i=q+1 to q+r;
aux1=aux1+log(ls[i,i]);
aux2=aux2+ls[i,i]/r;
end;
qui2c=-(n-1)*aux1+(n-1)*r*log(aux2);
print 'Valores dos somatorios auxiliares para teste H0: l2 = l3';
print 'aux1 = soma ln(lj) e aux2 = media dos lj intermediarios';
print aux1 aux2;
v=r*(r+1)/2-1;
prqui2c=1-probchi(qui2c,v);
print 'Teste da hipotese de que Ho: l2 = l3 ';
print 'Qui-quadrado
GL
Pr>qui-Quadr';
print qui2c v prqui2c;
/* teste para a hipotese de igualdade de um autovetor a um vetor de
constantes*/
/* Para ilustrar sera testado que e1=[1/3^0.5 1/3^0.5 1/3^0.5], ou
seja, igual*/
/* estrutura de correlacao da matriz Sigma que originou a S
*/
e0=j(p,1,1/3**0.5);
E1=j(p,p,0);
do i=1 to p;
ek=Ps[,i];
if i^=1 then
do;
E1=E1+(ls[i,i]/(ls[i,i]-ls[1,1])**2)*ek*t(ek);

Ferreira, D.F.

Estatstica multivariada

281

end;
end;
E1=ls[1,1]*E1;
Le=eigval(e1);
*print E1 le;
ei1=Ps[,1];
print e0 ei1;
qui2c=n*(ls[1,1]*e0`*inv(S)*e0+e0`*S*e0/ls[1,1]-2);
qui2c2=n*t(Ps[,1]-e0)*ginv(E1)*(Ps[,1]-e0);
v=p-1;
prqui2c=1-probchi(qui2c,v);
print 'Teste da hipotes e1=e0=t([1/3^0.5 1/3^0.5 1/3^0.5])';
print 'Qui-quadrado1 qui-quad2
GL
Pr>qui-Quadr';
print qui2c qui2c2 v prqui2c;
/*teste da H0:phoij=pho - igual estrutura de correlacao */
rbar=(sum(Rs)-trace(Rs))/(p*(p-1));
rk=j(p,1,0);
do i=1 to p;
rk[i]=(sum(Rs[,i])-1)/(p-1);
end;
gama=(p-1)**2*(1-(1-rbar)**2)/(p-(p-2)*(1-rbar)**2);
aux1=(Rs-j(p,p,rbar))#(Rs-j(p,p,rbar));
aux2=(sum(aux1)-trace(aux1))/2;
aux3=(rk-j(p,1,rbar))#(rk-j(p,1,rbar));
aux4=sum(aux3);
qui2c=(n-1)/(1-rbar)**2*(aux2-gama*aux4);
v=(p+1)*(p-2)/2;
if qui2c<=0 then qui2c=1e-14;
prqui2=1-probchi(qui2c,v);
print 'Teste da hipotes phij=pho: igual estrutura de correlacao';
print 'Qui-quadrado GL
Pr>qui-Quadr';
print qui2c v prqui2;
print 'Valores utilizados no teste-para simples conferencia';
print 'media geral dos rij, vetor de medias de cada coluna de R e gama
chapeu';
print rbar rk gama;
/*teste de esfericidade-H0: Sigma=Sig^2*I*/
Lamb1=((det(S)**(1/p))/(trace(S)/p));
qui2c=-2*(n*p/2)*log(lamb1)*(1-(2*p**2+p+2)/(6*p*n));
v=(p+2)*(p-1)/2;
prqui2=1-probchi(qui2c,v);
print 'Teste de esfericidade - H0: Sigma=Sig^2*I';
print 'Qui-quadrado GL
Pr>qui-Quadr
Lambida 1^(2/(np))';
print qui2c v prqui2 lamb1;
/*teste de independencia de variaveis mais geral - H0: Sigma =
Diag(sig11 sig22 ... sigpp)*/
Lamb2=det(Rs);
qui2c=-2*(n/2)*log(lamb2)*(1-(2*p+11)/(6*n));
v=p*(p-1)/2;
prqui2=1-probchi(qui2c,v);
print 'Teste de independencia - H0: Sigma = Diag(sig11 sig22 ...
sigpp)';
print 'Qui-quadrado GL
Pr>qui-Quadr
Lambida 2^2/n';
print qui2c v prqui2 lamb2;
/*teste de independencia de variaveis - uso da aproximacao de Lawleypior*/
aux1=Rs#Rs;
aux2=(sum(aux1)-trace(aux1))/2;
qui2c=aux2*(n-(2*p+11)/6);
v=p*(p-1)/2;

7. Componentes principais

282

prqui2=1-probchi(qui2c,v);
print 'Teste de independencia aproximado de Lawley (1940)';
print 'para a hipotese H0: Sigma = Diag(sig11 sig22 ... sigpp)';
print 'Qui-quadrado GL
Pr>qui-Quadr
Soma de rij^2=aux2';
print 'Obs. para grandes valores de rij essa eh uma pessima
aproximacao';
print qui2c v prqui2 aux2;
quit;

7.6. Exerccios

7.6.1. Extrair os componentes principais da matriz S obtida das mensuraes de


trs variveis em carapaas de tartarugas. As variveis X1, X2, e X3 so
referentes ao comprimento, largura e altura transformadas por logaritmo
natural, respectivamente. Uma amostra de 24 fmeas foi realizada. A matriz
S apresentada a seguir, juntamente com o vetor de mdias das variveis
transformadas. Obter os componentes principais de S e interpret-los,
quando for possvel. Obter a matriz R e os respectivos componentes
principais. Obter em ambos os casos: a) a porcentagem de informao
explicada por cada componente; b) a correlao entre as variveis originais
transformadas e os componentes principais. Observando o primeiro
componente principal de R com mais profundidade, o que pode ser afirmado
sobre a matriz R (sem a realizao de teste).

2,128
X = 2, 008
1, 710

4,9810 3,8063 4, 7740


e S = 3,8063 3, 0680 3, 7183
4, 7740 3, 7183 4,8264

Ferreira, D.F.

Estatstica multivariada

283

7.6.2. Com os dados do exerccio 7.6.1, determine os intervalos de 95% de


confiana assinttico para os 3 autovalores de (3x3).
7.6.3. Com os dados do exerccio 7.6.1 teste a hiptese de que o primeiro
autovetor de seja igual a e1t = 1

3 . Qual sua concluso

com relao deciso tomada?


7.6.4. Com os dados do exerccio 7.6.1 reproduza a matriz S a partir do primeiro
componente principal e a matriz de resduos.
7.6.5. Teste a hiptese de que os r=2 ltimos valores caractersticos de , sejam
iguais, utilizando os dados do exemplo 7.6.1.
7.6.6. Teste a hiptese de independncia geral entre 3 variveis, para as quais
uma amostra de n=50 observaes apresentou a seguinte matriz de
covarincia.

24,9811 0, 0796 0, 0574


S = 0, 0796 5, 2762 0, 0020
0, 0574 0, 0020 3, 0655

7.6.7. Os dados a seguir referem a uma amostra de 30 elementos em uma


populao normal trivariada. Obtenha os componentes principais e verifique
a normalidade por meio dos dois primeiros componentes. Faa os Q-Q plots
e os grficos de disperso dos escores do componente 1 vs 2. Utilize o
ltimo componente para verificar a possibilidade de observaes suspeitas.
Caso alguma observao suspeita seja observada, elimine-a da amostra e
refaa o exerccio.

7. Componentes principais

284

U.A.

X1

X2

X3

12,80

29,56

45,19

14,12

26,54

49,29

19,09

33,26

49,79

15,98

31,00

51,73

16,00

28,94

50,30

16,51

31,67

48,06

14,05

30,11

55,15

14,34

26,47

46,84

16,87

29,00

52,16

10

21,93

38,00

39,24

11

15,21

30,68

54,02

12

15,54

27,37

51,52

13

17,71

30,20

51,66

14

14,42

29,99

52,50

15

13,38

31,61

52,33

16

13,91

29,59

44,19

17

15,53

29,30

53,71

18

16,40

28,96

46,56

19

18,35

30,15

52,18

20

13,59

27,70

52,33

21

19,08

31,26

48,59

22

13,95

29,94

54,73

23

16,11

34,52

52,69

24

17,10

29,39

52,03

25

18,81

31,48

49,79

26

15,27

29,54

43,11

27

14,80

31,88

48,08

28

17,39

28,88

50,69

29

18,02

34,02

49,58

30

9,52

25,23

45,89

||[

Anlise de agrupamento

]||

8.1. Introduo

As anlises rudimentares e exploratrias de dados como os


procedimentos grficos auxiliam, em geral, o entendimento da complexa natureza
da anlise multivariada. No presente captulo so discutidas algumas tcnicas
grficas adicionais para agrupar objetos (itens ou variveis) e tambm apresentar
os algoritmos que devem ser usados para efetivamente realiz-los. Encontrar nos
dados uma estrutura natural de agrupamento uma importante tcnica
exploratria. A anlise de agrupamento deve ser distinguida da anlise
discriminante, pelo fato desta ltima ser aplicada a um nmero de grupos j
conhecidos, tendo por objetivo a discriminao de um novo indivduo a um destes
grupos. A anlise de agrupamento por sua vez no considera o nmero de grupos
e realizada com base na similaridade ou dissimilaridade (distncias).
Objetivo dessa anlise agrupar objetos semelhantes segundo suas
caractersticas (variveis). Todavia, no existem impedimentos para realizar o
agrupamento de variveis semelhantes segundo as realizaes obtidas pelos
objetos amostrados. Um outro problema para o qual uma resposta necessria

8. Anlise de agrupamento

286

consiste em verificar se um indivduo A mais parecido com B do que com C.


Quando o nmero de variveis envolvidas pequeno, a inspeo visual poder
responder. Assim, por exemplo, na Figura 8.1 observa-se uma situao em que A
mais parecido com C do que com B. Intuitivamente para fazer tal inferncia
usou-se o conceito de distncia euclidiana, o qual definiu a idia de parecena.

20

Varivel 2

18

16

14

12
A

10
1.0

1.5

2.0

2.5

3.0

3.5

4.0

Varivel 1

Figura 8.1. Disperso entre trs indivduos mensurados com relao a duas
variveis quantitativas contnuas.

8.2. Medidas
de
dissimilaridade)

parecena

(similaridade

Como foi visto no exemplo da Figura 8.1, necessrio especificar


um coeficiente de parecena que indique a proximidade entre os indivduos.
importante considerar, em todos os casos semelhantes a este, a natureza da

Ferreira, D.F.

Estatstica multivariada

287

varivel (discreta, contnua, binria) e a escala de medida (nominal, ordinal, real


ou razo).
No captulo 1 foi discutida a noo de distncia e apresentada a
distncia euclidiana entre dois objetos no espao p-dimensional. Sejam

X1t = X11 X12 " X1p




e X 2t = X 21 X 22 " X 2p


observaes entre dois objetos

(indivduos). Ento, a distncia euclidiana entre eles dada por:

d ( X1 , X 2 ) =
 

( X11 X 21 )

+ ( X12 X 22 ) + ... + ( X1p X 2p ) = (X1 X 2 ) t (X1 X 2 ) (8.1)






2

Uma importante distncia estatstica entre estes dois objetos


conhecida como distncia de Mahalanobis, dada por:

d ( X1 , X 2 ) = (X1 X 2 ) t S1 (X1 X 2 )




 

(8.2)

em que, S-1 a inversa da matriz de varincia e covarincia amostral. Outra


medida de distncia a mtrica de Minkowski, a qual depende de funes
modulares.

1m

p
m
d ( X1 , X 2 ) = X1i X i2i

 
i =1 

(8.3)

8. Anlise de agrupamento

288

Para m=1 a equao (8.3) conhecida por mtrica do quarteiro


(mtrica city-block) e para m = 2 representa a distncia euclidiana e, em geral,
variaes de m causam trocas nos pesos dados a pequenas e a grandes
diferenas.
Sempre que possvel conveniente usar distncias verdadeiras, ou
seja, aquelas que obedecem desigualdade triangular para o agrupamento de
objetos, embora alguns algoritmos de agrupamento no exigem o atendimento
dessa pressuposio.
De uma maneira geral, sejam Xhj as observaes do h-simo objeto
na j-sima varivel e Xij as observaes do i-simo objeto na j-sima varivel, e
sejam Zhj

e Zij estes valores padronizados, ento, podem ser definidas as

distncias apresentadas a seguir. Sendo que h, i = 1, 2, ..., n e j = 1, 2, ..., p.


Distncia euclidiana mdia,

d h,i =

( X
j =1

hj

X ij )

(8.4)

Distncia euclidiana padronizada,

d h,i

X hj X ij
=
=

S
j =1
jj

( X h Xi )


D 1 ( X h X i )



(8.5)

Ferreira, D.F.

Estatstica multivariada

289

em que, D uma matriz diagonal tendo o j-simo componente igual a varincia Sjj,
ou seja,

0 "
0
S11
0 S
0
"
22

D=
#
# %
#

0 " Spp
0

De modo anlogo pode-se definir a distncia euclidiana padronizada


mdia,

d h,i

X hj X ij

S
j =1
jj

=
=
p
p

( X h Xi )


D 1 ( X h X i )


p

(8.6)

Outros tipos de definies de distncias podem ser encontrados na


literatura (Bussab, Miazaki e Andrade, 1990). Um exemplo o coeficiente de
Gower, o qual baseado na proporo da variao em relao a maior
discrepncia possvel.

d h,i

1 p X hj X ij
= log10 1

p j =1 X ( n ) j X (1) j

(8.7)

8. Anlise de agrupamento

290

em que X ( n ) j e X (1) j so os valores mximos e mnimos, respectivamente, em


uma amostra de n objetos para a j-sima varivel.
Muitas vezes os objetos no podem ser mensurados em variveis
quantitativas. Essas variveis podem ser transformadas em dicotmicas (binrias),
determinado um ponto de corte de interesse prtico. Assim, por exemplo, se a
altura (Y) de n indivduos mensurada e o interesse determinar queles com
altura superiores a 1,80m, ento, defini-se a varivel binria (X) da seguinte forma:
se Yi > 1,80m ento Xi = 1 caso contrrio, se Yi 1,80m, ento Xi = 0. Da mesma
forma, variveis qualitativas podem ser transformadas em variveis binrias
tomando-se como valor 1 a presena de uma determinada realizao e o valor 0
para as demais. Assim, por exemplo, se na amostra ocorresse um indivduo com
cor de olhos pretos determinaria o valor 1 e a ocorrncia de outro com outra cor de
olhos determinaria o valor 0. De uma maneira geral, a presena e ausncia de
uma caracterstica devem ser representadas por uma varivel binria, a qual
assume valor 1 se a caracterstica estiver presente e o valor zero se estiver
ausente. A ocorrncia de dados binrios bastante comum em gentica
molecular. Nesse caso, os indivduos so genotipados para a presena ou
ausncia de um determinado marcador molecular, marcador de DNA.
Como exemplos consideram-se duas linhagens de milho as quais
foram estereotipadas atravs de marcadores moleculares denominados RAPD. O
melhorista nesse caso estava interessado na similaridade gentica dessas
linhagens. Cinco bandas (marcadores diferentes) foram utilizadas. Os resultados

Ferreira, D.F.

Estatstica multivariada

291

para presena e para a ausncia dessas bandas foram obtidos e esto


apresentados a seguir.

Linhagens
A
B

1
1
1

Bandas
3
0
0

2
0
1

4
1
1

5
1
0

Existem, neste exemplo, duas concordncias, uma com 1-1 e outra


com 2-2 e duas discordncias, quais sejam, 0-1 e 1-0. Representando o escore (1
ou 0) da j-sima varivel binria no h-simo objeto por Xhj e da mesma forma Xij
representa o escore do i-simo objeto na j-sima varivel, j=1, 2, ..., p.
Conseqentemente, a diferena ao quadrado entre os dois indivduos ou objetos
para uma determinada varivel resultar apenas no valor 0 ou no valor 1. Isso
pode ser observado facilmente pelos seguintes argumentos.

(X

hj

X ij )

0 se X hj = X ij = 1 ou se X hj = X ij = 0

=
1 se X X
hj
ij

(8.8)

Dessa forma, a distncia euclidiana quadrtica representa a


contagem

do

nmero

de

pares

no

coincidentes.

Grandes

distncias

correspondem a muitos pares no coincidentes e, portanto, a objetos dissimilares.


Para o exemplo em questo, tem-se:

d A2 , B = 2

8. Anlise de agrupamento

292

A equao (8.4) pode ser usada muitas vezes como base para
distncia, no entanto, algumas vezes possui algumas limitaes por considerar
que os pares (1-1) e (0-0) possuem o mesmo peso, o que em determinadas
situaes reais (1-1) representa uma forte evidncia de similaridade, mas o (0-0)
no. Muitos coeficientes existem na literatura, dando diferentes tratamentos a este
problema. Cabe ao leitor decidir em qual situao o seu problema se enquadra e
escolher a medida de parecena mais apropriada. Para introduzir estas medidas
de parecena so apresentados os resultados de coincidncias e divergncias dos
objetos h e i em uma tabela de contingncia.

Item i
1

Totais

a+b

c+d

a+c

b+d

p = a + b +c + d

Item h
Totais

Nesta Tabela pode-se observar que a representa a freqncia de


coincidncias (1-1), b a freqncia de (1-0), e assim sucessivamente. No
exemplo tratado a = 2, b = c = d = 1.
Na

Tabela

8.1

apresentam-se

alguns

dos

coeficientes

de

semelhana (similaridade) em termos das freqncias descritas anteriormente,


considerando variveis binrias. Os valores para o exemplo, a variao de cada

Ferreira, D.F.

Estatstica multivariada

293

uma, o nome comum na literatura e explicao racional para as mesmas foram


apresentados.
Na Tabela 8.1, esto apresentados os coeficientes de similaridades,
no entanto, deve ser ressaltado que a nica exceo a distncia binria de
Sokal. Muitas vezes as medidas de dissimilaridade podem ser transformadas em
medidas de similaridade pela relao apresentada em Johnson e Wichern (1988).

Sh,i =

1
1 + d h ,i

(8.9)

Outra forma de se obter coeficientes de similaridades a partir da


distncia euclidiana, calculada com variveis padronizadas, pode ser obtida pelo
coeficiente de Cattel (Bussab, Miazaki, Andrade, 1990).

Sh,i

2 p d h2, i
3
=
2

2 p + d h2,i
3

(8.10)

Uma outra expresso apresentada atribuda a Cattel e Coulter


(Bussab, Miazaki, Andrade, 1990), tambm derivada considerando distncias
euclidianas padronizadas dada por:

Sh,i =

2 p d h2, i
2 p + d h2, i

(8.11)

8. Anlise de agrupamento

294

No entanto, nem sempre possvel construir distncias a partir de


similaridades. Isso s pode ser feito se a matriz de similaridades for no negativa
definida. Com a condio de que Si,i = 1, mximo das similaridades, e que a matriz
de similaridades seja no negativa definida, ento a expresso (8.12) tem as
propriedades de distncia.

d h , i = 2 (1 S h ,i )

(8.12)

Ferreira, D.F.

Estatstica multivariada

295

Tabela 8.1. Alguns coeficientes de parecena para variveis dicotmicas.


Nome

Expresso

Explicao

Variao

Ex.

Pesos iguais para 1-1 e 0-0

0-1

0,60

0-1

0,75

0-1

0,43

Nenhum 0-0 no numerador

0-1

0,40

a
a+b+c
2a
2a + b + c
a
a + 2( b + c)

As coincidncias 0-0 so tratadas


como irrelevantes

0-1

0,50

0-0 irrelevante e duplo peso para


1-1.

0-1

0,66

0-0 irrelevante e duplo peso para


no coincidncia.

0-1

0,33

a
b+c

Razo entre coincidncias e no


coincidncias - Exceto 0-0

0-(p-1)

1,00

nica medida de dissimilaridade.

0-1

0,63

a
( a + b )( a + c)

Concordncias
positivas
sobre
adaptao da mdia geomtrica de
discordncias

0-1

0,67

Baroni-UrbaniBuser

a + ad
a + b + c + ad

Concordncias positivas e a mdia


geom. de concordncia positivas e
negativas

0-1

0,63

Haman

(a + d) (b + c )
p

Proporo de coincidncias menos


a proporo de discordncias

-1 - +1

0,20

a+d
p

Coincidncia
simples
Sokal
Sneath

2 (a + d )
2 (a + d ) + b + c

Peso duplo para 1-1 e 0-0

Rogers
Tanimoto

a+d
a + 2( b + c) + d

Duplo peso
coincidentes

Russel e Rao
Jaccard

Sorenson

Dist.
Binria
de Sokal
Ochiai

a
p

b+c
p

para

pares

no

Yule

ad bc
ad + bc

Proporo de ad menos a de bc

-1 - +1

0,33

ad bc

Produto de momento de correlao


aplicado a variveis binrias

-1 - +1

0,17

Proporo de coincidncias em
relao mdia geom. total
modificada

0 -1

0,33

(a + b)(a + c)( b + d )(c + d )


Ochiai II

ad
(a + b)(a + c)(b + d )(c + d )

8. Anlise de agrupamento

296

Em algumas aplicaes necessrio agrupar variveis ao invs de


objetos. As medidas de similaridades para agrupar variveis usadas na prtica so
baseadas nos coeficientes de correlao amostral. Em algumas aplicaes de
agrupamento, as correlaes negativas so trocadas pelos seus valores
absolutos. Quando, as variveis so binrias esta correlao est apresentada na
Tabela 8.1 (). Este coeficiente de correlao est associado estatstica de quiquadrado, para testar a independncia de duas variveis categricas por
( 2 = 2 n , n = a + b + c + d, 2 com 1 grau de liberdade). Para n fixo, uma grande
similaridade (ou correlao) consistente com a falta de independncia entre as
variveis. Uma outra importante observao que pode ser feita que para
agrupamento de variveis os coeficientes de similaridade e de distncias podem
ser usadas, apenas tomando-se o cuidado de substituir p (nmero de variveis)
por n (nmero de objetos).

8.3. Agrupamentos

Muitos algoritmos existem para formar os agrupamentos, devido a


existncia de vrios critrios existentes para conceituar os grupos que nem
sempre so aceitos universalmente. Uma outra razo para isso, que raramente
pode-se examinar todas as possibilidades de agrupamento, mesmos com os mais
rpidos e possantes computadores.

Ferreira, D.F.

Estatstica multivariada

297

So apresentadas neste material algumas das tcnicas de


agrupamentos denominadas hierrquicas e outra do grupo das no hierrquicas.

8.3.1. Agrupamentos hierrquicos

Os agrupamentos hierrquicos so realizados por sucessivas fuses


ou por sucessivas divises. Os mtodos hierrquicos aglomerativos iniciam com
tantos grupos quanto aos objetos, ou seja, cada objeto forma um agrupamento.
Inicialmente, os objetos mais similares so agrupados e fundidos formando um
nico grupo. Eventualmente o processo repetido, e com o decrscimo da
similaridade, todos os subgrupos so fundidos, formando um nico grupo com
todos os objetos.
Os mtodos hierrquicos divisivos trabalham na direo oposta. Um
nico subgrupo inicial existe com todos os objetos e estes so subdivididos em
dois subgrupos de tal forma que exista o mximo de semelhana entre os objetos
dos mesmos subgrupos e a mxima dissimilaridade entre elementos de subgrupos
distintos. Estes subgrupos so posteriormente subdivididos em outros subgrupos
dissimilares. O processo repetido at que haja tantos subgrupos quantos
objetos.
Os resultados finais destes agrupamentos podem ser apresentados
por grficos denominados dendrogramas. Os dendrogramas apresentam os

8. Anlise de agrupamento

298

elementos e os respectivos pontos de fuso ou diviso dos grupos formados em


cada estgio.
Os esforos deste captulo sero concentrados nos mtodos
hierrquicos aglomerativos (Linkage Methods). Sero discutidos os mtodos de
ligao simples (mnima distncia ou vizinho mais prximo), ligao completa
(mxima distncia ou vizinho mais distante) e ligao mdia (distncia mdia). As
idias para estes trs processos esto, esquematicamente, apresentados na
Figura 8.2.

.2
.1

d24

.4

.3

.2
.

(a)

d15

(b)

.2
.1

.4

.4

.3
.5

.3
.5

(c)
(d13+d14+d15+d23+d24+d25)/6

Figura 8.2. Distncias entre os grupos para os mtodos da (a) ligao simples, (b)
ligao completa e (c) ligao mdia.

Ferreira, D.F.

Estatstica multivariada

299

A seguir est apresentado um algoritmo geral para os agrupamentos


hierrquicos aglomerativos com n objetos (itens ou variveis).

1. Iniciar com n grupos, cada um com um nico elemento e com uma matriz
simtrica n x n de dissimilaridades (distncias) D={dhi}.
2. Buscar na matriz D o par de grupos mais similar (menor distncia) e fazer a
distncia entre os grupos mais similares U e V igual a duv.
3. Fundir os grupos U e V e nome-lo por (UV). Recalcular e rearranjar as
distncias na matriz D (a) eliminando as linhas e colunas correspondentes a U
e V e (b) acrescentando uma linha e coluna com as distncias entre o grupo
(UV) e os demais grupos.
4. Repetir os passos 2 e 3 num total de (n-1) vezes (todos os objetos estaro em
nico grupo). Anotar a identidade dos grupos que vo sendo fundidos e os
respectivos nveis (distncias) nas quais isto ocorre.

(a) Ligao simples (vizinho mais prximo)


Para exemplificar considerado um exemplo, no qual destacam-se 4
objetos (A, B, C, D), e para o qual a matriz de distncias entre os objetos
apresentada a seguir.
A B C D
A 0

B 3 0

D=
C 7 9 0

D 8 6 5 0

8. Anlise de agrupamento

300

Para ilustrar o mtodo da ligao simples, os objetos menos


distantes devem, inicialmente, ser fundidos. Ento, min ( d h , i ) = d A, B = 3 . O prximo
passo fundir A com B formando o grupo (AB) e em seguida calcular as
distncias deste grupo e os objetos remanescentes. As distncias dos vizinhos
mais prximos so,

d( AB ), C = min{dAC , dBC } = min{7, 9} = 7

d( AB ),D = min{dAD , dBD } = min{8, 6} = 6

A nova matriz D para o prximo passo :


AB C D
AB 0

D = C 7 0
D 6 5 0
A menor distncia entre D e C, com dDC=5, os quais foram fundidos
formando o subgrupo DC, no nvel 5. Recalculando as distncias tm-se,

d(DC ),( AB ) = min{dD ( AB ) , dC ( AB ) } = min{6, 7} = 6

A nova matriz D fica,


DC AB
D=

DC 0
AB 6 0

Ferreira, D.F.

Estatstica multivariada

301

Conseqentemente o grupo DC fundido com AB na distncia 6. Na


Figura 8.3, foi apresentado o dendrograma, com os resultados alcanados.

Dendrograma
Single Linkage
Matriz de dissmilaridade

2.5

3.0

3.5

4.0

4.5

5.0

5.5

6.0

6.5

Distncia de ligao

Figura 8.3. Dendrograma para agrupar 4 objetos (A, B, C e D) pelo mtodo da


ligao simples (vizinho mais prximo).

(b) Ligao completa (vizinho mais distante)

O mtodo da ligao completa realizado da mesma forma que o do


vizinho mais prximo, com exceo de que a distncia entre grupos tomada
como a mxima distncia entre dois elementos de cada grupo. Para ilustrar, ser
usado o mesmo exemplo. Assim, considerando a mesma matriz de dissimilaridade
D do exemplo anterior. Inicialmente so fundidos os dois objetos menos distantes.
Ento, como min ( d h , i ) = d A , B = 3 , os objetos A e B devem ser fundidos formando o
grupo (AB) e em seguida deve-se calcular as distncias deste grupo e os objetos
remanescentes. As distncias entre os grupos so consideradas com sendo a
distncia entre os vizinhos mais distantes, dadas por:

8. Anlise de agrupamento

302

d( AB ), C = max{dAC , dBC } = max{7, 9} = 9


d( AB ),D = max{dAD , dBD } = max{8, 6} = 8
A nova matriz D para o prximo passo :
AB C D
AB 0

D = C 9 0
D 8 5 0
A menor distncia entre D e C, com dDC=5, os quais foram fundidos
formando o subgrupo DC, no nvel 5. Recalculando as distncias entre os grupos
tem-se,

d(DC ),( AB ) = max{dD ( AB ) , dC ( AB ) } = max{8, 9} = 9

A nova matriz D fica,


DC AB
D=

DC 0
AB 9 0

Conseqentemente, o grupo DC fundido com AB na distncia 9.


Na Figura 8.4, foi apresentado o dendrograma, com os resultados alcanados.

Ferreira, D.F.

Estatstica multivariada

303

Dendrograma
Complete Linkage
Matriz de dissimilaridades

10

Distncia de ligao

Figura 8.4. Dendrograma para agrupar 4 objetos (A, B, C e D) pelo mtodo da


ligao completa (vizinho mais distante).

Comparando-se os resultados alcanados e apresentados nas


Figuras 8.3 e 8.4, pode-se notar que os dendrogramas para o mtodo do vizinho
mais prximo e do vizinho mais distante no diferem na alocao dos objetos e
sim na magnitude da fuso dos grupos CD com AB, para esse exemplo em
particular.

(c) Ligao mdia (mtodo do centride)

O mtodo da ligao mdia realizado da mesma forma que o do


vizinho mais prximo e mais distante, com exceo de que a distncia entre
grupos tomada como a mdia da distncia entre dois elementos de cada grupo.
Para ilustrar, usado o mesmo exemplo. Da mesma forma, so fundidos os

8. Anlise de agrupamento

304

objetos menos distantes. Ento, como min ( d h , i ) = d A , B = 3 , os objetos A e B devem


ser fundidos, formando o grupo (AB) e em seguida deve-se calcular as distncias
deste grupo e os objetos remanescentes. As distncias entre grupos so
baseadas na mdia das distncias entre todos os elementos de um grupo com
relao aos elementos de outro grupo.

d( AB ), C = (dAC + dBC ) / 2 = (7 + 9) / 2 = 8

d ( AB ),D = (d AD + dBD ) / 2 = (8 + 6) / 2 = 7
A nova matriz D para o prximo passo :
AB C D
AB 0

D = C 8 0
D 7 5 0
A menor distncia entre D e C, com dDC=5, os quais foram fundidos
formando o subgrupo DC, no nvel 5. Recalculando as distncias tm-se,

d(DC ),( AB ) = (dD ( AB ) + dC ( AB ) ) = (7 + 8) / 2 = 7,5

A nova matriz D fica,

DC AB
D=

DC 0

AB 7,5 0

Ferreira, D.F.

Estatstica multivariada

305

Conseqentemente o grupo DC fundido com AB na distncia 7,5.


Na Figura 8.5, foi apresentado o dendrograma, com os resultados alcanados.

Dendrograma
Unweighted pair-group average
Matriz de dissimilaridade

Distncia de ligao

Figura 8.5. Dendrograma para agrupar 4 objetos (A, B, C e D) pelo mtodo da


ligao mdia (centride).

8.3.2. Agrupamentos no hierrquicos

Os agrupamentos no hierrquicos procuram a partio de n objetos


em k grupos. Os mtodos exigem a pr-fixao de critrios que produzam
medidas sobre a qualidade da partio produzida. Um dos mais populares
mtodos o das k-mdias.

8. Anlise de agrupamento

306

O algoritmo das k-mdias, de uma forma bastante simplificada,


dividido em trs passos:
1. Particionar os itens em k grupos iniciais arbitrariamente;
2. Percorrer a lista de itens e calcular as distncias de cada um deles para o
centride (mdias) dos grupos. Fazer a realocao do item para o grupo em
que ele apresentar mnima distncia, obviamente se no for o grupo ao qual
este pertena. Recalcular os centrides dos grupos que ganharam e perderam
o item.
3. Repetir o passo 2 at que nenhuma alterao seja feita.

Exemplo 8.1
Utilizando 4 itens (A, B, C e D) e 2 variveis (X1 e X2) dividir em k=2
grupos, pelo mtodo das k-mdias.

Observao
Objeto
A
B
C
D

x1
2
5
1
8

x2
0
2
4
4

i) particionar os itens arbitrariamente em 2 grupos, como por exemplo AD e BC.


Calcular a mdia de cada grupo.

Centride
Objeto
AD
BC

X1
(2+8)/2=5
(1+5)/2=3

X2
(0+4)/2=2
(2+4)/2=3

Ferreira, D.F.

Estatstica multivariada

307

ii) Neste passo a distncia de cada item ser computada em relao ao centride
de cada grupo e se necessrio, os objetos sero realocados para o grupo mais
prximo.

d
d

2
A ( AD )

2
A (BC )

= (2 5) 2 + (0 2) 2 = 13
= (2 3) 2 + (0 3) 2 = 10

Neste caso h necessidade de realocao de A para o grupo BC,


sendo que os centrides dos grupos devem ser recalculados.

Centride
Objeto

X1

X2

D
ABC

8
2,667

4
2

Recalculando as distncias dos objetos para o centride dos grupos


e checando a possibilidade de realocao, tem-se:

d
d

2
A ,D

= 52

2
A ,( ABC )

d
d

B ,D

= 4, 44

Grupo
D
ABC

= 13

B ,( ABC )

= 5, 44

d
d

C ,D

= 49

C ,( ABC )

= 6,77

Item (distncia quadrtica p/ centride)


A
B
C
D
52,0
13,0
49,0
0,0
4,4
5,4
6,8
32,4

8. Anlise de agrupamento

308

Nenhuma realocao deve ser realizada, pois os objetos tm menor


distncia para os respectivos grupos aos quais eles pertencem. Para realizar uma
checagem da estabilidade de a partio alcanada recomendvel executar
novamente o algoritmo com uma nova partio inicial.

8.4. Exerccios

Agrupar os 4 objetos cuja matriz de dissimilaridades est


apresentada a seguir, utilizando todos os mtodos apresentados nesse material.

A B C D
A 0

B 9
0

D=
C 25 36 0

D 49 100 16 0

||[

Anlise de fatores

]||

9.1. Introduo

tcnica

dos

componentes

principais

consiste

em

uma

transformao ortogonal dos eixos coordenados do sistema multivariado buscando


as orientaes de maior variabilidade. Para o estudo de dependncias estruturais
multinormais, as tcnicas de explicao das covarincias das respostas so
preferidas. Apesar de as tcnicas dos componentes principais poder ser usada
para essa finalidade, esta no deve ser preferida por ser apenas uma
transformao e no um resultado de um modelo fundamental da estrutura de
covarincia. Esse mtodo possui alguns inconvenientes, tais como no ser
invariante quanto s mudanas de escalas e no possuir um critrio adequado
para determinar quando uma proporo suficiente da variao total foi explicada
pelos componentes retidos.
Nesse captulo apresenta-se a tcnica de anlise de fatores com o
propsito essencial de descrever, se possvel, as relaes de covarincia entre
diversas variveis em funo de poucas, no observveis, quantidades aleatrias
denominadas de fatores. Sob o modelo de fatores cada varivel resposta

9. Anlise de fatores

310

representada por uma funo linear de uma pequena quantidade de fatores


comuns, no observveis, e de uma simples varivel latente especfica. Os fatores
comuns geram as covarincias entre as variveis observadas e os termos
especficos contribuem somente para as varincias de suas respostas
relacionadas. Os coeficientes dos fatores comuns no so restritos a condio de
ortogonalidade, o que confere generalidade, apesar de se exigir normalidade dos
dados e a determinao, a priori, do nmero de fatores.
Nesse captulo so apresentados o modelo de fatores ortogonais, os
mtodos de estimao dos parmetros desse modelo e brevemente o problema
de rotao dos fatores. considerado um mtodo de estimao que no exige
normalidade. Mtodos de estimao de os escores dos fatores so, tambm,
abordados, o que ao contrrio dos componentes principais no uma tarefa
simples.

9.2. Modelo de fatores ortogonais


Supondo que o sistema multivariado consiste de p resposta descritas
pelas p variveis observveis aleatrias X1, X2, ..., Xp. Assumindo que o vetor de
observaes multivariadas p X1 possui mdia e covarincia , ento, o modelo


de fatores pressupe que o vetor

X1 linearmente dependente de algumas




poucas variveis no observveis F1, F2, ..., Fm chamadas de fatores comuns, e p

Ferreira, D.F.

Estatstica multivariada

311

fontes de variaes adicionais 1, 2, ..., p chamadas de erro ou de fatores


especficos. O modelo de fatores pode ser especificado por:

X1 1 = A11F1 + A12 F2 + ... + A1m Fm + 1


X 2 2 = A 21F1 + A 22 F2 + ... + A 2m Fm + 2
#

(9.1)

X p p = A p1F1 + A p2 F2 + ... + A pm Fm + p

ou em notao matricial por:

X = L F
 

(p1)

(p m) (m1)

+


(p1)

(9.2)

em que A ij denominado de carga da i-sima varivel para o j-simo fator, ento


a matriz L chamada matriz de cargas fatoriais. O i-esimo fator especfico i
associado somente com a i-sima varivel resposta Xi. Os p desvios X1-1, X2-2,
..., Xp-p so representados por p + m variveis aleatrias F1, F2, ..., Fm, 1, 2, ...,
p, as quais so no observveis. Esse fato distingue o modelo de fatores do

modelo de regresso multivariada, pois este ltimo possui variveis independentes


(ocupadas em (9.2) por F) que so observveis.
Devido ao grande nmero de quantidades no observveis e
tambm com a finalidade de tornar til o modelo de fatores, algumas
pressuposies sobre os vetores F e so impostas. Assim assumido que F



tem distribuio com mdia 0 e que os elementos de F so independentemente



9. Anlise de fatores

312

distribudos, ou seja, F possui covarincia . Da mesma forma assumido que




possui mdia zero e os seus elementos so independentemente distribudos, ou
seja, Cov( )= diagonal (p x p). Sendo assim, definem-se:


E(F) = 0



(9.3)

Cov(F) = E(FFt ) =



(9.4)

E() = 0
 

(9.5)

1 0
0
2
t
Cov() = E( ) = =
#
#



0
0

0
" 0
% #

" p
"

(9.6)

Finalmente, assumido que F e so independentes, portanto,





Cov(, F) = E ( Ft ) = 0
(p m)
 


(9.7)

O modelo (9.2) e essas pressuposies definem o modelo de fatores


ortogonal. Dessa forma a estrutura de covarincia de X pode ser dada por:


Cov(X) = = E(X )(X ) t



   

Ferreira, D.F.

Estatstica multivariada

313

Substituindo X pelas definies dadas no modelo (9.2), verifica 


se que:

( X  )( X  )

= ( LF + )( LF + ) = ( LF + ) ( LF ) + t =
 
 
 


t
t
t
t
= LF ( LF ) + ( LF ) + LF +
 
  
 
t

Ento,
Cov(X) = = E(X )(X ) t =

   
t
t
= E LF ( LF ) + ( LF ) + LF t + t
 
  
 
t
t
t
t
= LE(FF )L + E ( F ) L + L E ( F t ) + E ( t )





De acordo com as condies (9.4), (9.6) e (9.7), tem-se:

Cov(X) = = LLt +


(9.8)

Tambm podem ser obtidas as covarincias entre os componentes


de X e F a partir das suposies assumidas e apresentadas anteriormente.


Assim,

Cov ( X, F ) = E X Ft = E ( LF + ) Ft = E ( LFFt + Ft ) =
  
 
  
  
= E ( LFFt ) + E ( Ft ) = LE ( FFt ) + E ( Ft ) = L + 0 = L





9. Anlise de fatores

314

Logo,

Cov ( X, F ) = L
 

ou

Cov ( X i , Fj ) = A ij

(9.9)

Da relao (9.8) verifica-se que:

Var(X i ) = ii = A 2ij + i = A 2i1 + A 2i2 + ... + A 2im + i


j=1

(9.10)
m

Cov(X i , X k ) = ik = A ijA kj = A i1A k1 + A i2A k 2 + ... + A im A km


j=1

A poro da i-sima varivel explicada por m fatores comuns


chamada de comunalidade e a poro de ii devida aos fatores especficos
denominada de varincia especfica. Denotando a i-sima comunalidade por h i2
fcil observar de (9.10) que:

h i2 = A 2i1 + A 2i2 + ... + A 2im

(9.11)

Assim,

ii = h i2 + i

i = 1, 2, ..., p

(9.12)

Ferreira, D.F.

Estatstica multivariada

315

Quando m = p a matriz pode ser reproduzida exatamente por LLt ,


de tal forma que =0. A utilidade da anlise de fatores, no entanto, ocorre quando
m bem menor do que p. Dessa forma, o nmero de parmetros na anlise de
fatores, p(m+1), bem menor do que aqueles p(p+1)/2 parmetros de . Por
exemplo, para p=20 existem 2021/2=210 parmetros em . Se m=2 fatores so
utilizados, ento, o modelo de fatores possui p(m+1)=20(2+1)=60 parmetros
( A ij e i ).
O grande problema da anlise de fatores a dificuldade ou a
impossibilidade de fatorar a matriz em LL t +, quando m bem menor do que p.
Algumas vezes, quando so obtidas solues, estas so, em geral, inconsistentes
com as interpretaes estatsticas. A anlise de fatores tem como propsito a
determinao dos elementos da matriz de cargas fatoriais L e dos elementos de
, obedecendo a restrio (9.12).

Quando m > 1, vrias solues existem para o modelo de fatores,


todas consistentes com as interpretaes estatsticas. Essa ambigidade a base
para uma importante caracterstica da anlise de fatores que a rotao fatorial.
Para demonstrar essa propriedade, seja T uma matriz ortogonal m x m, ou seja,
TT t =T t T=I. A expresso (9.2) pode ser reescrita por:

X = LF + = LTT t F + = L*F* +
 
 
 
 

em que: L* = LT e F* = T t F .



(9.13)

9. Anlise de fatores

316

Como E(F* ) = T t E(F) = T t 0 = 0 e Cov(F* ) = T 'Cov(F)T = T t T = T t T = ,






 
ento, impossvel distinguir as cargas de L das de L*, ou seja, os fatores
F e F* = T t F possuem as mesmas propriedades, uma vez que geram a mesma
 


matriz de covarincia , mesmo que as cargas fatoriais de L e de L* sejam, em


geral, diferentes. Assim,

= LLt + = LTT t Lt + = L*L*t +

(9.14)

A escolha da matriz T direcionada por um critrio de facilitao da


interpretao dos fatores gerados, uma vez que as propriedades estatsticas no
so alteradas.

9.3. Estimao das cargas fatoriais

Nas situaes reais, os parmetros do modelo de fatores so


desconhecidos e devem ser estimados das observaes amostrais. A anlise de
fatores justificvel quando difere de uma matriz diagonal, ou quando matriz
de correlaes difere da identidade. Para uma amostra X1 , X 2 , ..., X n de tamanho n
 

em p variveis correlacionadas a matriz S um estimador de , bem como R de
. Com base em uma estimativa de possvel realizar o teste de hiptese de

igualdade de a uma matriz diagonal, conforme descrio realizada no captulo 7.

Ferreira, D.F.

Estatstica multivariada

317

Se a hiptese no for rejeitada, os fatores especficos possuem papel dominante,


sendo que a anlise de fatores determinar alguns poucos fatores comuns. Nesse
caso, a anlise de fatores no ter grande utilidade.
Se a hiptese de a estrutura de ser igual a uma matriz diagonal for
rejeitada, ento, o modelo de fatores ser til e o problema inicial ser o de
estimar as cargas fatoriais A ij e as varincias especficas i. Nessa seo so
considerados dois mtodos de estimao para os parmetros do modelo de
fatores: o mtodo dos componentes principais e o mtodo da mxima
verossimilhana apresentado por Lawley (1940, 1942 e 1943). Qualquer que seja
o mtodo aplicado, as solues podem sofrer rotaes com a finalidade de
simplificar as interpretaes dos fatores. prudente, tambm, tentar mais de uma
soluo.

9.3.1. Mtodo dos componentes principais

A decomposio espectral vista nos captulos 2 e 7, representa um


importante mtodo de fatorao de . Sejam as matrizes P = e1 e 2 ... ep e
 


= Diag(1 , 2 , ..., p ) compostas dos autovetores e autovalores de , com

1 2 ... p , ento:

= PP t = P1/ 2 1/ 2 P t = LLt

(9.15)

9. Anlise de fatores

318

em que, L = P1/ 2 uma matriz p x p de cargas fatoriais.


A equao (9.15) reflete um ajuste da estrutura de covarincia por
um modelo de fatores tendo tantos fatores quanto variveis (m = p) e varincias
especficas i nulas para todo i = 1, 2, ..., p. Nesse modelo as cargas fatoriais do jsimo fator representam os coeficientes do j-simo componente principal
(autovetor) multiplicado pelo fator de escala

j . Embora a relao (9.15) seja

exata, esta no til por utilizar tantos fatores quanto variveis e por no deixar
variao alguma para os fatores especficos.
Uma soluo para o problema considerar um nmero m, de fatores
comuns, menor do que o de variveis p. Com esse critrio p-m autovalores e os
respectivos autovetores so desconsiderados. Esses autovalores so queles (pm) menores. Dessa forma a contribuio de m +1e m +1e mt +1 + m + 2 e m + 2 e mt + 2 + ... + p e p e pt
 
 
 
para negligenciada. Desprezando essa contribuio, a seguinte aproximao
de pode ser obtida:

1 e1


2 e 2 ...


1 e1


2 e2
t
m e m
 = LL
 #

e
m  m

(9.16)

em que L uma matriz p x m. A representao (9.16), no entanto, no considera a


contribuio dos fatores especficos. A contribuio desses fatores pode ser
estimada tomando-se a diagonal de - LLt , sendo LLt definida em (9.16).

Ferreira, D.F.

Estatstica multivariada

319

Dessa forma a matriz pode ser aproximada por:

LLt +
(9.17)
m

= Diag( LLt ) ou i = ii A 2ij

para i=1, 2, ..., p.

j =1

comum trabalhar com a representao das variveis em uma


escala padronizada. Nessa situao a varivel Zi possui mdia 0 e varincia 1. A
padronizao pode ser realizada por:

X1 1

Z1
11
Z
2

Z = = V 1/ 2 X = #

 #
 
X p p

Zp
pp

em que:

1/ 2

1
11

"

1
22

"

"

1
pp

(9.18)

9. Anlise de fatores

320

A matriz de covarincia de Z dada por . O processo de obteno



dos parmetros do modelo de fatores o mesmo descrito nas equaes de (9.17),
considerando = e L = P1/ 2 , sendo P a matriz p x m com as colunas compostas
pelos m primeiros autovetores de e 1/2 uma matriz m x m com diagonal igual a
m

i . Como ii = 1 , fcil perceber que i = 1 A 2ij . A padronizao evita que


j=1

uma varivel com elevada variao influencie indevidamente a determinao das


cargas fatoriais.
A representao apresentada em (9.17), quando ou so
substitudos pelos seus estimadores S ou R, conhecida como soluo dos
componentes principais para a anlise de fatores. O nome se origina do fato de os
fatores serem derivados dos primeiros componentes principais amostrais. O
resumo dos principais resultados desse mtodo de estimao doravante
apresentado.
A anlise de fatores por componentes principais obtidos da
covarincia amostral S especificada em funo dos pares de autovalores e

autovetores i , e i , i = 1, 2, ..., p, em que 1 2 ... p . Seja m < p, o nmero




( )

de fatores comuns. A matriz das cargas fatoriais estimadas A ij dada por:

L = 1 e1

2 e 2 ...


1/ 2
m e m = P1
1


(9.19)

Ferreira, D.F.

Estatstica multivariada

321

uma matriz
em que P1 uma matriz p x m dos autovetores amostrais de S e
1
diagonal m x m dos autovalores amostrais de S.
Os estimadores das varincias especficas so dados pela matriz
diagonal resultante da seguinte operao matricial.

 1
0

=
#

0 " 0
 2 " 0
 t
= Diag S LL
#
% #

0 "  p

(9.20)

De (9.20) verifica-se que:

 i = Sii A 2ij = Sii h i2

(9.21)

j=1

Sendo que o estimador da comunalidade dado por:

h i2 = A 2i1 + A 2i2 + ... + A 2im

(9.22)

A anlise de fatores por componentes principais da matriz R, por sua


vez, obtida substituindo S por R nas equaes de (9.19) a (9.22). Na soluo
dos componentes principais as estimativas das cargas fatoriais no se alteram
com o aumento do nmero m de fatores.

9. Anlise de fatores

322

fcil perceber por meio das definies apresentadas que a matriz


S no fielmente reproduzida pela soluo de componentes principais. A diagonal
de S exatamente reproduzida pelo modelo de fatores, mas os elementos fora da
diagonal principal no so. Assim,

 t +

S LL

(9.23)

Se o nmero de fatores no especificado por consideraes a


priori, como por teoria ou por trabalhos anteriores de outros pesquisadores, a
escolha de m para uma decomposio de maior acurcia de S pode ser baseada
nos autovalores estimados, da mesma forma que o nmero de componentes
principais a serem retidos determinado. Analiticamente, Johnson e Wichern
(1998) demonstram que a soma de quadrados dos elementos da matriz de

 t
 menor ou igual a
resduos S LL

i = m +1

2
i

. Assim, um pequeno valor da soma

de quadrados dos ltimos (p-m) autovalores negligenciados implica em uma


pequena soma de quadrados do erro da aproximao realizada por m
componentes. O ideal obter uma elevada contribuio dos primeiros fatores para
a variao total amostral. Assim, verifica-se que:

A
i =1

2
ij

= A 1j2 + A 22 j + ... + A 2pj = j e j j e tj = j





(9.24)

Ferreira, D.F.

Estatstica multivariada

323

Logo, a porcentagem da variao total devida ao j-simo fator dada


por:

j
100 para fatores de S

Tr(S)

%VarExp =

j 100 para fatores de R


p

(9.25)

O critrio (9.25) usado como um artifcio heurstico para determinar


o valor apropriado de m. O nmero de fatores comuns retidos deve aumentar at
que uma frao adequada da variao amostral tenha sido contemplada.

Exemplo 9.1. Em 24 tartarugas fmeas foram mensuradas p = 3 variveis X1, X2 e


X3, quais sejam, comprimento, largura e altura de carapaas transformadas por
logaritmo. A matriz de covarincias amostrais apresentada a seguir. Obter a
anlise de fatores com m = 1 e m = 2 usando o mtodo dos componentes
principais.

4,9810 3,8063 4, 7740


S = 3,8063 3, 0680 3, 7183
4, 7740 3, 7183 4,8264

Inicialmente foi testada a hiptese:

9. Anlise de fatores

324

11 0
0
22
H0 : =
#
#

0
0

0
" 0
; ii >0
% #

" pp

"

O valor de qui-quadrado obtido foi de c2 = 127,9805 com =3 graus


de liberdade. Como Pr ( 2 > 127,9805 ) = 0,00000054 rejeita-se H0 de independncia
entre todas as variveis. Portanto, a anlise de fatores deve ser eficiente.
A soluo para m = 1 apresentada a seguir. A soluo de 1 fator
explica 98,2% da variao total e pode ser julgada satisfatria. A soma de
quadrados dos dois ltimos autovalores, dada por 22 + 32 = 0, 0291 , foi considerada
muito pequena e indica que a soma de quadrados dos elementos da matriz de
resduos no deve ultrapassar esse valor. Os resultados obtidos so:

Variveis
X1
X2
X3
% explicao

Cargas fatoriais
F1

Comunalidades

2,2165
1,7277
2,1770
98,1500

4,9129
2,9849
4,7394

A matriz de resduos dada por:

h i2

Varincias
especficas

 i
0,0681
0,0831
0,0870

Ferreira, D.F.

Estatstica multivariada

325

 t
 =
S LL
4,9810 3,8063 4, 7740
= 3,8063 3, 0680 3, 7183
4, 7740 3, 7183 4,8264
0
0
2, 2165
0, 0681
1, 7277 [ 2, 2165 1, 7277 2,1770] 0
0, 0831
0
2,1770
0
0
0, 0870
0, 0228 0, 0515
0

= 0, 0228
0
0, 0429
0, 0515 0, 0429
0

A soma de quadrados dos elementos dessa matriz de resduos de


apenas 0,01003, que menor do que 0,0291 conforme j era esperado.
Para m = 2 a soluo dada por:
Cargas fatoriais
Variveis
X1
X2
X3
% explicao
acumulada

Comunalidades

F1

F2

h i2

2,2165
1,7277
2,1770

0,1630
0,1608
-0,2935

4,9394
3,0108
4,8255

98,15

99,23

Varincias
especficas

 i
0,0418
0,0575
0,0003

A soma de quadrados de resduos para esse caso (m = 2) igual a


0,0049, a qual limitada por 0,0099. Uma vez que os ganhos foram muito
pequenos, o modelo de 1 fator pode ser julgado adequado. O fator 1 pode ser
interpretado como um fator de volume.

9. Anlise de fatores

Uma

326

aproximao

modificada

do

mtodo

dos

componentes

principais denominada soluo fatorial principal. O procedimento vlido tanto


para R quanto para S. A descrio que realizada a seguir utiliza a matriz R. No
modelo de fatores = LLt + perfeitamente especificado: os m fatores comuns
reconstituiro perfeitamente os elementos fora da diagonal principal de , bem
como os elementos da diagonal com a participao da varincia especfica:
1 = h i2 + i .

Supondo que a contribuio dos fatores especficos seja removida


da reconstituio de , ento, a matriz resultante - = LLt . Suponha, tambm,
que estimativas iniciais *i tenham sido obtidas por um meio qualquer, ento,
possvel definir a matriz de correlao amostral reduzida (Rr) eliminando o efeito
dos fatores especficos por R r = R * . Esse processo equivalente a substituir a
*
diagonal de R por h *2
i = 1 i . A matriz Rr definida por:

h1*2

r
*
R r = R = 21
#

rp1

r12
h *2
2
#
rp2

" r1p

" r2p
% #

" h *2

(9.26)

Teoricamente, desconsiderando a variao amostral, possvel


estabelecer que a matriz Rr pode ser recomposta pelos m fatores comuns. Dessa
forma, Rr fatorada em:

Ferreira, D.F.

Estatstica multivariada

327

R r L*r L*tr

(9.27)

em que L*r a matriz dos estimadores das cargas fatoriais A*ij .


O mtodo fatorial principal de anlise de fatores utiliza os
estimadores:

*
* *
*2 e *2
L r = 1 e1




m
*i = 1 A*2
ij

j=1

em que

( ; e ) ,
*
i

*m e *m


(9.28)

i = 1, 2, ..., m so os (maiores) pares de autovalor-autovetor

obtidos de Rr.
As comunalidades devem ser re-estimadas por:

*2
h *2
i = A ij

(9.29)

j=1

O mtodo, ento, aplicado iterativamente, considerando as


comunalidades estimadas em (9.29) para recalcular a matriz Rr em (9.26). Os
autovalores e autovetores dessa nova matriz Rr so obtidos e as estimativas das
cargas fatoriais e varincias especficas utilizando (9.28) so novamente obtidas.
Novas comunalidades, tambm, so obtidas utilizando (9.29) e o processo
repetido em novos estgios sucessivos, at que no haja alteraes nas

9. Anlise de fatores

328

estimativas das cargas fatoriais e das varincias especficas para uma dada
preciso.
Um problema que pode surgir nesse procedimento o aparecimento
de autovalores de Rr negativos. Recomenda-se utilizar o nmero de fatores
comuns igual ao posto da matriz reduzida (Rr). Uma das causas dos autovalores
negativos devida aos valores iniciais das varincias especficas utilizadas.
Algumas alternativas existem para a escolha desses valores iniciais. A mais
popular utilizar *i = 1 r ii , em que rii o elemento da i-sima diagonal da matriz
R-1. As comunalidades iniciais so, ento, dadas por:

*
h *2
i = 1 i = 1

1
r ii

(9.30)

que igual ao coeficiente de determinao parcial mltiplo entre a i-sima varivel


(Xi) e as (p-1) demais variveis. Essa relao til, pois permite que h *2
seja
i
obtida pelo coeficiente de determinao mltiplo, mesmo quando R no tiver posto
completo. Usando S, a varincia especfica inicial funo de Sii, o elemento da isima posio da diagonal de S-1, da seguinte forma:

m ii
h *2
i = Sii 1
S
2p

(9.31)

Ferreira, D.F.

Estatstica multivariada

329

9.3.2. Mtodo da mxima verossimilhana

Se os fatores comuns F e os fatores especficos possuem




distribuio normal, estimativas de mxima verossimilhana podem ser obtidas.
Do modelo de fatores e da considerao de que as variveis F e possuem


distribuio normal pode concluir que X j = LFj + j tambm normalmente

 

distribudo e portanto a funo de verossimilhana :

n / 2

L(, ) = (2) np / 2

1 n
t
t

exp tr 1 ( X j X )( X j X ) + n X X =
 

   
2 j=1 

= (2)

(n 1)p / 2

(2) p / 2

1/ 2

(n 1) / 2

)(

exp tr 1Sn
2

t
n
exp tr X 1 X
 
2  

(9.32)

a qual depende de L e por meio de = LLt + .


Devido

multiplicidade

de

escolhas

para

dadas

por

transformaes ortogonais imperativo impor uma restrio de unicidade


computacional por:

Lt 1L = uma matriz diagonal

(9.33)

9. Anlise de fatores

330

devem ser
Os estimadores de mxima verossimilhana L e
obtidos por maximizao numrica de (9.32). A maximizao de (9.32) sujeita a
condio de unicidade (9.33) deve satisfazer:

1/ 2

)(

1/ 2
1/ 2 L =
1/ 2 L +
Sn

(9.34)

Lawley (1940, 1942, 1943) mostra que o estimador dado por:

1L
= L t

(9.35)

Assim, a equao (9.34) pode ser rescrita de outra forma,


procedendo as seguintes operaes:

1/ 2

1/ 2
1/ 2 L =
1/ 2 L + L t
1L
Sn

1/ 2

1/ 2
1/ 2 L
1/ 2 L =
1/ 2 LL
t
1L
Sn

1/ 2

1/ 2
1/ 2 L =
1/ 2 LL
t
1L
Sn

Logo,

1/ 2 S

1/ 2
1/ 2 L =
1/ 2 LL
t
1L

(9.36)

Ferreira, D.F.

Estatstica multivariada

331

1L uma matriz diagonal para garantir que os elementos


Como L t
de

(S

sejam nicos, ento, os autovalores de

1/ 2 S

1/ 2 ,


1 , e portanto

so iguais aos valores correspondentes a diagonal de .

1/ 2 L o vetor caracterstico correspondente


Dessa forma, a i-sima coluna de

1/ 2 S

1/ 2 . O clculo desses vetores no um
ao i-simo autovalor de
n

so tambm desconhecidos, os
processo direto, uma vez que os elementos de

= Diag(S LL
t ) . Sendo assim, o processo de
quais devem ser obtidos da relao
estimao

deve

ser

executado

iterativamente

estimando-se

os

vetores

, e ento,
caractersticos correspondentes a valores iniciais de os elementos de
utiliz-los para obter novas estimativas mais precisas das varincias especficas
sucessivamente.
Para

modelo

com

fatores

os

vetores

caractersticos

correspondentes aos m maiores autovalores de Sn podem ser utilizados como


valores iniciais do processo iterativo. Os elementos desses vetores devem ser reescalonados para que as somas de seus quadrados sejam iguais aos respectivos
autovalores. O processo iterativo descrito a seguir:

1. Calcular as m razes caractersticas


caractersticos correspondentes

10

, 20 ,..., m0

( e10 , e 20 ,..., e m0 ) ,


de Sn e os vetores

de tal sorte que seus

elementos sejam re-escalonados para que tenham norma quadrtica igual

9. Anlise de fatores

332

a i0 , na matriz P0 apresentada a seguir, com i = 1, 2, ..., m. Seja a matriz


(p x m) definida por Q
= [ e e ... e ] , sem re-escalonar. Dessa forma,
Q
0
0
10 20
m0
 


possvel definir as matrizes 0 (m x m) e P 0 (p x m) por:

10

= 0

0
#

20

#
0

" 0
% #
" m0
"

e

1/ 2
P0 = Q
0 0

2. Aproximar as varincias especficas por:

(9.37)

1/ 2 S

1/ 2

0
n
0
0

(9.38)

= Diag S P P t

0
n
0 0

3. Obter a matriz

e extrair os m autovetores ( e11 , e 21 ,..., e m1 ) e os correspondentes autovalores


 


11

, 21 ,..., m1

= [ e e ... e ] sem redessa matriz. Formar a matriz Q


1
11 21
m1
 


escalonar e definir as matrizes:

Ferreira, D.F.

Estatstica multivariada

333

11 0

= 0 21

1
#
#

0
0

" 0
% #
" m1
"


1/ 2
P1 = Q
1 1

( )

A primeira aproximao de L L 1 dada por:

1/ 2 P
L 1 =
0
1

(9.39)

4. Calcular

= Diag S L L t

1
n
1 1

(9.40)

Repetir os passos 3 e 4 at que os correspondentes elementos de


sucessivas iteraes de L i e L i +1 no difiram por um valor superior a uma
quantidade pr-determinada (critrio de convergncia). O resultado final do
processo iterativo conter as estimativas de mxima verossimilhana para as
cargas fatoriais L e das varincias especficas para o modelo m-fatorial.
apresentado a seguir um programa SAS no procedimento de matrizes IML para a
obteno de estimativas de mxima verossimilhana do modelo m-fatorial.

9. Anlise de fatores

334

As cargas fatoriais e as varincias especficas da matriz R podem

realizando as seguintes transformaes.


ser obtidas diretamente de L e
Formar a matriz diagonal (D) a partir dos elementos Sii de S. Ento obter as

( )

estimativas de mxima verossimilhana de R para as cargas fatoriais L Z e para

. Esses estimadores so:


as varincias especficas
Z

L Z = D 1/ 2 L

(9.41)

= D 1/ 2
D 1/ 2

(9.42)

As estimativas de mxima verossimilhana das comunalidades so


dadas por:

h i2 = A 2i1 + A 2i2 + ... + A 2im para i = 1, 2, ..., p

(9.43)

Ferreira, D.F.

Estatstica multivariada

335

options ps=5000 ls=80 nodate nonumber;;


proc iml;
S={4.9810 3.8063 4.7740,
3.8063 3.0680 3.7183,
4.7740 3.7183 4.8264};
p=ncol(S);n=24;alpha=0.05;
L0=Diag(eigval(S));P0=eigvec(S);
numfac=1;numIt=100;
L0=L0[1:numfac,1:numfac];
P0=P0[1:p,1:numfac];P0=P0*root(L0);
print L0 P0; Psi0=diag(S-P0*P0`);
print psi0;
psii=psi0;
do i=1 to numIt;
Print
'_______________________________________________________________';
print 'iteracao ' i;
Print'________________________________________________________________';
Delta=inv(root(psii))*(S-psii)*inv(root(psii));
*print delta;
Li=Diag(eigval(delta));Pi=eigvec(delta);
Li=Li[1:numfac,1:numfac]; Pi=Pi[1:p,1:numfac];
Pi=root(psii)*Pi*root(Li);
*print Li Pi;
Psii=diag(S-Pi*Pi`);
/*soma de quadrados dos residuos do modelo*/
resi=S-pi*pi`-psii;
print 'Soma de quadrados dos residuos';
SQResiduo=sum(resi#resi);
print sqresiduo;
*print psii;
Print'________________________________________________________________';
end;
Print 'Solucao final do modelo de fatores';
Print 'Cargas fatoriais';
print Pi;
print 'Variancias especificas';
print psii; resi=S-pi*pi`-psii;
print 'matriz de residuos';
print resi;
print 'Soma de quadrados dos residuos';
SQResiduo=sum(resi#resi);
print sqresiduo;
print 'Cargas fatoriais de Z-variaveis padronizadas';
D=root(inv(diag(S))); PiZ=D*Pi;
print PiZ;
print 'Variancias especificas fatoriais de Z-variaveis padronizadas';
PsiZ=D*psii*D;
print PsiZ;
Li=Diag(eigval(delta));
print Li;
quit;

9. Anlise de fatores

336

Dessa forma, a proporo explicada pelo j-simo fator dada por:

p 2
A ij
i =1 100 para fatores de S
Tr(S)

%VarExp =
p
A 2Z(i j)
i =1
100 para fatores de R
p

(9.44)

O processo descrito anteriormente para a obteno das solues de


mxima verossimilhana possui convergncia lenta. Aitken (1937) props uma
tcnica conhecida por processo 2 de acelerao dos esquemas iterativos de
convergncia. Seja A jt os elementos do t-simo processo iterativo, referente a j
sima coluna da matriz de cargas fatoriais Lt do estgio t. O processo de Aitken
(1937) prev para 3 consecutivos valores de A jt o ajuste pela razo:


A 2i j t =

A ij(t 1)

A ijt

A ijt

A ij(t +1)

A ij(t +1) 2A ijt + A ij(t 1)

(9.45)

em que A ijt o i-esimo elemento de A jt . Se o denominador de (9.45) for nulo o



valor de A 2i j t deve ser feito igual a A i j t .
Aitken (1937) mostra que os termos de A 2j t convergem mais

rapidamente do que queles de A j t .


Ferreira, D.F.

Estatstica multivariada

337

Exemplo 9.2. Utilizando a matriz de covarincias amostral das 24 tartarugas


fmeas que foram mensuradas em p = 3 variveis X1, X2 e X3, as quais so:
comprimento, largura e altura de carapaas transformadas por logaritmo,
determinar o modelo de fatores com m = 1. Ajustar o modelo por meio de
estimativas de mximas verossimilhanas.
4,9810 3,8063 4, 7740
S = 3,8063 3, 0680 3, 7183
4, 7740 3, 7183 4,8264

i)

Inicialmente foram obtidos os autovalores e autovetores de S e


(3 1) e P (3 1) por:
(1 1), Q
compostas as matrizes
0
0
0
0, 6234937
2, 2164432

1/
2

= 12,637147 Q = 0, 4859812 L = P = Q

0
0 0 = 1, 727603
0
0

0
0, 612436
2,1771344

ii)

As varincias especficas iniciais foram obtidas por:

0
0
0, 0683794

= Diag S P P =

0
0, 0833879
0
0
n

0
0
0, 0864857

iii)

t
0 0

Foi obtida a seguinte matriz e desta extrados os autovalores e


autovetores. O m = 1 primeiro autovalor e autovetor correspondente

(3 1) e P (3 1) .
(1 1), Q
foram usados para compor as matrizes
1
1
1

9. Anlise de fatores

338

1/ 2 S

1/ 2

0
n
0
0

71,843527
= 50,406739
62,079406

50,406739 62,079406
35,791891 43,784534
43,784534 54,805777

0,6657947
8,4600381

1/
2

= 161,45963 Q = 0,4691915 P = Q
= 5,9618652

1 1
1
1

0,5801523
7,3718074

Finalmente a primeira aproximao L 1 feita por:

2,2122546
P = 1,721606
L 1 =

2,167934
1/ 2
0
1

iv)

por:
Foi calculado o segundo valor
1

0
0
0,0869296

1 = Diag Sn L 0 L 0 =
0
0,1040727
0

0
0
0,1264622

Os procedimentos 3 e 4 foram repetidos 41 vezes at que as trocas


na matriz (vetor) L fosse da ordem de 1e-7 ou menos. O resultado final foi:

Ferreira, D.F.

Estatstica multivariada

339

2,2106526
1/ 2 P = 1,7217993 e
L 41 =
40 41

2,1595433

= Diag S L L

41
n

t
41 41

0
0
0,0940152

=
0
0,1034073
0

0
0
0,1627727

A matriz de resduos (R) foi:

0
2,9835E-8 3,7474E-8

R = 2,9835E-8
0
-7,05E-8
3,7474E-8 -7,05E-8

E a soma de quadrados dos resduos foi:

SQResduos= 1,453E-14

As cargas fatoriais obtidas das variveis padronizadas so:

4,9810

L Z = D 1/ 2 L =
0

0
1
3, 0680
0

2,2106526 0,9905177

0
1,7217993 = 0,983003
2,1595433 0,9829926

4,8264
0

E as varincias especficas so:

9. Anlise de fatores

= D 1/ 2
D 1/ 2

340

0
0
0, 0188748

=
0
0, 0337051
0

0
0
0, 0337255

Exemplo 9.3. A matriz de correlao entre 10 escores das respectivas 10 provas


do declato, medidas em n = 160 atletas, est apresentada a seguir. Obter os m = 4
fatores pelo mtodo da mxima verossimilhana. As dez variveis mensuradas
so: i) corrida de 100 m rasos; ii) salto em distncia; iii) lanamento de peso; iv)
salto em altura; v) corrida dos 400m livres; vi) 110 m com barreiras; vii) arremesso
de disco; viii) salto com vara; ix) arremesso de dardos; e x) corrida de 1500 m. A
matriz de correlao dos escores dos 160 competies.

1, 00 0,59 0,35

1, 00 0, 42

1, 00

R=

0,34 0, 63 0, 40 0, 28 0, 20
0,51 0, 49 0,52

0,31 0,36

0,38 0,19 0,36 0, 73 0, 24


1, 00

0, 29 0, 46 0, 27 0,39
1, 00

0,34 0,17
1, 00

0, 23

0,32 0,33
1, 00

0, 24
1, 00

0,11 0, 07
0, 21 0, 09
0, 44 0, 08

0,17 0,18
0,13 0,39

0,18 0, 00
0,34 0, 02

0, 24 0,17
1, 00 0, 00

1, 00

A soluo de m = 4 fatores, dada por Johnson e Wichern (1998), foi


obtida pelo algoritmo apresentado nesse material por meio das estimativas de
mxima verossimilhana. Aps 100 mil iteraes o algoritmo convergiu.

Ferreira, D.F.

Estatstica multivariada

341

Estimativas de mxima verossimilhana


Varincias
especficas

Cargas fatoriais estimadas


Variveis
Corrida 100m
Salto em distncia
Lanamento de peso
Salto em altura
corrida 400m
110m com barreira
Arremesso de disco
Salto com vara
Arremesso de dardos
1500m rasos
Proporo cumulativa
da varincia explicada

F1

F2

F3

F4

-0,0869
0,0688
-0,1294
0,1603
0,3787
-0,0178
-0,0563
0,1573
-0,0218
0,9986

0,3449
0,4352
0,9911
0,4059
0,2437
0,3629
0,7294
0,2640
0,4411
0,0496

0,8290
0,5931
-0,0038
0,3343
0,6702
0,4234
0,0268
0,2275
-0,0115
-0,0004

-0,1685
0,2746
-0,0007
0,4451
-0,1372
0,3878
0,0182
0,3937
0,0971
-0,0001

0,12

0,37

0,55

0,61

i = 1 h i2
0,157935
0,378693
0,001053
0,499688
0,329262
0,538310
0,463815
0,698795
0,795340
0,000408

9. Anlise de fatores

342

9.4. Rotao fatorial

A fatorao de em LLt + no nica, conforme discusso


realizada na seo 9.2. A ps-multiplicao da matriz de cargas fatoriais L por
qualquer matriz ortogonal conformvel (T) conduz a uma fatorao igualmente
vlida. A soluo numrica de Rao-Maxwell para as equaes de verossimilhana

1L seja uma matriz


remove essa indeterminao por adotar a restrio de que L t
diagonal. No obstante, aps a obteno da soluo de mxima verossimilhana,
qualquer transformao ortogonal pode ser realizada. A idia aplicar tal
transformao rgida dos eixos coordenados, a qual conduz a um padro que
tornam as cargas fatoriais mais facilmente interpretveis. Essa rotao rgida dos
eixos coordenados das m-dimenses fatoriais chamada de rotao das cargas
fatoriais.
Citado por Morrison (1974) Thurstone sugere um critrio de resposta
de simples estrutura para a realizao da rotao fatorial. Estruturas como a
sugerida raramente existe em dados reais e no ser descrito o procedimento de
Thurstone. Outra tcnica de uso limitado a obteno de rotao graficamente
dos fatores plotados dois a dois. A rotao analtica o procedimento mais
comumente empregado. Na rotao ortogonal rgida as propriedades estatsticas
dos fatores ficam inalteradas, embora a matriz de cargas fatoriais no seja a
mesma. Supondo que a matriz p x m de cargas fatoriais seja submetida a uma
rotao rgida pela matriz ortogonal T (m x m) por meio da seguinte operao:

Ferreira, D.F.

Estatstica multivariada

343

L* = LT . A ortogonalidade de T, isto , T T t = T t T = , faz com que as

comunalidade fiquem inalteradas:


m

j=1

j=1

A*2ij = A2ij h*2i = h i2


bem como a soma de seus quadrados:

p m
p m 1 m
m 2
4
2 2
A ij = A ij + 2 A ijA ik

i =1 j=1
i =1 j=1
i =1 j=1 k = j+1

(9.46)

tambm invariante.
Com esse resultado em evidncia possvel especificar critrios de
simplicidade ou parcimnia propostos pelos analistas de fatores (Morrison, 1976).
Fergusson (1954) sugeriu minimizar o termo dos duplos produtos de (9.46) como
uma medida de parcimnia, por meio de uma escolha adequada de T. Esse
resultado foi determinado quase que ao mesmo tempo e independentemente por
Carroll (1953).
Neuhaus e Wrigley (1954) propuseram a maximizao da varincia
do quadrado das pm cargas fatoriais para definir T. A varincia do quadrado das
cargas fatoriais :

1 p m 2
V = A
A ij
pm i =1 j=1
i =1 j=1
p

4
ij

(9.47)

Como o termo de correo meramente soma das comunalidades


tomada ao quadrado, ento, a maximizao de V equivalente a maximizar a

9. Anlise de fatores

344

soma da quarta potncia das cargas fatoriais, ou equivalentemente, minimizar a


medida de parcimnia de Fergusson (1954) e Carroll (1953). Por argumentos
diferentes Sanders (1960) obteve o mesmo critrio de Neuhaus e Wrigley (1954).
Esse critrio determina o mtodo denominado de quartimax por maximizar a
soma da quarta potencia das cargas fatoriais.
Kaiser (1958, 1959) props uma medida de estrutura simples
relacionada a soma das varincias das cargas fatoriais quadrticas dentro de cada
coluna da matriz L de fatores. O critrio de varimax de linha de Kaiser :

1
v = 2
p
*

p 4 p 2 2
p A ij A ij

j=1 i =1
i =1

(9.48)

Esse critrio d pesos iguais s respostas com grandes e com


pequenas comunalidades e Kaiser sugere a melhora desse critrio pelo uso do
critrio alternativo:

1
v= 2
p

p 4 p 2 2
p x ij x ij

j=1 i =1
i =1

(9.49)

em que:

x ij =

A ij
m

A
j=1

(9.50)
2
ij

Ferreira, D.F.

Estatstica multivariada

345

j-sima carga fatorial do i-sima varivel resposta dividida pela raiz quadrada de
sua comunalidade. Na seqncia da rotao os valores de xij devem ser
multiplicados pela raiz quadrada de sua comunalidade respectiva para restaurar a
dimenso original. Esse critrio foi nomeado por Kaiser de varimax.
O processo computacional para a rotao varimax descrito a
seguir. Considere o par de fatores r e s, com cargas normalizadas xir e xis. A
rotao desses fatores envolve o simples ngulo , e diferenciando (9.49) com
relao a Kaiser mostrou que o ngulo deve satisfazer a relao:

p
p
p 2

2
2
2
2 2p ( x ir x is ) x ir x is ( x ir x is ) 2 x ir x is
i =1
i =1

i =1
tg() =
2
2
p
p
p

2
2
2
2
2
p ( x ir x is ) ( 2x ir x is ) ( x ir x is ) 2 x ir x is

i =1
i =1

i =1

(9.51)

Para que a segunda derivada seja negativa necessrio que 4 seja


colocado no quadrante correto. A escolha designada pelos sinais do numerador
e denominador de (9.51). A Tabela 9.1 especifica o quadrante de 4 em funo
destes sinais.
A soluo iterativa para a rotao realizada de acordo com os
seguintes procedimentos: a rotao do primeiro e segundo fator realizada como
ngulo determinado conforme descrio anterior; o novo primeiro fator rotado

9. Anlise de fatores

346

com o terceiro fator original, e assim por diante, at que m(m-1)/2 pares de
rotaes tenham sido executadas. Essa seqncia de rotaes repetida at que
todos os ngulos sejam menores que um critrio de convergncia especificado ,
dentro de um ciclo.

Tabela 9.1. Quadrante do ngulo 4 em funo dos sinais do numerador e


denominador da equao (9.51).
Sinal do denominador

Sinal do numerador
+ (positivo)
- (negativo)

+ (positivo)

: 004<900

V: -9004<00

- (negativo)

: 9004<1800

: -18004<-900

Exemplo 9.4. Efetuar a rotao varimax dos m = 3 fatores obtidos por Morrison
(1974) apresentados a seguir.
(incompleto)

9.5. Teste da falta de ajuste do modelo de fatores

A natureza das estimativas de mxima verossimilhana das cargas


fatoriais conduz a um teste formal para o m-simo modelo fatorial. A hiptese nula
:

Ferreira, D.F.

Estatstica multivariada

347

H 0 : = LLt +

H : uma matriz p p p.d. sim.


1

(9.52)

Usando a distribuio de Wishart, Morrison (1976) mostra que a


razo de verossimilhana fornece o seguinte teste, com a correo de Bartlett
(1954):

t
(2p + 4m + 5) LL +

= n 1
ln S
6

2
c

(9.53)

o qual tem distribuio qui-quadrado para grandes amostras com:

1
(p m) 2 p m
2

(9.54)

graus de liberdade.
Pela propriedade da invarincia das cargas e das varincias
especficas estimadas segue-se que o valor do teste seria o mesmo da soluo de
fatores da matriz de correlao R. Para a aplicao do teste da falta de ajuste
necessrio que os graus de liberdade sejam positivos. Isso significa que o nmero
de fatores comuns m no pode exceder o maior inteiro que satisfaz a equao:

m<

1
2p + 1 8p + 1
2

(9.55)

9. Anlise de fatores

348

O teste de razo de verossimilhana compara as varincias


t +
e S . Se m for pequeno em relao a p, geralmente H0
generalizadas LL
n

rejeitada, conduzindo a um modelo com um maior nmero de fatores comuns. Por


outro lado, quando m for grande em relao a p, a hiptese tende a ser no
rejeitada, principalmente para grandes valores de n. Isso acontece devido ao fato

t +
aproximar de Sn, de tal sorte que o acrscimo de novos fatores no
de LL
traga novas melhoras ao modelo. A diminuio de m pode, ainda, pelas mesmas
razes levar a no rejeio de H0. Algum tipo de bom sendo deve ser aplicado na
escolha de m.
Para demonstrar que a padronizao das variveis no afeta o teste
apresentado seja D 1/ 2 definida anteriormente a matriz diagonal com o recproco
dos desvios padres das p variveis na diagonal principal. Ento, a razo que
aparece na equao (9.53) pode ser operada por:

t +

LL
Sn

t +
D 1/ 2
D 1/ 2 LL
D 1/ 2 Sn D 1/ 2

uma vez que a multiplicao do numerador e denominador no altera o resultado


final.
Pela propriedade do determinante |AB|=|A||B|, verifica-se que:

Ferreira, D.F.

Estatstica multivariada

t +

LL
Sn

349

t D 1/ 2 + D 1/ 2
D 1/ 2
D 1/ 2 LL
D 1/ 2Sn D 1/ 2

L Z L tZ +
z
R

Dessa forma o teste de qui-quadrado exatamente o mesmo,


quando for aplicado a partir da matriz Sn ou da matriz R, com os dados
padronizados.

9.6. Escores fatoriais

Os fatores so variveis no observveis, muito embora seus


valores possam ser estimados. Os valores estimados dos fatores so
denominados de escores. Dois mtodos de estimao so propostos. Ambos
tratam as cargas fatoriais e as varincias especficas estimadas como se fossem
os verdadeiros valores desconhecidos. Se ocorrer rotao, os escores so obtidos
a partir das cargas fatoriais que sofreram rotao e no a partir das originais. No
obstante, as frmulas no distinguiro entre as situaes em que ocorreu rotao
daquelas em no ocorreu, uma vez que estas frmulas no so alteradas pelas
rotaes.

9. Anlise de fatores

350

9.6.1. Mtodo dos mnimos quadrados ponderados

Suponha que , L e sejam considerados inicialmente como



conhecidos para o modelo fatorial:

X = LF +
 
 

Como Var(i)=i, no necessariamente igual para todo i, Bartlett


(1937) sugeriu o uso dos quadrados mnimos ponderados, usando como peso o
recproco das varincias especficas. A soma de quadrados de resduos do
modelo fatorial ponderada dada por:

i2

i =1

= t 1 = X LF 1 X LF
 

 




(9.56)

Bartlett (1937) props a soluo F que minimiza (9.56). A soluo :




1
F = ( Lt 1L ) Lt 1 X

 

(9.57)

Como, de fato, L, e so desconhecidos, os respectivos



estimadores devem ser utilizados para a obteno dos escores fatoriais:

Ferreira, D.F.

Estatstica multivariada

1L
F j = L t


351

1 ( X X ) j = 1, 2, ..., n
L t
j



(9.58)

Se a matriz de correlao for utilizada, ento:

1L
F j = L tZ
Z
Z


1Z j = 1, 2, ..., n
L tZ
Z
j


(9.59)

,
Se as cargas fatoriais que sofreram rotao so usadas L* = LT
ento, F j se relaciona com F j* por:

F j* = T ' F j

(9.60)

9.6.2. Mtodo de regresso

A partir do modelo de fatores originais:

X = LF +
 
 

Considerando que L e so conhecidas, e que F e possuem




distribuio normal multivariada com mdia e varincias dadas pelas equaes de

9. Anlise de fatores

352

(9.3) a (9.6), a combinao linear X = LF + tem distribuio N p ( 0, LLt + ) . A


 
 

distribuio conjunta de X e F , tambm, N m + p ( 0, * ) ; em que:
 



LLt +
=
t
L

(9.61)

A mdia 0 um vetor [(m+p)1] de zeros. A distribuio condicional



de F / x normal com mdia e varincia dados por:
 

E ( F / x ) = Lt 1 x = Lt ( LLt + )
 
 

( x  )

(9.62)

e
C ov ( F / x ) = Lt 1L = Lt ( LLt + ) L
 
1

Os coeficientes Lt ( LLt + )

(9.63)

so os coeficientes de uma regresso

multivariada dos fatores com as variveis originais. As estimativas desses


coeficientes produzem os escores fatoriais. Dados as observaes X j e tomando

os escores dos fatores so


se os estimadores de mxima verossimilhana L e
dados por:

t +

F j = L t LL


) ( X X )
1

j = 1, 2, ..., n

(9.64)

Ferreira, D.F.

Estatstica multivariada

353

O uso da identidade de matrizes:

t +

L t LL

) = ( + L L )
1

1
L t

(9.65)

pode simplificar o clculo dos escores dos fatores, os quais so dados por:

1L
F j = + L t


1 ( X X ) j = 1, 2, ..., n
L t
j



(9.66)

A comparao dos escores fatoriais obtidos por regresso (LS) e por


mnimos quadrados ponderados (WLS) pode ser realizada subtraindo os
estimadores (9.66) e (9.58). Assim, simbolizando os estimadores de regresso por
F jLS e o de mnimos quadrados ponderados por F jWLS e usando a identidade de



matriz dada por:

t +
1
L t LL

) = ( + L L )
1

1
L t

Tem-se:

1L
F jWLS = L t


) ( + L L ) F
1

LS
j

1L
= L t

LS
+ F j


Pelas estimativas de mxima verossimilhana verifica-se que

( L L )
t

uma matriz diagonal e quando o seu valor for prximo de zero os

9. Anlise de fatores

354

estimadores anteriores sero aproximadamente os mesmo, ou seja, os


estimadores anteriores fornecero aproximadamente os mesmos escores.

9.7. Exerccios

9.7.1. Teste a hiptese de que o modelo com m = 1 fator, apresentado no exemplo


9.1, adequado utilizando o teste de qui-quadrado para falta de ajuste do
modelo.

9.7.2. Para o exemplo 9.3 testar a aderncia do modelo com m = 4 fatores.

9.7.3. Obter estimativas de mxima verossimilhana para m = 1 e m = 2 dos dados


apresentados no exemplo 7.6.7 e calcular os escores pelos dois mtodos
apresentados. Para o caso de m = 2 fatores plotar os escores dos dois
fatores obtidos.

||[

10

Anlise de correlao cannica

]||

10.1. Introduo

A anlise de correlao cannica centrada na identificao e


quantificao da associao entre dois grupos de variveis. O foco da correlao
cannica direcionado para a correlao entre uma combinao linear das
variveis em um dos grupos com uma outra combinao linear das variveis do
outro grupo de variveis. A idia fundamental , a princpio, determinar as
combinaes lineares dos dois grupos que possuem a maior correlao. No
prximo estgio, determinado o par de maior correlao que seja, ainda, no
correlacionado com o par selecionado inicialmente. O processo continua at se
esgotar as dimenses de ambos os grupos ou do menor grupo. Os pares de
combinaes lineares so denominados de variveis cannicas e suas
correlaes so chamadas de correlaes cannicas. A tcnica de encontrar
essas combinaes lineares e suas respectivas correlaes devida a Hotelling
(1935 e 1936).

10. Anlise de correlao cannica

356

A idia fundamental encontrar relaes entre dois conjuntos de


variveis, em alta dimenso, em poucos pares de variveis cannicas. Vrias
aplicaes nas cincias humanas, na gentica entre outras reas so encontradas
na literatura.

10.2. Variveis
cannicas
populacionais

correlao

cannica

Seja X um vetor de dimenso (p+q x 1), o qual possui matriz de



covarincia e mdia . Sejam os vetores X (1) (p x 1) e X (2) (q x 1) definidos



como sendo originados de uma partio do vetor original X , representando um

grupo com p variveis e outro com q, respectivamente. Sem perda de
generalidade assumido que pq. Pressupe-se, tambm, que possui
elementos finitos e positiva definida. Para o vetor aleatrio X , os seguintes

resultados so apresentados.

X1(1)
(1)
X2
#

X (1) X (1)
p
X =  (2) = (2)
 X X1
(2)

X2
#

X (2)
q

(10.1)

Ferreira, D.F.

Estatstica multivariada

357

Cuja mdia :

(1)
= E(X) =  (2)





(10.2)

E cuja matriz de covarincia :

t
12
p
= E X X = 11
   
q 21 22

)(

(10.3)

Assim, para os vetores X (1) (p x 1) e X (2) (q x 1) verifica-se que:





E ( X (1) ) = (1) Cov ( X (1) ) = 11






(2)
(2)
Cov ( X (2) ) = 22
E ( X ) =




Cov X (1) , X (2) = = t


(   ) 12 21

(10.4)

As covarincias entre pares de variveis pertencentes aos dois


grupos, uma de X (1) e outra de X (2) , esto contidas em 12. Dessa forma, os pq


elementos de 12 medem a associao entre os dois grupos. Se ambos os valores
de p e q so grandes, a interpretao simultnea desse conjunto de covarincias
uma tarefa difcil e na maioria das vezes infrutfera. Como a finalidade, em geral,

10. Anlise de correlao cannica

358

de realizar predio ou realizar comparao, o interesse pode ser focado em


combinaes lineares das variveis originais. A idia , portanto, concentrar a
ateno em algumas poucas combinaes lineares de variveis pertencentes a
X (1) e a X (2) , ao invs de utilizar todas as pq covarincias contidas em 12.



Seguindo

notao

normalmente

utilizada

na

literatura

especializada, sejam as variveis U e V combinaes lineares das variveis de


X (1) e de X (2) , respectivamente, definidas por:



U = a t X (1)
 

V = b t X (2)

 

(10.5)

sendo a e b vetores no nulos dos coeficientes dessas combinaes lineares.




Assim,

Var(U) = Cov ( a t X (1) ) = a t 11a


 



t (2)
t
Var(V) = Cov ( b X ) = b 22 b
 



t
(1)
(2)
=
Cov(U,
V)
a
C
ov
X
,
X
b = a t 12 b
(
)




 


(10.6)

A correlao entre U e V definida por:

Corr(U, V) = U, V =

a t 12 b


a t 11a b t 22 b

 


(10.7)

Ferreira, D.F.

Estatstica multivariada

359

Hotelling (1935 e 1936) props estabelecer os pares (Ui, Vi),


i=1, 2, ..., p, determinando os vetores ai e bi que maximizam (10.7). As variveis


Ui e Vi so denominadas de variveis cannicas e a correlao entre elas de

correlao cannica. Na seqncia so apresentados os resultados necessrios


para a maximizao de (10.7) e, portanto, para a obteno das variveis
cannicas e de suas correlaes.
Para determinar o mximo de U,V, inicialmente so impostas as
restries:

a t 11a = b t 22 b = 1

 


(10.8)

A mudana de escala imposta pelas restries (10.8) no afeta a


correlao (10.7). Para obter o mximo de U,V preciso derivar a equao (10.7)
com relao aos vetores a e b e igualar as derivadas parciais a zero. As


equaes obtidas so:

U,V

1/ 2
1/ 2
3 / 2
1
= ( b t 22 b ) ( a t 11a ) 12 b + 2 ( a t 12 b )( a t 11a ) 11a





 


2 
a


U,V = ( a t a )1/ 2 ( b t b )1/ 2 t a + 2 1 ( a t b )( b t b )3 / 2 b


11
22
12
12
22
22
b




 


2 



(10.9)

Igualando as derivadas parciais de (10.9) a zero e impondo as


restries (10.8), rearranjando alguns termos, obtm-se:

10. Anlise de correlao cannica

360

( a t 12 b ) 11a + 12 b = 0


 


t
t
12a ( a 12 b ) 22 b = 0

(10.10)

fcil observar que (10.7) sujeita as restries (10.8) se torna igual


a U, V = a t 12 b , que o valor mximo, ento:



U, V 11a + 12 b = 0

 

t
12a U, V 22 b = 0

(10.11)

Assim, para soluo de (10.11) necessrio que o determinante dos


coeficientes do sistema de equaes homogneas seja nulo. Logo,

U, V 11
12
=0
t
12 U, V 22

(10.12)

Uma importante propriedade dos determinantes reproduzida a


seguir. Seja uma matriz A com as seguintes parties:

A
A = 11
A 21

A12
A 22

(10.13)

Ferreira, D.F.

Estatstica multivariada

361

O determinante de A, se A11 e A22 so no singulares, dado por:

1
A = A11 A 22 A 21A11
A12

ou

1
A = A 22 A11 A12 A 22 A 21

(10.14)

Utilizando o resultado (10.14) no determinante (10.12), obtm-se os


seguintes resultados para a primeira equao:

U, V 11 U, V 22 +

1
U, V

t
1
12
11
12 = 0

Como U, V 11 diferente de zero, pois 11 positiva definida,


ento, o determinante anterior s ser zero se:

U, V 22 +

1
U, V

t
1
12
11
12 = 0

Como o resultado dessa equao zero, no h alterao se ambos


os termos da equao esquerda da desigualdade for multiplicado por ( U, V ) . Se
procede da mesma forma para a segunda equao do determinante de (10.14). O
resultado final dessa derivao :

10. Anlise de correlao cannica

362
t
12 22112
2U,V 11 = 0

t 1
2
12 11 12 U,V 22 = 0

(10.15)

Fazendo = 2U,V , verifica-se que as equaes determinantais de


(10.15) podem ser vistas como maximizao de pares de formas quadrticas
(captulo 2) do tipo:

e t Ae
= t 
e Be
 
restrito a e t Be =1.
 
Assim, os resultados de (10.15) podem ser reescritos (captulo 2) da
seguinte forma:

t
( 12 22112
11 ) a = 0 (a)
 

t 1
( 12 11 12 22 ) b = 0 (b)

(10.16)

A resoluo do sistema de equaes pode ser feita aplicando uma


transformao linear no singular. Isso ilustrado doravante com a equao (a)
de (10.16). Seja 1/112 a matriz raiz quadrada de 11 e considere a transformao
1/ 2
1/ 2
c . Se a equao (a) for pr-multiplicada por 11
e
linear c = 1/112 a , ento, a = 11





1/ 2
a for substitudo por a = 11
c , ento:




Ferreira, D.F.

Estatstica multivariada

363

1/ 2
11
( 1222112t 11 ) 111/ 2c = 0

1/ 2
11

t
1/ 2
1/ 2
1/ 2
12 22112
11
11
1111
) c = 0

Ento a soluo de (a) dada pela soluo do seguinte sistema de


equaes homogneas:

1/ 2
11

t
1/ 2
12 22112
11
i ) ci = 0
 

(10.17)

A soluo de (10.17) facilmente obtida pelo clculo dos autovalores


1/ 2
t
1/ 2
(i) e autovetores ( ci ) de 11
12 22112
11
. Os autovalores (i) dessa matriz so


os mesmos do sistema no transformados por serem invariantes com relao a


transformaes no singulares, no entanto, os autovetores so afetados pela
transformao. Dessa forma, os autovetores devem ser recuperados pela
transformao linear inversa a efetuada. Assim,

1/ 2
a i = 11
ci



(10.18)

Tratamento igual dado para a equao (b) de (10.16), agora


efetuando a transformao linear d = 1/222 b . Ento,



10. Anlise de correlao cannica

364

1/ 2
22

t
1
12
11
12 221/ 2 i ) d i = 0
 

(10.19)

Os autovetores bi , solues almejadas, so recuperados por:




bi = 221/ 2 d i



(10.20)

O mximo obtido substituindo essas solues em (10.7). Logo,

a t 12 b
= a t 12 b
Max ( U, V ) =

t
t

a 11a b 22 b 
a, b

 

 

Da equao (10.10), sabendo que U, V = a t 12 b = i , verifica-se que




= ( a t 12 b ) , logo:


2

Max ( U, V ) = i
a, b
 

As variveis cannicas tm as seguintes propriedades:

1/ 2
1/ 2
Var(U i ) = Cov ( a it X (1) ) = a it 11a i = cit 11
1111
ci = cit ci
 



 

(10.21)

Ferreira, D.F.

Estatstica multivariada

365

1/ 2
t
1/ 2
Sabendo que ci um autovetor de 11
12 22112
11
com norma 1, e


procedendo da mesma forma para Var(Vi) verifica-se que:

Var ( U i ) = Var ( Vi ) = 1

(10.22)

A Cov ( U k , U A ) com (k A) dada por:

Cov ( U k , U A ) = C ov ( a kt X (1) , a At X (1) ) = a kt 11a A =


 
 


1/ 2
1/ 2
= c kt 11
1111
cA = c kt cA = c kt cA = 0 (k A)

    

Logo,

Cov ( U k , U A ) = Corr ( U k , U A ) = 0 ( k A )

Cov V , V = Corr V , V = 0 k A
( k A)
( k A)
(
)

(10.23)

Finalmente, a covarincia entre Uk e VA com ( k A ) dada por:

Cov ( U k , VA ) = C ov ( a kt X (1) , b At X (2) ) = a kt 12 b A =


 
 


1/ 2
= c kt 11
12 221/ 2 d A = 0
(k A)



Logo,

10. Anlise de correlao cannica

366

Cov ( U k , VA ) = Corr ( U k , VA ) = 0

Para

variveis

(k A)

padronizadas

(10.24)

(1)

Z(1)t = Z1(1) Z(1)


2 " Zp


(2)

Z(2)t = Z1(1) Z(2)


2 " Zq as variveis cannicas so dadas por:


1/ 2 (1)
U k = a kt Z(1) = c kt 11
Z





V = b t Z(2) = d t 1/ 2 Z(2)
k 22
k k 



(10.25)

1/ 2
t
1/ 2
1222112
11
e
em que c k e d k so os autovetores de norma 1 das matrizes 11


t
1
221/ 212
11
12221/ 2 ,

respectivamente.

Os

autovetores

originais

devem

ser

recuperados por:

1/ 2
a k = 11
ck



b = 1/ 2 d
22
k
k


(10.26)

em que: 11 (p x p), 12 (p x q) e 22 (q x q) so parties de (p + q x p + q)


dadas por:

12
p
= E ( ZZt ) = 11
q 21 22


(10.27)

Ferreira, D.F.

Estatstica multivariada

367

de forma que:

E ( Z(1) ) = 0 Cov ( Z(1) ) = 11






(2)
(2)
E ( Z ) = 0 Cov ( Z ) = 22




Cov Z(1) , Z(2) = = t


(   ) 12 21

(10.28)

As correlaes cannicas das combinaes lineares padronizadas


so dadas por:

Corr(U k , Vk ) =

a kt 12 b k
= k


a kt 11a k b kt 22 b k

 


(10.29)

1/ 2
t
1/ 2
em que k k-simo autovalor de 11
1222112
11
, ou equivalentemente de
1/ 2 t
1
22
1211
12221/ 2 .

Por se tratarem de variveis artificiais, as variveis cannicas no


possuem significado fsico. Se X (1) (p x 1) e X (2) (q x 1) so utilizados, os


coeficientes de a e b tm as unidades dos correspondentes coeficientes de X (1) e



de X (2) . Se as variveis padronizadas forem utilizadas, ento, os coeficientes

cannicos no possuem unidades de mensurao e no dependem da escala das
variveis. Em geral, dada uma interpretao subjetiva para as variveis
cannicas de acordo com a magnitude das correlaes das variveis originais com

10. Anlise de correlao cannica

368

as variveis cannicas em foco. Muitos pesquisadores preferem fazer tal


relacionamento utilizando os coeficientes cannicos estandardizados.
Sejam A (p x p) e B (q x q) matrizes definidas pelos vetores
cannicos:

a1t
b1t
t
t
a2
b

A =  e B = 2
#
#
t
t
ap
bq



(10.30)

possvel definir os vetores de todas as p ou q variveis cannicas


simultaneamente por:

U1
V1
U
V
2
2
(1)

= AX
U=
e V = = BX(2)

 #

 #


Up
Vq

(10.31)

Cov (U, X(1) ) = Cov ( AX(1) , X(1) ) = ACov ( X(1) ) = A11





 

(10.32)

Logo,

A matriz de correlao entre as p variveis originais de X (1) e as p



variveis cannicas de U dada pela covarincia entre as p variveis cannicas,


Ferreira, D.F.

Estatstica multivariada

369

as quais j so estandardizadas, e as p variveis de X (1) padronizadas. A



padronizao de X (1) dada por:


0
(1)
X1
0 X(1)
2

#
# (1)
Xp
1

(1)
pp

(10.33)

U, X(1) = Corr (U, X(1) ) = Cov ( AX(1) , V111/ 2 X(1) ) = A11V111/ 2




 
 

(10.34)

1/ 2
11

X


(1)

1
(1)
11

0
1
(1)
22

"
"

"

Assim,

Clculo semelhante realizado para os pares (U, X(2) ) , ( V , X(2) ) e


 
 

( V , X ) que resulta em:


(1)

( 2 ) = A12 V221/ 2 (p q)
U , X

1/ 2
(q q)
V , X( 2) = B 22 V22
 

V111/ 2 (q p)
= B12
V , X (1)

(10.35)

em que V221/ 2 uma matriz diagonal (q x q) com o i-simo elemento dado por

1/ ii(2) .

10. Anlise de correlao cannica

370

Para as variveis cannicas calculadas de matrizes de correlao ,


a interpretao pode ser realizada alternativamente pelas correlaes entre as
variveis cannicas e as variveis padronizadas. Sejam AZ (p x p) e BZ (q x q)
matrizes compostas dos coeficientes cannicos de Z (1) e Z (2) , respectivamente.


As correlaes entre as variveis cannicas e as variveis padronizadas so
dadas por:

U, Z(1) = A Z11 ;
 

= A Z12 ;
U , Z ( 2)

V , Z( 2) = BZ22
 

(10.36)

V ,Z(1) = B
 

t
Z 12

As matrizes de correlao (10.34), (10.35) com (10.36), apresentam,


no entanto, os mesmos valores numricos, como por exemplo U, Z(1) = U, X(1) , e
 

 

assim por diante. Verifica-se facilmente isso por:

U, X(1) = A11V111/ 2 = AV111/ 2 V111/ 211V111/ 2 = A Z11 = U, Z(1)


 

 

ou seja, a correlao no afetada pela padronizao (mudana de escala).

Ferreira, D.F.

Estatstica multivariada

371

10.3. Variveis e correlaes cannicas amostrais


Uma amostra aleatria de tamanho n em cada conjunto de (p + q)
(1)
e
variveis aleatrias X (1) (p x 1) e X (2) (q x 1), dada por X1(1) , X(1)
2 , " , Xn





(2)
X1(2) , X(2)
possui vetores de mdias amostrais dados por:
2 , " , Xn




X1(1)

#
X(1) Xp(1)
 
X=

=

(2)

(2)
X
 X1

#
(2)
Xq


(10.37)

1 n
X(2) = X(2)
j

n j=1 

(10.38)

Em que:

1 n
X(1) = X(1)
j

n j=1 

A matriz de correlao amostral S (p + q x p + q) dada por:

S12
p S
S = 11
q S21 S 22

(10.39)

10. Anlise de correlao cannica

em que SkA =

1 n
X(j k ) X(k )


n 1 j =1 

372

)( X

(A)
j

X( A ) , k, A = 1, 2 .


As k-simas variveis cannicas amostrais so dadas pelas


combinaes lineares:

= a t X (1)
U
k
k
 

t (2)
Vk = b k X
 

(10.40)

que maximizam a k-sima correlao cannica amostral dada por:

rU

k , Vk

a kt S12 b k
=


a kt S11a k b kt S22 b k

 


(10.41)

O processo de maximizao de (10.41) segue estritamente os


mesmos passos da maximizao de (10.7), substituindo apenas 11, 22 e 12 por
S11, S22 e S12, respectivamente. As equaes homogneas correspondentes ao
mximo so dadas por:

1 t
S12S22
S12 k S11

t 1

S12S11 S12 k S22

) a

) b

= 0 (a)

= 0 (b)


(10.42)

Ferreira, D.F.

Estatstica multivariada

373

Em que o mximo de ru

dado por

k , Vk

k , para os autovetores a k e


b k obtidos por:


1/ 2
a k = S11
c k (a)



1/ 2
b k = S22 d k (b)



(10.43)

1/ 2
t
1/ 2
sendo que c k k-simo autovetor de S11
S12S221S12
S11
e d k o k-simo autovetor de


1/ 2 t
1
S22
S12S11
S12S221/ 2 ; k o k-simo autovalor de ambas as matrizes, por serem

idnticos; k=1, 2, ..., pq.


As variveis cannicas amostrais tm as seguintes propriedades:
1. Varincias amostrais unitrias

( )

( )

(10.44)

= 0 (k A)

(10.45)

= k

(10.46)

= Var
=1
U
V
Var
k
k

2. Correlaes amostrais:

rU

k ; UA

= rV ; V = rU
k

k ; VA

3. Correlao amostral mxima:

rU

k ; Vk

10. Anlise de correlao cannica

374

(p p) e B
(q q) definidas pelos vetores
Sejam as matrizes A
cannicos amostrais:

b 1t
a 1t

t
a
b t
2

A =  e B =  2
#
#
t

b t
a p
q

(10.47)

Analogamente a (10.31) definem-se:


U
V 1
1


V (2)
U
(1)
2
=

U
e V = 2 = BX
= AX

 #

 #
U
V

p
q

(10.48)

As correlaes entre as variveis cannicas amostrais e as variveis


originais de cada um dos grupos podem ser obtidas. Para isso definiu-se as

1/ 2
matrizes diagonais D11
= Diag 1/ Sii(1) , (pxp) e D 221/ 2 = Diag 1/ Sii(2) , (qxq).

e X (1)
1. Matriz de correlaes entre U



D 1/ 2
R U, X(1) = AS
11 11
 

(10.49)

Ferreira, D.F.

Estatstica multivariada

375

e X (2)
2. Matriz de correlaes entre U



D 1/ 2
R U, X( 2) = AS
12 22

(10.50)

t D 1/ 2
R V, X(1) = BS
12 11

(10.51)

D 1/ 2
R V, X( 2 ) = BS
22 22

(10.52)

 

e X (1)
3. Matriz de correlaes entre V



 

e X (2)
4. Matriz de correlaes entre V



 

Para

variveis

padronizadas,

as

variveis

cannicas

correspondentes so:


U
V 1
1


U
(1)
= 2 = A Z
= V2 = B Z (2)
U
e
V
Z
Z


 #

 #
U
V

p
q

(10.53)

1/ 2 e
A Z = AD
11

(10.54)

em que:

1/ 2
B Z = BD
22

10. Anlise de correlao cannica

376

Sendo que a z e b z , para as variveis padronizadas, so obtidos da




mesma forma que os respectivos vetores para variveis no padronizadas,
substituindo-se nas expresses correspondentes S11, S22 e S12 por R11, R22 e R12,
respectivamente. A relao (10.54) se verifica para o caso de variveis cannicas,
mas no se pode estabelecer a mesma relao para os componentes principais
de matriz de covarincia e matriz de correlao, como apontado por Johnson e
Wichern (1998). As matrizes de correlaes entre as variveis de cada grupo
padronizadas e as respectivas variveis cannicas so dadas por:

R =A
1
R (1) = A
Z 11
Z
U,Z
 

( 2) = A Z R 12
R U,Z
 

t
R V,Z
(1) = B Z R 12
 

(10.55)

1
R V,Z
( 2) = B Z R 22 = B Z
 

Da mesma forma, fcil verificar que as correlaes no so


afetadas pela padronizao, ou seja, as correlaes obtidas em (10.49) a (10.52)
so as mesmas as correspondentes em (10.55).
Uma importante avaliao da qualidade do potencial das variveis
cannicas medir o poder de resumo da variabilidade contida respectivo conjunto.
Duas formas bsicas so descritas: na primeira apresenta-se uma matriz de erro
da aproximao e na segunda calcula-se a proporo da varincia explicada pelas
variveis cannicas para cada grupo de variveis.

Ferreira, D.F.

Estatstica multivariada

377

As matrizes de erro so obtidas como se segue, admitindo as

= AX
(1) e V = BX
(2) . Logo, possvel definir:
definies U





X(1) = A 1U



X(2) = B 1V



(10.56)

d 1t
c1t
t
t

c
1/ 2
= P (2)t S1/ 2 = d 2 S1/ 2
e B
=  2 S11
22
22
#
#
t
d t
c p
p

(10.57)

e B
so dadas por:
Como A

= P (1)tS1/ 2
A
11

Ento:

1 = S1/ 2 P (1)
A
11

1 = S1/ 2 P (2)
B
22

(10.58)

devido a P (1) e P (2) serem matrizes ortogonais de autovetores, fcil perceber que

( P )
(1)t

= P (1) e P (2)t

= P (2) .

e V
sabe-se que a covarincia entre eles
Das definies de U


(pxq) com
uma matriz diagonal

k na k-sima diagonal para k=1, 2,...p, e

cujas demais p-q colunas so formadas de zeros. Assim,

10. Anlise de correlao cannica

Cov

Cov


Cov

378

( U, V ) = AS

12

( U ) = AS
11

( V ) = BS

22

t = P (1)tS1/ 2S S1/ 2 P (2) =

B
11
12 22
=

(10.59)

t =
B

Assim,

B
t =

AS
12
1
t =A

S12 B

( )

1
B
1
S12 = A

Da mesma forma:

( )

1 A
1
S11 = A

( )

1 B
1
S22 = B

A idia reter um nmero r menor ou igual a p de variveis


cannicas em cada grupo. O nmero r escolhido de determinada forma que a
covarincia amostral dentro de grupo seja reproduzida de uma forma satisfatria.
Da mesma forma desejvel uma boa aproximao das covarincias entre grupos
S12. Sejam, ento, as matrizes compostas das r (rp) primeiros autovalores e
1/ 2
t
1/ 2
t
1
S12S221S12
S11
e de S221/ 2S12
S11
S12S221/ 2 definidas por:
autovetores de S11

Ferreira, D.F.

Estatstica multivariada

379

= P (1)t S1/ 2
A
r
r
11

c1t
t
c
1/ 2
=  2 S11
#
t
c r


(10.60)

= P (2)t S1/ 2
B
r
r
22

d 1t
t
d
=  2 S221/ 2
#
d t
r


(10.61)

(10.62)

1 = S1/ 2 P (1) e B
1 = S1/ 2 P (2)
A
r
11 r
r
22 r

(10.63)

"

"

"

Assim, definem-se as matrizes:

Considerando as matrizes de resduos E11, E22 e E12 das


reprodues de S11, S22 e S12, respectivamente, tm-se:

10. Anlise de correlao cannica

380

( A )( A )

( B )( B )

E = S
11
11

E 22 = S22

E12 = S12

1
r

1
r

1
r

1
r

( A ) ( B )
1
r

1
r

(a)

(10.64)

(b)
t

(c)

A segunda alternativa relacionada a essa que apresenta em simples


nmero a explicao do respectivo conjunto, em substituio aos p(p-1)/2, q(q-1)/2

( )( )

t
1 A
1 + tr ( E ) , e assim
ou pq valores de E11, E22 e E12. Como tr ( S11 ) = tr A
r
r
11

por diante para as demais matrizes, a explicao das r variveis cannicas para o
seu respectivo conjunto dada por:

,U
," , U
de X (1) = 100 1 tr ( E11 ) (a)
%Exp U
1
2
r
tr ( S )

11

%Exp V
,V
," , V
de X (2) = 100 1 tr ( E 22 ) (b)
1
2
r


tr ( S22 )

(
(

(10.65)

10.4. Inferncias para grandes amostras

Quando 12=0 as variveis cannicas

U = a t X (1)
 

V = b t X (2)
 

possuem covarincia nula para todos os pares de vetores a e b . Dessa forma,





Ferreira, D.F.

Estatstica multivariada

381

no existem vantagens em realizar uma anlise de correlao cannica. Ento,


evidente que um teste de hiptese de que (12) seja igual a uma matriz nula
primordial para a validao da anlise de correlao cannica. A seguir
apresentado o teste para a hiptese:

H 0 : 12 = 0 (p q) vs H1 : 12 0

(10.66)

Seja o vetor aleatrio normal de dimenso (p + q x 1) com mdia e


covarincia , dado por:

X (1)

j
X j =  (2)


X j

cuja covarincia pode ser particionada em:

12
p
= 11
q 21 22

Sob H0 o mximo da funo de verossimilhana dado por L0 e sob


H1 por L1, quais sejam:

L 0 ( X, S11 , S22 ) = (2) n(p + q) / 2 S11 S22




n / 2

exp ( n(p + q) / 2 )

(10.67)

10. Anlise de correlao cannica

382

em que n o tamanho da amostra, S11 e S22 so os estimadores das covarincias


amostrais do grupo 1 e do grupo 2 de variveis, p e q representam o nmero total
de variveis no grupo 1 e 2, respectivamente.
Sob H1, modelo irrestrito tem-se:

L1 ( X, S ) = (2) np / 2 S n / 2 exp ( np / 2 )


(10.68)

A razo de verossimilhana dada por:

L 0 ( X, S11 , S22 ) S11 S22


=
=

L1 ( X, S )
S


n / 2

(10.69)

O teste da razo de verossimilhana para a hiptese (10.66), dado


por:

S11 S22
c2 = 2 ln( ) = n ln
S

= n ln 1 i

i =1

(10.70)

tem distribuio qui-quadrado com =pq graus de liberdade. Em que a razo


de verossimilhana do teste da hiptese (10.66).
O teste de razo de verossimilhana compara a varincia amostral
generalizada sob H0:

Ferreira, D.F.

com

Estatstica multivariada

varincia

383

S11

S22

generalizada

= S11 S22

irrestrita,

|S|.

primeiro

caso

com

p(p + 1)/2 + q(q + 1)/2 parmetros e o segundo com (p + q)(p + q + 1)/2. A


diferena igual a = pq parmetros, que igual aos graus de liberdade do teste
em questo. Bartlett (1939) sugere uma correo para uma melhor aproximao
de qui-quadrado, substituindo n em (10.70) por n 1 - (p + q + 1)/2. O teste com a
correo de Bartlett (1939) dado por:

S11 S22
c2 = n 1 ( p + q + 1) ln
2


= n 1 ( p + q + 1) ln 1 i

i =1

(10.71)

Se a hiptese nula H 0 : 12 = 0 ( 1 = 2 = " = p = 0 ) for rejeitada,


natural

buscar

um

nmero

de

correlaes

cannicas

que

diferem

significativamente de zero. Em que k a notao abreviada de Uk ;Vk . Bartlett


(1938) sugere um teste seqencial baseado na razo de verossimilhana. A
princpio, testar a hiptese de que a primeira correlao cannica no nula e as
demais (p-1) so nulas; em seguida, testar que as duas primeiras so no nulas e
as demais (p-2) so nulas; e assim por diante. Para o k-simo passo desse
)
dada por:
processo testar a hiptese H (k
0

10. Anlise de correlao cannica

384

)
H (k
0 : 1 0, 2 0," , k 0, k +1 = k + 2 = " = p = 0

H (k ) : 0 para algum i k + 1
i
1

(10.72)

O teste dessa hiptese incorporando a correo de Bartlett (1939)


pode ser realizado por:


c2 = n 1 ( p + q + 1) ln 1 i
2

i = k +1

(10.73)

o qual possui distribuio de qui-quadrado com =(p-k)(q-k) graus de liberdade. O


teste realizado para k=1, 2, ..., (p-1).
(2)
Cada hiptese da seqncia H 0 , H (1)
0 , H 0 , etc. testada uma de
)
no seja rejeitada para algum k. O valor nominal da
cada vez at que H (k
0

significncia no , e possui difcil determinao. O teste especialmente til


para os dados normais e deve ser interpretado com cautela, e possivelmente deva
melhor ser usado como um guia no muito refinado de seleo do nmero r de
variveis cannicas a ser retido. As distribuies amostrais das variveis
cannicas possuem um estudo mais detalhado em Kshirsagar (1972).
Uma outra opo para esse teste apresentada por Morrisson
(1976) que afirma que a distribuio do maior autovalor segue a distribuio da
maior raiz caracterstica de Roy, com S=min(p, q), m=(|P-Q| -1)/2 e n=(n-p-q-2)/2.
O teste anterior foi generalizado por Wilks (1935) para avaliar a
independncia entre k grupos de variveis. O teste de razo de verossimilhana

Ferreira, D.F.

Estatstica multivariada

385

para a hiptese de independncia entre k-grupos da distribuio normal


multivariada apresentado doravante. Seja , matriz de covarincia para todas as
variveis, particionada em k grupos, cada um com pi variveis; a sub-matriz ij de
dimenso pixpj (ij=1, 2, ...,k) uma partio de que contem as correspondentes
covarincias entre as pi variveis do i-simo grupo com as pj variveis do j-simo
grupo. A hiptese de interesse :

H 0 : ij = 0 para todo i j=1, 2, ..., k

H : 0 para algum i j=1, 2, ..., k


1 ij

(10.74)

Cujo teste apresentado por Wilks (1935) depende da quantidade:

Vc =

S
S11 S22 " Skk

(10.75)

cuja distribuio muito complicada. Mas Box (1949) obteve boa aproximao de
qui-quadrado com graus de liberdade. O teste proposto :

c2 =
em que:

n 1
ln ( Vc )
C

(10.76)

10. Anlise de correlao cannica

386

1
1
C = 1 12 (n 1) ( 23 + 3 2 )

1
= 2
2

(10.77)

k
k
S = pi pSi ;
i =1
i =1

S = 2, 3

(10.78)

Se k = 2 com p1 = p e p2 = q, o teste (10.76) exatamente o mesmo


de (10.71). Se k = p + q e pi=1, para todo i=1, 2, ..., p + q, o teste se especifica
no teste apresentado no captulo 7, para a independncia de variveis, ou seja,
H0: =diag(ii). Ento, esse teste uma generalizao dos demais supra citados.
conveniente que se saliente que se os testes forem aplicados sobre a matriz de
correlao, os resultados so equivalentes aos obtidos para a matriz de
covarincias, substituindo-se S por R nas expresses anteriores.

10.5. Exerccios

10.5.1. Verifique que a derivao do mximo de (10.7) pode ser obtida a partir de
(10.16) utilizando o fator de Cholesky F, na transformao linear de
1/ 2
a = ( F111 ) c e de b = ( F221 ) d no lugar de a = 11
c e de b = 221/ 2 d ,









Ferreira, D.F.

Estatstica multivariada

387

respectivamente; em que, F11 e F22 so os fatores de Cholesky de 11 e de


22, respectivamente.

10.5.2. Dois testes ( X1(1) e X (1)


2 ) de leitura foram aplicados em n=140 crianas
juntamente com dois testes de aritmtica ( X1(2) e X (2)
2 ). A matriz de
correlao amostral obtida foi:

1, 0000 0, 6328
1, 0000 0, 4248
0, 2412 0, 0586
; R 22 =
; e R 12 =
R 11 =

0, 6328 1, 0000
0, 4248 1, 0000
0, 0553 0, 0655

a) obtenha todas as variveis cannicas amostrais e as respectivas correlaes


mximas.

b) realizar o teste da hiptese:

H 0 : 12 = 12 = 0 (p q) vs H1 : 12 = 12 0

Se H0 for rejeitada realizar o teste da hiptese:

H 0 : 1 0; 2 = 0 Vs H 0 : 2 0

discuta os resultados obtidos.

10. Anlise de correlao cannica

388

c) estime as matrizes E11, E22 e E12 para o primeiro par de variveis cannicas
(r=1).

d) Determine a proporo da variao explicada pelo primeiro par de variveis


cannicas nos dois grupos.

e) calcule a correlao amostral entre Z(1) e Z(2) com U e com V .







||[

11

Referncias bibliogrficas

]||

ANDERSON, T.W. An introduction to multivariate statistical analysis. 2nd Ed.


New York, John Wiley, 1984, 675p.
ANDERSON, T.W. The asymptotic theory for principal components analysis,
Annals of Mathematical Statistics, v.34, p.122-148, 1963.

BARTLETT, M.S. A note on multiplying factors for various Chi-Square


approximations. Journal of the royal Statistical Society Series B. v.16,
p.296-298, 1954.

BARTLETT, M.S. A note on tests of significance in multivariate analysis.


Proceedings of the Cambridge Philosophical Society, v.35, p.180-185, 1939.

BARTLETT, M.S. Further aspects of the theory of multiple regression.


Proceedings of the Cambridge Philosophical Society, v.34, p.33-40, 1938.

BARTLETT, M.S. The statistical conception of mental factors. British Journal of


Psychology. v.28, p.97-104, 1937.

11. Referncias bibliogrficas

390

BENNETT, B.M. Note on a solution of the generalized Behrens-Fisher problem,


Annals of the Institute of Statistical Mathematics, v.2, p.97-90, 1951.

BOCK, R.D. Multivariate statistical methods in behavioral research. McGraw


Hill, 1975.

BOX, G.E.P. A general distribution theory for a class of likelihood criteria,


Biometrika. v.36, p.317346, 1949.

CARROLL, J.B. An analytical solution for approximating simple structure in factor


analysis. Psychometrika. v.18, pp.23-28, 1953.

CHRISTENSEN, W.F.; RENCHER, A.C. A comparison of type I rates and power


levels

for

seven

solutions

to

the

multivariate

Behrens-Fisher

problem.

Communication in Statistics-Simula., v.26, n.4, p.1251-1273, 1997.

CLEVELAND, W.S.; RELLES, D.A. Clustering by identification with special


application to two way tables of counts. Journal of American Statistical
Association. v.70, n.351, 1975. 626-630p.

DAGOSTINO, R.B.;TITJEN, G.L. Approaches to the null distribution of

b1 ,

Biometrika, v.60, p.169-173, 1973.


DAGOSTINO, R.B.;TITJEN, G.L. Simulation probability points of b2 in small
samples, Biometrika, v.58, p.669-672, 1971.

Ferreira, D.F. Estatstica multivariada

391

DINIZ, L de C. Dinmica populacional do piolho de so Jos Quadraspidiotus


perniciosus (Comostock, 1881) (Homptera: Dispididae) em pessegueiro, no
municpio de Jacu - Minas Gerais. UFLA, Lavras, MG, 1996. 61p. (dissertao
de mestrado).

FERGUSON, G.A. The concept of parsimony in factor analysis. Psychometrika.


v.19, pp.281-290, 1954.

GIRSHICK, M.A. On the sampling theory of roots of determinantal equations.


Annals of Mathematical Statistics. v.10, p.203-224, 1939.

HOTELLING, H. Relations between two sets of variables. Biometrika. v.28, p.321377, 1936.

HOTELLING, H. The most predictable criterion. Journal of Educational


Psychology. v.26, p.139-142, 1935.

HOUSEHOLDER, A.S. Principles of numerical analysis. McGraw-Hill, New york,


1953.
HOUSEHOLDER, A.S. The theory of matrices in numerical analysis. Blarsdell,
Waltham, Mass., 1964.
JAMES, G.S. Tests of linear hypotheses in univariate and multivariate analysis
when the ratios of the population variances are unknown, Biometrika, v.41,
p.19-43, 1954.

11. Referncias bibliogrficas

392

JOHANSEN, S. The Welch-James approximation to the distribution of the residual


sum of squares in a weighted linear regression, Biometrika, v.67, n.1, p.85-92,
1980.

JOHNSON, R.A.; WICHERN, D.W. Applied multivariate statistical analysis. 4th


edition. Prentice Hall, New Jersey, 1998. 816p.

KAISER, H.F. Computer program for varimax rotation in factor analysis. Journal of
Educational and Psychological Measurement. v.19, pp.413-420, 1959.

KAISER, H.F. The varimax criterion for analytic rotation in factor analysis.
Psychometrika. v.23, pp.187-200, 1958.

KIM, S. A practical solution to the multivariate Behrens-Fisher problem,


Biometrika, v.79, n.1, p.171-176, 1992.

KRZANOWSKI, W.J. Principles of multivariate analysis. A users perspective.


Oxford, 3rd edition, 1993. 563p.

KSHIRSAGAR, A.M. Multivariate analysis. New York: Marcel Dekker, 1972.

LAWLEY, D.N. Further estimation in factor analysis. Proceedings of the Royal


Society of Edinburgh, Series A. v.61, pp.176-185, 1942.

LAWLEY, D.N. On testing a set of correlation coefficients for equality, Annals of


Mathematical Statistics, v.34, p.149-151, 1963.

Ferreira, D.F. Estatstica multivariada

393

LAWLEY, D.N. Tests of significance for the latent roots of covariance and
correlation matrices. Biometrika, v.43, p.128-136, 1956.

LAWLEY, D.N. Tests of significance in canonical analysis. Biometrika. v.46,


p.59-66, 1959.

LAWLEY, D.N. The application of the maximum likelihood method to factor


analysis. British Journal of Psychology. v.33, pp.172-175, 1943.

LAWLEY, D.N. The estimation of factor loadings by the method of the maximum
likelihood. Proceedings of the Royal Society of Edinburgh, Series A. v.60 ou 40
(checar), pp.64-82, 1940.

MARDIA, K.V. Applications of some measures of multivariate skewness and


kurtosis for testing normality and robustness studies. Sanky. A36, p.115-128,
1974.
MARDIA, K.V. Measures of multivariate skewness and kurtosis with applications.
Biometrika, p.519-530, 1970.
MARRIOTT, F.H.C. The interpretation of multiple observations. London,
Academic Press, 1974.

MOMENT, V.G. Comparaes entre diferentes tipos de famlias clonais para


o melhoramento gentico da batata (Solanum tuberosum L.). ESAL, Lavras,
MG, 1994. 83p. (dissertao de mestrado).

11. Referncias bibliogrficas

394

MORRISON, D.F. Multivariate statistical methods. New York: McGraw-Hill, 2d


ed., 1976. 307p.

NEHAUS, J.; WRIGLEY, C. The quartimax method: an analytical approach to


orthogonal simple structure. British Journal of Psychology. v.7, pp.81-91, 1954.

NEL, D.G.; Van der MERWE, C.A. A solution to the multivariate Behrens-Fisher
problem. Communications in Statistics: Theory and Methods, v.15, p.37193735, 1986.

PEARSON, E.S.; HARTLEY, H.O. Biometrika Tables for Statisticians Vol. 1 ed.
Cambridge University Press, New York, 1966.
SEARLE, S.R. Matrix algebra for the biological sciences. Wiley, New York,
1966.
WIKS, S.S. On the independence of k sets of normally distributed statistical
variables. Econometrica. v.3, p.309-326, 1935.

YAO, Y. An approximate degrees of freedom solution to the multivariate


Behrens-Fisher problem. Biometrika, v.52, n.1, p.139-147, 1965.

Você também pode gostar