Você está na página 1de 400

MINISTÉRIO DA EDUCAÇÃO E DO DESPORTO

UNIVERSIDADE FEDERAL DE LAVRAS


DEPARTAMENTO DE CIÊNCIAS EXATAS

ANÁLISE MULTIVARIADA

Daniel Furtado Ferreira

LAVRAS, MG

1996
ii

SUMÁRIO Pág.

1. Aspectos da análise multivariada 1

1.1. Introdução 1

1.2. Aplicação das técnicas multivariadas 3

1.3. Organização de dados 5

1.4. Distâncias 15

1.5. Exercícios 24

2. Álgebra vetorial e matricial 25

2.1. Introdução 25

2.2. Elementos de álgebra vetorial 26

2.3. Elementos de álgebra matricial 34

2.4. Exercícios 82

3. Amostragem multivariada 89

3.1. Introdução 89

3.2. Geometria amostral 90

3.3. Amostras aleatórias e esperanças do vetor de média e da


matriz de covariância amostral. 101

3.4. Variância generalizada 104

3.5. Variância generalizada de variáveis generalizadas 113

3.6. Outra generalização da variância 116

3.7. Exercícios 117


iii

4. Distribuição normal multivariada 119

4.1. Introdução 119

4.2. Pressuposições das análises multivariadas 120

4.3. Densidade normal multivariada e suas propriedades 121

4.4. Distribuição normal bivariada 125

4.5. Distribuição amostral de X e S 133



4.6. Distribuições amostral derivada da distribuição normal
multivariada 138

4.7. Verificando a normalidade 143

4.8. Exercícios 169

5. Inferências sobre o vetor média 171

5.1. Introdução 171

5.2. Inferências sobre média de uma população normal 171

5.3. Região de confiança e comparações simultâneas de


componentes de média 177

5.4. Inferências sobre proporções de grandes amostras 190

5.5. Comparações pareadas 192

5.6. Comparações de vetores de médias de duas populações 199

5.7. Exercícios 215

6. Análise de variância multivariada 219

6.1. Introdução 219

6.2. Delineamento de classificação simples 220


iv

6.3. Intervalos de confiança simultâneos para o efeito de


tratamentos 230

6.4. Exercícios 232

7. Componentes principais 233

7.1. Introdução 233

7.2. Componentes principais populacionais 234

7.3. Componentes principais amostrais 250

7.4. Gráficos dos componentes principais 256

7.5. Inferências para grandes amostras 259

7.6. Exercícios 282

8. Análise de agrupamento 285

8.1. Introdução 285

8.2. Medidas de parecença (similaridades e dissimilaridades) 286

8.3. Agrupamentos 296

8.4. Exercícios 308

9. Análise de fatores 309

9.1. Introdução 309

9.2. Modelo de fatores ortogonais 310

9.3. Estimação de cargas fatoriais 316

9.4. Rotação fatorial 342

9.5. Teste da falta de ajuste do modelo fatorial 346


v

9.6. Escores fatoriais 349

9.7. Exercícios 354

10. Análise de correlação canônica 355

10.1. Introdução 355

10.2. Variáveis canônicas e correlação canônica populacionais 356

10.3. Variáveis e correlações canônicas amostrais 371

10.4. Inferências para grandes amostras 380

10.5. Exercícios 386

11. Referencias bibliográficas 389

Apêndices 395

Índice remissivo 397


||[ 1
Aspectos da
análise multivariada
]||
1.1. Introdução

Nos trabalhos científicos, o problema de se inferir, a partir de dados

mensurados pelo pesquisador, sobre os processos ou fenômenos físicos,

biológicos ou sociais, que não se pode diretamente observar, é uma realidade

constante. A pesquisa científica se constitui num processo interativo de

aprendizado. Para explicação de um fenômeno, o pesquisador em geral coleta e

analisa dados de acordo com uma hipótese. Por outro lado, a análise destes

mesmos dados coletados de amostragem ou experimentação geralmente sugere

modificações da explicação do fenômeno, além disso, devido à complexidade

destes fenômenos, o pesquisador deve coletar observações de diferentes

variáveis. Neste contexto, a inferência estatística é realizada de acordo com o

paradigma hipotético-dedutivo (Bock, 1975).

Devido aos fenômenos serem estudados a partir de dados coletados

ou mensurados em muitas variáveis, os métodos estatísticos delineados para

obter informações a partir destes conjuntos de informações, são denominados de

métodos de análises multivariados. A necessidade de compreensão das relações


1. Aspectos da análise multivariada 2

entre as diversas variáveis faz com que as análises multivariadas sejam

complexas ou até mesmo difíceis. O objetivo do presente material é apresentar a

utilidade das técnicas multivariada de uma forma clara, usando exemplos

ilustrativos e evitando o máximo de possível de cálculo.

Sendo assim, os objetivos gerais, para os quais a análise

multivariada conduz são:

a. redução de dados ou simplificação estrutural: o fenômeno sob estudo é

representado da maneira mais simples possível, sem sacrificar

informações valiosas e tornando as interpretações mais simples;

b. ordenação e agrupamento: agrupamento de objetos (tratamentos) ou

variáveis similares, baseados em dados amostrais ou experimentais;

c. investigação da dependência entre variáveis: estudos das relações

estruturais entre variáveis muitas vezes é de interesse do pesquisador;

d. predição: relações entre variáveis devem ser determinadas para o

propósito de predição de uma ou mais variável com base na observação

de outras variáveis;

e. construção e teste de hipóteses.

Os modelos multivariados possuem em geral, um propósito através

do qual o pesquisador pode testar ou inferir a respeito de uma hipótese sobre um


Ferreira, D.F. Estatística multivariada 3

determinado fenômeno. No entanto a sua utilização adequada depende do bom

conhecimento das técnicas e das suas limitações. A frase utilizada por Marriott

(1974) descreve bem este fato: “Não há mágica com os métodos numéricos, e que

apesar de serem uma importante ferramenta para análise e interpretação de

dados, não devem ser utilizados como máquinas automáticas de encher lingüiça,

transformando massas numéricas em pacotes de fatos científicos”.

1.2. Aplicação de técnicas multivariadas

As técnicas estatísticas constituem se uma parte integral da pesquisa

científica e em particular as técnicas multivariadas tem sido regularmente aplicada

em várias investigações científicas nas áreas de biologia, física, sociologia e

ciências médicas. Parece, neste instante, ser apropriado descrever as situações

em que as técnicas multivariadas têm um grande valor.

Medicina

Nos estudos onde as reações de pacientes a um determinado

tratamento são mensuradas em algumas variáveis e possuem difícil diagnóstico,

as técnicas multivariadas podem ser usadas para construir uma medida de

resposta simples ao tratamento, na qual é preservada a maior parte da informação

da amostra e das múltiplas variáveis respostas. Em outras situações as técnicas


1. Aspectos da análise multivariada 4

multivariadas podem ser usadas também quando a classificação de um paciente,

baseada nos sintomas medidos em algumas variáveis, é difícil de ser realizada.

Neste caso, uma técnica multivariada de classificação, em que se cria uma função

que pode ser usada para separar as pessoas doentes das não doentes, pode ser

implementada.

Sociologia

Em alguns estudos o inter-relacionamento e o agrupamento de

indivíduos, cidades ou estados em grupos homogêneos em relação à mobilidade,

número de estrangeiros nascidos e de segunda geração em determinado país é

necessária em alguns estudos sociológicos. As técnicas de análise multivariada,

conhecidas como análise de agrupamento (Cluster analysis), pode ser empregada

com esta finalidade.

Biologia

No melhoramento de plantas é necessário, após o final de uma

geração, selecionar aquelas plantas que serão os genitores da próxima geração. a

seleção deve ser realizada de maneira que a próxima geração seja melhorada em

relação à resposta média de uma série de características da geração anterior. O

objetivo do melhorista consiste em maximizar o ganho genético em um espaço


Ferreira, D.F. Estatística multivariada 5

mínimo de tempo. As análises multivariadas podem ser usadas para converter

uma série de características para um índice, na qual a seleção e escolha dos pais

possam ser feitas.

Em algumas situações se deseja a separação de algumas espécies,

e as técnicas multivariadas têm sido utilizadas com esta finalidade. Uma função é

construída e os seus valores são usados para esta separação.

1.3. Organização de dados

Através deste material pretende-se tratar das análises realizadas em

muitas características ou variáveis. Essas medidas, muitas vezes chamadas de

dados, devem ser organizadas e apresentadas em várias formas. Por exemplo, a

utilização de gráficos e arranjos tabulares são importantes auxiliares nas análises

de dados. Por outro lado, números que resumem, ou seja, que descrevem

quantitativamente certas características, são essenciais para a interpretação de os

dados amostrais ou experimentais.

Arranjos

Os dados multivariados são provenientes de uma pesquisa em

determinada área em que são selecionadas p ≥ 1 variáveis ou características para


1. Aspectos da análise multivariada 6

serem mensuradas. As medidas são tomadas em cada unidade da amostra ou do

experimento. A representação destes dados é feita com a notação xjk para indicar

um valor particular da j-ésima unidade amostral ou experimental e da k-ésima

variável mensurada. Conseqüente, estas medidas de p variáveis em n unidades

amostrais ou experimentais, podem ser representadas conforme o arranjo

apresentado na Tabela 1.1.

Tabela 1.1. Representação de dados através da notação xjk para indicar um valor

particular da k-ésima variável mensurada na j-ésima unidade amostral

ou experimental.

Variáveis

Unidades amostrais 1 2 ... k ... p


ou experimentais
1 X11 X12... X1k... X1p
2 X21 X22... X2k... X2p
. . . . .
. . . . .
. . . . .
j Xj1 Xj2... Xjk... Xjp
. . . . .
. . . . .
. . . . .
n Xn1 Xn2... Xnk... Xnp
Ferreira, D.F. Estatística multivariada 7

Estes valores, apresentados na Tabela 1.1, podem ser

representados em um arranjo retangular, denominado de X, com n linhas e p

colunas, da seguinte forma:

⎡ x11 x12 " x1k " x1 p ⎤


⎢x x22 " x2 k " x2 p ⎥⎥
⎢ 21
⎢ # # # # # # ⎥
X =⎢ ⎥
⎢ x j1 x j 2 " x jk " x jp ⎥
⎢ # # # # % # ⎥
⎢ ⎥
⎢⎣ xn1 xn 2 " xnk " xnp ⎥⎦

Exemplo 1.1

Uma seleção de 4 firmas de ração de Minas Gerais foi obtida para

avaliar a venda de rações. Cada observação bivariada forneceu a quantidade de

sacos de ração vendidos e a quantidade de reais de cada venda. Os dados

obtidos na forma tabular são:

Variável 1 (Reais/venda) 80 120 90 110

Variável 2 (número de
sacos de ração vendidos) 10 12 6 8

Usando a notação proposta anteriormente, tem-se:

X11=80 X21=120 X31=90 X41=110 X12=10 X22=12 X32=6 X42=8

E a matriz X dos dados é:


1. Aspectos da análise multivariada 8

⎡ 80 10 ⎤
⎢120 12 ⎥
X =⎢ ⎥
⎢ 90 6 ⎥
⎢ ⎥
⎣110 8⎦

A organização dos dados em arranjos facilita a exposição e permite

que os cálculos sejam efetuados de uma forma ordenada e eficiente. Os ganhos

na eficiência são: (1) descrição dos cálculos como operações com matrizes e

vetores; e (2) sua fácil implementação em computadores.

ESTATÍSTICAS DESCRITIVAS

Grandes conjuntos de dados possuem um sério obstáculo para

qualquer tentativa de extração de informações visuais pertinentes aos mesmos.

muitas das informações contidas nos dados podem ser obtidas por cálculo de

certos números, conhecidos como estatísticas descritivas. Por exemplo, a média

aritmética ou média amostral, é uma estatística descritiva que fornece informação

de posição, isto é, representa um valor central para o conjunto de dados. Como

um outro exemplo, a média das distâncias ao quadrado de cada dado em relação

à média, fornece uma medida de dispersão, ou variabilidade.

Às estatísticas descritivas que mensuram posição, variação e

associação linear são enfatizadas. As descrições formais destas medidas estão

apresentadas a seguir.

A média amostral, simbolizada por X , é dada por:


Ferreira, D.F. Estatística multivariada 9

1 n
Xk = ∑ X jk
n j =1
k=1, 2, ..., p (1.1)

Uma medida de variação é fornecida pela variância amostral,

definida para as n observações de i-ésima variável por:

1 n
∑ ( X jk − X k )
2
Sk2 = Skk = k = 1, 2, ..., p (1.2)
n − 1 j =1

A raiz quadrada da variância amostral, S kk , é conhecida como

desvio padrão amostral. Esta medida de variação está na mesma unidade de

medida das observações.

Uma medida de associação entre as observações de duas variáveis,

variáveis k e k’, é dada pela covariância amostral:

1 n
S kk ' = ∑ ( X jk − X k )( X jk ' − X k ' ) k, k’=1,2, ..., p (1.3)
n − 1 j =1

Se grandes valores de uma variável são observados em conjunto

com grandes valores da outra variável, e os pequenos valores também ocorrem

juntos, Skk’ será positiva. Se grandes valores de uma variável ocorrem com

pequenos valores da outra, Skk’ será negativa. Se não há associação entre os


1. Aspectos da análise multivariada 10

valores das duas variáveis, Skk’ será aproximadamente zero. Quando k=k’, a

covariância reduz-se a variância amostral. Além disso, Skk’= Sk’k, para todo k e k’.

A última estatística descritiva a ser considerada aqui é o coeficiente

de correlação amostral. Esta medida de associação linear entre duas variáveis

não depende da unidade de mensuração. O coeficiente de correlação amostral

para k-ésima e k’-ésima variável, é definido por:

∑ ( X jk − X k )( X jk ' − X k ' )
n

rkk ' = S kk ' = n j =1 (1.4)


S kk S k ' k ' ∑ ( X jk − X k ) ∑ ( X jk ' − X k ' )
2 n 2

j =1 j =1

Verifica-se que rkk’=rk’k para todo k e k’. O coeficiente de correlação

amostral é a versão estandardizada da covariância amostral, onde o produto das

raízes das variâncias das amostras fornece a estandardização.

O coeficiente de correlação amostral pode ser considerado como

uma covariância amostral. Suponha que os valores Xjk e Xjk’ sejam substituídos

( X jk − X k ) ( X jk ' − X k ' )
pelos valores padronizados, S kk e Sk ' k ' . Esses valores padronizados

são expressos sem escalas de medidas (adimensionais), pois são centrados em

zero e expressos em unidades de desvio padrão. O coeficiente de correlação

amostral é justamente a covariância amostral das observações estandardizadas.

A correlação amostral (r), em resumo, tem as seguintes

propriedades:
Ferreira, D.F. Estatística multivariada 11

1. Os valores de r devem ficar compreendidos entre -1 e 1;

2. Se r = 0, implica em inexistência de associação linear entre as variáveis. Por

outro lado, o sinal de r, indica a direção da associação: se r < 0 há uma

tendência de um dos valores do par ser maior que sua média, quando o outro

for menor do que a sua média, e r > 0 indica que quando um valor do par for

grande o outro também o será, além de ambos valores tender a serem

pequenos juntos;

3. Os valores de rkk’ não se alteram com a alteração da escala de uma das

variáveis.

As estatísticas Skk’ e rkk’, em geral, não necessariamente refletem

todo o conhecimento de associação entre duas variáveis. Associações não

lineares existem, as quais, não podem ser reveladas por estas estatísticas

descritivas. Por outro lado, estas estatísticas são muito sensíveis a observações

discrepantes (outliers).

Além destas, outras estatísticas como a soma de quadrados de

desvios em relação à média (Wkk) e a soma de produtos de desvios (Wkk’), são

muitas vezes de interesse. Essas estão apresentadas a seguir:


1. Aspectos da análise multivariada 12

W kk = ∑ ( X jk − X k ) 2

j =1

n
Wkk ' = ∑ ( X jk − X k )( X jk ' − X k ' )
j =1

As estatísticas descritivas multivariadas calculadas de n observações

em p variáveis podem ser organizadas em arranjos.

Médias da amostra

⎡ X1 ⎤
⎢ ⎥
X2
X =⎢ ⎥
 ⎢ # ⎥
⎢ ⎥
⎣⎢ X p ⎦⎥

Matriz de covariância amostral

⎡ S11 S12 " S1p ⎤


⎢ ⎥
⎢ S 21 S22 " S2 p ⎥
S =⎢ ⎥
⎢ # # % # ⎥
⎢S Sp 2 " S pp ⎥⎦
⎣ p1
Ferreira, D.F. Estatística multivariada 13

Matriz de correlações amostral

⎡ 1 r12 " r1p ⎤


⎢ ⎥
⎢ r21 1 " r2 p ⎥
R =⎢ ⎥
⎢ # # % # ⎥
⎢r rp 2 " 1 ⎥⎦
⎣ p1

Exemplo 1.2

Considerando os dados introduzidos no exemplo 1.1, encontrar as o

vetor de médias X e as matrizes S e R. Neste exemplo, cada firma de ração,



representa uma das observações multivariadas, com p = 2 variáveis (valor da

venda em reais e número de sacos de rações vendidas).

As médias amostral são:

1 4 1
X1 = ∑
4 j=1
X j1 = (80 + 120 + 90 + 110) = 100
4

1 4 1
X2 = ∑
4 j=1
X j2 = (10 + 12 + 6 + 8) = 9
4

⎡ X ⎤ ⎡100 ⎤
X = ⎢ 1⎥ = ⎢ ⎥
 ⎣X2 ⎦ ⎣ 9 ⎦

A matriz de covariância amostral é:


1. Aspectos da análise multivariada 14

S11=[(80-100)2+(120-100)2+(90-100)2+(110-100)2]/3 = 333,333

S22=[(10-9)2+(12-9)2+(6-9)2+(8-9)2]/3 = 6,667

S12=[(80-100)(10-9)+(120-100)(12-9)+(90-100) (6-9)+(110-100)(8-9)]/3 = 20,000

S21=S12=20,000, e

⎡333,333 20,000 ⎤
S=⎢
⎣ 20,000 6,667 ⎥⎦

A correlação amostral é:

20
r12 = = 0,424 3
33,333 6,667

r21=r12=0,4243

Portanto,

⎡1, 0000 0, 4243⎤


R=⎢ ⎥
⎣ 0, 4243 1, 0000 ⎦
Ferreira, D.F. Estatística multivariada 15

1.4. Distâncias

A maioria das técnicas multivariadas é baseada no simples conceito

de distância, por mais formidável que isso possa parecer. O conceito de distância

euclidiana deve ser familiar para a maioria dos estudantes. Se for considerado um

ponto P=(x1, x2) no plano cartesiano, a distância deste ponto P da origem O=(0, 0),

definida por d(O,P), é dada pelo teorema de Pitágoras por:

d (O, P ) = x 12 + x 22 (1.5)

Esta situação é ilustrada na Figura 1.1. Em geral, se o ponto P tem p

coordenadas, de tal forma que P=(x1, x2, ... xp), a distância de P da origem

O=(0, 0, ..., 0), pode ser generalizada por:

d (O, P ) = x 12 + x 22 +...+ x 2p (1.6)


1. Aspectos da análise multivariada 16

d(O, P) X2

X1

Figura 1.1. Distância entre um ponto P=(x1, x2) e a origem O=(0, 0), fornecida pelo
teorema de Pitágoras.

Todos os pontos (x1, x2, .., xp) que contém uma distância ao

quadrado, denominada c2, da origem, satisfaz a equação:

2 2
d (O, P ) = x 12 + x 22 +...+ x 2p = c (1.7)

A expressão em (1.7) representa a equação de uma hiperesfera (um

círculo se p = 2), e os pontos eqüidistantes da origem por uma distância d(O, P)

pertencem a essa hiperesfera. A distância de um ponto P a um ponto arbitrário Q,

com coordenadas P=(x1, x2, ... xp) e Q=(y1, y2, ... yp) é dada por:

( x 1 − y 1) 2 + ( x 2 − y 2 ) 2 +...+( x p − y p )
2
d ( P ,Q ) = (1.8)
Ferreira, D.F. Estatística multivariada 17

A distância euclidiana é insatisfatória para muitas situações

estatísticas. Isso ocorre devido à contribuição de cada coordenada ter o mesmo

peso para o cálculo da distância. Quando estas coordenadas representam

medidas são provenientes de um processo que sofre flutuações aleatórias de

diferentes magnitudes é muitas vezes desejável ponderar as coordenadas com

grande variabilidade por menores pesos em relação àquelas com baixa

variabilidade. Isto sugere o uso de uma nova medida de distância.

Será apresentada a seguir uma distância que considera as

diferenças de variação e a presença de correlação. Devido a escolha de a

distância depender das variâncias e das covariâncias amostrais, a partir deste

instante, será utilizado o termo “distância estatística” para distinguir de distância

euclidiana.

A princípio, será considerada a construção de uma distância entre

um ponto P, com p coordenadas, da origem. O argumento que pode ser usado

refere-se ao fato de que as coordenadas de P podem variar no espaço produzindo

diferentes posições para os pontos. Para ilustrar, suponha que se tenha n pares

de medidas em duas variáveis (x1 e x2) e que as medidas de x1 variam

independentemente das mensurações em x2. O significado de independente neste

ponto pode ser dado pelo fato de que os valores de x1 não podem ser preditos

com nenhuma acurácia a partir dos valores de x2 e vice-versa. Em adição, é

assumido que as observações de x1 possuem maior variabilidade que as de x2.

Uma ilustração desta situação está apresentada na Figura 1.2.


Ferreira, D.F. Estatística multivariada 19

Um modo de fazer isso é dividir cada coordenada pelo desvio padrão

amostral. Após a divisão, têm-se as coordenadas estandardizadas x 1* = x 1 s11 e

x *2 = x 2 s 22 . Após eliminar as diferenças de variabilidade das variáveis

(coordenadas), determina-se a distância usando a fórmula euclidiana padrão:

* 2 * 2 x 12 x 22
d (O, P ) = ( x 1 ) + ( x 2 ) = + (1.9)
S 11 S 22

Usando a equação (1.9) todos os pontos tendo como coordenadas

(x1, x2) e com distância quadrada (c2) da origem devem satisfazer:

x 12 x 22 2
+ =c (1.10)
S 11 S 22

A expressão (1.10) é a equação de uma elipse, cujos maiores e

menores eixos coincidem com os eixos das coordenadas. A Figura 1.3 mostra o

caso geral para p = 2 coordenadas.


1. Aspectos da análise multivariada 20

X2

0.5
cS 22

0.5
-cS 11 O 0.5
cS 11 X1
0.5
-cS 22

x 12 x 22
Figura 1.3. Elipse de uma distância estatística quadrática d2(O,P)= + =c
2
.
S 11 S 22

Exemplo 1.3

Um conjunto de pares (x1, x2) de duas variáveis forneceu X1 = X 2 = 1 ,

S11=9 e S22=1. Supõe-se que as observações de x1 são independentes de x2. A

distância quadrática de um ponto arbitrário (P) da origem, uma vez que as

variâncias da amostra não são iguais, é dada por:

2 2
2 x1 x2
d (O, P ) = +
9 1
Ferreira, D.F. Estatística multivariada 21

Todos os pontos (x1, x2) que possuem distâncias quadrada da origem igual a 1,

satisfazem a equação:

2 2
x1 x2
+ =1 (1.11)
9 1

As coordenadas de alguns pontos com distância quadrática unitária

da origem foram apresentadas na Tabela 1.2.

Tabela 1.2. Coordenadas de alguns pontos com distância quadrática unitária da

origem.

Coordenadas (x1, x2) Distância ao quadrado

2 2
0
( 0, 1) 9
+ 11 = 1

2
0
2 ( −1)
( 0,-1) 9
+ 1
=1

2 2
3 0
( 3, 0) 9
+ 1
=1

2
( −3 ) 0
2
(-3, 0) 9
+ 1
=1

O gráfico da equação (1.11) é uma elipse centrada na origem (0,0),

cujo maior eixo é o da direção de x1 e o menor da direção de x2. A metade do

maior eixo (semi-eixo maior) é c S11 = 3 e do menor c S 22 = 1 . A elipse de distância

quadrática unitária foi plotada na Figura 1.4.


1. Aspectos da análise multivariada 22

5
x2
4

0
-5 -4 -3 -2 -1 0 1 2 3 4
x1 5
1

-2

-3

-4

-5

Figura 1.4. Elipse de distância unitária quadrática da origem obtida a partir da

equação 1.11.

A expressão (1.9) pode ser generalizada para o cálculo da distância

entre pontos P e Q, cujas coordenadas variam, mutuamente independentemente

uma da outra. O caso mais geral, em que a hipótese de independência não é

satisfeita, será abordado futuramente.

2 2 2
(x1 − y1) (x 2 − y 2 ) (x p − y p )
d (P ,Q ) = + +"+ (1.12)
S11 S 22 S pp
Ferreira, D.F. Estatística multivariada 23

Todos os pontos (P) situados a uma distância quadrática constante

de Q, pertencem a uma hiperelipsóide centrada em Q, cujos maiores e menores

eixos são paralelos aos eixos das coordenadas.

O programa SAS, apresentado a seguir, contém os códigos

necessários para a obtenção das principais estatísticas descritivas multivariadas

apresentadas nesse capítulo. O programa contém códigos matriciais e será

abordado com mais detalhe nos próximos capítulos. Os dados do exemplo 1.1 são

utilizados para a ilustração.

Proc IML;
X={ 80 10,
120 12,
90 6,
110 8};
Print X;
n=nrow(X);p=ncol(X);
Xbar=x`*j(n,1,1)/n;
Print Xbar;
q=i(n)-(1/n)*j(n,n,1);
print q;
S=(1/(n-1))*X`*q*X;
W=(n-1)*S;
print S W;
V=diag(S);
Vroot=half(V);
IVroot=inv(Vroot);
R=Ivroot*S*Ivroot;
Print V Vroot IVroot;
Print R;
Quit;

Foi motivado nesse capítulo o estudo das análises multivariadas e

tentou-se fornecer alguns rudimentares, mas importantes, métodos de organizar e

resumir os dados. Em adição, o conceito geral de distância foi apresentado, e será

abordado e generalizado nos próximos capítulos.


1. Aspectos da análise multivariada 24

1.5. Exercícios

■ Considere as amostras com 8 observações e 3 variáveis apresentadas a seguir:

x1 3 5 6 4 8 9 6 7

x2 6 11 11 9 15 16 10 12

x3 14 9 9 13 2 2 9 5

a) Construa o gráfico de dispersão dos pontos das variáveis x1 e x2, x1 e x3, x2 e x3.

Comente sobre sua aparência.

b) Calcule: X , S e R e interprete os valores em R.

c) Calcule a distância euclidiana dada em (1.8) de um ponto

P=( x1, x2, x3)=(5, 12, 8) em relação a origem e em relação a X .

d) Calcule as mesmas distâncias do item c, usando (1.12).


||[ 2
Álgebra vetorial e matricial
]||
2.1. Introdução

É desejável que as p respostas multivariadas sejam representadas

por uma notação concisa. Os dados multivariados podem ser dispostos

convenientemente como um arranjo de números, como foi apresentado no

capítulo 1. Em geral, um arranjo retangular destes números, com n linhas e p

colunas, por exemplo, é chamada de matriz de dimensões n x p. Se por outro lado,

o arranjo consiste em n mensurações em apenas 1 variável, ou ainda, de uma

observação multivariada em p variáveis, esses arranjos são denominados de

vetores.

Com esse arranjo bidimensional, não só, a notação fica mais

concisa, mas os muitos resultados matemáticos de álgebra vetorial e matricial

facilitam a derivação e exposição dos métodos estatísticos multivariados. Neste

material, os elementos de álgebra vetorial e matricial, serão considerados como

conhecidos. Nesse capítulo, no entanto, para os estudantes não familiarizados

com o assunto, será apresentada uma breve revisão.


2. Álgebra vetorial e matricial 26

2.2. Elementos de álgebra vetorial

De um ponto de vista geométrico, as observações multivariadas,

podem ser consideradas como pontos no espaço p-dimensional, cujas

coordenadas são dadas por (x1, x2, ..., xp). Esse ponto pode ser visto como o final

de um segmento de reta da origem (0, 0, ..., 0) ao ponto (x1, x2, ..., xp). Tal

segmento de reta é denominado de vetor de posição e pode ser denotado

simplesmente por X . O vetor de posições é apenas um exemplo de vetor, para os

quais pode ser elaborada a álgebra, baseada nos seguintes postulados.

POSTULADOS

1. Para qualquer vetor X dado um número escalar c, a multiplicação do escalar

pelo vetor, resulta em outro vetor Y , definido por:

Y = cX

c será considerado um número real;

2. A adição de dois vetores conduz a um único vetor definido como:


Ferreira, D.F. Estatística multivariada 27

Z = X + Y

3. A adição de vetores é:

Comutativa: X + Y = Y + X

Associativa: X + ( Y + Z ) = ( X + Y ) + Z

4. Se 0 é o vetor nulo, então:

X + 0 = X

0 .X = 0

COMPRIMENTO, ÂNGULO E DISTÂNCIA

Inicialmente, é definido produto interno entre dois vetores, que

representa a soma de produtos de pares de coordenadas correspondentes. Para

dois vetores (n x 1) de posição X e Y , o produto interno será o escalar, dado por:

n
X.Y = ∑ x i yi = x1 y1 + x 2 y 2 + + x n yn
i =1
2. Álgebra vetorial e matricial 28

É fácil verificar que X.Y = Y.X . Por meio, do produto interno é

possível generalizar o teorema de Pitágoras para o espaço euclidiano

n-dimensional:

n
X = X.X = ∑ x i2 = x12 + x 22 +
2
+ x 2n = d 2 (P, O) (2.1)
i =1

em que P, é o ponto do espaço n-dimensional, definido pelas coordenadas do

vetor X . A expressão (2.1) é o comprimento ao quadrado do vetor X . A

expressão entre módulo | X | indica a norma de X .

Dessa forma o comprimento do vetor é definido por:

X = X.X (2.2)

O ângulo θ entre dois vetores ( X e Y ) pode ser expresso em função

do produto interno e do comprimento dos vetores, obtido através da lei dos

cosenos, por:

X.Y
Cos ( θ ) = (2.3)
X.X Y.Y

As distâncias apresentadas no capítulo 1, entre os pontos

coordenados dos vetores X e Y , podem ser expressos agora como o


Ferreira, D.F. Estatística multivariada 29

comprimento do vetor diferença das coordenadas de X e Y . A distância entre X

e Y é:

d(X, Y) = X − Y = (X − Y).(X − Y) (2.4)

Além de ser não negativa, essa distância entre os dois vetores é

independente da direção das medidas e satisfaz a desigualdade triangular:

d( X , Y ) ≤ d( X , Z ) + d( Y , Z ) (2.5)

Derivada a partir da desigualdade de Cauchy-Schwars:

a.b ≤ a . b (2.6)

O que implica, no fato, que o valor do co-seno do ângulo entre a e b

não pode exceder a unidade.

ORTOGONALIDADE

Dois vetores não nulos são denominados ortogonais, se o co-seno

do ângulo entre eles for zero. Isto indica que:


2. Álgebra vetorial e matricial 30

X.Y = 0 (2.7)

Muitas vezes é desejável (em sistemas de equações lineares)

construir uma base ortonormal de vetores, isto é, cada vetor da base possui

comprimento unitário ( Xi .Xi = 1) e cada par de vetor da base são ortogonais

( X .X
i j = 0, i ≠ j) . Para um conjunto de vetores arbitrários pode-se empregar a

“construção de Gram-Schimidt”. O algoritmo está apresentado a seguir,

considerando o conjunto X1 , X 2 , ..., X n de vetores:

Passo 1: normalize X1 :

X1
X1∗ = ; X1 .X1 ≠ 0
X1.X1

Passo 2: Ortonormalize X 2 calculando o produto interno entre X1* e X 2 , e

subtraindo de X 2 os componentes de X1* :

Ortogonalizando X1 e X 2 :

X ⊥2 = X 2 − ( X 2 .X1* ) X1*

Então, normalizando-se X ⊥2 :
Ferreira, D.F. Estatística multivariada 31

1
X*2 = X 2⊥ ; X 2⊥ .X 2⊥ ≠ 0
⊥ ⊥
X .X
2 2

Passo 3: Calcule o produto interno de X 3 com X1* e X*2 , e subtraia de X 3 os

componentes de X1* e X*2 ,

X 3⊥ = X 3 − ( X 3 .X1* ) X1* − ( X 3 .X*2 ) X*2

Então, normalizando-se X 3⊥ :

1
X*3 = X 3⊥ ; X 3⊥ .X 3⊥ ≠ 0
⊥ ⊥
X .X
3 3

E assim por diante, até o n-ésimo estágio, quando todos os vetores

entrarem na construção. Se o i-ésimo vetor for linearmente dependente dos

vetores anteriores, então X i⊥ será igual ao vetor nulo, X i⊥ = 0 , devendo ser

eliminado do conjunto e o processo deve continuar com o vetor X i +1 . O número de

vetores não nulos remanescentes no conjunto, constituem a dimensão do espaço

vetorial original.
2. Álgebra vetorial e matricial 32

Exemplo 2.1

Dado o conjunto de vetores, a seguir, utilizar como ilustração a construção de

Gram-Schimidt.

⎡1 1 0⎤
⎢1 1 0 ⎥⎥
X=⎢
⎢1 0 1⎥
⎢ ⎥
⎢⎣1 0 1 ⎥⎦

Os vetores de X são dados por:

X = [ X1 X 2 X 3 ]

Passo 1. Normalize X1 :

⎡1⎤
⎢⎥
1 1
X1* = ⎢ ⎥
2 ⎢1⎥
⎢⎥
⎣1⎦

Passo 2: Ortonormalize X 2 :

Produto interno: X 2 . X1* = 1


Ferreira, D.F. Estatística multivariada 33

⎡1 ⎤ ⎡1⎤ ⎡ 1⎤
⎢1 ⎥ ⎢1⎥ ⎢ ⎥
⊥ ⎢ ⎥ 1 ⎢ ⎥ 1 ⎢ 1⎥
ortogonalização: X 2 = − 1. =
⎢0 ⎥ 2 ⎢1⎥ 2 ⎢ −1⎥
⎢ ⎥ ⎢⎥ ⎢ ⎥
⎣0 ⎦ ⎣1⎦ ⎣ −1⎦

⎡ 1⎤ ⎡ 1⎤
⎢ 1⎥ ⎢ ⎥
1 1 1 1
Normalização: X*2 = . ⎢ ⎥ = ⎢ ⎥
1 2 ⎢ −1⎥ 2 ⎢ −1⎥
⎢ ⎥ ⎢ ⎥
⎣ −1⎦ ⎣ −1⎦

Passo 3: Ortonormalização de X 3

Produto interno: X 3 .X1* = 1 e X 3 .X*2 = −1

⎡0 ⎤ ⎡1⎤ ⎡ 1 ⎤ ⎡0 − 12 + 12 ⎤ ⎡ 0 ⎤
⎢0 ⎥ ⎢⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⊥ ⎢ ⎥ 1 ⎢1⎥ 1 ⎢ 1 ⎥ ⎢0 − 12 + 12 ⎥ ⎢ 0 ⎥
ortogonalização: X 3 = − 1. − (−1). = =
⎢1 ⎥ 2 ⎢1⎥ 2 ⎢ −1⎥ ⎢1 − 12 − 12 ⎥ ⎢ 0 ⎥
⎢ ⎥ ⎢⎥ ⎢ ⎥ ⎢ 1 1⎥ ⎢ ⎥
⎣1 ⎦ ⎣1⎦ ⎣ −1⎦ ⎣⎢1 − 2 − 2 ⎦⎥ ⎣ 0 ⎦

Verifica-se neste passo que X 3 é linearmente dependente dos

vetores X1 e X 2 , e deve ser eliminado da base vetorial. É fácil verificar que

X 3 = X1 − X 2 . Agrupando os vetores linearmente independentes ortonormalizados

obtém-se a base vetorial de Gram-Schimidt.


2. Álgebra vetorial e matricial 34

⎡ 12 1
2 ⎤
⎢1 1 ⎥
X 2 = ⎢ 12 2 ⎥
⎢2 − 12 ⎥
⎢1 ⎥
⎢⎣ 2 − 12 ⎥⎦

Pode ser observar facilmente que o produto interno dos vetores em

X2, é igual a zero.

Um importante tipo de matriz inversa, denominado de inversa de Moore-

Penrose, é obtido de uma base ortonormal das colunas de uma matriz para a qual

se deseja obter a inversa generalizada de Moore-Penrose. Seja A uma matriz de

dimensão qualquer nxp e seja U a base ortonormal de vetores obtida da

ortonormalização das colunas de A, então, defini-se T por:

T=U’A

Logo, a inversa generalizada de Moore-Penrose (A+) é definida por:

A+ = T’(TT’)-1U’.

2.3. Elementos de álgebra matricial

Na álgebra matricial as relações e operações são definidas através

de operações em arranjos retangulares dos elementos, denominados de matrizes.

Um exemplo de matriz é:
Ferreira, D.F. Estatística multivariada 35

⎡ a 11 a 12 a 1p

⎢ ⎥
⎢a a a 2p ⎥
A = ⎢ 21 22

n x p
⎢ ⎥

⎣a n1 a n2 a np ⎥⎦

O número de linhas de uma matriz é denominado de ordem de linha

e o número de colunas, ordem de colunas. Se o número de linhas é n e o número

de colunas é p, diz-se que a matriz possui ordem nxp. Pode-se representar a

matriz por:

A=[aij] i=1, 2,..., n j=1, 2, ..., p (2.8)

Nas análises multivariadas, muitas vezes, será feito referências a

matriz de dados, a qual consiste de p respostas de n observações ou unidades

experimentais, e terá ordem nxp.

POSTULADOS

1. Igualdade: Duas matrizes necessariamente com o mesmo número de linhas e

colunas são iguais, se e somente se os elementos correspondentes, forem

iguais:

A=B ⇔ aij=bij i=1, 2, ..., n e j=1, 2, ..., p


2. Álgebra vetorial e matricial 36

2. Adição: A soma de duas matrizes de mesma ordem é obtida pela soma dos

elementos correspondentes:

A+B = [ aij] + [bij] = [aij + bij]

A adição com matriz nula 0, contendo elementos iguais a zero é:

nAp + n0p = nAp

3. Multiplicação por escalar: o produto de um escalar e uma matriz é obtido pela

multiplicação de cada elemento da matriz pelo número escalar:

cA = c[ aij] = [ caij]

4. Multiplicação de matriz: a multiplicação de matrizes é definida para aquelas em

que a ordem coluna do fator que pré multiplica é igual a ordem linha do fator

que pós multiplica. Tais matrizes são denominadas conformáveis para

multiplicação. O elemento (i, k) da matriz resultante do produto é a soma dos

produtos dos elementos correspondentes, da i-ésima linha do fator que pré

multiplica com os da k-ésima coluna do fator que pós multiplica.

⎡ q ⎤
A B
n q q p = AB = ⎢ ∑ a ij b jk ⎥ = [ai1b1k + ai2b2k + ... + aiqbqk] = [cik] = C
⎣ j=1 ⎦
Ferreira, D.F. Estatística multivariada 37

Em geral AB ≠ BA.

A matriz quadrada com unidades na diagonal e zero nas demais

partes é denominada de matriz unitária ou identidade:

⎡1 0 0⎤
⎢0 1 0 ⎥⎥
Ι=⎢
⎢ ⎥
⎢ ⎥
⎣0 0 1⎦

Verifica-se que:

nAp pΙp = nAp

nΙn nAp = nAp

A matriz quadrada cujos elementos fora da diagonal principal são

iguais a zero é denominada matriz diagonal:

⎡ d1 0 0⎤
⎢0 d 0 ⎥⎥
D = diag[d1, d2, ..., dn] = ⎢ 2

⎢ ⎥
⎢ ⎥
⎢⎣ 0 0 d n ⎥⎦
2. Álgebra vetorial e matricial 38

A pré-multiplicação por uma matriz diagonal, simplesmente re-escala

as linhas do fator que pós multiplica, e a pós-multiplicação re-escala as colunas do

pré-fator.

5. Inversão de matriz: a inversa de uma matriz quadrada A, nxn, é chamada de A-1

e é definida de tal forma que A A-1 = A-1 A = Ι.

A inversa de um produto de matrizes é o produto do inverso dos fatores em

ordem inversa a ordem de multiplicação original:

(AB)-1 = B-1A-1

Pois, B-1A-1AB = B-1B = Ι e AB B-1A-1 = AA-1 = Ι

6. Matriz transposta: uma matriz obtida pela troca de linhas por colunas a partir de

uma matriz específica é denominada de matriz transposta. É denotada por A’.

nAP = [aij], então, pA’n = [a j]’ = [aji]

(A + B)’ = A’ + B’

(AB)’ = B’A’
Ferreira, D.F. Estatística multivariada 39

(A-1)’ = (A’)-1

7. Matrizes particionadas: deixe as r linhas de uma matriz A (mxn) ser particionada

das restantes s=m-r linhas, e as p colunas particionadas das remanescentes

q = n - p colunas. Então, A pode ser representada por submatrizes, como a

seguir:

⎡A A12 ⎤ r
A = ⎢ 11 ⎥
⎣ A 21 A 22 ⎦ s
p q

Seja B uma matriz particionada de forma similar e sejam A e B tais

que suas partições sejam conformáveis para adição, logo,

⎡ A + B11 A12 + B12 ⎤ r


A + B = ⎢ 11
⎣ A 21 + B21 A 22 + B22 ⎥⎦ s
p q

Suponha agora que B seja particionada em p e q linhas e em t e u

colunas. Então, é possível verificar que:


2. Álgebra vetorial e matricial 40

r ⎡A A12 ⎤ ⎡ B11 B12 ⎤ p


AB = ⎢ 11
s ⎣ A 21 A 22 ⎥⎦ ⎢⎣ B21 B22 ⎥⎦ q
p q t u

⎡ A B + A12 B21 A11B12 + A12 B22 ⎤ r


= ⎢ 11 11
⎣ A 21B11 + A 22 B21 A 21B12 + A 22 B22 ⎥⎦ s
t u

Ainda é possível verificar que:

−1
p ⎡ A −1 + A −1B ( D − CA −1B ) CA −1 − A −1B ( D − CA −1B ) ⎤
−1 −1
p ⎡A B ⎤
= ⎢ ⎥
q ⎢⎣ C D ⎥⎦ q ⎢⎣ − ( D − CA −1B ) CA −1
−1
( D − CA −1B )−1 ⎦⎥
p q p q

Método prático para cálculo de matrizes inversas

As rotinas para computadores usualmente fazem uso da versão

compacta do método de Gauss, denominado de método de Gauss-Jordan

(Householder, 1953, 1964).

Os cálculos do método de Gauss-Jordan são recursivos, sendo que

os elementos da matriz no estágio i+1 são trocados pelos resultados da chamada

operação pivotante dos elementos do estágio i, por:

( i +1) (i)
a (kji ) × a (ji )
a =a − ke ≠j
a (jji )
k k
Ferreira, D.F. Estatística multivariada 41

( i +1)
a (ji )
a = ≠j
a (jji )
j

( i +1)
a (kji )
a = − k≠j
a (jji )
kj

1
a (jji +1) =
a (jji )

O elemento a (jji ) é chamado de pivô, e sua linha e coluna são

chamados de linha e coluna pivotais. Após n operações pivotantes, a matriz

original é substituída pela sua inversa, garantindo-se que cada linha e coluna seja

pivotada somente uma vez.

Exemplo 2.2

Use o algoritmo de Gauss-jordan para inverter a matriz A (2x2) a seguir:

⎡4 2⎤
A(0) = ⎢ ⎥
⎣2 2⎦

Passo 1. Um bom compromisso com a precisão é pivotar a linha e coluna cujo

elemento da diagonal seja o maior de todos os não pivotados. Assim o


2. Álgebra vetorial e matricial 42

elemento escolhido para pivô é o elemento a11=4. A matriz após a

primeira ação pivotante é:

⎡1 2 ⎤
⎢ 4 ⎥ = ⎡ 4 2⎤
1 1
A (1) = ⎢ 4 ⎥ ⎢ ⎥
⎢ −2 2−
2 × 2 ⎥ ⎣ −21 1 ⎦
⎢⎣ 4 4 ⎥⎦

Passo 2. Neste passo, a única coluna ou linha não pivotada é a 2. Portanto o pivô

é a22=1, e a matriz resultante da operação pivotante é:

⎡ 1 − 12 ( − 12 ) − 12 ⎤ ⎡ 1 − 12 ⎤ 1 ⎡ 1 −1⎤
A ( 2)
= ⎢4 1 1 1
⎥ = ⎢ 21 =
⎢ −2 ⎥ − 1 ⎥⎦ 2 ⎢⎣ −1 2 ⎥⎦
⎦ ⎣ 2
1
⎣ 1 1

Ao final da operação pivotante, a matriz resultante, A(2), é a matriz

inversa de A.

Matrizes ortogonais

Classes especiais de matrizes, que serão utilizadas rotineiramente

nas técnicas multivariadas, são denominadas de matrizes ortogonais, sendo

simbolizadas em geral por Q e caracterizada por:


Ferreira, D.F. Estatística multivariada 43

QtQ = QQt = Ι ou Qt = Q-1

O nome deriva da propriedade de que se Q tem i-ésima linha q it ,

então, se QQt = Ι implica que q it q i = 1 e q it q j = 0 para i≠j, sendo que as linhas

possuem tamanho unitário e são mutuamente ortogonais (perpendiculares). De

acordo com a condição de que QtQ = Ι, as colunas têm a mesma propriedade.

Exemplo 2.3

Dado a matriz Q, a seguir, verifique sua ortogonalidade:

⎡ 12 1
2

Q=⎢ 1 ⎥
⎣⎢ − 2
1

2⎦

A transposta de Q é dada por:

⎡ 1
2
− 1
2

Q =⎢
t
1 1

⎢⎣ 2 2 ⎥⎦

então,

⎡ 12 1
2
⎤ ⎡ 1
2
− 1
2
⎤ 1 ⎡ 2 0 ⎤ ⎡1 0 ⎤
QQ = ⎢ 1
t
⎥ ⎢ ⎥= ⎢ ⎥=⎢ ⎥
⎢⎣ − 2 ⎥⎦ 2 ⎣ 0 2 ⎦ ⎣0 1 ⎦
1 1 1
2⎥
⎦ ⎢⎣ 2 2
2. Álgebra vetorial e matricial 44

e,

⎡ 1
2
− 1
2
⎤ ⎡ 12 1
2
⎤ 1 ⎡ 2 0 ⎤ ⎡1 0 ⎤
QQ=⎢
t
⎥ ⎢ 1 ⎥= ⎢ ⎥ = ⎢0 1 ⎥
⎢⎣ − 2 2 0 2
1 1 1
⎢⎣ 2 2 ⎥⎦ ⎥
2⎦ ⎣ ⎦ ⎣ ⎦

sendo, QtQ = QQt = Ι ou Qt = Q-1, verificou-se que Q é ortogonal.

Determinantes

Uma função escalar importante de uma matriz A quadrada nxn, é o

determinante da mesma. O determinante da matriz A é simbolizado por |A| e é

definido por:

A = a11 se n = 1
n (2.9)
A = ∑ a ij A ij ( −1)
i+ j
se n > 1
j=1

em que Aij é a matriz quadrada (n-1)x(n-1) obtida deletando-se a i-ésima linha e a

j-ésima coluna de A, para qualquer escolha arbitrária de i=1, 2, ..., n.

Exemplo 2.4

Para ilustrar a definição (2.9), serão consideradas as seguintes matrizes:


Ferreira, D.F. Estatística multivariada 45

⎡4 2 2⎤
⎡4 1⎤
A = [4] B=⎢ ⎥ C = ⎢⎢ 2 2 0 ⎥⎥
⎣1 2⎦ ⎢⎣ 2 0 2 ⎥⎦

A = 4;

B = 4 × 2 × (−1) 2 + 1 × 1 × (−1)3 = 4.2.1 − 1 × 1 × 1 = 7 ;

2 0 2 0 2 2
C = 4× × (−1) 2 + 2 × × (−1)3 + 2 × × (−1) 4
0 2 2 2 2 0

= 4 × [2 × 2 × (−1) 2 + 0 × 0 × (−1)3 ] × (−1) 2 + 2 × [2 × 2 × (−1) 2 + 0 × 2 × (−1)3 ] × (−1)3 +

+ 2 × [2 × 0 × (−1) 2 + 2 × 2 × (−1)3 ] × (−1) 4 = 16 − 8 − 8 = 0

∴C =0

Propriedades dos determinantes

1. A t = A ;

2. Se uma linha ou coluna de A for multiplicada por uma constante k, o

determinante ficará multiplicado pela constante;

3. Se A é multiplicada por uma constante k, o determinante resultante ficará

multiplicado por kn;


2. Álgebra vetorial e matricial 46

kA = k n A

4. Se duas linhas ou duas colunas são trocadas de posição, então o determinante

muda de sinal;

5. Se duas linhas ou duas colunas são proporcionais, então o determinante de A

será igual a zero;

6. O determinante obtido deletando a i-ésima linha e j-ésima coluna de A é

denominado menor de A, e denotado por |Aij|. A relação entre |A| e |Aij| foi

apresentada na definição de determinante (2.9);

1 −1
7. A −1 = =A ;
A

8. |AB| = |A|×|B|.

Determinante e posto (rank)

Se |A|≠0, então, A é denominada de posto completo, ou como é mais

comum dizer, A é não-singular e A-1 existe. Uma condição necessária e suficiente

para a existência da inversa de A é que |A|≠0.


Ferreira, D.F. Estatística multivariada 47

Teorema da multiplicação

Seja a matriz A de ordem 2n x 2n, particionada em sub-matrizes

n x n dadas por:

⎡ B C⎤ n
A=⎢ ⎥
⎣D E ⎦ n
n n

Supõe-se que o determinante de A é não nulo, e se necessário for,

linhas e colunas correspondentes de A devem ser trocadas para assegurar que B

seja não-singular. Como o número de trocas de linhas e colunas é

necessariamente par, o valor de |A| não se altera. Considere matrizes

elementares, com determinante 1, dadas por:

⎡ Ι 0 ⎤ ⎡ Ι − B−1C ⎤
⎢ −DB−1 Ι ⎥ e ⎢ ⎥
⎣ ⎦ ⎣0 Ι ⎦

Se A for pré e pós-multiplicada, respectivamente, por essas matrizes

o resultado é:
2. Álgebra vetorial e matricial 48

⎡ Ι 0 ⎤ ⎡ B C ⎤ ⎡ Ι − B−1C ⎤
⎢ − DB−1 ⎢ ⎥
⎣ Ι ⎥⎦ ⎢⎣ D E ⎥⎦ ⎣ 0 Ι ⎦

⎡B C ⎤ ⎡ Ι − B−1C ⎤ ⎡ B 0 ⎤
=⎢ −1 ⎥ ⎢ ⎥=⎢ −1 ⎥
⎣ 0 − DB C + E ⎦ ⎣ 0 Ι ⎦ ⎣ 0 E − DB C ⎦

Então, A foi reduzida para sua forma quase-diagonal ou bloco

diagonal. Seja uma matriz V (2n x 2n) particionada da seguinte forma:

⎡V 0 ⎤n
V=⎢ 1
⎣0 V2 ⎥⎦ n
n n

então, o determinante de v é dado por:

V = V1 V2

Aplicando essa regra a A transformada pela pré e pós-multiplicação por

matrizes elementares, cujo determinante é igual a 1, o que não altera o valor de

|A|, tem-se:

B 0
A = −1
= B E − DB−1C
0 E − DB C

Observe que se A for quasi-triangular, ou seja, triangular por blocos,

o determinante é o produto dos determinantes de suas sub-matrizes principais:


Ferreira, D.F. Estatística multivariada 49

B C
=B E
0 E

Agora é possível apresentar e provar o teorema da multiplicação. Se

A e B são matrizes quadradas n x n, então, |AB|=|A|.|B|. Considere para isso a

identidade:

⎡ I A ⎤ ⎡ A 0 ⎤ ⎡ 0 AB⎤
⎢0 I ⎥ ⎢ −I B⎥ = ⎢ −I B ⎥
⎣ ⎦⎣ ⎦ ⎣ ⎦

O produto do lado esquerdo da igualdade envolve operações

elementares que não afeta o determinante. Assim, o determinante de ambos os

lados é igualado e o resultado obtido é:

A 0 0 AB
=
−I B −I B

Colocando o lado direito na forma quasi-triangular por meio de trocas

nas últimas n colunas o resultado obtido é dado por:

A 0 AB 0
= ( −1)n
−I B B −I
2. Álgebra vetorial e matricial 50

Usando o resultado do determinante de uma matriz triangular por

blocos, têm-se:

A B = ( −1) AB − I
n

A B = ( −1) ( −1) AB
n n

A B = ( −1) AB
2n

∴ AB = A B

Infelizmente, não há teorema simples para a soma de matrizes.

Decorre desse teorema que:

A −1A = I

A −1 A = 1
1
A −1 = = A −1
A

Derivadas de vetores e matrizes

As derivadas de funções envolvendo vetores e matrizes são

necessárias em inúmeras aplicações na multivariada e em outras áreas. Apesar

de ser possível escrever essas mesmas funções em uma forma expandida e

tomar as derivadas elemento a elemento pelas regras de diferenciação escalar, é

vantajoso definir regras que retenham vetores e matrizes na notação (Bock, 1975).
Ferreira, D.F. Estatística multivariada 51

A seguir são apresentadas as principais regras de diferenciação vetorial e

matricial.

Derivadas de matrizes de funções em relação


a variáveis escalares

Seja A uma matriz m x n cujos elementos são funções diferenciáveis

com relação a uma variável escalar x. A derivada de A em relação a x é uma

matriz m x n:

⎡ ∂a11 ∂a1n ⎤
⎢ ∂x ∂x ⎥
∂A ⎢ ⎥
=⎢ ⎥ (2.10)
∂x ⎢
∂a ∂a mn ⎥
⎢ m1 ⎥
⎣ ∂x ∂x ⎦

Seja A uma matriz m x n de funções diferenciáveis em x e B outra

matriz p x q cujos elementos, também, são diferenciáveis em x. Para cada caso

abaixo, são adotadas dimensões tais que as operações matriciais sejam

conformáveis.

∂ ( A + B ) ∂A ∂B
= + ; m = p, n = q (2.11)
∂x ∂x ∂x

∂ ( AB ) ∂B ∂A
=A + B; n=p (2.12)
∂x ∂x ∂x
2. Álgebra vetorial e matricial 52

∂ ( A −1 ) ∂A −1
= − A −1 A ; m = n, A ≠ 0 (2.13)
∂x ∂x

Seja X uma matriz m x n com o elemento x j na i-ésima linha e

j-ésima coluna, então,

∂X
= 1ij (2.14)
∂x ij

em que 1ij é uma matriz m x n com 1 na i-ésima linha e j-ésima coluna e 0 nas

demais posições. Se X for uma matriz diagonal n x n, logo,

∂X
= 1ii (2.15)
∂x ii

Derivadas de uma função escalar de matrizes em


relação a um vetor ou matriz variável

Seja g uma função escalar qualquer de uma matriz X, que pode ser por

exemplo o determinante, o traço, entre outras, então, a diferenciação de g em

relação a X é:
Ferreira, D.F. Estatística multivariada 53

⎛ ∂g ∂g ⎞
⎜ ∂x … ⎟
∂x1n
∂g ⎜ ⎟
11

=⎜ ⎟ (2.16)
∂X ⎜ ⎟
⎜ ∂g ∂g ⎟
⎜ ∂x ∂x mn ⎟
⎝ m1 ⎠

a) o traço

O traço de uma matriz n x n é uma função que aparece com muita

freqüência na estatística multivariada, o qual é a soma dos elementos da diagonal

principal dessa matriz:

n
tr ( A ) = ∑ a ii (2.17)
i =1

Para as matrizes A, B e C de ordem m x n, p x q e r x s,

respectivamente, o traço tem as seguintes propriedades:

tr ( A + B ) = tr ( A ) + tr ( B ) , m=n=p=q (2.18)

tr ( δA ) = δ tr ( A ) , m=n (2.19)

tr ( A t ) = tr ( A ) , m=n (2.20)

tr ( AB ) = tr ( BA ) , m = q, n = p (2.21)
2. Álgebra vetorial e matricial 54

tr ( ABC ) = tr [ (AB)C ] = tr ( CAB ) , m = s, n = p, q = r (2.22)

Seja C uma matriz r x s de constantes e X uma matriz u x v de

variáveis. As seguintes diretivas de derivação do traço de funções de C e X com

relação aos elementos de X, resultam em matrizes de dimensão u x v:

∂tr ( C )
= 0, r=s (2.23)
∂X

∂tr ( X )
= I, r =s (2.24)
∂X

∂tr ( XC )
= Ct , r = v, s = u (2.25)
∂X

∂tr ( X t CX )
= ( C + C t ) X, r=v=s=u (2.26)
∂X

Essas diretivas de derivação são invariantes as permutações cíclicas

sofridas por transposição ou permutação dos fatores de multiplicação de matrizes.

no entanto, as derivadas com relação a transposta de X resultam em transpostas

das matrizes anteriores de ordem v x u. Em particular:


Ferreira, D.F. Estatística multivariada 55

∂tr ( XC )
= Ct , r = v, s = u (2.27)
∂X t

∂tr ( X t CX )
= X t ( Ct + C ) , r=v=s=u (2.28)
∂X t

Para obter derivadas de funções elementares das matrizes algumas

diretivas também são definidas. Sejam os elementos de A e B funções de X, e

seja C uma matriz de constantes. Então,

∂tr ( A + B ) ∂tr ( A ) ∂tr ( B )


= + , m=n=p=q (2.29)
∂X ∂X ∂X

∂tr ( AB ) ∂tr ( AB ) ∂tr ( AB )


= + , m = q, n = p (2.30)
∂X ∂X ∂X

∂tr ( A −1 ) ∂tr ( A −2 A )
= − , m = n, A ≠ 0 (2.31)
∂X ∂X

∂tr ( A −1C ) ∂tr ( A −1CA −1A )


= − , m = n = r = s, A ≠ 0 (2.32)
∂X ∂X

A barra acima das matrizes anteriores em (2.29) a (2.32) indica que

essas são consideradas constantes para fins de diferenciação.


2. Álgebra vetorial e matricial 56

b) determinante

∂X
= adj ( X t ) = X ( X −1 ) ,
t
u = v, X ≠ 0 (2.33)
∂X

∂ ln X adj ( X t )
= ( X −1 ) ,
t
= u = v, X ≠ 0 (2.34)
∂X X

Restrições da variável de diferenciação

Alguns problemas estão sujeitos a maximização ou minimização com

relação a uma variável que por sua vez está sujeita a restrições. Os casos

especiais são àqueles em que X é simétrica. Logo X=Xt e os elementos fora da

diagonal são sujeitos a:

xij = xji i<j (2.35)

Uma abordagem apropriada para o problema é impor restrições por

meio de multiplicadores de Lagrange. Para aplicar esse método, deve-se

diferenciar com relação a x não restrita a expressão da forma:

1
g + tr [ U ( X − X t )]
2
Ferreira, D.F. Estatística multivariada 57

em que g é uma função escalar de X, U a n x n matriz de multiplicadores de

Lagrange. Logo, X deve satisfazer:

∂g 1
+ ( U − Ut ) = 0 (2.36)
∂X 2

Como também

t t
⎛ ∂g ⎞ 1 t ⎛ ∂g ⎞ 1 t
⎟ + (U − U) = ⎜ ⎟ − (U − U) = 0
t
⎜ (2.37)
⎝ ∂X ⎠ 2 ⎝ ∂X ⎠ 2

Somando essas expressões obtém-se a condição para o extremo

restrito:

t
⎛ ∂g ⎞ ⎛ ∂g ⎞
⎜ ⎟+⎜ ⎟ =0 (2.38)
⎝ ∂X ⎠ ⎝ ∂X ⎠

Outro caso importante de matriz X restrita é: se X é uma matriz

diagonal n x n e Y uma matriz função de X, então,

∂tr(Y) ⎡ ∂tr(Y) ∂tr(Y) ∂tr(Y) ⎤


= Diag ⎢ (2.39)
∂X ⎣ ∂x11 ∂x 22 ∂x nn ⎦⎥

E se X = x Ι, então,
2. Álgebra vetorial e matricial 58

∂tr(Y) ∂tr(Y)
= (2.40)
∂X ∂x

Regra da cadeia para funções escalares de matrizes

Seja g uma função escalar de A diferenciável com relação aos

elementos de A, e deixe os elementos de A ser função diferenciável de x. Então,

∂g ⎛ ∂g ∂A t ⎞
= tr ⎜ ⎟ (2.41)
∂x ⎝ ∂A ∂x ⎠

Por exemplo, para |A|≠0, g=ln|A| de (2.34) tem-se:

∂g ∂ ln A ⎛ ∂ ln A ∂A t ⎞ ⎡ −1 t ∂A t ⎤
∂x
=
∂x
= tr ⎜ ⎟ = tr ⎢( A ) ∂x ⎥ (2.42)
⎝ ∂A ∂x ⎠ ⎣ ⎦

derivada de uma função de um vetor com


relação a um vetor

Seja um vetor z m x 1, cujos elementos são diferenciáveis pelos

elementos 1 x n do vetor x t = [ x1 x2 x n ] . A derivada de Z em relação a x t é

a matriz m x n:
Ferreira, D.F. Estatística multivariada 59

∂z ⎡ ∂z ⎤ i = 1, 2, ..., m
=⎢ ⎥ (2.43)
∂x t ⎣ ∂x j ⎦ ij j = 1, 2, ..., n

Por exemplo, de (2.26) tem-se a primeira derivada de x t Ax , sendo A

simétrica,

∂x t Ax ∂tr ( x Ax )
t
= = 2Ax (2.44)
∂x ∂x

De (2.43), a segunda derivada é representada em forma matricial

por:

∂x t Ax ∂ ( ∂ x Ax ∂ x ) ∂ 2Ax
t
= = = 2A (2.45)
∂x t ∂x ∂x t ∂x t

Formas quadráticas

Definindo A como uma matriz simétrica não nula (nxn), e o vetor

x t = [X1 X2 X n ] a expressão:

n n −1 n
Q = x t A x = ∑ a ii X i2 + 2∑ ∑a XX ij i j
i =1 i =1 j= i +1
2. Álgebra vetorial e matricial 60

é dita forma quadrática, pois só contém termos quadrados ( x i2 ) e de produtos

( xix j ) .

Exemplo 2.5

Obtenha a expansão da forma quadrática, dado o vetor x e a matriz A, a seguir:

⎡4 1⎤
x = [ x1 x2 ] A=⎢ ⎥
⎣1 2⎦

⎡ 4 1 ⎤ ⎡ x1 ⎤ ⎡x ⎤
Q = [ x1 x2 ]× ⎢ ⎥ × ⎢ ⎥ = [ 4x1 + x 2 x1 + 2x 2 ] × ⎢ 1 ⎥
⎣1 2⎦ ⎣ x 2 ⎦ ⎣x2 ⎦

∴ Q = 4x12 + 2x1 x 2 + 2x 22

Assumindo, para o momento, que p elementos x1, x2, ..., xp, de um

vetor x são realizações de p variáveis aleatórias X1, X2, ..., Xp pode-se

considerá-los como coordenadas de um ponto no espaço p-dimensional. A

distância desse ponto [x1 x2 x p ] da origem pode e deve, nesse caso, ser

interpretada em termos de unidades de desvio padrão. Desse modo, pode-se

considerar a incerteza inerente (variabilidade) às observações. Pontos com a

mesma incerteza associada são considerados de mesma distância da origem.

Introduzindo agora uma fórmula geral de distância mais apropriada têm-se:


Ferreira, D.F. Estatística multivariada 61

n n −1 n
d ( 0,P ) = ∑ a ii x + 2∑ ∑ a ijx i x j
2 2
i (2.46)
i =1 i =1 j=i +1

e garantindo que d2 > 0 para todo ponto P≠0, e fazendo aij=aji, têm-se:

⎡ a 11 a 12 a 1p

⎢ ⎥ ⎡x ⎤
⎢a 21 a a 2p ⎥ ⎢ 1⎥
0 < d 2 = x t Ax = ⎡⎣ x 1 x p ⎤⎦ ⎢
22
⎥ ⎢ ⎥ (2.47)
⎢ ⎥ ⎢ ⎥
⎢ ⎣x p⎦
⎣a p1 a p2 a pp ⎥⎦

Verifica-se que (2.47) é uma forma quadrática, o que permite que a

interprete como uma distância. A determinação, dos coeficientes da matriz A de

(2.47) será apresentada oportunamente.

Classificação de formas quadráticas

As formas quadráticas podem ser classificadas, quanto aos

resultados que produzem. Nesta seção, o interesse residirá nas formas

quadráticas não negativas e nas matrizes associadas (denominadas positivas

definidas). Uma condição necessária e suficiente para que A seja positiva definida

(pd) é que esta possa ser fatorada por:


2. Álgebra vetorial e matricial 62

n A n = n Sn n Snt

e que o posto de S seja n, em que S é uma matriz triangular, denominada fator de

Cholesky de A (Bock, 1975). Portanto, se uma matriz admite o fator de Cholesky,

ela é positiva definida.

Q = x t Ax = x t (SSt )x = (St x) t (St x) = z t z

= Z12 + Z22 + + Z2n

Devido a S ter posto coluna completo, não existe x não nulo, tal que

z = St x = 0 . Portanto, a forma quadrática Q é sempre positiva, como foi afirmado.

Se por outro lado, o posto de S for r≤n, então o posto de A será r, e a forma

quadrática Q = x ' Ax ≥ 0, é denominada positiva semidefinida (psd). Isso se deve

ao fato de que para algum vetor x ≠ 0, a igualdade Q = 0, acontece. O algoritmo

para obtenção do fator de Cholesky de uma matriz pd, está apresentado a seguir.

Algoritmo para obtenção do fator de Cholesky

de uma matriz positiva definida

1. Dada uma matriz A (nxn), com elementos a j.


Ferreira, D.F. Estatística multivariada 63

2. Obtenção da transposta do fator de Cholesky St, é dada pelo algoritmo abaixo,

sendo que os elementos desta matriz não contemplados pelo método devem

ser considerados iguais a zero:

a1j
1a linha: S11 = a11 S1j = j >1
S11

i-ésima linha:

1
⎛ i −1
2⎞
2

Sii = ⎜ a ii − ∑ Sri ⎟
⎝ r =1 ⎠

1 ⎛ i −1

Sij = ⎜
Sii ⎝
a ij − ∑
r =1
S riSrj ⎟

i≥2 j>i

3. A obtenção de S-1, inversa de S, com elementos Sij, é dada por:

1 −1 i −1
Sii =
Sii
Sij =
Sii
∑S S
r =1
ri
rj
i> j

para i < j Sij = 0

4. A obtenção da A-1, inversa de A, com elementos aij, em que aij=aji, é dada por:
2. Álgebra vetorial e matricial 64

n n
a ii = ∑ ( Sri ) a ij = ∑ SriSrj
2
i> j
r =i r =i

Exemplo 2.6

Obtenha o fator de Cholesky (S), sua inversa (S-1) e a matriz inversa (A-1), a partir

da matriz A, apresentada a seguir:

⎡4 2 0⎤
A = ⎢⎢ 2 2 1 ⎥⎥
⎢⎣ 0 1 2 ⎥⎦

Obtenção de St:

Primeira linha:

2 0
S11 = 4 = 2; S12 = = 1; S13 = = 0
2 2

Segunda linha:

1
[1 − 1× 0] = 1
1

S22 = ⎡⎣ 2 − 12 ⎤⎦ = 1 S23 =
2

Terceira linha:
Ferreira, D.F. Estatística multivariada 65

S33 = ⎡⎣ 2 − ( 02 + 12 ) ⎤⎦ = 1
1
2

Logo,

⎡2 1 0⎤ ⎡ 2 0 0⎤
S = ⎢⎢ 0 1 1 ⎥⎥
t
e S = ⎢⎢ 1 1 0 ⎥⎥
⎢⎣ 0 0 1 ⎥⎦ ⎢⎣ 0 1 1 ⎥⎦

A matriz S-1 é obtida por:

Linha 1:

1
S11 = ; S12 = S13 = 0 i < j
2

Linha 2:

1 ⎛ 1⎞ 1
S22 = = 1; S21 = −1× ⎜ 1× ⎟ = − ; S12 = 0 pois i < j
1 ⎝ 2⎠ 2

linha 3:

1 ⎛ 1 ⎛ −1 ⎞ ⎞ 1
S33 = = 1; S31 = −1× ⎜ 0 × + 1× ⎜ ⎟ ⎟ = S32 = −1× (1× 1) = −1
1 ⎝ 2 ⎝ 2 ⎠⎠ 2
2. Álgebra vetorial e matricial 66

logo,

⎡ 1 ⎤
⎢ 2 0 0⎥
⎢ ⎥
⎢ − 1 ⎥
S−1 = ⎢ 1 0⎥
⎢ 2 ⎥
⎢ 1 ⎥
⎢ −1 1 ⎥
⎢⎣ 2 ⎥⎦

A matriz A-1 é obtida por:

Diagonal principal:

2 2 2
⎛1⎞ ⎛ 1⎞ ⎛1⎞ 3
a = ⎜ ⎟ +⎜− ⎟ +⎜ ⎟ =
11

⎝2⎠ ⎝ 2⎠ ⎝2⎠ 4
a 22 = 12 + ( −1) = 2
2

a 33 = 12 = 1

Demais elementos:

⎛ 1⎞ 1
a 21 = 1× ⎜ − ⎟ + (−1) × = −1;
⎝ 2⎠ 2
1 1
a 31 = 1× = ; a 32 = 1× (−1) = −1;
2 2
1
a12 = a 21 = −1; a13 = a 31 = ; a 23 = a 32 = −1
2
Ferreira, D.F. Estatística multivariada 67

Logo,

⎡ 34 −1 12 ⎤
A −1 = ⎢⎢ −1 2 −1⎥⎥
⎢⎣ 12 −1 1 ⎥⎦

O fator de Cholesky S e sua inversa têm as seguintes propriedades:

1. SSt = A

2. S-1S = St(S-1) t = Ι

3. S-1A = S t

4. A(S-1) t = S

5. (S-1)A(S-1) t = Ι

6. (S-1) t (S-1) = A-1


2. Álgebra vetorial e matricial 68

Maximização de formas quadráticas

Na estatística multivariada e em outras áreas aplicadas, é muitas

vezes necessária a maximização de uma forma quadrática. Devido à forma

quadrática Q = x t Ax poder ser feita arbitrariamente grande tomando-se os valores

dos elementos de x grandes, é necessário maximizar Q condicionada a alguma

restrição no comprimento de x . Uma conveniente alternativa é tomar uma solução

normalizada de x , ou seja, uma solução tal que x tenha comprimento unitário.

Então a maximização da forma quadrática Q pode ser transformada na

maximização da razão:

x t Ax
λ=
xtx

para toda matriz A simétrica real. Para a maximização deve-se tomar a derivada

em relação a x e igualar a zero, resolvendo o sistema obtido, como demonstrado

a seguir.

∂Q ∂x t Ax ∂x t x
= = 2Ax e = 2x
∂x ∂x ∂x

usando a regra do quociente:


Ferreira, D.F. Estatística multivariada 69

∂λ 2Ax(x t x) − 2(x t Ax)x 2 ⎛ x t Ax ⎞


= = t ⎜A − t Ι⎟x
∂x (x t x) 2 x x⎝ xx ⎠

igualando a zero essa derivada e dividindo-a por 2 ( x t x ) , é obtido o sistema

homogêneo de equações:

⎛ x t Ax ⎞
⎜ A − Ι⎟x = 0
⎝ xtx ⎠

x t Ax
Desde que = λ , então para um ponto estacionário qualquer i,
xtx

( A − λi Ι ) x i = 0 (2.48)

Para que o sistema de equações em (2.48) não possua apenas a

solução trivial, A-λiΙ não pode ter posto completo. Isto significa que seu

determinante deve ser zero:

|A-λiΙ| = 0 (2.49)

A equação polinomial em λ, resultado da expansão dos termos a

esquerda na equação (2.49) através do uso da definição (2.9), é chamada de

equação característica de A. A i-ésima raiz da equação (λi) é denominada de valor


2. Álgebra vetorial e matricial 70

característico de A; x i é denominado vetor característico de A associado a λi.

Outras terminologias podem ser empregadas, tais como, autovalores e

autovetores, ou, valores e vetores próprios, ou ainda, raiz e vetor latente.

Pares de formas quadráticas

É de fundamental importância na análise multivariada o problema de

maximizar razão entre duas formas quadráticas:

x t Ax
λ= B ≠0
x t Bx

em que B é uma matriz pd. O máximo é dado da mesma forma que apresentado

anteriormente, a partir da derivada em relação a x , igualando-a a zero, como

apresentado a seguir:

∂λ x t Bx x t Ax
× = Ax − t Bx = (A − λB)x = 0 (2.50)
∂x 2 x Bx

O sistema homogêneo de equações (2.50) terá solução não trivial

( x ≠ 0 ), se e somente se,

A − λB = 0 (2.51)
Ferreira, D.F. Estatística multivariada 71

Os autovalores (λ) de A em relação a B são denominados de valores

próprios, raízes características, e os autovetores de vetores característicos ou

próprios. Desde que B seja pd, é possível fatorá-la através do fator de Cholesky,

por:

B = SBSBt

Então definindo-se z = SBt x e usando as propriedades do fator de

Cholesky tem-se que x = ( SB−1 ) z . Agora, se (2.50) for pré multiplicada por SB−1 e
t

x = ( SB−1 ) z for substituído na expressão, têm-se:


t

⎡⎣SB−1A − λS−B1B⎤⎦ ( S−B1 ) z = 0


t

(2.52)
⎡S−1A ( S −1 t
) − λΙ ⎤⎥ z = 0
⎢⎣ B B

desde que S−B1B ( S−B1 ) = Ι


t

A solução de (2.52) é a mesma da obtida pela maximização de uma

forma quadrática, apresentada em (2.48), exceto que x = ( SB−1 ) Z deve ser


t

recuperado, uma vez que Z é obtido. Os autovalores, no entanto, são invariantes

à transformação não-singular realizada.


2. Álgebra vetorial e matricial 72

Cálculo prático dos autovalores e autovetores

Será apresentado aqui o método denominado “Power method”

derivado por Hotelling (1936). Esse método é apropriado para problemas em que

somente r autovalores de maior magnitude e os seus respectivos autovetores são

necessários (r≤n). O método é iterativo, dado um vetor inicial arbitrário v (0) . O

vetor do estágio i será representado por v (i) e o da próxima iteração será obtido

por:

v (i +1) = Av (i)

Usualmente um vetor de elementos iguais a ±1 é usado como vetor

inicial. Os vetores característicos devem ser normalizados em cada estágio, para

que o critério de convergência seja verificado. Quando uma aproximação desejada

para λ1 e x1 sejam alcançados, o segundo autovalor e autovetor devem ser

encontrados na matriz A2, definida por:

A 2 = A − λ1 x1 x1t (2.53)

E assim o processo é repetido até que um número r≤n de pares de

autovalores e autovetores sejam obtidos.


Ferreira, D.F. Estatística multivariada 73

Exemplo 2.7

aplicar o “power method” e determinar os autovalores e autovetores da matriz

apresentada a seguir:

⎡4 2⎤
A=⎢ ⎥
⎣2 1⎦

1. Determinação de λ1 e x1

⎡1⎤
O vetor v (0) será considerado como: v (0) = ⎢ ⎥
⎣1⎦

Na avaliação da convergência, o autovetor em cada estágio será

padronizado através da divisão pelo elemento de maior valor do mesmo.

(1) (0) ⎡ 4 2 ⎤ ⎡1⎤ ⎡ 6 ⎤


(i) v = Av =⎢ ⎥×⎢ ⎥ = ⎢ ⎥
⎣ 2 1 ⎦ ⎣1⎦ ⎣ 3⎦

Normalizando v (1) :

(1) ⎡ 66 ⎤ ⎡1 ⎤
v = ⎢3⎥ = ⎢1⎥
⎣6⎦ ⎣2⎦
2. Álgebra vetorial e matricial 74

Para avaliar a convergência, os vetores v (0) e v (1) devem ser comparados. Será

considerado, convergente se todos os elementos de v (1) forem semelhantes aos

elementos correspondentes de v (0) , para uma precisão pré estipulada, ou seja, de

1x10-8. Neste caso, os vetores diferem consideravelmente.

⎡ 4 2 ⎤ ⎡1 ⎤ ⎡ 5 ⎤
(ii) v (2) = Av (1) = ⎢ ⎥ × ⎢ 1 ⎥ = ⎢ ⎥ , normalizando
⎣ 2 1 ⎦ ⎣ 2 ⎦ ⎣ 2.5⎦

⎡1 ⎤
v (2) = ⎢ 1 ⎥
⎣2⎦

Comparando-se v (2) com v (1) , padronizados, verifica-se que são idênticos,

indicando que o critério de convergência foi alcançado.

O autovetor x1 é obtido pela normalização de v (2) e o primeiro

autovalor λ1, por λ1 = x1t A x1 .

V (2) ⎡ 0,8944 ⎤
x = =⎢ ⎥
1
V (2)t V (2) ⎣0, 4472 ⎦
⎡ 0,8944 ⎤
λ1 = x1t A x1 = [ 4, 4721 2, 2361] × ⎢ ⎥=5
⎣0, 4472 ⎦

2. determinação de λ2 e x 2

⎡4 2⎤ ⎡ 0,8944 ⎤ ⎡0 0⎤
A 2 = A − λ1x1 x1t = ⎢ ⎥ − 5× ⎢ ⎥ × [ 0,8944 0, 4472] = ⎢ ⎥
⎣2 1⎦ ⎣ 0, 4472 ⎦ ⎣0 0⎦
Ferreira, D.F. Estatística multivariada 75

Portanto os demais autovalores e autovetores de A são nulos (λ2=0 e

x 2 = 0 ).

Os autovalores da matriz da forma quadrática podem servir para

classificação das mesmas. Demonstra-se que se todos os autovalores da matriz

A, dado Q = x t Ax , forem positivos e maiores que zero a matriz A é positiva

definida e a forma quadrática é positiva. Se A possui autovalores positivos e nulos

a matriz será psd, e a forma quadrática poderá ser nula para um vetor x ≠ 0 .

Os resultados apresentados até agora, a respeito de formas

quadráticas, são conseqüências da expansão de matrizes simétricas em um

processo denominado de decomposição espectral. A decomposição espectral de

uma matriz A (nxn), simétrica, é dada por:

A = λ1e1e1t + λ 2 e 2 e 2t + + λ n e n ent (2.54)

em que λi (i=1, 2, ..., n) são os autovalores de A e ei são os autovetores

normalizados associados.

Exemplo 2.8

Considere a matriz simétrica:

⎡4 2⎤
A=⎢ ⎥
⎣2 2⎦

com os autovalores e autovetores normalizados, apresentados a seguir:


2. Álgebra vetorial e matricial 76

⎡ 0,8507 ⎤ ⎡ −0,5257 ⎤
λ1 = 5, 2361 e1 = ⎢ ⎥ λ 2 = 0, 7639 e 2 = ⎢ ⎥
⎣ 0,5257 ⎦ ⎣ 0,8507 ⎦

Obtenha a decomposição espectral de A.

⎡ 3, 7893 2,3417 ⎤
λ1e1e1t = ⎢ ⎥
⎣ 2,3417 1, 4471 ⎦

⎡ 0, 2111 −0,3416 ⎤
λ 2 e 2 e 2t = ⎢ ⎥
⎣ −0,3416 0,5528 ⎦

⎡ 4 2 ⎤ ⎡ 3, 7893 2,3417 ⎤ ⎡ 0, 2111 −0,3416 ⎤


⎢ 2 2 ⎥ = ⎢ 2,3417 1, 4471 ⎥ + ⎢ −0,3416 0,5528 ⎥
⎣ ⎦ ⎣ ⎦ ⎣ ⎦

A expressão da distância como raiz quadrada de uma forma

quadrática positiva definida permite que se obtenha a interpretação geométrica

baseada nos autovalores e autovetores de uma matriz. Dada uma matriz A, pxp, e

suponha que p=2, os pontos x t =[x1, x2] de distância constante c da origem

satisfazem a:

x t Ax = a11X12 + a 22 X 22 + 2a12 X1 X 2 = c 2

pela decomposição espectral de A, como no exemplo 2.8, tem-se:


Ferreira, D.F. Estatística multivariada 77

A = λ1e1e1t + λ 2 e 2 e 2t
∴ x t Ax = λ1 ( X t e1 ) + λ 2 ( X t e 2 )
2 2

Fazendo yi = x t ei , obtém-se: c 2 = λ1 y12 + λ 2 y 22 que é uma elipse, pois λi>0. Verifica-

( )
2
se que x = cλ1− 2 e1 satisfaz x t Ax = λ1 cλ1− 2 e1t e1 = c2 e x = cλ −2 2 e 2 fornece a
1 1 1

apropriada distância na direção de e 2 . Portanto, os pontos de distância c

pertencem a uma elipse cujos eixos são dados pelos autovetores de A com

tamanhos proporcionais ao recíproco da raiz quadrada dos autovalores. A

constante de proporcionalidade é c. A situação é ilustrada na Figura 2.1. Se p>2

os pontos pertencem a uma hiperelipsóide de distância c constante da origem,

cujos eixos são dados pelos autovetores de A. O semi eixo na direção i tem

comprimento de c
.
λi

x
2

e
2
e
1
-0,5

1

0,5
cλ x
2 1

Figura 2.1. Pontos de distância c constante da origem (λ1 < λ2).


2. Álgebra vetorial e matricial 78

Matriz raiz quadrada

A partir da decomposição espectral, é possível definir uma categoria

de matriz, em função dos autovalores e autovetores, denominada de matriz raiz

quadrada.

Sendo A (nxn), uma matriz com decomposição espectral dada por

n
A = ∑ λ i ei eit , pode-se construir uma matriz P, cujas colunas são os autovetores
i =1

normalizados de A, tal que, P = [ e1 e 2 e n ] , e uma matriz Λ diagonal, como os

autovalores de A, tal que, Λ=diag[λi]. É fácil verificar que:

A = P ΛP t
n
⎛1 ⎞ (2.55)
A −1 = PΛ −1P t = ∑ ⎜ ei eit ⎟
i =1 ⎝ λ i ⎠

Definindo, Λ1/2 como uma matriz diagonal com λ i como elemento

da i-ésima diagonal, então, a matriz a seguir é definida como matriz raiz quadrada

de A e é simbolizada por A1/2.

n
A = ∑ λ i ei eit = PΛ 2 P t
1 1
2
(2.56)
i =1
Ferreira, D.F. Estatística multivariada 79

As suas propriedades são:

1. (A1/2)t= A1/2 (A1/2 é simétrica)

2. A1/2A1/2=A

( )
−1 n
=∑ ei eit = PΛ − 2 P t
1 1
3. A 2 1
λi
i =1

4. A1/2A-1/2=A-1/2A1/2=Ι e A-1/2A-1/2=A-1

em que A-1/2 = (A1/2)-1

Exemplo 2.9

Obtenha a matriz raiz quadrada e a inversa da matriz utilizada no exemplo (2.8),

usando as equações (2.55) e (2.56):

⎡4 2⎤
A=⎢ ⎥
⎣2 2⎦

com autovalores e autovetores normalizados, apresentados a seguir:


2. Álgebra vetorial e matricial 80

⎡ 0,8507 ⎤ ⎡ −0,5257 ⎤
λ1 = 5, 2361 e1 = ⎢ ⎥ λ 2 = 0, 7639 e 2 = ⎢ ⎥
⎣ 0,5257 ⎦ ⎣ 0,8507 ⎦

As matrizes P e Λ foram obtidas pelos autovalores e autovetores, e

estão apresentadas a seguir:

⎡ 0,8507 −0,5257 ⎤ ⎡5, 2361 0 ⎤


P=⎢ ⎥ Λ=⎢
⎣0,5257 0,8507 ⎦ ⎣ 0 0, 7639 ⎥⎦

⎡ 0,8507 −0,5257 ⎤ ⎡ 1 5,2361 0 ⎤ ⎡ 0,8507 0,5257 ⎤ ⎡ 1 2 − 1 2 ⎤


A −1 = PΛ −1P t = ⎢ ⎥×⎢ ⎥×⎢ =
⎣0,5257 0,8507 ⎦ ⎣ 0
1
0,7639 ⎦ ⎣ −0,5257 0,8507 ⎥⎦ ⎢⎣ − 1 2 1 ⎥⎦

A 2 = PΛ 2 P t =
1 1

⎡ 0,8507 −0,5257 ⎤ ⎡ 5, 2361 0 ⎤ ⎡ 0,8507 0,5257 ⎤ ⎡ 1,8975 0, 6324 ⎤


=⎢ ⎥×⎢ ⎥×⎢ ⎥=⎢ ⎥
⎣0,5257 0,8507 ⎦ ⎢⎣ 0 0, 7639 ⎥⎦ ⎣ −0,5257 0,8507 ⎦ ⎣0, 6324 1, 2649 ⎦

A seguir, um programa SAS é apresentado contendo os principais

comandos para a realização das várias operações matriciais e vetoriais descritas

nesse capítulo.
Ferreira, D.F. Estatística multivariada 81

/* Capitulo 2 de multivariada - principais operações matriciais descritas */


/* por meio do proc iml. Rotinas de inversão, multiplicação, transposição */
options nodate nonumber ps=1000 ls=76;
proc iml;
/* elementos de algebra vetorial*/
x1={1,1,1,1};
x2={1,1,0,0};
x3={0,0,1,1};
print x1 x2 x3;
y=4*x1;
z=x1+x2;
print y z;
yz=y` * z;
yy=y`*y; /*distancia quadratica*/
dy=sqrt(yy); /* distancia da origem*/
zz=z`*z;
dz=sqrt(zz);
costeta=yz/(dy*dz);
print yz yy zz dy dz costeta;
/* elementos de algebra matricial*/
x=x1||x2||x3;/* concatenando vetores para obter uma matriz*/
xpx=x`*x;
xx=xpx#xpx; /* produto de xpx elemento a elemento por xpx*/
print x xpx xx;
/*calculo da base ortonormal de Gramshimidt - a matriz p contém as colunas ortonormalizadas de X*/
Call Gsorth(p, t, lindep, X);
print lindep p t;
/* calculo de autovalores e autovetores */
pu=eigvec(xpx); /* pu matriz de autovetores */
au=eigval(xpx); /* au vetor de autovalores */
print pu; print au;
a={4 2,2 2}; /* matriz A*/
ainv=inv(a); /* inversa de A*/
deta=det(a); /* determinante de A*/
print a ainv deta;
c={4 2 2,2 2 0, 2 0 2};
detc=det(c);
print c detc;
/* fator de Cholesky A=S`S em que S e uma matriz triangular superior */
/* S e a transposta do fator de Cholesky */
Sc=root(c);
/* matriz c e singular, porem o SAS calcula assim mesmo o fator de Cholesky */
/* pode-se observar que a ultima linha, da matriz Sc e nula devido a isso*/
Sa=root(a);
b={4 2 0,2 2 1,0 1 2};
print b;
sb=root(b);
print Sc Sa sb;
/*maximização de pares de formas quadráticas */
/* resolver (D - lG)e=0 */
D={4 2,2 2};
G={7 1,1 4};
print D G;
Sg=root(G); /* transposta do fator de Cholesky de G */
Sginv=inv(Sg); /* inversa da transposta do fator de Cholesky de G */
2. Álgebra vetorial e matricial 82

print Sg Sginv;
II=Sginv`*G*Sginv; /* mostrar que é igual a identidade */
print ii;
H=Sginv`*D*Sginv; /* operar D, e em seguida extrair auto valores e vetores */
print H; /* D transformada */
zh=eigvec(H); /* zh matriz de autovetores */
auh=eigval(H); /* auh vetor de autovalores */
xh=Sginv*zh; /* matriz de autovetores recuperados */
teste=xh`*g*xh;
print teste;/*mostrar que resulta na identidade*/
print xh;
print auh;
/* obtencao de matriz raiz quadrada - exemplificar com a matriz D */
aud=eigval(D); /* autovalores de D*/
lamb=diag(aud); /* diagonalizando aud e resultado em lamb */
print lamb;
lambS=root(lamb); /* achando a raiz quadrada de lamb */
avd=eigvec(D); /* autovetores de D em avd */
Droot=avd*lambS*avd`;
/* usando a definição para encontrar a matriz raiz quadrada de D */
print Droot;
DD=avd*lamb*avd`; /* checando propriedades */
print DD; /* deve ser igual a D */
quit;

2.4. Exercícios

2.1. Sejam os vetores x ’=[3, 2, 4] e y ' =[-1, 2, 2]

(a) plote os dois vetores

(b) encontre (i) o comprimento de x , (ii) o ângulo entre x e y , e (iii) a distância

entre x e y .

(c) plote os vetores x − x.1 e y − y.1 ( x = 3 e y = 1).


Ferreira, D.F. Estatística multivariada 83

2.2. Dada a matriz

⎡1 1 0 0⎤
⎢1 1 0 0 ⎥⎥

X = ⎢1 0 1 0⎥
⎢ ⎥
⎢1 0 1 0⎥
⎢⎣1 0 0 1 ⎥⎦

(a) Ortonormalize as colunas de X, usando a construção de Gram-Schimidt.

(b) Determine o vetor (coluna de x) linearmente dependente.

(c) Determine o posto coluna de X, a partir da construção de Gram-Schimidt

realizada em (a).

2.3. Dadas as matrizes

⎡4 2 2⎤ ⎡6 4 2⎤
A = ⎢⎢ 2 2 0 ⎥⎥ B = ⎢⎢ 4 4 0 ⎥⎥
⎢⎣ 2 0 4 ⎥⎦ ⎢⎣ 2 0 6 ⎥⎦

(a) Obtenha a inversa de A e de B, usando o algoritmo de Gauss-Jordan.

(b) Verifique usando o processo de Gauss-Jordan que (AB)-1=B-1A-1.

2.4. Verifique se a matriz


2. Álgebra vetorial e matricial 84

⎡ 0,8507 −0,5257 ⎤
P=⎢ ⎥
⎣0,5257 0,8507 ⎦

é uma matriz ortogonal.

2.5. Seja

⎡ 8 −1⎤
A=⎢ ⎥
⎣ −1 2 ⎦

(a) Calcule o determinante de A.

(b) Com base em (a) a matriz A pode ser considerada positiva definida? Porque?

(c) Obtenha o fator de Cholesky, e confirme a resposta dada em (b).

(d) Determine os autovalores e autovetores de A.

(e) Obtenha a decomposição espectral de A.

(f) Encontre A-1.


Ferreira, D.F. Estatística multivariada 85

(g) Encontre os autovalores e autovetores de A-1. Verifique que relação tem como

os valores encontrados em (d).

2.6. Considere as matrizes

⎡ 4 4, 001⎤ ⎡ 4 4, 001 ⎤
A=⎢ ⎥ B=⎢ ⎥
⎣ 4, 001 4, 002 ⎦ ⎣ 4, 001 4, 002001⎦

As matrizes são idênticas, exceto por pequenas diferenças no

elemento, a22 e b22 devida a arredondamentos. Mostre que A-1 = -3B-1 (pequenas

mudanças, talvez devido a arredondamentos, podem causar substanciais

diferenças na inversa).

2.7. Verifique se a forma quadrática

Q = 2x12 − 2x1 x 2 + 4x 22

é positiva definida.

Sugestão: Verificar se Q = x t Ax é positiva, pode ser feita verificando se A é pd.

2.8. Dada as matrizes


2. Álgebra vetorial e matricial 86

⎡4 1⎤ ⎡ 2 −1⎤
A=⎢ ⎥ B=⎢ ⎥
⎣1 2⎦ ⎣ −1 1 ⎦

(a) determine os autovalores e autovetores que maximizam a razão

x t Ax
λ= t B ≠0
x Bx

Obs. O que é equivalente a resolver o sistema determinantal dado por (2.51)

A − λB = 0 .

(b) Determine a matriz raiz quadrada de A e de B.

2.9. Dada a matriz de covariância amostral (S)

⎡ 25 −2 ⎤
S=⎢
⎣ −2 4 ⎥⎦

(a) Determine R, dada D1/2, definida por:


Ferreira, D.F. Estatística multivariada 87

⎡ S11 0 0 ⎤
⎢ ⎥
⎢ 0 S22 0 ⎥
D 2 =⎢
1


⎢ ⎥
⎢ 0 0 Spp ⎥⎦

( ) S (D )
−1 −1
Sendo R = D
1 1
2 2

(b) Verifique a relação

S= D( ) R (D )
1
2
1
2
2. Álgebra vetorial e matricial 88
||[ 3
Amostragem multivariada
]||
3.1. Introdução

Com os conceitos de álgebra vetorial introduzidos no capítulo 2,

pode-se aprofundar na interpretação geométrica das estatísticas descritivas X , S



e R. A maioria das explicações usam a representação das colunas de X, como p

pontos no espaço n dimensional. Será introduzida neste instante a pressuposição

de que as observações constituem uma amostra aleatória. De uma forma

simplificada, amostra aleatória significa (i) que as medidas tomadas em diferentes

itens (unidades amostrais ou experimentais) são não relacionadas uma com as

outras, e (ii) que a distribuição conjunta das p variáveis permanece a mesma para

todos os itens. Essa estrutura de amostra aleatória é que justifica uma escolha

particular de distância e dita a geometria para a representação n dimensional dos

dados. Finalmente, quando os dados podem ser tratados como uma amostra

aleatória à inferência estatística terá por base um sólido fundamento.


3. Amostragem multivariada 90

3.2. Geometria amostral

Uma observação multivariada é uma coleção de medidas em p

variáveis tomadas na mesma unidade amostral ou experimental. No capítulo 1,

item 1.3, as n observações obtidas foram dispostas em um arranjo (Matriz) X por,

⎡ x11 x12 " x1k " x1 p ⎤


⎢x x22 " x2 k " x2 p ⎥⎥
⎢ 21
⎢ # # # # # # ⎥
X =⎢ ⎥
⎢ x j1 x j 2 " x jk " x jp ⎥
⎢ # # # # % # ⎥
⎢ ⎥
⎣⎢ xn1 xn 2 " xnk " xnp ⎦⎥

em que cada linha de X representa uma observação multivariada. Desde que o

conjunto todo de mensurações é muitas vezes uma particular realização de

variáveis aleatórias, diz-se que os dados representam uma amostra de tamanho n

de uma população p variada.

Os dados podem ser plotados por um gráfico com p coordenadas. As

colunas de X representam n pontos no espaço p dimensional. Esse tipo de gráfico

fornece informações de locação dos pontos e de variabilidade. Se os pontos

pertencem a uma esfera, o vetor de médias amostrais, X , é o centro de balanço



ou de massa. Se a variabilidade ocorre em mais de uma direção, pode-se detectar

pela matriz de covariância, S. Uma medida numérica única de variabilidade é

fornecida pelo determinante da matriz de covariância.


Ferreira, D.F. Estatística multivariada 91

Exemplo 3.1

Calcule o vetor média X para a matriz X apresentada a seguir. Plote os n = 3



pontos no espaço p=2 (bidimensional) e localize X no diagrama resultante.


⎡ 2 1⎤
X = ⎢⎢ −3 0 ⎥⎥
⎢⎣ −2 2 ⎥⎦

A média amostral é dada por:

⎡ ⎡ 2 + ( −3) + ( −2 ) ⎦⎤ 3⎤ ⎡ −1⎤
X = ⎢⎣ ⎥=⎢ ⎥
 ⎣⎢ (1 + 0 + 2 ) 3⎦⎥ ⎣ 1⎦

O primeiro ponto é dado por X1t = [ 2 1] , o segundo por X 2t = [ −3 0] , e


 

o terceiro por X 3t = [ −2 2] . A Figura 3.1 mostra os pontos juntamente com X ,


 
centro de massa ou de balanço, obtidos a partir da matriz X.
3. Amostragem multivariada 92

3 2

x3
2
_
x x1
1

x2
0 1
-4 -3 -2 -1 0 1 2 3 4

-1

-2

-3

Figura 3.1. Diagrama com n=3 pontos no espaço bidimensional (p=2) mostrando o

centro de massa, X .


Uma representação alternativa é obtida através da consideração de p

pontos no espaço n dimensional. Os elementos das linhas de X são utilizados

como coordenadas.
Ferreira, D.F. Estatística multivariada 93

⎡ x11 x12 " x1k " x1 p ⎤


⎢x x22 " x2 k " x2 p ⎥⎥
⎢ 21
⎢ # # # # # # ⎥
X =⎢ ⎥
⎢ x j1 x j 2 " x jk " x jp ⎥
⎢ # # # # % # ⎥
⎢ ⎥
⎢⎣ xn1 xn 2 " xnk " xnp ⎥⎦

= ⎡⎣ y1 y2 " yk " y p ⎤⎦
   

As coordenadas do k-ésimo ponto y kt = [ x1k x 2k " x nk ] é



determinada pela n-upla de todas as medidas da k-ésima variável. É conveniente

representar y kt como vetor ao invés de pontos.




Exemplo 3.2

Plote os dados da matriz X, com p=2 vetores no espaço tridimensional (n=3)

⎡ 2 1⎤
X = ⎢⎢ −3 0 ⎥⎥
⎢⎣ −3 2 ⎥⎦

y1t = [ 2 −3 −2] e y 2t = [1 0 2]
 
3. Amostragem multivariada 94

Y2

Y1

Figura 3.2. Diagrama da matriz de dados X como p=2 vetores no espaço

tridimensional.

Muita das expressões algébricas que serão encontradas na análise

multivariada, podem ser relacionadas às noções geométricas de ângulos,

comprimento (norma) e volumes. Isto é importante, pois representações

geométricas facilitam a compreensão e conduz a novas visões. Infelizmente, o ser

humano está limitado a visualizar objetos no espaço tridimensional, e as

representações da matriz X não serão úteis se n>3. No entanto, os

relacionamentos geométricos e os conceitos estatísticos associados, descritos

para o espaço tridimensional ou bidimensional, permanecem válidos para

dimensões maiores.
Ferreira, D.F. Estatística multivariada 95

É possível, em função do exposto, prover uma interpretação

geométrica ao processo de encontrar a média amostral. O vetor 1 (nx1) será



definido por 1t =[1 1 … 1]. O vetor 1 forma um ângulo igual com cada um dos
 

eixos coordenados, de tal forma que (1 n )1 tenha comprimento unitário e

mesmo ângulo de direção. Considerando o vetor y kt = [ x1k x 2k " x nk ] , cuja




projeção em 1 ( )
n 1 é:


⎛ 1 ⎞ 1
∑X jk
t
y ⎜
k 1⎟ 1=
 ⎝ n ⎠ n 
j=1

n
1
( )
1 = y kt 1 1 = X k 1
 n    

Pois, a projeção geral de X em Y é dada por:


 

Xt Y
Proj ( X em Y ) =   Y
  Y 


Dessa forma X k = ( )
1 t
y k 1 corresponde a um múltiplo de 1, obtido a
n  

partir da projeção de y kt em um vetor 1 , de acordo com o esquema a seguir.


 
3. Amostragem multivariada 96

y k e k = y k − X k 1
   

1 X k 1
 

em que, y k − X k 1 é perpendicular a X k 1 . Observe, também, que e k = y k − X k 1 é


     
definido como desvio da k-ésima variável em relação a sua média amostral, e

consiste nos elementos apresentados a seguir:

⎡ x1k − X k ⎤
⎢ ⎥
⎢ x 2k − X k ⎥
ek = yk − X k 1 =
   ⎢ # ⎥
⎢ ⎥
⎢⎣ x nk − X k ⎥⎦

A decomposição de yi , nos vetores média e desvio da média está



apresentada esquematicamente na Figura 3.3 para p=2 e n=3.
Ferreira, D.F. Estatística multivariada 97

x3

1
_
_ x 11
x 21 e1

e2 Y1

Y2
x1

x2

Figura 3.3. Decomposição de y k em componentes de média X k 1 e componentes


 

de desvio e k = y k − X k 1 .
  

Exemplo 3.3

Faça a decomposição de y k em componentes de média X k 1 e componentes de


 

desvio e k = y k − X k 1 , k=1, 2, para os dados do exemplo 3.2.


  
3. Amostragem multivariada 98

⎡ 2 1⎤
X = ⎢⎢ −3 0 ⎥⎥ y1t = [ 2 −3 −2] y 2t = [1 0 2]
⎢⎣ −3 2 ⎥⎦  

2 + (−3) + (−2) 1+ 0 + 2
X1 = = −1 X2 = =1
3 3

⎡1⎤ ⎡ −1⎤ ⎡1⎤ ⎡1⎤


X11 = −1 ⎢⎢1⎥⎥ = ⎢⎢ −1⎥⎥ X 2 1 = 1 ⎢⎢1⎥⎥ = ⎢⎢1⎥⎥
 
⎢⎣1⎥⎦ ⎢⎣ −1⎥⎦ ⎢⎣1⎥⎦ ⎢⎣1⎥⎦

⎡ 2 ⎤ ⎡ −1⎤ ⎡ 3 ⎤
e1 = y1 − X11 = ⎢⎢ −3⎥⎥ − ⎢⎢ −1⎥⎥ = ⎢⎢ −2 ⎥⎥
  
⎢⎣ −2 ⎥⎦ ⎢⎣ −1⎥⎦ ⎢⎣ −1⎥⎦

⎡1 ⎤ ⎡1⎤ ⎡ 0 ⎤
e 2 = y 2 − X 2 1 = ⎢⎢0 ⎥⎥ − ⎢⎢1⎥⎥ = ⎢⎢ −1⎥⎥
  
⎢⎣1 ⎥⎦ ⎢⎣1⎥⎦ ⎢⎣ 1 ⎥⎦

Observa-se que: X11 e e1 , X 2 1 e e 2 , são perpendiculares.


   

⎡ 3⎤
( X 1 ) ( )
y1 − X11 = [ −1 −1 −1] × ⎢⎢ −2 ⎥⎥ = −3 + 2 + 1 = 0
t
1
 
⎢⎣ −1⎥⎦

A decomposição é:
Ferreira, D.F. Estatística multivariada 99

⎡ 2 ⎤ ⎡ −1⎤ ⎡ 3 ⎤ ⎡1 ⎤ ⎡1⎤ ⎡ 0 ⎤
y1 = ⎢⎢ −3⎥⎥ = ⎢⎢−1⎥⎥ + ⎢⎢−2⎥⎥ ; e y 2 = ⎢⎢0 ⎥⎥ = ⎢⎢1⎥⎥ + ⎢⎢−1⎥⎥ .
 ⎢⎣ 2 ⎥⎦ ⎢⎣−1⎥⎦ ⎢⎣ −1⎥⎦  ⎢⎣2⎥⎦ ⎢⎣1⎥⎦ ⎢⎣ 1 ⎥⎦

Os vetores de resíduos podem ser plotados a partir da origem, como

apresentado na Figura 3.4, para os resíduos do exemplo 3.3.

X3

e2

e1

X1
X2

Figura 3.4. Vetores de desvios ei do exemplo 3.3.




Considere o comprimento ao quadrado dos vetores de desvios,

obtidos por (2.2):

n
| e k |2= e k . e k = ∑ ( x jk − X k ) 2 (3.1)
   j =1

Observa-se por (3.1) que o comprimento ao quadrado dos vetores de

desvios é proporcional à variância da i-ésima variável. Equivalentemente, o


3. Amostragem multivariada 100

comprimento é proporcional ao desvio padrão. Vetores longos representam

maiores variabilidades que os vetores mais curtos.

Para dois vetores desvios e k e eA :


 

n
ekt eA = ∑ ( x jk − X k )( x jA − X A ) (3.2)
  j =1

De (2.3) e denotando o ângulo θik como o ângulo formado pelos

vetores e k e e A , tem-se:
 

e kt eA
Cos ( θkA ) =   (3.3)
e kt e k × eAt eA
   

Usando (3.1) e (3.2) é fácil verificar que (3.3) é:

SkA
rkA = Cos ( θkA ) = (3.4)
Skk SAA

O coseno do ângulo formado entre dois vetores desvios é igual ao

coeficiente de correlação amostral. Portanto, se os dois vetores de desvios

possuem a mesma orientação, o coeficiente de correlação será próximo de 1. Se

os dois vetores estão próximos de serem perpendiculares, a correlação amostral

será próxima de zero. Se os dois vetores forem orientados em direções opostas, o

coeficiente de correlação amostral será próximo de -1. Os conceitos de


Ferreira, D.F. Estatística multivariada 101

comprimento e ângulos permitem que se façam interpretações das estatísticas

amostrais geometricamente, e auxiliam na compreensão dos seus significados.

3.3. Amostras aleatórias e esperanças do vetor de


média e da matriz de covariância amostral.

Com a finalidade de estudar a variabilidade amostral de estatísticas

como X e S com a finalidade de se fazer inferências, é necessário fazer



pressuposições a respeito das variáveis cujos valores observados constituem um

conjunto de dados X.

Supondo que os dados não foram ainda observados, mas

pretende-se obter n mensurações em p variáveis. Antes de serem mensurados,

os valores não podem em geral ser preditos exatamente. Conseqüentemente,

estes são tratados como variáveis aleatórias. Neste contexto, os elementos (j, k)

da matriz de dados representam realizações de uma variável aleatória, Xjk. Cada

conjunto de medidas X j em p variáveis é um vetor aleatório.




⎡ x11 x12 " x1k " x1 p ⎤ ⎡ X 1t ⎤



⎢x
⎢ 21 x22 " x2 k " x2 p ⎥⎥ ⎢⎢ X 2t ⎥⎥

⎢ # # # # # # ⎥ ⎢ #⎥
X =⎢ ⎥=⎢ ⎥ (3.5)
⎢ x j1 xj2 " x jk " x jp ⎥ ⎢ X tj ⎥
⎢ # 
# # # % # ⎥ ⎢ #⎥
⎢ ⎥ ⎢ ⎥
⎣⎢ xn1 xn 2 " xnk " xnp ⎦⎥ ⎣⎢ X nt ⎦⎥

3. Amostragem multivariada 102

Uma amostra aleatória pode ser definida por: “Se o vetor coluna

X1 , X 2 , ..., X n em (3.5), representa independentes observações com distribuição


  
conjunta com densidade f( x )=f(x1, x2, ..., xp), então X1 , X 2 , ..., X n é uma amostra
   
aleatória. Se a função conjunta de densidade é igual ao produto das marginais

f( x 1) . f( x 2) . ..., . f( x n), sendo f( x j)=f(xj1, xj2, ..., xjp), então, X1 , X 2 , ..., X n é uma
      
amostra aleatória.”

Algumas conclusões podem ser obtidas da distribuição de X e S



sem pressuposições sobre a forma da distribuição conjunta das variáveis. Dessa

forma, considere X1 , X 2 , ..., X n como sendo uma amostra aleatória de uma


  
distribuição conjunta com vetor média µ e matriz de covariância Σ. Então, X é um
 
estimador não viciado de µ e sua matriz de covariância é 1
n Σ . Isto é,


E( X ) = µ (vetor média populacional)


 

Cov( X ) = 1
n Σ (Matriz de covariância populacional dividida pelo tamanho da

amostra).

PROVA:

X =( X 1+ X 2+...+ X n)/n
   
Ferreira, D.F. Estatística multivariada 103

E(X) = E ( n1 X1 + n1 X 2 + " + n1 X n )
   

= E ( n1 X1 ) + E ( n1 X 2 ) + " + E ( n1 X n )
  

1 1
= ⎡ nE ( X j ) ⎤ = × n × µ
n⎣  ⎦ n 

∴ E(X) = µ
 

Para provar o valor da covariância, pode-se observar que:

t
⎛1 n ⎞ ⎛1 n ⎞
( ) ( ) ∑∑ ( X
n n
1
)( )
t
( X -µ ) ( X -µ ) = ⎜ ∑ Xj − µ
t
⎟ × ⎜ ∑ XA − µ ⎟ = 2 j − µ XA − µ
    ⎝ n j=1   ⎠ ⎝ n A =1   ⎠ n j=1 A =1   

Então,

( )( ) ∑∑ E ( X )( )
n n
1
Cov ( X ) = E X − µ X − µ = 2
t t
j − µ XA − µ
     n j=1 A =1   

( )( )
t
Sendo j≠ A e considerando que E X j − µ X A − µ é igual a zero,
   

devido a covariância entre os elementos independentes X j e X A ser nula, então,


 

∑ E ( X
n
1
Cov ( X ) = 2 )( )
t
j −µ Xj −µ
 n j=1   
3. Amostragem multivariada 104

( )( )
t
Desde que Σ= E X j − µ X j − µ é a covariância populacional comum
   

dos componentes X j , têm-se:




∑ E ( X )( )
n
1 1
Cov ( X ) = 2
t
j − µ X j − µ = 2 (Σ + Σ + " + Σ) =
 n j=1    n

1 1
= 2
(nΣ) = Σ
n n

3.4. Variância Generalizada

Com uma única variável, a variância da amostra é usada para

descrever a variação nas mensurações desta variável. Quando p variáveis são

observadas em cada unidade da amostra ou do experimento, a variação é descrita

pela matriz de variância e covariância amostral.

⎡ S 11 S 12 " S 1p ⎤
⎢S S 22 " S 2p ⎥
S=⎢ ⎥
21

⎢ # # % # ⎥
⎢S Sp2 " S pp ⎥⎦
⎣ p1

A matriz de covariância amostral contém p variâncias e ½p(p-1)

covariâncias, potencialmente diferentes. Algumas vezes, no entanto, deseja-se

expressar a variação por um único valor numérico. Uma escolha deste valor é o

determinante de S, o qual reduz à variância amostral usual para o caso de uma


Ferreira, D.F. Estatística multivariada 105

única variável (p=1). Este determinante é denominado de variância amostral

generalizada.

Variância amostral Generalizada=|S| (3.6)

Exemplo 3.4

O peso de espiga PE (X1), e o número de espigas NE (X2), foi avaliado em 28

variedades de milho em Sete Lagoas, MG. A matriz de covariância amostral S,

obtida dos dados é:

⎡ 2,905 9,096 ⎤
S=⎢ ⎥
⎣ 9,096 90,817⎦

A variância generalizada neste caso é:

Variância amostral Generalizada = |S| = 2,905x90,817 - 9,0962 = 181,0862

A variância amostral generalizada se constitui numa forma de

escrever toda a informação de todas as variâncias e covariâncias como um único

valor numérico. Obviamente, quando p>1 é possível que algumas informações

amostrais sejam perdidas no processo. A interpretação geométrica, no entanto,

poderá mostrar a força e as fraquezas desta estatística descritiva.


Ferreira, D.F. Estatística multivariada 107

Área = (n − 1) S11S22 (1 − r122 ) (3.7)

Por outro lado,

S11 S21 S11 S11 S22 r12


S= =
S12 S22 S11 S22 r12 S22
(3.8)
= S11 S22 − S11 S22 r12
2
= S11 S22 (1 − r12
2
)

Se (3.7) e (3.8) forem comparados, pode-se observar que:

|S|=(Área)2/(n-1)2

Esta expressão pode ser generalizada para p vetores desvios por

indução:

Variância amostral Generalizada = |S| = (Volume)2.(n-1)-p (3.9)

A equação (3.9) mostra que a variância amostral é proporcional ao

quadrado do volume gerado pelos p vetores desvios. Na Figura 3.5 (a) e (b)

mostra-se regiões trapezoidais geradas com p=3 vetores resíduos

correspondentes a “grandes” e “pequenas” variâncias amostrais generalizadas,

respectivamente.
3. Amostragem multivariada 108

(a) (b)

e3 e2
e2 e1 e3 e1

Figura 3.5. (a) grande variância amostral generalizada, e (b) pequena variância

amostral generalizada, para p=3.

Para um tamanho amostral fixo, é óbvio que |S| cresce com o

aumento do comprimento dos vetores de desvios ei (ou ( n −1)Sii ). Em adição, o



volume aumentará para um comprimento fixado, se os vetores residuais forem

movidos até possuírem ângulos retos. Por outro lado se um ou mais dos vetores

residuais aproximar do hiperplano formado por outros vetores residuais, o volume

diminuirá tendendo a zero.

Apesar de a variância amostral generalizada possuir algumas

interpretações geométricas formidáveis como as ilustradas na Figura 3.5, ela sofre


Ferreira, D.F. Estatística multivariada 109

alguns problemas como estatística amostral capaz de sumariar a informação

contida na matriz S. Para ilustrar estas deficiências, considere as matrizes de

covariâncias e os coeficientes de correlações apresentados a seguir.

⎡10 8 ⎤ ⎡10 −8⎤ ⎡6 0⎤


S=⎢ ⎥ S=⎢ ⎥ S=⎢ ⎥
⎣ 8 10 ⎦ ⎣ −8 10 ⎦ ⎣0 6⎦

8 −8 0
r12 = = 0,8 r12 = = −0,8 r12 = = 0, 0
10 10 10 10 6 6

| S |= 36 | S |= 36 | S |= 36

Apesar das três matrizes possuírem a mesma variância amostral

generalizada (|S|=36), elas possuem estruturas de correlações distintas. Portanto,

diferentes estruturas de correlações não são detectadas pela variância amostral

generalizada. As situações em que p>2 podem ser ainda mais obscuras.

Muitas vezes é desejável mais informações do que um simples valor

como |S| pode oferecer como resumo de S. Pode-se mostrar que |S| pode ser

expresso como produto dos autovalores de S (|S|=λ1.λ2....λp). A elipsóide centrada

na média é baseada em S-1, possui eixos de comprimento proporcionais a raiz

quadrada de λi’s de S, que reflete a variabilidade no sentido do i-ésimo autovalor.

Esta elipsóide é apresentada a seguir.

( X − X ) 'S ( X − X ) = c
−1 2
(3.10)
3. Amostragem multivariada 110

Demonstra-se que o volume desta hiperelipsóide é proporcional à

raiz quadrada de |S|. Desta forma, os autovalores, fornecem informações da

variabilidade em todas as direções da representação no espaço p-dimensional dos

dados. Portanto, é mais útil apresentar seus valores individuais do que seu

produto. Este tópico será abordado com mais detalhe quando se discutir sobre os

componentes principais.

A variância amostral generalizada será zero se um ou mais vetores

residuais pertencerem a um (hiper) plano formado por uma combinação linear dos

outros, ou seja, quando as linhas da matriz de desvios, forem linearmente

dependentes.

Exemplo 3.5

Mostre que |S|=0 para

⎡3 3 6⎤
X = ⎢⎢1 3 4 ⎥⎥
⎢⎣ 2 0 2 ⎥⎦

O vetor média é:

X t = [ 2 2 4]

Os vetores dos desvios são:
Ferreira, D.F. Estatística multivariada 111

⎡ 1 1 2⎤
X − 1 X t = [ e1 e2 e3 ] = ⎢⎢ −1 1 0 ⎥⎥
    
⎢⎣ 0 −2 −2 ⎥⎦

Verifica-se que e3t = e1t + e 2t , ou seja:


  

[2 0 -2] = [1 -1 0] +[1 1 -2] = [2 0 -2] c.q.d.

Isto significa que um dos vetores resíduos, pertence ao plano gerado

pelos outros dois. Desta forma o volume tridimensional é zero (degenerescência).

Este caso é ilustrado na Figura 3.6 e demonstrado numericamente através da

obtenção de |S|.

⎡ 1 0 1⎤
⎢ ⎥
S = ⎢ 0 3 3⎥
⎢⎣ 1 3 4 ⎥⎦

Pela definição (2.9), têm-se:

3 3 0 1 0 1
| S| = 1 × × ( −1) 2 + 0 × × ( −1) 3 + 1 × × ( −1) 4 =
3 4 3 4 3 3

= 131
. . + 0 + 1.( −3).1 = 3 − 3 = 0
3. Amostragem multivariada 112

e1

e2
e3

1 2

Figura 3.6 Caso em que |S|=0 (degenerescência) para o volume tridimensional.

Em qualquer análise estatística o resultado |S|=0 indica que existem

variáveis redundantes, ou seja, que possuem a mesma informação, e que estas

podem ser removidas do estudo. A matriz de covariância reduzida, será de posto

completo e a variância generalizada diferente de zero. A questão de quais

variáveis devem ser removidas no caso de degenerescência não é fácil de

responder e será abordado nos estudos de componentes principais. No entanto,

quando há possibilidade de escolha, o pesquisador deve reter as medidas de uma

variável (presumidamente) causal ao invés de uma característica secundária.


Ferreira, D.F. Estatística multivariada 113

3.5.Variância generalizada de variáveis padronizadas

A variância amostral generalizada é influenciada pela diferença de

variabilidade das mensurações das variáveis individuais, ou seja, caso a variância

amostral de uma determinada variável (Sii) seja grande ou pequena em relação às

demais. O vetor residual correspondente ei = Yi − x i 1 será muito longo ou muito


  
curto, do ponto de vista geométrico e terá um papel importante na determinação

do volume. É muitas vezes necessário, em função do exposto, padronizar os

vetores residuais, de tal forma que eles tenham o mesmo comprimento.

A padronização destes vetores residuais é equivalente a transformar

as variáveis originais xjk pelos seus valores (x jk − xk ) S kk . A matriz de

covariância amostral das variáveis padronizadas será então igual a R, ou seja,

igual a matriz de correlação das variáveis originais. Dessa forma pode-se definir:

Variância generalizada amostral das variáveis padronizadas=|R| (3.11)

Os vetores resíduos resultantes, cujos valores são dados por

ejk= ( x jk − xk ) S kk , possuem todos os comprimentos iguais a n − 1. A variância

generalizada amostral das variáveis padronizadas será grande se estes vetores

forem perpendiculares e será pequena se dois ou mais deles tiverem próximas da

mesma direção. Em (3.4) foi visto que o co-seno do ângulo θik entre os vetores

residuais ei e e k , com i≠k, é igual ao coeficiente de correlação amostral rik. Dessa


 
Ferreira, D.F. Estatística multivariada 115

|S| = (S11 S22 ... Spp) |R| (3.13)

Exemplo 3.6

É ilustrada através deste exemplo a relação (3.13) entre |S| e |R| para p=3

caracteres de milho (x1: diâmetro do colmo; x2: número de folhas; e x3:

comprimento de folhas). A matriz R e S obtidas são:

⎡ 4,935 0,552 2,921 ⎤ ⎡ 100


, 0,30 0,31⎤
⎢ ⎥ ⎢ ⎥
S = ⎢ 0,552 0,686 1932
, ⎥ e R = ⎢ 0,30 100
, 0,55 ⎥
⎢⎣ 2,921 1932
, 17,993⎥⎦ , ⎥⎦
⎢⎣ 0,31 0,55 100

Usando-se a definição de determinante (2.9), tem-se:

|S|=37,3878

|R|=0,6137

Usando (3.13) e os resultados obtidos:

|S| = (S11 S22 ... Spp) |R|

37,3878 = (4,935 x 0,686 x 17,993) x 0,6137


3. Amostragem multivariada 116

37,3878≈37,3828 (verificado, apesar da pequena diferença devido às

aproximações nos cálculos)

3.6. Outra generalização da variância

Uma outra medida capaz de sintetizar a informação contida na matriz

de covariância que é utilizada em componentes principais é definida pela soma

dos elementos da diagonal da matriz de covariância S e é denominada de

variância amostral total. Portanto,

Variância amostral total = Traço de S= Tr(S) =S11+S22+...+Spp (3.14)

Exemplo 3.7

Calcular a variância amostral total da matriz S do exemplo (3.6)

Tr(S)= S11+S22+S33=4,935+0,686+17,993=23,614

Geometricamente a variância amostral total representa a soma dos

comprimentos ao quadrado dos vetores residuais ei (i=1, 2, ...,p) dividido por n-1.

Ela não considera as orientações dos vetores residuais, sendo portanto limitada
Ferreira, D.F. Estatística multivariada 117

para ser utilizada com variáveis padronizadas, pois seu valor será sempre o

mesmo para distintos conjuntos de dados desde que o número de variáveis destes

seja igual.

3.7. Exercícios

3.7.1. Plote os n=4 pontos no diagrama bidimensional e localize X no diagrama



resultante.

⎡ 1 1⎤
⎢ −1 −1⎥
X =⎢ ⎥
⎢ −1 1⎥
⎢ ⎥
⎣ 1 −1⎦

3.7.2. Encontre o ângulo entre os vetores y1 e y 2 do exemplo 3.1. Calcule o


 
co-seno do mesmo e discuta sobre o significado deste resultado.

3.7.3. Obtenha a decomposição dos vetores y1 e y 2 do exemplo 3.1 em


 
componente de média e componente de desvio. Comprove a

ortogonalidade dos componentes de média com os vetores de desvios ou

residuais.
3. Amostragem multivariada 118

3.7.4. Calcule usando (3.3) o coseno do ângulo entre os vetores residuais e1 e e 2


 
obtidos em 3.3. Calcule o coeficiente de correlação usando (1.4) entre as

variáveis 1 e 2, e compare os resultados obtidos.

3.7.5. Obtenha as matrizes de covariância amostral para o conjunto de dados do

exercício 3.7.1, e calcule as variâncias amostrais generalizadas das

variáveis originais e padronizadas. Calcule também a variância amostral

total.

3.7.6. Qual é a área do trapezóide gerado pelos p=2 vetores desvios, do exercício

3.7.1.
4
Distribuição normal multivariada

4.1. Introdução

A generalização da densidade normal univariada para duas ou mais

dimensões desempenha um papel fundamental na análise multivariada. De fato, a

maioria das técnicas multivariadas parte do pressuposto de que os dados foram

gerados de uma distribuição normal multivariada. Apesar dos dados originais não

serem quase nunca “exatamente” normal multivariados, a densidade normal se

constitui muitas vezes numa aproximação adequada e útil da verdadeira

distribuição populacional.

A distribuição normal, além da sua atratividade pela sua facilidade de

tratamento matemático, possui duas razões práticas que justificam a sua utilidade.

A primeira, diz que a distribuição normal é a mais adequada para modelos

populacionais em várias situações; e a segunda refere-se ao fato da distribuição

amostral de muitas estatísticas multivariadas ser aproximadamente normal,

independentemente da forma da distribuição da população original, devido ao

efeito do limite central.


4. Distribuição normal multivariada 120

4.2. Pressuposições das análises multivariada

É importante compreender que as análises estatísticas de modelos

com erros aditivos baseiam-se na pressuposição de normalidade. A distribuição

normal requerida refere-se, não a variação dos dados, mas a variação residual,

dos erros existentes entre as observações e o modelo ajustado. A variação

sistemática dos dados deve-se presumidamente aos efeitos fixos dos modelos e o

restante da variação aleatória é devida a pequenas influências independentes, as

quais produzem resíduos com distribuição normal (Bock, 1975).

Um segundo ponto, muitas vezes negligenciado nas discussões das

pressuposições sobre a distribuição, refere-se ao fato de que as afirmações

probabilísticas dos testes de significância e dos intervalos de confiança, dizem

respeito a estatísticas tais como médias amostrais ou diferenças entre médias, e

não a distribuição das observações individuais. É conhecido que a distribuição

destas estatísticas torna-se tipicamente normal quando a amostra aumenta de

tamanho. Este resultado se deve ao teorema do limite central.

Do ponto de vista prático existem consideráveis vantagens de se

trabalhar com grandes amostras. Nestes casos, a violação da pressuposição de

que a população seja normal é menos crítica para os testes estatísticos e

intervalos de confiança e a precisão da estimação de parâmetros desconhecidos é

melhor.
Ferreira, D.F. Estatística multivariada 121

4.3. Densidade normal multivariada e suas


propriedades

A densidade normal multivariada é uma generalização da densidade

normal univariada. Para a distribuição normal univariada com média µ e variância

σ2 , a função de densidade de probabilidade é bem conhecida e é dada por:

1 ( x −µ )
2

1 −
f (x) = e 2 σ2
x ∈ ]−∞; + ∞[ (4.1)
2πσ2

O gráfico da função (4.1) tem forma de sino e está apresentado na

Figura 4.1. As probabilidades são áreas sob a curva entre dois valores da variável

X, limitada pela abscissa. É bem conhecido o fato de que as áreas entre ±1 desvio

padrão da média e ±2 desvios padrões da média são respectivamente 68,3% e

95,4%, como ilustrado na Figura 4.1.


4. Distribuição normal multivariada 122

0,683
0,954
µ−2σ µ−σ µ µ+σ µ+2σ

Figura 4.1. Densidade normal univariada com média µ e variância σ2 ,

destacando-se as áreas entre µ ± σ e µ ± 2σ .

O expoente da função de densidade normal univariada:

(x − µ)
2

= ( x − µ ) ( σ2 )
−1
( x − µ) (4.2)
σ 2

mede a distância quadrada de x em relação à µ em unidade de desvio padrão.

Esta distância pode ser generalizada para o caso multivariado, com

um vetor X de observações (p x 1), dada por,



Ferreira, D.F. Estatística multivariada 123

( X − µ ) ( Σ ) ( X − µ )
t −1
(4.3)

Nesta expressão (4.3) o vetor µ (px1) representa o valor esperado



do vetor X e a matriz Σ (pxp) representa a sua covariância. Então, (4.3)

representa a distância generalizada de X para µ .
 
Substituindo a expressão (4.3) na função de densidade (4.1), a

constante univariada de normalização 2πσ2 deve ser trocada de modo a fazer

com que o volume sob a superfície da função de densidade multivariada obtida,

seja igual a unidade para qualquer p. Pode-se demonstrar (Anderson, 1984) que

esta constante é ( 2 π )
−p2 − 12
Σ , sendo a densidade dada por:

⎡ 1 ⎤
1
( ) ( )
t
f (X) = p 1
exp − X
⎢⎣ 2  − µ Σ −1 X − µ ⎥ (4.4)
   ⎦
( 2π ) 2 Σ2 

Propriedades da distribuição normal multivariada

Seja um vetor X tendo distribuição normal multivariada, então:




1. Combinações lineares dos componentes de X serão normalmente distribuídos:



seja a combinação linear a t X =a1X1+a2X2+...+ apXp, então, at X terá
   
distribuição N( a t µ , a t Σ a );
   
4. Distribuição normal multivariada 124

2. Todos os subconjuntos de X tem distribuição normal (multivariada). Pelos



resultados da propriedade 1, fazendo alguns ai’s iguais a zero, isto se torna

evidente;

⎡ X1 ⎤
⎢X ⎥
i) Fazendo a t X = [1 0 " 0] ⎢ ⎥ = X1 a propriedade 2 se torna evidente. Assim,
2

  ⎢ # ⎥
⎢ ⎥
⎣⎢ X p ⎦⎥

X1 ∼ N( a t µ = µ1 , a t Σ a = σ11 ). De uma forma mais geral pode-se afirmar que todo


   

componente Xi tem distribuição N( µ i , σii ).

ii) A distribuição de várias combinações lineares é:

⎡ a11 X1 + ... a1p X p ⎤


⎢ ⎥
q A p p X1 = ⎢ # % # ⎥ ~ N q ( Aµ; AΣA ')

⎢a q1 X1 + ... a qp X p ⎥
⎣ ⎦

iii) Todos os subconjuntos de X tem distribuição normal (multivariada)



⎡ q X1 ⎤ ⎡ X1 ⎤
Tomando-se uma partição: X
p 1 = ⎢  ⎥ = ⎢  ⎥ e suas correspondentes
 ⎣⎢ (p −q) X1⎥ ⎣ X2 ⎦
 ⎦ 
partições no vetor de média e de covariância, dadas por:

⎡ q µ1 ⎤ ⎡ µ1 ⎤ ⎡ q Σ11q Σ12( p−q ) ⎤


µ = = Σ =
q

p 1 ⎢  ⎥ ⎢ ⎥ e ⎢ ⎥
 ⎢⎣ (p −q) µ1 ⎥⎦ ⎢⎣ µ 2 ⎥⎦ ⎢⎣ ( p−q ) Σ 21q ( p −q )
Σ 22 ( p −q ) ⎥

 
Ferreira, D.F. Estatística multivariada 125

Logo,

(
X1 ~ N q µ1 ; Σ11
 
)
Prova: Basta fazer qAp=[qIq | q0(p-q)] e aplicar (ii).

3. Se os componentes de covariância forem zero entre dois subconjuntos de X ,



implica em dizer que eles são independentemente distribuídos. Esta

propriedade só é valida se X tiver distribuição normal multivariada; e




4. A distribuição condicional de componentes de X é normal (multivariada).




⎡ q X1 ⎤ ⎡ X1 ⎤
Dada a partição p X1 = ⎢  ⎥ = ⎢  ⎥ , logo a distribuição condicional de
 ⎢⎣ (p −q) X1 ⎥⎦ ⎣ X 2 ⎦
 

X1 / X 2 = x 2 é normal e têm média e covariância dados por:


  

 
(  
)
µ c = µ1 + Σ12Σ −221 x 2 − µ 2 e Σ c = Σ11 − Σ12 Σ −221Σ 21

4.4. Distribuição normal bivariada

Sejam X1 e X2 duas variáveis com parâmetros E(X1)=µ1, E(X2)=µ2,

σ12
Var(X1)=σ11, Var(X2)=σ22 e ρ12 = = Corr( X1 , X 2 ) . A matriz de covariância é
σ11 σ22
4. Distribuição normal multivariada 126

⎡σ σ12 ⎤
Σ = ⎢ 11
⎣σ21 σ22 ⎥⎦

Cuja inversa é,

1 ⎡ σ 22 −σ 12 ⎤
Σ −1 =
σ 11σ 22 − σ ⎢⎣ −σ 21
2
12 σ 11 ⎥⎦

Fazendo σ 12 = ρ12 σ 11 σ 22 , obtém-se

Σ = σ 11σ 22 − σ 122 = σ 11σ 22 (1 − ρ122 ) , e a distância generalizada de (4.3) será:

1 ⎡ σ22 − ρ12 σ11 σ22 ⎤ ⎡ X1 − µ1 ⎤


[X1 − µ1 X2 − µ2] ⎢ ⎥⎢ ⎥=
σ11 σ22 (1 − ρ12 ) ⎦ ⎣X2 − µ2⎦
2
⎣− ρ12 σ11 σ22 σ11

(4.5)

1 ⎡⎛ − µ ⎞ 2 ⎛ − µ ⎞ 2 ⎛ X1 − µ1 ⎞ ⎛ X 2 − µ 2 ⎞⎤
= ⎢⎜ X1 1 ⎟ +⎜ X 2 2⎟
−2ρ12 ⎜ ⎟⎜ ⎟⎥
1 − ρ12
2
⎢⎜⎝ σ11 ⎟⎠ ⎜⎝ σ22 ⎟⎠ ⎜ σ ⎟ ⎜ σ ⎟⎥
⎝ ⎠⎝ ⎠⎦
⎣ 11 22

Desde que, |Σ|=σ11 σ22 - (σ12)2 = σ11 σ22 (1- ρ122 ), podem ser

substituídos Σ-1 e |Σ| em (4.4) para se ter a expressão da densidade normal

bivariada, apresentada a seguir.


Ferreira, D.F. Estatística multivariada 127

1
f(x1 ,x2 ) =
2π σ11σ22 (1 −ρ122 )

(4.6)

⎧ ⎡ 2 2
⎛ X1 −µ1 ⎞ ⎛ X2 −µ2 ⎞⎤⎫⎪
⎪ −1 ⎢⎛ X1 −µ1 ⎞ ⎛ X2 −µ2 ⎞
exp ⎨ ⎜ ⎟ +⎜ ⎟ − 2ρ12 ⎜ ⎟⎜ ⎟⎥
⎜ σ ⎟ ⎜ σ ⎟⎥⎬
⎪⎩2(1 −ρ12 ) ⎣⎢⎝ σ11 ⎠
2 ⎜ ⎟ ⎜ σ ⎟
⎝ 22 ⎠ ⎝ 11 ⎠ ⎝ 22 ⎠ ⎪
⎦⎭

Se X1 e X2 não são correlacionadas, ρ12 =0, a densidade conjunta

pode ser escrita como produto das densidades normais univariadas, ambas com a

forma de (4.1), ou seja, f(x1,x2)= f(x1) f(x2), além do que X1 e X2 são ditas

independentes, como comentado na propriedade número 3 da seção 4.3. Duas

distribuições normais bivariadas com variâncias iguais são mostradas nas Figuras

4.2. e 4.3. A Figura 4.2 mostra o caso em que X1 e X2 são independentes ( ρ12 =0)

e a Figura 4.3 o caso de ρ12 =0.8. Observa-se que a presença de correlação faz

com que as probabilidades se concentrem ao longo de uma linha.


4. Distribuição normal multivariada 128

Figura 4.2. Distribuição normal bivariada com σ11 = σ22 e ρ12 =0.

Figura 4.3. Distribuição normal bivariada com σ11 = σ22 e ρ12 =0.8.
Ferreira, D.F. Estatística multivariada 129

Da análise da expressão (4.4), relativa a densidade de p-variáveis

normais, fica claro que alguns valores padrões de X fornecem alturas constantes

para as densidades elipsóides. Isto significa que a densidade normal é constante

( ) ( Σ ) ( X − µ )
t −1
em superfícies cujas distâncias quadráticas X − µ são constantes.
 

Esses padrões são chamados de contornos ou curvas de nível.

( ) ( Σ ) ( X − µ ) =c
t −1 2
Contornos={todo X tal que X − µ } (4.7)
  

A expressão (4.7) é uma superfície de uma elipsóide centrada em µ ,



cujos eixos possuem direção dos autovetores de Σ-1 e seus comprimentos são

proporcionais ao recíproco da raiz quadrada dos seus autovalores. Demonstra-se

que se λi e ei são os autovalores e autovetores, respectivamente, de Σ, então a




( X − µ ) ( Σ ) ( X − µ ) =c
t −1 2
elipsóide é centrada em µ e tem eixos na direção de


±c λ i
ei (i=1, 2, ..., p).

Considerando como ilustração a densidade normal bivariada com

σ11 = σ22 , os eixos da elipsóide dados por (4.7) são fornecidos pelos autovalores e

autovetores de Σ. Portanto, para obtê-los, a equação |Σ-λI|=0 deve ser resolvida.

σ 11 − λi σ 12
= (σ 11 − λi ) − σ 122 = 0
2

σ 12 σ 11 − λi

= ( λi − σ 11 − σ 12 )( λi − σ 11 + σ 12 ) = 0
4. Distribuição normal multivariada 130

Conseqüentemente os autovalores são:

λ1 = σ11 + σ12 e λ 2 = σ11 − σ12

Os autovetores são determinados por:

Σ e i =λ i e i
 

Para i=1, tem-se:

⎡ σ11 σ12 ⎤ ⎡ e1 ⎤ ⎡ e1 ⎤
⎢σ σ ⎥ ⎢ e ⎥ = (σ11 + σ12 ) ⎢e ⎥
⎣ 12 11⎦ ⎣ 2 ⎦ ⎣ 2⎦

ou,

σ11 e1 + σ12 e2 = (σ11 + σ12 ) e1


σ12 e1 + σ11 e2 = (σ11 + σ12 ) e2

Essas equações levam ao resultado de que e1=e2, e após

normalização, o primeiro autovetor é:

⎡ 1 ⎤
⎢ 2⎥
e1 = ⎢ ⎥
 ⎢ 1 ⎥
⎢⎣ 2 ⎥⎦
Ferreira, D.F. Estatística multivariada 131

De forma similar foi obtido o segundo autovetor, o qual é:

⎡ 1 ⎤
⎢ 2⎥
e1 = ⎢ ⎥
 ⎢ 1 ⎥
⎢⎣ − 2 ⎥⎦

Se a covariância é positiva, λ1 = σ11 + σ12 é o maior autovalor e seu

autovetor associado se posiciona ao longo de uma linha de 450 através do ponto

µ t = [ µ1 µ 2 ] , para qualquer σ12 > 0 . Os eixos são fornecidos por ± c λ i ei (i=1, 2)



e estão representados na Figura 4.4.

c vσ 11 + σ12

cvσ - σ12
2

11

Figura 4.4. Curva de nível de densidade constante para a distribuição normal

bivariada com σ11 = σ22 e σ12 > 0 .

Anderson (1984) demonstra que a escolha de c2= χ p2 (α), em que

χ p2 (α) é o percentil (100α) superior da distribuição de qui-quadrado com p graus de


Ferreira, D.F. Estatística multivariada 133

95%
99%

Figura 4.6. Curvas de níveis de 95% e 99% de probabilidade para a distribuição

normal bivariada apresentada na Figura 4.3, σ11 = σ22 e ρ12 =0,8.

A densidade (4.4) possui máximo quando X = µ . Portanto, µ é o


  
ponto de máxima densidade ou moda, bem como o valor esperado de X , ou

média.

4.5. Distribuição amostral de X e S




Se a pressuposição de que as linhas de


4. Distribuição normal multivariada 134

⎡ x 11 x 12
" x ⎤1p
⎢ ⎥
⎢x x " x
2p ⎥
X = ⎢ 21 22

n × p
⎢ # # % # ⎥
⎢ " x np ⎥
⎣ x n1 x n2 ⎦

se constituem numa amostra aleatória de uma população normal com média µ e



covariância Σ for verdadeira, então este fato é suficiente para completamente

definir a distribuição amostral de X e de S. São apresentadas a seguir estas



distribuições amostrais, fazendo-se um paralelo com a distribuição amostral

univariada que já é familiar e bem conhecida.

No caso univariado (p = 1), sabe-se que X possui distribuição normal

com média µ (média populacional) e variância

σ2
n

O resultado para o caso multivariado (p≥2) é similar a este, no

sentido que X possui distribuição normal com média µ e matriz de covariância


 
(1/n)Σ.

Para a variância amostral, caso univariado, sabe-se que a

distribuição de (n − 1)S2 σ 2 possui distribuição de qui-quadrado com n - 1 graus de

liberdade. Para o caso multivariado, a distribuição da matriz de covariância é


Ferreira, D.F. Estatística multivariada 135

chamada de distribuição de Wishart, após sua descoberta, com (n – 1) graus de

liberdade. Os resultados a seguir resumem detalhes destas distribuições:

Sendo X1 , X 2 , ..., X n uma amostra aleatória de tamanho n de uma população


  
normal p-variada com média µ e matriz de covariância Σ. Então,


1. X possui distribuição normal com média µ e matriz de covariância (1/n)Σ.


 
2. (n-1)S possui distribuição de uma matriz aleatória de Wishart com n-1 gl.

3. X e S são independentes.


Devido a Σ não ser conhecida, a distribuição de X não pode ser



usada diretamente para se fazer inferência sobre µ . Felizmente, S fornece

informação independente sobre Σ e a distribuição de S não depende de µ . Isto

permite que se construam estatísticas para fazer inferência sobre µ , como será

abordado no capítulo 5.

Densidade da distribuição de Wishart

Seja S uma matriz positiva definida, com n>p, então se pode definir,

(n−p−2)/2 −tr(S Σ−1)/2


S e
wn−1(S/ Σ) = p
(4.9)
∏ Γ[ (n − i)]
p(n−1)/2 p(p−1)/4 (n−1)/2
2 π Σ 1
2
i=1
4. Distribuição normal multivariada 136

em que, Γ(.) representa a função gama.

Retornando ao caso da distribuição das médias amostrais, o

resultado 4.1, sintetiza um importante teorema em estatística.

Resultado 4.1. (teorema do limite central) Sendo X1 , X 2 , ..., X n uma amostra


  
aleatória de n independentes observações de uma população qualquer com média

µ e matriz de covariância Σ, finita e não singular. Então,




( )
n X − µ possui distribuição aproximadamente normal Np( 0 , Σ) para grandes
  
amostras. Aqui n deve ser também bem maior do que p (número de variáveis).

Como já foi comentado quando n é grande, S converge em

probabilidade para Σ, consequentemente, a substituição de Σ por S causa efeitos

apenas negligíveis nos cálculos de probabilidades. Desta forma, utilizando a

expressão (4.8), pode-se obter o importante resultado, apresentado a seguir.

Resultado 4.2. (teorema do limite central) Sendo X1 , X 2 , ..., X n uma amostra


  
aleatória de n independentes observações de uma população qualquer com média

µ e matriz de covariância Σ, finita e não singular. Então,




( )
n X − µ possui distribuição aproximadamente normal Np( 0 , Σ )
  
e

( ) ( )
t
n X − µ Σ −1 X − µ se distribui aproximadamente como χ p2 para n - p grande.
   
Ferreira, D.F. Estatística multivariada 137

Para a distribuição normal univariada, se µ e σ são conhecidos, as

probabilidades sob a curva para a distribuição de X , podem ser obtidos das

tabelas da distribuição normal, ou da integral da função apresentada em (4.1) nos

intervalos apropriados, com µ=0 e σ=1, sendo

X−µ
z= (4.10)
σ
n

Alternativamente, pode-se obter a aproximação de Hasting (1955)

citado por Bock (1975), com erro máximo de 10-6, dada por

⎧ G se z ≤ 0
Φ( z ) ≅ ⎨ (4.11)
⎩1 − G se z > 0

em que,

Sendo que Φ( z ) representa a probabilidade acumulada sob a curva

da distribuição normal de -∞ a z;

G = ( a1 η + a2 η 2 + a3 η3 + a4 η 4 + a5 η5 ) φ( z );
4. Distribuição normal multivariada 138

1
η= ;
1 + 0,2316418| z|

z2

φ(z) = (2π ) − 2 e −
1 2
;

a1=0,319381530

a2=-0,356563782

a3=1,781477937

a4=-1,821255978

a5=1,330274429

4.6. Distribuições amostral derivada da distribuição


normal multivariada

Teoria da Distribuição das grandes amostras


e distribuição exata

Na análise dos dados freqüentemente são utilizadas funções das

observações chamadas estatísticas, as quais servem como estimadores dos

parâmetros ou como critério para os testes de hipóteses. A importância de tais


Ferreira, D.F. Estatística multivariada 139

estatísticas muitas vezes depende do conhecimento da (1) distribuição assumida

para as observações, (2) do método de amostragem, e (3) da natureza da função

das observações. Há dois tipos de teoria amostral avaliada para derivar a

distribuição amostral. A teoria das grandes amostras, a qual fornece a distribuição

aproximada à medida que o tamanho amostral cresce indefinidamente, e a teoria

das pequenas amostras ou teoria exata, a qual é válida para qualquer tamanho

amostral.

As distribuições derivadas assumindo o tamanho amostral

indefinidamente grande são chamadas de distribuições assintóticas ou “limitante”.

A teoria assintótica é especialmente simples, como conseqüência do teorema do

limite central que demonstra que muitas estatísticas têm distribuição normal como

limite. Para tais estatísticas é necessário somente obter a média e a variância para

ter a distribuição assintótica.

A distribuição amostral sem considerar os argumentos da teoria

assintótica, geralmente depende do tamanho da amostra e pode ser não-normal

para pequenas amostras, mesmo se a forma limite for normal. Se este for o caso,

algum indicativo de qual tamanho amostral é necessário para uma dada acurácia

na teoria assintótica é extremamente útil para trabalhos práticos. Como exemplo,

pode citar que a distribuição de F, de razões de variâncias, com ν1 graus de

liberdade do numerador e ν2 do denominador, se aproxima de qui-quadrado

dividido por ν1 quando o valor de ν2 cresce sem limite.

χ(2υ1)
lim F(υ1 , υ2 ) =
υ2 →∞ υ1
4. Distribuição normal multivariada 140

Comparando as tabelas de F e qui-quadrado dividido por ν1, pode-se

concluir que ao nível de 0,05, com erro de duas unidades na segunda casa

decimal, quando ν2 for maior que 40, haverá boa concordância. Semelhantemente,

considerando o valor nominal de significância de 0,01, verifica-se que a

concordância com a mesma precisão se dá quando o valor de ν2 excede 100.

Distribuição da soma de quadrados de n desvios


normais aleatórios

Seja Z um vetor ν x 1 de ν observações normais N(0,1) padronizadas.

A estatística

χ(2ν) = Z' Z = z12 + z22 +...+ zυ2 (4.12)

é distribuída como uma variável qui-quadrado com ν graus de liberdade. Foi obtida

em 1876 por Helmert e independentemente em 1900 por Karl Pearson. A função

de distribuição de qui-quadrado pode ser expressa pela função gama incompleta.

1 χ
υ
P(χ2 ≤ χ / υ) = ∫ t ( 2 )−1e− 2 dt
t
υ (4.13)
2 Γ( υ2) 0
2
Ferreira, D.F. Estatística multivariada 141

A função de distribuição (4.13) pode ser aproximada para aplicações

em computadores pela série convergente apresentada a seguir.

e−χ ∞ χn
P(χ ≤χ/ υ) = ∑
2
(4.14)
χ−υ n=0 Γ( υ+ n +1)

1 1
quando χ < max( υ,13) , e caso contrário pela expansão assintótica:
2 2

⎡ υ−1 (υ−1)(υ−2) ⎤
P(χ ≤χ/ υ) ≈χυ−1e−χ ⎢1+ +
2
+...⎥ (4.15)
⎣ χ χ2 ⎦

Os valores de Γ( a) podem ser obtidos pela fórmula de Stirling:

⎡ 1 1 139 571 ⎤
Γ(a) =(a−1)!≈e−aaa−1/2(2π)1/2 ⎢1+ + 2 − − (4.16)
⎣ 12a 288a 51840a 2488320a ⎥⎦
3 4

A forma recursiva Γ( a +1) =a Γ( a ) e Γ( 2) = Γ(1) pode ser usada quando

“a” for pequeno. Sabe-se que a média da distribuição de qui-quadrado, E( χ2 ), é ν

e que sua variância é 2ν. Para ν>30, as probabilidades podem ser obtidas usando

a aproximação normal assintótica usando 2 χ2 − 2υ − 1 como um desvio normal

unitário.
4. Distribuição normal multivariada 142

Razão entre independentes χ2 (F de Fisher)

Sejam χ12 e χ22 , dois χ2 independentes com ν1 e ν2 graus de liberdade,

respectivamente. Então,

χ12 υ1
F= 2
χ 2 υ2

possui distribuição de uma variável F com ν1 e ν2 graus de liberdade. A

distribuição de F foi derivada por R. A. Fisher (1924). A função de distribuição de F

pode ser aproximada pela série convergente da função beta incompleta:

xa (1− x)b ⎡ ∞ B(a +1, n +1) n+1 ⎤


Ix (a, b) = 1+ ∑ x ⎥ (4.17)
aB(a, b) ⎢⎣ n=0B(a + b, n +1) ⎦

Γ( a )Γ( b )
em que, B( a, b ) =
Γ( a + b )

Então,

υ2 υ1
P( F, υ1 , υ2 ) = 1 − I x ( , )
2 2

υ2
em que, x =
υ2 + υ1 F
Ferreira, D.F. Estatística multivariada 143

4.7. Verificando a normalidade

A pressuposição de que cada vetor de observação X j veio de uma



distribuição normal multivariada será requerida nas técnicas estatísticas que serão

abordadas nos capítulos subsequentes. Por outro lado, nas situações em que a

amostra é grande e as técnicas dependem apenas do comportamento de X , ou




( ) ( )
t
distâncias envolvendo X da forma n X − µ S−1 X − µ , a pressuposição de
    

normalidade das observações individuais X j é menos crucial. Isto devido à



aproximação da distribuição normal assintótica das principais estatísticas. No

entanto, melhor será a qualidade da inferência quanto mais próxima à população

parental se assemelhar da forma da distribuição normal multivariada. É imperativo

que existam procedimentos para detectar os casos em que os dados exibam

desvios de moderados a extremos em relação ao esperado sob normalidade

multivariada.

Baseado na distribuição normal sabe-se que todas as combinações

lineares de variáveis normais são normais e que contornos da densidade normal

são elipsóides. Devido às dificuldades de avaliação de um teste conjunto em todas

as dimensões, os testes para checar a normalidade serão concentrados em uma

ou duas dimensões. Obviamente se paga um preço por estas simplificações, como

não revelar algumas características que só podem ser observadas em dimensões

maiores. É possível, por exemplo, construir uma distribuição não normal bivariada
4. Distribuição normal multivariada 144

com marginais normais. No entanto, muitos tipos de não normalidade são

revelados em geral nas distribuições marginais, e para aplicações práticas será

suficiente checar a normalidade em uma ou duas dimensões.

Verificando a validade da normalidade por meio


da distribuição marginal

Textos elementares muitas vezes recomendam que a normalidade

univariada seja investigada, examinando o histograma de freqüência amostral para

avaliar discrepâncias entre as freqüências observadas e esperadas pelo ajuste da

distribuição normal. Usualmente, sugere-se também que as discrepâncias sejam

submetidas ao teste de aderência de qui-quadrado. Um χ2 significativo (P<0,05) é

tido como evidência contra a normalidade da população.

Apesar de este método ter a virtude da simplicidade de computação

e ser livre do tipo de desvios da normalidade que esteja sendo testado (curtose,

assimetria, etc.), tem a desvantagem, quando aplicados a dados contínuos, de

depender da arbitrariedade da escolha dos intervalos de agrupamento dos dados.

Essa escolha determina a resolução do histograma e o número de termos a ser

somado para obter a estatística de χ2 . Uma escolha errada pode conduzir a

resultados não consistentes. Se a escolha de a amplitude dos intervalos for muito

estreita, o histograma pode ser irregular e a acurácia do χ2 pode ser grandemente

afetada devido aos pequenos valores esperados. Se os intervalos são largos,

desvios de normalidade podem ser obscurecidos tanto no histograma quanto no

teste de χ2 .
Ferreira, D.F. Estatística multivariada 145

Uma melhor aproximação, evitando todas essas dificuldades, é

conseguida fazendo uso de métodos que não requerem agrupamento de escores.

Felizmente, excelentes procedimentos gráficos e computacionais existem para

este propósito.

a) Distribuição de proporções

A distribuição normal univariada possui probabilidade de 0,683 para

o intervalo [µ i − σ ii ; µ i + σ ii ] e probabilidade de 0,954 para o intervalo

[µ i ]
− 2 σ ii ; µ i + 2 σ ii (Figura 4.1). Consequentemente, para grandes amostras de

tamanho n, é esperado que a proporção de P i1 observações contidas no intervalo

[X i − s ii ; X i + s ii ] seja de cerca de 0,683, e de forma semelhante, espera-se

[
que a proporção P i2 de observações em X i − 2 s ii ; X i + 2 s ii seja de cerca de]
0,954. Usando a aproximação normal da distribuição de P i , então se

0,683 × 0,317 1,396


| P i1 − 0,683 | > 3 =
n n

0,954 × 0,046 0,628


| P i 2 − 0,954 | > 3 =
n n
4. Distribuição normal multivariada 146

devem indicar desvios da distribuição normal para i-ésima característica (Johnson

& Wichern, 1988).

b) Processos gráficos

Os gráficos são em geral úteis para avaliar desvios da normalidade.

Dois processos gráficos serão considerados neste capítulo.

i) Q-Q plot

Esses gráficos são obtidos da distribuição marginal das observações

de cada variável. Consiste em plotar em um plano cartesiano os percentis

amostrais versus os percentis esperados pelo ajuste de uma distribuição normal.

Se os pontos pertencem a uma linha reta a pressuposição de normalidade deve

ser aceita.

Sejam x1, x2, ..., xn as n observações de uma variável X. Sejam x(1),

x(2), ..., x(n) essas observações ordenadas crescentemente, ou seja, x(1) é a menor

observação e x(n) é a maior. Quando os x(j) são distintos, exatamente j

observações são menores ou iguais a x(j) (isto é teoricamente verdadeiro quando

as observações são do tipo contínuo, o que em geral será assumido). A proporção

amostral j/n é aproximada por (j-½)/n, onde ½ é usado para correção de

descontinuidade.

Os percentis esperados sob normalidade são dados por (q(j)):


Ferreira, D.F. Estatística multivariada 147

q( j )
j − 12

2
= 1

e− z /2
dz (4.18)
n −∞

Os percentis q(j) podem ser obtidos, como se percebe por (4.18), pela

inversão da função de distribuição de probabilidade da normal, em rotinas

apropriadas em computadores ou através de tabelas da distribuição normal.

(Tabela A.1).

Os percentis q(j) e x(j) são plotados em um sistema cartesiano com q(j)

na abscissa e x(j) na ordenada. Desvios da normalidade podem ser observados

pela inspeção deste tipo de gráfico, cujos pontos, quando da normalidade devem

pertencer a uma linha reta de mínimos quadrados. No exemplo 4.1 ilustram-se os

cálculos necessários para obtenção dos Q-Q plots.

Exemplo 4.1

Seja uma amostra (n=10) obtida de uma população normal N(3; 4) apresentada a

seguir. Neste caso, a observação 4 constitui-se um “outlier”, propositadamente

gerado.

{3,74; 2,91; 4,79; 8,65; 2,06; 4,59; 4,02; 0,46; 1,79; 3,30}

Dessa forma para se obter o Q-Q plot é necessário os seguintes

passos:
4. Distribuição normal multivariada 148

1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de

probabilidade acumulada (j-½)/n.

j x(j) (j-½)/n q(j)

1 0,46 0,05 -1,645


2 1,79 0,15 -1,036
3 2,06 0,25 -0,675
4 2,91 0,35 -0,385
5 3,30 0,45 -0,126
6 3,74 0,55 0,126
7 4,02 0,65 0,385
8 4,59 0,75 0,675
9 4,79 0,85 1,036
10* 8,65 0,95 1,645

2) calcular os percentis da distribuição normal padrão.

q(1)
j − 12 1 − 12

2
Ex. Para a observação 1 tem-se: = = 0, 05 = 1

e− z /2
dz
n 10 −∞

Portanto, q(1) = -1,645, e assim sucessivamente.

3) plotar (q(1), x(1)), (q(2), x(2)), ..., (q(n), x(n)) e examinar os resultados
4. Distribuição normal multivariada 150

observação e refazer a análise para os dados amostrais remanescentes, o que é

deixado a cargo do leitor.

Este processo gráfico, embora bastante poderoso para se verificar

desvios da normalidade não constitui num teste formal deste propósito. Para

contornar esta limitação, Johnson & Wichern (1988) apresentam um teste

complementar a este processo gráfico, o qual mede o ajuste dos pontos do Q-Q

Plot a linha reta de mínimos quadrados por meio de uma medida de um

coeficiente de correlação apresentada a seguir.

∑(x ) (q )
n

( j) −x ( j) −q
j=1
rQ = (4.19)
2 2

∑(x ) ∑ (q )
n n

( j) −x ( j) −q
j=1 j=1

Um poderoso teste de normalidade pode ser construído tomando-se

por base este coeficiente de correlação (4.19). Formalmente rejeita-se a hipótese

de normalidade se o valor calculado for menor que os valores críticos para um

determinado nível de significância (Tabela 4.1).


Ferreira, D.F. Estatística multivariada 151

Tabela 4.1. Valores críticos para o teste para normalidade baseado no coeficiente

de correlação Q-Q plot.

Tamanho amostral Nível de significância (α)

n 0,01 0,05 0,10

5 0,8299 0,8788 0,9032


10 0,8801 0,9198 0,9351
15 0,9126 0,9389 0,9503
20 0,9269 0,9508 0,9604
25 0,9410 0,9591 0,9665
30 0,9479 0,9652 0,9715
40 0,9599 0,9726 0,9771
50 0,9671 0,9768 0,9809
60 0,9720 0,9801 0,9836
75 0,9771 0,9838 0,9866
100 0,9822 0,9873 0,9895
150 0,9879 0,9913 0,9928
200 0,9905 0,9931 0,9942
300 0,9935 0,9953 0,9960
Fonte: Johnson & Wichern (1998)

Exemplo 4.1 (continuação)

Calculando a correlação amostral, através de (4.19), obteve-se:

18, 77109
rQ = = 0,9523
44,15849 8, 798094

Como, o valor tabelado ao nível de 5% de probabilidade (0,918) é

inferior ao valor calculado (0,9523), então, não existe razão para duvidar da

hipótese de normalidade.
4. Distribuição normal multivariada 152

ii) Gráfico das probabilidades acumuladas

Um segundo processo gráfico, bastante utilizado, refere-se aos

gráficos em que são plotados as probabilidades amostrais acumuladas versus

probabilidades acumuladas da distribuição normal (Bock, 1975). O algoritmo é:

1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de

probabilidade acumulada pj = (j-½)/n, amostrais.

2) Calcular a média amostral e o desvio padrão viesado

2
⎛ n ⎞
n
⎜ ∑ Xj ⎟
∑ X2j − ⎝ ⎠
j =1

j =1 n
Sn = (4.20)
n

3) Obter as probabilidades normais acumuladas utilizando (4.11) ou tabelas da

distribuição normal, através de:

Xj − X
Zj =
Sn

Pj=Φ(Zj)
Ferreira, D.F. Estatística multivariada 153

4) Plotar Pj (abcissa) contra pj (na ordenada)

Exemplo 4.2

Com os dados do exemplo 4.1, o algoritmo apresentado no item (ii) foi executado,

resultando nos seguintes valores:

j x(j) pj = (j-½)/n Pj

1 0,46 0,05 0,066


2 1,79 0,15 0,189
3 2,06 0,25 0,227
4 2,91 0,35 0,367
5 3,30 0,45 0,436
6 3,74 0,55 0,520
7 4,02 0,65 0,575
8 4,59 0,75 0,677
9 4,79 0,85 0,709
10* 8,65 0,95 0,992
Na Figura 4.8 estão plotados os pontos Pj (abcissa) contra pj (na

ordenada).

1.0

0.8

0.6
pj
0.4

0.2

0.0
0.0 0.2 0.4 0.6 0.8 1.0
Pj

Figura 4.8. Gráfico normal acumulado da amostra simulada no exemplo 4.1.


4. Distribuição normal multivariada 154

Se a população for normal, os pontos tendem a cair em uma linha

definida pela reta Pj=pj. Uma vez que o gráfico apresenta efeitos cumulativos, os

pontos não são independentes e ainda pode-se afirmar que sucessivos pontos

não tenderão a se situar aleatoriamente em ambos os lados da linha. Em outras

palavras, um grupo de pontos sucessivos poderá estar de um lado da reta ou de

outro, sem ser um indicativo de desvio da normalidade. Alguma familiaridade com

este tipo de gráfico indicará a forma da distribuição e os desvios da normalidade

que possam ocorrer.

De maneira geral, as situações mais comuns devem se enquadrar

nos seguintes tipos de gráficos. Distribuições assimétricas à esquerda tenderão a

ter seus pontos de extremos no lado superior da reta, e os pontos intermediários

no lado inferior da mesma. Para distribuições assimétricas à direita, o oposto deve

ocorrer, ou seja, pontos extremos no lado inferior da reta e pontos intermediários

no lado superior.

Os achatamentos da distribuição, conhecidos por curtose, também

podem ser detectados. Nas distribuições leptocúrticas, os pontos de menor

densidade acumulada se concentram no lado inferior da reta, vindo a cruzá-la no

centro. Os pontos de maior densidade se concentram no lado superior da reta, a

partir do centro. Nas distribuições platicúrticas, o oposto se dá, ou seja, pontos de

menor densidade acumulada se concentram no lado superior, e os pontos de

maior densidade no lado inferior da reta, vindo a cruzá-la no centro. Distribuições

bimodais possuem gráficos que representam os casos extremos da distribuição

platicúrtica.
Ferreira, D.F. Estatística multivariada 155

c) Uso dos momentos

Os momentos não centrados para a média, podem ser calculados a

partir dos dados amostrais, fazendo 1/n como densidade para cada ponto

amostral. Desta forma, pode-se definir, o r-ésimo momento amostral não centrado

para média por:

~ =1∑
m
n
x rj (4.21)
r
n j=1

Pode-se então, definir a média amostral, e o segundo, terceiro e

quarto momentos centrados na média, em função dos momentos não centrados

por:

Média: µ 1 = 0 (4.22)

Variância: ~ ~ −m
µ2 = m ~2 (4.23)
2 1

Assimetria ~ ~ − 3m
µ3 = m ~ m ~ + 2m
~3 (4.24)
3 1 2 1

Curtose µ 4 = m
 4 −4 m  3 + 6m
1 m  2 − 3m
 12 m  14 (4.25)
4. Distribuição normal multivariada 156

Os valores amostrais de o coeficiente de assimetria e curtose são,

respectivamente:

~
µ 3
b1 = (4.26)
~
µ2 µ ~
2

~
µ
b 2 = ~ 42 (4.27)
µ2

O coeficiente de assimetria populacional, para a distribuição normal,

é β1 = 0 e o coeficiente de curtose é β2=3. Se β1 < 0 , então, a distribuição é

assimétrica à esquerda, caso contrário, β1 > 0 , a distribuição é assimétrica à

direita. Distribuições com β2<3 são platicúrticas (menos pontudas com caudas

mais baixas do que a normal), e aquelas com β2>3 são leptocúrticas (mais

pontudas e com caudas mais altas do que a normal).

Exemplo 4.3

Utilizando os dados do exemplo 4.1 calcular os momentos e os coeficientes de

assimetria e curtose amostrais.


Ferreira, D.F. Estatística multivariada 157

x x2 x3 x4

0,46 0,2116 0,0973 0,0448


1,79 3,2041 5,7353 10,2663
2,06 4,2436 8,7418 18,0081
2,91 8,4681 24,6422 71,7087
3,30 10,8900 35,9370 118,5921
3,74 13,9876 52,3136 195,6530
4,02 16,1604 64,9648 261,1585
4,59 21,0681 96,7026 443,8648
4,79 22,9441 109,9022 526,4317
8,65 74,8225 647,2146 5598,4070
36,31 176,0001 1046,2520 7244,1350

Têm-se:
~ =36,31/10=3,631
m 1

~ =176,0001/10=17,6000
m 2

~ =1046,2520/10=104,6252
m 3

~ =7244,135/10=724,4135
m 4

~ = 3,631
µ 1

~ = 17,6 - (3,631)2 = 4,4158


µ 2

~ = 104,6252 - 3 x 3,631 x 17,6 + 2 x (3,631)3 = 8,6518


µ 3

~ = 724,4135 - 4 x 3,631 x 104,6252 + 6 x (3,631)2 x 17,6 - 3 x (3,631)4 = 75,6182


µ 4
4. Distribuição normal multivariada 158

b 1 = 8,6518/(4,4158 x 4,41581/2 ) = 0,9324

b2 = 75,6182/(4,4158)2 = 3,8780

c.1) Uso do coeficiente de assimetria

Para se avaliar o grau de assimetria da distribuição, um teste

baseado no coeficiente de assimetria (4.26), pode ser realizado. Níveis críticos

para a estatística b 1 , podem ser encontrados em Pearson e Hartley (1966) para

n>24, e em D’Agostino e Tietjen (1973) para n variando de 5 a 35. A assimetria

será à esquerda se b1 for negativo, e à direita se b1 for positivo,

significativamente. Em grandes amostras, os valores críticos de b 1 podem ser

obtidos com boa aproximação usando como desvio da normal padrão a estatística:

(n + 1)(n + 3)
Z1 = b1 (4.28)
6(n − 2)

c.2) Uso do coeficiente de curtose

Valores críticos para o coeficiente de curtose (4.27), podem ser

encontrados em Pearson e Hartley (1966) para n>49 e D’Agostino e Tietjen (1971)


Ferreira, D.F. Estatística multivariada 159

para n variando de 7 a 50. Em grandes amostras, os valores críticos para o teste

de achatamento da curva, podem ser aproximados usando como desvio normal a

seguinte estatística:

⎛ 6 ⎞ (n +1)2 (n +3) (n +5)


Z2 = ⎜b2 − 3 + ⎟ (4.29)
⎝ n +1⎠ 24n(n −2) (n −3)

Valores de b2 maiores que 3 indicam que a distribuição é mais

pontuda com caldas mais altas do que a normal; valores menores que 3 indicam

uma distribuição achatada no centro e com caudas mais baixas do que a

distribuição normal.

Exemplo 4.3 (continuação)

Os valores de Z1 e Z2, para o teste de assimetria e curtose foram:

Z1=1,609 com P(Z>|Z1|)=0,1074

Z2=1,886 com P(Z>|Z2|)=0,0592

Desta forma, ao nível de 5% de probabilidade se aceita a hipótese de

simetria e de não achatamento da curva, demonstrando não se ter desvio da

normalidade.
4. Distribuição normal multivariada 160

Verificando a normalidade multivariada

Em geral se deseja verificar a normalidade para dimensões

superiores a 1, ou seja, para a distribuição p-variada, p≥2. Mesmo que seja

suficiente, como já comentado anteriormente, avaliar apenas as distribuições

univariadas e bivariadas o procedimento apresentado nessa seção é válido para

qualquer p. O caso bivariado será enfocado nesta seção, devido às facilidades de

cálculos para fins didáticos.

Pelo resultado 4.2, dado vetor X com distribuição normal p-variada,



tem-se que,

( x −µ ) Σ ( x −µ ) ≤ χ (1−α)


t
−1 2
p

Através deste resultado, pode-se então, generalizar o processo

gráfico conhecido como Q-Q plot. Dada uma amostra bivariada com n

observações, o algoritmo seguinte pode ser usado para generalizar o processo

gráfico mencionado. É importante salientar que este processo não é limitado

apenas ao espaço bidimensional.

O algoritmo será apresentado, utilizando os dados do exemplo 1.1,

com X1 representando a quantidade de reais pela venda de ração, e X2 sendo o

número de sacos de rações vendidos, por n = 4 firmas de Minas Gerais.


Ferreira, D.F. Estatística multivariada 161

Exemplo 4.4

1) Calcular a distância quadrada generalizada amostral d(j) de cada observação

em relação à média amostral, dada por:

d 2j = (x j − x) 'S−1 (x j − x) , j=1, 2, ..., n


   

Os valores da média e da matriz de covariância amostrais foram

apresentados no exemplo 1.2, e são:

⎡100 ⎤ ⎡333,333 20,000⎤


X=⎢ ⎥ e S=⎢ ⎥
 ⎣ 9⎦ ⎣ 20,000 6,667 ⎦

A matriz inversa de S é:

⎡ 0,0037 − 0,0110⎤
S −1 = ⎢
⎣− 0,0110 0,1829⎥⎦

A distância generalizada para primeira observação é:

⎡ 0, 0037 −0, 0110 ⎤ ⎡80 − 100 ⎤


d12 = [80 − 100 10 − 9] ⎢ = 2, 0853
⎣ −0, 0110 0,1829 ⎥⎦ ⎢⎣ 10 − 9 ⎥⎦

E assim sucessivamente, para as demais observações:


4. Distribuição normal multivariada 162

d 22 = 1,7926; d 32 = 1,3536 e d 24 = 0,7683.

2) ordenar as distâncias quadráticas amostrais do menor para o maior


2
d (1) ≤ d (22 ) ≤...≤ d (2n ) .

3) Obter os valores correspondentes, percentis, de probabilidade acumulada

q(j)= χ 2p ((j-½)/n), da distribuição de qui-quadrado. Estes percentis dependem da

inversa da função de distribuição de qui-quadrado, e podem ser obtidos em vários

softwares estatísticos.

J d (2j) (j-½)/n q(j)

1 0,7683 0,125 0,2671


2 1,3536 0,375 0,9400
3 1,7926 0,625 2,2479
4 2,0853 0,875 4,1589

4) Plotar ( d (2j) ; q(j)) e examinar os resultados


Ferreira, D.F. Estatística multivariada 163

2
q(j)

0.6 0.8 1.0 1.2 1.4 1.6 1.8 20 2.2


2
d(j)

Figura 4.9. Q-Q plot para os dados do exemplo 1.1, destacando a possibilidade de

utilização deste processo para os casos de dimensões superiores ou

iguais a 2.

Pela Figura 4.9, verifica-se que não existem razões para duvidar de

que a distribuição do número de sacos de rações vendidos e o montante de

dinheiro arrecadado pelas firmas de rações em Minas Gerais, não seja normal

bivariada, apesar do pequeno tamanho de amostras.

Verificando a normalidade multivariada por meio


da curtose e assimetria de Mardia

Os coeficientes de assimetria e curtose de uma distribuição

multivariada qualquer são definidos por:


4. Distribuição normal multivariada 164

{( )}
3

) (
t
β1,p = E X − µ Σ −1 Y − µ (4.30)
   

em que a variável X é independente de Y , mas tem a mesma distribuição com


 
média µ e covariância Σ ; e


{( )}
2

) (
t
β2,p = E X − µ Σ −1 X − µ (4.31)
   

Essas esperanças para a distribuição normal multivariada são:

β1,p = 0 e β2,p = p(p + 2)

Para uma amostra de tamanho n, os estimadores de β1,p e β2,p são:

n n
1
βˆ 1,p = 2
n
∑∑ g
i =1 j=1
3
ij

1 n 1 n
βˆ 2,p = ∑ g i2i = ∑ d i4
n i =1 n i =1

em que,

g i j = ( X i − X ) Sn−1 ( X − X) e
t
j di = gi i
  
Ferreira, D.F. Estatística multivariada 165

Os estimadores β̂1,p (quadrado do coeficiente de assimetria quando

p=1) e β̂2,p (igual ao coeficiente de curtose univariado quando p=1) são não-

( )
negativos. Sob distribuição normal multivariada espera-se que a E( E βˆ 1,p ) seja

zero. O estimador β̂2,p é muitas vezes usado para avaliar observações que estão a

grandes distâncias da média amostral.

Mardia (1970) mostra que para grandes amostras,

nβˆ 1,p
k1 =
6

segue a distribuição de χ2 com p(p+1)(p+2)/6 graus de liberdade, e

k2 =
{ βˆ 2 ,p − p(p + 2) }
1/ 2
⎡ 8p(p + 2) ⎤
⎢⎣ n ⎥⎦

segue a distribuição normal padrão. Para pequenos valores de n, as tabelas de

valores críticos para testar a hipótese multivariada de normalidade são fornecidas

por Mardia (1974).

Exemplo 4.5

Usando o exemplo das rações testar a normalidade multivariada pelo teste dos

desvios de assimetria e curtose. Os valores amostrais são:


4. Distribuição normal multivariada 166

Obs Reais Vendas


1 80 10
2 120 12
3 90 6
4 110 8

As estatísticas amostrais são:

⎡100 ⎤ ⎡250 15⎤ −1 ⎡ 0,004878 − 0,014634⎤ 1 ⎡ 5 − 15⎤


X = ⎢ ⎥ Sn = ⎢ ⎥ Sn = ⎢ ⎥ ou S n−1 =
 ⎣ 9⎦ ⎣ 15 5⎦ ⎣− 0,014634 0,243902⎦ 1025 ⎢⎣− 15 250⎥⎦

Os desvios de cada observação da média amostral ( εi ):




1. ε1t = [ −20 1] 2. ε 2t = [ 20 3] 3. ε3t = [ −10 −3] 4. ε 4t = [10 −1]


   

i) Teste baseado no coeficiente de assimetria

É necessário calcular os valores de gij para todos os pares de i e j,

obtidos da seguinte forma:

⎡− 20⎤
Para i=1 e j=1, g 1 1 = [− 20 1]Sn−1 ⎢ ⎥ = 2,7805
⎣ 1 ⎦

⎡ 20 ⎤
Para i=1 e j=2, g1 2 = [ −20 1] S−n1 ⎢ ⎥ = −0, 6341
⎣3⎦
Ferreira, D.F. Estatística multivariada 167

Para as demais combinações, têm-se: g1 3=-0,4878, g1 4=-1,6585,

g2 2=2,3902, g2 3=-1,8537, g2 4=0,0976, g3 3=1,8049, g3 4=0,5366 e g4 4=1,0244.

Logo,

βˆ 1,,2 =
( 2, 7805
3
+ 2(−0, 6341)3 + " + 1, 02443 )
=1,2766
16

então,

nβˆ 1, 2 4 × 1,2766
k1 = = = 0,8511
6 6

Como k1 ∼ χ 2 com p(p+1)(p+2)/6=4 graus de liberdade, e sabendo

que χ 02,05; 4 = 9,488 , então H0 não deve ser falseada, ou seja, não existe razões

para suspeitar da violação da simetria da distribuição multivariada.

ii) Teste baseado no coeficiente de curtose

Inicialmente, estima-se o coeficiente de curtose da seguinte forma:

1 n 2 1
n i =1 4
(
βˆ 2,p = ∑ g i i = 2,7805 + 2,3902 + 1,8049 + 1,0244 =
2 2 2 2 17,7513
4
= 4,4378 )
4. Distribuição normal multivariada 168

em seguida, estima-se o valor estimado da normal (0, 1):

4, 4378 − 2(2 + 2) −3,5621


k2 = 1
= = −0,8905
⎛ 8× 2× 4 ⎞ 2 4
⎜ ⎟
⎝ 4 ⎠

Não existem razões para duvidar de que a distribuição multivariada

tenha algum desvio de curtose, uma vez que k 2 < z 0, 025 = 1,96 .

iii) Programa SAS para o teste de normalidade

A seguir são apresentados um programa SAS usando o Proc Calis

para o teste da curtose e um programa em IML, para ambos parâmetros. O

programa fornece as estatísticas amostrais e os valores das significâncias

observadas.

Data FR; Proc IML;


Input Reais Vendas; use FR;
cards; read next 4 into X; /* lendo n observacoes dentro de X */
80 10 n=nrow(X);p=ncol(X);
120 12 dfchi=p*(p+1)*(p+2)/6; /*definindo GL para B1,p */
90 6 q=i(n) - (1/n)*j(n,n,1); /* criando q=I-1/nJ, auxiliar */
110 8 S=(1/n)*x`*q*x; /* matriz de covariancias viesada */
; S_inv=inv(S); /* inversa de S */
Proc Calis data=FR Kurtosis; print s s_inv;
Title1 j=1 "Uso do Calis para testar a g=q*x*s_inv*x`*q; /* matriz com gij */
normalidade"; print g;
Title2 "pela Curtose de Mardia"; beta1=(sum(g#g#g))/(n*n); /*produto elem. a elem. E sua soma/n^2 */
Lineqs beta2=trace(g#g)/n; /* idem com tomada do traco/n */
Reais=e1, print beta1 beta2;
vendas=e2; k1=n*beta1/6; /* definindo k1 e k2, transformacoes de b1,p e b2,p */
std k2=(beta2-p*(p+2))/sqrt(8*p*(p+2)/n);
e1=eps1, e2=eps2; pvalskew=1-probchi(k1,dfchi); /* calculo dos p_values respectivos */
Cov pvalkurt=2*(1-probnorm(abs(k2)));
e1=eps1, e2=eps2; print k1 pvalskew;
Run; print k2 pvalkurt;
Quit; /* abandonando IML */
Ferreira, D.F. Estatística multivariada 169

Finalmente é apresentado a seguir um programa SAS para orientar

os leitores na simulação de dados com distribuição normal multivariada com média

e covariância especificada. O exemplo apresentado gera uma distribuição normal

trivariada.

Proc IML;
n=100;p=3;
SIG={8 4 1,
4 10 3,
1 3 18};
st=Root(sig);
mu={1, 10, 8};
x=j(n,p,0);
zi=j(p,1,0);
do i=1 to n;
do ii=1 to p;
zi[ii]=rannor(0);
end;
xi=st`*zi+mu;
do ii=1 to p;
x[I,ii]=xi[ii];
end;
end;
print x;
create dtnorm from x;
append from x;
quit;
proc print data=dtnorm;
run;quit;
4. Distribuição normal multivariada 170

4.8. Exercícios

4.8.1. Com os dados do exemplo 4.4, tendo como hipótese que os mesmos

seguem a distribuição normal bivariada, utilize o resultado 4.2, ao nível de

50%, de que as distâncias generalizadas seguem a distribuição

qui-quadrado. Utilizando então a distribuição de proporções, item (a),

verifique a normalidade bivariada dos dados, contando a proporção

observada ( P i ) de distâncias que pertencem a elipse, e comparando com a

estatística abaixo.

0,5 × 0,5 1,5


| P i − 0,5 | > 3 =
n n

4.8.2. Utilizando os dados deste exemplo (1.1), realize todos os testes univariados,

propostos, neste capítulo, para ambas variáveis.

4.8.3. Utilizando os dados climáticos, obtidos por Diniz (1996), na fazenda

Cooparaíso-EPAMIG, Jacuí, MG, de agosto de 1994 a janeiro de 1995,

teste a pressuposição de normalidade tridimensional dos mesmos. Utilize

para isso, o processo gráfico apresentado, e o teste do exercício número

4.8.1 e o teste baseado nos desvios de assimetria e curtose de Mardia.


Ferreira, D.F. Estatística multivariada 171

Temperatura Umidade Relativa (%) Precipitação (mm)

22,7 64,1 7,9


23,7 56,1 1,5
24,3 54,9 0,0
24,4 58,2 0,0
24,5 62,8 8,7
25,2 70,3 22,5
25,5 75,2 57,0
24,7 81,4 75,7
24,3 79,3 123,2
24,7 74,6 124,4
24,9 78,0 148,0

4.8.4. Utilize os dados de uma amostra de 24 cochonilhas, fêmeas adultas, de

Quadraspidiotus perniciosus (Comst.), por ramo de pessegueiro, na região

de Jacuí-MG, e teste a pressuposição de normalidade dos dados, utilizando

os procedimentos apresentados univariados na seção 4.7.

0,8 1,0 0,6 0,6 0,2 0,8 2,5 1,5 0,3 1,7 1,9 2,5 1,1 5,0 0,9 1,7 2,6 4,5

1,8 1,0 0,5 0,4 1,8 0,7


||[ 5
Inferências sobre o vetor média
]||
5.1. Introdução

Este capítulo é o primeiro deste material a apresentar inferências,

utilizando as técnicas, os conceitos e os resultados apresentados nos capítulos

prévios. Este capítulo, por estar intimamente relacionado à inferência estatística,

ou seja, é voltado para obtenção de conclusões válidas para a população com

base nas informações amostrais. As inferências realizadas neste capítulo são

relativas a vetor populacional de médias e nos seus componentes. Umas das

mensagens centrais da análise multivariada, que deverá ser abordada neste e nos

próximos capítulos, é que p variáveis correlacionadas devem ser analisadas

simultaneamente.

5.2. Inferências sobre média de uma população


normal

Nesta seção serão abordados os testes de significância e a obtenção

de intervalos de confiança (IC) para a média de uma população normal.


5. Inferências sobre o vetor média 172

Inicialmente será abordado o problema de verificar se um determinado valor µ 0 é



um possível valor (plausível) para a verdadeira média populacional desconhecida.

Do ponto de vista dos testes de hipóteses este problema pode ser abordado

através do teste:

H0 : µ = µ0 vs H1 : µ ≠ µ 0
   

aqui, H0 é a hipótese nula e H1 é a hipótese (bilateral) alternativa. Considerando o

caso univariado, e se X1, X2, ..., Xn representam uma amostra aleatória extraída de

uma população normal, o teste estatístico apropriado para esta hipótese, quando p

é igual a 1, é:

t=
( X − µ ) , em que, X = 1 ∑X
0 n
e S2 =
1 n
∑(Xj − X)2 .
S n j=1 j
n −1 j=1
n

O teste em questão segue a distribuição de t-student com n-1 graus

de liberdade. A hipótese H0 será rejeitada se o valor observado de |t| exceder um

valor crítico especificado da distribuição de t-student com n-1 graus de liberdade

(GL).

Analogamente, considerando agora a distância quadrada da média

amostral X para o valor a ser testado, pode-se rejeitar H0 a um nível de

significância α, se
Ferreira, D.F. Estatística multivariada 173

t2 = n(X−µ0)(S2)−1 (X−µ0) ≥ tn2−1(α 2) (5.1)

em que, t n2 −1 (α / 2) representa o quantil quadrático superior 100(α/2) da distribuição

de t-student com n-1 GL.

Se H0 não é rejeitada, então se conclui que µ0 é um valor plausível

para representar a média populacional normal. No entanto, uma pergunta natural

pode surgir: existem outros valores de µ que são consistentes com os dados? A

resposta é sim. De fato, existe um conjunto de valores plausíveis que serviriam

como média para a população normal estudada. Da bem conhecida

correspondência entre a região de aceitação dos testes de hipóteses e o intervalo

de confiança para µ tem-se:

X −µ0
< tn−1(α / 2) (não rejeitar H0) é equivalente a:
S
n

S S
X − t n −1 ( α / 2 ) ≤ µ 0 ≤ X + t n −1 ( α / 2 ) (5.2)
n n

Antes de a amostra ser retirada, o intervalo de confiança de

100(1-α)% de (5.2) é um intervalo aleatório, pois seus limites dependem das

variáveis aleatórias X e S. A probabilidade do intervalo conter µ é 100(1-α)% e


5. Inferências sobre o vetor média 174

entre um grande número independentes de tais intervalos, 100(1-α)% deles

conterão µ.

É considerada agora a generalização do caso univariado para o

multivariado. O problema de determinar se um dado vetor µ 0 (p x 1) é um valor



plausível da média de uma distribuição normal multivariada. Uma generalização da

distância quadrada apresentada em (5.1) é:

( ) ( )
t
T 2 = n X − µ 0 S−1 X − µ 0 (5.3)
   

em que,

⎡ µ01 ⎤
⎢ ⎥
1 n 1 n ⎢µ02 ⎥
X = ∑Xj , S = ∑ ( X j − X )( X j − X ) e µ0 = ⎢ ⎥
t

 n j=1  n − 1 j=1      #
⎢ ⎥
⎣⎢µ0p ⎦⎥

A estatística T2 é chamada de chamada de T2 de Hotelling, em honra

a Harold Hotelling (Bock, 1975), um pioneiro da estatística multivariada, que pela

primeira vez obteve a sua distribuição. Felizmente, tabelas especiais dos pontos

percentuais para a distribuição T2 não são necessárias na realização dos testes de

hipóteses, devido à estatística:

(n − 1)p
T2 ser distribuída como Fp,n −p (5.4)
n−p
Ferreira, D.F. Estatística multivariada 175

em que, Fp,n-p representa uma variável com distribuição F com p e n-p GL.

De uma forma geral a distribuição de T2 considerando ν graus de

liberdade e dimensão p é dada por:

νp
T 2 = Fp,ν+1− p × (5.5)
ν +1− p

Desta forma para se testar a hipótese H 0 : µ = µ 0 versus H1 : µ ≠ µ 0 ,


   
no valor nominal α de significância, deve-se rejeitar H0 em favor de H1 se

(n − 1)p
( ) ( )
t
T 2 = n X − µ 0 S−1 X − µ 0 > Fp,n − p (α) (5.6)
    n−p

Infelizmente, é raro, nas situações multivariadas, o pesquisador se

satisfazer com o teste da hipótese H 0 : µ = µ 0 , em que todos os componentes do


 
vetor média são especificados sob a hipótese de nulidade. Em geral é preferível

encontrar regiões de valores de µ que são plausíveis para serem o vetor de média

populacional na luz dos dados observados.

Exemplo 5.1

A matriz X, apresentada a seguir, representa uma amostra de n=3 observações

retiradas de uma distribuição normal bivariada.


5. Inferências sobre o vetor média 176

⎡11 2 ⎤
X = ⎢⎢10 4 ⎥⎥
⎢⎣ 9 3 ⎥⎦

Teste a hipótese de que µ 0t =[9 2] seja um valor plausível para representar a média

populacional.

A estatísticas amostrais são:

⎡10 ⎤ ⎡ 1,0 −0,5⎤


X=⎢ ⎥ e S=⎢ ⎥
 ⎣3⎦ ⎣ −0,5 1,0 ⎦

Então,

1 ⎡4 2⎤
S−1 =
3 ⎢⎣ 2 4 ⎥⎦

E o valor de T2 será obtido da seguinte forma:

1 ⎡ 4 2 ⎤ ⎡10 − 9 ⎤
T 2 = 3 [10 − 9 3 − 2] = 12
3 ⎢⎣ 2 4 ⎥⎦ ⎢⎣ 3 − 2 ⎥⎦

O valor de F2,1 ao nível de 5% é 199,5, então, H0 será rejeitada se o

valor observado de T2 superar


Ferreira, D.F. Estatística multivariada 177

(n − 1)p 4
F2,1 = 199,5 = 798,0 .
n−p 1

Como neste caso, o valor de T2 observado (12,0) foi inferior ao valor

crítico (798,0), então, H0 não deve ser rejeitada. É importante salientar neste

ponto, que a hipótese H0 será rejeitada se um ou mais dos componentes do vetor

média amostral, ou alguma combinação de médias, diferir muito do valor hipotético

µ 0t = [9 2]. Neste estágio, não se tem idéia de quais os valores hipotéticos não são

suportados pelos dados.

5.3. Região de confiança e Comparações


simultâneas de componentes de média

Será inicialmente, generalizado o conceito univariado de intervalo de

confiança para o multivariado de região de confiança, R(X). A região de confiança

conterá 100(1-α)% se antes de a amostra ser selecionada,

P[R(X) cobrir o verdadeiro θ] = 1 − α (5.7)




em que θ , representa um vetor de parâmetros desconhecidos (Krzanowski, 1993).



No caso, a região de confiança para µ de uma distribuição normal p variada, será

todos os valores de µ tais que:

5. Inferências sobre o vetor média 178

⎡ (n − 1)p ⎤
( ) ( )
t
P ⎢ n X − µ S−1 X − µ ≤ Fp,n − p (α) ⎥ (5.8)
⎣     n−p ⎦

Para determinar se um dado valor µ 0 é um valor plausível de µ ,


 
basta calcular a distância quadrada generalizada n(X − µ) t S−1 (X − µ) e comparar
   

com (n − 1)pFp,n −p (α) /(n − p) . Se a distância quadrada for maior que

(n − 1)pFp,n −p (α) /(n − p) , então µ 0 não pertence à região de confiança. Isto é



equivalente a testar a hipótese H0: µ = µ 0 contra a H1: µ ≠ µ 0, a qual possibilita
   
afirmar que a região de confiança constitui-se em todos os valores de µ 0 cujo

teste T2 não rejeitaria a hipótese nula a favor da alternativa, em um nível de

significância α.

Para p≥4 não se pode fazer o gráfico da região de confiança para µ .



Pode se, no entanto, calcular os eixos da elipsóide de confiança e seus tamanhos

relativos, os quais são determinados pelos autovalores λi e autovetores ei de S.



Os tamanhos dos semi-eixos de

p(n −1)
( ) ( )
t
n X−µ S−1 X−µ ≤ c2 = Fp,n−p (α)
    n −p

são determinados por


Ferreira, D.F. Estatística multivariada 179

λi c
= λi [p(n − 1)Fp,n −p (α)]/[n(n − p)] unidades ao longo de ei .
n 

Começando do centro, determinado por X , os eixos da elipsóide



são:

± λ i [p(n − 1)Fp,n − p (α )] /[n(n − p)] ei




Exemplo 5.2

A partir dos dados do exemplo 5.1, obter a região de confiança de 95%, e verificar

se o ponto µ 0t =(13, 4) pertence a mesma.




⎡10 ⎤ ⎡ 1,0 −0,5⎤ −1 1 ⎡4 2⎤


X = ⎢ ⎥, S= ⎢ ⎥ e S =
 ⎣3⎦ ⎣ −0,5 1,0 ⎦ 3 ⎢⎣ 2 4 ⎥⎦

Os autovalores e autovetores de S, são:

λ1 = 1,5 e1t = [ 0, 707107 −0, 707107 ]




λ 2 = 0,5 e 2t = [ 0, 707107 0, 707107 ]



5. Inferências sobre o vetor média 180

A elipse de confiança 95% para µ consiste de todos os valores



(µ1, µ2) que satisfazem:

1 ⎡ 4 2 ⎤ ⎡10 − µ1 ⎤ 2 (2)
3 [10 − µ1 , 3 − µ 2 ] ⎢ ≤ × 199,5
3 ⎣ 2 4 ⎥⎦ ⎢⎣ 3 − µ 2 ⎥⎦ 1

ou, 4(10 − µ1 ) 2 + 4(10 − µ1 )(3 − µ 2 ) + 4(3 − µ 2 ) 2 ≤ 798

Para verificar se o ponto µ 0t =(13, 4) pertence a elipse, calcula-se:




4(10 − 13) 2 + 4(10 − 13)(3 − 4) + 4(3 − 4) 2 = 52 ≤ 798,0

o que permite que se conclua que o ponto testado está na região de confiança. O

gráfico da elipse obtida pode ser visualizado na Figura 5.1. com a análise gráfica,

pode-se confirmar que o ponto em questão pertence à região de confiança.


Ferreira, D.F. Estatística multivariada 181

x2

x1

Figura 5.1. Elipse de 95% de confiança para o vetor populacional de médias,

obtido a partir dos dados do exemplo 5.1.

Exemplo 5.3

Para exemplificar a região tridimensional para a média populacional, os dados de

produção comercial (t/ha), produção de tubérculos graúdos (t/ha) e peso médio de

tubérculos graúdos (g) de 15 clones de batata selecionados em Maria da Fé e

Lavras (Momenté, 1994), foram utilizados e encontram-se no quadro a seguir.

Obter a região de 95% de confiança para o vetor média populacional.

Verificar se o ponto µ 0t = (16,89 8, 76 109, 23) pertence a região de confiança (ponto



referente a cultivar Achat). Traçar a região de confiança.
5. Inferências sobre o vetor média 182

Clones Produção Produção de Peso médio de


comercial tubérculos graúdos tubérculos graúdos
1 47,82 40,40 146,30
2 42,40 26,96 94,58
3 41,82 27,33 143,66
4 40,77 21,81 127,29
5 40,27 33,06 115,17
6 39,84 22,31 99,32
7 38,36 32,81 150,13
8 38,15 26,02 131,17
9 37,55 21,69 152,04
10 36,19 25,65 154,83
11 36,15 23,46 95,43
12 35,17 25,29 105,97
13 34,90 22,92 113,59
14 34,57 16,25 86,39
15 34,15 21,75 119,50
Fonte: Momenté, 1994

O vetor de médias e a matriz de covariância amostrais são:

⎡ 38,541 ⎤ ⎡13,8195 15,8284 24,7250 ⎤


X = ⎢⎢ 25,854 ⎥⎥ S = ⎢⎢15,8284 34,8769 63,0215 ⎥⎥

⎢⎣122,358⎥⎦ ⎢⎣ 24,7250 63,0215 540,1553⎥⎦

Os autovalores e autovetores de S são:

λ1 = 549, 208 e1t = (0, 049 0,123 0,991)




λ 2 = 34, 460 e 2t = (0,500 0,856 − 0,131)




λ 3 = 5,185 e3t = (0,865 − 0,502 0, 019)



Ferreira, D.F. Estatística multivariada 183

A região de confiança fica determinada por:

p(n − 1)
n(X − µ) t S−1 (X − µ) ≤ c 2 = Fp,n − p (α)
    n−p

⎡ 0,15149 Sim. ⎤ ⎡ 38,541 − µ1 ⎤


15 [38,541 − µ1 25,854 − µ 2 ⎢
122,358 − µ3 ] ⎢ −0, 07124 0, 06983 ⎥ ⎢ 25,854 − µ ⎥ ≤
⎥ ⎢ 2 ⎥

⎢⎣ 0, 00138 −0, 00489 0, 002358⎥⎦ ⎢⎣122,358 − µ3 ⎥⎦


3 × 14
× 3, 49 = 12, 215
12

= 2, 27(38,541 − µ1 ) 2 − 2,14(38,541 − µ1 )(25,854 − µ 2 ) + 0,04(38,541 − µ1 )(122,358 − µ 3 ) +


+1,05(25,854 − µ 2 ) 2 − 0,15(25,854 − µ 2 )(122,358 − µ 3 ) + 0,04(122,358 − µ 3 ) 2 ≤ 12, 215

Para verificar se o ponto µ 0t = (16,89 8, 76 109, 23) pertence à região



de confiança, basta substituir os valores de µ1 por 16,89, de µ2 por 8,76 e o de µ3

por 109,23. O valor encontrado de 563,4964 é superior a 12,215, o que indica que

a média da Cultivar Achat, não pertence à região de 95% de confiança para média

das 15 famílias clonais estudadas.

Utilizando o programa Maple, através da seguinte macro, foi traçado

o gráfico, elipsóide de confiança (Figura 5.2), da região de 95% de confiança para

µ . Pode-se visualizar também que o ponto em questão não pertence a elipsóide



de confiança.
5. Inferências sobre o vetor média 184

x3

x1
x2

Figura 5.2. Elipsóide de 95% de confiança para o vetor de médias populacional,

obtida a partir dos dados do exemplo 5.3.

Intervalos de confiança simultâneos

Enquanto a região de confiança fornece corretamente o conjunto de

valores plausíveis para a média de uma população normal, qualquer resumo de

conclusões, em geral, inclui intervalos de confiança sobre médias individuais.

Assim, adota-se que todos os intervalos de confiança sejam verdadeiros

simultaneamente com uma alta probabilidade específica. Isto garante com alta
Ferreira, D.F. Estatística multivariada 185

probabilidade que qualquer afirmação não seja incorreta, o que conduz ao termo

intervalo de confiança simultâneo (Johnson e Wichern, 1998).

Considerando uma combinação linear das médias amostrais,

A t X = A1 X1 + A 2 X 2 + " + A p X p
 

cuja distribuição amostral possui estimador da covariância dado por:

A t SA
 
n

Dessa forma poderia se pensar em se obter intervalos de confiança

de 95% baseados na distribuição de t-student,

A t SA
A X ± t n −1 (α / 2)  
t
(5.9)
  n

O intervalo da expressão (5.9) pode ser interpretado como intervalos

sobre componentes do vetor de média, assim, por exemplo, fazendo-se

A t = [1 0 .... 0] , a expressão (5.9) se torna o intervalo clássico para a média de uma



população normal univariada. Neste caso tem-se uma série de inferências sobre

os componentes de µ , cada um associado com o coeficiente de confiança de 1-α,



através de diferentes escolhas de A . No entanto o coeficiente de confiança para

5. Inferências sobre o vetor média 186

todos os intervalos tomados simultaneamente não é 1-α. Para corrigir esta

imperfeição demonstra-se (Johnson e Wichern, 1988; Anderson, 1984) que para

garantir o coeficiente nominal de confiança simultâneo de 1-α para a cobertura de

os valores paramétricos é necessário recorrer à distribuição de T2. Este resultado

está apresentado a seguir:

p(n − 1)
At X ± Fp,n − p (α )A t SA (5.10)
  n(n − p)  

Método de Bonferroni para Comparações múltiplas

Muitas vezes um pequeno número de intervalos de confiança é

requerido. Nestas situações pode-se ter uma melhor opção do que as

comparações simultâneas, proposta em (5.10), obtendo intervalos de confiança

mais curtos (mais precisos) do que o intervalo simultâneo de T2. Esta alternativa

de intervalo é conhecida por método de Bonferroni.

A seguir será apresentado o método para obtenções de intervalo de

confiança para os componentes de média. Se as m=p médias forem consideradas,

então, o método de Bonferroni é:

Sii
Xi ± tn−1(2m
α
) i =1,2,...,p = m (5.11)
n
Ferreira, D.F. Estatística multivariada 187

Exemplo 5.4

Utilizando os dados do exemplo 5.2, obter os intervalos clássicos de t-student, T2 e

Bonferroni, para os componentes individuais do vetor de média, e compará-los

entre si, quanto ao comprimento.

O vetor de médias e a matriz de covariância amostral são:

⎡10 ⎤ ⎡ 1,0 −0,5⎤


X=⎢ ⎥ e S=⎢ ⎥
 ⎣3⎦ ⎣ −0,5 1,0 ⎦

1. Intervalo T2

p(n − 1) S
■ ICµ1 (0,95) = X1 ± Fp,n − p (α) 11
n−p n

2(3 − 1) 1
ICµ1 (0,95) = 10 ± 199,5
3−2 3

ICµ1 (0,95) = 10 ± 16,31 = [−6,31; 26,31]

2(3 − 1) 1
■ ICµ2 (0,95) = 3 ± 199,5
3− 2 3

ICµ2 (0,95) = 3 ± 16,31 = [−13,31; 19,31]


5. Inferências sobre o vetor média 188

Observa-se que os limites dos intervalos de confiança múltiplos

representam os limites da elipse de confiança de 95% (Figura 5.1), projetados nos

respectivos eixos.

2. Intervalo de Bonferroni

Neste caso, m=p=2, portanto α/2m=0,0125. O valor de t-student

correspondente, com n-1=2 GL é 6,21. Então,

1
■ ICµ1 (0,95) = 10 ± 6, 21
3

ICµ1 (0,95) = [6, 41; 13,59]

1
■ ICµ2 (0,95) = 3 ± 6, 21
3

ICµ2 (0,95) = [−0,59; 6,59]

Observa-se nesta situação que os intervalos são bem mais estreitos

que o seu correspondente em 1.


Ferreira, D.F. Estatística multivariada 189

3. Intervalo t de Student

Neste caso α/2=0,025 e o valor de t-student correspondente com 2

GL é 4,30. Então,

1
■ ICµ1 (0,95) = 10 ± 4,30
3

ICµ1 (0,95) = [7,52; 12, 48]

1
■ ICµ2 (0,95) = 3 ± 4,30
3

ICµ2 (0,95) = [0,52; 5, 48]

Apesar de estes últimos intervalos individualmente garantir com 95%

de probabilidade que as médias populacionais estão contidas nos mesmos, não há

garantia de que simultaneamente eles contenham as médias populacionais no

mesmo valor nominal do coeficiente de confiança, diga-se 95%. Na melhor das

hipóteses, variáveis não correlacionadas, o valor real do coeficiente de confiança é

(1-α)p=0,952=0,9025.
5. Inferências sobre o vetor média 190

5.4. Inferências sobre proporções de grandes


amostras

Freqüentemente, algumas características de interesse na população

estão na forma de atributos. Cada indivíduo nesta população pode ser descrito em

termos dos atributos que possui, os quais são codificados, pela sua presença e

ausência. Na população, com q característica, a proporção de elementos que

possui os atributos 1, 2, ..., q é p1, p2, ..., pq. Considerando q atributos mutuamente

exclusivos e características exaustivas, então, pq=1-(p1+p2+...+pq-1).

Numa grande amostra de tamanho n, pelo teorema do limite central,

p̂ possui distribuição aproximadamente normal, com




⎡ p1 ⎤ ⎡ p1 (1 − p1 ) −p1 p 2 " − p1 p q ⎤
⎢p ⎥ ⎢ −p p p 2 (1 − p 2 ) " − p 2 p q ⎥⎥ 1
1
E(p) = ⎢ ⎥
ˆ 2
ˆ = ⎢
e Cov(p)
2 1
= Σ.
 ⎢#⎥  n⎢ # # % # ⎥ n
⎢ ⎥ ⎢ ⎥
⎣⎢ p q ⎦⎥ ⎣⎢ − p q p1 −pq p 2 " p q (1 − p q ) ⎦⎥

Para grandes amostras, a aproximação continua válida se um

()
estimador de Cov pˆ , (1/n) Σ̂ , for utilizado.

Uma vez que cada elemento da população está associado a apenas

um atributo, então, pq=1-(p1+p2+...+pq-1), o que trás como conseqüência que o

posto de Σ̂ é igual a q-1, portanto sua inversa não existe. Apesar disso, pode-se

desenvolver intervalos de confiança simultâneos aproximados de 100(1-α)%, para

qualquer combinação A t p .
 
Ferreira, D.F. Estatística multivariada 191

Para uma amostra de tamanho n, considerando q categorias da

distribuição multinomial, o intervalo aproximado de confiança simultâneo de

100(1-α)%, para qualquer combinação A t p = A1p1 + A 2 p 2 + ... + A q p q , é dado por:


 

A t Σˆ A
A t p̂ ± χ q2 −1 (α)   (5.12)
  n

garantindo que n-1-q seja grande. Segundo Johnson e Wichern (1988), o valor

grande de n-q-1, significa que npˆ k deve estar em torno de 20 para cada categoria

k=1, 2, ..., q.

Exemplo 5.5

Numa amostra de n=35 cochonilhas, obtida na região de Jacuí, MG, em fevereiro

de 1995, em plantas de pessegueiro tratadas, Diniz (1996) obteve os seguintes

resultados:

Fêmeas adultas Ninfa móvel Ninfa fêmea Ninfa macho Total


5 11 15 4 35

Obter os intervalos de confiança simultâneos de 95% usando a aproximação de

grandes amostras para proporções de insetos em cada categoria.

O vetor de proporções e a matriz de covariância amostral são:


5. Inferências sobre o vetor média 192

⎡ 0,1429 ⎤ ⎡ 0,1225 Sim. ⎤


⎢ 0,3143 ⎥ ⎢ −0,0449 0, 2155 ⎥
p̂ = ⎢ ⎥ ˆ
e Σ= ⎢ ⎥
 ⎢ 0, 4286 ⎥ ⎢ −0,0612 −0,1347 0, 2449 ⎥
⎢ ⎥ ⎢ ⎥
⎣ 0,1142 ⎦ ⎣ −0,0163 −0,0359 −0,0489 0,1012 ⎦

O valor de χ32 (0, 05) é 7,815, e os intervalos são:

0,1225
p1 : 0,1429 ± 7,815 = 0,1429 ± 0,1654 = [−0,0225; 0,3083]
35

0, 2155
p 2 : 0,3143 ± 7,815 = [0,0949; 0,5337]
35

0, 2449
p3 : 0, 4286 ± 7,815 = [0,1948; 0,6624]
35

0,1012
p 4 : 0,1142 ± 7,815 = [−0,0361; 0, 2645]
35

5.5. Comparações pareadas

Em muitas situações experimentais deseja-se testar o efeito ou

eficácia de um tratamento. Para isso, medidas são tomadas nas unidades

experimentais antes e após a aplicação do tratamento. Uma outra situação em

que esta comparação pode ser de interesse é quando na mesma unidade


Ferreira, D.F. Estatística multivariada 193

amostral ou experimental dois tratamentos são aplicados. Estas respostas são

denominadas medidas pareadas, e podem ser analisadas calculando-se suas

diferenças, eliminando a influência da variação entre as unidades experimentais

ou amostrais.

Será, inicialmente, abordado o caso univariado e, em seguida, a sua

respectiva generalização para o caso multivariado. Denotando X1j a resposta do

tratamento 1 (ou resposta antes do tratamento) e X2j a resposta do tratamento 2

(ou resposta após o tratamento) para a j-ésima unidade amostral ou experimental,

em que (X1j, X2j) são medidas tomadas na mesma unidade amostral ou

experimental, então as n diferenças:

Dj = X2j - X1j , j=1, 2, ..., n (5.13)

devem refletir somente o efeito diferencial entre os tratamentos.

Assumindo que as diferenças Dj são observações independentes de

uma distribuição normal N(δ, σ 2D ), a variável

D−δ
t= (5.14)
SD
n

segue a distribuição de t-student com n-1 graus de liberdade, em que:


5. Inferências sobre o vetor média 194

⎡ ⎛ n ⎞
2

1 ⎢
⎢ ⎜ ∑ Dj ⎟ ⎥

1 n 1 n
( )
n
D 2j − ⎝ ⎠
2
∑ Dj e ∑ Dj − D ∑
2 j=1
D=
n j=1 SD = n − 1 j=1
=
n − 1 ⎢⎢ n ⎥ (5.15)
j=1

⎢ ⎥
⎣ ⎦

Conseqüentemente, para um coeficiente de confiança de 1-α, o teste

para a hipótese:

H0 : δ = 0 (efeito nulo de tratamento)


H1 : δ ≠ 0

pode ser realizado comparando-se | t | com tn-1(α/2), o quantil 100(α/2) superior da

distribuição de t-student com n-1 graus de liberdade.

O intervalo de confiança de 100(1-α)% para o efeito do tratamento

(ou diferença de efeitos dos tratamentos) é dado pela maneira usual e

apresentado a seguir.

SD
D ± t n −1 (α / 2) (5.16)
n

Para extensão multivariada dos procedimentos adotados no caso

univariado, a seguinte notação é utilizada, pois existe a necessidade de distinguir

entre os índices para os dois tratamentos (1o índice), a resposta da j-ésima

unidade experimental ou amostral (2o índice) e as p variáveis (3o índice). Neste

caso, X1jk representa a resposta do tratamento 1 (ou medida antes de se aplicar o


Ferreira, D.F. Estatística multivariada 195

tratamento) na k-ésima variável tomada na j-ésima unidade e, X2jk representa a

resposta do tratamento 2 (ou medida após se aplicar o tratamento) na k-ésima

variável tomada na j-ésima unidade, sendo que j=1, 2, ..., n; k=1, 2, ..., p.

As diferenças têm a mesma notação com exceção do primeiro índice,

do efeito do tratamento, que deve desaparecer. Isto se deve ao fato de as

diferenças refletirem o efeito diferencial dos tratamentos. Assim, Djk representa a

diferença entre os tratamentos na j-ésima unidade amostral ou experimental obtida

na k-ésima variável. Fazendo D tj = ⎡⎣ D j1 D j2 " D jp ⎤⎦ e assumindo que é




distribuído normal e independentemente, Np( δ, Σ D ), a estatística T2 se aplica para



se realizar inferências sobre o vetor média das diferenças. Os seguintes

resultados podem ser obtidos, a partir das pressuposições assumidas.

Dadas as diferenças observadas D tj = ⎡⎣ D j1 D j2 " D jp ⎤⎦ ,




j=1, 2, ..., n, um teste de a hipótese H o : δ = δ0 vs H1 : δ ≠ δ0 deve rejeitar H0 se o


   
valor observado

p(n − 1)
T 2 = n ( D − δ0 ) Sd−1 ( D − δ0 ) >
t
Fp,n − p (α) (5.17)
    (n − p)

em que,

1 n 1 n
D = ∑ Dj ∑ ( D j − D )( D j − D )
t
e SD =
 n j=1  n − 1 j=1    
5. Inferências sobre o vetor média 196

A região de confiança de 100(1-α)% para δ consiste em todos os



valores de δ tais que


p(n − 1)
T 2 = n(D − δ) t SD−1 (D − δ) ≤ Fp,n − p (α ) (5.18)
    (n − p)

Os intervalos de confiança simultâneos 100(1-α)% para as diferenças

de médias individuais δi são dados por:

p(n − 1) S
ICδi (1 − α) : Di ± Fp,n − p (α) D(ii) (5.19)
(n − p) n

em que, Di é o i-ésimo elemento de D e SD(ii) é i-ésimo elemento da diagonal de



SD .

Para n-p grande, [(n-1)p/(n-p)]Fp,n-p(α) ≅ χp2 (α) , e a normalidade não

precisa ser assumida.

O intervalo simultâneo de Bonferroni 100(1-α)% para as médias

individuais das diferenças δi é:

⎛α⎞ S
ICδi (1 − α) : Di ± t n −1 ⎜ ⎟ D(ii) (5.20)
⎝ 2p ⎠ n
Ferreira, D.F. Estatística multivariada 197

Exemplo 5.6

Em uma amostra de n=4 fazendas em Marechal Cândido Rondon foram

mensuradas a produção leiteira diária média por animal (X1) e a renda total diária

da produtividade de leite (X2) antes da aplicação do plano governamental “panela

cheia” e após a aplicação. Testar a hipótese de que o plano foi ineficiente em

aumentar a média dos dois índices zootécnicos. Os dados da amostra são:

Antes Após
X1j1 X1j2 X2j2 X2j2
10 80 13 90
11 80 15 92
9 60 16 88
8 60 19 90

A hipótese a ser testada é:

⎡0⎤
H0 : δ = 0 = ⎢ ⎥
  ⎣0⎦

As diferenças foram obtidas e são dadas por:

Dj1 Dj2
3 10
4 12
7 28
11 30

As estimativas amostrais são:


5. Inferências sobre o vetor média 198

⎡ 6, 25 ⎤ ⎡12,9167 34, 6667 ⎤


D=⎢ ⎥ e SD = ⎢ ⎥
 ⎣ 20, 00 ⎦ ⎣34, 6667 109,3333⎦

O valor da estatística T2 pode ser computado por:

⎡ 0,5195 −0,1647 ⎤ ⎡ 6, 25 ⎤
T 2 = 4 [ 6, 25 20] ⎢ ⎥⎢ ⎥ = 14, 6515
⎣ −0,1647 0, 0614 ⎦ ⎣ 20, 00 ⎦

O valor crítico é:

p(n − 1) 2 × (4 − 1)
Fp,n − p (5%) = F2,4 − 2 (5%) = 3 × 19 = 57
(n − p) (4 − 2)

Como T2=14,6515<57, então, H0 não pode ser falseada para o valor

nominal de 5% de significância.

Os intervalos de confiança simultâneos são:

2(4 − 1) 12,9167
ICδ1 (0,95) : D1 ± F2,4− 2 (0, 05) = 6, 25 ± 13,57 = [ −7,32;19,82]
(4 − 2) 4

2(4 − 1) 109,3333
ICδ2 (0,95) : D 2 ± F2,4− 2 (0, 05) = 20 ± 39, 47 = [ −19, 47; 59, 47 ]
(4 − 2) 4
Ferreira, D.F. Estatística multivariada 199

5.6. Comparações de vetores médias de duas


populações

O teste T2 para testar a igualdade de vetores média de duas

populações pode ser desenvolvido por analogia ao procedimento univariado. Este

teste T2 é apropriado para comparar a resposta média de um grupo experimental

(população 1) com a resposta média “independente” de outro grupo experimental

(população 2). Se possível, as unidades experimentais devem ser sorteadas para

cada conjunto de observações de ambas as populações, o que abrandará o efeito

da variabilidade entre unidades na comparação entre tratamentos. Apesar disto,

este tipo de comparação, é em geral, menos preciso do que o caso de

comparações pareadas.

Considerando uma amostra aleatória de tamanho n1 da população 1

e uma amostra n2 da população 2. As observações das p variáveis podem ser

organizadas como:

Amostra Estatísticas amostrais


(População 1) 1 n1
1 n1
X1 = ∑ X1j ∑ ( X1j − X1 )( X1j − X )
t
X11 , X12 , ..., X1n1 S1 =
    n1 j=1  n1 − 1 j=1    

(População 2) 1 n2 1 n2 t
X 21 , X 22 , ..., X 2n 2 X

2 = ∑ X2 j
n 2 j=1 
S2 = ∑ (
n 2 − 1 j=1 
X 2 j − X 2 )( X 2 j − X 2 )
  
  
Subscritos 1 e 2, denotam a população.
5. Inferências sobre o vetor média 200

Deseja-se realizar inferência a respeito da diferença de médias

populacionais ( µ1 − µ 2 ), para verificar se esta diferença é nula, o que equivale a


 
afirmar que não existe efeito dos tratamentos. De forma equivalente, pode-se fazer

tal inferência, testando a hipótese de igualdade dos vetores médias populacionais

( H 0 : µ1 = µ 2 ). Algumas pressuposições devem ser obedecidas para a validade dos


 
testes e da inferência realizada. Entre as pressuposições destaca-se a

necessidade de que sejam realizadas amostras aleatórias, de tamanho n1 e n2, de

ambas as populações (população 1 com média µ1 e covariância Σ1 , e população 2



com média µ 2 e covariância Σ 2 ); além disso, supõe-se que as observações da

amostra 1 são independentemente obtidas em relação aquelas da amostra 2.

Ainda é necessário assumir que ambas as populações sejam normais que a matriz

de covariância amostral seja a mesma ( Σ1 = Σ 2 = Σ ).

As matrizes de covariância S1 e S2 são estimadores de Σ1 e de Σ 2 ,

respectivamente. Conseqüentemente, pode-se combinar as informações de

ambas as amostras para estimar a variância comum Σ da seguinte forma:

(n1 − 1)S1 + (n2 − 1)S2


Sp = (5.21)
n1 + n2 − 2

Para se testar a hipótese H 0 : µ1 − µ 2 = δ0 , considera-se os seguintes


  
resultados:
Ferreira, D.F. Estatística multivariada 201

(
 
)
E X1 − X 2 = µ1 − µ 2
 
(5.22)

⎛1 1 ⎞

( 
)
Cov X1 − X 2 = ⎜ + ⎟ Σ (5.23)
⎝ n1 n 2 ⎠

Devido ao resultado (5.21), em que Sp é um estimador de Σ, então,

⎛1 1 ⎞
⎜ + ⎟ Sp
⎝ n1 n2 ⎠

é um estimador de Cov X1 − X 2 .
 
( )
Demonstra-se que o teste da razão de verossimilhança para a

hipótese,

H 0 : µ1 − µ 2 = δ0
  

é dado pela distância quadrada T2. Rejeita-se H0 se

−1
⎡⎛ 1 1 ⎞ ⎤ (n1 + n 2 − 2)p
T = [X1 − X 2 − δ0 ] ⎢⎜ + ⎟ Sp ⎥ [X1 − X 2 − δ0 ] >
2 t
Fp,n + n − p −1 (α )
   ⎣ ⎝ n1 n 2 ⎠ ⎦    (n1 + n 2 − p − 1) 1 2
5. Inferências sobre o vetor média 202

Exemplo 5.7

Os dados a seguir referem-se à produtividade e altura de plantas de duas

variedades de milho (A e B). Determinar a região de 95% de confiança para

diferença µ1 − µ 2 .
 

A B
Produtividade Altura da planta Produtividade Altura da planta
5,7 2,10 4,4 1,80
8,9 1,90 7,5 1,75
6,2 1,98 5,4 1,78
5,8 1,92 4,6 1,89
6,8 2,00 5,9 1,90
6,2 2,01

As estatísticas amostrais são:

⎡6,57 ⎤ ⎡ 1, 4587 −0,0514 ⎤


X1 = ⎢ ⎥ , S1 = ⎢ ⎥
 ⎣1,99 ⎦ ⎣ −0,0514 0,0051 ⎦

⎡5,56 ⎤ ⎡ 1,5430 −0,0366 ⎤


X2 = ⎢ ⎥ , S2 = ⎢ ⎥
 ⎣1,82 ⎦ ⎣ −0,0366 0,0045 ⎦

A matriz de variância e covariância amostral combinada é:

⎡ 1, 4962 −0,0448⎤
Sp = ⎢ ⎥
⎣ −0,0448 0,0048 ⎦
Ferreira, D.F. Estatística multivariada 203

Os autovalores e autovetores de Sp são:

λ1 = 1, 4975 e1t = [ 0,9995 −0, 0300]




λ 2 = 0, 0035 e 2t = [ 0, 0300 0,9995]




O valor de F2,8(0,05)=4,459. A região de confiança é dada por:

−1
⎡⎛ 1 1 ⎞ ⎤ (n1 + n 2 − 2)p
T = [X1 − X 2 − δ0 ] ⎢⎜ + ⎟ Sp ⎥ [X1 − X 2 − δ0 ] ≤
2 t
Fp,n + n − p −1 (α )
   ⎣ ⎝ n1 n 2 ⎠ ⎦    (n1 + n 2 − p − 1) 1 2

⎡ δ ⎤ ⎡ µ − µ 21 ⎤
em que, δ0 = ⎢ 1 ⎥ = ⎢ 11 ⎥
 ⎣δ 2 ⎦ ⎣µ12 − µ 22 ⎦

Desta forma com os valores amostrais, tem-se:

30 ⎡ 0,9276 8,6575 ⎤ ⎡ 1,01 − δ1 ⎤


[1,01 − δ1 0,17 − δ 2 ] × ×⎢ ⎥ ≤ 10,0328
11 ⎣8,6575 289,1364 ⎥⎦ ⎣0,17 − δ 2 ⎦

Esta equação foi implementada no programa Maple, para se obter a

elipse de 95% de confiança, apresentada na Figura 5, cujos comandos estão

apresentados a seguir:
5. Inferências sobre o vetor média 204

µ12 − µ 22

µ11 − µ 21
Figura 5.3. Elipse de 95% de confiança para diferença do vetor média de ambas

as variedades de milho.

Verifica-se pela Figura 5.3 que a origem 0 t =[0, 0], não pertence a

região de confiança, indicando que as duas variedades diferem quanto ao vetor

média.
Ferreira, D.F. Estatística multivariada 205

Intervalos de confiança simultâneos

Para desenvolver intervalos de confiança simultâneos para um

componente de µ1 − µ 2 , adota-se o vetor A tal que a combinação A t ( µ1 − µ 2 ), será


     

abrangida com probabilidade 1-α, para qualquer escolha de A , por




(n1 + n 2 − 2)p ⎛1 1 ⎞
A t ( X1 − X 2 ) ± Fp,n1 + n 2 − p −1 (α) ⎜ + ⎟ A tSp A (5.24)
   n1 + n 2 − p − 1 ⎝ n1 n 2 ⎠  

Método de Bonferroni para comparações múltiplas

O intervalo de confiança simultâneo de 100(1-α)% de Bonferroni para

as p diferenças entre duas médias populacionais é dado por:

⎛α ⎞ ⎛1 1 ⎞
µ1i − µ 2i : (X1i − X 2i ) ± t n1 + n 2 − 2 ⎜ ⎟ ⎜ + ⎟ Sii (5.25)
⎝ 2p ⎠ ⎝ n1 n 2 ⎠

Comparações entre vetores médias quando Σ1 ≠ Σ 2

Quando Σ1 ≠ Σ 2 , a distribuição das estatísticas dependem de uma

medida de distância que não são independentes das covariâncias populacionais

desconhecidas. Por serem desconhecidas as covariâncias populacionais, o teste


5. Inferências sobre o vetor média 206

de Bartlett pode ser usado para testar H0: Σ1 ≠ Σ 2 . No entanto, este teste é

fortemente afetado se a pressuposição de normalidade for violada. O teste em

questão não pode diferenciar entre a ausência de normalidade e a

heterogeneidade das covariâncias. Quando ambos n1-p e n2-p são grandes,

pode-se evitar as complicações da desigualdade de variâncias, utilizando a

elipsóide de 100(1-α)% de confiança aproximada, dada por (5.26). O problema de

covariâncias heterogêneas, quando as amostras são provenientes de populações

normais é conhecido como problema de Behrens-Fisher multivariado.

−1
⎡1 1 ⎤
[X1 − X 2 − δ0 ] ⎢ S1 + S2 ⎥ [X1 − X 2 − δ 0 ] ≤ χ p2 (α )
t
(5.26)
   ⎣ n1 n2 ⎦   

O intervalo de confiança simultâneo aproximado é dado por:

⎛1 1 ⎞
A t ( X1 − X 2 ) ± χ p2 (α ) A t ⎜ S1 + S2 ⎟ A (5.27)
    ⎝ n1 n2 ⎠ 

Sete soluções para o problema multivariado de Behrens-Fisher foram

estudadas por Christensen e Rencher (1997) por meio de simulação Monte Carlo,

comparando as taxas de erro tipo I e o poder destas soluções. Algumas dessas

soluções estudadas por estes autores são apresentadas a seguir.


Ferreira, D.F. Estatística multivariada 207

a) Aproximação de Bennett

A primeira dessas alternativas é àquela estudada por Bennett (1951),

a qual assume que n2≥n1, o que não é limitante. Para contornar o problema, caso

essa condição não seja atendida, basta trocar os nomes das amostras, isto é, a

amostra 1 passa ser a amostra 2 e vice-versa. Inicialmente é necessário calcular

os vetores Z j , j = 1, 2, " , n1 da seguinte forma.




n1 n2
n 1 1
Z j = X1j − 1 X 2 j +
  n2  n 1n 2
∑ X2 j −
j=1  n2
∑ X
k =1
2k (5.28)

Em seguida calcula-se a média ( Z ) e a covariância (SZ) a partir das n1



observações amostrais p-variadas obtidas na expressão (5.28). A estatística

T 2 = n1Zt S−Z1Z (5.29)


 

possui distribuição T2 de Hotelling com dimensão p e ν=n1-1 graus de liberdade,

que pode ser dada pela expressão geral (5.5).

b) Aproximação de James

A aproximação de James (1954) envolve uma correção do valor de χ 2

quando se utiliza a estatística T*2, definida por:


5. Inferências sobre o vetor média 208

−1
∗2 ⎡1 1 ⎤
T = [X1 − X 2 ] ⎢ S1 + S2 ⎥ [X1 − X 2 ] ~ χ p2
t
(5.30)
  ⎣ n1 n2 ⎦  

James (1954) propõe valores críticos ajustados ao invés de utilizar a

distribuição aproximada de qui-quadrado diretamente. Os valores críticos

propostos por James (1954) são dados em (5.31).

χ 2p (α ) × ( A + Bχ 2p (α ) ) (5.31)

em que χ 2p (α) é o quantil superior α da distribuição de qui-quadrado e A e B são

dados em (5.32) e (5.33).

1 2 ⎧⎪ 1 ⎡ ⎛ −1 Si ⎫⎪
2
⎞⎤
A = 1+ ∑ ⎨ ⎢ tr ⎜ Se ⎟⎥ ⎬ (5.32)
2p i =1 ⎪ n i − 1 ⎣ ⎝ ni ⎠⎦ ⎪⎭

1 ⎧⎪ ⎡ ⎛ −1 Si ⎞ ⎤ ⎡ ⎛ −1 Si ⎞ ⎤ ⎫⎪
2 2
2
1
B= ∑ ⎨ tr ⎢ 2 ⎜ Se
2p(p + 2) i =1 n i − 1 ⎪ ⎢ ⎝
⎟ ⎥ + ⎢ tr ⎜ Se
ni ⎠ ⎥ ⎣ ⎝
⎟⎥ ⎬
ni ⎠⎦ ⎪
(5.33)
⎩ ⎣ ⎦ ⎭

em que:

S1 S2
Se = + (5.34)
n1 n 2
Ferreira, D.F. Estatística multivariada 209

c) Aproximação de Yao

A aproximação de Yao (1965) é uma extensão da aproximação de

Welch para os graus de liberdade. A estatística (T*2) apresentada em (5.30) é

aproximada por uma T2 de Hotelling com dimensão p e graus de liberdade ν dados

por (5.35).

1 1 2 ⎧⎪ 1 ⎡ t −1 S ⎤ ⎫⎪
2

∑ ⎢( X1 − X 2 ) Se Se ( X1 − X 2 ) ⎥ ⎬
−1
= ⎨
i
(5.35)
ν ( T ∗2 ) 2 i =1 ⎪ n i − 1 ⎣   ni   ⎦ ⎪
⎩ ⎭

d) Aproximação de Johansen

A aproximação de Johansen (1980) usa a estatística T*2 de (5.30)

dividida por uma constante C para que a estatística resultante tenha distribuição

aproximada pela distribuição F com ν1=p e ν2=ν graus de liberdade. Assim, os

valores necessários para calcular a estatística Fc de Johansen (1980) são:

T∗ 2
Fc = (5.36)
C

2D + 6D
C = p− (5.37)
p(p − 1) + 2
5. Inferências sobre o vetor média 210

{ }
2
1 ⎡ tr ( I − V −1V )2 ⎤ + ⎡ tr ( I − V −1V ) ⎤ 2
D=∑ (5.38)
i =1 2(n i − 1) ⎣⎢
i
⎦⎥ ⎣ i ⎦

p(p + 2)
ν= (5.39)
3D

com Vi=(Si/ni)-1 para i=1 ou 2 e V=V1+V2.

e) Aproximação de Nel e Van der Merwe

A aproximação de Nel e Van der Merwe (1986) usa a estatística T*2

de (5.30), a qual é aproximada pela T2 de Hotelling com dimensão p e graus de

liberdade ν, em que:

tr ( Se ) + ⎡⎣ tr ( Se ) ⎤⎦
2 2

ν= (5.40)
1 ⎧⎪ ⎛ S1 ⎞ ⎡ ⎛ S1 ⎞ ⎤ ⎫⎪ 1 ⎧⎪ ⎛ S2 ⎞ ⎡ ⎛ S2 ⎞ ⎤ ⎫⎪
2 2 2 2

⎨ tr ⎜ ⎟ + ⎢ tr ⎜ ⎟ ⎥ ⎬ + ⎨ tr ⎜ ⎟ + ⎢ tr ⎜ ⎟ ⎥ ⎬
n1 − 1 ⎪ ⎝ n1 ⎠ ⎣ ⎝ n 1 ⎠ ⎦ ⎪ n 2 − 1 ⎪ ⎝ n 2 ⎠ ⎣ ⎝ n 2 ⎠ ⎦ ⎪
⎩ ⎭ ⎩ ⎭

É conveniente chamar a atenção para o fato de que nas expressões

anteriormente apresentadas aparece um termo como: tr(A)2. Esse termo significa

que é necessário calcular tr(A*A). Em outras ocasiões os termos eram [tr(A)]2, o

que significa que o traço da matriz A deve ser calculado e o seu quadrado é a

resposta almejada.
Ferreira, D.F. Estatística multivariada 211

f) Aproximação de Kim

A aproximação de Kim (1992) é a mais elaborada de todas e também

se refere a uma extensão da aproximação dos graus de liberdade de Welch, como

acontece com o procedimento de Yao (1965). O procedimento de Kim requer a

maximização de um par de formas quadráticas dado por:

S
qt 1 q
n
d=  1 
S
qt 2 q
 n2 

A maximização desse par de formas quadráticas resulta na solução

do sistema de equações homogêneas dado por (5.41).

⎡ S1 S2 ⎤
⎢ − dk ⎥ qk = 0 (5.41)
⎣ n1 n2 ⎦  

A solução desse sistema pode ser obtida conforme descrito no

capítulo 2. O autovalores dk e os autovetores q k (k=1, 2, ..., p) são utilizados para




definir a matriz D=diag(d1, d2, ..., dp) e Q = ⎡⎣ q1 q 2 " q p ⎤⎦ . A partir dessas


  
matrizes definem-se as seguintes quantidades:

w = Q t ( X1 − X 2 ) (5.42)
  
5. Inferências sobre o vetor média 212

1
⎛ p ⎞ 2p
r = ⎜ ∏ dk ⎟ (5.43)
⎝ k =1 ⎠

dk + 1
Ak = (5.44)
( )
2
dk + r

∑A 2
k
c= k =1
p
(5.45)
∑Ak =1
k

2
⎛ p ⎞
⎜ ∑Ak ⎟
f =⎝ p ⎠
k =1
(5.46)
∑ A2k k =1

O próximo passo é calcular a estatística do teste que tem uma

aproximação F dada na expressão (5.48) com ν1=f e ν2=ν-p+1 graus de liberdade.

O valor ν é definido em (5.49).

G = w t ( D1/ 2 + rI ) (D + rI ) w
−1 1/ 2 −1
(5.47)
 

(ν − p + 1)G
Fc = (5.48)
cfν
Ferreira, D.F. Estatística multivariada 213

2 2
1 1 ⎡ w t D(D + I) −2 w ⎤ 1 ⎡ w t (D + I) −2 w ⎤
= ⎢ ⎥ + ⎢ ⎥ (5.49)
ν n1 − 1 ⎣ w t (D + I) −1 w ⎦ n 2 − 1 ⎣ w t (D + I) −1 w ⎦
   

Teste de Bartlett para igualdade de matrizes de covariâncias

O teste da razão de verossimilhança para igualdade de matrizes de

covariâncias de populações Wishart foi apresentado por Bartlett (1947). Este autor

demonstrou que sob a hipótese

H o : Σ1 = Σ 2 = " = Σ k = Σ

a estatística da expressão (5.50) tem distribuição assintótica de qui-quadrado com

ν=(k-1)p(p+1)/2 graus de liberdade. Em que, k é o número de grupos ou

subpopulações amostradas, p é a dimensão das matrizes.

⎡ ⎛ k ⎛ 1 ⎞ 1 ⎞ ⎛ 2p 2 + 3p − 1 ⎞ ⎤
χ = − 1− ⎜ ∑⎜
2
⎢ ⎟ − ⎟⎜ ⎟⎥
⎢⎣ ⎜⎝ j=1 ⎜⎝ n j − 1 ⎟⎠ n − k ⎟⎠ ⎝ 6(p + 1)(k − 1) ⎠ ⎥
c

(5.50)

⎡ k ⎤
× ⎢ ∑ ⎡⎣( n j − 1) ln S j ⎤⎦ − (n − k) ln Sp ⎥
⎣ j=1 ⎦
5. Inferências sobre o vetor média 214

em que: Sj é o estimador não viesado da covariância da sub-população j, baseado

k
em nj observações multivariadas de dimensão p; n = ∑ n j ; j=1, 2, ..., k, e
j=1

∑ (n
j=1
j − 1) S j
Sp =
n−k

Exemplo 5.8. Testar a hipótese de igualdade das covariâncias de 2 populações.

Uma amostra de 11 observações foi obtida da primeira população e outra de 15 da

segunda. Duas variáveis foram mensuradas, sendo as estimativas amostrais

apresentadas a seguir (Fonte: Bock, 1975).

⎡ 0,51964 0, 44700 ⎤ ⎡ 0,85143 0, 73786 ⎤


S1 = ⎢ ⎥ com n1=11 e S2 = ⎢ ⎥ com n2=15
⎣0, 44700 0, 47600 ⎦ ⎣0, 73786 1,54828 ⎦

O valor de n=11+15=26 e de k=2 (populações). A hipótese a ser

testada é:

H o : Σ1 = Σ 2 = Σ

Os demais valores necessários para a realização do teste de

hipótese são:

ln S1 = −3, 0692181 ; ln S2 = −0, 2564228 ; e ln Sp = −0,9031351


Ferreira, D.F. Estatística multivariada 215

Logo,

⎡ ⎛1 1 1 ⎞ ⎛ 2 × 22 + 3 × 2 − 1 ⎞ ⎤
χ c2 = − ⎢1 − ⎜ + − ⎟ ⎜ ⎟⎥ ×
⎣ ⎝ 10 14 24 ⎠ ⎝ 6 × 3 ×1 ⎠⎦

× ⎡⎣(10 × ( −3, 0692181) + 14 × ( −0, 2564228 ) ) − 24 × ( −0,9031351) ⎤⎦ =

= 11, 43

Os graus de liberdade são ν=1x2x3/2=3 e os valores críticos 5% e

1% da distribuição de qui-quadrado são χ32 (0, 05) = 7,8147 e χ32 (0, 01) = 11,3448 .

Como o valor calculado (11,43) é superior aos valores críticos, rejeita-se H0 com

P<0,01. Portanto, existem evidências de que as covariâncias das duas populações

não sejam iguais.

5.7. Exercício

5.7.1. A matriz X, apresentada a seguir, representa uma amostra de n=4

observações retiradas de uma distribuição normal bivariada.


5. Inferências sobre o vetor média 216

⎡11 2⎤
⎢10 4 ⎥⎥
X =⎢
⎢ 9 3⎥
⎢ ⎥
⎣10 6⎦

a) Teste a hipótese de que µ ´0 = [9 2] seja um valor plausível para representar a



média populacional.

b) Obtenha a região de 95% de confiança e esboce graficamente a mesma,

destacando o valor hipotético nessa região.

5.7.2. Com os dados do exercício 5.7.1, determine os intervalos de confiança

simultâneo para os componentes de média individual por:

a) T2 de Hotelling

b) Procedimento de Bonferroni

c) Teste de t de student univariado.

5.7.3. Com os dados do exemplo 5.3, utilizando as duas primeiras variáveis, teste

a pressuposição de normalidade univariada (marginal) e bivariada,

utilizando os procedimentos apresentados no capítulo 4.


Ferreira, D.F. Estatística multivariada 217

5.7.4. Utilizando os dados do exemplo 5.5, faça o IC simultâneo para proporções

de 90% de confiança.

5.7.5. Os dados abaixo se referem ao peso e ao teor de proteína, medidos em 6

animais antes e após um período de dieta balanceada. Teste a hipótese de

que não houve efeito da dieta. Determinar a região de confiança e o esboço

da região de confiança, o intervalo de confiança simultâneo e de Bonferroni,

no nível de 5% de probabilidade.

Antes Após
Peso Teor de proteína Peso Teor de proteína
(%) (%)
250 10 280 12
300 12 320 16
350 13 360 13
320 15 380 18
400 9 410 15
320 11 350 12
5. Inferências sobre o vetor média 218

5.7.6. Com os dados do exemplo 5.7, reapresentados a seguir, obter os intervalos

de confiança de 95% simultâneos e de Bonferroni, para as diferenças de

médias marginais. Compare os resultados com a Figura 5.3, e obtenha

conclusões de interesse.

A B
Produtividade Altura da planta Produtividade Altura da planta
5,7 2,10 4,4 1,80
8,9 1,90 7,5 1,75
6,2 1,98 5,4 1,78
5,8 1,92 4,6 1,89
6,8 2,00 5,9 1,90
6,2 2,01
||[ 6
Análise de variância multivariada
]||
6.1. Introdução

Com o desenvolvimento da estatística no século XX a possibilidade

de condução e análise de experimentos propiciou grande sucesso às pesquisas,

principalmente pela habilidade de lidar com variações não controláveis. O primeiro

a representar os resultados experimentais por um modelo foi W. S. Gosset

(Student, 1908).

As terminologias dos delineamentos experimentais,

independentemente da área de aplicação, se tornaram iguais aos dos

experimentos em agricultura. Portanto, unidades experimentais são denominadas

de parcelas e o valor da variável aleatória como resposta. Experimentos com

apenas uma classificação dos tratamentos são denominados de delineamentos

inteiramente casualizados ou de classificação simples. Experimentos em que

vários tipos de tratamentos são aplicados ao material experimental

simultaneamente são denominados de fatoriais. Outra classe de experimentos é

gerada pelos arranjos hierarquizados dos materiais.


6. Análise de variância multivariada 220

O presente capítulo tem por objetivo apresentar a extensão

multivariada dos métodos univariados de análise de variância. As idéias básicas

desse capítulo podem ser estendidas a todos os tipos de delineamentos e arranjos

das estruturas de tratamentos, embora sejam apresentas na situação mais

simples, a do delineamento de classificação simples.

6.2. Delineamento de classificação simples

O caso mais simples dos delineamentos experimentais é o de

classificação simples ou delineamento inteiramente casualizado. O arranjo

experimental consiste em g tratamentos, possivelmente incluindo a(s)

testemunha(s), para os quais as unidades experimentais são aleatorizadas.

As amostras aleatórias de cada tratamento são representadas por:

Tratamento 1: X11 , X12 , ..., X1n1


  

Tratamento 2: X 21 , X 22 , ..., X 2n 2
  

# # # % #

Tratamento g: X g1 , X g 2 , ..., X gn g
  
Ferreira, D.F. Estatística multivariada 221

A análise de variância multivariada (MANAVA) é usada para

investigar se os vetores de médias de tratamento são os mesmos, e se não, qual

componente de média difere significativamente. Algumas pressuposições da

estrutura dos dados devem ser obedecidas para validade da inferência estatística:

(a) X i1 , X i2 ," , X i ni deve ser uma amostra aleatória de tamanho ni do tratamento i,


  
com média µi , i=1, 2, ..., g. As amostras dos tratamentos devem ser

independentes; (b) todos os tratamentos possuem covariância comum Σ; e

(c) cada tratamento tem distribuição normal multivariada.

O modelo de análise de variância multivariada está apresentado a

seguir. Neste modelo cada componente é um vetor de p componentes.

Xi j = µ + τi + ei j i = 1, 2, ", g e j = 1, 2, ", n i (6.1)


   

em que, ei j é independentemente e identicamente distribuído e Np(0, Σ) para todo i




e j; µ é o vetor média geral e τi representa o vetor de efeitos do i-ésimo


 
g
tratamento. Pode-se adotar a restrição paramétrica ∑ n τ
i =1
i i =0.


Os erros do vetor X i j são correlacionados, no entanto a matriz de



covariância Σ é a mesma para todos os tratamentos.

O vetor de observações pode ser decomposto em:


6. Análise de variância multivariada 222

Xi j = X + (X i − X ) + (X i j − X i )
     
Observação Estimativa da Estimativa do resíduo (6.2)
média geral efeito do tratamento

Analogamente, demonstra-se que a soma de quadrados e produtos

totais possui a seguinte decomposição:

Soma de quadrados e produtos (SQP) = SQP tratamentos + SQP resíduo

total corrigido

g ni

∑∑ ( X )( X )
t
ij −X ij −X =
i =1 j=1  
(6.3)
g g ni
= ∑ n i ( Xi − X )( X i − X ) ( )( X )
t
+ ∑∑ X i j − X i
t
ij − Xi
i =1   i =1 j=1   

A soma de quadrados e produtos do resíduo pode ser expressa por:

g ni

( )( X )
t
E = ∑∑ X i j − X i ij − Xi = (n1 − 1)S1 + (n 2 − 1)S2 + ... + (n g − 1)Sg (6.4)
i =1 j=1   

em que Si é a matriz de covariância amostral do i-ésimo tratamento.

O teste da hipótese de inexistência de efeitos de tratamentos,

H 0 : τ1 = τ2 = " = τg = 0 (6.5)
   
Ferreira, D.F. Estatística multivariada 223

é realizado considerando as magnitudes das somas de quadrados e produtos de

tratamento e resíduo pela variância generalizada.

O esquema de análise de variância multivariada (MANAVA) está

apresentado na Tabela 6.1. A fonte de variação total é particionada em causas de

variação devido a tratamento e ao erro experimental ou resíduo.

Tabela 6.1. Tabela de MANAVA para testar a hipótese de igualdade do vetor de

efeito dos tratamentos em um delineamento de classificação simples.

FV GL Matriz de SQP

Tratamento g-1 g

( )( X )
t
B = ∑ n i Xi − X i −X
i =1   

Resíduo g g ni
υ = ∑ ni − g ( )( X )
t
E = ∑∑ X i j − X i ij − Xi
i =1 j=1   
i =1

Total corrigido g g ni
∑n ( )( X )
t
i −1 B + E = ∑∑ X i j − X ij −X
i =1 j=1   
i =1

Os critérios para o teste da hipótese apresentada em (6.5), envolvem

variâncias generalizadas e autovalores e autovetores da maximização de duas

formas quadráticas dadas em (2.15 e 2.16).

De maneira geral, supondo que H seja a matriz de SQP relativa aos

efeitos dos tratamentos que se deseja testar a igualdade, para o exemplo H=B,

então a solução da equação determinantal dada por:


6. Análise de variância multivariada 224

( H − λ k E ) ek = 0
 

fornece as estimativas dos autovalores e autovetores, necessários aos testes de

hipótese (6.5), os quais estão apresentados na Tabela 6.2. Quatro critérios

existem para o teste desta hipótese. Muitos autores recomendam utilizar o critério

de Wilks como referência, por se tratar de um teste baseado na razão de

verossimilhança. Outros recomendam que a hipótese nula deva ser rejeitada se

pelo menos três dos quatro critérios forem significativos em um nível nominal de

significância previamente adotado. Esses critérios podem ser aproximados pela

distribuição F. Essas aproximações, também, se encontram apresentadas na

Tabela 6.2.
Ferreira, D.F. Estatística multivariada 225

Tabela 6.2. Estatísticas multivariadas e suas equivalência aproximada com a

distribuição F.

Critério Estatística Aproximação F GL de F


Wilks
|E| 1 ⎛ − Λ1t ⎞⎛ rt f ⎞ v1=pq
Λ= =∏ 1
F = ⎜ 1 ⎟⎜
−2
|H+E| k 1+λk ⎜ t ⎟⎝ pq ⎟⎠
⎝ Λ ⎠ v2=rt-2f

Traço de Pillai
λ ⎛ V ⎞⎛ 2n + s + 1⎞ v1=s(2m+s+1)
V = tr[H(H + E)−1] = ∑ k F=⎜ ⎟⎜ ⎟
⎝ s − V⎠⎝ 2m + s + 1⎠
1+λk
v2=s(2n+s+1)
Traço de
Hotelling U = tr(HE−1) = ∑λk F=
2(sn +1)U v1=s(2m+s+1)
Lawley s (2m + s +1)
2

v2=2(sn+1)
Raíz máxima
θ = λ1 θ(ν − d + q) v1=d
de Roy F=
d
v 2= ν − d + q
p: número de variáveis = posto(H+E); q: GL de tratamento (ou
do contraste); ν: GL do erro; S=min(p,q); r=ν- (p-q+1)/2;
f=(pq-2)/4; d=max(p,q); m=(|p-q|-1)/2; n=(ν-p-1)/2; e
⎧ p2q 2 − 4
⎪ Se p 2 + q 2 − 5 > 0
t = ⎨ p2 + q 2 − 5

⎩1 cc
Obs. Critério de Wilks possui aproximação exata de F se
min(p,q)≤2
6. Análise de variância multivariada 226

Exemplo 6.1

Num experimento envolvendo 4 variedades de feijão, avaliou-se na seca, a

produtividade (P) em kg/ha e número de grão por vagem (NGV), utilizando 5

repetições. Os resultados obtidos foram:

Cultivar
A B C D
P NGV P NGV P NGV P NGV
1082 4,66 1163 5,52 1544 5,18 1644 5,45
1070 4,50 1100 5,30 1500 5,10 1600 5,18
1180 4,30 1200 5,42 1550 5,20 1680 5,18
1050 4,70 1190 5,62 1600 5,30 1700 5,40
1080 4,60 1170 5,70 1540 5,12 1704 5,50
5462 22,76 5823 27,56 7734 25,90 8328 26,71

Teste a hipótese de igualdade do vetor média de tratamentos.

Os vetores de médias amostrais de tratamento são:

⎡1092, 400 ⎤ ⎡1164, 600 ⎤ ⎡1546,800 ⎤ ⎡1665, 600 ⎤


X1 = ⎢ ⎥ X2 = ⎢ ⎥ X3 = ⎢ ⎥ X4 = ⎢ ⎥
 ⎣ 4,552 ⎦  ⎣ 5,512 ⎦  ⎣ 5,180 ⎦  ⎣ 5,342 ⎦

E a média geral:

⎡1367,35000 ⎤
X =⎢
 ⎣ 5,1465⎥⎦
Ferreira, D.F. Estatística multivariada 227

A matriz B é obtida por:

⎧⎡1092,400⎤ ⎡1367,3500⎤⎫
B = 5⎨⎢ −
4,552⎥⎦ ⎢⎣ 5,512⎥⎦⎭
{ }
⎬ [1092,400 4,552] − [1367,3500 5,1465] +"+
⎩⎣
⎧⎡1665,600⎤ ⎡1367,3500⎤⎫
+ 5⎨⎢ −
5,342⎥⎦ ⎢⎣ 5,512⎥⎦⎭
{
⎬ [1665, 600 5,512] − [1367,3500 5,1465]}
⎩⎣

Obviamente, quando os cálculos não são realizados no computador,

é mais fácil de se obter as matrizes de somas de quadrados e produtos, pelas

expressões apresentadas a seguir. Para isso, considere que Xi j k representa o

valor observado do i-ésimo tratamento, na j-ésima unidade experimental e na

k-ésima variável. Então,

g
X i2 k X2
SQBkk = ∑ − g k (6.6)
ni
i =1
∑ ni
i =1

representa a soma de quadrados de tratamento para o i-ésimo componente, e

g
Xi k Xi A X X
SPBkA = ∑ − A
g
k
(6.7)
ni
i =1
∑n
i =1
i

representa a soma de produtos de tratamento entre as variáveis k e A , com

k≠ A =1, 2, ..., p.
6. Análise de variância multivariada 228

Para o total as SQ e SP são:

2
g ni
SQTkk = ∑∑ X ijk −
2 Xg
k
(6.8)
i =1 j=1
∑n
i =1
i

g ni
SPTkA = ∑∑ X ijk X ijA − X X g
k A
(6.9)
i =1 j=1
∑n i =1
i

Para o resíduo basta obter a diferença:

E=T-B (6.10)

No exemplo, as matrizes B, E e T são:

⎡1189302,1500 768,3605⎤
B =⎢
⎣ 768,3605 2, 6318⎥⎦

⎡1218360,5500 778,2645⎤
T =⎢
⎣ 778,2645 2,9517⎥⎦

⎡ 29058, 4000 9,9040⎤


E = T − B =⎢
⎣ 9,9040 0,3199⎥⎦

O quadro de MANAVA está apresentado a seguir:


Ferreira, D.F. Estatística multivariada 229

FV GL SQ&P
⎡1189302,1500 768, 3605⎤
Tratamento 3 B=⎢
⎣ 768, 3605 2, 6318 ⎥⎦

Erro 16 ⎡ 29058, 4000 9, 9040 ⎤


E=⎢
⎣ 9, 9040 0, 3199 ⎥⎦

Total Corrigido 19 ⎡1218360,5500 778, 2645⎤


T=⎢
⎣ 778, 2645 2,9517 ⎥⎦

Para o teste da hipótese H 0 : τ1 = τ2 = " = τg = 0 , a razão entre o par


   

de formas quadráticas e kt Be k e e kt Ee k , deve ser maximizada. Isto equivale a


   
resolver o sistema de equação,

( B − λ k E ) ek = 0
 

Para o exemplo, os autovalores e autovetores são:

λ1 = 41,3463 e1t = [ 0, 0058 0,1952]




λ 2 = 6, 6781 e 2t = [ −0, 0012 1, 7667 ]




Alguém desavisado poderia pensar que o valor do segundo elemento

do segundo autovetor (1,7667) fosse algum tipo de erro de digitação, por se tratar

de um valor superior a 1. No entanto, isto é perfeitamente possível, pois os


6. Análise de variância multivariada 230

autovetores, no caso da maximização da razão entre duas formas quadráticas,

são normalizados da seguinte forma: e kt Ee k = 1 e e kt EeA = 0 (k ≠ A) , o que pode ser


   
facilmente verificado.

Todos os critérios utilizados rejeitaram a hipótese de igualdade dos

vetores efeitos tratamento (P<0,01), como pode ser visto no quadro seguinte.

Critério Estatística F G.L. Pr>F


Wilks Λ=0,0030756 85,16 v1=6 e v2=30 0,0001
Traço de Pillai V=1,846145 64,00 v1=6 e v2=32 0,0001
Traço de Hotelling
Lawley U=48,0244 112,06 v1=6 e v2=28 0,0001
Raíz máxima de θ=41,3463 220,51 v1=3 e v2=16 0,0001
Roy
p=2; q=3; v=16; s=2; r=16; f=1; d=3; m=0; n=6,5; e t=2

6.3. Intervalos de confiança simultâneos para o efeito


de tratamentos

Quando a hipótese de efeitos iguais para tratamentos é rejeitada,

aqueles efeitos que levaram a rejeição são de interesse. Para comparações

simultâneas duas a duas, a aproximação de Bonferroni pode ser usada para

construir intervalos de confiança simultâneos para os componentes da diferença

τh − τi (diferenças de efeitos dos tratamentos h e i, respectivamente). Esses


 
intervalos são mais curtos que os obtidos para todos os contrastes, e requerem

apenas valores críticos da estatística univariada t.


Ferreira, D.F. Estatística multivariada 231

Fazendo τik o k-ésimo componente de τi . Desde que τi pode ser


 
estimado por τˆ i = X i − X , então,
  

τˆ ik = X i k − X k (6.11)

Devido a (6.11) corresponder a diferença entre duas médias

amostrais independentes, o teste de t de duas amostras é válido, modificando-se

adequadamente o nível de significância. A estimativa da variância do contraste

entre duas médias de tratamentos é dada por,

^ ⎛ 1 1 ⎞E
Var(X h k − X i k ) = ⎜ + ⎟ kk (6.12)
⎝ nh ni ⎠ υ

A divisão de Ekk pelos seus respectivos graus de liberdade (υ), é

devido ao fato de que, o elemento em questão (Ekk) refere-se a uma soma de

quadrados. Desta forma, desde que p variáveis são consideradas e g(g-1)/2

comparações duas a duas serão realizadas, então o intervalo de confiança

protegido por Bonferroni para diferença de efeitos de tratamento é dado por:

⎛ α ⎞ ⎛ 1 1 ⎞ E kk
X h k − Xi k ± t υ ⎜ ⎟ ⎜ + ⎟ (6.13)
⎝ pg(g − 1) ⎠ ⎝ n h n i ⎠ υ

para todos os k = 1, 2, ..., p e todas as diferenças h < i = 1, 2, ..., g .


6. Análise de variância multivariada 232

6.4. Exercício

6.7.1. Repetir a análise de variância do exemplo 6.1 utilizando o “proc GLM” do

SAS e solicitar a realização dos seguintes contrastes: i) A e B vs C e D; ii) A

vs B e iii) C vs D.
||[ 7
Componentes principais
]||
7.1. Introdução

A análise de componentes principais está relacionada com a

explicação da estrutura de covariância por meio de poucas combinações lineares

das variáveis originais em estudo. Os objetivos dessa análise são: i) redução da

dimensão original; e ii) facilitação da interpretação das análises realizadas. Em

geral, a explicação de toda a variabilidade do sistema determinado por p variáveis

só pode ser efetuada por p componentes principais. No entanto, uma grande parte

dessa variabilidade pode ser explicada por um número r menor de componentes,

r≤p. Os componentes principais são uma técnica de análise intermediária e,

portanto não se constituem em um método final e conclusivo. Esse tipo de análise

se presta fundamentalmente como um passo intermediário em grandes

investigações científicas.

Essa técnica pode ser aplicada, ainda, na análise de regressão

múltipla, principalmente, nos casos de colinearidade ou de multicolinearidade;

aplica-se também à análise de agrupamento e como estimadores de fatores nas

técnicas multivariadas denominadas de análises fatoriais. Muitas outras aplicações


7. Componentes principais 234

de componentes principais são encontradas nas literaturas aplicadas. A técnica

AMMI (additive multiplicative interaction model) considera modelos lineares com

interação entre dois fatores e aplica como base para seus procedimentos a análise

de componentes principais.

7.2. Componentes principais populacionais

Algebricamente os componentes principais representam

combinações lineares de p variáveis aleatórias X1, X2, …, Xp. Geometricamente,

essas combinações lineares representam a seleção de novos eixos coordenados,

os quais são obtidos por rotações do sistema de eixos original, representados por

X1, X2, …, Xp. Os novos eixos representam as direções de máxima variabilidade.

Como pode ser demonstrado, os componentes principais dependem

somente da matriz de covariância Σ (ou da matriz de correlação ρ) e de

X1, X2, …, Xp. Seu desenvolvimento não requer pressuposições de normalidade

multivariada, mas possuem interpretações úteis em termos da constante elipsóide

de densidade, se a normalidade existir. A princípio, serão definidos os conceitos

de componentes principais populacionais. Posteriormente, naturalmente esses

conceitos serão estendidos para a situação amostral.

Seja o vetor aleatório X t = ⎡⎣ X1 X 2 X p ⎤⎦ amostrado de uma

população com covariância Σ, cujos autovalores são λ1≥λ2≥…≥λp≥0, então, os


Ferreira, D.F. Estatística multivariada 235

componentes principais (Y1, Y2,…,Yp) são as combinações lineares dadas por

(7.1)

Y1 = e1t X = e11X1 + e12 X 2 + ... + e1p X p


Y2 = e 2t X = e 21X1 + e 22 X 2 + ... + e 2p X p
(7.1)

Yp = e pt X = e p1X1 + e p2 X 2 + ... + e pp X p

É fácil verificar que:

Var(Yi ) = Var ( eit X ) = eit Var ( X ) ei = eit Σei (7.2)

Cov(Yi , Yk ) = Cov ( eit X,e kt X ) = eit Σe k (7.3)

Dessa forma, pode-se definir o i-ésimo componente principal (Yi) por

(7.4), assumindo que o vetor X possui covariância Σ, com pares de autovalores e

autovetores ( λ i ,ei ) , i = 1, 2, ..., p , em que λ1≥λ2≥…≥λp≥0.

Yi = eit X = ei1X1 + ei2 X 2 + ... + eip X p i = 1, 2,..., p (7.4)

No capítulo 2, verificou-se que a maximização de uma forma

quadrática resultava na solução dada pelo conjunto de todos os pares de

autovalores e autovetores da matriz núcleo. Os autovetores da solução eram


7. Componentes principais 236

e t Σe
restritos ao comprimento unitário. Seja a forma quadrática dada por λ = , então
et e

o seu máximo é obtido pela resolução da equação (7.5).

( Σ − λ i I ) ei = 0 (7.5)

É fácil perceber que dessa equação surge a seguinte e óbvia

relação, obtida no ponto máximo, dada por: Σei = λ i ei . Portanto, a variância e a

covariância de Yi, especificadas em (7.2) e em (7.3) são dadas por:

Var(Yi ) = eit Σei = eit λ i ei = λ i eit ei = λ i (7.6)

Cov(Yi , Yk ) = eit Σe k = eit λ k e k = λ k eit e k = 0 i≠k (7.7)

Utilizando algumas propriedades matriciais estudadas no capítulo 2,

pode-se demonstrar que:

p p

∑ Var(Xi ) = ∑ Var(Yi )
i =1 i =1

σ11 + σ 22 + ... + σ pp = λ1 + λ 2 + ... + λ p

A variação total existente nas variáveis Xi, i=1, 2,...,p é igual à

variação existente nos p componentes principais. Para demonstrar isso, seja Σ a


Ferreira, D.F. Estatística multivariada 237

matriz de covariância entre as p variáveis X, cujos pares de autovalores e

autovetores são dados por (λi, ei ). O componente principal Yi é definido por

Yi = eit X , o qual possui variância igual a λi.

Da decomposição espectral de Σ=PΛP’ e sabendo que PPt=PtP=I

verifica-se que:

tr(Σ) = tr ( PΛP t )

Uma propriedade do traço de uma matriz é: tr(AB)=tr(BA). Fazendo

A=P e B=ΛPt, então,

p p
tr(Σ) = ∑ σii = tr ( PΛP t ) = tr ( ΛP t P ) = tr ( Λ ) = ∑ λ i
i =1 i =1

E, portanto, a porcentagem da variação total explicada pelo k-ésimo

componente principal é dada por (7.8).

λk
%VarExp(Yk ) = p
× 100 (7.8)
∑ λi
i =1

Em muitas situações em que se aplicam os componentes principais

se uma porcentagem de 70% ou mais for atribuída aos primeiros r componentes

principais, então, esses podem substituir as p variáveis originais sem perda de


7. Componentes principais 238

uma quantidade demasiada de informações. A determinação dessa porcentagem

da variação explicada pelos primeiros r componentes deve ser feita pelo

pesquisador interessado e que possui maior conhecimento da área estudada. A

determinação do número r de componentes para que uma determinada

porcentagem fixada da informação seja contemplada por eles é um dos problemas

que dificulta o emprego dessa metodologia.

Os componentes do autovetor eit = ⎡⎣ei1 ei2 eip ⎤⎦ podem informar

sobre a importância das variáveis para o i-ésimo componente principal, por meio

de suas magnitudes. No entanto, esses componentes são influenciados pela

escala das variáveis. Para contornar tal problema, os pesquisadores podem

utilizar uma importante medida de associação, a qual não depende da magnitude

das mensurações (escala) das variáveis originais, que é o coeficiente de

correlação entre Yi e Xk. Esse coeficiente de correlação está apresentado em (7.9)

eik λ i
ρYi ,Xk = , i, k = 1, 2,..., p (7.9)
σkk

Demonstração: Para demonstrar (7.9), primeiro é apresentada a definição do

coeficiente de correlação. Posteriormente, foi avaliado cada termo dessa

expressão individualmente.

Cov ( Yi , X k )
ρYi ,Xk =
Var ( Yi ) Var ( X k )
Ferreira, D.F. Estatística multivariada 239

Mas,

Cov ( Yi , X k ) = Cov ( eit X, X k ) = Cov ( eit X, t X )

com, t
= [ 0 ...1... 0] , vetor composto de valores 0 e com 1 na k-ésima posição.

Logo,

Cov ( Yi , X k ) = Cov ( eit X, t X ) = eit Σ = t Σei

Como Σei = λ i ei , então,

Cov ( Yi , X k ) = t Σei = t λ i ei = λ i t ei = λ i eik

Da mesma forma as variâncias de Yi e Xk são:

Var ( Yi ) = Var ( eit X ) = eit Σei = λ i eit ei = λ i

e,

Var(X k ) = σkk

Assim, a prova fica completa, conforme descrito a seguir:


7. Componentes principais 240

Cov ( Yi , X k ) λ i eik λ i eik


ρYi ,X k = = =
Var ( Yi ) Var ( X k ) λ i σ kk σ kk

Exemplo 7.1

Sejam as variáveis aleatórias X1, X2 e X3 com covariância dada por:

⎡4 1 0⎤
Σ = ⎢⎢1 4 0 ⎥⎥
⎢⎣ 0 0 2 ⎥⎦

Obter os componentes principais, a correlação das variáveis originais com os

componentes e verificar a veracidade da afirmativa a seguir de forma numérica:


p p

∑ Var(Xi ) = ∑ Var(Yi )
i =1 i =1

σ11 + σ 22 + ... + σ pp = λ1 + λ 2 + ... + λ p

Aplicando-se o power method, determinaram-se os pares de

autovalores e autovetores de Σ, os quais são:

λ1 = 5 e1t = [ 0,7071 0,7071 0] , λ 2 = 3 e 2t = [ 0,7071 −0,7071 0] e λ 3 = 2 e3t = [ 0 0 1]

Os componentes principais são:


Ferreira, D.F. Estatística multivariada 241

Y1 = e1t X = 0,7071X1 + 0,7071X 2

Y2 = e 2t X = 0,7071X1 − 0,7071X 2

Y3 = e3t X = X 3

A variável X3 é individualmente um de os componentes principais por

não ser correlacionada com nenhuma das outras duas variáveis. As variâncias de

os componentes principais são:

Var(Y1 ) = λ1 = 5 , Var(Y2 ) = λ 2 = 3 e Var(Y3 ) = λ 3 = 2

Pode-se mostrar, a título de ilustração, que:

⎛ 2 2 ⎞ ⎛ 2 ⎞ ⎛ 2 ⎞ ⎛ 2 2 ⎞
Var(Y1 ) = Var ⎜⎜ X1 + X 2 ⎟⎟ = Var ⎜⎜ X1 ⎟⎟ + Var ⎜⎜ X 2 ⎟⎟ + 2Cov ⎜⎜ X1 , X 2 ⎟⎟ =
⎝ 2 2 ⎠ ⎝ 2 ⎠ ⎝ 2 ⎠ ⎝ 2 2 ⎠

1 1 2 2 1 1
= Var ( X1 ) + Var ( X 2 ) + 2 Cov ( X1 , X 2 ) = 4 + 4 + 1 = 5 = λ1
2 2 2 2 2 2

Verifica-se, também, que:

σ11 + σ 22 + σ33 = λ1 + λ 2 + λ 3

4+4+2=5+3+2

10=10 c.q.m.
7. Componentes principais 242

A porcentagem da variação explicada por cada componente é

apresentada na tabela seguinte.

Componente Var(Yi)=λi % da variação explicada % variação acumulada


Y1 5 50 50
Y2 3 30 80
Y3 2 20 100

Os coeficientes de correlação entre os componentes e as variáveis

originais são:

Componente X1 X2 X3
Y1 0,7906 0,7906 0,0000
Y2 0,6124 -0,6124 0,0000
Y3 0,0000 0,0000 1,0000

Para ilustrar um dos cálculos usando a expressão (7.9), apresenta-se

a seguir a correlação entre Y1 e X1.

2
e11 λ1 × 5
ρY1 ,X1 = = 2 = 0,7906 .
σ11 4

Para o componente principal mais importante (Y1), concluiu-se que

X1 e X2 são igualmente importantes.

Os componentes principais podem ser obtidos pela padronização das

variáveis originais por:


Ferreira, D.F. Estatística multivariada 243

X i − µi
Zi = (7.10)
σii

Em notação matricial tem-se:

(
Z = V −1/ 2 X − µ ) (7.11)

em V-1/2 é uma matriz diagonal com os elementos da diagonal dados 1 σii . É

fácil verificar que:

E ( Z ) = 0 e Cov ( Z ) = V −1/ 2 ΣV −1/ 2 = ρ

Então, os componentes principais de Z são dados pelos autovalores

e autovetores de ρ, matriz de correlação de X . Os autovalores e autovetores de Σ

são, em geral, diferentes daqueles derivados de ρ.

Sejam as variáveis padronizadas Z1, Z2, ...., Zp disposta no vetor Z

com Cov ( Z ) = ρ , então, os componentes principais são dados por:

( )
Yi = eit Z = eit V −1/ 2 X − µ , i=1, 2, ..., p (7.12)

Da mesma forma, verifica-se que:


7. Componentes principais 244

p p
∑ Var(Yi ) = ∑ Var(Zi ) = p
i =1 i =1
p
(7.13)
∑ λi = p
i =1

Também se verifica que:

ρYi ,Zk = eik λ i (7.14)

Sendo que em todos esses casos (λi, ei ) são os autovalores e

autovetores de ρ, com λ1≥λ2≥...≥λp. As demonstrações de (7.12), (7.13) e (7.14)

podem ser realizadas da mesma forma que as demonstrações anteriores,

substituindo Σ por ρ.

Para algumas matrizes de covariância, com estruturas especiais,

existem simples formas de se expressar os componentes principais. Serão

tratados alguns desses casos, conforme apresentado em Johnson e Wichern,

(1998) e em Morrison (1976). Para uma matriz Σ diagonal,

⎡σ11 0 0 ⎤
⎢0 σ 0 ⎥⎥
Σ=⎢
22
(7.15)
⎢ ⎥
⎢ ⎥
⎢⎣ 0 0 σ pp ⎥⎦

Os autovalores e autovetores são dados por:


Ferreira, D.F. Estatística multivariada 245

λi=σii e eit = [ 0 0 1 0 0] com 1 na i-ésima posição e 0 nas demais.

A demonstração disso pode ser facilmente realizada, uma vez que

das equações de maximização de formas quadráticas verifica-se que : Σei = λ i ei .

Assumindo-se as definições anteriores para os autovalores e autovetores verifica-

se que:

Σe i = λ i e i
= Σei = σii ei
⎡0 ⎤ ⎡0 ⎤
⎢ ⎥ ⎢ ⎥
⎡σ11 0 0 ⎤ ⎢ ⎥ ⎢ ⎥
⎢0 σ ⎢ 0 ⎥ ⎢0 ⎥
0 ⎥⎥ ⎢ ⎥ ⎢ ⎥
= ⎢
22
⎢ 1 ⎥ = σii ⎢1 ⎥
⎢ ⎥
⎢ ⎥ ⎢0 ⎥ ⎢0 ⎥
⎣⎢ 0 0 σ pp ⎦⎥ ⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥
⎢0 ⎥ ⎢0 ⎥
⎣ ⎦ ⎣ ⎦

Dessa forma, pode-se concluir que (σii, ei ), com ei definido

anteriormente, são os pares de autovalores e autovetores de Σ. Desde que os

componentes principais são dados pelas combinações lineares eit X =Xi, então, os

componentes principais são as próprias variáveis originais não correlacionadas,

cujos autovalores são as próprias variâncias originais das respectivas variáveis

aleatórias. Do ponto de vista de extração de componentes principais nada pode

ser ganho, uma vez que os eixos originais já estão no sentido de maior

variabilidade. Dessa forma não há necessidade para fazer rotação dos eixos
7. Componentes principais 246

originais. A estandardização não altera a situação, uma vez que ρ=I, e o par

autovalor e componente principal é dado por (1, Zi), em que Zi é a i-ésima variável

padronizada.

Outro tipo de matriz de covariância com determinado padrão é

apresentado a seguir, o qual descreve muitas vezes o comportamento de

entidades biológicas, desempenha um papel importante na teoria dos

componentes principais.

⎡ σ2 ρσ 2 ρσ 2 ⎤
⎢ 2 ⎥
ρσ σ2 ρσ 2 ⎥
Σ=⎢ (7.16)
⎢ ⎥
⎢ 2 ⎥
⎢⎣ρσ ρσ2 σ 2 ⎥⎦

A matriz de correlação correspondente é dada por:

⎡1 ρ ρ⎤
⎢ρ 1 ρ ⎥⎥
ρ=⎢ (7.17)
⎢ ⎥
⎢ ⎥
⎣ρ ρ 1⎦

que implica em uma estrutura de igualdade de correlação entre as p variáveis

estudadas.

Morrison (1976) demonstra que os componentes principais de (7.16)

são dados por dois grupos. O primeiro grupo com o primeiro componente e o

segundo com os demais componentes principais. O primeiro componente principal

de (7.16) é definido pelo par autovalor e autovetor apresentado a seguir.


Ferreira, D.F. Estatística multivariada 247

λ1 = σ 2 [1 + (p − 1)ρ] (7.18)

⎡ 1 1 1 ⎤
e1t = ⎢ , ,..., ⎥ (7.19)
⎢⎣ p p p ⎥⎦

Para a matriz de correlação definida em (7.17), pode-se demonstrar

que 7.18 e 7.19 permanecem válidos, sendo necessário apenas fazer σ2=1. A

proporção da explicação do primeiro componente principal é dada por

100 [1 + (p − 1)ρ] / p (%) do total do conjunto de variáveis. Se ρ é próximo a 1 o

primeiro componente principal terá uma elevada explicação da variação total.

Os demais (p-1) componentes principais possuem valores

característicos iguais, dados por:

λ i = σ 2 (1 − ρ ) ; i = 2, 3, ,p (7.20)

e seus respectivos autovetores são iguais a:


7. Componentes principais 248

⎧ t ⎡ 1 −1 ⎤
⎪e 2 = ⎢ , , 0,..., 0 ⎥
⎪ ⎣ 1 × 2 1× 2 ⎦
⎪ t ⎡ 1 1 −2 ⎤
⎪e 3 = ⎢ , , , 0,..., 0 ⎥
⎪ ⎣ 2×3 2×3 2×3 ⎦


⎨ (7.21)
⎡ 1 1 −(i − 1) ⎤
⎪eit = ⎢ ,..., , , 0,..., 0 ⎥
⎪ ⎢⎣ (i − 1) × i (i − 1) × i (i − 1) × i ⎥⎦



⎪e t = ⎡ 1
,...,
1
,
−(p − 1) ⎤
⎪ p ⎢⎢ (p − 1) × p

(p − 1) × p (p − 1) × p ⎥⎦
⎩ ⎣

Finalmente é tratada a situação em que o vetor X é uma variável

aleatória da distribuição normal multivariada, ou seja, X ∼ N p µ, Σ . Nesse caso os ( )


componentes principais têm uma atrativa interpretação. Foi demonstrado no

capítulo 4 que a densidade de X é constante na elipsóide centrada em µ ,

(X − µ) Σ (X − µ) = c
t
−1 2
= χ p2 (α )

cujos eixos são dados por ± χ 2p (α ) λ i ei , i = 1, 2, ..., p , em que (λi, ei ) são os pares

de autovalor-autovetor de Σ. É possível verificar, fazendo µ = 0 por conveniência

de algumas demonstrações que se seguem, que:

1 t 2 1 t 2 1
( e1X ) + ( e 2 X ) + ... + ( e pt X )
2
χ 2p (α ) = X t Σ −1X =
λ1 λ2 λp
Ferreira, D.F. Estatística multivariada 249

em que eit X, i = 1, 2, ..., p são os componentes principais de X . Fazendo

Yi = eit X, i = 1, 2, ..., p tem-se

1 2 1 2 1
χ 2p (α ) = X t Σ −1X = Y1 + Y2 + ... + Yp2
λ1 λ2 λp

Essa última equação define uma elipsóide com os eixos coordenados

Y1, Y2, ..., Yp dispostos nas direções de e1 , e 2 , ..., e p , respectivamente. Como λ1 é o

maior autovalor, o maior eixo tem a direção definida por e1 , os eixos

remanescentes têm a direção definida por e 2 , ..., e p .

Foi assumido que µ = 0 . No entanto, é pouco provável que isso

aconteça em uma situação real. Todavia, as interpretações definidas

anteriormente são válidas da mesma forma, apenas sendo necessário definir o

i-ésimo componente principal centrado na média, por:

( )
Yi = eit X − µ , i = 1, 2, ..., p (7.22)

o qual tem média zero e direção definida por ei . Na Figura 7.1 ilustram-se os

componentes principais bivariados com densidade fixa de 95%. A rotação dos

eixos X1 e X2 nos novos eixos Y1 e Y2 são a essência dos componentes principais.


7. Componentes principais 250

Y1

Y2

Figura 7.1. A elipse de 95% de densidade constante e os componentes principais

Y1 e Y2 para a distribuição normal bivariada com média µ = 0 .

7.3. Componentes principais amostrais

Seja X1 , X 2 , , X n uma amostra aleatória retirada de uma população

p-variada qualquer com média µ e covariância Σ. O vetor de médias amostrais é

X , a matriz de covariância amostral é S e a matriz de correlação amostral é R. O

objetivo dessa seção é apresentar os conceitos de componentes principais para a

estrutura de covariância amostral.

As combinações lineares das variáveis mensuradas que maximizam

a variação total da amostra e que são mutuamente ortogonais são chamadas de

componentes principais amostrais. Seja a forma quadrática


Ferreira, D.F. Estatística multivariada 251

ˆ ˆ = Var(e
Q = Var(Y) ˆ t
X) = e t Se

O máximo de Q não existe, pois quanto maior for o comprimento de

e maior será o valor de Q. É conveniente tomar-se o máximo de Q restrito ao

comprimento unitário de e . Dessa forma, o máximo tem que ser obtido da forma

quadrática restrita seguinte.

e tSe
λ=
et e

O máximo é obtido tomando-se a derivada em relação a e e

igualando-se a derivada a zero. O sistema obtido é resolvido em relação a e e as

soluções obtidas referem-se ao máximo.

∂λ 2Se(e ˆ − 2(eˆ tSe)e


ˆ ˆ t e) ˆ ˆ 2 ⎛ eˆ tSeˆ ⎞
= = ⎜ S − Ι ⎟ eˆ = 0
∂e (eˆ t e)
ˆ 2 eˆ 'eˆ ⎝ eˆ t eˆ ⎠

⎛ eˆ t Seˆ ⎞
⎜ S − ˆ t ˆ Ι ⎟ eˆ = 0
⎝ ee ⎠

A equação resultante é dada por:

(S − λΙˆ ) eˆ = 0 (7.23)
7. Componentes principais 252

A solução de (7.23) conduz aos pares de autovalores e autovetores

( λˆ ; eˆ )
i i de S, que correspondem a variância amostral e combinação linear que

definem os componentes principais amostrais, para i=1, 2, ..., p.

Portanto, o i-ésimo componente principal amostral é:

ˆ = eˆ t X = eˆ X + eˆ X + ... + eˆ X , i = 1, 2, ..., p
Y (7.24)
i i i1 1 i2 2 ip p

em que λˆ 1 ≥ λˆ 2 ≥ ... ≥ λˆ p ≥ 0 são os autovalores amostrais de S correspondentes.

O estimador da variância amostral dos componentes principais é:

ˆ
Var Yk k( )
ˆ = λˆ , k = 1, 2,..., p (7.25)

e a covariância entre dois componentes principais (i e k) é:

ˆ Y
Cov (
ˆ ,Y
i k )
ˆ = 0, i ≠ k = 1, 2,..., p (7.26)

Pela mesma razão apresentada para os componentes principais

populacionais, verifica-se que a variação total explicada pelos componentes


p p
principais amostrais é igual a ∑ λˆ i = ∑ Sii . A partir da decomposição espectral de
i =1 i =1

S, dada por S = Pˆ Λ
ˆ Pˆ t e da propriedade que tr(AB)=Tr(BA) demonstra-se que:
Ferreira, D.F. Estatística multivariada 253

( ) ( ) ( )
p n
tr(S) = ∑ Sii = tr Pˆ Λ
ˆ Pˆ t = tr Λ ˆ = ∑ λˆ
ˆ Pˆ t Pˆ = tr Λ
i
i =1 i =1

Dessa forma, a explicação do k-ésimo componente principal amostral

da variação total do sistema é:

ˆ
ˆ ) = λ k × 100
%VarExp(Y (7.27)
k p

∑ λˆ i
i =1

A correlação amostral entre Ŷi e Xk é definida por:

êik λˆ i
rŶ ,X = , i, k = 1, 2,..., p (7.28)
i k
Skk

Os componentes principais podem ser definidos por componentes

principais amostrais centrados na média amostral X , da seguinte forma:

ˆ = eˆ t ( X − X ) = eˆ ( X − X ) + eˆ ( X − X ) + ... + eˆ ( X − X ) , i = 1, 2, ..., p (7.29)


Yi i i1 1 1 i2 2 2 ip p p

Se o vetor X for substituído em (7.29) por X j (vetor de observações

amostrais), pode-se obter os escores dos componentes principais. Esses escores

são plotados, muitas vezes, com o intuito de agrupar objetos ou itens, simplificar a

representação para uma ou duas dimensões, entre outras aplicações.


7. Componentes principais 254

Os componentes principais, em geral, não são invariantes com

relação a transformações nas escalas. A mudança de escala mais usual é aquela

que transforma as escalas das variáveis para uma outra escala sem dimensão,

cuja média é igual a zero e a variância é igual a 1. A padronização é obtida por:

Z j = D −1/ 2 ( X j − X ) , j = 1, 2,..., n (7.30)

( )
em que D-1/2= Diag 1/ S11 ,1/ S22 ,...,1/ Spp . O estimador de a covariância de Z é

dado por:

ˆ
Cov(Z) = D −1/ 2 Cov(X)D
ˆ −1/ 2
= D −1/ 2SD −1/ 2 = R (7.31)

Os componentes principais obtidos de R são definidos pelos pares

( )
de autovalores e autovetores de R λˆ i ; eˆ i . Assim, o i-ésimo componente principal

amostral obtido da matriz de correlação amostral é dado por:

ˆ = eˆ t Z = eˆ Z + eˆ Z + ... + eˆ Z ,
Y i = 1, 2, ..., p (7.32)
i i i1 1 i2 2 ip p

A variação total explicada pelo k-ésimo componente principal é dada

por:

ˆ
ˆ ) = λ k × 100
%VarExp(Y (7.33)
k
p
Ferreira, D.F. Estatística multivariada 255

A correlação amostral entre Ŷi e Zk é definida por:

rYˆ ,Z = eˆ ik λˆ i , i, k = 1, 2,..., p (7.34)


i k

Pequenos valores para os últimos autovalores, tanto de S como de

R, indicam, em geral, a presença de dependência linear no conjunto de dados.

Neste contexto pelo menos uma variável é redundante e pode ser eliminada do

conjunto de variáveis originais.

Existe sempre a questão importante de o número de componentes a

ser retido. Não existe uma resposta definitiva para essa questão. Os aspectos que

devem ser considerados incluem a quantidade da variação amostral explicada, o

tamanho relativo dos autovalores e a interpretação subjetiva dos componentes.

Uma ferramenta visual importante para auxiliar a determinação de o número

suficiente de componentes a ser retido é o “scree plot”. O termo “scree” refere-se

ao acumulo de rochas nas bases de um penhasco, portanto os “scree plots” serão

considerados “gráficos de cotovelos”. Na Figura 7.2 observa-se que um cotovelo é

formado aproximadamente na posição i=4. Isso significa que os componentes

acima de λ̂ 3 possuem aproximadamente a mesma magnitude e são relativamente

pequenos. Isso indica que os três primeiros, talvez os quatros primeiros

componentes são suficientes para resumir a variação amostral total.


7. Componentes principais 256

^ 10
λi

1 2 3 4 5 6
componente principal

Figura 7.2. “Scree plot” de um exemplo com p=6 componentes principais para

ilustrar o processo de determinação de o número apropriado de

componentes a ser retido.

7.4. Gráficos dos componentes principais

Os gráficos provenientes dos componentes principais podem ser

reveladores de diversos aspectos presentes nos dados de interesse do

pesquisador. Em muitas áreas os pesquisadores utilizam os primeiros e mais

importantes componentes para agrupar objetos e itens de acordo com a

representação em duas ou no máximo três dimensões retidas. Os gráficos dos

componentes principais podem revelar observações suspeitas, como também


Ferreira, D.F. Estatística multivariada 257

permitir uma avaliação da suposição de normalidade. Por se tratarem de

combinações lineares de p variáveis, supostamente normais, é possível assumir a

normalidade para os componentes principais. O teste de normalidade pode ser

feito em apenas alguns poucos componentes, o que pode simplificar a

complexidades das análises necessárias e reduzir o número de testes a ser

realizado.

Os valores amostrais dos componentes principais obtidos a partir de

os dados amostrais originais são chamados de escores. A equação (7.35)

refere-se a definição do escore do k-ésimo componente principal, para a j-ésima

observação amostral.

ˆ = eˆ t X = eˆ X + eˆ X + ... + eˆ X , k = 1, 2, ..., p; j = 1, 2,..., n


Y (7.35)
jk k j k1 j1 k2 j2 kp jp

De uma forma geral, os escores dos p componentes principais,

ˆ t = ⎡Y
representados pelo vetor Y ˆ ˆ ˆ ⎤
j ⎣ j1 Yj2 ... Yjp ⎦ para a j-ésima observação amostral

X tj = ⎡⎣ X j1 X j2 ... X jp ⎤⎦ , são dados por:

⎡ ê1t ⎤
⎢ t⎥
ˆ = Pˆ X = ⎢ ê 2 ⎥ X
Y t
(7.36)
j j ⎢ ⎥ j
⎢ ⎥
⎢⎣ ê pt ⎥⎦
7. Componentes principais 258

Para o agrupamento de objetos e também para avaliar desvios de

normalidade obtêm-se gráficos dos primeiros componentes retidos em um

diagrama contendo pares de componentes. Também, é possível obter os

Q-Q plots para cada componente, conforme descrição realizada no capítulo 4.

Desvios de normalidade podem ser verificados e o teste da correlação Q-Q plot

pode ser realizado.

Para a verificação de observações suspeitas os gráficos dos últimos

componentes principais tomados dois a dois são utilizados. Esse tipo de gráfico

pode ajudar a identificar observações suspeitas. Também, com esse intuito os Q-

Q plots desses componentes, de menor importância para a variação total, são

utilizados.

Da equação (7.36) e relembrando que P̂ é uma matriz ortogonal,

( )
−1
ˆ ˆ t = Pˆ t Pˆ = Ι , portanto Pˆ t
pois PP = Pˆ , pode-se demonstrar que:

ˆ ˆ = ⎡eˆ eˆ
X j = PY ˆ
eˆ p ⎤⎦ Y
j ⎣ 1 2 j

(7.37)
ˆ eˆ + Y
Xj = Y ˆ eˆ + ˆ eˆ
+Y
j1 1 j2 2 jp p

Essa é uma importante equação que mostra que a observação

amostral multivariada X j pode ser recuperada dos escores dos componentes

principais correspondentes. Constitui-se, portanto, em uma proeminente forma de

identificar com elevada precisão as observações suspeitas. Para isso um número

q de componentes principais q≤p é retido para ajustar as n observações amostrais


Ferreira, D.F. Estatística multivariada 259

multivariadas. Dessa forma, uma medida da qualidade desse ajuste é obtida

ˆ eˆ + Y
avaliando quanto Y ˆ eˆ + ˆ eˆ difere de X , tendo como desvio o valor
+Y
j1 1 j2 2 jq q j

ˆ eˆ + Y
dado por Y ˆ eˆ + ˆ eˆ . Essa medida é feita tomando-se o
+Y
jq +1 q +1 jq + 2 q + 2 jp p

quadrado desse desvio, o qual refere-se ao seu comprimento quadrático, ou seja,

ˆ 2 +Y
por Y ˆ2 + ˆ 2 . As observações consideradas suspeitas são aquelas que
+Y
j q +1 j q+2 jp

ˆ ,Y
possuem pelo menos uma das coordenadas de Y ˆ , ˆ que contribui
,Y
j q +1 j q+2 jp

para o comprimento quadrático total com grande valor.

7.5. Inferências para grandes amostras

Foram apresentados os conceitos fundamentais dos componentes

principais. A essência dos componentes principais está na obtenção dos

autovalores e autovetores da matriz de covariância (correlação). Os autovetores

determinam a rotação a ser realizada nos eixos coordenados originais nos

sentidos de maior variabilidade e os autovalores determinam as variâncias desses

novos eixos coordenados. As decisões com relação aos componentes principais

devem ser tomadas com base nos pares de autovalores-autovetores, ( λˆ ; eˆ ) ,


i i

estimados na amostra. Esses autovalores e autovetores são diferentes dos

respectivos valores populacionais devido às variações amostrais. Derivações à

respeito das distribuições amostrais de λ̂ i e de êi são apresentadas em Anderson


7. Componentes principais 260

(1963). Os resultados relativos aos resultados de grandes amostras são

apresentados a seguir, de uma forma resumida.

Suponha que X1 , X 2 , , X n seja uma amostra aleatória retirada de

uma população p-variada qualquer com média µ e covariância Σ. O vetor de

médias amostrais é X , a matriz de covariância amostral é S e a matriz de

correlação amostral é R. Suponha que Σ possui autovalores (desconhecidos)

distintos e positivos, quais sejam, λ1 > λ 2 > > λ p > 0 com correspondentes

autovetores (desconhecidos) e1 , e 2 , , ep . O estimador amostral de Σ é S, sendo

que os estimadores de λi e ei são λˆ 1 > λˆ 2 > > λˆ p > 0 e eˆ1 , eˆ 2 , , eˆ p .

Girshik (1939), Lawley (1956) e Anderson (1963) demonstraram que

os resultados doravante apresentados se verificam para grandes amostras. Dessa

forma, os resultados proporcionados referem-se a teoria de distribuições de

grandes amostras para os autovalores λˆ t = ⎡⎣λˆ 1 λˆ 2 λˆ p ⎤⎦ e para os autovetores

eˆ1 , eˆ 2 , , eˆ p de S. Fazendo Λ uma matriz diagonal dos autovalores λ1 , λ 2 , , λ p de

Σ, então,

1. ( )
n λˆ − λ tem distribuição aproximadamente N p ( 0, 2Λ 2 ) .

2. Seja

p ⎡ ⎤
λk
Ei = λi ∑ ⎢ e et
2 k k⎥
(7.38)
k =1 ⎢ ( λ − λ ) ⎥⎦
k ≠i ⎣ k i

então, n ( eˆ i − ei ) ∼ N p −1 ( 0, E i ) .
Ferreira, D.F. Estatística multivariada 261

3. Cada λ̂ i tem distribuição independente dos elementos do vetor característico

associado êi .

4. A covariância do r-ésimo elemento de êi e o s-ésimo elemento de ê j (i≠j) é:

λ i λ jeis e jr
Cov ( eˆ ir , eˆ js ) = (i ≠ j) (7.39)
n ( λi − λ j )
2

Os resultados 1 a 4 são referentes às propriedades distribucionais de

grandes amostras e válidas para o caso de p distintas raízes características.

Entretanto, Anderson (1963) aponta que o resultado 2 requer somente que λi seja

distinto dos demais p-1 valores característicos, os quais podem ter qualquer

multiplicidade. Esses resultados podem ser utilizados para construir testes de

hipóteses e intervalos de confiança para os autovalores e autovetores

populacionais.

O resultado 1 implica, em grande amostras, que os λ̂ i ’s são

independentemente distribuídos com distribuição aproximadamente N ( λ i , 2λ i2 / n ) .

As inferências podem ser derivadas desse resultado. O intervalo de confiança

para λi pode ser obtido a partir da afirmativa probabilística:


7. Componentes principais 262

⎡ ⎤
⎢ λˆ i − λ i ⎥
P⎢ ≤ Z ( α / 2 )⎥ = 1 − α (7.40)
⎢ 2 ⎥
⎢⎣ λ i n ⎥⎦

O intervalo de confiança resultante é dado por:

⎡ ⎤
⎢ ˆλ ˆλ ⎥
ICλi (1 − α) : ⎢ i
; i
⎥ (7.41)
⎢ 2 2⎥
⎢⎣1 + Z ( α / 2 ) n 1 − Z ( α / 2 ) n ⎥⎦

Obviamente os valores de α e de n devem ser apropriados para que

o limite superior de (7.41) seja válido. Caso o limite superior não seja válido e n for

suficientemente grande, é possível obter o intervalo alternativo substituindo a

variância paramétrica de λ̂ i pelo seu estimador. Assim,

⎡ 2 ˆ 2⎤
ICλi (1 − α) : ⎢λˆ i − Z ( α / 2 ) λˆ i ; λ i + Z ( α / 2 ) λˆ i ⎥ (7.42)
⎣ n n⎦

Testes de hipóteses de o tipo H o : λ i = λ 0 podem ser realizados

calculando-se o escore normal padrão:

λˆ i − λ 0
Zc = (7.43)
2
λ0
n
Ferreira, D.F. Estatística multivariada 263

Uma inferência importante e mais geral sobre a estrutura de

dependência é apresentada por Anderson (1963). O teste de hipótese de que os r

autovalores intermediários de Σ sejam iguais é apresentado. A hipótese de

interesse é:

H 0 : λ q +1 = λ q + 2 = = λq+r (7.44)

Aos q maiores e aos (p-q-r) menores autovalores não são impostas

restrições quanto aos seus valores ou multiplicidades. A hipótese alternativa é

especificada da seguinte forma: H1: pelo menos um dos r autovalores difere dos

demais intermediários. O teste de razão de verossimilhança conduz a estatística

⎛ q+r ˆ ⎞
⎜ ∑ λj ⎟
( )
q+r
2 ˆ
χ c = −(n − 1) ∑ ln λ j + (n − 1)r ln ⎜ j=q +1 ⎟ (7.45)
j= q +1 ⎜ r ⎟
⎜ ⎟
⎝ ⎠

que tem distribuição aproximadamente de qui-quadrado sob H0 com ν=r(r+1)/2 - 1

graus de liberdade para grandes amostras.

Um caso especial importante deste teste de hipótese ocorre quando

q+r=p ou quando a variação das últimas r dimensões é esférica.

Outro importante teste refere-se aos autovetores. A hipótese de que

o i-ésimo autovetor populacional de Σ é igual a um vetor de constantes com norma

1 é apresentada a seguir.
7. Componentes principais 264

H 0 : ei = e0 (7.46)

O teste da hipótese nula (7.46) é realizado com base no resultado 2

dessa seção e na matriz de covariância Ei definida em (7.38) devidamente

substituída pelo seu estimador Êi , o qual é obtido pela substituição de λ i e ei

pelos seus estimadores λ̂ i e êi . Assim, Anderson (1963) demonstra que o teste

estatístico dado por:

⎛ 1 ⎞
χ c2 = n ⎜ λˆ i e0t S−1e0 + e0t Se0 − 2 ⎟ = n ( eˆ i − e0 ) Eˆ ig ( eˆ i − e0 )
t
(7.47)
ˆλ
⎝ i ⎠

tem distribuição assintótica de qui-quadrado com p-1 graus de liberdade se H0 for

verdadeira. Em que Ê ig é uma inversa generalizada de Ê i .

Demonstração: A matriz Ei do resultado 2 pode ser rescrita na forma matricial

como se segue. Para isso, serão definidas as seguintes matrizes:


Ferreira, D.F. Estatística multivariada 265

⎡ λ1 ⎤
⎢ 0 0 ⎥
⎢ ( λ1 − λ i )
2

⎢ λ2 ⎥
⎢ 0 0 ⎥
( λ 2 − λi )
2
Λi = ⎢ ⎥ uma matriz (p-1)x(p-1) originária da
⎢ ⎥
⎢ ⎥
⎢ λp ⎥
⎢ 0 0 ⎥
( λ p − λi ) ⎥⎦
2

⎛ λj ⎞
eliminação da i-ésima linha e i-ésima coluna de uma matriz Diag ⎜ ⎟ , pxp.
⎜ ( λ − λ )2 ⎟
⎝ j i ⎠

Pi = ⎡⎣e1 e 2 e p ⎤⎦ p × (p − 1), sendo e j os autovetores de Σ, com j≠i e dimensão

px(p-1).

Assim, pode-se definir Ei por:

p ⎡ ⎤
λj
E i = λ i Pi Λ i Pit = λ i ∑ ⎢ e e t⎥

j=1 ⎢ ( λ − λ )
2 j j

j≠ i ⎣ i j ⎦

e sua inversa generalizada, devido a Ei ter posto (dimensão) p-1, por:

p ⎡ ( λ − λ )2 ⎤
1 1
∑ ⎢ t⎥
i j
E = Pi Λ i−1Pit =
g
i e je j
λi λi j=1 ⎢ λj ⎥
j≠ i ⎣ ⎦

No capítulo 4 foi visto que sob normalidade ou para grandes

amostras a forma quadrática

n ( ei − e0 ) E ig n ( ei − e0 ) ∼ χ 2p −1
t
7. Componentes principais 266

Os graus de liberdade são iguais a (p-1) e não a p devido a Ei ter

posto incompleto (p-1). Devido aos autovetores de E ig e o autovetor ei serem

ortogonais, a forma quadrática anterior pode ser simplificada por:

p ⎡ (λ − λ ) ⎤
2
n
n ( ei − e 0 ) E i ( ei − e0 ) = ne0 E i e0 = e0 ∑ ⎢ t⎥
t g t g t i j
e je j e 0 =
λ i j=1 ⎢ λj ⎥
j≠ i ⎣ ⎦

n t p ⎡ ( λ j − 2λ i λ j + λ i ) t ⎤
2 2 ⎧ p ⎡ ⎤⎫
n t⎪p p
1 t ⎪
= e0 ∑ ⎢ e je j ⎥e0 = e0 ⎨∑ ⎣ λ je je j ⎦ − 2λ i ∑ ⎣ e je j ⎦ + λ i ∑ ⎢ e je j ⎥ ⎬ e0 =
⎡ t
⎤ ⎡ t
⎤ 2

λ i j=1 ⎢ λj λ i ⎪ j=1 j=1 ⎢ λ j


j≠ i ⎣ ⎦⎥ ⎩ j≠ i
j=1
j≠ i j≠ i ⎣ ⎦⎥ ⎭⎪

p
Como ∑ ⎡⎣λ je jetj ⎤⎦ = Σ , além disso, somando e subtraindo λ i ei eit ao
j=1

p
termo da expressão ∑ ⎡⎣λ je je tj ⎤⎦ , tem-se que:
j=1
j≠ i

p
∑ ⎡⎣λ je je tj ⎤⎦ + λi ei eit − λ i ei eit = Σ − λ i ei eit
j=1
j≠ i

p ⎡ ⎤
1
Utilizando o mesmo raciocínio para Σ −1 = ∑ ⎢ e je tj ⎥ somando e
j=1 ⎢ λ j
⎣ ⎦⎥

p ⎡1 ⎤ 1
subtraindo ao termo ∑ ⎢λ e je tj ⎥ a quantidade dada por
λ
ei eit , tem-se:
j=1 ⎢ j ⎥⎦
j≠ i
⎣ i

p ⎡1 ⎤ 1 1 1
∑ ⎢λ e je tj ⎥ + ei eit − ei eit = Σ −1 − ei eit
j=1 ⎢ j
j≠ i
⎣ ⎥⎦ λ i λi λi
Ferreira, D.F. Estatística multivariada 267

p
Finalmente, o termo ∑ ⎡⎣e je tj ⎤⎦ é equivalente a seguinte expressão,
j=1
j≠ i

lembrando que os autovetores têm norma 1 e são ortogonais e ainda aplicando-se

o mesmo tipo de artifício:

p
∑ ⎡⎣e je tj ⎤⎦ = I − ei eit
j=1
j≠ i

Assim, retornando ao desenvolvimento anterior da aproximação de

qui-quadrado tem-se:

⎧ p ⎡ ⎤⎫
n t⎪p p
1 t ⎪
e0 ⎨∑ λ j e j e j ⎦ − 2λ i ∑ ⎣e j e j ⎦ + λ i ∑ ⎢ e j e j ⎥ ⎬ e0 =
⎡ t
⎤ ⎡ t
⎤ 2

λ i ⎪ j=1 ⎣ j=1 ⎢ λ j ⎥⎦ ⎪
j≠ i ⎣
j=1
⎩ j≠i j≠ i ⎭

n t⎡ ⎡ 1 ⎤⎤
= e0 ⎢Σ − λ i ei eit − 2λ i ( I − ei eit ) + λ i2 ⎢Σ −1 − ei eit ⎥ ⎥ e0 =
λi ⎣ ⎣ λi ⎦⎦

⎡ e t Σe et e et e e t Ie et e et e e t Σ −1e0 et e et e ⎤
= n ⎢ 0 0 − 0 i i 0 λ i − 0 0 2λ i + 2λ i 0 i i 0 + λ i2 0 − λ i2 0 i i 0 ⎥ =
⎣ λi λi λi λi λi λi × λi ⎦

⎡ e t Σe ⎤
= n ⎢ 0 0 − e0t ei eit e0 − 2e0t e0 + 2e0t ei eit e0 + λ i e0t Σ −1e0 − e0t ei eit e0 ⎥ =
⎣ λi ⎦

⎡ e t Σe ⎤
= n ⎢ 0 0 + λ i e0t Σ −1e0 − 2 ⎥
⎣ λi ⎦
7. Componentes principais 268

Substituindo nessa última expressão Σ pelo estimador S, a

distribuição ainda continua aproximadamente de qui-quadrado para grandes

amostras. Dessa forma, a prova fica completa.

Um outro importante teste de interesse é o da hipótese de mesma

estrutura de correlação, ou seja, Cov(X i , X k )= σii σ kk ρ ou Corr(X i , X k )=ρ , para

todo i≠k. Nesse caso, os autovalores de Σ não são todos distintos e os resultados

anteriores não se aplicam. Embora as distribuições amostrais dos componentes

principais obtidos da matriz R sejam difíceis de derivar, esse caso especial conduz

a resultados tratáveis (Morrison, 1976).

Lawley (1963) propôs um teste para essa hipótese que é alternativo

e equivalente àquele baseado na razão de verossimilhança, para a estrutura de

eqüicorrelação da matriz de correlação populacional ρ (pxp). Para isso basta

aplicar o teste da hipótese de igualdade de todas as p(p-1)/2 correlações (ρij). A

hipótese de interesse é dada por:

⎡1 ρ ρ⎤
⎢ρ 1 ρ ⎥⎥
H 0 : ρ = ρ0 = ⎢ vs H 0 : ρ ≠ ρ0 (7.48)
⎢ ⎥
⎢ ⎥
⎣ρ ρ 1⎦

Essa hipótese pode ser escrita na forma equivalente H 0 : ρij = ρ para

todos os subscritos i≠j. O procedimento de Lawley (1963) requer as seguintes

quantidades:
Ferreira, D.F. Estatística multivariada 269

1 p
rk = ∑ rik ; k = 1, 2, ..., p
p − 1 i =1
(7.49)
i≠k

2 p −1 p
r= ∑ ∑ rik
p(p − 1) i =1 k =i +1
(7.50)

(p − 1) 2 ⎡⎣1 − (1 − r ) 2 ⎤⎦
γˆ = (7.51)
p − (p − 2)(1 − r ) 2

Verifica-se facilmente que rk de (7.49) é a média dos elementos fora

da diagonal para as k colunas de R e r de (7.50) é a média de todos os

elementos fora da diagonal principal de R. Lawley (1963) mostrou que quando n

tende para infinito o teste estatístico:

n − 1 ⎡ p −1 p p 2⎤
χ c2 = 2 ⎢ ∑ ∑
(1 − r ) ⎣ i =1 k =i +1
( rik − r )
2
− γ
ˆ ∑ ( rk − r ) ⎥ (7.52)
k =1 ⎦

tem distribuição de qui-quadrado com ν=(p+1)(p-2)/2 graus de liberdade.

Finalmente, o teste, denominado de teste de esfericidade, é

apresentado. A hipótese de interesse é dada por:

H0 : Σ = Σ0 = σ2 I (7.53)
7. Componentes principais 270

Para o teste dessa hipótese, suponha uma amostra aleatória da

distribuição normal p-variada com média µ e covariância Σ, dada por

X1 , X 2 , , X n . A seguir é apresentado o teste de razão de verossimilhanças para

testar a hipótese de interesse. A função de verossimilhança sob a hipótese

H 0 : Σ = Σ é dada por:

n
⎧ 1 n ⎫
L ( µ, Σ X ) = ∏ f ( X j ) = ( 2π )− np / 2 Σ − n / 2 exp ⎨ − ∑ ( X j − µ ) Σ −1 ( X j − µ ) ⎬
t

j =1 ⎩ 2 j =1 ⎭

A função suporte é determinada pelo logaritmo natural (neperiano) da

função de verossimilhança. O máximo de L deve ser obtido, no entanto, o máximo

da função suporte com relação a µ e Σ coincidem. A função suporte é dada por:

⎡ n ⎤ np n 1 n
S( ) = ln ⎢∏ ( j )⎥ = − 2 ln ( 2π ) − 2 ln Σ − 2 ∑ ( X j − µ ) Σ −1 ( X j − µ )
t
µ , Σ X f X
⎣ j =1 ⎦ j =1

Para obter o máximo dessa função, é necessário derivar em relação

aos parâmetros µ e Σ . Igualar as derivadas a zero e achar a solução do sistema

de equações formado. Esses resultados estão apresentados na seqüência.

a) Derivada de S ( µ, Σ X ) em relação a µ
Ferreira, D.F. Estatística multivariada 271

∂S ( µ, Σ X ) n
= ∑ Σ −1 ( X j − µ )
∂µ j =1

Igualando a zero e resolvendo a equação formada obtém-se:

∑ (X
j =1
j − µˆ ) = 0

n
nµˆ = ∑ X j
j =1
n


j =1
Xj
µˆ = =X
n

b) Derivada de S ( µ, Σ X ) em relação a Σ

∂S ( µ, Σ X ) n 1
= − ( Σ −1 ) + nΣ −1S nΣ −1
t

∂Σ 2 2

Igualando a zero e resolvendo a equação para Σ , substituindo-se o

valor de µ encontrado em (a), tem-se as seguintes passagens.


7. Componentes principais 272

∂S ( µ, Σ X )
=0
∂Σ

n −1 t 1 ˆ −1 ˆ −1
− ( Σˆ ) + nΣ SnΣ = 0
2 2

1 ˆ −1 ˆ −1 n −1
nΣ S nΣ = ( Σˆ )
2 2

Σˆ −1S n Σˆ −1 = Σˆ −1

Pré e pós multiplicando ambos os lados dessa última equação por Σ̂

obtém-se:

ˆ ˆ −1S Σˆ −1Σˆ = ΣΣ
ΣΣ ˆ ˆ −1Σˆ
n

1 n 1 n
Σˆ = S n = ∑ ( X j − X )( X j − X )t = ∑W j
n j =1 n j =1

Substituindo as soluções obtidas em L obtém-se o seu máximo da

seguinte forma:

⎧ 1 n ⎫
( ) exp ⎨− ∑ ( X j − X j ) S n−1 ( X j − X j ) ⎬
−n / 2 t
L µˆ , Σˆ = ( 2π )− np / 2 S n
⎩ 2 j =1 ⎭
⎪⎧ 1 ⎡ n −1 t ⎤⎪ ⎫
exp ⎨− tr ⎢ ∑ Sn ( X j − X j )( X j − X j ) ⎥ ⎬
−n / 2
= ( 2π )− np / 2 S n
⎩⎪ 2 ⎣ j =1 ⎦ ⎭⎪
⎪⎧ 1 ⎡ −1 n t ⎤⎪⎫
exp ⎨− tr ⎢ S n ∑ ( X j − X j )( X j − X j ) ⎥ ⎬
−n / 2
= ( 2π )− np / 2 S n
⎪⎩ 2 ⎣ j =1 ⎦ ⎪⎭
Ferreira, D.F. Estatística multivariada 273

−n / 2 ⎧ 1 ⎫
= ( 2π )− np / 2 Sn exp ⎨− tr ⎡⎣ Sn−1nSn ⎤⎦ ⎬
⎩ 2 ⎭

−n / 2 ⎧ n ⎫
= ( 2π )− np / 2 S n exp ⎨− tr [ Ι ]⎬
⎩ 2 ⎭

−n / 2 ⎧ np ⎫
= ( 2π )− np / 2 Sn exp ⎨− ⎬
⎩ 2⎭

Sob H 0 : Σ = Σ 0 = σ 2 I a verossimilhança e a função suporte são

dadas por:

⎧ 1 n ⎫
L ( µ, Σ 0 X ) = ( 2π )− np / 2 Σ 0 exp ⎨− ∑ ( X j − µ ) Σ 0−1 ( X j − µ ) ⎬
−n / 2 t

⎩ 2 j =1 ⎭
⎧ 1 n ⎫
exp ⎨ − 2 ∑ ( X j − µ ) ( X j − µ ) ⎬
t
= ( 2π )− np / 2 ( σ 2 )
− np / 2

⎩ 2σ j =1 ⎭

np np 1 n
( ) ln ( 2π ) − ln ( σ2 ) − 2 ∑ ( X j − µ ) ( X j − µ )
t
S µ, σ 2 X = −
2 2 2σ j =1

Para obter o máximo dessa função, é necessário derivar em relação

aos parâmetros µ e σ 2 . Em seguida deve se igualar às derivadas a zero e achar a

solução do sistema de equações formado.


7. Componentes principais 274

(
c) Derivada de S µ, σ 2 X em relação a µ )

(
∂S µ, σ 2 X )= 1 n
∂µ
∑ ( X j − µ)
2σ2 j =1

Igualando a zero e resolvendo a equação formada obtém-se:

∑ (X
j =1
j − µˆ ) = 0

n
nµˆ = ∑ X j
j =1
n


j =1
Xj
µˆ = =X
n

Essa solução é a mesma do caso anterior.

( )
d) Derivada de S µ, σ 2 X em relação a Σ 0

(
∂S µ, σ 2 X ) = − np 1 n

∂σ 2
2σ 2
+
2(σ )
2 2
∑(X
j =1
j − µ)t ( X j − µ)

Igualando a zero e resolvendo a equação para σ 2 , substituindo-se o

valor de µ encontrado em (a), tem-se os seguintes resultados.


Ferreira, D.F. Estatística multivariada 275

(
∂S µ, σ 2 X ) =0
∂σ 2

np 1 n

2 ∑
− + ( X j − X )t ( X j − X ) = 0
2σ 2 ( σˆ ) j =1
2
ˆ 2

1 n
np
2 ( σˆ ) 2 2
∑ tr ⎣⎡( X
j =1
j − X )t ( X j − X ) ⎦⎤ = −
2σˆ 2

1 ⎧ n ⎫ np
tr ⎨
( σˆ 2 ) ⎩ j =1
∑ ⎡⎣( X j − X )( X j − X )t ⎤⎦ ⎬ = 2
⎭ σˆ
2

Pré e pós multiplicando ambos os lados dessa última equação por

σ̂ 2 , e simplificando algumas Expressões obtém-se:

1 np 2
σˆ 2 tr ( nS n ) = σˆ
( σˆ )
2 2 σˆ 2
1 np p
= =
σˆ 2
n tr ( S n ) tr ( S n )
tr ( Sn )
σˆ 2 =
p

Substituindo as soluções obtidas em L ( µ, Σ 0 X ) obtém-se o seu

máximo da seguinte forma:


7. Componentes principais 276

− np / 2
⎡ tr ( S n ) ⎤ ⎪⎧ ⎪⎫
( ) p n

∑ ( X j − X j ) ( X j − X j )⎬
t
L µˆ , Σˆ 0 = ( 2π )− np / 2 ⎢ ⎥ exp ⎨ −
⎣ p ⎦ ⎪⎩ 2tr ( S n ) j =1 ⎭⎪
− np / 2
⎡ tr ( S n ) ⎤ ⎧⎪ p ⎫⎪
= ( 2π ) − np / 2
⎢ ⎥ exp ⎨− tr ( nS n ) ⎬
⎣ p ⎦ ⎩⎪ 2tr ( S n ) ⎭⎪
− np / 2
− np / 2 ⎡ tr ( S n ) ⎤ ⎧ np ⎫
= ( 2π ) ⎢ ⎥ exp ⎨− ⎬
⎣ p ⎦ ⎩ 2⎭

Para testar a hipótese H 0 : Σ = Σ 0 = σ 2 I obtém-se a razão do máximo

de as duas funções de verossimilhança. Então, baseando-se no resultado de que

o logaritmo natural multiplicado por -2 tem distribuição aproximada de

qui-quadrado, pode-se efetuar um teste para essa hipótese. Assim, seja:

− np / 2
− np / 2 ⎡ tr ( S n ) ⎤ ⎧ np ⎫
( 2π ) exp ⎨− ⎬
Λ1 =
( )=
L µˆ , Σˆ 0 ⎢
⎣ p ⎦

⎩ 2⎭
=
Sn
n/2

L ( µˆ , Σˆ ) ⎧ np ⎫ ⎡ tr ( S n ) ⎤
np / 2
−n / 2
( 2π )− np / 2 Sn exp ⎨− ⎬
⎩ 2⎭ ⎢ ⎥
⎣ p ⎦

Ou ainda, se for considerado que Sn for substituído por S, não há

alteração dos resultados obtidos, e se for considerado também que λˆ i é o i-ésimo

autovalor de S, então Λ1 pode ser expresso por:

np / 2
⎛ p ⎞ ⎛ p ⎞
np / 2

⎜⎜ ∏ i ⎟⎟ ˆ
λ ˆ
⎜ ∏ λi ⎟
p p
n/2
S ⎝ i =1 ⎠
Λ1 = = = ⎜ p i =1 ⎟ (7.54)
[ tr(S) / p] ⎜ ˆ ⎟
np / 2 np / 2
⎛ ˆ p
⎞ ∑ λi / p ⎟
⎜ ∑ λ i / p ⎟ ⎜
⎝ i =1 ⎠ ⎝ i =1 ⎠
Ferreira, D.F. Estatística multivariada 277

Um teste estatístico pode ser obtido, conforme mencionado

anteriormente por:

⎡ n np ⎤
χ c2 = −2ln ( Λ1 ) = −2 ⎢ − ln S + {ln [tr ( S )] − ln ( p )}⎥ =
⎣ 2 2 ⎦
(7.55)
⎪⎧ n p np ⎡ ⎛ p ˆ ⎞ ⎤ ⎪⎫
= −2 ⎨− ∑ ln ( λˆ ï ) + ⎢ln ⎜ ∑ λ ï ⎟ − ln ( p ) ⎥ ⎬ ∼ χ ν
2

⎪⎩ 2 i =1 2 ⎣ ⎝ i =1 ⎠ ⎦ ⎪⎭

A distribuição aproximada de qui-quadrado possui ν graus de

liberdade, que referem-se a diferença entre o número de parâmetros do modelo

completo e o número de parâmetros do modelo sob a hipótese nula. Como são

estimadas p médias, p variâncias e p(p-1)/2 covariâncias no modelo completo e p

médias e σ2 no modelo sob a hipótese nula, os graus de liberdade são dados por:

p ( p + 1) p ( p + 1) − 2 ( p + 2)( p − 1)
ν= p+ − p −1 = =
2 2 2

Bartlett (1954) sugere uma correção no teste anterior para uma

melhor performance, sendo que para grandes amostras a estatística dada por:

⎡ (2p 2 + p + 2) ⎤
χ c2 = −2 ⎢1 −
6pn ⎥ ln ( Λ1 ) (7.56)
⎣ ⎦

tem distribuição aproximadamente de qui-quadrado com ν=(p+2)(p-1)/2 graus de

liberdade sob H0 dada em (7.53).


7. Componentes principais 278

O teste (7.56) da hipótese nula (7.53) é denominado de teste de

esfericidade, porque os contornos da densidade são esferas quando Σ = σ2 I .

Um teste mais geral do que o teste (7.56) para a hipótese de que

todas as variáveis sejam independentes é dado pelo teste de razão de

verossimilhança. Seja a hipótese

⎡ σ11 0 0 ⎤
⎢0 σ 0 ⎥⎥
H0 : Σ = ⎢
22
; σii >0 (7.57)
⎢ ⎥
⎢ ⎥
⎢⎣ 0 0 σpp ⎥⎦

A seguinte estatística deve ser calculada inicialmente:

n/2
S n/2
Λ2 = n/2
= R (7.58)
⎛ p ⎞
⎜ ∏ Sii ⎟
⎝ i =1 ⎠

Para grandes amostras, sob H0, o teste estatístico:

⎡ (2p + 11) ⎤
χ c2 = −2 ⎢1 − ln ( Λ 2 ) (7.59)
⎣ 6n ⎥⎦

tem distribuição aproximadamente de qui-quadrado com ν=p(p-1)/2 graus de

liberdade sob H0 dada em (7.57). Essa aproximação é devida a Bartlett (1954) em


Ferreira, D.F. Estatística multivariada 279

substituição a aproximação usual -2ln(Λ2). O resultado (7.59) melhora a

aproximação qui-quadrado usual.

Lawley (1940) mostra que o teste (7.59) pode ser aproximado por:

⎡ (2p + 11) ⎤ p −1 p 2
χ c2 ≅ ⎢ n −
⎣ 6 ⎥⎦ ∑ ∑ rik
i =1 k = i +1
(7.60)

Essa expressão representa uma melhor aproximação de (7.59) para

pequenas correlações e para grandes amostras é pouco provável que conduza a

diferentes resultados dos obtidos pela fórmula determinantal exata (7.59),

Morrison (1976).

É apresentado a seguir um programa SAS no procedimento de

matrizes IML para a realização de todas as inferências propostas nessa seção.

Um exemplo é apresentado, com comentários, para que o usuário possa

reproduzir os testes e os procedimentos de estimação propostos.

options ps=5000 ls=75 nodate nonumber;;


proc iml;
S={4.9810 3.8063 4.7740,
3.8063 3.0680 3.7183,
4.7740 3.7183 4.8264};
p=ncol(S);n=24;alpha=0.05;
print 'Valor de p tamanho da amostra e alpha';
print p n alpha;
print 'Matriz de covariancias amostral: S';
print S;
Ls=diag(eigval(s));
Ps=eigvec(S);
print 'Matriz de autovalores de S';
print Ls;
print 'Matriz de autovetores de S';
print Ps;
D=diag(S);
D_12=inv(root(D));
*print D 12;
7. Componentes principais 280

Rs=D_12*S*D_12;
print 'Matriz de correlacoes amostrais R';
print Rs;
Lr=diag(eigval(Rs));
print 'Matriz de autovalores de R';
print Lr;
Pr=eigvec(Rs);
print 'Matriz de autovetores de R';
print Pr;
/*intervalo de confianca para autovalores de S - equacao 7.41*/
za2=probit(1-alpha/2);
print 'Intervalos de confianca para os autovalores de S, sendo 1-
alpha=' alpha;
print 'Autovalor Li Ls';
do i=1 to p;
lin=ls[i,i]/(1+za2*(2/n)**0.5);
lsu=ls[i,i]/(1-za2*(2/n)**0.5);
print i lin lsu;
end;
/*Testar a hipotese de que o maior autovalor de S e igual a l0=12.35 -
equacao 7.42 */
/* este teste eh motivado pelo fato de l1=sig2(1+(p-1)rho), com
sig2=4.2 e rho=0.97 */
l0=12.35;
Zc=(ls[1,1]-l0)/(l0*(n/2))**0.5;
przc=2*(1-probnorm(abs(zc)));
print 'Teste de H0: l1=12.35 (igual correlacao). Esse valor eh apenas
um exemplo';
print 'Valor de Zc valor de prob>|zc|';
print 'Se [prob>|zc|]>valor de alpha Ho nao deve ser rejeitada';
print Zc przc;
/* teste 7.43 igualdade de r autovalores intermediarios*/
/* neste exemplo sera testado Ho: l2 = l3 */
/*q=1, r=2, p=3 -teste 7.44 */
aux1=0;aux2=0;q=1;r=2;
do i=q+1 to q+r;
aux1=aux1+log(ls[i,i]);
aux2=aux2+ls[i,i]/r;
end;
qui2c=-(n-1)*aux1+(n-1)*r*log(aux2);
print 'Valores dos somatorios auxiliares para teste H0: l2 = l3';
print 'aux1 = soma ln(lj) e aux2 = media dos lj intermediarios';
print aux1 aux2;
v=r*(r+1)/2-1;
prqui2c=1-probchi(qui2c,v);
print 'Teste da hipotese de que Ho: l2 = l3 ';
print 'Qui-quadrado GL Pr>qui-Quadr';
print qui2c v prqui2c;
/* teste para a hipotese de igualdade de um autovetor a um vetor de
constantes*/
/* Para ilustrar sera testado que e1=[1/3^0.5 1/3^0.5 1/3^0.5], ou
seja, igual*/
/* estrutura de correlacao da matriz Sigma que originou a S */
e0=j(p,1,1/3**0.5);
E1=j(p,p,0);
do i=1 to p;
ek=Ps[,i];
if i^=1 then
do;
E1=E1+(ls[i,i]/(ls[i,i]-ls[1,1])**2)*ek*t(ek);
Ferreira, D.F. Estatística multivariada 281

end;
end;
E1=ls[1,1]*E1;
Le=eigval(e1);
*print E1 le;
ei1=Ps[,1];
print e0 ei1;
qui2c=n*(ls[1,1]*e0`*inv(S)*e0+e0`*S*e0/ls[1,1]-2);
qui2c2=n*t(Ps[,1]-e0)*ginv(E1)*(Ps[,1]-e0);
v=p-1;
prqui2c=1-probchi(qui2c,v);
print 'Teste da hipotes e1=e0=t([1/3^0.5 1/3^0.5 1/3^0.5])';
print 'Qui-quadrado1 qui-quad2 GL Pr>qui-Quadr';
print qui2c qui2c2 v prqui2c;
/*teste da H0:phoij=pho - igual estrutura de correlacao */
rbar=(sum(Rs)-trace(Rs))/(p*(p-1));
rk=j(p,1,0);
do i=1 to p;
rk[i]=(sum(Rs[,i])-1)/(p-1);
end;
gama=(p-1)**2*(1-(1-rbar)**2)/(p-(p-2)*(1-rbar)**2);
aux1=(Rs-j(p,p,rbar))#(Rs-j(p,p,rbar));
aux2=(sum(aux1)-trace(aux1))/2;
aux3=(rk-j(p,1,rbar))#(rk-j(p,1,rbar));
aux4=sum(aux3);
qui2c=(n-1)/(1-rbar)**2*(aux2-gama*aux4);
v=(p+1)*(p-2)/2;
if qui2c<=0 then qui2c=1e-14;
prqui2=1-probchi(qui2c,v);
print 'Teste da hipotes phij=pho: igual estrutura de correlacao';
print 'Qui-quadrado GL Pr>qui-Quadr';
print qui2c v prqui2;
print 'Valores utilizados no teste-para simples conferencia';
print 'media geral dos rij, vetor de medias de cada coluna de R e gama
chapeu';
print rbar rk gama;
/*teste de esfericidade-H0: Sigma=Sig^2*I*/
Lamb1=((det(S)**(1/p))/(trace(S)/p));
qui2c=-2*(n*p/2)*log(lamb1)*(1-(2*p**2+p+2)/(6*p*n));
v=(p+2)*(p-1)/2;
prqui2=1-probchi(qui2c,v);
print 'Teste de esfericidade - H0: Sigma=Sig^2*I';
print 'Qui-quadrado GL Pr>qui-Quadr Lambida 1^(2/(np))';
print qui2c v prqui2 lamb1;
/*teste de independencia de variaveis mais geral - H0: Sigma =
Diag(sig11 sig22 ... sigpp)*/
Lamb2=det(Rs);
qui2c=-2*(n/2)*log(lamb2)*(1-(2*p+11)/(6*n));
v=p*(p-1)/2;
prqui2=1-probchi(qui2c,v);
print 'Teste de independencia - H0: Sigma = Diag(sig11 sig22 ...
sigpp)';
print 'Qui-quadrado GL Pr>qui-Quadr Lambida 2^2/n';
print qui2c v prqui2 lamb2;
/*teste de independencia de variaveis - uso da aproximacao de Lawley-
pior*/
aux1=Rs#Rs;
aux2=(sum(aux1)-trace(aux1))/2;
qui2c=aux2*(n-(2*p+11)/6);
v=p*(p-1)/2;
7. Componentes principais 282

prqui2=1-probchi(qui2c,v);
print 'Teste de independencia aproximado de Lawley (1940)';
print 'para a hipotese H0: Sigma = Diag(sig11 sig22 ... sigpp)';
print 'Qui-quadrado GL Pr>qui-Quadr Soma de rij^2=aux2';
print 'Obs. para grandes valores de rij essa eh uma pessima
aproximacao';
print qui2c v prqui2 aux2;
quit;

7.6. Exercícios

7.6.1. Extrair os componentes principais da matriz S obtida das mensurações de

três variáveis em carapaças de tartarugas. As variáveis X1, X2, e X3 são

referentes ao comprimento, largura e altura transformadas por logaritmo

natural, respectivamente. Uma amostra de 24 fêmeas foi realizada. A matriz

S é apresentada a seguir, juntamente com o vetor de médias das variáveis

transformadas. Obter os componentes principais de S e interpretá-los,

quando for possível. Obter a matriz R e os respectivos componentes

principais. Obter em ambos os casos: a) a porcentagem de informação

explicada por cada componente; b) a correlação entre as variáveis originais

transformadas e os componentes principais. Observando o primeiro

componente principal de R com mais profundidade, o que pode ser afirmado

sobre a matriz R (sem a realização de teste).

⎡ 2,128 ⎤ ⎡ 4,9810 3,8063 4, 7740 ⎤


X = ⎢⎢ 2, 008⎥⎥ e S = ⎢⎢ 3,8063 3, 0680 3, 7183 ⎥⎥
⎢⎣1, 710 ⎥⎦ ⎢⎣ 4, 7740 3, 7183 4,8264 ⎥⎦
Ferreira, D.F. Estatística multivariada 283

7.6.2. Com os dados do exercício 7.6.1, determine os intervalos de 95% de

confiança assintótico para os 3 autovalores de Σ (3x3).

7.6.3. Com os dados do exercício 7.6.1 teste a hipótese de que o primeiro

autovetor de ρ seja igual a e1t = ⎡⎣1 3 1 3 1 3 ⎤⎦ . Qual é sua conclusão

com relação à decisão tomada?

7.6.4. Com os dados do exercício 7.6.1 reproduza a matriz S a partir do primeiro

componente principal e a matriz de resíduos.

7.6.5. Teste a hipótese de que os r=2 últimos valores característicos de Σ, sejam

iguais, utilizando os dados do exemplo 7.6.1.

7.6.6. Teste a hipótese de independência geral entre 3 variáveis, para as quais

uma amostra de n=50 observações apresentou a seguinte matriz de

covariância.

⎡ 24,9811 0, 0796 0, 0574 ⎤


S = ⎢⎢ 0, 0796 5, 2762 0, 0020 ⎥⎥
⎢⎣ 0, 0574 0, 0020 3, 0655 ⎥⎦

7.6.7. Os dados a seguir referem a uma amostra de 30 elementos em uma

população normal trivariada. Obtenha os componentes principais e verifique

a normalidade por meio dos dois primeiros componentes. Faça os Q-Q plots

e os gráficos de dispersão dos escores do componente 1 vs 2. Utilize o

último componente para verificar a possibilidade de observações suspeitas.

Caso alguma observação suspeita seja observada, elimine-a da amostra e

refaça o exercício.
7. Componentes principais 284

U.A. X1 X2 X3
1 12,80 29,56 45,19
2 14,12 26,54 49,29
3 19,09 33,26 49,79
4 15,98 31,00 51,73
5 16,00 28,94 50,30
6 16,51 31,67 48,06
7 14,05 30,11 55,15
8 14,34 26,47 46,84
9 16,87 29,00 52,16
10 21,93 38,00 39,24
11 15,21 30,68 54,02
12 15,54 27,37 51,52
13 17,71 30,20 51,66
14 14,42 29,99 52,50
15 13,38 31,61 52,33
16 13,91 29,59 44,19
17 15,53 29,30 53,71
18 16,40 28,96 46,56
19 18,35 30,15 52,18
20 13,59 27,70 52,33
21 19,08 31,26 48,59
22 13,95 29,94 54,73
23 16,11 34,52 52,69
24 17,10 29,39 52,03
25 18,81 31,48 49,79
26 15,27 29,54 43,11
27 14,80 31,88 48,08
28 17,39 28,88 50,69
29 18,02 34,02 49,58
30 9,52 25,23 45,89
||[ 8
Análise de agrupamento
]||
8.1. Introdução

As análises rudimentares e exploratórias de dados como os

procedimentos gráficos auxiliam, em geral, o entendimento da complexa natureza

da análise multivariada. No presente capítulo são discutidas algumas técnicas

gráficas adicionais para agrupar objetos (itens ou variáveis) e também apresentar

os algoritmos que devem ser usados para efetivamente realizá-los. Encontrar nos

dados uma estrutura natural de agrupamento é uma importante técnica

exploratória. A análise de agrupamento deve ser distinguida da análise

discriminante, pelo fato desta última ser aplicada a um número de grupos já

conhecidos, tendo por objetivo a discriminação de um novo indivíduo a um destes

grupos. A análise de agrupamento por sua vez não considera o número de grupos

e é realizada com base na similaridade ou dissimilaridade (distâncias).

Objetivo dessa análise é agrupar objetos semelhantes segundo suas

características (variáveis). Todavia, não existem impedimentos para realizar o

agrupamento de variáveis semelhantes segundo as realizações obtidas pelos

objetos amostrados. Um outro problema para o qual uma resposta é necessária


8. Análise de agrupamento 286

consiste em verificar se um indivíduo A é mais parecido com B do que com C.

Quando o número de variáveis envolvidas é pequeno, a inspeção visual poderá

responder. Assim, por exemplo, na Figura 8.1 observa-se uma situação em que A

é mais parecido com C do que com B. Intuitivamente para fazer tal inferência

usou-se o conceito de distância euclidiana, o qual definiu a idéia de parecença.

20 B

18

16
Variável 2

14

12
A
C
10

1.0 1.5 2.0 2.5 3.0 3.5 4.0


Variável 1

Figura 8.1. Dispersão entre três indivíduos mensurados com relação a duas

variáveis quantitativas contínuas.

8.2. Medidas de parecença (similaridade e


dissimilaridade)

Como foi visto no exemplo da Figura 8.1, é necessário especificar

um coeficiente de parecença que indique a proximidade entre os indivíduos. É

importante considerar, em todos os casos semelhantes a este, a natureza da


Ferreira, D.F. Estatística multivariada 287

variável (discreta, contínua, binária) e a escala de medida (nominal, ordinal, real

ou razão).

No capítulo 1 foi discutida a noção de distância e apresentada a

distância euclidiana entre dois objetos no espaço p-dimensional. Sejam

X1t = ⎡⎣ X11 X12 " X1p ⎤⎦ e X 2t = ⎡⎣ X 21 X 22 " X 2p ⎤⎦ observações entre dois objetos
 
(indivíduos). Então, a distância euclidiana entre eles é dada por:

d ( X1 , X 2 ) = ( X11 − X 21 ) + ( X12 − X 22 ) + ... + ( X1p − X 2p ) = (X1 − X 2 ) t (X1 − X 2 ) (8.1)


2 2 2

     

Uma importante distância estatística entre estes dois objetos é

conhecida como distância de Mahalanobis, dada por:

d ( X1 , X 2 ) = (X1 − X 2 ) t S−1 (X1 − X 2 ) (8.2)


     

em que, S-1 é a inversa da matriz de variância e covariância amostral. Outra

medida de distância é a métrica de Minkowski, a qual depende de funções

modulares.

1m
⎡ p m⎤
d ( X1 , X 2 ) = ⎢ ∑ X1i − X i2 ⎥ (8.3)
  ⎣ i =1   ⎦
8. Análise de agrupamento 290

em que X ( n ) j e X (1) j são os valores máximos e mínimos, respectivamente, em

uma amostra de n objetos para a j-ésima variável.

Muitas vezes os objetos não podem ser mensurados em variáveis

quantitativas. Essas variáveis podem ser transformadas em dicotômicas (binárias),

determinado um ponto de corte de interesse prático. Assim, por exemplo, se a

altura (Y) de n indivíduos é mensurada e o interesse é determinar àqueles com

altura superiores a 1,80m, então, defini-se a variável binária (X) da seguinte forma:

se Yi > 1,80m então Xi = 1 caso contrário, se Yi ≤ 1,80m, então Xi = 0. Da mesma

forma, variáveis qualitativas podem ser transformadas em variáveis binárias

tomando-se como valor 1 a presença de uma determinada realização e o valor 0

para as demais. Assim, por exemplo, se na amostra ocorresse um indivíduo com

cor de olhos pretos determinaria o valor 1 e a ocorrência de outro com outra cor de

olhos determinaria o valor 0. De uma maneira geral, a presença e ausência de

uma característica devem ser representadas por uma variável binária, a qual

assume valor 1 se a característica estiver presente e o valor zero se estiver

ausente. A ocorrência de dados binários é bastante comum em genética

molecular. Nesse caso, os indivíduos são genotipados para a presença ou

ausência de um determinado marcador molecular, marcador de DNA.

Como exemplos consideram-se duas linhagens de milho as quais

foram estereotipadas através de marcadores moleculares denominados RAPD. O

melhorista nesse caso estava interessado na similaridade genética dessas

linhagens. Cinco bandas (marcadores diferentes) foram utilizadas. Os resultados


Ferreira, D.F. Estatística multivariada 291

para presença e para a ausência dessas bandas foram obtidos e estão

apresentados a seguir.

Bandas
Linhagens 1 2 3 4 5
A 1 0 0 1 1
B 1 1 0 1 0

Existem, neste exemplo, duas concordâncias, uma com 1-1 e outra

com 2-2 e duas discordâncias, quais sejam, 0-1 e 1-0. Representando o escore (1

ou 0) da j-ésima variável binária no h-ésimo objeto por Xhj e da mesma forma Xij

representa o escore do i-ésimo objeto na j-ésima variável, j=1, 2, ..., p.

Conseqüentemente, a diferença ao quadrado entre os dois indivíduos ou objetos

para uma determinada variável resultará apenas no valor 0 ou no valor 1. Isso

pode ser observado facilmente pelos seguintes argumentos.

⎧0 se X hj = X ij = 1 ou se X hj = X ij = 0

(X − X ij )
2
hj =⎨ (8.8)
⎪1 se X ≠ X
⎩ hj ij

Dessa forma, a distância euclidiana quadrática representa a

contagem do número de pares não coincidentes. Grandes distâncias

correspondem a muitos pares não coincidentes e, portanto, a objetos dissimilares.

Para o exemplo em questão, tem-se:

d A2 , B = 2
8. Análise de agrupamento 292

A equação (8.4) pode ser usada muitas vezes como base para

distância, no entanto, algumas vezes possui algumas limitações por considerar

que os pares (1-1) e (0-0) possuem o mesmo peso, o que em determinadas

situações reais (1-1) representa uma forte evidência de similaridade, mas o (0-0)

não. Muitos coeficientes existem na literatura, dando diferentes tratamentos a este

problema. Cabe ao leitor decidir em qual situação o seu problema se enquadra e

escolher a medida de parecença mais apropriada. Para introduzir estas medidas

de parecença são apresentados os resultados de coincidências e divergências dos

objetos h e i em uma tabela de contingência.

Item i
1 0 Totais
1 a b a+b
Item h
0 c d c+d
Totais a+c b+d p = a + b +c + d

Nesta Tabela pode-se observar que “a” representa a freqüência de

coincidências (1-1), “b” a freqüência de (1-0), e assim sucessivamente. No

exemplo tratado a = 2, b = c = d = 1.

Na Tabela 8.1 apresentam-se alguns dos coeficientes de

semelhança (similaridade) em termos das freqüências descritas anteriormente,

considerando variáveis binárias. Os valores para o exemplo, a variação de cada


Ferreira, D.F. Estatística multivariada 293

uma, o nome comum na literatura e explicação racional para as mesmas foram

apresentados.

Na Tabela 8.1, estão apresentados os coeficientes de similaridades,

no entanto, deve ser ressaltado que a única exceção é a distância binária de

Sokal. Muitas vezes as medidas de dissimilaridade podem ser transformadas em

medidas de similaridade pela relação apresentada em Johnson e Wichern (1988).

1
Sh,i = (8.9)
1 + d h ,i

Outra forma de se obter coeficientes de similaridades a partir da

distância euclidiana, calculada com variáveis padronizadas, pode ser obtida pelo

coeficiente de Cattel (Bussab, Miazaki, Andrade, 1990).

⎛ 2⎞
2 ⎜ p − ⎟ − d h2, i
= ⎝
3⎠
Sh,i (8.10)
⎛ 2 ⎞
2 ⎜ p − ⎟ + d h2,i
⎝ 3⎠

Uma outra expressão apresentada é atribuída a Cattel e Coulter

(Bussab, Miazaki, Andrade, 1990), também derivada considerando distâncias

euclidianas padronizadas é dada por:

2 p − d h2, i
Sh,i = (8.11)
2 p + d h2, i
8. Análise de agrupamento 294

No entanto, nem sempre é possível construir distâncias a partir de

similaridades. Isso só pode ser feito se a matriz de similaridades for não negativa

definida. Com a condição de que Si,i = 1, máximo das similaridades, e que a matriz

de similaridades seja não negativa definida, então a expressão (8.12) tem as

propriedades de distância.

d h , i = 2 (1 − S h ,i ) (8.12)
Ferreira, D.F. Estatística multivariada 295

Tabela 8.1. Alguns coeficientes de parecença para variáveis dicotômicas.

Nome Expressão Explicação Variação Ex.


Coincidência a+d Pesos iguais para 1-1 e 0-0 0-1 0,60
simples
p
Sokal e 2 (a + d ) Peso duplo para 1-1 e 0-0 0-1 0,75
Sneath
2 (a + d ) + b + c
Rogers e a+d Duplo peso para pares não 0-1 0,43
Tanimoto coincidentes
a + 2( b + c) + d
Russel e Rao a Nenhum 0-0 no numerador 0-1 0,40
p
Jaccard a As coincidências 0-0 são tratadas 0-1 0,50
como irrelevantes
a+b+c
Sorenson 2a 0-0 é irrelevante e duplo peso para 0-1 0,66
1-1.
2a + b + c
- a 0-0 é irrelevante e duplo peso para 0-1 0,33
não coincidência.
a + 2( b + c)
- a Razão entre coincidências e não 0-(p-1) 1,00
coincidências - Exceto 0-0
b+c
Dist. Binária b+c Única medida de dissimilaridade. 0-1 0,63
de Sokal
p
Ochiai a Concordâncias positivas sobre 0-1 0,67
adaptação da média geométrica de
( a + b )( a + c) discordâncias
Baroni-Urbani- Concordâncias positivas e a média 0-1 0,63
Buser
a + ad geom. de concordância positivas e
a + b + c + ad negativas
Haman (a + d) − (b + c ) Proporção de coincidências menos -1 - +1 0,20
a proporção de discordâncias
p
Yule ad − bc Proporção de ad menos a de bc -1 - +1 0,33

ad + bc
φ ad − bc Produto de momento de correlação -1 - +1 0,17
aplicado a variáveis binárias
(a + b)(a + c)( b + d )(c + d )
Ochiai II ad Proporção de coincidências em 0 -1 0,33
relação à média geom. total
(a + b)(a + c)(b + d )(c + d ) modificada
8. Análise de agrupamento 296

Em algumas aplicações é necessário agrupar variáveis ao invés de

objetos. As medidas de similaridades para agrupar variáveis usadas na prática são

baseadas nos coeficientes de correlação amostral. Em algumas aplicações de

agrupamento, as correlações negativas são trocadas pelos seus valores

absolutos. Quando, as variáveis são binárias esta correlação está apresentada na

Tabela 8.1 (φ). Este coeficiente de correlação está associado à estatística de qui-

quadrado, para testar a independência de duas variáveis categóricas por

( φ2 = χ 2 n , n = a + b + c + d, χ2 com 1 grau de liberdade). Para n fixo, uma grande

similaridade (ou correlação) é consistente com a falta de independência entre as

variáveis. Uma outra importante observação que pode ser feita é que para

agrupamento de variáveis os coeficientes de similaridade e de distâncias podem

ser usadas, apenas tomando-se o cuidado de substituir p (número de variáveis)

por n (número de objetos).

8.3. Agrupamentos

Muitos algoritmos existem para formar os agrupamentos, devido a

existência de vários critérios existentes para conceituar os grupos que nem

sempre são aceitos universalmente. Uma outra razão para isso, é que raramente

pode-se examinar todas as possibilidades de agrupamento, mesmos com os mais

rápidos e possantes computadores.


Ferreira, D.F. Estatística multivariada 297

São apresentadas neste material algumas das técnicas de

agrupamentos denominadas hierárquicas e outra do grupo das não hierárquicas.

8.3.1. Agrupamentos hierárquicos

Os agrupamentos hierárquicos são realizados por sucessivas fusões

ou por sucessivas divisões. Os métodos hierárquicos aglomerativos iniciam com

tantos grupos quanto aos objetos, ou seja, cada objeto forma um agrupamento.

Inicialmente, os objetos mais similares são agrupados e fundidos formando um

único grupo. Eventualmente o processo é repetido, e com o decréscimo da

similaridade, todos os subgrupos são fundidos, formando um único grupo com

todos os objetos.

Os métodos hierárquicos divisivos trabalham na direção oposta. Um

único subgrupo inicial existe com todos os objetos e estes são subdivididos em

dois subgrupos de tal forma que exista o máximo de semelhança entre os objetos

dos mesmos subgrupos e a máxima dissimilaridade entre elementos de subgrupos

distintos. Estes subgrupos são posteriormente subdivididos em outros subgrupos

dissimilares. O processo é repetido até que haja tantos subgrupos quantos

objetos.

Os resultados finais destes agrupamentos podem ser apresentados

por gráficos denominados dendrogramas. Os dendrogramas apresentam os


8. Análise de agrupamento 298

elementos e os respectivos pontos de fusão ou divisão dos grupos formados em

cada estágio.

Os esforços deste capítulo serão concentrados nos métodos

hierárquicos aglomerativos (“Linkage Methods”). Serão discutidos os métodos de

ligação simples (mínima distância ou vizinho mais próximo), ligação completa

(máxima distância ou vizinho mais distante) e ligação média (distância média). As

idéias para estes três processos estão, esquematicamente, apresentados na

Figura 8.2.

.2 d24 .3 .2 .3
.1 .4 d15
.4
(a) . 5
.
1
.5
(b)

.2 .3
.1 .4
.5
(c)
(d13+d14+d15+d23+d24+d25)/6

Figura 8.2. Distâncias entre os grupos para os métodos da (a) ligação simples, (b)

ligação completa e (c) ligação média.


Ferreira, D.F. Estatística multivariada 299

A seguir está apresentado um algoritmo geral para os agrupamentos

hierárquicos aglomerativos com n objetos (itens ou variáveis).

1. Iniciar com n grupos, cada um com um único elemento e com uma matriz

simétrica n x n de dissimilaridades (distâncias) D={dhi}.

2. Buscar na matriz D o par de grupos mais similar (menor distância) e fazer a

distância entre os grupos mais similares U e V igual a duv.

3. Fundir os grupos U e V e nomeá-lo por (UV). Recalcular e rearranjar as

distâncias na matriz D (a) eliminando as linhas e colunas correspondentes a U

e V e (b) acrescentando uma linha e coluna com as distâncias entre o grupo

(UV) e os demais grupos.

4. Repetir os passos 2 e 3 num total de (n-1) vezes (todos os objetos estarão em

único grupo). Anotar a identidade dos grupos que vão sendo fundidos e os

respectivos níveis (distâncias) nas quais isto ocorre.

(a) Ligação simples (vizinho mais próximo)

Para exemplificar é considerado um exemplo, no qual destacam-se 4

objetos (A, B, C, D), e para o qual a matriz de distâncias entre os objetos é

apresentada a seguir.

A B C D
A ⎡0 ⎤

B ⎢3 0 ⎥
D= ⎥
C ⎢7 9 0 ⎥
⎢ ⎥
D ⎣ 8 6 5 0⎦
8. Análise de agrupamento 300

Para ilustrar o método da ligação simples, os objetos menos

distantes devem, inicialmente, ser fundidos. Então, min ( d h , i ) = d A, B = 3 . O próximo

passo é fundir A com B formando o grupo (AB) e em seguida calcular as

distâncias deste grupo e os objetos remanescentes. As distâncias dos vizinhos

mais próximos são,

d( AB ), C = min{dAC , dBC } = min{7, 9} = 7

d( AB ),D = min{dAD , dBD } = min{8, 6} = 6

A nova matriz D para o próximo passo é:

AB C D
AB ⎡ 0 ⎤
D = C ⎢7 0 ⎥⎥

D ⎢⎣ 6 5 0 ⎥⎦

A menor distância é entre D e C, com dDC=5, os quais foram fundidos

formando o subgrupo DC, no nível 5. Recalculando as distâncias têm-se,

d(DC ),( AB ) = min{dD ( AB ) , dC ( AB ) } = min{6, 7} = 6

A nova matriz D fica,

DC AB
DC ⎡ 0 ⎤
D=
AB ⎢⎣ 6 0 ⎥⎦
8. Análise de agrupamento 302

d( AB ), C = max{dAC , dBC } = max{7, 9} = 9

d( AB ),D = max{dAD , dBD } = max{8, 6} = 8

A nova matriz D para o próximo passo é:

AB C D
AB ⎡0 ⎤
D = C ⎢9 0 ⎥⎥

D ⎢⎣ 8 5 0 ⎥⎦

A menor distância é entre D e C, com dDC=5, os quais foram fundidos

formando o subgrupo DC, no nível 5. Recalculando as distâncias entre os grupos

tem-se,

d(DC ),( AB ) = max{dD ( AB ) , dC ( AB ) } = max{8, 9} = 9

A nova matriz D fica,

DC AB
DC ⎡ 0 ⎤
D=
AB ⎢⎣9 0 ⎥⎦

Conseqüentemente, o grupo DC é fundido com AB na distância 9.

Na Figura 8.4, foi apresentado o dendrograma, com os resultados alcançados.


8. Análise de agrupamento 304

objetos menos distantes. Então, como min ( d h , i ) = d A , B = 3 , os objetos A e B devem

ser fundidos, formando o grupo (AB) e em seguida deve-se calcular as distâncias

deste grupo e os objetos remanescentes. As distâncias entre grupos são

baseadas na média das distâncias entre todos os elementos de um grupo com

relação aos elementos de outro grupo.

d( AB ), C = (dAC + dBC ) / 2 = (7 + 9) / 2 = 8

d ( AB ),D = (d AD + dBD ) / 2 = (8 + 6) / 2 = 7

A nova matriz D para o próximo passo é:

AB C D
AB ⎡ 0 ⎤
D = C ⎢ 8 0 ⎥⎥

D ⎢⎣7 5 0 ⎥⎦

A menor distância é entre D e C, com dDC=5, os quais foram fundidos

formando o subgrupo DC, no nível 5. Recalculando as distâncias têm-se,

d(DC ),( AB ) = (dD ( AB ) + dC ( AB ) ) = (7 + 8) / 2 = 7,5

A nova matriz D fica,

DC AB
DC ⎡ 0 ⎤
D=
AB ⎣7,5 0 ⎥⎦

8. Análise de agrupamento 306

O algoritmo das k-médias, de uma forma bastante simplificada, é

dividido em três passos:

1. Particionar os itens em k grupos iniciais arbitrariamente;

2. Percorrer a lista de itens e calcular as distâncias de cada um deles para o

centróide (médias) dos grupos. Fazer a realocação do item para o grupo em

que ele apresentar mínima distância, obviamente se não for o grupo ao qual

este pertença. Recalcular os centróides dos grupos que ganharam e perderam

o item.

3. Repetir o passo 2 até que nenhuma alteração seja feita.

Exemplo 8.1

Utilizando 4 itens (A, B, C e D) e 2 variáveis (X1 e X2) dividir em k=2

grupos, pelo método das k-médias.

Observação
Objeto x1 x2
A 2 0
B 5 2
C 1 4
D 8 4

i) particionar os itens arbitrariamente em 2 grupos, como por exemplo AD e BC.

Calcular a média de cada grupo.

Centróide
Objeto X1 X2
AD (2+8)/2=5 (0+4)/2=2
BC (1+5)/2=3 (2+4)/2=3
Ferreira, D.F. Estatística multivariada 307

ii) Neste passo a distância de cada item será computada em relação ao centróide

de cada grupo e se necessário, os objetos serão realocados para o grupo mais

próximo.

2
d A ( AD )
= (2 − 5) 2 + (0 − 2) 2 = 13
2
d A (BC )
= (2 − 3) 2 + (0 − 3) 2 = 10

Neste caso há necessidade de realocação de A para o grupo BC,

sendo que os centróides dos grupos devem ser recalculados.

Centróide
Objeto X1 X2
D 8 4
ABC 2,667 2

Recalculando as distâncias dos objetos para o centróide dos grupos

e checando a possibilidade de realocação, tem-se:

2 2 2
d A ,D
= 52 d B ,D
= 13 d C ,D
= 49
2 2 2
d A ,( ABC )
= 4, 44 d B ,( ABC )
= 5, 44 d C ,( ABC )
= 6,77

Item (distância quadrática p/ centróide)


Grupo A B C D
D 52,0 13,0 49,0 0,0
ABC 4,4 5,4 6,8 32,4
8. Análise de agrupamento 308

Nenhuma realocação deve ser realizada, pois os objetos têm menor

distância para os respectivos grupos aos quais eles pertencem. Para realizar uma

checagem da estabilidade de a partição alcançada é recomendável executar

novamente o algoritmo com uma nova partição inicial.

8.4. Exercícios

Agrupar os 4 objetos cuja matriz de dissimilaridades está

apresentada a seguir, utilizando todos os métodos apresentados nesse material.

A B C D
A⎡ 0 ⎤

B 9 0 ⎥
D= ⎢ ⎥
C ⎢ 25 36 0 ⎥
⎢ ⎥
D ⎣ 49 100 16 0 ⎦
||[ 9
Análise de fatores
]||
9.1. Introdução

A técnica dos componentes principais consiste em uma

transformação ortogonal dos eixos coordenados do sistema multivariado buscando

as orientações de maior variabilidade. Para o estudo de dependências estruturais

multinormais, as técnicas de explicação das covariâncias das respostas são

preferidas. Apesar de as técnicas dos componentes principais poder ser usada

para essa finalidade, esta não deve ser preferida por ser apenas uma

transformação e não um resultado de um modelo fundamental da estrutura de

covariância. Esse método possui alguns inconvenientes, tais como não ser

invariante quanto às mudanças de escalas e não possuir um critério adequado

para determinar quando uma proporção suficiente da variação total foi explicada

pelos componentes retidos.

Nesse capítulo apresenta-se a técnica de análise de fatores com o

propósito essencial de descrever, se possível, as relações de covariância entre

diversas variáveis em função de poucas, não observáveis, quantidades aleatórias

denominadas de fatores. Sob o modelo de fatores cada variável resposta é


9. Análise de fatores 310

representada por uma função linear de uma pequena quantidade de fatores

comuns, não observáveis, e de uma simples variável latente específica. Os fatores

comuns geram as covariâncias entre as variáveis observadas e os termos

específicos contribuem somente para as variâncias de suas respostas

relacionadas. Os coeficientes dos fatores comuns não são restritos a condição de

ortogonalidade, o que confere generalidade, apesar de se exigir normalidade dos

dados e a determinação, a priori, do número de fatores.

Nesse capítulo são apresentados o modelo de fatores ortogonais, os

métodos de estimação dos parâmetros desse modelo e brevemente o problema

de rotação dos fatores. É considerado um método de estimação que não exige

normalidade. Métodos de estimação de os escores dos fatores são, também,

abordados, o que ao contrário dos componentes principais não é uma tarefa

simples.

9.2. Modelo de fatores ortogonais

Supondo que o sistema multivariado consiste de p resposta descritas

pelas p variáveis observáveis aleatórias X1, X2, ..., Xp. Assumindo que o vetor de

observações multivariadas p X1 possui média µ e covariância Σ, então, o modelo


 
de fatores pressupõe que o vetor p X1 é linearmente dependente de algumas

poucas variáveis não observáveis F1, F2, ..., Fm chamadas de fatores comuns, e p
Ferreira, D.F. Estatística multivariada 311

fontes de variações adicionais ε1, ε2, ..., εp chamadas de erro ou de fatores

específicos. O modelo de fatores pode ser especificado por:

X1 − µ1 = A11F1 + A12 F2 + ... + A 1m Fm + ε1


X 2 − µ 2 = A 21F1 + A 22 F2 + ... + A 2m Fm + ε 2
(9.1)
# # # % # #
X p − µ p = A p1F1 + A p2 F2 + ... + A pm Fm + ε p

ou em notação matricial por:

X−µ = L F + ε
    (9.2)
(p×1) (p× m) (m×1) (p×1)

em que A ij é denominado de carga da i-ésima variável para o j-ésimo fator, então

a matriz L é chamada matriz de cargas fatoriais. O i-esimo fator específico εi é

associado somente com a i-ésima variável resposta Xi. Os p desvios X1-µ1, X2-µ2,

..., Xp-µp são representados por p + m variáveis aleatórias F1, F2, ..., Fm, ε1, ε2, ...,

εp, as quais são não observáveis. Esse fato distingue o modelo de fatores do

modelo de regressão multivariada, pois este último possui variáveis independentes

(ocupadas em (9.2) por F) que são observáveis.

Devido ao grande número de quantidades não observáveis e

também com a finalidade de tornar útil o modelo de fatores, algumas

pressuposições sobre os vetores F e ε são impostas. Assim é assumido que F


  
tem distribuição com média 0 e que os elementos de F são independentemente
 
9. Análise de fatores 312

distribuídos, ou seja, F possui covariância Ι . Da mesma forma é assumido que ε


 
possui média zero e os seus elementos são independentemente distribuídos, ou

seja, Cov( ε )= Ψ diagonal (p x p). Sendo assim, definem-se:




E(F) = 0 (9.3)
 

Cov(F) = E(FFt ) = Ι (9.4)


 

E(ε) = 0 (9.5)
 

⎡ ψ1 0 " 0⎤
⎢0 ψ " 0 ⎥⎥
Cov(ε) = E(εε ) = Ψ = ⎢
t 2
(9.6)
  ⎢# # % # ⎥
⎢ ⎥
⎣⎢ 0 0 " ψ p ⎦⎥

Finalmente, é assumido que F e ε são independentes, portanto,


 

Cov(ε, F) = E ( εFt ) = 0 (9.7)


   (p × m)

O modelo (9.2) e essas pressuposições definem o modelo de fatores

ortogonal. Dessa forma a estrutura de covariância de X pode ser dada por:




Cov(X) = Σ = E(X − µ)(X − µ) t


    
Ferreira, D.F. Estatística multivariada 313

Substituindo X − µ pelas definições dadas no modelo (9.2), verifica-


 
se que:

( X − µ )( X − µ ) ( )
t
= ( LF + ε )( LF + ε ) = ( LF + ε ) ( LF ) + ε t =
t t

       
= LF ( LF ) + ε ( LF ) + LFε + εε
t t t t

      

Então,

Cov(X) = Σ = E(X − µ)(X − µ) t =


    
= E ⎡ LF ( LF ) + ε ( LF ) + LFε t + εε t ⎤
t t
⎣        ⎦
= LE(FF )L + E ( εF ) L + L E ( Fε t ) + E ( εε t )
t t t t

   

De acordo com as condições (9.4), (9.6) e (9.7), tem-se:

Cov(X) = Σ = LLt + Ψ (9.8)




Também podem ser obtidas as covariâncias entre os componentes

de X e F a partir das suposições assumidas e apresentadas anteriormente.


 
Assim,

 
(
⎣    ⎦ )
Cov ( X, F ) = E ⎡ X − µ Ft ⎤ = E ⎡⎣( LF + ε ) Ft ⎤⎦ = E ( LFFt + εFt ) =
     

= E ( LFFt ) + E ( εFt ) = LE ( FFt ) + E ( εFt ) = LΙ + 0 = L


   
9. Análise de fatores 314

Logo,

Cov ( X, F ) = L ou Cov ( X i , Fj ) = A ij (9.9)


 

Da relação (9.8) verifica-se que:

m
Var(X i ) = σii = ∑ A 2ij + ψ i = A 2i1 + A 2i2 + ... + A 2im + ψ i
j=1

(9.10)
m
Cov(X i , X k ) = σik = ∑ A ijA kj = A i1A k1 + A i2A k 2 + ... + A im A km
j=1

A porção da i-ésima variável explicada por m fatores comuns é

chamada de comunalidade e a porção de σii devida aos fatores específicos é

denominada de variância específica. Denotando a i-ésima comunalidade por h i2 é

fácil observar de (9.10) que:

h i2 = A 2i1 + A 2i2 + ... + A 2im (9.11)

Assim,

σii = h i2 + ψ i i = 1, 2, ..., p (9.12)


Ferreira, D.F. Estatística multivariada 315

Quando m = p a matriz Σ pode ser reproduzida exatamente por LLt ,

de tal forma que Ψ=0. A utilidade da análise de fatores, no entanto, ocorre quando

m é bem menor do que p. Dessa forma, o número de parâmetros na análise de

fatores, p(m+1), é bem menor do que aqueles p(p+1)/2 parâmetros de Σ. Por

exemplo, para p=20 existem 20×21/2=210 parâmetros em Σ. Se m=2 fatores são

utilizados, então, o modelo de fatores possui p(m+1)=20(2+1)=60 parâmetros

( A ij e ψ i ).

O grande problema da análise de fatores é a dificuldade ou a

impossibilidade de fatorar a matriz Σ em LL t +Ψ, quando m é bem menor do que p.

Algumas vezes, quando são obtidas soluções, estas são, em geral, inconsistentes

com as interpretações estatísticas. A análise de fatores tem como propósito a

determinação dos elementos da matriz de cargas fatoriais L e dos elementos de

Ψ, obedecendo a restrição (9.12).

Quando m > 1, várias soluções existem para o modelo de fatores,

todas consistentes com as interpretações estatísticas. Essa ambigüidade é a base

para uma importante característica da análise de fatores que é a rotação fatorial.

Para demonstrar essa propriedade, seja T uma matriz ortogonal m x m, ou seja,

TT t =T t T=I. A expressão (9.2) pode ser reescrita por:

X − µ = LF + ε = LTT t F + ε = L*F* + ε (9.13)


       

em que: L* = LT e F* = T t F .
 
9. Análise de fatores 316

Como E(F* ) = T t E(F) = T t 0 = 0 e Cov(F* ) = T 'Cov(F)T = T t ΙT = T t T = Ι ,


     
então, é impossível distinguir as cargas de L das de L*, ou seja, os fatores

F e F* = T t F possuem as mesmas propriedades, uma vez que geram a mesma


  
matriz de covariância Σ, mesmo que as cargas fatoriais de L e de L* sejam, em

geral, diferentes. Assim,

Σ = LLt + Ψ = LTT t Lt + Ψ = L*L*t + Ψ (9.14)

A escolha da matriz T é direcionada por um critério de facilitação da

interpretação dos fatores gerados, uma vez que as propriedades estatísticas não

são alteradas.

9.3. Estimação das cargas fatoriais

Nas situações reais, os parâmetros do modelo de fatores são

desconhecidos e devem ser estimados das observações amostrais. A análise de

fatores é justificável quando Σ difere de uma matriz diagonal, ou quando matriz ρ

de correlações difere da identidade. Para uma amostra X1 , X 2 , ..., X n de tamanho n


  
em p variáveis correlacionadas a matriz S é um estimador de Σ, bem como R é de

ρ. Com base em uma estimativa de Σ é possível realizar o teste de hipótese de

igualdade de Σ a uma matriz diagonal, conforme descrição realizada no capítulo 7.


Ferreira, D.F. Estatística multivariada 317

Se a hipótese não for rejeitada, os fatores específicos possuem papel dominante,

sendo que a análise de fatores é determinar alguns poucos fatores comuns. Nesse

caso, a análise de fatores não terá grande utilidade.

Se a hipótese de a estrutura de Σ ser igual a uma matriz diagonal for

rejeitada, então, o modelo de fatores será útil e o problema inicial será o de

estimar as cargas fatoriais A ij e as variâncias específicas ψi. Nessa seção são

considerados dois métodos de estimação para os parâmetros do modelo de

fatores: o método dos componentes principais e o método da máxima

verossimilhança apresentado por Lawley (1940, 1942 e 1943). Qualquer que seja

o método aplicado, as soluções podem sofrer rotações com a finalidade de

simplificar as interpretações dos fatores. É prudente, também, tentar mais de uma

solução.

9.3.1. Método dos componentes principais

A decomposição espectral vista nos capítulos 2 e 7, representa um

importante método de fatoração de Σ. Sejam as matrizes P = ⎡⎣e1 e 2 ... ep ⎤⎦ e


  

Λ = Diag(λ1 , λ 2 , ..., λ p ) compostas dos autovetores e autovalores de Σ, com

λ1 ≥ λ 2 ≥ ... ≥ λ p , então:

Σ = PΛP t = PΛ1/ 2 Λ1/ 2 P t = LLt (9.15)


9. Análise de fatores 318

em que, L = PΛ1/ 2 é uma matriz p x p de cargas fatoriais.

A equação (9.15) reflete um ajuste da estrutura de covariância por

um modelo de fatores tendo tantos fatores quanto variáveis (m = p) e variâncias

específicas ψi nulas para todo i = 1, 2, ..., p. Nesse modelo as cargas fatoriais do j-

ésimo fator representam os coeficientes do j-ésimo componente principal

(autovetor) multiplicado pelo fator de escala λ j . Embora a relação (9.15) seja

exata, esta não é útil por utilizar tantos fatores quanto variáveis e por não deixar

variação alguma para os fatores específicos.

Uma solução para o problema é considerar um número m, de fatores

comuns, menor do que o de variáveis p. Com esse critério p-m autovalores e os

respectivos autovetores são desconsiderados. Esses autovalores são àqueles (p-

m) menores. Dessa forma a contribuição de λ m +1e m +1e mt +1 + λ m + 2 e m + 2 e mt + 2 + ... + λ p e p e pt


     
para Σ é negligenciada. Desprezando essa contribuição, a seguinte aproximação

de Σ pode ser obtida:

⎡ λ1 e1 ⎤
⎢  ⎥
⎢ λ 2 e2 ⎥
Σ ≅ ⎡⎣ λ1 e1 λ 2 e 2 ... λ m e m ⎤⎦ ⎢  ⎥ = LL
t
(9.16)
   ⎢ # ⎥
⎢ λ e ⎥
⎣⎢ m  m ⎥⎦

em que L é uma matriz p x m. A representação (9.16), no entanto, não considera a

contribuição dos fatores específicos. A contribuição desses fatores pode ser

estimada tomando-se a diagonal de Σ - LLt , sendo LLt definida em (9.16).


Ferreira, D.F. Estatística multivariada 319

Dessa forma a matriz Σ pode ser aproximada por:

Σ ≅ LLt + Ψ
(9.17)
m
Ψ = Diag(Σ − LLt ) ou ψ i = σii − ∑ A 2ij para i=1, 2, ..., p.
j =1

É comum trabalhar com a representação das variáveis em uma

escala padronizada. Nessa situação a variável Zi possui média 0 e variância 1. A

padronização pode ser realizada por:

⎡ X1 − µ1 ⎤
⎡ Z1 ⎤ ⎢ ⎥
⎢Z ⎥ ⎢ σ11 ⎥

 ⎢# ⎥   ⎢(
Z = ⎢ ⎥ = V −1/ 2 X − µ = ⎢ #
2
) ⎥

(9.18)
⎢ ⎥ ⎢ X p − µp ⎥
⎣⎢ Zp ⎦⎥ ⎢ ⎥
⎣⎢ σ pp ⎦⎥

em que:

⎡ 1 ⎤
⎢ 0 " 0 ⎥
σ11
⎢ ⎥
⎢ 1 ⎥
⎢ 0 " 0 ⎥
V −1/ 2
=⎢ σ 22 ⎥
⎢ # # % # ⎥
⎢ ⎥
⎢ 1 ⎥
⎢ 0 0 "
⎢⎣ σ pp ⎥⎥⎦
9. Análise de fatores 320

A matriz de covariância de Z é dada por ρ. O processo de obtenção



dos parâmetros do modelo de fatores é o mesmo descrito nas equações de (9.17),

considerando Σ=ρ e L = PΛ1/ 2 , sendo P a matriz p x m com as colunas compostas

pelos m primeiros autovetores de ρ e Λ1/2 uma matriz m x m com diagonal igual a

m
λ i . Como σii = 1 , é fácil perceber que ψ i = 1 − ∑ A 2ij . A padronização evita que
j=1

uma variável com elevada variação influencie indevidamente a determinação das

cargas fatoriais.

A representação apresentada em (9.17), quando Σ ou ρ são

substituídos pelos seus estimadores S ou R, é conhecida como solução dos

componentes principais para a análise de fatores. O nome se origina do fato de os

fatores serem derivados dos primeiros componentes principais amostrais. O

resumo dos principais resultados desse método de estimação é doravante

apresentado.

A análise de fatores por componentes principais obtidos da

covariância amostral S é especificada em função dos pares de autovalores e

( )
autovetores λˆ i , eˆ i , i = 1, 2, ..., p, em que λˆ 1 ≥ λˆ 2 ≥ ... ≥ λˆ p . Seja m < p, o número


de fatores comuns. A matriz das cargas fatoriais estimadas  ij é dada por: ( )

L = ⎡ λˆ 1 eˆ1 λˆ 2 eˆ 2 ... λˆ m eˆ m ⎤ = Pˆ1Λ


ˆ 1/ 2 (9.19)
⎣⎢    ⎦⎥
1
Ferreira, D.F. Estatística multivariada 321

em que P̂1 é uma matriz p x m dos autovetores amostrais de S e Λ̂1 é uma matriz

diagonal m x m dos autovalores amostrais de S.

Os estimadores das variâncias específicas são dados pela matriz

diagonal resultante da seguinte operação matricial.

⎡ψ1 0 " 0 ⎤
⎢0 ψ 2 " 0 ⎥⎥
 =⎢
Ψ
⎢# # % # ⎥
 t
= Diag S − LL ( ) (9.20)
⎢ ⎥
⎢⎣ 0 0 " ψ p ⎥⎦

De (9.20) verifica-se que:

m
ψ i = Sii − ∑ A 2ij = Sii − h i2 (9.21)
j=1

Sendo que o estimador da comunalidade é dado por:

h i2 = A 2i1 + A 2i2 + ... + A 2im (9.22)

A análise de fatores por componentes principais da matriz R, por sua

vez, é obtida substituindo S por R nas equações de (9.19) a (9.22). Na solução

dos componentes principais as estimativas das cargas fatoriais não se alteram

com o aumento do número m de fatores.


9. Análise de fatores 322

É fácil perceber por meio das definições apresentadas que a matriz

S não é fielmente reproduzida pela solução de componentes principais. A diagonal

de S é exatamente reproduzida pelo modelo de fatores, mas os elementos fora da

diagonal principal não são. Assim,

 t + Ψ
S ≅ LL  (9.23)

Se o número de fatores não é especificado por considerações a

priori, como por teoria ou por trabalhos anteriores de outros pesquisadores, a

escolha de m para uma decomposição de maior acurácia de S pode ser baseada

nos autovalores estimados, da mesma forma que o número de componentes

principais a serem retidos é determinado. Analiticamente, Johnson e Wichern

(1998) demonstram que a soma de quadrados dos elementos da matriz de


p
 t − Ψ
resíduos S − LL  é menor ou igual a ∑ λˆ
i = m +1
2
i . Assim, um pequeno valor da soma

de quadrados dos últimos (p-m) autovalores negligenciados implica em uma

pequena soma de quadrados do erro da aproximação realizada por m

componentes. O ideal é obter uma elevada contribuição dos primeiros fatores para

a variação total amostral. Assim, verifica-se que:

∑ A
i =1
2
ij = A 1j2 + A 22 j + ... + A 2pj = λˆ j eˆ j λˆ j eˆ tj = λˆ j
 
(9.24)
Ferreira, D.F. Estatística multivariada 323

Logo, a porcentagem da variação total devida ao j-ésimo fator é dada

por:

⎧ λˆ j
⎪ ×100 para fatores de S
⎪ Tr(S)

%VarExp = ⎨ (9.25)
⎪ˆ
⎪ λ j × 100 para fatores de R
⎪⎩ p

O critério (9.25) é usado como um artifício heurístico para determinar

o valor apropriado de m. O número de fatores comuns retidos deve aumentar até

que uma fração “adequada” da variação amostral tenha sido contemplada.

Exemplo 9.1. Em 24 tartarugas fêmeas foram mensuradas p = 3 variáveis X1, X2 e

X3, quais sejam, comprimento, largura e altura de carapaças transformadas por

logaritmo. A matriz de covariâncias amostrais é apresentada a seguir. Obter a

análise de fatores com m = 1 e m = 2 usando o método dos componentes

principais.

⎡ 4,9810 3,8063 4, 7740 ⎤


S = ⎢⎢ 3,8063 3, 0680 3, 7183 ⎥⎥
⎢⎣ 4, 7740 3, 7183 4,8264 ⎥⎦

Inicialmente foi testada a hipótese:


9. Análise de fatores 324

⎡ σ11 0 " 0 ⎤
⎢0 σ " 0 ⎥⎥
H0 : Σ = ⎢
22
; σii >0
⎢ # # % # ⎥
⎢ ⎥
⎢⎣ 0 0 " σpp ⎥⎦

O valor de qui-quadrado obtido foi de χ c2 = 127,9805 com ν=3 graus

de liberdade. Como Pr ( χ 2 > 127,9805 ) = 0,00000054 rejeita-se H0 de independência

entre todas as variáveis. Portanto, a análise de fatores deve ser eficiente.

A solução para m = 1 é apresentada a seguir. A solução de 1 fator

explica 98,2% da variação total e pode ser julgada satisfatória. A soma de

quadrados dos dois últimos autovalores, dada por λˆ 22 + λˆ 32 = 0, 0291 , foi considerada

muito pequena e indica que a soma de quadrados dos elementos da matriz de

resíduos não deve ultrapassar esse valor. Os resultados obtidos são:

Cargas fatoriais Comunalidades Variâncias


Variáveis F1 h i2 específicas
ψ i
X1 2,2165 4,9129 0,0681
X2 1,7277 2,9849 0,0831
X3 2,1770 4,7394 0,0870
% explicação 98,1500

A matriz de resíduos é dada por:


Ferreira, D.F. Estatística multivariada 325

 t − Ψ
S − LL  =

⎡ 4,9810 3,8063 4, 7740 ⎤


= ⎢⎢ 3,8063 3, 0680 3, 7183 ⎥⎥ −
⎢⎣ 4, 7740 3, 7183 4,8264 ⎥⎦

⎡ 2, 2165⎤ ⎡ 0, 0681 0 0 ⎤
− ⎢⎢1, 7277 ⎥⎥ [ 2, 2165 1, 7277 2,1770] − ⎢⎢ 0 0, 0831 0 ⎥⎥
⎢⎣ 2,1770 ⎥⎦ ⎢⎣ 0 0 0, 0870 ⎥⎦

⎡ 0 −0, 0228 −0, 0515⎤



= ⎢ −0, 0228 0 −0, 0429 ⎥⎥
⎢⎣ −0, 0515 −0, 0429 0 ⎥⎦

A soma de quadrados dos elementos dessa matriz de resíduos é de

apenas 0,01003, que é menor do que 0,0291 conforme já era esperado.

Para m = 2 a solução é dada por:

Cargas fatoriais Comunalidades Variâncias


Variáveis F1 F2 h i2 específicas
ψ i
X1 2,2165 0,1630 4,9394 0,0418
X2 1,7277 0,1608 3,0108 0,0575
X3 2,1770 -0,2935 4,8255 0,0003
% explicação
acumulada 98,15 99,23

A soma de quadrados de resíduos para esse caso (m = 2) é igual a

0,0049, a qual é limitada por 0,0099. Uma vez que os ganhos foram muito

pequenos, o modelo de 1 fator pode ser julgado adequado. O fator 1 pode ser

interpretado como um fator de volume.


9. Análise de fatores 326

Uma aproximação modificada do método dos componentes

principais é denominada solução fatorial principal. O procedimento é válido tanto

para R quanto para S. A descrição que é realizada a seguir utiliza a matriz R. No

modelo de fatores ρ = LLt + Ψ é perfeitamente especificado: os m fatores comuns

reconstituirão perfeitamente os elementos fora da diagonal principal de ρ, bem

como os elementos da diagonal com a participação da variância específica:

1 = h i2 + ψ i .

Supondo que a contribuição dos fatores específicos seja removida

da reconstituição de ρ, então, a matriz resultante é ρ - Ψ = LLt . Suponha, também,

que estimativas iniciais ψ*i tenham sido obtidas por um meio qualquer, então, é

possível definir a matriz de correlação amostral reduzida (Rr) eliminando o efeito

dos fatores específicos por R r = R − Ψ * . Esse processo é equivalente a substituir a

i = 1 − ψ i . A matriz Rr é definida por:


diagonal de R por h *2 *

⎡ h1*2 r12 " r1p ⎤


⎢ ⎥
r h *2 " r2p ⎥
R r = R − Ψ = ⎢ 21
* 2
(9.26)
⎢ # # % # ⎥
⎢ ⎥
⎣⎢ rp1 rp2 " h *2
p ⎦⎥

Teoricamente, desconsiderando a variação amostral, é possível

estabelecer que a matriz Rr pode ser recomposta pelos m fatores comuns. Dessa

forma, Rr é fatorada em:


Ferreira, D.F. Estatística multivariada 327

R r ≅ L*r L*tr (9.27)

em que L*r é a matriz dos estimadores das cargas fatoriais A*ij .

O método fatorial principal de análise de fatores utiliza os

estimadores:

⎧ *
⎪L r = ⎡⎢ λˆ 1 eˆ1 λˆ *2 eˆ *2 λˆ *m eˆ *m ⎤
* *

⎪⎪ ⎣    ⎥⎦
⎨ (9.28)
⎪ m
⎪ψ*i = 1 − ∑ A*2 ij
⎪⎩ j=1

em que ( λˆ ; eˆ ) ,
*
i
*
í i = 1, 2, ..., m são os (maiores) pares de autovalor-autovetor

obtidos de Rr.

As comunalidades devem ser re-estimadas por:

i = ∑ A ij
h *2 *2
(9.29)
j=1

O método, então, é aplicado iterativamente, considerando as

comunalidades estimadas em (9.29) para recalcular a matriz Rr em (9.26). Os

autovalores e autovetores dessa nova matriz Rr são obtidos e as estimativas das

cargas fatoriais e variâncias específicas utilizando (9.28) são novamente obtidas.

Novas comunalidades, também, são obtidas utilizando (9.29) e o processo é

repetido em novos estágios sucessivos, até que não haja alterações nas
9. Análise de fatores 328

estimativas das cargas fatoriais e das variâncias específicas para uma dada

precisão.

Um problema que pode surgir nesse procedimento é o aparecimento

de autovalores de Rr negativos. Recomenda-se utilizar o número de fatores

comuns igual ao posto da matriz reduzida (Rr). Uma das causas dos autovalores

negativos é devida aos valores iniciais das variâncias específicas utilizadas.

Algumas alternativas existem para a escolha desses valores iniciais. A mais

popular é utilizar ψ*i = 1 r ii , em que rii é o elemento da i-ésima diagonal da matriz

R-1. As comunalidades iniciais são, então, dadas por:

1
i = 1 − ψi = 1 −
h *2 *
(9.30)
r ii

que é igual ao coeficiente de determinação parcial múltiplo entre a i-ésima variável

(Xi) e as (p-1) demais variáveis. Essa relação é útil, pois permite que h *2
i seja

obtida pelo coeficiente de determinação múltiplo, mesmo quando R não tiver posto

completo. Usando S, a variância específica inicial é função de Sii, o elemento da i-

ésima posição da diagonal de S-1, da seguinte forma:

⎛ m ⎞ ii
i = Sii − ⎜ 1 −
h *2 ⎟S (9.31)
⎝ 2p ⎠
Ferreira, D.F. Estatística multivariada 329

9.3.2. Método da máxima verossimilhança

Se os fatores comuns F e os fatores específicos ε possuem


 
distribuição normal, estimativas de máxima verossimilhança podem ser obtidas.

Do modelo de fatores e da consideração de que as variáveis F e ε possuem


 
distribuição normal pode concluir que X j − µ = LFj + ε j também é normalmente
   
distribuído e portanto a função de verossimilhança é:

−n / 2
L(µ, Σ) = (2π) − np / 2 Σ

⎧⎪ ⎛ 1 ⎞ ⎡ ⎛ n t ⎞⎤ ⎫

× exp ⎨− ⎜ ⎟ tr ⎢ Σ −1 ⎜ ∑ ( X j − X )( X j − X ) + n X − µ X − µ ⎟ ⎥ ⎬ = ( )( )
t

⎩⎪ ⎝ 2 ⎠ ⎣⎢ ⎝ j=1         ⎠ ⎦⎥ ⎭⎪
(9.32)
− (n −1) / 2 ⎧ ⎛1⎞ ⎫
= (2π) − (n −1)p / 2
Σ exp ⎨− ⎜ ⎟ tr ⎡⎣Σ −1Sn ⎤⎦ ⎬
⎩ ⎝2⎠ ⎭
⎧ ⎛n⎞
(
exp ⎨− ⎜ ⎟ tr ⎡ X − µ Σ −1 X − µ ) ( )⎤⎥⎦ ⎫⎬⎭
−1/ 2 t
× (2π) − p / 2 Σ
⎩ ⎝ 2 ⎠ ⎢⎣    

a qual depende de L e Ψ por meio de Σ = LLt + Ψ .

Devido à multiplicidade de escolhas para L dadas por

transformações ortogonais é imperativo impor uma restrição de unicidade

computacional por:

Lt Ψ −1L = ∆ uma matriz diagonal (9.33)


9. Análise de fatores 330

Os estimadores de máxima verossimilhança L̂ e Ψ̂ devem ser

obtidos por maximização numérica de (9.32). A maximização de (9.32) sujeita a

condição de unicidade (9.33) deve satisfazer:

( Ψˆ −1/ 2
)(
ˆ −1/ 2 Ψ
Sn Ψ )
ˆ −1/ 2 Lˆ = Ψ (
ˆ −1/ 2 Lˆ Ι + ∆ˆ ) (9.34)

Lawley (1940, 1942, 1943) mostra que o estimador ∆ˆ é dado por:

∆ˆ = Lˆ t Ψ
ˆ −1Lˆ (9.35)

Assim, a equação (9.34) pode ser rescrita de outra forma,

procedendo as seguintes operações:

( Ψˆ −1/ 2
Sn Ψ )
ˆ −1/ 2 Ψ
ˆ −1/ 2 Lˆ = Ψ (
ˆ −1/ 2 Lˆ Ι + Lˆ t Ψ
ˆ −1Lˆ )

( Ψˆ −1/ 2
Sn Ψ )
ˆ −1/ 2 Ψ
ˆ −1/ 2 Lˆ − Ψ
ˆ −1/ 2 Lˆ = Ψ
ˆ −1/ 2 LL
ˆ ˆtΨ
ˆ −1Lˆ

( Ψˆ −1/ 2
Sn Ψ )
ˆ −1/ 2 − Ι Ψ
ˆ −1/ 2 Lˆ = Ψ
ˆ −1/ 2 LL
ˆ ˆtΨ
ˆ −1Lˆ

Logo,

⎡Ψ
⎣ n(
ˆ −1/ 2 S − Ψ
⎦ )
ˆ −1/ 2 ⎤ Ψ
ˆ Ψ ˆ −1/ 2 Lˆ = Ψ
ˆ −1/ 2 LL
ˆ ˆtΨ
ˆ −1Lˆ (9.36)
Ferreira, D.F. Estatística multivariada 331

Como Lˆ t Ψ
ˆ −1Lˆ é uma matriz diagonal para garantir que os elementos

de L̂ sejam únicos, então, os autovalores de (S n


ˆ Ψ
−Ψ )
ˆ −1 , e portanto

Ψ (
ˆ −1/ 2 S − Ψ
n
ˆ Ψ )
ˆ −1/ 2 , são iguais aos valores correspondentes a diagonal de ∆ˆ .

ˆ −1/ 2 L̂ é o vetor característico correspondente


Dessa forma, a i-ésima coluna de Ψ

ˆ −1/ 2 S − Ψ
ao i-ésimo autovalor de Ψ n
ˆ Ψ ( )
ˆ −1/ 2 . O cálculo desses vetores não é um

processo direto, uma vez que os elementos de Ψ̂ são também desconhecidos, os

ˆ = Diag(S − LL
quais devem ser obtidos da relação Ψ ˆ ˆ t ) . Sendo assim, o processo de

estimação deve ser executado iterativamente estimando-se os vetores

característicos correspondentes a valores iniciais de os elementos de Ψ̂ , e então,

utilizá-los para obter novas estimativas mais precisas das variâncias específicas

sucessivamente.

Para o modelo com m fatores os vetores característicos

correspondentes aos m maiores autovalores de Sn podem ser utilizados como

valores iniciais do processo iterativo. Os elementos desses vetores devem ser re-

escalonados para que as somas de seus quadrados sejam iguais aos respectivos

autovalores. O processo iterativo é descrito a seguir:

1. Calcular as m raízes características ( λˆ 10 , λˆ 20 ,..., λˆ m0 ) de Sn e os vetores

característicos correspondentes ( eˆ10 , eˆ 20 ,..., eˆ m0 ) , de tal sorte que seus


  
elementos sejam re-escalonados para que tenham norma quadrática igual
9. Análise de fatores 332

a λ̂ i0 , na matriz P̂0 apresentada a seguir, com i = 1, 2, ..., m. Seja a matriz

ˆ = [ eˆ eˆ ... eˆ ] , sem re-escalonar. Dessa forma,


Q̂ 0 (p x m) definida por Q 0 10 20 m0
  

é possível definir as matrizes Λ̂ 0 (m x m) e P̂0 (p x m) por:

⎡ λˆ 10 0 " 0 ⎤
⎢ ⎥
ˆ =⎢ 0 λˆ " 0 ⎥
Λ ⎢ #
20

% # ⎥⎥
0
⎢ #
⎢0 0 " λˆ m0 ⎥⎦

ˆ Λ
Pˆ0 = Q ˆ 1/ 2
0 0

2. Aproximar as variâncias específicas por:

0 n (
ˆ = Diag S − Pˆ Pˆ t
Ψ 0 0 ) (9.37)

3. Obter a matriz

Ψ 0 (
ˆ −1/ 2 S − Ψ
n
ˆ Ψ
0
ˆ −1/ 2
0 ) (9.38)

e extrair os m autovetores ( eˆ11 , eˆ 21 ,..., eˆ m1 ) e os correspondentes autovalores


  

( λˆ
11 , λˆ 21 ,..., λˆ m1 ) ˆ = [ eˆ eˆ ... eˆ ] sem re-
dessa matriz. Formar a matriz Q1 11 21
  
m1

escalonar e definir as matrizes:


Ferreira, D.F. Estatística multivariada 333

⎡λˆ 11 0 " 0 ⎤
⎢ ⎥
ˆ
ˆ = ⎢ 0 λ 21
Λ
" 0 ⎥
1 ⎢ # # % # ⎥⎥

⎢0 0 " λˆ m1 ⎥⎦

ˆ Λ
Pˆ1 = Q ˆ 1/ 2
1 1

A primeira aproximação de L L̂1 é dada por:( )

Lˆ 1 = Ψ
ˆ 1/ 2 Pˆ
0 1 (9.39)

4. Calcular

1 n (
ˆ = Diag S − Lˆ Lˆ t
Ψ 1 1 ) (9.40)

Repetir os passos 3 e 4 até que os correspondentes elementos de

sucessivas iterações de L̂i e L̂i +1 não difiram por um valor superior a uma

quantidade pré-determinada (critério de convergência). O resultado final do

processo iterativo conterá as estimativas de máxima verossimilhança para as

cargas fatoriais L e das variâncias específicas para o modelo m-fatorial. É

apresentado a seguir um programa SAS no procedimento de matrizes IML para a

obtenção de estimativas de máxima verossimilhança do modelo m-fatorial.


9. Análise de fatores 334

As cargas fatoriais e as variâncias específicas da matriz R podem

ser obtidas diretamente de L̂ e Ψ̂ realizando as seguintes transformações.

Formar a matriz diagonal (D) a partir dos elementos Sii de S. Então obter as

estimativas de máxima verossimilhança de R para as cargas fatoriais L̂ Z e para ( )


as variâncias específicas Ψ̂ Z . Esses estimadores são:

Lˆ Z = D −1/ 2 Lˆ (9.41)

ˆ = D −1/ 2 Ψ
Ψ ˆ D −1/ 2 (9.42)
Z

As estimativas de máxima verossimilhança das comunalidades são

dadas por:

hˆ i2 = Aˆ 2i1 + Aˆ 2i2 + ... + Aˆ 2im para i = 1, 2, ..., p (9.43)


Ferreira, D.F. Estatística multivariada 335

options ps=5000 ls=80 nodate nonumber;;


proc iml;
S={4.9810 3.8063 4.7740,
3.8063 3.0680 3.7183,
4.7740 3.7183 4.8264};
p=ncol(S);n=24;alpha=0.05;
L0=Diag(eigval(S));P0=eigvec(S);
numfac=1;numIt=100;
L0=L0[1:numfac,1:numfac];
P0=P0[1:p,1:numfac];P0=P0*root(L0);
print L0 P0; Psi0=diag(S-P0*P0`);
print psi0;
psii=psi0;
do i=1 to numIt;
Print
'_______________________________________________________________';
print 'iteracao ' i;

Print' ____________________';
Delta=inv(root(psii))*(S-psii)*inv(root(psii));
*print delta;
Li=Diag(eigval(delta));Pi=eigvec(delta);
Li=Li[1:numfac,1:numfac]; Pi=Pi[1:p,1:numfac];
Pi=root(psii)*Pi*root(Li);
*print Li Pi;
Psii=diag(S-Pi*Pi`);
/*soma de quadrados dos residuos do modelo*/
resi=S-pi*pi`-psii;
print 'Soma de quadrados dos residuos';
SQResiduo=sum(resi#resi);
print sqresiduo;
*print psii;

Print'________________________________________________________________';
end;
Print 'Solucao final do modelo de fatores';
Print 'Cargas fatoriais';
print Pi;
print 'Variancias especificas';
print psii; resi=S-pi*pi`-psii;
print 'matriz de residuos';
print resi;
print 'Soma de quadrados dos residuos';
SQResiduo=sum(resi#resi);
print sqresiduo;
print 'Cargas fatoriais de Z-variaveis padronizadas';
D=root(inv(diag(S))); PiZ=D*Pi;
print PiZ;
print 'Variancias especificas fatoriais de Z-variaveis padronizadas';
PsiZ=D*psii*D;
print PsiZ;
Li=Diag(eigval(delta));
print Li;
quit;
9. Análise de fatores 336

Dessa forma, a proporção explicada pelo j-ésimo fator é dada por:

⎧ p ˆ2
⎪ ∑ A ij
⎪ i =1 ×100 para fatores de S
⎪ Tr(S)

%VarExp = ⎨ (9.44)
⎪ p
⎪ ∑ Aˆ 2Z(i j)
⎪ i =1
⎪ p ×100 para fatores de R

O processo descrito anteriormente para a obtenção das soluções de

máxima verossimilhança possui convergência lenta. Aitken (1937) propôs uma

técnica conhecida por processo δ2 de aceleração dos esquemas iterativos de

convergência. Seja A jt os elementos do t-ésimo processo iterativo, referente a j-



ésima coluna da matriz de cargas fatoriais Lt do estágio t. O processo de Aitken

(1937) prevê para 3 consecutivos valores de A jt o ajuste pela razão:




A ij(t −1) A ijt


A ijt A ij(t +1)
A 2i j t = (9.45)
A ij(t +1) − 2A ijt + A ij(t −1)

em que A ijt é o i-esimo elemento de A jt . Se o denominador de (9.45) for nulo o




valor de A 2i j t deve ser feito igual a A i j t .

Aitken (1937) mostra que os termos de A 2j t convergem mais




rapidamente do que àqueles de A j t .



Ferreira, D.F. Estatística multivariada 337

Exemplo 9.2. Utilizando a matriz de covariâncias amostral das 24 tartarugas

fêmeas que foram mensuradas em p = 3 variáveis X1, X2 e X3, as quais são:

comprimento, largura e altura de carapaças transformadas por logaritmo,

determinar o modelo de fatores com m = 1. Ajustar o modelo por meio de

estimativas de máximas verossimilhanças.

⎡ 4,9810 3,8063 4, 7740 ⎤


S = ⎢⎢ 3,8063 3, 0680 3, 7183 ⎥⎥
⎢⎣ 4, 7740 3, 7183 4,8264 ⎥⎦

i) Inicialmente foram obtidos os autovalores e autovetores de S e

ˆ (3 × 1) e Pˆ (3 × 1) por:
ˆ (1× 1), Q
compostas as matrizes Λ 0 0 0

⎡ 0, 6234937 ⎤ ⎡ 2, 2164432 ⎤
Λ ⎢ ⎥ ˆ
ˆ = 12,637147 Q̂ = 0, 4859812 Lˆ = Pˆ = Q Λˆ ⎢ ⎥
0 0 = ⎢ 1, 727603 ⎥
1/ 2
0 0 ⎢ ⎥ 0 0

⎢⎣ 0, 612436 ⎥⎦ ⎢⎣ 2,1771344 ⎥⎦

ii) As variâncias específicas iniciais foram obtidas por:

⎡0, 0683794 0 0 ⎤
0 n (
ˆ = Diag S − Pˆ Pˆ =
Ψ ⎢

t
0
0 0 ) 0, 0833879 0 ⎥

⎢⎣ 0 0 0, 0864857 ⎥⎦

iii) Foi obtida a seguinte matriz e desta extraídos os autovalores e

autovetores. O m = 1 primeiro autovalor e autovetor correspondente

ˆ (3 × 1) e Pˆ (3 × 1) .
ˆ (1×1), Q
foram usados para compor as matrizes Λ1 1 1
9. Análise de fatores 338

⎡ 71,843527 50,406739 62,079406 ⎤


Ψ 0 (
ˆ −1/ 2 S − Ψ
n
ˆ Ψ
0 )
ˆ −1/ 2
0 = ⎢⎢50,406739 35,791891 43,784534 ⎥⎥
⎢⎣ 62,079406 43,784534 54,805777 ⎥⎦

⎡0,6657947 ⎤ ⎡ 8,4600381⎤
⎢ ⎥ ˆ
ˆ = 161,45963 Q̂ = 0,4691915 Pˆ = Q Λ
Λ ˆ = ⎢5,9618652 ⎥
1/ 2
1 1 ⎢ ⎥ 1 1 1 ⎢ ⎥
⎢⎣ 0,5801523⎥⎦ ⎢⎣7,3718074 ⎥⎦

Finalmente a primeira aproximação L̂1 é feita por:

⎡ 2,2122546 ⎤
ˆ Pˆ = ⎢ 1,721606 ⎥
Lˆ 1 = Ψ 1/ 2
0 ⎢1 ⎥
⎢⎣ 2,167934 ⎥⎦

iv) Foi calculado o segundo valor Ψ̂1 por:

⎡0,0869296 0 0 ⎤
ˆ ( ˆ ˆ ⎢
Ψ1 = Diag Sn − L 0 L 0 = ⎢
t
) 0 0,1040727 0 ⎥

⎢⎣ 0 0 0,1264622 ⎥⎦

Os procedimentos 3 e 4 foram repetidos 41 vezes até que as trocas

na matriz (vetor) L̂ fosse da ordem de 1e-7 ou menos. O resultado final foi:


Ferreira, D.F. Estatística multivariada 339

⎡ 2,2106526 ⎤
ˆ 1/ 2 Pˆ = ⎢1,7217993 ⎥ e
Lˆ 41 = Ψ 40 41 ⎢ ⎥
⎢⎣ 2,1595433⎥⎦

⎡0,0940152 0 0 ⎤
41 n (
ˆ = Diag S − Lˆ Lˆ
Ψ t
41 41 ) ⎢
=⎢ 0 0,1034073 0 ⎥

⎢⎣ 0 0 0,1627727 ⎥⎦

A matriz de resíduos (R) foi:

⎡ 0 2,9835E-8 3,7474E-8⎤

R = ⎢ 2,9835E-8 0 -7,05E-8 ⎥⎥
⎢⎣ 3,7474E-8 -7,05E-8 0 ⎥⎦

E a soma de quadrados dos resíduos foi:

SQResíduos= 1,453E-14

As cargas fatoriais obtidas das variáveis padronizadas são:

⎡ 1 ⎤
⎢ 0 0 ⎥
⎢ 4,9810 ⎥ ⎡ 2,2106526 ⎤ ⎡ 0,9905177 ⎤
⎢ 1 ⎥⎢ ⎥ ⎢ ⎥
Lˆ Z = D −1/ 2 Lˆ = ⎢ 0 0 ⎥ ⎢1,7217993 ⎥ = ⎢ 0,983003 ⎥
⎢ 3, 0680 ⎥ ⎢ 2,1595433⎥ ⎢ 0,9829926 ⎥
⎢ 1 ⎥⎣ ⎦ ⎣ ⎦
⎢ 0 0 ⎥
⎢⎣ 4,8264 ⎥⎦

E as variâncias específicas são:


9. Análise de fatores 340

⎡0, 0188748 0 0 ⎤
ˆ = D −1/ 2 Ψ
Ψ ˆ D −1/ 2 ⎢
=⎢ 0 0, 0337051 0 ⎥
Z ⎥
⎢⎣ 0 0 0, 0337255⎥⎦

Exemplo 9.3. A matriz de correlação entre 10 escores das respectivas 10 provas

do declato, medidas em n = 160 atletas, está apresentada a seguir. Obter os m = 4

fatores pelo método da máxima verossimilhança. As dez variáveis mensuradas

são: i) corrida de 100 m rasos; ii) salto em distância; iii) lançamento de peso; iv)

salto em altura; v) corrida dos 400m livres; vi) 110 m com barreiras; vii) arremesso

de disco; viii) salto com vara; ix) arremesso de dardos; e x) corrida de 1500 m. A

matriz de correlação dos escores dos 160 competições.

⎡1, 00 0,59 0,35 0,34 0, 63 0, 40 0, 28 0, 20 0,11 −0, 07 ⎤


⎢ 1, 00 0, 42 0,51 0, 49 0,52 0,31 0,36 0, 21 0, 09 ⎥⎥

⎢ 1, 00 0,38 0,19 0,36 0, 73 0, 24 0, 44 −0, 08 ⎥
⎢ ⎥
⎢ 1, 00 0, 29 0, 46 0, 27 0,39 0,17 0,18 ⎥
⎢ 1, 00 0,34 0,17 0, 23 0,13 0,39 ⎥
R=⎢ ⎥
⎢ 1, 00 0,32 0,33 0,18 0, 00 ⎥
⎢ 1, 00 0, 24 0,34 −0, 02 ⎥
⎢ ⎥
⎢ 1, 00 0, 24 0,17 ⎥
⎢ 1, 00 −0, 00 ⎥
⎢ ⎥
⎢⎣ 1, 00 ⎥⎦

A solução de m = 4 fatores, dada por Johnson e Wichern (1998), foi

obtida pelo algoritmo apresentado nesse material por meio das estimativas de

máxima verossimilhança. Após 100 mil iterações o algoritmo convergiu.


Ferreira, D.F. Estatística multivariada 341

Estimativas de máxima verossimilhança


Variâncias
Cargas fatoriais estimadas específicas
ψˆ i = 1 − hˆ i2
Variáveis F1 F2 F3 F4
Corrida 100m -0,0869 0,3449 0,8290 -0,1685 0,157935
Salto em distância 0,0688 0,4352 0,5931 0,2746 0,378693
Lançamento de peso -0,1294 0,9911 -0,0038 -0,0007 0,001053
Salto em altura 0,1603 0,4059 0,3343 0,4451 0,499688
corrida 400m 0,3787 0,2437 0,6702 -0,1372 0,329262
110m com barreira -0,0178 0,3629 0,4234 0,3878 0,538310
Arremesso de disco -0,0563 0,7294 0,0268 0,0182 0,463815
Salto com vara 0,1573 0,2640 0,2275 0,3937 0,698795
Arremesso de dardos -0,0218 0,4411 -0,0115 0,0971 0,795340
1500m rasos 0,9986 0,0496 -0,0004 -0,0001 0,000408
Proporção cumulativa
da variância explicada 0,12 0,37 0,55 0,61
9. Análise de fatores 342

9.4. Rotação fatorial

A fatoração de Σ em LLt +Ψ não é única, conforme discussão

realizada na seção 9.2. A pós-multiplicação da matriz de cargas fatoriais L por

qualquer matriz ortogonal conformável (T) conduz a uma fatoração igualmente

válida. A solução numérica de Rao-Maxwell para as equações de verossimilhança

remove essa indeterminação por adotar a restrição de que Lˆ t Ψ


ˆ −1Lˆ seja uma matriz

diagonal. Não obstante, após a obtenção da solução de máxima verossimilhança,

qualquer transformação ortogonal pode ser realizada. A idéia é aplicar tal

transformação rígida dos eixos coordenados, a qual conduz a um padrão que

tornam as cargas fatoriais mais facilmente interpretáveis. Essa rotação rígida dos

eixos coordenados das m-dimensões fatoriais é chamada de rotação das cargas

fatoriais.

Citado por Morrison (1974) Thurstone sugere um critério de resposta

de simples estrutura para a realização da rotação fatorial. Estruturas como a

sugerida raramente existe em dados reais e não será descrito o procedimento de

Thurstone. Outra técnica de uso limitado é a obtenção de rotação graficamente

dos fatores plotados dois a dois. A rotação analítica é o procedimento mais

comumente empregado. Na rotação ortogonal rígida as propriedades estatísticas

dos fatores ficam inalteradas, embora a matriz de cargas fatoriais não seja a

mesma. Supondo que a matriz p x m de cargas fatoriais seja submetida a uma

rotação rígida pela matriz ortogonal T (m x m) por meio da seguinte operação:


Ferreira, D.F. Estatística multivariada 343

L* = LT . A ortogonalidade de T, isto é, T T t = T t T = Ι, faz com que as

comunalidade fiquem inalteradas:

m m

∑ A*2ij = ∑ A2ij ⇔ h*2i = h i2


j=1 j=1

bem como a soma de seus quadrados:

2
p
⎛ m 2⎞ p m p m −1 m

∑ ⎜ ∑ A ij ⎟ = ∑∑ A ij + 2∑∑ ∑ A ijA ik
i =1 ⎝ j=1
4 2 2
(9.46)
⎠ i =1 j=1 i =1 j=1 k = j+1

também é invariante.

Com esse resultado em evidência é possível especificar critérios de

simplicidade ou parcimônia propostos pelos analistas de fatores (Morrison, 1976).

Fergusson (1954) sugeriu minimizar o termo dos duplos produtos de (9.46) como

uma medida de parcimônia, por meio de uma escolha adequada de T. Esse

resultado foi determinado quase que ao mesmo tempo e independentemente por

Carroll (1953).

Neuhaus e Wrigley (1954) propuseram a maximização da variância

do quadrado das pm cargas fatoriais para definir T. A variância do quadrado das

cargas fatoriais é:

2
p
1 ⎛ p m 2⎞
m
V = ∑∑ A − ⎜ ∑∑ A ij ⎟
4
ij (9.47)
i =1 j=1 pm ⎝ i =1 j=1 ⎠

Como o termo de correção é meramente soma das comunalidades

tomada ao quadrado, então, a maximização de V é equivalente a maximizar a


9. Análise de fatores 344

soma da quarta potência das cargas fatoriais, ou equivalentemente, minimizar a

medida de parcimônia de Fergusson (1954) e Carroll (1953). Por argumentos

diferentes Sanders (1960) obteve o mesmo critério de Neuhaus e Wrigley (1954).

Esse critério determina o método denominado de “quartimax” por maximizar a

soma da quarta potencia das cargas fatoriais.

Kaiser (1958, 1959) propôs uma medida de estrutura simples

relacionada a soma das variâncias das cargas fatoriais quadráticas dentro de cada

coluna da matriz L de fatores. O critério de “varimax” de linha de Kaiser é:

1 m ⎡ p 4 ⎛ p 2 ⎞2 ⎤
v = 2
*

p
∑ ⎢ p∑ A ij − ⎜ ∑ A ij ⎟ ⎥
j=1 ⎢ i =1
(9.48)
⎣ ⎝ i =1 ⎠ ⎦⎥

Esse critério dá pesos iguais às respostas com grandes e com

pequenas comunalidades e Kaiser sugere a melhora desse critério pelo uso do

critério alternativo:

1 m ⎡ p 4 ⎛ p 2 ⎞2 ⎤
v= 2
p
∑ ⎢ p∑ x ij − ⎜ ∑ x ij ⎟ ⎥
j=1 ⎢ i =1
(9.49)
⎣ ⎝ i =1 ⎠ ⎥⎦

em que:

A ij
x ij = (9.50)
m

∑A
j=1
2
ij
Ferreira, D.F. Estatística multivariada 345

é j-ésima carga fatorial do i-ésima variável resposta dividida pela raiz quadrada de

sua comunalidade. Na seqüência da rotação os valores de x j devem ser

multiplicados pela raiz quadrada de sua comunalidade respectiva para restaurar a

dimensão original. Esse critério foi nomeado por Kaiser de “varimax”.

O processo computacional para a rotação varimax é descrito a

seguir. Considere o par de fatores r e s, com cargas normalizadas xir e xis. A

rotação desses fatores envolve o simples ângulo φ, e diferenciando (9.49) com

relação a φ Kaiser mostrou que o ângulo deve satisfazer a relação:

⎡ p 2 p
2 ⎛
p
⎞⎤
2 ⎢ 2p∑ ( x ir − x is ) x ir x is − ∑ ( x ir − x is ) ⎜ 2∑ x ir x is ⎟ ⎥
2 2

⎣ i =1 i =1 ⎝ i =1 ⎠⎦
tg(φ) = (9.51)
p ⎧⎪ ⎡ p

2
⎛ p

2
⎫⎪
p∑ ⎡( x ir − x is ) − ( 2x ir x is ) ⎤ − ⎨ ⎢ ∑ ( x ir − x is ) ⎥ − 2 ⎜ ∑ x ir x is ⎟ ⎬
2 2 2 2 2
⎣ ⎦ ⎣ i =1 ⎦ ⎝ i =1 ⎠ ⎭⎪
i =1
⎩⎪

Para que a segunda derivada seja negativa é necessário que 4φ seja

colocado no quadrante correto. A escolha é designada pelos sinais do numerador

e denominador de (9.51). A Tabela 9.1 especifica o quadrante de 4φ em função

destes sinais.

A solução iterativa para a rotação é realizada de acordo com os

seguintes procedimentos: a rotação do primeiro e segundo fator é realizada como

ângulo φ determinado conforme descrição anterior; o novo primeiro fator é rotado


9. Análise de fatores 346

com o terceiro fator original, e assim por diante, até que m(m-1)/2 pares de

rotações tenham sido executadas. Essa seqüência de rotações é repetida até que

“todos” os ângulos sejam menores que um critério de convergência especificado ε,

dentro de um ciclo.

Tabela 9.1. Quadrante do ângulo 4φ em função dos sinais do numerador e

denominador da equação (9.51).

Sinal do numerador
Sinal do denominador + (positivo) - (negativo)
+ (positivo) Ι: 00≤4φ<900 ΙV: -900≤4φ<00
- (negativo) ΙΙ: 900≤4φ<1800 ΙΙΙ: -1800≤4φ<-900

Exemplo 9.4. Efetuar a rotação varimax dos m = 3 fatores obtidos por Morrison

(1974) apresentados a seguir.

(incompleto)

9.5. Teste da falta de ajuste do modelo de fatores

A natureza das estimativas de máxima verossimilhança das cargas

fatoriais conduz a um teste formal para o m-ésimo modelo fatorial. A hipótese nula

é:
Ferreira, D.F. Estatística multivariada 347

⎧H 0 : Σ = LLt + Ψ

⎨ (9.52)
⎪H : Σ uma matriz p × p p.d. sim.
⎩ 1

Usando a distribuição de Wishart, Morrison (1976) mostra que a

razão de verossimilhança fornece o seguinte teste, com a correção de Bartlett

(1954):

(2p + 4m + 5) ⎤ ⎧⎪ LL + Ψ ⎫
ˆ ˆt ˆ
⎡ ⎪
χ = ⎢n − 1 −
2
c ⎥ ln ⎨ S ⎬ (9.53)
⎣ 6 ⎦ ⎪ ⎪⎭
⎩ n

o qual tem distribuição qui-quadrado para grandes amostras com:

1
ν= ⎡⎣(p − m) 2 − p − m ⎤⎦ (9.54)
2

graus de liberdade.

Pela propriedade da invariância das cargas e das variâncias

específicas estimadas segue-se que o valor do teste seria o mesmo da solução de

fatores da matriz de correlação R. Para a aplicação do teste da falta de ajuste é

necessário que os graus de liberdade sejam positivos. Isso significa que o número

de fatores comuns m não pode exceder o maior inteiro que satisfaz a equação:

m<
1
2
(
2p + 1 − 8p + 1 ) (9.55)
9. Análise de fatores 348

O teste de razão de verossimilhança compara as variâncias

ˆ ˆt + Ψ
generalizadas LL ˆ e S . Se m for pequeno em relação a p, geralmente H0 é
n

rejeitada, conduzindo a um modelo com um maior número de fatores comuns. Por

outro lado, quando m for grande em relação a p, a hipótese tende a ser não

rejeitada, principalmente para grandes valores de n. Isso acontece devido ao fato

ˆ ˆt + Ψ
de LL ˆ aproximar de Sn, de tal sorte que o acréscimo de novos fatores não

traga novas melhoras ao modelo. A diminuição de m pode, ainda, pelas mesmas

razões levar a não rejeição de H0. Algum tipo de bom sendo deve ser aplicado na

escolha de m.

Para demonstrar que a padronização das variáveis não afeta o teste

apresentado seja D −1/ 2 definida anteriormente a matriz diagonal com o recíproco

dos desvios padrões das p variáveis na diagonal principal. Então, a razão que

aparece na equação (9.53) pode ser operada por:

ˆ ˆt + Ψ
LL ˆ ˆ ˆt + Ψ
D −1/ 2 LL ˆ D −1/ 2
=
Sn D −1/ 2 Sn D −1/ 2

uma vez que a multiplicação do numerador e denominador não altera o resultado

final.

Pela propriedade do determinante |AB|=|A|×|B|, verifica-se que:


Ferreira, D.F. Estatística multivariada 349

ˆ ˆt + Ψ
LL ˆ ˆ ˆ t D −1/ 2 + D −1/ 2 Ψ
D −1/ 2 LL ˆ D −1/ 2 Lˆ Z Lˆ tZ + Ψ
ˆ
z
= =
Sn D −1/ 2Sn D −1/ 2 R

Dessa forma o teste de qui-quadrado é exatamente o mesmo,

quando for aplicado a partir da matriz Sn ou da matriz R, com os dados

padronizados.

9.6. Escores fatoriais

Os fatores são variáveis não observáveis, muito embora seus

valores possam ser estimados. Os valores estimados dos fatores são

denominados de escores. Dois métodos de estimação são propostos. Ambos

tratam as cargas fatoriais e as variâncias específicas estimadas como se fossem

os verdadeiros valores desconhecidos. Se ocorrer rotação, os escores são obtidos

a partir das cargas fatoriais que sofreram rotação e não a partir das originais. Não

obstante, as fórmulas não distinguirão entre as situações em que ocorreu rotação

daquelas em não ocorreu, uma vez que estas fórmulas não são alteradas pelas

rotações.
9. Análise de fatores 350

9.6.1. Método dos mínimos quadrados ponderados

Suponha que µ , L e Ψ sejam considerados inicialmente como



conhecidos para o modelo fatorial:

X − µ = LF + ε
   

Como Var(εi)=ψi, não necessariamente igual para todo i, Bartlett

(1937) sugeriu o uso dos quadrados mínimos ponderados, usando como peso o

recíproco das variâncias específicas. A soma de quadrados de resíduos do

modelo fatorial ponderada é dada por:

p
εi2
( ) ( )
t
∑ψ
i =1
= ε t Ψ −1ε = X − µ − LF Ψ −1 X − µ − LF
       
(9.56)
i

Bartlett (1937) propôs a solução F̂ que minimiza (9.56). A solução é:




(
F̂ = ( Lt Ψ −1L ) Lt Ψ −1 X − µ )
−1
(9.57)
  

Como, de fato, L, Ψ e µ são desconhecidos, os respectivos



estimadores devem ser utilizados para a obtenção dos escores fatoriais:
Ferreira, D.F. Estatística multivariada 351

( ) ˆ −1 ( X − X ) j = 1, 2, ..., n
−1
Fˆ j = Lˆ t Ψ
ˆ −1Lˆ Lˆ t Ψ j (9.58)
  

Se a matriz de correlação for utilizada, então:

( )
−1
Fˆ j = Lˆ tZ Ψ
ˆ −1Lˆ
Z Z Lˆ tZ Ψ
ˆ −1Z j = 1, 2, ..., n
Z j (9.59)
 

Se as cargas fatoriais que sofreram rotação são usadas Lˆ* = LT


ˆ ,

então, F̂j se relaciona com F̂j* por:

Fˆ j* = T ' Fˆ j (9.60)

9.6.2. Método de regressão

A partir do modelo de fatores originais:

X − µ = LF + ε
   

Considerando que L e Ψ são conhecidas, e que F e ε possuem


 
distribuição normal multivariada com média e variâncias dadas pelas equações de
9. Análise de fatores 352

(9.3) a (9.6), a combinação linear X − µ = LF + ε tem distribuição N p ( 0, LLt + Ψ ) . A


    

distribuição conjunta de X − µ e F é, também, N m + p ( 0, Σ* ) ; em que:


   

⎡ LLt + Ψ L⎤
Σ =⎢
*
⎥ (9.61)
⎣ L
t
Ι⎦

A média 0 é um vetor [(m+p)×1] de zeros. A distribuição condicional



de F / x é normal com média e variância dados por:
 

( )
E ( F / x ) = Lt Σ −1 x − µ = Lt ( LLt + Ψ ) ( x − µ )
−1
(9.62)
   

C ov ( F / x ) = Ι − Lt Σ −1L = Ι − Lt ( LLt + Ψ ) L
−1
(9.63)
 

Os coeficientes Lt ( LLt + Ψ )
−1
são os coeficientes de uma regressão

multivariada dos fatores com as variáveis originais. As estimativas desses

coeficientes produzem os escores fatoriais. Dados as observações X j e tomando-




se os estimadores de máxima verossimilhança L̂ e Ψ̂ os escores dos fatores são

dados por:

( ) ( X − X )
−1
Fˆ j = Lˆ t LL
ˆ ˆt + Ψ
ˆ
j j = 1, 2, ..., n (9.64)

Ferreira, D.F. Estatística multivariada 353

O uso da identidade de matrizes:

( ) = ( Ι + Lˆ Ψˆ Lˆ )
−1 −1
Lˆ t LL
ˆ ˆt + Ψ
ˆ t −1
Lˆ t Ψ
ˆ −1 (9.65)

pode simplificar o cálculo dos escores dos fatores, os quais são dados por:

( ) ˆ −1 ( X − X ) j = 1, 2, ..., n
−1
Fˆ j = Ι + Lˆ t Ψ
ˆ −1Lˆ Lˆ t Ψ j (9.66)
  

A comparação dos escores fatoriais obtidos por regressão (LS) e por

mínimos quadrados ponderados (WLS) pode ser realizada subtraindo os

estimadores (9.66) e (9.58). Assim, simbolizando os estimadores de regressão por

F̂jLS e o de mínimos quadrados ponderados por F̂jWLS e usando a identidade de


 
matriz dada por:

( ) = ( Ι + Lˆ Ψˆ Lˆ )
−1 −1
Lˆ t LL
ˆ ˆt + Ψ
ˆ −1 t −1
Lˆ t Ψ
ˆ −1

Tem-se:

( ) ( Ι + Lˆ Ψˆ Lˆ ) Fˆ ( )
−1
= ⎡⎢ Lˆ t Ψ + Ι ⎤⎥ Fˆ j
−1
Fˆ jWLS = Lˆ t Ψ
ˆ −1Lˆ t −1 LS ˆ −1Lˆ LS


j
⎣ ⎦

Pelas estimativas de máxima verossimilhança verifica-se que

( Lˆ Ψˆ Lˆ )
−1
t −1
é uma matriz diagonal e quando o seu valor for próximo de zero os
9. Análise de fatores 354

estimadores anteriores serão aproximadamente os mesmo, ou seja, os

estimadores anteriores fornecerão aproximadamente os mesmos escores.

9.7. Exercícios

9.7.1. Teste a hipótese de que o modelo com m = 1 fator, apresentado no exemplo

9.1, é adequado utilizando o teste de qui-quadrado para falta de ajuste do

modelo.

9.7.2. Para o exemplo 9.3 testar a aderência do modelo com m = 4 fatores.

9.7.3. Obter estimativas de máxima verossimilhança para m = 1 e m = 2 dos dados

apresentados no exemplo 7.6.7 e calcular os escores pelos dois métodos

apresentados. Para o caso de m = 2 fatores plotar os escores dos dois

fatores obtidos.
||[ 10
Análise de correlação canônica
]||
10.1. Introdução

A análise de correlação canônica é centrada na identificação e

quantificação da associação entre dois grupos de variáveis. O foco da correlação

canônica é direcionado para a correlação entre uma combinação linear das

variáveis em um dos grupos com uma outra combinação linear das variáveis do

outro grupo de variáveis. A idéia fundamental é, a princípio, determinar as

combinações lineares dos dois grupos que possuem a maior correlação. No

próximo estágio, é determinado o par de maior correlação que seja, ainda, não

correlacionado com o par selecionado inicialmente. O processo continua até se

esgotar as dimensões de ambos os grupos ou do menor grupo. Os pares de

combinações lineares são denominados de variáveis canônicas e suas

correlações são chamadas de correlações canônicas. A técnica de encontrar

essas combinações lineares e suas respectivas correlações é devida a Hotelling

(1935 e 1936).
10. Análise de correlação canônica 356

A idéia fundamental é encontrar relações entre dois conjuntos de

variáveis, em alta dimensão, em poucos pares de variáveis canônicas. Várias

aplicações nas ciências humanas, na genética entre outras áreas são encontradas

na literatura.

10.2. Variáveis canônicas e correlação canônica


populacionais

Seja X um vetor de dimensão (p+q x 1), o qual possui matriz de



covariância Σ e média µ . Sejam os vetores X (1) (p x 1) e X (2) (q x 1) definidos
  

como sendo originados de uma partição do vetor original X , representando um



grupo com p variáveis e outro com q, respectivamente. Sem perda de

generalidade é assumido que p≤q. Pressupõe-se, também, que Σ possui

elementos finitos e é positiva definida. Para o vetor aleatório X , os seguintes



resultados são apresentados.

⎡ X1(1) ⎤
⎢ (1) ⎥
⎢ X2 ⎥
⎢ # ⎥
⎢ ⎥
⎡ X (1) ⎤ ⎢ X (1)p ⎥
X = ⎢  (2) ⎥ = ⎢ (2) ⎥ (10.1)
 ⎣ X ⎦ X1
 ⎢ (2) ⎥
⎢X2 ⎥
⎢ # ⎥
⎢ ⎥
⎢⎣ X (2)
q ⎥ ⎦
Ferreira, D.F. Estatística multivariada 357

Cuja média é:

⎡ µ (1) ⎤
µ = E(X) = ⎢  (2) ⎥ (10.2)
  ⎢⎣µ ⎥⎦


E cuja matriz de covariância é:

p q
p ⎡Σ Σ12 ⎤ (10.3)
( )( )
t
Σ = E X − µ X − µ = ⎢ 11
    q ⎣ Σ 21 Σ 22 ⎥⎦

Assim, para os vetores X (1) (p x 1) e X (2) (q x 1) verifica-se que:


 

⎧E ( X (1) ) = µ (1) Cov ( X (1) ) = Σ11


⎪   


⎨E ( X ) = µ Cov ( X (2) ) = Σ 22
(2) (2)
(10.4)
⎪   

(   ) 12 21
⎪Cov X (1) , X (2) = Σ = Σ t

As covariâncias entre pares de variáveis pertencentes aos dois

grupos, uma de X (1) e outra de X (2) , estão contidas em Σ12. Dessa forma, os pq
 
elementos de Σ12 medem a associação entre os dois grupos. Se ambos os valores

de p e q são grandes, a interpretação simultânea desse conjunto de covariâncias é

uma tarefa difícil e na maioria das vezes infrutífera. Como a finalidade, em geral, é
10. Análise de correlação canônica 358

de realizar predição ou realizar comparação, o interesse pode ser focado em

combinações lineares das variáveis originais. A idéia é, portanto, concentrar a

atenção em algumas poucas combinações lineares de variáveis pertencentes a

X (1) e a X (2) , ao invés de utilizar todas as pq covariâncias contidas em Σ12.


 
Seguindo a notação normalmente utilizada na literatura

especializada, sejam as variáveis U e V combinações lineares das variáveis de

X (1) e de X (2) , respectivamente, definidas por:


 

⎧ U = a t X (1)
⎪  
⎨ (10.5)
⎪V = b t X (2)

 
sendo a e b vetores não nulos dos coeficientes dessas combinações lineares.
 
Assim,

⎧Var(U) = Cov ( a t X (1) ) = a t Σ11a


⎪    

⎨Var(V) = Cov ( b X ) = b Σ 22 b
t (2) t
(10.6)
⎪    
⎪⎩ Cov(U, V) = a

t
C ov ( X

(1)
, X

(2)
) b = a t Σ12 b
  

A correlação entre U e V é definida por:

a t Σ12 b
Corr(U, V) = ρ U, V =   (10.7)
a t Σ11a b t Σ 22 b
   
Ferreira, D.F. Estatística multivariada 359

Hotelling (1935 e 1936) propôs estabelecer os pares (Ui, Vi),

i=1, 2, ..., p, determinando os vetores ai e bi que maximizam (10.7). As variáveis


 
Ui e Vi são denominadas de variáveis canônicas e a correlação entre elas de

correlação canônica. Na seqüência são apresentados os resultados necessários

para a maximização de (10.7) e, portanto, para a obtenção das variáveis

canônicas e de suas correlações.

Para determinar o máximo de ρU,V, inicialmente são impostas as

restrições:

a t Σ11a = b t Σ 22 b = 1 (10.8)
   

A mudança de escala imposta pelas restrições (10.8) não afeta a

correlação (10.7). Para obter o máximo de ρU,V é preciso derivar a equação (10.7)

com relação aos vetores a e b e igualar as derivadas parciais a zero. As


 
equações obtidas são:

⎧ ∂ρU,V −1/ 2 ⎡ ⎛ −1 ⎞ ⎤
= ( b t Σ 22 b ) ⎢( a t Σ11a ) Σ12 b + 2 ⎜ ⎟ ( a t Σ12 b )( a t Σ11a ) Σ11a ⎥
−1/ 2 −3 / 2

⎪ ∂a   ⎣    ⎝ 2⎠     ⎦

⎨ (10.9)

⎪ ∂ρU,V = ( a t Σ a )−1/ 2 ⎡( b t Σ b )−1/ 2 Σ t a + 2 ⎛ −1 ⎞ ( a t Σ b )( b t Σ b )−3 / 2 Σ b ⎤
⎪ ∂b 11 ⎢ 22 12 ⎜ ⎟ 12 22 22 ⎥
⎩    ⎣    ⎝ 2⎠     ⎦

Igualando as derivadas parciais de (10.9) a zero e impondo as

restrições (10.8), rearranjando alguns termos, obtém-se:


10. Análise de correlação canônica 360

⎧− ( a t Σ12 b ) Σ11a + Σ12 b = 0


⎪⎪     
⎨ (10.10)
⎪ t
⎪⎩Σ12a − ( a Σ12 b ) Σ 22 b = 0
t

É fácil observar que (10.7) sujeita as restrições (10.8) se torna igual

a ρ U, V = a t Σ12 b , que é o valor máximo, então:


 

⎧−ρU, V Σ11a + Σ12 b = 0


⎪   
⎨ (10.11)
⎪ t
⎩Σ12a − ρ U, V Σ 22 b = 0

Assim, para solução de (10.11) é necessário que o determinante dos

coeficientes do sistema de equações homogêneas seja nulo. Logo,

−ρ U, V Σ11 Σ12
=0 (10.12)
Σ12 −ρ U, V Σ 22
t

Uma importante propriedade dos determinantes é reproduzida a

seguir. Seja uma matriz A com as seguintes partições:

⎡A A12 ⎤
A = ⎢ 11 (10.13)
⎣ A 21 A 22 ⎥⎦
Ferreira, D.F. Estatística multivariada 361

O determinante de A, se A11 e A22 são não singulares, é dado por:

⎧ A = A11 A 22 − A 21A11 −1
A12
⎪⎪
⎨ ou (10.14)
⎪ −1
⎪⎩ A = A 22 A11 − A12 A 22 A 21

Utilizando o resultado (10.14) no determinante (10.12), obtém-se os

seguintes resultados para a primeira equação:

1 −1
−ρ U, V Σ11 −ρ U, V Σ 22 + Σ12
t
Σ11 Σ12 = 0
ρ U, V

Como −ρU, V Σ11 é diferente de zero, pois Σ11 é positiva definida,

então, o determinante anterior só será zero se:

1 −1
−ρ U, V Σ 22 + Σ12
t
Σ11 Σ12 = 0
ρU, V

Como o resultado dessa equação é zero, não há alteração se ambos

os termos da equação à esquerda da desigualdade for multiplicado por ( ρ U, V ) . Se

procede da mesma forma para a segunda equação do determinante de (10.14). O

resultado final dessa derivação é:


10. Análise de correlação canônica 362

⎧ Σ12 Σ −221Σ12
t
− ρ2U,V Σ11 = 0
⎪⎪
⎨ (10.15)
⎪ t −1
⎪⎩ Σ12 Σ11 Σ12 − ρ U,V Σ 22 = 0
2

Fazendo λ = ρ2U,V , verifica-se que as equações determinantais de

(10.15) podem ser vistas como maximização de pares de formas quadráticas

(capítulo 2) do tipo:

e t Ae
λ = t 
e Be
 
restrito a e t Be =1.
 
Assim, os resultados de (10.15) podem ser reescritos (capítulo 2) da

seguinte forma:

⎧( Σ12 Σ −221Σ12
t
− λΣ11 ) a = 0 (a)
⎪⎪  
⎨ (10.16)
⎪ t −1
⎪⎩( Σ12 Σ11 Σ12 − λΣ 22 ) b = 0 (b)

A resolução do sistema de equações pode ser feita aplicando uma

transformação linear não singular. Isso é ilustrado doravante com a equação (a)

de (10.16). Seja Σ1/112 a matriz raiz quadrada de Σ11 e considere a transformação

−1/ 2 −1/ 2
linear c = Σ1/112 a , então, a = Σ11 c . Se a equação (a) for pré-multiplicada por Σ11 e
   
−1/ 2
a for substituído por a = Σ11 c , então:
  
Ferreira, D.F. Estatística multivariada 363

−1/ 2
Σ11 ( Σ12Σ−221Σ12t − λΣ11 ) Σ11−1/ 2c = 0

(Σ −1/ 2
11 Σ12Σ −221Σ12
t −1/ 2
Σ11 −1/ 2
− λΣ11 −1/ 2
Σ11Σ11 ) c = 0

Então a solução de (a) é dada pela solução do seguinte sistema de

equações homogêneas:

(Σ −1/ 2
11 Σ12 Σ −221Σ12
t −1/ 2
Σ11 − λ i Ι ) ci = 0
 
(10.17)

A solução de (10.17) é facilmente obtida pelo cálculo dos autovalores

(λi) e autovetores ( ci ) de Σ11


−1/ 2
Σ12 Σ −221Σ12
t −1/ 2
Σ11 . Os autovalores (λi) dessa matriz são

os mesmos do sistema não transformados por serem invariantes com relação a

transformações não singulares, no entanto, os autovetores são afetados pela

transformação. Dessa forma, os autovetores devem ser recuperados pela

transformação linear inversa a efetuada. Assim,

−1/ 2
a i = Σ11 ci (10.18)
 

Tratamento igual é dado para a equação (b) de (10.16), agora

efetuando a transformação linear d = Σ1/222 b . Então,


 
10. Análise de correlação canônica 364

(Σ −1/ 2
22 Σ12
t −1
Σ11 Σ12Σ −221/ 2 − λ i Ι ) d i = 0
 
(10.19)

Os autovetores bi , soluções almejadas, são recuperados por:




−1/ 2
bi = Σ 22 di (10.20)
 

O máximo é obtido substituindo essas soluções em (10.7). Logo,

a t Σ12 b
Max ( ρ U, V ) =  t = a t Σ12 b
a, b a Σ11a b Σ 22 b 
t 
     

Da equação (10.10), sabendo que ρ U, V = a t Σ12 b = λ i , verifica-se que


 

λ = ( a t Σ12 b ) , logo:
2

 

Max ( ρ U, V ) = λ i (10.21)
a, b
 

As variáveis canônicas têm as seguintes propriedades:

Var(U i ) = Cov ( a it X (1) ) = a it Σ11a i = cit Σ11


−1/ 2 −1/ 2
Σ11Σ11 ci = cit ci
      
Ferreira, D.F. Estatística multivariada 365

−1/ 2
Sabendo que ci é um autovetor de Σ11 Σ12Σ −221Σ12
t −1/ 2
Σ11 com norma 1, e

procedendo da mesma forma para Var(Vi) verifica-se que:

Var ( U i ) = Var ( Vi ) = 1 (10.22)

A Cov ( U k , U A ) com (k ≠ A) é dada por:

Cov ( U k , U A ) = C ov ( a kt X (1) , a At X (1) ) = a kt Σ11a A =


     
−1/ 2 −1/ 2
= c kt Σ11 Σ11Σ11 cA = c kt ΙcA = c kt cA = 0 (k ≠ A)
     

Logo,

⎧Cov ( U k , U A ) = Corr ( U k , U A ) = 0 ( k ≠ A )

⎨ (10.23)
⎪Cov V , V = Corr V , V = 0 k ≠ A
⎩ ( k A) ( k A) ( )

Finalmente, a covariância entre Uk e VA com ( k ≠ A ) é dada por:

Cov ( U k , VA ) = C ov ( a kt X (1) , b At X (2) ) = a kt Σ12 b A =


     
−1/ 2
= c kt Σ11 Σ12 Σ −221/ 2 d A = 0 (k ≠ A)
 

Logo,
10. Análise de correlação canônica 366

Cov ( U k , VA ) = Corr ( U k , VA ) = 0 (k ≠ A) (10.24)

Para variáveis padronizadas Z(1)t = ⎡⎣ Z1(1) Z(1) (1)


2 " Zp ⎦
⎤ e


Z(2)t = ⎡⎣ Z1(1) Z(2) (2)



2 " Zq ⎦ as variáveis canônicas são dadas por:


⎧ U k = a kt Z(1) = c kt ρ11
−1/ 2 (1)
Z
⎪    
⎨ (10.25)
⎪V = b t Z(2) = d t ρ−1/ 2 Z(2)
⎩ k k  k 22



−1/ 2
em que c k e d k são os autovetores de norma 1 das matrizes ρ11 ρ12ρ−221ρ12
t −1/ 2
ρ11 e
 
ρ−221/ 2ρ12
t −1
ρ11 ρ12ρ−221/ 2 , respectivamente. Os autovetores originais devem ser

recuperados por:

⎧a k = ρ11
−1/ 2
ck
⎪ 
⎨ (10.26)
⎪b = ρ−1/ 2 d
⎩k 22 k


em que: ρ11 (p x p), ρ12 (p x q) e ρ22 (q x q) são partições de ρ (p + q x p + q)

dadas por:

p q
p ⎡ρ ρ12 ⎤ (10.27)
ρ = E ( ZZt ) = ⎢ 11
 q ⎣ρ21 ρ22 ⎥⎦
Ferreira, D.F. Estatística multivariada 367

de forma que:

⎧E ( Z(1) ) = 0 Cov ( Z(1) ) = ρ11


⎪   


⎨E ( Z ) = 0 Cov ( Z ) = ρ22
(2) (2)
(10.28)
⎪   

(   ) 12 21
⎪Cov Z(1) , Z(2) = ρ = ρ t

As correlações canônicas das combinações lineares padronizadas

são dadas por:

a kt ρ12 b k
Corr(U k , Vk ) =   = λk (10.29)
a kt ρ11a k b kt ρ22 b k
   

−1/ 2
em que λ k é k-ésimo autovalor de ρ11 ρ12ρ−221ρ12
t −1/ 2
ρ11 , ou equivalentemente de

ρ−221/ 2ρ12
t −1
ρ11 ρ12ρ−221/ 2 .

Por se tratarem de variáveis artificiais, as variáveis canônicas não

possuem significado físico. Se X (1) (p x 1) e X (2) (q x 1) são utilizados, os


 
coeficientes de a e b têm as unidades dos correspondentes coeficientes de X (1) e
  
de X (2) . Se as variáveis padronizadas forem utilizadas, então, os coeficientes

canônicos não possuem unidades de mensuração e não dependem da escala das

variáveis. Em geral, é dada uma interpretação subjetiva para as variáveis

canônicas de acordo com a magnitude das correlações das variáveis originais com
10. Análise de correlação canônica 368

as variáveis canônicas em foco. Muitos pesquisadores preferem fazer tal

relacionamento utilizando os coeficientes canônicos estandardizados.

Sejam A (p x p) e B (q x q) matrizes definidas pelos vetores

canônicos:

⎡ a1t ⎤ ⎡ b1t ⎤
⎢ t ⎥ ⎢ t ⎥
a2 ⎥ b
A =  e B = ⎢2⎥
⎢ (10.30)
⎢ #⎥ ⎢ #⎥
⎢ t⎥ ⎢ t⎥
⎢⎣ap ⎥⎦ ⎢⎣bq ⎥⎦
 

É possível definir os vetores de todas as p ou q variáveis canônicas

simultaneamente por:

⎡U1 ⎤ ⎡ V1 ⎤
⎢U ⎥ ⎢V ⎥
U= ⎢ 2⎥
= AX (1)
e V = ⎢ ⎥ = BX(2)
2
(10.31)
 ⎢# ⎥   ⎢# ⎥ 
⎢ ⎥ ⎢ ⎥
⎣⎢Up ⎦⎥ ⎣⎢ Vq ⎦⎥

Logo,

Cov (U, X(1) ) = Cov ( AX(1) , X(1) ) = ACov ( X(1) ) = AΣ11 (10.32)
    

A matriz de correlação entre as p variáveis originais de X (1) e as p



variáveis canônicas de U é dada pela “covariância” entre as p variáveis canônicas,

Ferreira, D.F. Estatística multivariada 369

as quais já são estandardizadas, e as p variáveis de X (1) padronizadas. A



padronização de X (1) é dada por:


⎡ 1 ⎤
⎢ 0 " 0 ⎥
⎢ σ11
(1)
⎥ (1)
⎢ 1 ⎥ ⎡ X1 ⎤
⎢ 0 " 0 ⎥ ⎢ X(1) ⎥
⎥⎢
2 ⎥
V −1/ 2
X (1)
=⎢ σ(1) (10.33)
⎥⎢ # ⎥
11 22
 ⎢
⎢ # # % # ⎥ ⎢ (1) ⎥
⎢ Xp ⎥⎦
⎢ 1 ⎥⎣
⎢ 0 0 " ⎥
⎢⎣ σpp
(1)
⎥⎦

Assim,

ρU, X(1) = Corr (U, X(1) ) = Cov ( AX(1) , V11−1/ 2 X(1) ) = AΣ11V11−1/ 2 (10.34)
     

Cálculo semelhante é realizado para os pares (U, X(2) ) , ( V , X(2) ) e


   

( V , X ) que resulta em:


(1)

⎧ρ ( 2 ) = AΣ12 V22−1/ 2 (p × q)
⎪ U , X

⎪ −1/ 2
⎨ρ V , X( 2) = BΣ 22 V22 (q × q) (10.35)
⎪  


⎪ρ = BΣ12
t
V11−1/ 2 (q × p)
⎩⎪ V , X (1)

em que V22−1/ 2 é uma matriz diagonal (q x q) com o i-ésimo elemento dado por

1/ σii(2) .
10. Análise de correlação canônica 370

Para as variáveis canônicas calculadas de matrizes de correlação ρ,

a interpretação pode ser realizada alternativamente pelas correlações entre as

variáveis canônicas e as variáveis padronizadas. Sejam AZ (p x p) e BZ (q x q)

matrizes compostas dos coeficientes canônicos de Z (1) e Z (2) , respectivamente.


 
As correlações entre as variáveis canônicas e as variáveis padronizadas são

dadas por:

⎧ρU, Z(1) = A Zρ11 ; ρV , Z( 2) = BZρ22


⎪⎪    
⎨ (10.36)
⎪ρ = A Zρ12 ; ρV ,Z(1) = B ρ t
⎩⎪ U , Z ( 2)  
Z 12

As matrizes de correlação (10.34), (10.35) com (10.36), apresentam,

no entanto, os mesmos valores numéricos, como por exemplo ρU, Z(1) = ρU, X(1) , e
   

assim por diante. Verifica-se facilmente isso por:

ρU, X(1) = AΣ11V11−1/ 2 = AV111/ 2 V11−1/ 2Σ11V11−1/ 2 = A Zρ11 = ρU,Z(1)


   

ou seja, a correlação não é afetada pela padronização (mudança de escala).


Ferreira, D.F. Estatística multivariada 371

10.3. Variáveis e correlações canônicas amostrais

Uma amostra aleatória de tamanho n em cada conjunto de (p + q)

variáveis aleatórias X (1) (p x 1) e X (2) (q x 1), dada por X1(1) , X(1)


2 , " , Xn
(1)
e
    
X1(2) , X(2)
2 , " , Xn
(2)
possui vetores de médias amostrais dados por:
  

⎡ X1(1) ⎤
⎢ ⎥
⎢ # ⎥
⎡ X(1) ⎤ ⎢ Xp(1) ⎥
⎢ ⎥ ⎢ ⎥
X=⎢ ⎥=⎢ ⎥ (10.37)
 ⎢ ⎥
⎢X ⎥
(2) (2)
⎣  ⎦ ⎢ X1 ⎥

⎢ # ⎥
⎢ (2) ⎥
⎢⎣ Xq ⎥⎦


Em que:

1 n 1 n
X(1) = ∑ X(1) j e X(2) = ∑ X(2) j (10.38)
 n j=1   n j=1 

A matriz de correlação amostral S (p + q x p + q) é dada por:

p q
p ⎡S S12 ⎤ (10.39)
S = ⎢ 11
q ⎣S21 S 22 ⎥⎦
10. Análise de correlação canônica 372

1 n
( )( X )
t
em que SkA = ∑ X(j k ) − X(k )
n − 1 j =1  
(A)
j − X( A ) , k, A = 1, 2 .


As k-ésimas variáveis canônicas amostrais são dadas pelas

combinações lineares:

⎧Uˆ = aˆ t X (1)
k k
⎪  
⎨ (10.40)
⎪ ˆ t (2)
⎩V̂k = b k X
 

que maximizam a k-ésima correlação canônica amostral dada por:

â kt S12 bˆ k
rUˆ ˆ =   (10.41)
k , Vk
aˆ kt S11aˆ k bˆ kt S22 bˆ k
   

O processo de maximização de (10.41) segue estritamente os

mesmos passos da maximização de (10.7), substituindo apenas Σ11, Σ22 e Σ12 por

S11, S22 e S12, respectivamente. As equações homogêneas correspondentes ao

máximo são dadas por:


(
⎧ S12S22 S12 − λˆ k S11
−1 t
) aˆ k = 0 (a)


⎨ (10.42)
⎪ t −1
( ˆ
⎪⎩ S12S11 S12 − λ k S22 ) bˆ k = 0 (b)

Ferreira, D.F. Estatística multivariada 373

Em que o máximo de ruˆ ˆ é dado por λ̂ k , para os autovetores aˆ k e


k , Vk


bˆ k obtidos por:


⎧aˆ k = S11
−1/ 2
cˆ k (a)
⎪ 
⎨ (10.43)
⎪ˆ −1/ 2 ˆ
⎩b k = S22 d k (b)
 

−1/ 2
sendo que ĉ k é k-ésimo autovetor de S11 S12S−221S12
t −1/ 2
S11 e d̂ k o k-ésimo autovetor de
 
S−221/ 2S12
t −1
S11 S12S−221/ 2 ; λ̂ k é o k-ésimo autovalor de ambas as matrizes, por serem

idênticos; k=1, 2, ..., p≤q.

As variáveis canônicas amostrais têm as seguintes propriedades:

1. Variâncias amostrais unitárias

ˆ U
Var ˆ = Var
k
ˆ V ( )
ˆ =1
k ( ) (10.44)

2. Correlações amostrais:

rUˆ ˆ = rVˆ ; Vˆ = rUˆ ˆ = 0 (k ≠ A) (10.45)


k ; UA k A k ; VA

3. Correlação amostral máxima:

rUˆ ˆ = λˆ k (10.46)
k ; Vk
10. Análise de correlação canônica 374

Sejam as matrizes  (p × p) e B̂ (q × q) definidas pelos vetores

canônicos amostrais:

⎡ aˆ 1t ⎤ ⎡ bˆ 1t ⎤
⎢ ˆt ⎥ ⎢ ⎥
⎢ a ⎥ ⎢bˆ t ⎥
Aˆ =  e Bˆ = ⎢  2 ⎥
2
(10.47)
⎢ #⎥
⎢ t⎥ ⎢ #⎥
ˆ
⎣⎢a p ⎦⎥ ⎢bˆ t ⎥
⎣q⎦

Analogamente a (10.31) definem-se:

⎡Uˆ ⎤ ⎡ Vˆ 1 ⎤
1
⎢ ⎥ ⎢ ⎥
⎢Uˆ ⎥ ⎢ Vˆ ⎥ ˆ (2)
ˆ= ˆ e Vˆ = ⎢ 2 ⎥ = BX
⎢ ⎥ = AX
2 (1)
U (10.48)
 ⎢# ⎥   ⎢# ⎥ 
⎢Uˆ ⎥ ⎢ Vˆ ⎥
⎣ p⎦ ⎣ q⎦

As correlações entre as variáveis canônicas amostrais e as variáveis

originais de cada um dos grupos podem ser obtidas. Para isso definiu-se as

−1/ 2
matrizes diagonais D11 ( ) ( )
= Diag 1/ Sii(1) , (pxp) e D −221/ 2 = Diag 1/ Sii(2) , (qxq).

1. Matriz de correlações entre Û e X (1)


 

ˆ D −1/ 2
R U,ˆ X(1) = AS (10.49)
11 11
 
Ferreira, D.F. Estatística multivariada 375

2. Matriz de correlações entre Û e X (2)


 

ˆ D −1/ 2
R U,ˆ X( 2) = AS (10.50)
12 22
 

3. Matriz de correlações entre V̂ e X (1)


 

ˆ t D −1/ 2
R V,ˆ X(1) = BS (10.51)
12 11
 

4. Matriz de correlações entre V̂ e X (2)


 

ˆ D −1/ 2
R V,ˆ X( 2 ) = BS (10.52)
22 22
 

Para variáveis padronizadas, as variáveis canônicas

correspondentes são:

⎡Uˆ ⎤ ⎡ Vˆ 1 ⎤
1
⎢ ⎥ ⎢ ⎥
⎢ ˆ ⎥ ˆ
U
U
ˆ = 2 = Aˆ Z (1)
e ˆ = ⎢ V2 ⎥ = Bˆ Z (2)
V (10.53)
⎢ ⎥ Z
  ⎢⎢ # ⎥⎥
Z

 ⎢# ⎥
⎢Uˆ ⎥ ⎢ Vˆ ⎥
⎣ p⎦ ⎣ q⎦

em que:

Aˆ Z = AD
ˆ 1/ 2 e
11 Bˆ Z = BD
ˆ 1/ 2
22 (10.54)
10. Análise de correlação canônica 376

Sendo que aˆ z e bˆ z , para as variáveis padronizadas, são obtidos da


 
mesma forma que os respectivos vetores para variáveis não padronizadas,

substituindo-se nas expressões correspondentes S11, S22 e S12 por R11, R22 e R12,

respectivamente. A relação (10.54) se verifica para o caso de variáveis canônicas,

mas não se pode estabelecer a mesma relação para os componentes principais

de matriz de covariância e matriz de correlação, como apontado por Johnson e

Wichern (1998). As matrizes de correlações entre as variáveis de cada grupo

padronizadas e as respectivas variáveis canônicas são dadas por:

⎧R ˆ (1) = A ˆ R =A ˆ −1 ˆ t
Z 11 Z ˆ (1) = B Z R 12
R V,Z
⎪⎪ U,Z
   
⎨ (10.55)
⎪ ˆ ˆ ˆ −1
ˆ ( 2) = A Z R 12
⎪⎩R U,Z ˆ ( 2) = B Z R 22 = B Z
R V,Z
   

Da mesma forma, é fácil verificar que as correlações não são

afetadas pela padronização, ou seja, as correlações obtidas em (10.49) a (10.52)

são as mesmas as correspondentes em (10.55).

Uma importante avaliação da qualidade do potencial das variáveis

canônicas é medir o poder de resumo da variabilidade contida respectivo conjunto.

Duas formas básicas são descritas: na primeira apresenta-se uma matriz de erro

da aproximação e na segunda calcula-se a proporção da variância explicada pelas

variáveis canônicas para cada grupo de variáveis.


Ferreira, D.F. Estatística multivariada 377

As matrizes de erro são obtidas como se segue, admitindo as

ˆ = AX
definições U ˆ (1) e Vˆ = BX
ˆ (2) . Logo, é possível definir:
   

X(1) = Aˆ −1U
ˆ e X(2) = Bˆ −1Vˆ (10.56)
   

Como  e B̂ são dadas por:

⎡ ĉ1t ⎤ ⎡ d̂1t ⎤
⎢ t ⎥ ⎢ t ⎥
ˆ
ˆ = Pˆ (1)t S−1/ 2
A

= ⎢  2 ⎥ S11 −1/ 2 ˆ = Pˆ (2)t S−1/ 2 = ⎢ d 2 ⎥ S−1/ 2
e B (10.57)
11
⎢#⎥ 22 ⎢ ⎥ 22
⎢ t⎥ ⎢#⎥
⎣⎢ cˆ p ⎦⎥ ⎢ dˆ t ⎥
⎣p⎦

Então:

ˆ −1 = S1/ 2 Pˆ (1)
A e ˆ −1 = S1/ 2 Pˆ (2)
B (10.58)
11 22

devido a P̂ (1) e P̂ (2) serem matrizes ortogonais de autovetores, é fácil perceber que

( Pˆ ) ( )
−1 −1
(1)t
= Pˆ (1) e Pˆ (2)t = Pˆ (2) .

Das definições de Û e V̂ sabe-se que a covariância entre eles é


 

uma matriz diagonal Λ̂ (pxq) com λ̂ k na k-ésima diagonal para k=1, 2,...p, e

cujas demais p-q colunas são formadas de zeros. Assim,


10. Análise de correlação canônica 378

⎧Cov

ˆ ( U,ˆ Vˆ ) = AS
ˆ
12
ˆ t = Pˆ (1)tS−1/ 2S S−1/ 2 Pˆ (2) = Λ
B 11 12 22
ˆ

⎪⎪
ˆ
⎨Cov ( Uˆ ) = AS
ˆ Aˆ
11
t
=Ι (10.59)


⎪ ˆ
⎪⎩Cov ( Vˆ ) = BS
ˆ
22
ˆt =Ι
B

Assim,

ˆ B
AS ˆt =Λ
ˆ
12

S12 B ˆ −1Λ
ˆt =A ˆ

( )
t
ˆ −1Λ
S12 = A ˆ B
ˆ −1

Da mesma forma:

( ) ( )
t t
ˆ −1 A
S11 = A ˆ −1 e ˆ −1 B
S22 = B ˆ −1

A idéia é reter um número r menor ou igual a p de variáveis

canônicas em cada grupo. O número r é escolhido de determinada forma que a

covariância amostral dentro de grupo seja reproduzida de uma forma satisfatória.

Da mesma forma é desejável uma boa aproximação das covariâncias entre grupos

S12. Sejam, então, as matrizes compostas das r (r≤p) primeiros autovalores e

−1/ 2
autovetores de S11 S12S−221S12
t −1/ 2
S11 e de S−221/ 2S12
t −1
S11 S12S−221/ 2 definidas por:
Ferreira, D.F. Estatística multivariada 379

⎡ ĉ1t ⎤
⎢ t ⎥

ˆ = Pˆ (1)t S−1/ 2
A = ⎢  2 ⎥ S11−1/ 2
(10.60)
r r 11
⎢#⎥
⎢ t⎥
⎢⎣ ĉ r ⎥⎦


⎡ d̂1t ⎤
⎢ t ⎥
ˆ = Pˆ (2)t S−1/ 2 ⎢d̂ ⎥
B r r 22 = ⎢  2 ⎥ S−221/ 2 (10.61)
⎢#⎥
⎢ d̂ t ⎥
⎣ r⎦


⎡ λˆ 1 0 " 0 ⎤
⎢ ⎥
⎢ 0 λˆ 2 " 0 ⎥
ˆ =⎢
Λ ⎥ (10.62)
r
⎢ # # % # ⎥
⎢ ⎥
⎢⎣ 0 0 " λˆ r ⎥⎦

Assim, definem-se as matrizes:

ˆ −1 = S1/ 2 Pˆ (1) e B
A ˆ −1 = S1/ 2 Pˆ (2) (10.63)
r 11 r r 22 r

Considerando as matrizes de resíduos E11, E22 e E12 das

reproduções de S11, S22 e S12, respectivamente, têm-se:


10. Análise de correlação canônica 380

⎧E = S −
( Aˆ )( Aˆ )
t
−1 −1
(a)
⎪ 11 11 r r




( Bˆ )( Bˆ )
t
−1 −1
⎨E 22 = S22 − r r (b) (10.64)



( Aˆ ) Λˆ ( Bˆ )
t
−1 −1
⎪E12 = S12 − r r r (c)

A segunda alternativa relacionada a essa que apresenta em simples

número a explicação do respectivo conjunto, em substituição aos p(p-1)/2, q(q-1)/2

ou pq valores de E11, E22 e E12. Como tr ( S11 ) = tr ⎡ A ( )( )


ˆ −1 ⎤ + tr ( E ) , e assim
t
ˆ −1 A
⎣⎢ ⎥⎦
r r 11

por diante para as demais matrizes, a explicação das r variáveis canônicas para o

seu respectivo conjunto é dada por:

ˆ de X (1) = 100 × ⎜1 − tr ( E11 ) ⎟ (a)


⎧ ⎛ ⎞
1(
ˆ ,U
⎪%Exp U ˆ ," , U
2 r

) ⎜ tr ( S ) ⎟
⎪ ⎝ 11 ⎠

⎨ (10.65)

ˆ de X (2) = 100 × ⎜1 − tr ( E 22 ) ⎟ (b)
⎛ ⎞
⎪%Exp V
⎪ 1 (
ˆ ,Vˆ ," , V
2 r

) ⎜ tr ( S ) ⎟
⎩ ⎝ 22 ⎠

10.4. Inferências para grandes amostras

Quando Σ12=0 as variáveis canônicas U = a t X (1) e V = b t X (2)


   
possuem covariância nula para todos os pares de vetores a e b . Dessa forma,
 
Ferreira, D.F. Estatística multivariada 381

não existem vantagens em realizar uma análise de correlação canônica. Então, é

evidente que um teste de hipótese de que (Σ12) seja igual a uma matriz nula é

primordial para a validação da análise de correlação canônica. A seguir é

apresentado o teste para a hipótese:

H 0 : Σ12 = 0 (p × q) vs H1 : Σ12 ≠ 0 (10.66)

Seja o vetor aleatório normal de dimensão (p + q x 1) com média µ e

covariância Σ, dado por:

⎡ X (1) ⎤
j
X j = ⎢  (2) ⎥
 ⎢⎣ X j ⎥⎦

cuja covariância pode ser particionada em:

p q
p ⎡Σ Σ12 ⎤
Σ = ⎢ 11
q ⎣Σ 21 Σ 22 ⎥⎦

Sob H0 o máximo da função de verossimilhança é dado por L0 e sob

H1 por L1, quais sejam:

L 0 ( X, S11 , S 22 ) = (2π) −n(p + q) / 2 ⎡⎣ S11 S 22 ⎤⎦


−n / 2
exp ( −n(p + q) / 2 ) (10.67)

10. Análise de correlação canônica 382

em que n é o tamanho da amostra, S11 e S22 são os estimadores das covariâncias

amostrais do grupo 1 e do grupo 2 de variáveis, p e q representam o número total

de variáveis no grupo 1 e 2, respectivamente.

Sob H1, modelo irrestrito tem-se:

L1 ( X, S ) = (2π) −np / 2 S −n / 2 exp ( −np / 2 ) (10.68)




A razão de verossimilhança é dada por:

L 0 ( X, S11 , S22 ) ⎡ S11 S22


−n / 2

Λ=  =⎢ ⎥ (10.69)
L1 ( X, S ) ⎢⎣ S ⎥⎦


O teste da razão de verossimilhança para a hipótese (10.66), dado

por:

⎛ S11 S22 ⎞ ⎡ p ⎤
χ c2 = −2 ln(Λ ) = n ln ⎜
⎜ S ⎟ (
⎣ i =1
)
⎟ = − n ln ⎢∏ 1 − λˆ i ⎥

(10.70)
⎝ ⎠

tem distribuição qui-quadrado com ν=pq graus de liberdade. Em que Λ é a razão

de verossimilhança do teste da hipótese (10.66).

O teste de razão de verossimilhança compara a variância amostral

generalizada sob H0:


Ferreira, D.F. Estatística multivariada 383

S11 0
= S11 S22
0 S22

com a variância generalizada irrestrita, |S|. O primeiro caso com

p(p + 1)/2 + q(q + 1)/2 parâmetros e o segundo com (p + q)(p + q + 1)/2. A

diferença é igual a ν = pq parâmetros, que é igual aos graus de liberdade do teste

em questão. Bartlett (1939) sugere uma correção para uma melhor aproximação

de qui-quadrado, substituindo n em (10.70) por n – 1 - (p + q + 1)/2. O teste com a

correção de Bartlett (1939) é dado por:

⎤ ⎛ S11 S22 ⎞ ⎤ ⎡ ⎤
( )
p
⎡ 1 ⎡ 1
χ c2 = ⎢ n − 1 − ( p + q + 1) ⎥ ln ⎜ ⎟ = − ⎢ n − 1 − ( p + q + 1) ⎥ ln ⎢∏ 1 − λˆ i ⎥ (10.71)
⎣ 2 ⎦ ⎝⎜ S ⎟
⎠ ⎣ 2 ⎦ ⎣ i =1 ⎦

Se a hipótese nula H 0 : Σ12 = 0 ( ρ1 = ρ2 = " = ρp = 0 ) for rejeitada, é

natural buscar um número de correlações canônicas r que diferem

significativamente de zero. Em que ρk é a notação abreviada de ρ Uk ;Vk . Bartlett

(1938) sugere um teste seqüencial baseado na razão de verossimilhança. A

princípio, testar a hipótese de que a primeira correlação canônica é não nula e as

demais (p-1) são nulas; em seguida, testar que as duas primeiras são não nulas e

as demais (p-2) são nulas; e assim por diante. Para o k-ésimo passo desse

processo testar a hipótese H (k


0
)
dada por:
10. Análise de correlação canônica 384

⎧H (k
0 : ρ1 ≠ 0, ρ 2 ≠ 0," , ρ k ≠ 0, ρ k +1 = ρ k + 2 = " = ρ p = 0
)


⎨ (10.72)
⎪H (k ) : ρ ≠ 0 para algum i ≥ k + 1
⎩ 1 i

O teste dessa hipótese incorporando a correção de Bartlett (1939)

pode ser realizado por:

⎤ ⎡ ⎤
( )
p
⎡ 1
χ c2 = − ⎢ n − 1 − ( p + q + 1) ⎥ ln ⎢ ∏ 1 − λˆ i ⎥ (10.73)
⎣ 2 ⎦ ⎣ i = k +1 ⎦

o qual possui distribuição de qui-quadrado com ν=(p-k)(q-k) graus de liberdade. O

teste é realizado para k=1, 2, ..., (p-1).

Cada hipótese da seqüência H 0 , H (1) (2)


0 , H 0 , etc. é testada uma de

cada vez até que H (k


0
)
não seja rejeitada para algum k. O valor nominal da

significância não é α, e possui difícil determinação. O teste é especialmente útil

para os dados normais e deve ser interpretado com cautela, e possivelmente deva

melhor ser usado como um guia não muito refinado de seleção do número r de

variáveis canônicas a ser retido. As distribuições amostrais das variáveis

canônicas possuem um estudo mais detalhado em Kshirsagar (1972).

Uma outra opção para esse teste é apresentada por Morrisson

(1976) que afirma que a distribuição do maior autovalor segue a distribuição da

maior raiz característica de Roy, com S=min(p, q), m=(|P-Q| -1)/2 e n=(n-p-q-2)/2.

O teste anterior foi generalizado por Wilks (1935) para avaliar a

independência entre k grupos de variáveis. O teste de razão de verossimilhança


Ferreira, D.F. Estatística multivariada 385

para a hipótese de independência entre k-grupos da distribuição normal

multivariada é apresentado doravante. Seja Σ, matriz de covariância para todas as

variáveis, particionada em k grupos, cada um com pi variáveis; a sub-matriz Σij de

dimensão pixpj (i≠j=1, 2, ...,k) é uma partição de Σ que contem as correspondentes

covariâncias entre as pi variáveis do i-ésimo grupo com as pj variáveis do j-ésimo

grupo. A hipótese de interesse é:

⎧H 0 : Σij = 0 para todo i ≠ j=1, 2, ..., k



⎨ (10.74)
⎪H : Σ ≠ 0 para algum i ≠ j=1, 2, ..., k
⎩ 1 ij

Cujo teste apresentado por Wilks (1935) depende da quantidade:

S
Vc = (10.75)
S11 × S22 × " × Skk

cuja distribuição é muito complicada. Mas Box (1949) obteve boa aproximação de

qui-quadrado com ν graus de liberdade. O teste proposto é:

n −1
χ c2 = − ln ( Vc ) (10.76)
C

em que:
10. Análise de correlação canônica 386

⎧ −1 1
⎪C = 1 − 12ν (n − 1) ( 2Γ3 + 3Γ 2 )
⎪⎪
⎨ (10.77)
⎪ 1
⎪ν = Γ 2
⎪⎩ 2

S
⎛ k ⎞ k
ΓS = ⎜ ∑ pi ⎟ − ∑ pSi ; S = 2, 3 (10.78)
⎝ i =1 ⎠ i =1

Se k = 2 com p1 = p e p2 = q, o teste (10.76) é exatamente o mesmo

de (10.71). Se k = p + q e pi=1, para todo i=1, 2, ..., p + q, o teste é se especifica

no teste apresentado no capítulo 7, para a independência de variáveis, ou seja,

H0: Σ=diag(σii). Então, esse teste é uma generalização dos demais supra citados.

É conveniente que se saliente que se os testes forem aplicados sobre a matriz de

correlação, os resultados são equivalentes aos obtidos para a matriz de

covariâncias, substituindo-se S por R nas expressões anteriores.

10.5. Exercícios

10.5.1. Verifique que a derivação do máximo de (10.7) pode ser obtida a partir de

(10.16) utilizando o fator de Cholesky F, na transformação linear de

a = ( F11−1 ) c e de b = ( F22−1 ) d no lugar de a = Σ11


t t −1/ 2
c e de b = Σ −221/ 2 d ,
       
Ferreira, D.F. Estatística multivariada 387

respectivamente; em que, F11 e F22 são os fatores de Cholesky de Σ11 e de

Σ22, respectivamente.

10.5.2. Dois testes ( X1(1) e X (1)


2 ) de leitura foram aplicados em n=140 crianças

juntamente com dois testes de aritmética ( X1(2) e X (2)


2 ). A matriz de

correlação amostral obtida foi:

⎡1, 0000 0, 6328⎤ ⎡1, 0000 0, 4248⎤ ⎡ 0, 2412 0, 0586 ⎤


R 11 = ⎢ ⎥ ; R 22 = ⎢ ⎥ ; e R 12 = ⎢ ⎥
⎣0, 6328 1, 0000 ⎦ ⎣0, 4248 1, 0000 ⎦ ⎣ −0, 0553 0, 0655 ⎦

a) obtenha todas as variáveis canônicas amostrais e as respectivas correlações

máximas.

b) realizar o teste da hipótese:

H 0 : Σ12 = ρ12 = 0 (p × q) vs H1 : Σ12 = ρ12 ≠ 0

Se H0 for rejeitada realizar o teste da hipótese:

H 0 : ρ1 ≠ 0; ρ2 = 0 Vs H 0 : ρ2 ≠ 0

discuta os resultados obtidos.


10. Análise de correlação canônica 388

c) estime as matrizes E11, E22 e E12 para o primeiro par de variáveis canônicas

(r=1).

d) Determine a proporção da variação explicada pelo primeiro par de variáveis

canônicas nos dois grupos.

e) calcule a correlação amostral entre Z(1) e Z(2) com U e com V .


   
||[ 11
Referências bibliográficas
]||
ANDERSON, T.W. An introduction to multivariate statistical analysis. 2nd Ed.
New York, John Wiley, 1984, 675p.

ANDERSON, T.W. The asymptotic theory for principal components analysis,

Annals of Mathematical Statistics, v.34, p.122-148, 1963.

BARTLETT, M.S. A note on multiplying factors for various Chi-Square

approximations. Journal of the royal Statistical Society –Series B. v.16,

p.296-298, 1954.

BARTLETT, M.S. A note on tests of significance in multivariate analysis.

Proceedings of the Cambridge Philosophical Society, v.35, p.180-185, 1939.

BARTLETT, M.S. Further aspects of the theory of multiple regression.

Proceedings of the Cambridge Philosophical Society, v.34, p.33-40, 1938.

BARTLETT, M.S. The statistical conception of mental factors. British Journal of

Psychology. v.28, p.97-104, 1937.


11. Referências bibliográficas 390

BENNETT, B.M. Note on a solution of the generalized Behrens-Fisher problem,

Annals of the Institute of Statistical Mathematics, v.2, p.97-90, 1951.

BOCK, R.D. Multivariate statistical methods in behavioral research. McGraw

Hill, 1975.

BOX, G.E.P. A general distribution theory for a class of likelihood criteria,

Biometrika. v.36, p.317346, 1949.

CARROLL, J.B. An analytical solution for approximating simple structure in factor

analysis. Psychometrika. v.18, pp.23-28, 1953.

CHRISTENSEN, W.F.; RENCHER, A.C. A comparison of type I rates and power

levels for seven solutions to the multivariate Behrens-Fisher problem.

Communication in Statistics-Simula., v.26, n.4, p.1251-1273, 1997.

CLEVELAND, W.S.; RELLES, D.A. Clustering by identification with special

application to two way tables of counts. Journal of American Statistical

Association. v.70, n.351, 1975. 626-630p.

D’AGOSTINO, R.B.;TIÉTJEN, G.L. Approaches to the null distribution of b1 ,


Biometrika, v.60, p.169-173, 1973.

D’AGOSTINO, R.B.;TIÉTJEN, G.L. Simulation probability points of b2 in small


samples, Biometrika, v.58, p.669-672, 1971.
Ferreira, D.F. Estatística multivariada 391

DINIZ, L de C. Dinâmica populacional do piolho de são José Quadraspidiotus

perniciosus (Comostock, 1881) (Homóptera: Dispididae) em pessegueiro, no

município de Jacuí - Minas Gerais. UFLA, Lavras, MG, 1996. 61p. (dissertação

de mestrado).

FERGUSON, G.A. The concept of parsimony in factor analysis. Psychometrika.

v.19, pp.281-290, 1954.

GIRSHICK, M.A. On the sampling theory of roots of determinantal equations.

Annals of Mathematical Statistics. v.10, p.203-224, 1939.

HOTELLING, H. Relations between two sets of variables. Biometrika. v.28, p.321-

377, 1936.

HOTELLING, H. The most predictable criterion. Journal of Educational

Psychology. v.26, p.139-142, 1935.

HOUSEHOLDER, A.S. Principles of numerical analysis. McGraw-Hill, New york,


1953.

HOUSEHOLDER, A.S. The theory of matrices in numerical analysis. Blarsdell,


Waltham, Mass., 1964.

JAMES, G.S. Tests of linear hypotheses in univariate and multivariate analysis

when the ratios of the population variances are unknown, Biometrika, v.41,

p.19-43, 1954.
11. Referências bibliográficas 392

JOHANSEN, S. The Welch-James approximation to the distribution of the residual

sum of squares in a weighted linear regression, Biometrika, v.67, n.1, p.85-92,

1980.

JOHNSON, R.A.; WICHERN, D.W. Applied multivariate statistical analysis. 4th

edition. Prentice Hall, New Jersey, 1998. 816p.

KAISER, H.F. Computer program for varimax rotation in factor analysis. Journal of

Educational and Psychological Measurement. v.19, pp.413-420, 1959.

KAISER, H.F. The varimax criterion for analytic rotation in factor analysis.

Psychometrika. v.23, pp.187-200, 1958.

KIM, S. A practical solution to the multivariate Behrens-Fisher problem,

Biometrika, v.79, n.1, p.171-176, 1992.

KRZANOWSKI, W.J. Principles of multivariate analysis. A user’s perspective.

Oxford, 3rd edition, 1993. 563p.

KSHIRSAGAR, A.M. Multivariate analysis. New York: Marcel Dekker, 1972.

LAWLEY, D.N. Further estimation in factor analysis. Proceedings of the Royal

Society of Edinburgh, Series A. v.61, pp.176-185, 1942.

LAWLEY, D.N. On testing a set of correlation coefficients for equality, Annals of

Mathematical Statistics, v.34, p.149-151, 1963.


Ferreira, D.F. Estatística multivariada 393

LAWLEY, D.N. Tests of significance for the latent roots of covariance and

correlation matrices. Biometrika, v.43, p.128-136, 1956.

LAWLEY, D.N. Tests of significance in canonical analysis. Biometrika. v.46,

p.59-66, 1959.

LAWLEY, D.N. The application of the maximum likelihood method to factor

analysis. British Journal of Psychology. v.33, pp.172-175, 1943.

LAWLEY, D.N. The estimation of factor loadings by the method of the maximum

likelihood. Proceedings of the Royal Society of Edinburgh, Series A. v.60 ou 40

(checar), pp.64-82, 1940.

MARDIA, K.V. Applications of some measures of multivariate skewness and


kurtosis for testing normality and robustness studies. Sankyã. A36, p.115-128,
1974.

MARDIA, K.V. Measures of multivariate skewness and kurtosis with applications.


Biometrika, p.519-530, 1970.

MARRIOTT, F.H.C. The interpretation of multiple observations. London,

Academic Press, 1974.

MOMENTÉ, V.G. Comparações entre diferentes tipos de famílias clonais para

o melhoramento genético da batata (Solanum tuberosum L.). ESAL, Lavras,

MG, 1994. 83p. (dissertação de mestrado).


11. Referências bibliográficas 394

MORRISON, D.F. Multivariate statistical methods. New York: McGraw-Hill, 2d

ed., 1976. 307p.

NEHAUS, J.; WRIGLEY, C. The quartimax method: an analytical approach to

orthogonal simple structure. British Journal of Psychology. v.7, pp.81-91, 1954.

NEL, D.G.; Van der MERWE, C.A. A solution to the multivariate Behrens-Fisher

problem. Communications in Statistics: Theory and Methods, v.15, p.3719-

3735, 1986.

PEARSON, E.S.; HARTLEY, H.O. Biometrika Tables for Statisticians Vol. 1 ed.
Cambridge University Press, New York, 1966.

SEARLE, S.R. Matrix algebra for the biological sciences. Wiley, New York,
1966.

WIKS, S.S. On the independence of k sets of normally distributed statistical

variables. Econometrica. v.3, p.309-326, 1935.

YAO, Y. An approximate degrees of freedom solution to the multivariate

Behrens-Fisher problem. Biometrika, v.52, n.1, p.139-147, 1965.