1996 Livro Estatistica Multivariada Ferreira Lavras

MINISTÉRIO DA EDUCAÇÃO E DO DESPORTO
UNIVERSIDADE FEDERAL DE LAVRAS

DEPARTAMENTO DE CIÊNCIAS EXATAS
ANÁLISE MULTIVARIADA
Daniel Furtado Ferreira
LAVRAS, MG
1996
ii
SUMÁRIO Pág.
1. Aspectos da análise multivariada 1
1.1. Introdução 1
1.2. Aplicação das técnicas multivariadas 3
1.3. Organização de dados 5
1.4. Distâncias 15
1.5. Exercícios 24
2. Álgebra vetorial e matricial 25
2.1. Introdução 25
2.2. Elementos de álgebra vetorial 26
2.3. Elementos de álgebra matricial 34
2.4. Exercícios 82
3. Amostragem multivariada 89
3.2. Geometria amostral 90
3.3. Amostras aleatórias e esperanças do vetor de média e da

matriz de covariância amostral. 101
3.4. Variância generalizada 104
3.5. Variância generalizada de variáveis generalizadas 113
3.6. Outra generalização da variância 116
3.7. Exercícios 117

iii
4. Distribuição normal multivariada 119
4.2. Pressuposições das análises multivariadas 120
4.3. Densidade normal multivariada e suas propriedades 121
4.4. Distribuição normal bivariada 125
4.5. Distribuição amostral de X e S 133

4.6. Distribuições amostral derivada da distribuição normal
multivariada 138
4.7. Verificando a normalidade 143
5. Inferências sobre o vetor média 171
5.2. Inferências sobre média de uma população normal 171
5.3. Região de confiança e comparações simultâneas de

componentes de média 177
5.4. Inferências sobre proporções de grandes amostras 190
5.5. Comparações pareadas 192
5.6. Comparações de vetores de médias de duas populações 199
6. Análise de variância multivariada 219
6.2. Delineamento de classificação simples 220

iv
6.3. Intervalos de confiança simultâneos para o efeito de

tratamentos 230
7. Componentes principais 233
7.2. Componentes principais populacionais 234
7.3. Componentes principais amostrais 250
7.4. Gráficos dos componentes principais 256
7.5. Inferências para grandes amostras 259
8. Análise de agrupamento 285
8.2. Medidas de parecença (similaridades e dissimilaridades) 286
8.3. Agrupamentos 296
9. Análise de fatores 309
9.2. Modelo de fatores ortogonais 310
9.3. Estimação de cargas fatoriais 316
9.4. Rotação fatorial 342
9.5. Teste da falta de ajuste do modelo fatorial 346

v
9.6. Escores fatoriais 349
10. Análise de correlação canônica 355
10.2. Variáveis canônicas e correlação canônica populacionais 356
10.3. Variáveis e correlações canônicas amostrais 371
10.4. Inferências para grandes amostras 380
11. Referencias bibliográficas 389
Apêndices 395
Índice remissivo 397

||[ 1
Aspectos da
análise multivariada
]||
1.1. Introdução
Nos trabalhos científicos, o problema de se inferir, a partir de dados
mensurados pelo pesquisador, sobre os processos ou fenômenos físicos,
biológicos ou sociais, que não se pode diretamente observar, é uma realidade
constante. A pesquisa científica se constitui num processo interativo de
aprendizado. Para explicação de um fenômeno, o pesquisador em geral coleta e
analisa dados de acordo com uma hipótese. Por outro lado, a análise destes
mesmos dados coletados de amostragem ou experimentação geralmente sugere
modificações da explicação do fenômeno, além disso, devido à complexidade
destes fenômenos, o pesquisador deve coletar observações de diferentes
variáveis. Neste contexto, a inferência estatística é realizada de acordo com o
paradigma hipotético-dedutivo (Bock, 1975).
Devido aos fenômenos serem estudados a partir de dados coletados
ou mensurados em muitas variáveis, os métodos estatísticos delineados para
obter informações a partir destes conjuntos de informações, são denominados de
métodos de análises multivariados. A necessidade de compreensão das relações

entre as diversas variáveis faz com que as análises multivariadas sejam
complexas ou até mesmo difíceis. O objetivo do presente material é apresentar a
utilidade das técnicas multivariada de uma forma clara, usando exemplos
ilustrativos e evitando o máximo de possível de cálculo.
Sendo assim, os objetivos gerais, para os quais a análise
multivariada conduz são:
a. redução de dados ou simplificação estrutural: o fenômeno sob estudo é
representado da maneira mais simples possível, sem sacrificar
informações valiosas e tornando as interpretações mais simples;
b. ordenação e agrupamento: agrupamento de objetos (tratamentos) ou
variáveis similares, baseados em dados amostrais ou experimentais;
c. investigação da dependência entre variáveis: estudos das relações
estruturais entre variáveis muitas vezes é de interesse do pesquisador;
d. predição: relações entre variáveis devem ser determinadas para o
propósito de predição de uma ou mais variável com base na observação
de outras variáveis;
e. construção e teste de hipóteses.
Os modelos multivariados possuem em geral, um propósito através
do qual o pesquisador pode testar ou inferir a respeito de uma hipótese sobre um

Ferreira, D.F. Estatística multivariada 3
determinado fenômeno. No entanto a sua utilização adequada depende do bom
conhecimento das técnicas e das suas limitações. A frase utilizada por Marriott
(1974) descreve bem este fato: “Não há mágica com os métodos numéricos, e que
apesar de serem uma importante ferramenta para análise e interpretação de
dados, não devem ser utilizados como máquinas automáticas de encher lingüiça,
transformando massas numéricas em pacotes de fatos científicos”.
1.2. Aplicação de técnicas multivariadas
As técnicas estatísticas constituem se uma parte integral da pesquisa
científica e em particular as técnicas multivariadas tem sido regularmente aplicada
em várias investigações científicas nas áreas de biologia, física, sociologia e
ciências médicas. Parece, neste instante, ser apropriado descrever as situações
em que as técnicas multivariadas têm um grande valor.
Medicina
Nos estudos onde as reações de pacientes a um determinado
tratamento são mensuradas em algumas variáveis e possuem difícil diagnóstico,
as técnicas multivariadas podem ser usadas para construir uma medida de
resposta simples ao tratamento, na qual é preservada a maior parte da informação
da amostra e das múltiplas variáveis respostas. Em outras situações as técnicas

multivariadas podem ser usadas também quando a classificação de um paciente,
baseada nos sintomas medidos em algumas variáveis, é difícil de ser realizada.
Neste caso, uma técnica multivariada de classificação, em que se cria uma função
que pode ser usada para separar as pessoas doentes das não doentes, pode ser
implementada.
Sociologia
Em alguns estudos o inter-relacionamento e o agrupamento de
indivíduos, cidades ou estados em grupos homogêneos em relação à mobilidade,
número de estrangeiros nascidos e de segunda geração em determinado país é
necessária em alguns estudos sociológicos. As técnicas de análise multivariada,
conhecidas como análise de agrupamento (Cluster analysis), pode ser empregada
com esta finalidade.
Biologia
No melhoramento de plantas é necessário, após o final de uma
geração, selecionar aquelas plantas que serão os genitores da próxima geração. a
seleção deve ser realizada de maneira que a próxima geração seja melhorada em
relação à resposta média de uma série de características da geração anterior. O
objetivo do melhorista consiste em maximizar o ganho genético em um espaço

mínimo de tempo. As análises multivariadas podem ser usadas para converter
uma série de características para um índice, na qual a seleção e escolha dos pais
possam ser feitas.
Em algumas situações se deseja a separação de algumas espécies,
e as técnicas multivariadas têm sido utilizadas com esta finalidade. Uma função é
construída e os seus valores são usados para esta separação.
1.3. Organização de dados
Através deste material pretende-se tratar das análises realizadas em
muitas características ou variáveis. Essas medidas, muitas vezes chamadas de
dados, devem ser organizadas e apresentadas em várias formas. Por exemplo, a
utilização de gráficos e arranjos tabulares são importantes auxiliares nas análises
de dados. Por outro lado, números que resumem, ou seja, que descrevem
quantitativamente certas características, são essenciais para a interpretação de os
dados amostrais ou experimentais.
Arranjos
Os dados multivariados são provenientes de uma pesquisa em
determinada área em que são selecionadas p ≥ 1 variáveis ou características para

serem mensuradas. As medidas são tomadas em cada unidade da amostra ou do
experimento. A representação destes dados é feita com a notação xjk para indicar
um valor particular da j-ésima unidade amostral ou experimental e da k-ésima
variável mensurada. Conseqüente, estas medidas de p variáveis em n unidades
amostrais ou experimentais, podem ser representadas conforme o arranjo
apresentado na Tabela 1.1.
Tabela 1.1. Representação de dados através da notação xjk para indicar um valor
particular da k-ésima variável mensurada na j-ésima unidade amostral
ou experimental.
Variáveis
Unidades amostrais 1 2 ... k ... p

ou experimentais
1 X11 X12... X1k... X1p
2 X21 X22... X2k... X2p
. . . . .
. . . . .
. . . . .
j Xj1 Xj2... Xjk... Xjp
. . . . .
. . . . .
. . . . .
n Xn1 Xn2... Xnk... Xnp
Estes valores, apresentados na Tabela 1.1, podem ser
representados em um arranjo retangular, denominado de X, com n linhas e p
colunas, da seguinte forma:
⎡ x11 x12 " x1k " x1 p ⎤

⎢x x22 " x2 k " x2 p ⎥⎥
⎢ 21
⎢ # # # # # # ⎥
X =⎢ ⎥
⎢ x j1 x j 2 " x jk " x jp ⎥
⎢ # # # # % # ⎥
⎢ ⎥
⎢⎣ xn1 xn 2 " xnk " xnp ⎥⎦
Exemplo 1.1
Uma seleção de 4 firmas de ração de Minas Gerais foi obtida para
avaliar a venda de rações. Cada observação bivariada forneceu a quantidade de
sacos de ração vendidos e a quantidade de reais de cada venda. Os dados
obtidos na forma tabular são:
Variável 1 (Reais/venda) 80 120 90 110
Variável 2 (número de
sacos de ração vendidos) 10 12 6 8
Usando a notação proposta anteriormente, tem-se:
X11=80 X21=120 X31=90 X41=110 X12=10 X22=12 X32=6 X42=8
E a matriz X dos dados é:

⎡ 80 10 ⎤
⎢120 12 ⎥
X =⎢ ⎥
⎢ 90 6 ⎥
⎢ ⎥
⎣110 8⎦
A organização dos dados em arranjos facilita a exposição e permite
que os cálculos sejam efetuados de uma forma ordenada e eficiente. Os ganhos
na eficiência são: (1) descrição dos cálculos como operações com matrizes e
vetores; e (2) sua fácil implementação em computadores.
ESTATÍSTICAS DESCRITIVAS
Grandes conjuntos de dados possuem um sério obstáculo para
qualquer tentativa de extração de informações visuais pertinentes aos mesmos.
muitas das informações contidas nos dados podem ser obtidas por cálculo de
certos números, conhecidos como estatísticas descritivas. Por exemplo, a média
aritmética ou média amostral, é uma estatística descritiva que fornece informação
de posição, isto é, representa um valor central para o conjunto de dados. Como
um outro exemplo, a média das distâncias ao quadrado de cada dado em relação
à média, fornece uma medida de dispersão, ou variabilidade.
Às estatísticas descritivas que mensuram posição, variação e
associação linear são enfatizadas. As descrições formais destas medidas estão
apresentadas a seguir.
A média amostral, simbolizada por X , é dada por:

1 n
Xk = ∑ X jk
n j =1
k=1, 2, ..., p (1.1)
Uma medida de variação é fornecida pela variância amostral,
definida para as n observações de i-ésima variável por:
1 n
∑ ( X jk − X k )
2
Sk2 = Skk = k = 1, 2, ..., p (1.2)
n − 1 j =1
A raiz quadrada da variância amostral, S kk , é conhecida como
desvio padrão amostral. Esta medida de variação está na mesma unidade de
medida das observações.
Uma medida de associação entre as observações de duas variáveis,
variáveis k e k’, é dada pela covariância amostral:
1 n
S kk ' = ∑ ( X jk − X k )( X jk ' − X k ' ) k, k’=1,2, ..., p (1.3)
n − 1 j =1
Se grandes valores de uma variável são observados em conjunto
com grandes valores da outra variável, e os pequenos valores também ocorrem
juntos, Skk’ será positiva. Se grandes valores de uma variável ocorrem com
pequenos valores da outra, Skk’ será negativa. Se não há associação entre os

valores das duas variáveis, Skk’ será aproximadamente zero. Quando k=k’, a
covariância reduz-se a variância amostral. Além disso, Skk’= Sk’k, para todo k e k’.
A última estatística descritiva a ser considerada aqui é o coeficiente
de correlação amostral. Esta medida de associação linear entre duas variáveis
não depende da unidade de mensuração. O coeficiente de correlação amostral
para k-ésima e k’-ésima variável, é definido por:
∑ ( X jk − X k )( X jk ' − X k ' )
n
rkk ' = S kk ' = n j =1 (1.4)

S kk S k ' k ' ∑ ( X jk − X k ) ∑ ( X jk ' − X k ' )
2 n 2
j =1 j =1
Verifica-se que rkk’=rk’k para todo k e k’. O coeficiente de correlação
amostral é a versão estandardizada da covariância amostral, onde o produto das
raízes das variâncias das amostras fornece a estandardização.
O coeficiente de correlação amostral pode ser considerado como
uma covariância amostral. Suponha que os valores Xjk e Xjk’ sejam substituídos
( X jk − X k ) ( X jk ' − X k ' )
pelos valores padronizados, S kk e Sk ' k ' . Esses valores padronizados
são expressos sem escalas de medidas (adimensionais), pois são centrados em
zero e expressos em unidades de desvio padrão. O coeficiente de correlação
amostral é justamente a covariância amostral das observações estandardizadas.
A correlação amostral (r), em resumo, tem as seguintes
propriedades:
1. Os valores de r devem ficar compreendidos entre -1 e 1;
2. Se r = 0, implica em inexistência de associação linear entre as variáveis. Por
outro lado, o sinal de r, indica a direção da associação: se r < 0 há uma
tendência de um dos valores do par ser maior que sua média, quando o outro
for menor do que a sua média, e r > 0 indica que quando um valor do par for
grande o outro também o será, além de ambos valores tender a serem
pequenos juntos;
3. Os valores de rkk’ não se alteram com a alteração da escala de uma das
variáveis.
As estatísticas Skk’ e rkk’, em geral, não necessariamente refletem
todo o conhecimento de associação entre duas variáveis. Associações não
lineares existem, as quais, não podem ser reveladas por estas estatísticas
descritivas. Por outro lado, estas estatísticas são muito sensíveis a observações
discrepantes (outliers).
Além destas, outras estatísticas como a soma de quadrados de
desvios em relação à média (Wkk) e a soma de produtos de desvios (Wkk’), são
muitas vezes de interesse. Essas estão apresentadas a seguir:

W kk = ∑ ( X jk − X k ) 2
j =1
n
Wkk ' = ∑ ( X jk − X k )( X jk ' − X k ' )
j =1
As estatísticas descritivas multivariadas calculadas de n observações
em p variáveis podem ser organizadas em arranjos.
Médias da amostra
⎡ X1 ⎤
⎢ ⎥
X2
X =⎢ ⎥
⎢ # ⎥
⎢ ⎥
⎣⎢ X p ⎦⎥
Matriz de covariância amostral
⎡ S11 S12 " S1p ⎤

⎢ ⎥
⎢ S 21 S22 " S2 p ⎥
S =⎢ ⎥
⎢ # # % # ⎥
⎢S Sp 2 " S pp ⎥⎦
⎣ p1
Matriz de correlações amostral
⎡ 1 r12 " r1p ⎤

⎢ ⎥
⎢ r21 1 " r2 p ⎥
R =⎢ ⎥
⎢ # # % # ⎥
⎢r rp 2 " 1 ⎥⎦
⎣ p1
Exemplo 1.2
Considerando os dados introduzidos no exemplo 1.1, encontrar as o
vetor de médias X e as matrizes S e R. Neste exemplo, cada firma de ração,

representa uma das observações multivariadas, com p = 2 variáveis (valor da
venda em reais e número de sacos de rações vendidas).
As médias amostral são:
1 4 1
X1 = ∑
4 j=1
X j1 = (80 + 120 + 90 + 110) = 100
4
1 4 1
X2 = ∑
4 j=1
X j2 = (10 + 12 + 6 + 8) = 9
4
⎡ X ⎤ ⎡100 ⎤
X = ⎢ 1⎥ = ⎢ ⎥
⎣X2 ⎦ ⎣ 9 ⎦
A matriz de covariância amostral é:

S11=[(80-100)2+(120-100)2+(90-100)2+(110-100)2]/3 = 333,333
S22=[(10-9)2+(12-9)2+(6-9)2+(8-9)2]/3 = 6,667
S12=[(80-100)(10-9)+(120-100)(12-9)+(90-100) (6-9)+(110-100)(8-9)]/3 = 20,000
S21=S12=20,000, e
⎡333,333 20,000 ⎤
S=⎢
⎣ 20,000 6,667 ⎥⎦
A correlação amostral é:
20
r12 = = 0,424 3
33,333 6,667
r21=r12=0,4243
Portanto,
⎡1, 0000 0, 4243⎤

R=⎢ ⎥
⎣ 0, 4243 1, 0000 ⎦
1.4. Distâncias
A maioria das técnicas multivariadas é baseada no simples conceito
de distância, por mais formidável que isso possa parecer. O conceito de distância
euclidiana deve ser familiar para a maioria dos estudantes. Se for considerado um
ponto P=(x1, x2) no plano cartesiano, a distância deste ponto P da origem O=(0, 0),
definida por d(O,P), é dada pelo teorema de Pitágoras por:
d (O, P ) = x 12 + x 22 (1.5)
Esta situação é ilustrada na Figura 1.1. Em geral, se o ponto P tem p
coordenadas, de tal forma que P=(x1, x2, ... xp), a distância de P da origem
O=(0, 0, ..., 0), pode ser generalizada por:
d (O, P ) = x 12 + x 22 +...+ x 2p (1.6)

d(O, P) X2
X1
Figura 1.1. Distância entre um ponto P=(x1, x2) e a origem O=(0, 0), fornecida pelo
teorema de Pitágoras.
Todos os pontos (x1, x2, .., xp) que contém uma distância ao
quadrado, denominada c2, da origem, satisfaz a equação:
2 2
d (O, P ) = x 12 + x 22 +...+ x 2p = c (1.7)
A expressão em (1.7) representa a equação de uma hiperesfera (um
círculo se p = 2), e os pontos eqüidistantes da origem por uma distância d(O, P)
pertencem a essa hiperesfera. A distância de um ponto P a um ponto arbitrário Q,
com coordenadas P=(x1, x2, ... xp) e Q=(y1, y2, ... yp) é dada por:
( x 1 − y 1) 2 + ( x 2 − y 2 ) 2 +...+( x p − y p )
2
d ( P ,Q ) = (1.8)
A distância euclidiana é insatisfatória para muitas situações
estatísticas. Isso ocorre devido à contribuição de cada coordenada ter o mesmo
peso para o cálculo da distância. Quando estas coordenadas representam
medidas são provenientes de um processo que sofre flutuações aleatórias de
diferentes magnitudes é muitas vezes desejável ponderar as coordenadas com
grande variabilidade por menores pesos em relação àquelas com baixa
variabilidade. Isto sugere o uso de uma nova medida de distância.
Será apresentada a seguir uma distância que considera as
diferenças de variação e a presença de correlação. Devido a escolha de a
distância depender das variâncias e das covariâncias amostrais, a partir deste
instante, será utilizado o termo “distância estatística” para distinguir de distância
euclidiana.
A princípio, será considerada a construção de uma distância entre
um ponto P, com p coordenadas, da origem. O argumento que pode ser usado
refere-se ao fato de que as coordenadas de P podem variar no espaço produzindo
diferentes posições para os pontos. Para ilustrar, suponha que se tenha n pares
de medidas em duas variáveis (x1 e x2) e que as medidas de x1 variam
independentemente das mensurações em x2. O significado de independente neste
ponto pode ser dado pelo fato de que os valores de x1 não podem ser preditos
com nenhuma acurácia a partir dos valores de x2 e vice-versa. Em adição, é
assumido que as observações de x1 possuem maior variabilidade que as de x2.
Uma ilustração desta situação está apresentada na Figura 1.2.

Um modo de fazer isso é dividir cada coordenada pelo desvio padrão
amostral. Após a divisão, têm-se as coordenadas estandardizadas x 1* = x 1 s11 e
x *2 = x 2 s 22 . Após eliminar as diferenças de variabilidade das variáveis
(coordenadas), determina-se a distância usando a fórmula euclidiana padrão:
* 2 * 2 x 12 x 22
d (O, P ) = ( x 1 ) + ( x 2 ) = + (1.9)
S 11 S 22
Usando a equação (1.9) todos os pontos tendo como coordenadas
(x1, x2) e com distância quadrada (c2) da origem devem satisfazer:
x 12 x 22 2
+ =c (1.10)
S 11 S 22
A expressão (1.10) é a equação de uma elipse, cujos maiores e
menores eixos coincidem com os eixos das coordenadas. A Figura 1.3 mostra o
caso geral para p = 2 coordenadas.

X2
0.5
cS 22
0.5
-cS 11 O 0.5
cS 11 X1
0.5
-cS 22
x 12 x 22
Figura 1.3. Elipse de uma distância estatística quadrática d2(O,P)= + =c
2
.
S 11 S 22
Exemplo 1.3
Um conjunto de pares (x1, x2) de duas variáveis forneceu X1 = X 2 = 1 ,
S11=9 e S22=1. Supõe-se que as observações de x1 são independentes de x2. A
distância quadrática de um ponto arbitrário (P) da origem, uma vez que as
variâncias da amostra não são iguais, é dada por:
2 2
2 x1 x2
d (O, P ) = +
9 1
Todos os pontos (x1, x2) que possuem distâncias quadrada da origem igual a 1,
satisfazem a equação:
2 2
x1 x2
+ =1 (1.11)
9 1
As coordenadas de alguns pontos com distância quadrática unitária
da origem foram apresentadas na Tabela 1.2.
Tabela 1.2. Coordenadas de alguns pontos com distância quadrática unitária da
origem.
Coordenadas (x1, x2) Distância ao quadrado
2 2
0
( 0, 1) 9
+ 11 = 1
2
0
2 ( −1)
( 0,-1) 9
+ 1
=1
2 2
3 0
( 3, 0) 9
+ 1
=1
2
( −3 ) 0
2
(-3, 0) 9
+ 1
=1
O gráfico da equação (1.11) é uma elipse centrada na origem (0,0),
cujo maior eixo é o da direção de x1 e o menor da direção de x2. A metade do
maior eixo (semi-eixo maior) é c S11 = 3 e do menor c S 22 = 1 . A elipse de distância
quadrática unitária foi plotada na Figura 1.4.

5
x2
4
0
-5 -4 -3 -2 -1 0 1 2 3 4
x1 5
1
-2
-3
-4
-5
Figura 1.4. Elipse de distância unitária quadrática da origem obtida a partir da
equação 1.11.
A expressão (1.9) pode ser generalizada para o cálculo da distância
entre pontos P e Q, cujas coordenadas variam, mutuamente independentemente
uma da outra. O caso mais geral, em que a hipótese de independência não é
satisfeita, será abordado futuramente.
2 2 2
(x1 − y1) (x 2 − y 2 ) (x p − y p )
d (P ,Q ) = + +"+ (1.12)
S11 S 22 S pp
Todos os pontos (P) situados a uma distância quadrática constante
de Q, pertencem a uma hiperelipsóide centrada em Q, cujos maiores e menores
eixos são paralelos aos eixos das coordenadas.
O programa SAS, apresentado a seguir, contém os códigos
necessários para a obtenção das principais estatísticas descritivas multivariadas
apresentadas nesse capítulo. O programa contém códigos matriciais e será
abordado com mais detalhe nos próximos capítulos. Os dados do exemplo 1.1 são
utilizados para a ilustração.
Proc IML;
X={ 80 10,
120 12,
90 6,
110 8};
Print X;
n=nrow(X);p=ncol(X);
Xbar=x`*j(n,1,1)/n;
Print Xbar;
q=i(n)-(1/n)*j(n,n,1);
print q;
S=(1/(n-1))*X`*q*X;
W=(n-1)*S;
print S W;
V=diag(S);
Vroot=half(V);
IVroot=inv(Vroot);
R=Ivroot*S*Ivroot;
Print V Vroot IVroot;
Print R;
Quit;
Foi motivado nesse capítulo o estudo das análises multivariadas e
tentou-se fornecer alguns rudimentares, mas importantes, métodos de organizar e
resumir os dados. Em adição, o conceito geral de distância foi apresentado, e será
abordado e generalizado nos próximos capítulos.

1.5. Exercícios
■ Considere as amostras com 8 observações e 3 variáveis apresentadas a seguir:
x1 3 5 6 4 8 9 6 7
x2 6 11 11 9 15 16 10 12
x3 14 9 9 13 2 2 9 5
a) Construa o gráfico de dispersão dos pontos das variáveis x1 e x2, x1 e x3, x2 e x3.
Comente sobre sua aparência.
b) Calcule: X , S e R e interprete os valores em R.
c) Calcule a distância euclidiana dada em (1.8) de um ponto
P=( x1, x2, x3)=(5, 12, 8) em relação a origem e em relação a X .
d) Calcule as mesmas distâncias do item c, usando (1.12).

||[ 2
Álgebra vetorial e matricial
]||
2.1. Introdução
É desejável que as p respostas multivariadas sejam representadas
por uma notação concisa. Os dados multivariados podem ser dispostos
convenientemente como um arranjo de números, como foi apresentado no
capítulo 1. Em geral, um arranjo retangular destes números, com n linhas e p
colunas, por exemplo, é chamada de matriz de dimensões n x p. Se por outro lado,
o arranjo consiste em n mensurações em apenas 1 variável, ou ainda, de uma
observação multivariada em p variáveis, esses arranjos são denominados de
vetores.
Com esse arranjo bidimensional, não só, a notação fica mais
concisa, mas os muitos resultados matemáticos de álgebra vetorial e matricial
facilitam a derivação e exposição dos métodos estatísticos multivariados. Neste
material, os elementos de álgebra vetorial e matricial, serão considerados como
conhecidos. Nesse capítulo, no entanto, para os estudantes não familiarizados
com o assunto, será apresentada uma breve revisão.

2.2. Elementos de álgebra vetorial
De um ponto de vista geométrico, as observações multivariadas,
podem ser consideradas como pontos no espaço p-dimensional, cujas
coordenadas são dadas por (x1, x2, ..., xp). Esse ponto pode ser visto como o final
de um segmento de reta da origem (0, 0, ..., 0) ao ponto (x1, x2, ..., xp). Tal
segmento de reta é denominado de vetor de posição e pode ser denotado
simplesmente por X . O vetor de posições é apenas um exemplo de vetor, para os
quais pode ser elaborada a álgebra, baseada nos seguintes postulados.
POSTULADOS
1. Para qualquer vetor X dado um número escalar c, a multiplicação do escalar
pelo vetor, resulta em outro vetor Y , definido por:
Y = cX
c será considerado um número real;
2. A adição de dois vetores conduz a um único vetor definido como:

Z = X + Y
3. A adição de vetores é:
Comutativa: X + Y = Y + X
Associativa: X + ( Y + Z ) = ( X + Y ) + Z
4. Se 0 é o vetor nulo, então:
X + 0 = X
0 .X = 0
COMPRIMENTO, ÂNGULO E DISTÂNCIA
Inicialmente, é definido produto interno entre dois vetores, que
representa a soma de produtos de pares de coordenadas correspondentes. Para
dois vetores (n x 1) de posição X e Y , o produto interno será o escalar, dado por:
n
X.Y = ∑ x i yi = x1 y1 + x 2 y 2 + + x n yn
i =1
É fácil verificar que X.Y = Y.X . Por meio, do produto interno é
possível generalizar o teorema de Pitágoras para o espaço euclidiano
n-dimensional:
n
X = X.X = ∑ x i2 = x12 + x 22 +
2
+ x 2n = d 2 (P, O) (2.1)
i =1
em que P, é o ponto do espaço n-dimensional, definido pelas coordenadas do
vetor X . A expressão (2.1) é o comprimento ao quadrado do vetor X . A
expressão entre módulo | X | indica a norma de X .
Dessa forma o comprimento do vetor é definido por:
X = X.X (2.2)
O ângulo θ entre dois vetores ( X e Y ) pode ser expresso em função
do produto interno e do comprimento dos vetores, obtido através da lei dos
cosenos, por:
X.Y
Cos ( θ ) = (2.3)
X.X Y.Y
As distâncias apresentadas no capítulo 1, entre os pontos
coordenados dos vetores X e Y , podem ser expressos agora como o

comprimento do vetor diferença das coordenadas de X e Y . A distância entre X
e Y é:
d(X, Y) = X − Y = (X − Y).(X − Y) (2.4)
Além de ser não negativa, essa distância entre os dois vetores é
independente da direção das medidas e satisfaz a desigualdade triangular:
d( X , Y ) ≤ d( X , Z ) + d( Y , Z ) (2.5)
Derivada a partir da desigualdade de Cauchy-Schwars:
a.b ≤ a . b (2.6)
O que implica, no fato, que o valor do co-seno do ângulo entre a e b
não pode exceder a unidade.
ORTOGONALIDADE
Dois vetores não nulos são denominados ortogonais, se o co-seno
do ângulo entre eles for zero. Isto indica que:

X.Y = 0 (2.7)
Muitas vezes é desejável (em sistemas de equações lineares)
construir uma base ortonormal de vetores, isto é, cada vetor da base possui
comprimento unitário ( Xi .Xi = 1) e cada par de vetor da base são ortogonais
( X .X
i j = 0, i ≠ j) . Para um conjunto de vetores arbitrários pode-se empregar a
“construção de Gram-Schimidt”. O algoritmo está apresentado a seguir,
considerando o conjunto X1 , X 2 , ..., X n de vetores:
Passo 1: normalize X1 :
X1
X1∗ = ; X1 .X1 ≠ 0
X1.X1
Passo 2: Ortonormalize X 2 calculando o produto interno entre X1* e X 2 , e
subtraindo de X 2 os componentes de X1* :
Ortogonalizando X1 e X 2 :
X ⊥2 = X 2 − ( X 2 .X1* ) X1*
Então, normalizando-se X ⊥2 :
1
X*2 = X 2⊥ ; X 2⊥ .X 2⊥ ≠ 0
⊥ ⊥
X .X
2 2
Passo 3: Calcule o produto interno de X 3 com X1* e X*2 , e subtraia de X 3 os
componentes de X1* e X*2 ,
X 3⊥ = X 3 − ( X 3 .X1* ) X1* − ( X 3 .X*2 ) X*2
Então, normalizando-se X 3⊥ :
1
X*3 = X 3⊥ ; X 3⊥ .X 3⊥ ≠ 0
⊥ ⊥
X .X
3 3
E assim por diante, até o n-ésimo estágio, quando todos os vetores
entrarem na construção. Se o i-ésimo vetor for linearmente dependente dos
vetores anteriores, então X i⊥ será igual ao vetor nulo, X i⊥ = 0 , devendo ser
eliminado do conjunto e o processo deve continuar com o vetor X i +1 . O número de
vetores não nulos remanescentes no conjunto, constituem a dimensão do espaço
vetorial original.
Exemplo 2.1
Dado o conjunto de vetores, a seguir, utilizar como ilustração a construção de
Gram-Schimidt.
⎡1 1 0⎤
⎢1 1 0 ⎥⎥
X=⎢
⎢1 0 1⎥
⎢ ⎥
⎢⎣1 0 1 ⎥⎦
Os vetores de X são dados por:
X = [ X1 X 2 X 3 ]
Passo 1. Normalize X1 :
⎡1⎤
⎢⎥
1 1
X1* = ⎢ ⎥
2 ⎢1⎥
⎢⎥
⎣1⎦
Passo 2: Ortonormalize X 2 :
Produto interno: X 2 . X1* = 1

⎡1 ⎤ ⎡1⎤ ⎡ 1⎤
⎢1 ⎥ ⎢1⎥ ⎢ ⎥
⊥ ⎢ ⎥ 1 ⎢ ⎥ 1 ⎢ 1⎥
ortogonalização: X 2 = − 1. =
⎢0 ⎥ 2 ⎢1⎥ 2 ⎢ −1⎥
⎢ ⎥ ⎢⎥ ⎢ ⎥
⎣0 ⎦ ⎣1⎦ ⎣ −1⎦
⎡ 1⎤ ⎡ 1⎤
⎢ 1⎥ ⎢ ⎥
1 1 1 1
Normalização: X*2 = . ⎢ ⎥ = ⎢ ⎥
1 2 ⎢ −1⎥ 2 ⎢ −1⎥
⎢ ⎥ ⎢ ⎥
⎣ −1⎦ ⎣ −1⎦
Passo 3: Ortonormalização de X 3
Produto interno: X 3 .X1* = 1 e X 3 .X*2 = −1
⎡0 ⎤ ⎡1⎤ ⎡ 1 ⎤ ⎡0 − 12 + 12 ⎤ ⎡ 0 ⎤
⎢0 ⎥ ⎢⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⊥ ⎢ ⎥ 1 ⎢1⎥ 1 ⎢ 1 ⎥ ⎢0 − 12 + 12 ⎥ ⎢ 0 ⎥
ortogonalização: X 3 = − 1. − (−1). = =
⎢1 ⎥ 2 ⎢1⎥ 2 ⎢ −1⎥ ⎢1 − 12 − 12 ⎥ ⎢ 0 ⎥
⎢ ⎥ ⎢⎥ ⎢ ⎥ ⎢ 1 1⎥ ⎢ ⎥
⎣1 ⎦ ⎣1⎦ ⎣ −1⎦ ⎣⎢1 − 2 − 2 ⎦⎥ ⎣ 0 ⎦
Verifica-se neste passo que X 3 é linearmente dependente dos
vetores X1 e X 2 , e deve ser eliminado da base vetorial. É fácil verificar que
X 3 = X1 − X 2 . Agrupando os vetores linearmente independentes ortonormalizados
obtém-se a base vetorial de Gram-Schimidt.

⎡ 12 1
2 ⎤
⎢1 1 ⎥
X 2 = ⎢ 12 2 ⎥
⎢2 − 12 ⎥
⎢1 ⎥
⎢⎣ 2 − 12 ⎥⎦
Pode ser observar facilmente que o produto interno dos vetores em
X2, é igual a zero.
Um importante tipo de matriz inversa, denominado de inversa de Moore-
Penrose, é obtido de uma base ortonormal das colunas de uma matriz para a qual
se deseja obter a inversa generalizada de Moore-Penrose. Seja A uma matriz de
dimensão qualquer nxp e seja U a base ortonormal de vetores obtida da
ortonormalização das colunas de A, então, defini-se T por:
T=U’A
Logo, a inversa generalizada de Moore-Penrose (A+) é definida por:
A+ = T’(TT’)-1U’.
2.3. Elementos de álgebra matricial
Na álgebra matricial as relações e operações são definidas através
de operações em arranjos retangulares dos elementos, denominados de matrizes.
Um exemplo de matriz é:
⎡ a 11 a 12 a 1p
⎤
⎢ ⎥
⎢a a a 2p ⎥
A = ⎢ 21 22
⎥
n x p
⎢ ⎥
⎢
⎣a n1 a n2 a np ⎥⎦
O número de linhas de uma matriz é denominado de ordem de linha
e o número de colunas, ordem de colunas. Se o número de linhas é n e o número
de colunas é p, diz-se que a matriz possui ordem nxp. Pode-se representar a
matriz por:
A=[aij] i=1, 2,..., n j=1, 2, ..., p (2.8)
Nas análises multivariadas, muitas vezes, será feito referências a
matriz de dados, a qual consiste de p respostas de n observações ou unidades
experimentais, e terá ordem nxp.
POSTULADOS
1. Igualdade: Duas matrizes necessariamente com o mesmo número de linhas e
colunas são iguais, se e somente se os elementos correspondentes, forem
iguais:
A=B ⇔ aij=bij i=1, 2, ..., n e j=1, 2, ..., p

2. Adição: A soma de duas matrizes de mesma ordem é obtida pela soma dos
elementos correspondentes:
A+B = [ aij] + [bij] = [aij + bij]
A adição com matriz nula 0, contendo elementos iguais a zero é:
nAp + n0p = nAp
3. Multiplicação por escalar: o produto de um escalar e uma matriz é obtido pela
multiplicação de cada elemento da matriz pelo número escalar:
cA = c[ aij] = [ caij]
4. Multiplicação de matriz: a multiplicação de matrizes é definida para aquelas em
que a ordem coluna do fator que pré multiplica é igual a ordem linha do fator
que pós multiplica. Tais matrizes são denominadas conformáveis para
multiplicação. O elemento (i, k) da matriz resultante do produto é a soma dos
produtos dos elementos correspondentes, da i-ésima linha do fator que pré
multiplica com os da k-ésima coluna do fator que pós multiplica.
⎡ q ⎤
A B
n q q p = AB = ⎢ ∑ a ij b jk ⎥ = [ai1b1k + ai2b2k + ... + aiqbqk] = [cik] = C
⎣ j=1 ⎦
Em geral AB ≠ BA.
A matriz quadrada com unidades na diagonal e zero nas demais
partes é denominada de matriz unitária ou identidade:
⎡1 0 0⎤
⎢0 1 0 ⎥⎥
Ι=⎢
⎢ ⎥
⎢ ⎥
⎣0 0 1⎦
Verifica-se que:
nAp pΙp = nAp
nΙn nAp = nAp
A matriz quadrada cujos elementos fora da diagonal principal são
iguais a zero é denominada matriz diagonal:
⎡ d1 0 0⎤
⎢0 d 0 ⎥⎥
D = diag[d1, d2, ..., dn] = ⎢ 2
⎢ ⎥
⎢ ⎥
⎢⎣ 0 0 d n ⎥⎦
A pré-multiplicação por uma matriz diagonal, simplesmente re-escala
as linhas do fator que pós multiplica, e a pós-multiplicação re-escala as colunas do
pré-fator.
5. Inversão de matriz: a inversa de uma matriz quadrada A, nxn, é chamada de A-1
e é definida de tal forma que A A-1 = A-1 A = Ι.
A inversa de um produto de matrizes é o produto do inverso dos fatores em
ordem inversa a ordem de multiplicação original:
(AB)-1 = B-1A-1
Pois, B-1A-1AB = B-1B = Ι e AB B-1A-1 = AA-1 = Ι
6. Matriz transposta: uma matriz obtida pela troca de linhas por colunas a partir de
uma matriz específica é denominada de matriz transposta. É denotada por A’.
nAP = [aij], então, pA’n = [a j]’ = [aji]
(A + B)’ = A’ + B’
(AB)’ = B’A’
(A-1)’ = (A’)-1
7. Matrizes particionadas: deixe as r linhas de uma matriz A (mxn) ser particionada
das restantes s=m-r linhas, e as p colunas particionadas das remanescentes
q = n - p colunas. Então, A pode ser representada por submatrizes, como a
seguir:
⎡A A12 ⎤ r
A = ⎢ 11 ⎥
⎣ A 21 A 22 ⎦ s
p q
Seja B uma matriz particionada de forma similar e sejam A e B tais
que suas partições sejam conformáveis para adição, logo,
⎡ A + B11 A12 + B12 ⎤ r

A + B = ⎢ 11
⎣ A 21 + B21 A 22 + B22 ⎥⎦ s
p q
Suponha agora que B seja particionada em p e q linhas e em t e u
colunas. Então, é possível verificar que:

r ⎡A A12 ⎤ ⎡ B11 B12 ⎤ p

AB = ⎢ 11
s ⎣ A 21 A 22 ⎥⎦ ⎢⎣ B21 B22 ⎥⎦ q
p q t u
⎡ A B + A12 B21 A11B12 + A12 B22 ⎤ r

= ⎢ 11 11
⎣ A 21B11 + A 22 B21 A 21B12 + A 22 B22 ⎥⎦ s
t u
Ainda é possível verificar que:
−1
p ⎡ A −1 + A −1B ( D − CA −1B ) CA −1 − A −1B ( D − CA −1B ) ⎤
−1 −1
p ⎡A B ⎤
= ⎢ ⎥
q ⎢⎣ C D ⎥⎦ q ⎢⎣ − ( D − CA −1B ) CA −1
−1
( D − CA −1B )−1 ⎦⎥
p q p q
Método prático para cálculo de matrizes inversas
As rotinas para computadores usualmente fazem uso da versão
compacta do método de Gauss, denominado de método de Gauss-Jordan
(Householder, 1953, 1964).
Os cálculos do método de Gauss-Jordan são recursivos, sendo que
os elementos da matriz no estágio i+1 são trocados pelos resultados da chamada
operação pivotante dos elementos do estágio i, por:
( i +1) (i)
a (kji ) × a (ji )
a =a − ke ≠j
a (jji )
k k
( i +1)
a (ji )
a = ≠j
a (jji )
j
( i +1)
a (kji )
a = − k≠j
a (jji )
kj
1
a (jji +1) =
a (jji )
O elemento a (jji ) é chamado de pivô, e sua linha e coluna são
chamados de linha e coluna pivotais. Após n operações pivotantes, a matriz
original é substituída pela sua inversa, garantindo-se que cada linha e coluna seja
pivotada somente uma vez.
Exemplo 2.2
Use o algoritmo de Gauss-jordan para inverter a matriz A (2x2) a seguir:
⎡4 2⎤
A(0) = ⎢ ⎥
⎣2 2⎦
Passo 1. Um bom compromisso com a precisão é pivotar a linha e coluna cujo
elemento da diagonal seja o maior de todos os não pivotados. Assim o

elemento escolhido para pivô é o elemento a11=4. A matriz após a
primeira ação pivotante é:
⎡1 2 ⎤
⎢ 4 ⎥ = ⎡ 4 2⎤
1 1
A (1) = ⎢ 4 ⎥ ⎢ ⎥
⎢ −2 2−
2 × 2 ⎥ ⎣ −21 1 ⎦
⎢⎣ 4 4 ⎥⎦
Passo 2. Neste passo, a única coluna ou linha não pivotada é a 2. Portanto o pivô
é a22=1, e a matriz resultante da operação pivotante é:
⎡ 1 − 12 ( − 12 ) − 12 ⎤ ⎡ 1 − 12 ⎤ 1 ⎡ 1 −1⎤
A ( 2)
= ⎢4 1 1 1
⎥ = ⎢ 21 =
⎢ −2 ⎥ − 1 ⎥⎦ 2 ⎢⎣ −1 2 ⎥⎦
⎦ ⎣ 2
1
⎣ 1 1
Ao final da operação pivotante, a matriz resultante, A(2), é a matriz
inversa de A.
Matrizes ortogonais
Classes especiais de matrizes, que serão utilizadas rotineiramente
nas técnicas multivariadas, são denominadas de matrizes ortogonais, sendo
simbolizadas em geral por Q e caracterizada por:

QtQ = QQt = Ι ou Qt = Q-1
O nome deriva da propriedade de que se Q tem i-ésima linha q it ,
então, se QQt = Ι implica que q it q i = 1 e q it q j = 0 para i≠j, sendo que as linhas
possuem tamanho unitário e são mutuamente ortogonais (perpendiculares). De
acordo com a condição de que QtQ = Ι, as colunas têm a mesma propriedade.
Exemplo 2.3
Dado a matriz Q, a seguir, verifique sua ortogonalidade:
⎡ 12 1
2
⎤
Q=⎢ 1 ⎥
⎣⎢ − 2
1
⎥
2⎦
A transposta de Q é dada por:
⎡ 1
2
− 1
2
⎤
Q =⎢
t
1 1
⎥
⎢⎣ 2 2 ⎥⎦
então,
⎡ 12 1
2
⎤ ⎡ 1
2
− 1
2
⎤ 1 ⎡ 2 0 ⎤ ⎡1 0 ⎤
QQ = ⎢ 1
t
⎥ ⎢ ⎥= ⎢ ⎥=⎢ ⎥
⎢⎣ − 2 ⎥⎦ 2 ⎣ 0 2 ⎦ ⎣0 1 ⎦
1 1 1
2⎥
⎦ ⎢⎣ 2 2
e,
⎡ 1
2
− 1
2
⎤ ⎡ 12 1
2
⎤ 1 ⎡ 2 0 ⎤ ⎡1 0 ⎤
QQ=⎢
t
⎥ ⎢ 1 ⎥= ⎢ ⎥ = ⎢0 1 ⎥
⎢⎣ − 2 2 0 2
1 1 1
⎢⎣ 2 2 ⎥⎦ ⎥
2⎦ ⎣ ⎦ ⎣ ⎦
sendo, QtQ = QQt = Ι ou Qt = Q-1, verificou-se que Q é ortogonal.
Determinantes
Uma função escalar importante de uma matriz A quadrada nxn, é o
determinante da mesma. O determinante da matriz A é simbolizado por |A| e é
definido por:
A = a11 se n = 1
n (2.9)
A = ∑ a ij A ij ( −1)
i+ j
se n > 1
j=1
em que Aij é a matriz quadrada (n-1)x(n-1) obtida deletando-se a i-ésima linha e a
j-ésima coluna de A, para qualquer escolha arbitrária de i=1, 2, ..., n.
Exemplo 2.4
Para ilustrar a definição (2.9), serão consideradas as seguintes matrizes:

⎡4 2 2⎤
⎡4 1⎤
A = [4] B=⎢ ⎥ C = ⎢⎢ 2 2 0 ⎥⎥
⎣1 2⎦ ⎢⎣ 2 0 2 ⎥⎦
A = 4;
B = 4 × 2 × (−1) 2 + 1 × 1 × (−1)3 = 4.2.1 − 1 × 1 × 1 = 7 ;
2 0 2 0 2 2
C = 4× × (−1) 2 + 2 × × (−1)3 + 2 × × (−1) 4
0 2 2 2 2 0
= 4 × [2 × 2 × (−1) 2 + 0 × 0 × (−1)3 ] × (−1) 2 + 2 × [2 × 2 × (−1) 2 + 0 × 2 × (−1)3 ] × (−1)3 +
+ 2 × [2 × 0 × (−1) 2 + 2 × 2 × (−1)3 ] × (−1) 4 = 16 − 8 − 8 = 0
∴C =0
Propriedades dos determinantes
1. A t = A ;
2. Se uma linha ou coluna de A for multiplicada por uma constante k, o
determinante ficará multiplicado pela constante;
3. Se A é multiplicada por uma constante k, o determinante resultante ficará
multiplicado por kn;

kA = k n A
4. Se duas linhas ou duas colunas são trocadas de posição, então o determinante
muda de sinal;
5. Se duas linhas ou duas colunas são proporcionais, então o determinante de A
será igual a zero;
6. O determinante obtido deletando a i-ésima linha e j-ésima coluna de A é
denominado menor de A, e denotado por |Aij|. A relação entre |A| e |Aij| foi
apresentada na definição de determinante (2.9);
1 −1
7. A −1 = =A ;
A
8. |AB| = |A|×|B|.
Determinante e posto (rank)
Se |A|≠0, então, A é denominada de posto completo, ou como é mais
comum dizer, A é não-singular e A-1 existe. Uma condição necessária e suficiente
para a existência da inversa de A é que |A|≠0.

Teorema da multiplicação
Seja a matriz A de ordem 2n x 2n, particionada em sub-matrizes
n x n dadas por:
⎡ B C⎤ n
A=⎢ ⎥
⎣D E ⎦ n
n n
Supõe-se que o determinante de A é não nulo, e se necessário for,
linhas e colunas correspondentes de A devem ser trocadas para assegurar que B
seja não-singular. Como o número de trocas de linhas e colunas é
necessariamente par, o valor de |A| não se altera. Considere matrizes
elementares, com determinante 1, dadas por:
⎡ Ι 0 ⎤ ⎡ Ι − B−1C ⎤
⎢ −DB−1 Ι ⎥ e ⎢ ⎥
⎣ ⎦ ⎣0 Ι ⎦
Se A for pré e pós-multiplicada, respectivamente, por essas matrizes
o resultado é:
⎡ Ι 0 ⎤ ⎡ B C ⎤ ⎡ Ι − B−1C ⎤
⎢ − DB−1 ⎢ ⎥
⎣ Ι ⎥⎦ ⎢⎣ D E ⎥⎦ ⎣ 0 Ι ⎦
⎡B C ⎤ ⎡ Ι − B−1C ⎤ ⎡ B 0 ⎤
=⎢ −1 ⎥ ⎢ ⎥=⎢ −1 ⎥
⎣ 0 − DB C + E ⎦ ⎣ 0 Ι ⎦ ⎣ 0 E − DB C ⎦
Então, A foi reduzida para sua forma quase-diagonal ou bloco
diagonal. Seja uma matriz V (2n x 2n) particionada da seguinte forma:
⎡V 0 ⎤n
V=⎢ 1
⎣0 V2 ⎥⎦ n
n n
então, o determinante de v é dado por:
V = V1 V2
Aplicando essa regra a A transformada pela pré e pós-multiplicação por
matrizes elementares, cujo determinante é igual a 1, o que não altera o valor de
|A|, tem-se:
B 0
A = −1
= B E − DB−1C
0 E − DB C
Observe que se A for quasi-triangular, ou seja, triangular por blocos,
o determinante é o produto dos determinantes de suas sub-matrizes principais:

B C
=B E
0 E
Agora é possível apresentar e provar o teorema da multiplicação. Se
A e B são matrizes quadradas n x n, então, |AB|=|A|.|B|. Considere para isso a
identidade:
⎡ I A ⎤ ⎡ A 0 ⎤ ⎡ 0 AB⎤
⎢0 I ⎥ ⎢ −I B⎥ = ⎢ −I B ⎥
⎣ ⎦⎣ ⎦ ⎣ ⎦
O produto do lado esquerdo da igualdade envolve operações
elementares que não afeta o determinante. Assim, o determinante de ambos os
lados é igualado e o resultado obtido é:
A 0 0 AB
=
−I B −I B
Colocando o lado direito na forma quasi-triangular por meio de trocas
nas últimas n colunas o resultado obtido é dado por:
A 0 AB 0
= ( −1)n
−I B B −I
Usando o resultado do determinante de uma matriz triangular por
blocos, têm-se:
A B = ( −1) AB − I
n
A B = ( −1) ( −1) AB
n n
A B = ( −1) AB
2n
∴ AB = A B
Infelizmente, não há teorema simples para a soma de matrizes.
Decorre desse teorema que:
A −1A = I
A −1 A = 1
1
A −1 = = A −1
A
Derivadas de vetores e matrizes
As derivadas de funções envolvendo vetores e matrizes são
necessárias em inúmeras aplicações na multivariada e em outras áreas. Apesar
de ser possível escrever essas mesmas funções em uma forma expandida e
tomar as derivadas elemento a elemento pelas regras de diferenciação escalar, é
vantajoso definir regras que retenham vetores e matrizes na notação (Bock, 1975).
A seguir são apresentadas as principais regras de diferenciação vetorial e
matricial.
Derivadas de matrizes de funções em relação

a variáveis escalares
Seja A uma matriz m x n cujos elementos são funções diferenciáveis
com relação a uma variável escalar x. A derivada de A em relação a x é uma
matriz m x n:
⎡ ∂a11 ∂a1n ⎤
⎢ ∂x ∂x ⎥
∂A ⎢ ⎥
=⎢ ⎥ (2.10)
∂x ⎢
∂a ∂a mn ⎥
⎢ m1 ⎥
⎣ ∂x ∂x ⎦
Seja A uma matriz m x n de funções diferenciáveis em x e B outra
matriz p x q cujos elementos, também, são diferenciáveis em x. Para cada caso
abaixo, são adotadas dimensões tais que as operações matriciais sejam
conformáveis.
∂ ( A + B ) ∂A ∂B
= + ; m = p, n = q (2.11)
∂x ∂x ∂x
∂ ( AB ) ∂B ∂A
=A + B; n=p (2.12)
∂x ∂x ∂x
∂ ( A −1 ) ∂A −1
= − A −1 A ; m = n, A ≠ 0 (2.13)
∂x ∂x
Seja X uma matriz m x n com o elemento x j na i-ésima linha e
j-ésima coluna, então,
∂X
= 1ij (2.14)
∂x ij
em que 1ij é uma matriz m x n com 1 na i-ésima linha e j-ésima coluna e 0 nas
demais posições. Se X for uma matriz diagonal n x n, logo,
∂X
= 1ii (2.15)
∂x ii
Derivadas de uma função escalar de matrizes em

relação a um vetor ou matriz variável
Seja g uma função escalar qualquer de uma matriz X, que pode ser por
exemplo o determinante, o traço, entre outras, então, a diferenciação de g em
relação a X é:
⎛ ∂g ∂g ⎞
⎜ ∂x … ⎟
∂x1n
∂g ⎜ ⎟
11
=⎜ ⎟ (2.16)
∂X ⎜ ⎟
⎜ ∂g ∂g ⎟
⎜ ∂x ∂x mn ⎟
⎝ m1 ⎠
a) o traço
O traço de uma matriz n x n é uma função que aparece com muita
freqüência na estatística multivariada, o qual é a soma dos elementos da diagonal
principal dessa matriz:
n
tr ( A ) = ∑ a ii (2.17)
i =1
Para as matrizes A, B e C de ordem m x n, p x q e r x s,
respectivamente, o traço tem as seguintes propriedades:
tr ( A + B ) = tr ( A ) + tr ( B ) , m=n=p=q (2.18)
tr ( δA ) = δ tr ( A ) , m=n (2.19)
tr ( A t ) = tr ( A ) , m=n (2.20)
tr ( AB ) = tr ( BA ) , m = q, n = p (2.21)
tr ( ABC ) = tr [ (AB)C ] = tr ( CAB ) , m = s, n = p, q = r (2.22)
Seja C uma matriz r x s de constantes e X uma matriz u x v de
variáveis. As seguintes diretivas de derivação do traço de funções de C e X com
relação aos elementos de X, resultam em matrizes de dimensão u x v:
∂tr ( C )
= 0, r=s (2.23)
∂X
∂tr ( X )
= I, r =s (2.24)
∂X
∂tr ( XC )
= Ct , r = v, s = u (2.25)
∂X
∂tr ( X t CX )
= ( C + C t ) X, r=v=s=u (2.26)
∂X
Essas diretivas de derivação são invariantes as permutações cíclicas
sofridas por transposição ou permutação dos fatores de multiplicação de matrizes.
no entanto, as derivadas com relação a transposta de X resultam em transpostas
das matrizes anteriores de ordem v x u. Em particular:

∂tr ( XC )
= Ct , r = v, s = u (2.27)
∂X t
∂tr ( X t CX )
= X t ( Ct + C ) , r=v=s=u (2.28)
∂X t
Para obter derivadas de funções elementares das matrizes algumas
diretivas também são definidas. Sejam os elementos de A e B funções de X, e
seja C uma matriz de constantes. Então,
∂tr ( A + B ) ∂tr ( A ) ∂tr ( B )

= + , m=n=p=q (2.29)
∂X ∂X ∂X
∂tr ( AB ) ∂tr ( AB ) ∂tr ( AB )

= + , m = q, n = p (2.30)
∂X ∂X ∂X
∂tr ( A −1 ) ∂tr ( A −2 A )
= − , m = n, A ≠ 0 (2.31)
∂X ∂X
∂tr ( A −1C ) ∂tr ( A −1CA −1A )

= − , m = n = r = s, A ≠ 0 (2.32)
∂X ∂X
A barra acima das matrizes anteriores em (2.29) a (2.32) indica que
essas são consideradas constantes para fins de diferenciação.

b) determinante
∂X
= adj ( X t ) = X ( X −1 ) ,
t
u = v, X ≠ 0 (2.33)
∂X
∂ ln X adj ( X t )
= ( X −1 ) ,
t
= u = v, X ≠ 0 (2.34)
∂X X
Restrições da variável de diferenciação
Alguns problemas estão sujeitos a maximização ou minimização com
relação a uma variável que por sua vez está sujeita a restrições. Os casos
especiais são àqueles em que X é simétrica. Logo X=Xt e os elementos fora da
diagonal são sujeitos a:
xij = xji i<j (2.35)
Uma abordagem apropriada para o problema é impor restrições por
meio de multiplicadores de Lagrange. Para aplicar esse método, deve-se
diferenciar com relação a x não restrita a expressão da forma:
1
g + tr [ U ( X − X t )]
2
em que g é uma função escalar de X, U a n x n matriz de multiplicadores de
Lagrange. Logo, X deve satisfazer:
∂g 1
+ ( U − Ut ) = 0 (2.36)
∂X 2
Como também
t t
⎛ ∂g ⎞ 1 t ⎛ ∂g ⎞ 1 t
⎟ + (U − U) = ⎜ ⎟ − (U − U) = 0
t
⎜ (2.37)
⎝ ∂X ⎠ 2 ⎝ ∂X ⎠ 2
Somando essas expressões obtém-se a condição para o extremo
restrito:
t
⎛ ∂g ⎞ ⎛ ∂g ⎞
⎜ ⎟+⎜ ⎟ =0 (2.38)
⎝ ∂X ⎠ ⎝ ∂X ⎠
Outro caso importante de matriz X restrita é: se X é uma matriz
diagonal n x n e Y uma matriz função de X, então,
∂tr(Y) ⎡ ∂tr(Y) ∂tr(Y) ∂tr(Y) ⎤

= Diag ⎢ (2.39)
∂X ⎣ ∂x11 ∂x 22 ∂x nn ⎦⎥
E se X = x Ι, então,
∂tr(Y) ∂tr(Y)
= (2.40)
∂X ∂x
Regra da cadeia para funções escalares de matrizes
Seja g uma função escalar de A diferenciável com relação aos
elementos de A, e deixe os elementos de A ser função diferenciável de x. Então,
∂g ⎛ ∂g ∂A t ⎞
= tr ⎜ ⎟ (2.41)
∂x ⎝ ∂A ∂x ⎠
Por exemplo, para |A|≠0, g=ln|A| de (2.34) tem-se:
∂g ∂ ln A ⎛ ∂ ln A ∂A t ⎞ ⎡ −1 t ∂A t ⎤
∂x
=
∂x
= tr ⎜ ⎟ = tr ⎢( A ) ∂x ⎥ (2.42)
⎝ ∂A ∂x ⎠ ⎣ ⎦
derivada de uma função de um vetor com

relação a um vetor
Seja um vetor z m x 1, cujos elementos são diferenciáveis pelos
elementos 1 x n do vetor x t = [ x1 x2 x n ] . A derivada de Z em relação a x t é
a matriz m x n:
∂z ⎡ ∂z ⎤ i = 1, 2, ..., m
=⎢ ⎥ (2.43)
∂x t ⎣ ∂x j ⎦ ij j = 1, 2, ..., n
Por exemplo, de (2.26) tem-se a primeira derivada de x t Ax , sendo A
simétrica,
∂x t Ax ∂tr ( x Ax )
t
= = 2Ax (2.44)
∂x ∂x
De (2.43), a segunda derivada é representada em forma matricial
por:
∂x t Ax ∂ ( ∂ x Ax ∂ x ) ∂ 2Ax
t
= = = 2A (2.45)
∂x t ∂x ∂x t ∂x t
Formas quadráticas
Definindo A como uma matriz simétrica não nula (nxn), e o vetor
x t = [X1 X2 X n ] a expressão:
n n −1 n
Q = x t A x = ∑ a ii X i2 + 2∑ ∑a XX ij i j
i =1 i =1 j= i +1
é dita forma quadrática, pois só contém termos quadrados ( x i2 ) e de produtos
( xix j ) .
Exemplo 2.5
Obtenha a expansão da forma quadrática, dado o vetor x e a matriz A, a seguir:
⎡4 1⎤
x = [ x1 x2 ] A=⎢ ⎥
⎣1 2⎦
⎡ 4 1 ⎤ ⎡ x1 ⎤ ⎡x ⎤
Q = [ x1 x2 ]× ⎢ ⎥ × ⎢ ⎥ = [ 4x1 + x 2 x1 + 2x 2 ] × ⎢ 1 ⎥
⎣1 2⎦ ⎣ x 2 ⎦ ⎣x2 ⎦
∴ Q = 4x12 + 2x1 x 2 + 2x 22
Assumindo, para o momento, que p elementos x1, x2, ..., xp, de um
vetor x são realizações de p variáveis aleatórias X1, X2, ..., Xp pode-se
considerá-los como coordenadas de um ponto no espaço p-dimensional. A
distância desse ponto [x1 x2 x p ] da origem pode e deve, nesse caso, ser
interpretada em termos de unidades de desvio padrão. Desse modo, pode-se
considerar a incerteza inerente (variabilidade) às observações. Pontos com a
mesma incerteza associada são considerados de mesma distância da origem.
Introduzindo agora uma fórmula geral de distância mais apropriada têm-se:

n n −1 n
d ( 0,P ) = ∑ a ii x + 2∑ ∑ a ijx i x j
2 2
i (2.46)
i =1 i =1 j=i +1
e garantindo que d2 > 0 para todo ponto P≠0, e fazendo aij=aji, têm-se:
⎡ a 11 a 12 a 1p
⎤
⎢ ⎥ ⎡x ⎤
⎢a 21 a a 2p ⎥ ⎢ 1⎥
0 < d 2 = x t Ax = ⎡⎣ x 1 x p ⎤⎦ ⎢
22
⎥ ⎢ ⎥ (2.47)
⎢ ⎥ ⎢ ⎥
⎢ ⎣x p⎦
⎣a p1 a p2 a pp ⎥⎦
Verifica-se que (2.47) é uma forma quadrática, o que permite que a
interprete como uma distância. A determinação, dos coeficientes da matriz A de
(2.47) será apresentada oportunamente.
Classificação de formas quadráticas
As formas quadráticas podem ser classificadas, quanto aos
resultados que produzem. Nesta seção, o interesse residirá nas formas
quadráticas não negativas e nas matrizes associadas (denominadas positivas
definidas). Uma condição necessária e suficiente para que A seja positiva definida
(pd) é que esta possa ser fatorada por:

n A n = n Sn n Snt
e que o posto de S seja n, em que S é uma matriz triangular, denominada fator de
Cholesky de A (Bock, 1975). Portanto, se uma matriz admite o fator de Cholesky,
ela é positiva definida.
Q = x t Ax = x t (SSt )x = (St x) t (St x) = z t z
= Z12 + Z22 + + Z2n
Devido a S ter posto coluna completo, não existe x não nulo, tal que
z = St x = 0 . Portanto, a forma quadrática Q é sempre positiva, como foi afirmado.
Se por outro lado, o posto de S for r≤n, então o posto de A será r, e a forma
quadrática Q = x ' Ax ≥ 0, é denominada positiva semidefinida (psd). Isso se deve
ao fato de que para algum vetor x ≠ 0, a igualdade Q = 0, acontece. O algoritmo
para obtenção do fator de Cholesky de uma matriz pd, está apresentado a seguir.
Algoritmo para obtenção do fator de Cholesky
de uma matriz positiva definida
1. Dada uma matriz A (nxn), com elementos a j.

2. Obtenção da transposta do fator de Cholesky St, é dada pelo algoritmo abaixo,
sendo que os elementos desta matriz não contemplados pelo método devem
ser considerados iguais a zero:
a1j
1a linha: S11 = a11 S1j = j >1
S11
i-ésima linha:
1
⎛ i −1
2⎞
2
Sii = ⎜ a ii − ∑ Sri ⎟
⎝ r =1 ⎠
1 ⎛ i −1
⎞
Sij = ⎜
Sii ⎝
a ij − ∑
r =1
S riSrj ⎟
⎠
i≥2 j>i
3. A obtenção de S-1, inversa de S, com elementos Sij, é dada por:
1 −1 i −1
Sii =
Sii
Sij =
Sii
∑S S
r =1
ri
rj
i> j
para i < j Sij = 0
4. A obtenção da A-1, inversa de A, com elementos aij, em que aij=aji, é dada por:
n n
a ii = ∑ ( Sri ) a ij = ∑ SriSrj
2
i> j
r =i r =i
Exemplo 2.6
Obtenha o fator de Cholesky (S), sua inversa (S-1) e a matriz inversa (A-1), a partir
da matriz A, apresentada a seguir:
⎡4 2 0⎤
A = ⎢⎢ 2 2 1 ⎥⎥
⎢⎣ 0 1 2 ⎥⎦
Obtenção de St:
Primeira linha:
2 0
S11 = 4 = 2; S12 = = 1; S13 = = 0
2 2
Segunda linha:
1
[1 − 1× 0] = 1
1
S22 = ⎡⎣ 2 − 12 ⎤⎦ = 1 S23 =
2
Terceira linha:
S33 = ⎡⎣ 2 − ( 02 + 12 ) ⎤⎦ = 1
1
2
Logo,
⎡2 1 0⎤ ⎡ 2 0 0⎤
S = ⎢⎢ 0 1 1 ⎥⎥
t
e S = ⎢⎢ 1 1 0 ⎥⎥
⎢⎣ 0 0 1 ⎥⎦ ⎢⎣ 0 1 1 ⎥⎦
A matriz S-1 é obtida por:
Linha 1:
1
S11 = ; S12 = S13 = 0 i < j
2
Linha 2:
1 ⎛ 1⎞ 1
S22 = = 1; S21 = −1× ⎜ 1× ⎟ = − ; S12 = 0 pois i < j
1 ⎝ 2⎠ 2
linha 3:
1 ⎛ 1 ⎛ −1 ⎞ ⎞ 1
S33 = = 1; S31 = −1× ⎜ 0 × + 1× ⎜ ⎟ ⎟ = S32 = −1× (1× 1) = −1
1 ⎝ 2 ⎝ 2 ⎠⎠ 2
logo,
⎡ 1 ⎤
⎢ 2 0 0⎥
⎢ ⎥
⎢ − 1 ⎥
S−1 = ⎢ 1 0⎥
⎢ 2 ⎥
⎢ 1 ⎥
⎢ −1 1 ⎥
⎢⎣ 2 ⎥⎦
A matriz A-1 é obtida por:
Diagonal principal:
2 2 2
⎛1⎞ ⎛ 1⎞ ⎛1⎞ 3
a = ⎜ ⎟ +⎜− ⎟ +⎜ ⎟ =
11
⎝2⎠ ⎝ 2⎠ ⎝2⎠ 4
a 22 = 12 + ( −1) = 2
2
a 33 = 12 = 1
Demais elementos:
⎛ 1⎞ 1
a 21 = 1× ⎜ − ⎟ + (−1) × = −1;
⎝ 2⎠ 2
1 1
a 31 = 1× = ; a 32 = 1× (−1) = −1;
2 2
1
a12 = a 21 = −1; a13 = a 31 = ; a 23 = a 32 = −1
2
Logo,
⎡ 34 −1 12 ⎤
A −1 = ⎢⎢ −1 2 −1⎥⎥
⎢⎣ 12 −1 1 ⎥⎦
O fator de Cholesky S e sua inversa têm as seguintes propriedades:
1. SSt = A
2. S-1S = St(S-1) t = Ι
3. S-1A = S t
4. A(S-1) t = S
5. (S-1)A(S-1) t = Ι
6. (S-1) t (S-1) = A-1

Maximização de formas quadráticas
Na estatística multivariada e em outras áreas aplicadas, é muitas
vezes necessária a maximização de uma forma quadrática. Devido à forma
quadrática Q = x t Ax poder ser feita arbitrariamente grande tomando-se os valores
dos elementos de x grandes, é necessário maximizar Q condicionada a alguma
restrição no comprimento de x . Uma conveniente alternativa é tomar uma solução
normalizada de x , ou seja, uma solução tal que x tenha comprimento unitário.
Então a maximização da forma quadrática Q pode ser transformada na
maximização da razão:
x t Ax
λ=
xtx
para toda matriz A simétrica real. Para a maximização deve-se tomar a derivada
em relação a x e igualar a zero, resolvendo o sistema obtido, como demonstrado
a seguir.
∂Q ∂x t Ax ∂x t x
= = 2Ax e = 2x
∂x ∂x ∂x
usando a regra do quociente:

∂λ 2Ax(x t x) − 2(x t Ax)x 2 ⎛ x t Ax ⎞

= = t ⎜A − t Ι⎟x
∂x (x t x) 2 x x⎝ xx ⎠
igualando a zero essa derivada e dividindo-a por 2 ( x t x ) , é obtido o sistema
homogêneo de equações:
⎛ x t Ax ⎞
⎜ A − Ι⎟x = 0
⎝ xtx ⎠
x t Ax
Desde que = λ , então para um ponto estacionário qualquer i,
xtx
( A − λi Ι ) x i = 0 (2.48)
Para que o sistema de equações em (2.48) não possua apenas a
solução trivial, A-λiΙ não pode ter posto completo. Isto significa que seu
determinante deve ser zero:
|A-λiΙ| = 0 (2.49)
A equação polinomial em λ, resultado da expansão dos termos a
esquerda na equação (2.49) através do uso da definição (2.9), é chamada de
equação característica de A. A i-ésima raiz da equação (λi) é denominada de valor

característico de A; x i é denominado vetor característico de A associado a λi.
Outras terminologias podem ser empregadas, tais como, autovalores e
autovetores, ou, valores e vetores próprios, ou ainda, raiz e vetor latente.
Pares de formas quadráticas
É de fundamental importância na análise multivariada o problema de
maximizar razão entre duas formas quadráticas:
x t Ax
λ= B ≠0
x t Bx
em que B é uma matriz pd. O máximo é dado da mesma forma que apresentado
anteriormente, a partir da derivada em relação a x , igualando-a a zero, como
apresentado a seguir:
∂λ x t Bx x t Ax
× = Ax − t Bx = (A − λB)x = 0 (2.50)
∂x 2 x Bx
O sistema homogêneo de equações (2.50) terá solução não trivial
( x ≠ 0 ), se e somente se,
A − λB = 0 (2.51)
Os autovalores (λ) de A em relação a B são denominados de valores
próprios, raízes características, e os autovetores de vetores característicos ou
próprios. Desde que B seja pd, é possível fatorá-la através do fator de Cholesky,
por:
B = SBSBt
Então definindo-se z = SBt x e usando as propriedades do fator de
Cholesky tem-se que x = ( SB−1 ) z . Agora, se (2.50) for pré multiplicada por SB−1 e
t
x = ( SB−1 ) z for substituído na expressão, têm-se:

t
⎡⎣SB−1A − λS−B1B⎤⎦ ( S−B1 ) z = 0

t
(2.52)
⎡S−1A ( S −1 t
) − λΙ ⎤⎥ z = 0
⎢⎣ B B
⎦
desde que S−B1B ( S−B1 ) = Ι

t
A solução de (2.52) é a mesma da obtida pela maximização de uma
forma quadrática, apresentada em (2.48), exceto que x = ( SB−1 ) Z deve ser

t
recuperado, uma vez que Z é obtido. Os autovalores, no entanto, são invariantes
à transformação não-singular realizada.

Cálculo prático dos autovalores e autovetores
Será apresentado aqui o método denominado “Power method”
derivado por Hotelling (1936). Esse método é apropriado para problemas em que
somente r autovalores de maior magnitude e os seus respectivos autovetores são
necessários (r≤n). O método é iterativo, dado um vetor inicial arbitrário v (0) . O
vetor do estágio i será representado por v (i) e o da próxima iteração será obtido
por:
v (i +1) = Av (i)
Usualmente um vetor de elementos iguais a ±1 é usado como vetor
inicial. Os vetores característicos devem ser normalizados em cada estágio, para
que o critério de convergência seja verificado. Quando uma aproximação desejada
para λ1 e x1 sejam alcançados, o segundo autovalor e autovetor devem ser
encontrados na matriz A2, definida por:
A 2 = A − λ1 x1 x1t (2.53)
E assim o processo é repetido até que um número r≤n de pares de
autovalores e autovetores sejam obtidos.

Exemplo 2.7
aplicar o “power method” e determinar os autovalores e autovetores da matriz
apresentada a seguir:
⎡4 2⎤
A=⎢ ⎥
⎣2 1⎦
1. Determinação de λ1 e x1
⎡1⎤
O vetor v (0) será considerado como: v (0) = ⎢ ⎥
⎣1⎦
Na avaliação da convergência, o autovetor em cada estágio será
padronizado através da divisão pelo elemento de maior valor do mesmo.
(1) (0) ⎡ 4 2 ⎤ ⎡1⎤ ⎡ 6 ⎤

(i) v = Av =⎢ ⎥×⎢ ⎥ = ⎢ ⎥
⎣ 2 1 ⎦ ⎣1⎦ ⎣ 3⎦
Normalizando v (1) :
(1) ⎡ 66 ⎤ ⎡1 ⎤
v = ⎢3⎥ = ⎢1⎥
⎣6⎦ ⎣2⎦
Para avaliar a convergência, os vetores v (0) e v (1) devem ser comparados. Será
considerado, convergente se todos os elementos de v (1) forem semelhantes aos
elementos correspondentes de v (0) , para uma precisão pré estipulada, ou seja, de
1x10-8. Neste caso, os vetores diferem consideravelmente.
⎡ 4 2 ⎤ ⎡1 ⎤ ⎡ 5 ⎤
(ii) v (2) = Av (1) = ⎢ ⎥ × ⎢ 1 ⎥ = ⎢ ⎥ , normalizando
⎣ 2 1 ⎦ ⎣ 2 ⎦ ⎣ 2.5⎦
⎡1 ⎤
v (2) = ⎢ 1 ⎥
⎣2⎦
Comparando-se v (2) com v (1) , padronizados, verifica-se que são idênticos,
indicando que o critério de convergência foi alcançado.
O autovetor x1 é obtido pela normalização de v (2) e o primeiro
autovalor λ1, por λ1 = x1t A x1 .
V (2) ⎡ 0,8944 ⎤
x = =⎢ ⎥
1
V (2)t V (2) ⎣0, 4472 ⎦
⎡ 0,8944 ⎤
λ1 = x1t A x1 = [ 4, 4721 2, 2361] × ⎢ ⎥=5
⎣0, 4472 ⎦
2. determinação de λ2 e x 2
⎡4 2⎤ ⎡ 0,8944 ⎤ ⎡0 0⎤
A 2 = A − λ1x1 x1t = ⎢ ⎥ − 5× ⎢ ⎥ × [ 0,8944 0, 4472] = ⎢ ⎥
⎣2 1⎦ ⎣ 0, 4472 ⎦ ⎣0 0⎦
Portanto os demais autovalores e autovetores de A são nulos (λ2=0 e
x 2 = 0 ).
Os autovalores da matriz da forma quadrática podem servir para
classificação das mesmas. Demonstra-se que se todos os autovalores da matriz
A, dado Q = x t Ax , forem positivos e maiores que zero a matriz A é positiva
definida e a forma quadrática é positiva. Se A possui autovalores positivos e nulos
a matriz será psd, e a forma quadrática poderá ser nula para um vetor x ≠ 0 .
Os resultados apresentados até agora, a respeito de formas
quadráticas, são conseqüências da expansão de matrizes simétricas em um
processo denominado de decomposição espectral. A decomposição espectral de
uma matriz A (nxn), simétrica, é dada por:
A = λ1e1e1t + λ 2 e 2 e 2t + + λ n e n ent (2.54)
em que λi (i=1, 2, ..., n) são os autovalores de A e ei são os autovetores
normalizados associados.
Exemplo 2.8
Considere a matriz simétrica:
⎡4 2⎤
A=⎢ ⎥
⎣2 2⎦
com os autovalores e autovetores normalizados, apresentados a seguir:

⎡ 0,8507 ⎤ ⎡ −0,5257 ⎤
λ1 = 5, 2361 e1 = ⎢ ⎥ λ 2 = 0, 7639 e 2 = ⎢ ⎥
⎣ 0,5257 ⎦ ⎣ 0,8507 ⎦
Obtenha a decomposição espectral de A.
⎡ 3, 7893 2,3417 ⎤
λ1e1e1t = ⎢ ⎥
⎣ 2,3417 1, 4471 ⎦
⎡ 0, 2111 −0,3416 ⎤
λ 2 e 2 e 2t = ⎢ ⎥
⎣ −0,3416 0,5528 ⎦
⎡ 4 2 ⎤ ⎡ 3, 7893 2,3417 ⎤ ⎡ 0, 2111 −0,3416 ⎤

⎢ 2 2 ⎥ = ⎢ 2,3417 1, 4471 ⎥ + ⎢ −0,3416 0,5528 ⎥
⎣ ⎦ ⎣ ⎦ ⎣ ⎦
A expressão da distância como raiz quadrada de uma forma
quadrática positiva definida permite que se obtenha a interpretação geométrica
baseada nos autovalores e autovetores de uma matriz. Dada uma matriz A, pxp, e
suponha que p=2, os pontos x t =[x1, x2] de distância constante c da origem
satisfazem a:
x t Ax = a11X12 + a 22 X 22 + 2a12 X1 X 2 = c 2
pela decomposição espectral de A, como no exemplo 2.8, tem-se:

A = λ1e1e1t + λ 2 e 2 e 2t
∴ x t Ax = λ1 ( X t e1 ) + λ 2 ( X t e 2 )
2 2
Fazendo yi = x t ei , obtém-se: c 2 = λ1 y12 + λ 2 y 22 que é uma elipse, pois λi>0. Verifica-
( )
2
se que x = cλ1− 2 e1 satisfaz x t Ax = λ1 cλ1− 2 e1t e1 = c2 e x = cλ −2 2 e 2 fornece a
1 1 1
apropriada distância na direção de e 2 . Portanto, os pontos de distância c
pertencem a uma elipse cujos eixos são dados pelos autovetores de A com
tamanhos proporcionais ao recíproco da raiz quadrada dos autovalores. A
constante de proporcionalidade é c. A situação é ilustrada na Figura 2.1. Se p>2
os pontos pertencem a uma hiperelipsóide de distância c constante da origem,
cujos eixos são dados pelos autovetores de A. O semi eixo na direção i tem
comprimento de c
.
λi
x
2
e
2
e
1
-0,5
cλ
1
0,5
cλ x
2 1
Figura 2.1. Pontos de distância c constante da origem (λ1 < λ2).

Matriz raiz quadrada
A partir da decomposição espectral, é possível definir uma categoria
de matriz, em função dos autovalores e autovetores, denominada de matriz raiz
quadrada.
Sendo A (nxn), uma matriz com decomposição espectral dada por
n
A = ∑ λ i ei eit , pode-se construir uma matriz P, cujas colunas são os autovetores
i =1
normalizados de A, tal que, P = [ e1 e 2 e n ] , e uma matriz Λ diagonal, como os
autovalores de A, tal que, Λ=diag[λi]. É fácil verificar que:
A = P ΛP t
n
⎛1 ⎞ (2.55)
A −1 = PΛ −1P t = ∑ ⎜ ei eit ⎟
i =1 ⎝ λ i ⎠
Definindo, Λ1/2 como uma matriz diagonal com λ i como elemento
da i-ésima diagonal, então, a matriz a seguir é definida como matriz raiz quadrada
de A e é simbolizada por A1/2.
n
A = ∑ λ i ei eit = PΛ 2 P t
1 1
2
(2.56)
i =1
As suas propriedades são:
1. (A1/2)t= A1/2 (A1/2 é simétrica)
2. A1/2A1/2=A
( )
−1 n
=∑ ei eit = PΛ − 2 P t
1 1
3. A 2 1
λi
i =1
4. A1/2A-1/2=A-1/2A1/2=Ι e A-1/2A-1/2=A-1
em que A-1/2 = (A1/2)-1
Exemplo 2.9
Obtenha a matriz raiz quadrada e a inversa da matriz utilizada no exemplo (2.8),
usando as equações (2.55) e (2.56):
⎡4 2⎤
A=⎢ ⎥
⎣2 2⎦
com autovalores e autovetores normalizados, apresentados a seguir:

⎡ 0,8507 ⎤ ⎡ −0,5257 ⎤
λ1 = 5, 2361 e1 = ⎢ ⎥ λ 2 = 0, 7639 e 2 = ⎢ ⎥
⎣ 0,5257 ⎦ ⎣ 0,8507 ⎦
As matrizes P e Λ foram obtidas pelos autovalores e autovetores, e
estão apresentadas a seguir:
⎡ 0,8507 −0,5257 ⎤ ⎡5, 2361 0 ⎤

P=⎢ ⎥ Λ=⎢
⎣0,5257 0,8507 ⎦ ⎣ 0 0, 7639 ⎥⎦
⎡ 0,8507 −0,5257 ⎤ ⎡ 1 5,2361 0 ⎤ ⎡ 0,8507 0,5257 ⎤ ⎡ 1 2 − 1 2 ⎤

A −1 = PΛ −1P t = ⎢ ⎥×⎢ ⎥×⎢ =
⎣0,5257 0,8507 ⎦ ⎣ 0
1
0,7639 ⎦ ⎣ −0,5257 0,8507 ⎥⎦ ⎢⎣ − 1 2 1 ⎥⎦
A 2 = PΛ 2 P t =
1 1
⎡ 0,8507 −0,5257 ⎤ ⎡ 5, 2361 0 ⎤ ⎡ 0,8507 0,5257 ⎤ ⎡ 1,8975 0, 6324 ⎤

=⎢ ⎥×⎢ ⎥×⎢ ⎥=⎢ ⎥
⎣0,5257 0,8507 ⎦ ⎢⎣ 0 0, 7639 ⎥⎦ ⎣ −0,5257 0,8507 ⎦ ⎣0, 6324 1, 2649 ⎦
A seguir, um programa SAS é apresentado contendo os principais
comandos para a realização das várias operações matriciais e vetoriais descritas
nesse capítulo.
/* Capitulo 2 de multivariada - principais operações matriciais descritas */

/* por meio do proc iml. Rotinas de inversão, multiplicação, transposição */
options nodate nonumber ps=1000 ls=76;
proc iml;
/* elementos de algebra vetorial*/
x1={1,1,1,1};
x2={1,1,0,0};
x3={0,0,1,1};
print x1 x2 x3;
y=4*x1;
z=x1+x2;
print y z;
yz=y` * z;
yy=y`*y; /*distancia quadratica*/
dy=sqrt(yy); /* distancia da origem*/
zz=z`*z;
dz=sqrt(zz);
costeta=yz/(dy*dz);
print yz yy zz dy dz costeta;
/* elementos de algebra matricial*/
x=x1||x2||x3;/* concatenando vetores para obter uma matriz*/
xpx=x`*x;
xx=xpx#xpx; /* produto de xpx elemento a elemento por xpx*/
print x xpx xx;
/*calculo da base ortonormal de Gramshimidt - a matriz p contém as colunas ortonormalizadas de X*/
Call Gsorth(p, t, lindep, X);
print lindep p t;
/* calculo de autovalores e autovetores */
pu=eigvec(xpx); /* pu matriz de autovetores */
au=eigval(xpx); /* au vetor de autovalores */
print pu; print au;
a={4 2,2 2}; /* matriz A*/
ainv=inv(a); /* inversa de A*/
deta=det(a); /* determinante de A*/
print a ainv deta;
c={4 2 2,2 2 0, 2 0 2};
detc=det(c);
print c detc;
/* fator de Cholesky A=S`S em que S e uma matriz triangular superior */
/* S e a transposta do fator de Cholesky */
Sc=root(c);
/* matriz c e singular, porem o SAS calcula assim mesmo o fator de Cholesky */
/* pode-se observar que a ultima linha, da matriz Sc e nula devido a isso*/
Sa=root(a);
b={4 2 0,2 2 1,0 1 2};
print b;
sb=root(b);
print Sc Sa sb;
/*maximização de pares de formas quadráticas */
/* resolver (D - lG)e=0 */
D={4 2,2 2};
G={7 1,1 4};
print D G;
Sg=root(G); /* transposta do fator de Cholesky de G */
Sginv=inv(Sg); /* inversa da transposta do fator de Cholesky de G */
print Sg Sginv;
II=Sginv`*G*Sginv; /* mostrar que é igual a identidade */
print ii;
H=Sginv`*D*Sginv; /* operar D, e em seguida extrair auto valores e vetores */
print H; /* D transformada */
zh=eigvec(H); /* zh matriz de autovetores */
auh=eigval(H); /* auh vetor de autovalores */
xh=Sginv*zh; /* matriz de autovetores recuperados */
teste=xh`*g*xh;
print teste;/*mostrar que resulta na identidade*/
print xh;
print auh;
/* obtencao de matriz raiz quadrada - exemplificar com a matriz D */
aud=eigval(D); /* autovalores de D*/
lamb=diag(aud); /* diagonalizando aud e resultado em lamb */
print lamb;
lambS=root(lamb); /* achando a raiz quadrada de lamb */
avd=eigvec(D); /* autovetores de D em avd */
Droot=avd*lambS*avd`;
/* usando a definição para encontrar a matriz raiz quadrada de D */
print Droot;
DD=avd*lamb*avd`; /* checando propriedades */
print DD; /* deve ser igual a D */
quit;
2.4. Exercícios
2.1. Sejam os vetores x ’=[3, 2, 4] e y ' =[-1, 2, 2]
(a) plote os dois vetores
(b) encontre (i) o comprimento de x , (ii) o ângulo entre x e y , e (iii) a distância
entre x e y .
(c) plote os vetores x − x.1 e y − y.1 ( x = 3 e y = 1).

2.2. Dada a matriz
⎡1 1 0 0⎤
⎢1 1 0 0 ⎥⎥
⎢
X = ⎢1 0 1 0⎥
⎢ ⎥
⎢1 0 1 0⎥
⎢⎣1 0 0 1 ⎥⎦
(a) Ortonormalize as colunas de X, usando a construção de Gram-Schimidt.
(b) Determine o vetor (coluna de x) linearmente dependente.
(c) Determine o posto coluna de X, a partir da construção de Gram-Schimidt
realizada em (a).
2.3. Dadas as matrizes
⎡4 2 2⎤ ⎡6 4 2⎤
A = ⎢⎢ 2 2 0 ⎥⎥ B = ⎢⎢ 4 4 0 ⎥⎥
⎢⎣ 2 0 4 ⎥⎦ ⎢⎣ 2 0 6 ⎥⎦
(a) Obtenha a inversa de A e de B, usando o algoritmo de Gauss-Jordan.
(b) Verifique usando o processo de Gauss-Jordan que (AB)-1=B-1A-1.
2.4. Verifique se a matriz

⎡ 0,8507 −0,5257 ⎤
P=⎢ ⎥
⎣0,5257 0,8507 ⎦
é uma matriz ortogonal.
2.5. Seja
⎡ 8 −1⎤
A=⎢ ⎥
⎣ −1 2 ⎦
(a) Calcule o determinante de A.
(b) Com base em (a) a matriz A pode ser considerada positiva definida? Porque?
(c) Obtenha o fator de Cholesky, e confirme a resposta dada em (b).
(d) Determine os autovalores e autovetores de A.
(e) Obtenha a decomposição espectral de A.
(f) Encontre A-1.

(g) Encontre os autovalores e autovetores de A-1. Verifique que relação tem como
os valores encontrados em (d).
2.6. Considere as matrizes
⎡ 4 4, 001⎤ ⎡ 4 4, 001 ⎤
A=⎢ ⎥ B=⎢ ⎥
⎣ 4, 001 4, 002 ⎦ ⎣ 4, 001 4, 002001⎦
As matrizes são idênticas, exceto por pequenas diferenças no
elemento, a22 e b22 devida a arredondamentos. Mostre que A-1 = -3B-1 (pequenas
mudanças, talvez devido a arredondamentos, podem causar substanciais
diferenças na inversa).
2.7. Verifique se a forma quadrática
Q = 2x12 − 2x1 x 2 + 4x 22
é positiva definida.
Sugestão: Verificar se Q = x t Ax é positiva, pode ser feita verificando se A é pd.
2.8. Dada as matrizes

⎡4 1⎤ ⎡ 2 −1⎤
A=⎢ ⎥ B=⎢ ⎥
⎣1 2⎦ ⎣ −1 1 ⎦
(a) determine os autovalores e autovetores que maximizam a razão
x t Ax
λ= t B ≠0
x Bx
Obs. O que é equivalente a resolver o sistema determinantal dado por (2.51)
A − λB = 0 .
(b) Determine a matriz raiz quadrada de A e de B.
2.9. Dada a matriz de covariância amostral (S)
⎡ 25 −2 ⎤
S=⎢
⎣ −2 4 ⎥⎦
(a) Determine R, dada D1/2, definida por:

⎡ S11 0 0 ⎤
⎢ ⎥
⎢ 0 S22 0 ⎥
D 2 =⎢
1
⎥
⎢ ⎥
⎢ 0 0 Spp ⎥⎦
⎣
( ) S (D )
−1 −1
Sendo R = D
1 1
2 2
(b) Verifique a relação
S= D( ) R (D )
1
2
1
2
||[ 3
Amostragem multivariada
]||
3.1. Introdução
Com os conceitos de álgebra vetorial introduzidos no capítulo 2,
pode-se aprofundar na interpretação geométrica das estatísticas descritivas X , S

e R. A maioria das explicações usam a representação das colunas de X, como p
pontos no espaço n dimensional. Será introduzida neste instante a pressuposição
de que as observações constituem uma amostra aleatória. De uma forma
simplificada, amostra aleatória significa (i) que as medidas tomadas em diferentes
itens (unidades amostrais ou experimentais) são não relacionadas uma com as
outras, e (ii) que a distribuição conjunta das p variáveis permanece a mesma para
todos os itens. Essa estrutura de amostra aleatória é que justifica uma escolha
particular de distância e dita a geometria para a representação n dimensional dos
dados. Finalmente, quando os dados podem ser tratados como uma amostra
aleatória à inferência estatística terá por base um sólido fundamento.

3.2. Geometria amostral
Uma observação multivariada é uma coleção de medidas em p
variáveis tomadas na mesma unidade amostral ou experimental. No capítulo 1,
item 1.3, as n observações obtidas foram dispostas em um arranjo (Matriz) X por,
⎡ x11 x12 " x1k " x1 p ⎤

⎢x x22 " x2 k " x2 p ⎥⎥
⎢ 21
⎢ # # # # # # ⎥
X =⎢ ⎥
⎢ x j1 x j 2 " x jk " x jp ⎥
⎢ # # # # % # ⎥
⎢ ⎥
⎣⎢ xn1 xn 2 " xnk " xnp ⎦⎥
em que cada linha de X representa uma observação multivariada. Desde que o
conjunto todo de mensurações é muitas vezes uma particular realização de
variáveis aleatórias, diz-se que os dados representam uma amostra de tamanho n
de uma população p variada.
Os dados podem ser plotados por um gráfico com p coordenadas. As
colunas de X representam n pontos no espaço p dimensional. Esse tipo de gráfico
fornece informações de locação dos pontos e de variabilidade. Se os pontos
pertencem a uma esfera, o vetor de médias amostrais, X , é o centro de balanço

ou de massa. Se a variabilidade ocorre em mais de uma direção, pode-se detectar
pela matriz de covariância, S. Uma medida numérica única de variabilidade é
fornecida pelo determinante da matriz de covariância.

Exemplo 3.1
Calcule o vetor média X para a matriz X apresentada a seguir. Plote os n = 3

pontos no espaço p=2 (bidimensional) e localize X no diagrama resultante.

⎡ 2 1⎤
X = ⎢⎢ −3 0 ⎥⎥
⎢⎣ −2 2 ⎥⎦
A média amostral é dada por:
⎡ ⎡ 2 + ( −3) + ( −2 ) ⎦⎤ 3⎤ ⎡ −1⎤
X = ⎢⎣ ⎥=⎢ ⎥
⎣⎢ (1 + 0 + 2 ) 3⎦⎥ ⎣ 1⎦
O primeiro ponto é dado por X1t = [ 2 1] , o segundo por X 2t = [ −3 0] , e

o terceiro por X 3t = [ −2 2] . A Figura 3.1 mostra os pontos juntamente com X ,

centro de massa ou de balanço, obtidos a partir da matriz X.
3 2
x3
2
_
x x1
1
x2
0 1
-4 -3 -2 -1 0 1 2 3 4
-1
-2
-3
Figura 3.1. Diagrama com n=3 pontos no espaço bidimensional (p=2) mostrando o
centro de massa, X .

Uma representação alternativa é obtida através da consideração de p
pontos no espaço n dimensional. Os elementos das linhas de X são utilizados
como coordenadas.
⎡ x11 x12 " x1k " x1 p ⎤

⎢x x22 " x2 k " x2 p ⎥⎥
⎢ 21
⎢ # # # # # # ⎥
X =⎢ ⎥
⎢ x j1 x j 2 " x jk " x jp ⎥
⎢ # # # # % # ⎥
⎢ ⎥
⎢⎣ xn1 xn 2 " xnk " xnp ⎥⎦
= ⎡⎣ y1 y2 " yk " y p ⎤⎦

As coordenadas do k-ésimo ponto y kt = [ x1k x 2k " x nk ] é

determinada pela n-upla de todas as medidas da k-ésima variável. É conveniente
representar y kt como vetor ao invés de pontos.

Exemplo 3.2
Plote os dados da matriz X, com p=2 vetores no espaço tridimensional (n=3)
⎡ 2 1⎤
X = ⎢⎢ −3 0 ⎥⎥
⎢⎣ −3 2 ⎥⎦
y1t = [ 2 −3 −2] e y 2t = [1 0 2]

Y2
Y1
Figura 3.2. Diagrama da matriz de dados X como p=2 vetores no espaço
tridimensional.
Muita das expressões algébricas que serão encontradas na análise
multivariada, podem ser relacionadas às noções geométricas de ângulos,
comprimento (norma) e volumes. Isto é importante, pois representações
geométricas facilitam a compreensão e conduz a novas visões. Infelizmente, o ser
humano está limitado a visualizar objetos no espaço tridimensional, e as
representações da matriz X não serão úteis se n>3. No entanto, os
relacionamentos geométricos e os conceitos estatísticos associados, descritos
para o espaço tridimensional ou bidimensional, permanecem válidos para
dimensões maiores.
É possível, em função do exposto, prover uma interpretação
geométrica ao processo de encontrar a média amostral. O vetor 1 (nx1) será

definido por 1t =[1 1 … 1]. O vetor 1 forma um ângulo igual com cada um dos

eixos coordenados, de tal forma que (1 n )1 tenha comprimento unitário e
mesmo ângulo de direção. Considerando o vetor y kt = [ x1k x 2k " x nk ] , cuja

projeção em 1 ( )
n 1 é:

⎛ 1 ⎞ 1
∑X jk
t
y ⎜
k 1⎟ 1=
⎝ n ⎠ n
j=1
n
1
( )
1 = y kt 1 1 = X k 1
n
Pois, a projeção geral de X em Y é dada por:

Xt Y
Proj ( X em Y ) = Y
Y

Dessa forma X k = ( )
1 t
y k 1 corresponde a um múltiplo de 1, obtido a
n
partir da projeção de y kt em um vetor 1 , de acordo com o esquema a seguir.

y k e k = y k − X k 1

1 X k 1

em que, y k − X k 1 é perpendicular a X k 1 . Observe, também, que e k = y k − X k 1 é

definido como desvio da k-ésima variável em relação a sua média amostral, e
consiste nos elementos apresentados a seguir:
⎡ x1k − X k ⎤
⎢ ⎥
⎢ x 2k − X k ⎥
ek = yk − X k 1 =
⎢ # ⎥
⎢ ⎥
⎢⎣ x nk − X k ⎥⎦
A decomposição de yi , nos vetores média e desvio da média está

apresentada esquematicamente na Figura 3.3 para p=2 e n=3.
x3
1
_
_ x 11
x 21 e1
e2 Y1
Y2
x1
x2
Figura 3.3. Decomposição de y k em componentes de média X k 1 e componentes

de desvio e k = y k − X k 1 .

Exemplo 3.3
Faça a decomposição de y k em componentes de média X k 1 e componentes de

desvio e k = y k − X k 1 , k=1, 2, para os dados do exemplo 3.2.

⎡ 2 1⎤
X = ⎢⎢ −3 0 ⎥⎥ y1t = [ 2 −3 −2] y 2t = [1 0 2]
⎢⎣ −3 2 ⎥⎦
2 + (−3) + (−2) 1+ 0 + 2
X1 = = −1 X2 = =1
3 3
⎡1⎤ ⎡ −1⎤ ⎡1⎤ ⎡1⎤

X11 = −1 ⎢⎢1⎥⎥ = ⎢⎢ −1⎥⎥ X 2 1 = 1 ⎢⎢1⎥⎥ = ⎢⎢1⎥⎥

⎢⎣1⎥⎦ ⎢⎣ −1⎥⎦ ⎢⎣1⎥⎦ ⎢⎣1⎥⎦
⎡ 2 ⎤ ⎡ −1⎤ ⎡ 3 ⎤
e1 = y1 − X11 = ⎢⎢ −3⎥⎥ − ⎢⎢ −1⎥⎥ = ⎢⎢ −2 ⎥⎥

⎢⎣ −2 ⎥⎦ ⎢⎣ −1⎥⎦ ⎢⎣ −1⎥⎦
⎡1 ⎤ ⎡1⎤ ⎡ 0 ⎤
e 2 = y 2 − X 2 1 = ⎢⎢0 ⎥⎥ − ⎢⎢1⎥⎥ = ⎢⎢ −1⎥⎥

⎢⎣1 ⎥⎦ ⎢⎣1⎥⎦ ⎢⎣ 1 ⎥⎦
Observa-se que: X11 e e1 , X 2 1 e e 2 , são perpendiculares.

⎡ 3⎤
( X 1 ) ( )
y1 − X11 = [ −1 −1 −1] × ⎢⎢ −2 ⎥⎥ = −3 + 2 + 1 = 0
t
1

⎢⎣ −1⎥⎦
A decomposição é:
⎡ 2 ⎤ ⎡ −1⎤ ⎡ 3 ⎤ ⎡1 ⎤ ⎡1⎤ ⎡ 0 ⎤
y1 = ⎢⎢ −3⎥⎥ = ⎢⎢−1⎥⎥ + ⎢⎢−2⎥⎥ ; e y 2 = ⎢⎢0 ⎥⎥ = ⎢⎢1⎥⎥ + ⎢⎢−1⎥⎥ .
⎢⎣ 2 ⎥⎦ ⎢⎣−1⎥⎦ ⎢⎣ −1⎥⎦ ⎢⎣2⎥⎦ ⎢⎣1⎥⎦ ⎢⎣ 1 ⎥⎦
Os vetores de resíduos podem ser plotados a partir da origem, como
apresentado na Figura 3.4, para os resíduos do exemplo 3.3.
X3
e2
e1
X1
X2
Figura 3.4. Vetores de desvios ei do exemplo 3.3.

Considere o comprimento ao quadrado dos vetores de desvios,
obtidos por (2.2):
n
| e k |2= e k . e k = ∑ ( x jk − X k ) 2 (3.1)
j =1
Observa-se por (3.1) que o comprimento ao quadrado dos vetores de
desvios é proporcional à variância da i-ésima variável. Equivalentemente, o

comprimento é proporcional ao desvio padrão. Vetores longos representam
maiores variabilidades que os vetores mais curtos.
Para dois vetores desvios e k e eA :

n
ekt eA = ∑ ( x jk − X k )( x jA − X A ) (3.2)
j =1
De (2.3) e denotando o ângulo θik como o ângulo formado pelos
vetores e k e e A , tem-se:

e kt eA
Cos ( θkA ) = (3.3)
e kt e k × eAt eA

Usando (3.1) e (3.2) é fácil verificar que (3.3) é:
SkA
rkA = Cos ( θkA ) = (3.4)
Skk SAA
O coseno do ângulo formado entre dois vetores desvios é igual ao
coeficiente de correlação amostral. Portanto, se os dois vetores de desvios
possuem a mesma orientação, o coeficiente de correlação será próximo de 1. Se
os dois vetores estão próximos de serem perpendiculares, a correlação amostral
será próxima de zero. Se os dois vetores forem orientados em direções opostas, o
coeficiente de correlação amostral será próximo de -1. Os conceitos de

comprimento e ângulos permitem que se façam interpretações das estatísticas
amostrais geometricamente, e auxiliam na compreensão dos seus significados.
3.3. Amostras aleatórias e esperanças do vetor de

média e da matriz de covariância amostral.
Com a finalidade de estudar a variabilidade amostral de estatísticas
como X e S com a finalidade de se fazer inferências, é necessário fazer

pressuposições a respeito das variáveis cujos valores observados constituem um
conjunto de dados X.
Supondo que os dados não foram ainda observados, mas
pretende-se obter n mensurações em p variáveis. Antes de serem mensurados,
os valores não podem em geral ser preditos exatamente. Conseqüentemente,
estes são tratados como variáveis aleatórias. Neste contexto, os elementos (j, k)
da matriz de dados representam realizações de uma variável aleatória, Xjk. Cada
conjunto de medidas X j em p variáveis é um vetor aleatório.

⎡ x11 x12 " x1k " x1 p ⎤ ⎡ X 1t ⎤

⎢x
⎢ 21 x22 " x2 k " x2 p ⎥⎥ ⎢⎢ X 2t ⎥⎥

⎢ # # # # # # ⎥ ⎢ #⎥
X =⎢ ⎥=⎢ ⎥ (3.5)
⎢ x j1 xj2 " x jk " x jp ⎥ ⎢ X tj ⎥
⎢ #
# # # % # ⎥ ⎢ #⎥
⎢ ⎥ ⎢ ⎥
⎣⎢ xn1 xn 2 " xnk " xnp ⎦⎥ ⎣⎢ X nt ⎦⎥

Uma amostra aleatória pode ser definida por: “Se o vetor coluna
X1 , X 2 , ..., X n em (3.5), representa independentes observações com distribuição

conjunta com densidade f( x )=f(x1, x2, ..., xp), então X1 , X 2 , ..., X n é uma amostra

aleatória. Se a função conjunta de densidade é igual ao produto das marginais
f( x 1) . f( x 2) . ..., . f( x n), sendo f( x j)=f(xj1, xj2, ..., xjp), então, X1 , X 2 , ..., X n é uma

amostra aleatória.”
Algumas conclusões podem ser obtidas da distribuição de X e S

sem pressuposições sobre a forma da distribuição conjunta das variáveis. Dessa
forma, considere X1 , X 2 , ..., X n como sendo uma amostra aleatória de uma

distribuição conjunta com vetor média µ e matriz de covariância Σ. Então, X é um

estimador não viciado de µ e sua matriz de covariância é 1
n Σ . Isto é,

E( X ) = µ (vetor média populacional)

Cov( X ) = 1
n Σ (Matriz de covariância populacional dividida pelo tamanho da

amostra).
PROVA:
X =( X 1+ X 2+...+ X n)/n

E(X) = E ( n1 X1 + n1 X 2 + " + n1 X n )

= E ( n1 X1 ) + E ( n1 X 2 ) + " + E ( n1 X n )

1 1
= ⎡ nE ( X j ) ⎤ = × n × µ
n⎣ ⎦ n
∴ E(X) = µ

Para provar o valor da covariância, pode-se observar que:
t
⎛1 n ⎞ ⎛1 n ⎞
( ) ( ) ∑∑ ( X
n n
1
)( )
t
( X -µ ) ( X -µ ) = ⎜ ∑ Xj − µ
t
⎟ × ⎜ ∑ XA − µ ⎟ = 2 j − µ XA − µ
⎝ n j=1 ⎠ ⎝ n A =1 ⎠ n j=1 A =1
Então,
( )( ) ∑∑ E ( X )( )
n n
1
Cov ( X ) = E X − µ X − µ = 2
t t
j − µ XA − µ
n j=1 A =1
( )( )
t
Sendo j≠ A e considerando que E X j − µ X A − µ é igual a zero,

devido a covariância entre os elementos independentes X j e X A ser nula, então,

∑ E ( X
n
1
Cov ( X ) = 2 )( )
t
j −µ Xj −µ
n j=1
( )( )
t
Desde que Σ= E X j − µ X j − µ é a covariância populacional comum

dos componentes X j , têm-se:

∑ E ( X )( )
n
1 1
Cov ( X ) = 2
t
j − µ X j − µ = 2 (Σ + Σ + " + Σ) =
n j=1 n
1 1
= 2
(nΣ) = Σ
n n
3.4. Variância Generalizada
Com uma única variável, a variância da amostra é usada para
descrever a variação nas mensurações desta variável. Quando p variáveis são
observadas em cada unidade da amostra ou do experimento, a variação é descrita
pela matriz de variância e covariância amostral.
⎡ S 11 S 12 " S 1p ⎤
⎢S S 22 " S 2p ⎥
S=⎢ ⎥
21
⎢ # # % # ⎥
⎢S Sp2 " S pp ⎥⎦
⎣ p1
A matriz de covariância amostral contém p variâncias e ½p(p-1)
covariâncias, potencialmente diferentes. Algumas vezes, no entanto, deseja-se
expressar a variação por um único valor numérico. Uma escolha deste valor é o
determinante de S, o qual reduz à variância amostral usual para o caso de uma

única variável (p=1). Este determinante é denominado de variância amostral
generalizada.
Variância amostral Generalizada=|S| (3.6)
Exemplo 3.4
O peso de espiga PE (X1), e o número de espigas NE (X2), foi avaliado em 28
variedades de milho em Sete Lagoas, MG. A matriz de covariância amostral S,
obtida dos dados é:
⎡ 2,905 9,096 ⎤
S=⎢ ⎥
⎣ 9,096 90,817⎦
A variância generalizada neste caso é:
Variância amostral Generalizada = |S| = 2,905x90,817 - 9,0962 = 181,0862
A variância amostral generalizada se constitui numa forma de
escrever toda a informação de todas as variâncias e covariâncias como um único
valor numérico. Obviamente, quando p>1 é possível que algumas informações
amostrais sejam perdidas no processo. A interpretação geométrica, no entanto,
poderá mostrar a força e as fraquezas desta estatística descritiva.

Área = (n − 1) S11S22 (1 − r122 ) (3.7)
Por outro lado,
S11 S21 S11 S11 S22 r12

S= =
S12 S22 S11 S22 r12 S22
(3.8)
= S11 S22 − S11 S22 r12
2
= S11 S22 (1 − r12
2
)
Se (3.7) e (3.8) forem comparados, pode-se observar que:
|S|=(Área)2/(n-1)2
Esta expressão pode ser generalizada para p vetores desvios por
indução:
Variância amostral Generalizada = |S| = (Volume)2.(n-1)-p (3.9)
A equação (3.9) mostra que a variância amostral é proporcional ao
quadrado do volume gerado pelos p vetores desvios. Na Figura 3.5 (a) e (b)
mostra-se regiões trapezoidais geradas com p=3 vetores resíduos
correspondentes a “grandes” e “pequenas” variâncias amostrais generalizadas,
respectivamente.
(a) (b)
e3 e2
e2 e1 e3 e1
Figura 3.5. (a) grande variância amostral generalizada, e (b) pequena variância
amostral generalizada, para p=3.
Para um tamanho amostral fixo, é óbvio que |S| cresce com o
aumento do comprimento dos vetores de desvios ei (ou ( n −1)Sii ). Em adição, o

volume aumentará para um comprimento fixado, se os vetores residuais forem
movidos até possuírem ângulos retos. Por outro lado se um ou mais dos vetores
residuais aproximar do hiperplano formado por outros vetores residuais, o volume
diminuirá tendendo a zero.
Apesar de a variância amostral generalizada possuir algumas
interpretações geométricas formidáveis como as ilustradas na Figura 3.5, ela sofre

alguns problemas como estatística amostral capaz de sumariar a informação
contida na matriz S. Para ilustrar estas deficiências, considere as matrizes de
covariâncias e os coeficientes de correlações apresentados a seguir.
⎡10 8 ⎤ ⎡10 −8⎤ ⎡6 0⎤

S=⎢ ⎥ S=⎢ ⎥ S=⎢ ⎥
⎣ 8 10 ⎦ ⎣ −8 10 ⎦ ⎣0 6⎦
8 −8 0
r12 = = 0,8 r12 = = −0,8 r12 = = 0, 0
10 10 10 10 6 6
| S |= 36 | S |= 36 | S |= 36
Apesar das três matrizes possuírem a mesma variância amostral
generalizada (|S|=36), elas possuem estruturas de correlações distintas. Portanto,
diferentes estruturas de correlações não são detectadas pela variância amostral
generalizada. As situações em que p>2 podem ser ainda mais obscuras.
Muitas vezes é desejável mais informações do que um simples valor
como |S| pode oferecer como resumo de S. Pode-se mostrar que |S| pode ser
expresso como produto dos autovalores de S (|S|=λ1.λ2....λp). A elipsóide centrada
na média é baseada em S-1, possui eixos de comprimento proporcionais a raiz
quadrada de λi’s de S, que reflete a variabilidade no sentido do i-ésimo autovalor.
Esta elipsóide é apresentada a seguir.
( X − X ) 'S ( X − X ) = c
−1 2
(3.10)
Demonstra-se que o volume desta hiperelipsóide é proporcional à
raiz quadrada de |S|. Desta forma, os autovalores, fornecem informações da
variabilidade em todas as direções da representação no espaço p-dimensional dos
dados. Portanto, é mais útil apresentar seus valores individuais do que seu
produto. Este tópico será abordado com mais detalhe quando se discutir sobre os
componentes principais.
A variância amostral generalizada será zero se um ou mais vetores
residuais pertencerem a um (hiper) plano formado por uma combinação linear dos
outros, ou seja, quando as linhas da matriz de desvios, forem linearmente
dependentes.
Exemplo 3.5
Mostre que |S|=0 para
⎡3 3 6⎤
X = ⎢⎢1 3 4 ⎥⎥
⎢⎣ 2 0 2 ⎥⎦
O vetor média é:
X t = [ 2 2 4]

Os vetores dos desvios são:
⎡ 1 1 2⎤
X − 1 X t = [ e1 e2 e3 ] = ⎢⎢ −1 1 0 ⎥⎥

⎢⎣ 0 −2 −2 ⎥⎦
Verifica-se que e3t = e1t + e 2t , ou seja:

[2 0 -2] = [1 -1 0] +[1 1 -2] = [2 0 -2] c.q.d.
Isto significa que um dos vetores resíduos, pertence ao plano gerado
pelos outros dois. Desta forma o volume tridimensional é zero (degenerescência).
Este caso é ilustrado na Figura 3.6 e demonstrado numericamente através da
obtenção de |S|.
⎡ 1 0 1⎤
⎢ ⎥
S = ⎢ 0 3 3⎥
⎢⎣ 1 3 4 ⎥⎦
Pela definição (2.9), têm-se:
3 3 0 1 0 1
| S| = 1 × × ( −1) 2 + 0 × × ( −1) 3 + 1 × × ( −1) 4 =
3 4 3 4 3 3
= 131
. . + 0 + 1.( −3).1 = 3 − 3 = 0
e1
e2
e3
1 2
Figura 3.6 Caso em que |S|=0 (degenerescência) para o volume tridimensional.
Em qualquer análise estatística o resultado |S|=0 indica que existem
variáveis redundantes, ou seja, que possuem a mesma informação, e que estas
podem ser removidas do estudo. A matriz de covariância reduzida, será de posto
completo e a variância generalizada diferente de zero. A questão de quais
variáveis devem ser removidas no caso de degenerescência não é fácil de
responder e será abordado nos estudos de componentes principais. No entanto,
quando há possibilidade de escolha, o pesquisador deve reter as medidas de uma
variável (presumidamente) causal ao invés de uma característica secundária.

3.5.Variância generalizada de variáveis padronizadas
A variância amostral generalizada é influenciada pela diferença de
variabilidade das mensurações das variáveis individuais, ou seja, caso a variância
amostral de uma determinada variável (Sii) seja grande ou pequena em relação às
demais. O vetor residual correspondente ei = Yi − x i 1 será muito longo ou muito

curto, do ponto de vista geométrico e terá um papel importante na determinação
do volume. É muitas vezes necessário, em função do exposto, padronizar os
vetores residuais, de tal forma que eles tenham o mesmo comprimento.
A padronização destes vetores residuais é equivalente a transformar
as variáveis originais xjk pelos seus valores (x jk − xk ) S kk . A matriz de
covariância amostral das variáveis padronizadas será então igual a R, ou seja,
igual a matriz de correlação das variáveis originais. Dessa forma pode-se definir:
Variância generalizada amostral das variáveis padronizadas=|R| (3.11)
Os vetores resíduos resultantes, cujos valores são dados por
ejk= ( x jk − xk ) S kk , possuem todos os comprimentos iguais a n − 1. A variância
generalizada amostral das variáveis padronizadas será grande se estes vetores
forem perpendiculares e será pequena se dois ou mais deles tiverem próximas da
mesma direção. Em (3.4) foi visto que o co-seno do ângulo θik entre os vetores
residuais ei e e k , com i≠k, é igual ao coeficiente de correlação amostral rik. Dessa

|S| = (S11 S22 ... Spp) |R| (3.13)
Exemplo 3.6
É ilustrada através deste exemplo a relação (3.13) entre |S| e |R| para p=3
caracteres de milho (x1: diâmetro do colmo; x2: número de folhas; e x3:
comprimento de folhas). A matriz R e S obtidas são:
⎡ 4,935 0,552 2,921 ⎤ ⎡ 100

, 0,30 0,31⎤
⎢ ⎥ ⎢ ⎥
S = ⎢ 0,552 0,686 1932
, ⎥ e R = ⎢ 0,30 100
, 0,55 ⎥
⎢⎣ 2,921 1932
, 17,993⎥⎦ , ⎥⎦
⎢⎣ 0,31 0,55 100
Usando-se a definição de determinante (2.9), tem-se:
|S|=37,3878
|R|=0,6137
Usando (3.13) e os resultados obtidos:
|S| = (S11 S22 ... Spp) |R|
37,3878 = (4,935 x 0,686 x 17,993) x 0,6137

37,3878≈37,3828 (verificado, apesar da pequena diferença devido às
aproximações nos cálculos)
3.6. Outra generalização da variância
Uma outra medida capaz de sintetizar a informação contida na matriz
de covariância que é utilizada em componentes principais é definida pela soma
dos elementos da diagonal da matriz de covariância S e é denominada de
variância amostral total. Portanto,
Variância amostral total = Traço de S= Tr(S) =S11+S22+...+Spp (3.14)
Exemplo 3.7
Calcular a variância amostral total da matriz S do exemplo (3.6)
Tr(S)= S11+S22+S33=4,935+0,686+17,993=23,614
Geometricamente a variância amostral total representa a soma dos
comprimentos ao quadrado dos vetores residuais ei (i=1, 2, ...,p) dividido por n-1.

Ela não considera as orientações dos vetores residuais, sendo portanto limitada
para ser utilizada com variáveis padronizadas, pois seu valor será sempre o
mesmo para distintos conjuntos de dados desde que o número de variáveis destes
seja igual.
3.7. Exercícios
3.7.1. Plote os n=4 pontos no diagrama bidimensional e localize X no diagrama

resultante.
⎡ 1 1⎤
⎢ −1 −1⎥
X =⎢ ⎥
⎢ −1 1⎥
⎢ ⎥
⎣ 1 −1⎦
3.7.2. Encontre o ângulo entre os vetores y1 e y 2 do exemplo 3.1. Calcule o

co-seno do mesmo e discuta sobre o significado deste resultado.
3.7.3. Obtenha a decomposição dos vetores y1 e y 2 do exemplo 3.1 em

componente de média e componente de desvio. Comprove a
ortogonalidade dos componentes de média com os vetores de desvios ou
residuais.
3.7.4. Calcule usando (3.3) o coseno do ângulo entre os vetores residuais e1 e e 2

obtidos em 3.3. Calcule o coeficiente de correlação usando (1.4) entre as
variáveis 1 e 2, e compare os resultados obtidos.
3.7.5. Obtenha as matrizes de covariância amostral para o conjunto de dados do
exercício 3.7.1, e calcule as variâncias amostrais generalizadas das
variáveis originais e padronizadas. Calcule também a variância amostral
total.
3.7.6. Qual é a área do trapezóide gerado pelos p=2 vetores desvios, do exercício
3.7.1.
4
Distribuição normal multivariada
4.1. Introdução
A generalização da densidade normal univariada para duas ou mais
dimensões desempenha um papel fundamental na análise multivariada. De fato, a
maioria das técnicas multivariadas parte do pressuposto de que os dados foram
gerados de uma distribuição normal multivariada. Apesar dos dados originais não
serem quase nunca “exatamente” normal multivariados, a densidade normal se
constitui muitas vezes numa aproximação adequada e útil da verdadeira
distribuição populacional.
A distribuição normal, além da sua atratividade pela sua facilidade de
tratamento matemático, possui duas razões práticas que justificam a sua utilidade.
A primeira, diz que a distribuição normal é a mais adequada para modelos
populacionais em várias situações; e a segunda refere-se ao fato da distribuição
amostral de muitas estatísticas multivariadas ser aproximadamente normal,
independentemente da forma da distribuição da população original, devido ao
efeito do limite central.

4.2. Pressuposições das análises multivariada
É importante compreender que as análises estatísticas de modelos
com erros aditivos baseiam-se na pressuposição de normalidade. A distribuição
normal requerida refere-se, não a variação dos dados, mas a variação residual,
dos erros existentes entre as observações e o modelo ajustado. A variação
sistemática dos dados deve-se presumidamente aos efeitos fixos dos modelos e o
restante da variação aleatória é devida a pequenas influências independentes, as
quais produzem resíduos com distribuição normal (Bock, 1975).
Um segundo ponto, muitas vezes negligenciado nas discussões das
pressuposições sobre a distribuição, refere-se ao fato de que as afirmações
probabilísticas dos testes de significância e dos intervalos de confiança, dizem
respeito a estatísticas tais como médias amostrais ou diferenças entre médias, e
não a distribuição das observações individuais. É conhecido que a distribuição
destas estatísticas torna-se tipicamente normal quando a amostra aumenta de
tamanho. Este resultado se deve ao teorema do limite central.
Do ponto de vista prático existem consideráveis vantagens de se
trabalhar com grandes amostras. Nestes casos, a violação da pressuposição de
que a população seja normal é menos crítica para os testes estatísticos e
intervalos de confiança e a precisão da estimação de parâmetros desconhecidos é
melhor.
4.3. Densidade normal multivariada e suas

propriedades
A densidade normal multivariada é uma generalização da densidade
normal univariada. Para a distribuição normal univariada com média µ e variância
σ2 , a função de densidade de probabilidade é bem conhecida e é dada por:
1 ( x −µ )
2
1 −
f (x) = e 2 σ2
x ∈ ]−∞; + ∞[ (4.1)
2πσ2
O gráfico da função (4.1) tem forma de sino e está apresentado na
Figura 4.1. As probabilidades são áreas sob a curva entre dois valores da variável
X, limitada pela abscissa. É bem conhecido o fato de que as áreas entre ±1 desvio
padrão da média e ±2 desvios padrões da média são respectivamente 68,3% e
95,4%, como ilustrado na Figura 4.1.

0,683
0,954
µ−2σ µ−σ µ µ+σ µ+2σ
Figura 4.1. Densidade normal univariada com média µ e variância σ2 ,
destacando-se as áreas entre µ ± σ e µ ± 2σ .
O expoente da função de densidade normal univariada:
(x − µ)
2
= ( x − µ ) ( σ2 )
−1
( x − µ) (4.2)
σ 2
mede a distância quadrada de x em relação à µ em unidade de desvio padrão.
Esta distância pode ser generalizada para o caso multivariado, com
um vetor X de observações (p x 1), dada por,

( X − µ ) ( Σ ) ( X − µ )
t −1
(4.3)
Nesta expressão (4.3) o vetor µ (px1) representa o valor esperado

do vetor X e a matriz Σ (pxp) representa a sua covariância. Então, (4.3)

representa a distância generalizada de X para µ .

Substituindo a expressão (4.3) na função de densidade (4.1), a
constante univariada de normalização 2πσ2 deve ser trocada de modo a fazer
com que o volume sob a superfície da função de densidade multivariada obtida,
seja igual a unidade para qualquer p. Pode-se demonstrar (Anderson, 1984) que
esta constante é ( 2 π )
−p2 − 12
Σ , sendo a densidade dada por:
⎡ 1 ⎤
1
( ) ( )
t
f (X) = p 1
exp − X
⎢⎣ 2 − µ Σ −1 X − µ ⎥ (4.4)
⎦
( 2π ) 2 Σ2
Propriedades da distribuição normal multivariada
Seja um vetor X tendo distribuição normal multivariada, então:

1. Combinações lineares dos componentes de X serão normalmente distribuídos:

seja a combinação linear a t X =a1X1+a2X2+...+ apXp, então, at X terá

distribuição N( a t µ , a t Σ a );

2. Todos os subconjuntos de X tem distribuição normal (multivariada). Pelos

resultados da propriedade 1, fazendo alguns ai’s iguais a zero, isto se torna
evidente;
⎡ X1 ⎤
⎢X ⎥
i) Fazendo a t X = [1 0 " 0] ⎢ ⎥ = X1 a propriedade 2 se torna evidente. Assim,
2
⎢ # ⎥
⎢ ⎥
⎣⎢ X p ⎦⎥
X1 ∼ N( a t µ = µ1 , a t Σ a = σ11 ). De uma forma mais geral pode-se afirmar que todo

componente Xi tem distribuição N( µ i , σii ).
ii) A distribuição de várias combinações lineares é:
⎡ a11 X1 + ... a1p X p ⎤

⎢ ⎥
q A p p X1 = ⎢ # % # ⎥ ~ N q ( Aµ; AΣA ')

⎢a q1 X1 + ... a qp X p ⎥
⎣ ⎦
iii) Todos os subconjuntos de X tem distribuição normal (multivariada)

⎡ q X1 ⎤ ⎡ X1 ⎤
Tomando-se uma partição: X
p 1 = ⎢ ⎥ = ⎢ ⎥ e suas correspondentes
⎣⎢ (p −q) X1⎥ ⎣ X2 ⎦
⎦
partições no vetor de média e de covariância, dadas por:
⎡ q µ1 ⎤ ⎡ µ1 ⎤ ⎡ q Σ11q Σ12( p−q ) ⎤

µ = = Σ =
q
p 1 ⎢ ⎥ ⎢ ⎥ e ⎢ ⎥
⎢⎣ (p −q) µ1 ⎥⎦ ⎢⎣ µ 2 ⎥⎦ ⎢⎣ ( p−q ) Σ 21q ( p −q )
Σ 22 ( p −q ) ⎥
⎦

Logo,
(
X1 ~ N q µ1 ; Σ11

)
Prova: Basta fazer qAp=[qIq | q0(p-q)] e aplicar (ii).
3. Se os componentes de covariância forem zero entre dois subconjuntos de X ,

implica em dizer que eles são independentemente distribuídos. Esta
propriedade só é valida se X tiver distribuição normal multivariada; e

4. A distribuição condicional de componentes de X é normal (multivariada).

⎡ q X1 ⎤ ⎡ X1 ⎤
Dada a partição p X1 = ⎢ ⎥ = ⎢ ⎥ , logo a distribuição condicional de
⎢⎣ (p −q) X1 ⎥⎦ ⎣ X 2 ⎦

X1 / X 2 = x 2 é normal e têm média e covariância dados por:

(
)
µ c = µ1 + Σ12Σ −221 x 2 − µ 2 e Σ c = Σ11 − Σ12 Σ −221Σ 21
4.4. Distribuição normal bivariada
Sejam X1 e X2 duas variáveis com parâmetros E(X1)=µ1, E(X2)=µ2,
σ12
Var(X1)=σ11, Var(X2)=σ22 e ρ12 = = Corr( X1 , X 2 ) . A matriz de covariância é
σ11 σ22
⎡σ σ12 ⎤
Σ = ⎢ 11
⎣σ21 σ22 ⎥⎦
Cuja inversa é,
1 ⎡ σ 22 −σ 12 ⎤
Σ −1 =
σ 11σ 22 − σ ⎢⎣ −σ 21
2
12 σ 11 ⎥⎦
Fazendo σ 12 = ρ12 σ 11 σ 22 , obtém-se
Σ = σ 11σ 22 − σ 122 = σ 11σ 22 (1 − ρ122 ) , e a distância generalizada de (4.3) será:
1 ⎡ σ22 − ρ12 σ11 σ22 ⎤ ⎡ X1 − µ1 ⎤

[X1 − µ1 X2 − µ2] ⎢ ⎥⎢ ⎥=
σ11 σ22 (1 − ρ12 ) ⎦ ⎣X2 − µ2⎦
2
⎣− ρ12 σ11 σ22 σ11
(4.5)
1 ⎡⎛ − µ ⎞ 2 ⎛ − µ ⎞ 2 ⎛ X1 − µ1 ⎞ ⎛ X 2 − µ 2 ⎞⎤
= ⎢⎜ X1 1 ⎟ +⎜ X 2 2⎟
−2ρ12 ⎜ ⎟⎜ ⎟⎥
1 − ρ12
2
⎢⎜⎝ σ11 ⎟⎠ ⎜⎝ σ22 ⎟⎠ ⎜ σ ⎟ ⎜ σ ⎟⎥
⎝ ⎠⎝ ⎠⎦
⎣ 11 22
Desde que, |Σ|=σ11 σ22 - (σ12)2 = σ11 σ22 (1- ρ122 ), podem ser
substituídos Σ-1 e |Σ| em (4.4) para se ter a expressão da densidade normal
bivariada, apresentada a seguir.

1
f(x1 ,x2 ) =
2π σ11σ22 (1 −ρ122 )
(4.6)
⎧ ⎡ 2 2
⎛ X1 −µ1 ⎞ ⎛ X2 −µ2 ⎞⎤⎫⎪
⎪ −1 ⎢⎛ X1 −µ1 ⎞ ⎛ X2 −µ2 ⎞
exp ⎨ ⎜ ⎟ +⎜ ⎟ − 2ρ12 ⎜ ⎟⎜ ⎟⎥
⎜ σ ⎟ ⎜ σ ⎟⎥⎬
⎪⎩2(1 −ρ12 ) ⎣⎢⎝ σ11 ⎠
2 ⎜ ⎟ ⎜ σ ⎟
⎝ 22 ⎠ ⎝ 11 ⎠ ⎝ 22 ⎠ ⎪
⎦⎭
Se X1 e X2 não são correlacionadas, ρ12 =0, a densidade conjunta
pode ser escrita como produto das densidades normais univariadas, ambas com a
forma de (4.1), ou seja, f(x1,x2)= f(x1) f(x2), além do que X1 e X2 são ditas
independentes, como comentado na propriedade número 3 da seção 4.3. Duas
distribuições normais bivariadas com variâncias iguais são mostradas nas Figuras
4.2. e 4.3. A Figura 4.2 mostra o caso em que X1 e X2 são independentes ( ρ12 =0)
e a Figura 4.3 o caso de ρ12 =0.8. Observa-se que a presença de correlação faz
com que as probabilidades se concentrem ao longo de uma linha.

Figura 4.2. Distribuição normal bivariada com σ11 = σ22 e ρ12 =0.
Figura 4.3. Distribuição normal bivariada com σ11 = σ22 e ρ12 =0.8.
Da análise da expressão (4.4), relativa a densidade de p-variáveis
normais, fica claro que alguns valores padrões de X fornecem alturas constantes

para as densidades elipsóides. Isto significa que a densidade normal é constante
( ) ( Σ ) ( X − µ )
t −1
em superfícies cujas distâncias quadráticas X − µ são constantes.

Esses padrões são chamados de contornos ou curvas de nível.
( ) ( Σ ) ( X − µ ) =c
t −1 2
Contornos={todo X tal que X − µ } (4.7)

A expressão (4.7) é uma superfície de uma elipsóide centrada em µ ,

cujos eixos possuem direção dos autovetores de Σ-1 e seus comprimentos são
proporcionais ao recíproco da raiz quadrada dos seus autovalores. Demonstra-se
que se λi e ei são os autovalores e autovetores, respectivamente, de Σ, então a

( X − µ ) ( Σ ) ( X − µ ) =c
t −1 2
elipsóide é centrada em µ e tem eixos na direção de

±c λ i
ei (i=1, 2, ..., p).

Considerando como ilustração a densidade normal bivariada com
σ11 = σ22 , os eixos da elipsóide dados por (4.7) são fornecidos pelos autovalores e
autovetores de Σ. Portanto, para obtê-los, a equação |Σ-λI|=0 deve ser resolvida.
σ 11 − λi σ 12
= (σ 11 − λi ) − σ 122 = 0
2
σ 12 σ 11 − λi
= ( λi − σ 11 − σ 12 )( λi − σ 11 + σ 12 ) = 0
Conseqüentemente os autovalores são:
λ1 = σ11 + σ12 e λ 2 = σ11 − σ12
Os autovetores são determinados por:
Σ e i =λ i e i

Para i=1, tem-se:
⎡ σ11 σ12 ⎤ ⎡ e1 ⎤ ⎡ e1 ⎤
⎢σ σ ⎥ ⎢ e ⎥ = (σ11 + σ12 ) ⎢e ⎥
⎣ 12 11⎦ ⎣ 2 ⎦ ⎣ 2⎦
ou,
σ11 e1 + σ12 e2 = (σ11 + σ12 ) e1

σ12 e1 + σ11 e2 = (σ11 + σ12 ) e2
Essas equações levam ao resultado de que e1=e2, e após
normalização, o primeiro autovetor é:
⎡ 1 ⎤
⎢ 2⎥
e1 = ⎢ ⎥
⎢ 1 ⎥
⎢⎣ 2 ⎥⎦
De forma similar foi obtido o segundo autovetor, o qual é:
⎡ 1 ⎤
⎢ 2⎥
e1 = ⎢ ⎥
⎢ 1 ⎥
⎢⎣ − 2 ⎥⎦
Se a covariância é positiva, λ1 = σ11 + σ12 é o maior autovalor e seu
autovetor associado se posiciona ao longo de uma linha de 450 através do ponto
µ t = [ µ1 µ 2 ] , para qualquer σ12 > 0 . Os eixos são fornecidos por ± c λ i ei (i=1, 2)

e estão representados na Figura 4.4.
c vσ 11 + σ12
cvσ - σ12
2
11
Figura 4.4. Curva de nível de densidade constante para a distribuição normal
bivariada com σ11 = σ22 e σ12 > 0 .
Anderson (1984) demonstra que a escolha de c2= χ p2 (α), em que
χ p2 (α) é o percentil (100α) superior da distribuição de qui-quadrado com p graus de

95%
99%
Figura 4.6. Curvas de níveis de 95% e 99% de probabilidade para a distribuição
normal bivariada apresentada na Figura 4.3, σ11 = σ22 e ρ12 =0,8.
A densidade (4.4) possui máximo quando X = µ . Portanto, µ é o

ponto de máxima densidade ou moda, bem como o valor esperado de X , ou

média.
4.5. Distribuição amostral de X e S

Se a pressuposição de que as linhas de

⎡ x 11 x 12
" x ⎤1p
⎢ ⎥
⎢x x " x
2p ⎥
X = ⎢ 21 22
⎥
n × p
⎢ # # % # ⎥
⎢ " x np ⎥
⎣ x n1 x n2 ⎦
se constituem numa amostra aleatória de uma população normal com média µ e

covariância Σ for verdadeira, então este fato é suficiente para completamente
definir a distribuição amostral de X e de S. São apresentadas a seguir estas

distribuições amostrais, fazendo-se um paralelo com a distribuição amostral
univariada que já é familiar e bem conhecida.
No caso univariado (p = 1), sabe-se que X possui distribuição normal
com média µ (média populacional) e variância
σ2
n
O resultado para o caso multivariado (p≥2) é similar a este, no
sentido que X possui distribuição normal com média µ e matriz de covariância

(1/n)Σ.
Para a variância amostral, caso univariado, sabe-se que a
distribuição de (n − 1)S2 σ 2 possui distribuição de qui-quadrado com n - 1 graus de
liberdade. Para o caso multivariado, a distribuição da matriz de covariância é

chamada de distribuição de Wishart, após sua descoberta, com (n – 1) graus de
liberdade. Os resultados a seguir resumem detalhes destas distribuições:
Sendo X1 , X 2 , ..., X n uma amostra aleatória de tamanho n de uma população

normal p-variada com média µ e matriz de covariância Σ. Então,

1. X possui distribuição normal com média µ e matriz de covariância (1/n)Σ.

2. (n-1)S possui distribuição de uma matriz aleatória de Wishart com n-1 gl.
3. X e S são independentes.

Devido a Σ não ser conhecida, a distribuição de X não pode ser

usada diretamente para se fazer inferência sobre µ . Felizmente, S fornece

informação independente sobre Σ e a distribuição de S não depende de µ . Isto

permite que se construam estatísticas para fazer inferência sobre µ , como será

abordado no capítulo 5.
Densidade da distribuição de Wishart
Seja S uma matriz positiva definida, com n>p, então se pode definir,
(n−p−2)/2 −tr(S Σ−1)/2

S e
wn−1(S/ Σ) = p
(4.9)
∏ Γ[ (n − i)]
p(n−1)/2 p(p−1)/4 (n−1)/2
2 π Σ 1
2
i=1
em que, Γ(.) representa a função gama.
Retornando ao caso da distribuição das médias amostrais, o
resultado 4.1, sintetiza um importante teorema em estatística.
Resultado 4.1. (teorema do limite central) Sendo X1 , X 2 , ..., X n uma amostra

aleatória de n independentes observações de uma população qualquer com média
µ e matriz de covariância Σ, finita e não singular. Então,

( )
n X − µ possui distribuição aproximadamente normal Np( 0 , Σ) para grandes

amostras. Aqui n deve ser também bem maior do que p (número de variáveis).
Como já foi comentado quando n é grande, S converge em
probabilidade para Σ, consequentemente, a substituição de Σ por S causa efeitos
apenas negligíveis nos cálculos de probabilidades. Desta forma, utilizando a
expressão (4.8), pode-se obter o importante resultado, apresentado a seguir.
Resultado 4.2. (teorema do limite central) Sendo X1 , X 2 , ..., X n uma amostra

aleatória de n independentes observações de uma população qualquer com média
µ e matriz de covariância Σ, finita e não singular. Então,

( )
n X − µ possui distribuição aproximadamente normal Np( 0 , Σ )

e
( ) ( )
t
n X − µ Σ −1 X − µ se distribui aproximadamente como χ p2 para n - p grande.

Para a distribuição normal univariada, se µ e σ são conhecidos, as
probabilidades sob a curva para a distribuição de X , podem ser obtidos das
tabelas da distribuição normal, ou da integral da função apresentada em (4.1) nos
intervalos apropriados, com µ=0 e σ=1, sendo
X−µ
z= (4.10)
σ
n
Alternativamente, pode-se obter a aproximação de Hasting (1955)
citado por Bock (1975), com erro máximo de 10-6, dada por
⎧ G se z ≤ 0
Φ( z ) ≅ ⎨ (4.11)
⎩1 − G se z > 0
em que,
Sendo que Φ( z ) representa a probabilidade acumulada sob a curva
da distribuição normal de -∞ a z;
G = ( a1 η + a2 η 2 + a3 η3 + a4 η 4 + a5 η5 ) φ( z );
1
η= ;
1 + 0,2316418| z|
z2
φ(z) = (2π ) − 2 e −
1 2
;
a1=0,319381530
a2=-0,356563782
a3=1,781477937
a4=-1,821255978
a5=1,330274429
4.6. Distribuições amostral derivada da distribuição

normal multivariada
Teoria da Distribuição das grandes amostras

e distribuição exata
Na análise dos dados freqüentemente são utilizadas funções das
observações chamadas estatísticas, as quais servem como estimadores dos
parâmetros ou como critério para os testes de hipóteses. A importância de tais

estatísticas muitas vezes depende do conhecimento da (1) distribuição assumida
para as observações, (2) do método de amostragem, e (3) da natureza da função
das observações. Há dois tipos de teoria amostral avaliada para derivar a
distribuição amostral. A teoria das grandes amostras, a qual fornece a distribuição
aproximada à medida que o tamanho amostral cresce indefinidamente, e a teoria
das pequenas amostras ou teoria exata, a qual é válida para qualquer tamanho
amostral.
As distribuições derivadas assumindo o tamanho amostral
indefinidamente grande são chamadas de distribuições assintóticas ou “limitante”.
A teoria assintótica é especialmente simples, como conseqüência do teorema do
limite central que demonstra que muitas estatísticas têm distribuição normal como
limite. Para tais estatísticas é necessário somente obter a média e a variância para
ter a distribuição assintótica.
A distribuição amostral sem considerar os argumentos da teoria
assintótica, geralmente depende do tamanho da amostra e pode ser não-normal
para pequenas amostras, mesmo se a forma limite for normal. Se este for o caso,
algum indicativo de qual tamanho amostral é necessário para uma dada acurácia
na teoria assintótica é extremamente útil para trabalhos práticos. Como exemplo,
pode citar que a distribuição de F, de razões de variâncias, com ν1 graus de
liberdade do numerador e ν2 do denominador, se aproxima de qui-quadrado
dividido por ν1 quando o valor de ν2 cresce sem limite.
χ(2υ1)
lim F(υ1 , υ2 ) =
υ2 →∞ υ1
Comparando as tabelas de F e qui-quadrado dividido por ν1, pode-se
concluir que ao nível de 0,05, com erro de duas unidades na segunda casa
decimal, quando ν2 for maior que 40, haverá boa concordância. Semelhantemente,
considerando o valor nominal de significância de 0,01, verifica-se que a
concordância com a mesma precisão se dá quando o valor de ν2 excede 100.
Distribuição da soma de quadrados de n desvios

normais aleatórios
Seja Z um vetor ν x 1 de ν observações normais N(0,1) padronizadas.
A estatística
χ(2ν) = Z' Z = z12 + z22 +...+ zυ2 (4.12)
é distribuída como uma variável qui-quadrado com ν graus de liberdade. Foi obtida
em 1876 por Helmert e independentemente em 1900 por Karl Pearson. A função
de distribuição de qui-quadrado pode ser expressa pela função gama incompleta.
1 χ
υ
P(χ2 ≤ χ / υ) = ∫ t ( 2 )−1e− 2 dt
t
υ (4.13)
2 Γ( υ2) 0
2
A função de distribuição (4.13) pode ser aproximada para aplicações
em computadores pela série convergente apresentada a seguir.
e−χ ∞ χn
P(χ ≤χ/ υ) = ∑
2
(4.14)
χ−υ n=0 Γ( υ+ n +1)
1 1
quando χ < max( υ,13) , e caso contrário pela expansão assintótica:
2 2
⎡ υ−1 (υ−1)(υ−2) ⎤
P(χ ≤χ/ υ) ≈χυ−1e−χ ⎢1+ +
2
+...⎥ (4.15)
⎣ χ χ2 ⎦
Os valores de Γ( a) podem ser obtidos pela fórmula de Stirling:
⎡ 1 1 139 571 ⎤
Γ(a) =(a−1)!≈e−aaa−1/2(2π)1/2 ⎢1+ + 2 − − (4.16)
⎣ 12a 288a 51840a 2488320a ⎥⎦
3 4
A forma recursiva Γ( a +1) =a Γ( a ) e Γ( 2) = Γ(1) pode ser usada quando
“a” for pequeno. Sabe-se que a média da distribuição de qui-quadrado, E( χ2 ), é ν
e que sua variância é 2ν. Para ν>30, as probabilidades podem ser obtidas usando
a aproximação normal assintótica usando 2 χ2 − 2υ − 1 como um desvio normal
unitário.
Razão entre independentes χ2 (F de Fisher)
Sejam χ12 e χ22 , dois χ2 independentes com ν1 e ν2 graus de liberdade,
respectivamente. Então,
χ12 υ1
F= 2
χ 2 υ2
possui distribuição de uma variável F com ν1 e ν2 graus de liberdade. A
distribuição de F foi derivada por R. A. Fisher (1924). A função de distribuição de F
pode ser aproximada pela série convergente da função beta incompleta:
xa (1− x)b ⎡ ∞ B(a +1, n +1) n+1 ⎤

Ix (a, b) = 1+ ∑ x ⎥ (4.17)
aB(a, b) ⎢⎣ n=0B(a + b, n +1) ⎦
Γ( a )Γ( b )
em que, B( a, b ) =
Γ( a + b )
Então,
υ2 υ1
P( F, υ1 , υ2 ) = 1 − I x ( , )
2 2
υ2
em que, x =
υ2 + υ1 F
4.7. Verificando a normalidade
A pressuposição de que cada vetor de observação X j veio de uma

distribuição normal multivariada será requerida nas técnicas estatísticas que serão
abordadas nos capítulos subsequentes. Por outro lado, nas situações em que a
amostra é grande e as técnicas dependem apenas do comportamento de X , ou

( ) ( )
t
distâncias envolvendo X da forma n X − µ S−1 X − µ , a pressuposição de

normalidade das observações individuais X j é menos crucial. Isto devido à

aproximação da distribuição normal assintótica das principais estatísticas. No
entanto, melhor será a qualidade da inferência quanto mais próxima à população
parental se assemelhar da forma da distribuição normal multivariada. É imperativo
que existam procedimentos para detectar os casos em que os dados exibam
desvios de moderados a extremos em relação ao esperado sob normalidade
multivariada.
Baseado na distribuição normal sabe-se que todas as combinações
lineares de variáveis normais são normais e que contornos da densidade normal
são elipsóides. Devido às dificuldades de avaliação de um teste conjunto em todas
as dimensões, os testes para checar a normalidade serão concentrados em uma
ou duas dimensões. Obviamente se paga um preço por estas simplificações, como
não revelar algumas características que só podem ser observadas em dimensões
maiores. É possível, por exemplo, construir uma distribuição não normal bivariada
com marginais normais. No entanto, muitos tipos de não normalidade são
revelados em geral nas distribuições marginais, e para aplicações práticas será
suficiente checar a normalidade em uma ou duas dimensões.
Verificando a validade da normalidade por meio

da distribuição marginal
Textos elementares muitas vezes recomendam que a normalidade
univariada seja investigada, examinando o histograma de freqüência amostral para
avaliar discrepâncias entre as freqüências observadas e esperadas pelo ajuste da
distribuição normal. Usualmente, sugere-se também que as discrepâncias sejam
submetidas ao teste de aderência de qui-quadrado. Um χ2 significativo (P<0,05) é
tido como evidência contra a normalidade da população.
Apesar de este método ter a virtude da simplicidade de computação
e ser livre do tipo de desvios da normalidade que esteja sendo testado (curtose,
assimetria, etc.), tem a desvantagem, quando aplicados a dados contínuos, de
depender da arbitrariedade da escolha dos intervalos de agrupamento dos dados.
Essa escolha determina a resolução do histograma e o número de termos a ser
somado para obter a estatística de χ2 . Uma escolha errada pode conduzir a
resultados não consistentes. Se a escolha de a amplitude dos intervalos for muito
estreita, o histograma pode ser irregular e a acurácia do χ2 pode ser grandemente
afetada devido aos pequenos valores esperados. Se os intervalos são largos,
desvios de normalidade podem ser obscurecidos tanto no histograma quanto no
teste de χ2 .
Uma melhor aproximação, evitando todas essas dificuldades, é
conseguida fazendo uso de métodos que não requerem agrupamento de escores.
Felizmente, excelentes procedimentos gráficos e computacionais existem para
este propósito.
a) Distribuição de proporções
A distribuição normal univariada possui probabilidade de 0,683 para
o intervalo [µ i − σ ii ; µ i + σ ii ] e probabilidade de 0,954 para o intervalo
[µ i ]
− 2 σ ii ; µ i + 2 σ ii (Figura 4.1). Consequentemente, para grandes amostras de
tamanho n, é esperado que a proporção de P i1 observações contidas no intervalo
[X i − s ii ; X i + s ii ] seja de cerca de 0,683, e de forma semelhante, espera-se
[
que a proporção P i2 de observações em X i − 2 s ii ; X i + 2 s ii seja de cerca de]
0,954. Usando a aproximação normal da distribuição de P i , então se
0,683 × 0,317 1,396

| P i1 − 0,683 | > 3 =
n n
0,954 × 0,046 0,628

| P i 2 − 0,954 | > 3 =
n n
devem indicar desvios da distribuição normal para i-ésima característica (Johnson
& Wichern, 1988).
b) Processos gráficos
Os gráficos são em geral úteis para avaliar desvios da normalidade.
Dois processos gráficos serão considerados neste capítulo.
i) Q-Q plot
Esses gráficos são obtidos da distribuição marginal das observações
de cada variável. Consiste em plotar em um plano cartesiano os percentis
amostrais versus os percentis esperados pelo ajuste de uma distribuição normal.
Se os pontos pertencem a uma linha reta a pressuposição de normalidade deve
ser aceita.
Sejam x1, x2, ..., xn as n observações de uma variável X. Sejam x(1),
x(2), ..., x(n) essas observações ordenadas crescentemente, ou seja, x(1) é a menor
observação e x(n) é a maior. Quando os x(j) são distintos, exatamente j
observações são menores ou iguais a x(j) (isto é teoricamente verdadeiro quando
as observações são do tipo contínuo, o que em geral será assumido). A proporção
amostral j/n é aproximada por (j-½)/n, onde ½ é usado para correção de
descontinuidade.
Os percentis esperados sob normalidade são dados por (q(j)):

q( j )
j − 12
∫
2
= 1
2π
e− z /2
dz (4.18)
n −∞
Os percentis q(j) podem ser obtidos, como se percebe por (4.18), pela
inversão da função de distribuição de probabilidade da normal, em rotinas
apropriadas em computadores ou através de tabelas da distribuição normal.
(Tabela A.1).
Os percentis q(j) e x(j) são plotados em um sistema cartesiano com q(j)
na abscissa e x(j) na ordenada. Desvios da normalidade podem ser observados
pela inspeção deste tipo de gráfico, cujos pontos, quando da normalidade devem
pertencer a uma linha reta de mínimos quadrados. No exemplo 4.1 ilustram-se os
cálculos necessários para obtenção dos Q-Q plots.
Exemplo 4.1
Seja uma amostra (n=10) obtida de uma população normal N(3; 4) apresentada a
seguir. Neste caso, a observação 4 constitui-se um “outlier”, propositadamente
gerado.
{3,74; 2,91; 4,79; 8,65; 2,06; 4,59; 4,02; 0,46; 1,79; 3,30}
Dessa forma para se obter o Q-Q plot é necessário os seguintes
passos:
1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de
probabilidade acumulada (j-½)/n.
j x(j) (j-½)/n q(j)
1 0,46 0,05 -1,645

2 1,79 0,15 -1,036
3 2,06 0,25 -0,675
4 2,91 0,35 -0,385
5 3,30 0,45 -0,126
6 3,74 0,55 0,126
7 4,02 0,65 0,385
8 4,59 0,75 0,675
9 4,79 0,85 1,036
10* 8,65 0,95 1,645
2) calcular os percentis da distribuição normal padrão.
q(1)
j − 12 1 − 12
∫
2
Ex. Para a observação 1 tem-se: = = 0, 05 = 1
2π
e− z /2
dz
n 10 −∞
Portanto, q(1) = -1,645, e assim sucessivamente.
3) plotar (q(1), x(1)), (q(2), x(2)), ..., (q(n), x(n)) e examinar os resultados
observação e refazer a análise para os dados amostrais remanescentes, o que é
deixado a cargo do leitor.
Este processo gráfico, embora bastante poderoso para se verificar
desvios da normalidade não constitui num teste formal deste propósito. Para
contornar esta limitação, Johnson & Wichern (1988) apresentam um teste
complementar a este processo gráfico, o qual mede o ajuste dos pontos do Q-Q
Plot a linha reta de mínimos quadrados por meio de uma medida de um
coeficiente de correlação apresentada a seguir.
∑(x ) (q )
n
( j) −x ( j) −q
j=1
rQ = (4.19)
2 2
∑(x ) ∑ (q )
n n
( j) −x ( j) −q
j=1 j=1
Um poderoso teste de normalidade pode ser construído tomando-se
por base este coeficiente de correlação (4.19). Formalmente rejeita-se a hipótese
de normalidade se o valor calculado for menor que os valores críticos para um
determinado nível de significância (Tabela 4.1).

Tabela 4.1. Valores críticos para o teste para normalidade baseado no coeficiente
de correlação Q-Q plot.
Tamanho amostral Nível de significância (α)
n 0,01 0,05 0,10
5 0,8299 0,8788 0,9032

10 0,8801 0,9198 0,9351
15 0,9126 0,9389 0,9503
20 0,9269 0,9508 0,9604
25 0,9410 0,9591 0,9665
30 0,9479 0,9652 0,9715
40 0,9599 0,9726 0,9771
50 0,9671 0,9768 0,9809
60 0,9720 0,9801 0,9836
75 0,9771 0,9838 0,9866
100 0,9822 0,9873 0,9895
150 0,9879 0,9913 0,9928
200 0,9905 0,9931 0,9942
300 0,9935 0,9953 0,9960
Fonte: Johnson & Wichern (1998)
Exemplo 4.1 (continuação)
Calculando a correlação amostral, através de (4.19), obteve-se:
18, 77109
rQ = = 0,9523
44,15849 8, 798094
Como, o valor tabelado ao nível de 5% de probabilidade (0,918) é
inferior ao valor calculado (0,9523), então, não existe razão para duvidar da
hipótese de normalidade.
ii) Gráfico das probabilidades acumuladas
Um segundo processo gráfico, bastante utilizado, refere-se aos
gráficos em que são plotados as probabilidades amostrais acumuladas versus
probabilidades acumuladas da distribuição normal (Bock, 1975). O algoritmo é:
1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de
probabilidade acumulada pj = (j-½)/n, amostrais.
2) Calcular a média amostral e o desvio padrão viesado
2
⎛ n ⎞
n
⎜ ∑ Xj ⎟
∑ X2j − ⎝ ⎠
j =1
j =1 n
Sn = (4.20)
n
3) Obter as probabilidades normais acumuladas utilizando (4.11) ou tabelas da
distribuição normal, através de:
Xj − X
Zj =
Sn
Pj=Φ(Zj)
4) Plotar Pj (abcissa) contra pj (na ordenada)
Exemplo 4.2
Com os dados do exemplo 4.1, o algoritmo apresentado no item (ii) foi executado,
resultando nos seguintes valores:
j x(j) pj = (j-½)/n Pj
1 0,46 0,05 0,066

2 1,79 0,15 0,189
3 2,06 0,25 0,227
4 2,91 0,35 0,367
5 3,30 0,45 0,436
6 3,74 0,55 0,520
7 4,02 0,65 0,575
8 4,59 0,75 0,677
9 4,79 0,85 0,709
10* 8,65 0,95 0,992
Na Figura 4.8 estão plotados os pontos Pj (abcissa) contra pj (na
ordenada).
1.0
0.8
0.6
pj
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
Pj
Figura 4.8. Gráfico normal acumulado da amostra simulada no exemplo 4.1.

Se a população for normal, os pontos tendem a cair em uma linha
definida pela reta Pj=pj. Uma vez que o gráfico apresenta efeitos cumulativos, os
pontos não são independentes e ainda pode-se afirmar que sucessivos pontos
não tenderão a se situar aleatoriamente em ambos os lados da linha. Em outras
palavras, um grupo de pontos sucessivos poderá estar de um lado da reta ou de
outro, sem ser um indicativo de desvio da normalidade. Alguma familiaridade com
este tipo de gráfico indicará a forma da distribuição e os desvios da normalidade
que possam ocorrer.
De maneira geral, as situações mais comuns devem se enquadrar
nos seguintes tipos de gráficos. Distribuições assimétricas à esquerda tenderão a
ter seus pontos de extremos no lado superior da reta, e os pontos intermediários
no lado inferior da mesma. Para distribuições assimétricas à direita, o oposto deve
ocorrer, ou seja, pontos extremos no lado inferior da reta e pontos intermediários
no lado superior.
Os achatamentos da distribuição, conhecidos por curtose, também
podem ser detectados. Nas distribuições leptocúrticas, os pontos de menor
densidade acumulada se concentram no lado inferior da reta, vindo a cruzá-la no
centro. Os pontos de maior densidade se concentram no lado superior da reta, a
partir do centro. Nas distribuições platicúrticas, o oposto se dá, ou seja, pontos de
menor densidade acumulada se concentram no lado superior, e os pontos de
maior densidade no lado inferior da reta, vindo a cruzá-la no centro. Distribuições
bimodais possuem gráficos que representam os casos extremos da distribuição
platicúrtica.
c) Uso dos momentos
Os momentos não centrados para a média, podem ser calculados a
partir dos dados amostrais, fazendo 1/n como densidade para cada ponto
amostral. Desta forma, pode-se definir, o r-ésimo momento amostral não centrado
para média por:
~ =1∑
m
n
x rj (4.21)
r
n j=1
Pode-se então, definir a média amostral, e o segundo, terceiro e
quarto momentos centrados na média, em função dos momentos não centrados
por:
Média: µ 1 = 0 (4.22)
Variância: ~ ~ −m
µ2 = m ~2 (4.23)
2 1
Assimetria ~ ~ − 3m
µ3 = m ~ m ~ + 2m
~3 (4.24)
3 1 2 1
Curtose µ 4 = m
4 −4 m 3 + 6m
1 m 2 − 3m
12 m 14 (4.25)
Os valores amostrais de o coeficiente de assimetria e curtose são,
respectivamente:
~
µ 3
b1 = (4.26)
~
µ2 µ ~
2
~
µ
b 2 = ~ 42 (4.27)
µ2
O coeficiente de assimetria populacional, para a distribuição normal,
é β1 = 0 e o coeficiente de curtose é β2=3. Se β1 < 0 , então, a distribuição é
assimétrica à esquerda, caso contrário, β1 > 0 , a distribuição é assimétrica à
direita. Distribuições com β2<3 são platicúrticas (menos pontudas com caudas
mais baixas do que a normal), e aquelas com β2>3 são leptocúrticas (mais
pontudas e com caudas mais altas do que a normal).
Exemplo 4.3
Utilizando os dados do exemplo 4.1 calcular os momentos e os coeficientes de
assimetria e curtose amostrais.

x x2 x3 x4
0,46 0,2116 0,0973 0,0448

1,79 3,2041 5,7353 10,2663
2,06 4,2436 8,7418 18,0081
2,91 8,4681 24,6422 71,7087
3,30 10,8900 35,9370 118,5921
3,74 13,9876 52,3136 195,6530
4,02 16,1604 64,9648 261,1585
4,59 21,0681 96,7026 443,8648
4,79 22,9441 109,9022 526,4317
8,65 74,8225 647,2146 5598,4070
36,31 176,0001 1046,2520 7244,1350
Têm-se:
~ =36,31/10=3,631
m 1
~ =176,0001/10=17,6000
m 2
~ =1046,2520/10=104,6252
m 3
~ =7244,135/10=724,4135
m 4
~ = 3,631
µ 1
~ = 17,6 - (3,631)2 = 4,4158

µ 2
~ = 104,6252 - 3 x 3,631 x 17,6 + 2 x (3,631)3 = 8,6518

µ 3
~ = 724,4135 - 4 x 3,631 x 104,6252 + 6 x (3,631)2 x 17,6 - 3 x (3,631)4 = 75,6182

µ 4
b 1 = 8,6518/(4,4158 x 4,41581/2 ) = 0,9324
b2 = 75,6182/(4,4158)2 = 3,8780
c.1) Uso do coeficiente de assimetria
Para se avaliar o grau de assimetria da distribuição, um teste
baseado no coeficiente de assimetria (4.26), pode ser realizado. Níveis críticos
para a estatística b 1 , podem ser encontrados em Pearson e Hartley (1966) para
n>24, e em D’Agostino e Tietjen (1973) para n variando de 5 a 35. A assimetria
será à esquerda se b1 for negativo, e à direita se b1 for positivo,
significativamente. Em grandes amostras, os valores críticos de b 1 podem ser
obtidos com boa aproximação usando como desvio da normal padrão a estatística:
(n + 1)(n + 3)
Z1 = b1 (4.28)
6(n − 2)
c.2) Uso do coeficiente de curtose
Valores críticos para o coeficiente de curtose (4.27), podem ser
encontrados em Pearson e Hartley (1966) para n>49 e D’Agostino e Tietjen (1971)

para n variando de 7 a 50. Em grandes amostras, os valores críticos para o teste
de achatamento da curva, podem ser aproximados usando como desvio normal a
seguinte estatística:
⎛ 6 ⎞ (n +1)2 (n +3) (n +5)

Z2 = ⎜b2 − 3 + ⎟ (4.29)
⎝ n +1⎠ 24n(n −2) (n −3)
Valores de b2 maiores que 3 indicam que a distribuição é mais
pontuda com caldas mais altas do que a normal; valores menores que 3 indicam
uma distribuição achatada no centro e com caudas mais baixas do que a
distribuição normal.
Exemplo 4.3 (continuação)
Os valores de Z1 e Z2, para o teste de assimetria e curtose foram:
Z1=1,609 com P(Z>|Z1|)=0,1074
Z2=1,886 com P(Z>|Z2|)=0,0592
Desta forma, ao nível de 5% de probabilidade se aceita a hipótese de
simetria e de não achatamento da curva, demonstrando não se ter desvio da
normalidade.
Verificando a normalidade multivariada
Em geral se deseja verificar a normalidade para dimensões
superiores a 1, ou seja, para a distribuição p-variada, p≥2. Mesmo que seja
suficiente, como já comentado anteriormente, avaliar apenas as distribuições
univariadas e bivariadas o procedimento apresentado nessa seção é válido para
qualquer p. O caso bivariado será enfocado nesta seção, devido às facilidades de
cálculos para fins didáticos.
Pelo resultado 4.2, dado vetor X com distribuição normal p-variada,

tem-se que,
( x −µ ) Σ ( x −µ ) ≤ χ (1−α)

t
−1 2
p
Através deste resultado, pode-se então, generalizar o processo
gráfico conhecido como Q-Q plot. Dada uma amostra bivariada com n
observações, o algoritmo seguinte pode ser usado para generalizar o processo
gráfico mencionado. É importante salientar que este processo não é limitado
apenas ao espaço bidimensional.
O algoritmo será apresentado, utilizando os dados do exemplo 1.1,
com X1 representando a quantidade de reais pela venda de ração, e X2 sendo o
número de sacos de rações vendidos, por n = 4 firmas de Minas Gerais.

Exemplo 4.4
1) Calcular a distância quadrada generalizada amostral d(j) de cada observação
em relação à média amostral, dada por:
d 2j = (x j − x) 'S−1 (x j − x) , j=1, 2, ..., n

Os valores da média e da matriz de covariância amostrais foram
apresentados no exemplo 1.2, e são:
⎡100 ⎤ ⎡333,333 20,000⎤

X=⎢ ⎥ e S=⎢ ⎥
⎣ 9⎦ ⎣ 20,000 6,667 ⎦
A matriz inversa de S é:
⎡ 0,0037 − 0,0110⎤
S −1 = ⎢
⎣− 0,0110 0,1829⎥⎦
A distância generalizada para primeira observação é:
⎡ 0, 0037 −0, 0110 ⎤ ⎡80 − 100 ⎤

d12 = [80 − 100 10 − 9] ⎢ = 2, 0853
⎣ −0, 0110 0,1829 ⎥⎦ ⎢⎣ 10 − 9 ⎥⎦
E assim sucessivamente, para as demais observações:

d 22 = 1,7926; d 32 = 1,3536 e d 24 = 0,7683.
2) ordenar as distâncias quadráticas amostrais do menor para o maior

2
d (1) ≤ d (22 ) ≤...≤ d (2n ) .
3) Obter os valores correspondentes, percentis, de probabilidade acumulada
q(j)= χ 2p ((j-½)/n), da distribuição de qui-quadrado. Estes percentis dependem da
inversa da função de distribuição de qui-quadrado, e podem ser obtidos em vários
softwares estatísticos.
J d (2j) (j-½)/n q(j)
1 0,7683 0,125 0,2671

2 1,3536 0,375 0,9400
3 1,7926 0,625 2,2479
4 2,0853 0,875 4,1589
4) Plotar ( d (2j) ; q(j)) e examinar os resultados

2
q(j)
0.6 0.8 1.0 1.2 1.4 1.6 1.8 20 2.2

2
d(j)
Figura 4.9. Q-Q plot para os dados do exemplo 1.1, destacando a possibilidade de
utilização deste processo para os casos de dimensões superiores ou
iguais a 2.
Pela Figura 4.9, verifica-se que não existem razões para duvidar de
que a distribuição do número de sacos de rações vendidos e o montante de
dinheiro arrecadado pelas firmas de rações em Minas Gerais, não seja normal
bivariada, apesar do pequeno tamanho de amostras.
Verificando a normalidade multivariada por meio

da curtose e assimetria de Mardia
Os coeficientes de assimetria e curtose de uma distribuição
multivariada qualquer são definidos por:

{( )}
3
) (
t
β1,p = E X − µ Σ −1 Y − µ (4.30)

em que a variável X é independente de Y , mas tem a mesma distribuição com

média µ e covariância Σ ; e

{( )}
2
) (
t
β2,p = E X − µ Σ −1 X − µ (4.31)

Essas esperanças para a distribuição normal multivariada são:
β1,p = 0 e β2,p = p(p + 2)
Para uma amostra de tamanho n, os estimadores de β1,p e β2,p são:
n n
1
βˆ 1,p = 2
n
∑∑ g
i =1 j=1
3
ij
1 n 1 n
βˆ 2,p = ∑ g i2i = ∑ d i4
n i =1 n i =1
em que,
g i j = ( X i − X ) Sn−1 ( X − X) e
t
j di = gi i

Os estimadores β̂1,p (quadrado do coeficiente de assimetria quando
p=1) e β̂2,p (igual ao coeficiente de curtose univariado quando p=1) são não-
( )
negativos. Sob distribuição normal multivariada espera-se que a E( E βˆ 1,p ) seja
zero. O estimador β̂2,p é muitas vezes usado para avaliar observações que estão a
grandes distâncias da média amostral.
Mardia (1970) mostra que para grandes amostras,
nβˆ 1,p
k1 =
6
segue a distribuição de χ2 com p(p+1)(p+2)/6 graus de liberdade, e
k2 =
{ βˆ 2 ,p − p(p + 2) }
1/ 2
⎡ 8p(p + 2) ⎤
⎢⎣ n ⎥⎦
segue a distribuição normal padrão. Para pequenos valores de n, as tabelas de
valores críticos para testar a hipótese multivariada de normalidade são fornecidas
por Mardia (1974).
Exemplo 4.5
Usando o exemplo das rações testar a normalidade multivariada pelo teste dos
desvios de assimetria e curtose. Os valores amostrais são:

Obs Reais Vendas

1 80 10
2 120 12
3 90 6
4 110 8
As estatísticas amostrais são:
⎡100 ⎤ ⎡250 15⎤ −1 ⎡ 0,004878 − 0,014634⎤ 1 ⎡ 5 − 15⎤

X = ⎢ ⎥ Sn = ⎢ ⎥ Sn = ⎢ ⎥ ou S n−1 =
⎣ 9⎦ ⎣ 15 5⎦ ⎣− 0,014634 0,243902⎦ 1025 ⎢⎣− 15 250⎥⎦
Os desvios de cada observação da média amostral ( εi ):

1. ε1t = [ −20 1] 2. ε 2t = [ 20 3] 3. ε3t = [ −10 −3] 4. ε 4t = [10 −1]

i) Teste baseado no coeficiente de assimetria
É necessário calcular os valores de gij para todos os pares de i e j,
obtidos da seguinte forma:
⎡− 20⎤
Para i=1 e j=1, g 1 1 = [− 20 1]Sn−1 ⎢ ⎥ = 2,7805
⎣ 1 ⎦
⎡ 20 ⎤
Para i=1 e j=2, g1 2 = [ −20 1] S−n1 ⎢ ⎥ = −0, 6341
⎣3⎦
Para as demais combinações, têm-se: g1 3=-0,4878, g1 4=-1,6585,
g2 2=2,3902, g2 3=-1,8537, g2 4=0,0976, g3 3=1,8049, g3 4=0,5366 e g4 4=1,0244.
Logo,
βˆ 1,,2 =
( 2, 7805
3
+ 2(−0, 6341)3 + " + 1, 02443 )
=1,2766
16
então,
nβˆ 1, 2 4 × 1,2766
k1 = = = 0,8511
6 6
Como k1 ∼ χ 2 com p(p+1)(p+2)/6=4 graus de liberdade, e sabendo
que χ 02,05; 4 = 9,488 , então H0 não deve ser falseada, ou seja, não existe razões
para suspeitar da violação da simetria da distribuição multivariada.
ii) Teste baseado no coeficiente de curtose
Inicialmente, estima-se o coeficiente de curtose da seguinte forma:
1 n 2 1
n i =1 4
(
βˆ 2,p = ∑ g i i = 2,7805 + 2,3902 + 1,8049 + 1,0244 =
2 2 2 2 17,7513
4
= 4,4378 )
em seguida, estima-se o valor estimado da normal (0, 1):
4, 4378 − 2(2 + 2) −3,5621

k2 = 1
= = −0,8905
⎛ 8× 2× 4 ⎞ 2 4
⎜ ⎟
⎝ 4 ⎠
Não existem razões para duvidar de que a distribuição multivariada
tenha algum desvio de curtose, uma vez que k 2 < z 0, 025 = 1,96 .
iii) Programa SAS para o teste de normalidade
A seguir são apresentados um programa SAS usando o Proc Calis
para o teste da curtose e um programa em IML, para ambos parâmetros. O
programa fornece as estatísticas amostrais e os valores das significâncias
observadas.
Data FR; Proc IML;

Input Reais Vendas; use FR;
cards; read next 4 into X; /* lendo n observacoes dentro de X */
80 10 n=nrow(X);p=ncol(X);
120 12 dfchi=p*(p+1)*(p+2)/6; /*definindo GL para B1,p */
90 6 q=i(n) - (1/n)*j(n,n,1); /* criando q=I-1/nJ, auxiliar */
110 8 S=(1/n)*x`*q*x; /* matriz de covariancias viesada */
; S_inv=inv(S); /* inversa de S */
Proc Calis data=FR Kurtosis; print s s_inv;
Title1 j=1 "Uso do Calis para testar a g=q*x*s_inv*x`*q; /* matriz com gij */
normalidade"; print g;
Title2 "pela Curtose de Mardia"; beta1=(sum(g#g#g))/(n*n); /*produto elem. a elem. E sua soma/n^2 */
Lineqs beta2=trace(g#g)/n; /* idem com tomada do traco/n */
Reais=e1, print beta1 beta2;
vendas=e2; k1=n*beta1/6; /* definindo k1 e k2, transformacoes de b1,p e b2,p */
std k2=(beta2-p*(p+2))/sqrt(8*p*(p+2)/n);
e1=eps1, e2=eps2; pvalskew=1-probchi(k1,dfchi); /* calculo dos p_values respectivos */
Cov pvalkurt=2*(1-probnorm(abs(k2)));
e1=eps1, e2=eps2; print k1 pvalskew;
Run; print k2 pvalkurt;
Quit; /* abandonando IML */
Finalmente é apresentado a seguir um programa SAS para orientar
os leitores na simulação de dados com distribuição normal multivariada com média
e covariância especificada. O exemplo apresentado gera uma distribuição normal
trivariada.
Proc IML;
n=100;p=3;
SIG={8 4 1,
4 10 3,
1 3 18};
st=Root(sig);
mu={1, 10, 8};
x=j(n,p,0);
zi=j(p,1,0);
do i=1 to n;
do ii=1 to p;
zi[ii]=rannor(0);
end;
xi=st`*zi+mu;
do ii=1 to p;
x[I,ii]=xi[ii];
end;
end;
print x;
create dtnorm from x;
append from x;
quit;
proc print data=dtnorm;
run;quit;
4.8. Exercícios
4.8.1. Com os dados do exemplo 4.4, tendo como hipótese que os mesmos
seguem a distribuição normal bivariada, utilize o resultado 4.2, ao nível de
50%, de que as distâncias generalizadas seguem a distribuição
qui-quadrado. Utilizando então a distribuição de proporções, item (a),
verifique a normalidade bivariada dos dados, contando a proporção
observada ( P i ) de distâncias que pertencem a elipse, e comparando com a
estatística abaixo.
0,5 × 0,5 1,5

| P i − 0,5 | > 3 =
n n
4.8.2. Utilizando os dados deste exemplo (1.1), realize todos os testes univariados,
propostos, neste capítulo, para ambas variáveis.
4.8.3. Utilizando os dados climáticos, obtidos por Diniz (1996), na fazenda
Cooparaíso-EPAMIG, Jacuí, MG, de agosto de 1994 a janeiro de 1995,
teste a pressuposição de normalidade tridimensional dos mesmos. Utilize
para isso, o processo gráfico apresentado, e o teste do exercício número
4.8.1 e o teste baseado nos desvios de assimetria e curtose de Mardia.

Temperatura Umidade Relativa (%) Precipitação (mm)
22,7 64,1 7,9

23,7 56,1 1,5
24,3 54,9 0,0
24,4 58,2 0,0
24,5 62,8 8,7
25,2 70,3 22,5
25,5 75,2 57,0
24,7 81,4 75,7
24,3 79,3 123,2
24,7 74,6 124,4
24,9 78,0 148,0
4.8.4. Utilize os dados de uma amostra de 24 cochonilhas, fêmeas adultas, de
Quadraspidiotus perniciosus (Comst.), por ramo de pessegueiro, na região
de Jacuí-MG, e teste a pressuposição de normalidade dos dados, utilizando
os procedimentos apresentados univariados na seção 4.7.
0,8 1,0 0,6 0,6 0,2 0,8 2,5 1,5 0,3 1,7 1,9 2,5 1,1 5,0 0,9 1,7 2,6 4,5
1,8 1,0 0,5 0,4 1,8 0,7

||[ 5
Inferências sobre o vetor média
]||
5.1. Introdução
Este capítulo é o primeiro deste material a apresentar inferências,
utilizando as técnicas, os conceitos e os resultados apresentados nos capítulos
prévios. Este capítulo, por estar intimamente relacionado à inferência estatística,
ou seja, é voltado para obtenção de conclusões válidas para a população com
base nas informações amostrais. As inferências realizadas neste capítulo são
relativas a vetor populacional de médias e nos seus componentes. Umas das
mensagens centrais da análise multivariada, que deverá ser abordada neste e nos
próximos capítulos, é que p variáveis correlacionadas devem ser analisadas
simultaneamente.
5.2. Inferências sobre média de uma população

normal
Nesta seção serão abordados os testes de significância e a obtenção
de intervalos de confiança (IC) para a média de uma população normal.

Inicialmente será abordado o problema de verificar se um determinado valor µ 0 é

um possível valor (plausível) para a verdadeira média populacional desconhecida.
Do ponto de vista dos testes de hipóteses este problema pode ser abordado
através do teste:
H0 : µ = µ0 vs H1 : µ ≠ µ 0

aqui, H0 é a hipótese nula e H1 é a hipótese (bilateral) alternativa. Considerando o
caso univariado, e se X1, X2, ..., Xn representam uma amostra aleatória extraída de
uma população normal, o teste estatístico apropriado para esta hipótese, quando p
é igual a 1, é:
t=
( X − µ ) , em que, X = 1 ∑X
0 n
e S2 =
1 n
∑(Xj − X)2 .
S n j=1 j
n −1 j=1
n
O teste em questão segue a distribuição de t-student com n-1 graus
de liberdade. A hipótese H0 será rejeitada se o valor observado de |t| exceder um
valor crítico especificado da distribuição de t-student com n-1 graus de liberdade
(GL).
Analogamente, considerando agora a distância quadrada da média
amostral X para o valor a ser testado, pode-se rejeitar H0 a um nível de
significância α, se
t2 = n(X−µ0)(S2)−1 (X−µ0) ≥ tn2−1(α 2) (5.1)
em que, t n2 −1 (α / 2) representa o quantil quadrático superior 100(α/2) da distribuição
de t-student com n-1 GL.
Se H0 não é rejeitada, então se conclui que µ0 é um valor plausível
para representar a média populacional normal. No entanto, uma pergunta natural
pode surgir: existem outros valores de µ que são consistentes com os dados? A
resposta é sim. De fato, existe um conjunto de valores plausíveis que serviriam
como média para a população normal estudada. Da bem conhecida
correspondência entre a região de aceitação dos testes de hipóteses e o intervalo
de confiança para µ tem-se:
X −µ0
< tn−1(α / 2) (não rejeitar H0) é equivalente a:
S
n
S S
X − t n −1 ( α / 2 ) ≤ µ 0 ≤ X + t n −1 ( α / 2 ) (5.2)
n n
Antes de a amostra ser retirada, o intervalo de confiança de
100(1-α)% de (5.2) é um intervalo aleatório, pois seus limites dependem das
variáveis aleatórias X e S. A probabilidade do intervalo conter µ é 100(1-α)% e

entre um grande número independentes de tais intervalos, 100(1-α)% deles
conterão µ.
É considerada agora a generalização do caso univariado para o
multivariado. O problema de determinar se um dado vetor µ 0 (p x 1) é um valor

plausível da média de uma distribuição normal multivariada. Uma generalização da
distância quadrada apresentada em (5.1) é:
( ) ( )
t
T 2 = n X − µ 0 S−1 X − µ 0 (5.3)

em que,
⎡ µ01 ⎤
⎢ ⎥
1 n 1 n ⎢µ02 ⎥
X = ∑Xj , S = ∑ ( X j − X )( X j − X ) e µ0 = ⎢ ⎥
t
n j=1 n − 1 j=1 #
⎢ ⎥
⎣⎢µ0p ⎦⎥
A estatística T2 é chamada de chamada de T2 de Hotelling, em honra
a Harold Hotelling (Bock, 1975), um pioneiro da estatística multivariada, que pela
primeira vez obteve a sua distribuição. Felizmente, tabelas especiais dos pontos
percentuais para a distribuição T2 não são necessárias na realização dos testes de
hipóteses, devido à estatística:
(n − 1)p
T2 ser distribuída como Fp,n −p (5.4)
n−p
em que, Fp,n-p representa uma variável com distribuição F com p e n-p GL.
De uma forma geral a distribuição de T2 considerando ν graus de
liberdade e dimensão p é dada por:
νp
T 2 = Fp,ν+1− p × (5.5)
ν +1− p
Desta forma para se testar a hipótese H 0 : µ = µ 0 versus H1 : µ ≠ µ 0 ,

no valor nominal α de significância, deve-se rejeitar H0 em favor de H1 se
(n − 1)p
( ) ( )
t
T 2 = n X − µ 0 S−1 X − µ 0 > Fp,n − p (α) (5.6)
n−p
Infelizmente, é raro, nas situações multivariadas, o pesquisador se
satisfazer com o teste da hipótese H 0 : µ = µ 0 , em que todos os componentes do

vetor média são especificados sob a hipótese de nulidade. Em geral é preferível
encontrar regiões de valores de µ que são plausíveis para serem o vetor de média

populacional na luz dos dados observados.
Exemplo 5.1
A matriz X, apresentada a seguir, representa uma amostra de n=3 observações
retiradas de uma distribuição normal bivariada.

⎡11 2 ⎤
X = ⎢⎢10 4 ⎥⎥
⎢⎣ 9 3 ⎥⎦
Teste a hipótese de que µ 0t =[9 2] seja um valor plausível para representar a média

populacional.
A estatísticas amostrais são:
⎡10 ⎤ ⎡ 1,0 −0,5⎤

X=⎢ ⎥ e S=⎢ ⎥
⎣3⎦ ⎣ −0,5 1,0 ⎦
Então,
1 ⎡4 2⎤
S−1 =
3 ⎢⎣ 2 4 ⎥⎦
E o valor de T2 será obtido da seguinte forma:
1 ⎡ 4 2 ⎤ ⎡10 − 9 ⎤
T 2 = 3 [10 − 9 3 − 2] = 12
3 ⎢⎣ 2 4 ⎥⎦ ⎢⎣ 3 − 2 ⎥⎦
O valor de F2,1 ao nível de 5% é 199,5, então, H0 será rejeitada se o
valor observado de T2 superar

(n − 1)p 4
F2,1 = 199,5 = 798,0 .
n−p 1
Como neste caso, o valor de T2 observado (12,0) foi inferior ao valor
crítico (798,0), então, H0 não deve ser rejeitada. É importante salientar neste
ponto, que a hipótese H0 será rejeitada se um ou mais dos componentes do vetor
média amostral, ou alguma combinação de médias, diferir muito do valor hipotético
µ 0t = [9 2]. Neste estágio, não se tem idéia de quais os valores hipotéticos não são

suportados pelos dados.
5.3. Região de confiança e Comparações

simultâneas de componentes de média
Será inicialmente, generalizado o conceito univariado de intervalo de
confiança para o multivariado de região de confiança, R(X). A região de confiança
conterá 100(1-α)% se antes de a amostra ser selecionada,
P[R(X) cobrir o verdadeiro θ] = 1 − α (5.7)

em que θ , representa um vetor de parâmetros desconhecidos (Krzanowski, 1993).

No caso, a região de confiança para µ de uma distribuição normal p variada, será

todos os valores de µ tais que:

⎡ (n − 1)p ⎤
( ) ( )
t
P ⎢ n X − µ S−1 X − µ ≤ Fp,n − p (α) ⎥ (5.8)
⎣ n−p ⎦
Para determinar se um dado valor µ 0 é um valor plausível de µ ,

basta calcular a distância quadrada generalizada n(X − µ) t S−1 (X − µ) e comparar

com (n − 1)pFp,n −p (α) /(n − p) . Se a distância quadrada for maior que
(n − 1)pFp,n −p (α) /(n − p) , então µ 0 não pertence à região de confiança. Isto é

equivalente a testar a hipótese H0: µ = µ 0 contra a H1: µ ≠ µ 0, a qual possibilita

afirmar que a região de confiança constitui-se em todos os valores de µ 0 cujo

teste T2 não rejeitaria a hipótese nula a favor da alternativa, em um nível de
significância α.
Para p≥4 não se pode fazer o gráfico da região de confiança para µ .

Pode se, no entanto, calcular os eixos da elipsóide de confiança e seus tamanhos
relativos, os quais são determinados pelos autovalores λi e autovetores ei de S.

Os tamanhos dos semi-eixos de
p(n −1)
( ) ( )
t
n X−µ S−1 X−µ ≤ c2 = Fp,n−p (α)
n −p
são determinados por

λi c
= λi [p(n − 1)Fp,n −p (α)]/[n(n − p)] unidades ao longo de ei .
n
Começando do centro, determinado por X , os eixos da elipsóide

são:
± λ i [p(n − 1)Fp,n − p (α )] /[n(n − p)] ei

Exemplo 5.2
A partir dos dados do exemplo 5.1, obter a região de confiança de 95%, e verificar
se o ponto µ 0t =(13, 4) pertence a mesma.

⎡10 ⎤ ⎡ 1,0 −0,5⎤ −1 1 ⎡4 2⎤

X = ⎢ ⎥, S= ⎢ ⎥ e S =
⎣3⎦ ⎣ −0,5 1,0 ⎦ 3 ⎢⎣ 2 4 ⎥⎦
Os autovalores e autovetores de S, são:
λ1 = 1,5 e1t = [ 0, 707107 −0, 707107 ]

λ 2 = 0,5 e 2t = [ 0, 707107 0, 707107 ]

A elipse de confiança 95% para µ consiste de todos os valores

(µ1, µ2) que satisfazem:
1 ⎡ 4 2 ⎤ ⎡10 − µ1 ⎤ 2 (2)
3 [10 − µ1 , 3 − µ 2 ] ⎢ ≤ × 199,5
3 ⎣ 2 4 ⎥⎦ ⎢⎣ 3 − µ 2 ⎥⎦ 1
ou, 4(10 − µ1 ) 2 + 4(10 − µ1 )(3 − µ 2 ) + 4(3 − µ 2 ) 2 ≤ 798
Para verificar se o ponto µ 0t =(13, 4) pertence a elipse, calcula-se:

4(10 − 13) 2 + 4(10 − 13)(3 − 4) + 4(3 − 4) 2 = 52 ≤ 798,0
o que permite que se conclua que o ponto testado está na região de confiança. O
gráfico da elipse obtida pode ser visualizado na Figura 5.1. com a análise gráfica,
pode-se confirmar que o ponto em questão pertence à região de confiança.

x2
x1
Figura 5.1. Elipse de 95% de confiança para o vetor populacional de médias,
obtido a partir dos dados do exemplo 5.1.
Exemplo 5.3
Para exemplificar a região tridimensional para a média populacional, os dados de
produção comercial (t/ha), produção de tubérculos graúdos (t/ha) e peso médio de
tubérculos graúdos (g) de 15 clones de batata selecionados em Maria da Fé e
Lavras (Momenté, 1994), foram utilizados e encontram-se no quadro a seguir.
Obter a região de 95% de confiança para o vetor média populacional.
Verificar se o ponto µ 0t = (16,89 8, 76 109, 23) pertence a região de confiança (ponto

referente a cultivar Achat). Traçar a região de confiança.
Clones Produção Produção de Peso médio de

comercial tubérculos graúdos tubérculos graúdos
1 47,82 40,40 146,30
2 42,40 26,96 94,58
3 41,82 27,33 143,66
4 40,77 21,81 127,29
5 40,27 33,06 115,17
6 39,84 22,31 99,32
7 38,36 32,81 150,13
8 38,15 26,02 131,17
9 37,55 21,69 152,04
10 36,19 25,65 154,83
11 36,15 23,46 95,43
12 35,17 25,29 105,97
13 34,90 22,92 113,59
14 34,57 16,25 86,39
15 34,15 21,75 119,50
Fonte: Momenté, 1994
O vetor de médias e a matriz de covariância amostrais são:
⎡ 38,541 ⎤ ⎡13,8195 15,8284 24,7250 ⎤

X = ⎢⎢ 25,854 ⎥⎥ S = ⎢⎢15,8284 34,8769 63,0215 ⎥⎥

⎢⎣122,358⎥⎦ ⎢⎣ 24,7250 63,0215 540,1553⎥⎦
Os autovalores e autovetores de S são:
λ1 = 549, 208 e1t = (0, 049 0,123 0,991)

λ 2 = 34, 460 e 2t = (0,500 0,856 − 0,131)

λ 3 = 5,185 e3t = (0,865 − 0,502 0, 019)

A região de confiança fica determinada por:
p(n − 1)
n(X − µ) t S−1 (X − µ) ≤ c 2 = Fp,n − p (α)
n−p
⎡ 0,15149 Sim. ⎤ ⎡ 38,541 − µ1 ⎤

15 [38,541 − µ1 25,854 − µ 2 ⎢
122,358 − µ3 ] ⎢ −0, 07124 0, 06983 ⎥ ⎢ 25,854 − µ ⎥ ≤
⎥ ⎢ 2 ⎥
⎢⎣ 0, 00138 −0, 00489 0, 002358⎥⎦ ⎢⎣122,358 − µ3 ⎥⎦

3 × 14
× 3, 49 = 12, 215
12
= 2, 27(38,541 − µ1 ) 2 − 2,14(38,541 − µ1 )(25,854 − µ 2 ) + 0,04(38,541 − µ1 )(122,358 − µ 3 ) +

+1,05(25,854 − µ 2 ) 2 − 0,15(25,854 − µ 2 )(122,358 − µ 3 ) + 0,04(122,358 − µ 3 ) 2 ≤ 12, 215
Para verificar se o ponto µ 0t = (16,89 8, 76 109, 23) pertence à região

de confiança, basta substituir os valores de µ1 por 16,89, de µ2 por 8,76 e o de µ3
por 109,23. O valor encontrado de 563,4964 é superior a 12,215, o que indica que
a média da Cultivar Achat, não pertence à região de 95% de confiança para média
das 15 famílias clonais estudadas.
Utilizando o programa Maple, através da seguinte macro, foi traçado
o gráfico, elipsóide de confiança (Figura 5.2), da região de 95% de confiança para
µ . Pode-se visualizar também que o ponto em questão não pertence a elipsóide

de confiança.
x3
x1
x2
Figura 5.2. Elipsóide de 95% de confiança para o vetor de médias populacional,
obtida a partir dos dados do exemplo 5.3.
Intervalos de confiança simultâneos
Enquanto a região de confiança fornece corretamente o conjunto de
valores plausíveis para a média de uma população normal, qualquer resumo de
conclusões, em geral, inclui intervalos de confiança sobre médias individuais.
Assim, adota-se que todos os intervalos de confiança sejam verdadeiros
simultaneamente com uma alta probabilidade específica. Isto garante com alta
probabilidade que qualquer afirmação não seja incorreta, o que conduz ao termo
intervalo de confiança simultâneo (Johnson e Wichern, 1998).
Considerando uma combinação linear das médias amostrais,
A t X = A1 X1 + A 2 X 2 + " + A p X p

cuja distribuição amostral possui estimador da covariância dado por:
A t SA

n
Dessa forma poderia se pensar em se obter intervalos de confiança
de 95% baseados na distribuição de t-student,
A t SA
A X ± t n −1 (α / 2)
t
(5.9)
n
O intervalo da expressão (5.9) pode ser interpretado como intervalos
sobre componentes do vetor de média, assim, por exemplo, fazendo-se
A t = [1 0 .... 0] , a expressão (5.9) se torna o intervalo clássico para a média de uma

população normal univariada. Neste caso tem-se uma série de inferências sobre
os componentes de µ , cada um associado com o coeficiente de confiança de 1-α,

através de diferentes escolhas de A . No entanto o coeficiente de confiança para

todos os intervalos tomados simultaneamente não é 1-α. Para corrigir esta
imperfeição demonstra-se (Johnson e Wichern, 1988; Anderson, 1984) que para
garantir o coeficiente nominal de confiança simultâneo de 1-α para a cobertura de
os valores paramétricos é necessário recorrer à distribuição de T2. Este resultado
está apresentado a seguir:
p(n − 1)
At X ± Fp,n − p (α )A t SA (5.10)
n(n − p)
Método de Bonferroni para Comparações múltiplas
Muitas vezes um pequeno número de intervalos de confiança é
requerido. Nestas situações pode-se ter uma melhor opção do que as
comparações simultâneas, proposta em (5.10), obtendo intervalos de confiança
mais curtos (mais precisos) do que o intervalo simultâneo de T2. Esta alternativa
de intervalo é conhecida por método de Bonferroni.
A seguir será apresentado o método para obtenções de intervalo de
confiança para os componentes de média. Se as m=p médias forem consideradas,
então, o método de Bonferroni é:
Sii
Xi ± tn−1(2m
α
) i =1,2,...,p = m (5.11)
n
Exemplo 5.4
Utilizando os dados do exemplo 5.2, obter os intervalos clássicos de t-student, T2 e
Bonferroni, para os componentes individuais do vetor de média, e compará-los
entre si, quanto ao comprimento.
O vetor de médias e a matriz de covariância amostral são:
⎡10 ⎤ ⎡ 1,0 −0,5⎤

X=⎢ ⎥ e S=⎢ ⎥
⎣3⎦ ⎣ −0,5 1,0 ⎦
1. Intervalo T2
p(n − 1) S
■ ICµ1 (0,95) = X1 ± Fp,n − p (α) 11
n−p n
2(3 − 1) 1
ICµ1 (0,95) = 10 ± 199,5
3−2 3
ICµ1 (0,95) = 10 ± 16,31 = [−6,31; 26,31]
2(3 − 1) 1
■ ICµ2 (0,95) = 3 ± 199,5
3− 2 3
ICµ2 (0,95) = 3 ± 16,31 = [−13,31; 19,31]

Observa-se que os limites dos intervalos de confiança múltiplos
representam os limites da elipse de confiança de 95% (Figura 5.1), projetados nos
respectivos eixos.
2. Intervalo de Bonferroni
Neste caso, m=p=2, portanto α/2m=0,0125. O valor de t-student
correspondente, com n-1=2 GL é 6,21. Então,
1
■ ICµ1 (0,95) = 10 ± 6, 21
3
ICµ1 (0,95) = [6, 41; 13,59]
1
■ ICµ2 (0,95) = 3 ± 6, 21
3
ICµ2 (0,95) = [−0,59; 6,59]
Observa-se nesta situação que os intervalos são bem mais estreitos
que o seu correspondente em 1.

3. Intervalo t de Student
Neste caso α/2=0,025 e o valor de t-student correspondente com 2
GL é 4,30. Então,
1
■ ICµ1 (0,95) = 10 ± 4,30
3
ICµ1 (0,95) = [7,52; 12, 48]
1
■ ICµ2 (0,95) = 3 ± 4,30
3
ICµ2 (0,95) = [0,52; 5, 48]
Apesar de estes últimos intervalos individualmente garantir com 95%
de probabilidade que as médias populacionais estão contidas nos mesmos, não há
garantia de que simultaneamente eles contenham as médias populacionais no
mesmo valor nominal do coeficiente de confiança, diga-se 95%. Na melhor das
hipóteses, variáveis não correlacionadas, o valor real do coeficiente de confiança é
(1-α)p=0,952=0,9025.
5.4. Inferências sobre proporções de grandes

amostras
Freqüentemente, algumas características de interesse na população
estão na forma de atributos. Cada indivíduo nesta população pode ser descrito em
termos dos atributos que possui, os quais são codificados, pela sua presença e
ausência. Na população, com q característica, a proporção de elementos que
possui os atributos 1, 2, ..., q é p1, p2, ..., pq. Considerando q atributos mutuamente
exclusivos e características exaustivas, então, pq=1-(p1+p2+...+pq-1).
Numa grande amostra de tamanho n, pelo teorema do limite central,
p̂ possui distribuição aproximadamente normal, com

⎡ p1 ⎤ ⎡ p1 (1 − p1 ) −p1 p 2 " − p1 p q ⎤
⎢p ⎥ ⎢ −p p p 2 (1 − p 2 ) " − p 2 p q ⎥⎥ 1
1
E(p) = ⎢ ⎥
ˆ 2
ˆ = ⎢
e Cov(p)
2 1
= Σ.
⎢#⎥ n⎢ # # % # ⎥ n
⎢ ⎥ ⎢ ⎥
⎣⎢ p q ⎦⎥ ⎣⎢ − p q p1 −pq p 2 " p q (1 − p q ) ⎦⎥
Para grandes amostras, a aproximação continua válida se um
()
estimador de Cov pˆ , (1/n) Σ̂ , for utilizado.

Uma vez que cada elemento da população está associado a apenas
um atributo, então, pq=1-(p1+p2+...+pq-1), o que trás como conseqüência que o
posto de Σ̂ é igual a q-1, portanto sua inversa não existe. Apesar disso, pode-se
desenvolver intervalos de confiança simultâneos aproximados de 100(1-α)%, para
qualquer combinação A t p .

Para uma amostra de tamanho n, considerando q categorias da
distribuição multinomial, o intervalo aproximado de confiança simultâneo de
100(1-α)%, para qualquer combinação A t p = A1p1 + A 2 p 2 + ... + A q p q , é dado por:

A t Σˆ A
A t p̂ ± χ q2 −1 (α) (5.12)
n
garantindo que n-1-q seja grande. Segundo Johnson e Wichern (1988), o valor
grande de n-q-1, significa que npˆ k deve estar em torno de 20 para cada categoria
k=1, 2, ..., q.
Exemplo 5.5
Numa amostra de n=35 cochonilhas, obtida na região de Jacuí, MG, em fevereiro
de 1995, em plantas de pessegueiro tratadas, Diniz (1996) obteve os seguintes
resultados:
Fêmeas adultas Ninfa móvel Ninfa fêmea Ninfa macho Total

5 11 15 4 35
Obter os intervalos de confiança simultâneos de 95% usando a aproximação de
grandes amostras para proporções de insetos em cada categoria.
O vetor de proporções e a matriz de covariância amostral são:

⎡ 0,1429 ⎤ ⎡ 0,1225 Sim. ⎤

⎢ 0,3143 ⎥ ⎢ −0,0449 0, 2155 ⎥
p̂ = ⎢ ⎥ ˆ
e Σ= ⎢ ⎥
⎢ 0, 4286 ⎥ ⎢ −0,0612 −0,1347 0, 2449 ⎥
⎢ ⎥ ⎢ ⎥
⎣ 0,1142 ⎦ ⎣ −0,0163 −0,0359 −0,0489 0,1012 ⎦
O valor de χ32 (0, 05) é 7,815, e os intervalos são:
0,1225
p1 : 0,1429 ± 7,815 = 0,1429 ± 0,1654 = [−0,0225; 0,3083]
35
0, 2155
p 2 : 0,3143 ± 7,815 = [0,0949; 0,5337]
35
0, 2449
p3 : 0, 4286 ± 7,815 = [0,1948; 0,6624]
35
0,1012
p 4 : 0,1142 ± 7,815 = [−0,0361; 0, 2645]
35
5.5. Comparações pareadas
Em muitas situações experimentais deseja-se testar o efeito ou
eficácia de um tratamento. Para isso, medidas são tomadas nas unidades
experimentais antes e após a aplicação do tratamento. Uma outra situação em
que esta comparação pode ser de interesse é quando na mesma unidade

amostral ou experimental dois tratamentos são aplicados. Estas respostas são
denominadas medidas pareadas, e podem ser analisadas calculando-se suas
diferenças, eliminando a influência da variação entre as unidades experimentais
ou amostrais.
Será, inicialmente, abordado o caso univariado e, em seguida, a sua
respectiva generalização para o caso multivariado. Denotando X1j a resposta do
tratamento 1 (ou resposta antes do tratamento) e X2j a resposta do tratamento 2
(ou resposta após o tratamento) para a j-ésima unidade amostral ou experimental,
em que (X1j, X2j) são medidas tomadas na mesma unidade amostral ou
experimental, então as n diferenças:
Dj = X2j - X1j , j=1, 2, ..., n (5.13)
devem refletir somente o efeito diferencial entre os tratamentos.
Assumindo que as diferenças Dj são observações independentes de
uma distribuição normal N(δ, σ 2D ), a variável
D−δ
t= (5.14)
SD
n
segue a distribuição de t-student com n-1 graus de liberdade, em que:

⎡ ⎛ n ⎞
2
⎤
1 ⎢
⎢ ⎜ ∑ Dj ⎟ ⎥
⎥
1 n 1 n
( )
n
D 2j − ⎝ ⎠
2
∑ Dj e ∑ Dj − D ∑
2 j=1
D=
n j=1 SD = n − 1 j=1
=
n − 1 ⎢⎢ n ⎥ (5.15)
j=1
⎥
⎢ ⎥
⎣ ⎦
Conseqüentemente, para um coeficiente de confiança de 1-α, o teste
para a hipótese:
H0 : δ = 0 (efeito nulo de tratamento)

H1 : δ ≠ 0
pode ser realizado comparando-se | t | com tn-1(α/2), o quantil 100(α/2) superior da
distribuição de t-student com n-1 graus de liberdade.
O intervalo de confiança de 100(1-α)% para o efeito do tratamento
(ou diferença de efeitos dos tratamentos) é dado pela maneira usual e
apresentado a seguir.
SD
D ± t n −1 (α / 2) (5.16)
n
Para extensão multivariada dos procedimentos adotados no caso
univariado, a seguinte notação é utilizada, pois existe a necessidade de distinguir
entre os índices para os dois tratamentos (1o índice), a resposta da j-ésima
unidade experimental ou amostral (2o índice) e as p variáveis (3o índice). Neste
caso, X1jk representa a resposta do tratamento 1 (ou medida antes de se aplicar o

tratamento) na k-ésima variável tomada na j-ésima unidade e, X2jk representa a
resposta do tratamento 2 (ou medida após se aplicar o tratamento) na k-ésima
variável tomada na j-ésima unidade, sendo que j=1, 2, ..., n; k=1, 2, ..., p.
As diferenças têm a mesma notação com exceção do primeiro índice,
do efeito do tratamento, que deve desaparecer. Isto se deve ao fato de as
diferenças refletirem o efeito diferencial dos tratamentos. Assim, Djk representa a
diferença entre os tratamentos na j-ésima unidade amostral ou experimental obtida
na k-ésima variável. Fazendo D tj = ⎡⎣ D j1 D j2 " D jp ⎤⎦ e assumindo que é

distribuído normal e independentemente, Np( δ, Σ D ), a estatística T2 se aplica para

se realizar inferências sobre o vetor média das diferenças. Os seguintes
resultados podem ser obtidos, a partir das pressuposições assumidas.
Dadas as diferenças observadas D tj = ⎡⎣ D j1 D j2 " D jp ⎤⎦ ,

j=1, 2, ..., n, um teste de a hipótese H o : δ = δ0 vs H1 : δ ≠ δ0 deve rejeitar H0 se o

valor observado
p(n − 1)
T 2 = n ( D − δ0 ) Sd−1 ( D − δ0 ) >
t
Fp,n − p (α) (5.17)
(n − p)
em que,
1 n 1 n
D = ∑ Dj ∑ ( D j − D )( D j − D )
t
e SD =
n j=1 n − 1 j=1
A região de confiança de 100(1-α)% para δ consiste em todos os

valores de δ tais que

p(n − 1)
T 2 = n(D − δ) t SD−1 (D − δ) ≤ Fp,n − p (α ) (5.18)
(n − p)
Os intervalos de confiança simultâneos 100(1-α)% para as diferenças
de médias individuais δi são dados por:
p(n − 1) S
ICδi (1 − α) : Di ± Fp,n − p (α) D(ii) (5.19)
(n − p) n
em que, Di é o i-ésimo elemento de D e SD(ii) é i-ésimo elemento da diagonal de

SD .
Para n-p grande, [(n-1)p/(n-p)]Fp,n-p(α) ≅ χp2 (α) , e a normalidade não
precisa ser assumida.
O intervalo simultâneo de Bonferroni 100(1-α)% para as médias
individuais das diferenças δi é:
⎛α⎞ S
ICδi (1 − α) : Di ± t n −1 ⎜ ⎟ D(ii) (5.20)
⎝ 2p ⎠ n
Exemplo 5.6
Em uma amostra de n=4 fazendas em Marechal Cândido Rondon foram
mensuradas a produção leiteira diária média por animal (X1) e a renda total diária
da produtividade de leite (X2) antes da aplicação do plano governamental “panela
cheia” e após a aplicação. Testar a hipótese de que o plano foi ineficiente em
aumentar a média dos dois índices zootécnicos. Os dados da amostra são:
Antes Após
X1j1 X1j2 X2j2 X2j2
10 80 13 90
11 80 15 92
9 60 16 88
8 60 19 90
A hipótese a ser testada é:
⎡0⎤
H0 : δ = 0 = ⎢ ⎥
⎣0⎦
As diferenças foram obtidas e são dadas por:
Dj1 Dj2
3 10
4 12
7 28
11 30
As estimativas amostrais são:

⎡ 6, 25 ⎤ ⎡12,9167 34, 6667 ⎤

D=⎢ ⎥ e SD = ⎢ ⎥
⎣ 20, 00 ⎦ ⎣34, 6667 109,3333⎦
O valor da estatística T2 pode ser computado por:
⎡ 0,5195 −0,1647 ⎤ ⎡ 6, 25 ⎤
T 2 = 4 [ 6, 25 20] ⎢ ⎥⎢ ⎥ = 14, 6515
⎣ −0,1647 0, 0614 ⎦ ⎣ 20, 00 ⎦
O valor crítico é:
p(n − 1) 2 × (4 − 1)
Fp,n − p (5%) = F2,4 − 2 (5%) = 3 × 19 = 57
(n − p) (4 − 2)
Como T2=14,6515<57, então, H0 não pode ser falseada para o valor
nominal de 5% de significância.
Os intervalos de confiança simultâneos são:
2(4 − 1) 12,9167
ICδ1 (0,95) : D1 ± F2,4− 2 (0, 05) = 6, 25 ± 13,57 = [ −7,32;19,82]
(4 − 2) 4
2(4 − 1) 109,3333
ICδ2 (0,95) : D 2 ± F2,4− 2 (0, 05) = 20 ± 39, 47 = [ −19, 47; 59, 47 ]
(4 − 2) 4
5.6. Comparações de vetores médias de duas

populações
O teste T2 para testar a igualdade de vetores média de duas
populações pode ser desenvolvido por analogia ao procedimento univariado. Este
teste T2 é apropriado para comparar a resposta média de um grupo experimental
(população 1) com a resposta média “independente” de outro grupo experimental
(população 2). Se possível, as unidades experimentais devem ser sorteadas para
cada conjunto de observações de ambas as populações, o que abrandará o efeito
da variabilidade entre unidades na comparação entre tratamentos. Apesar disto,
este tipo de comparação, é em geral, menos preciso do que o caso de
comparações pareadas.
Considerando uma amostra aleatória de tamanho n1 da população 1
e uma amostra n2 da população 2. As observações das p variáveis podem ser
organizadas como:
Amostra Estatísticas amostrais

(População 1) 1 n1
1 n1
X1 = ∑ X1j ∑ ( X1j − X1 )( X1j − X )
t
X11 , X12 , ..., X1n1 S1 =
n1 j=1 n1 − 1 j=1
(População 2) 1 n2 1 n2 t
X 21 , X 22 , ..., X 2n 2 X

2 = ∑ X2 j
n 2 j=1
S2 = ∑ (
n 2 − 1 j=1
X 2 j − X 2 )( X 2 j − X 2 )

Subscritos 1 e 2, denotam a população.
Deseja-se realizar inferência a respeito da diferença de médias
populacionais ( µ1 − µ 2 ), para verificar se esta diferença é nula, o que equivale a

afirmar que não existe efeito dos tratamentos. De forma equivalente, pode-se fazer
tal inferência, testando a hipótese de igualdade dos vetores médias populacionais
( H 0 : µ1 = µ 2 ). Algumas pressuposições devem ser obedecidas para a validade dos

testes e da inferência realizada. Entre as pressuposições destaca-se a
necessidade de que sejam realizadas amostras aleatórias, de tamanho n1 e n2, de
ambas as populações (população 1 com média µ1 e covariância Σ1 , e população 2

com média µ 2 e covariância Σ 2 ); além disso, supõe-se que as observações da

amostra 1 são independentemente obtidas em relação aquelas da amostra 2.
Ainda é necessário assumir que ambas as populações sejam normais que a matriz
de covariância amostral seja a mesma ( Σ1 = Σ 2 = Σ ).
As matrizes de covariância S1 e S2 são estimadores de Σ1 e de Σ 2 ,
respectivamente. Conseqüentemente, pode-se combinar as informações de
ambas as amostras para estimar a variância comum Σ da seguinte forma:
(n1 − 1)S1 + (n2 − 1)S2

Sp = (5.21)
n1 + n2 − 2
Para se testar a hipótese H 0 : µ1 − µ 2 = δ0 , considera-se os seguintes

resultados:
(

)
E X1 − X 2 = µ1 − µ 2

(5.22)
⎛1 1 ⎞

(
)
Cov X1 − X 2 = ⎜ + ⎟ Σ (5.23)
⎝ n1 n 2 ⎠
Devido ao resultado (5.21), em que Sp é um estimador de Σ, então,
⎛1 1 ⎞
⎜ + ⎟ Sp
⎝ n1 n2 ⎠
é um estimador de Cov X1 − X 2 .

( )
Demonstra-se que o teste da razão de verossimilhança para a
hipótese,
H 0 : µ1 − µ 2 = δ0

é dado pela distância quadrada T2. Rejeita-se H0 se
−1
⎡⎛ 1 1 ⎞ ⎤ (n1 + n 2 − 2)p
T = [X1 − X 2 − δ0 ] ⎢⎜ + ⎟ Sp ⎥ [X1 − X 2 − δ0 ] >
2 t
Fp,n + n − p −1 (α )
⎣ ⎝ n1 n 2 ⎠ ⎦ (n1 + n 2 − p − 1) 1 2
Exemplo 5.7
Os dados a seguir referem-se à produtividade e altura de plantas de duas
variedades de milho (A e B). Determinar a região de 95% de confiança para
diferença µ1 − µ 2 .

A B
Produtividade Altura da planta Produtividade Altura da planta
5,7 2,10 4,4 1,80
8,9 1,90 7,5 1,75
6,2 1,98 5,4 1,78
5,8 1,92 4,6 1,89
6,8 2,00 5,9 1,90
6,2 2,01
As estatísticas amostrais são:
⎡6,57 ⎤ ⎡ 1, 4587 −0,0514 ⎤

X1 = ⎢ ⎥ , S1 = ⎢ ⎥
⎣1,99 ⎦ ⎣ −0,0514 0,0051 ⎦
⎡5,56 ⎤ ⎡ 1,5430 −0,0366 ⎤

X2 = ⎢ ⎥ , S2 = ⎢ ⎥
⎣1,82 ⎦ ⎣ −0,0366 0,0045 ⎦
A matriz de variância e covariância amostral combinada é:
⎡ 1, 4962 −0,0448⎤
Sp = ⎢ ⎥
⎣ −0,0448 0,0048 ⎦
Os autovalores e autovetores de Sp são:
λ1 = 1, 4975 e1t = [ 0,9995 −0, 0300]

λ 2 = 0, 0035 e 2t = [ 0, 0300 0,9995]

O valor de F2,8(0,05)=4,459. A região de confiança é dada por:
−1
⎡⎛ 1 1 ⎞ ⎤ (n1 + n 2 − 2)p
T = [X1 − X 2 − δ0 ] ⎢⎜ + ⎟ Sp ⎥ [X1 − X 2 − δ0 ] ≤
2 t
Fp,n + n − p −1 (α )
⎣ ⎝ n1 n 2 ⎠ ⎦ (n1 + n 2 − p − 1) 1 2
⎡ δ ⎤ ⎡ µ − µ 21 ⎤
em que, δ0 = ⎢ 1 ⎥ = ⎢ 11 ⎥
⎣δ 2 ⎦ ⎣µ12 − µ 22 ⎦
Desta forma com os valores amostrais, tem-se:
30 ⎡ 0,9276 8,6575 ⎤ ⎡ 1,01 − δ1 ⎤

[1,01 − δ1 0,17 − δ 2 ] × ×⎢ ⎥ ≤ 10,0328
11 ⎣8,6575 289,1364 ⎥⎦ ⎣0,17 − δ 2 ⎦
⎢
Esta equação foi implementada no programa Maple, para se obter a
elipse de 95% de confiança, apresentada na Figura 5, cujos comandos estão
apresentados a seguir:
µ12 − µ 22
µ11 − µ 21
Figura 5.3. Elipse de 95% de confiança para diferença do vetor média de ambas
as variedades de milho.
Verifica-se pela Figura 5.3 que a origem 0 t =[0, 0], não pertence a

região de confiança, indicando que as duas variedades diferem quanto ao vetor
média.
Intervalos de confiança simultâneos
Para desenvolver intervalos de confiança simultâneos para um
componente de µ1 − µ 2 , adota-se o vetor A tal que a combinação A t ( µ1 − µ 2 ), será

abrangida com probabilidade 1-α, para qualquer escolha de A , por

(n1 + n 2 − 2)p ⎛1 1 ⎞
A t ( X1 − X 2 ) ± Fp,n1 + n 2 − p −1 (α) ⎜ + ⎟ A tSp A (5.24)
n1 + n 2 − p − 1 ⎝ n1 n 2 ⎠
Método de Bonferroni para comparações múltiplas
O intervalo de confiança simultâneo de 100(1-α)% de Bonferroni para
as p diferenças entre duas médias populacionais é dado por:
⎛α ⎞ ⎛1 1 ⎞
µ1i − µ 2i : (X1i − X 2i ) ± t n1 + n 2 − 2 ⎜ ⎟ ⎜ + ⎟ Sii (5.25)
⎝ 2p ⎠ ⎝ n1 n 2 ⎠
Comparações entre vetores médias quando Σ1 ≠ Σ 2
Quando Σ1 ≠ Σ 2 , a distribuição das estatísticas dependem de uma
medida de distância que não são independentes das covariâncias populacionais
desconhecidas. Por serem desconhecidas as covariâncias populacionais, o teste

de Bartlett pode ser usado para testar H0: Σ1 ≠ Σ 2 . No entanto, este teste é
fortemente afetado se a pressuposição de normalidade for violada. O teste em
questão não pode diferenciar entre a ausência de normalidade e a
heterogeneidade das covariâncias. Quando ambos n1-p e n2-p são grandes,
pode-se evitar as complicações da desigualdade de variâncias, utilizando a
elipsóide de 100(1-α)% de confiança aproximada, dada por (5.26). O problema de
covariâncias heterogêneas, quando as amostras são provenientes de populações
normais é conhecido como problema de Behrens-Fisher multivariado.
−1
⎡1 1 ⎤
[X1 − X 2 − δ0 ] ⎢ S1 + S2 ⎥ [X1 − X 2 − δ 0 ] ≤ χ p2 (α )
t
(5.26)
⎣ n1 n2 ⎦
O intervalo de confiança simultâneo aproximado é dado por:
⎛1 1 ⎞
A t ( X1 − X 2 ) ± χ p2 (α ) A t ⎜ S1 + S2 ⎟ A (5.27)
⎝ n1 n2 ⎠
Sete soluções para o problema multivariado de Behrens-Fisher foram
estudadas por Christensen e Rencher (1997) por meio de simulação Monte Carlo,
comparando as taxas de erro tipo I e o poder destas soluções. Algumas dessas
soluções estudadas por estes autores são apresentadas a seguir.

a) Aproximação de Bennett
A primeira dessas alternativas é àquela estudada por Bennett (1951),
a qual assume que n2≥n1, o que não é limitante. Para contornar o problema, caso
essa condição não seja atendida, basta trocar os nomes das amostras, isto é, a
amostra 1 passa ser a amostra 2 e vice-versa. Inicialmente é necessário calcular
os vetores Z j , j = 1, 2, " , n1 da seguinte forma.

n1 n2
n 1 1
Z j = X1j − 1 X 2 j +
n2 n 1n 2
∑ X2 j −
j=1 n2
∑ X
k =1
2k (5.28)
Em seguida calcula-se a média ( Z ) e a covariância (SZ) a partir das n1

observações amostrais p-variadas obtidas na expressão (5.28). A estatística
T 2 = n1Zt S−Z1Z (5.29)

possui distribuição T2 de Hotelling com dimensão p e ν=n1-1 graus de liberdade,
que pode ser dada pela expressão geral (5.5).
b) Aproximação de James
A aproximação de James (1954) envolve uma correção do valor de χ 2
quando se utiliza a estatística T*2, definida por:

−1
∗2 ⎡1 1 ⎤
T = [X1 − X 2 ] ⎢ S1 + S2 ⎥ [X1 − X 2 ] ~ χ p2
t
(5.30)
⎣ n1 n2 ⎦
James (1954) propõe valores críticos ajustados ao invés de utilizar a
distribuição aproximada de qui-quadrado diretamente. Os valores críticos
propostos por James (1954) são dados em (5.31).
χ 2p (α ) × ( A + Bχ 2p (α ) ) (5.31)
em que χ 2p (α) é o quantil superior α da distribuição de qui-quadrado e A e B são
dados em (5.32) e (5.33).
1 2 ⎧⎪ 1 ⎡ ⎛ −1 Si ⎫⎪
2
⎞⎤
A = 1+ ∑ ⎨ ⎢ tr ⎜ Se ⎟⎥ ⎬ (5.32)
2p i =1 ⎪ n i − 1 ⎣ ⎝ ni ⎠⎦ ⎪⎭
⎩
1 ⎧⎪ ⎡ ⎛ −1 Si ⎞ ⎤ ⎡ ⎛ −1 Si ⎞ ⎤ ⎫⎪
2 2
2
1
B= ∑ ⎨ tr ⎢ 2 ⎜ Se
2p(p + 2) i =1 n i − 1 ⎪ ⎢ ⎝
⎟ ⎥ + ⎢ tr ⎜ Se
ni ⎠ ⎥ ⎣ ⎝
⎟⎥ ⎬
ni ⎠⎦ ⎪
(5.33)
⎩ ⎣ ⎦ ⎭
em que:
S1 S2
Se = + (5.34)
n1 n 2
c) Aproximação de Yao
A aproximação de Yao (1965) é uma extensão da aproximação de
Welch para os graus de liberdade. A estatística (T*2) apresentada em (5.30) é
aproximada por uma T2 de Hotelling com dimensão p e graus de liberdade ν dados
por (5.35).
1 1 2 ⎧⎪ 1 ⎡ t −1 S ⎤ ⎫⎪
2
∑ ⎢( X1 − X 2 ) Se Se ( X1 − X 2 ) ⎥ ⎬
−1
= ⎨
i
(5.35)
ν ( T ∗2 ) 2 i =1 ⎪ n i − 1 ⎣ ni ⎦ ⎪
⎩ ⎭
d) Aproximação de Johansen
A aproximação de Johansen (1980) usa a estatística T*2 de (5.30)
dividida por uma constante C para que a estatística resultante tenha distribuição
aproximada pela distribuição F com ν1=p e ν2=ν graus de liberdade. Assim, os
valores necessários para calcular a estatística Fc de Johansen (1980) são:
T∗ 2
Fc = (5.36)
C
2D + 6D
C = p− (5.37)
p(p − 1) + 2
{ }
2
1 ⎡ tr ( I − V −1V )2 ⎤ + ⎡ tr ( I − V −1V ) ⎤ 2
D=∑ (5.38)
i =1 2(n i − 1) ⎣⎢
i
⎦⎥ ⎣ i ⎦
p(p + 2)
ν= (5.39)
3D
com Vi=(Si/ni)-1 para i=1 ou 2 e V=V1+V2.
e) Aproximação de Nel e Van der Merwe
A aproximação de Nel e Van der Merwe (1986) usa a estatística T*2
de (5.30), a qual é aproximada pela T2 de Hotelling com dimensão p e graus de
liberdade ν, em que:
tr ( Se ) + ⎡⎣ tr ( Se ) ⎤⎦
2 2
ν= (5.40)
1 ⎧⎪ ⎛ S1 ⎞ ⎡ ⎛ S1 ⎞ ⎤ ⎫⎪ 1 ⎧⎪ ⎛ S2 ⎞ ⎡ ⎛ S2 ⎞ ⎤ ⎫⎪
2 2 2 2
⎨ tr ⎜ ⎟ + ⎢ tr ⎜ ⎟ ⎥ ⎬ + ⎨ tr ⎜ ⎟ + ⎢ tr ⎜ ⎟ ⎥ ⎬
n1 − 1 ⎪ ⎝ n1 ⎠ ⎣ ⎝ n 1 ⎠ ⎦ ⎪ n 2 − 1 ⎪ ⎝ n 2 ⎠ ⎣ ⎝ n 2 ⎠ ⎦ ⎪
⎩ ⎭ ⎩ ⎭
É conveniente chamar a atenção para o fato de que nas expressões
anteriormente apresentadas aparece um termo como: tr(A)2. Esse termo significa
que é necessário calcular tr(A*A). Em outras ocasiões os termos eram [tr(A)]2, o
que significa que o traço da matriz A deve ser calculado e o seu quadrado é a
resposta almejada.
f) Aproximação de Kim
A aproximação de Kim (1992) é a mais elaborada de todas e também
se refere a uma extensão da aproximação dos graus de liberdade de Welch, como
acontece com o procedimento de Yao (1965). O procedimento de Kim requer a
maximização de um par de formas quadráticas dado por:
S
qt 1 q
n
d= 1
S
qt 2 q
n2
A maximização desse par de formas quadráticas resulta na solução
do sistema de equações homogêneas dado por (5.41).
⎡ S1 S2 ⎤
⎢ − dk ⎥ qk = 0 (5.41)
⎣ n1 n2 ⎦
A solução desse sistema pode ser obtida conforme descrito no
capítulo 2. O autovalores dk e os autovetores q k (k=1, 2, ..., p) são utilizados para

definir a matriz D=diag(d1, d2, ..., dp) e Q = ⎡⎣ q1 q 2 " q p ⎤⎦ . A partir dessas

matrizes definem-se as seguintes quantidades:
w = Q t ( X1 − X 2 ) (5.42)

1
⎛ p ⎞ 2p
r = ⎜ ∏ dk ⎟ (5.43)
⎝ k =1 ⎠
dk + 1
Ak = (5.44)
( )
2
dk + r
∑A 2
k
c= k =1
p
(5.45)
∑Ak =1
k
2
⎛ p ⎞
⎜ ∑Ak ⎟
f =⎝ p ⎠
k =1
(5.46)
∑ A2k k =1
O próximo passo é calcular a estatística do teste que tem uma
aproximação F dada na expressão (5.48) com ν1=f e ν2=ν-p+1 graus de liberdade.
O valor ν é definido em (5.49).
G = w t ( D1/ 2 + rI ) (D + rI ) w
−1 1/ 2 −1
(5.47)

(ν − p + 1)G
Fc = (5.48)
cfν
2 2
1 1 ⎡ w t D(D + I) −2 w ⎤ 1 ⎡ w t (D + I) −2 w ⎤
= ⎢ ⎥ + ⎢ ⎥ (5.49)
ν n1 − 1 ⎣ w t (D + I) −1 w ⎦ n 2 − 1 ⎣ w t (D + I) −1 w ⎦

Teste de Bartlett para igualdade de matrizes de covariâncias
O teste da razão de verossimilhança para igualdade de matrizes de
covariâncias de populações Wishart foi apresentado por Bartlett (1947). Este autor
demonstrou que sob a hipótese
H o : Σ1 = Σ 2 = " = Σ k = Σ
a estatística da expressão (5.50) tem distribuição assintótica de qui-quadrado com
ν=(k-1)p(p+1)/2 graus de liberdade. Em que, k é o número de grupos ou
subpopulações amostradas, p é a dimensão das matrizes.
⎡ ⎛ k ⎛ 1 ⎞ 1 ⎞ ⎛ 2p 2 + 3p − 1 ⎞ ⎤
χ = − 1− ⎜ ∑⎜
2
⎢ ⎟ − ⎟⎜ ⎟⎥
⎢⎣ ⎜⎝ j=1 ⎜⎝ n j − 1 ⎟⎠ n − k ⎟⎠ ⎝ 6(p + 1)(k − 1) ⎠ ⎥
c
⎦
(5.50)
⎡ k ⎤
× ⎢ ∑ ⎡⎣( n j − 1) ln S j ⎤⎦ − (n − k) ln Sp ⎥
⎣ j=1 ⎦
em que: Sj é o estimador não viesado da covariância da sub-população j, baseado
k
em nj observações multivariadas de dimensão p; n = ∑ n j ; j=1, 2, ..., k, e
j=1
∑ (n
j=1
j − 1) S j
Sp =
n−k
Exemplo 5.8. Testar a hipótese de igualdade das covariâncias de 2 populações.
Uma amostra de 11 observações foi obtida da primeira população e outra de 15 da
segunda. Duas variáveis foram mensuradas, sendo as estimativas amostrais
apresentadas a seguir (Fonte: Bock, 1975).
⎡ 0,51964 0, 44700 ⎤ ⎡ 0,85143 0, 73786 ⎤

S1 = ⎢ ⎥ com n1=11 e S2 = ⎢ ⎥ com n2=15
⎣0, 44700 0, 47600 ⎦ ⎣0, 73786 1,54828 ⎦
O valor de n=11+15=26 e de k=2 (populações). A hipótese a ser
testada é:
H o : Σ1 = Σ 2 = Σ
Os demais valores necessários para a realização do teste de
hipótese são:
ln S1 = −3, 0692181 ; ln S2 = −0, 2564228 ; e ln Sp = −0,9031351

Logo,
⎡ ⎛1 1 1 ⎞ ⎛ 2 × 22 + 3 × 2 − 1 ⎞ ⎤
χ c2 = − ⎢1 − ⎜ + − ⎟ ⎜ ⎟⎥ ×
⎣ ⎝ 10 14 24 ⎠ ⎝ 6 × 3 ×1 ⎠⎦
× ⎡⎣(10 × ( −3, 0692181) + 14 × ( −0, 2564228 ) ) − 24 × ( −0,9031351) ⎤⎦ =
= 11, 43
Os graus de liberdade são ν=1x2x3/2=3 e os valores críticos 5% e
1% da distribuição de qui-quadrado são χ32 (0, 05) = 7,8147 e χ32 (0, 01) = 11,3448 .
Como o valor calculado (11,43) é superior aos valores críticos, rejeita-se H0 com
P<0,01. Portanto, existem evidências de que as covariâncias das duas populações
não sejam iguais.
5.7. Exercício
5.7.1. A matriz X, apresentada a seguir, representa uma amostra de n=4
observações retiradas de uma distribuição normal bivariada.

⎡11 2⎤
⎢10 4 ⎥⎥
X =⎢
⎢ 9 3⎥
⎢ ⎥
⎣10 6⎦
a) Teste a hipótese de que µ ´0 = [9 2] seja um valor plausível para representar a

média populacional.
b) Obtenha a região de 95% de confiança e esboce graficamente a mesma,
destacando o valor hipotético nessa região.
5.7.2. Com os dados do exercício 5.7.1, determine os intervalos de confiança
simultâneo para os componentes de média individual por:
a) T2 de Hotelling
b) Procedimento de Bonferroni
c) Teste de t de student univariado.
5.7.3. Com os dados do exemplo 5.3, utilizando as duas primeiras variáveis, teste
a pressuposição de normalidade univariada (marginal) e bivariada,
utilizando os procedimentos apresentados no capítulo 4.

5.7.4. Utilizando os dados do exemplo 5.5, faça o IC simultâneo para proporções
de 90% de confiança.
5.7.5. Os dados abaixo se referem ao peso e ao teor de proteína, medidos em 6
animais antes e após um período de dieta balanceada. Teste a hipótese de
que não houve efeito da dieta. Determinar a região de confiança e o esboço
da região de confiança, o intervalo de confiança simultâneo e de Bonferroni,
no nível de 5% de probabilidade.
Antes Após
Peso Teor de proteína Peso Teor de proteína
(%) (%)
250 10 280 12
300 12 320 16
350 13 360 13
320 15 380 18
400 9 410 15
320 11 350 12
5.7.6. Com os dados do exemplo 5.7, reapresentados a seguir, obter os intervalos
de confiança de 95% simultâneos e de Bonferroni, para as diferenças de
médias marginais. Compare os resultados com a Figura 5.3, e obtenha
conclusões de interesse.
A B
Produtividade Altura da planta Produtividade Altura da planta
5,7 2,10 4,4 1,80
8,9 1,90 7,5 1,75
6,2 1,98 5,4 1,78
5,8 1,92 4,6 1,89
6,8 2,00 5,9 1,90
6,2 2,01
||[ 6
Análise de variância multivariada
]||
6.1. Introdução
Com o desenvolvimento da estatística no século XX a possibilidade
de condução e análise de experimentos propiciou grande sucesso às pesquisas,
principalmente pela habilidade de lidar com variações não controláveis. O primeiro
a representar os resultados experimentais por um modelo foi W. S. Gosset
(Student, 1908).
As terminologias dos delineamentos experimentais,
independentemente da área de aplicação, se tornaram iguais aos dos
experimentos em agricultura. Portanto, unidades experimentais são denominadas
de parcelas e o valor da variável aleatória como resposta. Experimentos com
apenas uma classificação dos tratamentos são denominados de delineamentos
inteiramente casualizados ou de classificação simples. Experimentos em que
vários tipos de tratamentos são aplicados ao material experimental
simultaneamente são denominados de fatoriais. Outra classe de experimentos é
gerada pelos arranjos hierarquizados dos materiais.

O presente capítulo tem por objetivo apresentar a extensão
multivariada dos métodos univariados de análise de variância. As idéias básicas
desse capítulo podem ser estendidas a todos os tipos de delineamentos e arranjos
das estruturas de tratamentos, embora sejam apresentas na situação mais
simples, a do delineamento de classificação simples.
6.2. Delineamento de classificação simples
O caso mais simples dos delineamentos experimentais é o de
classificação simples ou delineamento inteiramente casualizado. O arranjo
experimental consiste em g tratamentos, possivelmente incluindo a(s)
testemunha(s), para os quais as unidades experimentais são aleatorizadas.
As amostras aleatórias de cada tratamento são representadas por:
Tratamento 1: X11 , X12 , ..., X1n1

Tratamento 2: X 21 , X 22 , ..., X 2n 2

# # # % #
Tratamento g: X g1 , X g 2 , ..., X gn g

A análise de variância multivariada (MANAVA) é usada para
investigar se os vetores de médias de tratamento são os mesmos, e se não, qual
componente de média difere significativamente. Algumas pressuposições da
estrutura dos dados devem ser obedecidas para validade da inferência estatística:
(a) X i1 , X i2 ," , X i ni deve ser uma amostra aleatória de tamanho ni do tratamento i,

com média µi , i=1, 2, ..., g. As amostras dos tratamentos devem ser

independentes; (b) todos os tratamentos possuem covariância comum Σ; e
(c) cada tratamento tem distribuição normal multivariada.
O modelo de análise de variância multivariada está apresentado a
seguir. Neste modelo cada componente é um vetor de p componentes.
Xi j = µ + τi + ei j i = 1, 2, ", g e j = 1, 2, ", n i (6.1)

em que, ei j é independentemente e identicamente distribuído e Np(0, Σ) para todo i

e j; µ é o vetor média geral e τi representa o vetor de efeitos do i-ésimo

g
tratamento. Pode-se adotar a restrição paramétrica ∑ n τ
i =1
i i =0.

Os erros do vetor X i j são correlacionados, no entanto a matriz de

covariância Σ é a mesma para todos os tratamentos.
O vetor de observações pode ser decomposto em:

Xi j = X + (X i − X ) + (X i j − X i )

Observação Estimativa da Estimativa do resíduo (6.2)
média geral efeito do tratamento
Analogamente, demonstra-se que a soma de quadrados e produtos
totais possui a seguinte decomposição:
Soma de quadrados e produtos (SQP) = SQP tratamentos + SQP resíduo
total corrigido
g ni
∑∑ ( X )( X )
t
ij −X ij −X =
i =1 j=1
(6.3)
g g ni
= ∑ n i ( Xi − X )( X i − X ) ( )( X )
t
+ ∑∑ X i j − X i
t
ij − Xi
i =1 i =1 j=1
A soma de quadrados e produtos do resíduo pode ser expressa por:
g ni
( )( X )
t
E = ∑∑ X i j − X i ij − Xi = (n1 − 1)S1 + (n 2 − 1)S2 + ... + (n g − 1)Sg (6.4)
i =1 j=1
em que Si é a matriz de covariância amostral do i-ésimo tratamento.
O teste da hipótese de inexistência de efeitos de tratamentos,
H 0 : τ1 = τ2 = " = τg = 0 (6.5)

é realizado considerando as magnitudes das somas de quadrados e produtos de
tratamento e resíduo pela variância generalizada.
O esquema de análise de variância multivariada (MANAVA) está
apresentado na Tabela 6.1. A fonte de variação total é particionada em causas de
variação devido a tratamento e ao erro experimental ou resíduo.
Tabela 6.1. Tabela de MANAVA para testar a hipótese de igualdade do vetor de
efeito dos tratamentos em um delineamento de classificação simples.
FV GL Matriz de SQP
Tratamento g-1 g
( )( X )
t
B = ∑ n i Xi − X i −X
i =1
Resíduo g g ni
υ = ∑ ni − g ( )( X )
t
E = ∑∑ X i j − X i ij − Xi
i =1 j=1
i =1
Total corrigido g g ni
∑n ( )( X )
t
i −1 B + E = ∑∑ X i j − X ij −X
i =1 j=1
i =1
Os critérios para o teste da hipótese apresentada em (6.5), envolvem
variâncias generalizadas e autovalores e autovetores da maximização de duas
formas quadráticas dadas em (2.15 e 2.16).
De maneira geral, supondo que H seja a matriz de SQP relativa aos
efeitos dos tratamentos que se deseja testar a igualdade, para o exemplo H=B,
então a solução da equação determinantal dada por:

( H − λ k E ) ek = 0

fornece as estimativas dos autovalores e autovetores, necessários aos testes de
hipótese (6.5), os quais estão apresentados na Tabela 6.2. Quatro critérios
existem para o teste desta hipótese. Muitos autores recomendam utilizar o critério
de Wilks como referência, por se tratar de um teste baseado na razão de
verossimilhança. Outros recomendam que a hipótese nula deva ser rejeitada se
pelo menos três dos quatro critérios forem significativos em um nível nominal de
significância previamente adotado. Esses critérios podem ser aproximados pela
distribuição F. Essas aproximações, também, se encontram apresentadas na
Tabela 6.2.
Tabela 6.2. Estatísticas multivariadas e suas equivalência aproximada com a
distribuição F.
Critério Estatística Aproximação F GL de F

Wilks
|E| 1 ⎛ − Λ1t ⎞⎛ rt f ⎞ v1=pq
Λ= =∏ 1
F = ⎜ 1 ⎟⎜
−2
|H+E| k 1+λk ⎜ t ⎟⎝ pq ⎟⎠
⎝ Λ ⎠ v2=rt-2f
Traço de Pillai
λ ⎛ V ⎞⎛ 2n + s + 1⎞ v1=s(2m+s+1)
V = tr[H(H + E)−1] = ∑ k F=⎜ ⎟⎜ ⎟
⎝ s − V⎠⎝ 2m + s + 1⎠
1+λk
v2=s(2n+s+1)
Traço de
Hotelling U = tr(HE−1) = ∑λk F=
2(sn +1)U v1=s(2m+s+1)
Lawley s (2m + s +1)
2
v2=2(sn+1)
Raíz máxima
θ = λ1 θ(ν − d + q) v1=d
de Roy F=
d
v 2= ν − d + q
p: número de variáveis = posto(H+E); q: GL de tratamento (ou
do contraste); ν: GL do erro; S=min(p,q); r=ν- (p-q+1)/2;
f=(pq-2)/4; d=max(p,q); m=(|p-q|-1)/2; n=(ν-p-1)/2; e
⎧ p2q 2 − 4
⎪ Se p 2 + q 2 − 5 > 0
t = ⎨ p2 + q 2 − 5
⎪
⎩1 cc
Obs. Critério de Wilks possui aproximação exata de F se
min(p,q)≤2
Exemplo 6.1
Num experimento envolvendo 4 variedades de feijão, avaliou-se na seca, a
produtividade (P) em kg/ha e número de grão por vagem (NGV), utilizando 5
repetições. Os resultados obtidos foram:
Cultivar
A B C D
P NGV P NGV P NGV P NGV
1082 4,66 1163 5,52 1544 5,18 1644 5,45
1070 4,50 1100 5,30 1500 5,10 1600 5,18
1180 4,30 1200 5,42 1550 5,20 1680 5,18
1050 4,70 1190 5,62 1600 5,30 1700 5,40
1080 4,60 1170 5,70 1540 5,12 1704 5,50
5462 22,76 5823 27,56 7734 25,90 8328 26,71
Teste a hipótese de igualdade do vetor média de tratamentos.
Os vetores de médias amostrais de tratamento são:
⎡1092, 400 ⎤ ⎡1164, 600 ⎤ ⎡1546,800 ⎤ ⎡1665, 600 ⎤

X1 = ⎢ ⎥ X2 = ⎢ ⎥ X3 = ⎢ ⎥ X4 = ⎢ ⎥
⎣ 4,552 ⎦ ⎣ 5,512 ⎦ ⎣ 5,180 ⎦ ⎣ 5,342 ⎦
E a média geral:
⎡1367,35000 ⎤
X =⎢
⎣ 5,1465⎥⎦
A matriz B é obtida por:
⎧⎡1092,400⎤ ⎡1367,3500⎤⎫
B = 5⎨⎢ −
4,552⎥⎦ ⎢⎣ 5,512⎥⎦⎭
{ }
⎬ [1092,400 4,552] − [1367,3500 5,1465] +"+
⎩⎣
⎧⎡1665,600⎤ ⎡1367,3500⎤⎫
+ 5⎨⎢ −
5,342⎥⎦ ⎢⎣ 5,512⎥⎦⎭
{
⎬ [1665, 600 5,512] − [1367,3500 5,1465]}
⎩⎣
Obviamente, quando os cálculos não são realizados no computador,
é mais fácil de se obter as matrizes de somas de quadrados e produtos, pelas
expressões apresentadas a seguir. Para isso, considere que Xi j k representa o
valor observado do i-ésimo tratamento, na j-ésima unidade experimental e na
k-ésima variável. Então,
g
X i2 k X2
SQBkk = ∑ − g k (6.6)
ni
i =1
∑ ni
i =1
representa a soma de quadrados de tratamento para o i-ésimo componente, e
g
Xi k Xi A X X
SPBkA = ∑ − A
g
k
(6.7)
ni
i =1
∑n
i =1
i
representa a soma de produtos de tratamento entre as variáveis k e A , com
k≠ A =1, 2, ..., p.
Para o total as SQ e SP são:
2
g ni
SQTkk = ∑∑ X ijk −
2 Xg
k
(6.8)
i =1 j=1
∑n
i =1
i
g ni
SPTkA = ∑∑ X ijk X ijA − X X g
k A
(6.9)
i =1 j=1
∑n i =1
i
Para o resíduo basta obter a diferença:
E=T-B (6.10)
No exemplo, as matrizes B, E e T são:
⎡1189302,1500 768,3605⎤
B =⎢
⎣ 768,3605 2, 6318⎥⎦
⎡1218360,5500 778,2645⎤
T =⎢
⎣ 778,2645 2,9517⎥⎦
⎡ 29058, 4000 9,9040⎤

E = T − B =⎢
⎣ 9,9040 0,3199⎥⎦
O quadro de MANAVA está apresentado a seguir:

FV GL SQ&P
⎡1189302,1500 768, 3605⎤
Tratamento 3 B=⎢
⎣ 768, 3605 2, 6318 ⎥⎦
Erro 16 ⎡ 29058, 4000 9, 9040 ⎤

E=⎢
⎣ 9, 9040 0, 3199 ⎥⎦
Total Corrigido 19 ⎡1218360,5500 778, 2645⎤

T=⎢
⎣ 778, 2645 2,9517 ⎥⎦
Para o teste da hipótese H 0 : τ1 = τ2 = " = τg = 0 , a razão entre o par

de formas quadráticas e kt Be k e e kt Ee k , deve ser maximizada. Isto equivale a

resolver o sistema de equação,
( B − λ k E ) ek = 0

Para o exemplo, os autovalores e autovetores são:
λ1 = 41,3463 e1t = [ 0, 0058 0,1952]

λ 2 = 6, 6781 e 2t = [ −0, 0012 1, 7667 ]

Alguém desavisado poderia pensar que o valor do segundo elemento
do segundo autovetor (1,7667) fosse algum tipo de erro de digitação, por se tratar
de um valor superior a 1. No entanto, isto é perfeitamente possível, pois os

autovetores, no caso da maximização da razão entre duas formas quadráticas,
são normalizados da seguinte forma: e kt Ee k = 1 e e kt EeA = 0 (k ≠ A) , o que pode ser

facilmente verificado.
Todos os critérios utilizados rejeitaram a hipótese de igualdade dos
vetores efeitos tratamento (P<0,01), como pode ser visto no quadro seguinte.
Critério Estatística F G.L. Pr>F

Wilks Λ=0,0030756 85,16 v1=6 e v2=30 0,0001
Traço de Pillai V=1,846145 64,00 v1=6 e v2=32 0,0001
Traço de Hotelling
Lawley U=48,0244 112,06 v1=6 e v2=28 0,0001
Raíz máxima de θ=41,3463 220,51 v1=3 e v2=16 0,0001
Roy
p=2; q=3; v=16; s=2; r=16; f=1; d=3; m=0; n=6,5; e t=2
6.3. Intervalos de confiança simultâneos para o efeito

de tratamentos
Quando a hipótese de efeitos iguais para tratamentos é rejeitada,
aqueles efeitos que levaram a rejeição são de interesse. Para comparações
simultâneas duas a duas, a aproximação de Bonferroni pode ser usada para
construir intervalos de confiança simultâneos para os componentes da diferença
τh − τi (diferenças de efeitos dos tratamentos h e i, respectivamente). Esses

intervalos são mais curtos que os obtidos para todos os contrastes, e requerem
apenas valores críticos da estatística univariada t.

Fazendo τik o k-ésimo componente de τi . Desde que τi pode ser

estimado por τˆ i = X i − X , então,

τˆ ik = X i k − X k (6.11)
Devido a (6.11) corresponder a diferença entre duas médias
amostrais independentes, o teste de t de duas amostras é válido, modificando-se
adequadamente o nível de significância. A estimativa da variância do contraste
entre duas médias de tratamentos é dada por,
^ ⎛ 1 1 ⎞E
Var(X h k − X i k ) = ⎜ + ⎟ kk (6.12)
⎝ nh ni ⎠ υ
A divisão de Ekk pelos seus respectivos graus de liberdade (υ), é
devido ao fato de que, o elemento em questão (Ekk) refere-se a uma soma de
quadrados. Desta forma, desde que p variáveis são consideradas e g(g-1)/2
comparações duas a duas serão realizadas, então o intervalo de confiança
protegido por Bonferroni para diferença de efeitos de tratamento é dado por:
⎛ α ⎞ ⎛ 1 1 ⎞ E kk
X h k − Xi k ± t υ ⎜ ⎟ ⎜ + ⎟ (6.13)
⎝ pg(g − 1) ⎠ ⎝ n h n i ⎠ υ
para todos os k = 1, 2, ..., p e todas as diferenças h < i = 1, 2, ..., g .

6.4. Exercício
6.7.1. Repetir a análise de variância do exemplo 6.1 utilizando o “proc GLM” do
SAS e solicitar a realização dos seguintes contrastes: i) A e B vs C e D; ii) A
vs B e iii) C vs D.
||[ 7
Componentes principais
]||
7.1. Introdução
A análise de componentes principais está relacionada com a
explicação da estrutura de covariância por meio de poucas combinações lineares
das variáveis originais em estudo. Os objetivos dessa análise são: i) redução da
dimensão original; e ii) facilitação da interpretação das análises realizadas. Em
geral, a explicação de toda a variabilidade do sistema determinado por p variáveis
só pode ser efetuada por p componentes principais. No entanto, uma grande parte
dessa variabilidade pode ser explicada por um número r menor de componentes,
r≤p. Os componentes principais são uma técnica de análise intermediária e,
portanto não se constituem em um método final e conclusivo. Esse tipo de análise
se presta fundamentalmente como um passo intermediário em grandes
investigações científicas.
Essa técnica pode ser aplicada, ainda, na análise de regressão
múltipla, principalmente, nos casos de colinearidade ou de multicolinearidade;
aplica-se também à análise de agrupamento e como estimadores de fatores nas
técnicas multivariadas denominadas de análises fatoriais. Muitas outras aplicações

de componentes principais são encontradas nas literaturas aplicadas. A técnica
AMMI (additive multiplicative interaction model) considera modelos lineares com
interação entre dois fatores e aplica como base para seus procedimentos a análise
de componentes principais.
7.2. Componentes principais populacionais
Algebricamente os componentes principais representam
combinações lineares de p variáveis aleatórias X1, X2, …, Xp. Geometricamente,
essas combinações lineares representam a seleção de novos eixos coordenados,
os quais são obtidos por rotações do sistema de eixos original, representados por
X1, X2, …, Xp. Os novos eixos representam as direções de máxima variabilidade.
Como pode ser demonstrado, os componentes principais dependem
somente da matriz de covariância Σ (ou da matriz de correlação ρ) e de
X1, X2, …, Xp. Seu desenvolvimento não requer pressuposições de normalidade
multivariada, mas possuem interpretações úteis em termos da constante elipsóide
de densidade, se a normalidade existir. A princípio, serão definidos os conceitos
de componentes principais populacionais. Posteriormente, naturalmente esses
conceitos serão estendidos para a situação amostral.
Seja o vetor aleatório X t = ⎡⎣ X1 X 2 X p ⎤⎦ amostrado de uma
população com covariância Σ, cujos autovalores são λ1≥λ2≥…≥λp≥0, então, os

componentes principais (Y1, Y2,…,Yp) são as combinações lineares dadas por
(7.1)
Y1 = e1t X = e11X1 + e12 X 2 + ... + e1p X p

Y2 = e 2t X = e 21X1 + e 22 X 2 + ... + e 2p X p
(7.1)
Yp = e pt X = e p1X1 + e p2 X 2 + ... + e pp X p
É fácil verificar que:
Var(Yi ) = Var ( eit X ) = eit Var ( X ) ei = eit Σei (7.2)
Cov(Yi , Yk ) = Cov ( eit X,e kt X ) = eit Σe k (7.3)
Dessa forma, pode-se definir o i-ésimo componente principal (Yi) por
(7.4), assumindo que o vetor X possui covariância Σ, com pares de autovalores e
autovetores ( λ i ,ei ) , i = 1, 2, ..., p , em que λ1≥λ2≥…≥λp≥0.
Yi = eit X = ei1X1 + ei2 X 2 + ... + eip X p i = 1, 2,..., p (7.4)
No capítulo 2, verificou-se que a maximização de uma forma
quadrática resultava na solução dada pelo conjunto de todos os pares de
autovalores e autovetores da matriz núcleo. Os autovetores da solução eram

e t Σe
restritos ao comprimento unitário. Seja a forma quadrática dada por λ = , então
et e
o seu máximo é obtido pela resolução da equação (7.5).
( Σ − λ i I ) ei = 0 (7.5)
É fácil perceber que dessa equação surge a seguinte e óbvia
relação, obtida no ponto máximo, dada por: Σei = λ i ei . Portanto, a variância e a
covariância de Yi, especificadas em (7.2) e em (7.3) são dadas por:
Var(Yi ) = eit Σei = eit λ i ei = λ i eit ei = λ i (7.6)
Cov(Yi , Yk ) = eit Σe k = eit λ k e k = λ k eit e k = 0 i≠k (7.7)
Utilizando algumas propriedades matriciais estudadas no capítulo 2,
pode-se demonstrar que:
p p
∑ Var(Xi ) = ∑ Var(Yi )
i =1 i =1
σ11 + σ 22 + ... + σ pp = λ1 + λ 2 + ... + λ p
A variação total existente nas variáveis Xi, i=1, 2,...,p é igual à
variação existente nos p componentes principais. Para demonstrar isso, seja Σ a

matriz de covariância entre as p variáveis X, cujos pares de autovalores e
autovetores são dados por (λi, ei ). O componente principal Yi é definido por
Yi = eit X , o qual possui variância igual a λi.
Da decomposição espectral de Σ=PΛP’ e sabendo que PPt=PtP=I
verifica-se que:
tr(Σ) = tr ( PΛP t )
Uma propriedade do traço de uma matriz é: tr(AB)=tr(BA). Fazendo
A=P e B=ΛPt, então,
p p
tr(Σ) = ∑ σii = tr ( PΛP t ) = tr ( ΛP t P ) = tr ( Λ ) = ∑ λ i
i =1 i =1
E, portanto, a porcentagem da variação total explicada pelo k-ésimo
componente principal é dada por (7.8).
λk
%VarExp(Yk ) = p
× 100 (7.8)
∑ λi
i =1
Em muitas situações em que se aplicam os componentes principais
se uma porcentagem de 70% ou mais for atribuída aos primeiros r componentes
principais, então, esses podem substituir as p variáveis originais sem perda de

uma quantidade demasiada de informações. A determinação dessa porcentagem
da variação explicada pelos primeiros r componentes deve ser feita pelo
pesquisador interessado e que possui maior conhecimento da área estudada. A
determinação do número r de componentes para que uma determinada
porcentagem fixada da informação seja contemplada por eles é um dos problemas
que dificulta o emprego dessa metodologia.
Os componentes do autovetor eit = ⎡⎣ei1 ei2 eip ⎤⎦ podem informar
sobre a importância das variáveis para o i-ésimo componente principal, por meio
de suas magnitudes. No entanto, esses componentes são influenciados pela
escala das variáveis. Para contornar tal problema, os pesquisadores podem
utilizar uma importante medida de associação, a qual não depende da magnitude
das mensurações (escala) das variáveis originais, que é o coeficiente de
correlação entre Yi e Xk. Esse coeficiente de correlação está apresentado em (7.9)
eik λ i
ρYi ,Xk = , i, k = 1, 2,..., p (7.9)
σkk
Demonstração: Para demonstrar (7.9), primeiro é apresentada a definição do
coeficiente de correlação. Posteriormente, foi avaliado cada termo dessa
expressão individualmente.
Cov ( Yi , X k )
ρYi ,Xk =
Var ( Yi ) Var ( X k )
Mas,
Cov ( Yi , X k ) = Cov ( eit X, X k ) = Cov ( eit X, t X )
com, t
= [ 0 ...1... 0] , vetor composto de valores 0 e com 1 na k-ésima posição.
Logo,
Cov ( Yi , X k ) = Cov ( eit X, t X ) = eit Σ = t Σei
Como Σei = λ i ei , então,
Cov ( Yi , X k ) = t Σei = t λ i ei = λ i t ei = λ i eik
Da mesma forma as variâncias de Yi e Xk são:
Var ( Yi ) = Var ( eit X ) = eit Σei = λ i eit ei = λ i
e,
Var(X k ) = σkk
Assim, a prova fica completa, conforme descrito a seguir:

Cov ( Yi , X k ) λ i eik λ i eik

ρYi ,X k = = =
Var ( Yi ) Var ( X k ) λ i σ kk σ kk
Exemplo 7.1
Sejam as variáveis aleatórias X1, X2 e X3 com covariância dada por:
⎡4 1 0⎤
Σ = ⎢⎢1 4 0 ⎥⎥
⎢⎣ 0 0 2 ⎥⎦
Obter os componentes principais, a correlação das variáveis originais com os
componentes e verificar a veracidade da afirmativa a seguir de forma numérica:

p p
∑ Var(Xi ) = ∑ Var(Yi )
i =1 i =1
σ11 + σ 22 + ... + σ pp = λ1 + λ 2 + ... + λ p
Aplicando-se o power method, determinaram-se os pares de
autovalores e autovetores de Σ, os quais são:
λ1 = 5 e1t = [ 0,7071 0,7071 0] , λ 2 = 3 e 2t = [ 0,7071 −0,7071 0] e λ 3 = 2 e3t = [ 0 0 1]
Os componentes principais são:

Y1 = e1t X = 0,7071X1 + 0,7071X 2
Y2 = e 2t X = 0,7071X1 − 0,7071X 2
Y3 = e3t X = X 3
A variável X3 é individualmente um de os componentes principais por
não ser correlacionada com nenhuma das outras duas variáveis. As variâncias de
os componentes principais são:
Var(Y1 ) = λ1 = 5 , Var(Y2 ) = λ 2 = 3 e Var(Y3 ) = λ 3 = 2
Pode-se mostrar, a título de ilustração, que:
⎛ 2 2 ⎞ ⎛ 2 ⎞ ⎛ 2 ⎞ ⎛ 2 2 ⎞
Var(Y1 ) = Var ⎜⎜ X1 + X 2 ⎟⎟ = Var ⎜⎜ X1 ⎟⎟ + Var ⎜⎜ X 2 ⎟⎟ + 2Cov ⎜⎜ X1 , X 2 ⎟⎟ =
⎝ 2 2 ⎠ ⎝ 2 ⎠ ⎝ 2 ⎠ ⎝ 2 2 ⎠
1 1 2 2 1 1
= Var ( X1 ) + Var ( X 2 ) + 2 Cov ( X1 , X 2 ) = 4 + 4 + 1 = 5 = λ1
2 2 2 2 2 2
Verifica-se, também, que:
σ11 + σ 22 + σ33 = λ1 + λ 2 + λ 3
4+4+2=5+3+2
10=10 c.q.m.
A porcentagem da variação explicada por cada componente é
apresentada na tabela seguinte.
Componente Var(Yi)=λi % da variação explicada % variação acumulada

Y1 5 50 50
Y2 3 30 80
Y3 2 20 100
Os coeficientes de correlação entre os componentes e as variáveis
originais são:
Componente X1 X2 X3
Y1 0,7906 0,7906 0,0000
Y2 0,6124 -0,6124 0,0000
Y3 0,0000 0,0000 1,0000
Para ilustrar um dos cálculos usando a expressão (7.9), apresenta-se
a seguir a correlação entre Y1 e X1.
2
e11 λ1 × 5
ρY1 ,X1 = = 2 = 0,7906 .
σ11 4
Para o componente principal mais importante (Y1), concluiu-se que
X1 e X2 são igualmente importantes.
Os componentes principais podem ser obtidos pela padronização das
variáveis originais por:

X i − µi
Zi = (7.10)
σii
Em notação matricial tem-se:
(
Z = V −1/ 2 X − µ ) (7.11)
em V-1/2 é uma matriz diagonal com os elementos da diagonal dados 1 σii . É
fácil verificar que:
E ( Z ) = 0 e Cov ( Z ) = V −1/ 2 ΣV −1/ 2 = ρ
Então, os componentes principais de Z são dados pelos autovalores
e autovetores de ρ, matriz de correlação de X . Os autovalores e autovetores de Σ
são, em geral, diferentes daqueles derivados de ρ.
Sejam as variáveis padronizadas Z1, Z2, ...., Zp disposta no vetor Z
com Cov ( Z ) = ρ , então, os componentes principais são dados por:
( )
Yi = eit Z = eit V −1/ 2 X − µ , i=1, 2, ..., p (7.12)
Da mesma forma, verifica-se que:

p p
∑ Var(Yi ) = ∑ Var(Zi ) = p
i =1 i =1
p
(7.13)
∑ λi = p
i =1
Também se verifica que:
ρYi ,Zk = eik λ i (7.14)
Sendo que em todos esses casos (λi, ei ) são os autovalores e
autovetores de ρ, com λ1≥λ2≥...≥λp. As demonstrações de (7.12), (7.13) e (7.14)
podem ser realizadas da mesma forma que as demonstrações anteriores,
substituindo Σ por ρ.
Para algumas matrizes de covariância, com estruturas especiais,
existem simples formas de se expressar os componentes principais. Serão
tratados alguns desses casos, conforme apresentado em Johnson e Wichern,
(1998) e em Morrison (1976). Para uma matriz Σ diagonal,
⎡σ11 0 0 ⎤
⎢0 σ 0 ⎥⎥
Σ=⎢
22
(7.15)
⎢ ⎥
⎢ ⎥
⎢⎣ 0 0 σ pp ⎥⎦
Os autovalores e autovetores são dados por:

λi=σii e eit = [ 0 0 1 0 0] com 1 na i-ésima posição e 0 nas demais.
A demonstração disso pode ser facilmente realizada, uma vez que
das equações de maximização de formas quadráticas verifica-se que : Σei = λ i ei .
Assumindo-se as definições anteriores para os autovalores e autovetores verifica-
se que:
Σe i = λ i e i
= Σei = σii ei
⎡0 ⎤ ⎡0 ⎤
⎢ ⎥ ⎢ ⎥
⎡σ11 0 0 ⎤ ⎢ ⎥ ⎢ ⎥
⎢0 σ ⎢ 0 ⎥ ⎢0 ⎥
0 ⎥⎥ ⎢ ⎥ ⎢ ⎥
= ⎢
22
⎢ 1 ⎥ = σii ⎢1 ⎥
⎢ ⎥
⎢ ⎥ ⎢0 ⎥ ⎢0 ⎥
⎣⎢ 0 0 σ pp ⎦⎥ ⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥
⎢0 ⎥ ⎢0 ⎥
⎣ ⎦ ⎣ ⎦
Dessa forma, pode-se concluir que (σii, ei ), com ei definido
anteriormente, são os pares de autovalores e autovetores de Σ. Desde que os
componentes principais são dados pelas combinações lineares eit X =Xi, então, os
componentes principais são as próprias variáveis originais não correlacionadas,
cujos autovalores são as próprias variâncias originais das respectivas variáveis
aleatórias. Do ponto de vista de extração de componentes principais nada pode
ser ganho, uma vez que os eixos originais já estão no sentido de maior
variabilidade. Dessa forma não há necessidade para fazer rotação dos eixos
originais. A estandardização não altera a situação, uma vez que ρ=I, e o par
autovalor e componente principal é dado por (1, Zi), em que Zi é a i-ésima variável
padronizada.
Outro tipo de matriz de covariância com determinado padrão é
apresentado a seguir, o qual descreve muitas vezes o comportamento de
entidades biológicas, desempenha um papel importante na teoria dos
componentes principais.
⎡ σ2 ρσ 2 ρσ 2 ⎤
⎢ 2 ⎥
ρσ σ2 ρσ 2 ⎥
Σ=⎢ (7.16)
⎢ ⎥
⎢ 2 ⎥
⎢⎣ρσ ρσ2 σ 2 ⎥⎦
A matriz de correlação correspondente é dada por:
⎡1 ρ ρ⎤
⎢ρ 1 ρ ⎥⎥
ρ=⎢ (7.17)
⎢ ⎥
⎢ ⎥
⎣ρ ρ 1⎦
que implica em uma estrutura de igualdade de correlação entre as p variáveis
estudadas.
Morrison (1976) demonstra que os componentes principais de (7.16)
são dados por dois grupos. O primeiro grupo com o primeiro componente e o
segundo com os demais componentes principais. O primeiro componente principal
de (7.16) é definido pelo par autovalor e autovetor apresentado a seguir.

λ1 = σ 2 [1 + (p − 1)ρ] (7.18)
⎡ 1 1 1 ⎤
e1t = ⎢ , ,..., ⎥ (7.19)
⎢⎣ p p p ⎥⎦
Para a matriz de correlação definida em (7.17), pode-se demonstrar
que 7.18 e 7.19 permanecem válidos, sendo necessário apenas fazer σ2=1. A
proporção da explicação do primeiro componente principal é dada por
100 [1 + (p − 1)ρ] / p (%) do total do conjunto de variáveis. Se ρ é próximo a 1 o
primeiro componente principal terá uma elevada explicação da variação total.
Os demais (p-1) componentes principais possuem valores
característicos iguais, dados por:
λ i = σ 2 (1 − ρ ) ; i = 2, 3, ,p (7.20)
e seus respectivos autovetores são iguais a:

⎧ t ⎡ 1 −1 ⎤
⎪e 2 = ⎢ , , 0,..., 0 ⎥
⎪ ⎣ 1 × 2 1× 2 ⎦
⎪ t ⎡ 1 1 −2 ⎤
⎪e 3 = ⎢ , , , 0,..., 0 ⎥
⎪ ⎣ 2×3 2×3 2×3 ⎦
⎪
⎪
⎨ (7.21)
⎡ 1 1 −(i − 1) ⎤
⎪eit = ⎢ ,..., , , 0,..., 0 ⎥
⎪ ⎢⎣ (i − 1) × i (i − 1) × i (i − 1) × i ⎥⎦
⎪
⎪
⎪
⎪e t = ⎡ 1
,...,
1
,
−(p − 1) ⎤
⎪ p ⎢⎢ (p − 1) × p
⎥
(p − 1) × p (p − 1) × p ⎥⎦
⎩ ⎣
Finalmente é tratada a situação em que o vetor X é uma variável
aleatória da distribuição normal multivariada, ou seja, X ∼ N p µ, Σ . Nesse caso os ( )

componentes principais têm uma atrativa interpretação. Foi demonstrado no
capítulo 4 que a densidade de X é constante na elipsóide centrada em µ ,
(X − µ) Σ (X − µ) = c
t
−1 2
= χ p2 (α )
cujos eixos são dados por ± χ 2p (α ) λ i ei , i = 1, 2, ..., p , em que (λi, ei ) são os pares
de autovalor-autovetor de Σ. É possível verificar, fazendo µ = 0 por conveniência
de algumas demonstrações que se seguem, que:
1 t 2 1 t 2 1
( e1X ) + ( e 2 X ) + ... + ( e pt X )
2
χ 2p (α ) = X t Σ −1X =
λ1 λ2 λp
em que eit X, i = 1, 2, ..., p são os componentes principais de X . Fazendo
Yi = eit X, i = 1, 2, ..., p tem-se
1 2 1 2 1
χ 2p (α ) = X t Σ −1X = Y1 + Y2 + ... + Yp2
λ1 λ2 λp
Essa última equação define uma elipsóide com os eixos coordenados
Y1, Y2, ..., Yp dispostos nas direções de e1 , e 2 , ..., e p , respectivamente. Como λ1 é o
maior autovalor, o maior eixo tem a direção definida por e1 , os eixos
remanescentes têm a direção definida por e 2 , ..., e p .
Foi assumido que µ = 0 . No entanto, é pouco provável que isso
aconteça em uma situação real. Todavia, as interpretações definidas
anteriormente são válidas da mesma forma, apenas sendo necessário definir o
i-ésimo componente principal centrado na média, por:
( )
Yi = eit X − µ , i = 1, 2, ..., p (7.22)
o qual tem média zero e direção definida por ei . Na Figura 7.1 ilustram-se os
componentes principais bivariados com densidade fixa de 95%. A rotação dos
eixos X1 e X2 nos novos eixos Y1 e Y2 são a essência dos componentes principais.

Y1
Y2
Figura 7.1. A elipse de 95% de densidade constante e os componentes principais
Y1 e Y2 para a distribuição normal bivariada com média µ = 0 .
7.3. Componentes principais amostrais
Seja X1 , X 2 , , X n uma amostra aleatória retirada de uma população
p-variada qualquer com média µ e covariância Σ. O vetor de médias amostrais é
X , a matriz de covariância amostral é S e a matriz de correlação amostral é R. O
objetivo dessa seção é apresentar os conceitos de componentes principais para a
estrutura de covariância amostral.
As combinações lineares das variáveis mensuradas que maximizam
a variação total da amostra e que são mutuamente ortogonais são chamadas de
componentes principais amostrais. Seja a forma quadrática

ˆ ˆ = Var(e
Q = Var(Y) ˆ t
X) = e t Se
O máximo de Q não existe, pois quanto maior for o comprimento de
e maior será o valor de Q. É conveniente tomar-se o máximo de Q restrito ao
comprimento unitário de e . Dessa forma, o máximo tem que ser obtido da forma
quadrática restrita seguinte.
e tSe
λ=
et e
O máximo é obtido tomando-se a derivada em relação a e e
igualando-se a derivada a zero. O sistema obtido é resolvido em relação a e e as
soluções obtidas referem-se ao máximo.
∂λ 2Se(e ˆ − 2(eˆ tSe)e

ˆ ˆ t e) ˆ ˆ 2 ⎛ eˆ tSeˆ ⎞
= = ⎜ S − Ι ⎟ eˆ = 0
∂e (eˆ t e)
ˆ 2 eˆ 'eˆ ⎝ eˆ t eˆ ⎠
⎛ eˆ t Seˆ ⎞
⎜ S − ˆ t ˆ Ι ⎟ eˆ = 0
⎝ ee ⎠
A equação resultante é dada por:
(S − λΙˆ ) eˆ = 0 (7.23)
A solução de (7.23) conduz aos pares de autovalores e autovetores
( λˆ ; eˆ )
i i de S, que correspondem a variância amostral e combinação linear que
definem os componentes principais amostrais, para i=1, 2, ..., p.
Portanto, o i-ésimo componente principal amostral é:
ˆ = eˆ t X = eˆ X + eˆ X + ... + eˆ X , i = 1, 2, ..., p
Y (7.24)
i i i1 1 i2 2 ip p
em que λˆ 1 ≥ λˆ 2 ≥ ... ≥ λˆ p ≥ 0 são os autovalores amostrais de S correspondentes.
O estimador da variância amostral dos componentes principais é:
ˆ
Var Yk k( )
ˆ = λˆ , k = 1, 2,..., p (7.25)
e a covariância entre dois componentes principais (i e k) é:
ˆ Y
Cov (
ˆ ,Y
i k )
ˆ = 0, i ≠ k = 1, 2,..., p (7.26)
Pela mesma razão apresentada para os componentes principais
populacionais, verifica-se que a variação total explicada pelos componentes

p p
principais amostrais é igual a ∑ λˆ i = ∑ Sii . A partir da decomposição espectral de
i =1 i =1
S, dada por S = Pˆ Λ
ˆ Pˆ t e da propriedade que tr(AB)=Tr(BA) demonstra-se que:
( ) ( ) ( )
p n
tr(S) = ∑ Sii = tr Pˆ Λ
ˆ Pˆ t = tr Λ ˆ = ∑ λˆ
ˆ Pˆ t Pˆ = tr Λ
i
i =1 i =1
Dessa forma, a explicação do k-ésimo componente principal amostral
da variação total do sistema é:
ˆ
ˆ ) = λ k × 100
%VarExp(Y (7.27)
k p
∑ λˆ i
i =1
A correlação amostral entre Ŷi e Xk é definida por:
êik λˆ i
rŶ ,X = , i, k = 1, 2,..., p (7.28)
i k
Skk
Os componentes principais podem ser definidos por componentes
principais amostrais centrados na média amostral X , da seguinte forma:
ˆ = eˆ t ( X − X ) = eˆ ( X − X ) + eˆ ( X − X ) + ... + eˆ ( X − X ) , i = 1, 2, ..., p (7.29)

Yi i i1 1 1 i2 2 2 ip p p
Se o vetor X for substituído em (7.29) por X j (vetor de observações
amostrais), pode-se obter os escores dos componentes principais. Esses escores
são plotados, muitas vezes, com o intuito de agrupar objetos ou itens, simplificar a
representação para uma ou duas dimensões, entre outras aplicações.

Os componentes principais, em geral, não são invariantes com
relação a transformações nas escalas. A mudança de escala mais usual é aquela
que transforma as escalas das variáveis para uma outra escala sem dimensão,
cuja média é igual a zero e a variância é igual a 1. A padronização é obtida por:
Z j = D −1/ 2 ( X j − X ) , j = 1, 2,..., n (7.30)
( )
em que D-1/2= Diag 1/ S11 ,1/ S22 ,...,1/ Spp . O estimador de a covariância de Z é
dado por:
ˆ
Cov(Z) = D −1/ 2 Cov(X)D
ˆ −1/ 2
= D −1/ 2SD −1/ 2 = R (7.31)
Os componentes principais obtidos de R são definidos pelos pares
( )
de autovalores e autovetores de R λˆ i ; eˆ i . Assim, o i-ésimo componente principal
amostral obtido da matriz de correlação amostral é dado por:
ˆ = eˆ t Z = eˆ Z + eˆ Z + ... + eˆ Z ,
Y i = 1, 2, ..., p (7.32)
i i i1 1 i2 2 ip p
A variação total explicada pelo k-ésimo componente principal é dada
por:
ˆ
ˆ ) = λ k × 100
%VarExp(Y (7.33)
k
p
A correlação amostral entre Ŷi e Zk é definida por:
rYˆ ,Z = eˆ ik λˆ i , i, k = 1, 2,..., p (7.34)

i k
Pequenos valores para os últimos autovalores, tanto de S como de
R, indicam, em geral, a presença de dependência linear no conjunto de dados.
Neste contexto pelo menos uma variável é redundante e pode ser eliminada do
conjunto de variáveis originais.
Existe sempre a questão importante de o número de componentes a
ser retido. Não existe uma resposta definitiva para essa questão. Os aspectos que
devem ser considerados incluem a quantidade da variação amostral explicada, o
tamanho relativo dos autovalores e a interpretação subjetiva dos componentes.
Uma ferramenta visual importante para auxiliar a determinação de o número
suficiente de componentes a ser retido é o “scree plot”. O termo “scree” refere-se
ao acumulo de rochas nas bases de um penhasco, portanto os “scree plots” serão
considerados “gráficos de cotovelos”. Na Figura 7.2 observa-se que um cotovelo é
formado aproximadamente na posição i=4. Isso significa que os componentes
acima de λ̂ 3 possuem aproximadamente a mesma magnitude e são relativamente
pequenos. Isso indica que os três primeiros, talvez os quatros primeiros
componentes são suficientes para resumir a variação amostral total.

^ 10
λi
1 2 3 4 5 6
componente principal
Figura 7.2. “Scree plot” de um exemplo com p=6 componentes principais para
ilustrar o processo de determinação de o número apropriado de
componentes a ser retido.
7.4. Gráficos dos componentes principais
Os gráficos provenientes dos componentes principais podem ser
reveladores de diversos aspectos presentes nos dados de interesse do
pesquisador. Em muitas áreas os pesquisadores utilizam os primeiros e mais
importantes componentes para agrupar objetos e itens de acordo com a
representação em duas ou no máximo três dimensões retidas. Os gráficos dos
componentes principais podem revelar observações suspeitas, como também

permitir uma avaliação da suposição de normalidade. Por se tratarem de
combinações lineares de p variáveis, supostamente normais, é possível assumir a
normalidade para os componentes principais. O teste de normalidade pode ser
feito em apenas alguns poucos componentes, o que pode simplificar a
complexidades das análises necessárias e reduzir o número de testes a ser
realizado.
Os valores amostrais dos componentes principais obtidos a partir de
os dados amostrais originais são chamados de escores. A equação (7.35)
refere-se a definição do escore do k-ésimo componente principal, para a j-ésima
observação amostral.
ˆ = eˆ t X = eˆ X + eˆ X + ... + eˆ X , k = 1, 2, ..., p; j = 1, 2,..., n

Y (7.35)
jk k j k1 j1 k2 j2 kp jp
De uma forma geral, os escores dos p componentes principais,
ˆ t = ⎡Y
representados pelo vetor Y ˆ ˆ ˆ ⎤
j ⎣ j1 Yj2 ... Yjp ⎦ para a j-ésima observação amostral
X tj = ⎡⎣ X j1 X j2 ... X jp ⎤⎦ , são dados por:
⎡ ê1t ⎤
⎢ t⎥
ˆ = Pˆ X = ⎢ ê 2 ⎥ X
Y t
(7.36)
j j ⎢ ⎥ j
⎢ ⎥
⎢⎣ ê pt ⎥⎦
Para o agrupamento de objetos e também para avaliar desvios de
normalidade obtêm-se gráficos dos primeiros componentes retidos em um
diagrama contendo pares de componentes. Também, é possível obter os
Q-Q plots para cada componente, conforme descrição realizada no capítulo 4.
Desvios de normalidade podem ser verificados e o teste da correlação Q-Q plot
pode ser realizado.
Para a verificação de observações suspeitas os gráficos dos últimos
componentes principais tomados dois a dois são utilizados. Esse tipo de gráfico
pode ajudar a identificar observações suspeitas. Também, com esse intuito os Q-
Q plots desses componentes, de menor importância para a variação total, são
utilizados.
Da equação (7.36) e relembrando que P̂ é uma matriz ortogonal,
( )
−1
ˆ ˆ t = Pˆ t Pˆ = Ι , portanto Pˆ t
pois PP = Pˆ , pode-se demonstrar que:
ˆ ˆ = ⎡eˆ eˆ
X j = PY ˆ
eˆ p ⎤⎦ Y
j ⎣ 1 2 j
(7.37)
ˆ eˆ + Y
Xj = Y ˆ eˆ + ˆ eˆ
+Y
j1 1 j2 2 jp p
Essa é uma importante equação que mostra que a observação
amostral multivariada X j pode ser recuperada dos escores dos componentes
principais correspondentes. Constitui-se, portanto, em uma proeminente forma de
identificar com elevada precisão as observações suspeitas. Para isso um número
q de componentes principais q≤p é retido para ajustar as n observações amostrais

multivariadas. Dessa forma, uma medida da qualidade desse ajuste é obtida
ˆ eˆ + Y
avaliando quanto Y ˆ eˆ + ˆ eˆ difere de X , tendo como desvio o valor
+Y
j1 1 j2 2 jq q j
ˆ eˆ + Y
dado por Y ˆ eˆ + ˆ eˆ . Essa medida é feita tomando-se o
+Y
jq +1 q +1 jq + 2 q + 2 jp p
quadrado desse desvio, o qual refere-se ao seu comprimento quadrático, ou seja,
ˆ 2 +Y
por Y ˆ2 + ˆ 2 . As observações consideradas suspeitas são aquelas que
+Y
j q +1 j q+2 jp
ˆ ,Y
possuem pelo menos uma das coordenadas de Y ˆ , ˆ que contribui
,Y
j q +1 j q+2 jp
para o comprimento quadrático total com grande valor.
7.5. Inferências para grandes amostras
Foram apresentados os conceitos fundamentais dos componentes
principais. A essência dos componentes principais está na obtenção dos
autovalores e autovetores da matriz de covariância (correlação). Os autovetores
determinam a rotação a ser realizada nos eixos coordenados originais nos
sentidos de maior variabilidade e os autovalores determinam as variâncias desses
novos eixos coordenados. As decisões com relação aos componentes principais
devem ser tomadas com base nos pares de autovalores-autovetores, ( λˆ ; eˆ ) ,

i i
estimados na amostra. Esses autovalores e autovetores são diferentes dos
respectivos valores populacionais devido às variações amostrais. Derivações à
respeito das distribuições amostrais de λ̂ i e de êi são apresentadas em Anderson

(1963). Os resultados relativos aos resultados de grandes amostras são
apresentados a seguir, de uma forma resumida.
Suponha que X1 , X 2 , , X n seja uma amostra aleatória retirada de
uma população p-variada qualquer com média µ e covariância Σ. O vetor de
médias amostrais é X , a matriz de covariância amostral é S e a matriz de
correlação amostral é R. Suponha que Σ possui autovalores (desconhecidos)
distintos e positivos, quais sejam, λ1 > λ 2 > > λ p > 0 com correspondentes
autovetores (desconhecidos) e1 , e 2 , , ep . O estimador amostral de Σ é S, sendo
que os estimadores de λi e ei são λˆ 1 > λˆ 2 > > λˆ p > 0 e eˆ1 , eˆ 2 , , eˆ p .
Girshik (1939), Lawley (1956) e Anderson (1963) demonstraram que
os resultados doravante apresentados se verificam para grandes amostras. Dessa
forma, os resultados proporcionados referem-se a teoria de distribuições de
grandes amostras para os autovalores λˆ t = ⎡⎣λˆ 1 λˆ 2 λˆ p ⎤⎦ e para os autovetores
eˆ1 , eˆ 2 , , eˆ p de S. Fazendo Λ uma matriz diagonal dos autovalores λ1 , λ 2 , , λ p de
Σ, então,
1. ( )
n λˆ − λ tem distribuição aproximadamente N p ( 0, 2Λ 2 ) .
2. Seja
p ⎡ ⎤
λk
Ei = λi ∑ ⎢ e et
2 k k⎥
(7.38)
k =1 ⎢ ( λ − λ ) ⎥⎦
k ≠i ⎣ k i
então, n ( eˆ i − ei ) ∼ N p −1 ( 0, E i ) .
3. Cada λ̂ i tem distribuição independente dos elementos do vetor característico
associado êi .
4. A covariância do r-ésimo elemento de êi e o s-ésimo elemento de ê j (i≠j) é:
λ i λ jeis e jr
Cov ( eˆ ir , eˆ js ) = (i ≠ j) (7.39)
n ( λi − λ j )
2
Os resultados 1 a 4 são referentes às propriedades distribucionais de
grandes amostras e válidas para o caso de p distintas raízes características.
Entretanto, Anderson (1963) aponta que o resultado 2 requer somente que λi seja
distinto dos demais p-1 valores característicos, os quais podem ter qualquer
multiplicidade. Esses resultados podem ser utilizados para construir testes de
hipóteses e intervalos de confiança para os autovalores e autovetores
populacionais.
O resultado 1 implica, em grande amostras, que os λ̂ i ’s são
independentemente distribuídos com distribuição aproximadamente N ( λ i , 2λ i2 / n ) .
As inferências podem ser derivadas desse resultado. O intervalo de confiança
para λi pode ser obtido a partir da afirmativa probabilística:

⎡ ⎤
⎢ λˆ i − λ i ⎥
P⎢ ≤ Z ( α / 2 )⎥ = 1 − α (7.40)
⎢ 2 ⎥
⎢⎣ λ i n ⎥⎦
O intervalo de confiança resultante é dado por:
⎡ ⎤
⎢ ˆλ ˆλ ⎥
ICλi (1 − α) : ⎢ i
; i
⎥ (7.41)
⎢ 2 2⎥
⎢⎣1 + Z ( α / 2 ) n 1 − Z ( α / 2 ) n ⎥⎦
Obviamente os valores de α e de n devem ser apropriados para que
o limite superior de (7.41) seja válido. Caso o limite superior não seja válido e n for
suficientemente grande, é possível obter o intervalo alternativo substituindo a
variância paramétrica de λ̂ i pelo seu estimador. Assim,
⎡ 2 ˆ 2⎤
ICλi (1 − α) : ⎢λˆ i − Z ( α / 2 ) λˆ i ; λ i + Z ( α / 2 ) λˆ i ⎥ (7.42)
⎣ n n⎦
Testes de hipóteses de o tipo H o : λ i = λ 0 podem ser realizados
calculando-se o escore normal padrão:
λˆ i − λ 0
Zc = (7.43)
2
λ0
n
Uma inferência importante e mais geral sobre a estrutura de
dependência é apresentada por Anderson (1963). O teste de hipótese de que os r
autovalores intermediários de Σ sejam iguais é apresentado. A hipótese de
interesse é:
H 0 : λ q +1 = λ q + 2 = = λq+r (7.44)
Aos q maiores e aos (p-q-r) menores autovalores não são impostas
restrições quanto aos seus valores ou multiplicidades. A hipótese alternativa é
especificada da seguinte forma: H1: pelo menos um dos r autovalores difere dos
demais intermediários. O teste de razão de verossimilhança conduz a estatística
⎛ q+r ˆ ⎞
⎜ ∑ λj ⎟
( )
q+r
2 ˆ
χ c = −(n − 1) ∑ ln λ j + (n − 1)r ln ⎜ j=q +1 ⎟ (7.45)
j= q +1 ⎜ r ⎟
⎜ ⎟
⎝ ⎠
que tem distribuição aproximadamente de qui-quadrado sob H0 com ν=r(r+1)/2 - 1
graus de liberdade para grandes amostras.
Um caso especial importante deste teste de hipótese ocorre quando
q+r=p ou quando a variação das últimas r dimensões é esférica.
Outro importante teste refere-se aos autovetores. A hipótese de que
o i-ésimo autovetor populacional de Σ é igual a um vetor de constantes com norma
1 é apresentada a seguir.
H 0 : ei = e0 (7.46)
O teste da hipótese nula (7.46) é realizado com base no resultado 2
dessa seção e na matriz de covariância Ei definida em (7.38) devidamente
substituída pelo seu estimador Êi , o qual é obtido pela substituição de λ i e ei
pelos seus estimadores λ̂ i e êi . Assim, Anderson (1963) demonstra que o teste
estatístico dado por:
⎛ 1 ⎞
χ c2 = n ⎜ λˆ i e0t S−1e0 + e0t Se0 − 2 ⎟ = n ( eˆ i − e0 ) Eˆ ig ( eˆ i − e0 )
t
(7.47)
ˆλ
⎝ i ⎠
tem distribuição assintótica de qui-quadrado com p-1 graus de liberdade se H0 for
verdadeira. Em que Ê ig é uma inversa generalizada de Ê i .
Demonstração: A matriz Ei do resultado 2 pode ser rescrita na forma matricial
como se segue. Para isso, serão definidas as seguintes matrizes:

⎡ λ1 ⎤
⎢ 0 0 ⎥
⎢ ( λ1 − λ i )
2
⎥
⎢ λ2 ⎥
⎢ 0 0 ⎥
( λ 2 − λi )
2
Λi = ⎢ ⎥ uma matriz (p-1)x(p-1) originária da
⎢ ⎥
⎢ ⎥
⎢ λp ⎥
⎢ 0 0 ⎥
( λ p − λi ) ⎥⎦
2
⎢
⎣
⎛ λj ⎞
eliminação da i-ésima linha e i-ésima coluna de uma matriz Diag ⎜ ⎟ , pxp.
⎜ ( λ − λ )2 ⎟
⎝ j i ⎠
Pi = ⎡⎣e1 e 2 e p ⎤⎦ p × (p − 1), sendo e j os autovetores de Σ, com j≠i e dimensão
px(p-1).
Assim, pode-se definir Ei por:
p ⎡ ⎤
λj
E i = λ i Pi Λ i Pit = λ i ∑ ⎢ e e t⎥
j=1 ⎢ ( λ − λ )
2 j j
⎥
j≠ i ⎣ i j ⎦
e sua inversa generalizada, devido a Ei ter posto (dimensão) p-1, por:
p ⎡ ( λ − λ )2 ⎤
1 1
∑ ⎢ t⎥
i j
E = Pi Λ i−1Pit =
g
i e je j
λi λi j=1 ⎢ λj ⎥
j≠ i ⎣ ⎦
No capítulo 4 foi visto que sob normalidade ou para grandes
amostras a forma quadrática
n ( ei − e0 ) E ig n ( ei − e0 ) ∼ χ 2p −1
t
Os graus de liberdade são iguais a (p-1) e não a p devido a Ei ter
posto incompleto (p-1). Devido aos autovetores de E ig e o autovetor ei serem
ortogonais, a forma quadrática anterior pode ser simplificada por:
p ⎡ (λ − λ ) ⎤
2
n
n ( ei − e 0 ) E i ( ei − e0 ) = ne0 E i e0 = e0 ∑ ⎢ t⎥
t g t g t i j
e je j e 0 =
λ i j=1 ⎢ λj ⎥
j≠ i ⎣ ⎦
n t p ⎡ ( λ j − 2λ i λ j + λ i ) t ⎤
2 2 ⎧ p ⎡ ⎤⎫
n t⎪p p
1 t ⎪
= e0 ∑ ⎢ e je j ⎥e0 = e0 ⎨∑ ⎣ λ je je j ⎦ − 2λ i ∑ ⎣ e je j ⎦ + λ i ∑ ⎢ e je j ⎥ ⎬ e0 =
⎡ t
⎤ ⎡ t
⎤ 2
λ i j=1 ⎢ λj λ i ⎪ j=1 j=1 ⎢ λ j

j≠ i ⎣ ⎦⎥ ⎩ j≠ i
j=1
j≠ i j≠ i ⎣ ⎦⎥ ⎭⎪
p
Como ∑ ⎡⎣λ je jetj ⎤⎦ = Σ , além disso, somando e subtraindo λ i ei eit ao
j=1
p
termo da expressão ∑ ⎡⎣λ je je tj ⎤⎦ , tem-se que:
j=1
j≠ i
p
∑ ⎡⎣λ je je tj ⎤⎦ + λi ei eit − λ i ei eit = Σ − λ i ei eit
j=1
j≠ i
p ⎡ ⎤
1
Utilizando o mesmo raciocínio para Σ −1 = ∑ ⎢ e je tj ⎥ somando e
j=1 ⎢ λ j
⎣ ⎦⎥
p ⎡1 ⎤ 1
subtraindo ao termo ∑ ⎢λ e je tj ⎥ a quantidade dada por
λ
ei eit , tem-se:
j=1 ⎢ j ⎥⎦
j≠ i
⎣ i
p ⎡1 ⎤ 1 1 1
∑ ⎢λ e je tj ⎥ + ei eit − ei eit = Σ −1 − ei eit
j=1 ⎢ j
j≠ i
⎣ ⎥⎦ λ i λi λi
p
Finalmente, o termo ∑ ⎡⎣e je tj ⎤⎦ é equivalente a seguinte expressão,
j=1
j≠ i
lembrando que os autovetores têm norma 1 e são ortogonais e ainda aplicando-se
o mesmo tipo de artifício:
p
∑ ⎡⎣e je tj ⎤⎦ = I − ei eit
j=1
j≠ i
Assim, retornando ao desenvolvimento anterior da aproximação de
qui-quadrado tem-se:
⎧ p ⎡ ⎤⎫
n t⎪p p
1 t ⎪
e0 ⎨∑ λ j e j e j ⎦ − 2λ i ∑ ⎣e j e j ⎦ + λ i ∑ ⎢ e j e j ⎥ ⎬ e0 =
⎡ t
⎤ ⎡ t
⎤ 2
λ i ⎪ j=1 ⎣ j=1 ⎢ λ j ⎥⎦ ⎪
j≠ i ⎣
j=1
⎩ j≠i j≠ i ⎭
n t⎡ ⎡ 1 ⎤⎤
= e0 ⎢Σ − λ i ei eit − 2λ i ( I − ei eit ) + λ i2 ⎢Σ −1 − ei eit ⎥ ⎥ e0 =
λi ⎣ ⎣ λi ⎦⎦
⎡ e t Σe et e et e e t Ie et e et e e t Σ −1e0 et e et e ⎤
= n ⎢ 0 0 − 0 i i 0 λ i − 0 0 2λ i + 2λ i 0 i i 0 + λ i2 0 − λ i2 0 i i 0 ⎥ =
⎣ λi λi λi λi λi λi × λi ⎦
⎡ e t Σe ⎤
= n ⎢ 0 0 − e0t ei eit e0 − 2e0t e0 + 2e0t ei eit e0 + λ i e0t Σ −1e0 − e0t ei eit e0 ⎥ =
⎣ λi ⎦
⎡ e t Σe ⎤
= n ⎢ 0 0 + λ i e0t Σ −1e0 − 2 ⎥
⎣ λi ⎦
Substituindo nessa última expressão Σ pelo estimador S, a
distribuição ainda continua aproximadamente de qui-quadrado para grandes
amostras. Dessa forma, a prova fica completa.
Um outro importante teste de interesse é o da hipótese de mesma
estrutura de correlação, ou seja, Cov(X i , X k )= σii σ kk ρ ou Corr(X i , X k )=ρ , para
todo i≠k. Nesse caso, os autovalores de Σ não são todos distintos e os resultados
anteriores não se aplicam. Embora as distribuições amostrais dos componentes
principais obtidos da matriz R sejam difíceis de derivar, esse caso especial conduz
a resultados tratáveis (Morrison, 1976).
Lawley (1963) propôs um teste para essa hipótese que é alternativo
e equivalente àquele baseado na razão de verossimilhança, para a estrutura de
eqüicorrelação da matriz de correlação populacional ρ (pxp). Para isso basta
aplicar o teste da hipótese de igualdade de todas as p(p-1)/2 correlações (ρij). A
hipótese de interesse é dada por:
⎡1 ρ ρ⎤
⎢ρ 1 ρ ⎥⎥
H 0 : ρ = ρ0 = ⎢ vs H 0 : ρ ≠ ρ0 (7.48)
⎢ ⎥
⎢ ⎥
⎣ρ ρ 1⎦
Essa hipótese pode ser escrita na forma equivalente H 0 : ρij = ρ para
todos os subscritos i≠j. O procedimento de Lawley (1963) requer as seguintes
quantidades:
1 p
rk = ∑ rik ; k = 1, 2, ..., p
p − 1 i =1
(7.49)
i≠k
2 p −1 p
r= ∑ ∑ rik
p(p − 1) i =1 k =i +1
(7.50)
(p − 1) 2 ⎡⎣1 − (1 − r ) 2 ⎤⎦
γˆ = (7.51)
p − (p − 2)(1 − r ) 2
Verifica-se facilmente que rk de (7.49) é a média dos elementos fora
da diagonal para as k colunas de R e r de (7.50) é a média de todos os
elementos fora da diagonal principal de R. Lawley (1963) mostrou que quando n
tende para infinito o teste estatístico:
n − 1 ⎡ p −1 p p 2⎤
χ c2 = 2 ⎢ ∑ ∑
(1 − r ) ⎣ i =1 k =i +1
( rik − r )
2
− γ
ˆ ∑ ( rk − r ) ⎥ (7.52)
k =1 ⎦
tem distribuição de qui-quadrado com ν=(p+1)(p-2)/2 graus de liberdade.
Finalmente, o teste, denominado de teste de esfericidade, é
apresentado. A hipótese de interesse é dada por:
H0 : Σ = Σ0 = σ2 I (7.53)
Para o teste dessa hipótese, suponha uma amostra aleatória da
distribuição normal p-variada com média µ e covariância Σ, dada por
X1 , X 2 , , X n . A seguir é apresentado o teste de razão de verossimilhanças para
testar a hipótese de interesse. A função de verossimilhança sob a hipótese
H 0 : Σ = Σ é dada por:
n
⎧ 1 n ⎫
L ( µ, Σ X ) = ∏ f ( X j ) = ( 2π )− np / 2 Σ − n / 2 exp ⎨ − ∑ ( X j − µ ) Σ −1 ( X j − µ ) ⎬
t
j =1 ⎩ 2 j =1 ⎭
A função suporte é determinada pelo logaritmo natural (neperiano) da
função de verossimilhança. O máximo de L deve ser obtido, no entanto, o máximo
da função suporte com relação a µ e Σ coincidem. A função suporte é dada por:
⎡ n ⎤ np n 1 n
S( ) = ln ⎢∏ ( j )⎥ = − 2 ln ( 2π ) − 2 ln Σ − 2 ∑ ( X j − µ ) Σ −1 ( X j − µ )
t
µ , Σ X f X
⎣ j =1 ⎦ j =1
Para obter o máximo dessa função, é necessário derivar em relação
aos parâmetros µ e Σ . Igualar as derivadas a zero e achar a solução do sistema
de equações formado. Esses resultados estão apresentados na seqüência.
a) Derivada de S ( µ, Σ X ) em relação a µ
∂S ( µ, Σ X ) n
= ∑ Σ −1 ( X j − µ )
∂µ j =1
Igualando a zero e resolvendo a equação formada obtém-se:
∑ (X
j =1
j − µˆ ) = 0
n
nµˆ = ∑ X j
j =1
n
∑
j =1
Xj
µˆ = =X
n
b) Derivada de S ( µ, Σ X ) em relação a Σ
∂S ( µ, Σ X ) n 1
= − ( Σ −1 ) + nΣ −1S nΣ −1
t
∂Σ 2 2
Igualando a zero e resolvendo a equação para Σ , substituindo-se o
valor de µ encontrado em (a), tem-se as seguintes passagens.

∂S ( µ, Σ X )
=0
∂Σ
n −1 t 1 ˆ −1 ˆ −1
− ( Σˆ ) + nΣ SnΣ = 0
2 2
1 ˆ −1 ˆ −1 n −1
nΣ S nΣ = ( Σˆ )
2 2
Σˆ −1S n Σˆ −1 = Σˆ −1
Pré e pós multiplicando ambos os lados dessa última equação por Σ̂
obtém-se:
ˆ ˆ −1S Σˆ −1Σˆ = ΣΣ
ΣΣ ˆ ˆ −1Σˆ
n
1 n 1 n
Σˆ = S n = ∑ ( X j − X )( X j − X )t = ∑W j
n j =1 n j =1
Substituindo as soluções obtidas em L obtém-se o seu máximo da
seguinte forma:
⎧ 1 n ⎫
( ) exp ⎨− ∑ ( X j − X j ) S n−1 ( X j − X j ) ⎬
−n / 2 t
L µˆ , Σˆ = ( 2π )− np / 2 S n
⎩ 2 j =1 ⎭
⎪⎧ 1 ⎡ n −1 t ⎤⎪ ⎫
exp ⎨− tr ⎢ ∑ Sn ( X j − X j )( X j − X j ) ⎥ ⎬
−n / 2
= ( 2π )− np / 2 S n
⎩⎪ 2 ⎣ j =1 ⎦ ⎭⎪
⎪⎧ 1 ⎡ −1 n t ⎤⎪⎫
exp ⎨− tr ⎢ S n ∑ ( X j − X j )( X j − X j ) ⎥ ⎬
−n / 2
= ( 2π )− np / 2 S n
⎪⎩ 2 ⎣ j =1 ⎦ ⎪⎭
−n / 2 ⎧ 1 ⎫
= ( 2π )− np / 2 Sn exp ⎨− tr ⎡⎣ Sn−1nSn ⎤⎦ ⎬
⎩ 2 ⎭
−n / 2 ⎧ n ⎫
= ( 2π )− np / 2 S n exp ⎨− tr [ Ι ]⎬
⎩ 2 ⎭
−n / 2 ⎧ np ⎫
= ( 2π )− np / 2 Sn exp ⎨− ⎬
⎩ 2⎭
Sob H 0 : Σ = Σ 0 = σ 2 I a verossimilhança e a função suporte são
dadas por:
⎧ 1 n ⎫
L ( µ, Σ 0 X ) = ( 2π )− np / 2 Σ 0 exp ⎨− ∑ ( X j − µ ) Σ 0−1 ( X j − µ ) ⎬
−n / 2 t
⎩ 2 j =1 ⎭
⎧ 1 n ⎫
exp ⎨ − 2 ∑ ( X j − µ ) ( X j − µ ) ⎬
t
= ( 2π )− np / 2 ( σ 2 )
− np / 2
⎩ 2σ j =1 ⎭
np np 1 n
( ) ln ( 2π ) − ln ( σ2 ) − 2 ∑ ( X j − µ ) ( X j − µ )
t
S µ, σ 2 X = −
2 2 2σ j =1
Para obter o máximo dessa função, é necessário derivar em relação
aos parâmetros µ e σ 2 . Em seguida deve se igualar às derivadas a zero e achar a
solução do sistema de equações formado.

(
c) Derivada de S µ, σ 2 X em relação a µ )
(
∂S µ, σ 2 X )= 1 n
∂µ
∑ ( X j − µ)
2σ2 j =1
Igualando a zero e resolvendo a equação formada obtém-se:
∑ (X
j =1
j − µˆ ) = 0
n
nµˆ = ∑ X j
j =1
n
∑
j =1
Xj
µˆ = =X
n
Essa solução é a mesma do caso anterior.
( )
d) Derivada de S µ, σ 2 X em relação a Σ 0
(
∂S µ, σ 2 X ) = − np 1 n
∂σ 2
2σ 2
+
2(σ )
2 2
∑(X
j =1
j − µ)t ( X j − µ)
Igualando a zero e resolvendo a equação para σ 2 , substituindo-se o
valor de µ encontrado em (a), tem-se os seguintes resultados.

(
∂S µ, σ 2 X ) =0
∂σ 2
np 1 n
2 ∑
− + ( X j − X )t ( X j − X ) = 0
2σ 2 ( σˆ ) j =1
2
ˆ 2
1 n
np
2 ( σˆ ) 2 2
∑ tr ⎣⎡( X
j =1
j − X )t ( X j − X ) ⎦⎤ = −
2σˆ 2
1 ⎧ n ⎫ np
tr ⎨
( σˆ 2 ) ⎩ j =1
∑ ⎡⎣( X j − X )( X j − X )t ⎤⎦ ⎬ = 2
⎭ σˆ
2
Pré e pós multiplicando ambos os lados dessa última equação por
σ̂ 2 , e simplificando algumas Expressões obtém-se:
1 np 2
σˆ 2 tr ( nS n ) = σˆ
( σˆ )
2 2 σˆ 2
1 np p
= =
σˆ 2
n tr ( S n ) tr ( S n )
tr ( Sn )
σˆ 2 =
p
Substituindo as soluções obtidas em L ( µ, Σ 0 X ) obtém-se o seu
máximo da seguinte forma:

− np / 2
⎡ tr ( S n ) ⎤ ⎪⎧ ⎪⎫
( ) p n
∑ ( X j − X j ) ( X j − X j )⎬
t
L µˆ , Σˆ 0 = ( 2π )− np / 2 ⎢ ⎥ exp ⎨ −
⎣ p ⎦ ⎪⎩ 2tr ( S n ) j =1 ⎭⎪
− np / 2
⎡ tr ( S n ) ⎤ ⎧⎪ p ⎫⎪
= ( 2π ) − np / 2
⎢ ⎥ exp ⎨− tr ( nS n ) ⎬
⎣ p ⎦ ⎩⎪ 2tr ( S n ) ⎭⎪
− np / 2
− np / 2 ⎡ tr ( S n ) ⎤ ⎧ np ⎫
= ( 2π ) ⎢ ⎥ exp ⎨− ⎬
⎣ p ⎦ ⎩ 2⎭
Para testar a hipótese H 0 : Σ = Σ 0 = σ 2 I obtém-se a razão do máximo
de as duas funções de verossimilhança. Então, baseando-se no resultado de que
o logaritmo natural multiplicado por -2 tem distribuição aproximada de
qui-quadrado, pode-se efetuar um teste para essa hipótese. Assim, seja:
− np / 2
− np / 2 ⎡ tr ( S n ) ⎤ ⎧ np ⎫
( 2π ) exp ⎨− ⎬
Λ1 =
( )=
L µˆ , Σˆ 0 ⎢
⎣ p ⎦
⎥
⎩ 2⎭
=
Sn
n/2
L ( µˆ , Σˆ ) ⎧ np ⎫ ⎡ tr ( S n ) ⎤
np / 2
−n / 2
( 2π )− np / 2 Sn exp ⎨− ⎬
⎩ 2⎭ ⎢ ⎥
⎣ p ⎦
Ou ainda, se for considerado que Sn for substituído por S, não há
alteração dos resultados obtidos, e se for considerado também que λˆ i é o i-ésimo
autovalor de S, então Λ1 pode ser expresso por:
np / 2
⎛ p ⎞ ⎛ p ⎞
np / 2
⎜⎜ ∏ i ⎟⎟ ˆ
λ ˆ
⎜ ∏ λi ⎟
p p
n/2
S ⎝ i =1 ⎠
Λ1 = = = ⎜ p i =1 ⎟ (7.54)
[ tr(S) / p] ⎜ ˆ ⎟
np / 2 np / 2
⎛ ˆ p
⎞ ∑ λi / p ⎟
⎜ ∑ λ i / p ⎟ ⎜
⎝ i =1 ⎠ ⎝ i =1 ⎠
Um teste estatístico pode ser obtido, conforme mencionado
anteriormente por:
⎡ n np ⎤
χ c2 = −2ln ( Λ1 ) = −2 ⎢ − ln S + {ln [tr ( S )] − ln ( p )}⎥ =
⎣ 2 2 ⎦
(7.55)
⎪⎧ n p np ⎡ ⎛ p ˆ ⎞ ⎤ ⎪⎫
= −2 ⎨− ∑ ln ( λˆ ï ) + ⎢ln ⎜ ∑ λ ï ⎟ − ln ( p ) ⎥ ⎬ ∼ χ ν
2
⎪⎩ 2 i =1 2 ⎣ ⎝ i =1 ⎠ ⎦ ⎪⎭
A distribuição aproximada de qui-quadrado possui ν graus de
liberdade, que referem-se a diferença entre o número de parâmetros do modelo
completo e o número de parâmetros do modelo sob a hipótese nula. Como são
estimadas p médias, p variâncias e p(p-1)/2 covariâncias no modelo completo e p
médias e σ2 no modelo sob a hipótese nula, os graus de liberdade são dados por:
p ( p + 1) p ( p + 1) − 2 ( p + 2)( p − 1)
ν= p+ − p −1 = =
2 2 2
Bartlett (1954) sugere uma correção no teste anterior para uma
melhor performance, sendo que para grandes amostras a estatística dada por:
⎡ (2p 2 + p + 2) ⎤
χ c2 = −2 ⎢1 −
6pn ⎥ ln ( Λ1 ) (7.56)
⎣ ⎦
tem distribuição aproximadamente de qui-quadrado com ν=(p+2)(p-1)/2 graus de
liberdade sob H0 dada em (7.53).

O teste (7.56) da hipótese nula (7.53) é denominado de teste de
esfericidade, porque os contornos da densidade são esferas quando Σ = σ2 I .
Um teste mais geral do que o teste (7.56) para a hipótese de que
todas as variáveis sejam independentes é dado pelo teste de razão de
verossimilhança. Seja a hipótese
⎡ σ11 0 0 ⎤
⎢0 σ 0 ⎥⎥
H0 : Σ = ⎢
22
; σii >0 (7.57)
⎢ ⎥
⎢ ⎥
⎢⎣ 0 0 σpp ⎥⎦
A seguinte estatística deve ser calculada inicialmente:
n/2
S n/2
Λ2 = n/2
= R (7.58)
⎛ p ⎞
⎜ ∏ Sii ⎟
⎝ i =1 ⎠
Para grandes amostras, sob H0, o teste estatístico:
⎡ (2p + 11) ⎤
χ c2 = −2 ⎢1 − ln ( Λ 2 ) (7.59)
⎣ 6n ⎥⎦
tem distribuição aproximadamente de qui-quadrado com ν=p(p-1)/2 graus de
liberdade sob H0 dada em (7.57). Essa aproximação é devida a Bartlett (1954) em

substituição a aproximação usual -2ln(Λ2). O resultado (7.59) melhora a
aproximação qui-quadrado usual.
Lawley (1940) mostra que o teste (7.59) pode ser aproximado por:
⎡ (2p + 11) ⎤ p −1 p 2
χ c2 ≅ ⎢ n −
⎣ 6 ⎥⎦ ∑ ∑ rik
i =1 k = i +1
(7.60)
Essa expressão representa uma melhor aproximação de (7.59) para
pequenas correlações e para grandes amostras é pouco provável que conduza a
diferentes resultados dos obtidos pela fórmula determinantal exata (7.59),
Morrison (1976).
É apresentado a seguir um programa SAS no procedimento de
matrizes IML para a realização de todas as inferências propostas nessa seção.
Um exemplo é apresentado, com comentários, para que o usuário possa
reproduzir os testes e os procedimentos de estimação propostos.
options ps=5000 ls=75 nodate nonumber;;

proc iml;
S={4.9810 3.8063 4.7740,
3.8063 3.0680 3.7183,
4.7740 3.7183 4.8264};
p=ncol(S);n=24;alpha=0.05;
print 'Valor de p tamanho da amostra e alpha';
print p n alpha;
print 'Matriz de covariancias amostral: S';
print S;
Ls=diag(eigval(s));
Ps=eigvec(S);
print 'Matriz de autovalores de S';
print Ls;
print 'Matriz de autovetores de S';
print Ps;
D=diag(S);
D_12=inv(root(D));
*print D 12;
Rs=D_12*S*D_12;
print 'Matriz de correlacoes amostrais R';
print Rs;
Lr=diag(eigval(Rs));
print 'Matriz de autovalores de R';
print Lr;
Pr=eigvec(Rs);
print 'Matriz de autovetores de R';
print Pr;
/*intervalo de confianca para autovalores de S - equacao 7.41*/
za2=probit(1-alpha/2);
print 'Intervalos de confianca para os autovalores de S, sendo 1-
alpha=' alpha;
print 'Autovalor Li Ls';
do i=1 to p;
lin=ls[i,i]/(1+za2*(2/n)**0.5);
lsu=ls[i,i]/(1-za2*(2/n)**0.5);
print i lin lsu;
end;
/*Testar a hipotese de que o maior autovalor de S e igual a l0=12.35 -
equacao 7.42 */
/* este teste eh motivado pelo fato de l1=sig2(1+(p-1)rho), com
sig2=4.2 e rho=0.97 */
l0=12.35;
Zc=(ls[1,1]-l0)/(l0*(n/2))**0.5;
przc=2*(1-probnorm(abs(zc)));
print 'Teste de H0: l1=12.35 (igual correlacao). Esse valor eh apenas
um exemplo';
print 'Valor de Zc valor de prob>|zc|';
print 'Se [prob>|zc|]>valor de alpha Ho nao deve ser rejeitada';
print Zc przc;
/* teste 7.43 igualdade de r autovalores intermediarios*/
/* neste exemplo sera testado Ho: l2 = l3 */
/*q=1, r=2, p=3 -teste 7.44 */
aux1=0;aux2=0;q=1;r=2;
do i=q+1 to q+r;
aux1=aux1+log(ls[i,i]);
aux2=aux2+ls[i,i]/r;
end;
qui2c=-(n-1)*aux1+(n-1)*r*log(aux2);
print 'Valores dos somatorios auxiliares para teste H0: l2 = l3';
print 'aux1 = soma ln(lj) e aux2 = media dos lj intermediarios';
print aux1 aux2;
v=r*(r+1)/2-1;
prqui2c=1-probchi(qui2c,v);
print 'Teste da hipotese de que Ho: l2 = l3 ';
print 'Qui-quadrado GL Pr>qui-Quadr';
print qui2c v prqui2c;
/* teste para a hipotese de igualdade de um autovetor a um vetor de
constantes*/
/* Para ilustrar sera testado que e1=[1/3^0.5 1/3^0.5 1/3^0.5], ou
seja, igual*/
/* estrutura de correlacao da matriz Sigma que originou a S */
e0=j(p,1,1/3**0.5);
E1=j(p,p,0);
do i=1 to p;
ek=Ps[,i];
if i^=1 then
do;
E1=E1+(ls[i,i]/(ls[i,i]-ls[1,1])**2)*ek*t(ek);
end;
end;
E1=ls[1,1]*E1;
Le=eigval(e1);
*print E1 le;
ei1=Ps[,1];
print e0 ei1;
qui2c=n*(ls[1,1]*e0`*inv(S)*e0+e0`*S*e0/ls[1,1]-2);
qui2c2=n*t(Ps[,1]-e0)*ginv(E1)*(Ps[,1]-e0);
v=p-1;
prqui2c=1-probchi(qui2c,v);
print 'Teste da hipotes e1=e0=t([1/3^0.5 1/3^0.5 1/3^0.5])';
print 'Qui-quadrado1 qui-quad2 GL Pr>qui-Quadr';
print qui2c qui2c2 v prqui2c;
/*teste da H0:phoij=pho - igual estrutura de correlacao */
rbar=(sum(Rs)-trace(Rs))/(p*(p-1));
rk=j(p,1,0);
do i=1 to p;
rk[i]=(sum(Rs[,i])-1)/(p-1);
end;
gama=(p-1)**2*(1-(1-rbar)**2)/(p-(p-2)*(1-rbar)**2);
aux1=(Rs-j(p,p,rbar))#(Rs-j(p,p,rbar));
aux2=(sum(aux1)-trace(aux1))/2;
aux3=(rk-j(p,1,rbar))#(rk-j(p,1,rbar));
aux4=sum(aux3);
qui2c=(n-1)/(1-rbar)**2*(aux2-gama*aux4);
v=(p+1)*(p-2)/2;
if qui2c<=0 then qui2c=1e-14;
prqui2=1-probchi(qui2c,v);
print 'Teste da hipotes phij=pho: igual estrutura de correlacao';
print 'Qui-quadrado GL Pr>qui-Quadr';
print qui2c v prqui2;
print 'Valores utilizados no teste-para simples conferencia';
print 'media geral dos rij, vetor de medias de cada coluna de R e gama
chapeu';
print rbar rk gama;
/*teste de esfericidade-H0: Sigma=Sig^2*I*/
Lamb1=((det(S)**(1/p))/(trace(S)/p));
qui2c=-2*(n*p/2)*log(lamb1)*(1-(2*p**2+p+2)/(6*p*n));
v=(p+2)*(p-1)/2;
print 'Teste de esfericidade - H0: Sigma=Sig^2*I';
print 'Qui-quadrado GL Pr>qui-Quadr Lambida 1^(2/(np))';
print qui2c v prqui2 lamb1;
/*teste de independencia de variaveis mais geral - H0: Sigma =
Diag(sig11 sig22 ... sigpp)*/
Lamb2=det(Rs);
qui2c=-2*(n/2)*log(lamb2)*(1-(2*p+11)/(6*n));
v=p*(p-1)/2;
print 'Teste de independencia - H0: Sigma = Diag(sig11 sig22 ...
sigpp)';
print 'Qui-quadrado GL Pr>qui-Quadr Lambida 2^2/n';
print qui2c v prqui2 lamb2;
/*teste de independencia de variaveis - uso da aproximacao de Lawley-
pior*/
aux1=Rs#Rs;
aux2=(sum(aux1)-trace(aux1))/2;
qui2c=aux2*(n-(2*p+11)/6);
v=p*(p-1)/2;
print 'Teste de independencia aproximado de Lawley (1940)';
print 'para a hipotese H0: Sigma = Diag(sig11 sig22 ... sigpp)';
print 'Qui-quadrado GL Pr>qui-Quadr Soma de rij^2=aux2';
print 'Obs. para grandes valores de rij essa eh uma pessima
aproximacao';
print qui2c v prqui2 aux2;
quit;
7.6. Exercícios
7.6.1. Extrair os componentes principais da matriz S obtida das mensurações de
três variáveis em carapaças de tartarugas. As variáveis X1, X2, e X3 são
referentes ao comprimento, largura e altura transformadas por logaritmo
natural, respectivamente. Uma amostra de 24 fêmeas foi realizada. A matriz
S é apresentada a seguir, juntamente com o vetor de médias das variáveis
transformadas. Obter os componentes principais de S e interpretá-los,
quando for possível. Obter a matriz R e os respectivos componentes
principais. Obter em ambos os casos: a) a porcentagem de informação
explicada por cada componente; b) a correlação entre as variáveis originais
transformadas e os componentes principais. Observando o primeiro
componente principal de R com mais profundidade, o que pode ser afirmado
sobre a matriz R (sem a realização de teste).
⎡ 2,128 ⎤ ⎡ 4,9810 3,8063 4, 7740 ⎤

X = ⎢⎢ 2, 008⎥⎥ e S = ⎢⎢ 3,8063 3, 0680 3, 7183 ⎥⎥
⎢⎣1, 710 ⎥⎦ ⎢⎣ 4, 7740 3, 7183 4,8264 ⎥⎦
7.6.2. Com os dados do exercício 7.6.1, determine os intervalos de 95% de
confiança assintótico para os 3 autovalores de Σ (3x3).
7.6.3. Com os dados do exercício 7.6.1 teste a hipótese de que o primeiro
autovetor de ρ seja igual a e1t = ⎡⎣1 3 1 3 1 3 ⎤⎦ . Qual é sua conclusão
com relação à decisão tomada?
7.6.4. Com os dados do exercício 7.6.1 reproduza a matriz S a partir do primeiro
componente principal e a matriz de resíduos.
7.6.5. Teste a hipótese de que os r=2 últimos valores característicos de Σ, sejam
iguais, utilizando os dados do exemplo 7.6.1.
7.6.6. Teste a hipótese de independência geral entre 3 variáveis, para as quais
uma amostra de n=50 observações apresentou a seguinte matriz de
covariância.
⎡ 24,9811 0, 0796 0, 0574 ⎤

S = ⎢⎢ 0, 0796 5, 2762 0, 0020 ⎥⎥
⎢⎣ 0, 0574 0, 0020 3, 0655 ⎥⎦
7.6.7. Os dados a seguir referem a uma amostra de 30 elementos em uma
população normal trivariada. Obtenha os componentes principais e verifique
a normalidade por meio dos dois primeiros componentes. Faça os Q-Q plots
e os gráficos de dispersão dos escores do componente 1 vs 2. Utilize o
último componente para verificar a possibilidade de observações suspeitas.
Caso alguma observação suspeita seja observada, elimine-a da amostra e
refaça o exercício.
U.A. X1 X2 X3
1 12,80 29,56 45,19
2 14,12 26,54 49,29
3 19,09 33,26 49,79
4 15,98 31,00 51,73
5 16,00 28,94 50,30
6 16,51 31,67 48,06
7 14,05 30,11 55,15
8 14,34 26,47 46,84
9 16,87 29,00 52,16
10 21,93 38,00 39,24
11 15,21 30,68 54,02
12 15,54 27,37 51,52
13 17,71 30,20 51,66
14 14,42 29,99 52,50
15 13,38 31,61 52,33
16 13,91 29,59 44,19
17 15,53 29,30 53,71
18 16,40 28,96 46,56
19 18,35 30,15 52,18
20 13,59 27,70 52,33
21 19,08 31,26 48,59
22 13,95 29,94 54,73
23 16,11 34,52 52,69
24 17,10 29,39 52,03
25 18,81 31,48 49,79
26 15,27 29,54 43,11
27 14,80 31,88 48,08
28 17,39 28,88 50,69
29 18,02 34,02 49,58
30 9,52 25,23 45,89
||[ 8
Análise de agrupamento
]||
8.1. Introdução
As análises rudimentares e exploratórias de dados como os
procedimentos gráficos auxiliam, em geral, o entendimento da complexa natureza
da análise multivariada. No presente capítulo são discutidas algumas técnicas
gráficas adicionais para agrupar objetos (itens ou variáveis) e também apresentar
os algoritmos que devem ser usados para efetivamente realizá-los. Encontrar nos
dados uma estrutura natural de agrupamento é uma importante técnica
exploratória. A análise de agrupamento deve ser distinguida da análise
discriminante, pelo fato desta última ser aplicada a um número de grupos já
conhecidos, tendo por objetivo a discriminação de um novo indivíduo a um destes
grupos. A análise de agrupamento por sua vez não considera o número de grupos
e é realizada com base na similaridade ou dissimilaridade (distâncias).
Objetivo dessa análise é agrupar objetos semelhantes segundo suas
características (variáveis). Todavia, não existem impedimentos para realizar o
agrupamento de variáveis semelhantes segundo as realizações obtidas pelos
objetos amostrados. Um outro problema para o qual uma resposta é necessária

consiste em verificar se um indivíduo A é mais parecido com B do que com C.
Quando o número de variáveis envolvidas é pequeno, a inspeção visual poderá
responder. Assim, por exemplo, na Figura 8.1 observa-se uma situação em que A
é mais parecido com C do que com B. Intuitivamente para fazer tal inferência
usou-se o conceito de distância euclidiana, o qual definiu a idéia de parecença.
20 B
18
16
Variável 2
14
12
A
C
10
1.0 1.5 2.0 2.5 3.0 3.5 4.0

Variável 1
Figura 8.1. Dispersão entre três indivíduos mensurados com relação a duas
variáveis quantitativas contínuas.
8.2. Medidas de parecença (similaridade e

dissimilaridade)
Como foi visto no exemplo da Figura 8.1, é necessário especificar
um coeficiente de parecença que indique a proximidade entre os indivíduos. É
importante considerar, em todos os casos semelhantes a este, a natureza da

variável (discreta, contínua, binária) e a escala de medida (nominal, ordinal, real
ou razão).
No capítulo 1 foi discutida a noção de distância e apresentada a
distância euclidiana entre dois objetos no espaço p-dimensional. Sejam
X1t = ⎡⎣ X11 X12 " X1p ⎤⎦ e X 2t = ⎡⎣ X 21 X 22 " X 2p ⎤⎦ observações entre dois objetos

(indivíduos). Então, a distância euclidiana entre eles é dada por:
d ( X1 , X 2 ) = ( X11 − X 21 ) + ( X12 − X 22 ) + ... + ( X1p − X 2p ) = (X1 − X 2 ) t (X1 − X 2 ) (8.1)

2 2 2

Uma importante distância estatística entre estes dois objetos é
conhecida como distância de Mahalanobis, dada por:
d ( X1 , X 2 ) = (X1 − X 2 ) t S−1 (X1 − X 2 ) (8.2)

em que, S-1 é a inversa da matriz de variância e covariância amostral. Outra
medida de distância é a métrica de Minkowski, a qual depende de funções
modulares.
1m
⎡ p m⎤
d ( X1 , X 2 ) = ⎢ ∑ X1i − X i2 ⎥ (8.3)
⎣ i =1 ⎦
em que X ( n ) j e X (1) j são os valores máximos e mínimos, respectivamente, em
uma amostra de n objetos para a j-ésima variável.
Muitas vezes os objetos não podem ser mensurados em variáveis
quantitativas. Essas variáveis podem ser transformadas em dicotômicas (binárias),
determinado um ponto de corte de interesse prático. Assim, por exemplo, se a
altura (Y) de n indivíduos é mensurada e o interesse é determinar àqueles com
altura superiores a 1,80m, então, defini-se a variável binária (X) da seguinte forma:
se Yi > 1,80m então Xi = 1 caso contrário, se Yi ≤ 1,80m, então Xi = 0. Da mesma
forma, variáveis qualitativas podem ser transformadas em variáveis binárias
tomando-se como valor 1 a presença de uma determinada realização e o valor 0
para as demais. Assim, por exemplo, se na amostra ocorresse um indivíduo com
cor de olhos pretos determinaria o valor 1 e a ocorrência de outro com outra cor de
olhos determinaria o valor 0. De uma maneira geral, a presença e ausência de
uma característica devem ser representadas por uma variável binária, a qual
assume valor 1 se a característica estiver presente e o valor zero se estiver
ausente. A ocorrência de dados binários é bastante comum em genética
molecular. Nesse caso, os indivíduos são genotipados para a presença ou
ausência de um determinado marcador molecular, marcador de DNA.
Como exemplos consideram-se duas linhagens de milho as quais
foram estereotipadas através de marcadores moleculares denominados RAPD. O
melhorista nesse caso estava interessado na similaridade genética dessas
linhagens. Cinco bandas (marcadores diferentes) foram utilizadas. Os resultados

para presença e para a ausência dessas bandas foram obtidos e estão
apresentados a seguir.
Bandas
Linhagens 1 2 3 4 5
A 1 0 0 1 1
B 1 1 0 1 0
Existem, neste exemplo, duas concordâncias, uma com 1-1 e outra
com 2-2 e duas discordâncias, quais sejam, 0-1 e 1-0. Representando o escore (1
ou 0) da j-ésima variável binária no h-ésimo objeto por Xhj e da mesma forma Xij
representa o escore do i-ésimo objeto na j-ésima variável, j=1, 2, ..., p.
Conseqüentemente, a diferença ao quadrado entre os dois indivíduos ou objetos
para uma determinada variável resultará apenas no valor 0 ou no valor 1. Isso
pode ser observado facilmente pelos seguintes argumentos.
⎧0 se X hj = X ij = 1 ou se X hj = X ij = 0
⎪
(X − X ij )
2
hj =⎨ (8.8)
⎪1 se X ≠ X
⎩ hj ij
Dessa forma, a distância euclidiana quadrática representa a
contagem do número de pares não coincidentes. Grandes distâncias
correspondem a muitos pares não coincidentes e, portanto, a objetos dissimilares.
Para o exemplo em questão, tem-se:
d A2 , B = 2
A equação (8.4) pode ser usada muitas vezes como base para
distância, no entanto, algumas vezes possui algumas limitações por considerar
que os pares (1-1) e (0-0) possuem o mesmo peso, o que em determinadas
situações reais (1-1) representa uma forte evidência de similaridade, mas o (0-0)
não. Muitos coeficientes existem na literatura, dando diferentes tratamentos a este
problema. Cabe ao leitor decidir em qual situação o seu problema se enquadra e
escolher a medida de parecença mais apropriada. Para introduzir estas medidas
de parecença são apresentados os resultados de coincidências e divergências dos
objetos h e i em uma tabela de contingência.
Item i
1 0 Totais
1 a b a+b
Item h
0 c d c+d
Totais a+c b+d p = a + b +c + d
Nesta Tabela pode-se observar que “a” representa a freqüência de
coincidências (1-1), “b” a freqüência de (1-0), e assim sucessivamente. No
exemplo tratado a = 2, b = c = d = 1.
Na Tabela 8.1 apresentam-se alguns dos coeficientes de
semelhança (similaridade) em termos das freqüências descritas anteriormente,
considerando variáveis binárias. Os valores para o exemplo, a variação de cada

uma, o nome comum na literatura e explicação racional para as mesmas foram
apresentados.
Na Tabela 8.1, estão apresentados os coeficientes de similaridades,
no entanto, deve ser ressaltado que a única exceção é a distância binária de
Sokal. Muitas vezes as medidas de dissimilaridade podem ser transformadas em
medidas de similaridade pela relação apresentada em Johnson e Wichern (1988).
1
Sh,i = (8.9)
1 + d h ,i
Outra forma de se obter coeficientes de similaridades a partir da
distância euclidiana, calculada com variáveis padronizadas, pode ser obtida pelo
coeficiente de Cattel (Bussab, Miazaki, Andrade, 1990).
⎛ 2⎞
2 ⎜ p − ⎟ − d h2, i
= ⎝
3⎠
Sh,i (8.10)
⎛ 2 ⎞
2 ⎜ p − ⎟ + d h2,i
⎝ 3⎠
Uma outra expressão apresentada é atribuída a Cattel e Coulter
(Bussab, Miazaki, Andrade, 1990), também derivada considerando distâncias
euclidianas padronizadas é dada por:
2 p − d h2, i
Sh,i = (8.11)
2 p + d h2, i
No entanto, nem sempre é possível construir distâncias a partir de
similaridades. Isso só pode ser feito se a matriz de similaridades for não negativa
definida. Com a condição de que Si,i = 1, máximo das similaridades, e que a matriz
de similaridades seja não negativa definida, então a expressão (8.12) tem as
propriedades de distância.
d h , i = 2 (1 − S h ,i ) (8.12)
Tabela 8.1. Alguns coeficientes de parecença para variáveis dicotômicas.
Nome Expressão Explicação Variação Ex.

Coincidência a+d Pesos iguais para 1-1 e 0-0 0-1 0,60
simples
p
Sokal e 2 (a + d ) Peso duplo para 1-1 e 0-0 0-1 0,75
Sneath
2 (a + d ) + b + c
Rogers e a+d Duplo peso para pares não 0-1 0,43
Tanimoto coincidentes
a + 2( b + c) + d
Russel e Rao a Nenhum 0-0 no numerador 0-1 0,40
p
Jaccard a As coincidências 0-0 são tratadas 0-1 0,50
como irrelevantes
a+b+c
Sorenson 2a 0-0 é irrelevante e duplo peso para 0-1 0,66
1-1.
2a + b + c
- a 0-0 é irrelevante e duplo peso para 0-1 0,33
não coincidência.
a + 2( b + c)
- a Razão entre coincidências e não 0-(p-1) 1,00
coincidências - Exceto 0-0
b+c
Dist. Binária b+c Única medida de dissimilaridade. 0-1 0,63
de Sokal
p
Ochiai a Concordâncias positivas sobre 0-1 0,67
adaptação da média geométrica de
( a + b )( a + c) discordâncias
Baroni-Urbani- Concordâncias positivas e a média 0-1 0,63
Buser
a + ad geom. de concordância positivas e
a + b + c + ad negativas
Haman (a + d) − (b + c ) Proporção de coincidências menos -1 - +1 0,20
a proporção de discordâncias
p
Yule ad − bc Proporção de ad menos a de bc -1 - +1 0,33
ad + bc
φ ad − bc Produto de momento de correlação -1 - +1 0,17
aplicado a variáveis binárias
(a + b)(a + c)( b + d )(c + d )
Ochiai II ad Proporção de coincidências em 0 -1 0,33
relação à média geom. total
(a + b)(a + c)(b + d )(c + d ) modificada
Em algumas aplicações é necessário agrupar variáveis ao invés de
objetos. As medidas de similaridades para agrupar variáveis usadas na prática são
baseadas nos coeficientes de correlação amostral. Em algumas aplicações de
agrupamento, as correlações negativas são trocadas pelos seus valores
absolutos. Quando, as variáveis são binárias esta correlação está apresentada na
Tabela 8.1 (φ). Este coeficiente de correlação está associado à estatística de qui-
quadrado, para testar a independência de duas variáveis categóricas por
( φ2 = χ 2 n , n = a + b + c + d, χ2 com 1 grau de liberdade). Para n fixo, uma grande
similaridade (ou correlação) é consistente com a falta de independência entre as
variáveis. Uma outra importante observação que pode ser feita é que para
agrupamento de variáveis os coeficientes de similaridade e de distâncias podem
ser usadas, apenas tomando-se o cuidado de substituir p (número de variáveis)
por n (número de objetos).
8.3. Agrupamentos
Muitos algoritmos existem para formar os agrupamentos, devido a
existência de vários critérios existentes para conceituar os grupos que nem
sempre são aceitos universalmente. Uma outra razão para isso, é que raramente
pode-se examinar todas as possibilidades de agrupamento, mesmos com os mais
rápidos e possantes computadores.

São apresentadas neste material algumas das técnicas de
agrupamentos denominadas hierárquicas e outra do grupo das não hierárquicas.
8.3.1. Agrupamentos hierárquicos
Os agrupamentos hierárquicos são realizados por sucessivas fusões
ou por sucessivas divisões. Os métodos hierárquicos aglomerativos iniciam com
tantos grupos quanto aos objetos, ou seja, cada objeto forma um agrupamento.
Inicialmente, os objetos mais similares são agrupados e fundidos formando um
único grupo. Eventualmente o processo é repetido, e com o decréscimo da
similaridade, todos os subgrupos são fundidos, formando um único grupo com
todos os objetos.
Os métodos hierárquicos divisivos trabalham na direção oposta. Um
único subgrupo inicial existe com todos os objetos e estes são subdivididos em
dois subgrupos de tal forma que exista o máximo de semelhança entre os objetos
dos mesmos subgrupos e a máxima dissimilaridade entre elementos de subgrupos
distintos. Estes subgrupos são posteriormente subdivididos em outros subgrupos
dissimilares. O processo é repetido até que haja tantos subgrupos quantos
objetos.
Os resultados finais destes agrupamentos podem ser apresentados
por gráficos denominados dendrogramas. Os dendrogramas apresentam os

elementos e os respectivos pontos de fusão ou divisão dos grupos formados em
cada estágio.
Os esforços deste capítulo serão concentrados nos métodos
hierárquicos aglomerativos (“Linkage Methods”). Serão discutidos os métodos de
ligação simples (mínima distância ou vizinho mais próximo), ligação completa
(máxima distância ou vizinho mais distante) e ligação média (distância média). As
idéias para estes três processos estão, esquematicamente, apresentados na
Figura 8.2.
.2 d24 .3 .2 .3
.1 .4 d15
.4
(a) . 5
.
1
.5
(b)
.2 .3
.1 .4
.5
(c)
(d13+d14+d15+d23+d24+d25)/6
Figura 8.2. Distâncias entre os grupos para os métodos da (a) ligação simples, (b)
ligação completa e (c) ligação média.

A seguir está apresentado um algoritmo geral para os agrupamentos
hierárquicos aglomerativos com n objetos (itens ou variáveis).
1. Iniciar com n grupos, cada um com um único elemento e com uma matriz
simétrica n x n de dissimilaridades (distâncias) D={dhi}.
2. Buscar na matriz D o par de grupos mais similar (menor distância) e fazer a
distância entre os grupos mais similares U e V igual a duv.
3. Fundir os grupos U e V e nomeá-lo por (UV). Recalcular e rearranjar as
distâncias na matriz D (a) eliminando as linhas e colunas correspondentes a U
e V e (b) acrescentando uma linha e coluna com as distâncias entre o grupo
(UV) e os demais grupos.
4. Repetir os passos 2 e 3 num total de (n-1) vezes (todos os objetos estarão em
único grupo). Anotar a identidade dos grupos que vão sendo fundidos e os
respectivos níveis (distâncias) nas quais isto ocorre.
(a) Ligação simples (vizinho mais próximo)
Para exemplificar é considerado um exemplo, no qual destacam-se 4
objetos (A, B, C, D), e para o qual a matriz de distâncias entre os objetos é
apresentada a seguir.
A B C D
A ⎡0 ⎤
⎢
B ⎢3 0 ⎥
D= ⎥
C ⎢7 9 0 ⎥
⎢ ⎥
D ⎣ 8 6 5 0⎦
Para ilustrar o método da ligação simples, os objetos menos
distantes devem, inicialmente, ser fundidos. Então, min ( d h , i ) = d A, B = 3 . O próximo
passo é fundir A com B formando o grupo (AB) e em seguida calcular as
distâncias deste grupo e os objetos remanescentes. As distâncias dos vizinhos
mais próximos são,
d( AB ), C = min{dAC , dBC } = min{7, 9} = 7
d( AB ),D = min{dAD , dBD } = min{8, 6} = 6
A nova matriz D para o próximo passo é:
AB C D
AB ⎡ 0 ⎤
D = C ⎢7 0 ⎥⎥
⎢
D ⎢⎣ 6 5 0 ⎥⎦
A menor distância é entre D e C, com dDC=5, os quais foram fundidos
formando o subgrupo DC, no nível 5. Recalculando as distâncias têm-se,
d(DC ),( AB ) = min{dD ( AB ) , dC ( AB ) } = min{6, 7} = 6
A nova matriz D fica,
DC AB
DC ⎡ 0 ⎤
D=
AB ⎢⎣ 6 0 ⎥⎦
d( AB ), C = max{dAC , dBC } = max{7, 9} = 9
d( AB ),D = max{dAD , dBD } = max{8, 6} = 8
AB C D
AB ⎡0 ⎤
D = C ⎢9 0 ⎥⎥
⎢
D ⎢⎣ 8 5 0 ⎥⎦
formando o subgrupo DC, no nível 5. Recalculando as distâncias entre os grupos
tem-se,
d(DC ),( AB ) = max{dD ( AB ) , dC ( AB ) } = max{8, 9} = 9
DC AB
DC ⎡ 0 ⎤
D=
AB ⎢⎣9 0 ⎥⎦
Conseqüentemente, o grupo DC é fundido com AB na distância 9.
Na Figura 8.4, foi apresentado o dendrograma, com os resultados alcançados.

objetos menos distantes. Então, como min ( d h , i ) = d A , B = 3 , os objetos A e B devem
ser fundidos, formando o grupo (AB) e em seguida deve-se calcular as distâncias
deste grupo e os objetos remanescentes. As distâncias entre grupos são
baseadas na média das distâncias entre todos os elementos de um grupo com
relação aos elementos de outro grupo.
d( AB ), C = (dAC + dBC ) / 2 = (7 + 9) / 2 = 8
d ( AB ),D = (d AD + dBD ) / 2 = (8 + 6) / 2 = 7
AB C D
AB ⎡ 0 ⎤
D = C ⎢ 8 0 ⎥⎥
⎢
D ⎢⎣7 5 0 ⎥⎦
formando o subgrupo DC, no nível 5. Recalculando as distâncias têm-se,
d(DC ),( AB ) = (dD ( AB ) + dC ( AB ) ) = (7 + 8) / 2 = 7,5
DC AB
DC ⎡ 0 ⎤
D=
AB ⎣7,5 0 ⎥⎦
⎢
O algoritmo das k-médias, de uma forma bastante simplificada, é
dividido em três passos:
1. Particionar os itens em k grupos iniciais arbitrariamente;
2. Percorrer a lista de itens e calcular as distâncias de cada um deles para o
centróide (médias) dos grupos. Fazer a realocação do item para o grupo em
que ele apresentar mínima distância, obviamente se não for o grupo ao qual
este pertença. Recalcular os centróides dos grupos que ganharam e perderam
o item.
3. Repetir o passo 2 até que nenhuma alteração seja feita.
Exemplo 8.1
Utilizando 4 itens (A, B, C e D) e 2 variáveis (X1 e X2) dividir em k=2
grupos, pelo método das k-médias.
Observação
Objeto x1 x2
A 2 0
B 5 2
C 1 4
D 8 4
i) particionar os itens arbitrariamente em 2 grupos, como por exemplo AD e BC.
Calcular a média de cada grupo.
Centróide
Objeto X1 X2
AD (2+8)/2=5 (0+4)/2=2
BC (1+5)/2=3 (2+4)/2=3
ii) Neste passo a distância de cada item será computada em relação ao centróide
de cada grupo e se necessário, os objetos serão realocados para o grupo mais
próximo.
2
d A ( AD )
= (2 − 5) 2 + (0 − 2) 2 = 13
2
d A (BC )
= (2 − 3) 2 + (0 − 3) 2 = 10
Neste caso há necessidade de realocação de A para o grupo BC,
sendo que os centróides dos grupos devem ser recalculados.
Centróide
Objeto X1 X2
D 8 4
ABC 2,667 2
Recalculando as distâncias dos objetos para o centróide dos grupos
e checando a possibilidade de realocação, tem-se:
2 2 2
d A ,D
= 52 d B ,D
= 13 d C ,D
= 49
2 2 2
d A ,( ABC )
= 4, 44 d B ,( ABC )
= 5, 44 d C ,( ABC )
= 6,77
Item (distância quadrática p/ centróide)

Grupo A B C D
D 52,0 13,0 49,0 0,0
ABC 4,4 5,4 6,8 32,4
Nenhuma realocação deve ser realizada, pois os objetos têm menor
distância para os respectivos grupos aos quais eles pertencem. Para realizar uma
checagem da estabilidade de a partição alcançada é recomendável executar
novamente o algoritmo com uma nova partição inicial.
8.4. Exercícios
Agrupar os 4 objetos cuja matriz de dissimilaridades está
apresentada a seguir, utilizando todos os métodos apresentados nesse material.
A B C D
A⎡ 0 ⎤
⎢
B 9 0 ⎥
D= ⎢ ⎥
C ⎢ 25 36 0 ⎥
⎢ ⎥
D ⎣ 49 100 16 0 ⎦
||[ 9
Análise de fatores
]||
9.1. Introdução
A técnica dos componentes principais consiste em uma
transformação ortogonal dos eixos coordenados do sistema multivariado buscando
as orientações de maior variabilidade. Para o estudo de dependências estruturais
multinormais, as técnicas de explicação das covariâncias das respostas são
preferidas. Apesar de as técnicas dos componentes principais poder ser usada
para essa finalidade, esta não deve ser preferida por ser apenas uma
transformação e não um resultado de um modelo fundamental da estrutura de
covariância. Esse método possui alguns inconvenientes, tais como não ser
invariante quanto às mudanças de escalas e não possuir um critério adequado
para determinar quando uma proporção suficiente da variação total foi explicada
pelos componentes retidos.
Nesse capítulo apresenta-se a técnica de análise de fatores com o
propósito essencial de descrever, se possível, as relações de covariância entre
diversas variáveis em função de poucas, não observáveis, quantidades aleatórias
denominadas de fatores. Sob o modelo de fatores cada variável resposta é

representada por uma função linear de uma pequena quantidade de fatores
comuns, não observáveis, e de uma simples variável latente específica. Os fatores
comuns geram as covariâncias entre as variáveis observadas e os termos
específicos contribuem somente para as variâncias de suas respostas
relacionadas. Os coeficientes dos fatores comuns não são restritos a condição de
ortogonalidade, o que confere generalidade, apesar de se exigir normalidade dos
dados e a determinação, a priori, do número de fatores.
Nesse capítulo são apresentados o modelo de fatores ortogonais, os
métodos de estimação dos parâmetros desse modelo e brevemente o problema
de rotação dos fatores. É considerado um método de estimação que não exige
normalidade. Métodos de estimação de os escores dos fatores são, também,
abordados, o que ao contrário dos componentes principais não é uma tarefa
simples.
9.2. Modelo de fatores ortogonais
Supondo que o sistema multivariado consiste de p resposta descritas
pelas p variáveis observáveis aleatórias X1, X2, ..., Xp. Assumindo que o vetor de
observações multivariadas p X1 possui média µ e covariância Σ, então, o modelo

de fatores pressupõe que o vetor p X1 é linearmente dependente de algumas

poucas variáveis não observáveis F1, F2, ..., Fm chamadas de fatores comuns, e p
fontes de variações adicionais ε1, ε2, ..., εp chamadas de erro ou de fatores
específicos. O modelo de fatores pode ser especificado por:
X1 − µ1 = A11F1 + A12 F2 + ... + A 1m Fm + ε1

X 2 − µ 2 = A 21F1 + A 22 F2 + ... + A 2m Fm + ε 2
(9.1)
# # # % # #
X p − µ p = A p1F1 + A p2 F2 + ... + A pm Fm + ε p
ou em notação matricial por:
X−µ = L F + ε
(9.2)
(p×1) (p× m) (m×1) (p×1)
em que A ij é denominado de carga da i-ésima variável para o j-ésimo fator, então
a matriz L é chamada matriz de cargas fatoriais. O i-esimo fator específico εi é
associado somente com a i-ésima variável resposta Xi. Os p desvios X1-µ1, X2-µ2,
..., Xp-µp são representados por p + m variáveis aleatórias F1, F2, ..., Fm, ε1, ε2, ...,
εp, as quais são não observáveis. Esse fato distingue o modelo de fatores do
modelo de regressão multivariada, pois este último possui variáveis independentes
(ocupadas em (9.2) por F) que são observáveis.
Devido ao grande número de quantidades não observáveis e
também com a finalidade de tornar útil o modelo de fatores, algumas
pressuposições sobre os vetores F e ε são impostas. Assim é assumido que F

tem distribuição com média 0 e que os elementos de F são independentemente

distribuídos, ou seja, F possui covariância Ι . Da mesma forma é assumido que ε

possui média zero e os seus elementos são independentemente distribuídos, ou
seja, Cov( ε )= Ψ diagonal (p x p). Sendo assim, definem-se:

E(F) = 0 (9.3)

Cov(F) = E(FFt ) = Ι (9.4)

E(ε) = 0 (9.5)

⎡ ψ1 0 " 0⎤
⎢0 ψ " 0 ⎥⎥
Cov(ε) = E(εε ) = Ψ = ⎢
t 2
(9.6)
⎢# # % # ⎥
⎢ ⎥
⎣⎢ 0 0 " ψ p ⎦⎥
Finalmente, é assumido que F e ε são independentes, portanto,

Cov(ε, F) = E ( εFt ) = 0 (9.7)

(p × m)
O modelo (9.2) e essas pressuposições definem o modelo de fatores
ortogonal. Dessa forma a estrutura de covariância de X pode ser dada por:

Cov(X) = Σ = E(X − µ)(X − µ) t

Substituindo X − µ pelas definições dadas no modelo (9.2), verifica-

se que:
( X − µ )( X − µ ) ( )
t
= ( LF + ε )( LF + ε ) = ( LF + ε ) ( LF ) + ε t =
t t

= LF ( LF ) + ε ( LF ) + LFε + εε
t t t t

Então,
Cov(X) = Σ = E(X − µ)(X − µ) t =

= E ⎡ LF ( LF ) + ε ( LF ) + LFε t + εε t ⎤
t t
⎣ ⎦
= LE(FF )L + E ( εF ) L + L E ( Fε t ) + E ( εε t )
t t t t

De acordo com as condições (9.4), (9.6) e (9.7), tem-se:
Cov(X) = Σ = LLt + Ψ (9.8)

Também podem ser obtidas as covariâncias entre os componentes
de X e F a partir das suposições assumidas e apresentadas anteriormente.

Assim,

(
⎣ ⎦ )
Cov ( X, F ) = E ⎡ X − µ Ft ⎤ = E ⎡⎣( LF + ε ) Ft ⎤⎦ = E ( LFFt + εFt ) =

= E ( LFFt ) + E ( εFt ) = LE ( FFt ) + E ( εFt ) = LΙ + 0 = L

Logo,
Cov ( X, F ) = L ou Cov ( X i , Fj ) = A ij (9.9)

Da relação (9.8) verifica-se que:
m
Var(X i ) = σii = ∑ A 2ij + ψ i = A 2i1 + A 2i2 + ... + A 2im + ψ i
j=1
(9.10)
m
Cov(X i , X k ) = σik = ∑ A ijA kj = A i1A k1 + A i2A k 2 + ... + A im A km
j=1
A porção da i-ésima variável explicada por m fatores comuns é
chamada de comunalidade e a porção de σii devida aos fatores específicos é
denominada de variância específica. Denotando a i-ésima comunalidade por h i2 é
fácil observar de (9.10) que:
h i2 = A 2i1 + A 2i2 + ... + A 2im (9.11)
Assim,
σii = h i2 + ψ i i = 1, 2, ..., p (9.12)

Quando m = p a matriz Σ pode ser reproduzida exatamente por LLt ,
de tal forma que Ψ=0. A utilidade da análise de fatores, no entanto, ocorre quando
m é bem menor do que p. Dessa forma, o número de parâmetros na análise de
fatores, p(m+1), é bem menor do que aqueles p(p+1)/2 parâmetros de Σ. Por
exemplo, para p=20 existem 20×21/2=210 parâmetros em Σ. Se m=2 fatores são
utilizados, então, o modelo de fatores possui p(m+1)=20(2+1)=60 parâmetros
( A ij e ψ i ).
O grande problema da análise de fatores é a dificuldade ou a
impossibilidade de fatorar a matriz Σ em LL t +Ψ, quando m é bem menor do que p.
Algumas vezes, quando são obtidas soluções, estas são, em geral, inconsistentes
com as interpretações estatísticas. A análise de fatores tem como propósito a
determinação dos elementos da matriz de cargas fatoriais L e dos elementos de
Ψ, obedecendo a restrição (9.12).
Quando m > 1, várias soluções existem para o modelo de fatores,
todas consistentes com as interpretações estatísticas. Essa ambigüidade é a base
para uma importante característica da análise de fatores que é a rotação fatorial.
Para demonstrar essa propriedade, seja T uma matriz ortogonal m x m, ou seja,
TT t =T t T=I. A expressão (9.2) pode ser reescrita por:
X − µ = LF + ε = LTT t F + ε = L*F* + ε (9.13)

em que: L* = LT e F* = T t F .

Como E(F* ) = T t E(F) = T t 0 = 0 e Cov(F* ) = T 'Cov(F)T = T t ΙT = T t T = Ι ,

então, é impossível distinguir as cargas de L das de L*, ou seja, os fatores
F e F* = T t F possuem as mesmas propriedades, uma vez que geram a mesma

matriz de covariância Σ, mesmo que as cargas fatoriais de L e de L* sejam, em
geral, diferentes. Assim,
Σ = LLt + Ψ = LTT t Lt + Ψ = L*L*t + Ψ (9.14)
A escolha da matriz T é direcionada por um critério de facilitação da
interpretação dos fatores gerados, uma vez que as propriedades estatísticas não
são alteradas.
9.3. Estimação das cargas fatoriais
Nas situações reais, os parâmetros do modelo de fatores são
desconhecidos e devem ser estimados das observações amostrais. A análise de
fatores é justificável quando Σ difere de uma matriz diagonal, ou quando matriz ρ
de correlações difere da identidade. Para uma amostra X1 , X 2 , ..., X n de tamanho n

em p variáveis correlacionadas a matriz S é um estimador de Σ, bem como R é de
ρ. Com base em uma estimativa de Σ é possível realizar o teste de hipótese de
igualdade de Σ a uma matriz diagonal, conforme descrição realizada no capítulo 7.

Se a hipótese não for rejeitada, os fatores específicos possuem papel dominante,
sendo que a análise de fatores é determinar alguns poucos fatores comuns. Nesse
caso, a análise de fatores não terá grande utilidade.
Se a hipótese de a estrutura de Σ ser igual a uma matriz diagonal for
rejeitada, então, o modelo de fatores será útil e o problema inicial será o de
estimar as cargas fatoriais A ij e as variâncias específicas ψi. Nessa seção são
considerados dois métodos de estimação para os parâmetros do modelo de
fatores: o método dos componentes principais e o método da máxima
verossimilhança apresentado por Lawley (1940, 1942 e 1943). Qualquer que seja
o método aplicado, as soluções podem sofrer rotações com a finalidade de
simplificar as interpretações dos fatores. É prudente, também, tentar mais de uma
solução.
9.3.1. Método dos componentes principais
A decomposição espectral vista nos capítulos 2 e 7, representa um
importante método de fatoração de Σ. Sejam as matrizes P = ⎡⎣e1 e 2 ... ep ⎤⎦ e

Λ = Diag(λ1 , λ 2 , ..., λ p ) compostas dos autovetores e autovalores de Σ, com
λ1 ≥ λ 2 ≥ ... ≥ λ p , então:
Σ = PΛP t = PΛ1/ 2 Λ1/ 2 P t = LLt (9.15)

em que, L = PΛ1/ 2 é uma matriz p x p de cargas fatoriais.
A equação (9.15) reflete um ajuste da estrutura de covariância por
um modelo de fatores tendo tantos fatores quanto variáveis (m = p) e variâncias
específicas ψi nulas para todo i = 1, 2, ..., p. Nesse modelo as cargas fatoriais do j-
ésimo fator representam os coeficientes do j-ésimo componente principal
(autovetor) multiplicado pelo fator de escala λ j . Embora a relação (9.15) seja
exata, esta não é útil por utilizar tantos fatores quanto variáveis e por não deixar
variação alguma para os fatores específicos.
Uma solução para o problema é considerar um número m, de fatores
comuns, menor do que o de variáveis p. Com esse critério p-m autovalores e os
respectivos autovetores são desconsiderados. Esses autovalores são àqueles (p-
m) menores. Dessa forma a contribuição de λ m +1e m +1e mt +1 + λ m + 2 e m + 2 e mt + 2 + ... + λ p e p e pt

para Σ é negligenciada. Desprezando essa contribuição, a seguinte aproximação
de Σ pode ser obtida:
⎡ λ1 e1 ⎤
⎢ ⎥
⎢ λ 2 e2 ⎥
Σ ≅ ⎡⎣ λ1 e1 λ 2 e 2 ... λ m e m ⎤⎦ ⎢ ⎥ = LL
t
(9.16)
⎢ # ⎥
⎢ λ e ⎥
⎣⎢ m m ⎥⎦
em que L é uma matriz p x m. A representação (9.16), no entanto, não considera a
contribuição dos fatores específicos. A contribuição desses fatores pode ser
estimada tomando-se a diagonal de Σ - LLt , sendo LLt definida em (9.16).

Dessa forma a matriz Σ pode ser aproximada por:
Σ ≅ LLt + Ψ
(9.17)
m
Ψ = Diag(Σ − LLt ) ou ψ i = σii − ∑ A 2ij para i=1, 2, ..., p.
j =1
É comum trabalhar com a representação das variáveis em uma
escala padronizada. Nessa situação a variável Zi possui média 0 e variância 1. A
padronização pode ser realizada por:
⎡ X1 − µ1 ⎤
⎡ Z1 ⎤ ⎢ ⎥
⎢Z ⎥ ⎢ σ11 ⎥
⎢# ⎥ ⎢(
Z = ⎢ ⎥ = V −1/ 2 X − µ = ⎢ #
2
) ⎥
⎥
(9.18)
⎢ ⎥ ⎢ X p − µp ⎥
⎣⎢ Zp ⎦⎥ ⎢ ⎥
⎣⎢ σ pp ⎦⎥
em que:
⎡ 1 ⎤
⎢ 0 " 0 ⎥
σ11
⎢ ⎥
⎢ 1 ⎥
⎢ 0 " 0 ⎥
V −1/ 2
=⎢ σ 22 ⎥
⎢ # # % # ⎥
⎢ ⎥
⎢ 1 ⎥
⎢ 0 0 "
⎢⎣ σ pp ⎥⎥⎦
A matriz de covariância de Z é dada por ρ. O processo de obtenção

dos parâmetros do modelo de fatores é o mesmo descrito nas equações de (9.17),
considerando Σ=ρ e L = PΛ1/ 2 , sendo P a matriz p x m com as colunas compostas
pelos m primeiros autovetores de ρ e Λ1/2 uma matriz m x m com diagonal igual a
m
λ i . Como σii = 1 , é fácil perceber que ψ i = 1 − ∑ A 2ij . A padronização evita que
j=1
uma variável com elevada variação influencie indevidamente a determinação das
cargas fatoriais.
A representação apresentada em (9.17), quando Σ ou ρ são
substituídos pelos seus estimadores S ou R, é conhecida como solução dos
componentes principais para a análise de fatores. O nome se origina do fato de os
fatores serem derivados dos primeiros componentes principais amostrais. O
resumo dos principais resultados desse método de estimação é doravante
apresentado.
A análise de fatores por componentes principais obtidos da
covariância amostral S é especificada em função dos pares de autovalores e
( )
autovetores λˆ i , eˆ i , i = 1, 2, ..., p, em que λˆ 1 ≥ λˆ 2 ≥ ... ≥ λˆ p . Seja m < p, o número

de fatores comuns. A matriz das cargas fatoriais estimadas Â ij é dada por: ( )
L = ⎡ λˆ 1 eˆ1 λˆ 2 eˆ 2 ... λˆ m eˆ m ⎤ = Pˆ1Λ

ˆ 1/ 2 (9.19)
⎣⎢ ⎦⎥
1
em que P̂1 é uma matriz p x m dos autovetores amostrais de S e Λ̂1 é uma matriz
diagonal m x m dos autovalores amostrais de S.
Os estimadores das variâncias específicas são dados pela matriz
diagonal resultante da seguinte operação matricial.
⎡ψ1 0 " 0 ⎤
⎢0 ψ 2 " 0 ⎥⎥
=⎢
Ψ
⎢# # % # ⎥
t
= Diag S − LL ( ) (9.20)
⎢ ⎥
⎢⎣ 0 0 " ψ p ⎥⎦
De (9.20) verifica-se que:
m
ψ i = Sii − ∑ A 2ij = Sii − h i2 (9.21)
j=1
Sendo que o estimador da comunalidade é dado por:
h i2 = A 2i1 + A 2i2 + ... + A 2im (9.22)
A análise de fatores por componentes principais da matriz R, por sua
vez, é obtida substituindo S por R nas equações de (9.19) a (9.22). Na solução
dos componentes principais as estimativas das cargas fatoriais não se alteram
com o aumento do número m de fatores.

É fácil perceber por meio das definições apresentadas que a matriz
S não é fielmente reproduzida pela solução de componentes principais. A diagonal
de S é exatamente reproduzida pelo modelo de fatores, mas os elementos fora da
diagonal principal não são. Assim,
t + Ψ
S ≅ LL (9.23)
Se o número de fatores não é especificado por considerações a
priori, como por teoria ou por trabalhos anteriores de outros pesquisadores, a
escolha de m para uma decomposição de maior acurácia de S pode ser baseada
nos autovalores estimados, da mesma forma que o número de componentes
principais a serem retidos é determinado. Analiticamente, Johnson e Wichern
(1998) demonstram que a soma de quadrados dos elementos da matriz de

p
t − Ψ
resíduos S − LL é menor ou igual a ∑ λˆ
i = m +1
2
i . Assim, um pequeno valor da soma
de quadrados dos últimos (p-m) autovalores negligenciados implica em uma
pequena soma de quadrados do erro da aproximação realizada por m
componentes. O ideal é obter uma elevada contribuição dos primeiros fatores para
a variação total amostral. Assim, verifica-se que:
∑ A
i =1
2
ij = A 1j2 + A 22 j + ... + A 2pj = λˆ j eˆ j λˆ j eˆ tj = λˆ j

(9.24)
Logo, a porcentagem da variação total devida ao j-ésimo fator é dada
por:
⎧ λˆ j
⎪ ×100 para fatores de S
⎪ Tr(S)
⎪
%VarExp = ⎨ (9.25)
⎪ˆ
⎪ λ j × 100 para fatores de R
⎪⎩ p
O critério (9.25) é usado como um artifício heurístico para determinar
o valor apropriado de m. O número de fatores comuns retidos deve aumentar até
que uma fração “adequada” da variação amostral tenha sido contemplada.
Exemplo 9.1. Em 24 tartarugas fêmeas foram mensuradas p = 3 variáveis X1, X2 e
X3, quais sejam, comprimento, largura e altura de carapaças transformadas por
logaritmo. A matriz de covariâncias amostrais é apresentada a seguir. Obter a
análise de fatores com m = 1 e m = 2 usando o método dos componentes
principais.
⎡ 4,9810 3,8063 4, 7740 ⎤

S = ⎢⎢ 3,8063 3, 0680 3, 7183 ⎥⎥
⎢⎣ 4, 7740 3, 7183 4,8264 ⎥⎦
Inicialmente foi testada a hipótese:

⎡ σ11 0 " 0 ⎤
⎢0 σ " 0 ⎥⎥
H0 : Σ = ⎢
22
; σii >0
⎢ # # % # ⎥
⎢ ⎥
⎢⎣ 0 0 " σpp ⎥⎦
O valor de qui-quadrado obtido foi de χ c2 = 127,9805 com ν=3 graus
de liberdade. Como Pr ( χ 2 > 127,9805 ) = 0,00000054 rejeita-se H0 de independência
entre todas as variáveis. Portanto, a análise de fatores deve ser eficiente.
A solução para m = 1 é apresentada a seguir. A solução de 1 fator
explica 98,2% da variação total e pode ser julgada satisfatória. A soma de
quadrados dos dois últimos autovalores, dada por λˆ 22 + λˆ 32 = 0, 0291 , foi considerada
muito pequena e indica que a soma de quadrados dos elementos da matriz de
resíduos não deve ultrapassar esse valor. Os resultados obtidos são:
Cargas fatoriais Comunalidades Variâncias

Variáveis F1 h i2 específicas
ψ i
X1 2,2165 4,9129 0,0681
X2 1,7277 2,9849 0,0831
X3 2,1770 4,7394 0,0870
% explicação 98,1500
A matriz de resíduos é dada por:

t − Ψ
S − LL =
⎡ 4,9810 3,8063 4, 7740 ⎤

= ⎢⎢ 3,8063 3, 0680 3, 7183 ⎥⎥ −
⎢⎣ 4, 7740 3, 7183 4,8264 ⎥⎦
⎡ 2, 2165⎤ ⎡ 0, 0681 0 0 ⎤
− ⎢⎢1, 7277 ⎥⎥ [ 2, 2165 1, 7277 2,1770] − ⎢⎢ 0 0, 0831 0 ⎥⎥
⎢⎣ 2,1770 ⎥⎦ ⎢⎣ 0 0 0, 0870 ⎥⎦
⎡ 0 −0, 0228 −0, 0515⎤

⎢
= ⎢ −0, 0228 0 −0, 0429 ⎥⎥
⎢⎣ −0, 0515 −0, 0429 0 ⎥⎦
A soma de quadrados dos elementos dessa matriz de resíduos é de
apenas 0,01003, que é menor do que 0,0291 conforme já era esperado.
Para m = 2 a solução é dada por:
Cargas fatoriais Comunalidades Variâncias

Variáveis F1 F2 h i2 específicas
ψ i
X1 2,2165 0,1630 4,9394 0,0418
X2 1,7277 0,1608 3,0108 0,0575
X3 2,1770 -0,2935 4,8255 0,0003
% explicação
acumulada 98,15 99,23
A soma de quadrados de resíduos para esse caso (m = 2) é igual a
0,0049, a qual é limitada por 0,0099. Uma vez que os ganhos foram muito
pequenos, o modelo de 1 fator pode ser julgado adequado. O fator 1 pode ser
interpretado como um fator de volume.

Uma aproximação modificada do método dos componentes
principais é denominada solução fatorial principal. O procedimento é válido tanto
para R quanto para S. A descrição que é realizada a seguir utiliza a matriz R. No
modelo de fatores ρ = LLt + Ψ é perfeitamente especificado: os m fatores comuns
reconstituirão perfeitamente os elementos fora da diagonal principal de ρ, bem
como os elementos da diagonal com a participação da variância específica:
1 = h i2 + ψ i .
Supondo que a contribuição dos fatores específicos seja removida
da reconstituição de ρ, então, a matriz resultante é ρ - Ψ = LLt . Suponha, também,
que estimativas iniciais ψ*i tenham sido obtidas por um meio qualquer, então, é
possível definir a matriz de correlação amostral reduzida (Rr) eliminando o efeito
dos fatores específicos por R r = R − Ψ * . Esse processo é equivalente a substituir a
i = 1 − ψ i . A matriz Rr é definida por:

diagonal de R por h *2 *
⎡ h1*2 r12 " r1p ⎤

⎢ ⎥
r h *2 " r2p ⎥
R r = R − Ψ = ⎢ 21
* 2
(9.26)
⎢ # # % # ⎥
⎢ ⎥
⎣⎢ rp1 rp2 " h *2
p ⎦⎥
Teoricamente, desconsiderando a variação amostral, é possível
estabelecer que a matriz Rr pode ser recomposta pelos m fatores comuns. Dessa
forma, Rr é fatorada em:

R r ≅ L*r L*tr (9.27)
em que L*r é a matriz dos estimadores das cargas fatoriais A*ij .
O método fatorial principal de análise de fatores utiliza os
estimadores:
⎧ *
⎪L r = ⎡⎢ λˆ 1 eˆ1 λˆ *2 eˆ *2 λˆ *m eˆ *m ⎤
* *
⎪⎪ ⎣ ⎥⎦
⎨ (9.28)
⎪ m
⎪ψ*i = 1 − ∑ A*2 ij
⎪⎩ j=1
em que ( λˆ ; eˆ ) ,
*
i
*
í i = 1, 2, ..., m são os (maiores) pares de autovalor-autovetor
obtidos de Rr.
As comunalidades devem ser re-estimadas por:
i = ∑ A ij
h *2 *2
(9.29)
j=1
O método, então, é aplicado iterativamente, considerando as
comunalidades estimadas em (9.29) para recalcular a matriz Rr em (9.26). Os
autovalores e autovetores dessa nova matriz Rr são obtidos e as estimativas das
cargas fatoriais e variâncias específicas utilizando (9.28) são novamente obtidas.
Novas comunalidades, também, são obtidas utilizando (9.29) e o processo é
repetido em novos estágios sucessivos, até que não haja alterações nas
estimativas das cargas fatoriais e das variâncias específicas para uma dada
precisão.
Um problema que pode surgir nesse procedimento é o aparecimento
de autovalores de Rr negativos. Recomenda-se utilizar o número de fatores
comuns igual ao posto da matriz reduzida (Rr). Uma das causas dos autovalores
negativos é devida aos valores iniciais das variâncias específicas utilizadas.
Algumas alternativas existem para a escolha desses valores iniciais. A mais
popular é utilizar ψ*i = 1 r ii , em que rii é o elemento da i-ésima diagonal da matriz
R-1. As comunalidades iniciais são, então, dadas por:
1
i = 1 − ψi = 1 −
h *2 *
(9.30)
r ii
que é igual ao coeficiente de determinação parcial múltiplo entre a i-ésima variável
(Xi) e as (p-1) demais variáveis. Essa relação é útil, pois permite que h *2
i seja
obtida pelo coeficiente de determinação múltiplo, mesmo quando R não tiver posto
completo. Usando S, a variância específica inicial é função de Sii, o elemento da i-
ésima posição da diagonal de S-1, da seguinte forma:
⎛ m ⎞ ii
i = Sii − ⎜ 1 −
h *2 ⎟S (9.31)
⎝ 2p ⎠
9.3.2. Método da máxima verossimilhança
Se os fatores comuns F e os fatores específicos ε possuem

distribuição normal, estimativas de máxima verossimilhança podem ser obtidas.
Do modelo de fatores e da consideração de que as variáveis F e ε possuem

distribuição normal pode concluir que X j − µ = LFj + ε j também é normalmente

distribuído e portanto a função de verossimilhança é:
−n / 2
L(µ, Σ) = (2π) − np / 2 Σ

⎧⎪ ⎛ 1 ⎞ ⎡ ⎛ n t ⎞⎤ ⎫
⎪
× exp ⎨− ⎜ ⎟ tr ⎢ Σ −1 ⎜ ∑ ( X j − X )( X j − X ) + n X − µ X − µ ⎟ ⎥ ⎬ = ( )( )
t
⎩⎪ ⎝ 2 ⎠ ⎣⎢ ⎝ j=1 ⎠ ⎦⎥ ⎭⎪
(9.32)
− (n −1) / 2 ⎧ ⎛1⎞ ⎫
= (2π) − (n −1)p / 2
Σ exp ⎨− ⎜ ⎟ tr ⎡⎣Σ −1Sn ⎤⎦ ⎬
⎩ ⎝2⎠ ⎭
⎧ ⎛n⎞
(
exp ⎨− ⎜ ⎟ tr ⎡ X − µ Σ −1 X − µ ) ( )⎤⎥⎦ ⎫⎬⎭
−1/ 2 t
× (2π) − p / 2 Σ
⎩ ⎝ 2 ⎠ ⎢⎣
a qual depende de L e Ψ por meio de Σ = LLt + Ψ .
Devido à multiplicidade de escolhas para L dadas por
transformações ortogonais é imperativo impor uma restrição de unicidade
computacional por:
Lt Ψ −1L = ∆ uma matriz diagonal (9.33)

Os estimadores de máxima verossimilhança L̂ e Ψ̂ devem ser
obtidos por maximização numérica de (9.32). A maximização de (9.32) sujeita a
condição de unicidade (9.33) deve satisfazer:
( Ψˆ −1/ 2
)(
ˆ −1/ 2 Ψ
Sn Ψ )
ˆ −1/ 2 Lˆ = Ψ (
ˆ −1/ 2 Lˆ Ι + ∆ˆ ) (9.34)
Lawley (1940, 1942, 1943) mostra que o estimador ∆ˆ é dado por:
∆ˆ = Lˆ t Ψ
ˆ −1Lˆ (9.35)
Assim, a equação (9.34) pode ser rescrita de outra forma,
procedendo as seguintes operações:
( Ψˆ −1/ 2
Sn Ψ )
ˆ −1/ 2 Ψ
ˆ −1/ 2 Lˆ = Ψ (
ˆ −1/ 2 Lˆ Ι + Lˆ t Ψ
ˆ −1Lˆ )
( Ψˆ −1/ 2
Sn Ψ )
ˆ −1/ 2 Ψ
ˆ −1/ 2 Lˆ − Ψ
ˆ −1/ 2 Lˆ = Ψ
ˆ −1/ 2 LL
ˆ ˆtΨ
ˆ −1Lˆ
( Ψˆ −1/ 2
Sn Ψ )
ˆ −1/ 2 − Ι Ψ
ˆ −1/ 2 Lˆ = Ψ
ˆ −1/ 2 LL
ˆ ˆtΨ
ˆ −1Lˆ
Logo,
⎡Ψ
⎣ n(
ˆ −1/ 2 S − Ψ
⎦ )
ˆ −1/ 2 ⎤ Ψ
ˆ Ψ ˆ −1/ 2 Lˆ = Ψ
ˆ −1/ 2 LL
ˆ ˆtΨ
ˆ −1Lˆ (9.36)
Como Lˆ t Ψ
ˆ −1Lˆ é uma matriz diagonal para garantir que os elementos
de L̂ sejam únicos, então, os autovalores de (S n

ˆ Ψ
−Ψ )
ˆ −1 , e portanto
Ψ (
ˆ −1/ 2 S − Ψ
n
ˆ Ψ )
ˆ −1/ 2 , são iguais aos valores correspondentes a diagonal de ∆ˆ .
ˆ −1/ 2 L̂ é o vetor característico correspondente

Dessa forma, a i-ésima coluna de Ψ
ˆ −1/ 2 S − Ψ
ao i-ésimo autovalor de Ψ n
ˆ Ψ ( )
ˆ −1/ 2 . O cálculo desses vetores não é um
processo direto, uma vez que os elementos de Ψ̂ são também desconhecidos, os
ˆ = Diag(S − LL
quais devem ser obtidos da relação Ψ ˆ ˆ t ) . Sendo assim, o processo de
estimação deve ser executado iterativamente estimando-se os vetores
característicos correspondentes a valores iniciais de os elementos de Ψ̂ , e então,
utilizá-los para obter novas estimativas mais precisas das variâncias específicas
sucessivamente.
Para o modelo com m fatores os vetores característicos
correspondentes aos m maiores autovalores de Sn podem ser utilizados como
valores iniciais do processo iterativo. Os elementos desses vetores devem ser re-
escalonados para que as somas de seus quadrados sejam iguais aos respectivos
autovalores. O processo iterativo é descrito a seguir:
1. Calcular as m raízes características ( λˆ 10 , λˆ 20 ,..., λˆ m0 ) de Sn e os vetores
característicos correspondentes ( eˆ10 , eˆ 20 ,..., eˆ m0 ) , de tal sorte que seus

elementos sejam re-escalonados para que tenham norma quadrática igual
a λ̂ i0 , na matriz P̂0 apresentada a seguir, com i = 1, 2, ..., m. Seja a matriz
ˆ = [ eˆ eˆ ... eˆ ] , sem re-escalonar. Dessa forma,

Q̂ 0 (p x m) definida por Q 0 10 20 m0

é possível definir as matrizes Λ̂ 0 (m x m) e P̂0 (p x m) por:
⎡ λˆ 10 0 " 0 ⎤
⎢ ⎥
ˆ =⎢ 0 λˆ " 0 ⎥
Λ ⎢ #
20
% # ⎥⎥
0
⎢ #
⎢0 0 " λˆ m0 ⎥⎦
⎣
ˆ Λ
Pˆ0 = Q ˆ 1/ 2
0 0
2. Aproximar as variâncias específicas por:
0 n (
ˆ = Diag S − Pˆ Pˆ t
Ψ 0 0 ) (9.37)
3. Obter a matriz
Ψ 0 (
ˆ −1/ 2 S − Ψ
n
ˆ Ψ
0
ˆ −1/ 2
0 ) (9.38)
e extrair os m autovetores ( eˆ11 , eˆ 21 ,..., eˆ m1 ) e os correspondentes autovalores

( λˆ
11 , λˆ 21 ,..., λˆ m1 ) ˆ = [ eˆ eˆ ... eˆ ] sem re-
dessa matriz. Formar a matriz Q1 11 21

m1
escalonar e definir as matrizes:

⎡λˆ 11 0 " 0 ⎤
⎢ ⎥
ˆ
ˆ = ⎢ 0 λ 21
Λ
" 0 ⎥
1 ⎢ # # % # ⎥⎥
⎢
⎢0 0 " λˆ m1 ⎥⎦
⎣
ˆ Λ
Pˆ1 = Q ˆ 1/ 2
1 1
A primeira aproximação de L L̂1 é dada por:( )
Lˆ 1 = Ψ
ˆ 1/ 2 Pˆ
0 1 (9.39)
4. Calcular
1 n (
ˆ = Diag S − Lˆ Lˆ t
Ψ 1 1 ) (9.40)
Repetir os passos 3 e 4 até que os correspondentes elementos de
sucessivas iterações de L̂i e L̂i +1 não difiram por um valor superior a uma
quantidade pré-determinada (critério de convergência). O resultado final do
processo iterativo conterá as estimativas de máxima verossimilhança para as
cargas fatoriais L e das variâncias específicas para o modelo m-fatorial. É
apresentado a seguir um programa SAS no procedimento de matrizes IML para a
obtenção de estimativas de máxima verossimilhança do modelo m-fatorial.

As cargas fatoriais e as variâncias específicas da matriz R podem
ser obtidas diretamente de L̂ e Ψ̂ realizando as seguintes transformações.
Formar a matriz diagonal (D) a partir dos elementos Sii de S. Então obter as
estimativas de máxima verossimilhança de R para as cargas fatoriais L̂ Z e para ( )

as variâncias específicas Ψ̂ Z . Esses estimadores são:
Lˆ Z = D −1/ 2 Lˆ (9.41)
ˆ = D −1/ 2 Ψ
Ψ ˆ D −1/ 2 (9.42)
Z
As estimativas de máxima verossimilhança das comunalidades são
dadas por:
hˆ i2 = Aˆ 2i1 + Aˆ 2i2 + ... + Aˆ 2im para i = 1, 2, ..., p (9.43)

options ps=5000 ls=80 nodate nonumber;;

proc iml;
S={4.9810 3.8063 4.7740,
3.8063 3.0680 3.7183,
4.7740 3.7183 4.8264};
p=ncol(S);n=24;alpha=0.05;
L0=Diag(eigval(S));P0=eigvec(S);
numfac=1;numIt=100;
L0=L0[1:numfac,1:numfac];
P0=P0[1:p,1:numfac];P0=P0*root(L0);
print L0 P0; Psi0=diag(S-P0*P0`);
print psi0;
psii=psi0;
do i=1 to numIt;
Print
'_______________________________________________________________';
print 'iteracao ' i;
Print' ____________________';
Delta=inv(root(psii))*(S-psii)*inv(root(psii));
*print delta;
Li=Diag(eigval(delta));Pi=eigvec(delta);
Li=Li[1:numfac,1:numfac]; Pi=Pi[1:p,1:numfac];
Pi=root(psii)*Pi*root(Li);
*print Li Pi;
Psii=diag(S-Pi*Pi`);
/*soma de quadrados dos residuos do modelo*/
resi=S-pi*pi`-psii;
print 'Soma de quadrados dos residuos';
SQResiduo=sum(resi#resi);
print sqresiduo;
*print psii;
Print'________________________________________________________________';
end;
Print 'Solucao final do modelo de fatores';
Print 'Cargas fatoriais';
print Pi;
print 'Variancias especificas';
print psii; resi=S-pi*pi`-psii;
print 'matriz de residuos';
print resi;
print 'Soma de quadrados dos residuos';
SQResiduo=sum(resi#resi);
print sqresiduo;
print 'Cargas fatoriais de Z-variaveis padronizadas';
D=root(inv(diag(S))); PiZ=D*Pi;
print PiZ;
print 'Variancias especificas fatoriais de Z-variaveis padronizadas';
PsiZ=D*psii*D;
print PsiZ;
Li=Diag(eigval(delta));
print Li;
quit;
Dessa forma, a proporção explicada pelo j-ésimo fator é dada por:
⎧ p ˆ2
⎪ ∑ A ij
⎪ i =1 ×100 para fatores de S
⎪ Tr(S)
⎪
%VarExp = ⎨ (9.44)
⎪ p
⎪ ∑ Aˆ 2Z(i j)
⎪ i =1
⎪ p ×100 para fatores de R
⎩
O processo descrito anteriormente para a obtenção das soluções de
máxima verossimilhança possui convergência lenta. Aitken (1937) propôs uma
técnica conhecida por processo δ2 de aceleração dos esquemas iterativos de
convergência. Seja A jt os elementos do t-ésimo processo iterativo, referente a j-

ésima coluna da matriz de cargas fatoriais Lt do estágio t. O processo de Aitken
(1937) prevê para 3 consecutivos valores de A jt o ajuste pela razão:

A ij(t −1) A ijt

A ijt A ij(t +1)
A 2i j t = (9.45)
A ij(t +1) − 2A ijt + A ij(t −1)
em que A ijt é o i-esimo elemento de A jt . Se o denominador de (9.45) for nulo o

valor de A 2i j t deve ser feito igual a A i j t .
Aitken (1937) mostra que os termos de A 2j t convergem mais

rapidamente do que àqueles de A j t .

Exemplo 9.2. Utilizando a matriz de covariâncias amostral das 24 tartarugas
fêmeas que foram mensuradas em p = 3 variáveis X1, X2 e X3, as quais são:
comprimento, largura e altura de carapaças transformadas por logaritmo,
determinar o modelo de fatores com m = 1. Ajustar o modelo por meio de
estimativas de máximas verossimilhanças.
⎡ 4,9810 3,8063 4, 7740 ⎤

S = ⎢⎢ 3,8063 3, 0680 3, 7183 ⎥⎥
⎢⎣ 4, 7740 3, 7183 4,8264 ⎥⎦
i) Inicialmente foram obtidos os autovalores e autovetores de S e
ˆ (3 × 1) e Pˆ (3 × 1) por:
ˆ (1× 1), Q
compostas as matrizes Λ 0 0 0
⎡ 0, 6234937 ⎤ ⎡ 2, 2164432 ⎤
Λ ⎢ ⎥ ˆ
ˆ = 12,637147 Q̂ = 0, 4859812 Lˆ = Pˆ = Q Λˆ ⎢ ⎥
0 0 = ⎢ 1, 727603 ⎥
1/ 2
0 0 ⎢ ⎥ 0 0
⎢⎣ 0, 612436 ⎥⎦ ⎢⎣ 2,1771344 ⎥⎦
ii) As variâncias específicas iniciais foram obtidas por:
⎡0, 0683794 0 0 ⎤
0 n (
ˆ = Diag S − Pˆ Pˆ =
Ψ ⎢
⎢
t
0
0 0 ) 0, 0833879 0 ⎥
⎥
⎢⎣ 0 0 0, 0864857 ⎥⎦
iii) Foi obtida a seguinte matriz e desta extraídos os autovalores e
autovetores. O m = 1 primeiro autovalor e autovetor correspondente
ˆ (3 × 1) e Pˆ (3 × 1) .
ˆ (1×1), Q
foram usados para compor as matrizes Λ1 1 1
⎡ 71,843527 50,406739 62,079406 ⎤

Ψ 0 (
ˆ −1/ 2 S − Ψ
n
ˆ Ψ
0 )
ˆ −1/ 2
0 = ⎢⎢50,406739 35,791891 43,784534 ⎥⎥
⎢⎣ 62,079406 43,784534 54,805777 ⎥⎦
⎡0,6657947 ⎤ ⎡ 8,4600381⎤
⎢ ⎥ ˆ
ˆ = 161,45963 Q̂ = 0,4691915 Pˆ = Q Λ
Λ ˆ = ⎢5,9618652 ⎥
1/ 2
1 1 ⎢ ⎥ 1 1 1 ⎢ ⎥
⎢⎣ 0,5801523⎥⎦ ⎢⎣7,3718074 ⎥⎦
Finalmente a primeira aproximação L̂1 é feita por:
⎡ 2,2122546 ⎤
ˆ Pˆ = ⎢ 1,721606 ⎥
Lˆ 1 = Ψ 1/ 2
0 ⎢1 ⎥
⎢⎣ 2,167934 ⎥⎦
iv) Foi calculado o segundo valor Ψ̂1 por:
⎡0,0869296 0 0 ⎤
ˆ ( ˆ ˆ ⎢
Ψ1 = Diag Sn − L 0 L 0 = ⎢
t
) 0 0,1040727 0 ⎥
⎥
⎢⎣ 0 0 0,1264622 ⎥⎦
Os procedimentos 3 e 4 foram repetidos 41 vezes até que as trocas
na matriz (vetor) L̂ fosse da ordem de 1e-7 ou menos. O resultado final foi:

⎡ 2,2106526 ⎤
ˆ 1/ 2 Pˆ = ⎢1,7217993 ⎥ e
Lˆ 41 = Ψ 40 41 ⎢ ⎥
⎢⎣ 2,1595433⎥⎦
⎡0,0940152 0 0 ⎤
41 n (
ˆ = Diag S − Lˆ Lˆ
Ψ t
41 41 ) ⎢
=⎢ 0 0,1034073 0 ⎥
⎥
⎢⎣ 0 0 0,1627727 ⎥⎦
A matriz de resíduos (R) foi:
⎡ 0 2,9835E-8 3,7474E-8⎤
⎢
R = ⎢ 2,9835E-8 0 -7,05E-8 ⎥⎥
⎢⎣ 3,7474E-8 -7,05E-8 0 ⎥⎦
E a soma de quadrados dos resíduos foi:
SQResíduos= 1,453E-14
As cargas fatoriais obtidas das variáveis padronizadas são:
⎡ 1 ⎤
⎢ 0 0 ⎥
⎢ 4,9810 ⎥ ⎡ 2,2106526 ⎤ ⎡ 0,9905177 ⎤
⎢ 1 ⎥⎢ ⎥ ⎢ ⎥
Lˆ Z = D −1/ 2 Lˆ = ⎢ 0 0 ⎥ ⎢1,7217993 ⎥ = ⎢ 0,983003 ⎥
⎢ 3, 0680 ⎥ ⎢ 2,1595433⎥ ⎢ 0,9829926 ⎥
⎢ 1 ⎥⎣ ⎦ ⎣ ⎦
⎢ 0 0 ⎥
⎢⎣ 4,8264 ⎥⎦
E as variâncias específicas são:

⎡0, 0188748 0 0 ⎤
ˆ = D −1/ 2 Ψ
Ψ ˆ D −1/ 2 ⎢
=⎢ 0 0, 0337051 0 ⎥
Z ⎥
⎢⎣ 0 0 0, 0337255⎥⎦
Exemplo 9.3. A matriz de correlação entre 10 escores das respectivas 10 provas
do declato, medidas em n = 160 atletas, está apresentada a seguir. Obter os m = 4
fatores pelo método da máxima verossimilhança. As dez variáveis mensuradas
são: i) corrida de 100 m rasos; ii) salto em distância; iii) lançamento de peso; iv)
salto em altura; v) corrida dos 400m livres; vi) 110 m com barreiras; vii) arremesso
de disco; viii) salto com vara; ix) arremesso de dardos; e x) corrida de 1500 m. A
matriz de correlação dos escores dos 160 competições.
⎡1, 00 0,59 0,35 0,34 0, 63 0, 40 0, 28 0, 20 0,11 −0, 07 ⎤

⎢ 1, 00 0, 42 0,51 0, 49 0,52 0,31 0,36 0, 21 0, 09 ⎥⎥
⎢
⎢ 1, 00 0,38 0,19 0,36 0, 73 0, 24 0, 44 −0, 08 ⎥
⎢ ⎥
⎢ 1, 00 0, 29 0, 46 0, 27 0,39 0,17 0,18 ⎥
⎢ 1, 00 0,34 0,17 0, 23 0,13 0,39 ⎥
R=⎢ ⎥
⎢ 1, 00 0,32 0,33 0,18 0, 00 ⎥
⎢ 1, 00 0, 24 0,34 −0, 02 ⎥
⎢ ⎥
⎢ 1, 00 0, 24 0,17 ⎥
⎢ 1, 00 −0, 00 ⎥
⎢ ⎥
⎢⎣ 1, 00 ⎥⎦
A solução de m = 4 fatores, dada por Johnson e Wichern (1998), foi
obtida pelo algoritmo apresentado nesse material por meio das estimativas de
máxima verossimilhança. Após 100 mil iterações o algoritmo convergiu.

Estimativas de máxima verossimilhança

Variâncias
Cargas fatoriais estimadas específicas
ψˆ i = 1 − hˆ i2
Variáveis F1 F2 F3 F4
Corrida 100m -0,0869 0,3449 0,8290 -0,1685 0,157935
Salto em distância 0,0688 0,4352 0,5931 0,2746 0,378693
Lançamento de peso -0,1294 0,9911 -0,0038 -0,0007 0,001053
Salto em altura 0,1603 0,4059 0,3343 0,4451 0,499688
corrida 400m 0,3787 0,2437 0,6702 -0,1372 0,329262
110m com barreira -0,0178 0,3629 0,4234 0,3878 0,538310
Arremesso de disco -0,0563 0,7294 0,0268 0,0182 0,463815
Salto com vara 0,1573 0,2640 0,2275 0,3937 0,698795
Arremesso de dardos -0,0218 0,4411 -0,0115 0,0971 0,795340
1500m rasos 0,9986 0,0496 -0,0004 -0,0001 0,000408
Proporção cumulativa
da variância explicada 0,12 0,37 0,55 0,61
9.4. Rotação fatorial
A fatoração de Σ em LLt +Ψ não é única, conforme discussão
realizada na seção 9.2. A pós-multiplicação da matriz de cargas fatoriais L por
qualquer matriz ortogonal conformável (T) conduz a uma fatoração igualmente
válida. A solução numérica de Rao-Maxwell para as equações de verossimilhança
remove essa indeterminação por adotar a restrição de que Lˆ t Ψ

ˆ −1Lˆ seja uma matriz
diagonal. Não obstante, após a obtenção da solução de máxima verossimilhança,
qualquer transformação ortogonal pode ser realizada. A idéia é aplicar tal
transformação rígida dos eixos coordenados, a qual conduz a um padrão que
tornam as cargas fatoriais mais facilmente interpretáveis. Essa rotação rígida dos
eixos coordenados das m-dimensões fatoriais é chamada de rotação das cargas
fatoriais.
Citado por Morrison (1974) Thurstone sugere um critério de resposta
de simples estrutura para a realização da rotação fatorial. Estruturas como a
sugerida raramente existe em dados reais e não será descrito o procedimento de
Thurstone. Outra técnica de uso limitado é a obtenção de rotação graficamente
dos fatores plotados dois a dois. A rotação analítica é o procedimento mais
comumente empregado. Na rotação ortogonal rígida as propriedades estatísticas
dos fatores ficam inalteradas, embora a matriz de cargas fatoriais não seja a
mesma. Supondo que a matriz p x m de cargas fatoriais seja submetida a uma
rotação rígida pela matriz ortogonal T (m x m) por meio da seguinte operação:

L* = LT . A ortogonalidade de T, isto é, T T t = T t T = Ι, faz com que as
comunalidade fiquem inalteradas:
m m
∑ A*2ij = ∑ A2ij ⇔ h*2i = h i2

j=1 j=1
bem como a soma de seus quadrados:
2
p
⎛ m 2⎞ p m p m −1 m
∑ ⎜ ∑ A ij ⎟ = ∑∑ A ij + 2∑∑ ∑ A ijA ik
i =1 ⎝ j=1
4 2 2
(9.46)
⎠ i =1 j=1 i =1 j=1 k = j+1
também é invariante.
Com esse resultado em evidência é possível especificar critérios de
simplicidade ou parcimônia propostos pelos analistas de fatores (Morrison, 1976).
Fergusson (1954) sugeriu minimizar o termo dos duplos produtos de (9.46) como
uma medida de parcimônia, por meio de uma escolha adequada de T. Esse
resultado foi determinado quase que ao mesmo tempo e independentemente por
Carroll (1953).
Neuhaus e Wrigley (1954) propuseram a maximização da variância
do quadrado das pm cargas fatoriais para definir T. A variância do quadrado das
cargas fatoriais é:
2
p
1 ⎛ p m 2⎞
m
V = ∑∑ A − ⎜ ∑∑ A ij ⎟
4
ij (9.47)
i =1 j=1 pm ⎝ i =1 j=1 ⎠
Como o termo de correção é meramente soma das comunalidades
tomada ao quadrado, então, a maximização de V é equivalente a maximizar a

soma da quarta potência das cargas fatoriais, ou equivalentemente, minimizar a
medida de parcimônia de Fergusson (1954) e Carroll (1953). Por argumentos
diferentes Sanders (1960) obteve o mesmo critério de Neuhaus e Wrigley (1954).
Esse critério determina o método denominado de “quartimax” por maximizar a
soma da quarta potencia das cargas fatoriais.
Kaiser (1958, 1959) propôs uma medida de estrutura simples
relacionada a soma das variâncias das cargas fatoriais quadráticas dentro de cada
coluna da matriz L de fatores. O critério de “varimax” de linha de Kaiser é:
1 m ⎡ p 4 ⎛ p 2 ⎞2 ⎤
v = 2
*
p
∑ ⎢ p∑ A ij − ⎜ ∑ A ij ⎟ ⎥
j=1 ⎢ i =1
(9.48)
⎣ ⎝ i =1 ⎠ ⎦⎥
Esse critério dá pesos iguais às respostas com grandes e com
pequenas comunalidades e Kaiser sugere a melhora desse critério pelo uso do
critério alternativo:
1 m ⎡ p 4 ⎛ p 2 ⎞2 ⎤
v= 2
p
∑ ⎢ p∑ x ij − ⎜ ∑ x ij ⎟ ⎥
j=1 ⎢ i =1
(9.49)
⎣ ⎝ i =1 ⎠ ⎥⎦
em que:
A ij
x ij = (9.50)
m
∑A
j=1
2
ij
é j-ésima carga fatorial do i-ésima variável resposta dividida pela raiz quadrada de
sua comunalidade. Na seqüência da rotação os valores de x j devem ser
multiplicados pela raiz quadrada de sua comunalidade respectiva para restaurar a
dimensão original. Esse critério foi nomeado por Kaiser de “varimax”.
O processo computacional para a rotação varimax é descrito a
seguir. Considere o par de fatores r e s, com cargas normalizadas xir e xis. A
rotação desses fatores envolve o simples ângulo φ, e diferenciando (9.49) com
relação a φ Kaiser mostrou que o ângulo deve satisfazer a relação:
⎡ p 2 p
2 ⎛
p
⎞⎤
2 ⎢ 2p∑ ( x ir − x is ) x ir x is − ∑ ( x ir − x is ) ⎜ 2∑ x ir x is ⎟ ⎥
2 2
⎣ i =1 i =1 ⎝ i =1 ⎠⎦
tg(φ) = (9.51)
p ⎧⎪ ⎡ p
⎤
2
⎛ p
⎞
2
⎫⎪
p∑ ⎡( x ir − x is ) − ( 2x ir x is ) ⎤ − ⎨ ⎢ ∑ ( x ir − x is ) ⎥ − 2 ⎜ ∑ x ir x is ⎟ ⎬
2 2 2 2 2
⎣ ⎦ ⎣ i =1 ⎦ ⎝ i =1 ⎠ ⎭⎪
i =1
⎩⎪
Para que a segunda derivada seja negativa é necessário que 4φ seja
colocado no quadrante correto. A escolha é designada pelos sinais do numerador
e denominador de (9.51). A Tabela 9.1 especifica o quadrante de 4φ em função
destes sinais.
A solução iterativa para a rotação é realizada de acordo com os
seguintes procedimentos: a rotação do primeiro e segundo fator é realizada como
ângulo φ determinado conforme descrição anterior; o novo primeiro fator é rotado

com o terceiro fator original, e assim por diante, até que m(m-1)/2 pares de
rotações tenham sido executadas. Essa seqüência de rotações é repetida até que
“todos” os ângulos sejam menores que um critério de convergência especificado ε,
dentro de um ciclo.
Tabela 9.1. Quadrante do ângulo 4φ em função dos sinais do numerador e
denominador da equação (9.51).
Sinal do numerador
Sinal do denominador + (positivo) - (negativo)
+ (positivo) Ι: 00≤4φ<900 ΙV: -900≤4φ<00
- (negativo) ΙΙ: 900≤4φ<1800 ΙΙΙ: -1800≤4φ<-900
Exemplo 9.4. Efetuar a rotação varimax dos m = 3 fatores obtidos por Morrison
(1974) apresentados a seguir.
(incompleto)
9.5. Teste da falta de ajuste do modelo de fatores
A natureza das estimativas de máxima verossimilhança das cargas
fatoriais conduz a um teste formal para o m-ésimo modelo fatorial. A hipótese nula
é:
⎧H 0 : Σ = LLt + Ψ
⎪
⎨ (9.52)
⎪H : Σ uma matriz p × p p.d. sim.
⎩ 1
Usando a distribuição de Wishart, Morrison (1976) mostra que a
razão de verossimilhança fornece o seguinte teste, com a correção de Bartlett
(1954):
(2p + 4m + 5) ⎤ ⎧⎪ LL + Ψ ⎫
ˆ ˆt ˆ
⎡ ⎪
χ = ⎢n − 1 −
2
c ⎥ ln ⎨ S ⎬ (9.53)
⎣ 6 ⎦ ⎪ ⎪⎭
⎩ n
o qual tem distribuição qui-quadrado para grandes amostras com:
1
ν= ⎡⎣(p − m) 2 − p − m ⎤⎦ (9.54)
2
graus de liberdade.
Pela propriedade da invariância das cargas e das variâncias
específicas estimadas segue-se que o valor do teste seria o mesmo da solução de
fatores da matriz de correlação R. Para a aplicação do teste da falta de ajuste é
necessário que os graus de liberdade sejam positivos. Isso significa que o número
de fatores comuns m não pode exceder o maior inteiro que satisfaz a equação:
m<
1
2
(
2p + 1 − 8p + 1 ) (9.55)
O teste de razão de verossimilhança compara as variâncias
ˆ ˆt + Ψ
generalizadas LL ˆ e S . Se m for pequeno em relação a p, geralmente H0 é
n
rejeitada, conduzindo a um modelo com um maior número de fatores comuns. Por
outro lado, quando m for grande em relação a p, a hipótese tende a ser não
rejeitada, principalmente para grandes valores de n. Isso acontece devido ao fato
ˆ ˆt + Ψ
de LL ˆ aproximar de Sn, de tal sorte que o acréscimo de novos fatores não
traga novas melhoras ao modelo. A diminuição de m pode, ainda, pelas mesmas
razões levar a não rejeição de H0. Algum tipo de bom sendo deve ser aplicado na
escolha de m.
Para demonstrar que a padronização das variáveis não afeta o teste
apresentado seja D −1/ 2 definida anteriormente a matriz diagonal com o recíproco
dos desvios padrões das p variáveis na diagonal principal. Então, a razão que
aparece na equação (9.53) pode ser operada por:
ˆ ˆt + Ψ
LL ˆ ˆ ˆt + Ψ
D −1/ 2 LL ˆ D −1/ 2
=
Sn D −1/ 2 Sn D −1/ 2
uma vez que a multiplicação do numerador e denominador não altera o resultado
final.
Pela propriedade do determinante |AB|=|A|×|B|, verifica-se que:

ˆ ˆt + Ψ
LL ˆ ˆ ˆ t D −1/ 2 + D −1/ 2 Ψ
D −1/ 2 LL ˆ D −1/ 2 Lˆ Z Lˆ tZ + Ψ
ˆ
z
= =
Sn D −1/ 2Sn D −1/ 2 R
Dessa forma o teste de qui-quadrado é exatamente o mesmo,
quando for aplicado a partir da matriz Sn ou da matriz R, com os dados
padronizados.
9.6. Escores fatoriais
Os fatores são variáveis não observáveis, muito embora seus
valores possam ser estimados. Os valores estimados dos fatores são
denominados de escores. Dois métodos de estimação são propostos. Ambos
tratam as cargas fatoriais e as variâncias específicas estimadas como se fossem
os verdadeiros valores desconhecidos. Se ocorrer rotação, os escores são obtidos
a partir das cargas fatoriais que sofreram rotação e não a partir das originais. Não
obstante, as fórmulas não distinguirão entre as situações em que ocorreu rotação
daquelas em não ocorreu, uma vez que estas fórmulas não são alteradas pelas
rotações.
9.6.1. Método dos mínimos quadrados ponderados
Suponha que µ , L e Ψ sejam considerados inicialmente como

conhecidos para o modelo fatorial:
X − µ = LF + ε

Como Var(εi)=ψi, não necessariamente igual para todo i, Bartlett
(1937) sugeriu o uso dos quadrados mínimos ponderados, usando como peso o
recíproco das variâncias específicas. A soma de quadrados de resíduos do
modelo fatorial ponderada é dada por:
p
εi2
( ) ( )
t
∑ψ
i =1
= ε t Ψ −1ε = X − µ − LF Ψ −1 X − µ − LF

(9.56)
i
Bartlett (1937) propôs a solução F̂ que minimiza (9.56). A solução é:

(
F̂ = ( Lt Ψ −1L ) Lt Ψ −1 X − µ )
−1
(9.57)

Como, de fato, L, Ψ e µ são desconhecidos, os respectivos

estimadores devem ser utilizados para a obtenção dos escores fatoriais:
( ) ˆ −1 ( X − X ) j = 1, 2, ..., n
−1
Fˆ j = Lˆ t Ψ
ˆ −1Lˆ Lˆ t Ψ j (9.58)

Se a matriz de correlação for utilizada, então:
( )
−1
Fˆ j = Lˆ tZ Ψ
ˆ −1Lˆ
Z Z Lˆ tZ Ψ
ˆ −1Z j = 1, 2, ..., n
Z j (9.59)

Se as cargas fatoriais que sofreram rotação são usadas Lˆ* = LT

ˆ ,
então, F̂j se relaciona com F̂j* por:
Fˆ j* = T ' Fˆ j (9.60)
9.6.2. Método de regressão
A partir do modelo de fatores originais:
X − µ = LF + ε

Considerando que L e Ψ são conhecidas, e que F e ε possuem

distribuição normal multivariada com média e variâncias dadas pelas equações de
(9.3) a (9.6), a combinação linear X − µ = LF + ε tem distribuição N p ( 0, LLt + Ψ ) . A

distribuição conjunta de X − µ e F é, também, N m + p ( 0, Σ* ) ; em que:

⎡ LLt + Ψ L⎤
Σ =⎢
*
⎥ (9.61)
⎣ L
t
Ι⎦
A média 0 é um vetor [(m+p)×1] de zeros. A distribuição condicional

de F / x é normal com média e variância dados por:

( )
E ( F / x ) = Lt Σ −1 x − µ = Lt ( LLt + Ψ ) ( x − µ )
−1
(9.62)

C ov ( F / x ) = Ι − Lt Σ −1L = Ι − Lt ( LLt + Ψ ) L
−1
(9.63)

Os coeficientes Lt ( LLt + Ψ )
−1
são os coeficientes de uma regressão
multivariada dos fatores com as variáveis originais. As estimativas desses
coeficientes produzem os escores fatoriais. Dados as observações X j e tomando-

se os estimadores de máxima verossimilhança L̂ e Ψ̂ os escores dos fatores são
dados por:
( ) ( X − X )
−1
Fˆ j = Lˆ t LL
ˆ ˆt + Ψ
ˆ
j j = 1, 2, ..., n (9.64)

O uso da identidade de matrizes:
( ) = ( Ι + Lˆ Ψˆ Lˆ )
−1 −1
Lˆ t LL
ˆ ˆt + Ψ
ˆ t −1
Lˆ t Ψ
ˆ −1 (9.65)
pode simplificar o cálculo dos escores dos fatores, os quais são dados por:
( ) ˆ −1 ( X − X ) j = 1, 2, ..., n
−1
Fˆ j = Ι + Lˆ t Ψ
ˆ −1Lˆ Lˆ t Ψ j (9.66)

A comparação dos escores fatoriais obtidos por regressão (LS) e por
mínimos quadrados ponderados (WLS) pode ser realizada subtraindo os
estimadores (9.66) e (9.58). Assim, simbolizando os estimadores de regressão por
F̂jLS e o de mínimos quadrados ponderados por F̂jWLS e usando a identidade de

matriz dada por:
( ) = ( Ι + Lˆ Ψˆ Lˆ )
−1 −1
Lˆ t LL
ˆ ˆt + Ψ
ˆ −1 t −1
Lˆ t Ψ
ˆ −1
Tem-se:
( ) ( Ι + Lˆ Ψˆ Lˆ ) Fˆ ( )
−1
= ⎡⎢ Lˆ t Ψ + Ι ⎤⎥ Fˆ j
−1
Fˆ jWLS = Lˆ t Ψ
ˆ −1Lˆ t −1 LS ˆ −1Lˆ LS

j
⎣ ⎦
Pelas estimativas de máxima verossimilhança verifica-se que
( Lˆ Ψˆ Lˆ )
−1
t −1
é uma matriz diagonal e quando o seu valor for próximo de zero os
estimadores anteriores serão aproximadamente os mesmo, ou seja, os
estimadores anteriores fornecerão aproximadamente os mesmos escores.
9.7. Exercícios
9.7.1. Teste a hipótese de que o modelo com m = 1 fator, apresentado no exemplo
9.1, é adequado utilizando o teste de qui-quadrado para falta de ajuste do
modelo.
9.7.2. Para o exemplo 9.3 testar a aderência do modelo com m = 4 fatores.
9.7.3. Obter estimativas de máxima verossimilhança para m = 1 e m = 2 dos dados
apresentados no exemplo 7.6.7 e calcular os escores pelos dois métodos
apresentados. Para o caso de m = 2 fatores plotar os escores dos dois
fatores obtidos.
||[ 10
Análise de correlação canônica
]||
10.1. Introdução
A análise de correlação canônica é centrada na identificação e
quantificação da associação entre dois grupos de variáveis. O foco da correlação
canônica é direcionado para a correlação entre uma combinação linear das
variáveis em um dos grupos com uma outra combinação linear das variáveis do
outro grupo de variáveis. A idéia fundamental é, a princípio, determinar as
combinações lineares dos dois grupos que possuem a maior correlação. No
próximo estágio, é determinado o par de maior correlação que seja, ainda, não
correlacionado com o par selecionado inicialmente. O processo continua até se
esgotar as dimensões de ambos os grupos ou do menor grupo. Os pares de
combinações lineares são denominados de variáveis canônicas e suas
correlações são chamadas de correlações canônicas. A técnica de encontrar
essas combinações lineares e suas respectivas correlações é devida a Hotelling
(1935 e 1936).
A idéia fundamental é encontrar relações entre dois conjuntos de
variáveis, em alta dimensão, em poucos pares de variáveis canônicas. Várias
aplicações nas ciências humanas, na genética entre outras áreas são encontradas
na literatura.
10.2. Variáveis canônicas e correlação canônica

populacionais
Seja X um vetor de dimensão (p+q x 1), o qual possui matriz de

covariância Σ e média µ . Sejam os vetores X (1) (p x 1) e X (2) (q x 1) definidos

como sendo originados de uma partição do vetor original X , representando um

grupo com p variáveis e outro com q, respectivamente. Sem perda de
generalidade é assumido que p≤q. Pressupõe-se, também, que Σ possui
elementos finitos e é positiva definida. Para o vetor aleatório X , os seguintes

resultados são apresentados.
⎡ X1(1) ⎤
⎢ (1) ⎥
⎢ X2 ⎥
⎢ # ⎥
⎢ ⎥
⎡ X (1) ⎤ ⎢ X (1)p ⎥
X = ⎢ (2) ⎥ = ⎢ (2) ⎥ (10.1)
⎣ X ⎦ X1
⎢ (2) ⎥
⎢X2 ⎥
⎢ # ⎥
⎢ ⎥
⎢⎣ X (2)
q ⎥ ⎦
Cuja média é:
⎡ µ (1) ⎤
µ = E(X) = ⎢ (2) ⎥ (10.2)
⎢⎣µ ⎥⎦

E cuja matriz de covariância é:
p q
p ⎡Σ Σ12 ⎤ (10.3)
( )( )
t
Σ = E X − µ X − µ = ⎢ 11
q ⎣ Σ 21 Σ 22 ⎥⎦
Assim, para os vetores X (1) (p x 1) e X (2) (q x 1) verifica-se que:

⎧E ( X (1) ) = µ (1) Cov ( X (1) ) = Σ11

⎪
⎪
⎪
⎨E ( X ) = µ Cov ( X (2) ) = Σ 22
(2) (2)
(10.4)
⎪
⎪
( ) 12 21
⎪Cov X (1) , X (2) = Σ = Σ t
⎩
As covariâncias entre pares de variáveis pertencentes aos dois
grupos, uma de X (1) e outra de X (2) , estão contidas em Σ12. Dessa forma, os pq

elementos de Σ12 medem a associação entre os dois grupos. Se ambos os valores
de p e q são grandes, a interpretação simultânea desse conjunto de covariâncias é
uma tarefa difícil e na maioria das vezes infrutífera. Como a finalidade, em geral, é
de realizar predição ou realizar comparação, o interesse pode ser focado em
combinações lineares das variáveis originais. A idéia é, portanto, concentrar a
atenção em algumas poucas combinações lineares de variáveis pertencentes a
X (1) e a X (2) , ao invés de utilizar todas as pq covariâncias contidas em Σ12.

Seguindo a notação normalmente utilizada na literatura
especializada, sejam as variáveis U e V combinações lineares das variáveis de
X (1) e de X (2) , respectivamente, definidas por:

⎧ U = a t X (1)
⎪
⎨ (10.5)
⎪V = b t X (2)
⎩

sendo a e b vetores não nulos dos coeficientes dessas combinações lineares.

Assim,
⎧Var(U) = Cov ( a t X (1) ) = a t Σ11a

⎪
⎪
⎨Var(V) = Cov ( b X ) = b Σ 22 b
t (2) t
(10.6)
⎪
⎪⎩ Cov(U, V) = a

t
C ov ( X

(1)
, X

(2)
) b = a t Σ12 b

A correlação entre U e V é definida por:
a t Σ12 b
Corr(U, V) = ρ U, V = (10.7)
a t Σ11a b t Σ 22 b

Hotelling (1935 e 1936) propôs estabelecer os pares (Ui, Vi),
i=1, 2, ..., p, determinando os vetores ai e bi que maximizam (10.7). As variáveis

Ui e Vi são denominadas de variáveis canônicas e a correlação entre elas de
correlação canônica. Na seqüência são apresentados os resultados necessários
para a maximização de (10.7) e, portanto, para a obtenção das variáveis
canônicas e de suas correlações.
Para determinar o máximo de ρU,V, inicialmente são impostas as
restrições:
a t Σ11a = b t Σ 22 b = 1 (10.8)

A mudança de escala imposta pelas restrições (10.8) não afeta a
correlação (10.7). Para obter o máximo de ρU,V é preciso derivar a equação (10.7)
com relação aos vetores a e b e igualar as derivadas parciais a zero. As

equações obtidas são:
⎧ ∂ρU,V −1/ 2 ⎡ ⎛ −1 ⎞ ⎤
= ( b t Σ 22 b ) ⎢( a t Σ11a ) Σ12 b + 2 ⎜ ⎟ ( a t Σ12 b )( a t Σ11a ) Σ11a ⎥
−1/ 2 −3 / 2
⎪
⎪ ∂a ⎣ ⎝ 2⎠ ⎦
⎪
⎨ (10.9)
⎪
⎪ ∂ρU,V = ( a t Σ a )−1/ 2 ⎡( b t Σ b )−1/ 2 Σ t a + 2 ⎛ −1 ⎞ ( a t Σ b )( b t Σ b )−3 / 2 Σ b ⎤
⎪ ∂b 11 ⎢ 22 12 ⎜ ⎟ 12 22 22 ⎥
⎩ ⎣ ⎝ 2⎠ ⎦
Igualando as derivadas parciais de (10.9) a zero e impondo as
restrições (10.8), rearranjando alguns termos, obtém-se:

⎧− ( a t Σ12 b ) Σ11a + Σ12 b = 0

⎪⎪
⎨ (10.10)
⎪ t
⎪⎩Σ12a − ( a Σ12 b ) Σ 22 b = 0
t
É fácil observar que (10.7) sujeita as restrições (10.8) se torna igual
a ρ U, V = a t Σ12 b , que é o valor máximo, então:

⎧−ρU, V Σ11a + Σ12 b = 0

⎪
⎨ (10.11)
⎪ t
⎩Σ12a − ρ U, V Σ 22 b = 0
Assim, para solução de (10.11) é necessário que o determinante dos
coeficientes do sistema de equações homogêneas seja nulo. Logo,
−ρ U, V Σ11 Σ12
=0 (10.12)
Σ12 −ρ U, V Σ 22
t
Uma importante propriedade dos determinantes é reproduzida a
seguir. Seja uma matriz A com as seguintes partições:
⎡A A12 ⎤
A = ⎢ 11 (10.13)
⎣ A 21 A 22 ⎥⎦
O determinante de A, se A11 e A22 são não singulares, é dado por:
⎧ A = A11 A 22 − A 21A11 −1
A12
⎪⎪
⎨ ou (10.14)
⎪ −1
⎪⎩ A = A 22 A11 − A12 A 22 A 21
Utilizando o resultado (10.14) no determinante (10.12), obtém-se os
seguintes resultados para a primeira equação:
1 −1
−ρ U, V Σ11 −ρ U, V Σ 22 + Σ12
t
Σ11 Σ12 = 0
ρ U, V
Como −ρU, V Σ11 é diferente de zero, pois Σ11 é positiva definida,
então, o determinante anterior só será zero se:
1 −1
−ρ U, V Σ 22 + Σ12
t
Σ11 Σ12 = 0
ρU, V
Como o resultado dessa equação é zero, não há alteração se ambos
os termos da equação à esquerda da desigualdade for multiplicado por ( ρ U, V ) . Se
procede da mesma forma para a segunda equação do determinante de (10.14). O
resultado final dessa derivação é:

⎧ Σ12 Σ −221Σ12
t
− ρ2U,V Σ11 = 0
⎪⎪
⎨ (10.15)
⎪ t −1
⎪⎩ Σ12 Σ11 Σ12 − ρ U,V Σ 22 = 0
2
Fazendo λ = ρ2U,V , verifica-se que as equações determinantais de
(10.15) podem ser vistas como maximização de pares de formas quadráticas
(capítulo 2) do tipo:
e t Ae
λ = t
e Be

restrito a e t Be =1.

Assim, os resultados de (10.15) podem ser reescritos (capítulo 2) da
seguinte forma:
⎧( Σ12 Σ −221Σ12
t
− λΣ11 ) a = 0 (a)
⎪⎪
⎨ (10.16)
⎪ t −1
⎪⎩( Σ12 Σ11 Σ12 − λΣ 22 ) b = 0 (b)
A resolução do sistema de equações pode ser feita aplicando uma
transformação linear não singular. Isso é ilustrado doravante com a equação (a)
de (10.16). Seja Σ1/112 a matriz raiz quadrada de Σ11 e considere a transformação
−1/ 2 −1/ 2
linear c = Σ1/112 a , então, a = Σ11 c . Se a equação (a) for pré-multiplicada por Σ11 e

−1/ 2
a for substituído por a = Σ11 c , então:

−1/ 2
Σ11 ( Σ12Σ−221Σ12t − λΣ11 ) Σ11−1/ 2c = 0
(Σ −1/ 2
11 Σ12Σ −221Σ12
t −1/ 2
Σ11 −1/ 2
− λΣ11 −1/ 2
Σ11Σ11 ) c = 0
Então a solução de (a) é dada pela solução do seguinte sistema de
equações homogêneas:
(Σ −1/ 2
11 Σ12 Σ −221Σ12
t −1/ 2
Σ11 − λ i Ι ) ci = 0

(10.17)
A solução de (10.17) é facilmente obtida pelo cálculo dos autovalores
(λi) e autovetores ( ci ) de Σ11

−1/ 2
Σ12 Σ −221Σ12
t −1/ 2
Σ11 . Os autovalores (λi) dessa matriz são

os mesmos do sistema não transformados por serem invariantes com relação a
transformações não singulares, no entanto, os autovetores são afetados pela
transformação. Dessa forma, os autovetores devem ser recuperados pela
transformação linear inversa a efetuada. Assim,
−1/ 2
a i = Σ11 ci (10.18)

Tratamento igual é dado para a equação (b) de (10.16), agora
efetuando a transformação linear d = Σ1/222 b . Então,

(Σ −1/ 2
22 Σ12
t −1
Σ11 Σ12Σ −221/ 2 − λ i Ι ) d i = 0

(10.19)
Os autovetores bi , soluções almejadas, são recuperados por:

−1/ 2
bi = Σ 22 di (10.20)

O máximo é obtido substituindo essas soluções em (10.7). Logo,
a t Σ12 b
Max ( ρ U, V ) = t = a t Σ12 b
a, b a Σ11a b Σ 22 b
t

Da equação (10.10), sabendo que ρ U, V = a t Σ12 b = λ i , verifica-se que

λ = ( a t Σ12 b ) , logo:
2

Max ( ρ U, V ) = λ i (10.21)
a, b

As variáveis canônicas têm as seguintes propriedades:
Var(U i ) = Cov ( a it X (1) ) = a it Σ11a i = cit Σ11

−1/ 2 −1/ 2
Σ11Σ11 ci = cit ci

−1/ 2
Sabendo que ci é um autovetor de Σ11 Σ12Σ −221Σ12
t −1/ 2
Σ11 com norma 1, e

procedendo da mesma forma para Var(Vi) verifica-se que:
Var ( U i ) = Var ( Vi ) = 1 (10.22)
A Cov ( U k , U A ) com (k ≠ A) é dada por:
Cov ( U k , U A ) = C ov ( a kt X (1) , a At X (1) ) = a kt Σ11a A =

−1/ 2 −1/ 2
= c kt Σ11 Σ11Σ11 cA = c kt ΙcA = c kt cA = 0 (k ≠ A)

Logo,
⎧Cov ( U k , U A ) = Corr ( U k , U A ) = 0 ( k ≠ A )
⎪
⎨ (10.23)
⎪Cov V , V = Corr V , V = 0 k ≠ A
⎩ ( k A) ( k A) ( )
Finalmente, a covariância entre Uk e VA com ( k ≠ A ) é dada por:
Cov ( U k , VA ) = C ov ( a kt X (1) , b At X (2) ) = a kt Σ12 b A =

−1/ 2
= c kt Σ11 Σ12 Σ −221/ 2 d A = 0 (k ≠ A)

Logo,
Cov ( U k , VA ) = Corr ( U k , VA ) = 0 (k ≠ A) (10.24)
Para variáveis padronizadas Z(1)t = ⎡⎣ Z1(1) Z(1) (1)

2 " Zp ⎦
⎤ e

Z(2)t = ⎡⎣ Z1(1) Z(2) (2)

⎤
2 " Zq ⎦ as variáveis canônicas são dadas por:
⎧ U k = a kt Z(1) = c kt ρ11
−1/ 2 (1)
Z
⎪
⎨ (10.25)
⎪V = b t Z(2) = d t ρ−1/ 2 Z(2)
⎩ k k k 22

−1/ 2
em que c k e d k são os autovetores de norma 1 das matrizes ρ11 ρ12ρ−221ρ12
t −1/ 2
ρ11 e

ρ−221/ 2ρ12
t −1
ρ11 ρ12ρ−221/ 2 , respectivamente. Os autovetores originais devem ser
recuperados por:
⎧a k = ρ11
−1/ 2
ck
⎪
⎨ (10.26)
⎪b = ρ−1/ 2 d
⎩k 22 k

em que: ρ11 (p x p), ρ12 (p x q) e ρ22 (q x q) são partições de ρ (p + q x p + q)
dadas por:
p q
p ⎡ρ ρ12 ⎤ (10.27)
ρ = E ( ZZt ) = ⎢ 11
q ⎣ρ21 ρ22 ⎥⎦
de forma que:
⎧E ( Z(1) ) = 0 Cov ( Z(1) ) = ρ11

⎪
⎪
⎪
⎨E ( Z ) = 0 Cov ( Z ) = ρ22
(2) (2)
(10.28)
⎪
⎪
( ) 12 21
⎪Cov Z(1) , Z(2) = ρ = ρ t
⎩
As correlações canônicas das combinações lineares padronizadas
são dadas por:
a kt ρ12 b k
Corr(U k , Vk ) = = λk (10.29)
a kt ρ11a k b kt ρ22 b k

−1/ 2
em que λ k é k-ésimo autovalor de ρ11 ρ12ρ−221ρ12
t −1/ 2
ρ11 , ou equivalentemente de
ρ−221/ 2ρ12
t −1
ρ11 ρ12ρ−221/ 2 .
Por se tratarem de variáveis artificiais, as variáveis canônicas não
possuem significado físico. Se X (1) (p x 1) e X (2) (q x 1) são utilizados, os

coeficientes de a e b têm as unidades dos correspondentes coeficientes de X (1) e

de X (2) . Se as variáveis padronizadas forem utilizadas, então, os coeficientes

canônicos não possuem unidades de mensuração e não dependem da escala das
variáveis. Em geral, é dada uma interpretação subjetiva para as variáveis
canônicas de acordo com a magnitude das correlações das variáveis originais com
as variáveis canônicas em foco. Muitos pesquisadores preferem fazer tal
relacionamento utilizando os coeficientes canônicos estandardizados.
Sejam A (p x p) e B (q x q) matrizes definidas pelos vetores
canônicos:
⎡ a1t ⎤ ⎡ b1t ⎤
⎢ t ⎥ ⎢ t ⎥
a2 ⎥ b
A = e B = ⎢2⎥
⎢ (10.30)
⎢ #⎥ ⎢ #⎥
⎢ t⎥ ⎢ t⎥
⎢⎣ap ⎥⎦ ⎢⎣bq ⎥⎦

É possível definir os vetores de todas as p ou q variáveis canônicas
simultaneamente por:
⎡U1 ⎤ ⎡ V1 ⎤
⎢U ⎥ ⎢V ⎥
U= ⎢ 2⎥
= AX (1)
e V = ⎢ ⎥ = BX(2)
2
(10.31)
⎢# ⎥ ⎢# ⎥
⎢ ⎥ ⎢ ⎥
⎣⎢Up ⎦⎥ ⎣⎢ Vq ⎦⎥
Logo,
Cov (U, X(1) ) = Cov ( AX(1) , X(1) ) = ACov ( X(1) ) = AΣ11 (10.32)

A matriz de correlação entre as p variáveis originais de X (1) e as p

variáveis canônicas de U é dada pela “covariância” entre as p variáveis canônicas,

as quais já são estandardizadas, e as p variáveis de X (1) padronizadas. A

padronização de X (1) é dada por:

⎡ 1 ⎤
⎢ 0 " 0 ⎥
⎢ σ11
(1)
⎥ (1)
⎢ 1 ⎥ ⎡ X1 ⎤
⎢ 0 " 0 ⎥ ⎢ X(1) ⎥
⎥⎢
2 ⎥
V −1/ 2
X (1)
=⎢ σ(1) (10.33)
⎥⎢ # ⎥
11 22
⎢
⎢ # # % # ⎥ ⎢ (1) ⎥
⎢ Xp ⎥⎦
⎢ 1 ⎥⎣
⎢ 0 0 " ⎥
⎢⎣ σpp
(1)
⎥⎦
Assim,
ρU, X(1) = Corr (U, X(1) ) = Cov ( AX(1) , V11−1/ 2 X(1) ) = AΣ11V11−1/ 2 (10.34)

Cálculo semelhante é realizado para os pares (U, X(2) ) , ( V , X(2) ) e

( V , X ) que resulta em:

(1)
⎧ρ ( 2 ) = AΣ12 V22−1/ 2 (p × q)
⎪ U , X
⎪
⎪ −1/ 2
⎨ρ V , X( 2) = BΣ 22 V22 (q × q) (10.35)
⎪
⎪
⎪ρ = BΣ12
t
V11−1/ 2 (q × p)
⎩⎪ V , X (1)
em que V22−1/ 2 é uma matriz diagonal (q x q) com o i-ésimo elemento dado por
1/ σii(2) .
Para as variáveis canônicas calculadas de matrizes de correlação ρ,
a interpretação pode ser realizada alternativamente pelas correlações entre as
variáveis canônicas e as variáveis padronizadas. Sejam AZ (p x p) e BZ (q x q)
matrizes compostas dos coeficientes canônicos de Z (1) e Z (2) , respectivamente.

As correlações entre as variáveis canônicas e as variáveis padronizadas são
dadas por:
⎧ρU, Z(1) = A Zρ11 ; ρV , Z( 2) = BZρ22

⎪⎪
⎨ (10.36)
⎪ρ = A Zρ12 ; ρV ,Z(1) = B ρ t
⎩⎪ U , Z ( 2)
Z 12
As matrizes de correlação (10.34), (10.35) com (10.36), apresentam,
no entanto, os mesmos valores numéricos, como por exemplo ρU, Z(1) = ρU, X(1) , e

assim por diante. Verifica-se facilmente isso por:
ρU, X(1) = AΣ11V11−1/ 2 = AV111/ 2 V11−1/ 2Σ11V11−1/ 2 = A Zρ11 = ρU,Z(1)

ou seja, a correlação não é afetada pela padronização (mudança de escala).

10.3. Variáveis e correlações canônicas amostrais
Uma amostra aleatória de tamanho n em cada conjunto de (p + q)
variáveis aleatórias X (1) (p x 1) e X (2) (q x 1), dada por X1(1) , X(1)

2 , " , Xn
(1)
e

X1(2) , X(2)
2 , " , Xn
(2)
possui vetores de médias amostrais dados por:

⎡ X1(1) ⎤
⎢ ⎥
⎢ # ⎥
⎡ X(1) ⎤ ⎢ Xp(1) ⎥
⎢ ⎥ ⎢ ⎥
X=⎢ ⎥=⎢ ⎥ (10.37)
⎢ ⎥
⎢X ⎥
(2) (2)
⎣ ⎦ ⎢ X1 ⎥

⎢ # ⎥
⎢ (2) ⎥
⎢⎣ Xq ⎥⎦

Em que:
1 n 1 n
X(1) = ∑ X(1) j e X(2) = ∑ X(2) j (10.38)
n j=1 n j=1
A matriz de correlação amostral S (p + q x p + q) é dada por:
p q
p ⎡S S12 ⎤ (10.39)
S = ⎢ 11
q ⎣S21 S 22 ⎥⎦
1 n
( )( X )
t
em que SkA = ∑ X(j k ) − X(k )
n − 1 j =1
(A)
j − X( A ) , k, A = 1, 2 .

As k-ésimas variáveis canônicas amostrais são dadas pelas
combinações lineares:
⎧Uˆ = aˆ t X (1)
k k
⎪
⎨ (10.40)
⎪ ˆ t (2)
⎩V̂k = b k X

que maximizam a k-ésima correlação canônica amostral dada por:
â kt S12 bˆ k
rUˆ ˆ = (10.41)
k , Vk
aˆ kt S11aˆ k bˆ kt S22 bˆ k

O processo de maximização de (10.41) segue estritamente os
mesmos passos da maximização de (10.7), substituindo apenas Σ11, Σ22 e Σ12 por
S11, S22 e S12, respectivamente. As equações homogêneas correspondentes ao
máximo são dadas por:
⎪
(
⎧ S12S22 S12 − λˆ k S11
−1 t
) aˆ k = 0 (a)

⎪
⎨ (10.42)
⎪ t −1
( ˆ
⎪⎩ S12S11 S12 − λ k S22 ) bˆ k = 0 (b)

Em que o máximo de ruˆ ˆ é dado por λ̂ k , para os autovetores aˆ k e

k , Vk

bˆ k obtidos por:

⎧aˆ k = S11
−1/ 2
cˆ k (a)
⎪
⎨ (10.43)
⎪ˆ −1/ 2 ˆ
⎩b k = S22 d k (b)

−1/ 2
sendo que ĉ k é k-ésimo autovetor de S11 S12S−221S12
t −1/ 2
S11 e d̂ k o k-ésimo autovetor de

S−221/ 2S12
t −1
S11 S12S−221/ 2 ; λ̂ k é o k-ésimo autovalor de ambas as matrizes, por serem
idênticos; k=1, 2, ..., p≤q.
As variáveis canônicas amostrais têm as seguintes propriedades:
1. Variâncias amostrais unitárias
ˆ U
Var ˆ = Var
k
ˆ V ( )
ˆ =1
k ( ) (10.44)
2. Correlações amostrais:
rUˆ ˆ = rVˆ ; Vˆ = rUˆ ˆ = 0 (k ≠ A) (10.45)

k ; UA k A k ; VA
3. Correlação amostral máxima:
rUˆ ˆ = λˆ k (10.46)
k ; Vk
Sejam as matrizes Â (p × p) e B̂ (q × q) definidas pelos vetores
canônicos amostrais:
⎡ aˆ 1t ⎤ ⎡ bˆ 1t ⎤
⎢ ˆt ⎥ ⎢ ⎥
⎢ a ⎥ ⎢bˆ t ⎥
Aˆ = e Bˆ = ⎢ 2 ⎥
2
(10.47)
⎢ #⎥
⎢ t⎥ ⎢ #⎥
ˆ
⎣⎢a p ⎦⎥ ⎢bˆ t ⎥
⎣q⎦
Analogamente a (10.31) definem-se:
⎡Uˆ ⎤ ⎡ Vˆ 1 ⎤
1
⎢ ⎥ ⎢ ⎥
⎢Uˆ ⎥ ⎢ Vˆ ⎥ ˆ (2)
ˆ= ˆ e Vˆ = ⎢ 2 ⎥ = BX
⎢ ⎥ = AX
2 (1)
U (10.48)
⎢# ⎥ ⎢# ⎥
⎢Uˆ ⎥ ⎢ Vˆ ⎥
⎣ p⎦ ⎣ q⎦
As correlações entre as variáveis canônicas amostrais e as variáveis
originais de cada um dos grupos podem ser obtidas. Para isso definiu-se as
−1/ 2
matrizes diagonais D11 ( ) ( )
= Diag 1/ Sii(1) , (pxp) e D −221/ 2 = Diag 1/ Sii(2) , (qxq).
1. Matriz de correlações entre Û e X (1)

ˆ D −1/ 2
R U,ˆ X(1) = AS (10.49)
11 11

2. Matriz de correlações entre Û e X (2)

ˆ D −1/ 2
R U,ˆ X( 2) = AS (10.50)
12 22

3. Matriz de correlações entre V̂ e X (1)

ˆ t D −1/ 2
R V,ˆ X(1) = BS (10.51)
12 11

4. Matriz de correlações entre V̂ e X (2)

ˆ D −1/ 2
R V,ˆ X( 2 ) = BS (10.52)
22 22

Para variáveis padronizadas, as variáveis canônicas
correspondentes são:
⎡Uˆ ⎤ ⎡ Vˆ 1 ⎤
1
⎢ ⎥ ⎢ ⎥
⎢ ˆ ⎥ ˆ
U
U
ˆ = 2 = Aˆ Z (1)
e ˆ = ⎢ V2 ⎥ = Bˆ Z (2)
V (10.53)
⎢ ⎥ Z
⎢⎢ # ⎥⎥
Z

⎢# ⎥
⎢Uˆ ⎥ ⎢ Vˆ ⎥
⎣ p⎦ ⎣ q⎦
em que:
Aˆ Z = AD
ˆ 1/ 2 e
11 Bˆ Z = BD
ˆ 1/ 2
22 (10.54)
Sendo que aˆ z e bˆ z , para as variáveis padronizadas, são obtidos da

mesma forma que os respectivos vetores para variáveis não padronizadas,
substituindo-se nas expressões correspondentes S11, S22 e S12 por R11, R22 e R12,
respectivamente. A relação (10.54) se verifica para o caso de variáveis canônicas,
mas não se pode estabelecer a mesma relação para os componentes principais
de matriz de covariância e matriz de correlação, como apontado por Johnson e
Wichern (1998). As matrizes de correlações entre as variáveis de cada grupo
padronizadas e as respectivas variáveis canônicas são dadas por:
⎧R ˆ (1) = A ˆ R =A ˆ −1 ˆ t
Z 11 Z ˆ (1) = B Z R 12
R V,Z
⎪⎪ U,Z

⎨ (10.55)
⎪ ˆ ˆ ˆ −1
ˆ ( 2) = A Z R 12
⎪⎩R U,Z ˆ ( 2) = B Z R 22 = B Z
R V,Z

Da mesma forma, é fácil verificar que as correlações não são
afetadas pela padronização, ou seja, as correlações obtidas em (10.49) a (10.52)
são as mesmas as correspondentes em (10.55).
Uma importante avaliação da qualidade do potencial das variáveis
canônicas é medir o poder de resumo da variabilidade contida respectivo conjunto.
Duas formas básicas são descritas: na primeira apresenta-se uma matriz de erro
da aproximação e na segunda calcula-se a proporção da variância explicada pelas
variáveis canônicas para cada grupo de variáveis.

As matrizes de erro são obtidas como se segue, admitindo as
ˆ = AX
definições U ˆ (1) e Vˆ = BX
ˆ (2) . Logo, é possível definir:

X(1) = Aˆ −1U
ˆ e X(2) = Bˆ −1Vˆ (10.56)

Como Â e B̂ são dadas por:
⎡ ĉ1t ⎤ ⎡ d̂1t ⎤
⎢ t ⎥ ⎢ t ⎥
ˆ
ˆ = Pˆ (1)t S−1/ 2
A
ĉ
= ⎢ 2 ⎥ S11 −1/ 2 ˆ = Pˆ (2)t S−1/ 2 = ⎢ d 2 ⎥ S−1/ 2
e B (10.57)
11
⎢#⎥ 22 ⎢ ⎥ 22
⎢ t⎥ ⎢#⎥
⎣⎢ cˆ p ⎦⎥ ⎢ dˆ t ⎥
⎣p⎦
Então:
ˆ −1 = S1/ 2 Pˆ (1)
A e ˆ −1 = S1/ 2 Pˆ (2)
B (10.58)
11 22
devido a P̂ (1) e P̂ (2) serem matrizes ortogonais de autovetores, é fácil perceber que
( Pˆ ) ( )
−1 −1
(1)t
= Pˆ (1) e Pˆ (2)t = Pˆ (2) .
Das definições de Û e V̂ sabe-se que a covariância entre eles é

uma matriz diagonal Λ̂ (pxq) com λ̂ k na k-ésima diagonal para k=1, 2,...p, e
cujas demais p-q colunas são formadas de zeros. Assim,

⎧Cov
⎪
ˆ ( U,ˆ Vˆ ) = AS
ˆ
12
ˆ t = Pˆ (1)tS−1/ 2S S−1/ 2 Pˆ (2) = Λ
B 11 12 22
ˆ
⎪
⎪⎪
ˆ
⎨Cov ( Uˆ ) = AS
ˆ Aˆ
11
t
=Ι (10.59)
⎪
⎪
⎪ ˆ
⎪⎩Cov ( Vˆ ) = BS
ˆ
22
ˆt =Ι
B
Assim,
ˆ B
AS ˆt =Λ
ˆ
12
S12 B ˆ −1Λ
ˆt =A ˆ
( )
t
ˆ −1Λ
S12 = A ˆ B
ˆ −1
Da mesma forma:
( ) ( )
t t
ˆ −1 A
S11 = A ˆ −1 e ˆ −1 B
S22 = B ˆ −1
A idéia é reter um número r menor ou igual a p de variáveis
canônicas em cada grupo. O número r é escolhido de determinada forma que a
covariância amostral dentro de grupo seja reproduzida de uma forma satisfatória.
Da mesma forma é desejável uma boa aproximação das covariâncias entre grupos
S12. Sejam, então, as matrizes compostas das r (r≤p) primeiros autovalores e
−1/ 2
autovetores de S11 S12S−221S12
t −1/ 2
S11 e de S−221/ 2S12
t −1
S11 S12S−221/ 2 definidas por:
⎡ ĉ1t ⎤
⎢ t ⎥
ĉ
ˆ = Pˆ (1)t S−1/ 2
A = ⎢ 2 ⎥ S11−1/ 2
(10.60)
r r 11
⎢#⎥
⎢ t⎥
⎢⎣ ĉ r ⎥⎦

⎡ d̂1t ⎤
⎢ t ⎥
ˆ = Pˆ (2)t S−1/ 2 ⎢d̂ ⎥
B r r 22 = ⎢ 2 ⎥ S−221/ 2 (10.61)
⎢#⎥
⎢ d̂ t ⎥
⎣ r⎦

⎡ λˆ 1 0 " 0 ⎤
⎢ ⎥
⎢ 0 λˆ 2 " 0 ⎥
ˆ =⎢
Λ ⎥ (10.62)
r
⎢ # # % # ⎥
⎢ ⎥
⎢⎣ 0 0 " λˆ r ⎥⎦
Assim, definem-se as matrizes:
ˆ −1 = S1/ 2 Pˆ (1) e B
A ˆ −1 = S1/ 2 Pˆ (2) (10.63)
r 11 r r 22 r
Considerando as matrizes de resíduos E11, E22 e E12 das
reproduções de S11, S22 e S12, respectivamente, têm-se:

⎧E = S −
( Aˆ )( Aˆ )
t
−1 −1
(a)
⎪ 11 11 r r
⎪
⎪
⎪
( Bˆ )( Bˆ )
t
−1 −1
⎨E 22 = S22 − r r (b) (10.64)
⎪
⎪
⎪
( Aˆ ) Λˆ ( Bˆ )
t
−1 −1
⎪E12 = S12 − r r r (c)
⎩
A segunda alternativa relacionada a essa que apresenta em simples
número a explicação do respectivo conjunto, em substituição aos p(p-1)/2, q(q-1)/2
ou pq valores de E11, E22 e E12. Como tr ( S11 ) = tr ⎡ A ( )( )

ˆ −1 ⎤ + tr ( E ) , e assim
t
ˆ −1 A
⎣⎢ ⎥⎦
r r 11
por diante para as demais matrizes, a explicação das r variáveis canônicas para o
seu respectivo conjunto é dada por:
ˆ de X (1) = 100 × ⎜1 − tr ( E11 ) ⎟ (a)

⎧ ⎛ ⎞
1(
ˆ ,U
⎪%Exp U ˆ ," , U
2 r

) ⎜ tr ( S ) ⎟
⎪ ⎝ 11 ⎠
⎪
⎨ (10.65)
⎪
ˆ de X (2) = 100 × ⎜1 − tr ( E 22 ) ⎟ (b)
⎛ ⎞
⎪%Exp V
⎪ 1 (
ˆ ,Vˆ ," , V
2 r

) ⎜ tr ( S ) ⎟
⎩ ⎝ 22 ⎠
10.4. Inferências para grandes amostras
Quando Σ12=0 as variáveis canônicas U = a t X (1) e V = b t X (2)

possuem covariância nula para todos os pares de vetores a e b . Dessa forma,

não existem vantagens em realizar uma análise de correlação canônica. Então, é
evidente que um teste de hipótese de que (Σ12) seja igual a uma matriz nula é
primordial para a validação da análise de correlação canônica. A seguir é
apresentado o teste para a hipótese:
H 0 : Σ12 = 0 (p × q) vs H1 : Σ12 ≠ 0 (10.66)
Seja o vetor aleatório normal de dimensão (p + q x 1) com média µ e
covariância Σ, dado por:
⎡ X (1) ⎤
j
X j = ⎢ (2) ⎥
⎢⎣ X j ⎥⎦

cuja covariância pode ser particionada em:
p q
p ⎡Σ Σ12 ⎤
Σ = ⎢ 11
q ⎣Σ 21 Σ 22 ⎥⎦
Sob H0 o máximo da função de verossimilhança é dado por L0 e sob
H1 por L1, quais sejam:
L 0 ( X, S11 , S 22 ) = (2π) −n(p + q) / 2 ⎡⎣ S11 S 22 ⎤⎦

−n / 2
exp ( −n(p + q) / 2 ) (10.67)

em que n é o tamanho da amostra, S11 e S22 são os estimadores das covariâncias
amostrais do grupo 1 e do grupo 2 de variáveis, p e q representam o número total
de variáveis no grupo 1 e 2, respectivamente.
Sob H1, modelo irrestrito tem-se:
L1 ( X, S ) = (2π) −np / 2 S −n / 2 exp ( −np / 2 ) (10.68)

A razão de verossimilhança é dada por:
L 0 ( X, S11 , S22 ) ⎡ S11 S22

−n / 2
⎤
Λ= =⎢ ⎥ (10.69)
L1 ( X, S ) ⎢⎣ S ⎥⎦

O teste da razão de verossimilhança para a hipótese (10.66), dado
por:
⎛ S11 S22 ⎞ ⎡ p ⎤
χ c2 = −2 ln(Λ ) = n ln ⎜
⎜ S ⎟ (
⎣ i =1
)
⎟ = − n ln ⎢∏ 1 − λˆ i ⎥
⎦
(10.70)
⎝ ⎠
tem distribuição qui-quadrado com ν=pq graus de liberdade. Em que Λ é a razão
de verossimilhança do teste da hipótese (10.66).
O teste de razão de verossimilhança compara a variância amostral
generalizada sob H0:

S11 0
= S11 S22
0 S22
com a variância generalizada irrestrita, |S|. O primeiro caso com
p(p + 1)/2 + q(q + 1)/2 parâmetros e o segundo com (p + q)(p + q + 1)/2. A
diferença é igual a ν = pq parâmetros, que é igual aos graus de liberdade do teste
em questão. Bartlett (1939) sugere uma correção para uma melhor aproximação
de qui-quadrado, substituindo n em (10.70) por n – 1 - (p + q + 1)/2. O teste com a
correção de Bartlett (1939) é dado por:
⎤ ⎛ S11 S22 ⎞ ⎤ ⎡ ⎤
( )
p
⎡ 1 ⎡ 1
χ c2 = ⎢ n − 1 − ( p + q + 1) ⎥ ln ⎜ ⎟ = − ⎢ n − 1 − ( p + q + 1) ⎥ ln ⎢∏ 1 − λˆ i ⎥ (10.71)
⎣ 2 ⎦ ⎝⎜ S ⎟
⎠ ⎣ 2 ⎦ ⎣ i =1 ⎦
Se a hipótese nula H 0 : Σ12 = 0 ( ρ1 = ρ2 = " = ρp = 0 ) for rejeitada, é
natural buscar um número de correlações canônicas r que diferem
significativamente de zero. Em que ρk é a notação abreviada de ρ Uk ;Vk . Bartlett
(1938) sugere um teste seqüencial baseado na razão de verossimilhança. A
princípio, testar a hipótese de que a primeira correlação canônica é não nula e as
demais (p-1) são nulas; em seguida, testar que as duas primeiras são não nulas e
as demais (p-2) são nulas; e assim por diante. Para o k-ésimo passo desse
processo testar a hipótese H (k

0
)
dada por:
⎧H (k
0 : ρ1 ≠ 0, ρ 2 ≠ 0," , ρ k ≠ 0, ρ k +1 = ρ k + 2 = " = ρ p = 0
)
⎪
⎨ (10.72)
⎪H (k ) : ρ ≠ 0 para algum i ≥ k + 1
⎩ 1 i
O teste dessa hipótese incorporando a correção de Bartlett (1939)
pode ser realizado por:
⎤ ⎡ ⎤
( )
p
⎡ 1
χ c2 = − ⎢ n − 1 − ( p + q + 1) ⎥ ln ⎢ ∏ 1 − λˆ i ⎥ (10.73)
⎣ 2 ⎦ ⎣ i = k +1 ⎦
o qual possui distribuição de qui-quadrado com ν=(p-k)(q-k) graus de liberdade. O
teste é realizado para k=1, 2, ..., (p-1).
Cada hipótese da seqüência H 0 , H (1) (2)

0 , H 0 , etc. é testada uma de
cada vez até que H (k

0
)
não seja rejeitada para algum k. O valor nominal da
significância não é α, e possui difícil determinação. O teste é especialmente útil
para os dados normais e deve ser interpretado com cautela, e possivelmente deva
melhor ser usado como um guia não muito refinado de seleção do número r de
variáveis canônicas a ser retido. As distribuições amostrais das variáveis
canônicas possuem um estudo mais detalhado em Kshirsagar (1972).
Uma outra opção para esse teste é apresentada por Morrisson
(1976) que afirma que a distribuição do maior autovalor segue a distribuição da
maior raiz característica de Roy, com S=min(p, q), m=(|P-Q| -1)/2 e n=(n-p-q-2)/2.
O teste anterior foi generalizado por Wilks (1935) para avaliar a
independência entre k grupos de variáveis. O teste de razão de verossimilhança

para a hipótese de independência entre k-grupos da distribuição normal
multivariada é apresentado doravante. Seja Σ, matriz de covariância para todas as
variáveis, particionada em k grupos, cada um com pi variáveis; a sub-matriz Σij de
dimensão pixpj (i≠j=1, 2, ...,k) é uma partição de Σ que contem as correspondentes
covariâncias entre as pi variáveis do i-ésimo grupo com as pj variáveis do j-ésimo
grupo. A hipótese de interesse é:
⎧H 0 : Σij = 0 para todo i ≠ j=1, 2, ..., k

⎪
⎨ (10.74)
⎪H : Σ ≠ 0 para algum i ≠ j=1, 2, ..., k
⎩ 1 ij
Cujo teste apresentado por Wilks (1935) depende da quantidade:
S
Vc = (10.75)
S11 × S22 × " × Skk
cuja distribuição é muito complicada. Mas Box (1949) obteve boa aproximação de
qui-quadrado com ν graus de liberdade. O teste proposto é:
n −1
χ c2 = − ln ( Vc ) (10.76)
C
em que:
⎧ −1 1
⎪C = 1 − 12ν (n − 1) ( 2Γ3 + 3Γ 2 )
⎪⎪
⎨ (10.77)
⎪ 1
⎪ν = Γ 2
⎪⎩ 2
S
⎛ k ⎞ k
ΓS = ⎜ ∑ pi ⎟ − ∑ pSi ; S = 2, 3 (10.78)
⎝ i =1 ⎠ i =1
Se k = 2 com p1 = p e p2 = q, o teste (10.76) é exatamente o mesmo
de (10.71). Se k = p + q e pi=1, para todo i=1, 2, ..., p + q, o teste é se especifica
no teste apresentado no capítulo 7, para a independência de variáveis, ou seja,
H0: Σ=diag(σii). Então, esse teste é uma generalização dos demais supra citados.
É conveniente que se saliente que se os testes forem aplicados sobre a matriz de
correlação, os resultados são equivalentes aos obtidos para a matriz de
covariâncias, substituindo-se S por R nas expressões anteriores.
10.5. Exercícios
10.5.1. Verifique que a derivação do máximo de (10.7) pode ser obtida a partir de
(10.16) utilizando o fator de Cholesky F, na transformação linear de
a = ( F11−1 ) c e de b = ( F22−1 ) d no lugar de a = Σ11

t t −1/ 2
c e de b = Σ −221/ 2 d ,

respectivamente; em que, F11 e F22 são os fatores de Cholesky de Σ11 e de
Σ22, respectivamente.
10.5.2. Dois testes ( X1(1) e X (1)

2 ) de leitura foram aplicados em n=140 crianças
juntamente com dois testes de aritmética ( X1(2) e X (2)

2 ). A matriz de
correlação amostral obtida foi:
⎡1, 0000 0, 6328⎤ ⎡1, 0000 0, 4248⎤ ⎡ 0, 2412 0, 0586 ⎤

R 11 = ⎢ ⎥ ; R 22 = ⎢ ⎥ ; e R 12 = ⎢ ⎥
⎣0, 6328 1, 0000 ⎦ ⎣0, 4248 1, 0000 ⎦ ⎣ −0, 0553 0, 0655 ⎦
a) obtenha todas as variáveis canônicas amostrais e as respectivas correlações
máximas.
b) realizar o teste da hipótese:
H 0 : Σ12 = ρ12 = 0 (p × q) vs H1 : Σ12 = ρ12 ≠ 0
Se H0 for rejeitada realizar o teste da hipótese:
H 0 : ρ1 ≠ 0; ρ2 = 0 Vs H 0 : ρ2 ≠ 0
discuta os resultados obtidos.

c) estime as matrizes E11, E22 e E12 para o primeiro par de variáveis canônicas
(r=1).
d) Determine a proporção da variação explicada pelo primeiro par de variáveis
canônicas nos dois grupos.
e) calcule a correlação amostral entre Z(1) e Z(2) com U e com V .

||[ 11
Referências bibliográficas
]||
ANDERSON, T.W. An introduction to multivariate statistical analysis. 2nd Ed.
New York, John Wiley, 1984, 675p.
ANDERSON, T.W. The asymptotic theory for principal components analysis,
Annals of Mathematical Statistics, v.34, p.122-148, 1963.
BARTLETT, M.S. A note on multiplying factors for various Chi-Square
approximations. Journal of the royal Statistical Society –Series B. v.16,
p.296-298, 1954.
BARTLETT, M.S. A note on tests of significance in multivariate analysis.
Proceedings of the Cambridge Philosophical Society, v.35, p.180-185, 1939.
BARTLETT, M.S. Further aspects of the theory of multiple regression.
Proceedings of the Cambridge Philosophical Society, v.34, p.33-40, 1938.
BARTLETT, M.S. The statistical conception of mental factors. British Journal of
Psychology. v.28, p.97-104, 1937.

11. Referências bibliográficas 390
BENNETT, B.M. Note on a solution of the generalized Behrens-Fisher problem,
Annals of the Institute of Statistical Mathematics, v.2, p.97-90, 1951.
BOCK, R.D. Multivariate statistical methods in behavioral research. McGraw
Hill, 1975.
BOX, G.E.P. A general distribution theory for a class of likelihood criteria,
Biometrika. v.36, p.317346, 1949.
CARROLL, J.B. An analytical solution for approximating simple structure in factor
analysis. Psychometrika. v.18, pp.23-28, 1953.
CHRISTENSEN, W.F.; RENCHER, A.C. A comparison of type I rates and power
levels for seven solutions to the multivariate Behrens-Fisher problem.
Communication in Statistics-Simula., v.26, n.4, p.1251-1273, 1997.
CLEVELAND, W.S.; RELLES, D.A. Clustering by identification with special
application to two way tables of counts. Journal of American Statistical
Association. v.70, n.351, 1975. 626-630p.
D’AGOSTINO, R.B.;TIÉTJEN, G.L. Approaches to the null distribution of b1 ,

Biometrika, v.60, p.169-173, 1973.
D’AGOSTINO, R.B.;TIÉTJEN, G.L. Simulation probability points of b2 in small

samples, Biometrika, v.58, p.669-672, 1971.
DINIZ, L de C. Dinâmica populacional do piolho de são José Quadraspidiotus
perniciosus (Comostock, 1881) (Homóptera: Dispididae) em pessegueiro, no
município de Jacuí - Minas Gerais. UFLA, Lavras, MG, 1996. 61p. (dissertação
de mestrado).
FERGUSON, G.A. The concept of parsimony in factor analysis. Psychometrika.
v.19, pp.281-290, 1954.
GIRSHICK, M.A. On the sampling theory of roots of determinantal equations.
Annals of Mathematical Statistics. v.10, p.203-224, 1939.
HOTELLING, H. Relations between two sets of variables. Biometrika. v.28, p.321-
377, 1936.
HOTELLING, H. The most predictable criterion. Journal of Educational
Psychology. v.26, p.139-142, 1935.
HOUSEHOLDER, A.S. Principles of numerical analysis. McGraw-Hill, New york,

1953.
HOUSEHOLDER, A.S. The theory of matrices in numerical analysis. Blarsdell,

Waltham, Mass., 1964.
JAMES, G.S. Tests of linear hypotheses in univariate and multivariate analysis
when the ratios of the population variances are unknown, Biometrika, v.41,
p.19-43, 1954.
JOHANSEN, S. The Welch-James approximation to the distribution of the residual
sum of squares in a weighted linear regression, Biometrika, v.67, n.1, p.85-92,
1980.
JOHNSON, R.A.; WICHERN, D.W. Applied multivariate statistical analysis. 4th
edition. Prentice Hall, New Jersey, 1998. 816p.
KAISER, H.F. Computer program for varimax rotation in factor analysis. Journal of
Educational and Psychological Measurement. v.19, pp.413-420, 1959.
KAISER, H.F. The varimax criterion for analytic rotation in factor analysis.
Psychometrika. v.23, pp.187-200, 1958.
KIM, S. A practical solution to the multivariate Behrens-Fisher problem,
Biometrika, v.79, n.1, p.171-176, 1992.
KRZANOWSKI, W.J. Principles of multivariate analysis. A user’s perspective.
Oxford, 3rd edition, 1993. 563p.
KSHIRSAGAR, A.M. Multivariate analysis. New York: Marcel Dekker, 1972.
LAWLEY, D.N. Further estimation in factor analysis. Proceedings of the Royal
Society of Edinburgh, Series A. v.61, pp.176-185, 1942.
LAWLEY, D.N. On testing a set of correlation coefficients for equality, Annals of
Mathematical Statistics, v.34, p.149-151, 1963.

LAWLEY, D.N. Tests of significance for the latent roots of covariance and
correlation matrices. Biometrika, v.43, p.128-136, 1956.
LAWLEY, D.N. Tests of significance in canonical analysis. Biometrika. v.46,
p.59-66, 1959.
LAWLEY, D.N. The application of the maximum likelihood method to factor
analysis. British Journal of Psychology. v.33, pp.172-175, 1943.
LAWLEY, D.N. The estimation of factor loadings by the method of the maximum
likelihood. Proceedings of the Royal Society of Edinburgh, Series A. v.60 ou 40
(checar), pp.64-82, 1940.
MARDIA, K.V. Applications of some measures of multivariate skewness and

kurtosis for testing normality and robustness studies. Sankyã. A36, p.115-128,
1974.
MARDIA, K.V. Measures of multivariate skewness and kurtosis with applications.

Biometrika, p.519-530, 1970.
MARRIOTT, F.H.C. The interpretation of multiple observations. London,
Academic Press, 1974.
MOMENTÉ, V.G. Comparações entre diferentes tipos de famílias clonais para
o melhoramento genético da batata (Solanum tuberosum L.). ESAL, Lavras,
MG, 1994. 83p. (dissertação de mestrado).

MORRISON, D.F. Multivariate statistical methods. New York: McGraw-Hill, 2d
ed., 1976. 307p.
NEHAUS, J.; WRIGLEY, C. The quartimax method: an analytical approach to
orthogonal simple structure. British Journal of Psychology. v.7, pp.81-91, 1954.
NEL, D.G.; Van der MERWE, C.A. A solution to the multivariate Behrens-Fisher
problem. Communications in Statistics: Theory and Methods, v.15, p.3719-
3735, 1986.
PEARSON, E.S.; HARTLEY, H.O. Biometrika Tables for Statisticians Vol. 1 ed.
Cambridge University Press, New York, 1966.
SEARLE, S.R. Matrix algebra for the biological sciences. Wiley, New York,
1966.
WIKS, S.S. On the independence of k sets of normally distributed statistical
variables. Econometrica. v.3, p.309-326, 1935.
YAO, Y. An approximate degrees of freedom solution to the multivariate
Behrens-Fisher problem. Biometrika, v.52, n.1, p.139-147, 1965.

1996 Livro Estatistica Multivariada Ferreira Lavras

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

1996 Livro Estatistica Multivariada Ferreira Lavras

Enviado por

Direitos autorais:

Formatos disponíveis

MINISTÉRIO DA EDUCAÇÃO E DO DESPORTO

UNIVERSIDADE FEDERAL DE LAVRAS

Daniel Furtado Ferreira

1. Aspectos da análise multivariada 1

1.2. Aplicação das técnicas multivariadas 3

1.3. Organização de dados 5

2. Álgebra vetorial e matricial 25

2.2. Elementos de álgebra vetorial 26

2.3. Elementos de álgebra matricial 34

3.2. Geometria amostral 90

3.3. Amostras aleatórias e esperanças do vetor de média e da

3.4. Variância generalizada 104

3.5. Variância generalizada de variáveis generalizadas 113

3.6. Outra generalização da variância 116

3.7. Exercícios 117

4. Distribuição normal multivariada 119

4.1. Introdução 119

4.2. Pressuposições das análises multivariadas 120

4.3. Densidade normal multivariada e suas propriedades 121

4.4. Distribuição normal bivariada 125

4.5. Distribuição amostral de X e S 133

4.7. Verificando a normalidade 143

4.8. Exercícios 169

5. Inferências sobre o vetor média 171

5.1. Introdução 171

5.2. Inferências sobre média de uma população normal 171

5.3. Região de confiança e comparações simultâneas de

5.4. Inferências sobre proporções de grandes amostras 190

5.5. Comparações pareadas 192

5.6. Comparações de vetores de médias de duas populações 199

5.7. Exercícios 215

6. Análise de variância multivariada 219

6.1. Introdução 219

6.2. Delineamento de classificação simples 220

6.3. Intervalos de confiança simultâneos para o efeito de

6.4. Exercícios 232

7. Componentes principais 233

7.1. Introdução 233

7.2. Componentes principais populacionais 234

7.3. Componentes principais amostrais 250

7.4. Gráficos dos componentes principais 256

7.5. Inferências para grandes amostras 259

7.6. Exercícios 282

8. Análise de agrupamento 285

8.1. Introdução 285

8.2. Medidas de parecença (similaridades e dissimilaridades) 286

8.3. Agrupamentos 296

8.4. Exercícios 308

9. Análise de fatores 309

9.1. Introdução 309

9.2. Modelo de fatores ortogonais 310

9.3. Estimação de cargas fatoriais 316

9.4. Rotação fatorial 342

9.5. Teste da falta de ajuste do modelo fatorial 346

9.6. Escores fatoriais 349

9.7. Exercícios 354

10. Análise de correlação canônica 355

10.1. Introdução 355

10.2. Variáveis canônicas e correlação canônica populacionais 356

10.3. Variáveis e correlações canônicas amostrais 371

10.4. Inferências para grandes amostras 380

10.5. Exercícios 386

11. Referencias bibliográficas 389