Aplicações de Algumas Técnicas Multivariadas

APLICAES DE ALGUMAS TCNICAS MULTIVARIADAS
(Componentes Principais, Variveis Cannicas e Correlaes Cannicas)
NDICE
Pgina
1. INTRODUCO..........................................................................................................
2. COMPONENTES PRINCIPAIS................................................................................
2.1. Introduo............................................................................................................
2.2. Obteno dos Componentes Principais ...............................................................
2.3. Importncia Relativa de um Componente Principal............................................
2.4. Correlao Entre o Componente Yk e a Varivel Xi ...........................................
APLICAO 1 ..........................................................................................................
2.5. Componentes Principais Obtidos de Variveis Padronizadas .............................
APLICAO 2 ..........................................................................................................
2.6. Sumarizao da Variao Amostral por Componetes Principais ........................
2.7. Descarte de Variveis ..........................................................................................
2.8. Anlises de Componentes Principais e Anlise de Agrupamento.......................
APLICAO 3 ..........................................................................................................
3. VARIVEIS CANNICAS ......................................................................................
3.1. Introduo............................................................................................................
3.2. Obteno das Variveis Cannicas......................................................................
3.3. Importncia Relativa de uma Varivel Cannica ................................................
3.4. Descarte de Variveis ..........................................................................................
3.5. Anlise de Variveis Cannica e Anlise de Agrupamento ................................
APLICAO 4 ..........................................................................................................
4. CORRELAES CANNICAS ...............................................................................
4.1. Introduo............................................................................................................
4.2. Obteno das Correlaes Cannicas e dos Pares Cannicos .............................
APLICAO 5 ..........................................................................................................
4.3. Algumas Aplicaes na rea Florestal ...............................................................
5. ANLISE DE VARINCIA MULTIVARIADA .....................................................
5.2. Consideraes sobre a MANOVA ......................................................................
5.2.1. Desenvolvimento Matemtico ..........................................................................
APLICAO 1 ..........................................................................................................
5.3. Procedimentos para Comparaes Mltiplas ......................................................
6. REFERNCIAS BIBLIOGRFICAS .......................................................................
1
1
1
2
4
5
6
9
11
14
14
15
16
21
21
22
25
25
26
27
31
31
32
35
36
38
39
40
47
51
55
MANEJO FLORESTAL DEF/UFV
Prof. Agostinho Lopes de Souza
1. INTRODUCO
A anlise estatstica multivariada ou simplesmente anlise multivariada o ramo da
estatstica direcionado ao estudo das amostras e distribuio multidimensionais, ou seja, so
mtodos estatsticos apropriados para estudos em que vrias variveis so consideradas
simultaneamente.
No entanto, apesar de as tcnicas multivariadas terem eficincia comprovada e proporcionarem enriquecimento das informaes extradas de dados experimentais, necessria para
seu uso a disponibilidade de recursos computacionais, motivo pelo qual a referida tcnica
ficou limitada no seu uso e do repasse entre os pesquisadores das diversas reas da cincia, no
Brasil. Entretanto, com a incrementao dos recursos da informtica nos ltimos anos, a
tcnica atraiu a ateno dos pesquisadores das diversas reas, tornando o seu emprego
potencialmente grande e, conseqentemente, o seu conhecimento indispensvel.
A anlise multivariada compreende vrias tcnicas que, segundo KENDALL (1980),
citado por CRUZ (1987), distinguem-se em:
a) Tcnicas de Avaliao da Interdependncia: estuda as relaes de um conjunto
de variveis entre si.
- Cluster Analysis ou Anlise de Agrupamento
- Componentes Principais
- Correlaes Cannicas
- Anlise Fatorial
- Escala
b) Tcnicas de Avaliao da Dependncia: estuda a dependncia de uma ou mais
variveis em relao s outras.
- Regresso
- Relao Funcional
- Mltipla Contigncia
- Anlise Discriminante
Devido complexidade e extenso do assunto, o presente trabalho teve como objetivo
fazer uma abordagem sobre a utilizao de algumas tcnicas multivariadas na rea florestal,
tomando-se como base os seguintes estudos: Componentes Principais, Variveis Cannicas e
Correlaes Cannicas.
2. COMPONENTES PRINCIPAIS
2.1. Introduo
A anlise de componentes principais uma tcnica multivariada, que segundo
KENDAL (1950), uma tcnica de avaliao da interdependncia, ou seja, estuda as relaes
de um conjunto de variveis entre si.
A tcnica de componentes principais foi originalmente descrita por Karl Pearson, em
1901, em um artigo onde deu nfase sua utilizao no ajustamento de um subespao a uma
nuvem de pontos. Posteriormente, a tcnica foi consolidada por Hotelling em 1933 e 1936,
para o propsito particular de analisar estruturas de correlaes (MORRISON, 1976,
MARDIA et al., 1979; MANLY, 1986; CRUZ, 1990). Entretanto, o uso da anlise s foi
1
difundida aps desenvolvimento de computadores eletrnicos e atualmente, devido a grande

disponibilidade de recursos de computadores sofisticados e de software aplicados, a tcnica
tornou-se amplamente disponvel e utilizada nas vrias reas da cincia.
A tcnica de componentes principais procura explicar a estrutura de varinciascovarincias atravs de poucas combinaes lineares das variveis originais, com os objetivos
de reduzir os dados, coloc-los numa forma mais adequada para anlise, evidenciar as
tendncias e facilitar sua interpretao. Segundo LIBERATO (1995), a utilizao da anlise
de componentes principais tem por finalidade proporcionar simplificao estrutural dos dados,
de modo que a diversidade, influenciada a princpio por um conjunto p-dimensional (p =
nmeros de caracter considerados no estudo), possa ser avaliada por um complexo bi ou
tridimensional de fcil interpretao geomtrica. Ou ainda, a anlise por componentes
principais, segundo CRUZ (1994), consiste em transformar um conjunto original de variveis
em outro conjunto, de dimenses equivalentes, mas com propriedades importantes de grande
interesse em certos estudos.
Os princpios bsicos desta tcnica so descritos por vrios autores, tais como
MORRISON, 1976; MARDIA et al. (1979); KENDAL (1980); MANLY (1986);JOHNSON e
WICHERN (1988); CRUZ e REGAZZI (1994); entre outros. Segundo estes autores, cada
componente principal uma combinao linear das variveis originais, que so independentes
entre si e estimadas com o propsito de reter, em ordem de estimao, o mximo da
informao, em termos de variao total, contida nos dados originais. Assim, entre todos os
componentes principais, o primeiro tem a maior varincia, o segundo tem a segunda maior e
assim sucessivamente.
A grande importncia do conhecimento da tcnica dos componentes principais,
segundo SOUZA (1988), reside no fato de ela constituir um procedimento bsico do qual
derivam vrios outros mtodos de anlise de dados multivariados, como por exemplo, anlise
de agrupamento cluster analysis.
Assim, segundo CRUZ (1990) o uso da tcnica de componentes principais pode
atender os seguintes propsitos:
i) examinar as correlaes entre caracteres estudados;
ii) resumir um grande conjunto de caracteres em outro menor e de sentido biolgico;
iii)avaliar a importncia de cada caracter e promover a eliminao daqueles que contribuem pouco , em termos de variao, no grupo de indivduos avaliados;
iv)construir ndices que possibilitem o agrupamento de indivduos; e
v) permitir o agrupamento de indivduos com o mais alto grau de similaridade,
mediante exames visuais em disperses grficas no espao bi ou tridimensional.
2.2. Obteno dos Componentes Principais
Algebricamente, componentes principais so combinaes lineares particulares das p
variveis aleatrias X1, X2, ... , Xp. Geometricamente, estas combinaes lineares representam
a seleo de um novo sistema de coordenadas obtidas pela rotao do sistema original como
X1, X2, ... , Xp como eixos. Os novos eixos representam as direes com variablidade mxima
e fornece uma descrio mais simples e mais parcimoniosa da estrutura de covarincias.
Os componentes principais dependem somente da matriz de covarincias (S) ou da
matriz de correlao (R) de X1, X2, ..., Xp. Assim, a tcnica de componentes principais
caracteriza-se por trabalhar com a mdia amostral ou ser usada nas situaes em que no h
repeties de dados.
O seu desenvolvimento no necessita de normalidade. No entanto, a anlise de componentes derivada de populaes normais multivariadas tm suas interpretaes usuais em
termos de elipsides de densidade constante (JOHNSON e WICHERN, 1988). Entretanto,

embora a anlise, formalmente no requeira a distribuio normal multivariada, ela mais
apropriada para variveis quantitativas contnuas. Quando os dados so constituidos de
contagem, razes, propores ou percentagens, a transformao recomendada para tornar
sua distribuio mais apropriada, previamente anlise de componentes principais. Como
exemplo, STAUFFER et al. (1985) recomenda a transformao de arco seno da raiz quadrada
para dados provenientes de percentagem e os dados de contagem a transformao de raiz
quadrada (PIMENTEL GOMES, 1984).
Seja o vetor aleatrio X = [X1, X2, ... , Xp] que tem a matriz de covarincias (S) com
autovalores ( 1 2 ... p 0) e considerando as seguintes combinaes lineares:
Y1 = 11X = 111 X1 + 121X2 + ... + 1P1XP
Y2 = 12X = 112X1 + 122X2 + .... + 1P2XP
.
.
.
YP = 1PX = 11PX1 + 12pX2 + ... + 1PPXP
Sendo:
Var (Yi) = 1i S 1i
i = 1, 2, ... , p
Cov (Yi ,Yk) = 1i S 1k
i, k = 1, 2, .... , p
Os componentes principais so combinaes lineares no correlacionadas, cujas

varincias so to grandes quanto possvel. assim:
a) O primeiro componente principal (Y1) a combinao linear com varincia
mxima, isto , a combinao linear 11 X que maximiza Var (11X) sujeito a
1111 = 1;
b) O segundo componente principal (Y2) a combinao linear 12X que maximiza
Var (12X), sujeito a 1212 e com Cov (11X, 12X) = 0;
c) O i-simo componente principal (Yi) a combinao linear 1iX que maximiza
Var (1iX), sujeito a 1i1i = 1 e, em todos os casos, a Cov (1iX, 1kX) = 0.
Desta forma, verifica-se que entre todos os componentes principais, Y1 apresenta a
maior varincia, Y2 a segunda maior e, assim sucessivamente, e independente entre si.
Assim, segundo CRUZ e REGAZZI (1994), o problema estatstico consiste fundamentalmente em estimar os coeficientes de ponderao dos caracteres em cada componente e
a varincia a eles associada.
Sendo Y1 o primeiro componente principal, sua varincia dada por:
Var (Y1) = 11 S 11
O que se deseja obter estimativas para o vetor 11 de tal forma que a varincia de Y1
seja a maior de todas. Para atingir este objetivo impe-se a restrio 111= 1, a qual
introduzida na expresso Var (Y1) = 11 S 11 pelo multiplicador 1 de Lagrante. Assim:
W1 = 11 S 11 + 1 (1 - 11 11)
A soluo que maximiza Var (Y1) obtida pela derivao de W1 em relao a 11, que
dada por:
S - 1 I a = 0
A soluo deste sistema deve ser tal que 1 , assim necessrio que o determinante
de (S - 1I) seja mulo, para que o sistema se torne indeterminado e a soluo possa ser
escolhida entre aquelas que satisfaam a condio 1111 = 1.
Sendo 1 o valor que satisfaz S - 1I = 0, ento, por definio, 1 a raiz
caracterstica (ou autovalor) de S e 11, o vetor caracterstico (autovetor) associado.
Sendo o vetor 11 o escolhido para maximizar Var (Y1), tem-se que 1 o maior valor
entre o conjunto de autovalores de S.
A varincia do segundo componente principal dada por: Var (Y2) = 12 S 12. Para
obteno das estimativas do vetor 12, deve-se considerar as restries 12 12 = 1 e 1211 = 11
12 = 0, as quais so incorporadas na funo de maximizao por meio dos multiplicadores 2 e
de Lagrande. Assim, estabelecido que:
W2 = 12 S 12 + 2 ( 1 - 1212) + 12 11
A soluo que maximizar Var (Y2), obtida pela derivao de W2 em relao ao 12,
dada por:
(S - 2I) 12 =
em que 2 a segunda maior raiz caracterstica de S e 12 o seu autovetor associado.
As restries consideradas neste segundo componente principal atendem aos seguintes
propsitos:
a) a primeira restrio necessria para garantir a unicidade de 12;
b) a segunda restrio garante que 11 e 12 sejam ortogonais.
Os demais componentes principais so estimados de maneira anloga ao descrito para
os dois primeiros.
2.3. Importncia Relativa de um Componente Principal
Baseando no fato de que:
Var (Yi) = i;
Var (Y1) Var (Y2) ... V (Yp) 0
Cov (Yi, Yk) = 0, para i k
p
Var (Yi) = tr S
i=1
ou seja,
p
i=1
i=1
Var (Yi) = 1 + 2 + ... + p = tr S = Var (Xi) = 211 + 222 + ... 2pp
Assim, a importncia relativa de um componente principal (IRk) avaliada pela

percentagem da varincia que ela explica, ou seja, a proporo da variao total explicada
pela k-sima componente principal dada por:
k
IRk= _____________________________ k = 1, 2, ... , p
1 + 2 + ... + p
Ou ainda, a proporo da variao total explicada pelos primeiros k componentes
principais (PVks) dada por:
PVks =
1 + 2 + ... + k
__________________________
k = 1, 2, ..., p
1 + 2 + ... + p
Desta forma, verifica-se que a proporo da variao total explicada pelos primeiros
componentes principais uma medida da quantidade de informao retida pela reduo de p
para k dimenso.
Em certos estudos desejvel que a varincia acumulada nos dois primeiros componentes principais exceda 70-80%. Nesta condio, a distoro das coordenadas no grfico de
disperso, cujos eixos so os componentes principais, ser considerada aceitvel e as inferncias no estudo satisfatrio (CRUZ e REGAZZI, 1994).
2.4. Correlao Entre o Componente Yk e a Varivel Xi
Se Y1 = 11X; Y2 = 12X; .... , Yp = 1pX so os componentes principais obtidos da
matriz de covarincia (S), ento o coeficiente de correlao entre o componente Y1 e a
varivel Xk dado por:
Cov (Yi , Xk)
i 1 ki
1ki [ i ]
________________________________
____________________
______________
Yi, Xk =
=
=
[Var (Yi)] [Var (Xk)]

[i ] [
kk]
[
kk]
em que:
i, k = 1, 2, ... , p
Cov (Yi, Xk) = i 1ki
Var (Yi) = i
Var (Xk) = kk
APLICAO 1
Supondo os seguintes dados, organizados na forma de uma matriz X, representando
uma amostra de uma vegetao constituda de duas espcies e cinco parcelas,
_
2,0
X=
1,8
X=
Em que os vetores linhas representam as espcies e os vetores colunas representam as

parcelas:
A matriz de covarincia amostral para as duas espcies da matriz X :
S11
S12
S21
S22
S=
3,5
-0,5
-0,5
2,7
* A covarincia amostral foi obtida pela frmula:

_
_
Shi = [ (Xhj - Xh) (Xij - Xi) ] / (n - 1) ,
n
j = 1 , ... n,
i=1
em que Xh a mdia da espcie h e Xi a mdia da espcie i.

Assim, obteve-se os seguintes pares de autovalores-autovetores:
1 = 3,74; 11 = [-0.901 0,433]
2 = 2,46; 12 = [ 0,433 0,901]
Observa-se que a soma dos autovalores igual a soma das varincias das espcies:
S11 + S22 = 1 + 2 = 3,5 + 2,7 = 3,74 + 2,46 = 6,2
ou ainda:
Var (Y1) = Var (0,901 X1 + 0,433 X2)
Var (Y1) = (-0,901)2 Var (X1) + (0,433)2 Var (X2) + 2(-0,901) (0,433) Cov (X1, X2)
Var (Y1) = (0,812) (3,5) + (0,187) (2,7) + (0,39) (-0,5)
Var (Y1) = 3,74 = 1
Var (Y2) = Var (0,433 X1 + 0,901 X2)

Var (Y2) = (0,433)2 Var (X1) + (0,901)2 Var(X2) + 2(0,433) (0,901) Cov (X1, X2)
Var (Y2) = (0,187) (3,5) + (0,812) (2,7) + (-0,39) (-0,5)
Var (Y2) = 2,46 = 2
A importncia relativa de cada um dos componentes principais dada por:
IRk =
k
_______________
k = 1 ,2
1 + 2
p
11 + 22 = V (X1) = 1 + 2 = V (Yi) = 6,2

i =1
Assim,
IR1 =
IR2 =
1
_____________
3,74
=
_________
1 + 2
6,20
2
____________
__________
1 + 2
= 0,6033 60,33%
2,46
=
= 0,3967 39,67%
6,20
Verifica-se, neste caso, que 60,37% da variao total est concentrada em Y1, ou seja,
Y1 explica 60,33% da variao total. O segundo componente principal (Y2) explica 39,67% da
variao total.
O coeficiente da correlao entre Y1 e as variveis X1 e X2 so:

Y1,X1 =
111 [1]
______________
-0,901 [3,74]
=
_____________________
[
11]
[3,50]
121 [1]
0,433 [3,74]
= -0,93
Y1,X2 = ______________ = _____________________ = 0,51

[
22]
[2,70]
Estes resultados mostram que existem uma grande correlao entre Y1 e X1,
mostrando que X1 de grande importncia para o primeiro componente principal.
O coeficiente de correlao entre Y2 e as variveis X1 e X2 so:

112 [2]
0,433 [2,46]
122 [2]
0,901 [2,46]
Y2,X1 = ______________ = ____________________ = 0,36

[
11]
[3,50]
Y2,X2 = ______________ = _____________________ = 0,86

[2,70]
[
22]
Neste caso, verificado que a varivel X2 a de maior importncia para o segundo
componente principal (Y2).
Em resumo, tem-se:
Componente
Varincia
CPA (Autovetores)
Principal
Autovalor
(%)
X1
X2
Y1
3,74
60,33
-0,901
0,433
Y2
2,46
39,67
0,433
0,901
CPA = Coeficiente de ponderao associado.
Os escores dos componentes so obtidos por:

Y11 = -0,901 (2) + 0,433 (0) = -1,802
Y12 = -0,901 (5) + 0,433 (1) = -4,072
Y13 = -0,901 (2) + 0,433 (4) = -0,070
.
.
.
Y25 = 0,433 (0) + 0,901 (1) = 0,901
Assim, obtm-se:
Parcelas
Componentes
Y1
-1,802
-4,072
-0,070
0,398
0,433
3,740
1
2
3
4
5
Varincia
Y2
0,866
3,066
4,470
3,136
0,901
2,460
Os escores dos componentes so coordenadas retangulares da ordenao e podem ser

plotados e produzir o seguinte diagrama (Figura 1), que mostra a distribuio agrupada dos
componentes.
Figura 1 - Disperso das Cinco Parcelas em Relao aos Dois Componentes Principais
(Y1 e Y2).
2.5. Componentes Principais Obtidos de Variveis Padronizadas

Segundo CRUZ (1987), o mtodo de obteno dos componentes principais a partir de
uma matriz de covarincias (S), como descrito anteriormente, tem sido aconselhvel apenas
nos casos em que os caracteres apresentam uma mesma unidade e dimenso no muito
discrepante. No entanto, em situaes em que este fato no se verifica, ou seja, os caracteres
em estudo so bastante diferentes em suas unidades e em sua magnitude, tem sido
recomendada a padronizao dos mesmos, da seguinte forma:
Zi =
X1 -
___________
i
Neste caso, a matriz de covarincias das variveis Zi, i = 1, 2, ..., p, torna-se:
1
r12
R=. .
.
.
rp1
r12
...
r1p
...
.
r2p
.
.
rp2
.
.
1
...
em que:
Cov (Xi , Xj)
rij = Cov (Zi, Zj) = ________________________
[Var (Xi) Var (Xj)]
De acordo com CRUZ (1987), as estimativas dos componentes principais, quando se
usa a matriz S pode ser muito diferente daquelas encontradas quando se utiliza da matriz R.
Assim, recomendado o uso de matriz S, somente naqueles casos em que as unidades
originais no so fixadas arbitrariamente, mas sim sugeridas por razes objetivas.
Seja o vetor aleatrio X = [ X1, X2, .... , Xp]. Considerando a padronizao destas
variveis, tem-se:
X1 - 1
X2 - 2
Xp - p
Z1 = ___________ ; Z2 = ___________ ; . . . ; Zp = ___________
[
11]
[
22]
[
pp]
A notao matricial :
Z = (V )-1 (X - )
em que
11
22
.
V=
.
.
pp
claro que:
E (Z) =
Var (Z) = (V )-1 Var (X - ) (V )-1
Var (Z) = (V )-1 S (V )-1 = R (matriz de correlao)

tem-se que: V . R . V = S.
10
em que:
S=
11
21
...
p1
12
22
...
p2
...
.
.
.
pp
.
.
.
1p
22
Os componentes principais de Z podem ser obtidos dos autovalores-autovetores da

matriz de correlao R de X. Assim, se continuarmos denotando Yi para referir o i-simo
componente principal e (i, 1i) para os pares de autovalores-autovetores. O i-simo
componente principal das variveis padronizadas Z= [ Z1, Z2, ... , Zp], com Var (Z) = R,
dado por:
Yi = 1i Z = 1i (V )-1 (X - ), i = 1,2,..., p
p
com : Var (Yi) = Var (Zi) = p

i=1
i=1
Yi , Zk = 1ki [i],
i , k = 1, 2, ..., p
Neste caso (1 , 11), (2 , 12), ... , (p , 1p) so pares de autovalores-autovetores de R.

Desta forma, baseando no fato de que Var (Zi) = p, a proporo da variao total
devido ao k-simo componente principal dada por:
IRk =
k
________
k = 1, 2, ..., p
p
em que os ks so os autovalores da matriz R.
APLICAO 2
Seja a matriz de covarincias S:
100
S=
11
e a matriz de correlao R:
1,0
0,4
0,4
1,0
R=
Os pares de autovalores-autovetores de S so:

1 = 100,16
11 = [0,040
0,999]
2 =
12 = [0,999
-0,040]
0,84
Similarmente, os autovalores-autovetores de R so:

1 = 1 + = 1,4;
11 = [0,707
0,707]
2 = 1 - = 0,6;
12 = [0,707
-0,707]
Os respectivos componentes principais so:

a) A partir de S;
Y1 = 0,040 X1 + 0,999 X2
Y2 = 0,999 X1 - 0,040 X2
b) A partir de R:
Y1 = 0,707 Z1 + 0,707 Z2
Y1 = 0,707
X1 - 1
_____________
+ 0,707
X2 - 2
_____________
10
Y1 = 0,707 (X1 - 1) + 0,0707 (X2 - 2)
Y2 = 0,707 Z1 - 0,707 Z2
Y2 = 0,707
X1 - 1
_____________
1
- 0,707
X2 - 2
_____________
10
Y2 = 0,707 (X1 - 1) - 0,0707 (X2 - 2)
12
A proporo da variao total explicada por cada um dos componentes principais so:
a) A partir de S:
1
100,16
IR1 = ___________ = ___________ = 0,992
101,00
1 + 2
2
0,84
IR2 = ___________ = ___________ = 0,008
1 + 2
101,00
O primeiro componente principal (Y1) explica 99,2% da variao total.
b) A partir de R:
1
1,40
IR1 = _______ = _______ = 0,70
p
2,00
2
0,60
IR2 = _______ = _______ = 030
p
2,00
O primeiro componente principal (Y1), neste caso, explica 70% da variao total.
Os coeficientes de correlao entre Yi e as variveis X1 e X2, so:
a) A partir de S:
111 [1 ]
0,040 [100,16]
121 [1 ]
0,999 [100,16]
112 [2 ]
0,999 [0,840]
122 [2 ]
-0,040 [0,840]
Y1,X1 = ____________ = _____________________ = 0,400

[11 ]
[1,0]
Y1,X2 = ____________ = _____________________ = 0,998

[100]
[22 ]
Y2,X1 = ____________ = _____________________ = 0,916

[11 ]
[1,0]
Y2,X2 = ____________ = _____________________ = -0,004

[22 ]
[100]
13
b) A partir de R:
Y1,Z1 = 111 [1 ] = 0,707 [1,4] = 0,837
Y1,Z2 = 121 [1 ] = 0,707 [1,4] = 0,837
Y2,Z1 = 112 [2 ] = 0,707 [0,6] = 0,548
Y2,Z2 = 122 [2 ] = -0,707 [0,6] = -0,548
Da aplicao 2, pode-se concluir que a varivel X2 praticamente domina o primeiro
componente principal, quando este determinado a partir de S, em que o primeiro
componente principal (Y1) explica 99,2% da variao total. Quando as variveis X1 e X2 so
padronizadas, no entanto, as duas variveis contribuem igualmente, e o primeiro componente
principal explica 70% da variao total.
O presente exemplo demonstra que os componentes principais derivados a partir de S
so diferentes daqueles derivados a partir de R. Um grupo de componentes principais no
uma simples funo do outro. Isto sugere que a padronizao no inconseqente.
Assim, variveis podem ser padronizadas se elas possuem medidas ou escalas muito
diferentes ou as unidades de medida so incomesurveis.
2.6. Sumarizao da Variao Amostral por Componetes Principais
Embora p-componentes principais sejam necessrios para reproduzir a variabilidade
total do sistema, a viabilidade de utilizao da tcnica de componentes principais reside na
possibilidade de resumir o conjunto de variveis originais em poucos componentes. Nestas
condies, esta tcnica proporcionar uma simplificao considervel nos clculos estatsticos
e na interpretao dos resultados com relao aos demais mtodos altenativos, principalmente
quando o nmero de indivduos avaliados for relativamente grande.
Assim, se os primeiros componentes principais acumularem uma porcentagem
relativament alta da variao total, em geral referida como acima de 80%, eles explicaro
satisfatoriamente a variabilidade manifestada entre os indivduos avaliados e, portanto, o
fenmeno poder ser interpretado com considervel satisfao. Segundo CRUZ e REGAZZI
(1994), em estudos da divergncia gentica, em geral, tm optado pela representao grfica
quando os dois primeiros componentes principais envolvem pelo menos 70 a 80% da variao
total. Nos casos em que este limite no alcanado nos dois primeiros componentes, a anlise
complementada pela disperso grfica em relao ao terceiro e quarto componente.
2.7. Descarte de Variveis
Em certos estudos, quando o nmero de variveis muito grande, procura-se descartar
aquelas de poucas relevncia na discriminao do material avaliado, reduzindo, assim, mode-obra, tempo e custo despendido na anlise e interpretao dos dados experimentais.
Em estudos de divergncia gentica, caracteres dispensveis so aqueles relativamente
invariantes entre as espcies/clones estudados,e, ou, redundantes, por estarem correlacionados
com outros caracteres (CRUZ & REGAZZI , 1994). Segundo ADANS e WIERSMA (1978),
citado por CRUZ e REGAZZI (1994), os caracteres a serem preservados na anlise de
14
divergncia gentica devero ser apenas aqueles que representam a estrutura fundamental do
sistema biolgico que est sendo estudado, devendo ainda serem suficientemente diversos
para representarem, no mnimo, as dimenses mais importantes do sistema.
Uma das tcnicas de descartes de variveis aquela citada por MARDIA et al. (1979)
e CRUZ e REGAZZI (1994), em que baseia-se no princpio de que a importncia relativa dos
componentes principais decresce do primeiro para o ltimo; assim, tm-se que os ltimos
componentes so responsveis pela explicao de uma frao mnima da varincia total
disponvel. Desta forma, segundo estes autores, a varivel que apresentam maior coeficiente
de ponderao (elemento do autovetor) no componente de menor autovalor, considerada de
menor importncia para explicar a variabilidade do material estudado, sendo, portanto,
possvel de descarte.
Este princpio de descarte de variveis consistente com a notao que considera que
um componente com um pequeno autovalor de pouca importncia e, consequentemente, a
varivel que domina este deve ser de pequena importncia ou redundante.
Segundo recomendaes de JOLLIFFE (1972, 1973), MARDIA et al. (1979) e CRUZ
e REGAZZI (1994) tem sido comum descartar a varivel de maior coeficiente de ponderao
(em valor absoluto) a partir do ltimo componente at aquele cujo autovetor no excede a
0,70 (vlido para dados padronizados). Quando em um componente de menor varincia, o
maior coeficiente de ponderao est associado a uma varivel j previamente descartada,
tem-se optado por no fazer nenhum outro descarte com base nos coeficientes daquele
componente, mas prosseguir a identificao da importncia relativa das variveis no outro
componente de varincia imediatamente superior.
Uma variao deste mtodo de descarte de variveis, segundo MARDIA et al. (1979),
consiste a cada estgio de descarte da varivel associada com o componente de menor
autovalor, refazer a anlise de componentes principais com as variveis remanescentes. Este
processo conduzido at que todos os componentes principais tenham autovalores altos.
2.8. Anlises de Componentes Principais e Anlise de Agrupamento
O uso dos componentes principais na reduo do nmero dedimenses de uma matriz
permite a apresentao grfica. Assim, quando os primeiros componentes explicam a maior
parte da variao do sitema em estudo, estes podem ser representados graficamente e apresentar uma importante aplicao em conexo com a anlise de agrupamento (MARDIA et al.,
1979; MARRIOT, 1974).
Segundo CRUZ e REGAZZI (1994), um dos objetivos do uso dos componentes
principais em estudo sobre a divergncia gentica avaliar a dissimilaridade dos gentipos,
clones, etc., em grficos de disperso, em que tem os primeiros componentes como eixo de
referncia. Este procedimento satisfatrio quando os odis primeiros componentes utilizados
como eixo do sistema cartsiano envolvem uma frao considervel da variao total,
normalmente citada como acima de 70 a 80%. Nos casos em que o limite no atingido com
os dois primeiros componentes, a anlise complementada com a disperso grfica em
relao ao terceiro e quarto componente.
MARRIOT (1974) comenta que uma das dificuldades na anlise de agrupamento,
utilizando mtodos numricos, com relao a deciso da diviso de um conjunto de
observaes em grupos. Em alguns casos, mtodos visuais so mais eficientes do que os
baseados em valores numricos. Assim, grficos de disperso provenientes dos componentes
principais podem auxiliar a anlise de agrupamento em vrios sentidos. Em primeiro lugar,
como forma particular de anlise de agrupamento, ou seja, naquelas situaes em que os
grupos so claramente definidos e bem separados, um mtodo analtico elaborado, neste caso,
15
usualmente desnecessrio. Pode mostrar que uma tcnica particular de agrupamento no

apresenta resultados satisfatrios, sugerindo assim, alternativas. Finalmente, se testes de
significncia no so possveis, a representao grfica por componentes principais confirma
os agrupamentos sugeridos pelos mtodos numricos.
Segundo CRUZ e REGAZZI (1994), como nesta tcnica feita uma simplificao do
espao n-dimensional para o bi ou tri-dimensional, h certas distores nas distncias.
Entretanto, h entre as estimativas das distncias euclideanas baseadas nos escores dos
primeiros componentes principais e as distncias Euclideanas baseadas nos dados originais,
uma relao matemtica dada por:
=
dcp2ii
____________________
n d
para
i < i.
ii
em que:
dcp2ii = quadrado da distncia Euclidiana estimada a partir dos escores de n1 componentes
principais;
2
d ii = quadrado da distncia Euclidiana mdia estimada a partir das n variveis originais.
Assim, segundo estes autores, o parmetro (1 - ) mede o grau de distoro
proporcionado pela tcnica dos componentes principais, ao se passar do espao n-dimensional
para o n1-dimensional (n1 < n).
Nos casos em que a disperso grfica no prov informaes adequadas sobre o grau
de similaridade dos indivduos estudados, CRUZ (1990) comenta que certos autores tm
utilizado os escores dos primeiros componentes principais para o clculo da distncia
Euclideana, valendo-se, para esse fim, da propriedade de independncia entre tais componentes. Tal procedimento , muitas das vezes, utilizado para complementar as informaes da
disperso grfica, em virtude de permitir o estabelecimento de grupos de maneira menojs
subjetiva do que aquela que se verifica em exames visuais. Maiores detalhes sobre a utilizao
combinada das duas tcnicas (componentes principais e conglomerao) em estudos sobre
divergncia gentica so encontrados em ADANS e WIERSMA (1978).
APLICAO 3
Caso base em dados de um teste de prognies de Eucalyptus sp., em que foram
avaliadas 10 caractersticas (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10) em 10 prognies, num
delineamento em blocos ao acaso com quatro repeties e seis plantas por parcela, realizou-se
a anlise por componentes principais. A seguir so apresentados as matrizes de mdias,
varincia, covarincia e de correlaes.
16
Quadro 1 Mdias dos Dados Originais das 10 Prognies em Relao a 10 caractersticas

(X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10)
Prog.
1
2
3
4
5
6
7
8
9
10
X1
10.7542
10.3417
11.2625
10.3583
9.8083
10.2292
9.6042
9.5208
11.6333
10.4292
X2
0.6708
0.6000
0.6750
0.6083
0.5542
0.6833
0.6500
0.5833
0.7458
0.6792
X3
16.4708
17.0833
17.0250
16.7542
15.9250
16.6208
15.7333
15.8167
16.6833
15.7208
X4
12.8417
13.0708
13.2875
13.1375
11.6000
13.0708
11.5958
11.6208
12.9125
11.7958
Caractersticas
X5
X6
0.0750 0.0575
0.0731 0.0556
0.0832 0.0649
0.0768 0.0587
0.0616 0.0480
0.0691 0.0525
0.0621 0.0479
0.0579 0.0439
0.0954 0.0736
0.0687 0.0527
X7
0.0175
0.0175
0.0184
0.0181
0.0136
0.0167
0.0142
0.0140
0.0218
0.0161
X8
0.4786
0.4791
0.5509
0.5230
0.4943
0.4953
0.5147
0.4950
0.4924
0.4803
X9
0.3659
0.3647
0.4274
0.3975
0.3846
0.3750
0.3939
0.3758
0.3769
0.3674
X10
0.1559
0.1513
0.1842
0.1475
0.1244
0.1402
0.1201
0.1169
0.1979
0.1422
Quadro 2 Mdias Padronizadas das 10 Prognies em Relao a 10 Caractersticas (X1, X2,

X3, X4, X5, X6, X7, X8, X9 e X10)
Prog.
1
2
3
4
5
6
7
8
9
10
X1
15,78
15,17
16,52
15,19
14,39
15,01
14,09
13,97
17,07
15,30
X2
11,66
10,43
11,73
10,57
9,63
11,87
11,29
10,14
12,96
11,80
* Padronizao : Z i =
X3
30,73
31,87
31,76
31,26
29,71
31,01
29,35
29,51
31,12
29,33
X4
17,47
17,78
18,08
17,88
15,78
17,78
15,78
15,81
17,57
16,05
Caractersticas
X5
X6
06,69
06,54
06,52
06,32
07,42
07,38
06,85
06,68
5,50
5,36
06,17
05,97
05,54
05,45
05,17
04,99
08,51
08,37
06,13
05,99
X7
07,04
07,04
07,41
07,28
5,55
06,72
05,71
05,63
08,77
06,48
X8
20,82
20,84
23,97
22,75
21,47
21,55
22,39
21,54
21,42
20,89
X9
19,03
18,97
22,23
20,68
19,23
19,51
20,49
19,55
19,60
19,11
X10
05,90
05,73
06,98
05,59
4,71
05,31
04,55
04,43
07,49
05,38
Xi
______ .
i
Quadro 3 Matriz de Varincias e Covarincias Entre as Variveis originais

0,4646
0,0291
0,0033
0,2361
0,0730
0,2872
0,3507
0,0171
0,3772
0,5401
0,0074
0,0005
0,0142
0,0061
0,0001
0,0058
0,0004
0,0032
0,0046
0,0001
0,00008
17
0,0016
0,0026
0,0025
0,0178
0,0001 0,00004 0,000009
0,0011
0,0009
0,0034
0,0025
0,0099
0,0014
0,0044
0,0030
0,0141
0,00003 0,00005 0,00005
0,0003
0,00002 0,00005 0,00004 0,00006
0,000006 0,000006 0,000004 0,000006
0.00053
0,0004
0,0001
0,0004
0,0001
0,0007
Quadro 4 Matriz de Correlao entre Variveis Originais

1,0
0,7419
0,6462
0,7000
0,9626
0,9663
0,9263
0,1668
0,1932
0,9885
1,0
0,2391
0,4050
0,7043
0,6992
0,7097
0,0295
0,0081
0,7032
1,0
0,9577
0,6977
0,6835
0,7294
0,2726
0,2418
0,7035
1,0
0,7365
0,7176
0,7860
0,2619
0,2112
0,7263
1,0
0,9983
0,9785
0,2060
0,2087
0,9768
1,0
0,9647
0,2352
0,2457
0,9803
1,0
0,1012
0,0768
0,9395
1,0
0,9857
0,2279
1,0
0,2485
1,0
Baseado na teoria descrita anteriormente sobre componentes principais, os autovalores

e autovetores associados so apresentados a seguir (Quadro 5). Estes foram obtidos a partir da
matriz de correlao entre as caractersticas originais (R) (ou matriz de covarincias entre as
caractersticas padronizadas).
A obteno destes autovalores e autovetores associados por um processo manual
impraticvel. Desta forma, utilizou-se o Software GENES.
Quadro 5 Componentes Principais Obtidos da Anlise de 10 Caractersticas (X1, X2, X3,

X4, X5, X6, X7, X8, X9 e X10)
Varincia
Componente
Principal Autovalor Acumul.
(%)
Y1
6,6879
66,88
Y2
1,9454
86,33
Y3
0,9508
95,79
Y4
0,2950
98,84
Y5
0,0849
99,64
Y6
0,0255
99,87
Y7
0,0099
99,99
Y8
0,0003
99,99
Y9
0,00009
99,99
Y10
0,00002 100,00
Coeficiente de Ponderao Associado (Autovetores)

X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
0,3713
-0,0862
-0,1511
-0,1973
-0,5509
-0,4299
0,1078
0,4077
-0,3560
-0,0029
0,2715
-0,2067
-0,5276
0,7308
-0,0580
0,2392
-0,0855
0,0557
-0,0092
-0,0047
0,3041
0,0954
0,6051
0,1132
-0,1532
0,6111
-0,0135
0,2788
-0,2113
0,0002
0,3218
0,0537
0,4980
0,4413
-0,0238
-0,5532
-0,1496
-0,2880
0,1968
0,0008
0,3788
-0,0639
-0,0863
-0,2375
0,3027
0,0263
-0,2984
-01295
-0,1537
-0,7529
0,3778
-0,0406
-0,1151
-0,2799
0,2162
0,0539
-0,5076
-0,1633
-0,1377
0,6411
0,3728
-0,1411
0,0137
-0,0621
0,5664
-0,0943
0,4868
0,4069
0,3015
0,1175
0,1117
0,6752
-0,1405
0,1362
0,2195
-0,0505
0,3609
-0,2360
-0,5032
0,0589
0,1090
0,6744
-0,1838
-0,0554
-0,1465
0,0272
-0,2933
0,3195
0,5305
-00686
0,3778
-0,0398
-0,1012
-0,2432
-0,3746
0,2501
0,3981
-0,5507
0,3488
0,0057
No Quadro 3, pode-se constatar numericamente que:

i = Var (Yi) = Trao R = 10
i
a21 = 1 e aj bj =
j
18
Os resultados apresentados no Quadro 5 evidenciam que o primeiro componente

principal (Y1) explica 66,88% da variao total disponvel. Os dois primeiros componentes
principais (Y1 e Y2) explicam 86,33% e os trs primeiros (Y1, Y2 e Y3) explicam 95,84% da
varincia total disponvel. Portanto, para o presente exemplo, a tcnica de componentes
principais sumariza muito bem a variao total disponvel dos dados amostrais pelo trs
primeiros componentes principais.
Assim, a utilizao destes componentes no estudo de divergncia gentica por meio da
disperso dos escores em grficos cujos eixos so os referidos componentes (Y1 e Y2),
apresentar resultados satisfatrios.
Em estudos que utilizam a tcnica dos componentes principais como meio de descartes
de variveis com a finalidade de reduo de mo-de-obra, tempo e custo despendido na
anlise e interpretao dos dados experimentais, a importncia relativa das caractersticas
pode ser avaliada pela magnitude do coeficiente de ponderao destas. Assim, com base em
MARDIA et al. (1978) e CRUZ e REGAZZI (1994), para o presente exemplo, identifica-se,
em ordem crescente, os caracteres X5, X10, X6, X3, X7 e X2, com maiores pesos em Y10
(-0,7529), Y9 (0,5305), Y8 (-0,5507), Y7 (-0,5076), Y6 (0,6111), Y5 (0,5664) e Y4 (0,7308),
respectivamente, como os de menores importncia no estudo realizado, so possveis de
descarte.
No exemplo em considerao, o descarte de X2, X3, X5, X6, X7 e X10 minimizado
pela presena de X1 e X4, cujas correlaes entre estas so altas (ver matriz de correlaes
entre variveis originais). O descarte da varivel X9 minimizado pela presena de X8, cuja
correlao com X9 de 0,9857.
Os escores relativos a cada prognie, em cada componente, estimado com base nas
informaes do Quadro 2 (mdias padronizadas das 10 prognies em relao as 10
caractersticas X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10) e do Quadro 5 (componentes
principais obtidos da anlise de 10 caractersticas X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10).
Assim, tem-se:
Y11 = 0,3713 (15,78) + 0,2715 (11,66) + 0,3041 (30,73)
+ 0,3218 (17,47) + 0,3788 (6,69) + 0,3778 ( 6,54) +
+ 0,3728 (7,04) + 0,1117 (20,82) + 0,1090 (19,03) +
+ 0,3778 (5,90)
Y11 = 38,2770
Os demais escores encontram-se no Quadro 6.

A disperso destes escores em eixos cartesianos apresentada na Figura 2.
Com base na Figura 2, observa-se que, em relao aos caracteres considerados, as
prognies 1, 2, 6 e 10 e as prognies 5, 7 e 8 so as mais similares, havendo, entretanto,
considervel divergncia entre as prognies 3, 4 e 9.
As distncias grficas podem se estimadas pelas distncias Euclideanas:
dcpii = [(Yi1 - Yi1)2 + (Yi2 - Yi2)2]
19
Quadro 6 Escores Relativos a 10 Prognies, Obtidos em Relao aos Dois Primeiros

Componentes Principais
Gentipos
1
2
3
4
5
6
7
8
9
10
Y1
38,2570
37,9302
40,8988
38,5141
34,6232
37,5891
35,0461
34,1564
41,9986
36,4273
Y2
25,0736
25,5050
29,2319
27,7958
26,9303
26,9303
27,4731
26,5848
25,0295
25,1353
Figura 2 Disperso de 10 Prognies em Relao aos Dois Primeiros Componentes

Principais (Y1 e Y2).
20
Por esta expresso so obtidas as medidas de dissimilaridade, que so apresentadas no

Quadro 7. Como ilustrao obtida a estimativa de dcp1,2:
dcp1,2 = [ (38,2570 - 37,9302)2 + (25,0736 - 25,5050)2]
dcp1,2 = 0,5412
Quadro 7 Dissimilaridade entre Gentipos, com Base na Distncia Euclideana, Obtida de
Escores dos Dois Primeiros Componentes Principais
0,5412
4,9265
2,7343
4,0807
1,2030
4,0083
4,3702
3,7419
1,8307
4,7647
-
2,3640
2,7837
3,6011
6,6843
0,6635
4,5745
3,4915
6,1111
3,9252
7,2434
4,0961
4,3439
1,5477
6,0644
3,9860
1,9544
3,4828
4,5228
4,4491
3,3813
3,0870
0,6882
0,5808
7,6164
2,5450
2,9022
3,4705
4,5315
1,4937
1,2574
7,3692
2,7152
7,9949
2,6941
5,5723
-
3. VARIVEIS CANNICAS
3.1. Introduo
A anlise de variveis cannicas uma tcnica multivariada cujo procedimento foi
relatada por Fischer (1936). Posteiormente, desenvolvida por vrios outros autores nas diversas reas da cincia, tais como M.S. Batlet, P. C. Mahalanobis e C. R. Rao, citadas por
CAMPBELL e ATCHLEY (1981), para examinar alguns problemas significantes relativos
sistemtica biolgica. Mais recentemente, CRUZ e REGAZZI (1994), descreveram a referida
tcnica na utilizao em estudos de divergncia gentica, com propsito de identificao de
grupos similares no espao bi ou tridimensional.
Segundo CRUZ e REGAZZI (1994), a anlise multivariada com base em variveis
cannicas, trata-se de um processo alternativo para a avaliao do grau de similaridade entre
acessos que leva em considerao tanto a matriz de covarincia residual quanto a covarincia
entre mdias fenotpicas dos caracteres avaliados.
As variveis cannicas so combinaes lineares das variveis originais, sendo
determinadas de tal modo que a variao entre grupos maximizada em relao variao
dentro de grupos. A semelhana da anlise de componentes principais, espera-se que a
configurao do grupo possa ser adequadamente representada em um sub-espao bi ou
tridimensional pelos primeiros dois ou trs vetores cannicos (Campbell e Atechley, 1981,
citados por LIBERATO, 1995).
21
Assim, a viabilidade do uso das variveis cannicas em estudo nas diversas reas da
cincia, em grficos de disperso, tambm est restrita concentrao da variabilidade
disponvel entre as primeiras variveis.
A semelhana da anlise de componentes principais, a tcnica de anlise cannica
pode atender a vrios propsitos, tais como:
a) Examinar as correlaes entre caracteres estudados;
b) Resumir um conjunto de caracteres em outro de menor dimenso e de sentido
interpretvel;
c) Avaliar a importncia de cada caracter e promover a eliminao daqueles que comtribuem pouco, em termos de variao, no grupo de amostras em estudo;
d) Construir ndices que possibilitem o agrupamento de amostras ou populaes;
e) entre outros.
CAMUSSI et al. (1985) relata que as transformaes para variveis cannicas permitem a visualizao tima de diferenas entre populaes, pela reduo de dimenses que
preserve a maioria das informaes biolgicas. um mtodo de ordenao cujo objetivo
avaliar o grau de similaridade entre materiais experimentais, considerando tanto a matriz de
varincias e covarincias residuais quanto a matriz de varincias e covarincias entre mdias
fenotpicas dos caracteres avaliados, ou seja, a anlise s empregada nas situaes em que
existem dados provenientes de delineamentos experimentais.
Esta tcnica, diferentemente da anlise de componentes principais, considera as
possveis diferenas na disperso sobre as mdias. Desta forma, esta tcnica apresenta
vantagem de manter o princpio da Anlise de Agrupamento, utilizando a distncia de
Mahalanobis, qual seja a de considerar as correlaes residuais existentes entre a mdia dos
tratamentos. Tambm, esta tcnica, possui estreita relao com a anlise de funo
discriminante linear e com a distncia de Mahalanobis.
Em resumo, a utilizao de anlise cannica tem por finalidade bsica, a de proporcionar uma simplificao estrutural de dados, de modo que a diversidade influenciada a
princpio por um conjunto p-dimensional ( p = no de caracteres considerados no estudo), possa
ser avaliada por um complexo bi ou tridimensional de fcil interpretao geomtrica.
Os princpios bsicos dessa tcnica so descritos por vrios autores, tais como
MARDIA et al. (1979); CHATFIELD e COLLINS (1986); JOHNSON e WICHERN (1988);
CRUZ e REGAZZI (1994), entre outros. Segundo esses autores, devido normalmente as
variveis em estudo possuirem diferentes escalas, na utilizao desse procedimento comum
a transformao das variveis originais em variveis padronizadas e no-correlacionadas, de
modo que a matriz de disperso residual se iguala a identidade. A transformao comumente
utilizada tem sido o processo de condensao pivotal descrito por RAO (1952) e exemplificado por SINGH e CHAUDHARG (1979), bem como por CRUZ e REGAZZI (1994). Aps
a transformao, o processo de estimao das variveis cannicas equivale ao descrito para as
componentes principais.
Semelhante tcnica de componentes principais, a anlise cannica est se difundindo
nas diversas reas da cincia devido a disponibilidade de recursos computacionais e de
software aplicados atualmente existentes. Entretanto, uma das grandes dificuldades ainda
encontrada a exigncia de alguma experincia sobre anlise multivariada.
3.2. Obteno das Variveis Cannicas
A tcnica de variveis cannicas , semelhana dos componentes principais, consiste
em transformar o conjunto de n variveis originais em um novo conjunto, as variveis
cannicas.
22
Seja Xij a mdia da j-sima caracterstica (j = 1,2,....,p) avaliada na i-sima populao

ou amostra (i = 1,2,...,n), tal que as seguintes propriedades so verificadas:
a) Se Yj uma varivel cannica, ento, Yj uma combinao linear de Xs.
Yj = a1X1 + a2X2 + ... + apXp
b) Se Yj uma outra varivel cannica, ento:
Yj = b1X1 + b2X2 + ... + bpXp
p
e ainda:
ajaj jj
j=1 j=1
p
bjbj jj = 1
j=1 j=1
ajbj jj = 0
j=1 j=1
em que jj a covarincia residual entre as caractersticas j e j.

c) Dentre todas as variveis cannicas, Y1 apresenta a maior varincia, Y2 a segunda
maior e assim sucessivamente, ou seja:
2 (Y1) > 2 (Y2) > . . . > 2 (Yp)
A propriedade (b) garante a ponderao da influncia das varincias e covarincias
residuais sobre as estimativas dos coeficientes de cada caracterstica, bem como a independncia entre estas variveis.
Desta forma, fundamentalmente a tcnica de variveis cannicas semelhana da
tcnica de componentes principais, consiste em transformar um conjunto de p variveis X1,
X2, . . . , Xp, pertencentes a n amostras ou populaes em um novo conjunto de variveis Y1,
Y2, . . . , Yp, as quais sejam funo linear das Xs e independentes entre si. Vale salientar que
o nmero de variveis cannicas obtidas (Y1, Y2, . . . , Yp) igual ao nmero de variveis
originais.
Assim, segundo RAO (1952) e CRUZ e REGAZZI (1994), o problema estatstico
consiste fundamentalmente em estimar os coeficientes de ponderao das caractersticas em
cada varivel cannica e as suas respectivas varincias. Assim, segundo estes autores, estas
estimativas podem ser obtidas pela soluo do sistema:
(T - jE) j =
em que a j-sima varincia dada pelo autovalor de ordem correspondente, obtido pela
soluo de:
det [T - jE] = 0
em que:
j = autovetor associado a cada estimativa dos autovalores de E-1 T, cujos elementos so os
coeficientes de ponderao dos caracteres para estabelecimento das variveis cannicas;
23
j = autovalores da matriz E-1 T;

T = matriz de covarincias entre as mdias das amostras ou populaes avaliadas; e
E = matriz de covarincias residuais.
As matrizes T e E so simtricas. Entretanto, o produto de ambas (E-1T) no uma
matriz simtrica. Assim, dada a complexidade de clculo das razes caractersticas de uma
matriz assimtrica, tem sido recomendado a utilizao de dados transformados atravs da
condensao pivotal, conforme descrito por RAO (1952) e mais recentemente por CRUZ e
REGAZZI (1994). Esta tcnica consiste em justapor, direita da matriz de disperso que se
est operando, a matriz-identidade. Posteriormente, transforma-se por operaes nas linhas, os
elementos de cada coluna, de tal forma que ela tenha 1 na linha diagonal e zeros abaixo da
diagonal, ou seja, obtida uma matriz triangular superior em um processo sistemtica. Este
processo tem a vantagem de proporcionar novas variveis que apresentam covarincias
residuais nula e varincias residuais igual a unidade.
Assim, as varincias originais Xj so transformadas pelo processo de condensao
pivotal, em variveis padronizadas Zj, com matriz de varincias e covarincias em amostras
ou populaes igual a T* e a matriz de varincias e covarincias residuais igual matriz
identidade I . Desta forma, a determinao dos autovalores de T* dada pela equao:
det (T* - I) = 0
Obtendo-se, assim, as varincias das j-simas variveis cannicas. Os autovetores da matriz
T* correspondem aos da matriz E-1T, so obtidos pela soluo da seguinte equao:
(T* - jI) j = 0
onde:
j = a raiz caracterstica que corresponde varincia da j-sima varivel cannica;
j = vetor de coeficientes da j-sima varivel cannica, estabelecido com as
variveis transformadas por condensao pivotal.
Desta forma, observa-se que o processo de estimao torna-se idntico ao descrito
para os componentes principais.
Uma vez estimados os coeficientes j, os coeficientes aj, associados s variveis
originais, podem ser calculados por meio de:
[ a1 a2 . . . an ] = [ 1 2 . . . n ] V
onde: V = matriz n x n de transformao, obtida pelo processo de condensao pivotal.
Alm disso, segundo CRUZ e REGAZZI (1994) , dada as inferncias serem feitas em
relao s variveis originais padronizadas, necessrio ainda eliminar os efeitos de escala de
mensurao. Assim, os coeficientes ajs so multiplicados pelo desvio padro do erro
experimental, de modo que:
j xj = aj j [Xj /j-]
Logo: j = aj j (j = desvio padro residual)
24
3.3. Importncia Relativa de uma Varivel Cannica

A importncia relativa de cada varivel cannica (IRk), semelhana de componentes
principais, tambm dada pela razo entre a varincia por ela explicada e o total da varincia
disponvel, ou seja, a proporo da variao total explicada pela k-sima varivel cannica
dada pela expresso:
k
IRk = _______________________
1 + 2 + . . . + p
k = 1, 2, ..... , p
ou ainda, a proporo da variao total explicada pelas primeiras k variveis cannicas (PVks)
dada por:
PVks =
1 + 2 + . . . + k
_______________________
k = 1, 2, ..... , p
1 + 2 + . . . + p
Assim, verifica-se que a proporo da variao total explicada pelas primeiras

variveis cannicas uma medida da quantidade de informao retida pela reduo de p para
k dimenso.
Na maioria dos estudos, desejvel que a varincia acumulada nas duas primeiras
variveis cannicas exceda 70-80%. Nesta condio, nos casos de estudo por meio das
distncias geomtricas entre amostras ou populaes em grficos de disperso, cujas coordenadas so escores relativos s primeiras variveis cannicas, as interferncias so tidas
satisfatrias.
Assim, embora p-variveis cannicas sejam necessrias para reproduzir a variabilidade
total do sistema, a viabilidade de utilizao da referida tcnica reside na possibilidade de
resumir o conjunto de variveis originais em poucas variveis cannicas. Nestas condies,
esta tcnica proporcionar uma simplificao considervel nos clculos estatsticos e na
interpretao dos resultados com relao aos demais mtodos alternativos, principalmente
quando o nmero de variveis avaliadas foram relativamente grande.
3.4. Descarte de Variveis
Nos casos em que o nmero de variveis muito grande, procura-se descartar aquelas
de pouca relevncia na discriminao do material avaliado, reduzindo, assim, mo-de-obra,
tempo e custo despendido na anlise e interpretao dos dados experimentais.
A semelhana do procedimento descrito em componentes principais sobre descarte de
variveis, a identificao de caractersticas de menor importncia em certos estudos tem sido
aquelas cujos coeficientes de ponderao, obtidos com a padronizao das variveis, so de
maior magnitude, em valor absoluto, nas ltimas variveis cannicas. Assim, segundo
recomendaes de diversos autores (JOLLIFE, 1972/1973; MARDIA et al., 1979; CRUZ e
REGAZZI, 1994), tem sido comum descartar a varivel de maior coeficiente de ponderao
(em valor absoluto) a partir da ltima varivel cannica. Quando em uma varivel cannica de
menor varincia o maior coeficiente de ponderao est associado a uma caracterstica j
previamente descartada, tem-se optado por no fazer nenhum outro descarte com base nos
coeficientes daquela varivel cannica, mas prosseguir a identificao da importncia relativa
das caractersticas na outra varivel de varincia imediatamente superior.
25
Uma das questes bsicas nas diversas reas da cincia diz respeito ao nmero e tipo
de caractersticas a serem avaliadas. No existem bases tericas para determinar o nmero de
caractersticas a serem medidas. Assim, tem sido relatado, no melhoramento vegetal, que os
caracteres importantes para adaptao e seleo natural so mais apropriados e devem ser
escolhidos para os estudos de divergncias e agrupamento (ARUNACHALAM, 1981 e
CRUZ e REGAZZI, 1994). ADAMS e WIERSMA (1978) acrescenta ainda que as caractersticas a serem preservadas nesta anlise devero ser aquelas que representam a estrutura
fundamental do sistema biolgico que est sendo estudado, devendo ainda serem suficientemente diversos para representar, no mnimo, as dimenses mais importantes do sistema.
Assim, quando o nmero de caractersticas utilizadas num estudo torna-se elevado, possvel
que muitas delas pouco contribuam para a discriminao das amostras ou populaes avaliadas, por serem relativamente invariantes entre estas ou por serem redundantes em virtude de
serem altamente correlacionadas com outras caractersticas. Esta situao apresenta como
conseqncia aumento no trabalho de caracterizao, sem melhoria na preciso, alm de
tornar mais complexa a anlise e interpretao dos dados. Portanto, a eliminao das caractersticas redundantes e de difcil mensurao torna-se desejvel, afim de facilitar o estudo,
reduzindo tempo e custo da experincia (Pereira, 1989, citado por Liberato, 1995). Desta forma, a reduo do nmero de caractersticas, com eliminao daqueles que menos contribuem
para o estudo, deve facilitar as interpretaes sem causar perda considervel de informaes.
CRUZ e REGAZZI (1994) comentam que os caracteres dispensveis em estudo de
divergncia gentica so aqueles relativamente invariantes entre os indivduos estudados, so
fortemente afetados pelo ambiente, apresentam instabilidade com a mudanas ambiental ou
so redundantes por estarem correlacionados com outros caracteres. Portanto, as variveis
selecionadas e descartadas devem apresentar correlaes significativas entre si, ou seja, as
variveis descartadas devem ser redundantes (ser responsveis pelo mesmo tipo de informaes j contidas nas variveis selecionadas).Por outro lado, as variveis selecionadas devem
ter baixas correlaes entre si. De forma tal que cada varivel preservada na anlise ser
responsvel por um tipo de informao biolgica exclusiva e a ao conjunta das mesmas ser
complementar para a descrio geral dos indivduos ou populaes estudadas.
Em resumo ao se realizar o descarte de variveis atravs da varivel cannicas,
conforme procedimento descrito, os comentrios feitos anteriormente devero ser considerados, de forma tal que as caractersticas descartadas no proporcione perdas significativas
nas interpretaes e concluses no estudo em questo.
3.5. Anlise de Variveis Cannica e Anlise de Agrupamento
Quando as primeiras variveis cannicas explicam a maior parte da variao do sistema em estudo, estas podem ser representadas graficamente e apresentar uma importante
aplicao em conexo com a anlise de agrupamento. Este procedimento satisfatrio quando
as duas primeiras varveis cannicas utilizadas como eixo do sistema cartesiano envolvem
uma frao considervel da variao total, normalmente citada como acima de 70 a 80%. Nos
casos em que este limite no atingido, a anlise completada com a disperso grfica em
relao a terceira e quarta varivel cannicas. Com base nos escores das primeiras variveis
cannicas, estima-se a Distncia Euclidiana Mdia que expressa uma medida alternativa entre
aquela populao ou amostras.
Assim, nos casos em que a disperso grfica no prov informaes adequadas no
estudo, CRUZ (1990) comenta que certos autores tm utilizado os escores dos primeiras
variveis cannicas para o clculo da Distncia Euclidiana Mdia, valendo-se, para esse fim,
da propriedade de independncia entre tais variveis cannicas. Tal procedimento utilizado
como complementar as informaes da disperso grfica.
26
CRUZ e REGAZZI (1994) comentam que a eficcia de tal procedimento depende do

grau de distoro provoca nas distncias entre amostras ou populaes quando se passa do
espao n-dimensional para o n1-dimensional (n1 < n). Como as distncias grficas, em relao
a eixos que representam as primeiras variveis cannicas, so influenciadas pelas variaes
entre (varincias e covarincias entre as mdias das amostras ou populaes estudadas) e
dentro (varincias e covarincias residuais), pode-se quantificar o grau de distoro destas
distncias comparando o seu total com o total das distncias generalizadas de Mahalanobis,
ou seja:
Grua de distoro = 1 -
d2vcii
onde:
i < i
=
.
________________
D2ii
i < i
em que:
d2vcii = quadrado da distncia Euclidiana estimada a partir dos escores de n variveis
cannicas;
2
D ii = distncia generalizada de Mahalanobis estimada a partir de n variveis
originais.
APLICAO 4
Utilizando os mesmos dados da aplicao 3, ou seja, com base em dados de um teste
de prognies de Eucalytus sp., em que foram avaliadas 10 caractersticas (X1, X2, X3, X4, X5,
X6, X7, X8, X9 e X10) em 10 prognies, num delineamento em bloco ao acaso com quatro
repeties, e seis plantas por parcela, realizou-se a anlise por variveis cannicas. Dado o
volume de clculos, utilizou-se do programa GENES (DBG/UFV) para realizaes das
operaes envolvidas, sendo apresentado, portanto, s as tabelas com os resultados finais de
cada etapa envolvida.
Assim, baseado na teoria descrita sobre variveis cannicas, os autovalores (varincias) e autovetores associados (coeficientes de ponderao) so apresentados no Quadro 9.
Estes foram obtidos a partir de dados transformados atravs de condensao pivotal.
Os resultados apresentam no Quadro 8 evidenciam que a primeira varivel cannica
(VC1) explica 68,7% da variao total disponvel. As duas primeiras variveis cannicas (VC1
e VC2) explicam 83,3% e as trs primeiras (VC1, VC2, VC3) explicam 92,6% da varincia
total disponvel. Portanto, como as duas primeiras variveis cannicas explicam mais de 80%
da variao total disponvel das variveis Zs, sua utilizao na sumarizao dos dados, em
vrios estudos, considerada satisfatria.
Considerando as mdia do Quadro 8, estimam os escores associados s duas primeiras
variveis cannicas por meio da expresso.
VC1 = 0,0487(5,69) - 0,0865(-0,59) + 0,0988(7,43) + 0,0591(-7,13) + + 0,3888(6,95) = 23,6365
VC2 = 0,4954(5,69) - 0,1757(-0,59) + + 0,6877(6,95) = 1,2960
27
Quadro 8 Mdias das Variveis, Transformadas por Condensao Pivotal, para 10

Prognies
Prognie
1
2
3
4
5
6
7
8
9
10
Z1
5,69
5,47
5,96
5,48
5,19
5,41
5,08
5,04
6,15
5,52
Z2
-0,59
-0,93
-0,84
-0,87
-1,00
-0,19
-0,11
-0,61
-0,47
-0,34
Z3
7,43
8,05
7,62
7,81
7,44
7,76
7,37
7,47
7,22
7,02
Variveis
Z5
Z6
-17,13 1,16
-17,12 1,09
-17,12 1,59
-16,66 1,02
-16,66 1,52
-17,45 1,07
-16,09 1,58
-16,69 1,09
-15,40 1,53
-16,50 1,32
Z4
-7,13
-7,55
-7,40
-7,09
-7,72
-6,93
-7,39
-7,49
-7,42
-7,33
Z7
-10,40
-18,66
-18,60
-18,06
-18,25
-18,31
-17,44
-18,08
-17,32
-17,83
Z8
2,87
2,68
3,99
3,10
2,75
2,94
3,01
2,84
3,21
3,00
Z9
10,29
8,99
10,04
8,66
8,66
9,90
7,35
8,84
7,40
9,51
Z10
6,35
7,05
8,27
6,74
6,41
6,79
5,71
6,33
6,51
6,26
Quadro 9 Variveis Cannicas Obtidas da Anlise de Dez Variveis (Z1, Z2, Z3, Z4, Z5, Z6,
Z7, Z8, Z9 ,Z10) - Originadas da Transformao por Condensao Pivotal, das
Variveis Originais (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10)
Varincia
Variveis
AcuCannicas auto- mulada
valor
(%)
VC1
1,7477
68,7
VC2
0,3697
83,3
VC3
0,2382
92,6
VC4
0,1061
96,8
VC5
0,0523
98,4
VC6
0,0196
99,6
VC7
0,0089
99,9
VC8
0,0008
99,9
VC9
0,0001
99,9
VC10
0,00003 100,0
Coeficiente de Ponderao Associado

Z1
Z2
Z3
Z4
Z5
Z6
Z7
Z8
Z9
Z10
0,0487
0,4954
0,2634
0,1449
-0,4761
0,4639
0,1916
0,1161
-0,1883
-0,3665
-0,0865
-0,1757
0,3811
0,5081
0,3747
0,5095
-0,2412
0,0578
-0,0569
0,3056
0,0988
0,0033
-0,4890
0,3413
-0,1082
0,1028
0,4762
0,4613
0,2067
0,3605
0,0591
-0,0790
0,1732
0,5572
-0,2151
-0,3860
0,3337
-0,5689
-01091
0,0869
-0,4088
0,3139
0,2574
-0,2964
-0,2695
-0,0788
0,0141
-0,0198
-0,0343
0,7068
-0,0676
0,1874
0,1726
-0,2550
0,6049
0,1113
0,6793
-0,1457
-0,0031
-0,0668
-0,3099
0,0272
0,3660
0,1570
-0,0264
-0,2357
0,0168
0,2251
0,5773
-0,2225
0,0065
0,2631
0,1677
0,2101
0,2489
-0,5337
0,0660
0,5295
-0,4718
-0,0648
0,7069
-0,2024
0,4776
-0,2301
-0,1220
-0,0644
1,1021
0,1846
0,1172
0,2066
0,3888
0,6877
-0,1727
0,1383
0,2425
-0,0487
-0,3003
-0,2449
0,3091
0,1414
Os demais escores so apresentados no Quadro 10.

A disperso dos escores em relao s duas primeiras variveis cannicas
apresentada na Figura 3.
28
Quadro 10 Escores de 10 Prognies, Obtidos a Partir das Duas Primeiras Variveis

Cannicas
Prognies
1
2
3
4
5
6
7
8
9
10
VC1
23,6365
22,8450
24,0288
22,0968
22,1686
23,3911
20,1167
21,7708
20,2064
22,2647
VC2
1,2960
1,5319
2,6736
1,6199
1,2667
0,9518
1,1482
1,0663
2,5528
1,1476
Figura 3 Disperso de 10 Prognies em relao s Duas Primeiras Variaes Cannicas

(VC1 e VC2).
A distncia grfica entre cada par de prognies na Figura 3 dada pela distncia
Euclidiana:
dvci i = [(vci1-vci1)2 + (vci2 - vci2)2]
cujas estimativas so encontradas no Quadro 11. Como ilustrao, obtm-se dvc1,2 por meio
de:
dvc1,2 = [(23,6365 - 22,8450)2 + (1,2960 - 1,5319)2]
29
Quadro 11 Dissimilaridade entre Prognies, Baseada nas Distncias Euclidianas obtidas a

Partir dos Escores das Duas Primeiras Variveis Cannicas
Prognies
1
2
3
4
5
6
7
8
9
2
0,8259
3
1,4323
1,6446
4
1,5734
0,7533
2,2006
5
1,4682
0,7266
2,3323
0,3604
6
0,4227
0,7967
1,8361
1,4566
1,2624
7
3,5229
2,7551
4,1989
2,0355
2,0552
3,2802
8
1,8798
1,1707
2,7715
0,6424
0,4454
1,6242
1,6561
9
3,6531
2,8292
3,8243
2,1081
2,3461
3,5645
1,4074
2,1580
10
1,3798
0,6960
2,3325
0,5012
0,1530
1,1433
2,1479
0,5005
2,4922
Em estudos que utilizam a tcnica de varivel cannicas como meio de descartes de

variveis com a finalidade de reduo de mo-de-obra, tempo e custo despendido na anlise e
interpretao dos dados experimentais, a importncia relativa das caractersticas pode ser
avaliada pela magnitude dos coeficientes de ponderao destas. Entretanto, como no existe
relao direta entre variveis transformadas Zjs e as variveis originais (Xjs), necessrio,
para a avaliao da importncia relativa dos caracteres, a obteno do vetor a (vetor de
coeficiente de ponderao das variveis transformadas), comforme descrito na teoria
apresentada. Assim, no Quadro 12 so apresentadas as variveis cannicas e os respectivos
coeficientes de ponderao das variveis originais.
Quadro 12 Variveis Cannicas Estabelecidas pela Combinao Linear de 10 Variveis

Originais (X1, X2 , X3, X4, X5, X6, X7, X8, X9, e X10)
Variveis
Cannicas
VC1
VC2
VC3
VC4
VC5
VC6
VC7
VC8
VC9
VC10
X1
3,63
-0,47
0,57
-0,83
-0,33
0,13
-0,08
0,25
-0,78
-0,47
X2
-6,79
-2,90
4,55
4,09
3,66
3,54
1,30
1,17
-0,04
0,86
X3
-2,11
0,27
-1,97
-0,06
0,56
1,01
0,08
0,33
-0,58
-0,35
Coeficiente de Ponderao (aj) associado

X4
X5
X6
X7
X8
3,20 1025,55 -1720,55 -71,60 -200,31
-0,45
-22,75 778,67 -186,68
41,29
1,06 138,56 334,52 532,50 -118,74
0,38 -293,88 336,65
61,25
58,46
-0,30 -316,05 361,43 -31,80
28,87
-0,54 191,88 -155,46 -398,68
13,55
0,14 -212,60 279,69 126,83 -21,19
-0,29 -199,08 123,79 524,99 -38,83
0,39
53,84 -111,18 159,82 -39,88
0,21 540,54 -641,57 -162,72 -56,55
X9
268,43
-44,44
156,64
-73,49
-32,93
-23,72
24,09
54,18
50,99
74,46
X10
23,99
42,45
-10,66
8,53
14,97
-3,01
-18,54
-15,40
19,08
8,73
No entanto, como os coeficientes (elementares de autovetores) so influenciados pela

escala de avaliao das prognies, tem sido recomendado a avaliao da importncia relativa
dos caracteres, a partir de coeficientes associados s variveis padronizadas, ou seja:
j = ajj (j= desvio-padro residual)
Esses coeficientes so apresentados no Quadro 13.
30
Quadro 13 Variveis Cannicas Estabelecidas pela Combinao Linear de 10 Variveis

Padronizadas (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10)
Variveis
Cannicas
VC1
VC2
VC3
VC4
VC5
VC6
VC7
VC8
VC9
VC10
X1
6,87
-0,89
1,08
-1,58
-0,63
0,25
-0,15
0,48
-1,49
-0,9
X2
-1,22
-0,52
0,82
0,74
0,66
0,64
0,23
0,21
-0,01
0,16
X3
-3,73
0,49
-3,47
-0,12
0,99
1,78
0,15
0,59
-1,03
-0,62
Coeficiente de Ponderao (j) Associado

X4
X5
X6
X7
X8
7,29
32,07 -41,76
-0,55 -28,15
-1,04
-0,71
1,91
-1,43
5,80
2,42
4,33
-8,12
4,07 -16,69
0,88
-9,19
8,90
0,47
8,22
-0,70
-9,88
8,77
-8,24
4,06
-1,25
6,00
-3,77
-3,05
1,88
0,34
-6,65
6,79
0,97
-2,98
-0,66
-6,22
3,00
4,15
-5,46
0,89
1,68
-2,69
1,22
-5,60
0,48
16,90 -15,57
-1,25
-7,95
X9
30,66
-5,08
17,89
-8,39
-3,76
-2,71
2,75
6,19
5,82
8,62
X10
1,57
2,77
-0,70
0,56
0,98
-0,19
-1,21
-0,99
1,25
0,57
Pelos resultados apresentados, os caracteres de menor importncia foram, em ordem

de descarte, o X5, com o maior coeficiente de ponderao em VC10 (16,90); o X9, com o maior
coeficientes de ponderao em VC9 (5,82); o X6, com o maior coeficiente de ponderao em
VC7 (6,79). A evidncia de que estes caracteres so de menor importncia, pode ser dada com
base na matriz de correlao entre variveis (quadro 4). Assim, o descarte de X5
compensada pela presena de X1, X7 e X10, as quais mantm alta correlao. Quanto ao
descarte de X6, este tambm compensado pela presena de X1, X7 e X10. O caracter X9
compensado, pelo mesmo motivo (alta correlao), pela presena de X8. Vale salientar que na
VC8 no houve descarte de varivel. Este fato deve-se aos argumentos citados anteriormente
de que se em uma varivel cannica de menor varincia o maior coeficiente de ponderao
est associado a um caracter j previamente descartado, tem-se optado por no fazer nenhum
outro descarte com base nos coeficientes daquela varivel cannica, mas prosseguir a
identificao da importncia relativa dos caracteres na outra varivel cannica imediatamente
superior.
4. CORRELAES CANNICAS
4.1. Introduo
comum na pesquisa das vrias reas da cincia ocorrer a necessidade de investigar a
relao existente entre dois (ou mais) conjuntos de vrias distintas, mas associadas. Assim,
por exemplo, nas situaes em que o interesse em estudar as interelaes existentes entre a
ocorrncia de certas comunidades de plantas com relao a composio florstica e, por outro
lado, as caractersticas do solo ou outras caractersticas ambientais. Ou ento, nos casos em
que se interessa avaliar as relaes, entre, por exemplo, caracteres de parte a area versus
sistemas radicular, caracteres agronmicos versus fisiolgicos, componentes primrios versus
componentes secundrios da produo, caracteres silviculturas versus caracteres tecnolgicos
da madeira etc.
Esta tcnica foi inicialmente descrita por HOTELLING (1935) . Posteriormente
consolidada por RAO (1952); MARDIA et al. (1979), ARNOLD (1981), DUNTEMAN
(1984), MANLY (1986), JOHNSON e WICHERN (1988), CRUZ e REGAZZI (1994), dentre
31
outros. Segundo estes autores a aplicao geral e usual da anlise de correlao cannicas
consiste em identificar e quantificar as associaes entre dois grupos de variveis.
Segundo James e McCulloch (1990), citado por LIBERATO (1995), esta tcnica
uma generalizao da correlao e regresso que aplicvel quando os tributos de um nico
grupo de objetivos podem ser divididos naturalmente em dois conjuntos. Do ponto de vista
geral, a anlise de correlao cannica uma extenso da regresso mltipla. A anlise de
correlaes cannicas possui cestas propriedades similares s de anlise de componentes
principais, porm esta ltima considera as interelaes dentro de um grupo de variveis,
enquanto aquela considera a relao entre dois grupos de variveis (LIBERATO, 1995).
O mtodo consiste basicamente em encontrar um vetor de coeficiente para cada um
dos grupos de variveis, tal que a correlao entre as duas combinao lineares seja mxima.
Determina-se o primeiro par de combinao lineares que possuam a maior correlao entre
todos os pares no-correlacionados com o par selecionado inicialmente, e assim sucessivamente. As combinaes lineares so denominadas variveis cannicas e suas correlaes,
correlaes cannicas. O nmero de correlaes cannicas igual dimenso do menor
grupo de variveis.
Esta metodologia usualmente utilizada com variveis do tipo quantitativa contnua,
sendo necessrio assumir a existncia de normalidade multi-variada quando testes de significncia estatsticos so requeridos. Entretanto, segundo MARDIA et al. (1979), a anlise
tambm pode ser empregada quando h uma mistura de variveis quantitativa contnuas e
qualitativas, ou se todas as variveis so qualitativas, conforme citado por DUNTEMAN
(1984). Porm, o procedimento tem sido mais utilizado e recomendado quando os dados so
originados de variveis quantitativas.
4.2. Obteno das Correlaes Cannicas e dos Pares Cannicos
Seja o primeiro conjunto de variveis estabelecidos por p caracteres (X1, X2, , Xp) e
as inerentes ao segundo por q caracteres (Y1,Y2, ,Yq). Vale salientar que a anlise de
correlaes cannicas caracteriza-se por avaliar relaes entre dois complexos influenciados,
no mnimo, por dois caracteres. O nmero de correlaes cannicas a serem obtidas igual ao
menor nmero de caracteres que constitui um dos complexos (p ou q), e sua magnitude
sempre decresce com a ordem em que so estimados,
Seja:
X = [X1, X2 Xp] = vetor das medidas de p caracteres que constituem o grupo I
Y = [Y1, Y2 Yp] = vetor das medidas de q caracteres que constituem o grupo II
Assim, segundo CRUZ e RAGAZZI (1994), o problema estatstico consiste em estimar a mxima correlao entre as combinaes lineares de caracteres do grupo I e do grupo
II, bem como estimar os respectivos coeficientes de ponderao dos caracteres em cada
combinao linear. Sendo X1 e Y1 uma das combinaes lineares dos caracteres dos grupos I
e II, respectivamente, tem-se;
X1 = a1X1 + a2X2 + + apXp
e
Y1 = b1Y1 + b2Y2+ + bpYp
32
onde:
a = [a1 a2 ap] = vetor 1 x p de pesos dos caracteres do grupo I
e
b= [b1 b2 bp] = vetor 1 x q de pesos dos caracteres do grupo II
Por definio, a primeira correlao cannica aquela que maximiza a relao entre
X1 e Y1. As funes X1 e Y1 constituem o primeiro par cannico associado quela correlao
cannica, que expressa por:
Cv (X1,Y1)
r1 = _______________________
[V(X1).V(Y1)]
sendo:
Cv (X1,Y1) = aS12 b
V(X1) = aS11 a
V(Y1) = bS22 b
em que:
S11 = matriz p X q de covarincias entre os caracteres do grupo I
S22 = matriz p X q de covarincias entre os caracteres do grupo II
S12 = matriz p X q de covarincias entre os caracteres dos grupos I e II
Nos casos em que se utilizam variveis padronizadas, tm-se S11 = R11, S22= R22 e S12
= R12, em que R representa uma matriz de correlaes.
Segundo Morrisom (1976), citado por CRUZ e REGAZZI (1994), a estimao dos
vetores a e b obtida pela maximizao da funo r2, sujeita restrio de que
aS11 a = bS22 b = 1. Estas restries so necessrias para prover estimadores nicos de a e b,
e indicam que cada combinao linear tem varincia igual a 1.
Assim, o problema estatstico passa a ser estimar a e b tal que utilizando-se dos
multiplicadores de Lagrange ( e ) e das restries descritas, estes so obtidos pela soluo
das seguintes equaes:
(R-122 R12 R-111R12 - I) b =
e
(R-111 R12 R-122 R12 - I) a =
Assim:, tm-se
a) Primeira correo cannica (r1 ) entre a combinao linear dos caracteres dos
grupos I e II dada por:
r1 = [1]
33
em que 1 o maior autovalor da matriz (R-111 R12 R-122 R12)

b) O primeiro par cannico dado por X1= aX e Y1=bY, em que: a = autovetor
associado ao primeiro autovalor de (R-111 R12 R-122 R12), ou de maneira equivalente:
b = (R-122 R12 a), omitindo-se nesta expresso o escalar (aR12 b)/.
c) As demais correlaes cannicas e os pares cannicos so estimados utilizando-se
os autovalores e os autovetores das expresses descritas, de ordem correspondente
p ou q-sima correlao estimada.
CRUZ e REGAZZI (1994) comentam que muitas vezes a obteno destes autovalores
requerem o uso de certas artifcios, pois alguns aplicativos computacionais so especficos
para o clculo de autovalores de matrizes simtricas. Assim, neste caso, usam-se os seguintes
fatos:
a) Se G uma matriz real e simtrica, ento existe F, tal que G = FF, em que F
obtida por meio do produto: (C)-1D. As matrizes Ce D so, por sua vez, obtidas
por operaes de congruncia em G e elementares em I justaposta a G.
Esquematicamente, tem-se:
[G : I] ~ ~ [D : C]
em que:
~ : significa operaes de congruncia em G e elementares em I;
I : matriz identidade;
D : matriz diagonal;
C : matriz tal que CG C = D
b) Se autovalor de matriz no-simtrica GH , resultante do produto de matriz
simtricas G e H, ento tambm autovalor de FHF , real e simtrica.. Se
autovetor associado FHF , ento F = a autovetor associado GH.
c) Para o caso de estimao das correlaes, considera-se
G = R-111 e H = R12 R-122 R12
Outra questo a relacionada com testes estatsticos que consiste, de forma geral,
testar a significncia do relacionamento entre os dois grupos de variveis e subsequentes teste
para determinar quantas correlaes cannicas so significativas, a um determinado nvel de
probalidade.
Segundo CRUZ e REGAZZI (1994), para obteno deste informao inicia-se um
teste de significncia da hiptese de que todas as possveis correlaes cannicas so nulas
(HO : 1 = 2 = = s = 0 , s = min {p,q}). Esta hiptese avaliada pelo teste aproximado de
2, que segundo Duterman (1948), dado por:
= -t loge [ (1 - r2i)]
i =1
34
em que:
t = n - 0,5 (p + q + 3)
e
n = nmero de observao experimentais.
Segundo estes autores, a estatstica est associada a pq graus de liberdade. Se a
hiptese rejeitada, testa-se a hiptese H0 : k > 0 e k+1 = k+2 = = S = 0, por meio de:
= -t loge [ (1 - r2i)],
que est associada a
i = k +1
2 com (p-k)(q-k) graus de liberdade
APLICAO 5
Utilizando o mesmos dados da aplicao 3, ou seja, com base em dados de um teste de
prognies de Eucalyptus sp, em que foram avaliadas 10 caractersticas (X1, X2, X3, X4, X5, X6,
X7, X8, X9, e X10) em 10 prognies, num delineamento em blocos ao acaso com quatro
repeties e seis plantas por parcela, realizou-se a anlise de correes cannicas. Considerou-se para o presente caso como caractersticas do grupo I (X1, X2, X3, X4 e X5 ) e as do
grupo II (X6, X7, X8, X9, e X10).
Como nos outros procedimentos descritos, utilizou-se do programa GENES
(DBG/UFV) para realizaes das operaes envolvidas. A seguir so apresentadas as matrizes
de correlaes necessrias para obteno das correlaes cannicas, obtidas a partir do
Quadro 4 (matriz de correlaes entre as variveis originais).
Quadro 14 Matriz de Correlaes Entre Variveis do Grupo I

1,0
0,7390
1,0
R11 =
0,6462
0,2407
1,0
0,6999
0,4056
0,9573
1,0
0,9488
0,7043
0,6810
0,7299
1,0
Quadro 15 Matriz de Correlaes Entre Variveis do Grupo II

1,0
R22 =
0,9645
1,0
0,2355
0,0936
1,0
35
0,2467
0,0728
0,9858
1,0
0,9799
0,9382
0,2280
0,2488
1,0
Quadro 16 Matriz de Correlaes entre Variveis do Grupo I com Variveis do Grupo II
R12 =
0,9456
0,6978
0,6889
0,7057
0,9983
0,8926
0,7043
0,6600
0,7842
0,9781
0,1573
0,0295
0,2715
0,2551
0,2072
0,1833
0,0081
0,2365
0,2092
0,2096
0,9818
0,7031
0,7017
0,7267
0,9766
Assim, de acordo com o exposto anteriormente, as correlaes cannicas e os pares

cannicos so apresentados no Quadro 17.
Com base nos resultados obtidos, conclui-se que os grupos considerados na anlise
no so independentes e que as associaes intergrupos so estabelecidas, principalmente,
pelas influncias de:
a) Variveis X3 e X4 so determinantes nas variveis X8 e X9;
b) Variveis X1 e X5 apresentam existncia de relaes com as variveis X6 e X10;
c) Com base no 3o par cannico fica evidenciado tambm a existncia de relaes
entre as variveis X1 e X5 com as variveis X6 e X10.
Quadro 17 Correlaes Cannicaas e Pares Cannicos Estimados entre as Caractersticas
do Grupo I e do Grupo II de dez Prognies
Caracteres
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
r
2
1o
-0,2991
1,4120
4,6410
-4,4615
-0,6071
45,4341
-49,8536
54,2892
-62,4822
5,5401
4,7350
539,15 **
(GL = 25)
2o
-1,3537
0,1947
0,1764
-0,1372
2,0436
2,1719
0,3954
0,5778
-0,5231
-1,6732
1,0078
297,61 **
(GL = 16)
Pares Cannicos
3o
3,0768
-0,4106
-0,4455
0,4555
-2,2595
-3,4303
-0,0960
-1,1470
1,0680
3,9911
0,9572
56,06 **
(GL = 9)
4o
-0,5881
1,0815
0,4899
0,9232
-1,2376
-1,7715
-0,1389
4,3739
-4,4000
1,9527
0,7036
12,67 *
(GL = 4)
5o
0,0853
-0,9816
0,6385
0,0091
0,1646
-0,0602
-0,0193
0,0894
0,1139
0,0374
0,2000
0,71 ns
(GL = 1)
GL = Graus de Liberdade
** = significncia: P < 0,01
* = significncia: P < 0,05
ns = no significativo: P > 0,05
4.3. Algumas Aplicaes na rea Florestal

crescente o nmero de exemplos de aplicaes de anlises multivariadas nas
diversas reas da cincia. Porm, no Brasil, devido escassez de recursos computacionais, os
quais so fundamentais para a utilizao destas tcnicas, limitou o uso e inibiu o repasse desse
36
conhecimento entre os pesquisadores. Entretanto, atualmente com a maior disponibilidade de

recursos computacionais, o emprego de tais tcnicas tornou-se potencialmente grande e o seu
conhecimento indispensvel aos pesquisadores da rea florestal.
Trabalhos visando descrever, discutir e recomendar o uso de tcnicas estatsticas
multivariadas na anlise de dados florestais, so encontrados em literatura. Assim, temos
QUEIROZ (1984), o qual focalizou o uso destas tcnicas (Componentes Principais, Correlaes Cannicas, entre outras) na anlise de inventrio florestal. Esse mesmo autor comenta
que no relativo ao manejo de florestas naturais com base no rendimento auto-sustentado
depreende-se ser imprescindvel o uso da anlise multivariada para detectar e delimitar as
unidades bsicas de manejo florestal, face ao nmero elevado de variveis envolvidas.
Semelhantemente, SOUZA (1989) empregou a anlise multivariada com o objetivo de
explorar a sua potencialidade para manejo de floresta natural na reserva florestal de Linhares ES.
Tambm VAN LAAR (1987) revisou sobre as aplicaes da anlise multivariada nas
mais diversas reas do campo florestal. Inicialmente, apresenta alguns conceitos bsicos de
algumas tcnicas multivariadas e, em seguida, apresenta uma lista de aplicaes, conforme
citado no Quadro 18.
SOUZA (1993) em reviso, enfocou a utilizao de algumas tcnicas de anlise
multivariada (componentes principais, correlaes cannicas, entre outras) no estudo de
hibridaes naturais com o Eucalyptus e tambm no estudo de hbridos produzidos pelas
tcnicas de polinizao controlada e aberta. Este autor relacionou trabalhos de Potts e Reid
(1983, 1985, 1985b), Drake (1980), Ashton e Sandiford (1988), Burgess e Bell (1983) e
Ladiges et al. (1981).
Quadro 18 Uso da Anlise Multivariada na rea Florestal

Autor
Bradfield et al. (1984)
Burley et al. (1972)
Clark et al. (1983)
Davidson et al. (1975)
Falkenhagen et al. (1978)
Fourt (1971)
Guiot et al. (1982)
Hamabata et al. (1980)
Hunter et al. (1984)
Johnson et al. (1981)
Keenan et al. (1983)
Kennel (1966)
Kercher (1977)
Kuivinen et al. (1982)
Lemoine (1981)
Liu (1978)
Mackenzie et al. (1982)
Madgwik (1983)
Maze (1981)
McClure (1984)
Mtodo
Comp. Princ., Correl. Can.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Corr. Can.
Comp. Princ.
Comp. Princ.
Corr. Can.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
rea de aplicao
Botnica Florestal
Gentica Florestal
Estudo de Habitats
Anatomia da Madeira
Gentica Florestal
Site - Crescimento
Estudos Climticos
Botnica Florestal
Estudo Site-Crescimento
Botnica Florestal
Estudo Site-Crescimento
Estudo de Crescimento
Botnica Florestal
Estudos Climticos
Estudo de Crescimento
Mensurao Florestal
Estudo de Habitats
Mensurao Florestal
Gentica Florestal
Botnica Florestal
Continua...
37
Quadro 18, Cont.

Autor
Mtodo
rea de aplicao
Nef (1985)
Corr. Can.
Entomologia Florestal
Newbery (1984)
Comp. Princ.
Ecologia Florestal
Newcomer (1984)
Comp. Princ.
Mensurao Florestal
Osborne (1984)
Comp. Princ.
Estudo de Habitats
Potts (1983)
Comp. Princ.
Gentica Florestal
Radloff (1978)
Corr. Can.
Classificao de Site
Richens (1978)
Comp. Princ.
Gentica Florestal
Ross (1971)
Comp. Princ.
Botnica Florestal
Roshton (1978)
Comp. Princ.
Gentica Florestal
Stead (1983)
Comp. Princ.
Botnica Florestal
Sterba (1973)
Var. Can.
Estudo de Site
Van Groenewoud (1984)
Comp. Princ.
Classificao de Site
Van Laar (1985)
Comp. Princ.
Caractersticas de Fertiliz.
Xu (1984)
Comp. Princ.
Gentica Florestal
Comp. Princ. = Componentes Principais
Corr. Can. = Correlaes Cannicas
Var. Can. = Variveis Cannicas
Fonte : VAN LAAR (1987).
OBS.: No presente quadro foram apresentadas apenas as citaes que envolviam componentes
principais, variveis cannicas e correlaes cannicas.
5. ANLISE DE VARINCIA MULTIVARIADA

5.1. Introduo
A anlise estatstica multivariada ou simplesmente anlise multivariada o ramo da
estatstica direcionada ao estudo das amostras e distribuio multidimensionais, ou seja, so
mtodos estatsticos apropriados para estudos em que vrias variveis so consideradas
simultaneamente.
Entretanto, apesar de as tcnicas multivariadas terem eficincia comprovada e proporcionarem enriquecimento das informaes extradas de dados experimentais, necessrio para
seu uso a disponibilidade de recursos computacionais, motivo pelo qual a referida tcnica
ficou limitada no seu uso e do repasse entre os pesquisadores das diversas reas da cincia no
Brasil. Porm, com a incrementao dos recursos da informtica nos ltimos anos, a tcnica
atraiu a ateno dos pesquisadores das diversas reas, tornando o seu emprego potencialmente
grande e, consequentemente, o seu conhecimento indispensvel.
Trabalhos visando descrever, discutir e recomendar o uso de tcnicas estatsticas
multivariadas na anlise de dados florestais so encontrados em literatura (teses, artigos de
peridicos, livros, anais de congressos, etc.). Princpios bsicos da referida tcnica podem ser
encontrados em MORRISON (1976); MARDIA et al. (1979); KENDAL (1980); GODOI
(1985); CHATFIELD E COLLINS (1986); MANLY (1986); JOHNSON E WICHERN
(1988) entre outros.
38
comum em levantamentos e experimentos florestais, mensuraes para vrias

caractersticas em uma mesma unidade experimental. Tal procedimento baseado no fato de
que dificilmente uma nica varivel isoladamente discriminarar ou caracterizarar de maneira
adequada a unidade amostral. Normalmente, tais informaes so analisadas de maneira
parcelada, ou seja, as variveis so estudadas separadamente, e as comparaes entre tratamentos procedidos atravs das mdias e varincias da varivel em estudo, onde concluses
para cada varivel so realizadas a um nvel de erro. Entretanto, tal procedimento, possui os
incovenientes de no considerar a existncia de uma possvel estrutura de dependncia entre
as variveis e, de no possibilitar ao pesquisador tirar uma concluso global, concernente s
possveis diferenas entre os tratamentos considerando o conjunto total de variveis, mantido
ao nvel de erro fixado a priori .
Assim segundo JAMES e McCULLOCH (1990), quando em um experimento cada
unidade experimental avaliada sob diferentes aspectos, a utilizao de anlise multivariada
recomendada, pois em virtude dessas variveis serem consideradas simutaneamente, so
obtidas interpretaes que muitas das vezes no so possveis com o uso da estatstica
univariada.
Desta forma, o objetivo do presente trabalho foi o de descrever suscintamente sobre a
anlise de varincia multivariada e exemplificando-a na rea florestal.
5.2. Consideraes sobre a MANOVA
Segundo RAO (1952), tentativas iniciais de generalizao das anlises univariadas de
varincia para o caso de variveis mltiplas foi dado por Wishart (1928), o qual estudou a
distribuio amostral simultnea de varincias e covarincias em amostras de uma populao
normal multivariada. Posteriormente, Hotelling (1931) verificou a distribuio T, que uma
extenso natural da distribuio de student para uma populao normal multivariada. Wilks
(1932), seguindo o mtodo da razo de verossimilhana (Neyman e Pearson, 1908 e 1931;
Pearson e Neyman 1930), obteve generalizaes apropriadas na anlise de varincia
aplicveis a diversas variveis. A estatstica proposta por este autores tem sido til em uma
variedade de problemas.
Segundo DEMTRIO (1985), a anlise de varincia multivariada (MANOVA), alm
de fornecer resultados com base na anlise conjunta de todos as variveis utilizadas, levandose em considerao um nvel de significncia conhecido, permite estimar a melhor
combinao de variveis que leva a um valor de F mximo.
Segundo vrios autores (SMITH et al., 1962; MORRISON 1967; MARDIA et al.,
1979, dentre outros), nas anlises multivariadas, so apresentados o teste de Wilks (razo de
verossimilhana), o teste de Roy, o trao de Hotelling-Lawley e o teste de Pillai, como as
principais alternativas para o teste da hiptese de nulidade de tratamentos e o princpio da
unio-interseo de Roy, para as comparaes mltiplas.
Winer (1971), citadas por STUKER (1986), comenta que ao se analisarem os efeitos
de tratamentos para variveis X1, X2, ... , Xp, observadas na mesma unidade experimental,
atravs de anlises univariadas, no so levadas em considerao as correlaes existentes
entre elas. Cita ainda que as respostas simultneas das unidades experimentais para todas as
variveis, consideradas como uma nica resposta, geralmente contm mais informaes sobre
o efeito total de tratamento do que uma srie de respostas consideradas separadamente.
Segundo Dagnelie (1982), citado por STUKER (1986), a anlise multivariada, em
sentido amplo, pode ser considerada como formada por um conjunto de mtodos estatsticos,
que tm por objetivo o estudo das relaes existentes entre vrias variveis dependentes ou
independentes, e que a anlise da varincia multivariada tem por objetivo comparar as mdias
de mais de duas populaes.
39
Este mesmo autor apresenta a seguinte hiptese multivariada:

H0: m1 = m2 = ... = mk
onde mg o vetor de mdias das p variveis, associado ao tratamento g (g = 1, 2, ... , K), e
como critrios de teste de H0 cita o de Wilks, o de Roy e o de Hotelling-Lawley. Para
comparaes mltiplas, cita o princpio da unio-interseo de Roy.
Quanto s pressuposies do modelo, MARDIA et al. (1979) comenta sobre o efeito
de no-normalidade e Ito e Shull (1971) e Korin(1972) mostram que os resultados dos testes
no so grandemente afetados por heterogeneridade das matrizes de varincias e covarincias,
quando o nmero de repeties grande e o mesmo para todos os tratamentos.
Segundo JAMES e McCULLOCH (1990), MANOVA um procedimento para testar
diferenas entre grupos de acordo com as mdias de todas as variveis, sendo o procedimento
aplicado a dados com distribuio normal multidimensional. possvel obter resultados nosignificativos em testes univaridos e resultados significativos em teste multivariado e viceversa (MANLY, 1986).
Como exemplo, DEMTRIO (1985) em estudo comparativo entre mtodos de anlise
univariada e multivariada, em experimentos conduzido em blocos casualizados, verificou que
no caso do modelo multivariado o nmero de diferenas significativas entre mdias de
tratamento menor que no caso univariado; isso porque no caso do modelo multivariado o
critrio de rejeio mais rigoroso por levar em considerao um nvel de significncia
conjunto, enquanto que no modelo univariado o nvel de significncia tomado isoladamente
por anlise.
5.2.1. Desenvolvimento Matemtico
A anlise de varincia multivariada um mtodo alternativo mais geral, uma vez que
no faz qualquer restrio quanto a estrutura de varincia e covarincias, de medidas tomadas
sobre a mesma unidade experimental. Pode-se efetuar a anlise multivariada da varincia para
qualquer tipo de delineamento experimental. Entretanto, para o presente estudo ser
considerado para efeito demonstrativo o modelo de delineamento experimental em blocos
casualizados multivariado com J blocos e I tratamento, em que so medidas K caractersticas.
O modelo estatstico admitido para anlise e suas pressuposies de restries so:
Yijk =
+ tik + bjk + eijk
em que:
i = 1, 2, ... , I
j = 1, 2, ... , J
k = 1, 2, ... , K
onde:
Yijk = o valor observado da k-sima caracterstica, sob o i-simo tratamento, no
j=simo bloco;
k = a mdia geral da k-sima caracterstica;
tik = o efeito do i-simo tratamento na k-sima caracterstica;
bjk = o efeito do j-simo bloco na k-sima caracterstica;
40
eijk = o erro aleatrio especfico da ijk-sima combinao de tratamento, bloco e

caracterstica.
Sendo:
k
a) ti = ,
ti= [ ti1, ti2., ... ,tik], sendo ti ~ Np ( , t)
i=1
b) bj ~ Np(, b), independentes, bj= [bj1, bj2 , ... ,bjk] e b = matriz de varinicas e
covarincias, comum a todos os blocos ( j = 1, 2, ... ,J);
c) O vetor de efeitos residuais eij = [eij1, eij2, .... ,eijk] tem distribuio multinormal
K-dimensional com vetor de mdias nulo e matriz de varincia e covarincia e,
comum a todas as combinaes i e j , sendo os eij correspondentes s diferentes
unidades experimentais em cada bloco, independentemente distribudos; ou seja,
eij ~ Np(, e),
d) bj e eij so independentes.
Na forma matricial tem-se:
Y = X +
onde,
a matriz das observaes;
YK
IJX(1+I+ J) a matriz de incidncia;
(1+I+J)K a matriz dos parmetros; e
IJ
IJK
a matriz dos erros aleatrios.
Mais detalhadamente tem-se:
Y=
Y111
Y121
Y1J1
Y112
Y122
Y1J2
Y11K
Y12K
Y1JK
Y221
Y221
Y2J1
Y212
Y222
Y2J2
Y21K
Y22K
Y2JK
YI11
YI21
YIJ1
YI12
YI22
YIJ2
YI1K
YI1K
YIJK
= [Y1 Y2 YK]
IJ x K
41
X=
1
1
1
1
0
0
0
0
1
0
0
1
0
0
1
1
0
0
1
1
0
0
1
0
0
1
0
0
...
...
1
1
0
0
0
0
1
1
1
0
0
1
0
0
t11
t21
tI1
t12
t22
tI2
t1K
t2K
tIK
b11
b21
bJ1
b12
b22
bJ2
b1K
b2K
bJK
IJ x (1 + I + J)
= [B1 B2 BK]
(1+I+J) x K
e111
e121
e112
e122
e11K
e12K
e11
e12
e1J1
e1J2
e1JK
e1J
e211
e221
e2J1
e212
e222
e2J2
e21K
e22K
e2JK
e21
e22
e2J
...
eI11
eI21
eIJ1
eI12
eI22
eIJ2
eI1k
eI2K
eIJK
eI1
eI2
eIJ
42
= [ e1 e2
e K]
Logo,
Y= [Y1 Y2 YK] = [XB1 XB2 XBK] + [e1 e2 eK] e, portanto, para cada varivel
k = 1,2, , K), tem-se:
Yk = X + ek
As equaes normais e os estimadores dos parmetros so obtidos tomando-se o
modelo linear multivariado na forma matricial Y = X + e , e usando o mtodo de mnimos
quadrados, obtm-se o sistema de equao normais: XXBo = XY. Assim, da mesma forma
que no modelo univariado, as somas de quadrados e as somas de produtos so obtidos.
De Y = X + e , obtm-se, pelo mtodo de mnimos quadrados, que
= YY - BoXY
onde:
= a matriz de somas de quadrados e de produtos do resduos;
YY = a matriz de somas de quadrados e de produtos do total;
BoXY= a matriz de somas de quadrados e de produtos de parmetros.
Desta forma, obtm-se ento que:
SQTratamentos k = (1/J) T2ik - (1/IJ) G2k
i
SPTratamentos k,k = (1/J) Tik Tik - (1/IJ) GkGk

i
SQBlocos k = (1/I) B2jk - (1/IJ) G2k

j
SPBlocos k,k = (1/I) Bjk Bjk - (1/IJ) GkGk

j
SQTotal k = Y2ijk - (1/IJ) G2k

i j
SPTotal k,k = Yijk Yijk - (1/IJ) GkGk

i j
SQResduo k = SQTotal k - SQTratamentos k - SQBlocos k

SPResduo k,k = SPTotal k,k - SPTratamentos k,k - SPBlocos k,k
em que:
I J
Gk = Yijk
i=1 j=1
J
Tik = Yijk
j=1
I
Bjk = Yijk
i=1
43
para k,k= 1, 2, , K e k k
Logo, T = H + B + R
onde:
KTK =
matriz de soma de quadrados e produtos referentes a totais;
KHK
= matriz de soma de quadrados e produtos referentes a tratamentos;
KBK
= matriz de soma de quadrados e produtos referentes a blocos;
KRK =
matriz de soma de quadrados e produtos referentes ao resduo.
O esquema da anlise de varincia multivariada apresentado no Quadro 1.
Quadro 18 Esquema Anlise da Varincia Multivariada para o Delineamento em Blocos

ao Acaso
Causas de
Variao
Blocos
Tratamentos
Resduo
Total
Matrizes de Somas de
Quadrados e de Produtos
B
H
R
T
Graus de Liberdade (*)

J-1
I-1
(I-1) (J-1)
IJ-1
( )
* - Os graus de liberdade so obtidos de maneira anloga ao caso univariado.
A hiptese de interesse a ser testada, em geral, a de que no existem efeitos de

tratamentos, ou seja, a hiptese de nulidade dos vetores efeitos de tratamento, ou seja:
H0 : t1 = t2 = tI =
Matricialmente, tem - se:
t11
t12
t1K
H0 :
t21
t22
t2K
tI1
tI2
tIK
0
0
Ou ainda:
H0 : CB W =
onde:
C=
0
0
1
0
-1
1
0
-1
0
0
0
0
-1
0
0
44
0
0
(I-1) (1+I+J)
com posto (I-1); e, W uma matriz de dimenso K x W, de posto W K, que identifica as

variveis que esto sendo testadas por H0.
GODOI (1985) apresenta e discute quatro critrios para teste de hiptese linear geral
da forma:
H0: CBW =
todos baseados em cis, que so os auto-valores de (WRW)-1 WHW, onde,
H = (CB0)[C(XX)-C]-1 (CB0)
R = YY - B0XY
Se W = I(k), isto , posto W = K, obtemos o caso particular,
H0 : CB = ,
neste caso todas variveis esto contidas no teste da hiptese H0.
A matriz H usualmente designada como a matriz de soma de quadrados e de
produtos da hiptese H0 testada e R, como a matriz de somas de quadrados e de produtos de
resduo.
Os quatros critrios estatsticos referidos anteriormente so:
s
T20 = tr (R-1H) = ci
i=1
i=1
i=1
V = tn [H (H+R) ] = i = [ci / (1 + ci)]

-1
i=1
i=1
= | R | / | H+R| = [1 / (1+ci)]= (1-i)

1 = c1 / (1 + c1) ou c1 = 1 / ( 1 - 1)
onde:
c1 = maior auto-valor de R-1H
1 = maior auto-valor de H(H+R)-1
s = nmero de razes caractersticas no nulas de R-1H
O critrio T20 foi proposta por Hotelling-Lawley e conhecido como o critrio do
trao ou da soma dos auto-valores.
Sob
H0,
2(sn + 1)
____________________
2
T20
s (2m+ s + 1)
aproximadamente distribudo como: Fs (2m + s + 1) , 2(sn + 1)
45
O segundo critrio , V, o critrio do trao de Pillai, que sob H0 ,

(2n + s + 1)
________________ _________
(2m + s + 1)
(s-V)
aproximadamente distribudo como: Fs (2m + s + 1 ) , s (2n + s + 1)

O terceiro critrio, , o critrio da razo de verossimilhana, devido a Wilks, onde:
X2 = - [ne - (p - q +1)] loge p, q, ne, tem distribuio exata de 2pq,
rejeita-se H0 se: X2 > C2pq,, onde C encontrado na tabela de Schazoff (1966)
Casos particulares em que tem-se distribuio exata de F,
q = 1, p
q = 2, p
1 - (ne - p - 1)
_________ _______________
1 - []1/2 ne- p + 1
____________ _____________
[]
p = 1, q
p = 2, q
1/2
~ F2p,2(ne-p+1)
1-
ne
__________ ______
~ Fq,ne (unidimensional)
1-[]1/2 ne-1
___________ _______
[ ]
~ Fp,ne-p+1
1/2
~ F2q,2(ne-1)
Tem-se ainda que para p 3 e q 3,

ms-2
1 - 1/s
___________ ___________
pq
, aproximadamente distribudo como: Fpq , (ms-2)
1/s
onde (ms-2) indica o maior inteiro que no supera (ms - 2), e

m = ne - (p+q+1)
= (pq - 2) / 4
s = [(p2q2 - 4) / (p2 + q2 - 5) ]
46
O ltimo critrio, 1, foi desenvolvido por Roy e conhecido como o critrio do maior
auto-valor de Roy. Baseado neste critrio, no se rejeita a hiptese H0 a um nvel de
significncia, se:
1 X, s, m,n ou c1
X , s, m,n
_________________
1 - X , s,m,n
X , s,m,n pode ser encontrado em baco (MORRISON 1981).

Para o primeiro, segundo e ltimo critrio tem-se que,
S = min (q, p)
m= ( | p - q | - 1)
n= (ne - p - 1)
e para ambos os critrios,
q = posto (c) = I -1
p = nmero de variveis = K
ne = n - posto (X) = (I-1) (J-1)
APLICAO 1
Como exemplo ser utilizado dados de um experimento cujo objetivo foi o de verificar
a exitncia de variao entre 28 progenitores de Eucaliptus sp.s em relao a 10 caracterstica
silviculturais (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10). O delineamento estatstico utilizado
foi o de blocos casualizados com 4 repeties.
As anlises de varincias foram realizadas considerando-se cada caracterstica
separadamente (ANOVA - Anlise de Varincia Univariada) (Quadro 19) e o conjunto das 10
carctersticas simultaneamente (MANOVA - Anlise de Varincia Multivariada) (Quadro 20).
No caso da ANOVA utilizou-se o mtodo de mnimos quadrados visando obteno do
sistema de equaes normais, estimadores dos parmetros, a partio da soma de quadrado
total e o nmerro de graus de liberdade associado a cada fonte de variao, de acordo com o
modelo estatstico adotado. O procedimento adotado foi o mesmo usualmente encontrado na
literatura cujas demostraes sero omitidas por no ser o objetivo principal desse estudo.
Quanto ao procedimento MANOVA, ser conforme descrito nos itens anteriores desse estudo.
Dado o volume de operaes envolvidas, utilizou-se do programa SAEG (UFVViosa/MG) para realizaes das anlises. A seguir so apresentados os resultados finais
apresentados pela listagem obtidas pelo programa.
47
Quadro 19 Resumo da Anlise de Varincia Univariada das 10 Caractersticas Silviculturais (X1, X2, X3, X5, X6, X7, X8, X9 e X10) Referente a 28 Progenitores de
Eucalyptus sp.
Fontes de GL
Variao
X1
X2
X3
X4
14,3855
0,0021
Resduo
81 0,7836
0,5878
1,0404
10,19
0,66
15,96
11,88
0,07
0,05
8,68
9,67
4,81
8,58
18,47
19,01
0,0029
0,00009 0,000008 0,002

0,016
17,95
0,0023
X10
27 1,9810** 0,0117** 1,8766** 3,5489** 0,0005** 0,0004** 0,00002** 0,0018n.s. 0,0015n.s. 0,0024**
0,0040
0,0001
X9
Prognie
0,0002
0,0013
X8
Bloco
CV (%)
6,8242
X7
3 6,6683
Mdia Xk
0,0337
Quadrados Mdios
X5
X6
0,0013
0,0067
0,0008
0,487
0,368
0,14
9,55
9,94
19,83
** - significativo pelo teste F (P 0,01)

* - significativo pelo teste F (P 0,05)
n.s - no significativo pelo teste F ( P 0,05)
X1 - Dimetro Altura do Peito (DAP) X6 - Volume sem Casca
X2 - Densidade Bsica X7 - Volume de Casca
X3 - Altura Total X8 - Fator de Forma sem Casca
X4 - Altura Comercial X9 - Fator de Forma com Casca
X5 - Volume com Casca X10 - Volume Cilndrico
Quadro 20 Resumo da Anlise de Varincia Multivariada Considerando as 10

Caractersticas Simultneamente (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10)
Referente aos 28 Progenitores de Eucalyptus sp.
Fontes deVariao
GL
Matrizes de Soma de Quadrados e de Produtos
Blocos
Progenitores
27
Resduo
81
111
TOTAL
Os resultados obtidos pela ANOVA (Quadro19) mostram diferena significativa entre

progenitores, pelo teste F (P < 0,01), para as caractersticas X1, X2, X3, X4, X5, X6, X7, e X10).
Entretanto, para as caractersticas X8 e X9, o teste F apresentou resposta no - significativa
(P > 0,05) entre progenitores.
Quanto aos resultados obtidos pela Anlise de Varincia Multivariada, estes so
apresentados no Quadro 20 e, em seguida so apresentados os testes de significncia.
48
Matriz B (Matriz de Soma de Quadrados e Produtos Referentes a Bloco)
X1
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
20.0050
X2
X3
X4
X5
X6
X7
X8
X9
X10
0.7556 19.6253 28.5747
0.3226
0.2653
0.0772
0.2956
.02695
0.6333
0.1010
0.6684
0.0071
0.0054
0.0017
0.0019
0.0023
0.0021
19.6253
0.4449 20.4728 29.7222
0.3601
0.2795
0.0806
0.3334
0.3016
0.6326
28.5747
0.6684 29.7222 43.1565
0.5226
0.4056
0.1170
0.4814
0.4357
0.9203
0.3426
0.0071
0.3601
0.5226
0.0063
0.0049
0.0014
0.0059
0.0054
0.0111
0.26254
0.0054
0.2795
0.4056
0.0049
0.0038
0.0011
0.0046
0.0042
0.0086
0.0772
0.0017
0.0806
0.1171
0.0014
0.0011
0.0003
0.0013
0.0012
0.0025
0.2956
0.0019
0.3334
0.4814
0.0059
0.0046
0.0013
0.0087
0.0078
0.0097
0.2696
0.0023
0.3016
0.4357
0.0054
0.0042
0.0012
0.0078
0.0070
0.0083
0.6332
0.0211
0.6326
0.9203
0.0110
0.0085
0.0025
0.0097
0.0088
0.0201
0.7555
0.4449
Matriz H (Matriz de Soma de Quadrados e Produtos Referentes a Tratamentos (progenitores))
X1
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
53.4879
2.3392
X2
X3
X4
X5
X6
X7
X8
X9
X10
2.3392 38.3555 54.8376
0.8173
0.6499
0.1673
0.1060
0.2597
1.8343
0.3170
0.0325 0.02241
0.0101
-0.0056
-0.0261
0.0753
0.3111
0.7701
38.3555
0.3111 50.6679 68.3037
0.6947
0.5726
0.1221
0.5545
0.7656
1.4055
54.8376
0.7701 68.3037 95.8201
0.9786
0.8040
0.1745
0.7893
1.0600
1.9644
0.8173
0.0325
0.6947
0.9786
0.0139
0.0111
0.0028
0.0067
0.0087
0.0292
0.6499
0.0224
0.5725
0.8040
0.0111
0.0091
0.0021
0.0057
0.0079
0.0233
0.1673
0.0101
0.1221
0.1745
0.0028
0.0021
0.0006
0.0011
0.0008
0.0058
0.1061
-0.5684
0.5545
0.7893
0.0067
0.0056
0.0011
0.0491
0.0413
0.0070
0.2598
-0.0261
0.7656
1.0610
0.0088
0.0079
0.0008
0.0413
0.0409
0.0126
1.8344
0.0753
1.4054
1.9644
0.2915
0.0233
0.0058
0.0070
0.0126
0.0647
49
Mariz E (Matriz de Soma de Quadrados e Produtos Referentes ao Resduo)
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X1
X2
X3
63.4790
2.5568
35.7705
50.3686
0.7339
0.5699
0.1640
-1.4247
-0.9747
1.9399
2.5567
0.3254
1.9244
2.4774
0.0348
0.0255
0.0093
-0.0461
-0.0405
0.0827
X4
X5
35.7705 50.3686 0.7339

1.9244 2.4774 0.00348
47.6119 59.9386 0.6334
59.9386 84.2742 0.8936
0.6334 0.8935 0.1257
0.4938 0.7001 0.0098
0.1380 0.1934 0.0028
-0.0924 0.2014 -0.0007
-0.0562 0.3392 0.0012
1.2535
1.6773 0.0248
X6
X7
X8
X9
X10
0.5699
0.0255
0.4954
0.7001
0.0098
0.0077
0.0021
-0.0001
0.0017
0.0194
0.1640
0.0093
0.1380
0.1935
0.0028
0.0021
0.0007
-0.0007
-0.0005
0.0055
-1.4248
-0.0461
-0.0924
0.2014
-0.0007
-0.0001
-0.0007
0.1751
0.1258
-0.0404
-0.9747
0.0405
0.0562
0.3392
0.0012
0.0017
-0.0005
0.1358
0.1085
-0.0275
1.9399
0.0827
1.2535
1.6774
0.0249
0.0194
0.0055
-0.0405
-0.0275
0.0629
Os testes para a hiptese H0: CBW = , ou seja, a no existncia de variao entre

progenitores referentes s 10 caractersticas consideradas simultaneamente, so apresentados
na sequncia.
a) Teste de Hotelling-Lawley
Os parmetros da distribuio so:
S = mn (27,10) = 10
m = ( |10 - 27| - 1) / 2 = 8
n = (81 - 10 -1) / 2 = 35
T20 = 8,488 (resultado SAEG)
2( Sn + 1)
_____________________
S2(2m+ S + 1)
T20 = 2,21
Admitindo = 0,05 tm-se F0.05, 270, 702 1,0 , ou para = 0,01 tem-se F0.01,270, 702
1,0, ento a hiptese H0 foi rejeitada ao nvel de 1% de probabilidade pelo teste de HotellingLawley (T20)
b) Teste de Pillai
Tem-se, tambm, os parmetros:
S = 10 m = 8
n = 35
V = 3,8024 (resultado SAEG)

2n+ S + 1
_______________
_______
2m+ S+ 1
S-V
= 1,84
50
Admitindo = 0,05 tm-se F0.05, 270, 810 1,0, ou para = 0,01 tm-se F0.01, 270, 810
1,0, rejeita-se a hiptese H0 ao nvel de 1% de probabilidade pelo teste de Pillai.
c) Teste de Wilks
Os parmetros da distribuio so:
m= 81 - (10+27+1) / 2 = 62
= (270 -2) / 4 = 67
S = {(102 272 - 4) / (102 + 272 - 5)} = 9,41
= 0,00473 (resultado SAEG)
mS - 2
1-1/S
_____________
_________
pq
= 1,27
1/S
Admitindo = 0,05 tm-se F0.05, 270, 628 1,0 , ou para = 0,01 tm-se F0,01, 270, 628
1,0 , rejeita-se H0 ao nvel de 1% de probabilidade pelo teste de Wilks.
d) Teste de Roy
Os parmetros, para este teste, so:
S = 10 m= 8 n = 35
1 = 2,6332 (resultado SAEG)
Admitindo = 0,05 pelo baco, encontrado em MORRISON (1981), tm-se 0.05,
10, 8, 35 = , ou para = 0,01 e pelo baco 0.01, 10, 8, 35 = , rejeita-se, tambm, H0 ao nvel do 1%
de probabilidade pelo teste de Roy.
Verifica-se, ento, que a hiptese H0 foi rejeitada ao nvel de 1% de probabilidade,
para todos os 4 testes aplicados, ou seja, os progenitores diferem entre si com relao s 10
caractersticas avaliadas simultaneamente, ou ainda, com base nesta anlise, pode-se afirmar
que existe variao entre os progenitores estudados.
Desta forma, se o pesquisador deseja informaes por cada classe separadamente, uma
anlise univariada suficiente. Entretanto, se o interesse uma concluso conjunta de todas
as classes, a anlise multivariada deve ser preferida, pois alm de todas as concluses serem
realizadas ao nvel de significncia pr-estabelecido, toda a informao de variao
(correlao) considerada.
5.3. Procedimentos para Comparaes Mltiplas
Quando a hiptese de nulidade H0: CBW = rejeitada, no se sabe quais
tratamentos ou combinaes de tratamentos diferem entre si. Assim, torna-se necessrio
51
utilizar-se de procedimentos de comparao mltiplas entre os tratamentos ou combinaes

destes a fim de definir quais os efeitos de tratamentos que diferem ente si.
Os procedimentos para testar a hiptese H0: m1 = m2 = ... = mI so usados numa
anlise preliminar pois eles deixam sem respostas algumas inportantes questes relativas a
comparaes efetivas entre tratamentos, conforme j comentado. Entretanto, atravs de
contrastes pode-se obter respostas mais especficas a respeito de hipteses de interesse. Isto ,
os contrastes lineares ajudam a detalhar mais sobre a questo de comparaes entre
tratamentos.
Um contrastes linear uma combinao linear entre os vetores mdias dos tratamentos
e constantes (c) orbitrrias tais que ci ni = 0. Ou um contraste o vetor linha.
W= c1w1 + c2w2 + +cIwI
Assim, a hiptese agora pode ser considerada da seguinte forma:
H0: W = 0 versus Ha: W 0
Desta forma pode-se efetuar comparaes entre os vetores mdios dos tratamentos
assim como realizado no caso univariado.
Vale salientar que para cada contraste calculado um resduo adequado. Quando se
trabalha com contraste ortogonais, sabe-se que (I-1) graus de liberdade decompe se em (I -1)
contraste com um grau de liberdade cada.
Cada hiptese montada testada usando a estatstica (critrio da razo de
verossimilhana devido a Wilks) ou T02de Hottlingda seguinte forma:
H0: W = 0
vs
H0: w 0
Ws = c1m1 + c2m2 + + cImI

onde: mI = Yi. / ni
S = 1,2,,I
Usando a estatstica (critrio da razo de verossimilhana, devido a Wilks), tem-se:

|R|
S =
_____________
S = 1, 2,, (I-1)
| HS + R |
e as matrizes HS passam a ser:
HS = (hKK)S , S = 1,2,, (I -1)
hKK =
WKWK
____________
K,K= 1, 2, , K para KK
nici2
i=1
52
Rejeita-se H0 para valores menores que (K,1,ne)

Usando a estatsca T02 de Hotteling, tm-se:
T02 =
WS
___________
nici2
R
S-1WS
onde
S-1 =
____
ne
Rejeita-se H0 para valores maiores que T02 (K,ne,)

Mais detalhes sobre estes procedimentos descritos acima podem ser encontrado em
NEGRILLO e PERRE (1987)
Entretanto, segundo STUKER (1986), o princpio de unio interseo de Roy o mais
adequado, pois permite calcular os limites de confiana simultneos para todas conbinaes
lineares dos elementos da matriz CBW, com uma probabilidade conjunta (1-). Alm disso,
este tido como uma continuao lgica do teste de significncia do maior autovalor (Teste
de Roy).
Conforme citado por MARDIA (1979) tem-se os intervalos de confiana simultneos:
P { [(cBl - cBl)2] / [lRlc(XX)-c] } [
/ (1 - )]
l , c/c = Cd = 1 -
ento,
cBl { [
/ (1 - )] [lRlc(XX)-c] }
so os intervalos de confiana para cBl.
onde,
c - um vetor de dimenses [1 x (I+J+1)] arbitrrio, que possui os coeficientes das
conbinaes de tratamentos;
l
um vetor de dimenes (K x 1), arbitrrio, que seleciona uma varivel ou

uma combinao de variveis, e
valor crtico de Roy ao nvel de probabilidade, podendo ser encontrado

em bacos (MORRISON 1981) com parmeros:
S = mn (I-1, K)
|I-K-1| -1
m=
_____________
2
I (J-1) - (J-K)
n= _________________
2
53
No caso de c e l serem fixados a priori os limites de confiana podem ser obtidos

trocando-se:
1
________
_______________
por
F1, (I-1)(J-1),
1-
(I-1)(J-1)
Para c fixado a priori e todo l fixado a posteriori, troca-se:
________
1-
K
por
_______________________
FK, (I-1)(J-1) - K + 1,
(I-1)(J-1) - K + 1
Para o caso de K = 1, tem-se:

S = mn (I - 1, K) = 1, troca-se:
________
1-
I-1
por
_______________
F(I-1), (I-1)(J-1),
(I-1)(J-1)
lRl = SQRes , pois l= [1]
Assim, se c no for estabelecido a priori, o intervalo adequado ser:

P {| cB - cB | [ c(XX)-c SQRes {(I-1) / I-1)(J-1)} F(I-1),(I-1)(J-1), ]1/2} = 1-
(
logo, os limites de confiana ficam:

cB {c(XX)c QMRes (I-1) F(I-1), (I-1)(J-1) ; }1/2
que a expresso obtida por SCHEFFE(1953).
Para ambos os casos discutidos anteriormente, rejeita se H0: cBl = 0, ao nvel de
significncia se o intervalo de confiana ao nvel (1-) no contiver a origem.
Mais detalhes sobre estes e outros procedimentos para comparaes mltiplas podem
ser encontrados em MARDIA et al.(1979), MORRISON (1981), GODOI (1985),
MANLY(1986), NEGRILLO e PERRE(1987) JOHNSON E WICHERN(1988), entre outros.
Estes autores discutem procedimentos para estimao e testes de hipteses.
54
6. REFERNCIAS BIBLIOGRFICAS
ADAMS, M.W. & WIERSMA, J.V. An adaptation of principal components analysis to an
assessment of genetic distance. Research Refort, 347: 2-7, 1978.
ARNOLD, S.F. The theory of linear models and multivariate analysis. New York, John
Wiley & Sons, 1981. 475p.
ARUNACHALAM, V.
226-36, 1981.
Genetic distance in plant breeding. Indian Jour. of Genetics, 41:
CAMPBELL, N.A. & ATCHLEY, W.R. The geometry of canonical variate analysis.
Systematic Zoology, 30: 268-80, 1981.
CAMUSSI, A.; OTTAVIANO, E.; CALINSKI, T.; KACZMAREK, Z. Genetic distances
based on quantitative traits. Genetics, 11: 945-62, 1985.
CHATFIELD, C. & COLLINS, A.J. Introduction to multivariate analysis. Ney York,
London: Chapman and Hall, 1986. 246p.
CHATFIELD, C. & COLLINS, A.J. Introduction to multivariate analysis. New York,
London: Chapman and Hall, 1986. 242 p.
CRUZ, C.D. & REGAZZI, A.J. Modelos biomtricos aplicados ao melhoramento
gentico. Viosa, UFV, 1994. 394 p.
CRUZ, C.D. Algumas tcnicas de anlise multivariada no melhoramento de plantas.
Piracicaba, ESALQ/USP, 1987. 75 p. (Monografia)
CRUZ, C.D. Aplicao de algumas tcnicas multivariadas no melhoramento de plantas.
Piracicaba, ESALQ/USP, 1990. 188 p. (Tese D.S.)
DEMTRIO, C.G.B. Anlise multidimensional para dados de cana-de-acar. Piracicaba,
ESALQ, 1985. 144 p.
DUNTEMAN, G.H. Introduction to multivariate analysis. Beverly Hills: Sage
Publications, 1984, 237p.
GODOI, C.R. de M. Anlise estatstica multidimensional. Piracicaba-SP, USP/ESALQ,
Depto. de Matemtica e Estatstica, 1985. 187 p.
HOTELLING, H. Analysis of a complex of statistical variables into principal components. J.
Educ. Psichol., Washington D.C., v.24, p.417-41, 1933.
HOTELLING, H. Simplified calculation of principal components. Psychometrika,
Baltimore, v.1, p. 27-35, 1936.
JAMES, F.C. & McCULLOCH, C.E. Multivariate analysis in ecology and systematics:
Panacea or pandoras box? Annual Review Ecology Systematic, 21:129-66. 1990.
JOHNSON, R.A. & WICHERN, D.W.
Cliffs, Prentice Hall, 1988, 607 p.
Applied multivariate analysis. 2.ed. Englewood
55
JOHNSON, R.A. & WICHERN, D.W. Applied multivariate statistical analysis (2a ed.).
Englewood Cliffs, Prentice Hall, 1988. 607 p.
JOLLIFFE, I.T. Discarding variables in a principal component analysis; I. Artificial data.
Appl. Stat, Srie C, London, v.21, p.160-73, 1972.
JOLLIFFE, I.T. Discarding variables in a principal component analysis; II . Real data. Appl.
Stat, Srie C, London, v.22, p.21-31, 1973.
KENDALL, M. Multivariate analysis. High Wycombe, Charles Griffin, 1980. 209 p.
KENDALL, M. Multivariate analysis. High Wycombe, Charles Griffin, 1980. 209p.
KENDALL, M.G. Factor analysis as a statistical techiniques. J. R. Statist. Soc., B, 22: 60-73,
1950.
LIBERATO, J.R. Aplicaes de tcnicas de anlise multivariada em fitopatologia. Viosa,
UFV, 1995. 144 p. (Tese M.S.)
MANLY, B.F.J. Multivariate statistical methods: A primer. London, Chapman and Hall,
1986. 159 p.
MANLY, B.F.J. Multivariate statistical methods: A primer. London, Chapman and Hall,
1986. 159 p.
MARDIA, K.V.; KENT, J.T.; BIBBY, J.M. Multivariate analysis. Academic Press, 1979.
521 p.
MARDIA, K.V.; KENT, J.T.; BIBBY, J.M. Multivariate analysis. London, Acad. Press,
1979. 521 p.
MORRISON, D.F. Multivariate statistical method. McGraw - Hill Book Co., 1976. 415 p.
MORRISON, D.F. Multivariate statistical methods (2a ed.). New York, Mc Graw-Hill,
1976. 415 p.
NEGRILLO, B.G. & PERRE, M.A. Mtodos multivariados e aplicaes. Londrina-PR,
Depto. de Matemtica Aplicada - VEL, 1987. 91 p.
QUEIROZ, W.T. de. O uso da anlise multivariada nos levantamentos florestais.
Simpsio sobre Inventrio Florestal, 2, Piracicaba, 1984, pg. 103-6.
In:
RAO, C.R. Advanced statistical methods in biometric research. New York, John Wiley &
Sons, 1952. 389 p.
RAO, R.C. Advanced statistical method in biometric research. John Wiley and Son, 1952.
390 p.
SAKAGUTI, E.S. Utilizao de tcnicas de anlise multivariada na avaliao de
cruzamentos diallicos em coelhos. Viosa, UFV, 1994. 181 p. (Tese M.S.).
SINGH, R.K. & CHAUDHARY, B.D. Biometrical methods in quantitative genetic
analysis. New Delhi, Kalyani Publishes. 1979. 304 p.
56
SMITH, H.; GNANA DESIKAN, R.; HUGHES, J.B. Multivariate analysis variance
(MANOVA). Biometrics, 18:22-41. 1962.
SOUZA, A.L. de. Anlise multivariada para manejo de florestas naturais: alternativas
de produo sustentada de madeiras para serraria. Curitiba, UFPR, 1989. 255 p.
(Tese D.S.)
SOUZA, A.L. de.; HOSOKAWA, R.T.; KIRCHNER, F.F.; MACHADO, S.A. Anlise
multivariada para manejo de floresta natural na reserva florestal de Linhares, Esprito
Santo: anlises de agrupamento e discriminante. Rev. rvore, v.14, n.2, p.85-101, 1990.
SOUZA, I.C.G. Aplicao de algumas tcnicas de anlise multivariada no estudo de
hbridos de Eucalyptus spp. Piracicaba, ESALQ/USP, 1993 (Monografia)
STUKER, H. Anlise multivariada para dados onde a caracterstica observada
subdividida em K classes. Piracicaba, ESALQ/USP, 1986. 92 p. (Tese M.S.).
VAN LAAR, A.V. Multivariate Analysis - A way to better understanding of complexity.
South African For. Journal, n.141, junho, 1987.
WILKS, S.S. Certain generalizations in the analysis of variance. Biometrika, 24:471-494,
1932.
57

Aplicações de Algumas Técnicas Multivariadas

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aplicações de Algumas Técnicas Multivariadas

Enviado por

Direitos autorais:

Formatos disponíveis

APLICAES DE ALGUMAS TCNICAS MULTIVARIADAS

(Componentes Principais, Variveis Cannicas e Correlaes Cannicas)

MANEJO FLORESTAL DEF/UFV

Prof. Agostinho Lopes de Souza

MANEJO FLORESTAL DEF/UFV

Prof. Agostinho Lopes de Souza

difundida aps desenvolvimento de computadores eletrnicos e atualmente, devido a grande

MANEJO FLORESTAL DEF/UFV

Prof. Agostinho Lopes de Souza

termos de elipsides de densidade constante (JOHNSON e WICHERN, 1988). Entretanto,

Cov (Yi ,Yk) = 1i S 1k

Os componentes principais so combinaes lineares no correlacionadas, cujas

MANEJO FLORESTAL DEF/UFV

Prof. Agostinho Lopes de Souza

MANEJO FLORESTAL DEF/UFV

Prof. Agostinho Lopes de Souza

Var (Yi) = 1 + 2 + ... + p = tr S = Var (Xi) = 211 + 222 + ... 2pp

Assim, a importncia relativa de um componente principal (IRk) avaliada pela

[Var (Yi)] [Var (Xk)]

MANEJO FLORESTAL DEF/UFV

Prof. Agostinho Lopes de Souza

Em que os vetores linhas representam as espcies e os vetores colunas representam as

* A covarincia amostral foi obtida pela frmula:

em que Xh a mdia da espcie h e Xi a mdia da espcie i.

MANEJO FLORESTAL DEF/UFV

Prof. Agostinho Lopes de Souza

Var (Y2) = Var (0,433 X1 + 0,901 X2)

11 + 22 = V (X1) = 1 + 2 = V (Yi) = 6,2

O coeficiente da correlao entre Y1 e as variveis X1 e X2 so:

Y1,X2 = ______________ = _____________________ = 0,51

MANEJO FLORESTAL DEF/UFV

Prof. Agostinho Lopes de Souza

O coeficiente de correlao entre Y2 e as variveis X1 e X2 so:

Y2,X1 = ______________ = ____________________ = 0,36

Y2,X2 = ______________ = _____________________ = 0,86

CPA = Coeficiente de ponderao associado.

Os escores dos componentes so obtidos por:

MANEJO FLORESTAL DEF/UFV

Prof. Agostinho Lopes de Souza

Os escores dos componentes so coordenadas retangulares da ordenao e podem ser

2.5. Componentes Principais Obtidos de Variveis Padronizadas

Neste caso, a matriz de covarincias das variveis Zi, i = 1, 2, ..., p, torna-se:

MANEJO FLORESTAL DEF/UFV

Prof. Agostinho Lopes de Souza

Var (Z) = (V )-1 Var (X - ) (V )-1

Var (Z) = (V )-1 S (V )-1 = R (matriz de correlao)

MANEJO FLORESTAL DEF/UFV

Prof. Agostinho Lopes de Souza

Os componentes principais de Z podem ser obtidos dos autovalores-autovetores da

com : Var (Yi) = Var (Zi) = p

Neste caso (1 , 11), (2 , 12), ... , (p , 1p) so pares de autovalores-autovetores de R.

MANEJO FLORESTAL DEF/UFV

Prof. Agostinho Lopes de Souza

Os pares de autovalores-autovetores de S so:

Similarmente, os autovalores-autovetores de R so:

Os respectivos componentes principais so:

Y1 = 0,707 (X1 - 1) + 0,0707 (X2 - 2)

Y2 = 0,707 (X1 - 1) - 0,0707 (X2 - 2)

MANEJO FLORESTAL DEF/UFV

Prof. Agostinho Lopes de Souza

Y1,X1 = ____________ = _____________________ = 0,400

Y1,X2 = ____________ = _____________________ = 0,998

Y2,X1 = ____________ = _____________________ = 0,916

Y1,X2 = = _______ = 0,51

Y2,X1 = = ______ = 0,36

Y2,X2 = = _______ = 0,86

Y1,X1 = = _________ = 0,400

Y1,X2 = = _________ = 0,998

Y2,X1 = = _________ = 0,916

Y2,X2 = = _________ = -0,004