Você está na página 1de 58

APLICAES DE ALGUMAS TCNICAS MULTIVARIADAS

(Componentes Principais, Variveis Cannicas e Correlaes Cannicas)






NDICE
Pgina


1. INTRODUCO.......................................................................................................... 1
2. COMPONENTES PRINCIPAIS................................................................................ 1
2.1. Introduo............................................................................................................ 1
2.2. Obteno dos Componentes Principais ............................................................... 2
2.3. Importncia Relativa de um Componente Principal............................................ 4
2.4. Correlao Entre o Componente Y
k
e a Varivel X
i
........................................... 5
APLICAO 1 .......................................................................................................... 6
2.5. Componentes Principais Obtidos de Variveis Padronizadas ............................. 9
APLICAO 2 .......................................................................................................... 11
2.6. Sumarizao da Variao Amostral por Componetes Principais ........................ 14
2.7. Descarte de Variveis .......................................................................................... 14
2.8. Anlises de Componentes Principais e Anlise de Agrupamento....................... 15
APLICAO 3 .......................................................................................................... 16
3. VARIVEIS CANNICAS ...................................................................................... 21
3.1. Introduo............................................................................................................ 21
3.2. Obteno das Variveis Cannicas...................................................................... 22
3.3. Importncia Relativa de uma Varivel Cannica................................................ 25
3.4. Descarte de Variveis .......................................................................................... 25
3.5. Anlise de Variveis Cannica e Anlise de Agrupamento................................ 26
APLICAO 4 .......................................................................................................... 27
4. CORRELAES CANNICAS............................................................................... 31
4.1. Introduo............................................................................................................ 31
4.2. Obteno das Correlaes Cannicas e dos Pares Cannicos............................. 32
APLICAO 5 .......................................................................................................... 35
4.3. Algumas Aplicaes na rea Florestal ............................................................... 36
5. ANLISE DE VARINCIA MULTIVARIADA..................................................... 38
5.2. Consideraes sobre a MANOVA ...................................................................... 39
5.2.1. Desenvolvimento Matemtico.......................................................................... 40
APLICAO 1 .......................................................................................................... 47
5.3. Procedimentos para Comparaes Mltiplas ...................................................... 51
6. REFERNCIAS BIBLIOGRFICAS....................................................................... 55






MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


1
1. INTRODUCO
A anlise estatstica multivariada ou simplesmente anlise multivariada o ramo da
estatstica direcionado ao estudo das amostras e distribuio multidimensionais, ou seja, so
mtodos estatsticos apropriados para estudos em que vrias variveis so consideradas
simultaneamente.
No entanto, apesar de as tcnicas multivariadas terem eficincia comprovada e propor-
cionarem enriquecimento das informaes extradas de dados experimentais, necessria para
seu uso a disponibilidade de recursos computacionais, motivo pelo qual a referida tcnica
ficou limitada no seu uso e do repasse entre os pesquisadores das diversas reas da cincia, no
Brasil. Entretanto, com a incrementao dos recursos da informtica nos ltimos anos, a
tcnica atraiu a ateno dos pesquisadores das diversas reas, tornando o seu emprego
potencialmente grande e, conseqentemente, o seu conhecimento indispensvel.
A anlise multivariada compreende vrias tcnicas que, segundo KENDALL (1980),
citado por CRUZ (1987), distinguem-se em:
a) Tcnicas de Avaliao da Interdependncia: estuda as relaes de um conjunto
de variveis entre si.
- Cluster Analysis ou Anlise de Agrupamento
- Componentes Principais
- Correlaes Cannicas
- Anlise Fatorial
- Escala

b) Tcnicas de Avaliao da Dependncia: estuda a dependncia de uma ou mais
variveis em relao s outras.
- Regresso
- Relao Funcional
- Mltipla Contigncia
- Anlise Discriminante

Devido complexidade e extenso do assunto, o presente trabalho teve como objetivo
fazer uma abordagem sobre a utilizao de algumas tcnicas multivariadas na rea florestal,
tomando-se como base os seguintes estudos: Componentes Principais, Variveis Cannicas e
Correlaes Cannicas.

2. COMPONENTES PRINCIPAIS
2.1. Introduo
A anlise de componentes principais uma tcnica multivariada, que segundo
KENDAL (1950), uma tcnica de avaliao da interdependncia, ou seja, estuda as relaes
de um conjunto de variveis entre si.
A tcnica de componentes principais foi originalmente descrita por Karl Pearson, em
1901, em um artigo onde deu nfase sua utilizao no ajustamento de um subespao a uma
nuvem de pontos. Posteriormente, a tcnica foi consolidada por Hotelling em 1933 e 1936,
para o propsito particular de analisar estruturas de correlaes (MORRISON, 1976,
MARDIA et al., 1979; MANLY, 1986; CRUZ, 1990). Entretanto, o uso da anlise s foi
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


2
difundida aps desenvolvimento de computadores eletrnicos e atualmente, devido a grande
disponibilidade de recursos de computadores sofisticados e de software aplicados, a tcnica
tornou-se amplamente disponvel e utilizada nas vrias reas da cincia.
A tcnica de componentes principais procura explicar a estrutura de varincias-
covarincias atravs de poucas combinaes lineares das variveis originais, com os objetivos
de reduzir os dados, coloc-los numa forma mais adequada para anlise, evidenciar as
tendncias e facilitar sua interpretao. Segundo LIBERATO (1995), a utilizao da anlise
de componentes principais tem por finalidade proporcionar simplificao estrutural dos dados,
de modo que a diversidade, influenciada a princpio por um conjunto p-dimensional (p =
nmeros de caracter considerados no estudo), possa ser avaliada por um complexo bi ou
tridimensional de fcil interpretao geomtrica. Ou ainda, a anlise por componentes
principais, segundo CRUZ (1994), consiste em transformar um conjunto original de variveis
em outro conjunto, de dimenses equivalentes, mas com propriedades importantes de grande
interesse em certos estudos.
Os princpios bsicos desta tcnica so descritos por vrios autores, tais como
MORRISON, 1976; MARDIA et al. (1979); KENDAL (1980); MANLY (1986);JOHNSON e
WICHERN (1988); CRUZ e REGAZZI (1994); entre outros. Segundo estes autores, cada
componente principal uma combinao linear das variveis originais, que so independentes
entre si e estimadas com o propsito de reter, em ordem de estimao, o mximo da
informao, em termos de variao total, contida nos dados originais. Assim, entre todos os
componentes principais, o primeiro tem a maior varincia, o segundo tem a segunda maior e
assim sucessivamente.
A grande importncia do conhecimento da tcnica dos componentes principais,
segundo SOUZA (1988), reside no fato de ela constituir um procedimento bsico do qual
derivam vrios outros mtodos de anlise de dados multivariados, como por exemplo, anlise
de agrupamento cluster analysis.
Assim, segundo CRUZ (1990) o uso da tcnica de componentes principais pode
atender os seguintes propsitos:
i) examinar as correlaes entre caracteres estudados;
ii) resumir um grande conjunto de caracteres em outro menor e de sentido biolgico;
iii)avaliar a importncia de cada caracter e promover a eliminao daqueles que contri-
buem pouco , em termos de variao, no grupo de indivduos avaliados;
iv) construir ndices que possibilitem o agrupamento de indivduos; e
v) permitir o agrupamento de indivduos com o mais alto grau de similaridade,
mediante exames visuais em disperses grficas no espao bi ou tridimensional.
2.2. Obteno dos Componentes Principais
Algebricamente, componentes principais so combinaes lineares particulares das p
variveis aleatrias X
1
, X
2
, ... , X
p
. Geometricamente, estas combinaes lineares representam
a seleo de um novo sistema de coordenadas obtidas pela rotao do sistema original como
X
1
, X
2
, ... , X
p
como eixos. Os novos eixos representam as direes com variablidade mxima
e fornece uma descrio mais simples e mais parcimoniosa da estrutura de covarincias.
Os componentes principais dependem somente da matriz de covarincias (S) ou da
matriz de correlao (R) de X
1
, X
2
, ..., X
p
. Assim, a tcnica de componentes principais
caracteriza-se por trabalhar com a mdia amostral ou ser usada nas situaes em que no h
repeties de dados.
O seu desenvolvimento no necessita de normalidade. No entanto, a anlise de compo-
nentes derivada de populaes normais multivariadas tm suas interpretaes usuais em
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


3
termos de elipsides de densidade constante (JOHNSON e WICHERN, 1988). Entretanto,
embora a anlise, formalmente no requeira a distribuio normal multivariada, ela mais
apropriada para variveis quantitativas contnuas. Quando os dados so constituidos de
contagem, razes, propores ou percentagens, a transformao recomendada para tornar
sua distribuio mais apropriada, previamente anlise de componentes principais. Como
exemplo, STAUFFER et al. (1985) recomenda a transformao de arco seno da raiz quadrada
para dados provenientes de percentagem e os dados de contagem a transformao de raiz
quadrada (PIMENTEL GOMES, 1984).
Seja o vetor aleatrio X = [X
1
, X
2
, ... , X
p
] que tem a matriz de covarincias (S) com
auto- valores (
1

2
...
p
0) e considerando as seguintes combinaes lineares:

Y
1
= 1
1
X = 1
11
X
1
+ 1
21
X
2
+ ... + 1
P1
X
P


Y
2
= 1
2
X = 1
12
X
1
+ 1
22
X
2
+ .... + 1
P2
X
P

.

.
.
Y
P
= 1
P
X = 1
1P
X
1
+ 1
2p
X
2
+ ... + 1
PP
X
P


Sendo:

Var (Y
i
) = 1
i
S 1
i
i = 1, 2, ... , p

Cov (Y
i
,Y
k
) = 1
i
S 1
k
i, k = 1, 2, .... , p

Os componentes principais so combinaes lineares no correlacionadas, cujas
varincias so to grandes quanto possvel. assim:
a) O primeiro componente principal (Y
1
) a combinao linear com varincia
mxima, isto , a combinao linear 1
1
X que maximiza Var (1
1
X) sujeito a
1
1
1
1
= 1;
b) O segundo componente principal (Y
2
) a combinao linear 1
2
X que maximiza
Var (1
2
X), sujeito a 1
2
1
2
e com Cov (1
1
X, 1
2
X) = 0;
c) O i-simo componente principal (Y
i
) a combinao linear 1
i
X que maximiza
Var (1
i
X), sujeito a 1
i
1
i
= 1 e, em todos os casos, a Cov (1
i
X, 1
k
X) = 0.
Desta forma, verifica-se que entre todos os componentes principais, Y
1
apresenta a
maior varincia, Y
2
a segunda maior e, assim sucessivamente, e independente entre si.
Assim, segundo CRUZ e REGAZZI (1994), o problema estatstico consiste funda-
mentalmente em estimar os coeficientes de ponderao dos caracteres em cada componente e
a varincia a eles associada.
Sendo Y
1
o primeiro componente principal, sua varincia dada por:

Var (Y
1
) = 1
1
S 1
1

O que se deseja obter estimativas para o vetor 1
1
de tal forma que a varincia de Y
1

seja a maior de todas. Para atingir este objetivo impe-se a restrio 1
1
1= 1, a qual
introduzida na expresso Var (Y
1
) = 1
1
S 1
1
pelo multiplicador
1
de Lagrante. Assim:

W
1
= 1
1
S 1
1
+
1
(1 - 1
1
1
1
)

MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


4
A soluo que maximiza Var (Y
1
) obtida pela derivao de W
1
em relao a 1
1
, que
dada por:

S -
1
I a = 0

A soluo deste sistema deve ser tal que 1 , assim necessrio que o determinante
de (S -
1
I) seja mulo, para que o sistema se torne indeterminado e a soluo possa ser
escolhida entre aquelas que satisfaam a condio 1
1
1
1
= 1.

Sendo
1
o valor que satisfaz S -
1
I = 0, ento, por definio,
1
a raiz
caracterstica (ou autovalor) de S e 1
1
, o vetor caracterstico (autovetor) associado.
Sendo o vetor 1
1
o escolhido para maximizar Var (Y
1
), tem-se que
1
o maior valor
entre o conjunto de autovalores de S.
A varincia do segundo componente principal dada por: Var (Y
2
) = 1
2
S 1
2
. Para
obteno das estimativas do vetor 1
2
, deve-se considerar as restries 1
2
1
2
= 1 e 1
2
1
1
= 1
1

1
2
= 0, as quais so incorporadas na funo de maximizao por meio dos multiplicadores
2
e
de Lagrande. Assim, estabelecido que:

W
2
= 1
2
S 1
2
+
2
( 1 - 1
2
1
2
) + 1
2
1
1


A soluo que maximizar Var (Y
2
), obtida pela derivao de W
2
em relao ao 1
2
,
dada por:

(S -
2
I) 1
2
=

em que
2
a segunda maior raiz caracterstica de S e 1
2
o seu autovetor associado.

As restries consideradas neste segundo componente principal atendem aos seguintes
propsitos:
a) a primeira restrio necessria para garantir a unicidade de 1
2
;
b) a segunda restrio garante que 1
1
e 1
2
sejam ortogonais.

Os demais componentes principais so estimados de maneira anloga ao descrito para
os dois primeiros.
2.3. Importncia Relativa de um Componente Principal
Baseando no fato de que:

Var (Y
i
) =
i
;

Var (Y
1
) Var (Y
2
) ... V (Y
p
) 0

Cov (Y
i
, Y
k
) = 0, para i k


p
Var (Y
i
) = tr S

i=1

MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


5
ou seja,

p p

Var (Y
i
) =
1
+
2
+ ... +
p
= tr S = Var (X
i
) =
2
11
+
2
22
+ ...
2
pp
i = 1

i = 1

Assim, a importncia relativa de um componente principal (IR
k
) avaliada pela
percentagem da varincia que ela explica, ou seja, a proporo da variao total explicada
pela k-sima componente principal dada por:


k

IR
k
=
_____________________________
k = 1, 2, ... , p

1
+
2
+ ... +
p


Ou ainda, a proporo da variao total explicada pelos primeiros k componentes
principais (PV
ks
) dada por:


1
+
2
+ ... +
k


PV
ks
=
__________________________
k = 1, 2, ..., p

1
+
2
+ ... +
p

Desta forma, verifica-se que a proporo da variao total explicada pelos primeiros
componentes principais uma medida da quantidade de informao retida pela reduo de p
para k dimenso.
Em certos estudos desejvel que a varincia acumulada nos dois primeiros compo-
nentes principais exceda 70-80%. Nesta condio, a distoro das coordenadas no grfico de
disperso, cujos eixos so os componentes principais, ser considerada aceitvel e as infern-
cias no estudo satisfatrio (CRUZ e REGAZZI, 1994).
2.4. Correlao Entre o Componente Y
k
e a Varivel X
i

Se Y
1
= 1
1
X; Y
2
= 1
2
X; .... , Y
p
= 1
p
X so os componentes principais obtidos da
matriz de covarincia (S), ento o coeficiente de correlao entre o componente Y
1
e a
varivel X
k
dado por:
Cov (Y
i
, X
k
)
i
1
ki
1
ki
[
i
]


Y
i
, X
k
=
________________________________
=
____________________
=
______________

[Var (Y
i
)]

[Var (X
k
)]

[
i
]

[
kk
]

[
kk
]



em que:

i, k = 1, 2, ... , p

Cov (Y
i
, X
k
) =
i
1
ki


Var (Y
i
) = i

Var (X
k
) =
kk



MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


6
APLICAO 1
Supondo os seguintes dados, organizados na forma de uma matriz X, representando
uma amostra de uma vegetao constituda de duas espcies e cinco parcelas,


2 5 2 1 0 _ 2,0
X =

X =
0 1 4 3 1 1,8



Em que os vetores linhas representam as espcies e os vetores colunas representam as
parcelas:

A matriz de covarincia amostral para as duas espcies da matriz X :

S
11
S
12
3,5 -0,5
S = =
S
21
S
22
-0,5 2,7


* A covarincia amostral foi obtida pela frmula:


n
_ _
S
hi
= [ (X
hj
- X
h
) (X
ij
- X
i
) ] / (n - 1) , j = 1 , ... n,

i = 1

em que X
h
a mdia da espcie h e X
i
a mdia da espcie i.
Assim, obteve-se os seguintes pares de autovalores-autovetores:


1
= 3,74; 1
1
= [-0.901 0,433]


2
= 2,46; 1
2
= [ 0,433 0,901]

Observa-se que a soma dos autovalores igual a soma das varincias das espcies:

S
11
+ S
22
=
1
+
2
= 3,5 + 2,7 = 3,74 + 2,46 = 6,2

ou ainda:

Var (Y
1
) = Var (0,901 X
1
+ 0,433 X
2
)

Var (Y
1
) = (-0,901)
2
Var (X
1
) + (0,433)
2
Var (X
2
) + 2(-0,901) (0,433) Cov (X
1
, X
2
)

Var (Y
1
) = (0,812) (3,5) + (0,187) (2,7) + (0,39) (-0,5)

Var (Y
1
) = 3,74 =
1


MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


7
Var (Y
2
) = Var (0,433 X
1
+ 0,901 X
2
)

Var (Y
2
) = (0,433)
2
Var (X
1
) + (0,901)
2
Var(X
2
) + 2(0,433) (0,901) Cov (X
1
, X
2
)

Var (Y
2
) = (0,187) (3,5) + (0,812) (2,7) + (-0,39) (-0,5)

Var (Y
2
) = 2,46 =
2


A importncia relativa de cada um dos componentes principais dada por:


k

IR
k
=
_______________
k = 1 ,2

1
+
2



p


11
+
22
= V (X
1
) =
1
+
2
= V (Y
i
) = 6,2

i =1

Assim,


1
3,74
IR
1
=
_____________
=
_________
= 0,6033 60,33%

1
+
2
6,20



2
2,46
IR
2
=
____________
=
__________
= 0,3967 39,67%

1
+
2
6,20

Verifica-se, neste caso, que 60,37% da variao total est concentrada em Y
1
, ou seja,
Y
1
explica 60,33% da variao total. O segundo componente principal (Y
2
) explica 39,67% da
variao total.


O coeficiente da correlao entre Y
1
e as variveis X
1
e X
2
so:

1
11
[
1
]

-0,901 [3,74]



Y1,X1
=
______________
=
_____________________
= -0,93
[
11
]

[3,50]




1
21
[
1
]

0,433 [3,74]



Y1,X2
=
______________
=
_____________________
= 0,51
[
22
]

[2,70]




Estes resultados mostram que existem uma grande correlao entre Y
1
e X
1
,
mostrando que X
1
de grande importncia para o primeiro componente principal.

MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


8
O coeficiente de correlao entre Y
2
e as variveis X
1
e X
2
so:

1
12
[
2
]

0,433 [2,46]



Y2,X1
=
______________
=
____________________
= 0,36
[
11
]

[3,50]




1
22
[
2
]

0,901 [2,46]



Y2,X2
=
______________
=
_____________________
= 0,86
[
22
]

[2,70]




Neste caso, verificado que a varivel X
2
a de maior importncia para o segundo
componente principal (Y
2
).

Em resumo, tem-se:

Componente Varincia CPA (Autovetores)
Principal Autovalor (%) X
1
X
2
Y
1
3,74 60,33 -0,901 0,433
Y
2
2,46 39,67 0,433 0,901
CPA = Coeficiente de ponderao associado.


Os escores dos componentes so obtidos por:

Y
11
= -0,901 (2) + 0,433 (0) = -1,802

Y
12
= -0,901 (5) + 0,433 (1) = -4,072

Y
13
= -0,901 (2) + 0,433 (4) = -0,070
.
.
.
Y
25
= 0,433 (0) + 0,901 (1) = 0,901


Assim, obtm-se:

Parcelas Componentes
Y
1
Y
2

1 -1,802 0,866
2 -4,072 3,066
3 -0,070 4,470
4 0,398 3,136
5 0,433 0,901
Varincia 3,740 2,460
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


9
Os escores dos componentes so coordenadas retangulares da ordenao e podem ser
plotados e produzir o seguinte diagrama (Figura 1), que mostra a distribuio agrupada dos
componentes.


























Figura 1 - Disperso das Cinco Parcelas em Relao aos Dois Componentes Principais
(Y
1
e Y
2
).

2.5. Componentes Principais Obtidos de Variveis Padronizadas
Segundo CRUZ (1987), o mtodo de obteno dos componentes principais a partir de
uma matriz de covarincias (S), como descrito anteriormente, tem sido aconselhvel apenas
nos casos em que os caracteres apresentam uma mesma unidade e dimenso no muito
discrepante. No entanto, em situaes em que este fato no se verifica, ou seja, os caracteres
em estudo so bastante diferentes em suas unidades e em sua magnitude, tem sido
recomendada a padronizao dos mesmos, da seguinte forma:

X
1
-
Z
i
=
___________


i


Neste caso, a matriz de covarincias das variveis Z
i
, i = 1, 2, ..., p, torna-se:


MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


10

1 r
12
. . . r
1p


r
12
1 . . . r
2p

R = . . .
. . .
. . .
r
p1
r
p2
. . . 1

em que:

Cov (X
i
, X
j
)
r
ij
= Cov (Z
i
, Z
j
) =
________________________
[Var (X
i
) Var (X
j
)]



De acordo com CRUZ (1987), as estimativas dos componentes principais, quando se
usa a matriz S pode ser muito diferente daquelas encontradas quando se utiliza da matriz R.
Assim, recomendado o uso de matriz S, somente naqueles casos em que as unidades
originais no so fixadas arbitrariamente, mas sim sugeridas por razes objetivas.

Seja o vetor aleatrio X = [ X
1
, X
2
, .... , X
p
]. Considerando a padronizao destas
variveis, tem-se:

X
1
-
1
X
2
-
2
X
p
-
p

Z
1
=
___________
; Z
2
=
___________
; . . . ; Z
p
=
___________

[
11
]

[
22
]

[
pp
]




A notao matricial :

Z = (V

)
-1
(X - )

em que


11

22

.
V = .
.

pp



claro que:

E (Z) = e Var (Z) = (V

)
-1
Var (X - ) (V

)
-1


Var (Z) = (V

)
-1
S (V

)
-1
= R (matriz de correlao)

tem-se que: V

. R . V

= S.

MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


11
em que:


11

21
. . .
p1



12

22
. . .
p2

S = . .
. .
. .

1p

22
. . .
pp


Os componentes principais de Z podem ser obtidos dos autovalores-autovetores da
matriz de correlao R de X. Assim, se continuarmos denotando Y
i
para referir o i-simo
componente principal e (
i
, 1
i
) para os pares de autovalores-autovetores. O i-simo
componente principal das variveis padronizadas Z= [ Z
1
, Z
2
, ... , Zp], com Var (Z) = R,
dado por:

Yi = 1
i
Z = 1
i
(V

)
-1
(X - ), i = 1,2,..., p


p p
com : Var (Y
i
) = Var (Z
i
) = p

i = 1 i = 1


Yi
, Z
k
= 1
ki
[i]

, i , k = 1, 2, ..., p


Neste caso (
1
, 1
1
), (
2
, 1
2
), ... , (
p
, 1
p
) so pares de autovalores-autovetores de R.

Desta forma, baseando no fato de que Var (Z
i
) = p, a proporo da variao total
devido ao k-simo componente principal dada por:


k

IR
k
=
________
, k = 1, 2, ..., p
p

em que os
ks
so os autovalores da matriz R.


APLICAO 2
Seja a matriz de covarincias S:


1 4
S =
4 100


MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


12
e a matriz de correlao R:


1,0 0,4
R =
0,4 1,0

Os pares de autovalores-autovetores de S so:


1
= 100,16 1
1
= [0,040 0,999]


2
= 0,84 1
2
= [0,999 -0,040]


Similarmente, os autovalores-autovetores de R so:


1
= 1 + = 1,4; 1
1
= [0,707 0,707]


2
= 1 - = 0,6; 1
2
= [0,707 -0,707]


Os respectivos componentes principais so:

a) A partir de S;

Y
1
= 0,040 X
1
+ 0,999 X
2


Y
2
= 0,999 X
1
- 0,040 X
2



b) A partir de R:

Y
1
= 0,707 Z
1
+ 0,707 Z
2


X
1
-
1
X
2
-
2

Y
1
= 0,707
_____________
+ 0,707
_____________

1 10

Y
1
= 0,707 (X
1
-
1
) + 0,0707 (X
2
-
2
)



Y
2
= 0,707 Z
1
- 0,707 Z
2


X
1
-
1
X
2
-
2

Y
2
= 0,707
_____________
- 0,707
_____________

1 10

Y
2
= 0,707 (X
1
-
1
) - 0,0707 (X
2
-
2
)

MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


13
A proporo da variao total explicada por cada um dos componentes principais so:

a) A partir de S:


1
100,16
IR
1
=
___________
=
___________
= 0,992

1
+
2
101,00



2
0,84
IR
2
=
___________
=
___________
= 0,008

1
+
2
101,00

O primeiro componente principal (Y
1
) explica 99,2% da variao total.

b) A partir de R:


1
1,40
IR
1
=
_______
=
_______
= 0,70
p 2,00


2
0,60
IR
2
=
_______
=
_______
= 030
p 2,00

O primeiro componente principal (Y
1
), neste caso, explica 70% da variao total.

Os coeficientes de correlao entre Y
i
e as variveis X
1
e X
2
, so:

a) A partir de S:

1
11
[
1
]

0,040 [100,16]



Y1,X1
=
____________
=
_____________________
= 0,400
[
11
]

[1,0]




1
21
[
1
]

0,999 [100,16]



Y1,X2
=
____________
=
_____________________
= 0,998
[
22
]

[100]




1
12
[
2
]

0,999 [0,840]



Y2,X1
=
____________
=
_____________________
= 0,916
[
11
]

[1,0]




1
22
[
2
]

-0,040 [0,840]



Y2,X2
=
____________
=
_____________________
= -0,004
[
22
]

[100]


MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


14
b) A partir de R:


Y1,Z1
= 1
11
[
1
]

= 0,707 [1,4]

= 0,837


Y1,Z2
= 1
21
[
1
]

= 0,707 [1,4]

= 0,837


Y2,Z1
= 1
12
[
2
]

= 0,707 [0,6]

= 0,548


Y2,Z2
= 1
22
[
2
]

= -0,707 [0,6]

= -0,548


Da aplicao 2, pode-se concluir que a varivel X
2
praticamente domina o primeiro
componente principal, quando este determinado a partir de S, em que o primeiro
componente principal (Y
1
) explica 99,2% da variao total. Quando as variveis X
1
e X
2
so
padronizadas, no entanto, as duas variveis contribuem igualmente, e o primeiro componente
principal explica 70% da variao total.
O presente exemplo demonstra que os componentes principais derivados a partir de S
so diferentes daqueles derivados a partir de R. Um grupo de componentes principais no
uma simples funo do outro. Isto sugere que a padronizao no inconseqente.
Assim, variveis podem ser padronizadas se elas possuem medidas ou escalas muito
diferentes ou as unidades de medida so incomesurveis.
2.6. Sumarizao da Variao Amostral por Componetes Principais
Embora p-componentes principais sejam necessrios para reproduzir a variabilidade
total do sistema, a viabilidade de utilizao da tcnica de componentes principais reside na
possibilidade de resumir o conjunto de variveis originais em poucos componentes. Nestas
condies, esta tcnica proporcionar uma simplificao considervel nos clculos estatsticos
e na interpretao dos resultados com relao aos demais mtodos altenativos, principalmente
quando o nmero de indivduos avaliados for relativamente grande.
Assim, se os primeiros componentes principais acumularem uma porcentagem
relativament alta da variao total, em geral referida como acima de 80%, eles explicaro
satisfatoriamente a variabilidade manifestada entre os indivduos avaliados e, portanto, o
fenmeno poder ser interpretado com considervel satisfao. Segundo CRUZ e REGAZZI
(1994), em estudos da divergncia gentica, em geral, tm optado pela representao grfica
quando os dois primeiros componentes principais envolvem pelo menos 70 a 80% da variao
total. Nos casos em que este limite no alcanado nos dois primeiros componentes, a anlise
complementada pela disperso grfica em relao ao terceiro e quarto componente.
2.7. Descarte de Variveis
Em certos estudos, quando o nmero de variveis muito grande, procura-se descartar
aquelas de poucas relevncia na discriminao do material avaliado, reduzindo, assim, mo-
de-obra, tempo e custo despendido na anlise e interpretao dos dados experimentais.
Em estudos de divergncia gentica, caracteres dispensveis so aqueles relativamente
invariantes entre as espcies/clones estudados,e, ou, redundantes, por estarem correlacionados
com outros caracteres (CRUZ & REGAZZI , 1994). Segundo ADANS e WIERSMA (1978),
citado por CRUZ e REGAZZI (1994), os caracteres a serem preservados na anlise de
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


15
divergncia gentica devero ser apenas aqueles que representam a estrutura fundamental do
sistema biolgico que est sendo estudado, devendo ainda serem suficientemente diversos
para representarem, no mnimo, as dimenses mais importantes do sistema.
Uma das tcnicas de descartes de variveis aquela citada por MARDIA et al. (1979)
e CRUZ e REGAZZI (1994), em que baseia-se no princpio de que a importncia relativa dos
componentes principais decresce do primeiro para o ltimo; assim, tm-se que os ltimos
componentes so responsveis pela explicao de uma frao mnima da varincia total
disponvel. Desta forma, segundo estes autores, a varivel que apresentam maior coeficiente
de ponderao (elemento do autovetor) no componente de menor autovalor, considerada de
menor importncia para explicar a variabilidade do material estudado, sendo, portanto,
possvel de descarte.
Este princpio de descarte de variveis consistente com a notao que considera que
um componente com um pequeno autovalor de pouca importncia e, consequentemente, a
varivel que domina este deve ser de pequena importncia ou redundante.
Segundo recomendaes de JOLLIFFE (1972, 1973), MARDIA et al. (1979) e CRUZ
e REGAZZI (1994) tem sido comum descartar a varivel de maior coeficiente de ponderao
(em valor absoluto) a partir do ltimo componente at aquele cujo autovetor no excede a
0,70 (vlido para dados padronizados). Quando em um componente de menor varincia, o
maior coeficiente de ponderao est associado a uma varivel j previamente descartada,
tem-se optado por no fazer nenhum outro descarte com base nos coeficientes daquele
componente, mas prosseguir a identificao da importncia relativa das variveis no outro
componente de varincia imediatamente superior.
Uma variao deste mtodo de descarte de variveis, segundo MARDIA et al. (1979),
consiste a cada estgio de descarte da varivel associada com o componente de menor
autovalor, refazer a anlise de componentes principais com as variveis remanescentes. Este
processo conduzido at que todos os componentes principais tenham autovalores altos.
2.8. Anlises de Componentes Principais e Anlise de Agrupamento
O uso dos componentes principais na reduo do nmero dedimenses de uma matriz
permite a apresentao grfica. Assim, quando os primeiros componentes explicam a maior
parte da variao do sitema em estudo, estes podem ser representados graficamente e apre-
sentar uma importante aplicao em conexo com a anlise de agrupamento (MARDIA et al.,
1979; MARRIOT, 1974).
Segundo CRUZ e REGAZZI (1994), um dos objetivos do uso dos componentes
principais em estudo sobre a divergncia gentica avaliar a dissimilaridade dos gentipos,
clones, etc., em grficos de disperso, em que tem os primeiros componentes como eixo de
referncia. Este procedimento satisfatrio quando os odis primeiros componentes utilizados
como eixo do sistema cartsiano envolvem uma frao considervel da variao total,
normalmente citada como acima de 70 a 80%. Nos casos em que o limite no atingido com
os dois primeiros componentes, a anlise complementada com a disperso grfica em
relao ao terceiro e quarto componente.
MARRIOT (1974) comenta que uma das dificuldades na anlise de agrupamento,
utilizando mtodos numricos, com relao a deciso da diviso de um conjunto de
observaes em grupos. Em alguns casos, mtodos visuais so mais eficientes do que os
baseados em valores numricos. Assim, grficos de disperso provenientes dos componentes
principais podem auxiliar a anlise de agrupamento em vrios sentidos. Em primeiro lugar,
como forma particular de anlise de agrupamento, ou seja, naquelas situaes em que os
grupos so claramente definidos e bem separados, um mtodo analtico elaborado, neste caso,
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


16
usualmente desnecessrio. Pode mostrar que uma tcnica particular de agrupamento no
apresenta resultados satisfatrios, sugerindo assim, alternativas. Finalmente, se testes de
significncia no so possveis, a representao grfica por componentes principais confirma
os agrupamentos sugeridos pelos mtodos numricos.
Segundo CRUZ e REGAZZI (1994), como nesta tcnica feita uma simplificao do
espao n-dimensional para o bi ou tri-dimensional, h certas distores nas distncias.
Entretanto, h entre as estimativas das distncias euclideanas baseadas nos escores dos
primeiros componentes principais e as distncias Euclideanas baseadas nos dados originais,
uma relao matemtica dada por:

dcp
2
ii

=
____________________
, para i < i.
n d
2
ii


em que:

dcp
2
ii
= quadrado da distncia Euclidiana estimada a partir dos escores de n
1
componentes
principais;
d
2
ii
= quadrado da distncia Euclidiana mdia estimada a partir das n variveis originais.

Assim, segundo estes autores, o parmetro (1 - ) mede o grau de distoro
proporcionado pela tcnica dos componentes principais, ao se passar do espao n-dimensional
para o n
1
-dimensional (n
1
< n).
Nos casos em que a disperso grfica no prov informaes adequadas sobre o grau
de similaridade dos indivduos estudados, CRUZ (1990) comenta que certos autores tm
utilizado os escores dos primeiros componentes principais para o clculo da distncia
Euclideana, valendo-se, para esse fim, da propriedade de independncia entre tais compo-
nentes. Tal procedimento , muitas das vezes, utilizado para complementar as informaes da
disperso grfica, em virtude de permitir o estabelecimento de grupos de maneira menojs
subjetiva do que aquela que se verifica em exames visuais. Maiores detalhes sobre a utilizao
combinada das duas tcnicas (componentes principais e conglomerao) em estudos sobre
divergncia gentica so encontrados em ADANS e WIERSMA (1978).

APLICAO 3
Caso base em dados de um teste de prognies de Eucalyptus sp., em que foram
avaliadas 10 caractersticas (X
1
, X
2
, X
3
, X
4
, X
5
, X
6
, X
7
, X
8
, X
9
e X
10
) em 10 prognies, num
delineamento em blocos ao acaso com quatro repeties e seis plantas por parcela, realizou-se
a anlise por componentes principais. A seguir so apresentados as matrizes de mdias,
varincia, covarincia e de correlaes.








MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


17
Quadro 1 Mdias dos Dados Originais das 10 Prognies em Relao a 10 caractersticas
(X
1
, X
2
, X
3
, X
4
, X
5
, X
6
, X
7
, X
8
, X
9
e X
10
)
Caractersticas
Prog.
X
1
X
2
X
3
X
4
X
5
X
6
X
7
X
8
X
9
X
10

1 10.7542 0.6708 16.4708 12.8417 0.0750 0.0575 0.0175 0.4786 0.3659 0.1559
2 10.3417 0.6000 17.0833 13.0708 0.0731 0.0556 0.0175 0.4791 0.3647 0.1513
3 11.2625 0.6750 17.0250 13.2875 0.0832 0.0649 0.0184 0.5509 0.4274 0.1842
4 10.3583 0.6083 16.7542 13.1375 0.0768 0.0587 0.0181 0.5230 0.3975 0.1475
5 9.8083 0.5542 15.9250 11.6000 0.0616 0.0480 0.0136 0.4943 0.3846 0.1244
6 10.2292 0.6833 16.6208 13.0708 0.0691 0.0525 0.0167 0.4953 0.3750 0.1402
7 9.6042 0.6500 15.7333 11.5958 0.0621 0.0479 0.0142 0.5147 0.3939 0.1201
8 9.5208 0.5833 15.8167 11.6208 0.0579 0.0439 0.0140 0.4950 0.3758 0.1169
9 11.6333 0.7458 16.6833 12.9125 0.0954 0.0736 0.0218 0.4924 0.3769 0.1979
10 10.4292 0.6792 15.7208 11.7958 0.0687 0.0527 0.0161 0.4803 0.3674 0.1422



Quadro 2 Mdias Padronizadas das 10 Prognies em Relao a 10 Caractersticas (X
1
, X
2
,
X
3
, X
4
, X
5
, X
6
, X
7
, X
8
, X
9
e X
10
)
Caractersticas
Prog.
X
1
X
2
X
3
X
4
X
5
X
6
X
7
X
8
X
9
X
10

1
15,78 11,66 30,73 17,47 06,69 06,54 07,04 20,82 19,03 05,90
2
15,17 10,43 31,87 17,78 06,52 06,32 07,04 20,84 18,97 05,73
3
16,52 11,73 31,76 18,08 07,42 07,38 07,41 23,97 22,23 06,98
4
15,19 10,57 31,26 17,88 06,85 06,68 07,28 22,75 20,68 05,59
5
14,39 9,63 29,71 15,78 5,50 5,36 5,55 21,47 19,23 4,71
6
15,01 11,87 31,01 17,78 06,17 05,97 06,72 21,55 19,51 05,31
7
14,09 11,29 29,35 15,78 05,54 05,45 05,71 22,39 20,49 04,55
8
13,97 10,14 29,51 15,81 05,17 04,99 05,63 21,54 19,55 04,43
9
17,07 12,96 31,12 17,57 08,51 08,37 08,77 21,42 19,60 07,49
10
15,30 11,80 29,33 16,05 06,13 05,99 06,48 20,89 19,11 05,38
X
i

* Padronizao : Z
i
=
______ .


i


Quadro 3 Matriz de Varincias e Covarincias Entre as Variveis originais

0,4646 0,0291 0,2361 0,3507 0,0074 0,0058 0,0016 0,0026 0,0025 0,0178
0,0033 0,0730 0,0171 0,0005 0,0004 0,0001 0,00004 0,000009 0,0011
0,2872 0,3772 0,0142 0,0032 0,0009 0,0034 0,0025 0,0099
0,5401 0,0061 0,0046 0,0014 0,0044 0,0030 0,0141
0,0001 0,0001 0,00003 0,00005 0,00005 0,0003
0,00008 0,00002 0,00005 0,00004 0,00006
0,000006 0,000006 0,000004 0,000006
0.00053 0,0004 0,0001
0,0004 0,0001
0,0007

MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


18
Quadro 4 Matriz de Correlao entre Variveis Originais
1,0 0,7419 0,6462 0,7000 0,9626 0,9663 0,9263 0,1668 0,1932 0,9885
1,0 0,2391 0,4050 0,7043 0,6992 0,7097 0,0295 0,0081 0,7032
1,0 0,9577 0,6977 0,6835 0,7294 0,2726 0,2418 0,7035
1,0 0,7365 0,7176 0,7860 0,2619 0,2112 0,7263
1,0 0,9983 0,9785 0,2060 0,2087 0,9768
1,0 0,9647 0,2352 0,2457 0,9803
1,0 0,1012 0,0768 0,9395
1,0 0,9857 0,2279
1,0 0,2485
1,0


Baseado na teoria descrita anteriormente sobre componentes principais, os autovalores
e autovetores associados so apresentados a seguir (Quadro 5). Estes foram obtidos a partir da
matriz de correlao entre as caractersticas originais (R) (ou matriz de covarincias entre as
caractersticas padronizadas).
A obteno destes autovalores e autovetores associados por um processo manual
impraticvel. Desta forma, utilizou-se o Software GENES.


Quadro 5 Componentes Principais Obtidos da Anlise de 10 Caractersticas (X
1
, X
2
, X
3
,
X
4
, X
5
, X
6
, X
7
, X
8
, X
9
e X
10
)

Varincia Coeficiente de Ponderao Associado (Autovetores)
Componente
Principal
Autovalor
Acumul.
(%)
X
1
X
2
X
3
X
4
X
5
X
6
X
7
X
8
X
9
X
10

Y
1
6,6879 66,88 0,3713 0,2715 0,3041 0,3218 0,3788 0,3778 0,3728 0,1117 0,1090 0,3778
Y
2
1,9454 86,33 -0,0862 -0,2067 0,0954 0,0537 -0,0639 -0,0406 -0,1411 0,6752 0,6744 -0,0398
Y
3
0,9508 95,79 -0,1511 -0,5276 0,6051 0,4980 -0,0863 -0,1151 0,0137 -0,1405 -0,1838 -0,1012
Y
4
0,2950 98,84 -0,1973 0,7308 0,1132 0,4413 -0,2375 -0,2799 -0,0621 0,1362 -0,0554 -0,2432
Y
5
0,0849 99,64 -0,5509 -0,0580 -0,1532 -0,0238 0,3027 0,2162 0,5664 0,2195 -0,1465 -0,3746
Y
6
0,0255 99,87 -0,4299 0,2392 0,6111 -0,5532 0,0263 0,0539 -0,0943 -0,0505 0,0272 0,2501
Y
7
0,0099 99,99 0,1078 -0,0855 -0,0135 -0,1496 -0,2984 -0,5076 0,4868 0,3609 -0,2933 0,3981
Y
8
0,0003 99,99 0,4077 0,0557 0,2788 -0,2880 -01295 -0,1633 0,4069 -0,2360 0,3195 -0,5507
Y
9
0,00009 99,99 -0,3560 -0,0092 -0,2113 0,1968 -0,1537 -0,1377 0,3015 -0,5032 0,5305 0,3488
Y
10
0,00002 100,00 -0,0029 -0,0047 0,0002 0,0008 -0,7529 0,6411 0,1175 0,0589 -00686 0,0057



No Quadro 3, pode-se constatar numericamente que:


i
= Var (Y
i
) = Trao R = 10

i

a
2
1
= 1 e a
j
b
j
=

j


MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


19
Os resultados apresentados no Quadro 5 evidenciam que o primeiro componente
principal (Y
1
) explica 66,88% da variao total disponvel. Os dois primeiros componentes
principais (Y
1
e Y
2
) explicam 86,33% e os trs primeiros (Y
1
, Y
2
e Y
3
) explicam 95,84% da
varincia total disponvel. Portanto, para o presente exemplo, a tcnica de componentes
principais sumariza muito bem a variao total disponvel dos dados amostrais pelo trs
primeiros componentes principais.
Assim, a utilizao destes componentes no estudo de divergncia gentica por meio da
disperso dos escores em grficos cujos eixos so os referidos componentes (Y
1
e Y
2
),
apresentar resultados satisfatrios.
Em estudos que utilizam a tcnica dos componentes principais como meio de descartes
de variveis com a finalidade de reduo de mo-de-obra, tempo e custo despendido na
anlise e interpretao dos dados experimentais, a importncia relativa das caractersticas
pode ser avaliada pela magnitude do coeficiente de ponderao destas. Assim, com base em
MARDIA et al. (1978) e CRUZ e REGAZZI (1994), para o presente exemplo, identifica-se,
em ordem crescente, os caracteres X
5
, X
10
, X
6
, X
3
, X
7
e X
2
, com maiores pesos em Y
10

(-0,7529), Y
9
(0,5305), Y
8
(-0,5507), Y
7
(-0,5076), Y
6
(0,6111), Y
5
(0,5664) e Y
4
(0,7308),
respectivamente, como os de menores importncia no estudo realizado, so possveis de
descarte.
No exemplo em considerao, o descarte de X
2
, X
3
, X
5
, X
6
, X
7
e X
10
minimizado
pela presena de X
1
e X
4
, cujas correlaes entre estas so altas (ver matriz de correlaes
entre variveis originais). O descarte da varivel X
9
minimizado pela presena de X
8
, cuja
correlao com X
9
de 0,9857.
Os escores relativos a cada prognie, em cada componente, estimado com base nas
informaes do Quadro 2 (mdias padronizadas das 10 prognies em relao as 10
caractersticas X
1
, X
2
, X
3
, X
4
, X
5
, X
6
, X
7
, X
8
, X
9
e X
10
) e do Quadro 5 (componentes
principais obtidos da anlise de 10 caractersticas X
1
, X
2
, X
3
, X
4
, X
5
, X
6
, X
7
, X
8
, X
9
e X
10
).
Assim, tem-se:

Y
11
= 0,3713 (15,78) + 0,2715 (11,66) + 0,3041 (30,73)
+ 0,3218 (17,47) + 0,3788 (6,69) + 0,3778 ( 6,54) +
+ 0,3728 (7,04) + 0,1117 (20,82) + 0,1090 (19,03) +
+ 0,3778 (5,90)
Y
11
= 38,2770


Os demais escores encontram-se no Quadro 6.

A disperso destes escores em eixos cartesianos apresentada na Figura 2.

Com base na Figura 2, observa-se que, em relao aos caracteres considerados, as
prognies 1, 2, 6 e 10 e as prognies 5, 7 e 8 so as mais similares, havendo, entretanto,
considervel divergncia entre as prognies 3, 4 e 9.

As distncias grficas podem se estimadas pelas distncias Euclideanas:

dcp
ii
= [(Y
i1
- Y
i1
)
2
+ (Y
i2
- Y
i2
)
2
]




MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


20
Quadro 6 Escores Relativos a 10 Prognies, Obtidos em Relao aos Dois Primeiros
Componentes Principais
Gentipos Y
1
Y
2

1 38,2570 25,0736
2 37,9302 25,5050
3 40,8988 29,2319
4 38,5141 27,7958
5 34,6232 26,9303
6 37,5891 26,9303
7 35,0461 27,4731
8 34,1564 26,5848
9 41,9986 25,0295
10 36,4273 25,1353

































Figura 2 Disperso de 10 Prognies em Relao aos Dois Primeiros Componentes
Principais (Y
1
e Y
2
).

MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


21
Por esta expresso so obtidas as medidas de dissimilaridade, que so apresentadas no
Quadro 7. Como ilustrao obtida a estimativa de dcp
1,2
:

dcp
1,2
= [ (38,2570 - 37,9302)
2
+ (25,0736 - 25,5050)
2
]



dcp
1,2
= 0,5412


Quadro 7 Dissimilaridade entre Gentipos, com Base na Distncia Euclideana, Obtida de
Escores dos Dois Primeiros Componentes Principais

- 0,5412 4,9265 2,7343 4,0807 1,2030 4,0083 4,3702 3,7419 1,8307
- 4,7647 2,3640 3,6011 0,6635 3,4915 3,9252 4,0961 1,5477
- 2,7837 6,6843 4,5745 6,1111 7,2434 4,3439 6,0644
- 3,9860 1,9544 3,4828 4,5228 4,4491 3,3813
- 3,0870 0,6882 0,5808 7,6164 2,5450
- 2,9022 3,4705 4,5315 1,4937
- 1,2574 7,3692 2,7152
- 7,9949 2,6941
- 5,5723
-


3. VARIVEIS CANNICAS
3.1. Introduo
A anlise de variveis cannicas uma tcnica multivariada cujo procedimento foi
relatada por Fischer (1936). Posteiormente, desenvolvida por vrios outros autores nas diver-
sas reas da cincia, tais como M.S. Batlet, P. C. Mahalanobis e C. R. Rao, citadas por
CAMPBELL e ATCHLEY (1981), para examinar alguns problemas significantes relativos
sistemtica biolgica. Mais recentemente, CRUZ e REGAZZI (1994), descreveram a referida
tcnica na utilizao em estudos de divergncia gentica, com propsito de identificao de
grupos similares no espao bi ou tridimensional.
Segundo CRUZ e REGAZZI (1994), a anlise multivariada com base em variveis
cannicas, trata-se de um processo alternativo para a avaliao do grau de similaridade entre
acessos que leva em considerao tanto a matriz de covarincia residual quanto a covarincia
entre mdias fenotpicas dos caracteres avaliados.
As variveis cannicas so combinaes lineares das variveis originais, sendo
determinadas de tal modo que a variao entre grupos maximizada em relao variao
dentro de grupos. A semelhana da anlise de componentes principais, espera-se que a
configurao do grupo possa ser adequadamente representada em um sub-espao bi ou
tridimensional pelos primeiros dois ou trs vetores cannicos (Campbell e Atechley, 1981,
citados por LIBERATO, 1995).
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


22
Assim, a viabilidade do uso das variveis cannicas em estudo nas diversas reas da
cincia, em grficos de disperso, tambm est restrita concentrao da variabilidade
disponvel entre as primeiras variveis.
A semelhana da anlise de componentes principais, a tcnica de anlise cannica
pode atender a vrios propsitos, tais como:
a) Examinar as correlaes entre caracteres estudados;
b) Resumir um conjunto de caracteres em outro de menor dimenso e de sentido
interpretvel;
c) Avaliar a importncia de cada caracter e promover a eliminao daqueles que com-
tribuem pouco, em termos de variao, no grupo de amostras em estudo;
d) Construir ndices que possibilitem o agrupamento de amostras ou populaes;
e) entre outros.
CAMUSSI et al. (1985) relata que as transformaes para variveis cannicas permi-
tem a visualizao tima de diferenas entre populaes, pela reduo de dimenses que
preserve a maioria das informaes biolgicas. um mtodo de ordenao cujo objetivo
avaliar o grau de similaridade entre materiais experimentais, considerando tanto a matriz de
varincias e covarincias residuais quanto a matriz de varincias e covarincias entre mdias
fenotpicas dos caracteres avaliados, ou seja, a anlise s empregada nas situaes em que
existem dados provenientes de delineamentos experimentais.
Esta tcnica, diferentemente da anlise de componentes principais, considera as
possveis diferenas na disperso sobre as mdias. Desta forma, esta tcnica apresenta
vantagem de manter o princpio da Anlise de Agrupamento, utilizando a distncia de
Mahalanobis, qual seja a de considerar as correlaes residuais existentes entre a mdia dos
tratamentos. Tambm, esta tcnica, possui estreita relao com a anlise de funo
discriminante linear e com a distncia de Mahalanobis.
Em resumo, a utilizao de anlise cannica tem por finalidade bsica, a de propor-
cionar uma simplificao estrutural de dados, de modo que a diversidade influenciada a
princpio por um conjunto p-dimensional ( p = n
o
de caracteres considerados no estudo), possa
ser avaliada por um complexo bi ou tridimensional de fcil interpretao geomtrica.
Os princpios bsicos dessa tcnica so descritos por vrios autores, tais como
MARDIA et al. (1979); CHATFIELD e COLLINS (1986); JOHNSON e WICHERN (1988);
CRUZ e REGAZZI (1994), entre outros. Segundo esses autores, devido normalmente as
variveis em estudo possuirem diferentes escalas, na utilizao desse procedimento comum
a transformao das variveis originais em variveis padronizadas e no-correlacionadas, de
modo que a matriz de disperso residual se iguala a identidade. A transformao comumente
utilizada tem sido o processo de condensao pivotal descrito por RAO (1952) e exempli-
ficado por SINGH e CHAUDHARG (1979), bem como por CRUZ e REGAZZI (1994). Aps
a transformao, o processo de estimao das variveis cannicas equivale ao descrito para as
componentes principais.
Semelhante tcnica de componentes principais, a anlise cannica est se difundindo
nas diversas reas da cincia devido a disponibilidade de recursos computacionais e de
software aplicados atualmente existentes. Entretanto, uma das grandes dificuldades ainda
encontrada a exigncia de alguma experincia sobre anlise multivariada.
3.2. Obteno das Variveis Cannicas
A tcnica de variveis cannicas , semelhana dos componentes principais, consiste
em transformar o conjunto de n variveis originais em um novo conjunto, as variveis
cannicas.
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


23
Seja X
ij
a mdia da j-sima caracterstica (j = 1,2,....,p) avaliada na i-sima populao
ou amostra (i = 1,2,...,n), tal que as seguintes propriedades so verificadas:

a) Se Y
j
uma varivel cannica, ento, Y
j
uma combinao linear de Xs.

Y
j
= a
1
X
1
+ a
2
X
2
+ ... + a
p
X
p


b) Se Y
j
uma outra varivel cannica, ento:

Y
j
= b
1
X
1
+ b
2
X
2
+ ... + b
p
X
p


p p p p
e ainda: a
j
a
j

jj
= b
j
b
j

jj
= 1
j=1 j=1 j=1 j=1

p p
a
j
b
j

jj
= 0
j=1 j=1

em que
jj
a covarincia residual entre as caractersticas j e j.

c) Dentre todas as variveis cannicas, Y
1
apresenta a maior varincia, Y
2
a segunda
maior e assim sucessivamente, ou seja:


2 22 2
(Y
1
) >
2
(Y
2
) > . . . >
2
(Y
p
)

A propriedade (b) garante a ponderao da influncia das varincias e covarincias
residuais sobre as estimativas dos coeficientes de cada caracterstica, bem como a indepen-
dncia entre estas variveis.
Desta forma, fundamentalmente a tcnica de variveis cannicas semelhana da
tcnica de componentes principais, consiste em transformar um conjunto de p variveis X
1
,
X
2
, . . . , X
p
, pertencentes a n amostras ou populaes em um novo conjunto de variveis Y
1
,
Y
2
, . . . , Y
p
, as quais sejam funo linear das Xs e independentes entre si. Vale salientar que
o nmero de variveis cannicas obtidas (Y
1
, Y
2
, . . . , Y
p
) igual ao nmero de variveis
originais.
Assim, segundo RAO (1952) e CRUZ e REGAZZI (1994), o problema estatstico
consiste fundamentalmente em estimar os coeficientes de ponderao das caractersticas em
cada varivel cannica e as suas respectivas varincias. Assim, segundo estes autores, estas
estimativas podem ser obtidas pela soluo do sistema:

(T -
j
E)
j
=

em que a j-sima varincia dada pelo autovalor de ordem correspondente, obtido pela
soluo de:
det [T -
j
E] = 0

em que:

j
= autovetor associado a cada estimativa dos autovalores de E
-1
T, cujos elementos so os
coeficientes de ponderao dos caracteres para estabelecimento das variveis cannicas;
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


24
j = autovalores da matriz E
-1
T;
T = matriz de covarincias entre as mdias das amostras ou populaes avaliadas; e
E = matriz de covarincias residuais.

As matrizes T e E so simtricas. Entretanto, o produto de ambas (E
-1
T) no uma
matriz simtrica. Assim, dada a complexidade de clculo das razes caractersticas de uma
matriz assimtrica, tem sido recomendado a utilizao de dados transformados atravs da
condensao pivotal, conforme descrito por RAO (1952) e mais recentemente por CRUZ e
REGAZZI (1994). Esta tcnica consiste em justapor, direita da matriz de disperso que se
est operando, a matriz-identidade. Posteriormente, transforma-se por operaes nas linhas, os
elementos de cada coluna, de tal forma que ela tenha 1 na linha diagonal e zeros abaixo da
diagonal, ou seja, obtida uma matriz triangular superior em um processo sistemtica. Este
processo tem a vantagem de proporcionar novas variveis que apresentam covarincias
residuais nula e varincias residuais igual a unidade.
Assim, as varincias originais X
j
so transformadas pelo processo de condensao
pivotal, em variveis padronizadas Z
j
, com matriz de varincias e covarincias em amostras
ou populaes igual a T* e a matriz de varincias e covarincias residuais igual matriz
identidade I . Desta forma, a determinao dos autovalores de T* dada pela equao:

det (T* - I) = 0

Obtendo-se, assim, as varincias das j-simas variveis cannicas. Os autovetores da matriz
T* correspondem aos da matriz E
-1
T, so obtidos pela soluo da seguinte equao:

(T* -
j
I)
j
= 0

onde:
j = a raiz caracterstica que corresponde varincia da j-sima varivel cannica;
j = vetor de coeficientes da j-sima varivel cannica, estabelecido com as
variveis transformadas por condensao pivotal.

Desta forma, observa-se que o processo de estimao torna-se idntico ao descrito
para os componentes principais.
Uma vez estimados os coeficientes
j
, os coeficientes a
j
, associados s variveis
originais, podem ser calculados por meio de:

[ a
1
a
2
. . . a
n
] = [
1

2
. . .
n
] V

onde: V = matriz n x n de transformao, obtida pelo processo de condensao pivotal.

Alm disso, segundo CRUZ e REGAZZI (1994) , dada as inferncias serem feitas em
relao s variveis originais padronizadas, necessrio ainda eliminar os efeitos de escala de
mensurao. Assim, os coeficientes a
j
s so multiplicados pelo desvio padro do erro
experimental, de modo que:


j
x
j
= a
j

j
[X
j
/
j
-]

Logo:
j
= a
j

j
(
j
= desvio padro residual)

MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


25
3.3. Importncia Relativa de uma Varivel Cannica
A importncia relativa de cada varivel cannica (IR
k
), semelhana de componentes
principais, tambm dada pela razo entre a varincia por ela explicada e o total da varincia
disponvel, ou seja, a proporo da variao total explicada pela k-sima varivel cannica
dada pela expresso:


k

IR
k
=
_______________________
k = 1, 2, ..... , p

1
+
2
+ . . . +
p


ou ainda, a proporo da variao total explicada pelas primeiras k variveis cannicas (PV
ks
)
dada por:


1
+
2
+ . . . +
k

PV
ks
=
_______________________
k = 1, 2, ..... , p

1
+
2
+ . . . +
p


Assim, verifica-se que a proporo da variao total explicada pelas primeiras
variveis cannicas uma medida da quantidade de informao retida pela reduo de p para
k dimenso.
Na maioria dos estudos, desejvel que a varincia acumulada nas duas primeiras
variveis cannicas exceda 70-80%. Nesta condio, nos casos de estudo por meio das
distncias geomtricas entre amostras ou populaes em grficos de disperso, cujas coorde-
nadas so escores relativos s primeiras variveis cannicas, as interferncias so tidas
satisfatrias.
Assim, embora p-variveis cannicas sejam necessrias para reproduzir a variabilidade
total do sistema, a viabilidade de utilizao da referida tcnica reside na possibilidade de
resumir o conjunto de variveis originais em poucas variveis cannicas. Nestas condies,
esta tcnica proporcionar uma simplificao considervel nos clculos estatsticos e na
interpretao dos resultados com relao aos demais mtodos alternativos, principalmente
quando o nmero de variveis avaliadas foram relativamente grande.
3.4. Descarte de Variveis
Nos casos em que o nmero de variveis muito grande, procura-se descartar aquelas
de pouca relevncia na discriminao do material avaliado, reduzindo, assim, mo-de-obra,
tempo e custo despendido na anlise e interpretao dos dados experimentais.
A semelhana do procedimento descrito em componentes principais sobre descarte de
variveis, a identificao de caractersticas de menor importncia em certos estudos tem sido
aquelas cujos coeficientes de ponderao, obtidos com a padronizao das variveis, so de
maior magnitude, em valor absoluto, nas ltimas variveis cannicas. Assim, segundo
recomendaes de diversos autores (JOLLIFE, 1972/1973; MARDIA et al., 1979; CRUZ e
REGAZZI, 1994), tem sido comum descartar a varivel de maior coeficiente de ponderao
(em valor absoluto) a partir da ltima varivel cannica. Quando em uma varivel cannica de
menor varincia o maior coeficiente de ponderao est associado a uma caracterstica j
previamente descartada, tem-se optado por no fazer nenhum outro descarte com base nos
coeficientes daquela varivel cannica, mas prosseguir a identificao da importncia relativa
das caractersticas na outra varivel de varincia imediatamente superior.
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


26
Uma das questes bsicas nas diversas reas da cincia diz respeito ao nmero e tipo
de caractersticas a serem avaliadas. No existem bases tericas para determinar o nmero de
caractersticas a serem medidas. Assim, tem sido relatado, no melhoramento vegetal, que os
caracteres importantes para adaptao e seleo natural so mais apropriados e devem ser
escolhidos para os estudos de divergncias e agrupamento (ARUNACHALAM, 1981 e
CRUZ e REGAZZI, 1994). ADAMS e WIERSMA (1978) acrescenta ainda que as carac-
tersticas a serem preservadas nesta anlise devero ser aquelas que representam a estrutura
fundamental do sistema biolgico que est sendo estudado, devendo ainda serem suficiente-
mente diversos para representar, no mnimo, as dimenses mais importantes do sistema.
Assim, quando o nmero de caractersticas utilizadas num estudo torna-se elevado, possvel
que muitas delas pouco contribuam para a discriminao das amostras ou populaes avalia-
das, por serem relativamente invariantes entre estas ou por serem redundantes em virtude de
serem altamente correlacionadas com outras caractersticas. Esta situao apresenta como
conseqncia aumento no trabalho de caracterizao, sem melhoria na preciso, alm de
tornar mais complexa a anlise e interpretao dos dados. Portanto, a eliminao das caracte-
rsticas redundantes e de difcil mensurao torna-se desejvel, afim de facilitar o estudo,
reduzindo tempo e custo da experincia (Pereira, 1989, citado por Liberato, 1995). Desta for-
ma, a reduo do nmero de caractersticas, com eliminao daqueles que menos contribuem
para o estudo, deve facilitar as interpretaes sem causar perda considervel de informaes.
CRUZ e REGAZZI (1994) comentam que os caracteres dispensveis em estudo de
divergncia gentica so aqueles relativamente invariantes entre os indivduos estudados, so
fortemente afetados pelo ambiente, apresentam instabilidade com a mudanas ambiental ou
so redundantes por estarem correlacionados com outros caracteres. Portanto, as variveis
selecionadas e descartadas devem apresentar correlaes significativas entre si, ou seja, as
variveis descartadas devem ser redundantes (ser responsveis pelo mesmo tipo de informa-
es j contidas nas variveis selecionadas).Por outro lado, as variveis selecionadas devem
ter baixas correlaes entre si. De forma tal que cada varivel preservada na anlise ser
responsvel por um tipo de informao biolgica exclusiva e a ao conjunta das mesmas ser
complementar para a descrio geral dos indivduos ou populaes estudadas.
Em resumo ao se realizar o descarte de variveis atravs da varivel cannicas,
conforme procedimento descrito, os comentrios feitos anteriormente devero ser conside-
rados, de forma tal que as caractersticas descartadas no proporcione perdas significativas
nas interpretaes e concluses no estudo em questo.
3.5. Anlise de Variveis Cannica e Anlise de Agrupamento
Quando as primeiras variveis cannicas explicam a maior parte da variao do siste-
ma em estudo, estas podem ser representadas graficamente e apresentar uma importante
aplicao em conexo com a anlise de agrupamento. Este procedimento satisfatrio quando
as duas primeiras varveis cannicas utilizadas como eixo do sistema cartesiano envolvem
uma frao considervel da variao total, normalmente citada como acima de 70 a 80%. Nos
casos em que este limite no atingido, a anlise completada com a disperso grfica em
relao a terceira e quarta varivel cannicas. Com base nos escores das primeiras variveis
cannicas, estima-se a Distncia Euclidiana Mdia que expressa uma medida alternativa entre
aquela populao ou amostras.
Assim, nos casos em que a disperso grfica no prov informaes adequadas no
estudo, CRUZ (1990) comenta que certos autores tm utilizado os escores dos primeiras
variveis cannicas para o clculo da Distncia Euclidiana Mdia, valendo-se, para esse fim,
da propriedade de independncia entre tais variveis cannicas. Tal procedimento utilizado
como complementar as informaes da disperso grfica.
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


27
CRUZ e REGAZZI (1994) comentam que a eficcia de tal procedimento depende do
grau de distoro provoca nas distncias entre amostras ou populaes quando se passa do
espao n-dimensional para o n
1
-dimensional (n
1
< n). Como as distncias grficas, em relao
a eixos que representam as primeiras variveis cannicas, so influenciadas pelas variaes
entre (varincias e covarincias entre as mdias das amostras ou populaes estudadas) e
dentro (varincias e covarincias residuais), pode-se quantificar o grau de distoro destas
distncias comparando o seu total com o total das distncias generalizadas de Mahalanobis,
ou seja:
Grua de distoro = 1 -

onde: d
2
vcii

i < i
=
________________

. D
2
ii

i < i
em que:

d
2
vcii
= quadrado da distncia Euclidiana estimada a partir dos escores de n variveis
cannicas;
D
2
ii
= distncia generalizada de Mahalanobis estimada a partir de n variveis
originais.

APLICAO 4
Utilizando os mesmos dados da aplicao 3, ou seja, com base em dados de um teste
de prognies de Eucalytus sp., em que foram avaliadas 10 caractersticas (X
1
, X
2
, X
3
, X
4
, X
5
,
X
6
, X
7
, X
8
, X
9
e X
10
) em 10 prognies, num delineamento em bloco ao acaso com quatro
repeties, e seis plantas por parcela, realizou-se a anlise por variveis cannicas. Dado o
volume de clculos, utilizou-se do programa GENES (DBG/UFV) para realizaes das
operaes envolvidas, sendo apresentado, portanto, s as tabelas com os resultados finais de
cada etapa envolvida.
Assim, baseado na teoria descrita sobre variveis cannicas, os autovalores (varin-
cias) e autovetores associados (coeficientes de ponderao) so apresentados no Quadro 9.
Estes foram obtidos a partir de dados transformados atravs de condensao pivotal.
Os resultados apresentam no Quadro 8 evidenciam que a primeira varivel cannica
(VC
1
) explica 68,7% da variao total disponvel. As duas primeiras variveis cannicas (VC
1

e VC
2
) explicam 83,3% e as trs primeiras (VC
1
, VC
2
, VC
3
) explicam 92,6% da varincia
total disponvel. Portanto, como as duas primeiras variveis cannicas explicam mais de 80%
da variao total disponvel das variveis Zs, sua utilizao na sumarizao dos dados, em
vrios estudos, considerada satisfatria.
Considerando as mdia do Quadro 8, estimam os escores associados s duas primeiras
variveis cannicas por meio da expresso.

VC
1
= 0,0487(5,69) - 0,0865(-0,59) + 0,0988(7,43) + 0,0591(-7,13) + + 0,3888(6,95) = 23,6365

VC
2
= 0,4954(5,69) - 0,1757(-0,59) + + 0,6877(6,95) = 1,2960


MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


28
Quadro 8 Mdias das Variveis, Transformadas por Condensao Pivotal, para 10
Prognies
Variveis
Prognie
Z
1
Z
2
Z
3
Z
4
Z
5
Z
6
Z
7
Z
8
Z
9
Z
10

1 5,69 -0,59 7,43 -7,13 -17,13 1,16 -10,40 2,87 10,29 6,35
2 5,47 -0,93 8,05 -7,55 -17,12 1,09 -18,66 2,68 8,99 7,05
3 5,96 -0,84 7,62 -7,40 -17,12 1,59 -18,60 3,99 10,04 8,27
4 5,48 -0,87 7,81 -7,09 -16,66 1,02 -18,06 3,10 8,66 6,74
5 5,19 -1,00 7,44 -7,72 -16,66 1,52 -18,25 2,75 8,66 6,41
6 5,41 -0,19 7,76 -6,93 -17,45 1,07 -18,31 2,94 9,90 6,79
7 5,08 -0,11 7,37 -7,39 -16,09 1,58 -17,44 3,01 7,35 5,71
8 5,04 -0,61 7,47 -7,49 -16,69 1,09 -18,08 2,84 8,84 6,33
9 6,15 -0,47 7,22 -7,42 -15,40 1,53 -17,32 3,21 7,40 6,51
10 5,52 -0,34 7,02 -7,33 -16,50 1,32 -17,83 3,00 9,51 6,26



Quadro 9 Variveis Cannicas Obtidas da Anlise de Dez Variveis (Z
1
, Z
2
, Z
3,
Z
4
, Z
5
, Z
6,

Z
7
, Z
8
, Z
9
,Z
10
) - Originadas da Transformao por Condensao Pivotal, das
Variveis Originais (X
1
, X
2
, X
3,
X
4
, X
5
, X
6
, X
7
, X
8
, X
9
e X
10
)
Varincia Coeficiente de Ponderao Associado
Variveis
Cannicas
auto-
valor
Acu-
mulada
(%)
Z
1
Z
2
Z
3
Z
4
Z
5
Z
6
Z
7
Z
8
Z
9
Z
10

VC
1
1,7477 68,7 0,0487 -0,0865 0,0988 0,0591 -0,4088 -0,0676 -0,3099 0,0065 0,7069 0,3888
VC
2
0,3697 83,3 0,4954 -0,1757 0,0033 -0,0790 0,3139 0,1874 0,0272 0,2631 -0,2024 0,6877
VC
3
0,2382 92,6 0,2634 0,3811 -0,4890 0,1732 0,2574 0,1726 0,3660 0,1677 0,4776 -0,1727
VC
4
0,1061 96,8 0,1449 0,5081 0,3413 0,5572 -0,2964 -0,2550 0,1570 0,2101 -0,2301 0,1383
VC
5
0,0523 98,4 -0,4761 0,3747 -0,1082 -0,2151 -0,2695 0,6049 -0,0264 0,2489 -0,1220 0,2425
VC
6
0,0196 99,6 0,4639 0,5095 0,1028 -0,3860 -0,0788 0,1113 -0,2357 -0,5337 -0,0644 -0,0487
VC
7
0,0089 99,9 0,1916 -0,2412 0,4762 0,3337 0,0141 0,6793 0,0168 0,0660 1,1021 -0,3003
VC
8
0,0008 99,9 0,1161 0,0578 0,4613 -0,5689 -0,0198 -0,1457 0,2251 0,5295 0,1846 -0,2449
VC
9
0,0001 99,9 -0,1883 -0,0569 0,2067 -01091 -0,0343 -0,0031 0,5773 -0,4718 0,1172 0,3091
VC
10
0,00003 100,0 -0,3665 0,3056 0,3605 0,0869 0,7068 -0,0668 -0,2225 -0,0648 0,2066 0,1414



Os demais escores so apresentados no Quadro 10.
A disperso dos escores em relao s duas primeiras variveis cannicas
apresentada na Figura 3.








MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


29
Quadro 10 Escores de 10 Prognies, Obtidos a Partir das Duas Primeiras Variveis
Cannicas
Prognies VC
1
VC
2

1 23,6365 1,2960
2 22,8450 1,5319
3 24,0288 2,6736
4 22,0968 1,6199
5 22,1686 1,2667
6 23,3911 0,9518
7 20,1167 1,1482
8 21,7708 1,0663
9 20,2064 2,5528
10 22,2647 1,1476






















Figura 3 Disperso de 10 Prognies em relao s Duas Primeiras Variaes Cannicas
(VC1 e VC2).


A distncia grfica entre cada par de prognies na Figura 3 dada pela distncia
Euclidiana:

dvc
i i
= [(vc
i1
-vc
i1
)
2
+ (vc
i2
- vc
i2
)
2
]



cujas estimativas so encontradas no Quadro 11. Como ilustrao, obtm-se dvc
1,2
por meio
de:

dvc
1,2
= [(23,6365 - 22,8450)
2
+ (1,2960 - 1,5319)
2
]



MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


30
Quadro 11 Dissimilaridade entre Prognies, Baseada nas Distncias Euclidianas obtidas a
Partir dos Escores das Duas Primeiras Variveis Cannicas
Prognies 2 3 4 5 6 7 8 9 10
1 0,8259 1,4323 1,5734 1,4682 0,4227 3,5229 1,8798 3,6531 1,3798
2 1,6446 0,7533 0,7266 0,7967 2,7551 1,1707 2,8292 0,6960
3 2,2006 2,3323 1,8361 4,1989 2,7715 3,8243 2,3325
4 0,3604 1,4566 2,0355 0,6424 2,1081 0,5012
5 1,2624 2,0552 0,4454 2,3461 0,1530
6 3,2802 1,6242 3,5645 1,1433
7 1,6561 1,4074 2,1479
8 2,1580 0,5005
9 2,4922


Em estudos que utilizam a tcnica de varivel cannicas como meio de descartes de
variveis com a finalidade de reduo de mo-de-obra, tempo e custo despendido na anlise e
interpretao dos dados experimentais, a importncia relativa das caractersticas pode ser
avaliada pela magnitude dos coeficientes de ponderao destas. Entretanto, como no existe
relao direta entre variveis transformadas Z
j
s e as variveis originais (X
j
s), necessrio,
para a avaliao da importncia relativa dos caracteres, a obteno do vetor a (vetor de
coeficiente de ponderao das variveis transformadas), comforme descrito na teoria
apresentada. Assim, no Quadro 12 so apresentadas as variveis cannicas e os respectivos
coeficientes de ponderao das variveis originais.


Quadro 12 Variveis Cannicas Estabelecidas pela Combinao Linear de 10 Variveis
Originais (X
1
, X
2
, X
3
, X
4
, X
5
, X
6
, X
7
, X
8,
X
9
, e X
10
)
Coeficiente de Ponderao (a
j
) associado Variveis
Cannicas
X
1
X
2
X
3
X
4
X
5
X
6
X
7
X
8
X
9
X
10

VC
1
3,63 -6,79 -2,11 3,20 1025,55 -1720,55 -71,60 -200,31 268,43 23,99
VC
2
-0,47 -2,90 0,27 -0,45 -22,75 778,67 -186,68 41,29 -44,44 42,45
VC
3
0,57 4,55 -1,97 1,06 138,56 334,52 532,50 -118,74 156,64 -10,66
VC
4
-0,83 4,09 -0,06 0,38 -293,88 336,65 61,25 58,46 -73,49 8,53
VC
5
-0,33 3,66 0,56 -0,30 -316,05 361,43 -31,80 28,87 -32,93 14,97
VC
6
0,13 3,54 1,01 -0,54 191,88 -155,46 -398,68 13,55 -23,72 -3,01
VC
7
-0,08 1,30 0,08 0,14 -212,60 279,69 126,83 -21,19 24,09 -18,54
VC
8
0,25 1,17 0,33 -0,29 -199,08 123,79 524,99 -38,83 54,18 -15,40
VC
9
-0,78 -0,04 -0,58 0,39 53,84 -111,18 159,82 -39,88 50,99 19,08
VC
10
-0,47 0,86 -0,35 0,21 540,54 -641,57 -162,72 -56,55 74,46 8,73


No entanto, como os coeficientes (elementares de autovetores) so influenciados pela
escala de avaliao das prognies, tem sido recomendado a avaliao da importncia relativa
dos caracteres, a partir de coeficientes associados s variveis padronizadas, ou seja:


j
= a
j

j
(
j
= desvio-padro residual)

Esses coeficientes so apresentados no Quadro 13.
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


31
Quadro 13 Variveis Cannicas Estabelecidas pela Combinao Linear de 10 Variveis
Padronizadas (X
1
, X
2
, X
3
, X
4
, X
5
, X
6,
X
7,
X
8
, X
9
e X
10
)
Coeficiente de Ponderao (
j
) Associado Variveis
Cannicas
X
1
X
2
X
3
X
4
X
5
X
6
X
7
X
8
X
9
X
10

VC
1
6,87 -1,22 -3,73 7,29 32,07 -41,76 -0,55 -28,15 30,66 1,57
VC
2
-0,89 -0,52 0,49 -1,04 -0,71 1,91 -1,43 5,80 -5,08 2,77
VC
3
1,08 0,82 -3,47 2,42 4,33 -8,12 4,07 -16,69 17,89 -0,70
VC
4
-1,58 0,74 -0,12 0,88 -9,19 8,90 0,47 8,22 -8,39 0,56
VC
5
-0,63 0,66 0,99 -0,70 -9,88 8,77 -8,24 4,06 -3,76 0,98
VC
6
0,25 0,64 1,78 -1,25 6,00 -3,77 -3,05 1,88 -2,71 -0,19
VC
7
-0,15 0,23 0,15 0,34 -6,65 6,79 0,97 -2,98 2,75 -1,21
VC
8
0,48 0,21 0,59 -0,66 -6,22 3,00 4,15 -5,46 6,19 -0,99
VC
9
-1,49 -0,01 -1,03 0,89 1,68 -2,69 1,22 -5,60 5,82 1,25
VC
10
-0,9 0,16 -0,62 0,48 16,90 -15,57 -1,25 -7,95 8,62 0,57


Pelos resultados apresentados, os caracteres de menor importncia foram, em ordem
de descarte, o X
5,
com o maior coeficiente de ponderao em VC
10
(16,90); o X
9
, com o maior
coeficientes de ponderao em VC
9
(5,82); o X6, com o maior coeficiente de ponderao em
VC
7
(6,79). A evidncia de que estes caracteres so de menor importncia, pode ser dada com
base na matriz de correlao entre variveis (quadro 4). Assim, o descarte de X
5

compensada pela presena de X
1
, X
7
e X
10
, as quais mantm alta correlao. Quanto ao
descarte de X
6
, este tambm compensado pela presena de X
1
, X
7
e X
10
. O caracter X
9

compensado, pelo mesmo motivo (alta correlao), pela presena de X
8
. Vale salientar que na
VC
8
no houve descarte de varivel. Este fato deve-se aos argumentos citados anteriormente
de que se em uma varivel cannica de menor varincia o maior coeficiente de ponderao
est associado a um caracter j previamente descartado, tem-se optado por no fazer nenhum
outro descarte com base nos coeficientes daquela varivel cannica, mas prosseguir a
identificao da importncia relativa dos caracteres na outra varivel cannica imediatamente
superior.
4. CORRELAES CANNICAS
4.1. Introduo
comum na pesquisa das vrias reas da cincia ocorrer a necessidade de investigar a
relao existente entre dois (ou mais) conjuntos de vrias distintas, mas associadas. Assim,
por exemplo, nas situaes em que o interesse em estudar as interelaes existentes entre a
ocorrncia de certas comunidades de plantas com relao a composio florstica e, por outro
lado, as caractersticas do solo ou outras caractersticas ambientais. Ou ento, nos casos em
que se interessa avaliar as relaes, entre, por exemplo, caracteres de parte a area versus
sistemas radicular, caracteres agronmicos versus fisiolgicos, componentes primrios versus
componentes secundrios da produo, caracteres silviculturas versus caracteres tecnolgicos
da madeira etc.
Esta tcnica foi inicialmente descrita por HOTELLING (1935) . Posteriormente
consolidada por RAO (1952); MARDIA et al. (1979), ARNOLD (1981), DUNTEMAN
(1984), MANLY (1986), JOHNSON e WICHERN (1988), CRUZ e REGAZZI (1994), dentre
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


32
outros. Segundo estes autores a aplicao geral e usual da anlise de correlao cannicas
consiste em identificar e quantificar as associaes entre dois grupos de variveis.
Segundo James e McCulloch (1990), citado por LIBERATO (1995), esta tcnica
uma generalizao da correlao e regresso que aplicvel quando os tributos de um nico
grupo de objetivos podem ser divididos naturalmente em dois conjuntos. Do ponto de vista
geral, a anlise de correlao cannica uma extenso da regresso mltipla. A anlise de
correlaes cannicas possui cestas propriedades similares s de anlise de componentes
principais, porm esta ltima considera as interelaes dentro de um grupo de variveis,
enquanto aquela considera a relao entre dois grupos de variveis (LIBERATO, 1995).
O mtodo consiste basicamente em encontrar um vetor de coeficiente para cada um
dos grupos de variveis, tal que a correlao entre as duas combinao lineares seja mxima.
Determina-se o primeiro par de combinao lineares que possuam a maior correlao entre
todos os pares no-correlacionados com o par selecionado inicialmente, e assim sucessiva-
mente. As combinaes lineares so denominadas variveis cannicas e suas correlaes,
correlaes cannicas. O nmero de correlaes cannicas igual dimenso do menor
grupo de variveis.
Esta metodologia usualmente utilizada com variveis do tipo quantitativa contnua,
sendo necessrio assumir a existncia de normalidade multi-variada quando testes de signi-
ficncia estatsticos so requeridos. Entretanto, segundo MARDIA et al. (1979), a anlise
tambm pode ser empregada quando h uma mistura de variveis quantitativa contnuas e
qualitativas, ou se todas as variveis so qualitativas, conforme citado por DUNTEMAN
(1984). Porm, o procedimento tem sido mais utilizado e recomendado quando os dados so
originados de variveis quantitativas.
4.2. Obteno das Correlaes Cannicas e dos Pares Cannicos
Seja o primeiro conjunto de variveis estabelecidos por p caracteres (X
1
, X
2
, , X
p
) e
as inerentes ao segundo por q caracteres (Y
1
,Y
2
, ,Y
q
). Vale salientar que a anlise de
correlaes cannicas caracteriza-se por avaliar relaes entre dois complexos influenciados,
no mnimo, por dois caracteres. O nmero de correlaes cannicas a serem obtidas igual ao
menor nmero de caracteres que constitui um dos complexos (p ou q), e sua magnitude
sempre decresce com a ordem em que so estimados,

Seja:

X = [X
1
, X
2
X
p
] = vetor das medidas de p caracteres que constituem o grupo I

Y = [Y
1
, Y
2
Y
p
] = vetor das medidas de q caracteres que constituem o grupo II


Assim, segundo CRUZ e RAGAZZI (1994), o problema estatstico consiste em esti-
mar a mxima correlao entre as combinaes lineares de caracteres do grupo I e do grupo
II, bem como estimar os respectivos coeficientes de ponderao dos caracteres em cada
combinao linear. Sendo X
1
e Y
1
uma das combinaes lineares dos caracteres dos grupos I
e II, respectivamente, tem-se;

X
1
= a
1
X
1
+ a
2
X
2
+ + a
p
X
p

e
Y
1
= b
1
Y
1
+ b
2
Y
2
+ + b
p
Y
p

MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


33
onde:
a = [a
1
a
2
a
p
] = vetor 1 x p de pesos dos caracteres do grupo I
e
b= [b
1
b
2
b
p
] = vetor 1 x q de pesos dos caracteres do grupo II

Por definio, a primeira correlao cannica aquela que maximiza a relao entre
X
1
e Y
1
. As funes X
1
e Y
1
constituem o primeiro par cannico associado quela correlao
cannica, que expressa por:

Cv (X
1
,Y
1
)
r
1
=
_______________________




[V(X
1
).V(Y
1
)]



sendo:

Cv (X
1
,Y
1
) = aS
12
b


V(X
1
) = aS
11
a


V(Y
1
) = bS
22
b

em que:

S
11
= matriz p X q de covarincias entre os caracteres do grupo I
S
22
= matriz p X q de covarincias entre os caracteres do grupo II
S
12
= matriz p X q de covarincias entre os caracteres dos grupos I e II

Nos casos em que se utilizam variveis padronizadas, tm-se S
11
= R
11
, S
22
= R
22
e S
12

= R
12
, em que R representa uma matriz de correlaes.

Segundo Morrisom (1976), citado por CRUZ e REGAZZI (1994), a estimao dos
vetores a e b obtida pela maximizao da funo r
2
, sujeita restrio de que
aS
11
a = bS
22
b = 1. Estas restries so necessrias para prover estimadores nicos de a e b,
e indicam que cada combinao linear tem varincia igual a 1.
Assim, o problema estatstico passa a ser estimar a e b tal que utilizando-se dos
multiplicadores de Lagrange ( e ) e das restries descritas, estes so obtidos pela soluo
das seguintes equaes:

(R
-1
22
R
12
R
-1
11
R
12
- I) b =

e
(R
-1
11
R
12
R
-1
22
R
12
- I) a =


Assim:, tm-se

a) Primeira correo cannica (r
1
) entre a combinao linear dos caracteres dos
grupos I e II dada por:

r
1
= [
1
]


MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


34
em que
1
o maior autovalor da matriz (R
-1
11
R
12
R
-1
22
R
12
)

b) O primeiro par cannico dado por X
1
= aX e Y
1
=bY, em que: a = autovetor
associado ao primeiro autovalor de (R
-1
11
R
12
R
-1
22
R
12
), ou de maneira equivalente:
b = (R
-1
22
R
12
a), omitindo-se nesta expresso o escalar (aR
12
b)/.

c) As demais correlaes cannicas e os pares cannicos so estimados utilizando-se
os autovalores e os autovetores das expresses descritas, de ordem correspondente
p ou q-sima correlao estimada.


CRUZ e REGAZZI (1994) comentam que muitas vezes a obteno destes autovalores
requerem o uso de certas artifcios, pois alguns aplicativos computacionais so especficos
para o clculo de autovalores de matrizes simtricas. Assim, neste caso, usam-se os seguintes
fatos:
a) Se G uma matriz real e simtrica, ento existe F, tal que G = FF, em que F
obtida por meio do produto: (C)
-1
D

. As matrizes Ce D so, por sua vez, obtidas


por operaes de congruncia em G e elementares em I justaposta a G.

Esquematicamente, tem-se:

[G : I] ~ ~ [D : C]

em que:

~ : significa operaes de congruncia em G e elementares em I;
I : matriz identidade;
D : matriz diagonal;
C : matriz tal que CG C = D

b) Se autovalor de matriz no-simtrica GH , resultante do produto de matriz
simtricas G e H, ento tambm autovalor de FHF , real e simtrica.. Se
autovetor associado FHF , ento F = a autovetor associado GH.

c) Para o caso de estimao das correlaes, considera-se

G = R
-1
11
e H = R
12
R
-1
22
R
12


Outra questo a relacionada com testes estatsticos que consiste, de forma geral,
testar a significncia do relacionamento entre os dois grupos de variveis e subsequentes teste
para determinar quantas correlaes cannicas so significativas, a um determinado nvel de
probalidade.
Segundo CRUZ e REGAZZI (1994), para obteno deste informao inicia-se um
teste de significncia da hiptese de que todas as possveis correlaes cannicas so nulas
(H
O
:
1
=
2
= =
s
= 0 , s = min {p,q}). Esta hiptese avaliada pelo teste aproximado de

2
, que segundo Duterman (1948), dado por:

S

2

= -t log
e
[ (1 - r
2
i
)]

i =1
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


35
em que:
t = n - 0,5 (p + q + 3)
e
n = nmero de observao experimentais.

Segundo estes autores, a estatstica est associada a pq graus de liberdade. Se a
hiptese rejeitada, testa-se a hiptese H
0
:
k
> 0 e
k+1
=
k+2
= =
S
= 0, por meio de:


S

2

= -t log
e
[ (1 - r
2
i
)], que est associada a
2
com (p-k)(q-k) graus de liberdade

i = k +1


APLICAO 5
Utilizando o mesmos dados da aplicao 3, ou seja, com base em dados de um teste de
prognies de Eucalyptus sp, em que foram avaliadas 10 caractersticas (X
1
, X
2
, X
3
, X
4
, X
5
, X
6
,
X
7
, X
8
, X
9
, e X
10
) em 10 prognies, num delineamento em blocos ao acaso com quatro
repeties e seis plantas por parcela, realizou-se a anlise de correes cannicas. Consi-
derou-se para o presente caso como caractersticas do grupo I (X
1
, X
2
, X
3
, X
4
e X
5
) e as do
grupo II (X
6
, X
7
, X
8
, X
9
, e X
10
).
Como nos outros procedimentos descritos, utilizou-se do programa GENES
(DBG/UFV) para realizaes das operaes envolvidas. A seguir so apresentadas as matrizes
de correlaes necessrias para obteno das correlaes cannicas, obtidas a partir do
Quadro 4 (matriz de correlaes entre as variveis originais).



Quadro 14 Matriz de Correlaes Entre Variveis do Grupo I
1,0 0,7390 0,6462 0,6999 0,9488
1,0 0,2407 0,4056 0,7043
R
11
= 1,0 0,9573 0,6810
1,0 0,7299
1,0




Quadro 15 Matriz de Correlaes Entre Variveis do Grupo II
1,0 0,9645 0,2355 0,2467 0,9799
1,0 0,0936 0,0728 0,9382
R
22
= 1,0 0,9858 0,2280
1,0 0,2488
1,0

MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


36
Quadro 16 Matriz de Correlaes entre Variveis do Grupo I com Variveis do Grupo II
0,9456 0,8926 0,1573 0,1833 0,9818
0,6978 0,7043 0,0295 0,0081 0,7031
R
12
= 0,6889 0,6600 0,2715 0,2365 0,7017
0,7057 0,7842 0,2551 0,2092 0,7267
0,9983 0,9781 0,2072 0,2096 0,9766


Assim, de acordo com o exposto anteriormente, as correlaes cannicas e os pares
cannicos so apresentados no Quadro 17.
Com base nos resultados obtidos, conclui-se que os grupos considerados na anlise
no so independentes e que as associaes intergrupos so estabelecidas, principalmente,
pelas influncias de:
a) Variveis X
3
e X
4
so determinantes nas variveis X
8
e X
9
;
b) Variveis X
1
e X
5
apresentam existncia de relaes com as variveis X
6
e X
10
;
c) Com base no 3
o
par cannico fica evidenciado tambm a existncia de relaes
entre as variveis X
1
e X
5
com as variveis X
6
e X
10
.


Quadro 17 Correlaes Cannicaas e Pares Cannicos Estimados entre as Caractersticas
do Grupo I e do Grupo II de dez Prognies
Pares Cannicos
Caracteres
1
o
2
o
3
o
4
o
5
o

X
1
-0,2991 -1,3537 3,0768 -0,5881 0,0853
X
2
1,4120 0,1947 -0,4106 1,0815 -0,9816
X
3
4,6410 0,1764 -0,4455 0,4899 0,6385
X
4
-4,4615 -0,1372 0,4555 0,9232 0,0091
X
5
-0,6071 2,0436 -2,2595 -1,2376 0,1646
X
6
45,4341 2,1719 -3,4303 -1,7715 -0,0602
X
7
-49,8536 0,3954 -0,0960 -0,1389 -0,0193
X
8
54,2892 0,5778 -1,1470 4,3739 0,0894
X
9
-62,4822 -0,5231 1,0680 -4,4000 0,1139
X
10
5,5401 -1,6732 3,9911 1,9527 0,0374
r 4,7350 1,0078 0,9572 0,7036 0,2000

2

539,15 **
(GL = 25)
297,61 **
(GL = 16)
56,06 **
(GL = 9)
12,67 *
(GL = 4)
0,71
ns
(GL = 1)
GL = Graus de Liberdade
** = significncia: P < 0,01
* = significncia: P < 0,05
ns = no significativo: P > 0,05
4.3. Algumas Aplicaes na rea Florestal
crescente o nmero de exemplos de aplicaes de anlises multivariadas nas
diversas reas da cincia. Porm, no Brasil, devido escassez de recursos computacionais, os
quais so fundamentais para a utilizao destas tcnicas, limitou o uso e inibiu o repasse desse
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


37
conhecimento entre os pesquisadores. Entretanto, atualmente com a maior disponibilidade de
recursos computacionais, o emprego de tais tcnicas tornou-se potencialmente grande e o seu
conhecimento indispensvel aos pesquisadores da rea florestal.
Trabalhos visando descrever, discutir e recomendar o uso de tcnicas estatsticas
multivariadas na anlise de dados florestais, so encontrados em literatura. Assim, temos
QUEIROZ (1984), o qual focalizou o uso destas tcnicas (Componentes Principais, Correla-
es Cannicas, entre outras) na anlise de inventrio florestal. Esse mesmo autor comenta
que no relativo ao manejo de florestas naturais com base no rendimento auto-sustentado
depreende-se ser imprescindvel o uso da anlise multivariada para detectar e delimitar as
unidades bsicas de manejo florestal, face ao nmero elevado de variveis envolvidas.
Semelhantemente, SOUZA (1989) empregou a anlise multivariada com o objetivo de
explorar a sua potencialidade para manejo de floresta natural na reserva florestal de Linhares -
ES.
Tambm VAN LAAR (1987) revisou sobre as aplicaes da anlise multivariada nas
mais diversas reas do campo florestal. Inicialmente, apresenta alguns conceitos bsicos de
algumas tcnicas multivariadas e, em seguida, apresenta uma lista de aplicaes, conforme
citado no Quadro 18.
SOUZA (1993) em reviso, enfocou a utilizao de algumas tcnicas de anlise
multivariada (componentes principais, correlaes cannicas, entre outras) no estudo de
hibridaes naturais com o Eucalyptus e tambm no estudo de hbridos produzidos pelas
tcnicas de polinizao controlada e aberta. Este autor relacionou trabalhos de Potts e Reid
(1983, 1985, 1985b), Drake (1980), Ashton e Sandiford (1988), Burgess e Bell (1983) e
Ladiges et al. (1981).


Quadro 18 Uso da Anlise Multivariada na rea Florestal
Autor Mtodo rea de aplicao
Bradfield et al. (1984) Comp. Princ., Correl. Can. Botnica Florestal
Burley et al. (1972) Comp. Princ. Gentica Florestal
Clark et al. (1983) Comp. Princ. Estudo de Habitats
Davidson et al. (1975) Comp. Princ. Anatomia da Madeira
Falkenhagen et al. (1978) Comp. Princ. Gentica Florestal
Fourt (1971) Comp. Princ. Site - Crescimento
Guiot et al. (1982) Comp. Princ. Estudos Climticos
Hamabata et al. (1980) Comp. Princ. Botnica Florestal
Hunter et al. (1984) Comp. Princ. Estudo Site-Crescimento
Johnson et al. (1981) Corr. Can. Botnica Florestal
Keenan et al. (1983) Comp. Princ. Estudo Site-Crescimento
Kennel (1966) Comp. Princ. Estudo de Crescimento
Kercher (1977) Corr. Can. Botnica Florestal
Kuivinen et al. (1982) Comp. Princ. Estudos Climticos
Lemoine (1981) Comp. Princ. Estudo de Crescimento
Liu (1978) Comp. Princ. Mensurao Florestal
Mackenzie et al. (1982) Comp. Princ. Estudo de Habitats
Madgwik (1983) Comp. Princ. Mensurao Florestal
Maze (1981) Comp. Princ. Gentica Florestal
McClure (1984) Comp. Princ. Botnica Florestal
Continua...
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


38
Quadro 18, Cont.
Autor Mtodo rea de aplicao
Nef (1985) Corr. Can. Entomologia Florestal
Newbery (1984) Comp. Princ. Ecologia Florestal
Newcomer (1984) Comp. Princ. Mensurao Florestal
Osborne (1984) Comp. Princ. Estudo de Habitats
Potts (1983) Comp. Princ. Gentica Florestal
Radloff (1978) Corr. Can. Classificao de Site
Richens (1978) Comp. Princ. Gentica Florestal
Ross (1971) Comp. Princ. Botnica Florestal
Roshton (1978) Comp. Princ. Gentica Florestal
Stead (1983) Comp. Princ. Botnica Florestal
Sterba (1973) Var. Can. Estudo de Site
Van Groenewoud (1984) Comp. Princ. Classificao de Site
Van Laar (1985) Comp. Princ. Caractersticas de Fertiliz.
Xu (1984) Comp. Princ. Gentica Florestal
Comp. Princ. = Componentes Principais
Corr. Can. = Correlaes Cannicas
Var. Can. = Variveis Cannicas
Fonte : VAN LAAR (1987).
OBS.: No presente quadro foram apresentadas apenas as citaes que envolviam componentes
principais, variveis cannicas e correlaes cannicas.


5. ANLISE DE VARINCIA MULTIVARIADA
5.1. Introduo

A anlise estatstica multivariada ou simplesmente anlise multivariada o ramo da
estatstica direcionada ao estudo das amostras e distribuio multidimensionais, ou seja, so
mtodos estatsticos apropriados para estudos em que vrias variveis so consideradas
simultaneamente.
Entretanto, apesar de as tcnicas multivariadas terem eficincia comprovada e propor-
cionarem enriquecimento das informaes extradas de dados experimentais, necessrio para
seu uso a disponibilidade de recursos computacionais, motivo pelo qual a referida tcnica
ficou limitada no seu uso e do repasse entre os pesquisadores das diversas reas da cincia no
Brasil. Porm, com a incrementao dos recursos da informtica nos ltimos anos, a tcnica
atraiu a ateno dos pesquisadores das diversas reas, tornando o seu emprego potencialmente
grande e, consequentemente, o seu conhecimento indispensvel.
Trabalhos visando descrever, discutir e recomendar o uso de tcnicas estatsticas
multivariadas na anlise de dados florestais so encontrados em literatura (teses, artigos de
peridicos, livros, anais de congressos, etc.). Princpios bsicos da referida tcnica podem ser
encontrados em MORRISON (1976); MARDIA et al. (1979); KENDAL (1980); GODOI
(1985); CHATFIELD E COLLINS (1986); MANLY (1986); JOHNSON E WICHERN
(1988) entre outros.
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


39
comum em levantamentos e experimentos florestais, mensuraes para vrias
caractersticas em uma mesma unidade experimental. Tal procedimento baseado no fato de
que dificilmente uma nica varivel isoladamente discriminarar ou caracterizarar de maneira
adequada a unidade amostral. Normalmente, tais informaes so analisadas de maneira
parcelada, ou seja, as variveis so estudadas separadamente, e as comparaes entre trata-
mentos procedidos atravs das mdias e varincias da varivel em estudo, onde concluses
para cada varivel so realizadas a um nvel de erro. Entretanto, tal procedimento, possui os
incovenientes de no considerar a existncia de uma possvel estrutura de dependncia entre
as variveis e, de no possibilitar ao pesquisador tirar uma concluso global, concernente s
possveis diferenas entre os tratamentos considerando o conjunto total de variveis, mantido
ao nvel de erro fixado a priori .
Assim segundo JAMES e McCULLOCH (1990), quando em um experimento cada
unidade experimental avaliada sob diferentes aspectos, a utilizao de anlise multivariada
recomendada, pois em virtude dessas variveis serem consideradas simutaneamente, so
obtidas interpretaes que muitas das vezes no so possveis com o uso da estatstica
univariada.
Desta forma, o objetivo do presente trabalho foi o de descrever suscintamente sobre a
anlise de varincia multivariada e exemplificando-a na rea florestal.
5.2. Consideraes sobre a MANOVA
Segundo RAO (1952), tentativas iniciais de generalizao das anlises univariadas de
varincia para o caso de variveis mltiplas foi dado por Wishart (1928), o qual estudou a
distribuio amostral simultnea de varincias e covarincias em amostras de uma populao
normal multivariada. Posteriormente, Hotelling (1931) verificou a distribuio T, que uma
extenso natural da distribuio de student para uma populao normal multivariada. Wilks
(1932), seguindo o mtodo da razo de verossimilhana (Neyman e Pearson, 1908 e 1931;
Pearson e Neyman 1930), obteve generalizaes apropriadas na anlise de varincia
aplicveis a diversas variveis. A estatstica proposta por este autores tem sido til em uma
variedade de problemas.
Segundo DEMTRIO (1985), a anlise de varincia multivariada (MANOVA), alm
de fornecer resultados com base na anlise conjunta de todos as variveis utilizadas, levando-
se em considerao um nvel de significncia conhecido, permite estimar a melhor
combinao de variveis que leva a um valor de F mximo.
Segundo vrios autores (SMITH et al., 1962; MORRISON 1967; MARDIA et al.,
1979, dentre outros), nas anlises multivariadas, so apresentados o teste de Wilks (razo de
verossimilhana), o teste de Roy, o trao de Hotelling-Lawley e o teste de Pillai, como as
principais alternativas para o teste da hiptese de nulidade de tratamentos e o princpio da
unio-interseo de Roy, para as comparaes mltiplas.
Winer (1971), citadas por STUKER (1986), comenta que ao se analisarem os efeitos
de tratamentos para variveis X
1
, X
2
, ... , X
p
, observadas na mesma unidade experimental,
atravs de anlises univariadas, no so levadas em considerao as correlaes existentes
entre elas. Cita ainda que as respostas simultneas das unidades experimentais para todas as
variveis, consideradas como uma nica resposta, geralmente contm mais informaes sobre
o efeito total de tratamento do que uma srie de respostas consideradas separadamente.
Segundo Dagnelie (1982), citado por STUKER (1986), a anlise multivariada, em
sentido amplo, pode ser considerada como formada por um conjunto de mtodos estatsticos,
que tm por objetivo o estudo das relaes existentes entre vrias variveis dependentes ou
independentes, e que a anlise da varincia multivariada tem por objetivo comparar as mdias
de mais de duas populaes.
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


40
Este mesmo autor apresenta a seguinte hiptese multivariada:

H
0
: m
1
= m
2
= ... = m
k

onde m
g
o vetor de mdias das p variveis, associado ao tratamento g (g = 1, 2, ... , K), e
como critrios de teste de H
0
cita o de Wilks, o de Roy e o de Hotelling-Lawley. Para
comparaes mltiplas, cita o princpio da unio-interseo de Roy.
Quanto s pressuposies do modelo, MARDIA et al. (1979) comenta sobre o efeito
de no-normalidade e Ito e Shull (1971) e Korin(1972) mostram que os resultados dos testes
no so grandemente afetados por heterogeneridade das matrizes de varincias e covarincias,
quando o nmero de repeties grande e o mesmo para todos os tratamentos.
Segundo JAMES e McCULLOCH (1990), MANOVA um procedimento para testar
diferenas entre grupos de acordo com as mdias de todas as variveis, sendo o procedimento
aplicado a dados com distribuio normal multidimensional. possvel obter resultados no-
significativos em testes univaridos e resultados significativos em teste multivariado e vice-
versa (MANLY, 1986).
Como exemplo, DEMTRIO (1985) em estudo comparativo entre mtodos de anlise
univariada e multivariada, em experimentos conduzido em blocos casualizados, verificou que
no caso do modelo multivariado o nmero de diferenas significativas entre mdias de
tratamento menor que no caso univariado; isso porque no caso do modelo multivariado o
critrio de rejeio mais rigoroso por levar em considerao um nvel de significncia
conjunto, enquanto que no modelo univariado o nvel de significncia tomado isoladamente
por anlise.
5.2.1. Desenvolvimento Matemtico
A anlise de varincia multivariada um mtodo alternativo mais geral, uma vez que
no faz qualquer restrio quanto a estrutura de varincia e covarincias, de medidas tomadas
sobre a mesma unidade experimental. Pode-se efetuar a anlise multivariada da varincia para
qualquer tipo de delineamento experimental. Entretanto, para o presente estudo ser
considerado para efeito demonstrativo o modelo de delineamento experimental em blocos
casualizados multivariado com J blocos e I tratamento, em que so medidas K caractersticas.
O modelo estatstico admitido para anlise e suas pressuposies de restries so:

Y
ijk
=
k
+ t
ik
+ b
jk
+ e
ijk


em que:

i = 1, 2, ... , I
j = 1, 2, ... , J
k = 1, 2, ... , K

onde:

Y
ijk
= o valor observado da k-sima caracterstica, sob o i-simo tratamento, no
j=simo bloco;

k
= a mdia geral da k-sima caracterstica;
t
ik
= o efeito do i-simo tratamento na k-sima caracterstica;
bjk = o efeito do j-simo bloco na k-sima caracterstica;
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


41
e
ijk
= o erro aleatrio especfico da ijk-sima combinao de tratamento, bloco e
caracterstica.

Sendo:

k

a) t
i
= , t
i
= [ t
i1
, t
i2
., ... ,t
ik
], sendo t
i
~ N
p
( ,
t
)

i=1
b) b
j
~ N
p
(,
b
), independentes, b
j
= [b
j1
, b
j2
, ... ,b
jk
] e
b
= matriz de varinicas e
covarincias, comum a todos os blocos ( j = 1, 2, ... ,J);
c) O vetor de efeitos residuais e
ij
= [e
ij1
, e
ij2
, .... ,e
ijk
] tem distribuio multinormal
K-dimensional com vetor de mdias nulo e matriz de varincia e covarincia
e
,
comum a todas as combinaes i e j , sendo os e
ij
correspondentes s diferentes
unidades experimentais em cada bloco, independentemente distribudos; ou seja,
e
ij
~ N
p
(,
e
),

d) b
j
e e
ij
so independentes.


Na forma matricial tem-se:

Y = X +

onde,

IJ
Y
K


a matriz das observaes;
IJ
X
(1+I+ J)
a matriz de incidncia;
(1+I+J)

K
a matriz dos parmetros; e
IJ

K
a matriz dos erros aleatrios.

Mais detalhadamente tem-se:

Y
111
Y
112


Y
11K


Y
121
Y
122


Y
12K




Y
1J1
Y
1J2


Y
1JK



Y
221


Y
212




Y
21K


Y
221
Y
222


Y
22K


Y =
= [Y
1
Y
2
Y
K
]
Y
2J1
Y
2J2


Y
2JK








Y
I11
Y
I12


Y
I1K


Y
I21
Y
I22


Y
I1K




Y
IJ1
Y
IJ2


Y
IJK


IJ x K
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


42
1 1 0 0 1 0 0
1 1 0 0 0 1 0

1 1 0 0 0 0 1


1

0

1



0

1

0



0
1 0 1 0 0 1 0
X =
1 0 1 0 0 0 1


...







...










1

0

0



1

1

0



0
1 0 0 1 0 1 0

1 0 0 1 0 0 1
IJ x (1 + I + J)

1

2

K

t
11
t
12
t
1K

t
21
t
22
t
2K


= t
I1
t
I2
t
IK
= [B
1
B
2
B
K
]
b
11
b
12
b
1K

b
21
b
22
b
2K


b
J1
b
J2
b
JK

(1+I+J) x K

e
111
e
112
e
11K
e
11

e
121
e
122
e
12K
e
12


e
1J1
e
1J2
e
1JK
e
1J


e
211


e
212




e
21K


e
21


e
221
e
222
e
22K
e
22

= = = [e
1
e
2
e
K
]
e
2J1
e
2J2
e
2JK
e
2J




...
e
I11
e
I12
e
I1k
e
I1

e
I21
e
I22
e
I2K
e
I2


e
IJ1
e
IJ2
e
IJK
e
IJ


MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


43
Logo,
Y= [Y
1
Y
2
Y
K
] = [XB
1
XB
2
XB
K
] + [e
1
e
2
e
K
] e, portanto, para cada varivel
k = 1,2, , K), tem-se:

Y
k
= X + e
k

As equaes normais e os estimadores dos parmetros so obtidos tomando-se o
modelo linear multivariado na forma matricial Y

= X + e , e usando o mtodo de mnimos
quadrados, obtm-se o sistema de equao normais: XXB
o
= XY. Assim, da mesma forma
que no modelo univariado, as somas de quadrados e as somas de produtos so obtidos.

De Y

= X + e , obtm-se, pelo mtodo de mnimos quadrados, que

= YY - B
o
XY

onde:
= a matriz de somas de quadrados e de produtos do resduos;
YY = a matriz de somas de quadrados e de produtos do total;
B
o
XY= a matriz de somas de quadrados e de produtos de parmetros.

Desta forma, obtm-se ento que:

SQTratamentos
k
= (1/J) T
2
ik
- (1/IJ) G
2
k

i

SPTratamentos
k,k
= (1/J) T
ik
T
ik
- (1/IJ) G
k
G
k


i


SQBlocos
k
= (1/I) B
2
jk
- (1/IJ) G
2
k

j

SPBlocos
k,k
= (1/I) B
jk
B
jk
- (1/IJ) G
k
G
k


j


SQTotal
k
= Y
2
ijk
- (1/IJ) G
2
k
i j
SPTotal
k,k
= Y
ijk
Y
ijk
- (1/IJ) G
k
G
k


i

j


SQResduo
k
= SQTotal
k
- SQTratamentos
k
- SQBlocos
k

SPResduo
k,k
= SPTotal
k,k
- SPTratamentos
k,k
- SPBlocos
k,k


em que:
I

J

G
k
= Y
ijk

i=1 j=1

J


T
ik
= Y
ijk

j=1

I


B
jk
= Y
ijk

i=1
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


44
para k,k= 1, 2, , K e k k

Logo, T = H + B + R

onde:

K
T
K
= matriz de soma de quadrados e produtos referentes a totais;

K
H
K
= matriz de soma de quadrados e produtos referentes a tratamentos;

K
B
K
= matriz de soma de quadrados e produtos referentes a blocos;

K
R
K
= matriz de soma de quadrados e produtos referentes ao resduo.

O esquema da anlise de varincia multivariada apresentado no Quadro 1.


Quadro 18 Esquema Anlise da Varincia Multivariada para o Delineamento em Blocos
ao Acaso
Causas de
Variao
Graus de Liberdade
(
*
)

Matrizes de Somas de
Quadrados e de Produtos
Blocos J-1 B
Tratamentos I-1 H
Resduo (I-1) (J-1) R
Total IJ-1 T
(
*
)
- Os graus de liberdade so obtidos de maneira anloga ao caso univariado.


A hiptese de interesse a ser testada, em geral, a de que no existem efeitos de
tratamentos, ou seja, a hiptese de nulidade dos vetores efeitos de tratamento, ou seja:

H
0
: t
1
= t
2
= t
I
=

Matricialmente, tem - se:

t
11
t
21
t
I1
0
H
0
: t
12
= t
22
=

= t
I2
= 0








t
1K
t
2K
t
IK
0

Ou ainda:

H
0
: CB W =

onde:

0 1 -1 0

0 0 0

0
0 0 1 -1

0 0 0

0
C=

0 0 0 0

1 -1 0

0
(I-1) (1+I+J)
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


45
com posto (I-1); e, W uma matriz de dimenso K x W, de posto W K, que identifica as
variveis que esto sendo testadas por H
0
.

GODOI (1985) apresenta e discute quatro critrios para teste de hiptese linear geral
da forma:

H
0
: CBW =

todos baseados em c
i
s, que so os auto-valores de (WRW)
-1
WHW, onde,

H = (CB
0
)[C(XX)
-
C]
-1
(CB
0
)

R = YY - B
0
XY

Se W = I
(k)
, isto , posto W = K, obtemos o caso particular,

H
0
: CB = ,

neste caso todas variveis esto contidas no teste da hiptese H
0
.

A matriz H usualmente designada como a matriz de soma de quadrados e de
produtos da hiptese H
0
testada e R, como a matriz de somas de quadrados e de produtos de
resduo.

Os quatros critrios estatsticos referidos anteriormente so:


s

T
2
0
= t
r
(R
-1
H) = c
i

i=1

s s

V = t
n
[H (H+R)
-1
] =
i
= [c
i
/ (1 + c
i
)]


i=1 i=1
s s

= | R | / | H+R| = [1 / (1+c
i
)]= (1-
i
)

i=1 i=1

1
= c
1
/ (1 + c
1
) ou c
1
=
1
/ ( 1 -
1
)

onde:
c
1
= maior auto-valor de R
-1
H

1
= maior auto-valor de H(H+R)
-1

s = nmero de razes caractersticas no nulas de R
-1
H

O critrio T
2
0
foi proposta por Hotelling-Lawley e conhecido como o critrio do
trao ou da soma dos auto-valores.

2(s
n
+ 1)
Sob H
0
,
____________________
T
2
0

s
2
(2m+ s + 1)

aproximadamente distribudo como: F
s (2m + s + 1) , 2(sn + 1)

MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


46
O segundo critrio , V, o critrio do trao de Pillai, que sob H
0

,

(2n + s + 1) V
________________ _________
(2m + s + 1) (s-V)

aproximadamente distribudo como: F
s

(2m + s + 1 ) , s (2n + s + 1)


O terceiro critrio, , o critrio da razo de verossimilhana, devido a Wilks, onde:

X
2
= - [n
e
- (p - q +1)] log
e

p, q, ne
, tem distribuio exata de
2
pq,


rejeita-se H
0
se: X
2
> C
2
pq,
, onde C encontrado na tabela de Schazoff (1966)


Casos particulares em que tem-se distribuio exata de F,

1 - (n
e
- p - 1)
q = 1,
p

_________ _______________
~ F
p,ne-p+1

p

1 - []
1/2
n
e
- p + 1
q = 2,
p

____________ _____________
~ F
2p,2(ne-p+1)

[]
1/2
q


1 - n
e

p = 1,
q

__________ ______
~ F
q,ne
(unidimensional)
q

1-[]
1/2
n
e
-1
p = 2,
q

___________ _______
~ F
2q,2(ne-1)

[ ]
1/2
q



Tem-se ainda que para p 3 e q 3,

ms-2 1 -
1/s


___________ ___________
, aproximadamente distribudo como: F
pq

,
(ms-2)

pq
1/s

onde (ms-2) indica o maior inteiro que no supera (ms - 2), e

m = n
e
- (p+q+1)

= (pq - 2) / 4

s = [(p
2
q
2
- 4) / (p
2
+ q
2
- 5) ]



MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


47
O ltimo critrio,
1
, foi desenvolvido por Roy e conhecido como o critrio do maior
auto-valor de Roy. Baseado neste critrio, no se rejeita a hiptese H
0
a um nvel de
significncia, se:

X
, s, m,n


1
X
, s, m,n
ou c
1

_________________

1 - X
, s,m,n


X
, s,m,n
pode ser encontrado em baco (MORRISON 1981).


Para o primeiro, segundo e ltimo critrio tem-se que,

S = min (q, p)

m= ( | p - q | - 1)

n= (n
e
- p - 1)

e para ambos os critrios,

q = posto (c) = I -1

p = nmero de variveis = K

n
e
= n - posto (X) = (I-1) (J-1)


APLICAO 1
Como exemplo ser utilizado dados de um experimento cujo objetivo foi o de verificar
a exitncia de variao entre 28 progenitores de Eucaliptus sp.s em relao a 10 caracterstica
silviculturais (X
1
, X
2
, X
3
, X
4
, X
5
, X
6
, X
7
, X
8
, X
9
e X
10
). O delineamento estatstico utilizado
foi o de blocos casualizados com 4 repeties.
As anlises de varincias foram realizadas considerando-se cada caracterstica
separadamente (ANOVA - Anlise de Varincia Univariada) (Quadro 19) e o conjunto das 10
carctersticas simultaneamente (MANOVA - Anlise de Varincia Multivariada) (Quadro 20).
No caso da ANOVA utilizou-se o mtodo de mnimos quadrados visando obteno do
sistema de equaes normais, estimadores dos parmetros, a partio da soma de quadrado
total e o nmerro de graus de liberdade associado a cada fonte de variao, de acordo com o
modelo estatstico adotado. O procedimento adotado foi o mesmo usualmente encontrado na
literatura cujas demostraes sero omitidas por no ser o objetivo principal desse estudo.
Quanto ao procedimento MANOVA, ser conforme descrito nos itens anteriores desse estudo.
Dado o volume de operaes envolvidas, utilizou-se do programa SAEG (UFV-
Viosa/MG) para realizaes das anlises. A seguir so apresentados os resultados finais
apresentados pela listagem obtidas pelo programa.
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


48
Quadro 19 Resumo da Anlise de Varincia Univariada das 10 Caractersticas Silvicul-
turais (X
1
, X
2
, X
3
, X
5
, X
6
, X
7
, X
8
, X
9
e X
10
) Referente a 28 Progenitores de
Eucalyptus sp.
Fontes de
GL
Quadrados Mdios
Variao X
1
X
2
X
3
X
4
X
5
X
6
X
7
X
8
X
9
X
10

Bloco 3 6,6683 0,0337 6,8242 14,3855 0,0021 0,0013 0,0001 0,0029 0,0023 0,0067
Prognie 27 1,9810** 0,0117** 1,8766** 3,5489** 0,0005** 0,0004** 0,00002** 0,0018
n.s.
0,0015
n.s.
0,0024**
Resduo 81 0,7836 0,0040 0,5878 1,0404 0,0002 0,00009 0,000008 0,002 0,0013 0,0008
Mdia X
k
10,19 0,66 15,96 11,88 0,07 0,05 0,016 0,487 0,368 0,14
CV (%) 8,68 9,67 4,81 8,58 18,47 19,01 17,95 9,55 9,94 19,83
** - significativo pelo teste F (P 0,01)
* - significativo pelo teste F (P 0,05)
n.s - no significativo pelo teste F ( P 0,05)

X
1
- Dimetro Altura do Peito (DAP) X
6
- Volume sem Casca
X
2
- Densidade Bsica X
7
- Volume de Casca
X
3
- Altura Total X
8
- Fator de Forma sem Casca
X
4
- Altura Comercial X
9
- Fator de Forma com Casca
X
5
- Volume com Casca X
10
- Volume Cilndrico



Quadro 20 Resumo da Anlise de Varincia Multivariada Considerando as 10
Caractersticas Simultneamente (X
1
, X
2
, X
3
, X
4
, X
5
, X
6
, X
7
, X
8
, X
9
e X
10
)
Referente aos 28 Progenitores de Eucalyptus sp.

Fontes deVariao GL Matrizes de Soma de Quadrados e de Produtos
Blocos 3 B
Progenitores 27 H
Resduo 81 R
TOTAL 111 T


Os resultados obtidos pela ANOVA (Quadro19) mostram diferena significativa entre
progenitores, pelo teste F (P < 0,01), para as caractersticas X
1
, X
2
, X
3
, X
4
, X
5
, X
6
, X
7
, e X
10
).
Entretanto, para as caractersticas X
8
e X
9
, o teste F apresentou resposta no - significativa
(P > 0,05) entre progenitores.
Quanto aos resultados obtidos pela Anlise de Varincia Multivariada, estes so
apresentados no Quadro 20 e, em seguida so apresentados os testes de significncia.








MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


49



Matriz B (Matriz de Soma de Quadrados e Produtos Referentes a Bloco)




X
1


X
2


X
3


X
4


X
5


X
6


X
7


X
8


X
9


X
10


X
1


20.0050

0.7556

19.6253

28.5747

0.3226

0.2653

0.0772

0.2956

.02695

0.6333
X
2

0.7555 0.1010 0.4449 0.6684 0.0071 0.0054 0.0017 0.0019 0.0023 0.0021
X
3

19.6253 0.4449 20.4728 29.7222 0.3601 0.2795 0.0806 0.3334 0.3016 0.6326
X
4

28.5747 0.6684 29.7222 43.1565 0.5226 0.4056 0.1170 0.4814 0.4357 0.9203
X
5

0.3426 0.0071 0.3601 0.5226 0.0063 0.0049 0.0014 0.0059 0.0054 0.0111
X
6

0.26254 0.0054 0.2795 0.4056 0.0049 0.0038 0.0011 0.0046 0.0042 0.0086
X
7

0.0772 0.0017 0.0806 0.1171 0.0014 0.0011 0.0003 0.0013 0.0012 0.0025
X
8

0.2956 0.0019 0.3334 0.4814 0.0059 0.0046 0.0013 0.0087 0.0078 0.0097
X
9

0.2696 0.0023 0.3016 0.4357 0.0054 0.0042 0.0012 0.0078 0.0070 0.0083
X
10

0.6332 0.0211 0.6326 0.9203 0.0110 0.0085 0.0025 0.0097 0.0088 0.0201






Matriz H (Matriz de Soma de Quadrados e Produtos Referentes a Tratamentos (progenitores))




X
1


X
2


X
3


X
4


X
5


X
6


X
7


X
8


X
9


X
10


X
1


53.4879

2.3392

38.3555

54.8376

0.8173

0.6499

0.1673

0.1060

0.2597

1.8343
X
2

2.3392 0.3170 0.3111 0.7701 0.0325 0.02241 0.0101 -0.0056 -0.0261 0.0753
X
3

38.3555 0.3111 50.6679 68.3037 0.6947 0.5726 0.1221 0.5545 0.7656 1.4055
X
4

54.8376 0.7701 68.3037 95.8201 0.9786 0.8040 0.1745 0.7893 1.0600 1.9644
X
5

0.8173 0.0325 0.6947 0.9786 0.0139 0.0111 0.0028 0.0067 0.0087 0.0292
X
6

0.6499 0.0224 0.5725 0.8040 0.0111 0.0091 0.0021 0.0057 0.0079 0.0233
X
7

0.1673 0.0101 0.1221 0.1745 0.0028 0.0021 0.0006 0.0011 0.0008 0.0058
X
8

0.1061 -0.5684 0.5545 0.7893 0.0067 0.0056 0.0011 0.0491 0.0413 0.0070
X
9

0.2598 -0.0261 0.7656 1.0610 0.0088 0.0079 0.0008 0.0413 0.0409 0.0126
X
10

1.8344 0.0753 1.4054 1.9644 0.2915 0.0233 0.0058 0.0070 0.0126 0.0647






MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


50
Mariz E (Matriz de Soma de Quadrados e Produtos Referentes ao Resduo)




X
1


X
2


X
3


X
4


X
5


X
6


X
7


X
8


X
9


X
10


X
1


63.4790

2.5567

35.7705

50.3686

0.7339

0.5699

0.1640

-1.4248

-0.9747

1.9399
X
2
2.5568 0.3254 1.9244 2.4774 0.00348 0.0255 0.0093 -0.0461 0.0405 0.0827
X
3
35.7705 1.9244 47.6119 59.9386 0.6334 0.4954 0.1380 -0.0924 0.0562 1.2535
X
4
50.3686 2.4774 59.9386 84.2742 0.8936 0.7001 0.1935 0.2014 0.3392 1.6774
X
5
0.7339 0.0348 0.6334 0.8935 0.1257 0.0098 0.0028 -0.0007 0.0012 0.0249
X
6
0.5699 0.0255 0.4938 0.7001 0.0098 0.0077 0.0021 -0.0001 0.0017 0.0194
X
7
0.1640 0.0093 0.1380 0.1934 0.0028 0.0021 0.0007 -0.0007 -0.0005 0.0055
X
8
-1.4247 -0.0461 -0.0924 0.2014 -0.0007 -0.0001 -0.0007 0.1751 0.1358 -0.0405
X
9
-0.9747 -0.0405 -0.0562 0.3392 0.0012 0.0017 -0.0005 0.1258 0.1085 -0.0275
X
10
1.9399 0.0827 1.2535 1.6773 0.0248 0.0194 0.0055 -0.0404 -0.0275 0.0629




Os testes para a hiptese H
0
: CBW = , ou seja, a no existncia de variao entre
progenitores referentes s 10 caractersticas consideradas simultaneamente, so apresentados
na sequncia.

a) Teste de Hotelling-Lawley

Os parmetros da distribuio so:

S = mn (27,10) = 10
m = ( |10 - 27| - 1) / 2 = 8
n = (81 - 10 -1) / 2 = 35
T
2
0
= 8,488 (resultado SAEG)

2( Sn + 1)
_____________________
T
2
0
= 2,21

S
2
(2m+ S + 1)

Admitindo = 0,05 tm-se F
0.05, 270, 702
1,0 , ou para = 0,01 tem-se F
0.01,270, 702

1,0, ento a hiptese H
0
foi rejeitada ao nvel de 1% de probabilidade pelo teste de Hotelling-
Lawley (T
2
0
)


b) Teste de Pillai

Tem-se, tambm, os parmetros:

S = 10 m = 8 n = 35

V = 3,8024 (resultado SAEG)

2n+ S + 1 V
_______________ _______
= 1,84
2m+ S+ 1 S-V
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


51
Admitindo = 0,05 tm-se F
0.05, 270, 810
1,0, ou para = 0,01 tm-se F
0.01, 270, 810

1,0, rejeita-se a hiptese H
0
ao nvel de 1% de probabilidade pelo teste de Pillai.


c) Teste de Wilks

Os parmetros da distribuio so:

m= 81 - (10+27+1) / 2 = 62
= (270 -2) / 4 = 67


S = {(10
2
27
2
- 4) / (10
2
+ 27
2
- 5)}

= 9,41

= 0,00473 (resultado SAEG)

mS - 2 1-
1/S


_____________ _________
= 1,27
pq
1/S

Admitindo = 0,05 tm-se F
0.05, 270, 628
1,0 , ou para = 0,01 tm-se F
0,01, 270, 628

1,0 , rejeita-se H
0
ao nvel de 1% de probabilidade pelo teste de Wilks.


d) Teste de Roy

Os parmetros, para este teste, so:

S = 10 m= 8 n = 35


1
= 2,6332 (resultado SAEG)

Admitindo = 0,05 pelo baco, encontrado em MORRISON (1981), tm-se
0.05,
10, 8, 35
= , ou para = 0,01 e pelo baco
0.01, 10, 8, 35
= , rejeita-se, tambm, H
0
ao nvel do 1%
de probabilidade pelo teste de Roy.
Verifica-se, ento, que a hiptese H
0
foi rejeitada ao nvel de 1% de probabilidade,
para todos os 4 testes aplicados, ou seja, os progenitores diferem entre si com relao s 10
caractersticas avaliadas simultaneamente, ou ainda, com base nesta anlise, pode-se afirmar
que existe variao entre os progenitores estudados.
Desta forma, se o pesquisador deseja informaes por cada classe separadamente, uma
anlise univariada suficiente. Entretanto, se o interesse uma concluso conjunta de todas
as classes, a anlise multivariada deve ser preferida, pois alm de todas as concluses serem
realizadas ao nvel de significncia pr-estabelecido, toda a informao de variao
(correlao) considerada.
5.3. Procedimentos para Comparaes Mltiplas
Quando a hiptese de nulidade H
0
: CBW = rejeitada, no se sabe quais
tratamentos ou combinaes de tratamentos diferem entre si. Assim, torna-se necessrio
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


52
utilizar-se de procedimentos de comparao mltiplas entre os tratamentos ou combinaes
destes a fim de definir quais os efeitos de tratamentos que diferem ente si.
Os procedimentos para testar a hiptese H
0
: m
1
= m
2
= ... = m
I
so usados numa
anlise preliminar pois eles deixam sem respostas algumas inportantes questes relativas a
comparaes efetivas entre tratamentos, conforme j comentado. Entretanto, atravs de
contrastes pode-se obter respostas mais especficas a respeito de hipteses de interesse. Isto ,
os contrastes lineares ajudam a detalhar mais sobre a questo de comparaes entre
tratamentos.
Um contrastes linear uma combinao linear entre os vetores mdias dos tratamentos
e constantes (c) orbitrrias tais que c
i
n
i
= 0. Ou um contraste o vetor linha.

W= c
1
w
1
+ c
2
w
2
+ +c
I
w
I

Assim, a hiptese agora pode ser considerada da seguinte forma:

H
0
: W = 0 versus H
a
: W 0

Desta forma pode-se efetuar comparaes entre os vetores mdios dos tratamentos
assim como realizado no caso univariado.
Vale salientar que para cada contraste calculado um resduo adequado. Quando se
trabalha com contraste ortogonais, sabe-se que (I-1) graus de liberdade decompe se em (I -1)
contraste com um grau de liberdade cada.
Cada hiptese montada testada usando a estatstica (critrio da razo de
verossimilhana devido a Wilks) ou T
0
2
de Hottlingda seguinte forma:

H
0
: W = 0 vs H
0
: w 0

W
s
= c
1
m
1
+ c
2
m
2
+ + c
I
m
I

onde: m
I
= Y
i
. / n
i
e S = 1,2,,I


Usando a estatstica (critrio da razo de verossimilhana, devido a Wilks), tem-se:

| R |

S
=
_____________
S = 1, 2,, (I-1)
| H
S
+ R |


e as matrizes H
S
passam a ser:

H
S
= (h
KK
)
S
, S = 1,2,, (I -1)


W
K
W
K

h
KK
=
____________
K,K= 1, 2, , K para KK

K

n
i
c
i
2


i=1

MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


53
Rejeita-se H
0
para valores menores que
(K,1,ne)


Usando a estatsca T
0
2
de Hotteling, tm-se:

W
S
R
T
0
2
=
___________
S
-1
W
S
onde S
-1
=
____

n
i
c
i
2
n
e

Rejeita-se H
0
para valores maiores que T
0
2

(K,ne,)


Mais detalhes sobre estes procedimentos descritos acima podem ser encontrado em
NEGRILLO e PERRE (1987)
Entretanto, segundo STUKER (1986), o princpio de unio interseo de Roy o mais
adequado, pois permite calcular os limites de confiana simultneos para todas conbinaes
lineares dos elementos da matriz CBW, com uma probabilidade conjunta (1-). Alm disso,
este tido como uma continuao lgica do teste de significncia do maior autovalor (Teste
de Roy).

Conforme citado por MARDIA (1979) tem-se os intervalos de confiana simultneos:

P { [(cBl - cBl)
2
] / [lRlc(XX)
-
c] } [

/ (1 -

)]


l
,

c/c
= Cd = 1 -

ento,

cBl { [

/ (1 -

)] [lRlc(XX)
-
c] }



so os intervalos de confiana para cBl.

onde,
c - um vetor de dimenses [1 x (I+J+1)] arbitrrio, que possui os coeficientes das
conbinaes de tratamentos;

l um vetor de dimenes (K x 1), arbitrrio, que seleciona uma varivel ou
uma combinao de variveis, e

valor crtico de Roy ao nvel de probabilidade, podendo ser encontrado


em bacos (MORRISON 1981) com parmeros:

S = mn (I-1, K)

|I-K-1| -1
m=
_____________

2

I (J-1) - (J-K)
n=
_________________

2

MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


54
No caso de c e l serem fixados a priori os limites de confiana podem ser obtidos
trocando-se:


1

________
por
_______________
F
1, (I-1)(J-1),

1-

(I-1)(J-1)


Para c fixado a priori e todo l fixado a posteriori, troca-se:



K

________
por
_______________________
F
K, (I-1)(J-1) - K + 1,

1-

(I-1)(J-1) - K + 1

Para o caso de K = 1, tem-se:

S = mn (I - 1, K) = 1, troca-se:



I - 1

________
por
_______________
F
(I-1), (I-1)(J-1),

1-

(I-1)(J-1)

lRl = SQRes , pois l= [1]


Assim, se c no for estabelecido a priori, o intervalo adequado ser:

P {| cB - cB | [ c(XX)
-
c SQRes {(I-1) / I-1)(J-1)} F
(I-1),(I-1)(J-1),

]
1/2
} = 1-

(
logo, os limites de confiana ficam:

cB {c(XX)c QMRes (I-1) F
(I-1), (I-1)(J-1)
;

}
1/2

que a expresso obtida por SCHEFFE(1953).

Para ambos os casos discutidos anteriormente, rejeita se H
0
: cBl = 0, ao nvel de
significncia se o intervalo de confiana ao nvel (1-) no contiver a origem.
Mais detalhes sobre estes e outros procedimentos para comparaes mltiplas podem
ser encontrados em MARDIA et al.(1979), MORRISON (1981), GODOI (1985),
MANLY(1986), NEGRILLO e PERRE(1987) JOHNSON E WICHERN(1988), entre outros.
Estes autores discutem procedimentos para estimao e testes de hipteses.









MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


55
6. REFERNCIAS BIBLIOGRFICAS
ADAMS, M.W. & WIERSMA, J.V. An adaptation of principal components analysis to an
assessment of genetic distance. Research Refort, 347: 2-7, 1978.
ARNOLD, S.F. The theory of linear models and multivariate analysis. New York, John
Wiley & Sons, 1981. 475p.
ARUNACHALAM, V. Genetic distance in plant breeding. Indian Jour. of Genetics, 41:
226-36, 1981.
CAMPBELL, N.A. & ATCHLEY, W.R. The geometry of canonical variate analysis.
Systematic Zoology, 30: 268-80, 1981.
CAMUSSI, A.; OTTAVIANO, E.; CALINSKI, T.; KACZMAREK, Z. Genetic distances
based on quantitative traits. Genetics, 11: 945-62, 1985.
CHATFIELD, C. & COLLINS, A.J. Introduction to multivariate analysis. Ney York,
London: Chapman and Hall, 1986. 246p.
CHATFIELD, C. & COLLINS, A.J. Introduction to multivariate analysis. New York,
London: Chapman and Hall, 1986. 242 p.
CRUZ, C.D. & REGAZZI, A.J. Modelos biomtricos aplicados ao melhoramento
gentico. Viosa, UFV, 1994. 394 p.
CRUZ, C.D. Algumas tcnicas de anlise multivariada no melhoramento de plantas.
Piracicaba, ESALQ/USP, 1987. 75 p. (Monografia)
CRUZ, C.D. Aplicao de algumas tcnicas multivariadas no melhoramento de plantas.
Piracicaba, ESALQ/USP, 1990. 188 p. (Tese D.S.)
DEMTRIO, C.G.B. Anlise multidimensional para dados de cana-de-acar. Piracicaba,
ESALQ, 1985. 144 p.
DUNTEMAN, G.H. Introduction to multivariate analysis. Beverly Hills: Sage
Publications, 1984, 237p.
GODOI, C.R. de M. Anlise estatstica multidimensional. Piracicaba-SP, USP/ESALQ,
Depto. de Matemtica e Estatstica, 1985. 187 p.
HOTELLING, H. Analysis of a complex of statistical variables into principal components. J.
Educ. Psichol., Washington D.C., v.24, p.417-41, 1933.
HOTELLING, H. Simplified calculation of principal components. Psychometrika,
Baltimore, v.1, p. 27-35, 1936.
JAMES, F.C. & McCULLOCH, C.E. Multivariate analysis in ecology and systematics:
Panacea or pandoras box? Annual Review Ecology Systematic, 21:129-66. 1990.
JOHNSON, R.A. & WICHERN, D.W. Applied multivariate analysis. 2.ed. Englewood
Cliffs, Prentice Hall, 1988, 607 p.
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


56
JOHNSON, R.A. & WICHERN, D.W. Applied multivariate statistical analysis (2
a
ed.).
Englewood Cliffs, Prentice Hall, 1988. 607 p.
JOLLIFFE, I.T. Discarding variables in a principal component analysis; I. Artificial data.
Appl. Stat, Srie C, London, v.21, p.160-73, 1972.
JOLLIFFE, I.T. Discarding variables in a principal component analysis; II . Real data. Appl.
Stat, Srie C, London, v.22, p.21-31, 1973.
KENDALL, M. Multivariate analysis. High Wycombe, Charles Griffin, 1980. 209 p.
KENDALL, M. Multivariate analysis. High Wycombe, Charles Griffin, 1980. 209p.
KENDALL, M.G. Factor analysis as a statistical techiniques. J. R. Statist. Soc., B, 22: 60-73,
1950.
LIBERATO, J.R. Aplicaes de tcnicas de anlise multivariada em fitopatologia. Viosa,
UFV, 1995. 144 p. (Tese M.S.)
MANLY, B.F.J. Multivariate statistical methods: A primer. London, Chapman and Hall,
1986. 159 p.
MANLY, B.F.J. Multivariate statistical methods: A primer. London, Chapman and Hall,
1986. 159 p.
MARDIA, K.V.; KENT, J.T.; BIBBY, J.M. Multivariate analysis. Academic Press, 1979.
521 p.
MARDIA, K.V.; KENT, J.T.; BIBBY, J.M. Multivariate analysis. London, Acad. Press,
1979. 521 p.
MORRISON, D.F. Multivariate statistical method. McGraw - Hill Book Co., 1976. 415 p.
MORRISON, D.F. Multivariate statistical methods (2
a
ed.). New York, Mc Graw-Hill,
1976. 415 p.
NEGRILLO, B.G. & PERRE, M.A. Mtodos multivariados e aplicaes. Londrina-PR,
Depto. de Matemtica Aplicada - VEL, 1987. 91 p.
QUEIROZ, W.T. de. O uso da anlise multivariada nos levantamentos florestais. In:
Simpsio sobre Inventrio Florestal, 2, Piracicaba, 1984, pg. 103-6.
RAO, C.R. Advanced statistical methods in biometric research. New York, John Wiley &
Sons, 1952. 389 p.
RAO, R.C. Advanced statistical method in biometric research. John Wiley and Son, 1952.
390 p.
SAKAGUTI, E.S. Utilizao de tcnicas de anlise multivariada na avaliao de
cruzamentos diallicos em coelhos. Viosa, UFV, 1994. 181 p. (Tese M.S.).
SINGH, R.K. & CHAUDHARY, B.D. Biometrical methods in quantitative genetic
analysis. New Delhi, Kalyani Publishes. 1979. 304 p.
MANEJO FLORESTAL DEF/UFV Prof. Agostinho Lopes de Souza


57
SMITH, H.; GNANA DESIKAN, R.; HUGHES, J.B. Multivariate analysis variance
(MANOVA). Biometrics, 18:22-41. 1962.
SOUZA, A.L. de. Anlise multivariada para manejo de florestas naturais: alternativas
de produo sustentada de madeiras para serraria. Curitiba, UFPR, 1989. 255 p.
(Tese D.S.)
SOUZA, A.L. de.; HOSOKAWA, R.T.; KIRCHNER, F.F.; MACHADO, S.A. Anlise
multivariada para manejo de floresta natural na reserva florestal de Linhares, Esprito
Santo: anlises de agrupamento e discriminante. Rev. rvore, v.14, n.2, p.85-101, 1990.
SOUZA, I.C.G. Aplicao de algumas tcnicas de anlise multivariada no estudo de
hbridos de Eucalyptus spp. Piracicaba, ESALQ/USP, 1993 (Monografia)
STUKER, H. Anlise multivariada para dados onde a caracterstica observada
subdividida em K classes. Piracicaba, ESALQ/USP, 1986. 92 p. (Tese M.S.).
VAN LAAR, A.V. Multivariate Analysis - A way to better understanding of complexity.
South African For. Journal, n.141, junho, 1987.
WILKS, S.S. Certain generalizations in the analysis of variance. Biometrika, 24:471-494,
1932.