Escolar Documentos
Profissional Documentos
Cultura Documentos
NDICE
Pgina
1. INTRODUCO..........................................................................................................
2. COMPONENTES PRINCIPAIS................................................................................
2.1. Introduo............................................................................................................
2.2. Obteno dos Componentes Principais ...............................................................
2.3. Importncia Relativa de um Componente Principal............................................
2.4. Correlao Entre o Componente Yk e a Varivel Xi ...........................................
APLICAO 1 ..........................................................................................................
2.5. Componentes Principais Obtidos de Variveis Padronizadas .............................
APLICAO 2 ..........................................................................................................
2.6. Sumarizao da Variao Amostral por Componetes Principais ........................
2.7. Descarte de Variveis ..........................................................................................
2.8. Anlises de Componentes Principais e Anlise de Agrupamento.......................
APLICAO 3 ..........................................................................................................
3. VARIVEIS CANNICAS ......................................................................................
3.1. Introduo............................................................................................................
3.2. Obteno das Variveis Cannicas......................................................................
3.3. Importncia Relativa de uma Varivel Cannica ................................................
3.4. Descarte de Variveis ..........................................................................................
3.5. Anlise de Variveis Cannica e Anlise de Agrupamento ................................
APLICAO 4 ..........................................................................................................
4. CORRELAES CANNICAS ...............................................................................
4.1. Introduo............................................................................................................
4.2. Obteno das Correlaes Cannicas e dos Pares Cannicos .............................
APLICAO 5 ..........................................................................................................
4.3. Algumas Aplicaes na rea Florestal ...............................................................
5. ANLISE DE VARINCIA MULTIVARIADA .....................................................
5.2. Consideraes sobre a MANOVA ......................................................................
5.2.1. Desenvolvimento Matemtico ..........................................................................
APLICAO 1 ..........................................................................................................
5.3. Procedimentos para Comparaes Mltiplas ......................................................
6. REFERNCIAS BIBLIOGRFICAS .......................................................................
1
1
1
2
4
5
6
9
11
14
14
15
16
21
21
22
25
25
26
27
31
31
32
35
36
38
39
40
47
51
55
1. INTRODUCO
A anlise estatstica multivariada ou simplesmente anlise multivariada o ramo da
estatstica direcionado ao estudo das amostras e distribuio multidimensionais, ou seja, so
mtodos estatsticos apropriados para estudos em que vrias variveis so consideradas
simultaneamente.
No entanto, apesar de as tcnicas multivariadas terem eficincia comprovada e proporcionarem enriquecimento das informaes extradas de dados experimentais, necessria para
seu uso a disponibilidade de recursos computacionais, motivo pelo qual a referida tcnica
ficou limitada no seu uso e do repasse entre os pesquisadores das diversas reas da cincia, no
Brasil. Entretanto, com a incrementao dos recursos da informtica nos ltimos anos, a
tcnica atraiu a ateno dos pesquisadores das diversas reas, tornando o seu emprego
potencialmente grande e, conseqentemente, o seu conhecimento indispensvel.
A anlise multivariada compreende vrias tcnicas que, segundo KENDALL (1980),
citado por CRUZ (1987), distinguem-se em:
a) Tcnicas de Avaliao da Interdependncia: estuda as relaes de um conjunto
de variveis entre si.
- Cluster Analysis ou Anlise de Agrupamento
- Componentes Principais
- Correlaes Cannicas
- Anlise Fatorial
- Escala
b) Tcnicas de Avaliao da Dependncia: estuda a dependncia de uma ou mais
variveis em relao s outras.
- Regresso
- Relao Funcional
- Mltipla Contigncia
- Anlise Discriminante
Devido complexidade e extenso do assunto, o presente trabalho teve como objetivo
fazer uma abordagem sobre a utilizao de algumas tcnicas multivariadas na rea florestal,
tomando-se como base os seguintes estudos: Componentes Principais, Variveis Cannicas e
Correlaes Cannicas.
2. COMPONENTES PRINCIPAIS
2.1. Introduo
A anlise de componentes principais uma tcnica multivariada, que segundo
KENDAL (1950), uma tcnica de avaliao da interdependncia, ou seja, estuda as relaes
de um conjunto de variveis entre si.
A tcnica de componentes principais foi originalmente descrita por Karl Pearson, em
1901, em um artigo onde deu nfase sua utilizao no ajustamento de um subespao a uma
nuvem de pontos. Posteriormente, a tcnica foi consolidada por Hotelling em 1933 e 1936,
para o propsito particular de analisar estruturas de correlaes (MORRISON, 1976,
MARDIA et al., 1979; MANLY, 1986; CRUZ, 1990). Entretanto, o uso da anlise s foi
1
i = 1, 2, ... , p
i, k = 1, 2, .... , p
A soluo que maximiza Var (Y1) obtida pela derivao de W1 em relao a 11, que
dada por:
S - 1 I a = 0
A soluo deste sistema deve ser tal que 1 , assim necessrio que o determinante
de (S - 1I) seja mulo, para que o sistema se torne indeterminado e a soluo possa ser
escolhida entre aquelas que satisfaam a condio 1111 = 1.
Sendo 1 o valor que satisfaz S - 1I = 0, ento, por definio, 1 a raiz
caracterstica (ou autovalor) de S e 11, o vetor caracterstico (autovetor) associado.
Sendo o vetor 11 o escolhido para maximizar Var (Y1), tem-se que 1 o maior valor
entre o conjunto de autovalores de S.
A varincia do segundo componente principal dada por: Var (Y2) = 12 S 12. Para
obteno das estimativas do vetor 12, deve-se considerar as restries 12 12 = 1 e 1211 = 11
12 = 0, as quais so incorporadas na funo de maximizao por meio dos multiplicadores 2 e
de Lagrande. Assim, estabelecido que:
W2 = 12 S 12 + 2 ( 1 - 1212) + 12 11
A soluo que maximizar Var (Y2), obtida pela derivao de W2 em relao ao 12,
dada por:
(S - 2I) 12 =
em que 2 a segunda maior raiz caracterstica de S e 12 o seu autovetor associado.
As restries consideradas neste segundo componente principal atendem aos seguintes
propsitos:
a) a primeira restrio necessria para garantir a unicidade de 12;
b) a segunda restrio garante que 11 e 12 sejam ortogonais.
Os demais componentes principais so estimados de maneira anloga ao descrito para
os dois primeiros.
2.3. Importncia Relativa de um Componente Principal
Baseando no fato de que:
Var (Yi) = i;
Var (Y1) Var (Y2) ... V (Yp) 0
Cov (Yi, Yk) = 0, para i k
p
Var (Yi) = tr S
i=1
ou seja,
p
i=1
i=1
PVks =
1 + 2 + ... + k
__________________________
k = 1, 2, ..., p
1 + 2 + ... + p
Desta forma, verifica-se que a proporo da variao total explicada pelos primeiros
componentes principais uma medida da quantidade de informao retida pela reduo de p
para k dimenso.
Em certos estudos desejvel que a varincia acumulada nos dois primeiros componentes principais exceda 70-80%. Nesta condio, a distoro das coordenadas no grfico de
disperso, cujos eixos so os componentes principais, ser considerada aceitvel e as inferncias no estudo satisfatrio (CRUZ e REGAZZI, 1994).
2.4. Correlao Entre o Componente Yk e a Varivel Xi
Se Y1 = 11X; Y2 = 12X; .... , Yp = 1pX so os componentes principais obtidos da
matriz de covarincia (S), ento o coeficiente de correlao entre o componente Y1 e a
varivel Xk dado por:
Cov (Yi , Xk)
i 1 ki
1ki [ i ]
________________________________
____________________
______________
Yi, Xk =
=
=
APLICAO 1
Supondo os seguintes dados, organizados na forma de uma matriz X, representando
uma amostra de uma vegetao constituda de duas espcies e cinco parcelas,
_
2,0
X=
1,8
X=
S12
S21
S22
S=
3,5
-0,5
-0,5
2,7
j = 1 , ... n,
i=1
IRk =
k
_______________
k = 1 ,2
1 + 2
p
Assim,
IR1 =
IR2 =
1
_____________
3,74
=
_________
1 + 2
6,20
2
____________
__________
1 + 2
= 0,6033 60,33%
2,46
=
= 0,3967 39,67%
6,20
Verifica-se, neste caso, que 60,37% da variao total est concentrada em Y1, ou seja,
Y1 explica 60,33% da variao total. O segundo componente principal (Y2) explica 39,67% da
variao total.
111 [1]
______________
-0,901 [3,74]
=
_____________________
[
11]
[3,50]
121 [1]
0,433 [3,74]
= -0,93
0,433 [2,46]
122 [2]
0,901 [2,46]
Varincia
CPA (Autovetores)
Principal
Autovalor
(%)
X1
X2
Y1
3,74
60,33
-0,901
0,433
Y2
2,46
39,67
0,433
0,901
Componentes
Y1
-1,802
-4,072
-0,070
0,398
0,433
3,740
1
2
3
4
5
Varincia
Y2
0,866
3,066
4,470
3,136
0,901
2,460
Figura 1 - Disperso das Cinco Parcelas em Relao aos Dois Componentes Principais
(Y1 e Y2).
Zi =
X1 -
___________
i
1
r12
R=. .
.
.
rp1
r12
...
r1p
...
.
r2p
.
.
rp2
.
.
1
...
em que:
Cov (Xi , Xj)
rij = Cov (Zi, Zj) = ________________________
[Var (Xi) Var (Xj)]
De acordo com CRUZ (1987), as estimativas dos componentes principais, quando se
usa a matriz S pode ser muito diferente daquelas encontradas quando se utiliza da matriz R.
Assim, recomendado o uso de matriz S, somente naqueles casos em que as unidades
originais no so fixadas arbitrariamente, mas sim sugeridas por razes objetivas.
Seja o vetor aleatrio X = [ X1, X2, .... , Xp]. Considerando a padronizao destas
variveis, tem-se:
X1 - 1
X2 - 2
Xp - p
Z1 = ___________ ; Z2 = ___________ ; . . . ; Zp = ___________
[
11]
[
22]
[
pp]
A notao matricial :
Z = (V )-1 (X - )
em que
11
22
.
V=
.
.
pp
claro que:
E (Z) =
10
em que:
S=
11
21
...
p1
12
22
...
p2
...
.
.
.
pp
.
.
.
1p
22
i=1
Yi , Zk = 1ki [i],
i , k = 1, 2, ..., p
IRk =
k
________
k = 1, 2, ..., p
p
em que os ks so os autovalores da matriz R.
APLICAO 2
Seja a matriz de covarincias S:
100
S=
11
e a matriz de correlao R:
1,0
0,4
0,4
1,0
R=
11 = [0,040
0,999]
2 =
12 = [0,999
-0,040]
0,84
11 = [0,707
0,707]
2 = 1 - = 0,6;
12 = [0,707
-0,707]
Y1 = 0,707
X1 - 1
_____________
+ 0,707
X2 - 2
_____________
10
Y2 = 0,707 Z1 - 0,707 Z2
Y2 = 0,707
X1 - 1
_____________
1
- 0,707
X2 - 2
_____________
10
12
A proporo da variao total explicada por cada um dos componentes principais so:
a) A partir de S:
1
100,16
IR1 = ___________ = ___________ = 0,992
101,00
1 + 2
2
0,84
IR2 = ___________ = ___________ = 0,008
1 + 2
101,00
O primeiro componente principal (Y1) explica 99,2% da variao total.
b) A partir de R:
1
1,40
IR1 = _______ = _______ = 0,70
p
2,00
2
0,60
IR2 = _______ = _______ = 030
p
2,00
O primeiro componente principal (Y1), neste caso, explica 70% da variao total.
Os coeficientes de correlao entre Yi e as variveis X1 e X2, so:
a) A partir de S:
111 [1 ]
0,040 [100,16]
121 [1 ]
0,999 [100,16]
112 [2 ]
0,999 [0,840]
122 [2 ]
-0,040 [0,840]
b) A partir de R:
Y1,Z1 = 111 [1 ] = 0,707 [1,4] = 0,837
Y1,Z2 = 121 [1 ] = 0,707 [1,4] = 0,837
Y2,Z1 = 112 [2 ] = 0,707 [0,6] = 0,548
Y2,Z2 = 122 [2 ] = -0,707 [0,6] = -0,548
Da aplicao 2, pode-se concluir que a varivel X2 praticamente domina o primeiro
componente principal, quando este determinado a partir de S, em que o primeiro
componente principal (Y1) explica 99,2% da variao total. Quando as variveis X1 e X2 so
padronizadas, no entanto, as duas variveis contribuem igualmente, e o primeiro componente
principal explica 70% da variao total.
O presente exemplo demonstra que os componentes principais derivados a partir de S
so diferentes daqueles derivados a partir de R. Um grupo de componentes principais no
uma simples funo do outro. Isto sugere que a padronizao no inconseqente.
Assim, variveis podem ser padronizadas se elas possuem medidas ou escalas muito
diferentes ou as unidades de medida so incomesurveis.
2.6. Sumarizao da Variao Amostral por Componetes Principais
Embora p-componentes principais sejam necessrios para reproduzir a variabilidade
total do sistema, a viabilidade de utilizao da tcnica de componentes principais reside na
possibilidade de resumir o conjunto de variveis originais em poucos componentes. Nestas
condies, esta tcnica proporcionar uma simplificao considervel nos clculos estatsticos
e na interpretao dos resultados com relao aos demais mtodos altenativos, principalmente
quando o nmero de indivduos avaliados for relativamente grande.
Assim, se os primeiros componentes principais acumularem uma porcentagem
relativament alta da variao total, em geral referida como acima de 80%, eles explicaro
satisfatoriamente a variabilidade manifestada entre os indivduos avaliados e, portanto, o
fenmeno poder ser interpretado com considervel satisfao. Segundo CRUZ e REGAZZI
(1994), em estudos da divergncia gentica, em geral, tm optado pela representao grfica
quando os dois primeiros componentes principais envolvem pelo menos 70 a 80% da variao
total. Nos casos em que este limite no alcanado nos dois primeiros componentes, a anlise
complementada pela disperso grfica em relao ao terceiro e quarto componente.
2.7. Descarte de Variveis
Em certos estudos, quando o nmero de variveis muito grande, procura-se descartar
aquelas de poucas relevncia na discriminao do material avaliado, reduzindo, assim, mode-obra, tempo e custo despendido na anlise e interpretao dos dados experimentais.
Em estudos de divergncia gentica, caracteres dispensveis so aqueles relativamente
invariantes entre as espcies/clones estudados,e, ou, redundantes, por estarem correlacionados
com outros caracteres (CRUZ & REGAZZI , 1994). Segundo ADANS e WIERSMA (1978),
citado por CRUZ e REGAZZI (1994), os caracteres a serem preservados na anlise de
14
divergncia gentica devero ser apenas aqueles que representam a estrutura fundamental do
sistema biolgico que est sendo estudado, devendo ainda serem suficientemente diversos
para representarem, no mnimo, as dimenses mais importantes do sistema.
Uma das tcnicas de descartes de variveis aquela citada por MARDIA et al. (1979)
e CRUZ e REGAZZI (1994), em que baseia-se no princpio de que a importncia relativa dos
componentes principais decresce do primeiro para o ltimo; assim, tm-se que os ltimos
componentes so responsveis pela explicao de uma frao mnima da varincia total
disponvel. Desta forma, segundo estes autores, a varivel que apresentam maior coeficiente
de ponderao (elemento do autovetor) no componente de menor autovalor, considerada de
menor importncia para explicar a variabilidade do material estudado, sendo, portanto,
possvel de descarte.
Este princpio de descarte de variveis consistente com a notao que considera que
um componente com um pequeno autovalor de pouca importncia e, consequentemente, a
varivel que domina este deve ser de pequena importncia ou redundante.
Segundo recomendaes de JOLLIFFE (1972, 1973), MARDIA et al. (1979) e CRUZ
e REGAZZI (1994) tem sido comum descartar a varivel de maior coeficiente de ponderao
(em valor absoluto) a partir do ltimo componente at aquele cujo autovetor no excede a
0,70 (vlido para dados padronizados). Quando em um componente de menor varincia, o
maior coeficiente de ponderao est associado a uma varivel j previamente descartada,
tem-se optado por no fazer nenhum outro descarte com base nos coeficientes daquele
componente, mas prosseguir a identificao da importncia relativa das variveis no outro
componente de varincia imediatamente superior.
Uma variao deste mtodo de descarte de variveis, segundo MARDIA et al. (1979),
consiste a cada estgio de descarte da varivel associada com o componente de menor
autovalor, refazer a anlise de componentes principais com as variveis remanescentes. Este
processo conduzido at que todos os componentes principais tenham autovalores altos.
2.8. Anlises de Componentes Principais e Anlise de Agrupamento
O uso dos componentes principais na reduo do nmero dedimenses de uma matriz
permite a apresentao grfica. Assim, quando os primeiros componentes explicam a maior
parte da variao do sitema em estudo, estes podem ser representados graficamente e apresentar uma importante aplicao em conexo com a anlise de agrupamento (MARDIA et al.,
1979; MARRIOT, 1974).
Segundo CRUZ e REGAZZI (1994), um dos objetivos do uso dos componentes
principais em estudo sobre a divergncia gentica avaliar a dissimilaridade dos gentipos,
clones, etc., em grficos de disperso, em que tem os primeiros componentes como eixo de
referncia. Este procedimento satisfatrio quando os odis primeiros componentes utilizados
como eixo do sistema cartsiano envolvem uma frao considervel da variao total,
normalmente citada como acima de 70 a 80%. Nos casos em que o limite no atingido com
os dois primeiros componentes, a anlise complementada com a disperso grfica em
relao ao terceiro e quarto componente.
MARRIOT (1974) comenta que uma das dificuldades na anlise de agrupamento,
utilizando mtodos numricos, com relao a deciso da diviso de um conjunto de
observaes em grupos. Em alguns casos, mtodos visuais so mais eficientes do que os
baseados em valores numricos. Assim, grficos de disperso provenientes dos componentes
principais podem auxiliar a anlise de agrupamento em vrios sentidos. Em primeiro lugar,
como forma particular de anlise de agrupamento, ou seja, naquelas situaes em que os
grupos so claramente definidos e bem separados, um mtodo analtico elaborado, neste caso,
15
dcp2ii
____________________
n d
para
i < i.
ii
em que:
dcp2ii = quadrado da distncia Euclidiana estimada a partir dos escores de n1 componentes
principais;
2
d ii = quadrado da distncia Euclidiana mdia estimada a partir das n variveis originais.
Assim, segundo estes autores, o parmetro (1 - ) mede o grau de distoro
proporcionado pela tcnica dos componentes principais, ao se passar do espao n-dimensional
para o n1-dimensional (n1 < n).
Nos casos em que a disperso grfica no prov informaes adequadas sobre o grau
de similaridade dos indivduos estudados, CRUZ (1990) comenta que certos autores tm
utilizado os escores dos primeiros componentes principais para o clculo da distncia
Euclideana, valendo-se, para esse fim, da propriedade de independncia entre tais componentes. Tal procedimento , muitas das vezes, utilizado para complementar as informaes da
disperso grfica, em virtude de permitir o estabelecimento de grupos de maneira menojs
subjetiva do que aquela que se verifica em exames visuais. Maiores detalhes sobre a utilizao
combinada das duas tcnicas (componentes principais e conglomerao) em estudos sobre
divergncia gentica so encontrados em ADANS e WIERSMA (1978).
APLICAO 3
Caso base em dados de um teste de prognies de Eucalyptus sp., em que foram
avaliadas 10 caractersticas (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10) em 10 prognies, num
delineamento em blocos ao acaso com quatro repeties e seis plantas por parcela, realizou-se
a anlise por componentes principais. A seguir so apresentados as matrizes de mdias,
varincia, covarincia e de correlaes.
16
X1
10.7542
10.3417
11.2625
10.3583
9.8083
10.2292
9.6042
9.5208
11.6333
10.4292
X2
0.6708
0.6000
0.6750
0.6083
0.5542
0.6833
0.6500
0.5833
0.7458
0.6792
X3
16.4708
17.0833
17.0250
16.7542
15.9250
16.6208
15.7333
15.8167
16.6833
15.7208
X4
12.8417
13.0708
13.2875
13.1375
11.6000
13.0708
11.5958
11.6208
12.9125
11.7958
Caractersticas
X5
X6
0.0750 0.0575
0.0731 0.0556
0.0832 0.0649
0.0768 0.0587
0.0616 0.0480
0.0691 0.0525
0.0621 0.0479
0.0579 0.0439
0.0954 0.0736
0.0687 0.0527
X7
0.0175
0.0175
0.0184
0.0181
0.0136
0.0167
0.0142
0.0140
0.0218
0.0161
X8
0.4786
0.4791
0.5509
0.5230
0.4943
0.4953
0.5147
0.4950
0.4924
0.4803
X9
0.3659
0.3647
0.4274
0.3975
0.3846
0.3750
0.3939
0.3758
0.3769
0.3674
X10
0.1559
0.1513
0.1842
0.1475
0.1244
0.1402
0.1201
0.1169
0.1979
0.1422
X1
15,78
15,17
16,52
15,19
14,39
15,01
14,09
13,97
17,07
15,30
X2
11,66
10,43
11,73
10,57
9,63
11,87
11,29
10,14
12,96
11,80
* Padronizao : Z i =
X3
30,73
31,87
31,76
31,26
29,71
31,01
29,35
29,51
31,12
29,33
X4
17,47
17,78
18,08
17,88
15,78
17,78
15,78
15,81
17,57
16,05
Caractersticas
X5
X6
06,69
06,54
06,52
06,32
07,42
07,38
06,85
06,68
5,50
5,36
06,17
05,97
05,54
05,45
05,17
04,99
08,51
08,37
06,13
05,99
X7
07,04
07,04
07,41
07,28
5,55
06,72
05,71
05,63
08,77
06,48
X8
20,82
20,84
23,97
22,75
21,47
21,55
22,39
21,54
21,42
20,89
X9
19,03
18,97
22,23
20,68
19,23
19,51
20,49
19,55
19,60
19,11
X10
05,90
05,73
06,98
05,59
4,71
05,31
04,55
04,43
07,49
05,38
Xi
______ .
i
0,0291
0,0033
0,2361
0,0730
0,2872
0,3507
0,0171
0,3772
0,5401
0,0074
0,0005
0,0142
0,0061
0,0001
0,0058
0,0004
0,0032
0,0046
0,0001
0,00008
17
0,0016
0,0026
0,0025
0,0178
0,0001 0,00004 0,000009
0,0011
0,0009
0,0034
0,0025
0,0099
0,0014
0,0044
0,0030
0,0141
0,00003 0,00005 0,00005
0,0003
0,00002 0,00005 0,00004 0,00006
0,000006 0,000006 0,000004 0,000006
0.00053
0,0004
0,0001
0,0004
0,0001
0,0007
0,7419
0,6462
0,7000
0,9626
0,9663
0,9263
0,1668
0,1932
0,9885
1,0
0,2391
0,4050
0,7043
0,6992
0,7097
0,0295
0,0081
0,7032
1,0
0,9577
0,6977
0,6835
0,7294
0,2726
0,2418
0,7035
1,0
0,7365
0,7176
0,7860
0,2619
0,2112
0,7263
1,0
0,9983
0,9785
0,2060
0,2087
0,9768
1,0
0,9647
0,2352
0,2457
0,9803
1,0
0,1012
0,0768
0,9395
1,0
0,9857
0,2279
1,0
0,2485
1,0
X2
X3
X4
X5
X6
X7
X8
X9
X10
0,3713
-0,0862
-0,1511
-0,1973
-0,5509
-0,4299
0,1078
0,4077
-0,3560
-0,0029
0,2715
-0,2067
-0,5276
0,7308
-0,0580
0,2392
-0,0855
0,0557
-0,0092
-0,0047
0,3041
0,0954
0,6051
0,1132
-0,1532
0,6111
-0,0135
0,2788
-0,2113
0,0002
0,3218
0,0537
0,4980
0,4413
-0,0238
-0,5532
-0,1496
-0,2880
0,1968
0,0008
0,3788
-0,0639
-0,0863
-0,2375
0,3027
0,0263
-0,2984
-01295
-0,1537
-0,7529
0,3778
-0,0406
-0,1151
-0,2799
0,2162
0,0539
-0,5076
-0,1633
-0,1377
0,6411
0,3728
-0,1411
0,0137
-0,0621
0,5664
-0,0943
0,4868
0,4069
0,3015
0,1175
0,1117
0,6752
-0,1405
0,1362
0,2195
-0,0505
0,3609
-0,2360
-0,5032
0,0589
0,1090
0,6744
-0,1838
-0,0554
-0,1465
0,0272
-0,2933
0,3195
0,5305
-00686
0,3778
-0,0398
-0,1012
-0,2432
-0,3746
0,2501
0,3981
-0,5507
0,3488
0,0057
a21 = 1 e aj bj =
j
18
19
Y1
38,2570
37,9302
40,8988
38,5141
34,6232
37,5891
35,0461
34,1564
41,9986
36,4273
Y2
25,0736
25,5050
29,2319
27,7958
26,9303
26,9303
27,4731
26,5848
25,0295
25,1353
20
0,5412
4,9265
2,7343
4,0807
1,2030
4,0083
4,3702
3,7419
1,8307
4,7647
-
2,3640
2,7837
3,6011
6,6843
0,6635
4,5745
3,4915
6,1111
3,9252
7,2434
4,0961
4,3439
1,5477
6,0644
3,9860
1,9544
3,4828
4,5228
4,4491
3,3813
3,0870
0,6882
0,5808
7,6164
2,5450
2,9022
3,4705
4,5315
1,4937
1,2574
7,3692
2,7152
7,9949
2,6941
5,5723
-
3. VARIVEIS CANNICAS
3.1. Introduo
A anlise de variveis cannicas uma tcnica multivariada cujo procedimento foi
relatada por Fischer (1936). Posteiormente, desenvolvida por vrios outros autores nas diversas reas da cincia, tais como M.S. Batlet, P. C. Mahalanobis e C. R. Rao, citadas por
CAMPBELL e ATCHLEY (1981), para examinar alguns problemas significantes relativos
sistemtica biolgica. Mais recentemente, CRUZ e REGAZZI (1994), descreveram a referida
tcnica na utilizao em estudos de divergncia gentica, com propsito de identificao de
grupos similares no espao bi ou tridimensional.
Segundo CRUZ e REGAZZI (1994), a anlise multivariada com base em variveis
cannicas, trata-se de um processo alternativo para a avaliao do grau de similaridade entre
acessos que leva em considerao tanto a matriz de covarincia residual quanto a covarincia
entre mdias fenotpicas dos caracteres avaliados.
As variveis cannicas so combinaes lineares das variveis originais, sendo
determinadas de tal modo que a variao entre grupos maximizada em relao variao
dentro de grupos. A semelhana da anlise de componentes principais, espera-se que a
configurao do grupo possa ser adequadamente representada em um sub-espao bi ou
tridimensional pelos primeiros dois ou trs vetores cannicos (Campbell e Atechley, 1981,
citados por LIBERATO, 1995).
21
Assim, a viabilidade do uso das variveis cannicas em estudo nas diversas reas da
cincia, em grficos de disperso, tambm est restrita concentrao da variabilidade
disponvel entre as primeiras variveis.
A semelhana da anlise de componentes principais, a tcnica de anlise cannica
pode atender a vrios propsitos, tais como:
a) Examinar as correlaes entre caracteres estudados;
b) Resumir um conjunto de caracteres em outro de menor dimenso e de sentido
interpretvel;
c) Avaliar a importncia de cada caracter e promover a eliminao daqueles que comtribuem pouco, em termos de variao, no grupo de amostras em estudo;
d) Construir ndices que possibilitem o agrupamento de amostras ou populaes;
e) entre outros.
CAMUSSI et al. (1985) relata que as transformaes para variveis cannicas permitem a visualizao tima de diferenas entre populaes, pela reduo de dimenses que
preserve a maioria das informaes biolgicas. um mtodo de ordenao cujo objetivo
avaliar o grau de similaridade entre materiais experimentais, considerando tanto a matriz de
varincias e covarincias residuais quanto a matriz de varincias e covarincias entre mdias
fenotpicas dos caracteres avaliados, ou seja, a anlise s empregada nas situaes em que
existem dados provenientes de delineamentos experimentais.
Esta tcnica, diferentemente da anlise de componentes principais, considera as
possveis diferenas na disperso sobre as mdias. Desta forma, esta tcnica apresenta
vantagem de manter o princpio da Anlise de Agrupamento, utilizando a distncia de
Mahalanobis, qual seja a de considerar as correlaes residuais existentes entre a mdia dos
tratamentos. Tambm, esta tcnica, possui estreita relao com a anlise de funo
discriminante linear e com a distncia de Mahalanobis.
Em resumo, a utilizao de anlise cannica tem por finalidade bsica, a de proporcionar uma simplificao estrutural de dados, de modo que a diversidade influenciada a
princpio por um conjunto p-dimensional ( p = no de caracteres considerados no estudo), possa
ser avaliada por um complexo bi ou tridimensional de fcil interpretao geomtrica.
Os princpios bsicos dessa tcnica so descritos por vrios autores, tais como
MARDIA et al. (1979); CHATFIELD e COLLINS (1986); JOHNSON e WICHERN (1988);
CRUZ e REGAZZI (1994), entre outros. Segundo esses autores, devido normalmente as
variveis em estudo possuirem diferentes escalas, na utilizao desse procedimento comum
a transformao das variveis originais em variveis padronizadas e no-correlacionadas, de
modo que a matriz de disperso residual se iguala a identidade. A transformao comumente
utilizada tem sido o processo de condensao pivotal descrito por RAO (1952) e exemplificado por SINGH e CHAUDHARG (1979), bem como por CRUZ e REGAZZI (1994). Aps
a transformao, o processo de estimao das variveis cannicas equivale ao descrito para as
componentes principais.
Semelhante tcnica de componentes principais, a anlise cannica est se difundindo
nas diversas reas da cincia devido a disponibilidade de recursos computacionais e de
software aplicados atualmente existentes. Entretanto, uma das grandes dificuldades ainda
encontrada a exigncia de alguma experincia sobre anlise multivariada.
3.2. Obteno das Variveis Cannicas
A tcnica de variveis cannicas , semelhana dos componentes principais, consiste
em transformar o conjunto de n variveis originais em um novo conjunto, as variveis
cannicas.
22
e ainda:
ajaj jj
j=1 j=1
p
bjbj jj = 1
j=1 j=1
ajbj jj = 0
j=1 j=1
24
k = 1, 2, ..... , p
ou ainda, a proporo da variao total explicada pelas primeiras k variveis cannicas (PVks)
dada por:
PVks =
1 + 2 + . . . + k
_______________________
k = 1, 2, ..... , p
1 + 2 + . . . + p
Uma das questes bsicas nas diversas reas da cincia diz respeito ao nmero e tipo
de caractersticas a serem avaliadas. No existem bases tericas para determinar o nmero de
caractersticas a serem medidas. Assim, tem sido relatado, no melhoramento vegetal, que os
caracteres importantes para adaptao e seleo natural so mais apropriados e devem ser
escolhidos para os estudos de divergncias e agrupamento (ARUNACHALAM, 1981 e
CRUZ e REGAZZI, 1994). ADAMS e WIERSMA (1978) acrescenta ainda que as caractersticas a serem preservadas nesta anlise devero ser aquelas que representam a estrutura
fundamental do sistema biolgico que est sendo estudado, devendo ainda serem suficientemente diversos para representar, no mnimo, as dimenses mais importantes do sistema.
Assim, quando o nmero de caractersticas utilizadas num estudo torna-se elevado, possvel
que muitas delas pouco contribuam para a discriminao das amostras ou populaes avaliadas, por serem relativamente invariantes entre estas ou por serem redundantes em virtude de
serem altamente correlacionadas com outras caractersticas. Esta situao apresenta como
conseqncia aumento no trabalho de caracterizao, sem melhoria na preciso, alm de
tornar mais complexa a anlise e interpretao dos dados. Portanto, a eliminao das caractersticas redundantes e de difcil mensurao torna-se desejvel, afim de facilitar o estudo,
reduzindo tempo e custo da experincia (Pereira, 1989, citado por Liberato, 1995). Desta forma, a reduo do nmero de caractersticas, com eliminao daqueles que menos contribuem
para o estudo, deve facilitar as interpretaes sem causar perda considervel de informaes.
CRUZ e REGAZZI (1994) comentam que os caracteres dispensveis em estudo de
divergncia gentica so aqueles relativamente invariantes entre os indivduos estudados, so
fortemente afetados pelo ambiente, apresentam instabilidade com a mudanas ambiental ou
so redundantes por estarem correlacionados com outros caracteres. Portanto, as variveis
selecionadas e descartadas devem apresentar correlaes significativas entre si, ou seja, as
variveis descartadas devem ser redundantes (ser responsveis pelo mesmo tipo de informaes j contidas nas variveis selecionadas).Por outro lado, as variveis selecionadas devem
ter baixas correlaes entre si. De forma tal que cada varivel preservada na anlise ser
responsvel por um tipo de informao biolgica exclusiva e a ao conjunta das mesmas ser
complementar para a descrio geral dos indivduos ou populaes estudadas.
Em resumo ao se realizar o descarte de variveis atravs da varivel cannicas,
conforme procedimento descrito, os comentrios feitos anteriormente devero ser considerados, de forma tal que as caractersticas descartadas no proporcione perdas significativas
nas interpretaes e concluses no estudo em questo.
3.5. Anlise de Variveis Cannica e Anlise de Agrupamento
Quando as primeiras variveis cannicas explicam a maior parte da variao do sistema em estudo, estas podem ser representadas graficamente e apresentar uma importante
aplicao em conexo com a anlise de agrupamento. Este procedimento satisfatrio quando
as duas primeiras varveis cannicas utilizadas como eixo do sistema cartesiano envolvem
uma frao considervel da variao total, normalmente citada como acima de 70 a 80%. Nos
casos em que este limite no atingido, a anlise completada com a disperso grfica em
relao a terceira e quarta varivel cannicas. Com base nos escores das primeiras variveis
cannicas, estima-se a Distncia Euclidiana Mdia que expressa uma medida alternativa entre
aquela populao ou amostras.
Assim, nos casos em que a disperso grfica no prov informaes adequadas no
estudo, CRUZ (1990) comenta que certos autores tm utilizado os escores dos primeiras
variveis cannicas para o clculo da Distncia Euclidiana Mdia, valendo-se, para esse fim,
da propriedade de independncia entre tais variveis cannicas. Tal procedimento utilizado
como complementar as informaes da disperso grfica.
26
d2vcii
onde:
i < i
=
.
________________
D2ii
i < i
em que:
d2vcii = quadrado da distncia Euclidiana estimada a partir dos escores de n variveis
cannicas;
2
D ii = distncia generalizada de Mahalanobis estimada a partir de n variveis
originais.
APLICAO 4
Utilizando os mesmos dados da aplicao 3, ou seja, com base em dados de um teste
de prognies de Eucalytus sp., em que foram avaliadas 10 caractersticas (X1, X2, X3, X4, X5,
X6, X7, X8, X9 e X10) em 10 prognies, num delineamento em bloco ao acaso com quatro
repeties, e seis plantas por parcela, realizou-se a anlise por variveis cannicas. Dado o
volume de clculos, utilizou-se do programa GENES (DBG/UFV) para realizaes das
operaes envolvidas, sendo apresentado, portanto, s as tabelas com os resultados finais de
cada etapa envolvida.
Assim, baseado na teoria descrita sobre variveis cannicas, os autovalores (varincias) e autovetores associados (coeficientes de ponderao) so apresentados no Quadro 9.
Estes foram obtidos a partir de dados transformados atravs de condensao pivotal.
Os resultados apresentam no Quadro 8 evidenciam que a primeira varivel cannica
(VC1) explica 68,7% da variao total disponvel. As duas primeiras variveis cannicas (VC1
e VC2) explicam 83,3% e as trs primeiras (VC1, VC2, VC3) explicam 92,6% da varincia
total disponvel. Portanto, como as duas primeiras variveis cannicas explicam mais de 80%
da variao total disponvel das variveis Zs, sua utilizao na sumarizao dos dados, em
vrios estudos, considerada satisfatria.
Considerando as mdia do Quadro 8, estimam os escores associados s duas primeiras
variveis cannicas por meio da expresso.
VC1 = 0,0487(5,69) - 0,0865(-0,59) + 0,0988(7,43) + 0,0591(-7,13) + + 0,3888(6,95) = 23,6365
VC2 = 0,4954(5,69) - 0,1757(-0,59) + + 0,6877(6,95) = 1,2960
27
Z1
5,69
5,47
5,96
5,48
5,19
5,41
5,08
5,04
6,15
5,52
Z2
-0,59
-0,93
-0,84
-0,87
-1,00
-0,19
-0,11
-0,61
-0,47
-0,34
Z3
7,43
8,05
7,62
7,81
7,44
7,76
7,37
7,47
7,22
7,02
Variveis
Z5
Z6
-17,13 1,16
-17,12 1,09
-17,12 1,59
-16,66 1,02
-16,66 1,52
-17,45 1,07
-16,09 1,58
-16,69 1,09
-15,40 1,53
-16,50 1,32
Z4
-7,13
-7,55
-7,40
-7,09
-7,72
-6,93
-7,39
-7,49
-7,42
-7,33
Z7
-10,40
-18,66
-18,60
-18,06
-18,25
-18,31
-17,44
-18,08
-17,32
-17,83
Z8
2,87
2,68
3,99
3,10
2,75
2,94
3,01
2,84
3,21
3,00
Z9
10,29
8,99
10,04
8,66
8,66
9,90
7,35
8,84
7,40
9,51
Z10
6,35
7,05
8,27
6,74
6,41
6,79
5,71
6,33
6,51
6,26
Quadro 9 Variveis Cannicas Obtidas da Anlise de Dez Variveis (Z1, Z2, Z3, Z4, Z5, Z6,
Z7, Z8, Z9 ,Z10) - Originadas da Transformao por Condensao Pivotal, das
Variveis Originais (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10)
Varincia
Variveis
AcuCannicas auto- mulada
valor
(%)
VC1
1,7477
68,7
VC2
0,3697
83,3
VC3
0,2382
92,6
VC4
0,1061
96,8
VC5
0,0523
98,4
VC6
0,0196
99,6
VC7
0,0089
99,9
VC8
0,0008
99,9
VC9
0,0001
99,9
VC10
0,00003 100,0
Z2
Z3
Z4
Z5
Z6
Z7
Z8
Z9
Z10
0,0487
0,4954
0,2634
0,1449
-0,4761
0,4639
0,1916
0,1161
-0,1883
-0,3665
-0,0865
-0,1757
0,3811
0,5081
0,3747
0,5095
-0,2412
0,0578
-0,0569
0,3056
0,0988
0,0033
-0,4890
0,3413
-0,1082
0,1028
0,4762
0,4613
0,2067
0,3605
0,0591
-0,0790
0,1732
0,5572
-0,2151
-0,3860
0,3337
-0,5689
-01091
0,0869
-0,4088
0,3139
0,2574
-0,2964
-0,2695
-0,0788
0,0141
-0,0198
-0,0343
0,7068
-0,0676
0,1874
0,1726
-0,2550
0,6049
0,1113
0,6793
-0,1457
-0,0031
-0,0668
-0,3099
0,0272
0,3660
0,1570
-0,0264
-0,2357
0,0168
0,2251
0,5773
-0,2225
0,0065
0,2631
0,1677
0,2101
0,2489
-0,5337
0,0660
0,5295
-0,4718
-0,0648
0,7069
-0,2024
0,4776
-0,2301
-0,1220
-0,0644
1,1021
0,1846
0,1172
0,2066
0,3888
0,6877
-0,1727
0,1383
0,2425
-0,0487
-0,3003
-0,2449
0,3091
0,1414
28
VC1
23,6365
22,8450
24,0288
22,0968
22,1686
23,3911
20,1167
21,7708
20,2064
22,2647
VC2
1,2960
1,5319
2,6736
1,6199
1,2667
0,9518
1,1482
1,0663
2,5528
1,1476
A distncia grfica entre cada par de prognies na Figura 3 dada pela distncia
Euclidiana:
dvci i = [(vci1-vci1)2 + (vci2 - vci2)2]
cujas estimativas so encontradas no Quadro 11. Como ilustrao, obtm-se dvc1,2 por meio
de:
dvc1,2 = [(23,6365 - 22,8450)2 + (1,2960 - 1,5319)2]
29
2
0,8259
3
1,4323
1,6446
4
1,5734
0,7533
2,2006
5
1,4682
0,7266
2,3323
0,3604
6
0,4227
0,7967
1,8361
1,4566
1,2624
7
3,5229
2,7551
4,1989
2,0355
2,0552
3,2802
8
1,8798
1,1707
2,7715
0,6424
0,4454
1,6242
1,6561
9
3,6531
2,8292
3,8243
2,1081
2,3461
3,5645
1,4074
2,1580
10
1,3798
0,6960
2,3325
0,5012
0,1530
1,1433
2,1479
0,5005
2,4922
X1
3,63
-0,47
0,57
-0,83
-0,33
0,13
-0,08
0,25
-0,78
-0,47
X2
-6,79
-2,90
4,55
4,09
3,66
3,54
1,30
1,17
-0,04
0,86
X3
-2,11
0,27
-1,97
-0,06
0,56
1,01
0,08
0,33
-0,58
-0,35
X9
268,43
-44,44
156,64
-73,49
-32,93
-23,72
24,09
54,18
50,99
74,46
X10
23,99
42,45
-10,66
8,53
14,97
-3,01
-18,54
-15,40
19,08
8,73
X1
6,87
-0,89
1,08
-1,58
-0,63
0,25
-0,15
0,48
-1,49
-0,9
X2
-1,22
-0,52
0,82
0,74
0,66
0,64
0,23
0,21
-0,01
0,16
X3
-3,73
0,49
-3,47
-0,12
0,99
1,78
0,15
0,59
-1,03
-0,62
X9
30,66
-5,08
17,89
-8,39
-3,76
-2,71
2,75
6,19
5,82
8,62
X10
1,57
2,77
-0,70
0,56
0,98
-0,19
-1,21
-0,99
1,25
0,57
31
outros. Segundo estes autores a aplicao geral e usual da anlise de correlao cannicas
consiste em identificar e quantificar as associaes entre dois grupos de variveis.
Segundo James e McCulloch (1990), citado por LIBERATO (1995), esta tcnica
uma generalizao da correlao e regresso que aplicvel quando os tributos de um nico
grupo de objetivos podem ser divididos naturalmente em dois conjuntos. Do ponto de vista
geral, a anlise de correlao cannica uma extenso da regresso mltipla. A anlise de
correlaes cannicas possui cestas propriedades similares s de anlise de componentes
principais, porm esta ltima considera as interelaes dentro de um grupo de variveis,
enquanto aquela considera a relao entre dois grupos de variveis (LIBERATO, 1995).
O mtodo consiste basicamente em encontrar um vetor de coeficiente para cada um
dos grupos de variveis, tal que a correlao entre as duas combinao lineares seja mxima.
Determina-se o primeiro par de combinao lineares que possuam a maior correlao entre
todos os pares no-correlacionados com o par selecionado inicialmente, e assim sucessivamente. As combinaes lineares so denominadas variveis cannicas e suas correlaes,
correlaes cannicas. O nmero de correlaes cannicas igual dimenso do menor
grupo de variveis.
Esta metodologia usualmente utilizada com variveis do tipo quantitativa contnua,
sendo necessrio assumir a existncia de normalidade multi-variada quando testes de significncia estatsticos so requeridos. Entretanto, segundo MARDIA et al. (1979), a anlise
tambm pode ser empregada quando h uma mistura de variveis quantitativa contnuas e
qualitativas, ou se todas as variveis so qualitativas, conforme citado por DUNTEMAN
(1984). Porm, o procedimento tem sido mais utilizado e recomendado quando os dados so
originados de variveis quantitativas.
4.2. Obteno das Correlaes Cannicas e dos Pares Cannicos
Seja o primeiro conjunto de variveis estabelecidos por p caracteres (X1, X2, , Xp) e
as inerentes ao segundo por q caracteres (Y1,Y2, ,Yq). Vale salientar que a anlise de
correlaes cannicas caracteriza-se por avaliar relaes entre dois complexos influenciados,
no mnimo, por dois caracteres. O nmero de correlaes cannicas a serem obtidas igual ao
menor nmero de caracteres que constitui um dos complexos (p ou q), e sua magnitude
sempre decresce com a ordem em que so estimados,
Seja:
X = [X1, X2 Xp] = vetor das medidas de p caracteres que constituem o grupo I
Y = [Y1, Y2 Yp] = vetor das medidas de q caracteres que constituem o grupo II
Assim, segundo CRUZ e RAGAZZI (1994), o problema estatstico consiste em estimar a mxima correlao entre as combinaes lineares de caracteres do grupo I e do grupo
II, bem como estimar os respectivos coeficientes de ponderao dos caracteres em cada
combinao linear. Sendo X1 e Y1 uma das combinaes lineares dos caracteres dos grupos I
e II, respectivamente, tem-se;
X1 = a1X1 + a2X2 + + apXp
e
Y1 = b1Y1 + b2Y2+ + bpYp
32
onde:
a = [a1 a2 ap] = vetor 1 x p de pesos dos caracteres do grupo I
e
b= [b1 b2 bp] = vetor 1 x q de pesos dos caracteres do grupo II
Por definio, a primeira correlao cannica aquela que maximiza a relao entre
X1 e Y1. As funes X1 e Y1 constituem o primeiro par cannico associado quela correlao
cannica, que expressa por:
Cv (X1,Y1)
r1 = _______________________
[V(X1).V(Y1)]
sendo:
Cv (X1,Y1) = aS12 b
V(X1) = aS11 a
V(Y1) = bS22 b
em que:
S11 = matriz p X q de covarincias entre os caracteres do grupo I
S22 = matriz p X q de covarincias entre os caracteres do grupo II
S12 = matriz p X q de covarincias entre os caracteres dos grupos I e II
Nos casos em que se utilizam variveis padronizadas, tm-se S11 = R11, S22= R22 e S12
= R12, em que R representa uma matriz de correlaes.
Segundo Morrisom (1976), citado por CRUZ e REGAZZI (1994), a estimao dos
vetores a e b obtida pela maximizao da funo r2, sujeita restrio de que
aS11 a = bS22 b = 1. Estas restries so necessrias para prover estimadores nicos de a e b,
e indicam que cada combinao linear tem varincia igual a 1.
Assim, o problema estatstico passa a ser estimar a e b tal que utilizando-se dos
multiplicadores de Lagrange ( e ) e das restries descritas, estes so obtidos pela soluo
das seguintes equaes:
(R-122 R12 R-111R12 - I) b =
e
(R-111 R12 R-122 R12 - I) a =
Assim:, tm-se
a) Primeira correo cannica (r1 ) entre a combinao linear dos caracteres dos
grupos I e II dada por:
r1 = [1]
33
CRUZ e REGAZZI (1994) comentam que muitas vezes a obteno destes autovalores
requerem o uso de certas artifcios, pois alguns aplicativos computacionais so especficos
para o clculo de autovalores de matrizes simtricas. Assim, neste caso, usam-se os seguintes
fatos:
a) Se G uma matriz real e simtrica, ento existe F, tal que G = FF, em que F
obtida por meio do produto: (C)-1D. As matrizes Ce D so, por sua vez, obtidas
por operaes de congruncia em G e elementares em I justaposta a G.
Esquematicamente, tem-se:
[G : I] ~ ~ [D : C]
em que:
~ : significa operaes de congruncia em G e elementares em I;
I : matriz identidade;
D : matriz diagonal;
C : matriz tal que CG C = D
b) Se autovalor de matriz no-simtrica GH , resultante do produto de matriz
simtricas G e H, ento tambm autovalor de FHF , real e simtrica.. Se
autovetor associado FHF , ento F = a autovetor associado GH.
c) Para o caso de estimao das correlaes, considera-se
G = R-111 e H = R12 R-122 R12
Outra questo a relacionada com testes estatsticos que consiste, de forma geral,
testar a significncia do relacionamento entre os dois grupos de variveis e subsequentes teste
para determinar quantas correlaes cannicas so significativas, a um determinado nvel de
probalidade.
Segundo CRUZ e REGAZZI (1994), para obteno deste informao inicia-se um
teste de significncia da hiptese de que todas as possveis correlaes cannicas so nulas
(HO : 1 = 2 = = s = 0 , s = min {p,q}). Esta hiptese avaliada pelo teste aproximado de
2, que segundo Duterman (1948), dado por:
= -t loge [ (1 - r2i)]
i =1
34
em que:
t = n - 0,5 (p + q + 3)
e
n = nmero de observao experimentais.
Segundo estes autores, a estatstica est associada a pq graus de liberdade. Se a
hiptese rejeitada, testa-se a hiptese H0 : k > 0 e k+1 = k+2 = = S = 0, por meio de:
= -t loge [ (1 - r2i)],
i = k +1
APLICAO 5
Utilizando o mesmos dados da aplicao 3, ou seja, com base em dados de um teste de
prognies de Eucalyptus sp, em que foram avaliadas 10 caractersticas (X1, X2, X3, X4, X5, X6,
X7, X8, X9, e X10) em 10 prognies, num delineamento em blocos ao acaso com quatro
repeties e seis plantas por parcela, realizou-se a anlise de correes cannicas. Considerou-se para o presente caso como caractersticas do grupo I (X1, X2, X3, X4 e X5 ) e as do
grupo II (X6, X7, X8, X9, e X10).
Como nos outros procedimentos descritos, utilizou-se do programa GENES
(DBG/UFV) para realizaes das operaes envolvidas. A seguir so apresentadas as matrizes
de correlaes necessrias para obteno das correlaes cannicas, obtidas a partir do
Quadro 4 (matriz de correlaes entre as variveis originais).
0,7390
1,0
R11 =
0,6462
0,2407
1,0
0,6999
0,4056
0,9573
1,0
0,9488
0,7043
0,6810
0,7299
1,0
0,9645
1,0
0,2355
0,0936
1,0
35
0,2467
0,0728
0,9858
1,0
0,9799
0,9382
0,2280
0,2488
1,0
R12 =
0,9456
0,6978
0,6889
0,7057
0,9983
0,8926
0,7043
0,6600
0,7842
0,9781
0,1573
0,0295
0,2715
0,2551
0,2072
0,1833
0,0081
0,2365
0,2092
0,2096
0,9818
0,7031
0,7017
0,7267
0,9766
1o
-0,2991
1,4120
4,6410
-4,4615
-0,6071
45,4341
-49,8536
54,2892
-62,4822
5,5401
4,7350
539,15 **
(GL = 25)
2o
-1,3537
0,1947
0,1764
-0,1372
2,0436
2,1719
0,3954
0,5778
-0,5231
-1,6732
1,0078
297,61 **
(GL = 16)
Pares Cannicos
3o
3,0768
-0,4106
-0,4455
0,4555
-2,2595
-3,4303
-0,0960
-1,1470
1,0680
3,9911
0,9572
56,06 **
(GL = 9)
4o
-0,5881
1,0815
0,4899
0,9232
-1,2376
-1,7715
-0,1389
4,3739
-4,4000
1,9527
0,7036
12,67 *
(GL = 4)
5o
0,0853
-0,9816
0,6385
0,0091
0,1646
-0,0602
-0,0193
0,0894
0,1139
0,0374
0,2000
0,71 ns
(GL = 1)
GL = Graus de Liberdade
** = significncia: P < 0,01
* = significncia: P < 0,05
ns = no significativo: P > 0,05
36
Mtodo
Comp. Princ., Correl. Can.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Corr. Can.
Comp. Princ.
Comp. Princ.
Corr. Can.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
Comp. Princ.
rea de aplicao
Botnica Florestal
Gentica Florestal
Estudo de Habitats
Anatomia da Madeira
Gentica Florestal
Site - Crescimento
Estudos Climticos
Botnica Florestal
Estudo Site-Crescimento
Botnica Florestal
Estudo Site-Crescimento
Estudo de Crescimento
Botnica Florestal
Estudos Climticos
Estudo de Crescimento
Mensurao Florestal
Estudo de Habitats
Mensurao Florestal
Gentica Florestal
Botnica Florestal
Continua...
37
38
Yijk =
em que:
i = 1, 2, ... , I
j = 1, 2, ... , J
k = 1, 2, ... , K
onde:
Yijk = o valor observado da k-sima caracterstica, sob o i-simo tratamento, no
j=simo bloco;
k = a mdia geral da k-sima caracterstica;
tik = o efeito do i-simo tratamento na k-sima caracterstica;
bjk = o efeito do j-simo bloco na k-sima caracterstica;
40
a) ti = ,
i=1
b) bj ~ Np(, b), independentes, bj= [bj1, bj2 , ... ,bjk] e b = matriz de varinicas e
covarincias, comum a todos os blocos ( j = 1, 2, ... ,J);
c) O vetor de efeitos residuais eij = [eij1, eij2, .... ,eijk] tem distribuio multinormal
K-dimensional com vetor de mdias nulo e matriz de varincia e covarincia e,
comum a todas as combinaes i e j , sendo os eij correspondentes s diferentes
unidades experimentais em cada bloco, independentemente distribudos; ou seja,
eij ~ Np(, e),
d) bj e eij so independentes.
Na forma matricial tem-se:
Y = X +
onde,
a matriz das observaes;
YK
IJX(1+I+ J) a matriz de incidncia;
(1+I+J)K a matriz dos parmetros; e
IJ
IJK
Y=
Y111
Y121
Y1J1
Y112
Y122
Y1J2
Y11K
Y12K
Y1JK
Y221
Y221
Y2J1
Y212
Y222
Y2J2
Y21K
Y22K
Y2JK
YI11
YI21
YIJ1
YI12
YI22
YIJ2
YI1K
YI1K
YIJK
= [Y1 Y2 YK]
IJ x K
41
X=
1
1
1
1
0
0
0
0
1
0
0
1
0
0
1
1
0
0
1
1
0
0
1
0
0
1
0
0
...
...
1
1
0
0
0
0
1
1
1
0
0
1
0
0
t11
t21
tI1
t12
t22
tI2
t1K
t2K
tIK
b11
b21
bJ1
b12
b22
bJ2
b1K
b2K
bJK
IJ x (1 + I + J)
= [B1 B2 BK]
(1+I+J) x K
e111
e121
e112
e122
e11K
e12K
e11
e12
e1J1
e1J2
e1JK
e1J
e211
e221
e2J1
e212
e222
e2J2
e21K
e22K
e2JK
e21
e22
e2J
...
eI11
eI21
eIJ1
eI12
eI22
eIJ2
eI1k
eI2K
eIJK
eI1
eI2
eIJ
42
= [ e1 e2
e K]
Logo,
Y= [Y1 Y2 YK] = [XB1 XB2 XBK] + [e1 e2 eK] e, portanto, para cada varivel
k = 1,2, , K), tem-se:
Yk = X + ek
As equaes normais e os estimadores dos parmetros so obtidos tomando-se o
modelo linear multivariado na forma matricial Y = X + e , e usando o mtodo de mnimos
quadrados, obtm-se o sistema de equao normais: XXBo = XY. Assim, da mesma forma
que no modelo univariado, as somas de quadrados e as somas de produtos so obtidos.
De Y = X + e , obtm-se, pelo mtodo de mnimos quadrados, que
= YY - BoXY
onde:
= a matriz de somas de quadrados e de produtos do resduos;
YY = a matriz de somas de quadrados e de produtos do total;
BoXY= a matriz de somas de quadrados e de produtos de parmetros.
Desta forma, obtm-se ento que:
SQTratamentos k = (1/J) T2ik - (1/IJ) G2k
i
I J
Gk = Yijk
i=1 j=1
J
Tik = Yijk
j=1
I
Bjk = Yijk
i=1
43
para k,k= 1, 2, , K e k k
Logo, T = H + B + R
onde:
KTK =
KHK
KBK
KRK =
Matrizes de Somas de
Quadrados e de Produtos
B
H
R
T
( )
t1K
H0 :
t21
t22
t2K
tI1
tI2
tIK
0
0
Ou ainda:
H0 : CB W =
onde:
C=
0
0
1
0
-1
1
0
-1
0
0
0
0
-1
0
0
44
0
0
(I-1) (1+I+J)
T20 = tr (R-1H) = ci
i=1
i=1
i=1
i=1
i=1
Sob
H0,
2(sn + 1)
____________________
2
T20
s (2m+ s + 1)
aproximadamente distribudo como: Fs (2m + s + 1) , 2(sn + 1)
45
________________ _________
(2m + s + 1)
(s-V)
q = 2, p
1 - (ne - p - 1)
_________ _______________
1 - []1/2 ne- p + 1
____________ _____________
[]
p = 1, q
p = 2, q
1/2
~ F2p,2(ne-p+1)
1-
ne
__________ ______
~ Fq,ne (unidimensional)
1-[]1/2 ne-1
___________ _______
[ ]
~ Fp,ne-p+1
1/2
~ F2q,2(ne-1)
1 - 1/s
___________ ___________
pq
1/s
46
O ltimo critrio, 1, foi desenvolvido por Roy e conhecido como o critrio do maior
auto-valor de Roy. Baseado neste critrio, no se rejeita a hiptese H0 a um nvel de
significncia, se:
1 X, s, m,n ou c1
X , s, m,n
_________________
1 - X , s,m,n
APLICAO 1
Como exemplo ser utilizado dados de um experimento cujo objetivo foi o de verificar
a exitncia de variao entre 28 progenitores de Eucaliptus sp.s em relao a 10 caracterstica
silviculturais (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10). O delineamento estatstico utilizado
foi o de blocos casualizados com 4 repeties.
As anlises de varincias foram realizadas considerando-se cada caracterstica
separadamente (ANOVA - Anlise de Varincia Univariada) (Quadro 19) e o conjunto das 10
carctersticas simultaneamente (MANOVA - Anlise de Varincia Multivariada) (Quadro 20).
No caso da ANOVA utilizou-se o mtodo de mnimos quadrados visando obteno do
sistema de equaes normais, estimadores dos parmetros, a partio da soma de quadrado
total e o nmerro de graus de liberdade associado a cada fonte de variao, de acordo com o
modelo estatstico adotado. O procedimento adotado foi o mesmo usualmente encontrado na
literatura cujas demostraes sero omitidas por no ser o objetivo principal desse estudo.
Quanto ao procedimento MANOVA, ser conforme descrito nos itens anteriores desse estudo.
Dado o volume de operaes envolvidas, utilizou-se do programa SAEG (UFVViosa/MG) para realizaes das anlises. A seguir so apresentados os resultados finais
apresentados pela listagem obtidas pelo programa.
47
Quadro 19 Resumo da Anlise de Varincia Univariada das 10 Caractersticas Silviculturais (X1, X2, X3, X5, X6, X7, X8, X9 e X10) Referente a 28 Progenitores de
Eucalyptus sp.
Fontes de GL
Variao
X1
X2
X3
X4
14,3855
0,0021
Resduo
81 0,7836
0,5878
1,0404
10,19
0,66
15,96
11,88
0,07
0,05
8,68
9,67
4,81
8,58
18,47
19,01
0,0029
0,0023
X10
27 1,9810** 0,0117** 1,8766** 3,5489** 0,0005** 0,0004** 0,00002** 0,0018n.s. 0,0015n.s. 0,0024**
0,0040
0,0001
X9
Prognie
0,0002
0,0013
X8
Bloco
CV (%)
6,8242
X7
3 6,6683
Mdia Xk
0,0337
Quadrados Mdios
X5
X6
0,0013
0,0067
0,0008
0,487
0,368
0,14
9,55
9,94
19,83
Fontes deVariao
GL
Blocos
Progenitores
27
Resduo
81
111
TOTAL
48
X1
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
20.0050
X2
X3
X4
X5
X6
X7
X8
X9
X10
0.3226
0.2653
0.0772
0.2956
.02695
0.6333
0.1010
0.6684
0.0071
0.0054
0.0017
0.0019
0.0023
0.0021
19.6253
0.3601
0.2795
0.0806
0.3334
0.3016
0.6326
28.5747
0.5226
0.4056
0.1170
0.4814
0.4357
0.9203
0.3426
0.0071
0.3601
0.5226
0.0063
0.0049
0.0014
0.0059
0.0054
0.0111
0.26254
0.0054
0.2795
0.4056
0.0049
0.0038
0.0011
0.0046
0.0042
0.0086
0.0772
0.0017
0.0806
0.1171
0.0014
0.0011
0.0003
0.0013
0.0012
0.0025
0.2956
0.0019
0.3334
0.4814
0.0059
0.0046
0.0013
0.0087
0.0078
0.0097
0.2696
0.0023
0.3016
0.4357
0.0054
0.0042
0.0012
0.0078
0.0070
0.0083
0.6332
0.0211
0.6326
0.9203
0.0110
0.0085
0.0025
0.0097
0.0088
0.0201
0.7555
0.4449
X1
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
53.4879
2.3392
X2
X3
X4
X5
X6
X7
X8
X9
X10
0.8173
0.6499
0.1673
0.1060
0.2597
1.8343
0.3170
0.0325 0.02241
0.0101
-0.0056
-0.0261
0.0753
0.3111
0.7701
38.3555
0.6947
0.5726
0.1221
0.5545
0.7656
1.4055
54.8376
0.9786
0.8040
0.1745
0.7893
1.0600
1.9644
0.8173
0.0325
0.6947
0.9786
0.0139
0.0111
0.0028
0.0067
0.0087
0.0292
0.6499
0.0224
0.5725
0.8040
0.0111
0.0091
0.0021
0.0057
0.0079
0.0233
0.1673
0.0101
0.1221
0.1745
0.0028
0.0021
0.0006
0.0011
0.0008
0.0058
0.1061
-0.5684
0.5545
0.7893
0.0067
0.0056
0.0011
0.0491
0.0413
0.0070
0.2598
-0.0261
0.7656
1.0610
0.0088
0.0079
0.0008
0.0413
0.0409
0.0126
1.8344
0.0753
1.4054
1.9644
0.2915
0.0233
0.0058
0.0070
0.0126
0.0647
49
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X1
X2
X3
63.4790
2.5568
35.7705
50.3686
0.7339
0.5699
0.1640
-1.4247
-0.9747
1.9399
2.5567
0.3254
1.9244
2.4774
0.0348
0.0255
0.0093
-0.0461
-0.0405
0.0827
X4
X5
X6
X7
X8
X9
X10
0.5699
0.0255
0.4954
0.7001
0.0098
0.0077
0.0021
-0.0001
0.0017
0.0194
0.1640
0.0093
0.1380
0.1935
0.0028
0.0021
0.0007
-0.0007
-0.0005
0.0055
-1.4248
-0.0461
-0.0924
0.2014
-0.0007
-0.0001
-0.0007
0.1751
0.1258
-0.0404
-0.9747
0.0405
0.0562
0.3392
0.0012
0.0017
-0.0005
0.1358
0.1085
-0.0275
1.9399
0.0827
1.2535
1.6774
0.0249
0.0194
0.0055
-0.0405
-0.0275
0.0629
S2(2m+ S + 1)
T20 = 2,21
Admitindo = 0,05 tm-se F0.05, 270, 702 1,0 , ou para = 0,01 tem-se F0.01,270, 702
1,0, ento a hiptese H0 foi rejeitada ao nvel de 1% de probabilidade pelo teste de HotellingLawley (T20)
b) Teste de Pillai
Tem-se, tambm, os parmetros:
S = 10 m = 8
n = 35
_______________
_______
2m+ S+ 1
S-V
= 1,84
50
Admitindo = 0,05 tm-se F0.05, 270, 810 1,0, ou para = 0,01 tm-se F0.01, 270, 810
1,0, rejeita-se a hiptese H0 ao nvel de 1% de probabilidade pelo teste de Pillai.
c) Teste de Wilks
Os parmetros da distribuio so:
m= 81 - (10+27+1) / 2 = 62
= (270 -2) / 4 = 67
S = {(102 272 - 4) / (102 + 272 - 5)} = 9,41
= 0,00473 (resultado SAEG)
mS - 2
1-1/S
_____________
_________
pq
= 1,27
1/S
Admitindo = 0,05 tm-se F0.05, 270, 628 1,0 , ou para = 0,01 tm-se F0,01, 270, 628
1,0 , rejeita-se H0 ao nvel de 1% de probabilidade pelo teste de Wilks.
d) Teste de Roy
Os parmetros, para este teste, so:
S = 10 m= 8 n = 35
1 = 2,6332 (resultado SAEG)
Admitindo = 0,05 pelo baco, encontrado em MORRISON (1981), tm-se 0.05,
10, 8, 35 = , ou para = 0,01 e pelo baco 0.01, 10, 8, 35 = , rejeita-se, tambm, H0 ao nvel do 1%
de probabilidade pelo teste de Roy.
Verifica-se, ento, que a hiptese H0 foi rejeitada ao nvel de 1% de probabilidade,
para todos os 4 testes aplicados, ou seja, os progenitores diferem entre si com relao s 10
caractersticas avaliadas simultaneamente, ou ainda, com base nesta anlise, pode-se afirmar
que existe variao entre os progenitores estudados.
Desta forma, se o pesquisador deseja informaes por cada classe separadamente, uma
anlise univariada suficiente. Entretanto, se o interesse uma concluso conjunta de todas
as classes, a anlise multivariada deve ser preferida, pois alm de todas as concluses serem
realizadas ao nvel de significncia pr-estabelecido, toda a informao de variao
(correlao) considerada.
5.3. Procedimentos para Comparaes Mltiplas
Quando a hiptese de nulidade H0: CBW = rejeitada, no se sabe quais
tratamentos ou combinaes de tratamentos diferem entre si. Assim, torna-se necessrio
51
vs
H0: w 0
S = 1,2,,I
_____________
S = 1, 2,, (I-1)
| HS + R |
e as matrizes HS passam a ser:
HS = (hKK)S , S = 1,2,, (I -1)
hKK =
WKWK
____________
K,K= 1, 2, , K para KK
nici2
i=1
52
WS
___________
nici2
R
S-1WS
onde
S-1 =
____
ne
_____________
2
I (J-1) - (J-K)
n= _________________
2
53
1
________
_______________
por
F1, (I-1)(J-1),
1-
(I-1)(J-1)
Para c fixado a priori e todo l fixado a posteriori, troca-se:
________
1-
K
por
_______________________
FK, (I-1)(J-1) - K + 1,
(I-1)(J-1) - K + 1
________
1-
I-1
por
_______________
F(I-1), (I-1)(J-1),
(I-1)(J-1)
54
6. REFERNCIAS BIBLIOGRFICAS
ADAMS, M.W. & WIERSMA, J.V. An adaptation of principal components analysis to an
assessment of genetic distance. Research Refort, 347: 2-7, 1978.
ARNOLD, S.F. The theory of linear models and multivariate analysis. New York, John
Wiley & Sons, 1981. 475p.
ARUNACHALAM, V.
226-36, 1981.
CAMPBELL, N.A. & ATCHLEY, W.R. The geometry of canonical variate analysis.
Systematic Zoology, 30: 268-80, 1981.
CAMUSSI, A.; OTTAVIANO, E.; CALINSKI, T.; KACZMAREK, Z. Genetic distances
based on quantitative traits. Genetics, 11: 945-62, 1985.
CHATFIELD, C. & COLLINS, A.J. Introduction to multivariate analysis. Ney York,
London: Chapman and Hall, 1986. 246p.
CHATFIELD, C. & COLLINS, A.J. Introduction to multivariate analysis. New York,
London: Chapman and Hall, 1986. 242 p.
CRUZ, C.D. & REGAZZI, A.J. Modelos biomtricos aplicados ao melhoramento
gentico. Viosa, UFV, 1994. 394 p.
CRUZ, C.D. Algumas tcnicas de anlise multivariada no melhoramento de plantas.
Piracicaba, ESALQ/USP, 1987. 75 p. (Monografia)
CRUZ, C.D. Aplicao de algumas tcnicas multivariadas no melhoramento de plantas.
Piracicaba, ESALQ/USP, 1990. 188 p. (Tese D.S.)
DEMTRIO, C.G.B. Anlise multidimensional para dados de cana-de-acar. Piracicaba,
ESALQ, 1985. 144 p.
DUNTEMAN, G.H. Introduction to multivariate analysis. Beverly Hills: Sage
Publications, 1984, 237p.
GODOI, C.R. de M. Anlise estatstica multidimensional. Piracicaba-SP, USP/ESALQ,
Depto. de Matemtica e Estatstica, 1985. 187 p.
HOTELLING, H. Analysis of a complex of statistical variables into principal components. J.
Educ. Psichol., Washington D.C., v.24, p.417-41, 1933.
HOTELLING, H. Simplified calculation of principal components. Psychometrika,
Baltimore, v.1, p. 27-35, 1936.
JAMES, F.C. & McCULLOCH, C.E. Multivariate analysis in ecology and systematics:
Panacea or pandoras box? Annual Review Ecology Systematic, 21:129-66. 1990.
JOHNSON, R.A. & WICHERN, D.W.
Cliffs, Prentice Hall, 1988, 607 p.
55
JOHNSON, R.A. & WICHERN, D.W. Applied multivariate statistical analysis (2a ed.).
Englewood Cliffs, Prentice Hall, 1988. 607 p.
JOLLIFFE, I.T. Discarding variables in a principal component analysis; I. Artificial data.
Appl. Stat, Srie C, London, v.21, p.160-73, 1972.
JOLLIFFE, I.T. Discarding variables in a principal component analysis; II . Real data. Appl.
Stat, Srie C, London, v.22, p.21-31, 1973.
KENDALL, M. Multivariate analysis. High Wycombe, Charles Griffin, 1980. 209 p.
KENDALL, M. Multivariate analysis. High Wycombe, Charles Griffin, 1980. 209p.
KENDALL, M.G. Factor analysis as a statistical techiniques. J. R. Statist. Soc., B, 22: 60-73,
1950.
LIBERATO, J.R. Aplicaes de tcnicas de anlise multivariada em fitopatologia. Viosa,
UFV, 1995. 144 p. (Tese M.S.)
MANLY, B.F.J. Multivariate statistical methods: A primer. London, Chapman and Hall,
1986. 159 p.
MANLY, B.F.J. Multivariate statistical methods: A primer. London, Chapman and Hall,
1986. 159 p.
MARDIA, K.V.; KENT, J.T.; BIBBY, J.M. Multivariate analysis. Academic Press, 1979.
521 p.
MARDIA, K.V.; KENT, J.T.; BIBBY, J.M. Multivariate analysis. London, Acad. Press,
1979. 521 p.
MORRISON, D.F. Multivariate statistical method. McGraw - Hill Book Co., 1976. 415 p.
MORRISON, D.F. Multivariate statistical methods (2a ed.). New York, Mc Graw-Hill,
1976. 415 p.
NEGRILLO, B.G. & PERRE, M.A. Mtodos multivariados e aplicaes. Londrina-PR,
Depto. de Matemtica Aplicada - VEL, 1987. 91 p.
QUEIROZ, W.T. de. O uso da anlise multivariada nos levantamentos florestais.
Simpsio sobre Inventrio Florestal, 2, Piracicaba, 1984, pg. 103-6.
In:
RAO, C.R. Advanced statistical methods in biometric research. New York, John Wiley &
Sons, 1952. 389 p.
RAO, R.C. Advanced statistical method in biometric research. John Wiley and Son, 1952.
390 p.
SAKAGUTI, E.S. Utilizao de tcnicas de anlise multivariada na avaliao de
cruzamentos diallicos em coelhos. Viosa, UFV, 1994. 181 p. (Tese M.S.).
SINGH, R.K. & CHAUDHARY, B.D. Biometrical methods in quantitative genetic
analysis. New Delhi, Kalyani Publishes. 1979. 304 p.
56
SMITH, H.; GNANA DESIKAN, R.; HUGHES, J.B. Multivariate analysis variance
(MANOVA). Biometrics, 18:22-41. 1962.
SOUZA, A.L. de. Anlise multivariada para manejo de florestas naturais: alternativas
de produo sustentada de madeiras para serraria. Curitiba, UFPR, 1989. 255 p.
(Tese D.S.)
SOUZA, A.L. de.; HOSOKAWA, R.T.; KIRCHNER, F.F.; MACHADO, S.A. Anlise
multivariada para manejo de floresta natural na reserva florestal de Linhares, Esprito
Santo: anlises de agrupamento e discriminante. Rev. rvore, v.14, n.2, p.85-101, 1990.
SOUZA, I.C.G. Aplicao de algumas tcnicas de anlise multivariada no estudo de
hbridos de Eucalyptus spp. Piracicaba, ESALQ/USP, 1993 (Monografia)
STUKER, H. Anlise multivariada para dados onde a caracterstica observada
subdividida em K classes. Piracicaba, ESALQ/USP, 1986. 92 p. (Tese M.S.).
VAN LAAR, A.V. Multivariate Analysis - A way to better understanding of complexity.
South African For. Journal, n.141, junho, 1987.
WILKS, S.S. Certain generalizations in the analysis of variance. Biometrika, 24:471-494,
1932.
57