Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTATSTICAMULTIVARIVEL
PCA,FA,ANOVA
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
I. Anlise de Componentes
p
Principais
p ((PCA))
1.Introduo
Quandoexistemmuitasvariveisparadescreveromesmofenmeno,
frequentequeexistaredundnciaentrealgumasdelas.Essaredundncia
expressapelamatrizdecorrelaooupelamatrizdecovarincia.
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
ObjectivodePCA:encontrarumconjuntomaispequenodevariveis,commenor
g
grauderedundncia,semperdasignificativadeinformao.
p
g
Muitousadaemdiversasaplicaesmdicas,desdeaimagemaossinais
biomdicos,gentica,protenica,etc.
Buscaemwww.pubmed.org em24Fev 2009porprincipalcomponent analysis
deu11241resultados.
Exemplo
Caso
(pessoa)
Alturacm
(x1)
Peso,Kg
(x2)
Idade
(x3)
Presso
sistlica
(x4)
Frequncia
cardaca
(x5)
175
75
25
117
56
156
64
31
122
63
202
82
58
154
67
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Dadoscorrelacionados:
Peso altura
Pressosistlica
P
i tli frequnciacardaca
f
i
d
http://www.doembi.ucla.edu/~parag/multivar/pca.htm,23Fev 2009
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Projecodeumdonutcomduaslanternas
http://www.doembi.ucla.edu/~parag/multivar/pcawords.htm,em22Fev 2009
Oobservadorestdetrsdateladeprojeco.
A percepo do objecto projectado depende da direco da projeco
Apercepodoobjectoprojectadodependedadirecodaprojeco.
Movendoaslanternasobtmsediferentesprojeces(representaes)
4
A essncia do PCA:
AessnciadoPCA:
Encontraasmelhoresprojeces,demodoaqueaimagemprojectadasejaa
Encontra as melhores projeces de modo a que a imagem projectada seja a
melhorrepresentaodaestruturadosdados.
As projeces so escolhidas de modo a reter o mximo da informao, medida
Asprojecessoescolhidasdemodoareteromximodainformao,medida
emtermosdavariabilidadedosdados,numnmeromnimodedimenses
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Escolhemseasprojecesmudandoosistemadeeixos.
p j
2Valoresprpriosdematrizesquadradas(simtricas)
4 8
A
8
4
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
>>[V,D]=eig(A)
[ , ] g( )
V=
0.70710.7071
0.70710.7071
D=
40
012
Vectores
prprios
Valores
prprios
http://www.doembi.ucla.edu/~parag/multivar/eigen.htm 22Fev 2009
Osvalores
Os
valores prprios so 12e
12 e 4
4,precisamente
precisamente os comprimentos doseixos
dos eixos maior e
e
menor da elipse centrada na origem eque passa pelos dois pontos
prprios
p
so os vectores q
que definem aorientao
doseixos da elipse.
p
Osvectores p
Existe umnmero infinito devectores prprios.
6
SejaAumamatrizdecorrelaoentredoispontosxeyA=Corr(x,y)
1 0
A
0
1
>>[V,D]=eig(A)
V=
10
01
D=
10
01
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
0, 25
1
A
0,
25
1
1 0,5
A
0,5
1
>>[V,D]=eig(A)
V=
0.70710.7071
0 7071 0 7071
0.70710.7071
D=
0.75000
01.2500
>>[V,D]=eig(A)
V=
0.70710.7071
0.70710.7071
D=
D=
0.50000
01.5000
7
0, 75
1
A
1
0, 75
1 1
A
1
1
>>[V,D]=eig(A)
V=
0.70710.7071
0.70710.7071
D=
0.25000
01.7500
>>[V,D]=eig(A)
V=
0.70710.7071
0.70710.7071
D=
D=
00
02
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
http://www doembi
http://www.doe
mbi.ucla.edu/
ucla edu/~parag/multivar/eigen
parag/multivar/eigen.htm
htm 22Fev
22 Fev 2009
medidaqueaumentaacorrelaoentreasvariveisoeixomaiortornasecadavez
maior,eoeixomenorcadavezmaispequeno,atseanularquandoasduasvariveis
estonocasolimitedecorrelaoperfeitaiguala1.Nessascondiesoeixomaiortem
umcomprimentodois.
N
Notesequeasomadoscomprimentosdoseixos(ousejadosvaloreprprios)sempre2.
d
i
d
i
(
j d
l
i )
2
8
A3dimensesA=corr(x,y,z)
Matrizesde
correlao
Vectoresprprios
Valores prprios
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Asomadoscomprimentosdos
eixos(ousejadosvalores
prprios)sempre3.
1.0
0.0
1.0
0.0
0.0
1.0
1.0
0.5
1.0
0.5
0.5
1.0
10
1.0
1.0
1.0
1.0
1.0
1.0
1.0
09
0.9
10
1.0
0.3
0.6
1.0
vector1
vector2 vector3
1.0
0.000
0.000
1.000
1.0
0.000
1.000
0.000
1.0
1.000
0.000
0.000
2.0
0.577
0.085
0.812
0.5
0.577
0.746
0.332
0.5
0.577
0.660
0.480
30
3.0
0
0.577
577
0 000
0.000
0 000
0.000
0.0
0.577
0.000
0.000
0.0
0.577
0.000
0.000
2.23
0.593
0.525
0.611
0 73
0.73
0 658
0.658
0 121
0.121
0 743
0.743
0.04
0.464
0.842
0.273
9
A4dimensesA=corr(x,y,z,w)
Matrizesdecorrelao
1
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
1.00
0.00
1.00
0.00
0.00
1.00
0.00
0.00
0.00
1.00
1.00
0.90
1.00
0.00
0.00
1.00
0.00
0.00
0.90
1.00
1.00
0.90
1.00
0 20
0.20
0 30
0.30
1 00
1.00
0.15
0.10
0.80
1.00
Valores Vectoresprprios
prprios v1v2v3v4
1
0.1
0.7071
0.7071
0.1
0.7071
0.7071
1.9
0.7071 0.7071
1.9
0.7071
0.7071
0.0572
0.5892 0.395
0.2328
1 4771
1.4771
0 3610 0.6197
0.3610
0 6197 0.4898
0 4898 0.4957
0 4957
2.2329
0.3320
0.6081
0.4680 0.5271
0.5792 0.4296
A
Asomadoscomprimentosdoseixos(ousejadosvaloresprprios)sempre4
d
i
t d
i
(
j d
l
i )
4
10
3InterpretaogrficadoPCA
NasuaessnciaoPCAumatcnicadereduodedimenso,nosentidodequepontos
deumespaomultidimensionalsoprojectadosnumespaodemenosdimenses(duas
outrs).
Aorientaodaprojecoajudaanossacompreensodasrelaesentreospontos,
nomeadamenteatravsdasuadistribuiogrficanoespaoreduzido.
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
NotesequeoPCAnoalteraaorientaoespacialdeunspontosemrelaoaos
outros mas to s o ngulo de observao dos pontos
outros,mastosongulodeobservaodospontos.
11
Considereseoseguinteconjuntodepeixes
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
12
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Largura(breadth),yy
Semedirmos25peixeserepresentarmosnumgrficoarelaoentreosseus
comprimentos e larguras obteremos uma figura parecida com a seguinte
comprimentoselargurasobteremosumafiguraparecidacomaseguinte:
Comprimento(lengh),x
http://www.doembi.ucla.edu/~parag/multivar/pca_graf.htm 22Fev 2009
13
Podemosrepresentarosdadosnumsistemadeeixosemqueaorigemestsituadano
Podemos
representar os dados num sistema de eixos em que a origem est situada no
centrodanuvemdepontos.Paraissocalculamseasmdiasdexedeyecolocaseaa
origem:
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
http://www doembi
http://www.doe
mbi.ucla.edu/
ucla edu/~parag/multivar/pca
parag/multivar/pca_graf.htm
graf htm 22Fev
22 Fev 2009
Oquenosimportaarelaoentreospontos.
Oseixosusamseporconvenincianossa.Semovermososeixos,noalteramose
estrutura dos dados
estruturadosdados.
14
SSerinteressanteposicionaroseixosdemodoaqueumdelesexprimaamaiorproporo
i t
t
i i
i
d
d
d l
i
i
davariaonosdados,isto,agamaderepresentaodosdadosnesseeixosejaamaior
possvel.
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Nestenovoeixoopontonaextremidadeesquerdacorresponderaumpeixecom
comprimentomuitopequenoelarguramuitopequena,ouseja,umpeixemuito
pequeno.Opontonaextremidadedireitacorresponderaumpeixemuitogrande.
Portantoonovoeixoexprimeumanovamedida:otamanho,quepoderemosconsiderear
como
tamanho=comprimento+largura
ouseja,umcombinaolineardasduasmedidasanteriores.
15
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Seacorrelaoentre
ocomprimentoealargurafor0.75,obterseiamasfiguras
p
g
,
g
seguintesparaoelipsidedanuvemdepontos.Oscomprimentosdoseixosso
dadospelosvaloresprpriosdamatrizdecorrelao.
http://www.doembi.ucla.edu/~parag/multivar/pca_graf.htm 22Fev 2009
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Valoresprpriosevectoresprpriosda
matrizdecorrelao.
Rotaoparatornaroeixohorizontal
coincidentecomadirecodemaior
variabilidadedosdados.
Oscomprimentosedirecesdoseixossodadospelosvaloresprpriosevectores
p
p
p p
prpriosdamatrizdecorrelao.Seretivssemosapenasavarivelcomprimento,
ficaramosapenascom1.75/(1.75+0.25)x100=87.5%davariabilidadeoriginal.Porisso
sedesprezarmososegundoeixoperderemos12.5%dainformaooriginal.
17
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Seriapossvelrepresentlosapenaspelavarivelcomprimento?Nestecasoospeixes
tmformasmuitodiversas,eporissoocomprimentosporsiestarmuitolongede
nosdarumainformaominimamentefidedignadarealidade,dadoquenadanosdiria
sobreaforma.
18
Suponhamosquenestecasoosdadosdocomprimentoedalarguratmuma
correlaode0.25.Teramososvaloresevectoresprpriosdafigura
p p
g
http://www.doembi.ucla.edu/~parag/multivar/pca_graf.htm 22Fev 2009
Valoresprpriosevectoresprprios
nocasodacorrelao0.25
Rotaoparaqueoeixohorizontal
exprimaamaiorvariabilidade
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Nestecasooprimeiroeixocontmapenas1.25/2x100=62.5%dainformaooriginal.
Desprezandoosegundoeixodesprezarseiam37.5%dainformaoexpressapela
formadospeixes.
Osvaloresprpriosevectoresprpriosdamatrizdecovarinciasooselementos
Os
valores prprios e vectores prprios da matriz de covarincia so os elementos
sobreosquaisassentaamedidadacontribuiodasvariveisoriginaisparaasnovas
variveis.Soporissoachavedosclculosdoscomponentesprincipais(PCA)
19
4ExemplosdeclculodePCA
AanlisedePCAseguenormalmenteospassosseguintes:
1Definirosdadosoriginais,umacolunaporcaracterstica,umalinhaporamostra
2Centrarosdadossubtraindoacadacolunaasuamdia
3 C l l
3Calcularacovarinciadosdadoscentrados,damesmainformaodacorrelao
i i d d d
t d d
i f
d
l
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
4Calcularaosvaloresprprioseosvectoresprpriosdamatrizdecovarincia
p p
p p
5Escolheroscomponenteseformarumabaseortogonal
6Calcularonovoconjuntodedados
20
4ExemplodeclculodePCA
Exemplo1
1Definirosdados
3
2.5
1.5
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
0.5
0.5
1.5
2
X
2.5
3.5
>>Dados=[2.52.4;0.5
0.7;2.22.9;1.92.2;3.1
3.0;2.32.7;21.6;11.1;1.5
1.6;1.10.9]]
Dados=
2.50002.4000
0 5000 0 7000
0.50000.7000
2.20002.9000
1.90002.2000
3 1000 3 0000
3.10003.0000
2.30002.7000
2.00001.6000
1 0000 1 1000
1.00001.1000
1.50001.6000
1.10000.9000
X
XY
Y
[L,C]=size(Dados)
L=10C=2
21
2Ajustarosdadossubtraindoamdiade
j
cadacoluna
1.5
Y Centrado
o
0.5
-0.5
-1
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
-1.5
-1.5
-1
-0.5
0
X centrado
3Calcularacovarinciados
dados centrados
dadoscentrados
0.5
1.5
>>DadosCentrados=Dados
>>DadosCentrados=Dados
repmat(mean(Dados),L,1)
DadosCentrados =
0.6900 0.4900
0.69000.4900
1.31001.2100
0.39000.9900
0.09000.2900
1.29001.0900
0.49000.7900
0.19000.3100
0.81000.8100
0.31000.3100 media=mean(Data)
0.71001.0100 media=[1.81001.9100]
>>Covariancia=cov(DadosCentrados)
Covariancia =
0.61660.6154
0.61540.7166
22
4Calcularaosvaloresprprioseos
vectores prprios da matriz de covarincia
vectoresprpriosdamatrizdecovarincia
>>[V,D]=eig(Covariancia)
V=
0.73520.6779
0.67790.7352
D=
0.04910
01.2840
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Ordenamse
Ordenam
seporordemdecrescentedosvaloresprprios.
por ordem decrescente dos valores prprios
Vectordecaractersticas(Features vector):comosvectoresprpriosquese
q
queremreter.Nocasosimplesmenteoprimeiro:[0.67790.7352],i.e,V(:,2)
p
p
( )
EmgeralVectorCaracteristicas= [V1,V2,]
23
5Calcularonovoconjuntodedados
DadosFinais=DadosCentrados*VectorCaracteristicas
ou
DadosFinais Transposta=(VectorCaracteristicas Transposta)*(DadosCentradosTransposta )
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
1Componente
DadosFinais=DadosCentrados*V(:,2)
(, )
DadosFinais=
0.8280
1.7776
0.9922
0.2742
1.6758
0.9129
0.0991
1.1446
0.4380
0 380
1.2238
2Componentes
DadosFinais=DadosCentrados*[V(:,2),V(:,1)]
[ ( , ), ( , )]
DadosFinais=
0.82800.1751
1.77760.1429
0.99220.3844
0.27420.1304
1.67580.2095
0.91290.1753
0.09910.3498
1.14460.0464
0 380 0 0 8
0.43800.0178
1.22380.1627
24
1.5
1
0.5
0
-0.5
-1
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
-1.5
-2
-2
-1.5
-1
-0.5
0
0.5
X nova base 2 componentes
1.5
25
Reconstruodosdadosoriginaisapartirdosdadosnanovabase
Fezse:
DadosCentrados=Dadosrepmat(mean(Dados),L,1)
DadosFinais=DadosCentrados*VectorCaracteristicas
DadosFinais=DadosCentrados
VectorCaracteristicas
N
Nosentidoinversofazse:
tid i
f
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
DadosCentrados=DadosFinais*VectorCaracteristicasTransposta
Dados=DadosCentrados+repmat(mean(Dados),L,1)
26
Dados=DadosCentrados+repmat(media,L,1)
Dados=
2.37132.5187
0.60500.6032
2.48262.6394
1 9959 2 1116
1.99592.1116
2.94603.1420
2.42892.5812
1.74281.8371
1.03411.0685
1.51311.5880
0.98041.0103
Reconstruoimperfeita
Casodeumcomponente
p
0.56130.6087
0
5613 0 6087
1.20501.3068
0.67260.7294
0.18590.2016
1.13601.2320
0.61890.6712
0.06720.0729
0.7759
0.77590.8415
0.8415
0.29690.3220
0.82960.8997
3.5
Y reconstrrudo de um s c
comp
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
DadosCentrados=Da
dosFinais*VectorCar
ateristicas1
DadosCentrados=
2.5
1.5
0.5
0.5
1.5
2
X reconstrudo de um s componente principal
2.5
27
Casodedoiscomponentes
0.69000.4900
1.31001.2100
0.39000.9900
0.09000.2900
1 2900 1 0900
1.29001.0900
0.49000.7900
0.19000.3100
0.81000.8100
0.31000.3100
0.71001.0100
Reconstruoperfeita!!!
3.5
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
DadosCentrados2=
DadosFinais2*Vecto
rCarateristicas2
rCarateristicas2
DadosCentrados2=
Dados2=DadosCentrados2+
repmat(media,L,1)
p
(
, , )
Dados2=
2.50002.4000
0.50000.7000
2 2000 2 9000
2.20002.9000
1.90002.2000
3.10003.0000
2.30002.7000
2.00001.6000
1.00001.1000
1.50001.6000
1 1000 0 9000
1.10000.9000
25
2.5
15
1.5
0.5
0.5
1.5
2
2.5
X reconstrudo a partir de dois componentes principais
3.5
28
NoMatlab
>>[coefs,scores,variances,t2]=princomp(Data)
[
,
,
, ] p
p(
)
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
PbyPmatrix,eachcolumn
y
containingcoefficients
foroneprincipal
component(vectores
prprios)Thecolumnsarein
order of decreasing
orderofdecreasing
componentvariance.
theprincipalcomponent
variances,i.e.,the
eigenvalues ofthe
covariancematrixofX,in
variances
principalcomponentscores,
principal
component scores
i.e.,therepresentationof
Dataintheprincipal
componentspace.Rows
ofscorescorrespondto
observations,columnsto
b
l
components
Hotelling's
g
Tsquaredstatisticforeach
observationindata
ageneralizationofStudent'ststatistic
thatisusedinmultivariatehypothesis
testing
Hotelling's TSquare: Hotelling's Tsquareisa
statisticforamultivariatetestofdifferences
betweenthemeanvaluesoftwogroups.Thenull
hypothesisisthatcentroid sdon'tdifferbetween
t o ro ps
twogroups.
Hotelling's Tsquareisusedinmultipleanalysisof
variance(MANOVA),andinmultipleanalysisof
covariance(MANCOVA)
(http://www.statistics.com/resources/glossary/h/ho
ttsqr.php)
Implementation of Hotelling's statistics in apatient
positioning protocol clinical experience
http://www.oncozone.net/uploads/pdf/f3886609d6
e0385eea838af602f70e7e.pdf
29
NoMatlab
>>[coefs,scores,variances,t2]=princomp(Data)
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
coefs =
0.67790.7352
0.7352
0.73520.6779
0.6779
scores=
0.82800.1751
1.77760.1429
0.99220.3844
0.27420.1304
1.67580.2095
0.91290.1753
0.09910.3498
1.14460.0464
0.43800.0178
1.22380.1627
Vectoresprpriosde
matrizdecovarincia;
note se que os sinais so
notesequeossinaisso
contrriosaoscalculados
anteriormente:devesea
clculos por diferentes
clculospordiferentes
processos.Datambmo
sinaldiferentedosscores
(dados finais)
(dadosfinais).
Valoresfinais
variances
=
1 2840
1.2840
0.0491
t2=
1 1587
1.1587
2.8766
3.7768
0 4051
0.4051
3.0813
1.2751
2.5009
1.0642
0.1559
1.7056
Valores
prpriosda
p
p
matrizde
covarincia
Hotelling's
30
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Exemplo2
Data
V1
V2
V3
V4
V5
1,53
114,01
0,75
12,65
1,96
0,18
79,53
0,67
13,3
5,28
1,9
105,63
0,85
12,62
1,71
0,91
45,62
0,11
13,14
6,24
1,27
79,48
0,5
12,95
3,61
1,52
,
52,08
,
0,36
,
12,57
,
4,1
,
1,32
83,87
0,58
12,77
2,53
1,04
33,94
0,29
12,85
0,04
0,7
72,94
0,59
12,61
4,94
1,54
34,22
0,3
12,99
3,66
0 75
0,75
50 39
50,39
0 46
0,46
12 68
12,68
6 45
6,45
1,22
35,04
0,21
12,88
2,42
1,31
65,25
0,7
12,76
3,98
0,64
0,16
12,77
3,96
39,65
0,3
12,75
4,12
1,93
74,27
0,71
12,65
2,7
96,93
0,77
12,87
1,32
1,78
65,29
0,39
12,4
1,25
1,71
70,57
0,52
12,46
1,36
0,44
75,09
0,62
12,91
4,63
2,49
124
0,78
13,14
3,71
1,61
101,89
0,66
12,92
3,57
0,75
15,26
0,25
12,46
0,31
0,17
5,05
12,47
1,74
1,13
33,39
0,36
12,75
0,46
1,38
81,35
0,55
13,1
4,49
0,44
34,97
0,23
12,8
4,52
0,47
17,89
0,11
12,71
3,53
1,4
60,57
0,48
12,3
0,92
0 71
0,71
56 68
56,68
0 68
0,68
12 89
12,89
3 79
3,79
Gama
Mnimo
Mximo
Mdia
D
Desvio
i
padro
V1
2.70
0.00
2.70
11.657
0.6602
V2
124.00
0.00
124.00
601.599
317.576
V3
0.85
0.00
0.85
0.4638
0.2320
V4
1.00
12.30
13.30
127.708
0.2350
V5
6.45
0.00
6.45
30.198
18.057
CorrData=corr(Data)
CorrData=
1.00000.63090.55320.03020.3989
0 6309 1 0000 0 8945 0 2464 0 0321
0.63091.00000.89450.24640.0321
0.55320.89451.00000.16690.0457
0.03020.24640.16691.00000.5340
0.39890.03210.04570.53401.0000
31
140
0.9
0.8
120
0.7
100
0.6
80
V3
3
V2
0.5
60
0.4
0.3
40
0.2
20
0.1
0
0.5
1.5
V1
2.5
0.5
1.5
V1
2.5
Scatter(V1,V3)
Scatter(V1,V2)
0.9
13.3
0.8
13.2
0.7
13.1
0.6
0.5
V3
12.9
V4
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
13
12.8
0.4
12.7
0.3
12.6
0.2
12.5
0.1
12.4
0
12.3
0.5
Scatter(V1,V4)
1.5
V1
2.5
20
40
60
80
100
120
140
V2
Scatter(V2,V3)
32
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Centrarosdados
>>DadosCentrados=Datarepmat(media,L,1)
DadosCentrados =
0.365353.84830.28530.12071.0600
0.984719.36830.20530.52932.2600
0.735345.46830.38530.15071.3100
0.254714.54170.35470.36933.2200
0 2547 14 5417 0 3547 0 3693 3 2200
0.105319.31830.03530.17930.5900
0.35538.08170.10470.20071.0800
0.155323.70830.11530.00070.4900
0.124726.22170.17470.07932.9800
0.464712.77830.12530.16071.9200
0.375325.94170.16470.21930.6400
0.41479.77170.00470.09073.4300
0.055325.12170.25470.10930.6000
0.14535.08830.23530.01070.9600
0.524760.16170.30470.00070.9400
1 1647 20 5117 0 1647 0 0207 1 1000
1.164720.51170.16470.02071.1000
0.765314.10830.24530.12073.0200
1.535336.76830.30530.09931.7000
0.61535.12830.07470.37071.7700
0.545310.40830.05530.31071.6600
0.724714.92830.15530.13931.6100
1.325363.83830.31530.36930.6900
0.445341.72830.19530.14930.5500
0.414744.90170.21470.31072.7100
0.994755.11170.46470.30071.2800
0.034726.77170.10470.02072.5600
0.215321.18830.08530.32931.4700
0.724725.19170.23470.02931.5000
0.694742.27170.35470.06070.5100
0.23530.40830.01530.47072.1000
0.45473.48170.21530.11930.7700
>>Covariancia=cov(DadosCentrados)
Covariancia =
1.0e+003*
0.00040.01320.00010.00000.0005
0 0132 1 0086 0 0066 0 0018 0 0018
0.01321.00860.00660.00180.0018
0.00010.00660.00010.00000.0000
0.00000.00180.00000.00010.0002
0.00050.00180.00000.00020.0033
[PC,V]=eig(Covariancia)
PC=
0.03640.03980.98560.15970.0131
0.00710.00100.01310.00020.9999
0.99900.01950.03920.00920.0065
0.02200.99620.05040.06790.0018
0.01370.07530.15600.98480.0018
V=
1.0e+003*
0.00000000
00.0000000
000.000200
0000.00340
00001.0088
Ordemdeimportncia
dosvectoresprprios
V5,V4,V3,V2,V1.
33
[ f
[coefs,scores,variances,t2]=princomp(Data)
i
t2] i
(D t )
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
coefs =
0.01310.15970.98560.03980.0364
0.99990.00020.01310.00100.0071
0.00650.00920.03920.01950.9990
0.00180.06790.05040.99620.0220
0 0018 0 0679 0 0504 0 9962 0 0220
0.00180.98480.15600.07530.0137
Notese novamente o sinal contrrio dos vectores prprios (coefs) em relao aos
calculados no slide anterior . O sentido dos vectores p
prprios
p
diferente num caso
e noutro, o que possvel dado que h um nmero infinito de vectores prprios. O
simtrico de um vector prprio tambm um vector prprio.
34
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Scores
variances=
1008.8
3.4
2.0
0.0
0.0
4
3
2
2 Compo
onente
53.84691.10030.52540.11580.1004
19.35972.42150.85200.37230.0746
19 3597 2 4215 0 8520 0 3723 0 0746
45.47281.41050.09580.13490.0683
14.53923.23660.47380.15740.2083
19.31920.58060.04860.10950.0857
8.07520.99220.61820.28500.0240
23.70760.50280.23740.00340.0539
26.22682.91390.23480.33880.0323
12.77481.95600.33820.30180.0405
25.93340.58060.82590.18520.0466
9 7700 3
9.7700
3.43560.2497
4356 0 2497 0
0.32200.0945
3220 0 0945
25.12070.59590.30430.18270.0802
5.09290.92050.21680.09850.2172
60.16220.99800.42670.01720.1157
20.52381.26460.70310.03280.0469
14.11273.10340.08320.05750.1290
14 1127 3 1034 0 0832 0 0575 0 1290
36.78351.90670.76110.12210.0793
5.13141.86460.24760.26420.1209
10.41111.74100.12480.21790.0282
14.92141.71280.65690.02800.0481
63.85260.50510.58690.19140.0715
41.73210.48870.02000.04290.0735
44.90902.63230.25270.03850.0447
55.12451.13080.45770.09780.1340
26.7745 2.5223 0.0811
26.77452.5223
0.08110.20320.0484
0.2032 0.0484
21.19261.43980.17830.18530.0297
25.19711.59110.14070.02440.0611
42.27760.60230.04250.02080.0744
0.40682.13760.12540.32080.0181
3 4842 0 8362 0 2850 0 0784 0 2364
3.48420.83620.28500.07840.2364
1
0
-1
-2
-3
-4
-80
-60
-40
-20
0
1 Componente
20
40
60
80
scatter(scores(:,1),scores(:,2),'*')
35
3Componente
1
0.5
0
-0.5
-1
4
2
100
50
2
-2
2 Componente
-50
-4
-100
1 Componente
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
scatter3(scores(:,1),scores(:,2),scores(:,3),'*')
(
( , ),
( , ),
( , ), )
36
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
100
100%
90
90%
80
80%
70
70%
60
60%
50
50%
40
40%
30
30%
20
20%
10
10%
Componentes
C
t1 P
Principais
i i i
Varincia exp
plicada
percent_explained=100*variances/sum(variances)
percent_explained =
99.6458
0.3317
0.0180
0.0036
0.0010
Pareto(percent_explained)
0%
Pareto (percent_explained):oprimeirocomponenteprincipalexplica99,65%davarincia
37
5PCAnolinear,(NLPCA):eixoscurvilneos
AlinearidadedoPCApodeseruminconvenienteemmuitosproblemas
seasnovasdimensesfossemmapeamentosnolinearesdasoriginaisobter
seiammelhoresresultadosemmuitoscasosdeinteresse.
lh
l d
d
necessrioparaissoumaferramentageraldemapeamentosnolineares:
umaredeneuronal.
d
l
enquantoquenoPCAoseixossorectilneos,noNLPCAsocurvilneos.
ADC/MIEB/ADAR/2010DEIFCTUC
38
Suponhamosumaarquitecturade5camadascomoaseguinte:
h(X)
g(u)
u
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Entradas
X
X
Sadas
X
Existeumacamadaespecialameio:ogargalo(bottleneck).
Damosredeumconjuntodeentradasequeremosqueassadasasreproduzam,isto,
Damos
rede um conjunto de entradas e queremos que as sadas as reproduzam, isto ,
queremos
target =entrada
X=X
39
Tratasedeumasituaoparecidacomadanossaconhecidamemriaassociativa
para reconhecimento de caracteres As entradas so combinadas por h(x) obtmse
parareconhecimentodecaracteres.Asentradassocombinadasporh(x),obtm
seu,
u
edepoisapartirdeu,usandog(u),voltaseareconstruirXemX,naturalmentecom
algumerro.
Isto,podesereconstruirasvariveisdeentradaXapartirdeumnmeroinferior
devariveisu.esteoprincpiodoPCA:
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
asvariveisusooscomponentesprincipaisnolineares
Dificuldade:
treinodarede,comclculosimultneodetodososcomponentes
garantirqueosnovoseixossonocorrelacionados,ouseja,so
garantir que os novos eixos so no correlacionados ou seja so
ortogonais.
Conveniente:
calcularumcomponentedecadavezparagarantiraortogonalidade.
40
Redebottleneck paraclculodeumcomponentedecadavez
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Entradas
Sadas
Damosredeumconjuntodeentradasequeremosqueassadasasreproduzam,
j
q
q
p
,
isto,treinamolaparaque
target =entrada
X=X
Comumniconeurnionocentro,oerroserconsidervel.Tomaseouque
produzomenorerrocomooprimeirocomponenteprincipal.
Oerroobtido,querepresentaainformaonocontidanoprimeirocomponente,
podeserusadoparaoclculodosegundocomponente,talcomonoPCAlinear.
41
Sriederedesbottleneck paraclculoemsriedoscomponentesnolineares
1componente
(una notao anteriror)
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
2componente
ncomponente
http://www.srireport.com/strage/dissertation/mainse5.html 25Fev2009
Oprimeirocomponentedaprimeiramatrizresidual(diferenaentreaentradaeasadadesejada)osegundo
componentedamatrizdedadosoriginal,eassimsucessivamente.Adimensofinaldosdadosigualao
nmeroderedesusadas.
42
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Aanlisedefactores(FA)umatcnicaquepermiteidentificarosfactorescomuns(latentes,
noobservveisdirectamente)eosfactoresespecficos.
b
i di t
t )
f t
fi
Baseiasenoestudodaspropriedadesestatsticasdoconjuntodedados.
43
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
EExemplo:
l
Ogabinetedeestudosdemercadodeumafbricadeautomveisquerinvestigaros
factoresquelevamosconsumidoresaescolheremummodeloespecficode
automvelenooutro.Paraissolanouumestudodeopinio,numconjunto
l
P i
l
d d
i i
j
representativodeconsumidores,sobreaimportnciadasseguintes14variveispara
aescolhadeumautomvel,queclassificaramnumaescalanumrica:
CRB custosdereparaobaixos
VC variedadedecoresdisposio
EIA espaointerioramplo
p
p
BC bomconsumo
FM fcildemanejar
DM designmoderno
BM bommotorPRA preoderevendaalto
C confortvel
C
confortvel
AS aparnciasuave
AS
aparncia suave
FC fcildeconduzir
MA modeloatraente
MG malagrande
FE fcildeestacionar
proposto pelo Grupo 1 em 2008 a partir de http://www estv ipv pt/PaginasPessoais/lucas/material/Acetatos%20ACP%20e%20AFC%203%C2%AAparte%20aluno pdf
propostopeloGrupo1em2008apartirdehttp://www.estv.ipv.pt/PaginasPessoais/lucas/material/Acetatos%20ACP%20e%20AFC%203%C2%AAparte%20aluno.pdf
44
difcilavaliar14variveisseparadamenteoudesenvolverplanosdeacotendoemcontatantas
variveis.Emvezdissoseriaidealsabercomopensamosconsumidoresemtermosdedimenses
p
(factores)maisgerais,quenecessariamenteagregaro,cadaumdeles,vriosdestes.
Paraidentificarestasdimensesfoiaplicadaaanlisefactorial,cujosresultadossugeremqueas14
variveispodemsercaracterizadaspor4factores(I,II,IIIeIV)relacionadoscom
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
I conforto
II custo/eficincia
III estilo
IV facilidadedemanipulao
14
variveis
4
factores
45
Modelodeanlisefactorial(ortogonal)
Seja
X T = ( X1, X2,...,Xp )
umvectoraleatrio(dep dadosoriginais)demdiaecovarincia
T= ( 1, 2,..., p)
=matriz decovarincia
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Cadavariveloriginaldependedeumacombinaolineardosfactorescomunsedosfactores
Cada
varivel original depende de uma combinao linear dos factores comuns e dos factores
especficos.Centrandocadavarivelnasuamdiapoderemosescrever
X1- 1= l11F1+ l12F2 +...+
... l1mFm +1
X2- 2= l21F1+ l22F2 +...+ l2mFm + 2
.
Xp- p= lp1F1+ lp2F2 +...+ lpmFm + p
Ou,emnotaomatricial:
X-=LF+
(px1) (pxm) (px1)
46
X-=LF+
l11
l
21
L
...
lp1
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
FT F1 F2 ... Fm
1 2 ... p
T
lij
Noteseque
N
t
no
possivel
i l conhecer
h
nem os factores
f t
comuns nem os factores
f t
especficos,mas apenas assuas mdias evarincias.
47
Noteseque:
i)ofactorespecficoi estassociadoapenascomavarivelXi;
ii)osp desviosX1- 1, X2- 2,..., Xp- p soexpressosemtermosdep+m variveisno
observveis:F1, F2,...,Fm, 1, 2,..., P.
P
Propriedadesdosfactorescomuns,ouseja,dovectorF
i d d d f t
j d
t F
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Asuamdianula
Asuacovarinciaamatriz
identidade garantindo que os
identidade,garantindoqueos
factoressoortonormais.
E( F1 ) 0
E( F ) ... ...
E( Fm ) 0
1
0
Cov ( F )
...
0 ... 0
1 0 0
Im
... ... ...
... 0 1
48
Propriedadesdosfactoresespecficos,ouseja,dovector
Asuamdianula
E(1 ) 0
E( ) ... ...
E( p ) 0
1 0
0
Asuacovarinciaumamatriz
2
diagonal,garantindoqueosfactores Cov ( )
... ...
especficossoortogonais
0 ...
0
0 0
... ...
0 m
...
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
...
...
C (e p , F1 ) C
Cov (e p , F2 )
Cov
...
...
... C
Cov (e p , Fm )
49
X-=LF+
Relaesentreascovarincias
nomodelo
Cov ( X ) LLT
ouseja
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
comunalidade
Varincia
especfica
Comunalidade (communality)
(
y)
partedaVar(Xi) quepodeserexplicadapelosfactorescomunseporisso
partilhadacomtodasasoutrasvariveis
Varinciaespecfica
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
parte da Var(Xi)
partedaVar(X
queespecficadeX
que
especfica de Xi equenoestassociadacomoutras
e que no est associada com outras
variveis.Elaindicaatquepontoosfactores comuns
soinsuficientesparaaexplicaodavarinciatotal.
51
Implementaoprtica
1 Recolhemsen observaesdasp variveiscorrelacionadasX1, X2,...,Xp
2 Analisase a estrutura de covarincia ou de correlao dos dados: se a matriz de covarincia (ou
d correlao)
de
l ) for
f quasidiagonal,
i di
l ento
a anlise
li de
d factores
f
no
ter grande
d utilidade
ilid d porque os
dados so quase independentes (no correlacionados).
3 Extraemseosfactoresporumdosvriosmtodospossveis
PCA.Nestecasoosfactorescomunssoosvectoresprpriosdamatrizdecovarincia
mximaverosimilhana(maximum likelihood),comonoMatlab
mnimosquadrticos(comousemponderao)quesoummtododeregresso
i
di
(
d
)
d d
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
outrastaiscomomtodoalfa,principalaxes factorization,etc.
p ca se u
umaa rotao
otao aos factores
acto es de modo
odo que haja
aja u
umaa maior
ao d
diviso
so dos factores
acto es eentre
t e as
4 Aplicase
diversas variveis (isto , cada varivel original deve depender fortemente de alguns factores e
pouco dos restantes). Se assim for conseguese uma melhor explicao para o comportamento das
variveis. Para a rotao existem diversos mtodos:
varimax,maximizaavarinciaemcadaeixo(talcomonoPCA)
quartimax,equamax,eoutros
52
NoMatlab
[Loadings,specificVar,T,stats]=factoran(dataOriginal,NumeroFactores,rotate,metodoRotacao)
Dados
originais
MatrizL
Vector
Vector
Nde
factores
desejado
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
MatrizTde
rotaodeL
Parmetrosde
controlode
qualidade
qualidade
estatstica
(verhelp)
aastructurecontaininginformationrelatingtothenullhypothesisthat
structure containing information relating to the null hypothesis that
thenumberofcommonfactorsisM.STATScontainsthefields
loglike themaximizedloglikelihoodvalue
dfe theerrordegreesoffreedom,((DM)^2 (D+M))/2
chisq theapproximatechisquaredstatisticforthenullhypothesis
p therighttailsignificancelevelforthenullhypothesis
Sequiser
especificar
mtodos de
mtodosde
rotao.Por
defeitoaplica
ovarimax
Mtodode
rotao:
none
none
varimax
promax
53
Exemplos
You may be interested to investigate the reasons why customers buy a product such as a particular brand of soft drink (e.g.
coca cola). Several variables were identified which influence customer to buy coca cola. Some of the variables identified as
being influential include cost of product, quality of product, availability of product, quantity of product, respectability of
product, prestige attached to product, experience with product, and popularity of product. From this, you designed a
questionnaire to solicit customers
customers' view on a seven point scale,
scale where 1 = not important and 7 = very important.
important The results
from your questionnaire are show on the table below. Only the first twelve respondents (cases) are used in this example.
(http://www.ncl.ac.uk/iss/statistics/docs/factoranalysis.php)
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
DataEx2
54
Cov
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Cor
0,63
0,22
0,25
0,40
-0,45
-0,22
0,11
0,22
0,63
0,48
0,08
-0,04
-0,36
-0,20
0,25
0,48
1,66
0,84
-0,70
-1,02
-0,57
0 40
0,40
0 08
0,08
0 84
0,84
0 99
0,99
-0,77
0 77
-0,72
0 72
-0,20
0 20
-0,45
-0,04
-0,70
-0,77
1,36
0,77
0,25
-0,22
-0,36
-1,02
-0,72
0,77
1,36
0,57
0 11
0,11
-0,20
0 20
-0,57
0 57
-0,20
0 20
0 25
0,25
0 57
0,57
0 75
0,75
1,00
0,35
0,24
0,51
-0,48
-0,24
0,17
0,35
1,00
0,47
0,11
-0,04
-0,39
-0,30
0,24
0,47
1,00
0,66
-0,47
-0,68
-0,51
0,51
0,11
0,66
1,00
-0,66
-0,62
-0,24
-0,48
-0,04
-0,47
-0,66
1,00
0,56
0,25
-0,24
-0,39
-0,68
-0,62
0,56
1,00
0,56
0 17
0,17
-0 30
-0,30
-0 51
-0,51
-0 24
-0,24
0 25
0,25
0 56
0,56
1 00
1,00
55
[coefs,scores,variances,t2]=princomp(DataEx2)
Coefs
(vectoresprprios
0,17
0,40
-0,54
0,25
0,01
0,35
-0,58
0,16
-0,31
-0,59
0,44
-0,16
-0,03
0,55
0,55
-0,33
-0,24
-0,56
-0,29
-0,27
-0,25
0,40
0,30
-0,03
-0,40
0,38
0,48
0,47
-0,43
0 43
-0,56
0 56
-0,31
0 31
-0,25
0 25
0 50
0,50
0 25
0,25
-0,18
0 18
-0,50
0,19
-0,21
-0,40
-0,64
0,29
0,17
-0,23
0,45
-0,40
-0,21
0,31
-0,66
0,12
4.1907
4
1907
1.1984
0.7408
0.5143
0 3644
0.3644
0.2535
0.1090
Variances
(valores
prprios)
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Scores
(valores
finais)
0,62
-5,66
2,56
0,26
0,17
1,30
1,58
58
-1
-0,03
-0,01
0,82
0,07
1 46
1,46
1,44
0,30
0,65
0,71
1,95
-0,42
-0
0,70
70
0,28
-1,18
-0,22
-1,68
-1,14
1 14
1,00
-0,48
-0,89
-0,26
-0,40
-1,38
0 12
0,12
1,56
0,60
-0,15
-0,60
0 89
0,89
-0,96
-0,50
0,47
-0,71
0,94
-0,51
1 54
1,54
0,36
-0,20
-0,17
-0,14
-0,11
0 11
-0,09
0,03
-0,34
-0,68
-0,33
0,96
0 10
0,10
0,64
-0,24
1,09
-0,75
-0,39
0 39
-0,63
-0,05
0,12
0,89
-0,16
-0,40
0 06
0,06
-0,22
0,68
0,56
-0,75
-0,12
0 12
0,46
-0,26
-0,14
0,30
-0,36
0,21
0 67
0,67
-0,22
-0,05
-0,21
-0,09
-0,30
0 30
56
noVisRedIII
Pareto
1
0.7
0.9
0.6
0.5
0.7
0.6
0.5
Eigenvalues
Cumul. EigenVal
g
0.4
0.3
Eige
enValues
Cumulativ
ve EigenValue
es
0.8
0.4
0.3
0.2
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
0.2
0.1
0.1
0
1
2
3
4
5
Principal Component
2
4
6
Principal Component
57
Dois componentes
[[Loadings,specificVar,T,stats]=factoran(DataEx2,2)
g, p
,,
]
(
, )
Loadings
0,08
-0,39
0 39
-0,69
-0,39
0,33
0 74
0,74
0,82
0,71
0 11
0,11
0,45
0,79
-0,67
-0,43
0 43
0,10
SpecificVar
0,49
0 83
0,83
0,32
0,23
0,44
0,27
0,31
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
0,740,68
0,680,74
stats =
loglike:0.7936
loglike:
0.7936
dfe:8
chisq:5.1582
p
p:0.7405
Demasiadogrande
58
[Loadings,specificVar,T,stats]=factoran(DataEx2,3)
Loadings=
0.21490.89400.3869
0.28910.04770.9535
0.74780.34770.2456
0.50230.72290.0776
0.38020.67820.1059
0.73900.37390.1614
0.69230.06490.1060
specificVar =
0.0050
0.0050
0.2596
0.2191
0.3843
0.2881
0.5053
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
T=
0.89590.32860.2991
0.05770.58130.8116
0.44050.74440.5018
Trs componentes
Communalities =
1,00
1,00
0,74
0,78
0,62
0,71
0 49
0,49
stats=
loglike:0.1494
df
dfe:3
Warning:Someuniquevariancesare
zero:cannotcomputesignificance.
59
Notasobremtodosderotao
Quartimax rotationisaformoforthogonalrotationusedtotransformvectors
associated with principal component analysis or factor analysis to simple structure It is
associatedwithprincipalcomponentanalysisorfactoranalysistosimplestructure.Itis
aspecialcaseoforthomax rotation,whichmaximizesthesumsofsquaresofthe
coefficientsacrosstheresultantvectorsforeachoftheoriginalvariables,asopposedto
varimax,whichmaximizesthesumsofsquaresofthecoefficientswithineachofthe
resultantvectors.Anumericalexampleisincludedtoshowacasewherequartimax
mightbepreferredtothecommonlyusedvarimax.
Enciclopedia of Biostatistics http://mrw.interscience.wiley.com/emrw/9780470011812/home/
http://mrw interscience wiley com/emrw/9780470011812/home/
25 fev 2009
25fev
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
No fundo
N
f d os mtodos
t d de
d rotao,
t convenientemente
i t
t escolhidos,
lhid do
d ao utilizador
tili d a
possibilidade de seleccionar a representao final que lhe d maior informao de
um modo mais intuitivo.
60
Amostra1
n indivduos
Amostra2
n indivduos
Mdi
Mdiam1
1
Mdi
Mdiam2
2
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Mdi t t l
Mdiatotal
Paratestarosignificnciaestatsticaentreasmdias,analisamseasvarincias
das amostras Da o seu nome
dasamostras.Daoseunome.
Avarinciatotaldecompostaemvarinciasdentrodecadaamostraetotal
Um stio muito bom para estatstica: http://www statsoft com/textbook/stathome html?stbasic html&1
Umstiomuitobomparaestatstica:http://www.statsoft.com/textbook/stathome.html?stbasic.html&1
61
Exemplo
Adaptado de http://www statsoft com/textbook/stathome html?stbasic html&1
Adaptadodehttp://www.statsoft.com/textbook/stathome.html?stbasic.html&1
Observao1
Observao 2
Observao2
Observao 3
Mdia
Somados
quadrados dos
desvios em cada
grupo (SSE)
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Mdia global
Somadetodos
Soma
de todos
os desvios
quadrticos (SST)
Grupo1(n=3)
Grupo2(n=3)
2
3
1
6
7
5
4
28
(42)2+(43)2+(41)2+(46)2+(47)2+(45)2
Partiodavarinciatotal(SST=28)
varinciainternaaosgrupos
SSE=SSE1+SSE2=2+2=4
chamaseerro enose
podeexplicar(aleatrio).
varinciadevidadiferenadas
i i d id dif
d
mdiasSSG=SST 4=284=24
chamaseefeito (effect)e
explicado pela pertena aos
explicadopelapertenaaos
grupos.
Secalcularmosavarincia(SS)combasenosdesviosdentrodecadagrupo,obtmseumvalormuito
menordoqueseofizermosusandotodososdesvios,independentementedosgrupos.Deveseao
factodeasmdiasdentrodecadagruposeremmuitodiferentes.Seelasfossemmuitoprximas
ento a varincia de grupo seria tambm prxima da varincia global
entoavarinciadegruposeriatambmprximadavarinciaglobal.
62
Hiptesede(diferena)nula,null hypothesis:adiferenaentreasmdiasnula(os
doisgrupostmamesmamdia)
g p
)
Serverdade?
ANOVAdresposta
ResultadodeumaANOVAnoexemploanterior
TesteF,severdadeF=1
,
QuantomaiorF,maisfalso
EFEITO PRINCIPAL
EFEITOPRINCIPAL
SS
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Efeito
Erro
24.0
4.0
Grausdeliberdade
Graus
de liberdade
entregrupos:n
grupos1
g1=21
df
MS=SS/df
1
4
F=MSG/MSE
24.0
.008
MSG=24.0
MSE=1.0
readacaudadadistribuio
diminuiseFaumenta
Grausdeliberdade
dentrodosgrupos:
ngruposx(namostras
decadagrupo1)
gg.(n1)=2.(31)
( ) ( )
63
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
64
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
TabeladeF
NoexemploanteriorF
No
exemplo anterior Fcrit =7,709(v1=1,v2=4).Paravaloresinferioresverificasea
7 709 (v1 1 v2 4) Para valores inferiores verifica se a
hiptesenula.Paravaloressuperioresrejeitaseahiptesenula.
65
TABELADAANOVA(comumfactor)
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
g grupos,n elementosporgrupo
Fontede
Variao
Somados
quadrados
Grausde
liberdade
Mdia dos
quadrados
F
observado
Caudapda
p
distribuio
Efeito (entre
grupos)
SSG
g1
g1
MSG
MSG/
MSE
Erro (dentro
dosgrupos)
SSE
g(n1)
g(n
1)
MSE
Total
SST
gn1
Significnciaestatstica
66
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Variveisdependenteseindependentes(oufactores)
Notrabalhoexperimentalchamamse
variveisdependentessrecolhidasexperimentalmente(medidas)
variveis dependentes s recolhidas experimentalmente (medidas)
variveisindependentes,oufactores,squesepodemmanipularpara
provocar os resultados experimentais
provocarosresultadosexperimentais.
67
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Indivduo
N
Meclastina
G1
Promethazina
G2
Placebo
G3
112
112
131
48
37
61
106
93
112
51
46
70
Frequncia(crtica)devacilaoflicker.Umsujeitoobservaumalmpadavacilante(intermitente).Aumentandoafrequnciadevacilaohumaapartirdaqual
almpadaobservadacomoseestivessenumestadocontnuo(acesa);essaacrtica.Numindivduovariacomasonolncia.
68
AaplicaodaANOVAsegueamesmafilosofiadocasodeumfactor.
Havendoagoramaisfactores,necessriofazermaisclculos.
Havendo agora mais factores necessrio fazer mais clculos
Permitirdistinguirainflunciadecadafactor,comprocessamento
estatstico adicional
estatsticoadicional.
Natabeladedadosexistemllinhaseccolunas(c>=2).
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Osefeitosentregruposconsideramsesegundo
aslinhas(gruposporlinha),
ascolunas(gruposporcoluna).
(g p p
)
Asignificnciaestatsticaobtidaobtmsequerparaosgruposporlinha
querparaosgruposporcoluna.
69
TABELADAANOVA(2factores,twoway)
g grupos,n elementosporgrupo
FontedeVariao
Somados
quadrados
Grausde
liberdade
Mdia dos
quadrados
F
observado
Caudapda
distribuio
Efeito(entre
grupos)porlinha
SSL
l1
MSL
MSL/
MSE
SSC
c1
MSC
MSC/MSE
Erro(dentrodos
grupos)
SSE
g(l1)(c1)
MSE
Total
SST
g(l1)(c1)+l
1+c1
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Efeito(entre
grupos)por
coluna
Significnciaestatstica
70
Osdadostmllinhaseccolunas.
Comopreenchera
tabela
1 calculamseasmdiasporlinhaseasmdiasporcolunas.
2a)calculaseavarinciatotaldetodasasobservaes,ST;
b)calculaseasomadosquadradosdosdesviostotais,SST,multiplicandoaST
pelonmerototaldeamostrasmenosuma.
l
t t ld
t
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
3 Clculosporlinha:
(i) Calcular a varincia das mdias por linha SL;
(i)Calcularavarinciadasmdiasporlinha,SL;
(ii)calculaseoerroquadrticomdioporlinhas(LMS)multiplicandoSLporc
(nmerodecolunas);
(iii) calcular a soma dos quadrados por linha SSL multiplicando LMS por (l1)
(iii)calcularasomadosquadradosporlinha,SSL,multiplicandoLMSpor(l1)
4 Clculosporcoluna:
(i) Calcular a varincia das mdias por coluna SC;
(i)Calcularavarinciadasmdiasporcoluna,SC;
(ii)calcularseoerroquadrticomdioporcolunas(CMS)multiplicandoSCpor
l(nmerodelinhas);
( )
(iii)calcularasomadosquadradosporcoluna,SSC,multiplicandoCMSpor(c1).
q
p
,
,
p
p ( )
5 Calcularasomadoserrosquadrticosdoerro,SSE=SSTLSSCSS.
6 Calcularoerromdiaquadrtico,MSE=SSE/((c1)(l1)).
7 PreencheratabelaANOVA,calculaosvaloresdeF,evernatabelaseesto
acimadoFcrtico.(adaptadodehttp://www.celiagreen.com/charlesmccreery/statistics/anova.pdf)
71
Temosagoradoisefeitos:
porlinha,dossujeitos
por linha dos sujeitos
porcoluna,dosremdios
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
FontedeVariao
Somados
quadrados
Mdia
Mdi
Grausde dos
liberdadequadrado
s
F
F
observado
Caudapda
distribuio
Efeitoporlinha
(entreindivduos)
10780,25
3593,42
264,55
Efeitoporcoluna
(entreremdios)
957,17
478,58
35,23
Erro(dentrodos
grupos)
81,50
13,58
Total
Total
11818 92
11818,92
11 00
11,00
MANOVA(Multivariate ANOVA)
Duasoumaisvariveisdependentescorrelacionadas
Analisaoefeitodasvariveisindependentesnasdependentes
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
Procurainteracesentreasvariveisindependenteseasassociaesentre
P
i t
t
i i i d
d t
i
t
asvariveisdependentes.
Acorrelaoentreasvariveisimplicaquetenhamqueseconsiderarnosas
varinciasmastambmascovarincias.
73
ANOVAnoMatlab
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
pde
hiptese
nula
Tabelados
valores
resultantes
Informao
estatstica
Tabelados
dados
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
pde
hiptese
nula
Tabelados
valores
resultantes
Informao
estatstica
Tabelados
dados
Bibliografia
(paraalmdasrefernciasnosslides)
Daszykowski,M.;Walczak1,B.;Massart,D.L.;Ajourneyintolowdimensionalspaceswithautoassociativeneuralnetworks;
y
j
y
p
Talanta,Volume59, Number6,1May2003,pp.10951105(11),Elsevier,2003
Doncaster,C.Patrick,Andrew,JHDavey,AnalysisofVarianceandCovarianceHowtoChooseandConstructModelsfortheLife
Sciences,CambridgeUniversityPress,2007
Hsieh,W.W.;,NonlinearMultivariateandTimeSeriesAnalysisbyNeuralNetworkMethods;2004Rev.Geophys.,42,RG1003,
Hsieh
W W ; Nonlinear Multivariate and Time Series Analysis by Neural Network Methods; 2004 Rev Geophys 42 RG1003
doi:10.1029/2002RG000112.
Kramer,M.,Nonlinear PrincipalComponent Analysis using Autoassociative NeuralNetworks,AIChE Journal,Vol.37,No.2,1991
Martinez,W.L.;Martinez,A.R.,ExploratoryDataAnalysiswithMATLAB;Chapman&Hall,2004
Matlab Statistics Toolbox 7http://www.mathworks.com/products/statistics/
ADC/MIEB
B/ADAR/2010D
DEIFCTUC
76