Você está na página 1de 76

ESTATSTICA MULTIVARIVEL

ESTATSTICAMULTIVARIVEL
PCA,FA,ANOVA

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

I.PCA PrincipalComponent Analysis


Anlise dos Componentes Principais
AnlisedosComponentesPrincipais
II.FA FactorAnalysis
AnlisedeFactores
III.ANOVA
III
ANOVA ANalysis
AN l i Of VAriance
VA i
AnlisedeVarincia
1

I. Anlise de Componentes
p
Principais
p ((PCA))
1.Introduo

Tcnica de anlise estatstica multivarivel

Quandoexistemmuitasvariveisparadescreveromesmofenmeno,
frequentequeexistaredundnciaentrealgumasdelas.Essaredundncia
expressapelamatrizdecorrelaooupelamatrizdecovarincia.

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

ObjectivodePCA:encontrarumconjuntomaispequenodevariveis,commenor
g
grauderedundncia,semperdasignificativadeinformao.
p
g

Muitousadaemdiversasaplicaesmdicas,desdeaimagemaossinais
biomdicos,gentica,protenica,etc.
Buscaemwww.pubmed.org em24Fev 2009porprincipalcomponent analysis
deu11241resultados.

Exemplo

Caso
(pessoa)

Alturacm
(x1)

Peso,Kg
(x2)

Idade
(x3)

Presso
sistlica
(x4)

Frequncia
cardaca
(x5)

175

75

25

117

56

156

64

31

122

63

202

82

58

154

67

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Dadoscorrelacionados:
Peso altura
Pressosistlica
P
i tli frequnciacardaca
f
i
d

http://www.doembi.ucla.edu/~parag/multivar/pca.htm,23Fev 2009

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Projecodeumdonutcomduaslanternas

http://www.doembi.ucla.edu/~parag/multivar/pcawords.htm,em22Fev 2009

Oobservadorestdetrsdateladeprojeco.
A percepo do objecto projectado depende da direco da projeco
Apercepodoobjectoprojectadodependedadirecodaprojeco.
Movendoaslanternasobtmsediferentesprojeces(representaes)
4

A essncia do PCA:
AessnciadoPCA:
Encontraasmelhoresprojeces,demodoaqueaimagemprojectadasejaa
Encontra as melhores projeces de modo a que a imagem projectada seja a
melhorrepresentaodaestruturadosdados.
As projeces so escolhidas de modo a reter o mximo da informao, medida
Asprojecessoescolhidasdemodoareteromximodainformao,medida
emtermosdavariabilidadedosdados,numnmeromnimodedimenses

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Escolhemseasprojecesmudandoosistemadeeixos.
p j

2Valoresprpriosdematrizesquadradas(simtricas)
4 8
A

8
4

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

>>[V,D]=eig(A)
[ , ] g( )
V=
0.70710.7071
0.70710.7071
D=
40
012

Vectores
prprios
Valores
prprios
http://www.doembi.ucla.edu/~parag/multivar/eigen.htm 22Fev 2009

Osvalores
Os
valores prprios so 12e
12 e 4
4,precisamente
precisamente os comprimentos doseixos
dos eixos maior e
e
menor da elipse centrada na origem eque passa pelos dois pontos
prprios
p
so os vectores q
que definem aorientao
doseixos da elipse.
p
Osvectores p
Existe umnmero infinito devectores prprios.
6

SejaAumamatrizdecorrelaoentredoispontosxeyA=Corr(x,y)

1 0
A

0
1

>>[V,D]=eig(A)
V=
10
01
D=
10
01

http://www.doembi.ucla.edu/~parag/multivar/eigen.htm 22Fev 2009

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

0, 25
1
A

0,
25
1

1 0,5
A

0,5
1

>>[V,D]=eig(A)
V=
0.70710.7071
0 7071 0 7071
0.70710.7071
D=
0.75000
01.2500

>>[V,D]=eig(A)
V=
0.70710.7071
0.70710.7071
D=
D=
0.50000
01.5000
7

0, 75
1
A
1
0, 75

1 1
A

1
1

>>[V,D]=eig(A)
V=
0.70710.7071
0.70710.7071
D=
0.25000
01.7500

>>[V,D]=eig(A)
V=
0.70710.7071
0.70710.7071
D=
D=
00
02

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

http://www doembi
http://www.doe
mbi.ucla.edu/
ucla edu/~parag/multivar/eigen
parag/multivar/eigen.htm
htm 22Fev
22 Fev 2009

medidaqueaumentaacorrelaoentreasvariveisoeixomaiortornasecadavez
maior,eoeixomenorcadavezmaispequeno,atseanularquandoasduasvariveis
estonocasolimitedecorrelaoperfeitaiguala1.Nessascondiesoeixomaiortem
umcomprimentodois.
N
Notesequeasomadoscomprimentosdoseixos(ousejadosvaloreprprios)sempre2.
d
i
d
i
(
j d
l
i )
2
8

A3dimensesA=corr(x,y,z)
Matrizesde
correlao

Vectoresprprios
Valores prprios

http://www.doembi.ucla.edu/~parag/multivar/eigen.htm 22Fev 2009

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Asomadoscomprimentosdos
eixos(ousejadosvalores
prprios)sempre3.

1.0
0.0

1.0

0.0

0.0

1.0

1.0
0.5

1.0

0.5

0.5

1.0

10
1.0
1.0

1.0

1.0

1.0

1.0

1.0
09
0.9

10
1.0

0.3

0.6

1.0

vector1

vector2 vector3

1.0

0.000

0.000

1.000

1.0

0.000

1.000

0.000

1.0

1.000

0.000

0.000

2.0

0.577

0.085

0.812

0.5

0.577

0.746

0.332

0.5

0.577

0.660

0.480

30
3.0

0
0.577
577

0 000
0.000

0 000
0.000

0.0

0.577

0.000

0.000

0.0

0.577

0.000

0.000

2.23

0.593

0.525

0.611

0 73
0.73

0 658
0.658

0 121
0.121

0 743
0.743

0.04

0.464

0.842

0.273
9

A4dimensesA=corr(x,y,z,w)
Matrizesdecorrelao
1

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

1.00
0.00

1.00

0.00

0.00

1.00

0.00

0.00

0.00

1.00

1.00
0.90

1.00

0.00

0.00

1.00

0.00

0.00

0.90

1.00

1.00
0.90

1.00

0 20
0.20

0 30
0.30

1 00
1.00

0.15

0.10

0.80

1.00

Valores Vectoresprprios
prprios v1v2v3v4
1

0.1

0.7071

0.7071

0.1

0.7071

0.7071

1.9

0.7071 0.7071

1.9

0.7071

0.7071

0.0572

0.5892 0.395

0.2328

0.6421 0.3003 0.4535 0.5402

1 4771
1.4771

0 3610 0.6197
0.3610
0 6197 0.4898
0 4898 0.4957
0 4957

2.2329

0.3320

0.6081

0.4680 0.5271

0.5792 0.4296

A
Asomadoscomprimentosdoseixos(ousejadosvaloresprprios)sempre4
d
i
t d
i
(
j d
l
i )
4
10

3InterpretaogrficadoPCA

NasuaessnciaoPCAumatcnicadereduodedimenso,nosentidodequepontos
deumespaomultidimensionalsoprojectadosnumespaodemenosdimenses(duas
outrs).
Aorientaodaprojecoajudaanossacompreensodasrelaesentreospontos,
nomeadamenteatravsdasuadistribuiogrficanoespaoreduzido.

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

NotesequeoPCAnoalteraaorientaoespacialdeunspontosemrelaoaos
outros mas to s o ngulo de observao dos pontos
outros,mastosongulodeobservaodospontos.

11

Considereseoseguinteconjuntodepeixes

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Paracada peixe podesemedir ocomprimento ealargura

http://www.doembi.ucla.edu/~parag/multivar/pca_graf.htm 22Fev 2009

12

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Largura(breadth),yy

Semedirmos25peixeserepresentarmosnumgrficoarelaoentreosseus
comprimentos e larguras obteremos uma figura parecida com a seguinte
comprimentoselargurasobteremosumafiguraparecidacomaseguinte:

Comprimento(lengh),x
http://www.doembi.ucla.edu/~parag/multivar/pca_graf.htm 22Fev 2009

13

Podemosrepresentarosdadosnumsistemadeeixosemqueaorigemestsituadano
Podemos
representar os dados num sistema de eixos em que a origem est situada no
centrodanuvemdepontos.Paraissocalculamseasmdiasdexedeyecolocaseaa
origem:

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

http://www doembi
http://www.doe
mbi.ucla.edu/
ucla edu/~parag/multivar/pca
parag/multivar/pca_graf.htm
graf htm 22Fev
22 Fev 2009

Oquenosimportaarelaoentreospontos.
Oseixosusamseporconvenincianossa.Semovermososeixos,noalteramose
estrutura dos dados
estruturadosdados.
14

SSerinteressanteposicionaroseixosdemodoaqueumdelesexprimaamaiorproporo
i t
t
i i
i
d
d
d l
i
i

davariaonosdados,isto,agamaderepresentaodosdadosnesseeixosejaamaior
possvel.

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

http://www.doembi.ucla.edu/~parag/multivar/pca_graf.htm 22Fev 2009

Nestenovoeixoopontonaextremidadeesquerdacorresponderaumpeixecom
comprimentomuitopequenoelarguramuitopequena,ouseja,umpeixemuito
pequeno.Opontonaextremidadedireitacorresponderaumpeixemuitogrande.
Portantoonovoeixoexprimeumanovamedida:otamanho,quepoderemosconsiderear
como
tamanho=comprimento+largura
ouseja,umcombinaolineardasduasmedidasanteriores.

15

http://www.doembi.ucla.edu/~parag/multivar/pca_graf.htm 22Fev 2009

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

A representao dos dados sugere que as duas dimenses,


dimenses comprimento e largura,
largura so muito
correlacionadas. De facto, estando os dados todos muito prximos deste eixo do comprimento,
poucos erros se cometeriam se considerssemos os dados todos no prprio eixo, eliminando
assim a necessidade do segundo eixo.
Mas admitindo que no queremos esta simplificao, como escolher o segundo eixo ? Ele
dever conter o mximo da informao restante, daquela que no est contida no primeiro eixo.
Alm disso o segundo eixo deve ser no correlacionado com o primeiro, ou seja perpendicular a
ele.
ele
Comosepodemdistinguirospeixes,paraalmdotamanho?Arelaoentreocomprimentoea
larguraexprimeaformadopeixe.Pequenasvariaesnessarelaoexprimempequenasvariaesna
forma Se desprezarmos o segundo eixo desprezamos essas variaes na forma assumindo que os
forma.Sedesprezarmososegundoeixodesprezamosessasvariaesnaforma,assumindoqueos
peixessoexactamentedamesmaforma.
Nestecaso,comoospeixessomuitosemelhantesnaforma,nocometeramosgrandeserros
reduzindodeduasparaumadimensoarepresentaodainformao.
Veremosquepossvelquantificarainformaoperdidacomareduodedimenso,nocasodoPCA.
EstaumacaractersticageraldoPCA:asdimensesreduzidasresultamdeumacombinaolinear
das dimenses originais e geralmente no tm interpretao fsica no problema em estudo
dasdimensesoriginais,egeralmentenotminterpretaofsicanoproblemaemestudo.
16

Seacorrelaoentre

ocomprimentoealargurafor0.75,obterseiamasfiguras
p
g
,
g
seguintesparaoelipsidedanuvemdepontos.Oscomprimentosdoseixosso
dadospelosvaloresprpriosdamatrizdecorrelao.
http://www.doembi.ucla.edu/~parag/multivar/pca_graf.htm 22Fev 2009

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Valoresprpriosevectoresprpriosda
matrizdecorrelao.

Rotaoparatornaroeixohorizontal
coincidentecomadirecodemaior
variabilidadedosdados.

Oscomprimentosedirecesdoseixossodadospelosvaloresprpriosevectores
p

p
p p
prpriosdamatrizdecorrelao.Seretivssemosapenasavarivelcomprimento,
ficaramosapenascom1.75/(1.75+0.25)x100=87.5%davariabilidadeoriginal.Porisso
sedesprezarmososegundoeixoperderemos12.5%dainformaooriginal.
17

Suponhamos agoraque oconjunto depeixes oseguinte.

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

http://www.doembi.ucla.edu/~parag/multivar/pca_graf.htm 22Fev 2009

Seriapossvelrepresentlosapenaspelavarivelcomprimento?Nestecasoospeixes
tmformasmuitodiversas,eporissoocomprimentosporsiestarmuitolongede
nosdarumainformaominimamentefidedignadarealidade,dadoquenadanosdiria
sobreaforma.
18

Suponhamosquenestecasoosdadosdocomprimentoedalarguratmuma
correlaode0.25.Teramososvaloresevectoresprpriosdafigura

p p
g
http://www.doembi.ucla.edu/~parag/multivar/pca_graf.htm 22Fev 2009

Valoresprpriosevectoresprprios
nocasodacorrelao0.25

Rotaoparaqueoeixohorizontal
exprimaamaiorvariabilidade

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Nestecasooprimeiroeixocontmapenas1.25/2x100=62.5%dainformaooriginal.
Desprezandoosegundoeixodesprezarseiam37.5%dainformaoexpressapela
formadospeixes.
Osvaloresprpriosevectoresprpriosdamatrizdecovarinciasooselementos
Os
valores prprios e vectores prprios da matriz de covarincia so os elementos
sobreosquaisassentaamedidadacontribuiodasvariveisoriginaisparaasnovas
variveis.Soporissoachavedosclculosdoscomponentesprincipais(PCA)

19

4ExemplosdeclculodePCA
AanlisedePCAseguenormalmenteospassosseguintes:
1Definirosdadosoriginais,umacolunaporcaracterstica,umalinhaporamostra
2Centrarosdadossubtraindoacadacolunaasuamdia
3 C l l
3Calcularacovarinciadosdadoscentrados,damesmainformaodacorrelao
i i d d d
t d d
i f
d
l

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

4Calcularaosvaloresprprioseosvectoresprpriosdamatrizdecovarincia
p p
p p
5Escolheroscomponenteseformarumabaseortogonal
6Calcularonovoconjuntodedados

20

4ExemplodeclculodePCA
Exemplo1
1Definirosdados
3

2.5

1.5

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

0.5
0.5

1.5

2
X

2.5

3.5

>>Dados=[2.52.4;0.5
0.7;2.22.9;1.92.2;3.1
3.0;2.32.7;21.6;11.1;1.5
1.6;1.10.9]]
Dados=
2.50002.4000
0 5000 0 7000
0.50000.7000
2.20002.9000
1.90002.2000
3 1000 3 0000
3.10003.0000
2.30002.7000
2.00001.6000
1 0000 1 1000
1.00001.1000
1.50001.6000
1.10000.9000
X
XY
Y
[L,C]=size(Dados)

DadosdeATutorialon PrincipalComponent Analysis,Lindsey ISmith,2002

L=10C=2
21

2Ajustarosdadossubtraindoamdiade
j
cadacoluna
1.5

Y Centrado
o

0.5

-0.5

-1

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

-1.5
-1.5

-1

-0.5

0
X centrado

3Calcularacovarinciados
dados centrados
dadoscentrados

0.5

1.5

>>DadosCentrados=Dados
>>DadosCentrados=Dados
repmat(mean(Dados),L,1)
DadosCentrados =
0.6900 0.4900
0.69000.4900
1.31001.2100
0.39000.9900
0.09000.2900
1.29001.0900
0.49000.7900
0.19000.3100
0.81000.8100
0.31000.3100 media=mean(Data)
0.71001.0100 media=[1.81001.9100]

>>Covariancia=cov(DadosCentrados)
Covariancia =
0.61660.6154
0.61540.7166

22

4Calcularaosvaloresprprioseos
vectores prprios da matriz de covarincia
vectoresprpriosdamatrizdecovarincia

>>[V,D]=eig(Covariancia)
V=
0.73520.6779
0.67790.7352
D=
0.04910
01.2840

4 Escolher os componentes e formar base ortogonal


4Escolheroscomponenteseformarbaseortogonal
1componente:ovectorprpriodovalorprpriomaior:[0.67790.7352]
2componente:ovectorprpriodovalorprprioseguinte:[0.73520.6779]

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Ordenamse
Ordenam
seporordemdecrescentedosvaloresprprios.
por ordem decrescente dos valores prprios
Vectordecaractersticas(Features vector):comosvectoresprpriosquese
q
queremreter.Nocasosimplesmenteoprimeiro:[0.67790.7352],i.e,V(:,2)
p
p
( )
EmgeralVectorCaracteristicas= [V1,V2,]

23

5Calcularonovoconjuntodedados
DadosFinais=DadosCentrados*VectorCaracteristicas
ou
DadosFinais Transposta=(VectorCaracteristicas Transposta)*(DadosCentradosTransposta )

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

1Componente
DadosFinais=DadosCentrados*V(:,2)
(, )
DadosFinais=
0.8280
1.7776
0.9922
0.2742
1.6758
0.9129
0.0991
1.1446
0.4380
0 380
1.2238

2Componentes
DadosFinais=DadosCentrados*[V(:,2),V(:,1)]
[ ( , ), ( , )]
DadosFinais=
0.82800.1751
1.77760.1429
0.99220.3844
0.27420.1304
1.67580.2095
0.91290.1753
0.09910.3498
1.14460.0464
0 380 0 0 8
0.43800.0178
1.22380.1627

24

Representao na nova base


Representaonanovabase

Y nova base 2 componentes

1.5
1
0.5
0
-0.5
-1

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

-1.5
-2
-2

-1.5

-1

-0.5
0
0.5
X nova base 2 componentes

1.5

25

Reconstruodosdadosoriginaisapartirdosdadosnanovabase
Fezse:
DadosCentrados=Dadosrepmat(mean(Dados),L,1)
DadosFinais=DadosCentrados*VectorCaracteristicas
DadosFinais=DadosCentrados
VectorCaracteristicas

N
Nosentidoinversofazse:
tid i
f

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

DadosCentrados=DadosFinais*VectorCaracteristicasTransposta
Dados=DadosCentrados+repmat(mean(Dados),L,1)

26

Dados=DadosCentrados+repmat(media,L,1)
Dados=
2.37132.5187
0.60500.6032
2.48262.6394
1 9959 2 1116
1.99592.1116
2.94603.1420
2.42892.5812
1.74281.8371
1.03411.0685
1.51311.5880
0.98041.0103
Reconstruoimperfeita

Casodeumcomponente
p

0.56130.6087
0
5613 0 6087
1.20501.3068
0.67260.7294
0.18590.2016
1.13601.2320
0.61890.6712
0.06720.0729
0.7759
0.77590.8415
0.8415
0.29690.3220
0.82960.8997

3.5

Y reconstrrudo de um s c
comp

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

DadosCentrados=Da
dosFinais*VectorCar
ateristicas1
DadosCentrados=

2.5

1.5

0.5
0.5

1.5
2
X reconstrudo de um s componente principal

2.5

27

Casodedoiscomponentes

0.69000.4900
1.31001.2100
0.39000.9900
0.09000.2900
1 2900 1 0900
1.29001.0900
0.49000.7900
0.19000.3100
0.81000.8100
0.31000.3100
0.71001.0100

Reconstruoperfeita!!!
3.5

Y recons trudo a partir de 2 comp

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

DadosCentrados2=
DadosFinais2*Vecto
rCarateristicas2
rCarateristicas2
DadosCentrados2=

Dados2=DadosCentrados2+
repmat(media,L,1)
p
(
, , )
Dados2=
2.50002.4000
0.50000.7000
2 2000 2 9000
2.20002.9000
1.90002.2000
3.10003.0000
2.30002.7000
2.00001.6000
1.00001.1000
1.50001.6000
1 1000 0 9000
1.10000.9000

25
2.5

15
1.5

0.5
0.5

1.5
2
2.5
X reconstrudo a partir de dois componentes principais

3.5

28

NoMatlab

>>[coefs,scores,variances,t2]=princomp(Data)
[
,
,
, ] p
p(
)

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

PbyPmatrix,eachcolumn
y
containingcoefficients
foroneprincipal
component(vectores
prprios)Thecolumnsarein
order of decreasing
orderofdecreasing
componentvariance.

theprincipalcomponent
variances,i.e.,the
eigenvalues ofthe
covariancematrixofX,in
variances

principalcomponentscores,
principal
component scores
i.e.,therepresentationof
Dataintheprincipal
componentspace.Rows
ofscorescorrespondto
observations,columnsto
b
l
components

Hotelling's
g
Tsquaredstatisticforeach
observationindata
ageneralizationofStudent'ststatistic
thatisusedinmultivariatehypothesis
testing
Hotelling's TSquare: Hotelling's Tsquareisa
statisticforamultivariatetestofdifferences
betweenthemeanvaluesoftwogroups.Thenull
hypothesisisthatcentroid sdon'tdifferbetween
t o ro ps
twogroups.
Hotelling's Tsquareisusedinmultipleanalysisof
variance(MANOVA),andinmultipleanalysisof
covariance(MANCOVA)
(http://www.statistics.com/resources/glossary/h/ho
ttsqr.php)
Implementation of Hotelling's statistics in apatient
positioning protocol clinical experience
http://www.oncozone.net/uploads/pdf/f3886609d6
e0385eea838af602f70e7e.pdf

29

NoMatlab
>>[coefs,scores,variances,t2]=princomp(Data)

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

coefs =
0.67790.7352
0.7352
0.73520.6779
0.6779
scores=
0.82800.1751
1.77760.1429
0.99220.3844
0.27420.1304
1.67580.2095
0.91290.1753
0.09910.3498
1.14460.0464
0.43800.0178
1.22380.1627

Vectoresprpriosde
matrizdecovarincia;
note se que os sinais so
notesequeossinaisso
contrriosaoscalculados
anteriormente:devesea
clculos por diferentes
clculospordiferentes
processos.Datambmo
sinaldiferentedosscores
(dados finais)
(dadosfinais).
Valoresfinais

variances
=
1 2840
1.2840
0.0491
t2=
1 1587
1.1587
2.8766
3.7768
0 4051
0.4051
3.0813
1.2751
2.5009
1.0642
0.1559
1.7056

Valores
prpriosda
p
p
matrizde
covarincia
Hotelling's

30

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Exemplo2

Data

V1

V2

V3

V4

V5

1,53

114,01

0,75

12,65

1,96

0,18

79,53

0,67

13,3

5,28

1,9

105,63

0,85

12,62

1,71

0,91

45,62

0,11

13,14

6,24

1,27

79,48

0,5

12,95

3,61

1,52
,

52,08
,

0,36
,

12,57
,

4,1
,

1,32

83,87

0,58

12,77

2,53

1,04

33,94

0,29

12,85

0,04

0,7

72,94

0,59

12,61

4,94

1,54

34,22

0,3

12,99

3,66

0 75
0,75

50 39
50,39

0 46
0,46

12 68
12,68

6 45
6,45

1,22

35,04

0,21

12,88

2,42

1,31

65,25

0,7

12,76

3,98

0,64

0,16

12,77

3,96

39,65

0,3

12,75

4,12

1,93

74,27

0,71

12,65

2,7

96,93

0,77

12,87

1,32

1,78

65,29

0,39

12,4

1,25

1,71

70,57

0,52

12,46

1,36

0,44

75,09

0,62

12,91

4,63

2,49

124

0,78

13,14

3,71

1,61

101,89

0,66

12,92

3,57

0,75

15,26

0,25

12,46

0,31

0,17

5,05

12,47

1,74

1,13

33,39

0,36

12,75

0,46

1,38

81,35

0,55

13,1

4,49

0,44

34,97

0,23

12,8

4,52

0,47

17,89

0,11

12,71

3,53

1,4

60,57

0,48

12,3

0,92

0 71
0,71

56 68
56,68

0 68
0,68

12 89
12,89

3 79
3,79

Gama

Mnimo

Mximo

Mdia

D
Desvio
i
padro

V1

2.70

0.00

2.70

11.657

0.6602

V2

124.00

0.00

124.00

601.599

317.576

V3

0.85

0.00

0.85

0.4638

0.2320

V4

1.00

12.30

13.30

127.708

0.2350

V5

6.45

0.00

6.45

30.198

18.057

CorrData=corr(Data)
CorrData=
1.00000.63090.55320.03020.3989
0 6309 1 0000 0 8945 0 2464 0 0321
0.63091.00000.89450.24640.0321
0.55320.89451.00000.16690.0457
0.03020.24640.16691.00000.5340
0.39890.03210.04570.53401.0000

Dadosdehttp://www.doembi.ucla.edu/~parag/multivar/pc_eg1.htm 23Fev 2009

31

140

0.9
0.8

120

0.7
100

0.6
80

V3
3

V2

0.5

60

0.4
0.3

40

0.2
20

0.1
0

0.5

1.5
V1

2.5

0.5

1.5
V1

2.5

Scatter(V1,V3)

Scatter(V1,V2)
0.9
13.3

0.8
13.2

0.7

13.1

0.6
0.5
V3

12.9
V4

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

13

12.8

0.4

12.7

0.3

12.6

0.2

12.5

0.1
12.4

0
12.3

0.5

Scatter(V1,V4)

1.5
V1

2.5

20

40

60

80

100

120

140

V2

Scatter(V2,V3)
32

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Centrarosdados
>>DadosCentrados=Datarepmat(media,L,1)
DadosCentrados =
0.365353.84830.28530.12071.0600
0.984719.36830.20530.52932.2600
0.735345.46830.38530.15071.3100
0.254714.54170.35470.36933.2200
0 2547 14 5417 0 3547 0 3693 3 2200
0.105319.31830.03530.17930.5900
0.35538.08170.10470.20071.0800
0.155323.70830.11530.00070.4900
0.124726.22170.17470.07932.9800
0.464712.77830.12530.16071.9200
0.375325.94170.16470.21930.6400
0.41479.77170.00470.09073.4300
0.055325.12170.25470.10930.6000
0.14535.08830.23530.01070.9600
0.524760.16170.30470.00070.9400
1 1647 20 5117 0 1647 0 0207 1 1000
1.164720.51170.16470.02071.1000
0.765314.10830.24530.12073.0200
1.535336.76830.30530.09931.7000
0.61535.12830.07470.37071.7700
0.545310.40830.05530.31071.6600
0.724714.92830.15530.13931.6100
1.325363.83830.31530.36930.6900
0.445341.72830.19530.14930.5500
0.414744.90170.21470.31072.7100
0.994755.11170.46470.30071.2800
0.034726.77170.10470.02072.5600
0.215321.18830.08530.32931.4700
0.724725.19170.23470.02931.5000
0.694742.27170.35470.06070.5100
0.23530.40830.01530.47072.1000
0.45473.48170.21530.11930.7700

>>Covariancia=cov(DadosCentrados)
Covariancia =
1.0e+003*
0.00040.01320.00010.00000.0005
0 0132 1 0086 0 0066 0 0018 0 0018
0.01321.00860.00660.00180.0018
0.00010.00660.00010.00000.0000
0.00000.00180.00000.00010.0002
0.00050.00180.00000.00020.0033
[PC,V]=eig(Covariancia)
PC=
0.03640.03980.98560.15970.0131
0.00710.00100.01310.00020.9999
0.99900.01950.03920.00920.0065
0.02200.99620.05040.06790.0018
0.01370.07530.15600.98480.0018

V=
1.0e+003*
0.00000000
00.0000000
000.000200
0000.00340
00001.0088

Ordemdeimportncia
dosvectoresprprios
V5,V4,V3,V2,V1.

33

[ f
[coefs,scores,variances,t2]=princomp(Data)
i
t2] i
(D t )

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

coefs =
0.01310.15970.98560.03980.0364
0.99990.00020.01310.00100.0071
0.00650.00920.03920.01950.9990
0.00180.06790.05040.99620.0220
0 0018 0 0679 0 0504 0 9962 0 0220
0.00180.98480.15600.07530.0137

Notese novamente o sinal contrrio dos vectores prprios (coefs) em relao aos
calculados no slide anterior . O sentido dos vectores p
prprios
p
diferente num caso
e noutro, o que possvel dado que h um nmero infinito de vectores prprios. O
simtrico de um vector prprio tambm um vector prprio.

34

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Scores
variances=
1008.8
3.4
2.0
0.0
0.0
4
3
2
2 Compo
onente

53.84691.10030.52540.11580.1004
19.35972.42150.85200.37230.0746
19 3597 2 4215 0 8520 0 3723 0 0746
45.47281.41050.09580.13490.0683
14.53923.23660.47380.15740.2083
19.31920.58060.04860.10950.0857
8.07520.99220.61820.28500.0240
23.70760.50280.23740.00340.0539
26.22682.91390.23480.33880.0323
12.77481.95600.33820.30180.0405
25.93340.58060.82590.18520.0466
9 7700 3
9.7700
3.43560.2497
4356 0 2497 0
0.32200.0945
3220 0 0945
25.12070.59590.30430.18270.0802
5.09290.92050.21680.09850.2172
60.16220.99800.42670.01720.1157
20.52381.26460.70310.03280.0469
14.11273.10340.08320.05750.1290
14 1127 3 1034 0 0832 0 0575 0 1290
36.78351.90670.76110.12210.0793
5.13141.86460.24760.26420.1209
10.41111.74100.12480.21790.0282
14.92141.71280.65690.02800.0481
63.85260.50510.58690.19140.0715
41.73210.48870.02000.04290.0735
44.90902.63230.25270.03850.0447
55.12451.13080.45770.09780.1340
26.7745 2.5223 0.0811
26.77452.5223
0.08110.20320.0484
0.2032 0.0484
21.19261.43980.17830.18530.0297
25.19711.59110.14070.02440.0611
42.27760.60230.04250.02080.0744
0.40682.13760.12540.32080.0181
3 4842 0 8362 0 2850 0 0784 0 2364
3.48420.83620.28500.07840.2364

1
0
-1
-2
-3
-4
-80

-60

-40

-20

0
1 Componente

20

40

60

80

scatter(scores(:,1),scores(:,2),'*')

35

3Componente

1
0.5
0
-0.5
-1
4
2

100
50

2
-2
2 Componente

-50
-4

-100
1 Componente

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

scatter3(scores(:,1),scores(:,2),scores(:,3),'*')
(
( , ),
( , ),
( , ), )

36

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

100

100%

90

90%

80

80%

70

70%

60

60%

50

50%

40

40%

30

30%

20

20%

10

10%

Componentes
C
t1 P
Principais
i i i

Varincia exp
plicada

percent_explained=100*variances/sum(variances)
percent_explained =
99.6458
0.3317
0.0180
0.0036
0.0010
Pareto(percent_explained)

0%

Pareto (percent_explained):oprimeirocomponenteprincipalexplica99,65%davarincia

37

5PCAnolinear,(NLPCA):eixoscurvilneos

AlinearidadedoPCApodeseruminconvenienteemmuitosproblemas
seasnovasdimensesfossemmapeamentosnolinearesdasoriginaisobter
seiammelhoresresultadosemmuitoscasosdeinteresse.
lh
l d
d
necessrioparaissoumaferramentageraldemapeamentosnolineares:
umaredeneuronal.
d
l
enquantoquenoPCAoseixossorectilneos,noNLPCAsocurvilneos.

ADC/MIEB/ADAR/2010DEIFCTUC

38

Suponhamosumaarquitecturade5camadascomoaseguinte:
h(X)

g(u)
u

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Entradas
X
X

Sadas
X

Existeumacamadaespecialameio:ogargalo(bottleneck).
Damosredeumconjuntodeentradasequeremosqueassadasasreproduzam,isto,
Damos
rede um conjunto de entradas e queremos que as sadas as reproduzam, isto ,
queremos
target =entrada
X=X

39

Tratasedeumasituaoparecidacomadanossaconhecidamemriaassociativa
para reconhecimento de caracteres As entradas so combinadas por h(x) obtmse
parareconhecimentodecaracteres.Asentradassocombinadasporh(x),obtm
seu,
u
edepoisapartirdeu,usandog(u),voltaseareconstruirXemX,naturalmentecom
algumerro.
Isto,podesereconstruirasvariveisdeentradaXapartirdeumnmeroinferior
devariveisu.esteoprincpiodoPCA:

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

asvariveisusooscomponentesprincipaisnolineares

Dificuldade:
treinodarede,comclculosimultneodetodososcomponentes
garantirqueosnovoseixossonocorrelacionados,ouseja,so
garantir que os novos eixos so no correlacionados ou seja so
ortogonais.
Conveniente:
calcularumcomponentedecadavezparagarantiraortogonalidade.

40

Redebottleneck paraclculodeumcomponentedecadavez

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Entradas

Sadas

Damosredeumconjuntodeentradasequeremosqueassadasasreproduzam,
j
q
q
p
,
isto,treinamolaparaque
target =entrada
X=X
Comumniconeurnionocentro,oerroserconsidervel.Tomaseouque
produzomenorerrocomooprimeirocomponenteprincipal.
Oerroobtido,querepresentaainformaonocontidanoprimeirocomponente,
podeserusadoparaoclculodosegundocomponente,talcomonoPCAlinear.
41

Sriederedesbottleneck paraclculoemsriedoscomponentesnolineares

1componente
(una notao anteriror)

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

2componente

ncomponente

http://www.srireport.com/strage/dissertation/mainse5.html 25Fev2009

Oprimeirocomponentedaprimeiramatrizresidual(diferenaentreaentradaeasadadesejada)osegundo
componentedamatrizdedadosoriginal,eassimsucessivamente.Adimensofinaldosdadosigualao
nmeroderedesusadas.
42

II. Anlise de Factores ((FA,, Factor Analysis)


y )
Numprocessofisiolgico(oudeoutranaturezaqualquer),cadaumadassuasvariveisdepende
demuitosfactores(fsicos,bioqumicos,genticos,etc.).
Seexistealgumacorrelaoentreduasvariveis,podeseadmitirquehumainflunciacomum
nasduas,istohumfactorcomumqueafectasimultaneamenteasduasvariveis.
Poroutroladoseasvariveissodistintashaverfactoresespecficosacadaumadelasqueas
df
diferenciam.

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Aanlisedefactores(FA)umatcnicaquepermiteidentificarosfactorescomuns(latentes,
noobservveisdirectamente)eosfactoresespecficos.
b
i di t
t )
f t
fi
Baseiasenoestudodaspropriedadesestatsticasdoconjuntodedados.

Pesquisaemwww.pubmed.org porfactoranalysisem25Fev 2009deu301000resultados

43

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

EExemplo:
l
Ogabinetedeestudosdemercadodeumafbricadeautomveisquerinvestigaros
factoresquelevamosconsumidoresaescolheremummodeloespecficode
automvelenooutro.Paraissolanouumestudodeopinio,numconjunto
l
P i
l
d d
i i
j
representativodeconsumidores,sobreaimportnciadasseguintes14variveispara
aescolhadeumautomvel,queclassificaramnumaescalanumrica:
CRB custosdereparaobaixos
VC variedadedecoresdisposio
EIA espaointerioramplo
p
p
BC bomconsumo
FM fcildemanejar
DM designmoderno
BM bommotorPRA preoderevendaalto
C confortvel
C
confortvel
AS aparnciasuave
AS
aparncia suave
FC fcildeconduzir
MA modeloatraente
MG malagrande
FE fcildeestacionar

proposto pelo Grupo 1 em 2008 a partir de http://www estv ipv pt/PaginasPessoais/lucas/material/Acetatos%20ACP%20e%20AFC%203%C2%AAparte%20aluno pdf
propostopeloGrupo1em2008apartirdehttp://www.estv.ipv.pt/PaginasPessoais/lucas/material/Acetatos%20ACP%20e%20AFC%203%C2%AAparte%20aluno.pdf

44

difcilavaliar14variveisseparadamenteoudesenvolverplanosdeacotendoemcontatantas
variveis.Emvezdissoseriaidealsabercomopensamosconsumidoresemtermosdedimenses
p
(factores)maisgerais,quenecessariamenteagregaro,cadaumdeles,vriosdestes.
Paraidentificarestasdimensesfoiaplicadaaanlisefactorial,cujosresultadossugeremqueas14
variveispodemsercaracterizadaspor4factores(I,II,IIIeIV)relacionadoscom

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

I conforto
II custo/eficincia
III estilo
IV facilidadedemanipulao

14
variveis

4
factores

(http://www.estv.ipv.pt/PaginasPessoais/lucas/material/Acetatos%20ACP%20e%20AFC%203%C2%AAparte%20aluno.pdf 25Fev 2009)

45

Modelodeanlisefactorial(ortogonal)
Seja
X T = ( X1, X2,...,Xp )
umvectoraleatrio(dep dadosoriginais)demdiaecovarincia
T= ( 1, 2,..., p)
=matriz decovarincia

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Cadavariveloriginaldependedeumacombinaolineardosfactorescomunsedosfactores
Cada
varivel original depende de uma combinao linear dos factores comuns e dos factores
especficos.Centrandocadavarivelnasuamdiapoderemosescrever
X1- 1= l11F1+ l12F2 +...+
... l1mFm +1
X2- 2= l21F1+ l22F2 +...+ l2mFm + 2
.
Xp- p= lp1F1+ lp2F2 +...+ lpmFm + p
Ou,emnotaomatricial:
X-=LF+
(px1) (pxm) (px1)
46

X-=LF+
l11
l
21
L
...

lp1

l12 ... l1m


... ... l2m
... ... ...

lp1 ... lpm

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

FT F1 F2 ... Fm
1 2 ... p
T

- matriz de pesos (loadings) dos factores;

lij

- peso do factor Fj na varivel Xi

- vector de variveis aleatrias no observveis


chamadas factores comuns

- vector de variveis aleatrias no observveis


chamadas factores especficos ou factores
nicos

Noteseque
N
t
no
possivel

i l conhecer
h
nem os factores
f t
comuns nem os factores
f t
especficos,mas apenas assuas mdias evarincias.
47

Noteseque:
i)ofactorespecficoi estassociadoapenascomavarivelXi;
ii)osp desviosX1- 1, X2- 2,..., Xp- p soexpressosemtermosdep+m variveisno
observveis:F1, F2,...,Fm, 1, 2,..., P.

P
Propriedadesdosfactorescomuns,ouseja,dovectorF
i d d d f t
j d
t F

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Asuamdianula

Asuacovarinciaamatriz
identidade garantindo que os
identidade,garantindoqueos
factoressoortonormais.

E( F1 ) 0
E( F ) ... ...
E( Fm ) 0

1
0
Cov ( F )
...

0 ... 0
1 0 0
Im
... ... ...

... 0 1
48

Propriedadesdosfactoresespecficos,ouseja,dovector

Asuamdianula

E(1 ) 0

E( ) ... ...
E( p ) 0

1 0
0
Asuacovarinciaumamatriz
2
diagonal,garantindoqueosfactores Cov ( )
... ...
especficossoortogonais

0 ...

0
0 0

... ...

0 m
...

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Independncia entre os factores comuns e os factores especficos


Independnciaentreosfactorescomunseosfactoresespecficos

Cov (e1 , F1 ) Cov (e1 , F2 )


Cov (e , F ) Cov (e , F )
2
1
2
2
Cov ( , F )

...
...

C (e p , F1 ) C
Cov (e p , F2 )
Cov

... Cov (e1 , Fm )


... Cov (e2 , Fm )
0

...
...

... C
Cov (e p , Fm )
49

X-=LF+
Relaesentreascovarincias

nomodelo

Cov ( X ) LLT
ouseja

Var ( X i ) li21 li22 ... lim2 i

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

comunalidade

Varincia
especfica

Cov ( X i , X k ) li1lk 1 li 2lk 2 ... lim lkm


Cov ( X , F ) L
Cov ( X i , F j ) lij
50

Comunalidade (communality)
(
y)
partedaVar(Xi) quepodeserexplicadapelosfactorescomunseporisso
partilhadacomtodasasoutrasvariveis

Varinciaespecfica

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

parte da Var(Xi)
partedaVar(X

queespecficadeX
que
especfica de Xi equenoestassociadacomoutras
e que no est associada com outras
variveis.Elaindicaatquepontoosfactores comuns
soinsuficientesparaaexplicaodavarinciatotal.

51

Implementaoprtica
1 Recolhemsen observaesdasp variveiscorrelacionadasX1, X2,...,Xp
2 Analisase a estrutura de covarincia ou de correlao dos dados: se a matriz de covarincia (ou
d correlao)
de
l ) for
f quasidiagonal,
i di
l ento
a anlise
li de
d factores
f
no
ter grande
d utilidade
ilid d porque os
dados so quase independentes (no correlacionados).
3 Extraemseosfactoresporumdosvriosmtodospossveis
PCA.Nestecasoosfactorescomunssoosvectoresprpriosdamatrizdecovarincia
mximaverosimilhana(maximum likelihood),comonoMatlab
mnimosquadrticos(comousemponderao)quesoummtododeregresso
i
di
(
d
)

d d

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

outrastaiscomomtodoalfa,principalaxes factorization,etc.
p ca se u
umaa rotao
otao aos factores
acto es de modo
odo que haja
aja u
umaa maior
ao d
diviso
so dos factores
acto es eentre
t e as
4 Aplicase
diversas variveis (isto , cada varivel original deve depender fortemente de alguns factores e
pouco dos restantes). Se assim for conseguese uma melhor explicao para o comportamento das
variveis. Para a rotao existem diversos mtodos:
varimax,maximizaavarinciaemcadaeixo(talcomonoPCA)
quartimax,equamax,eoutros

52

NoMatlab
[Loadings,specificVar,T,stats]=factoran(dataOriginal,NumeroFactores,rotate,metodoRotacao)
Dados
originais

MatrizL
Vector
Vector

Nde
factores
desejado

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

MatrizTde
rotaodeL
Parmetrosde
controlode
qualidade
qualidade
estatstica
(verhelp)
aastructurecontaininginformationrelatingtothenullhypothesisthat
structure containing information relating to the null hypothesis that
thenumberofcommonfactorsisM.STATScontainsthefields
loglike themaximizedloglikelihoodvalue
dfe theerrordegreesoffreedom,((DM)^2 (D+M))/2
chisq theapproximatechisquaredstatisticforthenullhypothesis
p therighttailsignificancelevelforthenullhypothesis

Sequiser
especificar
mtodos de
mtodosde
rotao.Por
defeitoaplica
ovarimax
Mtodode
rotao:
none
none
varimax
promax

53

Exemplos
You may be interested to investigate the reasons why customers buy a product such as a particular brand of soft drink (e.g.
coca cola). Several variables were identified which influence customer to buy coca cola. Some of the variables identified as
being influential include cost of product, quality of product, availability of product, quantity of product, respectability of
product, prestige attached to product, experience with product, and popularity of product. From this, you designed a
questionnaire to solicit customers
customers' view on a seven point scale,
scale where 1 = not important and 7 = very important.
important The results
from your questionnaire are show on the table below. Only the first twelve respondents (cases) are used in this example.
(http://www.ncl.ac.uk/iss/statistics/docs/factoranalysis.php)

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

DataEx2

54

Cov

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Cor

0,63

0,22

0,25

0,40

-0,45

-0,22

0,11

0,22

0,63

0,48

0,08

-0,04

-0,36

-0,20

0,25

0,48

1,66

0,84

-0,70

-1,02

-0,57

0 40
0,40

0 08
0,08

0 84
0,84

0 99
0,99

-0,77
0 77

-0,72
0 72

-0,20
0 20

-0,45

-0,04

-0,70

-0,77

1,36

0,77

0,25

-0,22

-0,36

-1,02

-0,72

0,77

1,36

0,57

0 11
0,11

-0,20
0 20

-0,57
0 57

-0,20
0 20

0 25
0,25

0 57
0,57

0 75
0,75

1,00

0,35

0,24

0,51

-0,48

-0,24

0,17

0,35

1,00

0,47

0,11

-0,04

-0,39

-0,30

0,24

0,47

1,00

0,66

-0,47

-0,68

-0,51

0,51

0,11

0,66

1,00

-0,66

-0,62

-0,24

-0,48

-0,04

-0,47

-0,66

1,00

0,56

0,25

-0,24

-0,39

-0,68

-0,62

0,56

1,00

0,56

0 17
0,17

-0 30
-0,30

-0 51
-0,51

-0 24
-0,24

0 25
0,25

0 56
0,56

1 00
1,00

55

[coefs,scores,variances,t2]=princomp(DataEx2)
Coefs
(vectoresprprios

0,17

0,40

-0,54

0,25

0,01

0,35

-0,58

0,16

-0,31

-0,59

0,44

-0,16

-0,03

0,55

0,55

-0,33

-0,24

-0,56

-0,29

-0,27

-0,25

0,40

0,30

-0,03

-0,40

0,38

0,48

0,47

-0,43
0 43

-0,56
0 56

-0,31
0 31

-0,25
0 25

0 50
0,50

0 25
0,25

-0,18
0 18

-0,50

0,19

-0,21

-0,40

-0,64

0,29

0,17

-0,23

0,45

-0,40

-0,21

0,31

-0,66

0,12

4.1907
4
1907
1.1984
0.7408
0.5143
0 3644
0.3644
0.2535
0.1090

Variances
(valores
prprios)

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Scores
(valores
finais)

0,62
-5,66
2,56
0,26
0,17
1,30
1,58
58
-1
-0,03
-0,01
0,82
0,07
1 46
1,46

1,44
0,30
0,65
0,71
1,95
-0,42
-0
0,70
70
0,28
-1,18
-0,22
-1,68
-1,14
1 14

1,00
-0,48
-0,89
-0,26
-0,40
-1,38
0 12
0,12
1,56
0,60
-0,15
-0,60
0 89
0,89

-0,96
-0,50
0,47
-0,71
0,94
-0,51
1 54
1,54
0,36
-0,20
-0,17
-0,14
-0,11
0 11

-0,09
0,03
-0,34
-0,68
-0,33
0,96
0 10
0,10
0,64
-0,24
1,09
-0,75
-0,39
0 39

-0,63
-0,05
0,12
0,89
-0,16
-0,40
0 06
0,06
-0,22
0,68
0,56
-0,75
-0,12
0 12

0,46
-0,26
-0,14
0,30
-0,36
0,21
0 67
0,67
-0,22
-0,05
-0,21
-0,09
-0,30
0 30

56

noVisRedIII
Pareto
1

0.7

0.9
0.6

0.5

0.7
0.6
0.5

Eigenvalues
Cumul. EigenVal
g

0.4
0.3

Eige
enValues

Cumulativ
ve EigenValue
es

0.8

0.4

0.3

0.2

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

0.2
0.1
0.1
0

1
2
3
4
5
Principal Component

2
4
6
Principal Component

57

Dois componentes

[[Loadings,specificVar,T,stats]=factoran(DataEx2,2)
g, p
,,
]
(
, )
Loadings

0,08
-0,39
0 39
-0,69
-0,39
0,33
0 74
0,74
0,82

0,71
0 11
0,11
0,45
0,79
-0,67
-0,43
0 43
0,10

SpecificVar

0,49
0 83
0,83
0,32
0,23
0,44
0,27
0,31

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

0,740,68
0,680,74

stats =
loglike:0.7936
loglike:
0.7936
dfe:8
chisq:5.1582
p
p:0.7405
Demasiadogrande

58

[Loadings,specificVar,T,stats]=factoran(DataEx2,3)
Loadings=
0.21490.89400.3869
0.28910.04770.9535
0.74780.34770.2456
0.50230.72290.0776
0.38020.67820.1059
0.73900.37390.1614
0.69230.06490.1060

specificVar =
0.0050
0.0050
0.2596
0.2191
0.3843
0.2881
0.5053

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

T=
0.89590.32860.2991
0.05770.58130.8116
0.44050.74440.5018

Trs componentes

Communalities =
1,00
1,00
0,74
0,78
0,62
0,71
0 49
0,49

stats=
loglike:0.1494
df
dfe:3
Warning:Someuniquevariancesare
zero:cannotcomputesignificance.

59

Notasobremtodosderotao
Quartimax rotationisaformoforthogonalrotationusedtotransformvectors
associated with principal component analysis or factor analysis to simple structure It is
associatedwithprincipalcomponentanalysisorfactoranalysistosimplestructure.Itis
aspecialcaseoforthomax rotation,whichmaximizesthesumsofsquaresofthe
coefficientsacrosstheresultantvectorsforeachoftheoriginalvariables,asopposedto
varimax,whichmaximizesthesumsofsquaresofthecoefficientswithineachofthe
resultantvectors.Anumericalexampleisincludedtoshowacasewherequartimax
mightbepreferredtothecommonlyusedvarimax.
Enciclopedia of Biostatistics http://mrw.interscience.wiley.com/emrw/9780470011812/home/
http://mrw interscience wiley com/emrw/9780470011812/home/

25 fev 2009
25fev

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Equamax maximizesaweightedsumofthevarimax andquartimax criteria,reflectinga


concern for simple structure within variables as well as within factors
concernforsimplestructurewithinvariablesaswellaswithinfactors.

No fundo
N
f d os mtodos
t d de
d rotao,
t convenientemente
i t
t escolhidos,
lhid do
d ao utilizador
tili d a
possibilidade de seleccionar a representao final que lhe d maior informao de
um modo mais intuitivo.

60

III. Anlise de Varincia(ANOVA,


(
, ANalysis
y Of VAriance))
Obj ti
Objectivo
analisardiferenasentremdiasdepopulaes.
li dif
t
di d
l

Amostra1
n indivduos

Amostra2
n indivduos

Mdi
Mdiam1
1

Mdi
Mdiam2
2

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Mdi t t l
Mdiatotal
Paratestarosignificnciaestatsticaentreasmdias,analisamseasvarincias
das amostras Da o seu nome
dasamostras.Daoseunome.
Avarinciatotaldecompostaemvarinciasdentrodecadaamostraetotal
Um stio muito bom para estatstica: http://www statsoft com/textbook/stathome html?stbasic html&1
Umstiomuitobomparaestatstica:http://www.statsoft.com/textbook/stathome.html?stbasic.html&1

61

Exemplo
Adaptado de http://www statsoft com/textbook/stathome html?stbasic html&1
Adaptadodehttp://www.statsoft.com/textbook/stathome.html?stbasic.html&1

Observao1
Observao 2
Observao2
Observao 3
Mdia
Somados
quadrados dos
desvios em cada
grupo (SSE)

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Mdia global
Somadetodos
Soma
de todos
os desvios
quadrticos (SST)

Grupo1(n=3)

Grupo2(n=3)

2
3
1

6
7
5

4
28
(42)2+(43)2+(41)2+(46)2+(47)2+(45)2

Partiodavarinciatotal(SST=28)
varinciainternaaosgrupos
SSE=SSE1+SSE2=2+2=4
chamaseerro enose
podeexplicar(aleatrio).
varinciadevidadiferenadas
i i d id dif
d
mdiasSSG=SST 4=284=24
chamaseefeito (effect)e
explicado pela pertena aos
explicadopelapertenaaos
grupos.

Secalcularmosavarincia(SS)combasenosdesviosdentrodecadagrupo,obtmseumvalormuito
menordoqueseofizermosusandotodososdesvios,independentementedosgrupos.Deveseao
factodeasmdiasdentrodecadagruposeremmuitodiferentes.Seelasfossemmuitoprximas
ento a varincia de grupo seria tambm prxima da varincia global
entoavarinciadegruposeriatambmprximadavarinciaglobal.
62

Hiptesede(diferena)nula,null hypothesis:adiferenaentreasmdiasnula(os
doisgrupostmamesmamdia)
g p
)
Serverdade?

ANOVAdresposta

ResultadodeumaANOVAnoexemploanterior
TesteF,severdadeF=1
,
QuantomaiorF,maisfalso

EFEITO PRINCIPAL
EFEITOPRINCIPAL
SS

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Efeito
Erro

24.0
4.0

Grausdeliberdade
Graus
de liberdade
entregrupos:n
grupos1
g1=21

df

MS=SS/df

1
4

F=MSG/MSE

24.0

.008

MSG=24.0
MSE=1.0

readacaudadadistribuio
diminuiseFaumenta

Grausdeliberdade
dentrodosgrupos:
ngruposx(namostras
decadagrupo1)
gg.(n1)=2.(31)
( ) ( )
63

Aestatstica dotesteF segueumadistribuiodotipodafigura.Normalmente procura


seevitarumacaudamaiordoque0,05,aquecorrespondeumvalorcrticodeF,
Fcrit ,, quedependedonmerodegrausdeliberdadeemcausa.

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

graus de liberdade v1= 10 e v2 = 10

http://www.itl.nist.gov/div898/handbook/eda/section3/eda3673.htm 28Fev 2009

64

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

TabeladeF

NoexemploanteriorF
No
exemplo anterior Fcrit =7,709(v1=1,v2=4).Paravaloresinferioresverificasea
7 709 (v1 1 v2 4) Para valores inferiores verifica se a
hiptesenula.Paravaloressuperioresrejeitaseahiptesenula.
65

TABELADAANOVA(comumfactor)

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

g grupos,n elementosporgrupo
Fontede
Variao

Somados
quadrados

Grausde
liberdade

Mdia dos
quadrados

F
observado

Caudapda
p
distribuio

Efeito (entre
grupos)

SSG

g1
g1

MSG

MSG/
MSE

Erro (dentro
dosgrupos)

SSE

g(n1)
g(n
1)

MSE

Total

SST

gn1

Significnciaestatstica
66

Resumo da utilidade da ANOVA:


Testar a significncia estatstica da diferenas entre as mdias de grupos (ou de
variveis). Particionase a varincia total em duas partes: a que se deve ao erro
aleatrio
l i (dentro
(d
d grupos)) e a que se deve
dos
d
diferenas
s
dif
entre as mdias.
di Estas
E
componentes sujeitamse depois a um teste de significncia estatstica; se forem
significantes, rejeitase a hiptese de diferena nula entre as mdias (hiptese de
n lo) , e aceitase
nulo)
a eita se a alternativa
alternati a de que
q e as mdias de cada
ada grupo
r po so diferentes
entre si, e que estas diferenas se devem a uma causa (ao factor).

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Variveisdependenteseindependentes(oufactores)

Notrabalhoexperimentalchamamse
variveisdependentessrecolhidasexperimentalmente(medidas)
variveis dependentes s recolhidas experimentalmente (medidas)
variveisindependentes,oufactores,squesepodemmanipularpara
provocar os resultados experimentais
provocarosresultadosexperimentais.
67

Twoway ANOVA (quando temos dois ou mais factores)


Exemplo(adaptadodehttp://www.celiagreen.com/charlesmccreery/statistics/anova.pdf):

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Alguns antihistamnicos provocam sonolncia,


sonolncia em consequncia do seu efeito no sistema nervoso
central. A frequncia de vacilao (flicker), alguns momentos aps a administrao do antihistamnico,
permite estimar a sonolncia de um indivduo. Na tabela indicamse essas frequncias no caso de 4
individuos a q
quem foram administrados dois antihistamnicos e um p
placebo, a fim de investigar
g o
efeito dos antihistamnicos.

Indivduo
N

Meclastina
G1

Promethazina
G2

Placebo
G3

112

112

131

48

37

61

106

93

112

51

46

70

Frequncia(crtica)devacilaoflicker.Umsujeitoobservaumalmpadavacilante(intermitente).Aumentandoafrequnciadevacilaohumaapartirdaqual
almpadaobservadacomoseestivessenumestadocontnuo(acesa);essaacrtica.Numindivduovariacomasonolncia.

68

AaplicaodaANOVAsegueamesmafilosofiadocasodeumfactor.
Havendoagoramaisfactores,necessriofazermaisclculos.
Havendo agora mais factores necessrio fazer mais clculos
Permitirdistinguirainflunciadecadafactor,comprocessamento
estatstico adicional
estatsticoadicional.
Natabeladedadosexistemllinhaseccolunas(c>=2).

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Osefeitosentregruposconsideramsesegundo
aslinhas(gruposporlinha),
ascolunas(gruposporcoluna).
(g p p
)
Asignificnciaestatsticaobtidaobtmsequerparaosgruposporlinha
querparaosgruposporcoluna.

69

TABELADAANOVA(2factores,twoway)
g grupos,n elementosporgrupo

FontedeVariao

Somados
quadrados

Grausde
liberdade

Mdia dos
quadrados

F
observado

Caudapda
distribuio

Efeito(entre
grupos)porlinha

SSL

l1

MSL

MSL/
MSE

SSC

c1

MSC

MSC/MSE

Erro(dentrodos
grupos)

SSE

g(l1)(c1)

MSE

Total

SST

g(l1)(c1)+l
1+c1

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Efeito(entre
grupos)por
coluna

Significnciaestatstica
70

Osdadostmllinhaseccolunas.

Comopreenchera
tabela

1 calculamseasmdiasporlinhaseasmdiasporcolunas.
2a)calculaseavarinciatotaldetodasasobservaes,ST;
b)calculaseasomadosquadradosdosdesviostotais,SST,multiplicandoaST
pelonmerototaldeamostrasmenosuma.
l
t t ld
t

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

3 Clculosporlinha:
(i) Calcular a varincia das mdias por linha SL;
(i)Calcularavarinciadasmdiasporlinha,SL;
(ii)calculaseoerroquadrticomdioporlinhas(LMS)multiplicandoSLporc
(nmerodecolunas);
(iii) calcular a soma dos quadrados por linha SSL multiplicando LMS por (l1)
(iii)calcularasomadosquadradosporlinha,SSL,multiplicandoLMSpor(l1)
4 Clculosporcoluna:
(i) Calcular a varincia das mdias por coluna SC;
(i)Calcularavarinciadasmdiasporcoluna,SC;
(ii)calcularseoerroquadrticomdioporcolunas(CMS)multiplicandoSCpor
l(nmerodelinhas);
( )
(iii)calcularasomadosquadradosporcoluna,SSC,multiplicandoCMSpor(c1).
q
p
,
,
p
p ( )
5 Calcularasomadoserrosquadrticosdoerro,SSE=SSTLSSCSS.
6 Calcularoerromdiaquadrtico,MSE=SSE/((c1)(l1)).
7 PreencheratabelaANOVA,calculaosvaloresdeF,evernatabelaseesto
acimadoFcrtico.(adaptadodehttp://www.celiagreen.com/charlesmccreery/statistics/anova.pdf)
71

Temosagoradoisefeitos:
porlinha,dossujeitos
por linha dos sujeitos
porcoluna,dosremdios

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

FontedeVariao

Somados
quadrados

Mdia
Mdi
Grausde dos
liberdadequadrado
s

F
F
observado

Caudapda
distribuio

Efeitoporlinha
(entreindivduos)

10780,25

3593,42

264,55

Efeitoporcoluna
(entreremdios)

957,17

478,58

35,23

Erro(dentrodos
grupos)

81,50

13,58

Total
Total

11818 92
11818,92

11 00
11,00

Para graus de liberdade 2 (numerador) e 6 (denominador) o F crtico 5,786 muito abaixo de


35,23.
,
Portanto os remdios tm um efeito significativo.
g
Para o efeito dos indivduos teremos F
crtico 4,757 muito longe de 264,55; por isso os indivduos influenciam muito os resultados,
bastante mais do que os remdios.
72

MANOVA(Multivariate ANOVA)
Duasoumaisvariveisdependentescorrelacionadas
Analisaoefeitodasvariveisindependentesnasdependentes

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Procurainteracesentreasvariveisindependenteseasassociaesentre
P
i t

t
i i i d
d t
i
t
asvariveisdependentes.
Acorrelaoentreasvariveisimplicaquetenhamqueseconsiderarnosas
varinciasmastambmascovarincias.

73

ANOVAnoMatlab

One way Anova

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

pde
hiptese
nula

Tabelados
valores
resultantes

Informao
estatstica

Tabelados
dados

Two way Anova


74

Two way Anova

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

pde
hiptese
nula

Tabelados
valores
resultantes

Informao
estatstica

Tabelados
dados

n way Anova :anovan


nway
: anovan
75

Bibliografia

(paraalmdasrefernciasnosslides)

Daszykowski,M.;Walczak1,B.;Massart,D.L.;Ajourneyintolowdimensionalspaceswithautoassociativeneuralnetworks;
y
j
y
p
Talanta,Volume59, Number6,1May2003,pp.10951105(11),Elsevier,2003
Doncaster,C.Patrick,Andrew,JHDavey,AnalysisofVarianceandCovarianceHowtoChooseandConstructModelsfortheLife
Sciences,CambridgeUniversityPress,2007
Hsieh,W.W.;,NonlinearMultivariateandTimeSeriesAnalysisbyNeuralNetworkMethods;2004Rev.Geophys.,42,RG1003,
Hsieh
W W ; Nonlinear Multivariate and Time Series Analysis by Neural Network Methods; 2004 Rev Geophys 42 RG1003
doi:10.1029/2002RG000112.
Kramer,M.,Nonlinear PrincipalComponent Analysis using Autoassociative NeuralNetworks,AIChE Journal,Vol.37,No.2,1991
Martinez,W.L.;Martinez,A.R.,ExploratoryDataAnalysiswithMATLAB;Chapman&Hall,2004
Matlab Statistics Toolbox 7http://www.mathworks.com/products/statistics/

ADC/MIEB
B/ADAR/2010D
DEIFCTUC

Morgado Lionel eSusanaSilva,DEI/FCTUCapresentaosobreomesmotemaem2008.


Morgado,Lionel
e Susana Silva DEI/FCTUC apresentao sobre o mesmo tema em 2008
Shlens,J.,ATutorialon PrincipalComponent Analysis,2005http://www.snl.salk.edu/~shlens/pub/notes/pca.pdf
Smith,L.I.,AtutorialonPrincipalComponentAnalysis;2002;
htt //
http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf
t
/
453/ t d t t t i l / i i l
t df
Suhr,D.D.,PrincipalComponentAnalysisvs.ExploratoryFactorAnalysis;2003http://www2.sas.com/proceedings/sugi30/203
30.pdf

76

Você também pode gostar