Pca Acp PDF

by: Simone Vasconcelos e P\VHOI
$QiOLVHGH&RPSRQHQWHV3ULQFLSDLV3&$
,QWURGXomR
A DQiOLVH GRV FRPSRQHQWHV SULQFLSDLV - $&3 ou 3&$ (do ingls 3ULQFLSDO

&RPSRQHQW$QDO\VLV) um mtodo que tem por finalidade bsica, a anlise dos dados
usados visando sua reduo, eliminao de sobreposies e a HVFROKDGDVIRUPDVPDLV
UHSUHVHQWDWLYDVGHGDGRVDSDUWLUGHFRPELQDo}HVOLQHDUHVGDVYDULiYHLVRULJLQDLV.
tambm chamado de 7UDQVIRUPDGD'LVFUHWDGH.DUKXQHQ/RqYH(KLT) ou

ainda 7UDQVIRUPDGD +RWHOOLQJ, em homenagem a Kari Karhunen, Michel Love
[1907-1979] e Harold Hotelling Ela WUDQVIRUPD YDULiYHLV GLVFUHWDVHP FRHILFLHQWHV
GHVFRUUHODFLRQDGRV. Foi derivada por +RWHOOLQJ e por ele denominada como 0pWRGR
GRV&RPSRQHQWHV3ULQFLSDLV
Anlise de Componentes Principais (PCA) um dos mtodos estatsticos de

mltiplas variveis mais simples. A PCA considerada a WUDQVIRUPDomROLQHDUyWLPD,
dentre as transformadas de imagens, sendo muito utilizada pela comunidade de
reconhecimento de padres.
&RPSRQHQWHVSULQFLSDLV3&V
A anlise de componentes principais (PCA) uma maneira de identificar a

UHODomRHQWUHFDUDFWHUtVWLFDVH[WUDtGDVGHGDGRV. bastante til quando os vetores de
caractersticas tm muitas dimenses, quando uma representao grfica no possvel,
mas tambm pode ser til em dimenses menores, como mostra a Figura 1.
A FRPSRQHQWH SULQFLSDO o arranjo que melhor representa a distribuio dos

dados (linha vermelha na Figura 1) e a FRPSRQHQWH VHFXQGiULD perpendicular a
componente principal (linha azul na Figura 1).
Figura 1 - Linha vermelha mostra a distribuio principal dos dados e a linha azul
mostra a componente secundria.
Os SDVVRV para calcular as componentes principais so:
REWHU os dados ou as 0 amostras de vetores de dimenso Q;
calcular a PpGLD ou o YHWRUPpGLR destes dados;
VXEWUDLUDPpGLD de todos os itens de dados;
calcular a PDWUL]GHFRYDULkQFLD usando todas as subtraes. Ela o resultado

da mdia do produto de cada subtrao por ela mesma e ter dimenso QxQ;
calcular os DXWRYDORUHV e DXWRYHWRUHV da matriz de covarincia.
arranjar os a PDWUL]GD7UDQVIRUPDGDGH+RWHOOLQJ (cujas linhas so formadas

a partir dos autovetores da matriz de covarincia arranjados de modo que a
primeira linha, o elemento (0,0), seja o auto vetor correspondente ao maior
autovalor, e assim sucessivamente at que a ltima linha corresponda ao menor
autovalor.
O DXWR YHWRU com o maior DXWRYDORU associado, corresponde componente

principal do conjunto de dados usado. Isso significa que essa o relacionamento mais
significativo entre as dimenses dos dados. A Figura 1 ilustra esse ponto.
As componentes principais podem ento ser usadas conforme a maneira

desejada. Seja apenas para visualizao, para aquisio de imagens de objetos 2D de
acordo com o melhor posicionamento da cmera ou reconhecimento das principais
caractersticas de medidas a serem usadas.
0DWUL]GHFRYDULkQFLD
Em estatstica, existem vrias anlises que podem ser feitas sobre um conjunto
de dados, como a PpGLD aritmtica, o GHVYLR SDGUmR e a YDULkQFLD. Os dois ltimos
medem o quanto os dados esto afastados em relao a mdia (a varincia igual ao
quadrado do desvio padro).
Todas essas medidas, porm, consideram separadamente cada tipo de dados. Por
sua vez, a FRYDULkQFLD sempre medida entre duas dimenses (calcular a covarincia
entre uma dimenso e ela mesma resulta na varincia). A frmula da covarincia para
dados de dimenso 2 (; e <) :
Na frmula acima, ; e < so listas de dados, onde ; a primeira e < a segunda

dimenso. Os elementos com uma barra sobre eles, ; e < , so as mdias das listas. ; e
< so cada um dos elementos das listas nas duas direes ; e < , na i-sima posio. A
varivel Q representa o nmero de itens de dados obtidos. Quando os dados representam
uma amostra (que inicia no ndice 0), usa-se Q no denominador e no somatrio.
Quando os dados representam o conjunto total da populao, usa-se simplesmente Q
no denominador.
Se os dados tiverem mais de duas dimenses, necessrio ter a covarincia entre

cada par de dimenses. A partir dessa idia, surge a matriz de covarincia. Se forem
usadas trs dimenses ([\ e ]), a matriz de covarincia ter este formato:
A diagonal principal da matriz contm as varincias e as demais posies a

correlao entre as direes. Essa matriz simtrica e real, de modo que sempre
possvel encontrar um conjunto de autovetores ortonormais (Anton e Rorres,2004).
Para 0 amostras de vetores em um conjunto qualquer, o YHWRUPpGLR pode ser

calculado de:
1
P = [

0

=1

Assim supondo que se tenha 4 amostras de um conjunto de vetores de

caractersticas 3D, que correspondem a 3 caractersticas de texturas medidas de 4
imagens: probabilidade mxima, uniformidade,e momento de diferena de ordem 3.
Suponha tambm que estes valores para cada uma dos 4 imagens seja:
0 1 1 1

[1 = 0 ; [2 = 0 ; [3 = 1 ; e [4 = 0

0 0 0 1
O vetor mdio destas medidas ser:
3 / 4
P = 1 / 4

1 / 4
Para calcular a PDWUL]GHFRYDULkQFLD subtrai-se cada [ de P . E usando todas

as subtraes calcula-se o produto de cada subtrao por ela mesma. A PDWUL] GH
FRYDULkQFLD o resultado da mdia desta soma.
Para os dados acima se tem:

3 / 4 1/ 4 1/ 4 1/ 4
[1 P = 1 / 4 ; [2 P = 1 / 4 ; [3 P = 3 / 4 e [4 P = 1 / 4

1 / 4 1 / 4 1 / 4 3 / 4
O produto de cada um destes vetores por ele mesmo resultar cada um em uma
matriz 3x3, dada por ([ P ) ([ P ) . No exemplo em questo teremos as seguintes

matrizes respectivamente:
9 / 16 3 / 16 3 / 16
([1 P )([1 P ) = 3 / 16 1 / 16 1 / 16 ;

3 / 16 1 / 16 1 / 16
1 / 16 1 / 16 1 / 16
([2 P )([2 P ) = 1 / 16 1 / 16 1 / 16 ;

1 / 16 1 / 16 1 / 16
1 / 16 3 / 16 1 / 16
([3 P )([3 P )

= 3 / 16 9 / 16 3 / 16 e
1 / 16 3 / 16 1 / 16
1 / 16 1 / 16 3 / 16
([4 P )([4 P ) = 1 / 16 1 / 16 3 / 16

3 / 16 3 / 16 9 / 16
De modo que a PDWUL]GHFRYDULkQFLDdestes valores ser:
12 / 16 4 / 16 4 / 16 3 / 16 1 / 16 1 / 16
1
(& ) = 4 / 16 12 / 16 4 / 16 ou (& ) = 1 / 16 3 / 16 1 / 16

4

4 / 16 4 / 16 12 / 16 1 / 16 1 / 16 3 / 16
Neste exemplo todos os elementos da diagonal principal so iguais, o que indica

que os 3 elementos do vetor de caracterstica usado tm mesma varincia. Todos os 3
elementos so correlacionados. Os elementos 1 e 3 do vetor de caracterstica usado tm
correlao positiva, enquanto que os elementos 2 e 3 so negativamente
correlacionados.
Este exemplo numrico da obteno da matriz de covarincia a partir do

conhecimento de 4 medidas das coordenadas 3D de um objeto apresentado em
Gonzalez e Wood (2000) na (seo 3.6).
O exemplo de clculo acima pode ser facilmente estendido para o clculo da

matriz de covarincia em 3D com qualquer nmero de medidas. Tambm facilmente
estendido para casos de vetores com mais de 3 dimenses. Se estes tiverem 4 dimenses
a matriz ser 4x4, se tiverem 5 dimenses a matriz ser 5x5, e tiverem Q dimenses a
matriz ser Q xQ .
A matriz de covarincia para 0 amostras de vetores em um conjunto qualquer,

com YHWRUPpGLR P pode ser calculado de:

1
& = [ [ P P

0

=1

A matriz da covarincia UHDOHVLPpWULFDSendo sempre possvel encontrar um

conjunto de Q autovalores e correspondentemente autovetores ortonormais (Anton e
Rorres , 2004).
$XWRHVSDoRVDXWRYHWRUHVHDXWRYDORUHV
Diz-se que um vetor Y um DXWRYHWRU de uma matriz quadrada 0 se 0 Y

(multiplicao da matriz 0 pelo vetor Y) resulta num mltiplo de Y, ou seja, em OY( ou
na multiplicao de um escalar pelo vetor). Nesse caso, O o chamado DXWRYDORU de 0
associado ao DXWRYHWRU Y.
Quando se fala em DXWRYHWRUHV, subentende-se autovetores de comprimento 1,

(no nulos) j que a propriedade desejada apenas a direo do vetor.
Uma propriedade dos autovetores que eles so perpendiculares (ortogonais)

entre si. Essa propriedade importante porque torna possvel expressar os dados em
termos dos autovetores, em vez de em termos dos eixos [, \ e ].
Para matrizes de dimenses 2 2 ou tambm 3 3, os autovalores podem ser

calculados usando a HTXDomRFDUDFWHUtVWLFD de 0:
Onde , a matriz identidade, 0 a matriz dada e os escalares no nulos, Oque a

solucionam sero os DXWRYDORUHVPor exemplo, no caso de uma matriz 0 2 2:
Resulta numa equao de 2 grau, cujas razes podem ser calculadas e

substitudas no sistema abaixo para encontrar os DXWRYHWRUHV correspondentes a cada
DXWRYDORU:
No caso de dimenses maiores, ou para algoritmos genricos para qualquer

nmero de dimenses, o usual aplicar um algoritmo numrico iterativo. O ltimo
passo ordenar os autovetores de acordo com os autovalores de maior valor
(principais).
Equivalentemente, os DXWRYHWRUHV associados aos DXWRYDORUHV sero os vetores

no-nulos no espao soluo de (O,0Y Este espao chamado de DXWRHVSDoR
de0associado a OAs bases para cada um destesDXWRYHWRUHVso chamadas deEDVHV
GHDXWRHVSDoR
Como exemplo ilustrativo considere que antes da captura definitiva da imagem

de um objetos tenha-se pr-capturado FRQMXQWRV GH FRRUGHQDGDV [\] aleatrias
deste objeto por VRQDU. Estas coordenadas foram usadas em uma anlise prvia para
posicionamento para a captura definitiva das suas coordenadas. Se a matriz de
covarincia obtida a partir desta anlise previa :
0 0 2
0 =& = 1 2 1

1 0 3
Qual seria seus auto-espaos associados e suas auto-bases?
A HTXDomRFDUDFWHUtVWLFD de 0 :
O O O

Ou na IRUPDIDWRUDGD:
OO

De modo que seus autovalores so O eO E, portanto temosDXWRHVSDoRVGH0
Por definio vetor Y um DXWRYHWRU da matriz quadrada 0se e somente seY soluo
no trivial de :
(O,0Y
Assim neste exemplo teremos que achar as solues de:
0 0 2 [1 0
1 2 1 [2 = 0 para os dois autovalores O eO
1 0 3 [3 0
Para O temos autovetores na forma:
2V 1 0 1 0
Y1 = W = V 0 + W 1 e como 0 H 1 so linearmente independentes formam

V 1 0 1 0
uma EDVHGRDXWRHVSDoR associado a O
Para O temos autovetores na forma:
2V 2 2
Y2 = V = V 1 eportanto 1 uma EDVHGRDXWRHVSDoR associado a O

V 1 1
Dois resultados importantes da OJHEUD /LQHDU VmR (Anton e Rorres,2004, p.

246):
6H uma matriz Q[Q tem Q autovalores linearmente independentes HQWmR ela

GLDJRQDOL]iYHO. Se uma matriz GLDJRQDOL]iYHO ento ela tem Q autovalores
linearmente independentes que sero os VHXVHOHPHQWRVGDGLDJRQDOSULQFLSDO.
Os procedimentos para diagonalizar uma matriz M correspondem a seguir os

passos abaixo:
1- Encontrar seus autovetores linearmente independente:Y Y Y

2-Formar uma Matriz3com estes vetores como colunas.
3- O produto 3 0 3 ser uma matriz diagonal, com elementos iguais aos

autovalores na diagonal principal.
0 0 2
Vamos usar estes passos para diagonalizar a 0 = & = 1 2 1 , da qual j

1 0 3
1 0 2
calculamos os 3 autovetores : 0 H 1 associados a O H 1 associado a O

1 0 1
Como os 3 soOLQHUPHQWHLQGHSHQGHQWHVisto no mltiplos ou resultado da soma

de uns dos outros, o passo 1, j esta feito.
A matriz do passo 2 :
1 0 2
3 = [Y1 Y2 Y3 ]= 0 1 1 que pode ser usada para diagonalizar M.
1 0 1
Confira fazendo as contas:
1 0 2 0 0 2 1 0 2 2 0 0
3 0 3 = 1 1 1 1 2 1 0 1 1 = 0 2 0
1
1 0 1 1 0 3 1 0 1 0 0 1
No processo de diagonalizao no existe uma ordem preferencial para as

colunas de O, se a ordem dos autovalores fosse outro o resultado seria outro mas ainda
diagonalizando a matriz. Mas o mesmo no acontece para a 7UDQVIRUPDGD GH
+RWHOOLQJela tem que sempre ser feita em ordem decrescente de autovalores.
7UDQVIRUPDGDGH+RWHOOLQJ
Como a matiz da covarincia UHDOHVLPpWULFD, sempre possvel encontrar um

conjunto de Q auto vetores ortonormais (Anton e Rorres , 2004). Considere que estes Q
autovetores sejam arranjados de modo decrescentes de acordo com os valores dos Q
auto valores. Isto vamos chamar de H o auto vetor correspondente ao maior autovalor,
chamaremos de O e que vamos chamar de H o auto vetor correspondente ao segundo

maior autovalor, O ;e assim sucessivamente de modo que vamos chamar de H

o auto
vetor correspondente ao menor autovalor, que chamaremos de O

.
Considere uma matriz, $, cujas colunas sejam os autovetores de & ordenados
como falado no pargrafo anterior. E considere uma transformao definida por esta
matriz como
\ $[P

Ela vai mapear os valores [, em valores \, cuja mdia ser zero, isto P , e cuja
PDWUL[GHFRYDULkQFLDdos\ pode ser obtida de$e& por:

& $& $

Esta matrix & diagonal e tem elementos ao longo da diagonal principal que
so os autovalores de& . Assim & ser:

1 0 0
0 0 ......
2
0 0 3
(& )=
"
..... 0 0

.... 0 2 0 !
0 0 1

!

Como os elementos fora da diagonal principal de & so zeros, os elementos dos

vetores \ so descorrelacionados. Como os elementos da diagonal de uma matriz

diagonal so seus autovalores, segue que & e & possuem RV PHVPRV DXWRYDORUHV H

DXWRYHWRUHV (Anton e Rorres,2004).
A transformao representada pela equao (1)
\ $[P

chamada de7UDQVIRUPDGDGH+RWHOOLQJ
A nica diferena entre esta com a matriz$e a3da seo anterior, que diagonaliza a
matriz & , a ordenao dos autovetores e autovalores, que esto presentes na

7UDQVIRUPDGDGH+RWHOOLQJ
Assim no exemplo numrico dosSRQWRVGRVRQDUque estamos considerando, o efeito

do uso da equao (1) ou da 7UDQVIRUPDGDGH +RWHOOLQJ o estabelecimneto de um
QRYRVLVWHPDGHFRRUGHQDGDVcujaRULJHPser oFHQWUyLGHGRconjunto de pontosR
YHWRU GH PpGLD e cujos HL[RV estaro na direo dos DXWRYHWRUHV GH & Esta

LQWHUSUHWDomR JHRPpWULFD mostra claramente que o HIHLWR GD 7UDQVIRUPDGD GH

+RWHOOLQJ a obteno de umDOLQKDPHQWRGRVDXWRYHWRUHVporURWDomRGRVLVWHPDGH
HL[RV. Este alinhamento o PHFDQLVPR que GHVFRUUHODFLRQD RV GDGRV. Alm disso,
cada autovalor indica a YDULkQFLDdo componente \ ao longo do autovetor Y .
# #
A idia de alinhar objetos desempenha um papel muito importante na Anlise de

Imagens, no Reconhecimento de Padres e objetos e na Viso de Mquina. Depois que
os objetos so extrados, ou segmentados das imagens extrai-se caractersticas para seu
reconhecimento, a maioria deles muito sensvel ao ngulo que a direo entre os eixos
da cmera e os eixos do objeto fazem. A utilizao da direo adequada evita muitos
erros posteriores.
$QiOLVHGH&RPSRQHQWHV3ULQFLSDLV3&$
A PCA consiste em promover uma transformao linear nos dados de modo que
os dados resultantes desta transformao tenham suas componentes mais relevantes nas
primeiras dimenses, em eixos denominados principais. As figuras abaixo ilustram um

conjunto bidimensional e o mesmo conjunto aps a aplicao da PCA.
Figura 2 - Conjunto de dados
Figura 3 - Conjunto de dados aps a PCA.
A matriz de transformao utilizada para o clculo da PCA consiste em uma

matriz cujas colunas so os autovetores da matriz de covarincia estimada dos dados.
A matriz de transformao utilizada para o clculo da PCA consiste em uma

matriz cujas linhas so os autovetores da matriz de covarincia estimada dos dados. A
matriz de covarincia p XPD PDWUL] VLPpWULFD H GHILQLGD SRVLWLYD TXH SRVVXL
informao sobre as varincias em todos os eixos onde os dados esto distribudos. Esta
pode ser estimada como:
onde 1 o nmero de amostras de dados [LH a mdia do conjunto.
Os autovetores desta matriz de fato formam uma nova base que segue a variao
dos dados. A PCA, portanto consiste em uma mudana de base. A PCA e a
decomposio por autovalor de uma matriz so basicamente a mesma coisa, apenas
vem o problema de modos diferentes.
A aplicao da PCA a uma imagem colorida pode ser realizada com trs passos
bsicos: Primeiro gera-VHDPDWUL] DSDUWLUGDRSHUDo descrita abaixo:
= cov ( [R G B] )
2 REWLGR QD HTXDo acima uma matriz 3x3, que representa a matriz de
covarincia {cov} da imagem colorida, e servir para o clculo da matriz que levar a
imagem do RGB para um novo espao, gerado pela PCA. Com a matriz de covarincia
SRGH-se, ento, calcular seus autovalores e autovetores, como representado na
equao: >7DXW@ HLJ
Obtm-se dessa operao as matrizes T e aut. T a matriz, na qual suas linhas

so os autovetores da matriz de covarincia e aut a matriz diagonal, na qual os valores
presentes em sua diagonal so os autovalores de ( HLJ representa a operao de
obteno dos autovalores e autovetores da matrL]
A equao abaixo mostra a gerao do novo espao chamado de [P1, P2, P3].
3&$HP5HFRQKHFLPHQWRGH3DGU}HV
Segundo a tcnica de PCA, imagens podem ser tratadas como padres em um

espao linear para efetuar reconhecimento estatstico. Sendo K o nmero de linhas de
uma imagem e Zo nmero de colunas, pode-se dizer que uma imagem um padro de
K x Zcaractersticas ou um vetor no espao (KxZ) dimensional, o qual chamado de
espao de imagens", representado por ,.
Assim, dada uma imagem representada como uma matriz K x Z, pode-se

construir sua representao como um vetor atravs de uma leitura coluna a coluna da
imagem, colocando o valor de cada pixel da imagem em um vetor coluna [.
Em reconhecimento de padres, sempre desejvel dispor de uma representao

compacta e de um bom poder de discriminao de classes de padres. Para isso,
importante que no haja redundncia entre as diferentes caractersticas dos padres, ou
seja, que no haja covarincia entre os vetores da base do espao de caractersticas.
Para verificar se h covarincia entre as caractersticas (ou variveis), utiliza-se a

matriz de covarincia. Um espao vetorial com a propriedade de no haver covarincia
entre os vetores da base do espao, possui uma base cuja matriz de covarincia de seus
vetores diagonal.
Para diagonalizar a matriz de covarincia, deve-se efetuar uma mudana de base.

Assim, as variveis dos padres representados em termos dessa nova base do espao de
caractersticas no possuem correlao entre si, seja +essa nova matriz. importante
lembrar que no caso de PCA, os autovalores da matriz de covarincia so iguais
varincia das caractersticas transformadas. Assim, se um autovetor possui autovalor
grande, significa que esse fica em uma direo em que h uma grande varincia dos
padres. A importncia disso est no fato de que, em geral, mais fcil distinguir
padres usando uma base em que seus vetores apontam para a direo da maior
varincia dos dados, alm de no serem correlacionados entre si.
Logo, se a matriz + for construda de forma que sejam escolhidos somente os

autovetores contendo os maiores autovalores, a varincia total dos padres de entrada
no sofre grandes alteraes.
7UDQVIRUPDGDGH+RWHOOLQJH3&$QDUHFRQVWUXomR
Outra aplicao importante se relaciona a reconstruo de[, dado\SRU
\ $[P

$
Como as linhas de$so vetores ortonormais pois$ $ qualquer vetor[SRGHser

'
% &
recuperado a partir de seu correspondente\pela relao
[ $ \P
'
Se nem todos os autovetores de & forem usados mas apenas osNmaiores, formando
$
uma matrix$ , tem-se uma matriz de transformao de ordemNxQ, e a reconstruo

(
no ser exata mas uma aproximao.
6FRUHVH/RDGLQJV
A anlise de componentes principais (PCA) um mtodo de anlise

multivariada utilizado para projetar dados n-dimensionais em um espao de baixa
dimenso, normalmente duas ou trs. Isso feito atravs do clculo de componentes
principais obtidas fazendo-se combinaes lineares das variveis originais.
Em uma anlise de componentes principais, o agrupamento das amostras define

a estrutura dos dados atravs de grficos de VFRUHV e ORDGLQJV cujos eixos so
componentes principais (PCs) nos quais os dados so projetados. Os VFRUHVfornecem a
composio das PCs em relao s amostras, enquanto os ORDGLQJV fornecem essa
mesma composio em relao s variveis. Como as PCs so ortogonais, possvel
examinar as relaes entre amostras e variveis atravs dos grficos dos VFRUHV e dos
ORDGLQJV. O estudo conjunto de VFRUHVe ORDGLQJVainda permite estimar a influncia de
cada varivel em cada amostra.
Os VFRUHV (th) e ORDGLQJV(ph) podem ser calculados par a par por um processo
iterativo, como na equao abaixo.
X = t1 p'1 + t2 p'2 + .....+ th p'h

Figura 4 - Representao da matriz de dados X decomposta em produto de matrizes de

posto igual a um
A figura abaixo fornece a interpretao geomtrica dos valores ORDGLQJe VFRUH

para a observao 1, num grfico a duas dimenses com duas variveis x1 e x2. A
direo de maior variabilidade das amostras indicada pela reta que representa um
componente principal. Os VFRUHV so as projees das amostras na direo dos
componenets principais e os ORDGLQJVso os ngulos entre cada componente principal e
cada varivel.
Figura 5- Interpretao geomtrica dos valores ORDGLQJe VFRUH
&RQVLGHUDo}HV)LQDLV
Anlise dos Componentes Principais (PCA) um mtodo estatstico linear que

encontra os autovalores e autovetores da matriz de covarincia dos dados e, com esse
resultado, pode-se realizar a reduo dimensional dos dados e analisar os padres

principais de variabilidade presentes.
PCA um mtodo exploratrio porque auxilia na elaborao de hipteses gerais

a partir dos dados coletados, contrastando com estudos direcionados nos quais hipteses
prvias so testadas. tambm capaz de separar a informao importante da
redundante e aleatria.
A PCA tambm muito utilizada em algoritmos de compresso de imagens. A

caracterstica bsica da PCA a reduo do espao necessrio para a representao da
imagem, j que a PCA promove uma compactao da energia.
Com o emprego da PCA a visualizao de diversas variveis em um

determinado conjunto de dados torna-se mais produtiva, rpida, objetiva e eficiente.
5HIHUrQFLDV%LEOLRJUiILFDV
Andrade, M. C.; Pinto, L. C. M. &ODVVLILFDomR GH )ROKDV SRU 7DPDQKR H )RUPD $WUDYpV GH
'HVFULWRUHV *HRPpWULFRV H $QiOLVH GRV &RPSRQHQWHV 3ULQFLSDLV Anais do IV Workshop em
Tratamento de Imagens, NPDI/DCC/ICEx/UFMG, p. 54-61 2003.
Anton , H., Rorres C., OJHEUD/LQHDUFRP$SOLFDo}HV, Bookman, Porto Alegra, 2004.
Farias, M. A. 2SHUDo}HV%RROHDQDVHQWUH2EMHWRV'HOLPLWDGRVSRU6XUIHOV8VDQGR&RQVWUDLQHG%63
WUHHV. Dissertao de Mestrado. Cincia da Computao - UFRS. Porto Alegre, 2006.
Ferreira, E.C.; Rodrigues, S. H. B. G.; Ferreira, M. M. C.; Nbrega I. J. A.; Nogueira, A. R. A. $QiOLVH
H[SORUDWyULD GRV WHRUHV GH FRQVWLWXLQWHV LQRUJkQLFRV HP VXFRV H UHIULJHUDQWHV GH XYD Ecltica
Qumica. vol. 27 n.especial. So Paulo, 2002.
Silva, C. Y. V. W.; Traina, A. J. M. 5HFXSHUDomR GH ,PDJHQV 0pGLFDV SRU &RQWH~GR 8WLOL]DQGR
:DYHOHWVH3&$ Anais do X Congresso Brasileiro de Informtica em Sade, 14-18 de outubro de 2006,
)ORULDQySROLV6&www.sbis.org.br/cbis/arquivos/897.pdf
Souza, G. F. &RPSUHVVmR $XWR$GDSWDWLYDV GH ,PDJHQV &RORULGDV Dissertao de Mestrado em
Cincias Universidade Federal do Rio Grande do Norte. Natal -RN, 2005.
R. C. Gonzalez and R. E. Woods, 3URFHVVDPHQWRGH,PDJHQV'LJLWDLV, Edgard Blucher, So Paulo, 2000
(original :Addison Wesley Pub. Co. 1993) (seo 3.6)
Tutorial e exemplo no Scilab : csnet.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf
Site sobre : Michel Loeve e seu premio (The Loeve Prize) bianual:
http://www.stat.berkeley.edu/users/aldous/Research/Loeve.html
http://sunsite.berkeley.edu/uchistory/archives_exhibits/in_memoriam/catalog/loeve_michel.html

Pca Acp PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Pca Acp PDF

Enviado por

Direitos autorais:

Formatos disponíveis

by: Simone Vasconcelos e P\VHOI

A DQiOLVH GRV FRPSRQHQWHV SULQFLSDLV - $&3 ou 3&$ (do ingls 3ULQFLSDO

tambm chamado de 7UDQVIRUPDGD'LVFUHWDGH.DUKXQHQ/RqYH(KLT) ou

Anlise de Componentes Principais (PCA) um dos mtodos estatsticos de

A anlise de componentes principais (PCA) uma maneira de identificar a

A FRPSRQHQWH SULQFLSDO o arranjo que melhor representa a distribuio dos

Os SDVVRV para calcular as componentes principais so:

REWHU os dados ou as 0 amostras de vetores de dimenso Q;

calcular a PpGLD ou o YHWRUPpGLR destes dados;

VXEWUDLUDPpGLD de todos os itens de dados;

calcular a PDWUL]GHFRYDULkQFLD usando todas as subtraes. Ela o resultado

calcular os DXWRYDORUHV e DXWRYHWRUHV da matriz de covarincia.

arranjar os a PDWUL]GD7UDQVIRUPDGDGH+RWHOOLQJ (cujas linhas so formadas

O DXWR YHWRU com o maior DXWRYDORU associado, corresponde componente

As componentes principais podem ento ser usadas conforme a maneira

Na frmula acima, ; e < so listas de dados, onde ; a primeira e < a segunda

Se os dados tiverem mais de duas dimenses, necessrio ter a covarincia entre

A diagonal principal da matriz contm as varincias e as demais posies a

Para 0 amostras de vetores em um conjunto qualquer, o YHWRUPpGLR pode ser

Assim supondo que se tenha 4 amostras de um conjunto de vetores de

O vetor mdio destas medidas ser:

Para calcular a PDWUL]GHFRYDULkQFLD subtrai-se cada [ de P . E usando todas

Para os dados acima se tem:

De modo que a PDWUL]GHFRYDULkQFLDdestes valores ser:

Neste exemplo todos os elementos da diagonal principal so iguais, o que indica

Este exemplo numrico da obteno da matriz de covarincia a partir do

O exemplo de clculo acima pode ser facilmente estendido para o clculo da

A matriz de covarincia para 0 amostras de vetores em um conjunto qualquer,

A matriz da covarincia UHDOHVLPpWULFDSendo sempre possvel encontrar um

Diz-se que um vetor Y um DXWRYHWRU de uma matriz quadrada 0 se 0 Y

Quando se fala em DXWRYHWRUHV, subentende-se autovetores de comprimento 1,

Uma propriedade dos autovetores que eles so perpendiculares (ortogonais)

Para matrizes de dimenses 2 2 ou tambm 3 3, os autovalores podem ser

Onde , a matriz identidade, 0 a matriz dada e os escalares no nulos, Oque a

Resulta numa equao de 2 grau, cujas razes podem ser calculadas e

No caso de dimenses maiores, ou para algoritmos genricos para qualquer

Equivalentemente, os DXWRYHWRUHV associados aos DXWRYDORUHV sero os vetores

Como exemplo ilustrativo considere que antes da captura definitiva da imagem

Qual seria seus auto-espaos associados e suas auto-bases?

O O O 

O O 

De modo que seus autovalores so O eO E, portanto temosDXWRHVSDoRVGH0

(O,0 Y 

Assim neste exemplo teremos que achar as solues de:

Para O temos autovetores na forma:

Para O temos autovetores na forma:

Dois resultados importantes da OJHEUD /LQHDU VmR (Anton e Rorres,2004, p.

6H uma matriz Q[Q tem Q autovalores linearmente independentes HQWmR ela

Os procedimentos para diagonalizar uma matriz M correspondem a seguir os

1- Encontrar seus autovetores linearmente independente:Y Y Y 

2-Formar uma Matriz3com estes vetores como colunas.

3- O produto 3 0 3 ser uma matriz diagonal, com elementos iguais aos

autovalores na diagonal principal.

Como os 3 soOLQHUPHQWHLQGHSHQGHQWHVisto no mltiplos ou resultado da soma

Confira fazendo as contas:

No processo de diagonalizao no existe uma ordem preferencial para as

Como a matiz da covarincia UHDOHVLPpWULFD, sempre possvel encontrar um

maior autovalor, O ;e assim sucessivamente de modo que vamos chamar de H

Considere uma matriz, $, cujas colunas sejam os autovetores de & ordenados 

Como os elementos fora da diagonal principal de & so zeros, os elementos dos

DXWRYHWRUHV (Anton e Rorres,2004).

A transformao representada pela equao (1)

Assim no exemplo numrico dosSRQWRVGRVRQDUque estamos considerando, o efeito

tambm chamado de 7UDQVIRUPDGD'LVFUHWDGH.DUKXQHQ/RqYH(KLT) ou

A matriz da covarincia UHDOHVLPpWULFDSendo sempre possvel encontrar um

Onde , a matriz identidade, 0 a matriz dada e os escalares no nulos, Oque a

O O O

OO

De modo que seus autovalores so O eO E, portanto temosDXWRHVSDoRVGH0

(O,0Y

Para O temos autovetores na forma:

Para O temos autovetores na forma:

1- Encontrar seus autovetores linearmente independente:Y Y Y

Como os 3 soOLQHUPHQWHLQGHSHQGHQWHVisto no mltiplos ou resultado da soma

Considere uma matriz, $, cujas colunas sejam os autovetores de & ordenados

onde 1 o nmero de amostras de dados [LH a mdia do conjunto.

Outra aplicao importante se relaciona a reconstruo de[, dado\SRU

\ $[P

recuperado a partir de seu correspondente\pela relao