Escolar Documentos
Profissional Documentos
Cultura Documentos
Principais (PCA)
Lailson B. Moraes, George D. C. Cavalcanti
{lbm4,gdcc}@cin.ufpe.br
Roteiro
– Introdução
– Características
– Definição
– Algoritmo
– Exemplo
– Aplicações
– Vantagens e Desvantagens
Introdução (1/4)
objetivo do pca
Encontrar um novo conjunto de variáveis menor que
o conjunto original que preserve a maior parte
da informação presente nos dados
Informação diz respeito à variação
presente na base de dados
informação = variância
Introdução (4/4)
45 20
40
15
35
10
30
pca
5
25
20 0
15
−5
10
−10
5
0 −15
−5 −20
−10 0 10 20 30 40 50 −30 −20 −10 0 10 20 30
transformação
variáveis correlacionadas, linear variáveis independentes,
com redundância sem redundância
variância covariância
Características (2/3)
Quantidade de Quantidade de
componentes
principais
= variáveis
originais
⎛ ⎞⎟
⎜⎜ a11 a21 an1 ⎟⎟
⎜⎜ ⎟⎟
⎜⎜ ⎟⎟
∑ i=1 i
n 2
⎜⎜ a12 a22 an2 ⎟⎟ (x −X)
⎜⎜ ⎟⎟ var(X) = s 2 =
⎜⎜ ⎟⎟ n−1
⎜⎜ ⎟⎟
⎟⎟
⎜⎜ ⎟⎟
⎜⎜ a1m a2m anm ⎟⎟
⎜⎝ ⎟⎟
⎠
x1 x2 xn
Um pouco de estatística (3/4)
⎜⎜ ⎟⎟ n−1
⎜⎜ ⎟⎟
⎟⎟
⎜⎜ ⎟⎟
⎜⎜ a1m a2m anm ⎟⎟
⎜⎝ ⎟⎟
⎠
x1 x2 xn
Um pouco de estatística (4/4)
⎛ ⎞⎟
⎜⎜ a11 a21 an1 ⎟⎟ ⎛ ⎞⎟
⎜⎜ ⎟⎟ ⎜⎜ cov(m ,m ) cov(m ,m ) cov(mm ,m1 ) ⎟⎟
⎜⎜ ⎟⎟ ⎜⎜ 1 1 2 1
⎟⎟
a12 a22 an2 ⎟⎟ ⎜⎜ ⎟⎟
⎜⎜
⎜⎜ ⎟⎟ ⎜⎜ cov(m ,m ) cov(m ,m )
⎜⎜ cov(mm ,m2 ) ⎟⎟⎟
⎟⎟
1 2 2 2
⎟⎟
⎜⎜ ⎟⎟ C =⎜
⎜⎜ ⎟⎟
⎜⎜ ⎟⎟
⎟⎟ ⎜⎜ ⎟⎟
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎜⎜ a1m a2m anm ⎟⎟ ⎜⎜ ⎟⎟
⎜⎝ ⎟⎟ ⎜⎜ cov(m1 ,mm ) cov(m2 ,mm ) cov(mm ,mm ) ⎟⎟
⎠ ⎝ ⎟⎠
x1 x2 xn
Definição (1/3)
objetivo do pca
X̂
Encontrar o vetor p que maximiza a variância de X’
p 1 = argmax ⎣ var(p X)⎤⎦
⎡ T
||p||=1
Definição (2/3)
objetivo do pca
X̂
Encontrar o vetor p que maximiza a variância de X’
p 1 = argmax ⎣ var(p X)⎤⎦
⎡ T
||p||=1
||p||=1 ⎣ ⎦
toy problem
45
2.8811 3.8030 3.6851 -0.6650 -0.7844
-0.8295 5.7179 6.8797 6.6415 2.8888
40
5.5984 4.0082 11.3941 12.8090 6.8662
4.5474 3.4669 9.8442 11.8284 13.1371 35
toy problem
1 Obter a média e centralizar os dados
-17.7430 -16.8212 -16.9390 -21.2891 -21.4086
-21.3726 -14.8253 -13.6634 -13.9016 -17.6543
⎜⎜ 20.6241 ⎟
-9.9603 -8.5544 -12.0544 -3.5460 -7.0392
⎜⎝ ⎟⎠ 1.1891
7.8667
2.0997
4.1012
-2.3150
7.3077
1.5301
11.1014
1.2098
12.7109
6.6236 3.2907 10.4189 10.7227 7.3571
toy problem
2 Calcular a matriz de covariância 4 Montar a matriz de projeção com os k
autovetores dos k maiores autovalores
⎛ ⎞
⎜⎜ 147.0276 136.6466 ⎟⎟
⎟⎟
cov(X) = ⎜⎜⎜ ⎟
⎜⎜ 136.6466 139.4326 ⎟⎟⎟
⎜⎝ ⎟⎠ ⎡ ⎤
D = 279.9294 6.5307 ⎥
⎢
⎢⎣ ⎥⎦
toy problem
5 Projetar os dados originais no novo espaço de k dimensões
a
Computer Science Department, I.N.A.O.E., Tonantzintla, Puebla 72840, Mexico
b
Computer Science Department, University of Texas at El Paso, El Paso, TX 79968, USA
Received 25 January 2006; received in revised form 8 November 2006; accepted 5 March 2007
Abstract
In this paper, we present an object detection system and its application to pedestrian detection in still images, without assuming any a
Aplicação (2/6)
ideia central
Usar erros de reconstrução para classificação
x = PT x
x = Px
ε = x − x
m dimensões → k dimensões k dimensões → m dimensões
ideia central
Usar erros de reconstrução para classificação
Pgp Pgn Pep Pen
pedestres não-pedestres pedestres não-pedestres
escala de cinza escala de cinza bordas bordas
pedestres não-pedestres
– Reconhecimento de faces
– Detecção de faces
– Reconstrução de imagens
– Compressão de dados
– Visualização de dados multidimensionais
Vantagens
20
15
10 classe 1
5
0 classe 2
−5
−10
−15
−15 −10 −5 0 5 10 15 20 25 30
Referências