Escolar Documentos
Profissional Documentos
Cultura Documentos
patrick.ciarelli@ufes.br
PCA é uma técnica largamente usada em
aplicações que envolvem:
Redução de dimensionalidade;
Compressão de dados com perda;
Extração de características;
Visualização de dados;
1º Componente, y1
2º Componente,
4
y2
5
3
xi2 4
2
4.0 4.5 5.0 5.5 6.0
yi,2 yi,1
3
2
4.0 4.5 5.0 5.5 6.0
xi1
Como são obtidos os componentes principais?
Basicamente, o procedimento consiste em:
Calcular a matriz C de covariância/coeficientes de
correlação dos dados;
Obter os autovalores e autovetores da matriz C;
O autovetor associado ao maior autovalor é o primeiro
componente. O segundo componente é o autovetor
associado ao segundo maior autovalor, e assim por
diante;
Selecionar o número de componentes para
representar os dados.
Matriz de Covariância:
Atributos devem possuir mesma escala de valores;
Enfatiza atributos com variâncias maiores;
Média dos autovalores ≠ 1;
0,617 0,615
cov
0,615 0,717
Uma vez que os elementos fora da diagonal são
positivos, é esperado que ambas as variáveis x e y
aumentem juntos;
Cálculo dos autovetores e autovalores da matriz de
covariância:
Exemplo:
x1 = −0,678x1 − 0,735y1 = −0,828 A origem das coordenadas dos
novos eixos é dado por x e y
Visualização dos componentes principais da base
de dados iris, que possui 4 atributos, 150
amostras e 3 classes.
Métodos básicos para selecionar o número de
componentes:
Valor mínimo de variância acumulada nas
componentes. Ex.: 90%;
Critério de Kaiser [1]:
seleciona todos os
componentes com os
autovalores acima de 1.
(autovetores obtidos da
matriz de coeficientes de
correlação).
𝑝𝑗|𝑖 + 𝑝𝑖|𝑗
𝑝𝑖𝑗 =
2𝑁
0 0,5 * log 2 0,5 0,25 * log 2 0,25 0,25 * log 2 0,25 1,5
1 0 0
H x2 , x3 0,25 * log 2 0,25 0 0,25 * log 2 0,25 0,5 * log 2 0,5 1,5
Considere três moedas sendo lançadas 4 vezes
cada, onde 0 é cara e 1 é coroa.
x1 x2 x3
H x1 1 H x2 0,8113 H x3 1
0 1 1
1 1 0 H x1 , x2 1,5 H x1 , x3 1 H x2 , x3 1,5
0 1 1
M x1 , x2 H x1 H x2 H x1 , x2
1 0 0
M x1 , x2 1 0,8113 1,5 0,3113
M x1 , x3 1 1 1 1
Mnx2 , x3 0,3456