Você está na página 1de 37

Análise de Componentes

Principais
Prof. Ariel Gomes
FAENG/UFMS
Analise Componentes Principais
• Transforma , por meio de uma combinação linear, um conjunto de
variáveis (matriz com várias variáveis) originalmente
correlacionadas em um conjunto menor (chamadas omponentes)
de variáveis não correlacionadas.
• O objetivo é condensar a informação contida em diversas
variáveis em m conjunto menor, com mínima perda de
informação.
Informação diz respeito à variação
presente na base de dados
informação = variância
Conceito da
ACP
• PCA tenta encontrar
"componentes" que capturam
a variância máxima dentro
dos dados.
• Cada ponto azul corresponde a uma
observação (uma linha de X). Há
n=20 observações, cada uma com
p=3 atributos. Neste esquema, o CP
reduz a dimensionalidade de três
para r=2. Encontra um par de
vetores ortogonais (setas vermelhas)
que definem um espaço de menor
dimensão (plano cinza) que captura a
maior variância possível do conjunto
de dados original.
Vetor
Matriz de dados
Matriz de
dados

Vetor aleatório: pode


consistir em n
observações em apenas
uma variável, ou de uma
observação multivariada
em p variáveis
Exemplo
(Mingoti, 2005):
•Oito marcas de coxinhas
são avaliadas por alguns
examinadores, em
relação às variáveis sabor
(X1), aroma (X2), massa
(X3) e recheio (X4).
• As médias das notas dos
examinadores, para cada
marca e variável, são
dadas na tabela seguinte
Exemplo (Mingoti, 2005): O traço da matriz S, dado também
pela soma dos autovalores é igual a
1,852.

Os autovalores (também
chamados de valores
característicos ou raízes
latentes) são as variâncias
dos componentes
Juntas, explicam 97,3% da variância total do vetor original
principais.
X (alta explicação). Assim, duas componentes são
suficientes para explicar as variações nas marcas.
Exemplo (Mingoti, 2005):
• Os autovetores gerados pelos primeiros dois autovetores são:

• A primeira componente representa um índice global da qualidade da


coxinha (todos os coeficientes são positivos). Assim,
Y= 0,456 sabor + 0,223 aroma + 0,477 massa + 0,717 recheio (maior
importância é o recheio).
• Quanto maior for o valor numérico de Y, maior será a qualidade da coxinha.
Exemplo (Mingoti, 2005):
• Os escores obtidos para as diferentes marcas são os seguintes:
M1: 5,367
Nota-se que a marca melhor classificada é a M4
M2: 6,843 e a pior, M1.
M3: 6,222
M4: 8,698
M5: 8,390
M6: 5,665
M7: 8,524
M8: 7,047
Exemplo (Mingoti, 2005):
• A segunda componente (de baixa explicação), contrasta sabor e
aroma com massa e recheio:
Y = −0,816 sabor − 0,215 aroma + 0,456 massa + 0,282 recheio

M1: -1,095
M2: -1,525 Marcas M2 e M4 se sobressaem no aroma e
M3: -0,889 sabor, enquanto que as marcas M5 e M3 se
M4: -1,444 sobressaem na massa e recheio
M5: -0,817
M6: -1,194
M7: -1,012
M8: -1,306
.
Use o gráfico scree para selecionar o
número de componentes a usar com base no
tamanho dos autovalores. O padrão ideal é
uma curva acentuada, seguida de uma dobra
e depois de uma linha reta. Use os
componentes na curva acentuada antes do
primeiro ponto que inicia a tendência da
linha.
Os gráficos de cargas fatoriais
representam os coeficientes de
cada variável para o primeiro
componente versus os
coeficientes para o segundo
componente.
Use o gráfico de cargas fatoriais para
identificar quais variáveis têm o maior efeito
em cada componente. As cargas fatoriais
podem variar de -1 a 1. As cargas fatoriais
próximas de -1 ou 1 indicam que a variável
influencia fortemente o componente. As
cargas fatoriais próximas de 0 indicam que a
variável tem uma influência fraca no
componente. Avaliar as cargas fatoriais
também pode ajudá-lo a caracterizar cada
componente em termos das variáveis.

Você também pode gostar