Você está na página 1de 11

Análise de componentes principais

Análise de componentes principais (principal components


analysis – PCA):
 é um método de aprendizagem não supervisionada;
 deriva um pequeno conjunto de features de um conjunto
grande de covariáveis;
 busca encontrar combinações lineares que geram altas
variâncias e
 é similar ao conceito de entropia da Teoria da Informação:

.
Análise de componentes principais
Suponha que tenhamos duas variáveis aleatórias:
 X1 ~ N(1, 0.01) e
 X2 ~ N(1, 1).

X1 estará perto de 1 com alta probabilidade.

X2 tem mais chances de assumir valores “diferentes”.

Sendo assim, a entropia de X2 é maior, e X2 tem


mais informação.
Análise de componentes principais
Análise de componentes principais (PCA):
 busca encontrar combinações lineares de variáveis que
contenham mais informação, analisando as suas variâncias;
 utiliza projeções lineares ortogonais para extrair novas
features e
 não utiliza a variável resposta.

Hipótese: a combinação linear dos preditores com maior


variância é associada à variável resposta.
Análise de componentes principais
Notação: 𝑋1, ... , 𝑋𝑛 são n observações de p covariáveis.

A primeira componente principal é a combinação linear


normalizada , que possui
maior variância.

Por normalizada, entendemos que .

Terminologia: são as cargas (loadings) do primeiro


componente principal.
Análise de componentes principais
A normalização evita valores altos de , que gera altas
variâncias.

Notação: X é a matriz n x p com as covariáveis.

Hipótese: covariáveis com média zero (o interesse está


na variância).
Análise de componentes principais
As cargas do primeiro componente principal resolvem:
Análise de componentes principais
Podemos reescrever o problema de otimização como:

Isso acontece porque estamos assumindo que:

Como as médias amostrais de são iguais a zero, as médias


amostrais de também são zero. Sendo assim, estamos
maximizando a variância amostral de .
Análise de componentes principais
O vetor define, no espaço, a direção das
features na qual os dados variam o máximo.

Se projetarmos os n dados nessa direção, os valores projetados


são os scores .

Depois de a primeira componente principal 𝑍1 ser determinada,


podemos encontrar a segunda.
Análise de componentes principais
A segunda componente principal é a combinação linear de
𝑋1, … , 𝑋𝑛 que possui maior variância entre todas as
combinações lineares não correlacionadas a 𝓏1.

Os scores do segundo componente principal são:

Notação: são as cargas do segundo


componente principal.
Análise de componentes principais
𝑍2 ser não correlacionado com 𝑍1 é equivalente a
ortogonal a .

Uma vez que os componentes principais estão calculados,


podemos visualizá-los em gráficos 2 x 2.

Isso equivale a projetar os dados originais no subespaço gerado


por e analisar os pontos projetados.
TODOS OS DIREITOS RESERVADOS.

Você também pode gostar