Análise de componentes principais (principal components
analysis – PCA): é um método de aprendizagem não supervisionada; deriva um pequeno conjunto de features de um conjunto grande de covariáveis; busca encontrar combinações lineares que geram altas variâncias e é similar ao conceito de entropia da Teoria da Informação:
. Análise de componentes principais Suponha que tenhamos duas variáveis aleatórias: X1 ~ N(1, 0.01) e X2 ~ N(1, 1).
X1 estará perto de 1 com alta probabilidade.
X2 tem mais chances de assumir valores “diferentes”.
Sendo assim, a entropia de X2 é maior, e X2 tem
mais informação. Análise de componentes principais Análise de componentes principais (PCA): busca encontrar combinações lineares de variáveis que contenham mais informação, analisando as suas variâncias; utiliza projeções lineares ortogonais para extrair novas features e não utiliza a variável resposta.
Hipótese: a combinação linear dos preditores com maior
variância é associada à variável resposta. Análise de componentes principais Notação: 𝑋1, ... , 𝑋𝑛 são n observações de p covariáveis.
A primeira componente principal é a combinação linear
normalizada , que possui maior variância.
Por normalizada, entendemos que .
Terminologia: são as cargas (loadings) do primeiro
componente principal. Análise de componentes principais A normalização evita valores altos de , que gera altas variâncias.
Notação: X é a matriz n x p com as covariáveis.
Hipótese: covariáveis com média zero (o interesse está
na variância). Análise de componentes principais As cargas do primeiro componente principal resolvem: Análise de componentes principais Podemos reescrever o problema de otimização como:
Isso acontece porque estamos assumindo que:
Como as médias amostrais de são iguais a zero, as médias
amostrais de também são zero. Sendo assim, estamos maximizando a variância amostral de . Análise de componentes principais O vetor define, no espaço, a direção das features na qual os dados variam o máximo.
Se projetarmos os n dados nessa direção, os valores projetados
são os scores .
Depois de a primeira componente principal 𝑍1 ser determinada,
podemos encontrar a segunda. Análise de componentes principais A segunda componente principal é a combinação linear de 𝑋1, … , 𝑋𝑛 que possui maior variância entre todas as combinações lineares não correlacionadas a 𝓏1.
Os scores do segundo componente principal são:
Notação: são as cargas do segundo
componente principal. Análise de componentes principais 𝑍2 ser não correlacionado com 𝑍1 é equivalente a ortogonal a .
Uma vez que os componentes principais estão calculados,
podemos visualizá-los em gráficos 2 x 2.
Isso equivale a projetar os dados originais no subespaço gerado
por e analisar os pontos projetados. TODOS OS DIREITOS RESERVADOS.