Você está na página 1de 13

Análise de

Componentes
Principais
Introdução

 A análise de componentes principais (PCA) é uma abordagem para


derivar um conjunto de características de baixa dimensão a partir de um
grande conjunto de variáveis.

 A técnica foi inicialmente descrita por Pearson (1901)

 é uma técnica multivariada de modelagem da estrutura de covariância.


Introdução

 Objetivo:
 construir variáveis não correlacionadas que retenham a maior parte da
estrutura de variabilidade através de transformações lineares.
 Benefícios:
 reduz o tempo de processamento e pode melhorar os resultados de modelos
preditivos ao usar PCA nos dados de treino e teste.
Motivação

 Imagine um grande conjunto de dados com variáveis possivelmente


correlacionadas. A necessidade de analisar esse banco de dados pode gerar
algumas dúvidas:
 Se existem muitas variáveis como podemos explorar esses dados?
 Quais variáveis são mais importantes?
Definições importantes
Definições importantes

 Como o banco de dados possui 𝑝 variáveis tem -se 𝑝 autovalores, 𝜆1 ≥ 𝜆2 ≥


⋯ ≥ 𝜆𝑝, da matriz de covariâncias com os respectivos 𝑝 autovetores
normalizados 𝒆𝟏, 𝒆𝟐, ⋯ , 𝒆𝒑.

 A j-ésima (j = 1, 2, ⋯, p) componente principal da matriz de covariâncias é


definida como:
Definições importantes
Definições importantes
A Matemática da Análise de
Componentes Principais (PCA)

 Por simplicidade iremos assumir que as covariáveis estão normalizadas


para ter média zero.
 Na técnica de componentes principais, a informação de uma variável Z𝑖 é
medida através de sua variabilidade.
 Formalmente, o primeiro componente principal de X é a variável Z1 que:
1. é combinação linear das variáveis X, isto é, pode ser escrito como

2. tem a maior variância possível.


A Matemática da Análise de
Componentes Principais (PCA)

 Da mesma maneira, o segundo componente principal de X é a variável Z2


que
1. é combinação linear das variáveis X, isto é, pode ser escrito como

2. tem a maior variância possível


3. tem correlação zero com Z1.
A Matemática da Análise de
Componentes Principais (PCA)

 De modo genérico, o 𝑖-ésimo componente principal de 𝑿, 𝑖 > 1, é a variável Z𝑖 que


1. é combinação linear das variáveis 𝑿, isto é, pode ser escrito como

Com restrição:

2. tem a maior variância possível.


3. tem correlação zero com Z1, . . . ,Zi-1.
A Matemática da Análise de
Componentes Principais (PCA)

 Primeiramente encontrar-se autovetores de 𝑪, matriz de


variância/covariância das covariáveis.
 Seja 𝑼 a matriz 𝑑 𝑥 𝑑 em que a i-ésima coluna contém o i-ésimo autovetor
de 𝑪.
 𝑼 é justamente a matriz de cargas, i.e., o seu elemento i, j é dado pelo
coeficiente ótimo 𝜙𝑖𝑗 . Assim, 𝒁 = 𝑿𝑼 é a matriz 𝑛 𝑥 𝑑 com as 𝑑 novas
covariáveis para cada uma das 𝑛 observações.
Referências:

 ANJOS, Adilson dos. Análise de Componentes Principais, 2018.


Disponível em: Análise de Componentes Principais (ufpr.br)
 AZEVEDO, Caio. Análise de Componentes Principais, 2017. Disponível
em: Análise de componentes principais (unicamp.br)
 IZBICK, R; SANTOS, T.M. (2020). Aprendizado de M´aquina: Uma
Abordagem Estat´ıstica. ISBN 978-65-00-02410-4. Dispon´ıvel em:
http://www.rizbicki.ufscar.br/AME.pdf
 JAMES, G.; WITTEN, D.; HASTIE, T.; TIBSHIRANI, R. (2021). An Introduction to
Statistical Learning. 2nd Ed. New York: Springer. Dispon´ıvel em:
https://web.stanford.edu/~hastie/ISLR2/ISLRv2_website.pdf

Você também pode gostar