Escolar Documentos
Profissional Documentos
Cultura Documentos
Variáveis Latentes
1. Motivação
Neste tópico, vamos estudar algumas técnicas gerais e não-supervisionadas para
Vantagens:
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Uma maneira alternativa de se considerar esta questão traz à baila o conceito de
variáveis latentes.
atributos podem ser interpretados como variáveis que estavam subjacentes (ou
Com isto, torna-se possível analisar, explicar e processar os dados originais a partir
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
originais do dado, somente um subconjunto deles é selecionado para fazer parte da
análise.
Esta expressão, cunhada por Richard E. Bellman, em seu trabalho sobre programação
dinâmica (1957), refere-se a vários fenômenos que surgem quando analisamos dados
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Figura extraída de (GOODFELLOW ET AL., 2016). À medida que a dimensionalidade aumenta, o número de
regiões de interesse pode crescer exponencialmente. No caso unidimensional, desejamos distinguir
regiões de interesse; com amostras suficientes em cada uma dessas regiões, algoritmos de aprendizado
podem generalizar corretamente. Com duas dimensões, é mais difícil distinguir valores diferentes para
cada variável: neste caso, devemos cobrir regiões. Com três dimensões, este número cresce
para . Para dimensões e valores por variável, precisamos de regiões e
exemplos.
Implicações:
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Crescimento da complexidade da função objetivo envolvida no processo de
aprendizado.
Gaussiana admite uma extensão para este caso com uma parametrização
unidimensional.
Para sua exposição formal e sem perda de generalidade, vamos considerar que os
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
2.1. Formulações de mínimo erro de reconstrução e máxima variância
que faça com que o erro quadrático médio de reconstrução seja minimizado.
onde :
(1)
subespaço de dimensão .
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Reconstrução: .
A PCA busca determinar a matriz que leva ao menor erro quadrático médio de
(2)
Note que:
(3)
(4)
(5)
Ou seja, .
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Retomando a expressão da função custo de PCA, podemos expandi-la como:
(6)
(7)
.
.
(8)
(9)
Como , então:
(10)
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Com estas alterações, o segundo e o terceiro termo de são iguais. Prosseguindo,
(11)
(12)
Finalmente,
(13)
equivale a maximizar .
(14)
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Ora, podemos reescrever o termo em (14) da seguinte forma:
(15)
(16)
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
(17)
Utilizando o método dos multiplicadores de Lagrange, temos que a solução para (17)
(18)
(19)
(20)
Finalmente, chegamos a:
(21)
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Reconhecemos que (21) é a expressão matemática que descreve os autovalores e
Usando (21), podemos reescrever a função custo original em (17) da seguinte forma:
(22)
autovalor de , .
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Porém, não só devemos impor a restrição de norma unitária a , mas também exigir
principal :
(23)
(24)
(25)
(26)
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Pela ortogonalidade imposta, os dois primeiros termos são nulos, de modo que:
(27)
Logo, . Neste caso, ficamos apenas com os dois primeiros termos em (25):
(28)
(29)
maior autovalor.
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
A matriz de aucorrelação pode ser estimada pela média amostral:
Uma estratégia simples para guiar esta escolha consiste em olhar para a porcentagem
principais. Como
(30)
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
então a soma de todos os autovalores de equivale a .
dada por:
(31)
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Exemplo:
Figura. Distribuição dos dados no espaço original e as duas direções principais identificadas pela PCA. O
comprimento dos vetores reflete a diferença das variâncias capturadas por cada direção.
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Exemplo: conjunto de dados Iris
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Figura. Visualização das três componentes principais obtidas por PCA para o conjunto Iris. Observe que uma
das classes (setosa) ocupa uma região bem definida e isolada do espaço, enquanto as outras (versicolor e
virginica) ficam bem próximas.
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Figura. Visualização das duas componentes principais obtidas por PCA para o conjunto Iris.
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Figura. Visualização dos dados Iris após a projeção sobre as duas primeiras direções definidas pelo
discriminante de Fisher. Embora o resultado seja, até certo ponto, semelhante àquele verificado para a PCA, é
importante recordar que a LDA é uma técnica que usa a informação dos rótulos de cada padrão, enquanto a
PCA é inteiramente não-supervisionada.
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
3. Kernel PCA
Semelhantemente ao que é feito no contexto das máquinas de vetores-suporte
(SVMs, do inglês support vector machines), a ideia da kernel PCA (KPCA) consiste em
efeito é semelhante a uma projeção dos dados sobre curvas não-lineares (SCHÖLKOPF
ET AL., 1998).
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
(32)
(33)
i.e.,
(34)
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Figura extraída de (BISHOP, 2006). Ilustração da operação de KPCA. Por meio da transformação não-linear
, os dados são projetados no espaço de features, onde a PCA clássica fornece as direções principais. As
linhas em verde indicam as projeções lineares sobre a primeira componente principal (vetor ), as quais
correspondem a projeções não-lineares no espaço original.
Por enquanto, vamos supor que os dados projetados também possuem média nula
dada por:
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
(35)
(36)
(37)
Vemos, então, que o vetor é dado por uma combinação linear dos vetores –
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
(38)
em que .
(39)
(40)
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
(41)
dados por:
(42)
(43)
É possível mostrar que as soluções úteis de (43), as quais estão relacionadas aos
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
(44)
(45)
(46)
Observação:
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
No domínio original dos dados ( ), existem autovetores ortogonais e podemos
número de dados disponíveis), uma vez que a matriz de autocorrelação dos dados
média nula, o que, em geral, não é verdade. Por isso, precisamos ajustar o método
(47)
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Neste caso, os elementos da matriz de Gram são dados por:
(48)
(49)
Então:
(50)
(51)
Assim, podemos avaliar usando apenas a função kernel e, então, utilizar para
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Diferença: na PCA clássica, geralmente retemos um número reduzido de
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Exemplo:
Figura. Distribuição dos dados no espaço original ( ). As cores discriminam as classes existentes.
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
(a) (b)
Figura. Visualização das duas primeiras componentes principais obtidas pela KPCA para o conjunto de
dados formado por dois círculos concêntricos. Em ambos os casos, as duas classes ficam bem separadas.
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
4. Análise de Componentes Independentes (ICA)
Assim como a PCA, a análise de componentes independentes (ICA, do inglês
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
exercem influência mútua, de maneira que observar um resultado específico para
uma das variáveis não interfere no que acontece com a outra variável.
e as variáveis latentes :
em que , e é a matriz de
mistura.
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
uma instância do problema de separação cega de fontes (BSS, do inglês blind source
4.1. Definição
ET AL., 2012).
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
4.2. Possíveis abordagens para ICA
o qual dá origem a uma função custo, que, ao ser otimizada, deve levar à obtenção
associado a uma variável graças à informação trazida pela outra variável. O menor
valor possível para a informação mútua é justamente zero, que acontece somente
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
possível critério para ICA consiste em minimizar a informação mútua entre os
4.2.3. Não-Gaussianidade
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
apresentar distribuições de probabilidade mais próximas a uma distribuição
limite central. Neste sentido, como o vetor de estimativas das variáveis latentes
independentes, pois
obtenção de sinais cada vez menos “misturados”. Em outras palavras, quanto mais
mais afastada de uma distribuição gaussiana será a distribuição observada para cada
elemento em .
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
probabilidades qualquer e uma gaussiana. Tipicamente, duas funções custo são
Além dos critérios já mencionados, existem outras estratégias propostas para ICA,
de descorrelação não-linear.
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
(a) (b)
(c) (d)
Figura 2: (a) Distribuição conjunta das variáveis latentes (uniforme); (b) distribuição conjunta das
variáveis observadas; (c) distribuição conjunta dos dados após PCA; (d) distribuição conjunta dos
sinais após ICA.
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
5. Autoencoders
As redes neurais autocodificadoras (AE, do inglês autoencoders), também chamadas
reproduzir em sua saída o próprio dado de entrada (BOURLARD & KAMP, 1988;
dado de entrada.
saída.
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Por isso, são introduzidos alguns mecanismos no processo de treinamento e/ou na
própria estrutura de tal modo a evitar esta solução trivial, forçando o modelo a gerar
Codificador Decodificador
Entrada Código Saída
(Encoder) (Decoder)
= ( ) = ( )
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Encoder Decoder
Figura. Exemplo de uma estrutura típica de rede neural multicamadas operando como um autoencoder.
discriminativa dos dados no código gerado, a partir do qual seja possível reconstruí-
los com precisão suficiente. Sendo assim, um possível uso de AEs é para realizar a
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
5.1. Regularized AE
5.2. Denoising AE
Um denoising autoencoder (DAE) é treinado para reconstruir uma versão pura, livre de
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
O objetivo que se pretende atingir com um DAE não é propriamente a remoção do
descobrir uma representação interna cujos atributos capturem uma estrutura útil da
5.3. Contractive AE
Isto força o modelo a aprender uma função (ou um código interno) que não varie
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
5.4. Variational e Adversarial AEs
AL., 2016).
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
Figura. Ilustração da estrutura e operação de um variational autoencoder. Na perspectiva Bayesiana, o
codificador se torna uma rede de inferência variacional, mapeando as entradas observadas em distribuições
de probabilidade a posteriori no espaço latente, enquanto o decodificador corresponde a uma rede generativa,
capaz de mapear as coordenadas latentes de volta a distribuições no espaço original dos dados.
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
6. Referências bibliográficas
ALPAYDIN, E. Introduction to Machine Learning. MIT Press. 3rd edition. 2014.
BAKIR, G. H.; WESTON, J.; SCHÖLKOPF, B. Learning to Find Pre-Images. Em S. Thrun, L. K. Saul e
B. Schölkopf (Eds.), Advances in Neural Information Processing Systems, vol. 16, pp. 449-456,
MIT Press, 2004.
BISHOP, C. M. Pattern Recognition and Machine Learning. Springer, 2006.
BOURLARD, H.; KAMP, Y. Auto-Association by Multilayer Perceptrons and Singular Value
Decomposition. Biological Cybernetics, vol. 59, pp. 291-294, 1988.
CARDOSO, J. High-Order Contrasts for Independent Component Analysis. Neural Computation,
vol. 11, no. 1, pp.157-192, 1999.
DOERSCH, C. Tutorial on Variational Autoencoders. arXiv:1606.05908v2 [stat.ML], 2016.
DUDA, R. O., HART, P. E., STORK, D. G. Pattern Classification. John Wiley & Sons. 2nd edition,
2001.
GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep Learning. MIT Press, 2016.
HASTIE, T., TIBSHIRANI, R., FRIEDMAN, J. The Elements of Statistical Learning: Data Mining,
Inference and Prediction. Springer. 2nd edition, 2006.
HAYKIN, S. Neural Networks and Learning Machines. Prentice Hall, 3rd edition, 2008.
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP
HINTON, G. E.; ZEMEL, R. S. Autoencoders, Minimum Description Length, and Helmholtz Free
Energy. In Proc. of the Neural Information Processing Systems (NIPS’1993), 1994.
HYVÄRINEN, A.; KARHUNEN, J.; OJA, E. Independent Component Analysis. Wiley Interscience,
2001.
JOLLIFFE, T. Principal Component Analysis, Springer, 2nd edition, 2002.
LUENBERGER, D.G. Linear and Nonlinear Programming. 2nd edition, Addison-Wesley
Publishing Company, 1984.
MAKHZANI, A.; SHLENS, J.; JAITLY, N.; GOODFELLOW, I.; FREY, B. Adversarial Autoencoders,
arXiv:1511.05644v2 [cs.LG], 2016.
ROMANO, J. M. T.; ATTUX, R.; CAVALCANTE, C. C.; SUYAMA, R. Unsupervised Signal Processing:
Channel Equalization and Source Separation. CRC Press, 2012.
SCHÖLKOPF, B.; SMOLA, A.; MÜLLER, K.-P. Nonlinear Component Analysis as a Kernel
Eigenvalue Problem, Neural Computation, vol. 10, no. 5, pp. 1299-1319, 1998.
VINCENT, P.; LAROCHELLE, H.; LAJOIE, I.; BENGIO, Y.; MANZAGOL, P.-A. Stacked Denoising
Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising
Criterion, Journal of Machine Learning Research, vol. 11, pp. 3371-3408, 2010.
Tópico 9: Redução de Dimensionalidade e Variáveis Latentes Profs. Levy Boccato e Romis Attux – DCA/FEEC/UNICAMP