Você está na página 1de 133

Modelos Matemticos y Nuevos Algoritmos

para el Procesamiento de Imgenes

Autor: CESAR F. CAIAFA

Directora: Araceli N. Proto


Co-director: Christian Barbier

Tesis de Doctorado

Facultad de Ingenieria, Universidad de Buenos Aires


Buenos Aires, Argentina

2007

ndice general
Captulo 1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . .

15

Captulo 2. Aspectos tericos: resultados previos . . . . . . .


2.1. Mtodos estadsticos y Anlisis de Componentes Independientes .
2.1.1. Anlisis de Componentes Principales - PCA (o KLT ) . . .
2.1.2. Projection Pursuit - PP . . . . . . . . . . . . . . . . . . .
2.1.3. Separacin ciega de fuentes independientes (ICA) . . . . .
2.1.4. Resultados tericos en ICA: conexiones con la Teora de la
Informacin de Shannon, PP y KLT. . . . . . . . . . . . .
2.1.5. Algoritmos ICA . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Bases ortonormales ptimas en Rn . . . . . . . . . . . . . . . . . .
2.2.1. Aproximacin y clasicacin de vectores en Rn . . . . . . .
2.2.2. Clculo de las distancias DASP y DESPj . . . . . . . . . .
2.2.3. Bases ortonormales . . . . . . . . . . . . . . . . . . . . . .
2.2.4. Mtodos de ortonormalizacin de vectores . . . . . . . . .
2.2.5. Descomposicin de la energa de los patrones . . . . . . . .
2.2.6. La KLT como mtodo de ortogonalizacin ptimo . . . . .
2.3. Modelos de interaccin entre pxeles . . . . . . . . . . . . . . . . .
2.3.1. Modelo de Ising . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2. Campos aleatorios gaussianos - GRF s . . . . . . . . . . .

19
19
19
23
24

Captulo 3. Separacin Ciega de Fuentes Dependientes . . . .


3.1. Un nuevo enfoque para DCA . . . . . . . . . . . . . . . . . . . . .
3.2. La medida NG basada en la distancia en L2 (R) . . . . . . . . . .
3.2.1. Calculo de N G (fy ) usando ventanas de Parzen . . . . . .
3.3. Separabilidad de fuentes dependientes . . . . . . . . . . . . . . . .
3.4. El algoritmo MaxNG . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1. Filtrado previo de las seales mezcla . . . . . . . . . . . .
3.4.2. Parametrizacin de la matriz de separacin D . . . . . . .
3.4.3. Bsqueda de mximos locales . . . . . . . . . . . . . . . .
3.4.4. Eliminacin de mximos locales . . . . . . . . . . . . . . .
3.4.5. Clculo acelerado de la medida NG y sus derivadas . . . .
3.5. Ejemplo de separacin de dos fuentes dependientes . . . . . . . .
3.6. Ruido aditivo gaussiano y MaxNG . . . . . . . . . . . . . . . . .
3.6.1. FD modicado para el caso con ruido . . . . . . . . . . . .
3.7. Determinacin de factores de escala con fuentes condicionadas . .
3.8. Resultados experimentales . . . . . . . . . . . . . . . . . . . . . .
3.8.1. Experimento 1: Mxima NG versus Mnima Informacin
Mutua . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8.2. Experimento 2: Efecto del ruido sobre MaxNG . . . . . .
3.8.3. Experimento 3: MaxNG versus algoritmos ICA . . . . . .

43
44
45
45
46
48
49
50
51
52
52
56
60
62
62
64

25
29
31
31
32
34
36
37
38
39
39
40

65
66
68

3.8.4. Experimento 4: Performance de MaxNG . . . .


3.9. Apndices . . . . . . . . . . . . . . . . . . . . . . . . .
3.9.1. Demostraciones de las ecuaciones (3.8) y (3.9) .
3.9.2. Demostracin del Teorema 3 . . . . . . . . . . .
3.9.3. Demostraciones de las ecuaciones (3.41) - (3.46)

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

Captulo 4. Campos aleatorios gaussianos con correlaciones


de largo alcance . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1. Motivacin del modelo . . . . . . . . . . . . . . . . . . . . . . . .
4.2. El modelo LC-GRF . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Propiedades bsicas del modelo LC-GRF . . . . . . . . . . . . . .
4.4. Estimacin de parmetros . . . . . . . . . . . . . . . . . . . . . .
4.4.1. Estimacin de mxima verosimilitud de , x y
. . . . .
4.4.2. Estimacin de las varianzas de la seal til y el ruido usando
el algoritmo EM . . . . . . . . . . . . . . . . . . . . . . .
4.5. Reduccin de ruido . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.1. Filtro de Wiener para el caso LC-GRF . . . . . . . . . . .
4.5.2. Performance terica del ltro de Wiener . . . . . . . . . .
4.6. Evaluacin experimental de los algoritmos . . . . . . . . . . . . .
4.6.1. Estimacin de , x y
. . . . . . . . . . . . . . . . . . .
4.6.2. Estimacin de las varianzas de la seal y el ruido a partir
de una muestra con ruido . . . . . . . . . . . . . . . . . .
4.7. Apndices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7.1. Demostracin de la funcin de Log-likelihood ( ; x ; ) .
4.7.2. Detalles del algoritmo EM . . . . . . . . . . . . . . . . . .
4.7.3. Demostracin de la Ganancia en la restauracin . . . . . .
Captulo 5. Aplicaciones al procesamiento de imgenes . .
5.1. Clasicacin de imgenes de Mirounga Leonina . . . . . . . .
5.1.1. Identicacin de individuos . . . . . . . . . . . . . . .
5.1.2. Clasicacin en harems . . . . . . . . . . . . . . . . . .
5.2. Corregistro de imgenes satelitales . . . . . . . . . . . . . . .
5.3. Anlisis sub-pxel de imgenes satelitales (Spectral Unmixing)
5.3.1. Imgenes utilizadas en los experimentos . . . . . . . .
5.3.2. Experimento con imagen simulada . . . . . . . . . . . .
5.3.3. Experimentos con imgenes reales . . . . . . . . . . . .
5.4. BSS y reduccin de ruido en imgenes astrofsicas . . . . . . .
5.4.1. Modelo matemtico . . . . . . . . . . . . . . . . . . . .
5.4.2. El mtodo Minimax Entropy . . . . . . . . . . . . .
5.4.3. Otra manera de estimar la imagen CMB . . . . . . . .
5.4.4. Experimentos sobre imgenes sintetizadas . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

69
70
70
71
74
75
75
76
78
79
80
82
84
85
86
87
87
89
91
91
91
92
95
95
95
97
98
101
102
105
105
109
109
110
112
112

Captulo 6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . 119


Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

Resumen
En esta tesis se desarrollan modelos matemticos y tcnicas para el tratamiento
de seales en dos dimensiones (imgenes) y se elaboran nuevos algoritmos para
la resolucin de problemas importantes en procesamiento de imgenes, como son:
la separacin ciega de fuentes (Blind Source Separation - BSS ), la reduccin de
ruido y el reconocimiento de patrones.
A modo introductorio, en la Seccin 2.1, se describen las propiedades del
mtodo estadstico de Anlisis de Componentes Principales (Principal Component Analysis - PCA), tambin conocido como Transformada Karhunen-Love
(Karhunen-Love Transformation - KLT ), y los mtodos derivados de l como
son: el Anlisis de Componentes Independientes (Independent Component Analysis - ICA) y Projection Pursuit - PP. Se presenta un anlisis detallado terico de
estos mtodos, basado en elementos de la teora de la informacin de Shannon,
estableciendo las conexiones entre: gaussianidad, entropa, informacin mutua e
independencia de las variables involucradas. En la Seccin 2.2, se describen los
mtodos de clasicacin de vectores en Rn utilizando distancias eucldeas mnimas, donde las bases ortonormales juegan un rol central y los mtodos de ortogonalizacin de vectores son de vital importancia. Se muestra que la KLT, sobre la que se basa el mtodo de las eigenfaces para la identicacin de patrones,
constituye un mtodo de ortogonalizacin ptimo. En la Seccin 2.3, se describen
las teoras existentes de campos aleatorios que permiten modelar las interacciones
entre pxeles en imgenes, incluyendo el modelo de Ising y los Campos Aleatorios
Gaussianos (Gaussian Random Fields - GRFs).
En los captulos 3 y 4 se introducen nuevos resultados tericos y se desarrollan
nuevos algoritmos, cuyas aplicaciones al procesamiento de imgenes son presentadas en el Cap. 5. Como una generalizacin de ICA, en el Cap. 3, se aborda
el problema de la separacin ciega de fuentes estadsticamente dependientes o
Anlisis de Componentes Dependientes (Dependent Component Analysis - DCA),
que es un nuevo campo de investigacin, con pocos antecedentes bibliogrcos e
importantes aplicaciones a la ingeniera. Se propone un nuevo algoritmo DCA, llamado MaxNG que permite la separacin de fuentes dependientes (Seccin 3.4).
Se presentan resultados tericos fundamentales para MaxNG, proveyendo una
condicin suciente sobre las fuentes, que garantiza la separabilidad a travs de
la maximizacin de la no-gaussianidad (NG) (Secin 3.3). Se propone una medida de la no-gaussianidad (NG) basada en la distancia en L2 (R), se utiliza el
estimador no-paramtrico de Parzen para aproximar las funciones de densidad de
probabilidad de las fuentes (pdf s) (Seccin 3.2) y se introducen nuevas tcnicas
de aproximacin que permiten calcular la medida NG de manera ptima a travs
de la transformada rpida de Fourier (Fast Fourier Transform - FFT ) (Seccin
3.4). Tambin se analiza la robustez de MaxNG ante la presencia de ruido aditivo gaussiano (Seccin 3.6) y se propone una solucin para el problema de la
indeterminacin de los factores de escala (Seccin 3.7).
En el Cap. 4, motivado por el problema del ruido en imgenes de origen

astrofsico, se analiza la reduccin de ruido gaussiano blanco aditivo (Additive


Gaussian White Noise - AGWN ) (Secin 4.2) presente en las fuentes estimadas
por MaxNG. Se propone un nuevo modelo gaussiano, el LC-GRF (Long Correlation - Gaussian Random Field), que permite modelar las correlaciones de largo alcance presentes en imgenes del CMB (Cosmic Microwave Background). A travs
del anlisis detallado de las propiedades de este modelo (Seccin 4.3), se elaboran tcnicas de estimacin de parmetros, basadas en el criterio de mxima
verosimilitud (Maximum Likelihood - ML) y en el algoritmo EM (ExpectationMaximization) (Seccin 4.4). Adems, se construye el ltro ptimo de Wiener que
permite restaurar las imgenes del CMB distorsionadas con ruido aditivo gaussiano blanco (Seccin 4.5).
En el Cap. 5, se presentan las siguientes aplicaciones al procesamiento de imgenes:
i) Clasicacin de imgenes de Mirounga Leonina (Seccin 5.1);
ii) Corregistro de imgenes satelitales (Seccin 5.2);
iii) Anlisis sub-pxel de imgenes satelitales hiper-espectrales (Seccin 5.3);
iv) Separacin de fuentes y reduccin de ruido en imgenes de origen astrofsico
(Seccin 5.4).
A continuacin se especican los aportes originales de esta tesis haciendo referencia a las publicaciones emanadas de la misma:
Se desarroll un nuevo algoritmo denominado MaxNG que da solucin al
problema de la separacin ciega de fuentes dependientes (DCA) (Cap. 3). Se
obtuvieron resultados tericos que sustentan al mtodo y que permiten la
implementacin de MaxNG de manera eciente, en trminos de su complejidad computacional, y bajo la inuencia de ruido aditivo gaussiano. Adems,
se analiz experimentalmente el desempeo del algoritmo MaxNG en distintos escenarios, utilizando tanto datos simulados como reales, y comparndolo
con tcnicas ICA tradicionales [29, 30, 32, 33, 35].
Se introdujo un modelo de campo aleatorio gaussiano (GRF ) con correlaciones de largo alcance (LC-GRF ), se desarrollaron nuevas tcnicas de estimacin de parmetros basados en l y se dise un ltro reductor de ruido
gaussiano aditivo (Cap. 4) [34].
Se desarroll un algoritmo original para la clasicacin de especimenes de
Mirounga Leonina a partir de fotografas de sus rostros explotando las propiedades de la representacin de imgenes por KLT (Seccin 5.1) [26, 27].
Se desarroll un nuevo mtodo automtico para el corregistro de imgenes
satelitales, basado en la representacin por KLT, que fue aplicado a imgenes
de tipo radar (Seccin 5.2) [28].

Se utiliz el algoritmo MaxNG como nuevo mtodo de anlisis sub-pxel de


imgenes hiper-espectrales (Spectral Unmixing), mediante el cual es posible
estimar los porcentajes de ocupacin por pxel de los diversos materiales
que componen una imagen (agua, vegetacin, ladrillo, etc.) (Seccin 5.3). Se
realizaron experimentos sobre imgenes simuladas y reales demostrando la
efectividad del mtodo y comparndolo con tcnicas tradicionales basadas
en ICA [33, 35].
Se desarroll un nuevo algoritmo llamado Minimax Entropy basado en
MaxNG, especialmente diseado para la separacin ciega de imgenes de
origen astrofsico (Seccin 5.4). Se realizaron experimentos sobre imgenes
simuladas demostrando la efectividad del mtodo y comparndolo con tcnicas tradicionales basadas en ICA [32].
Se utiliz el modelo LC-GRF para modelar las correlaciones de largo alcance
existentes en imgenes del Cosmic Microwave Background (CMB) y para
desarrollar un ltro reductor de ruido de Wiener (Seccin 5.4) [34].

Abstract
In this thesis, mathematical models and techniques for processing two-dimensional signals (images) are developed and new algorithms are proposed for solving important problems in image processing such as: Blind Source Separation
- BSS, noise reduction and pattern recognition. As an introduction, in Section
2.1, main properties of the Principal Component Analysis - PCA method, also
known as Karhunen-Love Transformation - KLT, are described together with the
analysis of related methods as: Independent Component Analysis - ICA and Projection Pursuit - PP. A detailed theoretical analysis is made based on elements
of the Shannon information theory, stating the connections among: Gaussianity, entropy, mutual information and independence of variables. In Section 2.2,
classication methods for vectors in Rn by using minimum Euclidean distances
are described, where orthonormal bases and orthogonalization methods are very
important. It is shown that KLT, on which the eigenfaces technique for pattern
recognition is based, is the optimal method. In Section 2.3, random eld theories
are described allowing to model pixel interactions in images including the Ising
model and Gaussian Random Fields -GRFs as particular cases.
In chapters 3 and 4 new theoretical results are introduced, and new algorithms
are developed with applications to image processing as presented in Chapter 5.
As a generalization of ICA, in Chapter 3, blind separation of statistically dependent sources (Dependent Component Analysis - DCA) is approached, which is
a new eld of research with few previous works in the literature and with important applications to engineering. A new DCA algorithm is proposed, namely
MaxNG, which allows the separation of dependent sources (Section 3.4). New
fundamental theoretical results are presented, providing a su cient condition on
the sources that guarantees their separability through the maximization of NonGaussianity (NG) (Section 3.3). An NG measure based on the L2 (R) distance is
proposed, a non-parametric Parzen estimator is used to estimate the source probability density functions (pdfs) (Section 3.2) and new approximation techniques
are proposed to compute the NG measure in an optimized way through the Fast
Fourier Transform - FFT (Section 3.4). Additionally, the robustness of MaxNG
in noisy environments is analysed (Section 3.6) and a solution for the scale factor
indeterminacy is provided (Section 3.7).
In Chapter 4, motivated by the noise problem in astrophysical images, the
reduction of Additive Gaussian White Noise - AGWN in sources estimated by
MaxNG is analyzed (Section 4.2). A new Gaussian model is proposed, namely
the Long Correlation - Gaussian Random Field (LC-GRF), which allows to model
long range interactions existing in Cosmic Microwave Background - CMB images.
Through a detailed analysis of model properties (Section 4.3), new techniques
for parameter estimation are developed based on the Maximum Likelihood - ML
criterion and the Expectation - Maximization (EM) algorithm (Section 4.4). Additionally, the optimal Wiener lter is derived for the restoration of CMB images
distorted with AGWN (Section 4.5).

In Chapter 5, the following applications to image processing are presented:


i) Classication of Mirounga Leonina images (Section 5.1);
ii) Corregistration of remote-sensed images (Section 5.2);
iii) Sub-pixel analysis of hyper-spectral remote-sensed images (Section 5.3);
iv) Source separation and noise reduction in astrophysical images (Section 5.4).
Following, the novel contributions included in this thesis are mentioned, including the corresponding publication references:
A new algorithm for DCA, called MaxNG, was developed (Chapter 3). Theoretical results are provided justifying the method and providing an e cient
implementation of MaxNG, in terms of its computational complexity and
under the inuence of additive Gaussian noise. Furthermore, an experimental analysis of the MaxNG performance in dierent scenarios is provided, by
using simulated data as well as real data, and comparing it with traditional
ICA solutions [29, 30, 32, 33, 35].
A new model of GRF with long correlations was introduced (LC-GRF) and
new techniques of parameter estimation were developed based on it, also a
noise reduction lter was designed (Chapter 4) [34].
A novel algorithm for the classication of face images of Mirounga Leonina,
using properties of the KLT representation (Section 5.1) [26, 27].
A new algorithm for automatic corregistration of remote-sensed images was
developed by using the KLT representation, which was applied to radar
images (Section 5.2) [28].
A new method for sub-pixel analysis of hyper-spectral images (Spectral Unmixing) based on MaxNG was proposed for the estimation of the percent
contributions per pixel of several materials present in an image (water, vegetation, bricks, etc.) (Section 5.3). Experiments on simulated and real images
are provided, showing the usefulness of the method and comparing it with
traditional techniques based on ICA [33, 35].
A new algorithm, called Minimax Entropy, based on MaxNG was developed, which was especially designed for the blind separation of astrophysical
images (Section 5.4). Experiments on simulated images are provided showing
the usefulness of the method and comparing it with traditional techniques
based on ICA [32].
The LC-GRF model was used for modelling the long correlations existing in
Cosmic Microwave Background - CMB images and used for the development
of a noise reduction Wiener lter (Section 5.4) [34].

Agradecimientos
Deseo expresar mi agradecimiento a mi directora de tesis Dra. Araceli Proto,
por haberme brindado la posibilidad de iniciarme en la actividad cientca desarrollando mi investigacin en el Laboratorio de Sistemas Complejos, Facultad
de Ingeniera, UBA. Tambin quiero agradecer al Dr. Nestor Barraza (Facultad
de Ingeniera - UBA) por su permanente disposicin y valiosos comentarios a los
resultados de esta tesis y a mi co-director de tesis, Dr. Christian Barbier (Centre Spatial de Lige, Universit de Lige, Blgica) por su colaboracin. Adems,
quiero agradecer a los investigadores Emanuele Salerno y Ercan Kuruo
glu del Signal & Images Laboratory of ISTI - CNR (Consiglio Nazionale delle Ricerche),
Pisa, Italia, de quienes he recibido valiosas sugerencias y acertados aportes a la
investigacin de mi tesis. Finalmente, quiero agradecer a la Facultad de Ingeniera
y la Universidad de Buenos Aires (UBA) por haberme permitido dedicarme, de
manera exclusiva, al trabajo de investigacin a travs de la beca doctoral Peruilh
(2004 - 2007).

Notacin
Abreviaturas:
AGWN
Additive Gaussian White Noise
BSS
Blind Source Separation
cdf
Cumulative Distribution Function
CM
Conditional Model
CMB
Cosmic Microwave Background
DASP
Distancia Al Subespacio de Patrones
DCA
Dependent Component Analysis
DESP
Distancia En el Subespacio de Patrones
2D-DFT Two Dimensional - Discrete Fourier Transform
DFT
Discrete Fourier Transform
DUST
Thermal Dust
EM
Expectation / Maximization
FFT
Fast Fourier Transform
GM
Gaussianity Measure
FD
Filtro Decorrelador
GRF
Gaussian Random Field
ICA
Independent Component Analysis
KLT
Karhunen-Love Transformation
LC-GRF Long Correlation - Gaussian Random Field
l.i.
linealmente independientes
ML
Maximum Likelihood
MI
Mutual Information
MISE
Mean Integrated Square Error
MRF
Markov Random Field
MSE
Mean Squared Error
NG
No-gaussianidad
PCA
Principal Component Analysis
pdf
Probability Density Function
PP
Projection Pursuit
SAR
Simultaneous Autorregressive
SE
Shannon Entropy
SIR
Signal to Interference Ratio
SNR
Signal to Noise Ratio
SYN
Synchrotron

Smbolos matemticos:
x2R
x 2 Rn
A 2 Rm p
xT 2 R1 n
U 2 Cm p
U H 2 Cp m
jDj = det [D]
hx; yi
kxk
d(x; y)

x?y
M?
fx (x)
fxjy (xjy)
fey (!)

fz (z; ; )
fxy (x; y)
fx (x)
fxjy (xjy)
fxi (xi )
E[ ]

x
x
H(x)
I(x)
J (x)
Cxx 2 Rm m
Ay 2 R p m
s0i 2 R, s0 2 Rp
u^ 2 R, u
^ 2 Rp
fxi;j g
e = DF T fxg
x

Variable escalar
Vector real de dimensin n
Matriz real de m p (las columnas)
Vector transpuesto (matriz de 1 n)
Matriz compleja de m p (las columnas)
Matriz transpuesta y conjugada (operador hermtico)
Determinante de la matriz D
Producto interno de vectores, en Rn : hx; yi = xT y
p
Norma del vector x, en Rn : kxk = hx; xi
Distancia entre vectores x e y, la distancia inducida por
una norma es d(x; y) = kx yk
x es ortogonal a y, i.e. hx; yi = 0
Subespacio ortogonal al subespacio M
pdf de la variable x
pdf de la variable x condicionada a la variable y
Transformada de Fourier de la pdf fy (y)
pdf de la variable z con parmetros y
pdf conjunta de las variables x e y
pdf conjunta del vector x
pdf del vector x condicionado al vector y
pdf marginal de la variable xi
Operador esperanza que puede aplicarse a escalares,
vectores o matrices, por ej. E[x], E[x] o E[xxT ]
Desviacin estndar
Vector medio, denido por x = E[x]
Vector no-correlacionado obtenido con un FD
Entropa de Shannon del vector x
Informacin mutua del vector x
Negentropa del vector x
Matriz de covarianzas del vector x 2 Rm
Matriz pseudo inversa o de Moore-Penrose asociada a A
Variables centradas, i.e. s0i = si si y s0 = s s
Estimaciones del escalar u 2 R y del vector u 2 Rp
Campo de variables aleatorias con i; j = 0; 1; ::; m 1
Forma vectorial de la transformada discreta de Fourier
en 2D del campo aleatorio fxi;j g

15

Captulo 1

Introduccin
En esta tesis se desarrollan modelos matemticos para el tratamiento de seales
en dos dimensiones (imgenes) y se proponen nuevos algoritmos para la resolucin
de problemas importantes en procesamiento de imgenes como son: la separacin
ciega de fuentes (Blind Source Separation - BSS ), la reduccin de ruido y el reconocimiento de patrones.
La estructura matemtica ms adecuada para modelar imgenes digitales depende del problema especco que se quiera resolver y del modelo fsico que interviene en el proceso de captura de las imgenes. Por ejemplo, cuando las imgenes
adquiridas por un dispositivo electrnico estn compuestas por una combinacin
lineal de imgenes primarias (o fuentes), es importante disear tcnicas para la
estimacin de las fuentes a travs del anlisis de las propiedades matemticas de
las seales y sus mezclas. Este problema ha sido la motivacin principal, durante
los ltimos aos, para el desarrollo de la teora de del Anlisis de Componentes
Independientes (Independent Component Analysis - ICA) [47, 76].
En ICA, a cada seal se le suele asociar una variable xi 2R que como tal,
tiene asociada una pdf fxi (xi ) (probability density function). En el caso de imgenes, cada uno de los pxeles representan muestras de esa variable xi (0), xi (1),
xi (2), ...., etc. Este modelo permite explotar los resultados de la teora de probabilidades y en particular, los resultados de la Teora de la Informacin de
C. Shannon [51, 114]. Dada una imagen o conjunto de imgenes, es posible estimar probabilidades, momentos estadsticos, entropas, informacin mutua, etc.
Existe una conexin natural entre los modelos para ICA y las herramientas de
anlisis estadstico de datos multidimensionales como son el Anlisis de Componentes Principales (Principal Component Analysis - PCA), la transformada de
Karhunen-Love (Karhunen-Love Transformation - KLT ) y Projection Pursuit PP, las cuales se analizan en la Seccin 2.1.
Otro ejemplo de modelo matemtico aparece cuando se analizan tcnicas de
reconocimiento de patrones en imgenes 2D (como se ejemplica en [122]). En este
caso las imgenes digitales son elementos del espacio vectorial Rn . El espacio de
las imgenes de n1 n2 pxeles es mapeado a un espacio de vectores de dimensin
n = n1 n2 (Rn1 n2 ! Rn ). A su vez, cuando se trabaja con el espacio Rn , es
posible hacer un anlisis determinstico o probabilstico. En el caso de un modelo
determinstico en Rn , es posible aplicar los resultados de la Teora de Espacios Mtricos con dimensin nita (o lgebra Lineal clsica) [68, 100] que
implica la utilizacin de elementos propios de esta teora, como son: las transformaciones lineales, las proyecciones ortogonales, los subespacios lineales, las distancias,
etc. De esta manera, se elaboran tcnicas de clasicacin de vectores basados en
distancias mnimas en Rn como se discute en la Seccin 2.2.
Por otro lado tambin es posible hacer un anlisis probabilstico de imgenes en

16

Rn . En este caso, una imagen dada es considerada como una muestra de un vector
aleatorio x 2Rn que como tal, tiene asociada una pdf conjunta fx (x). La Teora
de Campos Aleatorios [17, 25, 66] permite analizar y modelar las interacciones
existentes entre pxeles, ya que en las imgenes reales los pxeles vecinos tienden a
parecerse. Como ejemplos de estos modelos podemos citar el modelo de Ising [31,
72], los campos aleatorios de Markov (Markov Random Fields - MRF s) [25, 62]
y los campos aleatorios gaussianos (Gaussian Random Fields - GRF s) [15, 25,
42, 102] que son discutidos en la Seccin 2.3.
En esta tesis se introducen avances tericos en los modelos matemticos mencionados y se proponen nuevos algoritmos para el procesamiento de imgenes. Se
analiza tericamente el problema del reconocimiento de patrones permitiendo la
adaptacin de la tcnica conocida como Mtodo de las eigenfacespara la clasicacin de fotografas de especimenes de Mirounga Leonina y para el desarrollo
de un nuevo algoritmo de corregistro de imgenes satelitales. En BSS, se analiza
el caso particular de la separacin de seales dependientes derivndose un algoritmo original (Maximum Non-Gaussianity - MaxNG) con aplicaciones directas en
imgenes satelitales hiper-espectrales e imgenes astrofsicas. Dentro de la teora
de campos aleatorios gaussianos, se propone un modelo con correlaciones de largo
alcance, el LC-GRF (Long Correlated - Gaussian Random Field), se proponen
algoritmos para la estimacin de los parmetros y se muestra su aplicacin en la
reduccin de ruido en imgenes astrofsicas.
En la TABLA 1.1 se resumen los modelos utilizados en esta tesis, haciendo
referencia a los captulos donde se utilizan. Adems, se muestran ejemplos de
aplicacin originales en procesamiento de imgenes los cuales son desarrollados en
detalle en el Cap. 5.
Esta tesis est organizada de la siguiente manera:
En el Cap. 2 se discuten algunas de las herramientas matemticas existentes
para el tratamiento de imgenes. Se presentan los resultados previos ms relevantes
y se establecen las conexiones entre ellos con demostraciones originales sobre resultados importantes. La Seccin 2.1 presenta la teora de los mtodos estadsticos
para el anlisis de datos multidimensionales, entre los cuales se incluyen: el Anlisis de Componentes Principales (PCA), la Transformacin de Karhunen-Love
(KLT ), Projection Pursuit (PP) y el Anlisis de Componentes Independientes
(ICA). La Seccin 2.2 presenta las deniciones y resultados bsicos provenientes
de la teora de espacios vectoriales de dimensin nita donde, para un conjunto de
vectores patrones de Rn , se denen subespacios lineales, distancias, proyecciones
ortogonales y otros conceptos importantes para el posterior desarrollo de tcnicas de reconocimiento de patrones en Rn . Se analiza tambin el problema de la
ortogonalizacin de vectores y se demuestra que la KLT puede ser interpretada
como un mtodo de ortogonalizacin de vectores ptimo. La Seccin 2.3 presenta
los modelos de campos aleatorios ms relevantes con antecedentes de aplicacin al
tratamiento de imgenes incluyendo a: los campos aleatorios de Markov (MRF s),
el modelo de Ising, y los campos aleatorios gaussianos (GRF s).
En el Cap. 3 se presenta el problema de la separacin ciega de fuentes depen-

17

18

dientes (DCA), que representa un nuevo rea de investigacin con pocos antecedentes bibliogrcos. Se introduce un nuevo algoritmo para la resolucin de
este problema, llamado MaxNG, que utiliza el criterio de maximizacin de la
no-gaussianidad (NG) de las seales estimadas. Se propone una medida NG basada en la distancia en L2 (R) y se utiliza el estimador no-paramtrico de Parzen
para la funcin de densidad de probabilidad (pdf ) que se implementa, de manera ptima, a travs de la transformada rpida de Fourier (FFT ). Tambin se
analiza la robustez de MaxNG ante la presencia de ruido aditivo gaussiano y se
introduce una solucin para el problema de la indeterminacin de los factores de
escala en las estimaciones de las fuentes. A los efectos de demostrar la performance de MaxNG, se presentan resultados experimentales sobre datos simulados
comparando los resultados con los obtenidos a travs de algoritmos tradicionales
ICA.
En el Cap. 4 se introduce un modelo gaussiano, denominado LC-GRF, que
permite modelar interacciones entre pxeles con correlaciones de largo alcance. Se
analizan las propiedades del modelo y se elaboran algoritmos para la estimacin
de los parmetros utilizando el criterio de mxima verosimilitud (Maximum Likelihood - ML) y el algoritmo EM (Expectation-Maximization). Se deriva analticamente la expresin del ltro de Wiener para la restauracin de imgenes LC-GRF
contaminadas con ruido gaussiano blanco. Tambin se presentan resultados experimentales sobre datos simulados que muestran la efectividad de los algoritmos de
estimacin de parmetros y del ltro de Wiener.
En el Cap. 5 se presentan ejemplos de aplicacin de las teoras y algoritmos
desarrollados en los captulos anteriores, a problemas especcos en procesamiento de imgenes. Se aplica una tcnica de reconocimiento de patrones basada en
la transformacin de Karhunen-Love (KLT ) al reconocimiento de individuos de
Mirounga Leonina y al corregistro de imgenes satelitales. Adems, se aplica el algoritmo MaxNG para realizar anlisis sub-pxel (Spectral Unmixing) de imgenes
satelitales hiper-espectrales, tambin se muestra su aplicacin en la separacin
de fuentes de radiacin dependientes en imgenes de origen astrofsico. Se muestran los resultados de la aplicacin del ltro de Wiener, basado en el modelo de
campos aleatorios gaussianos con correlaciones de largo alcance (LC-GRF ), para
la reduccin de ruido gaussiano en imgenes del Cosmic Microwave Background
(CMB).
Finalmente, en el Cap. 6, se discuten los resultados de esta tesis, se resaltan
los aportes originales de la misma y se discuten las nuevas lineas de investigacin
abiertas a partir de esta tesis.

19

Captulo 2

Aspectos tericos: resultados previos


A continuacin se presentan y analizan los resultados previos fundamentales
que son la base de los modelos y algoritmos que se desarrollan en los captulos 3,
4 y 5 de esta tesis.

2.1.

Mtodos estadsticos y Anlisis de Componentes Independientes

En esta seccin se presentan las conexiones entre el Anlisis de Componentes


Principales (PCA), la transformacin de Karhunen-Love (Karhunen-Love Transformation - KLT ), Projection Pursuit - PP, y las tcnicas de procesamiento
de seales de Anlisis de Componentes Independientes (ICA) utilizadas en la
separacin ciega de fuentes (BSS ). Estos mtodos, se basan en las propiedades
matemticas que resultan de aplicar una transformacin lineal a un vector aleatorio x = [x0 x1 ::xm 1 ]T 2 Rm cuya funcin de densidad de probabilidad conjunta
(joint probability density function - pdf ) es fx (x).
2.1.1.

Anlisis de Componentes Principales - PCA (o KLT )

El Anlisis de Componentes Principales (Principal Component Analysis


- PCA) es una herramienta matemtica muy conocida, con aplicaciones en diversas reas de la ciencia. Esta tcnica de anlisis estadstico de datos multidimensionales, fue introducida originalmente por Pearson en 1901 en un contexto biolgico
[108], y desarrollada posteriormente por Hotelling en trabajos de psicometra [71].
La tcnica PCA es tambin conocida como la transformacin de Karhunen-Love
(Karhunen-Love Transformation - KLT ) debido a que fue desarrollada de manera
independiente por Karhunen [82] y generalizada posteriormente por Love [95].
La KLT o PCA juega un rol fundamental en las tcnicas modernas de procesamiento de seales, con aplicaciones a la compresin de datos [56, 87, 126], al reconocimiento de patrones en imgenes [106, 122], a la fusin de imgenes satelitales
[40], etc. Tambin es utilizada en algoritmos de redes neuronales [3, 47, 104, 105].
A continuacin se introduce una denicin formal de la KLT [47, 76]:
Transformada de Karhunen-Love (KLT ): Dado un vector aleatorio x =
[x0 x1 ::xm 1 ]T 2 Rm , con momentos de segundo orden nitos, se dene la KLT
como la transformacin lineal de x:
y =V T x

(2.1)

donde y = [y0 y1 ::yp 1 ]T 2 Rp (p


m) es el vector transformado, y la matriz
V = [v0 v1 ::vp 1 ]T 2 Rm p se forma colocando en las columnas los primeros p
autovectores normalizados de la matriz de covarianzas Cxx = E[(x x) (x x)T ],

20

ordenados por orden decreciente de sus autovalores no nulos asociados, i.e., 0


::
1
p 1 > 0.
Existe una serie de propiedades muy importantes de la KLT que se resumen
a continuacin, cuyas demostraciones pueden encontrarse en la literatura [47, 54,
76, 78] pero que, dada su importancia, se incluyen algunas a continuacin:
Propiedad I: Las variables aleatorias transformadas y0 ; y1 ; ::; yp
correlacionadas, es decir, poseen covarianzas nulas
E[(yi

yi ) (yj

yj )] = 0 8 i 6= j

son no-

(2.2)

Dem. Se aplica el operador esperanza a la ecuacin (2.1) y se obtiene


y =V T x. Usando este resultado junto con (2.1), se calcula la matriz de covarianzas de las variables transformadas
Cyy = E[(y

y) (y

y)T ] = V T E[(x

x) (x

x)]V = V T Cxx V

(2.3)

Debido a que la transformacin V T ha sido elegida de manera que diagonaliza


a la matriz de covarianza Cxx , se obtiene que Cyy = con siendo una
matriz diagonal cuyos elementos de la diagonal principal estn dados por los
autovalores 0 ; 1 ; ::; p 1 . Por lo tanto queda demostrado que las variables
transformadas y0 ; y1 ; ::; yp 1 son no-correlacionadas.
Propiedad II: Las variables y0 ; y1 ; ::; yp 1 corresponden a proyecciones de
las variables originales en las direcciones de mxima (o mnima) varianza.
Es decir, de todas las posibles proyecciones y = vT x, la varianza de y resulta
mxima (o mnima) si se elige la direccin dada por los autovectores de la
matriz de covarianzas, i.e., v = vi . Adems, las varianzas de las variables
y0 ; y1 ; ::; yp 1 estn dadas por los autovalores i asociados a los autovectores
vi .
Dem. Debido a que los vectores de proyeccin v deben tener norma unitaria,
se utiliza el mtodo de los multiplicadores de Lagrange para maximizar (o
minimizar) la varianza de y con la condicin vT v = 1. Por lo tanto, se desea
maximizar (minimizar) la siguiente funcin del vector v:
J(v) = E (y
= vT Cxx v

y)2

vT v

(2.4)

vT v

donde es el multiplicador de Lagrange asociado. Se plantea el gradiente de


la funcin J(v) y se iguala a cero
rv J(v) = Cxx v

v=0

(2.5)

de donde se obtiene inmediatamente que Cxx v = v. Es decir, si se elige


a v como un autovector de Cxx , entonces la proyeccin obtenida es la de

21

mxima (o mnima) varianza posible, adems, el multiplicador de Lagrange


resulta ser igual al autovalor asociado a v. Cabe sealar que la matriz Cxx
es simtrica y por lo tanto los autovectores asociados a autovalores distintos
son ortogonales [100]. Finalmente, se calcula la varianza de cada una de las
variables proyectadas en las direcciones de los autovectores y se obtiene:
E (yi

yi )2 = viT Cxx vi =

T
i vi vi

(2.6)

Propiedad III: Dado un vector cualquiera x0 2 Rm , la aproximacin de


orden p dada por el desarrollo en la base ortonormal denida por los p
autovectores de Cxx ms relevantes, i.e.
x
^0 = x+

p 1
X

(2.7)

ci vi

i=0

con ci = (x0 x)T vi ; es una representacin ptima en el sentido que minimiza el error cuadrtico medio E kx0 x
^ 0 k2 .
Dem. Dada una base ortonormal arbitraria de Rm
vector cualquiera puede escribirse como [64]
x
^0 = x+

p 1
X

w0 ; w1 ; ::; wm

, un

(2.8)

ci wi

i=0

donde ci = (x0 x)T wi . Si se realiza un truncamiento del desarrollo conservando los primeros p trminos, se observa que el error cuadrtico medio
queda escrito en funcin de los ltimos m p vectores de la base, ms precisamente:
2
3
2
m
1
X
E kx0 x
^0 k2 = E 4
ci wi 5
(2.9)
i=p

y, usando propiedades bsicas de las bases ortonormales, se obtiene:


"m 1 # m 1
m
X
X
X1
2
2
T
2
E kx0 x
^0 k = E
ci =
E (x0 x) wi
=
wiT Cxx wi
i=p

i=p

i=p

(2.10)
En [54, 76] se demuestra que la minimizacin de la ecuacin (2.10), con la
condicin de ortonormalidad de los vectores wi , se obtiene considerando la
base ortonormal dada por los primeros p autovectores de la matriz de covarianzas, ordenados de manera decreciente, i.e. 0
::
1
p 1 . Adems,
el error cuadrtico medio est dado por la sumatoria de los autovalores no
considerados en la expansin, i.e.,
E kx0

x
^0 k

m
X1
i=p

(2.11)

22

La Propiedad III muestra claramente la importancia de la KLT como tcnica


para la reduccin de la dimensin de un conjunto de datos ya que, usualmente en
las aplicaciones, la matriz de covarianzas contiene solo unos pocos autovalores relevantes y puede considerarse p << m con un error cuadrtico medio despreciable.
Esto permite transformar los datos originales de dimensin elevada, en un nuevo
conjunto de dimensin reducida donde las caractersticas intrnsecas de los datos
originales se conservan [78].
Debido a que las variables transformadas son no-correlacionadas, a veces la
KLT es utilizada como un paso de procesamiento previo y toma el nombre de
Filtro Decorrelador - FD (o whitening lter en la bibliografa en idioma ingls
[76]). En el caso que sea necesario que las variables transformadas, adems de
ser no-correlacionadas, tengan varianza unitaria Cyy = I se obtiene la siguiente
transformacin:
1
T
2V
x
(2.12)
y=
donde
es la matriz diagonal con los autovalores relevantes denida anteriormente.
Usualmente en las aplicaciones no se conoce directamente la matriz de covarianzas Cxx por lo que se utiliza su estimacin a partir de un conjunto de n
muestras: x(0), x(1), .., x(n 1); i.e.
1X
(x(i)
C^xx =
n i=0
n 1

x) (x(i)

x)T

(2.13)

Esta estimacin puede calcularse directamente a partir del conjunto de muestras disponibles e incluso, para aplicaciones en tiempo real, donde las muestras
arriban secuencialmente, se puede estimar la matriz de covarianzas de manera recursiva [47], es decir, estimando la matriz de covarianzas para n muestras a partir
de la estimacin sobre n 1 muestras.
Adems, si bien existen algoritmos ecaces para el clculo de autovectores y
autovalores de matrices simtricas (por ejemplo, a travs del mtodo de las reducciones de Householder [111]), existen algoritmos provenientes del rea de redes
neuronales, que proponen la bsqueda de las componentes principales a travs
de algoritmos adaptativos [3, 44, 45]. En estos algoritmos, usualmente se buscan
los extremos (mximos o mnimos) de una funcin a travs de aproximaciones
sucesivas en lo que se llama un proceso de aprendizaje de la red neuronal [104].
Otro aspecto importante de la KLT es que, debido a que es la base ortonormal
ptima en el sentido de la Propiedad III, existen numerosos mtodos de compresin
de datos que han sido basados en ella. Probablemente, el primer trabajo en el
que se introduce este concepto data de 1956 [87]. Posteriormente se propusieron
aproximaciones a la KLT a travs de transformaciones trigonomtricas rpidas,
dando origen a la transformada coseno discreta (Discrete Cosine Transform DCT ) en 1974 [2]. Esta ltima fue la base del estndar de compresin de imgenes

23

JPEG (Joint Photographic Experts Group) [92]. Ms recientemente, el desarrollo


de la teora wavelets [99] permiti la elaboracin de algoritmos ms ecaces para
aproximar la KLT a travs de trasformadas wavelet [56, 123, 126] sobre los cuales
se basa el nuevo estndar JPEG 2000 [92].
2.1.2.

Projection Pursuit - PP

En problemas de clasicacin [57], uno de los principales objetivos es reducir la


dimensin del conjunto de datos disponible. El anlisis de los datos en bajas dimensiones es ms manejable y es ms sencillo calcular histogramas o gracar datos en
dos o tres dimensiones [79]. De hecho, como hemos visto, PCA es una tcnica que
reduce la dimensin usando las direcciones de proyeccin, en las cuales los datos
proyectados tienen varianza mxima (Propiedad II) y, adems, las direcciones resultan ortogonales. Como una alternativa a PCA, durante aos, se propusieron
diferentes criterios para denir cundo una direccin es ms interesante que
otra deniendo el concepto de ndice de proyeccin y proponiendo varias formas
de calcularlo.
Los primeros trabajos con estas ideas aparecieron a nes de los 1960s y en los
1970s [90, 91], sin embargo, la tcnica se consolid con el trabajo de Friedman &
Tukey publicado en 1974 [60] quienes la bautizaron con el nombre de Projection
Pursuit - PP. Recientemente, surgi un renovado inters en estos trabajos debido
a la conexin entre PP e ICA [75, 76].
A continuacin, se presenta una denicin de PP estructuralmente anloga a
la denicin de KLT :
Projection Pursuit - PP: Dado un vector aleatorio x 2 Rm , x = [x0
x1 ::xm 1 ]T , PP se dene como la transformacin lineal de x dada por:
y =V T x

(2.14)

donde y = [y0 y1 ::yp 1 ]T 2 Rp (p


m) es el vector transformado, y la matriz
T
m p
V = [v0 v1 ::vp 1 ] 2 R
se forma colocando en las columnas, los p vectores de
proyeccin cuyos ndices de proyeccin sean mximos.
Para poder completar la denicin de PP, es necesario precisar de qu manera
se mide cun interesante es una proyeccin. En la literatura se han introducido,
de manera emprica, varios ndices de proyeccin [60, 73].
A diferencia de PCA, en PP los vectores de proyeccin pueden ser no ortogonales y no se requiere que la varianza sea mxima. En general, los ndices de
proyeccin suelen involucrar a los momentos estadsticos de orden superior, por lo
que se dice que, a diferencia de PCA, PP utiliza informacin ms all de la matriz
de covarianzas.
Matemticamente, un ndice de proyeccin qv asociado al vector v se dene
como una funcional de la distribucin de los datos proyectados:
qv =

[fy (y)]

(2.15)

donde [ ] es la funcional y fy (y) es la pdf de los datos proyectados y = vT x.


Por ejemplo, algunos ndices de proyeccin utilizados en PP son: el ndice de

24

Friedman-Tuckey [60, 79]:


qv =

fy2 (y) dy ;

(2.16)

la entropa de Shannon, tambin conocida como entropa de Boltzman-Gibbs en


mecnica estadstica [73, 79]:
Z
qv =
fy (y) log [fy (y)] dy ;
(2.17)
el ndice de Hall [67], basado en la distancia en L2 , i.e.:
Z
qv =
[fy (y)
(y)]2 dy

(2.18)

con (y) siendo la pdf de Gauss; adems, existen otros ndices que estn basados
en el clculo de momentos de orden superior a dos, como es el caso del coeciente
de asimetra o momento de 3er orden (skewness), o el momento de 4to orden
(kurtosis) [79].
La eleccin de la funcional ms adecuada no es sencilla, y pueden denirse una
serie de caractersticas necesarias para que un ndice de proyeccin sea considerado
como tal [73]. Sin embargo, es aceptable asumir que las direcciones en las cuales la
distribucin de los datos es cercana a la gaussiana son denitivamente poco interesantes[61, 73]. Esto motiv a los investigadores a proponer diferentes ndices
de proyeccin basados en medidas de la no-gaussianidad (NG), lo cual puede hacerse de muchas formas obteniendo propiedades y caractersticas diferentes para
cada alternativa. Por ejemplo, en [129] se presenta una comparacin de distintas
medidas de NG basadas en tres diferentes normas denidas sobre el espacio de
funciones L2 [61].
2.1.3.

Separacin ciega de fuentes independientes (ICA)

El Anlisis de Componentes Independientes (Independent Component Analysis


- ICA) es una tcnica que surgi en los 1990s para dar solucin a problemas de separacin ciega de fuentes (Blind Source Separation - BSS), un rea relativamente
nueva en el procesamiento de seales con innidad de aplicaciones en la ingeniera actual [47, 76]. El nombre ICA proviene de una generalizacin del trmino
PCA. En PCA se descomponen las variables observadas x0 ; x1 ; ::; xm 1 como combinaciones lineales de las variables no-correlacionadas y0 ; y1 ; ::; yp 1 (componentes
principales). La no-correlacin de las componentes principales no implica que sean
independientes, de hecho existen innitas descomposiciones en componentes nocorrelacionadas de las cuales PCA es slo un caso particular. Puede demostrarse
fcilmente que la independencia implica la no-correlacin pero la recproca no es
cierta en general [59].
A continuacin se introduce una denicin formal de ICA.
Anlisis de Componentes Independientes (ICA): Dado un vector aleatorio x 2 Rm , x = [x0 x1 ::xm 1 ]T , ICA se dene como la transformacin lineal de
x dada por:
y =V T x
(2.19)

25

Figura 2.1. Modelo ICA

donde y = [y0 y1 ::yp 1 ]T 2 Rp ( p


m) es el vector transformado, y la matriz
V = [v0 v1 ::vp 1 ]T 2 Rm p se forma colocando en las columnas, los p vectores de
proyeccin que minimizan la dependencia estadstica entre las variables proyectadas. Cabe aclarar que las variables aleatorias y0 ; y1 ; ::; yp son independientes,
cuando la pdf conjunta puede escribirse como producto de las pdfs marginales,
i.e.,
(2.20)
fy0 ;y1 ;::;yp (y0 ; y1 ; ::; yp ) = fy0 (y0 ) fy1 (y1 ) :: fyp (yp )
2.1.4.

Resultados tericos en ICA: conexiones con la Teora de la Informacin de Shannon, PP y KLT.

La aplicacin principal de ICA es la separacin ciega de fuentes (BSS ), donde


las seales observadas estn compuestas por combinaciones de las seales fuente.
ICA permite estimar las seales fuente cuando stas son estadsticamente independientes, que es el caso ms comn en la literatura ([76] y todas las referencias
all incluidas).
Asumiendo mezclas de tipo lineal, el modelo matemtico de ICA con m sensores
y p fuentes (Fig. 2.1), puede ser expresado matricialmente como:
x = As

(2.21)

donde x = [x0 x1 ::xm 1 ]T 2 Rm es el vector de variables asociadas a observaciones


(seales visibles), s = [s0 s1 ::sP 1 ]T 2 Rp es el vector de variables asociadas a
las fuentes independientes (seales invisibles u ocultas) y A 2 Rm p contiene los
coecientes o pesos con los cuales las fuentes son combinadas.
En ICA, la estimacin de las fuentes ^
s a partir de sus mezclas x, es ciega en
el sentido que la matriz de mezcla A es desconocida. De hecho si se conociera, la
estimacin de las fuentes ^
s podra calcularse, por ejemplo, utilizando la pseudo
inversa o matriz de Moore-Penrose Ay = (AT A) 1 AT [57] a travs de ^
s = Ay x.
En 1994 Comon present la teora que justica ICA como mtodo para la
separacin ciega de fuentes independientes [49].
Los resultados tericos de ICA ms importantes encontrados en la literatura
son:
No-gaussianidad (NG) de las fuentes: Las fuentes deben ser no-gaussianas para que ICA est bien planteado. Ms precisamente, como mximo,
puede existir slo una fuente con distribucin gaussiana. Esta restriccin

26

proviene del hecho que la combinacin lineal de gaussianas es a su vez gaussiana, haciendo que los sistemas con entradas gaussianas no sean identicables. ste es un resultado conocido en el contexto de convolucin inversa
ciega (Blind Deconvolution) [55, 69].
Permutacin e indeterminacin de escala en la estimacin de las
fuentes: Las soluciones de ICA poseen redundancia de escala y de permutacin [49], ms precisamente, la solucin de ICA puede escribirse como:
(2.22)

^
s = Ps

donde es una matriz diagonal y P es una matriz de permutacin1 . En general, la permutacin de fuentes no es problemtica en la mayora de los
casos; sin embargo la indeterminacin de escala puede ser crtica en aplicaciones especcas (por ejemplo en el caso de imgenes hiper-espectrales
[33, 35]).
Informacin Mutua (Mutual Information - MI ): La Teora de la Informacin fundada por Shannon [114] provee una forma de medir el grado de
dependencia entre variables aleatorias a travs del clculo de la informacin
mutua. Dado un vector de variables aleatorias y = [y0 y1 ::yp 1 ]T 2 Rp , se
dene la informacin mutua I(y) como la entropa relativa [51] entre la pdf
conjunta y el producto de las correspondientes pdf s marginales:
!
Z
p 1
Y
I(y) = fy (y) log fy (y)=
fyi (yi ) dy
(2.23)
i=0

donde fy (y) es la pdf conjunta de las variables y0 y1 ::yp 1 , fyi (yi ) es la pdf
marginal de la variable yi y la integral en (2.23) se toma sobre todo el espacio
Rp . Puede verse fcilmente que I(y) es positiva y se anula solo cuando las
Yp 1
fyi (yi ) en casi todo
variables son independientes, i.e., cuando fy (y) =
i=0
2
punto .
Estimador Lineal: La separacin de las fuentes es un problema lineal, es
decir, ICA se reduce a la bsqueda de una matriz de separacin D tal que
y = Dx

(2.24)

tenga componentes lo ms independientes posible. Naturalmente, la mayora


de los algoritmos ICA se basan en la bsqueda de las matrices de separacin
D que hagan mnima la informacin mutua I(y).
1

Una matriz de permutacin P es una matriz cuyas las contienen un nico elemento no nulo
igual a +1 o 1.
2
En casi todo punto signica que la igualdad podra no cumplirse en un conjunto de medida
de Lebesgue nula, lo cual no afecta al calculo de la integral.

27

KLT como etapa previa de procesamiento: En [49], Comon observ


que la bsqueda de la matriz D que minimiza la informacin mutua I(y),
puede descomponerse en dos etapas. En la primer etapa, se busca una transformacin que decorrelacione los datos, usando por ejemplo el FD denido en
(2.12). En la segunda etapa, se requiere la bsqueda de una transformacin
ortogonal que minimice la informacin mutua, ms precisamente:
1

T
2V
x
x=
y = Dx

FD (1er etapa)
Transformacin ortogonal (2da etapa)

(2.25)

La ventaja de esta descomposicin es que la bsqueda de la matriz D se


restringe al espacio de las matrices ortogonales ya que, si las fuentes son
independientes, entonces:
Cyy = DCxx DT = DDT = I

(2.26)

Minimizar MI equivale a minimizar entropas: Un resultado ampliamente aceptado en ICA, es que la minimizacin de la informacin mutua equivale a la minimizacin de las entropas de las variables. En esta
tesis se presenta una demostracin nueva y sencilla de este enunciado (una
demostracin ms extensa puede ser encontrada, por ejemplo, en [38]).
Propiedad: Si las estimaciones de las fuentes (2.24) son no-correlacionadas, i.e., Cyy = I; entonces la minimizacin de MI implica la minimizacin
de la suma de las entropas de las variables y0 y1 ::yp 1 .
Dem. Por un lado, se observa de (2.23) que:
H(y) =

p 1
X

H(yi )

(2.27)

I(y)

i=0

donde
H(y) =
y
H(yi ) =

fy (y) log (fy (y)) dy

(2.28)

fyi (yi ) log (fyi (yi )) dyi

(2.29)

son las entropas de Shannon del vector y y de la variable yi , respectivamente.


Por otro lado, si se usa una propiedad elemental de la entropa de Shannon
[114] en (2.24) se obtiene:
H(y) = H(x) + log jDj

(2.30)

donde jDj es el determinante de D. Igualando (2.27) con (2.30) y usando


1
1
que jDj = jCyy j 2 jCxx j 2 , se obtiene la siguiente ecuacin:
I(y) =

p 1
X
i=0

H(yi )

H(x) +

1
log jCxx j
2

1
log jCyy j
2

(2.31)

28

Analizando (2.31) como una funcin de la matriz de separacin D, y teniendo


en cuenta que las fuentes deben ser independientes, se observa que el segundo
y tercer trmino ( H(x) + 12 log jCxx j) no dependen de D mientras que el
ltimo trmino es nulo (ya que jIj = 1). Por lo tanto:
I(y) =

p 1
X

(2.32)

H(yi ) + cte

i=0

es decir, minimizar la informacin mutua o minimizar la suma de las entropas son equivalentes.
Minimizar la entropa equivale a minimizar la gaussianidad: En
muchas aplicaciones, resulta til medir distancias entre pdf s, y en particular,
respecto de la distribucin de Gauss.
La teora de la Geometra de la Informacin (Information Geometry) introducida por Amari [4] en los aos 1980s, estudia las propiedades geomtricas
de familias de pdf s midiendo la entropa relativa entre ellas con la denicin de Kullback-Leibler [51]. Puede denirse la gaussianidad de una variable
aleatoria y como la entropa relativa entre su pdf y la pdf de Gauss, con igual
media y y desvo estndar y :
K fy (y) q

donde

fy (y) log fy (y)=

(2.33)

1 2
y )
2
es la pdf de Gauss con media cero y varianza unitaria.
(y) = 2

dy

1
2

(2.34)

exp(

Propiedad: Si se consideran la media y la varianza jas, entonces minimizar la entropa equivale a minimizar la gaussianidad denida por (2.33).
Dem. Desarrollando la integral en (2.33) se obtiene:
K fy (y) q

= H(y)

1
log(2
2

)+

1
2 ln(10)

(2.35)

de donde se deduce que, a varianza constante, a la minimizacin de la entropa es equivalente a la minimizacin de la gaussianidad.
Los resultados recientemente expuestos justican la idea generalmente aceptada en ICA, de que las fuentes tienen pdf s que son lo ms alejadas posibles a la
gaussiana. Este resultado puede interpretarse como una consecuencia natural del
Teorema Central del Lmite [59] ya que la mezcla de variables tiene siempre una
distribucin ms cercana a la gaussiana (con mayor entropa) que las variables
originales. Existen varias demostraciones alternativas a esta idea fundamental que

29

pueden ser encontradas en la literatura con diversos enfoques y utilizando diferentes herramientas matemticas (algunos ejemplos son: la demostracin de Donoho en un contexto de convolucin inversa [55] o la demostracin de Cruces et al
en un contexto de ICA [52]).
Por otro lado, se destaca que ICA es esencialmente equivalente a PP aplicado
a un conjunto de variables que son mezclas de fuentes independientes ya que, si se
elige la minimizacin de la MI como criterio para obtener la separacin, entonces
equivale a encontrar las direcciones ortogonales cuyas proyecciones asociadas maximizan la medida NG de las estimaciones.
Este hecho permiti a los investigadores interesados en BSS valerse de herramientas desarrolladas anteriormente para PP. Las conexiones entre PP, ICA
y BSS fueron remarcadas por varios autores muchos aos despus que PP fuera
introducido [52, 76, 112, 129].
2.1.5.

Algoritmos ICA

Son muchos los algoritmos desarrollados para ICA durante los ltimos aos
y sigue siendo un rea de creciente actividad por su innidad de aplicaciones
prcticas. Los algoritmos ICA existentes pueden clasicarse de acuerdo al criterio
utilizado para la determinacin de la matriz de separacin D.
A continuacin se presentan los mtodos ms relevantes en ICA agrupados de
acuerdo a la clasicacin usada en [76]:
Maximizando la NG: Uno de los algoritmos ms famosos, FastICA [74],
basa su medida de la NG en el clculo de la curtosis o momento de orden
4to . En FastICA, para la bsqueda de mximos se implementa un algoritmo
iterativo de punto jo que garantiza la convergencia a mximos locales con
una complejidad de clculo relativamente baja. La ventaja de FastICA es su
velocidad, aunque es bien conocido que la curtosis, como medida de NG, no
es estadsticamente robusta [76]. Una versin mejorada de FastICA consiste
en utilizar la medida de NG basada en una aproximacin a la negentropa
(detalles en [76]). Se dene la negentropa de y como la diferencia entre la
entropa del vector gaussiano, que es la mxima posible, y su entropa:
J (y) = H (ygauss )

H(y)

(2.36)

Otras tcnicas basadas en la maximizacin de la NG fueron abordadas en


[20, 21].
Usando el criterio de mxima verosimilitud (Maximum Likelihood
- ML): Uno de los algoritmos ICA ms antiguos, INFOMAX, tiene su
origen en un contexto de redes neuronales, y se deriva planteando el criterio de maximizacin del ujo de informacin en una red neuronal (Infomax principle) [13]. Puede demostrarse que INFOMAX, al mismo tiempo, maximiza la probabilidad de obtener las observaciones x (estimador de
mxima verosimilitud). Dado que las pdf s de las fuentes no son conocidas,

30

es necesario imponer un modelo para las mismas. Afortunadamente, puede


demostrarse que el estimador es poco sensible a errores en la especicacin
de las pdf s, y por lo tanto, slo es necesario seleccionar entre dos familias de
pdf s: sub-gaussianas o super-gaussianas. En este algoritmo la maximizacin
se implementa a travs de un mtodo de optimizacin basado en gradientes. Tambin puede utilizarse un algoritmo de punto jo para mxima
verosimilitud arribando a otro algoritmo del tipo FastICA el cual mejora
considerablemente la velocidad de convergencia del algoritmo original [76].
Minimizando la MI : Dentro de este grupo de algoritmos se puede mencionar el propuesto originalmente por Comon en [49], que minimiza una
estimacin de la MI a travs de la negentropa y usa la aproximacin de
Edgeworth [83] para las pdf s de las fuentes estimadas. Este algoritmo se
reduce al clculo de cumulants [83] de distintos rdenes (detalles en [49]).
Otro de los algoritmos en este grupo es el Kernel ICA [8], para el cual
los autores introdujeron una medida de la independencia usando F- Correlations, una generalizacin del concepto de correlacin para espacios de
Hilbert. Puede demostrarse, que este mtodo bsicamente minimiza la MI
[8]. Un algoritmo ms reciente es el Non-parametric ICA [22], donde se
estima la MI usando estimadores no-paramtricos de las pdf con la tcnica
de Parzen [107] usando ventanas gaussianas [115].
Utilizando mtodos tensoriales: Otra familia de algoritmos se caracteriza por utilizar tensores de estadsticas de orden superior (higher-order
cumulant tensors). La matriz de covarianzas es el tensor de estadsticas de
segundo orden y su diagonalizacin, lleva a obtener las componentes principales (PCA). Los tensores de estadsticas de orden superior son una generalizacin de la matriz de covarianzas y por lo tanto, las componentes independientes pueden buscarse como aquellas que hagan mnimas los cumulant
de orden superior [76]. Usando estas ideas surgieron dos mtodos de ICA:
JADE (Joint Approximate Diagonalization of Eigenmatrices) [37] y FOBI
(Fourth-Order Blind Identication) [36].
Utilizando decorrelacin no lineal: Existe un teorema que garantiza
que dos variables aleatorias y1 e y2 son independientes s y solo si, para
todo par de funciones continuas f y g, que se anulan fuera de un intervalo
nito, se cumple que E [f (y1 ) g (y2 )] = E [f (y1 )] E [g (y2 )] [59]. El primero
de los algoritmos publicado en la literatura para ICA estuvo basado en este
teorema y fue introducido en un contexto de redes neuronales [80].
Explotando la estructura temporal de las fuentes: Finalmente se menciona otro grupo de algoritmos que utilizan slo estadsticas de segundo orden (matrices de covarianzas) pero explotan la estructura temporal de las
seales del mundo real que, usualmente, se encuentran autocorrelacionadas.
Algunos ejemplos de estos algoritmos son: AMUSE (Algorithm for Multiple
Unknown Source Extraction) [119], EVD2 (Eigen Value Decomposition) [63],

31

SOBI (Second Order Blind Identication) [14] y otros (en [47], se presenta
un resumen completo de este tipo de mtodos).

2.2.

Bases ortonormales ptimas en Rn

Una idea fundamental de la teora de espacios vectoriales utilizada en el procesamiento de seales es la descomposicin de una seal como combinacin de seales
elementales, generalmente ms simples. De esta manera, el procesamiento de una
seal puede denirse en trminos de sus componentes elementales. Como ejemplos
clsicos de esta idea, aplicada al procesamiento de imgenes, se pueden mencionar:
los mtodos de Fourier [110], las descomposiciones en funciones wavelets u onditas
[99], etc. Existen innitas maneras de descomponer una seal como combinacin
lineal de componentes elementales ortogonales o no. Sin embargo, la ortogonalidad
permite la aplicacin de muchas propiedades muy tiles. Algunas bases ortogonales
de Rn conocidas en el procesamiento de imgenes son las utilizadas por las transformadas de Fourier discreta, Coseno discreta, Walsh, Hadamard, Haar y otras
[64].
En esta seccin se presentan los resultados tericos provenientes del lgebra
lineal clsica que permiten disear bases ortogonales ptimas respecto de un conjunto de datos disponibles. En particular, se demuestra que la transformacin KLT
presentada en la seccin anterior en un contexto probabilstico, puede ser derivada
utilizando criterios de lgebra lineal que no involucran el uso de probabilidades. La
presente formalizacin matemtica fue motivada por el mtodo de las eigenfaces
utilizado para el reconocimiento de rostros humanos en [106, 122].
2.2.1.

Aproximacin y clasicacin de vectores en Rn

A continuacin, se presentan dos teoremas fundamentales provenientes de la


teora de espacios de Hilbert [50] adaptados para el caso particular de Rn cuyas
demostraciones pueden ser encontradas en la literatura.
Teorema 1 (Proyecciones en Rn ). Dado un subespacio M
Rn , y un vector
n
cualquiera x 2 R , existe un nico m0 2 M tal que kx m0 k
kx mk para
todo m 2 M ; adems vale (x m0 ) ?M .

Este teorema indica que, dado un vector cualquiera de x 2 Rn y un subespacio


M
Rn , existe un nico vector m0 del subespacio que minimiza la distancia al
vector x. Adems, ese vector puede hallarse como la proyeccin ortogonal de x
sobre M . El siguiente teorema permitir descomponer cualquier vector del espacio
Rn en subespacios ortogonales.
Teorema 2 (Descomposicin ortogonal de Rn ). Dado un subespacio M
cualquier vector x 2 Rn puede expresarse como la suma de dos vectores

Rn ,

x = xM + xM ?
donde xM 2 M y xM ? 2 M ? , adems, esta descomposicin es nica. Otra forma
de escribir este resultado es la siguiente Rn = M M ? . Los vectores xM y xM ?

32

se denominan las proyecciones ortogonales de x en los subespacios M y M ?


respectivamente.
Subespacio de patrones: Supongamos que se disponen de m vectores de Rn ,
y0 ; y1 ; ::; ym 1 , linealmente independientes (l.i.), a los que denominaremos patrones, en la prctica estos vectores son representaciones vectoriales de imgenes
u otro tipo de datos multidimensionales. Se dene al subespacio de patrones
M como aquel subespacio generado a travs de las combinaciones lineales de los
patrones, es decir:
M = gen fy0 ; y1 ; ::; ym 1 g
(2.37)

La idea subyacente es que, dado un vector cualquiera del espacio x 2 Rn ,


b de ese vector, usando una combinacin
nos interesa construir una aproximacin x
lineal de vectores que estn en el subespacio de patrones M . Tambin estaremos
interesados en medir distancias de vectores genricos x 2 Rn y sus proyecciones en
M a cada uno de nuestros patrones y1 ; y2 ; ::; ym para desarrollar mecanismos de
clasicacin basados en distancias mnimas. Aplicando el teorema de la proyeccin,
b 2 M a un vector cualquiera x 2 Rn es
se concluye que la mejor aproximacin x
la proyeccin ortogonal de x sobre el subespacio M (b
x = xM ). A continuacin
se denen algunas distancias importantes utilizas en mtodos de clasicacin de
vectores [106, 122].
Distancia Al Subespacio de Patrones (DASP): Es la distancia euclidea
b 2 M , es decir:
entre un vector cualquiera x 2 Rn y su mejor aproximacin x
DASP(x) = kx

bk
x

(2.38)

Distancia a yj En el Subespacio de Patrones (DESPj ): Es la distancia


b 2 M de un vector cualquiera x 2 Rn y el
euclidea entre la proyeccin ortogonal x
patrn yj , es decir
bk
DESPj (x) = kyj x
(2.39)
En la Fig. 2.2, se hace una interpretacin geomtrica de estas medidas en R3 ,
en la cual los vectores y1 e y2 denen un subespacio de dos dimensiones (plano M ).
El complemento ortogonal M ? es una recta que cruza al plano M ortogonalmente
por el origen y se cumple que R3 = M M ? .
La siguiente es una propiedad bsica de espacios vectoriales eucldeos cuya
demostracin es directa y surge a partir de la ortogonalidad de los subespacios M
y M ?.
Propiedad (Pitgoras): Dado un vector cualquiera x 2 Rn , la distancia a cada uno de los patrones yj puede escribirse en trminos de las distancias DASP(x)
y DESPj (x) de la siguiente forma:
2.2.2.

kx

yj k2 = DASP2 (x) + DESP2j (x)

(2.40)

Clculo de las distancias DASP y DESPj

Puede demostrarse que la distancia mnima de x al subespacio M (DASP(x))


puede calcularse usando la siguiente relacin [97]:
DASP2 (x) = kx

b k2 =
x

det [G(y0 ; y1 ; ::; ym 1 ; x)]


det [G(y0 ; y1 ; ::; ym 1 )]

(2.41)

33

Figura 2.2. Interpretacin geomtrica de DASP(x) y DESPj (x) en R3 .

donde G es la matriz de Gram de dimensiones m m asociada a


y1 ; y2 ; ::; ym :
2
hy0 ; y0 i
hy0 ; y1 i :: hy0 ; ym 1 i
6 hy1 ; y0 i
hy1 ; y1 i ::
hy1 ; y2 i
G(y0 ; y1 ; ::; ym 1 ) = 6
4
:
:
:
:
hym 1 ; y0 i hym 1 ; y1 i :: hym 1 ; ym 1 i

los vectores
3
7
7
5

(2.42)

b 2 M puede ser escrita como combinacin lineal de los patrones de


Dado que x
manera nica:
b = 0 y0 + 1 y1 + :: + m 1 ym 1
x

Si se encuentran los valores 0 ; 1;::; 1 se habr determinado unvocamente a


b y podremos calcular las distancias DESPj . Para ello se plantea la condicin de
x
ortogonalidad de xM ? con cada uno de los patrones yj que garantiza la ortogonalidad con cualquier vector de M . Por lo tanto surgen las siguientes m ecuaciones
conocidas como ecuaciones normales [97]:
hxM ? ; yi i = hx xM ; yi i = 0
h 0 y0 + 1 y1 + :: + m 1 ym 1 ; yi i = hx; yi i

(2.43)
(2.44)

para i = 0; 1; ::m 1.
Aplicando la linealidad del producto interno en las m ecuaciones (2.44) se
arriba a la siguiente expresin matricial:
G

=Yx

(2.45)

donde G = G(y0 ; y1 ; ::; ym 1 ) es la matriz de Gram, =[ 0 1 :: m 1 ]T 2 Rm ,


Y = [y0 y1 :: ym 1 ]T 2 Rm n se forma ubicando a los sucesivos patrones en las
las.

34

La ecuacin matricial (2.45) tiene solucin nica, como era de esperarse por el
teorema de la proyeccin. Los coecientes 0 ; 1;::; m 1 pueden ser calculados de
la siguiente manera:
= G 1Y x
(2.46)
donde es importante sealar que, dado a que los patrones son linealmente independientes, la matriz G es invertible [97].
b y cada uno de
Para calcular las distancias DESPj (x) entre la aproximacin x
los patrones y0 ; y1 ; ::; ym 1 , se utilizan los coecientes calculados en (2.46) y se
obtiene:
m
P1 mP1 j j
b k2 =
(2.47)
DESP2j (x) = kyj x
k l hyk ; yl i
k=0 l=0

donde los coecientes son

j
i

=
i

si i 6= j
si i = j

(2.48)

De las expresiones obtenidas para las distancias DASP(x) y DESPj (x) (ecuaciones (2.41) y (2.47)) se observa que desde el punto de vista computacional no
son atractivas, ya que exigen costosos clculos causados por la complejidad de los
determinantes de las matrices de Gram. En la siguiente subseccin se muestra que
estos clculos son ms sencillos si se elige un sistema de vectores de referencia
ortonormal.
2.2.3.

Bases ortonormales

Un conjunto de vectores fu1 ; u2 ; ::; um g es ortonormal si se cumple que


hui ; uj i =

1
0

si i = j
si i =
6 j

(2.49)

Supongamos que existe una base ortonormal de vectores en Rn que generan


exactamente el mismo subespacio M de patrones. De hecho, puede demostrarse
que pueden encontrarse muchas bases ortonormales para un mismo subespacio M .
Las bases ortonormales poseen una serie de propiedades muy importantes que
las hacen atractivas para representar datos multidimensionales como es el caso de
las imgenes. Dado un conjunto de vectores l.i. (patrones) fy0 ; y1 ; ::; ym 1 g y una
base ortonormal fu0 ; u1 ; ::; um 1 g del subespacio que generan, es decir, tales que
M = gen fu0 ; u1 ; ::; um 1 g = gen fy0 ; y1 ; ::; ym 1 g

(2.50)

entonces se cumplen las siguientes propiedades.


Propiedad I: Cualquier vector xM 2 M puede escribirse de manera unvoca
como combinacin lineal de los vectores de la base ortonormal de la siguiente
forma:
m
P1
xM =
aj uj con aj = hxM ; uj i
(2.51)
j=0

35

Dem. (Puede ser encontrada, por ejemplo, en [68])


Aplicando este resultado para los patrones yi , se obtiene:
yi =

m
P1

cij uj

j=0

con cij = hyi ; uj i

(2.52)

Energa de un vector: como es usual en la literatura se dene la energade


un vector (seal) x 2 Rn como su norma al cuadrado, es decir, kxk2 .
Propiedad II: La energa de cualquier vector xM 2 M puede calcularse a
partir de sus coecientes en la base ortonormal (igualdad de Parseval) mediante
kxM k2 =

m
P1

a2j

(2.53)

c2ij

(2.54)

j=0

y en particular para los patrones se obtiene:


kyi k2 =

m
P1
j=0

Dem. (Puede ser encontrada, por ejemplo, en [68])


La interpretacin de la ecuacin (2.53) es la siguiente: la energa total de un
vector puede descomponerse en la suma de las energas asociadas a cada vector
ortonormal de la base. En otras palabras, el valor de a2j da una idea de la importancia del vector uj para la reconstruccin de yi . Este concepto puede utilizarse
para disear diferentes estrategias de bsqueda de bases ortonormales ptimas
(Subseccin 2.2.4).
Propiedad III: Dado un vector cualquiera x 2 Rn , su distancia al subespacio
de patrones ( DASP) puede calcularse con la siguiente frmula:
DASP2 (x) = kxk2

m
P1
j=0

a2j

donde aj = hx; uj i

(2.55)

Dem. El vector x 2 Rn puede descomponerse ortogonalmente de la siguiente


b + xM ? donde x
b 2 M y xM ? 2 M ? . Por lo tanto, usando la igualdad
forma: x = x
de Pitgoras (2.40) se obtiene una descomposicin de la energa de x como suma
de dos energas, la energa en M y la energa en M ? :
kxk2 = kb
xk2 + kx

b k2
x

(2.56)

y, usando la denicin de DASP2 (x) (ecuacin (2.38)), junto con la proposicin


anterior, se obtiene (2.55).
Propiedad IV: Dado un vector cualquiera x 2 Rn , su distancia en el subespacio de patrones ( DESPj ) a cada uno de los patrones yj , puede calcularse con
la siguiente frmula:
m
P1
DESP2j (x) =
(aj cij )2
(2.57)
j=0

36

bk2 y usando las representaciones en la


Dem. Por denicin DESP2j (x) = kyj x
b (ecuaciones (2.52) y (2.51)) se obtiene:
base ortonormal de yj y x
DESP2j (x) = kyj

2.2.4.

bk =
x

m
P1

(cij

aj ) uj

j=0

m
P1

(aj

cij )2

(2.58)

j=0

Mtodos de ortonormalizacin de vectores

Los resultados anteriores muestran claramente la ventaja de disponer de bases


ortonormales para el subespacio de patrones. El clculo de los coecientes en una
base ortonormal es tan sencillo como realizar un producto interno (ecuaciones
(2.51) o (2.52)) mientras que en el caso no ortogonal se requerira del clculo
adicional de la inversa de una matriz de Gram (2.46). Otra ventaja es que las
expresiones de las distancias DASP(x) y DESPj (x) (ecuaciones (2.55) y (2.57))
son sencillas comparadas con las expresiones en el caso no ortogonal (ecuaciones
(2.41) y (2.47)).
Es importante disponer de mtodos para generar bases ortonormales a partir de
un conjunto de patrones. Si bien existen innitas elecciones de bases ortonormales
del subespacio de patrones, aqu nos concentraremos en las bases ortonormales que
resulten ptimas para conjunto de datos disponibles. Siguiendo parcialmente los
lineamientos de los trabajos [39, 113, 116], el problema de la ortogonalizacin de
vectores, puede ser planteado de una manera general que contiene a los mtodos
conocidos como casos particulares.
Para ello se utiliza la matriz Y = [y0 y1 :: ym 1 ] 2 Rn m cuyas columnas
son los vectores patrones y0 ; y1 ; ::; ym 1 que se asumen l.i. De manera equivalente
se dene la matriz U = [u0 u1 :: um 1 ] 2 Rn m cuyas columnas son los vectores
ortonormales u0 ; u1 ; ::; um 1 buscados.
Como ambos conjuntos de vectores deben generar el mismo subespacio M , se
puede escribir a cada vector ui como combinacin lineal de los y0 ; y1 ; ::; ym 1 en
forma unvoca, que matricialmente es:
U =YA

(2.59)

donde A 2 Rm m es invertible.
Como debe cumplirse la condicin de ortonormalidad U T U = I, resulta:
U T U = AT Y T Y A = AT GA = I

(2.60)

siendo G la matriz de Gram introducida anteriormente en la ecuacin (2.42). Por


lo tanto, una forma generalizada de buscar mtodos de ortonormalizacin, consiste
en buscar matrices de transformacin invertibles A, que hagan cumplir la condicin
(2.60).
Un mtodo ampliamente conocido es el de Gram Schmidt o factorizacin QR,
en el que la construccin de la base ortonormal, es de tipo algortmica y consiste

37

en elegir secuencialmente los vectores yi para obtener uno a uno los vectores
ui ortonormales (detalles en [68]). La base ortonormal que se obtiene con este
mtodo no es la misma si se altera el orden en que van tomando los vectores
yi en el algoritmo. Por lo tanto, surge la pregunta de si existe algn mtodo
en el cual la base obtenida no dependa del orden que se consideren los vectores
yi , y en particular, uno puede preguntarse cual es la base ptima en el sentido
que concentre la energa de los patrones en pocos elementos de esa base. En las
prximas subsecciones se presenta la respuesta a esta pregunta y se demuestra que
la base ptima resulta equivalente a la KLT denida anteriormente.
2.2.5.

Descomposicin de la energa de los patrones

Siguiendo los lineamientos de [116], en esta subseccin se analiza la distribucin


de las energas de los patrones en una base ortonormal cualquiera. Para ello, se
construye la matriz de energas E que contiene las energas de las proyecciones de
los patrones fy0 ; y1 ; ::; ym 1 g en una base ortonormal genrica fu0 ; u1 ; ::; um 1 g,
donde el elemento de la la i, columna j se calcula como E(i; j) = c2ij = hyi ; uj i2 ,
es decir:
2
3
hy0 ; u0 i2
hy0 ; u1 i2 : hy0 ; um 1 i2
6 hy1 ; u0 i2
hy1 ; u1 i2 : hy1 ; um 1 i2 7
6
7
E=4
(2.61)
5
:
:
:
:
hym 1 ; u0 i2 hym 1 ; u1 i2 : hym 1 ; um 1 i2

Se observa que la suma de los elementos de la la i resulta igual a la energa


de cada uno de los patrones, es decir:
m
X1

E(i; j) =

j=0

m
X1
j=0

hyi ; uj i =

m
X1
j=0

c2ij = kyi k2

(2.62)

Por otro lado la suma de los elementos de la columna j es la suma de las energas
de los patrones en la componente j de la base ortonormal ej :
ej =

m
X1

E(i; j) =

i=0

m
X1
i=0

hyi ; uj i2 =

m
X1

c2ij

(2.63)

i=0

Se destaca que, la suma sobre las las es independiente de la base ortonormal


que se elija, mientras que, la suma sobre las columnas depende de la base. Por
otro lado se cumple la siguiente condicin:
m
X1
j=0

ej =

m
X1
i=0

kyi k2

(2.64)

donde el miembro de la derecha de (2.64) es la energa total de los patrones.


Con este enfoque surgen diferentes estrategias para la bsqueda de bases ortonormales ya que pueden plantearse distribuciones arbitrarias de las energas de los
patrones en la base [39, 96, 113, 116].

38

2.2.6.

La KLT como mtodo de ortogonalizacin ptimo

Supongamos que se desea encontrar los vectores ortonormales fu0 ; u1 ; ::; uk g


uno a uno de manera que, en cada paso, la energa de los patrones proyectada en ellos sea mxima. Para ello, se dene la siguiente magnitud que mide la
concentracin de energa promedio de m patrones fy0 ; y1 ; ::; ym 1 g en una base
ortonormal de k elementos fu0 ; u1 ; ::; uk 1 g (k m):
1 X
ej
J(k) =
m j=0
k 1

con k = 0; 1; :::m

(2.65)

La energa de los patrones concentrada en el primer vector u0 de la secuencia


es J(0) = m1 e0 y se puede plantear su maximizacin, a travs del mtodo de
multiplicadores de Lagrange, ya que el vector u0 buscado debe estar normalizado
(hu0 ; u0 i = 1). La funcin a maximizar (respecto de u0 ) resultante es:
J(0) =

m 1
1 X
hyi ; u0 i2
m i=0

(hu0 ; u0 i

1)

(2.66)

Desarrollando los productos internos en trminos de productos matriciales y


reagrupando se obtiene:
!
m
X1
1
T
J(0) = uT0
yi yiT u0
1
(2.67)
0 u0 u0
m i=0
Aplicando gradiente respecto de u0 e igualando a cero se deduce que los vectores
que maximizan la energa, son aquellos que verican
Ryy u0 =

0 u0

(2.68)

con
Ryy

m 1
1 X
yi yiT
=
m i=0

(2.69)

es decir, los autovectores de la matriz Ryy 2 Rn n .


Adems, puede verse fcilmente que la energa de los patrones concentrada en
un autovector de Cyy est dada por el autovalor asociado, que adems es siempre
real y no-negativo:
J(0) = uT0 Cyy u0 = 0
(2.70)
Si se contina con el proceso de seleccin para elegir los siguientes vectores u1 ,
u2 ,..um 1 , se observa que para cada uno se obtiene una ecuacin equivalente (2.70),
por lo tanto los vectores se irn eligiendo como autovectores de Ryy asociados a
los autovalores mayores (no elegidos anteriormente) y que adems, resultan ortogonales gracias a que Ryy es hermitiana [100].

39

Se seala que, utilizar esta base ortonormal como sistema de referencia es


equivalente a aplicar la KLT, de hecho, si se redene un nuevo conjunto de patrones
0
centrados y00 ; y10 ; ::; ym
1 tales que:
yi0 = yi

y con y =

1 mP1
yj
m j=0

(2.71)

Entonces la matriz
Ry 0 y 0

m 1
1 X
=
(yi
m i=0

y) (yi

y)t = Cyy

(2.72)

coincide con la estimacin de la matriz de covarianzas sobre la cual se basa la KLT


como mtodo probabilstico.

2.3.

Modelos de interaccin entre pxeles

En esta seccin se presenta un resumen de teoras importantes encontradas en


la bibliografa a partir de las cuales, se desarrollan los resultados incluidos en los
siguientes captulos de esta tesis. Generalmente en las imgenes reales existen relaciones entre los valores asociados a pxeles vecinos. Para poder modelar este tipo
de interacciones desde el punto de vista estadstico, se han propuesto numerosos
modelos, la mayora de los cuales fueron a su vez utilizados en la Fsica ya que
puede establecerse una analoga entre partculas en un sistema fsico con pxeles
en una imagen.
Los campos aleatorios (random elds) [66] proveen una estructura matemtica
para modelar imgenes capturando las dependencias entre pxeles. Una de las
propiedades usualmente requeridas para un modelo matemtico de imgenes es
proporcionar probabilidades de los valores de los pxeles condicionados a los pxeles
vecinos. Por esta razn los campos aleatorios markovianos (Markov Random Fields
- MRF s) han sido usados frecuentemente en la literatura [18, 23, 25, 62].
La teora de MRF s tiene su origen en la mecnica estadstica y tuvo gran auge
en la aplicacin a imgenes desde la publicacin de los trabajos de Besag [17, 18],
Moran [102] y Geman & Geman [62]. Dentro de los MRF s existe un modelo muy
sencillo y antiguo: el Modelo de Ising [72, 77, 117], que se presenta a continuacin.
2.3.1.

Modelo de Ising

Este modelo tuvo su origen en la fsica para explicar el comportamiento de


materiales ferromagnticos [72, 77, 117]. Dado un sistema de n variables binarias
o spins fsi g, que pueden tomar dos estados opuestos si = 1 o si = +1, la energa
del sistema EI fsi g est dada por los estados de los spins de la siguiente manera:
EI fsi g =

X
hiji

ij si sj

n
X
i=1

si

(2.73)

40

donde el smbolo < ij > indica pares de vecinos de primer orden (o vecinos ms
cercanos), ij indica el potencial de interaccin entre los spins si y sj , y H es un
posible campo externo que induce a los spins a polarizarse, ya sea positivamente
H > 0 o negativamente H < 0 [72].
Este modelo es un caso particular de MRF y la probabilidad de una determinada conguracin se calcula a partir de la frmula de Gibbs [66]:
P (fsi g) =

1
exp
z

1
EI fsi g
kT

(2.74)

donde z es una constante de normalizacin conocida como funcin de particin en


mecnica estadstica [72], k es la constante de Boltzmann y T es la temperatura
del sistema [72]. Se observa que, para el caso de ausencia de campo externo, y
considerando interacciones homogneas de primeros vecinos ( ij = 1 si si y sj son
vecinos de primer orden), la probabilidad de una conguracin est dada por:
0
1
X
1
si sj A
(2.75)
P (fsi g) = exp @
z
hiji

1
con = kT
siendo el nico parmetro que dene el modelo y que es inversamente
proporcional a la temperatura del sistema.
Este sencillo modelo permite representar imgenes blanco y negro, donde el
parmetro regula las interacciones entre pxeles [23, 25, 62]. Puede demostrarse
que, para valores por debajo de un umbral crtico j j < c
0;44 el modelo de
Ising en 2D no presenta magnetizacin mientras que para valores de por encima
del umbral s [72].
En aplicaciones de procesamiento de imgenes es fundamental contar con herramientas para ajustar los modelos a datos disponibles lo que exige el desarrollo de tcnicas de estimacin de parmetros basados en criterios estadsticos.
Como ejemplo, en [31] se han propuesto dos nuevas tcnicas para la estimacin
del parmetro del modelo de Ising a partir de realizaciones del campo aleatorio
(imgenes binarias).

2.3.2.

Campos aleatorios gaussianos - GRF s

Otro caso particular de MRF es el caso de variables son gaussianas dando lugar
a los campos aletorios Gaussianos (Gaussian Random Fields - GRF s) [17, 81].
En un GRF con media cero, el modelo queda completamente determinado por
su matriz de covarianzas [81]. Por denicin, dada una imagen de l l pxeles,
2
las variables aleatorias fxi;j g con i; j = 0; 1; ::; l 1, el vector x 2 Rl de pxeles
ordenados lexicogrcamente forma un GRF, con media nula E [x] = 0 y matriz de
covarianzas Cxx = E xxT , cuando su pdf conjunta est dada por la distribucin
de Gauss multivariada [120]:
fx (x; Cxx ) = p

1
l2

(2 ) jCxx j

exp

1 T 1
x Cxx x
2

(2.76)

41

Figura 2.3. Sistemas de vecinos de interaccin. El orden de interaccin dene el


conjunto de ndices @ considerado en (2.77)

donde jCxx j indica el determinante de la matriz Cxx . En la bibliografa, existen


distintas variantes del modelo con diferentes esquemas de interaccin entre vecinos
obteniendo distintas matrices de covarianzas [9, 17, 25, 42, 81].
Como es usual en la bibliografa, se pueden analizar los GRF s fxi;j g generados
por el siguiente conjunto de ecuaciones lineales [15, 17, 25, 81]
xi;j =

r;s

xi

r;j s

(2.77)

i;j

(r;s)2@

donde: i; j = 0; 1; ::; l 1; @ es el conjunto de vecinos del pxel (i; j) (Fig. 2.3); r;s
son los coecientes de interaccin con propiedades de simetra, i.e., 1;0 = +1;0 ,
0; 1 = 0;+1 , etc.; i;j son variables gaussianas con media cero, varianza unitaria
con una matriz de covarianzas con estructura conocida, y x es un escalar positivo.
Adems, se asume una estructura toroidal del campo lo cual signica que:
xl 1;j
xi;l 1

(2.78)
(2.79)

x 1;j
xi; 1

La ecuacin (2.77) puede ser escrita en forma matricial de la siguiente manera:


p
Bx =
2

(2.80)

x
2

donde x y son vectores de Rl y la matriz B 2 Rl l tiene una estructura


muy particular ya analizada en la bibliografa en el contexto de los GRF s. Aqu,
se utilizar la notacin de [81]. En el caso ms simple, donde slo se consideran
cuatro vecinos por pxel (sistema de vecinos de primer orden), los coecientes de
interaccin quedan denidos por dos parmetros 1 = 1;0 = +1;0 (interacciones
horizontales), y 2 = 0; 1 = 0;+1 (interacciones verticales), y la matriz B toma

42

la forma [81]:

B1;1 B1;2 0
6 B1;l B1;1 B1;2
B=6
4 ::
::
::
B1;2 ::
::

3
:: 0 B1;l
:: 0
0 7
7
:: ::
:: 5
:: B1;l B1;1

la cual es simtrica, circulante por bloques (l l bloques),


vez circulantes (l l ) y estn denidos por:
2
3
2
1
0
::
1
1
6
1
0
:: 7
1
1
6
7
6
6
6
1
0 7
B1;1 = 6 0
1
1
7 ; B1;l = B1;2 = 4
4 ::
::
::
::
:: 5
0
::
1
1
1

(2.81)

sus bloques son a su

0
::
0

0
2

::
0

::
::
::
::

3
0
0 7
7
:: 5
2

(2.82)
Desde luego ste modelo puede generalizarse a ordenes de interaccin superiores (ms de cuatro vecinos) introduciendo ms parmetros en la denicin de
la matriz B (por ejemplo, en [15, 81] se han aplicado modelos de orden superior
para sintetizar y modelar texturas). De todas maneras, sin importar el orden del
sistema de vecinos considerado, la estructura de la matriz B siempre es la misma:
contiene mayoritariamente ceros (sparse), es circulante por bloques, sus bloques
son tambin circulantes y por lo tanto pueden ser diagonalizadas a travs de la
operacin 2D-DFT [65].
La matriz de covarianzas del GRF denida en (2.80) es:
Cxx =

xB

C B

(2.83)

Existen dos casos muy particulares que se corresponden con modelos existentes
en la literatura:
1. Conditional Model - CM [18, 25, 81]: donde C
Cxx = x B 1 ;

= B y por lo tanto

2. Simultaneous Autoregressive Model - SAR [25, 81]: donde C


entonces resulta que Cxx = x B 2 .

=I y

43

Captulo 3

Separacin Ciega de Fuentes Dependientes


En el captulo anterior se presentaron las tcnicas de Anlisis de Componentes
Independientes (Independent Component Analysis - ICA) para la Separacin Ciega
de Fuentes (Blind Source Separation - BSS ) en el caso de fuentes estadsticamente
independientes. Sin embargo, existen muchos casos en los cuales la condicin de
independencia no es vlida y se requiere de la elaboracin de nuevos mtodos que
generalicen ICA. Existen pocos antecedentes bibliogrcos de este problema al que
algunos autores le han dado el nombre de Dependent Component Analysis - DCA
[5, 10, 11, 12, 46]. Esta tesis aporta nuevos resultados tericos y experimentales
en DCA: se propone un nuevo algoritmo llamado MaxNG para la separacin
de fuentes dependientes o independientes [30], se analiza tericamente la separabilidad de las fuentes en funcin del tipo de dependencia entre ellas (Teorema 3)
[35], se desarrollan nuevas tcnicas que permiten implementar MaxNG de manera eciente en trminos de su complejidad computacional y bajo la inuencia de
ruido aditivo gaussiano [35], tambin se analiza experimentalmente el desempeo
del algoritmo en distintos escenarios comparndolo con tcnicas ICA tradicionales
utilizando datos simulados y reales [29, 30, 32, 33, 35].
El modelo matemtico de DCA es el siguiente: dadas p fuentes dependientes,
existen m seales mezcla (sensores) producidas a partir del siguiente modelo lineal:
x(t) = As(t) ;

(3.1)

donde: x(t) = [x0 (t) x1 (t)::xm 1 (t)]T 2 Rm es el vector de las seales observadas,
s(t) = [s0 (t) s1 (t)::sP 1 (t)]T 2 Rp es el vector de las seales fuente no independientes y A 2 Rm p es la matriz de mezcla. La variable t es un ndice que recorre
las muestras disponibles de las seales, cuando esta variable representa el tiempo,
el modelo (3.1) es conocido como mezcla lineal instantnea ya que la matriz de
mezcla A es constante en el tiempo. En lo sucesivo, se evitar la variable t en la
notacin para hacerla ms sencilla.
La separacin de las fuentes se obtiene identicando la matriz de separacin
D tal que
y = Dx
(3.2)
contenga una copia de las seales fuente s posiblemente escaladas y/o permutadas.
En esta tesis nos restringiremos al caso sobredeterminado, es decir m
p
(nmero de sensores mayor o igual que el nmero de fuentes). Tambin se asumen
seales estacionarias con medias nulas (s = E[s] = 0) con excepcin de la Seccin
3.7 donde se considera un caso particular de seales con medias no nulas.
Al igual que en ICA, estamos interesados en desarrollar tcnicas de DCA ciegas en las cuales no se tiene informacin sobre la matriz A ms all de sus

44

Figura 3.1. Modelo ICA

dimensiones (m y p). Est claro que, de conocerse la matriz de mezcla A, el proceso de separacin sera tan sencillo como considerar la matriz de separacin D
igual a la pseudo-inversa o matriz de Moore-Penrose [57]:
D = Ay = (AT A) 1 AT

(3.3)

Se destaca que el enfoque tradicional de DCA encontrado en la bibliografa


consiste en utilizar informacin de la estructura temporal de las seales fuente
asumiendo que las seales buscadas estn auto-correlacionadas en el tiempo y
explotando estas correlaciones [5, 11, 12, 46]. En esta tesis, se presentan nuevos
resultados tericos y se introduce un nuevo algoritmo para DCA, llamado MaxNG
(Maximum Non-Gaussianity) que no requiere la utilizacin de la estructura temporal de las seales, por lo tanto puede ser utilizada inclusive cuando las seales
son procesos blancos (no auto-correlacionados), ya sean seales dependientes o
independientes.

3.1.

Un nuevo enfoque para DCA

La distribucin de Gauss tiene la mxima entropa (mxima incertidumbre)


entre todas las posibles distribuciones de probabilidad denidas en la recta real con
igual varianza [114] y existe una relacin directa entre la gaussianidad y la entropa
(ecuacin (2.33)). Cuanto ms gaussiana (mayor entropa) es una distribucin,
menos estructura tienen los datos asociados con ella.
En ICA, la utilizacin de la gaussianidad de las seales se basa en la siguiente
idea fundamental:
Las salidas de un sistema lineal, que preserva las varianzas (nitas), tienen
siempre entropas mayores que las de las entradas (no-gaussianas) (Fig. 3.1)
Este resultado puede ser expresado en trminos matemticos rigurosos cuando
las seales son mutuamente independientes, siendo una consecuencia natural del
Teorema Central del Lmite, que establece que la distribucin de una mezcla lineal de p seales independientes con varianzas nitas tiende asintticamente a la
distribucin de Gauss (cuando p ! 1) [59]. Ms an, puede demostrarse que la
combinacin lineal nita de seales independientes no-gaussianas tienen entropa
mayor que las seales originales, cuando se mantienen las varianzas jas (ejemplos

45

de este resultado son las demostraciones de Donoho [55] en su trabajo clsico sobre
deconvolucin (deconvolution) y la demostracin de Cruces et al. [52]).
Adems, como establecieron Comon en [49] y Donoho en [55], las seales gaussianas no son admisibles en BSS ya que sus combinaciones lineales (tambin gaussianas) conservan la entropa. Por lo tanto surge como criterio natural, para la
bsqueda de las estimaciones de las fuentes en ICA, el criterio de Mxima NG (o
mnima entropa) (Fig. 3.1).
Cuando las seales son dependientes entre s, el Teorema Central del Lmite
clsico no se cumple en general. Sin embargo, en [55], Donoho mostr la utilidad
del criterio de mxima NG para ejemplos particulares de seales dependientes.
En esta tesis, se presenta una teora que da sustento a este criterio estableciendo
una condicin suciente sobre las fuentes, que garantiza su separabilidad. A continuacin, se presenta una denicin formal del criterio de mxima NG que se utiliza
en esta tesis:
Criterio de mxima NG (mnima entropa): Consiste en buscar la matriz
de separacin D que produzca estimaciones de las fuentes de mxima NG (mnima
entropa), manteniendo la varianza unitaria. Ms especcamente, las fuentes son
estimadas a travs de la parametrizacin (3.2) y el espacio de bsqueda es el de
las matrices D que hacen que las seales y0 , y1 ,.., yM 1 tengan varianza unitaria
(lo cual es equivalente a imponer que la matriz de covarianzas Cyy = DCxx DT
tenga 1s en su diagonal principal).

3.2.

La medida NG basada en la distancia en L2 (R)

En esta tesis se propone una forma natural de medir la NG de una variable


utilizando la distancia en el espacio de funciones de cuadrado integrable Lebesgue
L2 (R) tal como se dene a continuacin [30].
Medida NG: Dada una variable aleatoria y con media cero E[y] = 0 y varianza unitaria E[y 2 ] = 1, cuya pdf es fy (y), se dene la medida NG como el
cuadrado de la distancia entre fy (y) y la pdf de Gauss (y) en L2 (R), es decir:
Z +1
[ (y) fy (y)]2 dy
(3.4)
N G (fy ) =
1

donde (y) es la pdf de Gauss (distribucin normal) con media cero y varianza
unitaria denida por:
1
(y) = N (0; 1) = p exp
2

1 2
y
2

Se observa que N G (fy ) 0 para cualquier pdf fy (y) y adems


s y solo s (y) = fy (y) en casi todo punto.
3.2.1.

Calculo de

N G (fy )

(3.5)
N G (fy )

=0

usando ventanas de Parzen

En la prctica no se conoce de una expresin para la pdf fy (y) sino que se


dispone de un conjunto de n muestras de la variable y: y(0), y(1), y(2); ::::; y(n 1).

46

Estas muestras, pueden ser utilizadas para estimar la pdf f^y (y) y as poder evaluar
la medida NG de (3.4).
En esta tesis se propone utilizar la tcnica de estimacin no paramtrica denominada ventanas de Parzen, que fuera propuesta y analizada originalmente
por Parzen en [107]. Este mtodo establece que, si el nmero de muestras es sucientemente grande, se obtiene una buena estimacin f^y (y) de la pdf desconocida
a travs de la siguiente frmula:
1 X
f^y (y) =
nh i=0
n 1

y(i)
h

(3.6)

donde n es el nmero de muestras, h es el parmetro de apertura que determina


el ancho y altura de las funciones ventana utilizadas (y) (tambin conocidas
como kernels). En nuestro caso nos restringimos al caso en el que la funcin (y)
es la pdf de Gauss (denida en (3.5)), ya que, como se ver ms adelante, se
obtienen ecuaciones sencillas y tiles. En su trabajo original [107], Parzen analiz
las condiciones mnimas que garantizan la convergencia de (3.6) a la pdf deseada
y en [115] se demostr que el valor ptimo para h, que provee un mnimo MISE
(Mean Integrated Square Error), est dado por h = 1;06 n 1=5 . A partir de
estos resultados a continuacin se desarrolla un nuevo mtodo para el clculo de
la medida NG.
Se observa que la ecuacin (3.4) puede dividirse en tres partes:
Z
Z
Z
2
(y) fy (y)dy + fy2 (y)dy
(3.7)
(y) dy 2
N G (fy ) =
{z
} | {z }
| {z } |
2

1
p

1 (fy )

2 (fy )

El primer trmino del miembro derecho en (3.7) puede calcularse analticamente y


vale 2p1 . El segundo y tercer trmino ( 1 (fy ) y 2 (fy )) dependen de la pdf fy (y),
por lo tanto, si se la reemplaza por su estimacin de Parzen f^y (y) (3.6) se obtiene
(demostracin en Apndice 3.9.1):
X
2
^
p
(
f
)
=
1 y
n h2 + 1 i=0
n 1

1 XX
p
n2 h 2 i=0 j=0
n 1 n 1

^
2 (fy ) =

y(i)
h2 + 1

y(j) y(i)
p
2h

(3.8)
(3.9)

Las ecuaciones (3.7), (3.8) y (3.9) proveen una forma prctica de calcular la
medida NG a partir de un conjunto de muestras de la seal y sern utilizadas
luego para el desarrollo del algoritmo MaxNG (Seccin 3.4).

3.3.

Separabilidad de fuentes dependientes

En esta tesis se presenta una condicin suciente para la separacin de fuentes


dependientes a travs de la medida NG [35]. Para simplicar el tratamiento mate-

47

mtico se considera el caso con p = 2 fuentes de media nula E[s0 ] = E[s1 ] = 0 y


se denen las fuentes normalizadas u0 y u1 de la siguiente manera:
u0 =

s0

u1 =

s1

(3.10)

donde 20 = E[s20 ] y 21 = E[s21 ] son las varianzas de las variables s0 y s1 , respectivamente.


Usando (3.1) y (3.2) se obtiene la estimacin del vector de las fuentes normalizadas u
^ en trminos del vector de las fuentes s, la matriz de mezcla A y la matriz
de separacin D:
u
^ = DAs
(3.11)
De (3.11) se deduce que la estimacin de las fuentes normalizadas es una combinacin lineal de las fuentes s0 y s1 :
u^i =

i;0 s0

i;1 s1

(3.12)

donde los parmetros i;j son los elementos de la matriz DA, i.e., i;j = [DA]i;;j .
En trminos de las fuentes normalizadas u0 ; u1 , la ecuacin (3.12) se convierte en:
u^i = u0 + u1

(3.13)

donde
= i;0 0 y
= i;1 1 . Por lo tanto, la reconstruccin de las fuentes
se logra cuando los parmetros cumplen la condicin ( ; ) = ( 1; 0) para u0 y
( ; ) = (0; 1) para u1 .
Por otro lado se observa que, forzando a la varianza del estimador a ser unitaria,
se obtiene:
E[^
u2i ] = 2 + 2 + 2
=1
(3.14)
donde = E[u0 u1 ] es el coeciente de correlacin entre las variables u0 y u1 . En
otras palabras, forzar la varianza del estimador a ser unitaria es equivalente a
restringir a los parmetros ( ; ) a pertenecer a la elipse que se muestra en la Fig.
3.2. El objetivo entonces, es encontrar la condicin que garantice que la medida
NG tendr mximos locales en los puntos
( ; ) = f(1; 0); (0; 1); ( 1; 0); (0; 1)g

(3.15)

cuando los parmetros estn restringidos a pertenecer a la elipse. En consecuencia,


se introduce la denicin de separabilidad como sigue:
Separabilidad de fuentes: Dadas dos fuentes normalizadas u0 y u1 , se dice
que la fuente u1 es separable de u0 si la medida N G (fy ; ; ) de la combinacin
lineal y = u0 + u1 , tiene un mximo local en ( ; ) = (0; 1) cuando los parmetros estn restringidos a la elipse 2 + 2 + 2
= 1.
El siguiente teorema provee una condicin suciente para la separabilidad de
las fuentes.

48

Figura 3.2. Conjunto de valores permitidos para los parmetros


= 0.0, 0.5 y 0.9.

para

Teorema 3. Dadas dos fuentes dependientes s0 y s1 , si la esperanza condicional


E[s0 js1 ] es lineal en s1 , es decir, si existen parmetros a y b tales que E[s0 js1 ] =
as1 + b, entonces se cumplen las siguientes propiedades:
I) Los parmetros a y b pueden ser calculados como:
a =

(3.16)

b = s0

s1

(3.17)

donde es el coeciente de correlacin = E[u0 u1 ], 0 y 1 son las desviaciones


estndar, s0 = E[s0 ], s1 = E[s1 ] son los valores medios (que consideraremos
nulos).
II) La esperanza condicional de las fuentes normalizadas es: E[u0 ju1 ] = u1
III) La fuente normalizada u1 es separable de u0
Dem. Apndice 3.9.2
La principal consecuencia de este teorema es que cuando las fuentes tienen
esperanzas condicionadas lineales, entonces son separables y pueden ser extradas
encontrando los mximos locales de la medida NG. Se destaca que, la condicin del
teorema siempre se cumple para el caso independiente ya que E[s0 js1 ] = E[s0 ] = 0,
es decir que, como corolario, se demostr que las seales independientes son separables con la medida NG.

3.4.

El algoritmo MaxNG

En esta tesis, se propone el algoritmo MaxNG (Maximum Non-Gaussianity)


basado en el criterio de mxima NG denido anteriormente para separar fuentes

49

dependientes o independientes [29, 30]. En esta seccin se presentan los detalles


de su implementacin para el caso general de m mezclas (sensores) y p fuentes con
m p (caso sobredeterminado) que es donde se puede garantizar la existencia de
una matriz de separacin D tal que DA = I.
3.4.1.

Filtrado previo de las seales mezcla

Como es usual en ICA, la aplicacin de un Filtro Decorrelador - FD (Cap 2,


Subseccin 2.1.4) de las seales mezclas facilita el posterior procesamiento de los
datos. En particular, en MaxNG este ltrado previo tiene dos objetivos:
1) Reducir la dimensin de los datos a procesar, especialmente cuando m >> p.
2) Simplicar la estructura de la matriz de separacin buscada forzndola a
tener las de norma unitaria.
El FD se basa en aplicar PCA (o KLT ) a los datos disponibles x deniendo
un nuevo conjunto de mezclas no-correlacionadas x de la siguiente forma:
x=

1=2

V Tx

(3.18)

donde V es una matriz de m q (q 6 p 6 m) con los q autovectores dominantes


(cuyos autovalores son no nulos) de la matriz de covarianzas Cxx = E[xxT ], y es
una matriz diagonal de q q con los autovalores correspondientes en su diagonal
principal. Cabe sealar que, en el caso particular en que m = p = q, tambin
puede utilizarse el FD propuesto por Hyvrinen et al en ICA [75]:
x=V

1=2

V Tx

(3.19)

A travs de esta operacin lineal, las mezclas no-correlacionadas resultan tener


una matriz de covarianzas igual a la identidad como puede ser vericado directamente a partir de (3.18), i.e.
Cxx = E[xxT ] = I

(3.20)

Si se dene la separacin en trminos de las mezclas no-correlacionadas se


obtiene:
y =^
s = Dx
(3.21)
donde la nueva matriz de separacin D tiene la propiedad de poseer las de norma
unitaria ya que
Cyy = E[yyT ] = DDT
(3.22)
y se sabe que las seales estimadas estn restringidas a tener varianzas unitarias
E[yi2 ] = 1.
Por otro lado la matriz de separacin real D est relacionada con D de la
siguiente manera:
D = D 1=2 V T
(3.23)
En la Fig. 3.3 se muestra la secuencia de transformaciones lineales aplicadas sobre
las fuentes s.

50

Figura 3.3. Secuencia de transformaciones lineales aplicadas sobre las fuentes s


donde m p q

3.4.2.

Parametrizacin de la matriz de separacin D

Una vez aplicado el FD (3.18), el algoritmo MaxNG se reduce a la bsqueda


de p mximos locales de la medida N G (fy ), donde y es una combinacin lineal de
las mezclas no-correlacionadas, i.e.
y = dT x = d0 x0 + d1 x1 + :: + dq 1 xq
con la restriccin
2

q 1
X

(3.24)

d2i = 1

(3.25)

i=0

ya que la varianza de y es unitaria y las variables x0 ; x1 ; ::; xq 1 son no-correlacionadas (ecuacin (3.20)). Por lo tanto el espacio de los parmetros d0 ; d1 ; ::; dq 1
est determinado por una hiper-esfera de radio unitario en Rq . Cada vector d 2 Rq
para el cual la medida N G (fy ) tiene un mximo, es una posible la de la matriz
de separacin D.
Para simplicar la bsqueda de los mximos locales, se propone utilizar coordenadas hiper-esfricas las cuales requieren
h de q 1 ingulos para denir una la
genrica de la matriz D indicada por d = d0 d1 ::dq 1 , y que est relacionada con
el vector de ngulos (coordenadas hiper-esfricas) T = [
manera [70]:
2
cos 0
2
3
6
d0
sin
0 cos 1
6
7 6
6
:
6 d1 7 6
6
7 6 qQ3
T
d =6 : 7=6
sin n cos
6
7
4 dq 2 5 6
6 n=0
qQ2
4
dq 1
sin
n

n=0

1 :: q 2 ]

de la siguiente

3
q 2

7
7
7
7
7
7
7
7
5

(3.26)

Existe una relacin interesante entre la matriz de separacin buscada D y la


matriz de covarianzas de las fuentes Css que se obtiene reemplazando y = s en
(3.22) y resulta
Css = DDT
(3.27)

51

Por ejemplo, si las fuentes son independientes, la matriz de separacin buscada


es una matriz ortogonal DDT = I. Por otro lado cuanto ms correlacionadas sean
las fuentes, ms cercanos sern los vectores asociados (menor ngulo entre ellos).
3.4.3.

Bsqueda de mximos locales

Para garantizar la convergencia a mximos locales se propone utilizar una


bsqueda iterativa basada en el gradiente (gradient ascend tecnique) [57] donde el
(k+1) (k+1)
(k+1)
vector de ngulos en la iteracin (k+1), (k+1) = [ 0
:: q 2 ]T se actualiza
1
de la siguiente manera:
(k+1)

(k)

+ "(k) r

(3.28)

N G (fy )

con "(k) siendo un escalar que puede ajustarse a medida que se avanza en las
iteraciones y r N G (fy ) es el gradiente de la medida NG correspondiente a los
parmetros actuales.
En el algoritmo MaxNG se seleccionan al azar un nmero arbitrario de puntos
iniciales de bsqueda y, para evitar caer en los mismos mximos locales repetidas veces, una vez que un mximo local es detectado, se procede a eliminarlo
(Subseccin 3.4.4).
La ventaja de disponer de una frmula de la medida NG basada en las muestras de la seal a travs de las ventanas de Parzen, es que permiten calcular
explcitamente sus derivadas respecto a los parmetros de bsqueda (coordenadas
hiper-esfricas). Usando la regla de la cadena de las derivadas, se calcula el gradiente de la medida NG respecto del vector de ngulos T = [ 0 1 :: q 2 ] de la
siguiente manera:
r

N G (fy )

@
@ NG @ NG
...
@ 0
@ 1
@

donde

6
@d 6
=6
6
@
4

@ d0
@ 0
@ d1
@ 0

@ d0
@ 1
@ d1
@ 1

:
@ dq 1
@ 0

NG
q 2

::

= rd
@ d0
@

q 2

@ d1
@

::
::

@ dq 1
@ 1

::

@ dq
@ q

q 2

:
1
2

N G (fy )

@d
@

3
7
7
7
7
5

(3.29)

(3.30)

La ecuacin (3.30) es la derivada matricial del vector d respecto de y puede


ser calculada analticamente a partir de (3.26). Por otro lado, el gradiente de la
medida NG con respecto a d puede ser obtenido a partir de (3.8), (3.9) y (3.24)
arribando a:
rTd
rTd
rTd

^
2 (fy ) =

^ = rT
d

N G (fy )

^ = p2
n h2 + 1

1 (fy )

2 X x(i) X
p
n2 h i=0 2h j=0
n 1

n 1

^ + rT
d

2 (fy )

y(i)
h2 + 1

1 (fy )

n 1
X

y(i)

i=0

y(j) y(i)
p
2h

(3.31)
x(i)

y(j) y(i)
p
2h

(3.32)
(3.33)

52

3.4.4.

Eliminacin de mximos locales

Cada vez que MaxNG detecta una mximo local se debe proceder a eliminarlo para evitar la convergencia a un mismo mximo en diferentes instancias
de la bsqueda. Esta idea, conocida en ingls como deation, ha sido propuesta
originalmente por Friedman et al en Projection Pursuit [61], y consiste en aplicar
una transformacin no lineal a los datos hacindolos gaussianos en la direccin de
proyeccin donde la estructura no-gaussiana ha sido detectada (mximo local).
Supongamos que se encuentra un mximo local en la proyeccin dada por el
vector d , es decir que y = d T x es una variable no-gaussiana. En [61] se propone
la siguiente transformacin:
w =U T (U x)
(3.34)
donde U T es una matriz ortogonal cuya primer la est dada por el vector d
es un operador no-lineal dado denido por:
uT =

[u0 u1 ...uq 1 ]T

= G

(Fu0 (u0 )) u1 ...uq

T
1

(3.35)

con G 1 siendo la inversa de funcin de probabilidad acumulativa (cumulative


distribution function - cdf ) de Gauss y Fy es la cdf de y , i.e.:
Z x
G(x) =
(u)du
(3.36)
1
Z x
fy (u)du
(3.37)
Fy (x) =
1

Friedman demostr que la transformacin (3.34) produce un nuevo vector w


cuya distribucin es lo ms cercana posible a la distribucin original de x, con
la condicin que la distribucin marginal en la direccin de proyeccin dada por
d es gaussiana. En esta tesis se introduce una nueva tcnica para implementar
la transformacin de Friedman utilizando ventanas de Parzen. En esta tesis se
propone estimar la cdf Fy (y ) integrando el estimador de Parzen [35]:
1X
G
n i=0
n 1

Fy (y )

y(i)
h

(3.38)

y de esta manera se obtiene una forma prctica de remover las estructuras nogaussianas en la direccin de proyeccin dada por d .
3.4.5.

Clculo acelerado de la medida NG y sus derivadas

Las ecuaciones (3.8)-(3.9) y (3.32)-(3.33) proveen un clculo directo de la medida NG y sus derivadas a partir de las muestras de la seal, pero son computacionalmente muy costosas. Se requiere un total de (n + n2 ) evaluaciones de la
funcin de Gauss para el clculo de la medida NG y de su gradiente. La complejidad computacional es O(n2 ) y esto representa un problema cuando el tamao de
los datos n es elevado, lo cual es muy habitual en las aplicaciones.

53

Es sabido que los estimadores basados en ventanas de Parzen pueden ser implementados de una manera optimizada si las muestras estn ubicadas sobre una
grilla regular, ya que las sumatorias en las ecuaciones se convierten en convoluciones, que pueden ser calculadas rpidamente a travs de la transformada rpida
de Fourier (Fast Fourier Transform - FFT ) [115]. En esta tesis se desarrolla una
nueva aproximacin basada en esta propiedad [35], como se explica a continuacin.
Un estimador general de Parzen basado en un conjunto de n muestras: y(0),
y(1),.., y(n 1), tiene la siguiente forma:

S(t) =

n 1
X

(t

(3.39)

y(i))

i=0

donde es una funcin continua (una ventana de Gauss o su derivada por ejemplo)
que tiende a cero en innito (j (t)j ! 0 cuando t ! 1). Se divide el rango
continuo de la variable y en n segmentos, es decir, si los valores de las muestras
estn en el segmento [a; b), se dene la grilla formada por n segmentos de ancho
= (b a) =n y cada segmento est denido por (k) = [a + k ; a + (k + 1) )
para k = 0, 1, .., n
1.
La aproximacin de la suma S(t) que se propone es:

^
S(t) = S(t)

nX1

f (k) (t

(k))

(3.40)

k=0

donde f (k) es el nmero de muestras en el segmento k-simo, y (n) = a+


k + 21
corresponde a la posicin central del segmento k-simo. En la Fig. 3.4
se ilustra esta aproximacin a travs de un ejemplo sencillo. En la Fig. 3.4. a) se
muestra la estimacin resultante de la pdf a partir de n = 6 muestras a travs
del estimador de Parzen (3.6), en las abcisas se indican las ubicaciones de las
muestras y las ventanas gaussianas asociadas a cada una de ellas. En la Fig. 3.4.
b) se muestran las ventanas gaussianas centradas en cada uno de los segmentos
multiplicadas por el nmero de muestras pertenecientes a cada segmento f (k 1),
f (k), f (k +1), etc. En la Fig. 3.4. c) se muestran las sumas Original y Aproximada
superpuestas las cuales demuestran ser prcticamente coincidentes.
Es obvio que la aproximacin ser ms precisa a medida que se aumente el
nmero de segmentos considerados. En la prctica, se obtienen muy buenos resultados para un nmero de segmentos n << n (por ejemplo para n = 1024 y
n = 65536). Sin embargo la gran ventaja de la aproximacin (3.40) es que representa una convolucin y, como tal, puede calcularse utilizando el algoritmo FFT
reduciendo ms an su complejidad.
Finalmente, aplicando la aproximacin (3.40) se obtienen las siguientes ecua-

54

Figura 3.4. Ejemplo de aproximacin de un estimador basado en ventanas de


Parzen.

55

ciones para la medida NG (demostracin en el Apndice 3.9.3):


1
^ = p
+ 1 (f^y ) + 2 (f^y )
2
n
1
1 X
^
f (k) 1 (k)
1 (fy )
n k=0

N G (fy )

n
1
1 X
f (k) (f
n k=0

^
2 (fy )

2
+1
1
2 (k) = p
n 2h
=p

1 (k)

2 ) (k)

(k)
h2 + 1
k
p
2h

h2

(3.41)
(3.42)
(3.43)
(3.44)
(3.45)

donde (f
2 ) (k) es la convolucin de las funciones f y
2 . Equivalentemente,
para las derivadas de la medida NG se obtiene (demostracin en el Apndice 3.9.3):

N G (fy )

@dl
^

1 (fy )

@dl
@

1 (fy )

@dl

(k)
n (h2 + 1)
k
4 (k) =
nh2

2 (fy )

@dl
@dl
nX1
2
gl (k) 3 (k)
n k=0

n
1
1 X
gl (k) (f
n k=0

2 (fy )

3 (k)

p
k
p

4 ) (k)

(k)
h2 + 1

2h

(3.46)
(3.47)
(3.48)
(3.49)
(3.50)

donde gl (k) es proporcional a la suma de las muestras no-correlacionadas xl (i) tal


que su correspondiente proyeccin y(i) (ecuacin (3.24)) pertenezca al segmento
(k):
X
1
gl (k) = p
xl (i)
(3.51)
h2 + 1 i=y(i)2 (k)
Para analizar la complejidad computacional nal de estas aproximaciones, se
observa que el clculo de las funciones f (k) y gl (k) tienen complejidad O(n) y la
parte ms pesada de los clculos est asociada a las convoluciones las cuales tienen
una complejidad de O(n log n ). En la prctica se obtienen aproximaciones muy
precisas con un nmero de segmentos n = 1024 y n = 65536 lo cual representa
una ahorro signicativo en los clculos teniendo en cuenta que la complejidad
original es O(n2 ).

56

3.5.

Ejemplo de separacin de dos fuentes dependientes

Con el objetivo de ilustrar sobre el funcionamiento del algoritmo MaxNG,


en esta seccin se presenta un ejemplo sencillo de separacin de dos fuentes dependientes. Las seales utilizadas son reales y han sido extradas de una imagen
satelital cubriendo un rea de la supercie de la tierra caracterizada por estructuras geolgicas reales. Las seales fuente se han obtenido eligiendo dos columnas
de n = 512 pxeles de longitud y normalizndolas para forzarlas a tener media
cero y varianza unitaria.
En este ejemplo, las fuentes s0 y s1 corresponden a columnas contiguas en la
imagen (a distancia de un pxel), y por lo tanto tienen un alto nivel de dependencia
que se ve reejado en su coeciente de correlacin = E [s0 s1 ] ' 0;81 (Fig. 3.5).

Figura 3.5. Seales fuentes dependientes ( = E [s0 s1 ] ' 0;81) correspondientes


a dos columnas contiguas de una imagen satelital

Se generan de manera articial las mezclas a travs de (3.1) con una matriz de
mezcla arbitraria dada por
"
#
p1
10
p2
10

A=

p3
10
p1
10

(3.52)

cuya inversa (matriz de separacin) correspondiente es


D=A

1
=
5

p
p
10
3
p
p10
2 10
10

(3.53)

Aplicando el FD dado por (3.19), se obtienen las mezclas no-correlacionadas


x0 y x1 . En la Fig. 3.6, se muestran las pdf s estimadas para las seales s0 , s1 , x0
y x1 con sus correspondientes medidas NG.
La matriz de separacin objetivo, que puede obtenerse a partir de (3.23), es:
D = DV

1=2

VT '

0;41 0;91
0;87 0;50

(3.54)

57

Figura 3.6. Estimacin de las pdfs de las seales s0 , s1 , x


e0 , x
e1 y sus correspondientes medidas NG.
Usando coordenadas polares
D se obtiene:
D=

para las las de la matriz de separacin

cos( 0 ) sin( 0 )
cos( 1 ) sin( 1 )

(3.55)

La variable proyectada, sobre la que se mide la NG, queda parametrizada con


un nico parmetro angular :
y( ) = cos( )x0 + sin( )x1

(3.56)

donde x0 y x1 son las mezclas no-correlacionadas. Adems, la medida N G (fy( ) )


puede ser calculada en trminos de usando (3.7), (3.8), (3.9) y (3.56).
Segn el algoritmo MaxNG, las estimaciones b0 y b1 que permiten estimar
las fuentes, se obtienen como los mximos locales de N G (fy( ) ). En la Fig. 3.7,
se muestra la curva de N G (fy( ) ) versus el ngulo
para este ejemplo. Los
b
mximos locales estn ubicados en 0 = 30;0 ( N G = 0;050) y b1 = 64;0
( N G = 0;053) que se corresponden con las posiciones tericas de los mismos:
0 = arctan(0;50=0;87) = 29;89 y 1 = arctan(0;91=0;41) = 65;75 .
Adicionalmente, se muestra la existencia de un mximo local espurio (solucin
falsa) en ' 128 ( = 0;034), sin embargo los experimentos realizados (Seccin

58

3.8) muestran que la aparicin de soluciones falsas est relacionada con el hecho de
que el tamao del conjunto de datos es pequeo, es decir, cuando se considera un
mayor nmero de muestras (n > 512) las soluciones falsas tienden a desaparecer
como muestran los resultados de la Fig. 3.11.

Figura 3.7. Medida NG versus parmetro angular

A continuacin se muestra la relacin entre la matriz de covarianzas de las


fuentes Css y las ubicaciones de los mximos locales 0 y 1 es la siguiente. De las
ecuaciones (3.55) y (3.56) se obtiene:
E [s0 s1 ] = cos( 0 ) cos( 1 ) + sin( 0 ) sin( 1 ) = cos(4 )

(3.57)

con 4 = j 0
= E [s0 s1 ] ! 0 (caso de fuentes no1 j. Se observa que, cuando
correlacionadas) entonces 4 ! 90 que corresponde al caso en que las fuentes
son independientes (ICA) y la matriz D es ortogonal. Por otro lado, cuando =
E [s0 s1 ] ! 1 (completamente correlacionadas) entonces 4 ! 0 lo cual signica
que los ngulos 0 y 1 tienden a ser coincidentes. Esto sugiere que, cuando las
fuentes son fuertemente correlacionadas, la deteccin de los mximos locales podra
hacerse ms dicultosa.
En la prctica la bsqueda de los mximos se realiza en forma secuencial (un
mximo local por vez) a travs de una bsqueda guiada por el gradiente y aplicando
la tcnica de eliminacin de mximos explicada anteriormente. En la Fig. 3.8
se muestra un ejemplo particular donde la bsqueda de los mximos se hace a
partir de puntos iniciales seleccionados aleatoriamente y, cada vez que un mximo
es encontrado, se procede a eliminarlo. En la Fig. 3.8. a) se muestra como el
primer mximo es encontrado a partir de una bsqueda guiada por el gradiente
(pendiente). En la Fig. 3.8. b), luego de eliminar el primer mximo detectado, se
procede a la bsqueda, guiada por el gradiente, del segundo mximo. En la Fig.

59

3.8. c), luego de eliminar el segundo mximo detectado, se procede a la bsqueda


del tercer mximo. Debido a que la eliminacin de mximos puede introducir
errores, haciendo que los mximos se muevan de sus posiciones, en la Fig. 3.8.
d) se muestra la etapa nal del proceso, que consiste en realizar nuevamente la
bsqueda de los mximos pero esta vez sin eliminacin de los mismos, usando
como puntos iniciales aquellas posiciones detectadas anteriormente. Cabe aclarar
que el orden en que se obtienen los mximos depender de los puntos iniciales
seleccionados al azar.

Figura 3.8. Etapas en la bsqueda de mximos locales: 1) Se buscan secuencialmente los mximos a partir de puntos iniciales aleatorios (a. b. y c.) y 2) Se
buscan mximos sin deation usando las posiciones antes detectadas como puntos
iniciales (d.)

A los efectos de realizar una comparacin de ICA con MaxNG, a continuacin


se propone evaluar la Informacin Mutua denida en el Cap. 2 (ecuacin (2.23))
de todas las posibles fuentes estimadas. La informacin mutua puede ser estimada
utilizando la tcnica de las ventanas de Parzen y, para el caso de dos fuentes, la

60

formula resultante es [22]:


I(y) =

1 nP1
log
n i=0

1
n2 h2

"

nP1
j=0

log jcos( 0 ) sin( 1 )

i:j

y0

#"

nP1
j=0

i:j

y1

#)
(3.58)

sin( 0 ) cos( 1 )j

donde
i:j

= cos(

m ) [x0 (i)

ym = ym (i) ym (j)
x0 (j)] sin( m ) [x1 (i) x1 (j)] for m = 0, 1:

(3.59)

En la Fig. 3.9 se muestran los valores de I(y ( 0 ; 1 )) en el espacio de los


parmetros ( 0 ; 1 ) para el ejemplo presentado. La ubicacin del mnimo global
determina la solucin de Mnima Informacin Mutua (solucin ICA). En este ejemplo, el mnimo se ubica en 0 = 37;8 y 1 = 127;8 (o sus versiones permutadas o
invertidas) lo cual representa una estimacin equivocada de las posiciones reales
de las fuentes ( 0 = 29;89 y 1 = 65;74 ). Este es un claro ejemplo que muestra
que, cuando las fuentes son fuertemente correlacionadas, la solucin de mnima
Informacin Mutua es errnea.

Figura 3.9. Informacin Mutua I(y) versus ngulos

3.6.

1:

Ruido aditivo gaussiano y MaxNG

En esta seccin, se analiza el efecto del ruido aditivo gaussiano en el algoritmo


MaxNG [35]. Es decir, se aplica el algoritmo a un modelo de mezclas dado por:
x = As + n

(3.60)

61

donde x (vector de m mezclas), A (matriz de mezcla) y s (vector de p fuentes)


son los elementos utilizados anteriormente, y n es un vector de m seales de ruido
que, por simplicidad, se asume gaussiano, independiente de las fuentes y con una
matriz de covarianzas Cnn = E[nnT ]. Aplicando (3.24) a los datos con ruido (3.60)
se obtiene:
y(d) = dT As + dT n = y1 + v1

(3.61)

donde y1 es combinacin lineal de las fuentes si , y v1 es gaussiana ya que es


combinacin lineal de ruidos gaussianos. Dado que y1 y v1 son independientes, la
pdf de y puede escribirse como una convolucin:
fy (y) = (fy1

fv1 ) (y)

(3.62)

A la luz de estas observaciones, se identican dos estrategias diferentes para


aplicar MaxNG en el caso con ruido:
Mtodo 1: Maximizar la NG de la pdf asociada a la seal con ruido
fy (y): En este caso, se asume que el efecto del ruido, traducido en la convolucin
(3.62), no afecta demasiado a las posiciones de los mximos locales. En esta tesis se
presentan resultados experimentales que demuestran que, para un amplio rango de
valores de SNR (Signal to Noise Ratio), el ruido no afecta signicativamente a los
mximos locales (Subseccin 3.8.2), lo que permite aplicar MaxNG an cuando
no se dispone de informacin sobre la matriz de covarianzas del ruido Cnn .
Mtodo 2: Maximizar la NG de la pdf fy1 (y1 ): En este otro caso, se
asume que se conoce exactamente el modelo de ruido (matriz de covarianzas Cnn )
y se propone estimar la pdf fy1 (y1 ) a partir de fy (y) a travs de la convolucin
inversa (o deconvolucin). Asumiendo que existen las transformadas de Fourier de
las pdf s, se aplica la transformada de Fourier a la ecuacin (3.62):
fey (!)
fey1 (!) =
fev1 (!)

(3.63)

Esta ecuacin es vlida para todo valor ! (frecuencia) para el cual la transformada de Fourier de la pdf del ruido no se anule fev1 (!) 6= 0. La ecuacin (3.63)
indica que la funcin pdf buscada fy1 (y1 ) puede obtenerse a partir de la transformada inversa de Fourier. Por otro lado, la pdf correspondiente al ruido v1 es
fv1 (v1 ) =

v1

v1

(3.64)

v1

donde la varianza est determinada por 2v1 = dT Cnn d.


Introduciendo la frmula de Parzen (3.6) en la operacin de deconvolucin
(3.63) se obtiene [35]:
fy1 (y1 )

n 1
1 X
nh i=0

y(i)
h

(3.65)

62

donde
h =

h2

2
v

p
h2

dT Cnn d

(3.66)

Comparando las ecuaciones (3.65) con (3.6) se concluye que el efecto de considerar la deconvolucin es modicar el parmetro de apertura de las ventanas de
Parzen, reemplazando h por h . Por lo tanto, cuando existe ruido aditivo gaussiano, una forma de disminuir su inuencia, es reduciendo el parmetro de apertura
de ventana. Sin embargo, existe un lmite de aplicacin de (3.66) ya que, cuando
el ruido es demasiado grande ( 2v > h2 ), esta ecuacin ya no tiene sentido.
En la prctica este ltimo mtodo (Mtodo 2) tiene la desventaja de que requiere el conocimiento de la matriz de covarianzas del ruido Cnn . Adems, el
parmetro resultante h depende del vector d, y por lo tanto las derivadas de la
medida NG en trminos de d resultan ms complicadas de calcular si la comparamos con el mtodo anterior (Mtodo 1), donde el parmetro h es jo para todo
d.
3.6.1.

FD modicado para el caso con ruido

En la Subseccin 3.4.1 se present el FD cuyo objetivo es mantener la varianza


de la variable proyectada constante e igual a uno. En el caso con ruido, cuando
se aplica el Mtodo 1, el FD es idntico al utilizado en el caso libre de ruido
quedando denido por la matriz de covarianzas de las muestras Cxx a travs de
sus autovalores y autovectores.
Sin embargo, en el Mtodo 2, es necesario alterar el FD ya que lo que se necesita
es mantener la varianza de la variable deconvolucionada y1 constante e igual a uno
(ecuacin (3.61)).hEn este ltimo
i caso, el FD debe calcularse a partir de la matriz
T
de covarianzas E (As) (As) (en lugar de Cxx ), la cual es:
i
h
E (As) (As)T = E[(x

n)(x

n)T ] = Cxx

Cnn

(3.67)

donde se observa que es necesario conocer el modelo del ruido (matriz de covarianzas Cnn ). Por lo tanto, en la prctica, donde difcilmente se conoce con precisin
el modelo de ruido, resulta ms efectiva la aplicacin del Metodo 1 (Maximizar la
NG de la pdf asociada a la seal con ruido fy (y)).

3.7.

Determinacin de factores de escala con fuentes condicionadas

Como fue demostrado por Comon [49], existe una indeterminacin de escala
en las fuentes detectadas por los algoritmos BSS. De hecho, con MaxNG las estimaciones de las fuentes estn forzadas a tener varianza unitaria. En esta tesis
se analiza un caso muy particular de fuentes dependientes que aparecen naturalmente en aplicaciones de imgenes hiper-espectrales, para las cuales es posible
determinar los factores de escala apropiados. Estos resultados fueron presentados

63

originalmente en [33] y adaptados al caso con ruido en [35]. Se considera el caso


en que las seales fuente satisfacen la siguiente condicin:
P
X1

si = 1

(3.68)

i=0

la cual aparece, por ejemplo, cuando las fuentes estn asociadas a porcentajes de
ocupacin de materiales en pxeles. En estos casos, las fuentes estn condicionadas
a satisfacer 0 si 1 y tienen medias no nulas. Adems, la condicin (3.68) hace
que las seales sean necesariamente dependientes, de hecho cualquier seal puede
escribirse como combinacin lineal de las restantes.
A continuacin, se presenta la notacin y deniciones bsicas que se usarn en
este modelo:
si = E[si ] y xi = E[xi ] son los valores medios de la fuente si y la mezcla xi
(vectorialmente son s = E[s] y x = E[x] );
s0i = si si y x0i = xi xi son las seales centradas (vectorialmente son
s0 = s s y x0 = x x).
q
s0i
si si
ui = i = i son las fuentes normalizadas, donde i = E (si si )2 es
el desvo estndar de la fuente si . Notar que E [ui ] = 0 y E [u2i ] = 1.
Dado que el vector de las fuentes tiene media s no nula, se aplica la separacin
a las mezclas centradas x0 , estimndose entonces las fuentes centradas s0 . La estimacin de las fuentes reales se obtiene sumando a las estimaciones centradas sus
correspondientes medias, es decir:
^
s = Dx0 + Dx

(3.69)

Por otro lado, se observa que, la condicin (3.68) puede ser expresada en trminos de los valores medios y las fuentes centradas de la siguiente manera:
p 1
X

si = 1

(3.70)

s0i = 0

(3.71)

i=0
p 1

X
i=0

A continuacin, se demostrar que las condiciones (3.70) y (3.71) pueden ser


utilizadas para remover toda indeterminacin en los factores de escala. Supongamos que se ha encontrado la matriz de separacin D que separara las fuentes
para el caso con ruido (3.60). A partir de (3.61) podemos escribir:
yi0 = hi s0i + vi

(3.72)

64

donde vi es una seal gaussiana. Las constantes h0 ; h1 ; : : : , hP 1 son entonces los


factores de escala de los cuales no se tiene informacin. Por conveniencia se dene
qi = 1=hi y se observa que la condicin sobre las fuentes centradas (3.71) puede
escribirse de la siguiente manera:
p 1
X

qi (yi0

(3.73)

vi ) = 0

i=0

Si bien no es posible encontrar los valores de qi que hagan cumplir esta igualdad
idnticamente, se puede minimizar el error cuadrtico medio (Mean Squared Error
- MSE ) denido por:
2
!2 3 p 1 p 1
p 1
XX
X
qi E[yi0 yj0 ] E[vi vj ] qj
(3.74)
qi (yi0 vi ) 5 =
"2 = E 4
i=0 j=0

i=0

donde se ha utilizado que E[zi0 vj ] = E[zj0 vi ] = E[vi vj ] por ser s0i y ni independientes.
Matricialmente, la frmula anterior es:
"2 = qT (Cy0 y0

Cvv ) q = qT Rq

(3.75)

donde qT = [q0 q1 :::qp 1 ], Cy0 y0 = E[y0 y0 T ], Cvv = E[vvT ] y R = Cy0 y0 Cvv .


Es fcil ver que la minimizacin de (3.75) con la condicin jjqjj 6= 0 se consigue
eligiendo q = e con e siendo el autovector de la matriz R asociado con el mnimo
autovalor m n (Re = m n e y jjejj = 1) y es una constante global a determinar.
Al mismo tiempo, se indica que el MSE obtenido est determinado por el mnimo
autovalor y la constante global, i.e.,
"2 = qT Rq =
Para determinar la constante global
medios (3.70), arribando a

2 T

e Re =

mn

se utiliza la condicin sobre los valores

yi = (Dx)i = hi si =

si
ei

(3.76)

y por lo tanto, considerando la suma (3.71) se obtiene que:


qi = ei con

3.8.

= PP

1
i=0 ei

(Dx)i

(3.77)

Resultados experimentales

En esta seccin se presentan resultados experimentales que permiten analizar


la performance del algoritmo MaxNG como tcnica para separar fuentes dependientes. En estos experimentos, se han utilizado los siguientes tipos de fuentes:
a) Seales sintetizadas (Tipo A): En este caso, con la idea de generar
seales que cumplan con la condicin (3.68) y simular las seales encontradas en

65

imgenes hiper-espectrales, se procede de la siguiente manera: se generan primero


p seales independientes: w0 , w1 ,.., wP 1 utilizando una pdf comn a todas ellas
fw (w); luego, se obtienen las seales fuente de la siguiente manera:
wk
(3.78)
sk = Pp 1
i=0 wi

Se consideran las variables w0 , w1 ,.., wP 1 uniformemente distribuidas en el


segmento [0; 1]. Es fcil ver que las fuentes sk generadas con (3.78) tienen idnticas
pdf s, adems, las esperanzas condicionadas y los coecientes de correlacin estn
dados por:
1
= E[ui uj ] =
(3.79)
p 1
1
E[ui juj ] =
uj = uj
(3.80)
p 1

donde ui y uj son las fuentes normalizadas. Se seala que la ecuacin (3.80) garantiza la separabilidad de las fuentes ya que verica la condicin suciente del Teorema
3.
b) Seales extradas de imgenes satelitales (Tipo B): Se usan columnas
de pxeles en imgenes satelitales reales monocromticas. Estas seales tienen pdf s
que no responden a un modelo sencillo y permiten regular el grado de dependencia
entre seales eligiendo la separacin (en pxeles) entre columnas seleccionadas.
3.8.1.

Experimento 1: Mxima NG versus Mnima Informacin Mutua

Se presenta una comparacin de las separaciones obtenidas con el criterio de


Mxima NG (algoritmo MaxNG) y el criterio de mnima Informacin Mutua que
es la base de la mayora de los algoritmos ICA.
Este experimento se realiz sobre seales del Tipo B (seales extradas de
imgenes satelitales) normalizadas (media cero y varianza unitaria) con diferentes
grados de dependencia medidos por el coeciente de correlacin . En total, se
han realizado 300 simulaciones para diferentes fuentes con diversos grados de dependencia y con n = 512. Se utiliz una matriz de mezcla aleatoria y las matrices
de separacin fueron estimadas usando ambos criterios: MaxNG y mnima Informacin Mutua.
Con el objeto de medir la precisin de las estimaciones, dadas las seales fuente
si y sus estimaciones sbi , se dene el vector error e =b
s s y se utiliza la medida
Signal to Interference Ratio - SIR comnmente utilizada en algoritmos BSS :
SIRi =

10 log10 (var(ei )) =

10 log10 (Cee [i; i])

(3.81)

En general, niveles de SIR por debajo de 8dB, 10dB o 12dB indican un error en la
separacin [22], por lo tanto se dice que una separacin es exitosa si SIRi > 8dB,
10dB o 12dB para todas las fuentes i = 0, 1, .., p 1. Al mismo tiempo se dene
la eciencia de la separacin
nA
(3.82)
Eciencia ( %) =
nT

66

donde nA es el nmero de casos donde el los SIR s superaron el umbral y nT es


el nmero total de casos analizados.
En la Fig. 3.10, se muestran los niveles de eciencia para el criterio de mnima
Informacin Mutua y MaxNG como funcin del coeciente de correlacin de las
fuentes = E[s0 s1 ] para dos umbrales diferentes: 10dB y 12dB. Se seala que para
niveles de correlacin > 0;3, la eciencia del criterio MinMI comienza a decaer y
llega a cero para un coeciente de correlacin > 0;7. Para niveles de correlacin
cercanos a cero, ambos criterios proveen niveles de eciencia equivalentes lo cual
concuerda con la teora. Se observa adems que el criterio MinMI ha demostrado
ser ligeramente superior en trminos de eciencia para coecientes de correlacin
pequeos (0;98 versus 0;81), sin embargo este efecto slo es observado para n
pequeo (n = 512), ya que, si se aumenta el nmero de muestras, la eciencia
de MaxNG se incrementa considerablemente, como muestra la Fig 3.11 donde la
eciencia pasa de 0;87 (n = 512) a 0;99 (n = 5500).

Figura 3.10. Eciencia versus coeciente de correlacin para el criterio de Mnima Informacin Mutua (MinMI) y Mxima No-Gaussianidad (MaxNG)

3.8.2.

Experimento 2: Efecto del ruido sobre MaxNG

En esta subseccin se analiza la robustez al ruido de MaxNG (Mtodo 1, presentado en la Seccin 3.6). Ms precisamente, se analiza el efecto del ruido sobre
las ubicaciones tericas de los mximos locales de la medida NG. En este experimento se consideran p = 3 fuentes dependientes sintetizadas (Tipo A) y se ja el
nmero de muestras en n = 4096. Se utiliza tambin un nmero de mezclas (sensores) m = 102 para simular el tipo de seales observadas en el caso de imgenes
hiper-espectrales (Seccin 5.3). La matriz de mezcla A es generada aleatoriamente
y las mezclas xi son generadas con el modelo lineal (3.60) utilizando ruido blanco
gaussiano cuyas varianzas han sido seleccionadas de manera de garantizar un nivel
SNR constante para todos los canales (sensores).

67

Figura 3.11. Eciencia de MaxNG. 600 casos de separacin fueron considerados


para cada valor de n. Se consideraron dos categoras de fuentes: 0 < < 0;5 y
0;5 < < 0;9

Se realizaron simulaciones para un amplio rango de SNR ( 15dB a 50dB)


y se calcul la medida NG de la pdf de la seal con ruido (mtodo 1) para el
espacio de parmetros de separacin. En todos los casos se han considerado los
primeros q = 2 autovalores como dominantes ya que la dimensin del espacio de
las fuentes, causado por la condicin (3.68), es q = 2 = p 1. Luego de aplicar el
FD correspondiente, se evala la medida NG de la variable
y(d) = dT x

(3.83)

donde x son las seales no-correlacionadas (dimensin q = 2) y d es un vector


con norma unitaria que puede ser parametrizado a partir de un nico parmetro
angular :
dT = cos sin
(3.84)
Se calcul la medida NG de la variable y con en el rango 0 < < 180
ya que en el rango 180 < < 360 las seales estimadas estn invertidas, es
decir, multiplicadas por 1. Se utiliz h = 1;06 n 0;2 = 0;2 que minimiza el
Mean Integrated Square Error - MISE [115] para ventanas y pdf s gaussianas. En
todos los casos, en la Fig. 3.12 se comparan los mximos locales obtenidos con las
posiciones tericas esperadas. Se destaca que, los mximos estimados coinciden
con los mximos locales esperados en el rango de SNR de 5dB a 50dB. Inclusive,
para un nivel muy bajo de SNR( 10dB) se obtuvieron mximos locales no muy
lejanos de sus posiciones tericas.
La conclusin ms importante de este anlisis es que se puede aplicar el algoritmo MaxNG directamente sobre los datos con ruido, sin introducir errores
importantes y con la ventaja de que este mtodo no requiere informacin alguna
sobre el modelo de ruido.

68

Figura 3.12. Mximos locales detectados y tericos para seales Tipo A con
n = 4096, m = 102 and p = 3.

3.8.3.

Experimento 3: MaxNG versus algoritmos ICA

El objeto de este experimento es comparar el algoritmo MaxNG con algunos


de los algoritmos ICA ms populares como son el FastICA [74, 76] y JADE
[37, 76] para la separacin de fuentes dependientes. Se han considerado casos de
separacin con p = 3 seales sintetizadas Tipo A. Dada la estimacin de la fuente
normalizada u^i , se evala el SIR correspondiente respecto de la fuente normalizada
original ui , i.e.
SIRi = 10 log10 (var(^
ui ui ))
(3.85)
Asimismo se dene el SIR medio como la media aritmtica de los SIRi obtenidos
p 1

1X
SIRi
SIR medio =
p i=0

(3.86)

En la Fig. 3.13 se muestra una comparacin de los SIR s medios obtenidos con
la aplicacin de MaxNG, FastICAy JADE. MaxNG ha sido aplicado sin utilizar
la informacin del modelo de ruido, es decir, usando el Mtodo 1 (medida NG de
la pdf de la seal con ruido). Los valores de SIR medios fueron calculados en el
rango de SNR de 25dB a 60dB mostrndose el promedio de los valores obtenidos
sobre un total de 60 estimaciones por cada nivel de SNR. Para la implementacin
de los algoritmos ICA, se ha utilizado el paquete de software de Matlab ICALAB
[48]. Los resultados muestran que, aproximadamente para niveles SNR< 5dB,
los tres mtodos fallan en recuperar las fuentes dado el fuerte contenido de ruido
en las mezclas.

69

Como referencia se comparan estos resultados con los que se obtendran con
una matriz de separacin perfecta, es decir, si D es tal que DA = I. En este caso,
el error en la estimacin es causado slo por el ruido (no existen interferencias
cruzadas entre las fuentes). Fcilmente puede verse que, para el caso de tener
Cnn = 2n I y una matriz de separacin perfecta, el SIR obtenido est dado por:
SIRi =

10 log10 (E (D

1=2

V T n)2 )

(3.87)

que a su vez puede ser escrita en trminos del nivel de SNR y los autovalores i
"q 1 #
X 1
SIRi = SNR 10 log10
(3.88)
i=0

Se observa que la performance de MaxNG, en trminos de SIR medio es


prcticamente equivalente a la utilizacin de la matriz de separacin perfecta para
el rango de SNR de 25dB a 25dB. Para niveles SNR superiores a 25dB el SIR
medio obtenido por MaxNG tiende a un valor constante de 38dB que es un valor
muy alto si se lo compara con el valor mnimo aceptable de 12dB (Subseccin
3.8.1). Por otro lado, se observa claramente, que para los algoritmos ICA considerados, el SIR medio obtenido no supera los 15dB.

Figura 3.13. Valores de SIR medio para algoritmos MaxNG, Fast ICA y JADE
para seales sintetizadas Tipo A con n = 4096, y m = 102.

3.8.4.

Experimento 4: Performance de MaxNG

Existen varios factores que afectan la performance de MaxNG. En esta subseccin se analiza experimentalmente cmo inciden el nmero de sensores m (canales

70

o mezclas), el nmero de muestras n y el parmetro de apertura de las ventanas


de Parzen h en el valor de SIR medio obtenido para el caso de p = 3 seales
sintetizadas Tipo A.
La Fig. 3.14 muestra los SIR medios obtenidos en funcin de los parmetros
m, n y h para diferentes niveles SNR. En la Fig. 3.14 (izq.) puede observarse que,
para mayor nmero de muestras n, el SIR medio obtenido resulta incrementado
(para un SNR jo) destacndose que, para n > 2000 la mejora en la performance
es imperceptible, especialmente para un SNR= 0dB y SNR= 10dB. La Fig. 3.14
(centro) muestra que, el efecto de incrementar el nmero de canales m (para un
SNR jo), es mejorar la eciencia en trminos del SIR medio resultante. Con
respecto al parmetro de apertura h, en la Fig. 3.14 (der.) se verica que el valor
ptimo (en trminos de MISE) dado por h = 1;06 n 0;2 = 0;2 para n = 4096
[115], provee tambin una buena solucin en trminos del SIR medio resultante.

Figura 3.14. SIR medio versus n para el caso m = 102 y h = 1;06 n 0;2 (izq.);
SIR medio versus m con n = 4096 y h = 1;06 n 0;2 = 0;2 (centro); y SIR medio
versus h con n = 4096 y m = 102 (der.)

3.9.
3.9.1.

Apndices
Demostraciones de las ecuaciones (3.8) y (3.9)

Sustituyendo (3.6) en la integral de (3.7) e intercambiando el orden de la suma


y la integral, se obtiene:
n 1Z
y y(i)
2 X +1
^
(y)
dy
(3.89)
1 (fy ) =
nh i=0 1
h

Reemplazando (3.5) en la ecuacin anterior se arriba a:


Z +1 p 2
n 1
X
y
2
y(i)
h +1
^
p
1 (fy ) = p
h
n h2 + 1 i=0
h2 + 1
1
|
{z
=1

y(i)
p
h2 +1
h
p
h2 +1

dy

(3.90)

71

donde la ltima integral vale 1 resultando entonces la ecuacin(3.8).


Para demostrar (3.9), se usa nuevamente (3.6) dentro de la integral de (3.7)
arribando a:
!2
Z +1 X
n 1
y
y(i)
1
^
dy
(3.91)
2 (fy ) = 2 2
nh
h
1
i=0

Distribuyendo productos e intercambiando orden de integracin y sumatorias se


obtiene:
^
2 (fy ) =

n 1 n 1Z
1 XX
n2 h2 i=0 j=0

+1

y(i)
h

y, a travs del cambio de variables v =


1 XX
^
2 (fy ) = 2
n h i=0 j=0
n 1 n 1

Z
|

y y(i)
,
h

y(j)
h

dy

(3.92)

v dy
}

(3.93)

se llega a:

+1

y(j)

(v)
1

{z

y(j) y(i)
h

)(

=(

y(i)
)

donde la integral es la convolucin entre dos funciones de Gauss valiendo:


(

1
) (x) = p
2

x
p
2

(3.94)

por lo que se obtiene nalmente (3.9).


3.9.2.

Demostracin del Teorema 3

I) En primer lugar, se calcula la esperanza condicional de las fuentes normalizadas E[u0 ju1 ] usando la hiptesis de linealidad E[s0 js1 ] = as1 + b. Aplicando
propiedades bsicas de la esperanza y la denicin de fuentes normalizadas, se
obtiene:
E[u0 ju1 ] =

1
0

E [s0

s0 ju1 ] =

au1 +

as1 + b

s0

au1 +

(3.95)

con = as1 +b0 s0 .


Ahora, usando la propiedad Ey [E [xjy]] = E[x] en (3.95), se deduce que:
Eu1 [E [u0 ju1 ]] =

aE[u1 ] +

= E[u0 ]

(3.96)

y, sabiendo que E[u0 ] = E[u1 ] = 0, se concluye que


b = s0
E[u0 ju1 ] =

1
0

as1
au1

= 0 adems:
(3.97)
(3.98)

72

A continuacin, para simplicar la notacin, se asigna momentneamente x =


u0 y y = u1 . Usando la denicin de coeciente de correlacin y la denicin de
funcin de densidad condicional, se puede demostrar que:
Z Z
Z
Z
= E[xy] =
xyfxy (x; y)dxdy = yfy (y)
xfxjy (xjy)dx dy
(3.99)
donde las integrales son tomadas sobre todo el rango de las variables x e y; y
fxy (x; y), fxjy (xjy) y fy (y) son las funciones de densidad conjunta, condicional y
marginal, respectivamente.
R
Considerando que E[xjy] = xfxjy (xjy)dx, introduciendo (3.98) en (3.99), y
usando el hecho que E[u21 ] = 1, nalmente se obtiene:
Z
1
1
(3.100)
= a y 2 fy (y) = a
0

por lo que los parmetros a y b estn relacionados con los momentos de las fuentes
de la siguiente manera:
a=

(3.101)

1
0

b = s0

(3.102)

s1

II) Introduciendo (3.101) en (3.98), se obtiene directamente el resultado deseado, es decir, E[u0 ju1 ] = u1
III) A continuacin se demostrar que la derivada de la medida NG es cero en
el punto ( ; ) = (0; 1), con el par ( ; ) restringido a la elipse (3.14).
Se considera la siguiente parametrizacin de la elipse, donde los coecientes
y son escritos en trminos de un parmetro comn t:
(t) = t
(t) = t

t2 (

(3.103)

1) + 1

Para simplicar la notacin, consideraremos nuevamente x = u0 , y = u1 y sus


combinaciones lineales z = x + y.
La pdf de la variable mezcla z puede ser escrita en forma integral en trminos
de la pdf conjunta fxy (x; y) y los coecientes de mezcla y (asumimos 6= 0):
Z
1
z
x
fz (z; ; ) =
fxy x;
dx
(3.104)
donde, est claro que, en el caso de variables independientes, (3.104) se reduce a
la convolucin de las pdf s marginales.
Primero, se demuestra que la derivada de la pdf de la mezcla z es idnticamente
nula para el valor del parmetro t = 0, i.e., fz0 (z; (0); (0)) = 0 8 z. Se observa
que, usando la regla de la cadena de las derivadas, vale que:
fz0 (z; (t); (t)) =

@
fz (z; ; )
@

(t)+

@
fz (z; ; )
@

(t)

(3.105)

73

Asumiendo que se pueden calcular las derivadas respecto de y introduciendo la operacin de derivada dentro de la integral1 en (3.104), y luego de manejos
algebraicos, se obtiene (demostracin ms abajo):
@
fz (z = y;
@
@
fz (z = y;
@
Las derivadas de los parmetros

= 0;

= 1) =

= 0;

= 1) =

d
(fy (y)E[xjy])
dy
d
(yfy (y))
dy

(3.106)
(3.107)

en t = 0 se obtienen fcilmente de (3.103):


0
0

(0) = 1
(0) =

(3.108)

Sustituyendo (3.106), (3.107) y (3.108) en (3.105), se obtiene:


fz0 (z = y; (0); (0)) =

d
d
(fy (y)E[xjy]) + (yfy (y))
dy
dy

(3.109)

donde, usando la condicin E[xjy] = y es obvio que el trmino de la derecha, en


la ecuacin (3.109), es idnticamente cero.
Para nalizar la demostracin se debe mostrar que la derivada de la medida NG
es tambin cero en ( (0); (0)), lo cual puede vericarse considerando la derivada
de la expresin (3.4) respecto de t:
Z+1
0
2 [fz (z; (t); (t))
z (t) =

(z)] fz0 (z; (t); (t)) dz

(3.110)

donde, evaluando en t = 0 y usando el hecho que fz0 (z; (0); (0)) = 0, permite
arribar al resultado deseado.
Demostraciones de las ecuaciones (3.106) y (3.107):
Se calcula primero la derivada de la ecuacin (3.104) respecto de :
Z
@
1 @
z
x
fz (z; ; ) = 2
fxy x;
xdx
(3.111)
@
@y
y, cuando evaluamos en

= 1 y z = y, se obtiene:
Z
@
@
fz (z = y; = 0; = 1) =
fxy (x; y) xdx =
@
@y
Z
d
d
fxjy (xjy) fy (y) xdx =
(fy (y) E[xjy])
dy
dy

= 0,

(3.112)

Para garantizar que la operacin de diferenciacin puede pasarse dentro de la integral es


necesario usar resultados del Anlisis Funcional y teora de integral de Lebesgue [85] restringiendo
el espacio de las pdfs admisibles. En este trabajo, no se hace un anlisis detallado matemtico,
sino que se asume que las pdf s verican esas condiciones.

74

En forma similar, se calcula la derivada de la ecuacin (3.104) respecto de :

1
2

fxy x;

y, cuando se evala en

@
fz (z; ; ) =
@
Z
@
1
z
fxy x;
3
@y

dx

(z

x) dx

(3.113)

= 1 y z = y, se obtiene:

= 0,

@
fz (z = y;
@

= 0; = 1) =
Z
Z
d
fxy (x; y) dx y
fxy (x; y) dx =
dy
d
d
fy (y) dx y fy (y) =
(yfy (y))
dy
dy
3.9.3.

(3.114)

Demostraciones de las ecuaciones (3.41) - (3.46)

Asignado = , tomando t = 0 y z(i) =


la aproximacin en (3.40) obteniendo:

n
1
1 X
f (k)
n k=0

y(i)
p
h2 +1

en (3.39), es posible aplicar

1 (k)

(3.115)

(k)
h2 + 1

(3.116)

con
1 (k)

=p

2
h2 + 1

Para la aproximacin de (3.9), primero se asigna


que produce la siguiente aproximacin:

1
n 1n
1 XX
p
f (k)
n2 h 2 i=0 k=0

= ,t=

y(j)
p
2h

y z(i) =

(k) y(i)
p
2h

y(i)
p ,
2h

(3.117)

y, aplicando nuevamente la aproximacin (3.40), es que nalmente se obtiene:

nX1 nX1
1
p
f (k)
n2 h 2 l=0 k=0

con
2 (l)

k l
p
2h
1
= p
n 2h

n
1
1 X
=
f (k) (f
n k=0

l
p

2h

2 ) (k)

(3.118)

(3.119)

y donde (f
2 ) (k) es la convolucin de la funciones f y
2.
Siguiendo un procedimiento equivalente, se obtiene la aproximacin (3.46).

75

Captulo 4

Campos aleatorios gaussianos con


correlaciones de largo alcance
4.1.

Motivacin del modelo

El algoritmo MaxNG, como la mayora de los algoritmos ICA, permite estimar


las fuentes a partir de una operacin lineal sobre las mezclas (ecuacin 3.2). Puede
verse fcilmente que, cuando se aplica MaxNG al modelo con ruido, existir un
remanente de ruido gaussiano en las estimaciones, es decir,
b
s = Dx = s + Dn

(4.1)

v = Dn

(4.2)

donde, siguiendo la notacin del captulo anterior, s y b


s son las seales fuente y
sus estimaciones; x es el vector de seales mezcla; D es la matriz de separacin
perfecta (DA = I) y n es el vector de ruido gaussiano aditivo presente en las
mezclas. Adems, el ruido remanente denido por:

resulta gaussiano por tratarse de combinaciones lineales de variables gaussianas.


Existen algunos antecedentes de tratamiento de ruido en ICA, por ejemplo
en [6], se propone un algoritmo para Independent Factor Analysis - IFA, donde
el estimador de las seales fuente es un operador no-lineal que se aplica a las
mezclas. IFA, solamente es aplicable para el caso de seales independientes y su
implementacin es muy costosa en trminos del volumen de clculos requeridos. A
pesar de ello, ste algoritmo, ha sido aplicado a BSS en imgenes hiper-espectrales
[103] e imgenes de origen astrofsico [88].
En esta tesis se propone tratar el ruido en BSS aprovechando la robustez de
MaxNG para estimar la matriz de separacin an en entornos con ruido. La
idea es disear una tcnica de reduccin de ruido y aplicarla a las estimaciones
provistas por MaxNG. En trminos matemticos, esta tcnica deber ser capaz
de reducir el nivel (varianza) de ruido aditivo gaussiano que contamina las seales
tiles no-gaussianas. El problema de la reduccin de ruido aditivo es clsico en
el rea del procesamiento de seales, y requiere de modelos probabilsticos de la
seal til y del ruido. Como ejemplo, el ltro de Wiener clsico [127], se asumen
al ruido y a la seal til ambas gaussianas, permitiendo obtener una expresin del
ltro ptimo en el sentido que, el error cuadrtico medio (Mean Squared Error MSE) es minimizado [124].
En general se puede decir que, cuanto ms rico y preciso sea el modelo probabilstico de las seales involucradas, mejor ser la performance del ltro de Wiener.
En el caso de seales 2D (imgenes), un modelo sencillo es asumir a todos los
pxeles (variables) independientes entre s, lo cual es una burda aproximacin al

76

comportamiento usual de las imgenes [23, 62]. Para mejorar el modelo es necesario introducir, de alguna forma, las dependencias existentes entre las variables
modelando las interacciones entre pxeles.
En esta tesis se introduce un nuevo modelo de campo aleatorio gaussiano con
correlaciones de largo alcance (Long Correlation Gaussian Random Fields - LCGRF s) para el cual se analizan las propideades y se derivan nuevos algoritmos de
estimacin de parmetros [34]. La motivacin principal de este modelo, es permitir
el diseo un ltro de Wiener reductor de ruido para la restauracin de imgenes
fuente separadas con MaxNG. En particular estamos interesados en modelar un
tipo especial de imgenes astrofsicas producidas por el Cosmic Microwave Background - CMB, para las cuales se sabe que su funcin de densidad de probabilidad
es gaussiana y adems posee correlaciones espaciales de largo alcance [101]:

4.2.

El modelo LC-GRF

A continuacin se presenta la notacin que se utilizar a lo largo del presente


captulo como complemento a la utilizada en los captulos anteriores:
Un campo aleatorio de l l (dos dimensiones) o imagen se denota con fxi;j g
donde i; j = 0; 1; ::; l 1 son los ndices para las y columnas, respectivamente.
2

El vector columna x 2 Rl contiene a todas las variables (pxeles) xi;j de un


campo aleatorio, ordenadas la por la (orden lexicogrco).
La transformada discreta de Fourier en dos dimensiones (2D-Discrete Fourier
Transform - 2D-DFT ) de una imagen fxi;j g est denida por:
1 XX
=
xi;j exp
l i=0 j=0
l 1 l 1

x
eu;v

2
(ui + vj)
l

(4.3)

donde u; v = 0; 1; ::; l 1 son los ndices en el espacio transformado. Como


es usual en la bibliografa, esta transformacin tambin puede ser escrita en
forma matricial:
e = UHx
x
(4.4)

donde U H es la operacin hermtica (transposicin y conjugacin) sobre la


2
2
matriz U 2 Rl l cuyos elementos son:
[U ]il+j;ul+v = exp

2
(ui + vj)
l

(4.5)

Se observa que la matriz U es unitaria (U H U = I) y por lo tanto, la inversa


de la operacin 2D-DFT se obtiene haciendo
e
x = Ux

(4.6)

77

Otro resultado muy importante que se utilizar a menudo es que, la matriz U diagonaliza cualquier matriz circulante por bloques [65]. Para simplicar la notacin, a menudo se har referencia a la operacin 2D-DFT con:
e =DF T fxg o x
x
eu;v =DF T fxi;j g.

Por denicin, un GRF fxi;j g con i; j = 0; 1; ::; l 1, con media nula E [x] = 0
y matriz de covarianzas Cxx = E xxT , posee una pdf conjunta denida por
la distribucin de Gauss multivariada [120], es decir:
1

fx (x) = p

l2

(2 ) jCxx j

exp

1 T 1
x Cxx x
2

(4.7)

donde jCxx j indica el determinante de la matriz Cxx .


En esta tesis se propone una generalizacin de los modelos CM y SAR discutidos en la Seccin 2.3.2 asumiendo una matriz de covarianzas dada por
Cxx =

xB

donde es un parmetro escalar y la matriz B es la denida anteriormente en la


Seccin 2.3.2 (ecuaciones (2.81) y (2.82)). Es obvio que para = 1 y = 2 se
obtienen los casos CM y SAR conocidos.
Cabe sealar que para utilizar potencias no enteras de matrices, se usa una
denicin basada en la descomposicin cannica de la matriz B, es decir:
B

Def

UH

(4.8)

donde U H es la 2D-DFT que diagonaliza a B [65], es la matriz diagonal cuyos


elementos de la diagonal principal son los autovalores de B que depende de los
coecientes de interaccin considerados 1 ; 2 , .., o [15, 34]. Es fcil ver que,
si se asume un GRF no degenerado, i.e. con una matriz de covarianzas denida
positiva, entonces todos los autovalores son positivos y (4.8) queda perfectamente
denida para cualquier 2 R.
En consecuencia la denicin formal de un Campo Aleatorio gaussiano con
Correlaciones de Largo alcance (LC-GRF ) es la siguiente [34]:
LC-GRF : Un campo aleatorio fxi;j g de l l variables (imagen), es un LCGRF (Long Correlation - GRF) si su pdf conjunta obedece a la siguiente forma:
f (x ;
2

x; ) =

jBj =2
exp
(2 x )l 2 =2

1 T
x B x
2 x

(4.9)

donde x 2 Rl es un vector de media nula cuyos elementos son xi;j con i; j =


2
2
0; 1; ::; l 1, x y
son escalares y la matriz B 2 Rl l est denida a partir
de los coecientes de interaccin T = [ 1 2 .. o ] como se explic anteriormente
(Subseccin 2.3.2).
Puede demostrarse que el presente modelo resulta equivalente al presentado
por Bennet et al. en [15] en un contexto totalmente diferente [34].

78

4.3.

Propiedades bsicas del modelo LC-GRF

Clculo de autovalores: Una de las propiedades ms importantes del modelo, sobre la que se basan los resultados siguientes, es que la matriz de covarianzas puede ser diagonalizada utilizando la operacin 2D-DFT (ecuacin (4.8)).
Ms an, los autovalores i;j de la matriz B pueden ser calculados explcitamente
[15, 81] y valen:
2 T i;j
(4.10)
i;j = 1
donde, para el caso de orden o = 2 (sistemas de vecinos de primero orden), los
vectores y uv son:
=

1
2

T
ij

cos (2 i=l )
cos (2 j=l )]

with i; j = 0; 1; ::l

(4.11)

Puede demostrarse que si se asume Cxx denida positiva, existe una restriccin
para el conjunto de parmetros, por ejemplo para orden o = 2 los parmetros 1
y 2 estn sujetos a [15, 25, 81]:
j 1 j + j 2 j < 0;5

(4.12)

Funcin de Autocorrelacin: Como es usual la funcin de autocorrelacin


en 2D se dene por [64]:
rs;t = E [xi;j xi s;j t ]
(4.13)
Se observa que cada la (y columna) de la matriz Cxx est formada por versiones circulantes de la funcin de autocorrelacin rs;t [65]. Se puede calcular directamente rs;t a partir de la descomposicin cannica (4.8) de Cxx . De esta manera,
se obtiene la funcin de autocorrelacin en trminos de la operacin 2D-DFT :
rs;t =

DFT

(4.14)

i;j

donde i;j est denido por (4.10).


Varianza: Como corolario del resultado anterior, si se evala la funcin de
autocorrelacin en (0; 0), se obtiene la varianza de las variables del GRF :
2
x

= r0;0 =

x
l2

l 1 X
l 1
X

u;v

(4.15)

u=0 v=0

Se seala que, dados los parmetros y , la varianza del GRF es proporcional


al parmetro x .
Densidad espectral: La densidad espectral (spectral density o power spectrum) del LC-GRF x, denida como la 2D-DFT de la funcin de autocorrelacin
rs;t [64], toma la siguiente forma:
x
Su;v
=

x
u;v

(4.16)

79

Figura 4.1. Correlacin normalizada (rs;t =r0;0 ). Los casos para los modelos CM
y SAR corresponden a = 1 y = 2 respectivamente.

Correlaciones de largo alcance: Una de las caractersticas ms interesantes


del modelo LC-GRF, es que permite modelar fuertes correlaciones entre pxeles
lejanos dentro de una imagen utilizando pocos parmetros. Puede verse que el
parmetro est directamente relacionado con esta caracterstica. Con el objeto de
ilustrar esta propiedad, en la Fig. 4.1 se muestra el valor terico del coeciente de
correlacin normalizado entre pxeles (rs;t =r0;0 ) versus la distancia, para = 0;5,
1;0 (CM ), 1;5, 2;0 (SAR), 3;0 y 5;0, con 1 = 2 = 0;249 (izquierda) y 1 = 2 = 0;2
(derecha). Se observa que la caracterstica de correlacin de largo alcance est
tambin determinada por los parmetros de interaccin 1 y 2 .
Adems, en la Fig. 4.2, se muestran imgenes generadas aleatoriamente correspondientes al modelo LC-GRF con diferentes valores de los parmetros, donde
puede verse la inuencia de los mismos en las correlaciones entre pxels, es decir,
a mayores valores de 1 , 2 y , los pxeles vecinos tienden a parecerse ms entre
s agrupndose en forma de manchas. Las muestras fueron generadas utilizando
un algoritmo equivalente al diseado en [25] para el caso de los modelos CM y
SAR.

4.4.

Estimacin de parmetros

Para poder hacer un uso efectivo del modelo LC-GRF se debe contar con
mtodos de estimacin de parmetros que permitan ajustar el modelo a datos
disponibles. En esta tesis se presentan las soluciones para los siguientes problemas
de estimacin de parmetros con el modelo LC-GRF [34]:
1. Estimacin de los parmetros ,
de muestra

que mejor se ajusten a una imagen

80

Figura 4.2. Muestras de imgenes LC-GRF generadas aleatoriamente para distintos valores de los parmetros 1 , 2 y . El parmetro x se eligi de manera
tal que asegure una varianza unitaria

2. Estimacin de las varianzas correspondientes a una imagen LC-GRF y al


ruido aditivo gaussiano no-correlacionado (Additive White Gaussian Noise WGN ), a partir de una muestra de la imagen con ruido).
A continuacin se presentan los algoritmos especialmente diseados para estos
casos [34].
4.4.1.

Estimacin de mxima verosimilitud de ,

Se propone un algoritmo iterativo para la estimacin de los parmetros escalares , x y el vector T = [ 1 2 :: o ] a partir de una muestra de la imagen.
El algoritmo est basado en el mtodo de mxima verosimilitud (Maximum Likelihood - ML) y se obtiene de la siguiente manera. Aplicando el logaritmo a la
ecuacin (4.9), se obtiene la funcin log-likelihood a maximizar
( ;

x;

) = log (fx (x ;

x;

(4.17)

))

la cual puede ser escrita de la siguiente manera (Apndice 4.8.1):


( ;

x;

)=

l 1 X
l 1
X
u=0 v=0

log (

u;v )

l2
log (2
2

x)

l 1 l 1
1 XX
je
xu;v j2
2 u=0 v=0

u;v

(4.18)

donde u;v son los autovalores de B (ecuacin (4.10)) y x


euv es la 2D-DFT de la
muestra evaluada en las frecuencias (u; v).

81

Una forma de determinar las estimaciones ML de los parmetros es buscar los


valores = b , x = bx y = b tales que la funcin log-likelihood tenga derivadas
nulas, i.e.:
@
(b ; bx ; b) = 0,
@
@
(b ; bx ; b) = 0,
@ x
r (b ; bx ; b) = 0,

(4.19)
(4.20)
(4.21)

donde r es el gradiente de respecto del vector .


Se observa que, dadas las estimaciones b y b , es posible calcular bx directamente ya que, usando ecuacin (4.21) conjuntamente con (4.18) y (4.10), se
obtiene:
l 1 l 1
h
ib
T
1 XX
je
xu;v j2 1 2b uv
bx = 2
(4.22)
l u=0 v=0

Para el resto de los parmetros (b y b) no existen frmulas cerradas, por lo que


se propone una bsqueda iterativa de los mximos locales a travs de las derivadas,
las cuales pueden obtenerse explcitamente de (4.18) y son:
r
@
( ;
@

( ;
x;

x;

)=

)=

1
2

l 1 X
l 1
X

u=0 v=0
lX
1 X
l 1

x;

'uv ( ;

x;

u;v ) 'uv

( ;

x;

u;v

log (

(4.23)
)

(4.24)

u=0 v=0

donde
'uv ( ;

uv

)=

1
x

je
xu;v j2

u;v

(4.25)

En consecuencia se deriva el siguiente algoritmo que puede ser interpretado


como una modicacin del algoritmo clsico de Newton de bsqueda de mximos
a travs del gradiente [57]:
Algoritmo 4. Estimacin ML de parmetros en un LC-GRF:
Inicializar las estimaciones

(0)

(0)
x

(0)

Iniciar LOOP (i = 0, 1, 2,..)


Actualizar b (usando ecuacin (4.23)):

b(i+1) = b(i) + D(i) r

Actualizar b (usando ecuacin (4.24)):


b (i+1) = b (i) + h(i)

@
@

(i)

(i)
x ;

b
b (i) ; b(i)
x ;

(i)

(i)

(4.26)

(4.27)

82

(i)
en funcin de b y b (i) usando (4.22).
Calcular b(i+1)
x

Fin LOOP.

En este algoritmo, D(i) 2 Ro o , h(i) es un escalar y ambos son parmetros que


especican el paso en la actualizacin de los parmetros. En el algoritmo clsico
de Newton la matriz D(i) y h(i) se actualizan a travs del clculo de las matrices
hessianas [57]. En el presente algoritmo, se evitan los costosos clculos de derivadas
segundas proponindose una regla ms simple (y no ptima) de actualizacin.
Adems, aqu se considera una matriz D(i) diagonal, cuyos elementos de la diagonal
(i)
(i)
(i)
(i)
(i)
(i)
principal: d1 , d2 , .., do controlan la variacin de los parmetros b1 , b2 , .., bo ,
(i)
(i)
(i)
en la iteracin i. Para la actualizacin de los valores de paso d1 , d2 , .., do ,
h(i) se utiliza un criterio emprico: se usan valores pequeos iniciales y, luego de
cada iteracin, se compara el valor de las derivadas con sus valores en la iteracin
anterior. Ms precisamente, para cada parmetro, si la nueva derivada no cambia
su signo entonces se incrementa el paso correspondiente usando un factor jo de
aceleracin (speed-up) su > 1;0. Por otro lado, si la derivada cambia de signo,
signica que la estimacin del parmetro cruz la posicin del mximo y, para
renar la bsqueda, se reduce el valor del paso correspondiente dividindolo por
un factor jo de reduccin(slow-down) sd > 1;0.
Otro aspecto que tiene que ser tenido en cuenta durante la bsqueda del mxi(i)
(i)
(i)
mo, es que existe una restriccin sobre los parmetros b1 , b2 , ..,bo (por ejemplo,
para el caso de orden o = 2, la condicin es j 1 j + j 2 j < 0;5 determinando el rea
indicada en la Fig. 4.3). Es ms, puede verse que esta condicin es necesaria para
evitar singularidades en el clculo de las derivadas (ecuaciones (4.23) y (4.24)).
Por lo tanto, para evitar que los parmetros escapen de la regin permitida, slo se
acepta la actualizacin del vector b si este no viola la condicin de admisibilidad,
(i)
(i)
(i)
de lo contrario, los pasos d1 , d2 , .., do son reducidos dividindolos por sd tantas
veces como sea necesario hasta que el parmetro b sea aceptable.
4.4.2.

Estimacin de las varianzas de la seal til y el ruido usando el


algoritmo EM

Dada una imagen con ruido


y =x+n

(4.28)

donde x es una imagen que responde al modelo LC-GRF, n es ruido gaussiano


blanco aditivo (AWGN ) independiente de x y los parmetros y de la seal
til son conocidos. El objetivo es obtener las estimaciones bx y bn , lo que equivale a determinar las varianzas de x y n. ste es un problema de estimacin de
mxima verosimilitud con un conjunto de datos incompletos (incomplete dataset)
que puede resolverse a travs del algoritmo EM (Expectation / Maximization) [53]
ya que, en lugar de tener acceso a los datos completos (complete dataset), es decir
las imgenes x y n por separado, se tiene solo acceso a la suma (4.28).

83

Figura 4.3. Regiones de valores permitidos y prohibidos para los parmetros


y 2 para el caso de s = 2 (sistema de vecinos ms cercanos)

El algoritmo EM provee una tcnica iterativa para la maximizacin del loglikelihood de los datos completos usando los datos incompletos [53]. Ms formalmente, se denen:
Datos Completos: C = fx, ng
Datos Incompletos: I = fx + ng
Parmetros a estimar: bx y bn

El algoritmo EM consiste en la repeticin de dos pasos principales llamados


E-step (Expectation) y M-step (Maximization):
E-step (Expectation): Dadas las estimaciones correspondientes al paso i (b(i)
x ,
(i)
bn ) y los datos incompletos fx + ng, se calcula la esperanza del log-likelihood que
es:
n
o
(i)
(i) (i)
0
0
V 0x , 0n j b(i)
;
b
=
E
log
f
(Cj
,
)
j
I,
b
;
b
(4.29)
x
n
x
n
x
n
M-step (Maximization): Se asignan, como nuevos valores de las estimaciones
(i)
(paso i + 1) aquellos que maximizan la funcin V 0x , 0n j b(i)
x ; bn , es decir:
(i)
V b(i+1)
; b(i+1)
j b(i)
= M0 ax
V
x
n
x ; bn
0
(

x; n)

0
x,

0
n

j bx(i) ; b(i)
n

(4.30)

La convergencia al mximo de la funcin de log-likelihood est garantizada


por la demostracin terica provista en [53, 57]. Para nuestro caso particular de
imgenes LC-GRF contaminadas con ruido gaussiano, luego de varias operaciones
algebraicas se obtienen las frmulas correspondientes a los pasos E-step (4.29) y
M-step (4.30) que denen el siguiente algoritmo (Apndice 4.8.2):

84

Algoritmo 5. Estimacin de los parmetros

(0)
Inicializar las estimacines b(0)
x y bn

Iniciar LOOP (i = 0, 1, 2,..)


Actualizar las estimaciones:

1
l2
1
= 2
l

=
b(i+1)
x
END LOOP.

b(i+1)
n

(i)
b(i)
x , bn , y
(i)
b(i)
x , bn , y

(4.31)
(4.32)

(i)
(i)
donde 1 b(i)
y 2 b(i)
estn dados por las siguientes exx , bn , y
x , bn , y
presiones (demostraciones en el Apndice 4.8.2):
"
#
l 1 X
l 1
1
1
X
je
yuv j2 1
1
uv
uv
+
+
1+ 2
(4.33)
uv
1 (bx , bn , y) =
bn
bx
bn
bx
bn
u=0 v=0
"
#
l 1 X
l 1
1
1
X
1
je
yuv j2 2uv 1
uv
uv
+
+
1+
(4.34)
2 (bx , bn , y) =
bn
bx
bn
bx
b2x
u=0 v=0

siendo yeuv la 2D-DFT de la imagen con ruido y evaluada en el las frecuencias


(u; v).

4.5.

Reduccin de ruido

En esta subseccin se aborda el problema de la reduccin del ruido aditivo


gaussiano contenido en una imagen y. Ms precisamente, dada una imagen con
b de la imagen LC-GRF
ruido y (ecuacin (4.28)), se busca la mejor estimacin x
x.
Es bien conocido que, cuando las seales son gaussianas, los estimadores MAP
(Maximum A Posteriori) y MMSE (Minimum Mean Squared Error) son equivalentes [57, 124] y la reduccin del ruido se lleva a cabo a travs de la aplicacin
del ltro de Wiener [127], cuya expresin en el dominio de frecuencias de Fourier
es [64]:
x
Su;v
e
yeuv
(4.35)
x
buv = x
n
Su;v + Su;v

e
donde x
buv y yeuv son las transformaciones 2D-DFT de la imagen x estimada y la
x
n
imagen con ruido y respectivamente, Su;v
y Su;v
son los correspondientes densidades espectrales, i.e. las 2D-DFT de las funciones de autocorrelacin de x y n.
En esta tesis, se obtiene una expresin del ltro de Wiener basada en el modelo
LC-GRF y se analiza su performance en forma terica [34].

85

4.5.1.

Filtro de Wiener para el caso LC-GRF

Una de las ventajas del modelo LC-GRF, es que el ltro de Wiener puede ser
implementado directamente ya que la densidad espectral de la seal es conocida y
tiene una expresin sencilla (ecuacin (4.16)). Usando que el ruido AWGN tiene
n
una densidad espectral plana Su;v
= n para todo u, v = 0; 1; ::; l 1, con n siendo
la varianza del ruido ( n = 2n ), e introduciendo (4.16) en (4.35), se obtiene:
e
x
buv = wuv yeuv

(4.36)

donde el ltro de Wiener est dado por:

wuv =

1+

n
uv

(4.37)

La ecuacin (4.36), en su forma matricial es:

b
e = Wy
e
x

(4.38)

donde W 2 Rl l es diagonal y los elementos de la diagonal principal son wuv .


Utilizando la denicin de la operacin 2D-DFT se puede escribir:

b
e = UHx
b
x

e = UHy
y

por lo tanto, la ecuacin (4.38) se transforma en:


b = U W U H y =T y
x

(4.39)

T = UW UH

(4.40)

donde queda escrito de manera explcita la forma lineal del ltro de Wiener:

Por otro lado es fcil ver que la densidad espectral del modelo LC-GRF tiene
predominio de bajas frecuencias (largas correlaciones) por lo tanto el ltro de
Wiener resulta ser un ltro pasa bajos atenuando las componentes de alta frecuencia.
En la Fig. 4.4 se ilustra el efecto del ltro de Wiener en el espacio de las imgenes transformadas por Fourier, donde u representa a la frecuencia vertical y v a
la frecuencia horizontal. En la Fig. 4.4. a) se muestra el mdulo de la transformada de Fourier discreta en 2D (2D-DFT ) de la seal til x, que corresponde a un
LC-GRF con parmetros = 3, x = 1;0 y = 1 = 2 = 0;249, puede observarse que el contenido de esta imagen est concentrado en las bajas frecuencias,
es decir, en un entorno de (u; v) = (0; 0). En la Fig. 4.4. b) se muestra el mdulo
de la 2D-DFT del ruido aditivo gaussiano n cuya varianza es igual a la de la seal
til (SNR= 0dB), puede apreciarse que el contenido del ruido es plano en todo el

86

rango de frecuencias ya que se trata de ruido blanco. En la Fig. 4.4. c) se muestra


el mdulo de la 2D-DFT de seal con ruido y = x + n que es la superposicin de
los espectros de Fourier de la seal til x y del ruido aditivo gaussiano n. En la
Fig. 4.4. d) se muestra el mdulo del ltro de Wiener wuv obtenido con la frmula
(4.37) el cual toma valores entre 0 y 1. Se observa que el efecto de aplicar el ltro
de Wiener es el de atenuar las componentes de frecuencias altas donde la seal
til es ms dbil y de dejar prcticamente inalteradas las componentes de bajas
frecuencias donde la seal til es preponderante sobre el ruido blanco. Finalmente,
b
en la Fig. 4.4. d) se muestra el mdulo de la 2D-DFT de la seal restaurada x
a partir del ltro de Wiener donde se observa claramente que el espectro de la
imagen restaurada (Fig. 4.4. d)) es idntico al de la imagen original (Fig. 4.4. a)).
Por otro lado, en este ejemplo se observa que las correlaciones de largo alcance
producen un alto contenido de bajas frecuencias.

Figura 4.4. Interpretacin del ltro de Wiener en el espectro de frecuencias de


Fourier.

4.5.2.

Performance terica del ltro de Wiener

b de la seal en el sentido
El ltro de Wiener provee la mejor estimacin x
que minimiza el error cuadrtico medio (MSE ), pero no elimina completamente el
ruido. A continuacin se incluye un anlisis terico de la calidad de la restauracin
producida por el ltro de Wiener a travs de la varianza del error remanente que
se dene como:

87

b
e=x

(4.41)

Para medir la performance de la restauracin, se comparan las relaciones seal


a ruido antes y despus de aplicar el ltro de Wiener. Es decir, dada la denicin
habitual de la relacin seal a ruido (Signal to Noise Ratio - SNR) se denen la
SNRi (de entrada o input) y la SNRo (de salida o output) de la siguiente manera:
SNRi (dB) = 20 log

(4.42)

SNRo (dB) = 20 log

(4.43)

y la gananciade la restauracin es:


G(dB) = SNRo (dB)

SNRi (dB) = 20 log

(4.44)

donde n y e son las desviaciones estndar del ruido y el error respectivamente.


Un valor de G = 0dB indica que no se ha mejorado el nivel de ruido remanente
mientras que, cuanto mayor sea el valor de G, mayor ser la reduccin de ruido
lograda. Usando (4.37), (4.39) y (4.41), se obtiene (Apndice 4.8.3):
#
" l 1 l 1
1
1 XX
n
1+
G(dB) = 10 log 2
(4.45)
uv
l u=0 v=0
x
En la Fig. 4.5 se muestra la ganancia en la restauracin versus SNRi para
= 0;5; 2;5 y 5;0 con x = 0;0225 y 1 = 2 = 0;249. Se observa que, cuanto ms
correlacionado es el campo se consiguen mejores restauraciones, por ejemplo, para
SNR= 0dB la ganancia obtenida para = 0;5 es G = 7;55dB mientras que para
= 5;0 la ganancia es G = 51;88dB.

4.6.
4.6.1.

Evaluacin experimental de los algoritmos


Estimacin de ,

En esta subseccin se analiza experimentalmente la precisin del algoritmo


propuesto en la Subseccin 4.4.1 para la estimacin de los parmetros del modelo
LC-GRF. Se han realizado estimaciones sobre un total de 20 9 10 = 1800 casos
(20 repeticiones del experimento para promediar los resultados, 9 casos diferentes
de valores en los parmetros 1 y 2 ; y 10 casos diferentes de valores en el parmetro
).
Se utilizaron imgenes de 256 256 generadas con un algoritmo equivalente
a los propuestos en [25, 41] que utiliza la transformada rpida de Fourier FFT
(Fast Fourier Transform). Se utiliz un esquema de vecinos ms cercanos (orden
o = 2) seleccionando los parmetros 1 y 2 de entre los siguientes valores 0;24;
0;16; 0;08; 0;08; 0;16; 0;24 y se consider = 0;5; 1;0;1;5;..;5;0. El parmetro

88

Figura 4.5. Ganancia de restauracin G vs SNRi para


0;249

= 0;0225 y

fue calculado a partir de la ecuacin (4.15) de manera de asegurar una varianza unitaria ( x = 1;0). Los valores iniciales de los parmetros son (0) = 0;1,
(0)
= 1;0 y (0) = 0;0. Los parmetros de optimizacin fueron seleccionados
x
empricamente como su = 1;1 (speed-up) y sd = 2;0 (slow-down); y los pasos
(0)
(0)
iniciales utilizados son: d1 = d2 = 1;0 10 8 y h(0) = 1;0 10 7 .
En la Fig. 4.6 se muestra la precisin de las estimaciones luego de 400 iteraciones en trminos del error absoluto (j
b j y 1 b1 ) (no se muestran los
resultados para 2 ya que son anlogos a los del parmetro 1 ). Los errores absolutos gracados son los valores promediados sobre las 20 simulaciones hechas para
cada conjunto de parmetros.
En la Fig. 4.6-arriba se muestran los valores para los casos simtricos ( 1 = 2 ).
Se observa que las estimaciones son mejores para los casos en que las correlaciones de largo alcance son ms importantes, es decir, para valores mayores de
y parmetros de interaccin cercanos al lmite permitido, i.e. j 1 j + j 2 j ' 0;5.
Otra observacin importante es que la estimacin ML del parmetro solo es
posible cuando 1 y 2 son no nulos, lo cual puede ser vericado directamente de
la ecuacin (4.18) ya que, cuando 1 = 2 = 0, los autovalores son u;v = 1 y la
funcin de log-likelihood resulta:
x

( x; ) =

l2
log (2
2

x)

l 1 l 1
1 XX
je
xu;v j2
2 u=0 v=0

(4.46)

que es independiente del parmetro . Por esta razn cuando los parmetros 1
y 2 tienden a cero, los errores en la estimacin de tienden a ser grandes (Fig.
4.6-arriba-derecha para = 0;08).
El algoritmo presentado tambin puede ser aplicado a casos no simtricos,
es decir, cuando 1 6= 2 tal como se muestra en la Fig. 4.6-abajo, donde se

89

Figura 4.6. Precisin en la estimacin de y 1 luego de 400 iteraciones para


los casos simtricos (arriba) y asimtricos (abajo).

han considerado tres casos diferentes de parmetros no simtricos.En la Fig. 4.7


se muestra la evolucin de los parmetros estimados b , bx y b1 para seis casos
diferentes ( = 0;5; 2;5; 5;0 y = 1 = 2 = 0;16; 0;24). Se observa que el
algoritmo requiere de aproximadamente 150 iteraciones para converger a un valor
muy cercano del esperado.
4.6.2.

Estimacin de las varianzas de la seal y el ruido a partir de


una muestra con ruido

Aqu se presentan resultados experimentales donde se muestra la eciencia de


la tcnica presentada en la Subseccin 4.4.2 utiliza el algoritmo EM para el caso de
imgenes modeladas con un LC-GRF contaminadas con ruido aditivo gaussiano
blanco (AWGN ). Para estos experimentos se han generado imgenes de 256 256
pxeles usando el modelo LC-GRF con parmetros 1 = 2 = 0;249, con en el
rango entre 0;5 y 5;0. A estas imgenes se las ha contaminado con ruido gaussiano
aditivo blanco manteniendo una relacin seal a ruido constante SNR= 0dB, es
decir, x = n (en particular se utiliz x = n = 1;0).

90

Figura 4.7. Evolucin de las estimaciones b , bx y b1 versus el nmero de iteracin


i

El algoritmo EM fue utilizado para estimar los parmetros x y n . Se observa


que siempre se cumple que n = 1, mientras que x est determinado por (4.15).
(0)
Las condiciones iniciales del algoritmo utilizadas fueron b(0)
x = bn = 5;0 y las
iteraciones del algoritmo EM fueron repetidas hasta lograr que el cambio en los
parmetros en una iteracin sea sucientemente chico como para asumir que se
arrib al punto jo, en este caso se uso un umbral de 1;0 10 7 . En la Fig.
4.8 (izquierda), se muestran el error absoluto nal para ambos parmetros versus
(se han promediado los resultados sobre un total de 20 casos para cada ).
Nuevamente, se observa que los resultados son mejores para mayores. En la Fig.
4.8 (derecha) se muestra la evolucin de las estimaciones de los parmetros para el
caso = 2;5; y se puede decir que se requieren aproximadamente 100 iteraciones
para que las estimaciones converjan a sus valores nales.

91

Figura 4.8. Eciencia del algoritmo: errores nales (izquierda) y convergencia


(derecha)

4.7.
4.7.1.

Apndices
Demostracin de la funcin de Log-likelihood ( ;

x;

Tomando el logaritmo de la ecuacin (4.9), se obtiene:


( ;

x; ) =

log (jBj)

l2
log (2
2

x)

1 T
x B x
2 x

(4.47)

Utilizando la descomposicin cannica de la matriz B (ecuacin (4.8)), aplicando propiedades del determinante y usando la denicin de la operacin 2D-DFT
(e
x = U H x), se obtiene nalmente la ecuacin (4.18).
4.7.2.

Detalles del algoritmo EM

En el E-step se requiere del clculo de la esperanza condicionada (miembro


derecho en la ecuacin (4.29)). La funcin log-likelihood de los datos completos
condicionados a los parmetros est dada por:
log [f (C;

0
x,

0
n )]

= log [f (x;

0
x )]

+ log [f (n;

0
n )]

(4.48)

donde se utiliz la independencia entre x y n. Adems como x y n tienen ambos


distribuciones gaussianas conocidas, sus pdf s conjuntas son:
jBj =2
exp
(2 0x )l 2 =2
1
f (n; 0n ) =
exp
(2 0n )l 2 =2
f (x;

0
x)

1 T
x B x
2 x
1 T
n n
2 0n

(4.49)
(4.50)

92

Introduciendo (4.49) y (4.50) en (4.48) se obtiene la siguiente ecuacin:


log [f (C;

0
x;

l2
log (2 0x )
2
2
1 T
1 T
0
x B x
n n
n)
0
2 x
2 0n

0
n )]

l2
log (2
2

log (jBj)

(4.51)

Aplicando la esperanza condicionada a esta ecuacin, utilizando la descomposicin cannica de la matriz B (ecuacin (4.8)) y usando propiedades del determinante, se obtiene la siguiente expresin:
E flog f (C;

l 1 X
l 1
X

log (

0
x;

0
n)

( x;

x;

l2
log ( 0x )
2

u;v )

u=0 v=0

1
2 0x

j y;

n ; y)

1
2

0
n

ng

(4.52)

l2
log (
2

( x;

0
n)

n ; y)

donde se denen

0
n.

( x,

n,

( x,

n,

y) = E xT B x j y;
y) = E nT n j y;

x;

x;

(4.53)
(4.54)

En el M-step se necesita maximizar (4.52) con respecto a los parmetros


Calculando sus derivadas e igualndolas a cero, se obtiene nalmente:
0
x
0
n

1
l2
1
= 2
l
=

0
x

( x;

n ; y)

(4.55)

( x;

n ; y)

(4.56)

las cuales son exactamente las ecuaciones (4.31) y (4.32) si se reemplaza 0x y 0n


(i)
por b(i+1)
y b(i+1)
; x y n por b(i)
x
n
x y bn .
A los efectos de nalizar la demostracin, debemos encontrar las expresiones
de (4.53) y (4.54) las cuales, como son esperanzas condicionadas, requieren la utilizacin de las pdf s condicionales fxjy (xj y; x ; n ) y fnjy (nj y; x ; n ). Si se utiliza
el hecho que x y n son independientes, aplicando propiedades bsicas de probabilidades como el teorema de Bayes, usando los modelos paramtricos para las pdf s
de x y n (ecuaciones (4.49) y (4.50)), y utilizando nuevamente la descomposicin
de la matriz B (ecuacin (4.8)), se obtienen nalmente las ecuaciones (4.33) y
(4.34).
4.7.3.

Demostracin de la Ganancia en la restauracin

Primero se observa que el error remanente e, luego de aplicar el ltro de restauracin, puede ser escrito en trminos de la seal til x y el ruido n usando la
ecuacin (4.39) como sigue:
b
e=x

x =T y

x =T (x + n)

x = (T

I)x + T n

(4.57)

93

Por lo tanto podemos calcular la matriz de covarianzas del error directamente:


Cee = E eeT

= (T

I)Cxx (T

I) + T Cnn T

(4.58)

donde se utiliz la independencia entre x y n. Si se utiliza la descomposicin


cannica de Cxx , la ecuacin (4.38) y que U H U = I, se obtiene:
Cee = U (W

I)

(W

I) +

nW

UH

(4.59)

La varianza del error puede calcularse de la siguiente forma:


2
e

1
T r fCee g
l2

(4.60)

Introduciendo (4.59) en (4.60) y aplicando propiedades bsicas de la traza de


una matriz, se arriba a:
2
e

l 1 l 1
1 XX
(wuv
l 2 u=0 v=0

1)2

x uv

n wuv

(4.61)

y, reemplazando wuv y uv por sus correspondientes valores, se obtiene una expresin nal para la varianza del error remanente:
2
e

Finalmente usando que

2
n

l 1 l 1
1 XX
l 2 u=0 v=0 1 +

n
n
x

(4.62)
uv

se arriba a la ecuacin deseada (4.45).

95

Captulo 5

Aplicaciones al procesamiento de imgenes


En esta tesis se presentan aplicaciones originales para el procesamiento de
imgenes basadas en las teoras y algoritmos introducidos en los captulos anteriores. En particular se presentan dos aplicaciones de la representacin KLT en el
reconocimiento de patrones, y dos casos de aplicacin del algoritmo MaxNG para
la separacin de fuentes estadsticamente dependientes en imgenes satelitales e
imgenes de origen astrofsico. En ste ltimo caso tambin se muestra cmo el
modelo LC-GRF puede ser utilizado para reducir el ruido en imgenes del CMB
(Cosmic Microwave Background).

5.1.

Clasicacin de imgenes de Mirounga Leonina

En 1991, Turk & Pentland [122] introdujeron una tcnica de reconocimiento


de patrones basada en la KLT conocida como el mtodo de las eigenfaces. En esta
tesis se presenta una aplicacin al reconocimiento de especimenes de Mirounga
Leonina, vulgarmente conocidos como elefantes marinos [26, 27]. La tcnica aqu
presentada permite a los bilogos trabajar en la clasicacin de animales a partir
de las fotografas de sus rostros, sin recurrir a mtodos invasivos, constituyendo
un aporte original a la identicacin de especimenes.
Las imgenes digitales utilizadas son monocromticas, de 256 256 pxeles y
a cada pxel se le asigna un nivel de gris en el rango de 0 (negro) a 255 (blanco)
(cuantizacin de 8 bits). Por lo tanto cada imagen ser asociada a un vector de
Rn con n = 256 256 = 65536.
5.1.1.

Identicacin de individuos

Dado un conjunto de m = 56 imgenes de distintos especimenes que constituyen los patrones y1 ; y2 ; ::; ym (Fig. 5.2-izq.), el objetivo es identicar una imagen
alternativa x de cualquiera de esos individuos. Es natural asociar la imagen x con
aquel patrn con el cual tenga distancia euclidea mnima1 , es decir:
x pertenece al individuo j si

yj

< kx

yi k2 8 i 6= j

(5.1)

Como fuera demostrado en el Cap. 2, Subseccin 2.2.1, estas distancias al


cuadrado pueden ser escritas en trminos de las distancias en el subespacio de los
patrones y en su complemento ortogonal:
kx
1

yj k2 = DASP2 (x) + DESP2j (x)

(5.2)

Existe una conexin directa entre esta clasicacin y la denicin de los diagramas de Voronoi
para Rn [125].

96

Figura 5.1. Con 2 elementos de la base se captura el 90 % de la energa de los


patrones; con 11 el 95 % y con 28 el 98 %.

En la prctica la distancia al subespacio de los patrones DASP(x) no aporta


informacin respecto de la similitud con alguno de los patrones. Por el contrario, la
distancia de la proyeccin de x a cada uno de los patrones, indica qu tan parecido
es a cada uno de los patrones conocidos. El mtodo de las eigenfaces consiste en
asociar a x con el individuo cuya DESPj (x) es mnima [122].
Si bien la distancia DESPj (x) podra ser calculada con cualquier base ortonormal, la ventaja de utilizar la KLT es que pueden usarse solamente las componentes
principales sin introducir errores considerables. De hecho, y como se discuti en el
Cap. 2, los autovalores de la matriz de covarianzas indican la cantidad de energa
asociada con cada eigenface siendo la KLT ptima respecto a la concentracin de
las energas. En la gura 5.1 se muestra la energa capturada por las componentes
KLT (eigenfaces) donde se observa claramente que la energa total se concentra en
unas pocas eigenfaces signicativas (por ejemplo, las primeras 2 eigenfaces concentran el 90 % de la energa y con las primeras 11 se arriba al 95 % de la energa
total).
Sobre este conjunto de 56 patrones se calcularon las eigenfaces (Fig. 5.2-der.) y
se sometieron al algoritmo de clasicacin fotografas alternativas de los individuos
de las fotos originales. A los efectos de analizar el criterio de clasicacin basado
en las distancias mnimas, en los siguientes ejemplos se han utilizado la totalidad
de las eigenfaces, sin embargo es importante tener en cuenta que, si el nmero de
patrones fuera elevado (por ejemplo 10000 o ms) la reduccin en la dimensin
del espacio de las eigenfaces es muy importante para reducir el tiempo de clculo
y economizar recursos computacionales. En la Fig. 5.3 se muestran 3 ejemplos de
imgenes originales y las correspondientes imgenes alternativas a clasicar. En
la Fig. 5.4 se muestran los valores de las distancias DESPj (x) para cada uno de

97

Figura 5.2. Las Eigenfaces estn ordenadas decrecientemente de izquierda a


derecha y de arriba hacia abajo.

los tres casos de clasicacin y puede observarse que, en todos los casos el mnimo
obtenido corresponde con una clasicacin correcta.
A los efectos de analizar estadsticamente los resultados se han realizado un
total de 40 clasicaciones de imgenes alternativas obteniendo una efectividad del
100 %, adems se calcul la media y el desvo estndar de los valores mnimos
y no-mnimos de DESPj (x) obtenidos en cada caso. En la Fig. 5.4 se muestran
las franjas de los valores mnimos y no-mnimos y se observa que las mismas se
encuentran sucientemente separadas como para evitar errores de clasicacin.
5.1.2.

Clasicacin en harems

A veces en lugar de identicar una imagen asocindola con un individuo, es


suciente con asociar dicha imagen como perteneciente a un grupo determinado
de especimenes o harem. En este caso, dados diferentes grupos de patrones o
harems, resulta ms til medir la distancia de la muestra a clasicar a los distintos
subespacios de patrones. Por ejemplo, dados dos grupos: harem A y harem B, se
puede basar la clasicacin en el clculo de las distancias DASPA (x) y DASPB (x).
En [27] se propuso una variante que result ms efectiva que consiste en calcular
el ngulo al subespacio de patrones denido por:
sin ( (x)) =

DASP(x)
kx y0 k

(5.3)

Por lo tanto surgen naturalmente los siguientes coecientes de clasicacin


y B para decidir si una imagen pertenece al harem A o B:
A

sin (
=
sin (

A)
B)

1
A

(5.4)

98

Figura 5.3. Imgenes originales de los patrones 2, 33 y 41 (arriba); y sus correspondientes imgenes alternativas sometidas a la clasicacin (abajo)

Es decir, si A < 1, la muestra x es clasicada como perteneciente al harem A, por


el contrario si A > 1, se clasica como perteneciente al harem B. En la Fig. 5.5
se muestran resultados experimentales para un caso donde dos harems han sido
denidos arbitrariamente con 28 individuos cada uno, y donde se han sometido
a la clasicacin 36 fotografas alternativas. Se observ que en todos los casos la
clasicacin fue correcta.

5.2.

Corregistro de imgenes satelitales

En esta tesis se propone un nuevo algoritmo para el corregistro de imgenes


que explota la capacidad de la representacin KLT para realizar reconocimiento
de patrones[28]. En aplicaciones de teledeteccin (remote sensing) es muy comn
disponer de dos imgenes satelitales x e y las cuales cubren aproximadamente
el mismo rea geogrca y que deben ser alineadas una respecto de la otra. Las
imgenes x e y se denominan imgenes primaria y secundaria, respectivamente.
El objetivo de un proceso de corregistro, es proveer una transformacin adecuada
sobre la imagen primaria x0 = T (x), de manera que, las imgenes x0 e y cubran
exactamente la misma rea cuando son superpuestas [24, 93].
Un mtodo tradicional de corregistro consiste en la identicacin de puntos
de control en ambas imgenes, es decir, posiciones que referencien a un mismo
objeto generalmente asociados con accidentes geogrcos fcilmente identicables
por inspeccin visual (por ej.: edicios, cruce de caminos, etc.). Sin embargo, este
tipo de tarea requiere un entrenamiento por parte del analista y los resultados del

99

Figura 5.4. Distancia en el Subespacio de los Patrones DESP para imgenes


de los patrones 2, 33 y 41. Se muestran las franjas de valores de las distancias
mnimas y no-mnimas.

corregistro son altamente dependientes del nivel de entrenamiento del mismo. En


los ltimos aos, se han desarrollado algoritmos de corregistro automtico, tanto
para imgenes satelitales como para el caso de aplicaciones en medicina como son
las tomografas, ecografas, etc. [24, 109]. Estas tcnicas automticas se basan en
la maximizacin del coeciente de correlacin (cross correlation coe cient) [24],
en la maximizacin de la informacin mutua (mutual information) [98, 128] o en
la minimizacin del error cuadrtico [118].
En esta tesis se presenta un mtodo original que dene puntos de control de
manera totalmente automtica y utiliza la representacin KLT como tcnica de
reconocimiento de patrones. Se presentan los resultados publicados en [28] con
imgenes de tipo radar de apertura sinttica de la ciudad de La Plata, Argentina, capturadas por el satlite ERS 1 de la agencia espacial europea (European
Space Agency - ESA) los das 14-Oct-1997 y 21-Feb-2000. El algoritmo propuesto
consiste en subdividir la imagen primaria en sub-imgenes a travs de una grilla
regular y asignar a cada sub-imagen un patrn yj (Fig. 5.6.a)). El algoritmo realiza la bsqueda de los patrones en la imagen secundaria a travs de una ventana
deslizante (Fig. 5.6.b)) calculando, para cada posicin de la ventana, las distancias al subespacio de patrones. Es decir, si la posicin de la ventana deslizante est
denida por las coordenadas (k1 ; k2 ), se calcula las distancia DASP2 como funcin
de las coordenadas (k1 ; k2 ) usando la siguiente ecuacin derivada de la frmula
(2.55):
m
P
2
DASP2 (k1 ; k2 ) = ky0 (k1 ; k2 )k
c2j (k1 ; k2 )
(5.5)
j=0

donde y0 (k1 ; k2 ) corresponde a la imagen centrada (y0 = y y0 ) determinada por


la ventana deslizante en la posicin (k1 ; k2 ) y cj (k1 ; k2 ) es el coeciente asociado a
la componente j en la representacin de la imagen y(k1 ; k2 ).
La gura 5.6.c) muestra la imagen de los valores de DASP2 (k1 ; k2 ) en la regin

100

Figura 5.5. Clculo del coeciente de clasicacin B para fotos alternativas de


los harems A y B. Patrones 0-27 corresponden al harem A; y 28-55 al harem B.

Figura 5.6. a) y b): Imgenes radar de la ciudad de La Plata: primaria (400


400) del 14-Oct-1997 y secundaria (1024 1024) del 21-Feb-2000. En la imagen
secundaria se muestra la ventana deslizante de 100 100. c) Mnimos locales de
la funcin DASP 2 (k1 ; k2 ).

101

Figura 5.7. Zoom de la imagen primaria corregistrada con la imagen secundaria.

de inters de la imagen secundaria. Los puntos oscuros indican valores pequeos


de esta magnitud. Como puede verse, la magnitud DASP2 (k1 ; k2 ) es muy sensible
a desplazamientos de la ventana, por ello aparecen puntos oscuros que representan mnimos locales pronunciados. Una vez determinadas las posiciones de los
patrones, stas son utilizadas para aplicar una transformacin a la imagen primaria para corregistrarla con la secundaria aplicando un mtodo de interpolacin
[64]. En la Fig. 5.7 se muestra el resultado nal luego de la aplicacin de una
interpolacin de tipo bilineal [64].

5.3.

Anlisis sub-pxel de imgenes satelitales (Spectral


Unmixing)

Recientemente, con la incorporacin de sensores hiper-espectrales en satlites,


que proporcionan informacin espectral de alta resolucin, se han posibilitado
nuevas aplicaciones en teledeteccin. Las imgenes multi-espectrales, es decir,
aquellas que proveen menos de 10 bandas de medicin, han permitido la implementacin de algoritmos de clasicacin detectando el material preponderante por
pxel (con porcentaje de ocupacin mayor) [121]. Sin embargo, el anlisis sub-pxel
se encuentra limitado por el pequeo nmero de bandas disponibles [84]. Por otro
lado, con imgenes hiper-espectrales, donde se disponen de 100 o 200 bandas de
frecuencia diferentes, es posible estimar los porcentajes de ocupacin de los materiales presentes por pxel. Esta tarea se conoce con el nombre de Spectral Unmixing
y constituye un nuevo y fascinante rea de investigacin [84, 103].
Bajo ciertas condiciones ([84, 103] y las referencias all incluidas), la radiancia
recibida en el sensor puede ser aproximada por una combinacin lineal de las
radiancias de los materiales que componen al pxel, multiplicados por sus correspondientes porcentajes de ocupacin. Adems, puede existir un componente

102

de ruido introducido por el instrumento. Por lo tanto, el problema de Spectral


Unmixing puede ser modelado como un caso particular de BSS, es decir:
x = As + n

(5.6)

donde x = [x0 x1 :::xm 1 ]T es el vector de las mediciones en los m canales (mezclas),


A 2 Rm p es una matriz de mezcla que contiene los espectros (spectral signatures)
de los p materiales, s = [s0 s1 :::sp 1 ]T es el vector de los porcentajes de ocupacin
de los materiales (fuentes) y n = [n0 n1 :::nm 1 ]T es el vector de ruido aditivo que,
por simplicidad, se asume gaussiano y de media nula.
Se destaca que, Spectral Unmixing es un caso especial de BSS en el que las
seales fuente tienen sus valores acotados 0
si
1, y adems estn condicionadas a vericar la ecuacin (3.68) que aqu se reproduce:
p 1
X

si = 1

(5.7)

i=0

Cuando los espectros de los materiales (matriz A) son conocidos, la estimacin


de los porcentajes de ocupacin es un problema inverso que puede ser resuelto,
por ejemplo, usando mnimos cuadrados [84] u otros mtodos [1]. Sin embargo, en
la realidad no se conocen a priori estos espectros, es as que, en los ltimos aos,
se han realizado avances en Blind Spectral Unmixing [16, 84, 103].
La tcnica ms popular en la bibliografa es utilizar los algoritmos ICA con
los cuales se han obtenido algunos resultados promisorios [19, 43, 86, 94, 103]. Sin
embargo, en ICA se asume que los porcentajes de ocupacin son variables independientes lo cual no es realista por diversas razones [84, 103]. Es fcil ver que
la condicin (5.7) impone dependencia entre las variables, de hecho, cada fuente
puede ser escrita como combinacin lineal de las otras hacindolas explcitamente
dependientes. En esta tesis, se presentan resultados de la aplicacin del algoritmo
MaxNG al problema Blind Spectral Unmixing [33, 35]. En los experimentos del
Cap. 3, se demostr que MaxNG muestra una performance superior a los algoritmos ICA en la separacin de fuentes dependientes que obedecen a la condicin
(5.7) por lo que su aplicacin al caso de imgenes hyperspectrales es ms adecuado. Adems, la condicin (5.7) puede ser utilizada para determinar los factores de
escala (Seccin 3.7) proveyendo as una solucin ms completa y precisa que las
soluciones ICA encontradas en la bibliografa.
5.3.1.

Imgenes utilizadas en los experimentos

Imagen hiperespectral real: Para los experimentos con datos reales, se


han utilizado sub-imgenes de una imagen de la ciudad de Roma provista por
el Airborne Laboratory for Environmental Research at IIA-CNR en Roma, Italia
(Fig. 5.8, arriba). Esta imagen, de 540 337 pxeles, ha sido capturada por el
espectrmetro MIVIS de tipo sweepbroom montado en una aeronave. Este instrumento consta de 102 canales los cuales provienen de 4 sensores independientes
en diferentes bandas de frecuencia: canales 1 20 (0;43 0;83 m); canales 21 28
(1;15 1;55 m); canales 29 92 (2;00 2;50 m) y canales 93 102 (8;20 12;70 m).

103

Adems de la imagen hiper-espectral, se cuenta con una clasicacin de los pxeles en 9 clases diferentes (Fig. 5.8, abajo). Esta clasicacin fue obtenida a travs
del mtodo clsico SAM (spectral angle mapper) [89] supervisado con inspecciones
de campo. Las clases identicadas son: ladrillo (rojo), grava/cemento (amarillo),
otras supercies (gris), infraestructuras (marron), rboles (verde oscuro), arbustos/matas (verde medio), prados (verde claro), agua (azul) y no clasicado (negro). Desde luego, esta clasicacin no permite evaluar cuantitativamente la performance de los algoritmos de spectral unmixing ya que no proporciona ninguna
informacin sub-pxel, sin embargo permite hacer una evaluacin cualitativa de
los resultados.

Figura 5.8. Arriba: canales RGB de la imagen hiperespectral original (540 337
pixeles). Abajo: clasicacin a travs del mtodo SAM (Spectral Angle Mapper)
(9 clases detectadas)

Imagen hiper-espectral simulada: A los efectos de posibilitar una validacin ms precisa de la separacin de fuentes, se ha generado una imagen simulada usando la ecuacin 5.6, donde los perles espectrales (las de la matriz A)
de cada una de las clases de la Fig. 5.8 - abajo, se han estimado a travs de los
espectros promedios de los pxeles que pertenecen a ellas.

104

Para la generacin de los porcentajes de ocupacin (vector de fuentes s), se


gener una imagen simulada de tamao inferior a la imagen original real, mezclando los espectros de los pxeles incluidos en sub-reas de 8 8 pxeles. De
esta manera, se puede calcular el porcentaje de ocupacin por pxel en la imagen
simulada, como el porcentaje de pxeles de ese material incluidos en el sub-rea
correspondiente. En la Fig. 5.9, se muestran los espectros aproximados (espectros
promedio) y sus correspondientes desviaciones estndar. La Fig. 5.10 muestra las
imgenes simuladas de 67 42 correspondientes a los porcentajes de ocupacin
por pxel de cada clase.

Figura 5.9. Espectros aproximados de las 9 clases provistas

105

Figura 5.10. Imgenes correspondientes a porcentages de opcupacin por pixel


de cada clase.

5.3.2.

Experimento con imagen simulada

En este experimento se aplica el algoritmo MaxNG a la imagen simulada para


el caso de ruido nulo (n = 0) y se comparan las fuentes estimadas con las fuentes
reales de la Fig. 5.10. El primer paso es, como siempre, la aplicacin del FD que
reduce la dimensin de los datos de 102 (nmero de mezclas) a 8 ya que existen
solo 8 autovalores no nulos de la matriz de covarianzas. Puede verse fcilmente
que, la condicin (5.7) obliga a reducir el espacio de las fuentes en una dimensin,
es decir, p 1.
A los efectos de comparar las estimaciones de las fuentes con sus originales, se
evala el SIR (Signal to Interference Ratio) sobre las fuentes normalizadas (media
zero y varianza nula) teniendo en cuenta que, en general, se puede decir que un
valor de SIR por debajo de 12dB representa una deteccin errnea [22]. En la
Tabla 5.1, se muestran los valores de SIR obtenidos para cada una de las fuentes y
se observa que todas fueron perfectamente recuperadas por el algoritmo MaxNG.
En la Fig. 5.11 se muestra una comparacin visual de las seales fuente y sus
estimadas para las clases Verde claro y Azul que corresponden con las seales
peor estimada (mnimo SIR= 14.6dB) y mejor estimada (mximo SIR= 63.8dB),
respectivamente.
5.3.3.

Experimentos con imgenes reales

En esta subseccin se presentan ejemplos de aplicacin del algoritmo MaxNG


a pequeas sub-reas de la imagen hiper-espectral real de la Fig. 5.8 - arriba.

106

Figura 5.11. Comparacin de las fuentes originales y estimadas correspondientes


a las clases Verde claro (arriba) y Azul (abajo).

107

En teora cuantos ms pxeles sean considerados (imgenes ms grandes) mejor


es la eciencia de MaxNG ya que las estimaciones de las medida NG se vuelve
ms precisa. Sin embargo, cuando se trabaja con imgenes reales, existe un nuevo
fenmeno que debe que ser tenido en cuenta: la variabilidad espectral ya que el
espectro de un material, no es idntico para todos los pxeles. Algunos de los
factores que provocan este efecto son: la geometra de iluminacin-dispersin, la
topografa local (efectos 3D) y otros [84, 103]. Por lo tanto, existe una situacin de
compromiso para la seleccin del tamao de la imagen a procesar, por un lado se
requiere una imagen sucientemente grande para obtener buenas estadsticas de
los datos pero, por otro lado, cuanto ms grande sea la imagen, ms crtico ser
el efecto de variabilidad espectral.
En nuestros experimentos se analizaron distintos tamaos de imgenes. Un
indicador de la precisin en la estimacin de las fuentes, es medir el error cuadrtico
medio MSE (Mean Square Error) entre la suma de las fuentes (hipotticamente
igual a uno) y la constante 1.0:
2

M SE = E 4

p 1
X
i=0

sbi

!2 3
1 5

Si la separacin fue exitosa, el error residual ser pequeo; por otro lado un valor
alto de M SE indica un error en la separacin.
La Fig. 5.12 (Casino del bel respiroen Villa Doria-Pamphilj, Roma), muestra los resultados de aplicar MaxNG a una sub-imagen de 50 50 pxeles (Figs.
5.12.a)-.b)-.c)) junto con la imagen original en formato RGB (Fig. 5.12.a)) y su
clasicacin (Fig. 5.12. b)). Se observa que las fuentes estimadas 1 y 2 coinciden con las clases Amarillo y Rojo, respectivamente, y la tercer fuente estimada
corresponde a las clases Verde (oscuro, medio y claro) mezcladas con las clases
minoritarias Gris, Negro, Marrn y Azul. Este ejemplo muestra que MaxNG no
es capaz de discriminar las clases minoritarias, ya que el clculo estadstico se ve
afectado por la escasez de pxeles de esas clases. Adems se observa que las tres
clases de verde, aparecen identicadas como una nica clase, lo cual es razonable
ya que todas estas clases tienen un perl espectral muy similar y sufren de altos
niveles de variabilidad espectral como muestra la Fig. 5.9.
La Fig.5.13 (Palazzo Corsini alla Lungaray Jardn Botnico, Roma), muestra los resultados para una sub-imagen de tamao mayor (75 75 pxeles). En
este caso MaxNG, identic cuatro clases: las fuentes 1, 2 y 3 se corresponden
con las clases Amarillo, Verde (oscuro, medio y claro) y Rojo, respectivamente; la
fuente estimada 4 contiene una mezcla de las clases Negro, Marrn y Gris.
Finalmente, en la Tabla 5.2 se comparan los MSE obtenidos para diferentes
tamaos de sub-imagen (50 50, 75 75 y 150 150 pxeles). Se observa claramente que, para el primer y segundo caso los errores remanentes son pequeos lo
cual sugiere buenos resultados. Por otro lado, para 150 150 se obtiene un error
signicativo, causado principalmente por el alto nivel de variabilidad espectral,
que es consecuencia del tamao de la imagen.

108

Figura 5.12. Imgen hiperespectral de 50


MaxNG

50 pxeles y resultados obtenidos con

Figura 5.13. Imgen hiperespectral de 75


MaxNG

75 pxeles y resultados obtenidos con

109

BSS y reduccin de ruido en imgenes astrofsicas

5.4.

En Astronoma se presentan muy a menudo problemas de separacin de seales


y de reduccin de ruido para aislar seales de inters. En esta tesis se presenta una
tcnica para la separacin de imgenes astrofsicas correlacionadas (dependientes)
[32]. Adems, el mtodo propuesto, contiene una etapa nal de reduccin de ruido
para las imgenes extradas del CMB (Cosmic Microwave Background) utilizando
el modelo LC-GRF [34].
Los resultados experimentales se hicieron sobre la base de imgenes astrofsicas sintetizadas provistas por el proyecto Planck Surveyor Satellite mission de la
Agencia Espacial Europea (ESA) a travs del Signal & Images Laboratory of ISTI
- CNR (Consiglio Nazionale delle Ricerche) de Pisa, Italia. Estas imgenes simulan las mediciones de radiacin electromagntica recibidas por un satlite con
sensores en distintas bandas de frecuencia, las cuales son combinaciones lineales
de las siguientes fuentes de radiacin: Cosmic Microwave Background (CMB),
Synchrotron (SYN ) y Galactic Dust (DUST ) [88].
En algunos trabajos se ha abordado el problema de la separacin de fuentes
en imgenes astrofsicas a travs de los algoritmos ICA [7, 88], sin embargo, la
dependencia entre las fuentes afecta negativamente los resultados. Es as que algunos autores mejoraron las tcnicas admitiendo dependencia o correlacin entre
las fuentes [12]. En esta tesis, se presenta una solucin basada en el algoritmo
MaxNG adaptado para este caso particular de seales [32].
5.4.1.

Modelo matemtico

El modelo matemtico que posibilita la aplicacin de MaxNG es


x = As + n

(5.8)

donde x = [x0 x1 :::xm 1 ]T es un vector que contiene las mediciones correspondientes a m canales (mezclas), s = [s0 s1 :::sp 1 ]T es un vector que contiene las
seales asociadas con cada una de las p fuentes de radiacin, A 2 Rm p es una
matriz de mezcla que contiene los coecientes con los que las fuentes son combinadas en cada canal y n = [n0 n1 :::nm 1 ]T es el vector de ruido aditivo que, por
simplicidad, se asume gaussiano y de media nula.
El caso particular que se analiza aqu posee una serie de caractersticas que son
explotadas en la adaptacin del algoritmo MaxNG y que permite el diseo de un
nuevo algoritmo llamado Minimax Entropy [32]. A continuacin se discuten las
caractersticas del modelo:
El satlite cuenta con m = 4 canales de medicin (sensores) que proveen distintas mezclas lineales de diversas fuentes de radicacin electromagntica que

110

se corresponden con las siguientes frecuencias centrales de canal: 100GHz,


70GHz, 44GHz y 30GHz [12, 88];
Se considera el caso donde existen slo p = 3 fuentes de radiacin presentes
en las mezclas: el Cosmic Microwave Background (CMB), el Galactic Synchrotron (SYN ) y el Galactic Dust (DUST );
Las imgenes CMB son gaussianas mientras que las imgenes SYN y DUST
no lo son [88]. Esta suposicin, que fuera utilizada previamente por Bedini et al en [12], no es estrictamente necesaria para el algoritmo Minimax
Entropy, sin embargo puede ser utilizada para mejorar la estimacin del
CMB como se muestra luego. En la Fig. 5.14 (arriba), se muestran ejemplos de imgenes CMB, SYN y DUST cuyas pdf s estimadas a travs de la
tcnica de ventanas de Parzen [107] son comparadas con la distribucin de
Gauss en la Fig. 5.15.
Los pares de imgenes CMB-SYN y CMB-DUST son no-correlacionados,
es decir E[s0 s1 ] = E[s0 s2 ] = 0 con s0 , s1 y s2 correspondiendo a las fuentes
CMB, SYN y DUST respectivamente.
5.4.2.

El mtodo Minimax Entropy

Este mtodo surge como una adaptacin natural del algoritmo MaxNG [30].
Como en cualquier problema de BSS, el objetivo es encontrar la matriz de separacin D tal que las fuentes puedan ser estimadas a partir de la ecuacin lineal
b
s = Dx

(5.9)

Las las de la matriz D, que proveen las estimaciones de las fuentes no-gaussianas
SYN y DUST son encontradas a partir de la minimizacin de la gaussianidad
(maximizacin de la NG) de la variable
y = dT x
donde el vector d es tal que la varianza de y sea unitaria. Al mismo tiempo, puede
verse que y ser siempre no-gaussiana, a menos que se corresponda con la seal
fuente CMB (gaussiana) con ruido gaussiano aditivo. Por lo tanto, la la de la
matriz D que provee la estimacin del CMB se puede obtener como el vector d
que hace que la variable y resulte gaussiana.
En consecuencia las fuentes de radicacin astrofsicas pueden encontrarse a
travs de la maximizacin y minimizacin de una medida de gaussianidad. La medida NG del algoritmo MaxNG puede generalizarse, usando ademas la medida
basada en la distancia en L2 (R), utilizando la entropa relativa que resulta en maximizar/minimizar la entropa de Shannon (Capitulo 2, Subseccin 2.1.4). En esta
tesis se analizan dos medidas de gaussianidad, que llamaremos medidas entrpicas: la entropa de Shannon (Shannon Entropy - SE ) y la medida de gaussianidad

111

(Gaussianity Measure - GM ).
HSE (fy ) =
HGM (fy ) =

fy (y) log(fy (y))dy

(5.10)

(y)]2 dy

(5.11)

[fy (y)

donde (y) = p12 exp( 12 y 2 ) es la pdf de Gauss y fy (y) es la pdf de y. Se seala


que, la medida de gaussianidad HGM (fy ) es exactamente igual a menos la medida
N G (fy ) denida en MaxNG.
En la implementacin del algoritmo de separacin, se debern estimar las medidas entrpicas (5.10) y (5.11) a partir de un conjunto de n muestras de la seal y:
y(0), y(1),.., y(n 1), para lo cual usamos la tcnica de estimacin no paramtrica
basada en las ventanas de Parzen (Subseccin 3.2.1). Para la medida (5.10) puede
derivarse una tcnica similar como fuera propuesta en [58]. El algoritmo Minimax
Entropy consiste en la aplicacin de los siguientes pasos principales:
Decorrelacin de las mezclas: Con el objeto de simplicar la parametrizacin a travs del uso de coordenadas esfricas, se aplica un FD basado en la KLT
(Subseccin 3.4.1) es decir, se dene al conjunto de mezclas no-correlacionadas x
a travs de
x = Tx
(5.12)
donde T 2 Rq m es el FD basado en la KLT, m = 4 es el nmero de sensores y q
es la dimensin del espacio reducido. Se consideran niveles bajos de ruido aditivo
y por lo tanto existirn siempre solo q = p = 3 autovalores relevantes de la matriz
de covarianzas.
Las mezclas no-correlacionadas x0 , x1 y x2 son no-correlacionadas, es decir
(5.13)

E[x0 x1 ] = E[x0 x2 ] = E[x1 x2 ] = 0

y se usan coordenadas esfricas con radio unitario para restringir la varianza de


las combinaciones lineales a ser unitaria:
y( 0 ;

1)

= x0 cos

+ x1 sin

cos

+ x2 sin

sin

(5.14)

El espacio de bsqueda del mximo y los mnimos resulta bidimensional ( 0 ,


1 ). En trminos de las mezclas no-correlacionadas, el objetivo es buscar una matriz
de separacin D tal que
b
s = Dx
(5.15)

Etapa de mnima entropa: Dado que las fuentes no-gaussianas estn asociados con mnimos locales de las medidas entrpicas de la variable y( 0 ; 1 ), se
procede a buscar los mnimos locales de las medidas SE o GM. Las fuentes asociadas a estos mnimos locales correspondern con las fuentes no-gaussianas (SYN
o DUST ).
Etapa de mxima entropa: La fuente estimada asociada con la mxima
entropa de y( 0 ; 1 ) corresponder con una fuente gaussiana que, en este caso, es
el CMB.

112

Etapa de reduccin de ruido: Una vez estimada la matriz de separacin D


la ecuacin (5.9) nos provee de las estimaciones de las fuentes CMB, SYN y DUST.
Si D es una matriz de separacin perfecta (DA = I) entonces las estimaciones
de las fuentes estarn contaminadas con ruido aditivo gaussiano. La reduccin del
ruido aditivo gaussiano puede llevarse a cabo a travs de un ltro ptimo o ltro
de Wiener para lo cual se requiere de un modelo probabilstico de la seal til
que quiere recuperarse. Para el caso de de las imgenes CMB, el modelo LC-GRF
permite encontrar una expresin analtica para el ltro de Wiener (Seccin 4.6).
5.4.3.

Otra manera de estimar la imagen CMB

La condicin de no-correlacin de los pares de seales CMB-SYN y CMBDUST puede ser utilizada para mejorar la estimacin de la imagen CMB ya que,
en los experimentos, se observ que la posicin del mximo local asociado al CMB
est ubicado en un valle muy suave siendo mayores los errores de estimacin.
Supongamos que se han obtenido la segunda (SYN ) y tercera (DUST ) columna
de la matriz de separacin D 2 R3 3 . Fcilmente se observa que, esta matriz D se
relaciona con la matriz de covarianzas de las fuentes estimadas:
Cbsbs = E[b
sb
sT ] = DDT

(5.16)

E [b
s0 sb1 ] = E [b
s0 sb2 ] = 0

(5.17)

La condicin de no-correlacin de los pares CMB-SYN y CMB-DUST :

implica que la primera la de D pertenece al subespacio ortogonal del subespacio


denido por las las segunda y tercera, lo cual determina unvocamente a la primer
la (CMB) de D.
5.4.4.

Experimentos sobre imgenes sintetizadas

Experimento 1: Ruido nulo


En este caso se han generado mezclas a travs de la ecuacin (5.8) con ruido nulo (n = 0) y utilizando una matriz de mezcla acorde con [7]. Las imgenes
utilizadas para este experimento son imgenes sintetizadas de 256 256 pxeles
(65536 muestras) para el CMB, SYN and DUST y fueron provistas por el equipo
del proyecto Planck en Italia a travs del Signal & Images Laboratory of ISTI CNR (Consiglio Nazionale delle Ricerche) de Pisa, Italia (en [88] se provee una
descripcin sobre los mtodos usados en la generacin de las imgenes). Se utilizaron imgenes normalizadas, es decir, con media nula y varianza unitaria. En
la Figura 5.14 (arriba y centro), se muestra un ejemplo de imgenes fuente sintetizadas y las mezclas generadas de acuerdo al modelo.
Para el ejemplo de la Fig. 5.14, la matriz D y sus estimaciones a travs del
algoritmo, usando las medidas MG y SE son:
2
3
0;36 0;62
0;70
0;05 0;02 5
(5.18)
D = 4 1;00
0;04
0;85
0;53

113

Figura 5.14. Ejemplo de imgenes fuentes (arriba), mezclas (centro) y estimaciones de fuentes usando la medida SE (abajo)

Figura 5.15. Funciones de densidad de probabilidad (pdfs) estimadas a partir


de las imgenes CMB (izq.), SYN (centro) y DUST (der.) usando la tcnica de
estimacin de las ventanas de Parzen

114

Figura 5.16. Curvas de nivel para las supercies de las medidas de Gaussianidad
(GM) y entropa de Shannon (SE) versus los ngulos 1 y 2 .

DM G

0;29
4
0;90
=
0;07

0;66
0;27
0;71

3
0;69
0;35 5 ;
0;70

DSE

0;28
4
1;0
=
0;03

0;67
0;02
0;72

3
0;69
0;02 5 (5.19)
0;69

En la Figura 5.16 se muestran las supercies de las medidas GM y SE en


funcin de los ngulos 1 y 2 para el ejemplo de la Fig. 5.14. Se observa que se
pueden identicar claramente las posiciones de los mnimos (SYN y DUST ) y el
mximo (CMB). Adems, la forma que toman estas supercies resultan similares
entre s.
El experimento de las Figs. 5.14 y 5.16 fue repetido para 15 conjuntos de
imgenes diferentes correspondientes sub-reas del mapa total simulado y se ha
calculado, en cada caso, el correspondiente SIR (Signal to Interference Ratio) para
las estimaciones utilizando las medidas GM y SE. Adems, se han estimado las
fuentes utilizando uno de los ms famosos algoritmos de ICA: FastICA [74].
En la tabla 5.3 se comparan los resultados obtenidos en los tres casos: medidas
GM, SE y algoritmo FastICA. La sub-rea nmero 2 corresponde al ejemplo
mostrado previamente en el ejemplo de la Fig. 5.14. Se observa que las soluciones
provistas por Minimax Entropy son superiores a las obtenidas por FastICA,
adems la medida SE muestra ser levemente superior a la medida GM.
Experimento 2: Robustez al ruido
Aqu se analiza el comportamiento del algoritmo MINIMAX ENTROPY con
la presencia de ruido aditivo gaussiano blanco (AWGN ) ya que es un componente
muy frecuente en imgenes astrofsicas. En este experimento, se analiz cualitativamente la variacin en las ubicaciones del mximo y los mnimos para diferentes
niveles de SNR (Signal to Noise Ratio). En la Fig. 5.17 se muestran los resultados
para el caso de la medida SE para tres niveles diferentes de SNR. Se verica que las
posiciones del mximo y los mnimos se mantienen aproximadamente inalteradas
para un amplio rango de SNR s (SNR 20dB).

115

Figura 5.17. Curvas de nivel de las supercies de la medida SE para diferentes


niveles de SNR: 1, 40dB y 20dB

116

Figura 5.18. Imagen CMB original (izquierda) e imagen LC-GRF generada con
los parmetros estimados.

Experimento 3: Reduccin de ruido gaussiano aditivo en las imgenes CMB


estimadas
En este experimento se evala la performance del ltro de Wiener para el modelo LC-GRF como herramienta para la reduccin de ruido gaussiano en imgenes
CMB. En primer lugar, y a los efectos de comparar cualitativamente la capacidad
del modelo LC-GRF para reproducir imgenes CMB, se procedi a estimar los
parmetros , x , 1 y 2 del modelo a travs del algoritmo de mxima verosimilitud propuesto en la Subseccin 4.7.1, usando como muestra, una imagen CMB
de 256 256 pxeles. Los valores obtenidos de los parmetros fueron: b = 2.48,
bx = 0;028, b1 = 0;226 y b2 = 0;257. A los efectos de proveer una evaluacin visual, en la Fig 5.18 (izquierda) se muestra la imagen CMB usada de muestra y se
la compara con una imagen aleatoria generada a partir del modelo LC-GRF con
los parmetros estimados. Se observa claramente que las caractersticas espaciales
de la imagen son preservadas por el modelo.
En la Fig. 5.19 se presentan los resultados de restauracin para dos casos con
diferente nivel de ruido: en la Fig 5.19 (arriba) se muestran las imgenes para
un SNR= 10dB (nivel de ruido alto), la ganancia de restauracin experimental
resulta G = 34;21dB y el valor terico esperado es de G = 34;23dB. En la Fig
5.19 (abajo) se muestra un caso con SNR=+10dB (nivel de ruido moderado), la
ganancia de restauracin experimental es G = 11;37dB que es muy cercana al
valor terico esperado G = 11;24dB. En ambos casos se muestran las imgenes
CMB originales (izquierda), las imgenes contaminadas con ruido (centro) y las
restauraciones logradas con el ltro de Wiener (derecha).

117

Figura 5.19. Imagen CMB original (izquierda), imagen ruidosa (centro) e imagen restaurada (derecha). Se aplic el ltro de Wiener a los casos: SNR= 10dB
(arriba) y SNR=10dB (abajo)

119

Captulo 6

Conclusiones
En esta tesis se desarrollaron modelos matemticos para el tratamiento de
seales en dos dimensiones (imgenes) y se elaboraron nuevos algoritmos para la
resolucin de problemas importantes en procesamiento de imgenes, como son: la
separacin ciega de fuentes (Blind Source Separation - BSS ), la reduccin de ruido
y el reconocimiento de patrones.
Se analizaron las propiedades matemticas del mtodo estadstico de Anlisis de Componentes Principales (PCA) o Transformada Karhunen-Love (KLT ),
que es una herramienta esencial para el anlisis de datos multidimensionales que
comprime la energa(varianza) de los datos de manera ptima, en un conjunto
reducido de componentes principales ortogonales (no-correlacionadas). Asimismo,
se analizaron los mtodos derivados de PCA como es el caso del Anlisis de Componentes Independientes (ICA), donde se buscan las componentes que, adems
de ser no-correlacionadas, son lo ms independientes posibles, y Projection Pursuit (PP), donde lo que se busca es minimizar la gaussianidad o entropa de las
componentes. Se destaca que, tanto en ICA como en PP, se recurre a medidas
provenientes de la teora de la informacin como la entropa de Shannon o la
informacin mutua. Un caracterstica importante de ICA y PP es que utilizan estadsticas de orden superior a dos, a diferencia de PCA, que solo utiliza la matriz
de covarianzas de las observaciones (estadsticas de orden dos). En esta tesis se
analizaron las conexiones profundas entre PCA, ICA y PP haciendo explcitas las
relaciones entre gaussianidad, entropa, independencia, informacin mutua, etc.
Como una generalizacin de ICA, en esta tesis se abord el problema de la
se-paracin ciega de fuentes estadsticamente dependientes o Anlisis de Componentes Dependientes (DCA), que es un rea nueva de investigacin con pocos antecedentes bibliogrcos. Se propuso un nuevo algoritmo DCA, llamado MaxNG
[30] que permite resolver satisfactoriamente, por ejemplo, el problema de Spectral Unmixing en imgenes satelitales hiper-espectrales [33] y la separacin ciega de fuentes en imgenes astrofsicas [32], obteniendo mejores resultados que
los mtodos tradicionales ICA. Se presentaron resultados tericos fundamentales
para MaxNG proveyendo, por ejemplo, una condicin suciente sobre las fuentes
dependientes que garantiza su separabilidad a travs de la maximizacin de la nogaussianidad. Tambin se introdujeron resultados que permiten la implementacin
de MaxNG de manera eciente incluso en entornos con ruido. Adems se propuso
un mtodo para la determinacin de los factores de escala de las fuentes estimadas
que resulta til en la aplicacin de Spectral Unmixing.
Por otro lado se analiz la teora que da sustento a los mtodos de clasicacin de vectores utilizando distancias eucldeas mnimas en Rn , donde las bases
ortonormales tienen un rol central y los mtodos de ortogonalizacin de vectores
son de vital importancia. De todos los posibles mtodos de ortogonalizacin de

120

vectores, se demostr que la KLT es el mtodo ptimo en el sentido que permite


concentrar las energas de los patrones. De hecho, la KLT es la base del mtodo
de las eigenfaces utilizado para el reconocimiento de rostros humanos, un mtodo
muy conocido en la literatura. Adems, se propuso un algoritmo original para la
clasicacin de especimenes de Mirounga Leonina a partir de fotografas de sus
rostros, lo cual representa un nuevo mtodo de clasicacin en Biologa [26, 27].
Adems se dise un nuevo mtodo automtico para el corregistro de imgenes
satelitales utilizando mtodos de clasicacin de vectores en Rn basados en la KLT
[28].
Adicionalmente, motivado por el problema del ruido en las imgenes astrofsicas, se estudi la reduccin de ruido gaussiano blanco aditivo (AWGN ) presente
en la salidas de MaxNG. Se propuso un modelo gaussiano, el LC-GRF (Long
Correlation - Gaussian Random Field) [34], que permite modelar las correlaciones
de largo alcance presentes en imgenes del Cosmic Microwave Background (CMB).
Un anlisis detallado de las propiedades matemticas de este modelo, permiti la
elaboracin de tcnicas originales de estimacin de parmetros y el diseo de un
ltro ptimo de Wiener reductor de ruido.
A continuacin se especican los aportes originales de esta tesis haciendo referencia a las publicaciones producidas:
Se desarroll un nuevo algoritmo denominado MaxNG que da solucin al
problema de la separacin ciega de fuentes dependientes (DCA) (Cap. 3). Se
obtuvieron resultados tericos que sustentan al mtodo y que permiten la
implementacin de MaxNG de manera eciente, en trminos de su complejidad computacional, y bajo la inuencia de ruido aditivo gaussiano. Adems,
se analiz experimentalmente el desempeo del algoritmo MaxNG en distintos escenarios, utilizando tanto datos simulados como reales, y comparndolo
con tcnicas ICA tradicionales [29, 30, 32, 33, 35].
Se introdujo un modelo de campo aleatorio gaussiano (GRF ) con correlaciones de largo alcance (LC-GRF ) y se desarrollaron nuevas tcnicas de
estimacin de parmetros basados en l, como as tambin, se dise un
ltro reductor de ruido gaussiano aditivo (Cap. 4) [34].
Se desarroll un algoritmo original para la clasicacin de especimenes de
Mirounga Leonina a partir de fotografas de sus rostros explotando las propiedades de la representacin de imgenes por KLT (Seccin 5.1) [26, 27].
Se desarroll un nuevo mtodo automtico para el corregistro de imgenes
satelitales, basado en la representacin por KLT, que fue aplicado a imgenes
de tipo radar (Seccin 5.2) [28].
Se utiliz el algoritmo MaxNG como nuevo mtodo de anlisis sub-pxel de
imgenes hiper-espectrales (Spectral Unmixing), mediante el cual es posible
estimar los porcentajes de ocupacin por pxel de los diversos materiales
que componen una imagen (agua, vegetacin, ladrillo, etc.) (Seccin 5.3). Se

121

realizaron experimentos sobre imgenes simuladas y reales demostrando la


efectividad del mtodo y comparndolo con tcnicas tradicionales basadas
en ICA [33, 35].
Se desarroll un nuevo algoritmo llamado Minimax Entropy basado en
MaxNG, especialmente diseado para la separacin ciega de imgenes de
origen astrofsico (Seccin 5.4). Se realizaron experimentos sobre imgenes
simuladas demostrando la efectividad del mtodo y comparndolo con tcnicas tradicionales basadas en ICA [32].
Se utiliz el modelo LC-GRF para modelar las correlaciones de largo alcance
existentes en imgenes del Cosmic Microwave Background (CMB) y para
desarrollar un ltro reductor de ruido de Wiener (Seccin 5.4) [34].
Por otro lado, los resultados aqu presentados, abren nuevas reas de investigacin y permiten plantear problemas que podran ser explorados en el futuro,
como por ejemplo:
Los mtodos DCA son muy nuevos en la literatura, y las tcnicas BSS son
un rea de creciente actividad en los ltimos aos ya que existen innidad de
aplicaciones de ingeniera que los requieren. Por ejemplo, en esta tesis se caracteriz un tipo de dependencia entre seales que pueden ser separadas por
MaxNG que permiten modelar a las seales presentes en imgenes hiperespectrales. Sin embargo, es posible que en otras aplicaciones particulares,
existan otro tipo de caractersticas de las seales, con diferentes tipos de
dependencias y para esos casos se podra analizar la aplicabilidad de MaxNG
o mtodos similares.
Es interesante analizar diferentes medidas de no-gaussianidad, de hecho
existen mtodos reportados en la bibliografa que utilizan diferentes medidas
de no-gaussianidad, los cuales podran ser tiles tambin para DCA.
Un problema importante, encontrado en la aplicacin de MaxNG a imgenes hiper-espectrales reales, es la variabilidad espectral, ya que las imgenes
reales podran no ajustarse al modelo de mezcla instantnea considerado
en esta tesis, donde la matriz de mezcla A es invariante. Las extensiones
adaptativas de MaxNG para mezclas no instantneas, podran ser de inters
en este caso.
Otro tema de inters es la separacin de fuentes a partir de mezclas nolineales ya que en muchos problemas reales, la mezcla lineal es un modelo
que puede no ajustarse a la realidad existiendo trminos no-lineales en las
mezclas.

123

Bibliografa
[1] Adams J. B., Smith M. O., Spectral mixture modelling: A new analysis
of rock and soil types at the Viking Lander 1 Site, Journal of Geophysical
Research, 91, pags. 8098-8112 (1986).
[2] Ahmed N., Natarajan T., Rao K. R., Discrete cosine transform, IEEE
Trans. Comput., C-23 (1), pags. 88-93 (1974).
[3] Amari S. I., Neural theory of association and concept formation, Biological
Cybernetics, 26, pags. 175185 (1977).
[4] Amari S-I., Dierential-geometrical methods in statistics, Lecture notes in
statistics, Springer-Verlag, Berlin (1985).
[5] Araujo D., Barros A. K., Estombelo-Montesco C., Zhao H., Silva Filho A.
R., Baa O. Wakai R., Ohnoishi N., Fetal Source Extraction from Magnetocardiographic Recordings by Dependent Component Analysis. Physics
in Medicine and Biology, 50 (19), pags. 4457-4464 (2005).
[6] Attias H., Independent Factor Analysis, Neural Computation, 11 (4), pags.
803-851 (1999).
[7] Baccigalupi C., Bedini L., Burigana C., De Zotti G., Farusi A., Maino D.,
Maris M., Perrotta F., Salerno E., Toolatti L., Tonazzini A., Neural Networks and Separation of Background and Foregrounds in Astrophysical Sky
Maps, Mon. Not. R. Astron. Soc., 318, pags. 769-780 (2000).
[8] Bach F. R., Jordan M. I., Kernel Independent Component Analysis, Journal of Machine Learning Research, 3, pags. 1-48 (2002).
[9] Balram N., Moura J., Noncausal Gauss-Markov random elds: Parameter
structure and estimation, IEEE Trans. Inform. Theory 39 (4), pags. 1333
1355 (1993).
[10] Barros A., Chapter 4: The Independence Assumption: Dependent Component Analysis, Advances in Independent Component Analysis, Springer
(2000).
[11] Barros A. K., Cichocki A., Ohnishi N., Extraction of Statistically Dependent Sources with Temporal Structure. Proc. Brazilian Simposium on
Neural Networks, Rio de Janeiro (2000).
[12] Bedini L., Herranz D., Salerno E., Baccigalupi C., Kuruoglu E., Tonazzini
A., Separation of correlated astrophysical sources using multiple-lag data
covariance matrices, Eurasip J. on Appl. Sig. Proc., 15, pags. 2400-2412
(2005).

124

[13] Bell A. J., Sejnowski T. J., A Non-linear Information Maximisation Algorithm that Performs Blind Separation, Advances in Neural Information
Processing Systems, 7, pags. 467-474 (1995).
[14] Belouchrani A., Abed-Meraim K., Cardoso J. F. , Moulines E., Secondorder blind separation of temporally correlated sources, Proc. Int. Conf. on
Digital Sig. Proc., (Cyprus), pags. 346-351 (1993).
[15] Bennett J., Khotanzad A., Modeling Textured Image using Generalized
Long Correlation Models, IEEE Trans. on Pattern Analysis and Machine
Intelligence, 20 (12), pags. 1365-1370 (1998).
[16] Berman M., Kiiveri H., Lagerstrom R., Ernst A., Dunne R., Huntington J.,
ICE: A statistical approach to identifying endmembers, IEEE Transactions on Geoscience and Remote Sensing, 42 (10), pags. 2085-2095 (2004).
[17] Besag J., Spatial Interaction and Statistical Analysis of Lattice Systems,
Journal of the Royal Statistical Society. Series B (Methodological), 36 (2),
pags. 192-236 (1974).
[18] Besag J., On the statistical analysis of dirty pictures, Journal of the Royal
Statistical Society. Series B (Methodological), 48 (3), pags. 259-302 (1986).
[19] Bijaoui A., Nuzillard D., Deb Barma T., BSS, Classication and Pixel
Demixing, in Proc. of 5th International Conference on Independent Component Analysis and Blind Source Separation, University of Granada (Spain),
pags. 96-103 (2004).
[20] Blanco Y., Aplicacin de los Estadsticos de Orden en el Anlisis de Componentes Independientes, Tesis de Doctorado, Universidad Politcnica de
Madrid (2001).
[21] Blanco Y., Zazo S., New Gaussianity measures based on order statistics:
application to ICA, Neurocomputing, 51, pags 303 -320 (2003).
[22] Boscolo R., Pan H., Roychowdhury V. P., Independent Component Analysis Based on Nonparametric Density Estimation, IEEE Trans. on Neural
Networks, 15 (1), pags. 55-65 (2004).
[23] Bouman C. A., Tutorial: Markov Random Fields and Stochastic Image
Models, IEEE International Conference on Image Processing (ICIP 95)
(1995).
[24] Brown L. G., A survey of image registration techniques, ACM Computing
Surveys (CSUR), 24 (4), pags. 325-376 (1992).
[25] Caiafa C. F., Procesos Aleatorios Bidimensionales. Su aplicacin al Procesamiento de Imgnes, Tesis de Ingeniera Electrnica, Facultad de Ingeniera,
Universidad de Buenos Aires, Argentina (1996).

125

[26] Caiafa C. F., Proto A. N., Desarrollo de un software para la identicacin


de Elefantes Marinos por Eigenfaces, Technical Papers (ITBA), 5, pags.
27-40 (2003).
[27] Caiafa C. F., Proto A. N., Vergani D., Stanganelli Z., Development of
individual recognition of female southern elephant seals, Mirounga Leonina,
applying Principal Component Analysis, J. of Biogeography, 32 (7), pags.
1257-1266 (2005).
[28] Caiafa C. F., Sassano M. P., Proto A. N., Wavelet and Karhunen-Love
transformations applied to SAR signals and images, Physica A, 356 (1),
pags. 172-177 (2005).
[29] Caiafa C. F., Proto A. N., A non-Gaussianity measure for blind source
separation, Proceedings of SPARS05, Nov. 16-18, 2005 IRISA - Rennes
(France).
[30] Caiafa C. F., Proto A. N., Separation of statistically dependent sources
using an L2 -distance non-Gaussianity measure, Signal Processing, 86 (11),
pags. 3404-3420 (2006).
[31] Caiafa C. F., Proto A. N., Temperature estimation in the two dimensional
Ising model, International Journal on Modern Physics C, 17 (1), pags. 2938 (2006).
[32] Caiafa C. F., Kuruoglu E. E., A. N. Proto, A Minimax Entropy Method
for Blind Separation of Dependent Components in Astrophysical Images,
Proc. of the Twenty sixth International Workshop on Bayesian Inference
and Maximum Entropy Methods in Science and Engineering (MaxEnt 2006),
CNRS, Paris, France, July 8-13 (2006).
[33] Caiafa C. F., Salerno E., Proto A. N., Fiumi L., Dependent Component
Analysis as a Tool for Blind Spectral Unmixing of Remote Sensed Images,
Proc. of 14th European Signal Processing Conference (EUSIPCO06), Florence, Italy, September 4-8 (2006).
[34] Caiafa C. F., Proto A. N., Kuruoglu E. E., Long Correlation Gaussian
Random Fields: Parameter Estimation and Noise Reduction, Digital Signal
Processing Elsevier, 17, pags. 819-835, (2007).
[35] Caiafa C. F., Salerno E., Proto A. N., Fiumi L., Blind Spectral Unmixing
by Local Maximization of Non-Gaussianity, Signal Processing EURASIP
(aceptado Junio 2007).
[36] Cardoso J. F., Source separation using higher order moments, Proc. IEEE
Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP89), pags.
2109-2112, Glasgow, UK (1989).

126

[37] Cardoso J. F., Souloumiac A., Jacobi angles for simultaneous diagonalization, SIAM Journal of Matrix Analysis and Applications, 17 (1), pags.
161-164 (1996).
[38] Cardoso J. F., Dependence, Correlation and Gaussianity in Independent
Component Analysis, Journal of Machine Learning Research, 4, pags. 11771203 (2003).
[39] Chaturvedi S., Kapoor A. K., Srinivasan V., A new orthogonalization procedure with an extremal property, J. Phys. A: Math. Gen., 31, pags. 367-370
(1998).
[40] Chavez P. S., Stuart J., Sides C., Anderson J. A., Comparison of three
dierent methods to merge multiresolution and multispectral data: Landsat
TM and SPOT panchromatic, Photogramm. Eng. Remote Sens., 57, pags.
259303 (1991).
[41] Chellappa R., Kashyap R. L., Synthetic Generation and Estimation in Random Field Models of Images, Proc. IEEE CS Conf. Pattern Recognition and
Image Processing, pags. 577-582, Dallas, Texas. (1981).
[42] Chellappa R. Two-Dimensional Discrete Gaussian Markov Random Field
Models for Image Processing, Progress in Pattern Recognition, 2, pags 79112 (1985).
[43] Chiang S-S, Chang C-I, Ginsberg I. W., Unsupervised Hyperspectral Image
Analysis Using Independent Component Analysis, in Proc. of International Geoscience and Remote Sensing Symposium (IGARSS 2000), Honolulu
Hawaii, July 24-28, pags. 3136-3138 (2000).
[44] Cichocki A., Unbehauen R. Robust estimation of principal components in
real time, Electronics Letters, 29 (21), pags. 18691870 (1993).
[45] Cichocki A., Swiniarski R., Bogner R. E., Hierarchical neural network for
robust PCA of complex-valued signals. Proc. of the World Congress on
Neural Networks (WCNN-96), San Diego, USA, pags. 818821 (1996).
[46] Cichocki A., Rutkowski T., Barros A. K., Blind Extraction of Temporally
Correlated but Statistically Dependent Acoustic Signals. Proc. of IEEE
Workshop on Neural Networks for Signal Processing (NNSP 2000), Sydney
(2000).
[47] Cichocki A., Amari S. I., Adaptive Blind Signal and Image Processing: Learning Algorithms and Applications. J. Wiley & Sons, Chichester UK (2002).
[48] Cichocki A., Amari S., Siwek K., Tanaka T., et al., ICALAB Toolboxes,
http://www.bsp.brain.riken.jp/ICALAB.

127

[49] Comon P., Independent Component Analysis, a new concept?, Signal


Processing, 36 (3) pags. 287-314 (1994).
[50] Conway J. B., A course in Functional Analysis, Springer-Verlag (1985).
[51] Cover T., Thomas J., Elements of Information Theory, John Wiley & Sons,
New York (1991).
[52] Cruces S., Cichocki A., Amari S-I., The Minimum Entropy and Cumulants Based Contrast Functions for Blind Source Extraction, IWANN 2001,
Granada, Spain, June 13-15, (2001).
[53] Dempster A. P., Laird N. M., Rubin D. B., Maximum likelihood from incomplete data via the EM algorithm. J. of the Royal Statistical Society,
Series B, 34 pags. 1-38 (1977).
[54] Diamantaras K. I., Kung S. Y., Principal Component Neural Networks: Theory and Applications. Wiley (1996).
[55] Donoho D., On minimum entropy deconvolution, Applied Time Series
Analysis II., pags. 565-609, Academic, New York: (1981).
[56] Donoho D. L., Vetterli M., De Vore R. A., Daubechies I., Data Compression
and Harmonic Analysis, IEEE Trans. on Inform. Theory, 44 (6), pags.
24352476 (1998).
[57] Duda R. O., Hart P. E., Stork D. G., Pattern Classication, J. Wiley, 2da
Edicin, New York (2000).
[58] Erdogmus D., Hild K. E., Principe J. C., Lazaro M., Santamaria I., Adaptive blind deconvolution of linear channels using Renyis entropy with Parzen
window estimation, IEEE Trans. on Sig. Proc, 52 (6), pags. 1489-1498
(2004).
[59] Feller W., An Introduction to Probability Theory and Its Applications, Volume 1, J. Wiley (1950).
[60] Friedman J. H., Tukey J. W., A Projection Pursuit Algorithm for Exploratory Data Analysis, IEEE Transactions on Computers, C-23 (9), pags.
881-890 (1974).
[61] Friedman J. H., Exploratory projection pursuit, J. Am. Stat. Assoc., 82,
pags. 249266, (1987).
[62] Geman S., Geman D., Stochastic relaxation, Gibbs distributions, and the
Bayesian restoration of images, IEEE Trans. Pattern Anal. Machine Intell.,
6 (6), pags. 721741 (1984).

128

[63] Georgiev P., Cichocki A., Blind source separation via symmetric eigenvalue
decomposition, Proc. of Sixth International Symposium on Signal Processing and its Applications, Aug. 2001, pags. 17-20, Kuala Lumpur, Malaysia
(2001).
[64] Gonzalez R. C., Woods R. E. Digital Image Processing., Prentice Hall. Upper
Saddle River, 2da Edicin, New Jersey (2002).
[65] Gray R. M., Toeplitz and Circulant Matrices: A review, Foundations and
Trends in Communications and Information Theory, 2 (3), pags. 155-239
(2006).
[66] Greaeath D., Introduction to Random Fields, Springer-Verlag, New York
(1976).
[67] Hall P., Polynomial Projection Pursuit, Annals of Statistics, 17, pags.
589-605 (1989).
[68] Halmos P. R., Finite-Dimensional Vector Spaces, Springer-Verlag (1974).
[69] Haykin S., Unsupervised Adaptive Filtering. Volume I: Blind Source Separation, J. Wiley, New York (2000).
[70] Hocking J. G., Young G. S., Topology. Dover, New York (1988).
[71] Hotelling H., Analysis of a complex of statistical variables into principal
components, Journal of Educational Psychology, 24, pags. 417-441 (1933).
[72] Huang K., Statistical Mechanics, Wiley, 2da Edicin, New Jersey (1987).
[73] Huber P. J., Projection Pursuit, The Annals of Statistics, 13, pags. 435475 (1985).
[74] Hyvrinen A., Oja E., A fast xed-point algorithm for independent component analysis, Neural Computation, 9 (7), pags. 14831492 (1997).
[75] Hyvrinen A., Oja E., Independent component analysis: algorithms and
applications, Neural networks, 13 (4-5), pags. 411-430 (2000).
[76] Hyvrinen A., Karhunen J., Oja E., Independent Component Analysis, J.
Wiley & Sons, New York (2001).
[77] Ising E., Beitrag zur theorie des ferromagnetismus, Z. Physik, 31, pags.
253-258 (1925).
[78] Jollie I.T., Principal Component Analysis, Springer Series in Statistics,
Springer-Verlag, New York (2002).
[79] Jones M. C.,Sibson R., What is projection pursuit? (with discussion), J.
R. Statist. Soc. A, 150, pags. 1-36 (1987).

129

[80] Jutten C., Herault J., Blind separation of sources, part I: An adaptive
algorithm based on neuromimetic architecture, Signal Processing, 24 (1),
pags. 1-10 (1991).
[81] Kashyap R. L., Chellapa R., Estimation and choice of neighbors in spatialinteraction models of images, IEEE Trans. Inform. Theory, 29 (1), pags.
60-72 (1983).
[82] Karhunen K., Uber lineare methoden in der Wahrsccheilichkeitsrechnung,
Annales Academiae Scientiarum Fennicae, Seried A1: Mathematica-Physica,
37, pags. 3-79 (1947).
[83] Kendall M., Stuart A., The advanced theory of statistics, volume 2. Gri n,
London, 4th edition (1979).
[84] Keshava N., Mustard J., Spectral unmixing, IEEE Signal Process. Mag.,
19 (1), pags. 4457 (2002).
[85] Kolmogorov A. N., Fomin S. V., Measure, Lebesgue Integrals and Hilbert
Space, Academic Press,New York and London (1961).
[86] Kosaka N., Uto K., Kosugi Y., ICA-Aided Mixed-Pixel Analysis of Hyperspectral Data in Agricultural Land, IEEE Geoscience and Remote Sensing
Letters, 2, pags. 220-224 (2005).
[87] Kramer H. P., Mathews M. V., A linear coding for transmitting a set of
correlated signalsIRE Trans. Inform. Theory, 23, pags. 4146 (1956).
[88] Kuruoglu E. E. , Bedini L., Paratore M. T., Salerno E., Tonazzini A., Source
separation in astrophysical maps using independent factor analysis, Neural
Networks, 6 (3-4), pags. 479-491 (2003).
[89] Kruse F., Lefko A., Boardman J., Heidebrecht K., Shapiro A., Barloon
P., Goetz A. The spectral image processing system (SIPS) - interactive
visualization and analysis of imaging spectrometer data, Remote Sensing
of Environment, 44, pags. 145-163 (1993).
[90] Kruskal J. B., Toward a practical method which helps uncover the structure of a set of multivariate observations by nding the linear transformation which optimizes a new index of condensation, Statistical Computation,
pags. 427-440, Academic, New York, 1969.
[91] Kruskal J. B., Linear transformation of multivariate data to reveal clustering, Multidimensional Scaling: Theory and Applications in the Behavioral
Sciences, pags. 179-191, Semenir Press, New York-London (1972).
[92] Lee D.T., JPEG 2000: retrospective and new developments, Proc. of the
IEEE, 93 (1), pags. 32-41 (2005).

130

[93] Le Moigne J., Morisette J., Cole-Rhoades A., Netanyahu N. S., Eastman
R., Stone H., Earth science imagery registration, Proc. of International
Geoscience and Remote Sensing Symposium (IGARSS03), Touluse, pags.
161-163 (2003).
[94] Lennon M., Mercier G., Mouchot M. C., Hubert-Moy L., Spectral unmixing of hyperspectral images with the Independent Component Analysis and
wavelet packets, in IEEE Proc. of the International Geoscience and Remote
Sensing Symposium, Sydney, Austrialia, July (2001).
[95] Love M., Probability Theory, Van Nostrand, New York (1963).
[96] Lwdin P-O., A Quantum Mechanical Calculation of the Cohesive Energy,
the Interionic Distance, and the Elastic Constants of Some Ionic Crystals.
I, Ark. Mat. Astr. Fys. 35A, 9, pags. 1-10 (1947).
[97] Luenberger D. G., Optimization by Vector Space Methods, John Wiley &
Sons, Inc. (1997).
[98] Maes F., Vandermeulen D., Suetens P., Medical image registration using
mutual information, Proc. of the IEEE , 91 (10), pags. 1699-1722 (2003).
[99] Mallat S., A Wavelet Tour of Signal Processing, Academic Press Elsevier,
2da Edicin (1999).
[100] Meyer C. D., Matrix Analysis and Applied Linear Algebra, Society for Industrial and Applied Mathematics (SIAM), Philadelphia (2000).
[101] Movahed M. S., Ghasemi F., Rahvar S., Tabar M. R. R., New Computational Approaches to Analysis of CMB Map: The Statistical Isotropy and
Gaussianity, eprint arXiv:astro-ph/0602461 (2006).
[102] Moran P. A. P., A Gaussian Markovian Process on a Square Lattice, J.
Appl. Prob., 10 (1), pags. 54-62 (1973).
[103] Nascimento J. M. P., Bioucas Dias J. M., Does Independent Component
Analysis Play a Role in Unmixing Hyperspectral Data?, IEEE Transactions
on Geoscience and Remote Sensing, 43 (1), pags. 175-187 (2005).
[104] Oja E., Principal components, minor components and linear neural networks, Neural Networks, 5, pags. 927935 (1992).
[105] Oja E., Karhunen J., Hyvrinen A. From neural principal components to
neural independent components, Lecture Notes In Computer Science, 1327,
Proc. of the 7th International Conference on Articial Neural Networks,
Lausanne, Switzerland, pags. 519-528 (1997).
[106] Moghaddam B., Pentland A., Probabilistic Visual Learning for Object Representation, IEEE Trans. on Pattern Analysis and Machine Intelligence, 19
(7), pags. 696-710 (1997).

131

[107] Parzen E., On the estimation of a probability density function and mode,
Annals of Mathematical Statistics, 33, pags.1065-1076 (1962).
[108] Pearson K., On lines and planes of closest t to systems of points in space,
Philosophical Magazine, 2, pags. 559-572 (1901).
[109] Pluim, J. P. W., Fitzpatrick J. M., Image registration, IEEE Transactions
on Medical Imaging, 22 (11), pags. 1341-1343 (2003).
[110] Pratt W. K., Digital Image Processing: PIKS Inside, John Wiley & Sons,
3ra Edicin (2001).
[111] Press W. H., Flannery B. P., Teukolsky S. A., Vetterling W. T., Numerical
Recipes in C: The Art of Scientic Computing, Cambridge University Press,
2da Edicin, Cambridge (1992).
[112] Sarajedini A., Chau P.M., Blind signal separation with a projection pursuit index, Proc. of the 1998 IEEE International Conference on Acoustics,
Speech, and Signal Processing, 1998 (ICASSP 98), pags. 2125-2128 (1998).
[113] Schweinler H. C., Wigner E. P., Orthogonalization Methods, J. Math.
Phys, 11, pags. 1693-1694 (1970).
[114] Shannon C. E., A mathematical theory of communication, Bell System
Tech. J., 27, pags. 379-423, (1948).
[115] Silverman B. W., Density Estimation for Statistics and Data Analysis, Chapman and Hall, New York (1985).
[116] Srivastava V., A unied view of the orthogonalization methods, J. Phys.
A: Math. Gen., 33, pags. 6219-6222 (2000).
[117] Stauer D., Stanley H. E., From Newton to Mandelbrot, Springer-Verlag, 2da
Edicin, New York (1995).
[118] Thevenaz P., Ruttimann U. E., Unser M., A pyramid approach to subpixel
registration based on intensity, IEEE Transactions on Image Processing, 7
(1), pags. 27-41 (1998).
[119] Tong L., Soon V., Huang Y. F., Liu R., Indeterminacy and identiability
of blind identication, IEEE Trans. Circuits and Systems, 38 (5), pags 499509 (1991).
[120] Tong, L. The Multivariate Normal Distribution. New York: Springer-Verlag,
1990.
[121] Tso B., Mather P. M., Classication methods for remotely sensed data, Taylor and Francis, New York (2001).

132

[122] Turk M., Pentland A., Eigenfaces for Recognition, J. Cognitive Neuroscience, 3 (1), pags. 71-86 (1991).
[123] Unser M., Wavelets, Filterbanks, and the Karhunen-Love Transform,
Proc. of the 9th European Signal Processing Conference (EUSIPCO98),
Rhodes, Greece, Sep. 8-11, pags. 1737-1740 (1998).
[124] Vaseghi S. V., Advanced Digital Signal Processing and Noise Reduction, Wiley & Sons, 3ra Edicin, New York (2000).
[125] Voronoi G., Nouvelles applications des paramtres continus la thorie des
formes quadratiques Journal fr die Reine und Angewandte Mathematik,
133, pags. 97-178 (1907)
[126] Vetterli M., Wavelets, Approximation and Compression, IEEE Signal
Processing Magazine, 18 (5), pags. 59-73 (2001).
[127] Wiener N., Extrapolation, Interpolation, and Smoothing of Stationary Time
Series, Wiley, New York (1949).
[128] Xie H., Pierce L. E., Ulaby F. T., Mutual information based registration of
SAR images, Proc. of International Geoscience and Remote Sensing Symposium (IGARSS03), Touluse, pags. 4028-4031 (2003).
[129] Yokoo T., Knight B. W., Sirovich L., L2 De-Gaussianization and Independent Component Analysis. Proc. of ICA 2003, pags. 757-762, 4th International Symposium on Independent Component Analysis and Blind Source
Separation, Nara, Japan (2003).

Você também pode gostar