Você está na página 1de 10

Distribución Gaussiana Multivariable

Carlos Belaustegui Goitia, Juan Augusto Maya


8 de Agosto de 2010

Resumen
En este documento presentamos la deducción de la expresión de la función
densidad de probabilidad (f.d.p.) Gaussiana multivariable. También se mues-
tran ejemplos de variables aleatorias conjuntamente Gaussianas y de otras
variables aleatorias que no lo son. Para terminar mostramos una interpreta-
ción gráfica de la distribución Gaussiana multivariable.

1. La Distribución Gaussiana Multivariable


A continuación, obtendremos la expresión de la f.d.p. de un vector aleatorio

X = [X1 , ..., XN ]T

cuyas componentes son conjuntamente Gaussianas 1 , de media nula y matriz de


covarianza CX .
Definimos un vector Z de N variables aleatorias Gaussianas independientes,
idénticamente distribuidas (i.i.d.) Z = [Z1 , ..., ZN ]T , cada una de ellas con media
nula y varianza σi2 . El hecho que las zi estén idénticamente distribuidas significa que
sus funciones distribución son iguales, y por lo tanto, sus funciones de densidad de
probabilidad y sus momentos son los mismos. En particular, esto se cumple para la
varianza: σ12 = · · · = σN
2
= σ 2 . La f.d.p. de la variable zi es
 2
z
exp − 2σi2
fZi (zi ) = √ i = 1, ..., N
2πσ
y la f.d.p. del vector Z es
N PN ! !
Y 1 2
i=1 zi 1 kzk2
fZ (z) = fZi (zi ) = exp − = exp − .
i=1
(2π)N/2 σ N 2σ 2 (2π)N/2 σ N 2σ 2
(1)
La primera igualdad se debe a que las variables aleatorias zi son independientes, y
por ello, la f.d.p. conjunta es el producto de las f.d.p. individuales.
1
En la siguiente sección veremos cuándo un grupo de variables aleatorias es conjuntamente
Gaussiano y cuando, no.

1
La matriz de covarianza de Z es una matriz diagonal de dimensión N × N :
CZ = σ 2 IN , ya que las componentes de Z son independientes, y por lo tanto, no
correlacionadas o descorrelacionadas.
Ahora definimos la siguiente transformación lineal,

X = AZ, (2)

donde la matriz A ∈ RN ×N es no singular o invertible. La matriz de covarianza de


X es

CX = E[XXT ] = E[AZZT AT ] = AE[ZZT ]AT = ACZ AT = σ 2 AIN AT = σ 2 AAT

Entonces, la matriz σA es la raı́z cuadrada simétrica de la matriz de covarianza


1/2
de X: σA = CX , que existe puesto que CX es definida positiva.
La f.d.p. del vector X se obtiene mediante la transformación
fZ (z (x))
fX (x) =
|det J(x)|
donde J(x) es el Jacobiano del vector x,
∂x1 ∂x1 ∂x1
   
∇x1 ∂z1 ∂z2
... ∂zN
∂(x)  .   ..
J(x) = =  ..  =  .

∂(z) .
∂xN ∂xN ∂xN
∇xN ∂z1 ∂z2
... ∂zN

Utilizando esta expresión,


1/2
CX
J(x) = A =
σ
(det CX )1/2
det J(x) = .
σN
Por otro lado, en el exponente de (1) aparece
T −1 −1 −1
kzk2 = zT z = A−1 x A−1 x = xT AT A x = xT AAT x =σ 2 xT C−1
X x

y la f.d.p. de X queda
 
1 1 T −1
fX (x) = exp − x CX x . (3)
(2π)N/2 (det CX )1/2 2

Si la media de X es E(X) = mX 6= 0, tenemos que redefinir el cambio de variable


en (2) utilizando una transformación que ya no es lineal sino afı́n,

X = AZ + mX . (4)

Entonces, Z = A−1 (X − mX ) y la f.d.p. queda


 
1 1 T −1
fX (x) = exp − (x − mX ) CX (x − mX ) (5)
(2π)N/2 (det CX )1/2 2

2
2. Independencia y Correlación
En esta sección abordaremos el tema de correlación e independencia estadı́stica2
de variables aleatorias. De manera general, dos o más variables aleatorias indepen-
dientes entre sı́ están descorrelacionadas. Esto se cumple para variables aleatorias
con cualquier tipo de distribución. Para demostrarlo, definimos N variables aleato-
rias A1 , A2 , . . . , AN independientes y nos proponemos calcular la covarianza de dos
variables aleatorias cualesquiera. Sea mAi = E[Ai ], la covarianza de Ai y Aj es

CAi ,Aj = E[(Ai − mAi )(Aj − mAj )] i 6= j (6)


Z ∞Z ∞
= (ai − mAi )(aj − mAj )fAi ,Aj (ai , aj )dai daj (7)
−∞ −∞
Z ∞ Z ∞
= (ai − mAi )fAi (ai )dai (aj − mAj )fAj (aj )daj (8)
indep. −∞ −∞
= E[Ai − mAi ]E[Aj − mAj ] (9)
= 0. (10)

Entonces, el coeficiente de correlación es


CAi ,Aj
ρ= = 0.
σA i σA j

Por lo tanto, las variables aleatorias Ai y Aj están descorrelacionadas ∀i 6= j. Adi-


cionalmente, esto implica que la matriz de covarianza del vector aleatorio definido
como A = [A1 , A2 , . . . , AN ] es diagonal, es decir,

CA = diag[σA2 1 , . . . , σA2 N ]. (11)

Entonces, en general se cumple,

Independencia ⇒ Descorrelación

En cambio, no siempre es cierto que la descorrelación de variables aleatorias im-


plica que ellas son independientes. Un caso para el cual sı́ se cumple esto es cuando
las variables aleatorias son conjuntamente Gaussianas. Se dice que N variables alea-
torias X1 , X2 , . . . , XN son conjuntamente Gaussianas si su distribución conjunta es
la distribución Gaussiana multivariable, es decir, la f.d.p. conjunta es (5).
Sean X1 , X2 , . . . , XN N variables aleatorias conjuntamente Gaussianas desco-
rrelacionadas, entonces X1 , X2 , . . . , XN son independientes. Para comodidad de no-
tación, definimos los siguientes vectores aleatorios: X = [X1 , X2 , . . . , XN ] y X0 =
X − mX , donde mX = E[X]. La i-ésima componente de X0 es X0i = Xi − mXi . La
2
Siempre que hablemos de independencia nos referiremos a independencia estadı́stica, salvo que
se indique lo contrario.

3
2 2
f.d.p. de X es (5) con CX = diag[σX 1
, . . . , σX N
]. Entonces,
N
!
1 1 X x20i
fX (x) = Q  exp − 2
(12)
(2π) N/2 N 2 i=1 σX
i=1 σXi i

N
1 x20i
 
Y 1
= √ exp − 2 (13)
i=1
2πσXi 2 σX i
N
Y
= fXi (xi ) (14)
i=1

La última igualdad implica que las Xi ’s son independientes. Entonces, para el caso
de variables aleatorias conjuntamente Gaussianas,

Independencia ⇔ Descorrelación

3. Interpretación Geométrica
Es conveniente interpretar esta expresión para un vector bidimensional X =
[X1 , X2 ]T de media nula y matriz de covarianza
 
σ12 ρσ1 σ2
CX = ,
ρσ1 σ2 σ22

donde ρ es el coeficiente de correlación entre X1 y X2 , y σ12 , σ22 son sus varianzas. La


forma de la superficie fX (x) = fX1 X2 (x1 , x2 ) está determinada por el exponente de
(3), ya que el factor que multiplica la exponencial es constante. La intersección de
esta superficie con un plano de f.d.p. constante, es una curva de nivel definida por

xT C−1
X x−K = 0 (15)

con K constante. Puesto que CX es definida positiva, su inversa también lo es, y


la forma cuadrática xT C−1 X x es siempre positiva para cualquier vector x no nulo.
La ecuación (15) define una elipse en el plano (x1 , x2 ), que llamamos elipse de con-
centración. La excentricidad e inclinación de los ejes de la elipse depende de los
parámetros de la matriz de covarianza. En el caso de trabajar con N variables alea-
torias, el espacio pasa a ser N -dimensional y la ecuación (15) representa un elipsoide
de concentración.
A continuación analizamos dos casos en dos dimensiones: variables aleatorias
Gaussianas correlacionadas y descorrelacionadas.

3.1. Variables Aleatorias Correlacionadas


En la Fig. 1 se muestran gráficos correspondientes a dos variables aleatorias
conjuntamente Gaussianas, de media nula, varianzas unitarias y coeficiente de co-
rrelación no nulo, ya que las variables aleatorias están correlacionadas. En particular,
elegimos ρ = 0,8. En la Fig. 1(a) se muestra la f.d.p. conjunta de (X1 , X2 ) y en la Fig.

4
0.4

0.3

fX (x1 , x2 )
0.2

0.1

0
4
2 4
0 2
0
−2 −2
x2 −4 −4
x1

(a) Función densidad de probabilidad Gaussiana bivariable.

1
x2

−1

−2

−3

−4
−4 −2 0 2 4
x1

(b) Elipses de concentración y realizaciones (#) de (X1 , X2 ).

Figura 1: Gaussiana bivariable con los siguientes parámetros: ρ = 0,8 y σ1 = σ2 = 1.

1(b) se muestran las elipses de concentración y 103 realizaciones (o experimentos)


del par de variables aleatorias (X1 , X2 ).
En estas figuras se puede ver el significado de la correlación de dos variables. En
la sección anterior vimos que para variables aleatorias conjuntamente Gaussianas se
cumple: Independencia ⇔ Descorrelación. Esto es lo mismo que decir: Dependencia
⇔ Correlación. Entonces, dado que ρ 6= 0, las variables X1 y X2 son dependien-
tes. Es decir, condicionar una de las variables a la otra cambia la distribución de
probabilidades,
fX2 |X1 (x2 |x1 ) 6= fX2 (x2 ).
Es claro que para distintos valores de x1 , la f.d.p. condicional cambia por lo que X1

5
y X2 son dependientes. Por ejemplo,

P(X2 > 0|X1 = 2) > P(X2 > 0)

con lo cual el hecho de conocer el valor de una de las realizaciones de X1 modifica


la probabilidad del evento X2 > 0.

3.2. Variables Aleatorias Descorrelacionadas


En la Fig. 2 graficamos la f.d.p. y realizaciones de dos variable aleatorias con-
juntamente Gaussianas descorrelacionadas (ρ = 0) y, por lo tanto, independientes.

0.2

0.15
fX (x1 , x2 )

0.1

0.05

0
10
5 10
0 5
0
−5 −5
x2 −10 −10
x1

(a) Función densidad de probabilidad Gaussiana bivariable.

2
x2

−2

−4

−6
−6 −4 −2 0 2 4 6
x1

(b) Elipses de concentración y realizaciones (#) de (X1 , X2 ).

Figura 2: Gaussiana bivariable de componentes descorrelacionadas con los siguientes


parámetros: ρ = 0, σ1 = 1 y σ2 = 2.

6
Condicionar una variable sobre otra no cambia la distribución de probabilidades.
Las curvas de nivel de la f.d.p. mostradas en la Fig. 2(b) son elipses centradas en el
origen cuyos ejes coinciden con los ejes de x1 y x2 , algo que se debe cumplir para
que X1 y X2 sean independientes. El hecho de que sus varianzas sean distintas sólo
modifica la excentricidad de las elipses de concentración pero no la relación entre
las variables.

4. Casos Particulares
En esta sección analizamos varios ejemplos para los cuales las f.d.p. marginales
son Gaussianas pero la conjunta no es la Gaussiana multivariable, es decir, que
las variables aleatorias no son conjuntamente Gaussianas. No alcanza con que las
distribuciones marginales sean Gaussianas para que las variables aleatorias sean
conjuntamente Gaussianas.
Ejemplo 1. Sea X una variable aleatoria Gaussiana de media nula y varianza
unitaria, definimos otra variable aleatoria Y tal que,

X si |X| > c
Y = (16)
−X si |X| ≤ c
Es claro que Y es Gaussiana debido a la simetrı́a de la f.d.p. alrededor de 0. Sin
embargo, como puede apreciarse en la Figura 3 a través de varias realizaciones de
(X, Y ), la conjunta no es la Gaussiana multivariable.

0
y

−1

−2

−3
−3 −2 −1 0 1 2 3
x

Figura 3: (Ejemplo 1) 500 realizaciones de (X, Y ) definidas por (16) para c ≃ 1,54.

Incluso, se puede demostrar que las variables X e Y se encuentran descorrela-


cionadas. Sin embargo, esto no implica que las variables sean independientes ya que
no son conjuntamente Gaussianas.

7
Ejemplo 2. Sea X una variable aleatoria Gaussiana de media nula y varianza
unitaria. Sea W una variable aleatoria Bernoulli equiprobable e independiente de
X, 
1 p = 0,5
W = (17)
−1 p = 0,5
Definimos una nueva variable aleatoria
Y = W X. (18)
De manera similar al caso anterior y debido a la simetrı́a de la f.d.p. Gaussiana, Y
es Gaussiana. Sin embargo, como puede apreciarse en la Fig. 4 a través de varias
realizaciones de (X, Y ), la conjunta no es la Gaussiana multivariable.

0
y

−1

−2

−3

−4
−4 −2 0 2 4
x

Figura 4: (Ejemplo 2) 500 realizaciones de (X, Y ) definidas por (18).

Calculemos el coeficiente de correlación entre X e Y . Para eso, necesitamos


primero realizar algunos cálculos. La media de W es,
mW = E[W ] = (1)(0,5) + (−1)(0,5) = 0,
y la media de Y es,
mY = E[Y ] = E[W X] = E[W ]E[X] = 0,
indep.

Finalmente, la covarianza entre X e Y es,


CXY = E[(X − mX )(Y − mY )] = E[XY ] = E[W X 2 ] = E[W ]E[X 2 ] = 0,
mX =mY =0 mW =0

Por lo que X e Y están descorrelacionadas. Sin embargo, al igual que el ejemplo


anterior, las variables no son independientes ya que, por definición de Y en (18), su
valor absoluto depende de X. Nuevamente, X e Y no son conjuntamente Gaussianas
y, por lo tanto, descorrelación no implica independencia.

8
5. Diagonalización de la Matriz de Covarianza
Buscamos la matriz de transformación P tal que el vector aleatorio Y = PX
tenga una matriz de covarianza CY diagonal:
 
σ12 . . . 0
CY =  ... . . . .. 

. 
2
0 . . . σN

Los elementos de la diagonal principal de CY son las varianzas de las componentes


de Y. En otros términos, lo que se busca es una transformación lineal que descorre-
lacione las componentes de X.
Imponemos la condición de preservar la norma del vector, es decir kxk2 = kyk2 =
yT y = xT PT Px, lo que implica que PT = P−1 (matriz ortogonal ). Una transforma-
ción de este tipo es una rotación. Por conveniencia, definimos Q = PT = P−1 .
Entonces,
CY = PCX PT = PCX P−1 = Q−1 CX Q
QCY = CX Q
Por la forma diagonal de CY , esto implica
qi σi2 = CX qi i = 1, . . . , N,
donde qi es la i -ésima columna de Q. Esto es, Q es una matriz de autovectores de
CX y las varianzas de las componentes de Y son los autovalores de CX .
Por ser CX definida positiva, todos sus autovalores son reales y positivos, como
corresponde a las varianzas de variables aleatorias reales. Por ser una matriz real
y simétrica, todos sus autovectores son ortogonales. Pueden ser normalizados para
tener ası́ una base ortonormal. Las matrices CX y CY se dicen similares, pues existe
una matriz de transformación Q de N × N con det Q 6= 0 tal que Q−1 CX Q = CY .
La transformación ahora se puede escribir
 
qT1
Y = QT X =  ...  X
 
qTN

Es decir, las nuevas variables descorrelacionadas se obtienen proyectando el vec-


tor X en la dirección de los autovectores de la matriz de covarianza CX . La inter-
pretación gráfica de esta transformación se ve en la Fig. 5. Los ejes principales de
la elipse están alineados con los autovectores, que definen un nuevo sistema de ejes
coordenados. En ese nuevo sistema, las componentes del vector aleatorio no están
correlacionadas.

6. Ejercicios
Ejercicio
√ 1. Demostrar que los ejes principales del elipsoide de concentración miden
2σi K, donde K es la constante de la ecuación (15).

9
x2
y2
a
ax 2
y1

a y2
a y1
q2 q1

ax 1 x1

Figura 5: Diagonalización de la matriz de covarianza.

Ejercicio 2. Demostrar que en el sistema transformado, la ecuación (15) se escribe


N
X yi2
2
−K =0
i=1
σ i

Interpretar esta expresión.


Ejercicio 3. Generar 500 puntos de coordenadas (X1 , X2 ) conjuntamente Gaussia-
nas, con matriz de covarianza
 
1 ρ
CX =
ρ 1
para distintos valores del coeficiente de correlación ρ (Por ejemplo: 0.50, -0.90, 0.0).
Sugerencia: Generar dos secuencias de 500 números aleatorios normales, de media
nula y varianza unitaria mediante la función randn:
Z = (randn(1,500);randn(1,500));
Aplicar a los vectores Z(i,:) ası́ generados, la transformación lineal X=A*Z;
donde A es una matriz de 2×2 apropiada.
Ejercicio 4. Demostrar que la f.d.p. de dos variables X1 , X2 conjuntamente Gaus-
sianas, de media nula, varianza σ 2 y coeficiente de correlación ρ se puede escribir
 
1 −1 2 2

fX1 X2 (x1 , x2 ) = exp x − 2ρx1 x2 + x2
2σ 2 (1 − ρ2 ) 1
p
2πσ 2 1 − ρ2
Ejercicio 5. Demostrar que las marginales de una Gaussiana son Gaussianas para
el caso bivariable.
Ejercicio 6. Sean X1 , X2 , . . . , XN , N variables aleatorias Gaussianas independien-
tes. Demostrar que su distribución conjunta es la Gaussiana multivariable, es decir,
X1 , X2 , . . . , XN son conjuntamente Gaussianas.

10

Você também pode gostar