Gaussiana Multivariable PDF

Distribución Gaussiana Multivariable
Carlos Belaustegui Goitia, Juan Augusto Maya

8 de Agosto de 2010
Resumen
En este documento presentamos la deducción de la expresión de la función
densidad de probabilidad (f.d.p.) Gaussiana multivariable. También se mues-
tran ejemplos de variables aleatorias conjuntamente Gaussianas y de otras
variables aleatorias que no lo son. Para terminar mostramos una interpreta-
ción gráfica de la distribución Gaussiana multivariable.
1. La Distribución Gaussiana Multivariable

A continuación, obtendremos la expresión de la f.d.p. de un vector aleatorio
X = [X1 , ..., XN ]T
cuyas componentes son conjuntamente Gaussianas 1 , de media nula y matriz de

covarianza CX .
Definimos un vector Z de N variables aleatorias Gaussianas independientes,
idénticamente distribuidas (i.i.d.) Z = [Z1 , ..., ZN ]T , cada una de ellas con media
nula y varianza σi2 . El hecho que las zi estén idénticamente distribuidas significa que
sus funciones distribución son iguales, y por lo tanto, sus funciones de densidad de
probabilidad y sus momentos son los mismos. En particular, esto se cumple para la
varianza: σ12 = · · · = σN
2
= σ 2 . La f.d.p. de la variable zi es
2
z
exp − 2σi2
fZi (zi ) = √ i = 1, ..., N
2πσ
y la f.d.p. del vector Z es
N PN ! !
Y 1 2
i=1 zi 1 kzk2
fZ (z) = fZi (zi ) = exp − = exp − .
i=1
(2π)N/2 σ N 2σ 2 (2π)N/2 σ N 2σ 2
(1)
La primera igualdad se debe a que las variables aleatorias zi son independientes, y
por ello, la f.d.p. conjunta es el producto de las f.d.p. individuales.
1
En la siguiente sección veremos cuándo un grupo de variables aleatorias es conjuntamente
Gaussiano y cuando, no.
1
La matriz de covarianza de Z es una matriz diagonal de dimensión N × N :
CZ = σ 2 IN , ya que las componentes de Z son independientes, y por lo tanto, no
correlacionadas o descorrelacionadas.
Ahora definimos la siguiente transformación lineal,
X = AZ, (2)
donde la matriz A ∈ RN ×N es no singular o invertible. La matriz de covarianza de

X es
CX = E[XXT ] = E[AZZT AT ] = AE[ZZT ]AT = ACZ AT = σ 2 AIN AT = σ 2 AAT
Entonces, la matriz σA es la raı́z cuadrada simétrica de la matriz de covarianza

1/2
de X: σA = CX , que existe puesto que CX es definida positiva.
La f.d.p. del vector X se obtiene mediante la transformación
fZ (z (x))
fX (x) =
|det J(x)|
donde J(x) es el Jacobiano del vector x,
∂x1 ∂x1 ∂x1
   
∇x1 ∂z1 ∂z2
... ∂zN
∂(x)  .   ..
J(x) = =  ..  =  .

∂(z) .
∂xN ∂xN ∂xN
∇xN ∂z1 ∂z2
... ∂zN
Utilizando esta expresión,

1/2
CX
J(x) = A =
σ
(det CX )1/2
det J(x) = .
σN
Por otro lado, en el exponente de (1) aparece
T −1 −1 −1
kzk2 = zT z = A−1 x A−1 x = xT AT A x = xT AAT x =σ 2 xT C−1
X x
y la f.d.p. de X queda

1 1 T −1
fX (x) = exp − x CX x . (3)
(2π)N/2 (det CX )1/2 2
Si la media de X es E(X) = mX 6= 0, tenemos que redefinir el cambio de variable

en (2) utilizando una transformación que ya no es lineal sino afı́n,
X = AZ + mX . (4)
Entonces, Z = A−1 (X − mX ) y la f.d.p. queda

1 1 T −1
fX (x) = exp − (x − mX ) CX (x − mX ) (5)
(2π)N/2 (det CX )1/2 2
2
2. Independencia y Correlación
En esta sección abordaremos el tema de correlación e independencia estadı́stica2
de variables aleatorias. De manera general, dos o más variables aleatorias indepen-
dientes entre sı́ están descorrelacionadas. Esto se cumple para variables aleatorias
con cualquier tipo de distribución. Para demostrarlo, definimos N variables aleato-
rias A1 , A2 , . . . , AN independientes y nos proponemos calcular la covarianza de dos
variables aleatorias cualesquiera. Sea mAi = E[Ai ], la covarianza de Ai y Aj es
CAi ,Aj = E[(Ai − mAi )(Aj − mAj )] i 6= j (6)

Z ∞Z ∞
= (ai − mAi )(aj − mAj )fAi ,Aj (ai , aj )dai daj (7)
−∞ −∞
Z ∞ Z ∞
= (ai − mAi )fAi (ai )dai (aj − mAj )fAj (aj )daj (8)
indep. −∞ −∞
= E[Ai − mAi ]E[Aj − mAj ] (9)
= 0. (10)
Entonces, el coeficiente de correlación es

CAi ,Aj
ρ= = 0.
σA i σA j
Por lo tanto, las variables aleatorias Ai y Aj están descorrelacionadas ∀i 6= j. Adi-

cionalmente, esto implica que la matriz de covarianza del vector aleatorio definido
como A = [A1 , A2 , . . . , AN ] es diagonal, es decir,
CA = diag[σA2 1 , . . . , σA2 N ]. (11)
Entonces, en general se cumple,
Independencia ⇒ Descorrelación
En cambio, no siempre es cierto que la descorrelación de variables aleatorias im-

plica que ellas son independientes. Un caso para el cual sı́ se cumple esto es cuando
las variables aleatorias son conjuntamente Gaussianas. Se dice que N variables alea-
torias X1 , X2 , . . . , XN son conjuntamente Gaussianas si su distribución conjunta es
la distribución Gaussiana multivariable, es decir, la f.d.p. conjunta es (5).
Sean X1 , X2 , . . . , XN N variables aleatorias conjuntamente Gaussianas desco-
rrelacionadas, entonces X1 , X2 , . . . , XN son independientes. Para comodidad de no-
tación, definimos los siguientes vectores aleatorios: X = [X1 , X2 , . . . , XN ] y X0 =
X − mX , donde mX = E[X]. La i-ésima componente de X0 es X0i = Xi − mXi . La
2
Siempre que hablemos de independencia nos referiremos a independencia estadı́stica, salvo que
se indique lo contrario.
3
2 2
f.d.p. de X es (5) con CX = diag[σX 1
, . . . , σX N
]. Entonces,
N
!
1 1 X x20i
fX (x) = Q exp − 2
(12)
(2π) N/2 N 2 i=1 σX
i=1 σXi i
N
1 x20i

Y 1
= √ exp − 2 (13)
i=1
2πσXi 2 σX i
N
Y
= fXi (xi ) (14)
i=1
La última igualdad implica que las Xi ’s son independientes. Entonces, para el caso
de variables aleatorias conjuntamente Gaussianas,
Independencia ⇔ Descorrelación
3. Interpretación Geométrica
Es conveniente interpretar esta expresión para un vector bidimensional X =
[X1 , X2 ]T de media nula y matriz de covarianza

σ12 ρσ1 σ2
CX = ,
ρσ1 σ2 σ22
donde ρ es el coeficiente de correlación entre X1 y X2 , y σ12 , σ22 son sus varianzas. La

forma de la superficie fX (x) = fX1 X2 (x1 , x2 ) está determinada por el exponente de
(3), ya que el factor que multiplica la exponencial es constante. La intersección de
esta superficie con un plano de f.d.p. constante, es una curva de nivel definida por
xT C−1
X x−K = 0 (15)
con K constante. Puesto que CX es definida positiva, su inversa también lo es, y

la forma cuadrática xT C−1 X x es siempre positiva para cualquier vector x no nulo.
La ecuación (15) define una elipse en el plano (x1 , x2 ), que llamamos elipse de con-
centración. La excentricidad e inclinación de los ejes de la elipse depende de los
parámetros de la matriz de covarianza. En el caso de trabajar con N variables alea-
torias, el espacio pasa a ser N -dimensional y la ecuación (15) representa un elipsoide
de concentración.
A continuación analizamos dos casos en dos dimensiones: variables aleatorias
Gaussianas correlacionadas y descorrelacionadas.
3.1. Variables Aleatorias Correlacionadas

En la Fig. 1 se muestran gráficos correspondientes a dos variables aleatorias
conjuntamente Gaussianas, de media nula, varianzas unitarias y coeficiente de co-
rrelación no nulo, ya que las variables aleatorias están correlacionadas. En particular,
elegimos ρ = 0,8. En la Fig. 1(a) se muestra la f.d.p. conjunta de (X1 , X2 ) y en la Fig.
4
0.4
0.3
fX (x1 , x2 )
0.2
0.1
0
4
2 4
0 2
0
−2 −2
x2 −4 −4
x1
(a) Función densidad de probabilidad Gaussiana bivariable.
1
x2
−1
−2
−3
−4
−4 −2 0 2 4
x1
(b) Elipses de concentración y realizaciones (#) de (X1 , X2 ).
Figura 1: Gaussiana bivariable con los siguientes parámetros: ρ = 0,8 y σ1 = σ2 = 1.
1(b) se muestran las elipses de concentración y 103 realizaciones (o experimentos)

del par de variables aleatorias (X1 , X2 ).
En estas figuras se puede ver el significado de la correlación de dos variables. En
la sección anterior vimos que para variables aleatorias conjuntamente Gaussianas se
cumple: Independencia ⇔ Descorrelación. Esto es lo mismo que decir: Dependencia
⇔ Correlación. Entonces, dado que ρ 6= 0, las variables X1 y X2 son dependien-
tes. Es decir, condicionar una de las variables a la otra cambia la distribución de
probabilidades,
fX2 |X1 (x2 |x1 ) 6= fX2 (x2 ).
Es claro que para distintos valores de x1 , la f.d.p. condicional cambia por lo que X1
5
y X2 son dependientes. Por ejemplo,
P(X2 > 0|X1 = 2) > P(X2 > 0)
con lo cual el hecho de conocer el valor de una de las realizaciones de X1 modifica

la probabilidad del evento X2 > 0.
3.2. Variables Aleatorias Descorrelacionadas

En la Fig. 2 graficamos la f.d.p. y realizaciones de dos variable aleatorias con-
juntamente Gaussianas descorrelacionadas (ρ = 0) y, por lo tanto, independientes.
0.2
0.15
fX (x1 , x2 )
0.1
0.05
0
10
5 10
0 5
0
−5 −5
x2 −10 −10
x1
(a) Función densidad de probabilidad Gaussiana bivariable.
2
x2
−2
−4
−6
−6 −4 −2 0 2 4 6
x1
(b) Elipses de concentración y realizaciones (#) de (X1 , X2 ).
Figura 2: Gaussiana bivariable de componentes descorrelacionadas con los siguientes

parámetros: ρ = 0, σ1 = 1 y σ2 = 2.
6
Condicionar una variable sobre otra no cambia la distribución de probabilidades.
Las curvas de nivel de la f.d.p. mostradas en la Fig. 2(b) son elipses centradas en el
origen cuyos ejes coinciden con los ejes de x1 y x2 , algo que se debe cumplir para
que X1 y X2 sean independientes. El hecho de que sus varianzas sean distintas sólo
modifica la excentricidad de las elipses de concentración pero no la relación entre
las variables.
4. Casos Particulares
En esta sección analizamos varios ejemplos para los cuales las f.d.p. marginales
son Gaussianas pero la conjunta no es la Gaussiana multivariable, es decir, que
las variables aleatorias no son conjuntamente Gaussianas. No alcanza con que las
distribuciones marginales sean Gaussianas para que las variables aleatorias sean
conjuntamente Gaussianas.
Ejemplo 1. Sea X una variable aleatoria Gaussiana de media nula y varianza
unitaria, definimos otra variable aleatoria Y tal que,

X si |X| > c
Y = (16)
−X si |X| ≤ c
Es claro que Y es Gaussiana debido a la simetrı́a de la f.d.p. alrededor de 0. Sin
embargo, como puede apreciarse en la Figura 3 a través de varias realizaciones de
(X, Y ), la conjunta no es la Gaussiana multivariable.
0
y
−1
−2
−3
−3 −2 −1 0 1 2 3
x
Figura 3: (Ejemplo 1) 500 realizaciones de (X, Y ) definidas por (16) para c ≃ 1,54.
Incluso, se puede demostrar que las variables X e Y se encuentran descorrela-

cionadas. Sin embargo, esto no implica que las variables sean independientes ya que
no son conjuntamente Gaussianas.
7
Ejemplo 2. Sea X una variable aleatoria Gaussiana de media nula y varianza
unitaria. Sea W una variable aleatoria Bernoulli equiprobable e independiente de
X,
1 p = 0,5
W = (17)
−1 p = 0,5
Definimos una nueva variable aleatoria
Y = W X. (18)
De manera similar al caso anterior y debido a la simetrı́a de la f.d.p. Gaussiana, Y
es Gaussiana. Sin embargo, como puede apreciarse en la Fig. 4 a través de varias
realizaciones de (X, Y ), la conjunta no es la Gaussiana multivariable.
0
y
−1
−2
−3
−4
−4 −2 0 2 4
x
Figura 4: (Ejemplo 2) 500 realizaciones de (X, Y ) definidas por (18).
Calculemos el coeficiente de correlación entre X e Y . Para eso, necesitamos

primero realizar algunos cálculos. La media de W es,
mW = E[W ] = (1)(0,5) + (−1)(0,5) = 0,
y la media de Y es,
mY = E[Y ] = E[W X] = E[W ]E[X] = 0,
indep.
Finalmente, la covarianza entre X e Y es,

CXY = E[(X − mX )(Y − mY )] = E[XY ] = E[W X 2 ] = E[W ]E[X 2 ] = 0,
mX =mY =0 mW =0
Por lo que X e Y están descorrelacionadas. Sin embargo, al igual que el ejemplo

anterior, las variables no son independientes ya que, por definición de Y en (18), su
valor absoluto depende de X. Nuevamente, X e Y no son conjuntamente Gaussianas
y, por lo tanto, descorrelación no implica independencia.
8
5. Diagonalización de la Matriz de Covarianza
Buscamos la matriz de transformación P tal que el vector aleatorio Y = PX
tenga una matriz de covarianza CY diagonal:
 
σ12 . . . 0
CY =  ... . . . .. 

. 
2
0 . . . σN
Los elementos de la diagonal principal de CY son las varianzas de las componentes

de Y. En otros términos, lo que se busca es una transformación lineal que descorre-
lacione las componentes de X.
Imponemos la condición de preservar la norma del vector, es decir kxk2 = kyk2 =
yT y = xT PT Px, lo que implica que PT = P−1 (matriz ortogonal ). Una transforma-
ción de este tipo es una rotación. Por conveniencia, definimos Q = PT = P−1 .
Entonces,
CY = PCX PT = PCX P−1 = Q−1 CX Q
QCY = CX Q
Por la forma diagonal de CY , esto implica
qi σi2 = CX qi i = 1, . . . , N,
donde qi es la i -ésima columna de Q. Esto es, Q es una matriz de autovectores de
CX y las varianzas de las componentes de Y son los autovalores de CX .
Por ser CX definida positiva, todos sus autovalores son reales y positivos, como
corresponde a las varianzas de variables aleatorias reales. Por ser una matriz real
y simétrica, todos sus autovectores son ortogonales. Pueden ser normalizados para
tener ası́ una base ortonormal. Las matrices CX y CY se dicen similares, pues existe
una matriz de transformación Q de N × N con det Q 6= 0 tal que Q−1 CX Q = CY .
La transformación ahora se puede escribir
 
qT1
Y = QT X =  ...  X
 
qTN
Es decir, las nuevas variables descorrelacionadas se obtienen proyectando el vec-

tor X en la dirección de los autovectores de la matriz de covarianza CX . La inter-
pretación gráfica de esta transformación se ve en la Fig. 5. Los ejes principales de
la elipse están alineados con los autovectores, que definen un nuevo sistema de ejes
coordenados. En ese nuevo sistema, las componentes del vector aleatorio no están
correlacionadas.
6. Ejercicios
Ejercicio
√ 1. Demostrar que los ejes principales del elipsoide de concentración miden
2σi K, donde K es la constante de la ecuación (15).
9
x2
y2
a
ax 2
y1
a y2
a y1
q2 q1
ax 1 x1
Figura 5: Diagonalización de la matriz de covarianza.
Ejercicio 2. Demostrar que en el sistema transformado, la ecuación (15) se escribe

N
X yi2
2
−K =0
i=1
σ i
Interpretar esta expresión.

Ejercicio 3. Generar 500 puntos de coordenadas (X1 , X2 ) conjuntamente Gaussia-
nas, con matriz de covarianza

1 ρ
CX =
ρ 1
para distintos valores del coeficiente de correlación ρ (Por ejemplo: 0.50, -0.90, 0.0).
Sugerencia: Generar dos secuencias de 500 números aleatorios normales, de media
nula y varianza unitaria mediante la función randn:
Z = (randn(1,500);randn(1,500));
Aplicar a los vectores Z(i,:) ası́ generados, la transformación lineal X=A*Z;
donde A es una matriz de 2×2 apropiada.
Ejercicio 4. Demostrar que la f.d.p. de dos variables X1 , X2 conjuntamente Gaus-
sianas, de media nula, varianza σ 2 y coeficiente de correlación ρ se puede escribir

1 −1 2 2

fX1 X2 (x1 , x2 ) = exp x − 2ρx1 x2 + x2
2σ 2 (1 − ρ2 ) 1
p
2πσ 2 1 − ρ2
Ejercicio 5. Demostrar que las marginales de una Gaussiana son Gaussianas para
el caso bivariable.
Ejercicio 6. Sean X1 , X2 , . . . , XN , N variables aleatorias Gaussianas independien-
tes. Demostrar que su distribución conjunta es la Gaussiana multivariable, es decir,
X1 , X2 , . . . , XN son conjuntamente Gaussianas.
10

Gaussiana Multivariable PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Gaussiana Multivariable PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Distribución Gaussiana Multivariable

Carlos Belaustegui Goitia, Juan Augusto Maya

1. La Distribución Gaussiana Multivariable

cuyas componentes son conjuntamente Gaussianas 1 , de media nula y matriz de

donde la matriz A ∈ RN ×N es no singular o invertible. La matriz de covarianza de

CX = E[XXT ] = E[AZZT AT ] = AE[ZZT ]AT = ACZ AT = σ 2 AIN AT = σ 2 AAT

Entonces, la matriz σA es la raı́z cuadrada simétrica de la matriz de covarianza

Utilizando esta expresión,

Si la media de X es E(X) = mX 6= 0, tenemos que redefinir el cambio de variable

Entonces, Z = A−1 (X − mX ) y la f.d.p. queda

CAi ,Aj = E[(Ai − mAi )(Aj − mAj )] i 6= j (6)

Entonces, el coeficiente de correlación es

Por lo tanto, las variables aleatorias Ai y Aj están descorrelacionadas ∀i 6= j. Adi-

CA = diag[σA2 1 , . . . , σA2 N ]. (11)

Entonces, en general se cumple,

En cambio, no siempre es cierto que la descorrelación de variables aleatorias im-

donde ρ es el coeficiente de correlación entre X1 y X2 , y σ12 , σ22 son sus varianzas. La

con K constante. Puesto que CX es definida positiva, su inversa también lo es, y

3.1. Variables Aleatorias Correlacionadas

(a) Función densidad de probabilidad Gaussiana bivariable.

(b) Elipses de concentración y realizaciones (#) de (X1 , X2 ).

Figura 1: Gaussiana bivariable con los siguientes parámetros: ρ = 0,8 y σ1 = σ2 = 1.

1(b) se muestran las elipses de concentración y 103 realizaciones (o experimentos)

P(X2 > 0|X1 = 2) > P(X2 > 0)

con lo cual el hecho de conocer el valor de una de las realizaciones de X1 modifica

3.2. Variables Aleatorias Descorrelacionadas

(a) Función densidad de probabilidad Gaussiana bivariable.

(b) Elipses de concentración y realizaciones (#) de (X1 , X2 ).

Figura 2: Gaussiana bivariable de componentes descorrelacionadas con los siguientes

Incluso, se puede demostrar que las variables X e Y se encuentran descorrela-

Figura 4: (Ejemplo 2) 500 realizaciones de (X, Y ) definidas por (18).

Calculemos el coeficiente de correlación entre X e Y . Para eso, necesitamos

Finalmente, la covarianza entre X e Y es,

Por lo que X e Y están descorrelacionadas. Sin embargo, al igual que el ejemplo

Los elementos de la diagonal principal de CY son las varianzas de las componentes

Es decir, las nuevas variables descorrelacionadas se obtienen proyectando el vec-

Figura 5: Diagonalización de la matriz de covarianza.

Ejercicio 2. Demostrar que en el sistema transformado, la ecuación (15) se escribe

Interpretar esta expresión.

Você também pode gostar