Você está na página 1de 4

Universidad Nacional Mayor de San Marcos

APLICACIÓN DE LA DESCOMPOSICIÓN DE CHOLESKY EN LA GENERACIÓN DE


UN VECTOR ALEATORIO CON DISTRIBUCIÓN NORMAL MULTIVARIANTE
Julio Jaime Vásquez Chamorro 1, Mg. María Estela Ponce Aruneri 2

RESUMEN
El proceso de simulación necesita la generación de datos semejantes a los que se producen en la realidad, por
lo que se requiere generar vectores aleatorios que siguen una determinada distribución.
La mayoría de los métodos estadísticos multivariados requiere vectores de datos que son muestras aleatorias
de poblaciones que tienen distribuciones normales multivariantes.
Este trabajo presenta una aplicación de la descomposición de Cholesky para generar un vector de variables
aleatorias con distribución normal multivariada, para luego probar mediante las medidas de asimetría y
curtosis multivariadas propuestas por Mardia, de que el vector generado tiene dicha distribución.

Palabras clave: Vector aleatorio generado, descomposición de Cholesky, medidas de asimetría y curtosis.

INTRODUCCION Generar U1, U2~ U (0,1)


Hacer R = − 2 ln u1 , θ = 2π u 2
Existen diversos métodos para generar valores
de variables con distribución normal Hacer Z=R*Costeta = − 2 ln u1 *cos(2*pi*u2)
univariada, como el método de Box Muller;
pero son pocos los métodos que existen para
generar vectores aleatorios con distribución El segundo procedimiento es generar la matriz
normal multivariada. de covarianzas de Z, utilizando el comando
Cov de Matlab, esta matriz es definida positiva
Este artículo presenta un método para generar y simétrica, ya generada la matriz se aplicara el
este tipo de vectores aleatorios, mediante la algoritmo de la descomposición de Cholesky,
descomposición de Cholesky, que se utiliza para obtener la matriz triangular suprior (Lt).
frecuentemente en la solución de sistemas
lineales, donde la matriz del sistema es Algoritmo de la descomposición de Cholesky
simétrica y definida positiva, este resultado se
aplicará a la matriz de covarianzas de las
variables aleatorias, para luego generar el
vector aleatorio con distribución normal
multivariada.

Mostraremos que la descomposición de


Cholesky genera vectores aleatorios con
distribución normal multivariada, utilizando
métodos gráficos y las pruebas de hipótesis
propuestas por Mardia (1970).

MATERIAL Y METODOS
El método de Box Muller (1958), es más
apropiado para generar variables normales
estándar e independientes (Z). Este método
utiliza la transformación polar, partiendo de
variables con distribución uniforme para luego
generar la variable Z; el algoritmo es el Esta matriz obtenida se multiplicara al vector
siguiente: de variables aleatorias estándar Z, al que se le
sumara el vector de medias, generando así el
nuevo vector aleatorio con la distribución
normal multivariada.
1
Alumno de la Especialidad de Estadística de la Universidad Nacional Mayor de San Marcos
2
Mag. en Estadística, Catedrática de la Facultad de Ciencias Matemáticas de la Universidad Nacional Mayor de San Marcos
Universidad Nacional Mayor de San Marcos
X = MU + Z * Lt
con MU vector de medias.
donde SIGMA = Z * Lt

⇒X~ Np (MU, SIGMA)

Los métodos que se utilizaron para probar si el


vector tiene distribución normal multivariada
son el gráfico “Gamaplot” y las pruebas de
hipótesis propuesta por Mardia. La segunda prueba de hipótesis es:

El “Gamaplot” es un gráfico de dispersión, que Ho: La distribución del vector aleatorio


requiere calcular las distancias de Mahalanobis generado es mesocúrtica.
de X, ordenarlas en forma ascendente y
1 n 2  8 p( p + 2) 
calcular los percentiles chicuadrado con p Kp = ∑ dij , K p ~ N  p( p + 2) ; 
grados libertad (p número de variables del n i =1  n 
K p − p( p + 2 )
vector).
K *p = ~ N(0,1)
Sólo en el caso de que los valores se concentran 8 p( p + 2 )
en torno a una línea recta se puede decir que el
vector tiene distribución normal multivariada.
n
Rechazamos la hipótesis nula con un nivel de
Algoritmo del grafico “Gamaplot” significación α si:
K *p > zα / 2 o K *p < − zα / 2
El algoritmo en Matlab para la prueba de
hipótesis en este caso es la siguiente:

Mardia propone realizar dos pruebas de


hipótesis:

Ho: La distribución del vector aleatorio


generado es simétrica.
1 n n Ap 1
Ap =
n2
∑∑ d
i =1 j =1
3
ij ∴n
6
 χ 2f , f = p ( p + 1)( p + 2)
6 Sí las dos hipótesis no son rechazadas, podemos
1 n n Ap 1 afirmar que los datos tienen distribución normal
Ap = 2
n
∑∑
i =1 j =1
d 3
ij ∴n
6
: χ , f = p (multivariada.
2
f
6
p + 1)( p + 2)

dij = ( xi − x )' S −1 ( x j − x )  i = j = 1, 2,...n La potencia del test es adecuada si el tamaño de


muestra es muy grande.
Rechazamos la hipótesis nula con un nivel de En situaciones en que se rechaza la hipótesis de
significación α si normalidad multivariada, se debe a la presencia
Ap de datos atípicos, a pesar que las distribuciones
n > χ 2f
6 marginales son aproximadamente simétricas y
El algoritmo en Matlab para la prueba de las relaciones entre las variables lineales.
hipótesis de simetría de la distribución es la
siguiente: Este proceso se realizará con el apoyo del
software MATLAB, repitiendo varias veces la
Universidad Nacional Mayor de San Marcos
simulación del vector con diferentes tamaños de Los gráficos “Gamaplot” se utilizan cuando las
Muestra. variables del vector aleatorio son mayores a
tres.
El programa tiene con parámetros de ingreso el
tamaño de muestra, el número de variables del En las simulaciones realizadas con más de tres
vector, la media o vector de medias variables encontramos que al trazar el gráfico
poblacional. “Gamaplot” se observa que la distribución del
vector es normal multivariada.
RESULTADOS
Para tamaños de muestra, mayores a 100 y
Con las primeras simulaciones observamos que menores de 500 se tiende a rechazar la hipótesis
para un tamaño de muestra 100 y una variable de que el vector tiene distribución mesocurtica,
generada con media cero la distribución se esto también se observa cuando el vector de
asemeja a la distribución normal estándar. medias es diferente de cero.
Luego de varias simulaciones encontramos que Para un tamaño de muestra 1000 y cinco
para un tamaño de muestra mayor a 1500 la variables con vector de medas ceros, el gráfico
distribución de la variable es normal estándar. “Gamaplot” es el siguiente.
25
Distribución Normal de las variables generadas
400

20
350

300
15
250

200
10
150

100 5
data 1
50    linear

0 0
­3 ­2 ­1 0 1 2 3 4 0 5 10 15 20 25

A un mayor tamaño de muestra los puntos en el


Con las simulaciones realizadas probamos que grafico tienden más a una recta.
el método de Box Muller genera variables con
distribución normal para tamaños de muestra Los resultados de las pruebas de hipótesis son
grandes. las siguientes:

Cuando generamos tres variables observamos pch = 49.8018


que para un tamaño de muestra grande se tiene EAp = 31.2161
lijeras colas en la distribución pero con las Indica que la distribución multivariada del
pruebas de hipótesis la distribución del vector vector generado es simétrica
es normal multivariada.
EKp = 0.1873
Grafico de tres v.a con ~ N(u,sigma) utilizando descomp. de cholesky z = 1.9600
Indica que la distribución multivariada del
4
vector generado es mesocúrtica.
2
DISCUSIÓN
0

­2 Los tamaños de muestra y el número de


variables que se considera son importantes para
­4
5 determinan si la distribución del vector
4
0
0
2 aleatorio generado tiene distribución normal
­5 ­4
­2 multivariada.
Universidad Nacional Mayor de San Marcos
Pero cuando los tamaños de muestra son En general la generación de vectores aleatorios
grandes el vector formado por variables con distribución p-variada, utilizando la
aleatorias normales estándar tiene distribución descomposición de Cholesky, proporciona
conjunta normal multivariada, solo en algunos efectivamente un vector con distribución
casos no se cumple que la distribución es normal p-variada o multivariante.
mesocúrtica, pero esto se hace menos probable
cuando el tamaño de muestra aumenta.

REFERENCIAS BIBLIOGRAFICAS

1.-MARDIA K.V., KENT J.T. AND BIBBY J.M..1979. Multivariate Analysis. Academic Press, Inc.
London.
2.- PEÑA DANIEL, 2002. Análisis de Datos Multivariados. McGRAW-HILL/ Interamericana de
España.
3.-RÍOS INSUA, DAVID y RÍOS INSUA, SIXTO. 2000. Simulación Métodos y
Aplicaciones. Alfaomega. México.
4.- SHELDON M. ROSS. 1999. Simulación. Prentice Hall. México.
Julio_fire1221@hotmail.com
mepaunmsm@yahoo.es

Você também pode gostar