Econometría - Modelo de Regresión No Lineal - Arch-Garch.

ECONOMETRA: MODELO DE REGRESIN NO LINEAL- ARCH-GARCH.
San Antonio de Los Altos 30 de julio de 2007

Autor: Andrs E Reyes Polanco1.
El autor se reserva todos los derechos de reproduccin total o parcial de su obra
por cualquier medio
Esta monografa est organizada de la siguiente forma: la primera parte se

introduce la importancia del tema, la segunda parte se define lo que es un modelo
no lineal, tanto los modelos de serie de tiempo como los modelos causales
uniecuacionales de regresin no lineal; la III se refiere a conocimientos previos de
los mtodos de estimacin no lineales tales como la expansin de Taylor, mnimos
cuadrados no lineales y mxima verosimilitud indicando, las propiedades de cada
uno de los estimadores obtenidos por cada mtodo, el problema de
parametrizacin y la transformacin de Box-Cox. En el siguiente punto, el IV se
plantea los contrastes: con restricciones lineales y no lineales: Wald, mxima
verosimilitud, y l de los multiplicadores de Lagrange. El punto V se plantean
varios test de no linealidad en los modelos causales. La VI parte trata del modelo
ARCH y GARCH los mtodos de estimacin y contraste de hiptesis, los modelos
relacionados con ellos, tales como: TARCH, INGARCH, se estudia la prueba para
detectar no linealidad: el test BDS. Al final hay un anexo del uso del SPSS para
resolver algunos problemas de estimacin no lineal planteados en esta monografa.
Palabras claves: regresin no lineal, expansin de Taylor, mnimos cuadrados no

lineales, mxima verosimilitud, contrastes restringidos, contraste de no linealidad,
serie de tiempo no lineal: ARCH, GARCH-TARCH- INGARCH. Exponente de
Liapunov BDS.
INTRODUCCIN.
Como seala Lachtermacher et al 2 en la practica los modelos del tipo lineal en serie de
tiempo tales como ARIMA(p,d,q) o los modelos causales de regresin lineal, no
siempre resultan los ms adecuados para analizar y predecir acuradamente un proceso
real. Por tal motivo se han propuestos modelos no lineales con la consecuencia de
desarrollar mtodos de estimacin apropiados para estos casos as como los test que
permitan validar los resultados. La justificacin de estos desarrollos obedece a varias
razones: una de ella es que hay un gran nmero de fenmenos que por su naturaleza son
altamente voltiles en el tiempo, tanto en el campo econmico financiero como en otros
campos como la epidemiologa, las telecomunicaciones, el mercado energtico, otra
razn es que las relaciones entre un fenmeno y los otros que se toman como
explicativos se ha observado que estas relaciones son ms que proporcionales, es decir,
no lineales.
Las relaciones entre los diferentes actores de la economa, donde cada uno afecta el
comportamiento del otro desdibujan la posibilidad del empleo de modelos
1
Profesor Asociado UCV.

Lachtermacher et al ( ) Backpropagation in Time Series Forecasting-Journal of Forescasting-Vol 14 pag
338-393
uniecuacionales y multiecuacionales lineales para explicar y predecir la evolucin de las

variables microeconmicas y macroeconmicas en el tiempo, de ah el inters cada vez
ms marcado en los modelos de regresin y de serie de tiempo no lineal que estn
incluido en los nuevos textos de econometra como Greene; W (1999), Gugarati; D
(2006), Pindych; R y Rubinfeld; D (2001). En esta monografa nos avocaremos al
estudio de este tipo de modelos no lineales tanto en regresin como en las series de
tiempo, concretamente los dos ms familiares: el modelo ARCH y el GARCH y algunas
de sus variantes.
II.-MODELOS NO LINEALES.
Un modelo no lineal clsico en econometra es el modelo generalizado del consumo en
funcin de la renta dado por:
Ct = + Pt + t
Donde Ct es el consumo en el perodo t , Pt es el producto interno bruto en ese mismo
perodo, t es la perturbacin aleatoria en el perodo t que se asume con distribucin
normal no necesariamente homoscedstica. Los parmetros son: , y , como puede
observarse este ltimo parmetro es un exponente.
Otro modelo no lineal es la generalizacin de la funcin de produccin de CobbDouglas propuesto por Zellner et al (1970):
ln Yt + PYt = ln + (1 )Ct + ln Tt + t .
Donde Yt , Ct , Tt son respectivamente, la produccin, el factor capital y el factor trabajo
en el perodo t ; , , son los parmetros a estimar y finalmente t es la perturbacin
aleatoria en el perodo t que se asume con distribucin normal N (0, 2 ) .

En serie de tiempo tenemos como un ejemplo de modelo no lineal sin trmino de
promedio mvil l propuesto por Byers el al (1995):
p
Yt = + jYt j + jk Yt j t k + t (1)
j =1
j =1 k =1
Este modelo se conoce como bilineal sin trmino de promedio mvil en donde {Yt } y
{ t } son sucesiones de variables aleatorias, , j y jk son parmetros que deben ser
estimados.
Este modelo tiene una parte lineal autoregresiva de orden p
p
+ j Yt j + t y una parte no lineal

j =1
representada por
jk Yt j t k , si jk = 0
j =1 k =1
( j , k ) entonces
estaramos en presencia de un AR( p) . Si la serie de tiempo es hetoroscedstica

condicional, es decir con varianza condicional de las perturbaciones diferentes en el
tiempo, entonces estos autores mencionan que tal modelo es inapropiado su aplicacin
directa. Kuldeep Kumar (1986) propuso un modelo ms simplificado que el anterior
dado por:
Yt =
jk Yt j t k + t
j =1 k =1
(2)
Si
jk = 0
j > k el modelo se llama superdiagonal, si jk = 0 j < k el modelo se llama
subdiagonal y si
jk = 0
j k el modelo se llama diagonal. Un caso particular del
modelo dado en (2) es:

Ytt = Yt j t k + t
Empleando este modelo, el mtodo de Monte Carlo y utilizando el momento de tercer

orden logra distinguir entre un modelo bilineal y un AR , MA o ARMA y de forma
similar si se trata de un modelo bilineal diagonal o no.
En estos tipos de modelos como los descritos surgen tres problemas fundamentales a la
hora de conocer si la serie proviene de un proceso no lineal.
1. Poseer alguna medida, cuya valoracin nos de una condicin necesaria de la
presencia de no linealidad tanto en modelos causales como los de serie de
tiempo.
2. Estimar los parmetros asociados al modelo no lineal especificado.
3. Tener una medida de bondad de ajuste del modelo a los datos empricos.
Para el primer caso hay varias propuestas que dan condiciones necesarias del
comportamiento no lineal de series temporales, entre ellos estn: el estadstico de Brock,
Dechert y Scheinkman BDS, el exponente de Lyapunov, multiplicadores de Lagrange
(LM) y finalmente el RBF. El problema que se presenta es la cantidad de datos
requeridos para aplicar alguna de estas tcnicas. Un ejemplo de aplicacin de un caso
real del estadstico BDS est en el artculo ya citado de Byers et al (1995), un
desarrollo del empleo del exponente de Lyapunov se encuentra en Cline; D.B.H (2006),
el empleo de los multiplicadores de Lagrange se encuentra por ejemplo en Medeiros;
M.C et al (2003) y finalmente el uso de test construidos con redes neuronales (RBF)
Blake; A.P et al (2003). Los test DBS y exponente de Lyapunov se puede aplicar a la
serie de tiempo observada sin hacer referencia a un modelo particular, por tanto puede
ser una buena estrategia determinar primero si la serie en cuestin responde a un
proceso no lineal, bien sea estocstico o deterministico. En el caso de modelos causales
estn los trabajos de MacKinnon et al( 1983) y ms recientemente los de Schimek, M
(2000) y Samorov, A et al (2006).
El segundo problema de estimacin, hay en forma general los siguientes mtodos:
linealizacin del modelo empleando la expansin de Taylor, mnimos cuadrados no
lineales, mximo verosimilitud o el mtodo generalizado de los momentos. Estos
mtodos son aplicados por igual a modelos de regresin no lineal como los de serie de
tiempo. Un mtodo es preferido a otro tomando en cuenta las propiedades asintticas de
los estimadores obtenidos y las facilidades computacionales que presentan.
Finalmente, entre las medidas de bondad de ajusten estn el coeficiente de
determinacin que en el caso de regresin no lineal hay que interpretarlo de una forma
diferente que cuando se emplea en el modelo lineal. Adicionalmente los diferentes test
que permiten validar el modelo propuestos. Cuando hay restricciones en los parmetros,
bien sean estas lineales o no, estn entre otras, las pruebas o contrastes de Wald, la
razn de verosimilitud y los multiplicadores de Lagrange.
III.-MTODOS DE ESTIMACIN NO LINEAL.

En este punto, veremos tres mtodos de estimacin aplicados a la regresin no lineal y
posteriormente a las series temporales: el mtodo de expansin de Taylor, mnimos
cuadrados no lineales y finalmente el mtodo de mxima verosimilitud. En la
bibliografa especializada de econometra se encuentran adems de estos mtodos: el
mtodo de los mnimos cuadrados no lineales en dos etapas, empleo de variables
instrumentales no lineales y redes neuronales, este ltimo aplicado a las series de
tiempo.
Ejemplo 1:
Consideremos dos pares de modelos de regresin no lineales:
p
a)
Y = 0 X ii e
i
b) Y = 0 X i +
i =1
i =1
Y =e
a1)
0 +
i X i +
i =1
b1)
Y =e
0 +
i X i
i =1
En donde Y es una variable aleatoria observable endgena, X i son p variables

exgenas, 0 , 1 ,... p son los parmetros a estimar es una variable aleatoria,
generalmente se asume que tiene una distribucin normal.
Los modelos de regresin no lineales: a) y a1) son linealizable mediante una
transformacin logaritmica directa, esto es son intrnsecamente lineales, en efecto al
tomar logaritmo neperiano en ambos modelos se obtiene:
p
a) ln Y = ln 0 + i ln X i +
i =1
a1) ln Y = 0 + i X i +
i =1
Al aplicar los mnimos cuadrados las ecuaciones normales obtenidas son lineales en los
parmetros.
No as los modelos b) y b1) pero se pueden linealizar mediante el empleo de la
expansin de Taylor.3 Si en estos modelos se aplica los mnimos cuadrados ordinarios,
las ecuaciones normales son no lineales en los parmetros.
Sea
f : Rn R una funcin doblemente diferenciable en un punto
X , esto es : existen el vector
gradiente f ( X ) y la matriz Hessiana H ( X ) y una funcin : R n R , entonces f (.) puede

expresarse como:
f ( X ) = f ( X ) + f ( X )T ( X X ) +
Lim ( X ; X X ) 0
1
( X X ) T H ( X )( X X ) + X X
2
(X ; X X )
( f (.)T = (f / x1 , f / x2 ...f / xn ); H (.) = 2 f / xi x j )
X X
IIIa.- Expansin de Taylor:

Para resolver estos problemas, en donde no se puede linealizar directamente la ecuacin
de regresin mediante una transformacin, podemos emplear la expansin de Taylor
dada como:
o
Yi f ( X i ; ) + i = f ( X i ; ) + f ( X i ; ) T ( ) + i
Donde X i = ( xi 0 , xi1 , xi 2 , xi 3 ...xip ) es el vector asociado a la observacin i-sima y

= ( 0 , 1 , 2 ... p ) es el vector de parmetros, perteneciente al espacio paramtrico
p + 1 dimensional , f ( X i ; ) es una funcin continua doblemente diferenciable en ,
entonces:
f ( X i ; )T = (f ( xi 0 ; ) / 0 , f ( xi1 ; ) / 1.f ( xi 2 ; ) / 2 .....f ( xip ; ) / P ) ; i = 1,2.....n
Luego podemos escribir Yi = f ( X i ; ) + i , empleando la expansin de Taylor como:
o
Yi f ( X i ; ) + f ( X i ; ) / j ( j j ) + i (3)
j =1
Donde es un valor inicial del vector de parmetros, si despejamos y agrupamos

convenientemente obtenemos lo siguiente:
o
Yi f ( X i ; ) + j f ( X i ; ) / j j f ( X i ; ) / j + i (4)
j =1
j =1
Las derivadas evaluadas en para cada observacin la denotamos como Z o ij , esto es:
o
f ( X i ; )/ j = Z o ij ; j = 0,1,2... p; i = 1,2...n
Y f ( X i ; )/ j = Z ij ; j = 0,1,2... p; i = 1,2...n
El miembro derecho de la ecuacin (4) lo denotamos por Yi 0 :
o
Yi f ( X i ; ) + j f ( X i ; ) / j Yi f ( X i ; ) + Z io = Yi 0
j =1
El miembro izquierdo lo expresamos como: j f ( X i ; ) / j + i = j Z ij +

j =1
j =1
Ahora, podemos escribir la ecuacin (3) como:

p
Yi 0 = j Z ij + i
j =1
En notacin matricial es:

Y = Z +
A partir de aqu podemos aplicar cualquier criterio norma L p , por ejemplo los mnimos
cuadrados ordinarios:
Min
(5)
Y Z
p=2
Entonces, obtenemos como estimador mnimo cuadrtico dado el valor inicial , lo que
sigue:
= ( Z T Z ) 1 Z T Y (6)
La pregunta obligada es cul valor inicial? La repuesta est en la nota4
Si se asume que es normal N (0, 2 I ) y si existe la matriz inversa ( Z T Z ) 1 y el

estimador de 2 est dado por:
*2 = *T . * /( n p ) donde * = Y Z
p = p + 1 , entonces el estimador converge

d
asintticamente5 a la distribucin normal N ( , *2 ( Z T Z ) 1 )

Ejemplo 2:
Consideremos el modelo: Yi = f ( X i ; ) + i ; Yi = e X i + i ; i = 1,2...n y consideremos unos
o
valores iniciales de los parmetros: y y evaluamos la funcin y sus derivadas en

estos valores:
o
f ( X i ; , ) = e x
f ( X i , , ) / = e X i
f ( X i , , ) / = X i e X i
o
Evaluamos ahora los componentes de la suma: j f ( X i ; ) / j dados como:

j =1
o
X i
f ( X i , , ) / = e
f ( X i , , ) / = X i e X i
Con estos resultados podemos obtener:
p
Yi f ( X i ; ) + j f ( X i ; ) / j Yi f ( X i ; ) + Z io = Yi 0
j =1
Que en nuestro ejemplo es:

o
Yi e x + X i e X i + X i e X i = Y 0
o
Ahora considerando f ( X i , , ) / = e X i y f ( X i , , ) / = X i e X i
entonces obtenemos:
4
El primer valor inicial nos dar una primera estimacin de los parmetros al resolver el problema (6),
este valor lo empleamos como nuevo valor inicial y resolvemos nuevamente el problema (6) y as
sucesivamente hasta que se estabilicen los estimadores. Esto se puede expresar como sigue: Sea j
estimador logrado en la iteracin (K) y j
( K +1)
( K )
el
el obtenido en el paso (K+1), el proceso termina si para
un 0 , suficientemente pequeo:
( K +1)
j
( K )
)/
( K )
j
< para j = 1,2... p .
Consideremos una sucesin de variables aleatorias
{X } ,
n
con la misma funcin de distribucin
F X n ( x ; 1 , 2 ... k ) para toda variable aleatoria de la sucesin y, una variable aleatoria X con
distribucin FX ( x;1 , 2 ... k ) , si la sucesin {X n } converge en probabilidad a X entonces, la sucesin

de
funciones
de
distribuciones
: FX n ( x;1 , 2 ... k ) converge
la
funcin
de
distribucin FX ( x;1 , 2 ... k ) , esta ltima se llama distribucin lmite y se escribe:
lim FXn (x;1 , 2 .. k ) = F ( x,1 , 2 .. k )

n
j f ( X i ; ) / j = e X i + X i e X i
j =1
Al considerar la ecuacin:
o
Yi f ( X i ; ) + j f ( X i ; ) / j j f ( X i ; ) / j
j =1
j =1
Finalmente obtenemos:
o
Yi e x + X i e X i + X i e X i = e X i + X i e X i
La ecuacin linealizada es:

Yi 0 Z io1 + Z io2 + .
Partiendo de esta ltima ecuacin aplicamos los mnimos cuadrados ordinarios para
obtener los estimadores de los parmetros: , .
IIIb.- Mnimos cuadrados no lineales MCNL:

Consideremos el modelo general Y = f ( X ; ) + donde f ( X ; ) es no lineal en los
parmetros y es un vector de variables aleatorias independientes e idnticamente
distribuidas. El problema es encontrar los estimadores de los parmetros tal que
minimicen a:
Y f (X ; )
p= 2
= (Yi f ( X i ; )) 2 = S ( )
i =1
Tomando derivadas parciales respecto a los parmetros obtenemos:

n
S ( ) / = 2 (Yi f ( X i ; ))f ( X i ; ) /
(5)
i =1
O escrito de otra forma:

n
S ( ) / j = 2 (Yi f ( X i ; ))f ( X i ; ) / j
j = 1,2,3... p
i =1
Las derivadas quedarn como funciones no lineales en los parmetros, por lo que habr
que emplear los algoritmos de optimizacin no lineal para resolver las ecuaciones
normales resultantes.
Igualando la ecuacin dada en 5) al vector nulo, obtenemos las siguientes ecuaciones
normales:
n
(Yi
i =1
f ( X i ; ))f ( X i ; ) / = 0 p +1
i =1
i =1
Yi f ( X i ; ) / = f ( X i ; ))f ( X i ; ) /
Que en notacin matricial es:
[f ( X , ) / ]T Y = [f ( X , ) / ]T f ( X ; ) (6)
Ahora, hacemos [ f ( X , ) / ] = X T ; f ( X ; ) = X * . Entonces la ecuacin (6) se

puede escribir en notacin matricial como:
X T Y = X T X *
T
El problema fundamental es que tanto [ f ( X , ) / ] ; como f ( X ; ) no son

generalmente lineales en * y por tanto la solucin de las ecuaciones normales rara vez
T
se puede obtener de forma directa, entonces se requiere de algoritmos6 eficientes en

termino de convergencia entre los que se encuentran lo que genricamente se llaman
mtodos de direcciones factibles, el mtodo de Newton-Raphson y otros7
Ejemplo 3:
n
(Yi e X i ) 2 ; j = 1,2
Yi = e X i + i ; i = 1,2...n
i =1
S ( , ) / = 2 (Yi e X i )e X i
i =1
S ( , ) / = 2 (Yi e X i ) X i e X i
i =1
2 (Yi e X i )e X i = 0
i =1
n
2 (Yi e X i ) X i e X i = 0
i =1
Puede observarse con este ejemplo que las ecuaciones son no lineales y no tienen
solucin inmediata.
Un procedimiento para resolver las ecuaciones normales anteriores es, si se cuenta con
un valor inicial 0 = t* , es el siguiente:
1
n
n
t*+1 = X i0 X i0T X i0 (Yi 0 f i 0 + X i0T t* )
i =1
i =1
*
t +1
n
n
= + X i0 X i0T X i0 (Yi 0 f i 0 )
i =1
i =1
*
t
t*+1 = t + ( X 0T X 0 ) 1 X 0T e 0
El procedimiento termina cuando X 0T e 0 est prximo a cero. Green, W (1999)
Un algoritmo es un procedimiento que consiste en generar de forma iterativa un conjunto de valores de

acuerdo a ciertas reglas establecidas, mediante el cual se obtiene una solucin que puede ser nica o no.
7
Ver Bazaraa y Shetty (1979) Nonlinear Programming, John Wiley and Sons-pg 361-434. Avriel (2003)
Nonlinear Programming, Dover. Pg. 216 y siguientes. Uno de los algoritmos ms empleados de NewtonRaphson que consiste en lo siguiente: Supongamos que deseamos obtener el mnimo de la funcin dada
por f (x) la cual es continua y doblemente diferenciable y supongamos que poseemos un valor inicial
X n* , entonces:
1
( X X n ) T H ( X n )( X X n ) = G ( X )
2
Usando la primera condicin de existencia de un punto extremo :
f ( X ) f ( X n ) + f ( X n )T ( X X n ) +
G ( X ) / X = f ( X n ) T + H ( X n )( X X n ) = 0 n
. Entonces, definimos un nuevo valor:
X n +1 = X n H ( X n ) 1 f ( X ) Este algoritmo es til cuando la funcin es no cuadrtica, de serla se

obtendr la solucin en la primera iteracin. El algoritmo termina cuando se considere que la solucin se
ha estabilizado, tal como lo indicamos en la nota 4.
IIIb.1.-Propiedades de los estimadote MCNL.

1.-El estimador MCNL: * en general es una funcin no lineal del vector de
observaciones Y por tanto, y lo ser tambin del vector de perturbaciones .
2.-Como consecuencia de lo anterior, no siempre el estimador MCNL es insesgado.
T
3.- [f ( X , ) / ] * = 0 , donde * = Y f ( X ; * ) .
4.-Como el problema de optimizacin es no lineal, no se puede garantizar que la
solucin obtenida como estimador, sea nica.
5.-Para estudiar la distribucin asinttica de * , consideramos el concepto de
convergencia en probabilidad8. Como indicamos anteriormente: [ f ( X , ) / ] = X ,
f ( X 1 , * ) / 0 f ( X 1 , * ) / 1 . . f ( X 1 , * ) / p
*
*
*
f ( X 2 , ) / 0 f ( X 2 , ) / 1 . . f ( X 2 , ) / p
.
.
. .
.
esto es: X =
f ( X , ) /
0
n
*
. . f ( X n , ) / p
. .
f ( X n , * ) / 1
Entonces si:
T
1
P lim X T X = P lim f ( X i ; ) / f ( X i ; ) / = Q0
n
n n

i =1

Donde Q0 es una matriz positiva definida, esto es: Q0 X T Q0 X > 0

n
Y adems, se verifica:
1
1 n
Xi i = 0 y
n n i =1
n
P lim
X i i N (0 n , 2 Q01 )
i =1
Entonces:
N ( ,
2
n
Q01 )
Ejemplo 4.
Consideremos el siguiente modelo: Yt = e X t + t y supongamos que se ha obtenido el
ajuste por mnimos cuadrados no lineales: Yt = e X t ; para obtener el estimador de la

matriz de varianza covarianza de los estimadores procedemos de la siguiente forma:
calculamos las correspondientes derivadas parciales: Yt / = e X t ; Yt / = e X t y

con ellas definimos el vector gradiente y su transpuesta:
X t

e

f ( , ) = ; f ( , )T = e X t
X
t
e
e Xt
Una sucesin de variables aleatorias n converge en probabilidad a una constante c si para cualquier
> 0 se verifica que: lim P( n c < ) = 1 . Esto quiere decir, que a partir de n > N
n
el suceso
c < , es un suceso seguro. Esto se escribe como: P lim n = c .

n
Con ellos obtenemos la matriz Q0 .El estimador de la matriz de varianza covarianza es:
1
n 2 X t
e
2 n

2
T
f ( , ) f ( , ) = tn=1
X t e 2 X t
t =1
t =1
X t e2 Xt
t =1
2 2 Xt
X
e
t
t =1
n
Donde: t*2 = t*2 / n y t = Yt Y t

t =1
III.c.- Mxima verosimilitud.

Consideremos que se tiene una muestra de n variables aleatorias independientes e
idnticamente distribuidas: X 1 , X 2 ,... X n proveniente de una poblacin con funcin de
distribucin: FX ( x;1 , 2 ... k ) Entonces, la funcin de densidad conjunta se expresa
como:
n
fX1,X 2,...Xn(x1, x2,...xn;1,....k ) = f Xi(xi ;1,2...k )

i=1
Tomando logaritmo neperiano, obtenemos la funcin log-verosimilitud:

n
Lnf X 1, X 2,... Xn ( x1 , x 2 ,...x n ;1 ,.... k ) = Ln f Xi ( xi ;1 , 2 ... k )

i =1
Considerando la condicin necesaria para la existencia de un punto extremo, obtenemos

los estimadores:
n
Lnf X 1, X 2 ,... Xn ( x1 , x2 ,...xn ; *1 ,.... * k ) / j = Ln f Xi ( xi ; *1 , * 2 ... * k ) / j = 0; j = 1,2..k

i =1
Encontremos el estimador mximo verosmil de vector de parmetro y 2 del

modelo: Yi = f ( X i ; ) + asumiendo que el vector de perturbaciones aleatorias se
D
distribuye como N (0, 2 I n:n ) . Entonces, Yi tiene una distribucin N ( f ( X i ; ); 2 )

Consideremos bajo el supuesto de normalidad la funcin de densidad marginal de cada
Yi dada por:
g Yi (Yi ; , ) =
(Yi f ( X i ; )2
exp
2
2
2
1
Luego la funcin de verosimilitud es:

n
g
i =1
(Yi ; ; ) = (
Yi
1
) n exp
2
2
2
1
(Yi
n
i =1
2
f (Xi; )
La funcin de log-verosimilitud es:

n
Ln g (Yi ; ; ) = Ln(
i =1
Yi
1
)n +
2
2
2
2
1
(Yi
n
i =1
2
f (Xi; )
Consideramos ahora las condiciones necesarias para la existencia de un punto extremo,

entonces obtendremos los estimadores de y 2 :
n
n
1
2
Ln g (Yi ; ; * ) / =
(Yi f ( X i ; * ) / = 0 p +1 (1)
2
i =1
Yi
2 i =1
Ln g ( xi ; ; ) / 2 = [ Ln(
i =1
Yi
1
) n +
2
2
2
1
(Yi
n
i =1
2
f ( X i ; ) ] / 2 = 0 (2)
10
El primer conjunto de ecuaciones est formado por p + 1 ecuaciones generalmente no

lineales, por tanto se emplear las mismas tcnicas que se emplean para los MCNL, de
la ecuacin (2) se obtiene el estimador de 2 una vez obtenido el del vector y este es:
2
2 = Yi f ( X i , / n
*
i =1
Ejemplo 5.
Veremos como ejemplo la estimacin de los parmetros de modelo logit. La variable
aleatoria discreta Yi tiene una ley de probabilidad de Bernoulli con probabilidad: Pi y Q1
tal que Pi = P (Yi = 1) = exp X i /(1 + exp X i ) y Qi = P(Yi = 0) = 1 /(1 + exp X i ) , i = 1,2...n
donde se tiene p regresores que explican el comportamiento de Yi , por tanto:
X i = (1, X i1 , X i 2 , X i 3 ,.. X ip ) y = ( 0 , 1 , 2 ,... p )T se desea estimar tanto Pi como . Se
toma una muestra de tamao n y definimos la funcin de verosimilitud como:
n
L(Y ; Pi ) = Pi Yi (1 Pi )1Yi
i =1
Tomando logaritmo neperiano obtenemos:

n
i =1
i =1
i =1
i =1
LnL = Yi LnPi + (1 Yi ) Ln(1 Pi )
LnL = Yi LnPi Yi Ln(1 Pi ) + Ln(1 Pi ) Agrupando convenientemente tenemos:

i =1
LnL = Yi Ln[Pi /(1 Pi )] + Ln(1 Pi ) (1)

n
i =1
i =1
Considerando que: Qi = 1 Pi = 1 /(1 + exp X i ) y Ln[Pi /(1 Pi )] = X i sustituyendo en (1)

obtenemos:
n
i =1
i =1
LnL = Yi X i Ln(1 + exp X i )
Para obtener el estimador de usamos la condicin necesaria para tener un punto

extremo:
LnL / = ( Yi X i ) / ( Ln(1 + exp X i )) / = 0 p +1

i =1
i =1
i =1
i =1
LnL / j = Yi X ij X ij exp X i /(1 + exp X i ) = 0; j = 0,1,2... p
Este problema hay que resolverlo mediante el mtodo de Newton, una vez obtenido el
resultado se estima:
P i = exp X i /(1 + exp X i ); i = 1,2...n .
IIIc1.-Propiedades.
Las propiedades generales de los estimadores de mxima verosimilitud son:
*
} y sea el
1.- Dado una sucesin de estimadores de mxima verosimilitud { MV
parmetro a estimar de una poblacin con funcin de distribucin: G X ( X ; ) entonces:
}= . Esto quiere decir, que el estimador MV es consistente.

P lim{ MV
n
11
2.-Invarianza. El estimador de mxima verosimilitud es invariante respecto a una
transformacin, esto es: dado el parmetro y una transformacin ( ) , si MV

es el
*
estimador de , entonces ( Mv ) lo es de ( ) .
{ }
3.- La distribucin de
*
MV
tiende asintticamente a una distribucin normal:
]9
N ( ; [I ( )] ) donde I ( ) = E ( 2 ln L / T ) = E ( ln L / )( ln L / ) T . Se puede
1
demostrar que la matriz de varianza covarianza del estimador de mxima verosimilitud

es la dada.10
4.-El estimador de mxima verosimilitud es un estimador eficiente y alcanza la cota de
Cramer Rao11 bajo ciertos supuestos (ver nota 10): VAR( ) [I ( )]1 si E ( ) = y en
general VAR( ) E ( ) / [I ( )]1
Ejemplo 6.
Consideremos el mismo modelo del ejemplo 4: Yt = e X t + t y supongamos que el
ajuste se obtuvo mediante el mtodo de mxima verosimilitud: Yt = e X t . Para obtener

la estimacin de la matriz de varianza covarianza debemos partir de la funcin de
verosimilitud siguiente:
1
L=
2
2
n/2
2
1 n
(Yi e X i )
exp
2
2 i =1
La funcin log-verosimilitud es:

2
1 n
n
n
(Yi e X i )
LnL = ln 2 ln 2 +
2
2
2
2 i=1
* *
Obtengamos las segundas derivadas evaluadas en: , , *2
2 LnL / 2 =
e
i =1
2 X i
*2
2 LnL / 2 =
*2
2 2 X i
i
2 X e
i =1
LnL / =
*2
X i e 2 X i
i =1
Esto es: VAR( ln L / ) = I ( ) 1 Un estimador de [I ( )] es
[I
*
( MV
)
*
*
*T
= 2 ln L( MV
) / MV
MV
(ver Greene. W, Theil .H).
10
Demostracin que: VAR( ln L / ) = I ( ) . Partimos de los siguientes supuestos generales:
1.-El rango de las variables aleatoria Yi , no depende del vector de parmetro . 2.-La funcin de
densidad g Y (.; ) posee derivadas de al menos de tercer orden con respecto a y estn acotadas.
Entonces se verifica que
{(
(LnL
/ )L* dx = 0 p +1 . Diferenciando esta ecuacin obtenemos:
LnL* / ) L* + (LnL* / )(LnL* / ) T L* }dx = 0 p +1 . De aqu se obtiene que:
VAR(LnL* / ) = 2 LnL* / L* dx = E 2 LnL* / .(Dhrymes, P; Theil., H; Greene,

S
W)
11
Ver Theil (1971) pag:385-387
12
2 LnL / *2 = 0 ; 2 LnL / *2 = 0 ; 2 LnL / ( *2 ) 2 =
n
2 *4
Luego la estimacin de la
matriz de varianza covarianza de los estimadores de mxima verosimilitud es:

n 2 *X
e i
* in=1
*
X e 2 X i
i
i =1
1
I ( , , *2 ) = *2

X i e2 Xi
i =1
2 X i2 e 2 X i
0
*2
0
n
IIId. - Parametrizacin,
Ahora veremos la aplicacin del mtodo de mxima verosimilitud aplicado al problema
de la parametrizacin de la variable dependiente en un modelo no lineal. Esta supone un
cambio de variable12. Veamos la funcin de produccin propuesto por Zellner et al
(1970) y visto en la pgina 2:
ln Yt + Yt = ln + (1 )Ct + ln Tt + t Esta funcin puede escribirse como la suma:
g (Yi ; ) = f ( X i ; ) + i
Donde: LnYi + Yi = g (Yi ; ) y f ( X i ; , , ) = Ln + (1 ) LnC i + LnTi
La funcin de densidad de Yi asumiendo que las perturbaciones aleatorias i se
distribuyen segn una normal es:

f Y ( y i , g (.), f (.)) = g (Yi , ) / Yi (2 2 ) 1 / 2 exp
1
2
[( g (Yi , ) f ( X i , , , )]2
La funcin de verosimilitud es:

n
i =1
i =1
L = f Y ( yi , g (.), f (.)) = { g (Yi , ) / Yi ( 2 2 ) 1 / 2 exp
1
[g (Yi , ) f ( X i , , , )]2 }
2 2

n
LnL = ln f Y ( y i , g (.), f (.)) = ln g (Yi , ) / Yi + ln( 2 2 ) n / 2

i =1
12
i =1
[g (Yi , )
2 i =1
n
f ( X i , , , )]
El cambio de variable consiste en el siguiente problema: Supongamos que tenemos dos variables
aleatorias:
(X1, X 2 )
con funcin de densidad: f X 1, X 2 ( x1 , x2 ; ) , consideremos una transformacin
biunvoca y continua dada por: Z = h1 ( X 1 , X 2 ) y W = h2 ( X 1 , X 2 ) y supongamos que las funciones h1 y
h2 son continuas y diferenciables en S R 2 tal que existe el jacobiano: J =
Z / X 1
Z / X 2
W / X 1 W / X 2
supongamos adems, que existe la transformacin inversa dada por: X 1 = g1 ( x1 , z ) y X 2 = g 2 ( x2 , w) ,

entonces:
b d
P (a X 1 b; c X 2 d ) = f X 1, X 2 ( x1 , x2 ; )dx1dx2 =
a c
f [g1 ( x1 , z ) g 2 ( x2 , w)] J dzdw

S
13
Aplicando la condicin necesaria para la existencia de un punto extremo obtenemos:

1
g (Y , ) f ( X , , , ) 1 / = 0
i
i

g (Y , ) f ( X , , , ) (1 ) LnC + LnT = 0
i
i
i
i

g (Y , ) f ( X , , , ) LnC + LnT = 0
i
i
i
i

i =1
LnL / =
LnL / =
2
i =1
LnL / =
i =1
2
Ahora para obtener el estimador de partimos de:

n
LnL / == ln g (Yi , ) / YI / +
i =1
[g (Yi , )
2 i =1
n
f ( X i , , , )]g (Yi ; ) /
Donde: g (Yi ; ) / Yi = (1 / Yi + ) , ln g (Yi ; ) / Yi = 1 /(1 / Yi + ) y g (Yi ; ) / = 1 .

Luego:
LnL / ==
(Yi /(1 + Yi )) + 2 2
i =1
i =1
g (Y , ) f ( X , , , ) = 0
i
i
Finalmente obtenemos el estimador de 2 :
LnL / 2 = n / 2 2 +
[g (Yi , )
n
f ( X i , , , )] = 0
2
2
Nuevamente estamos en presencia de un sistema de ecuaciones no lineales lo que obliga
emplear algunos de los algoritmos propuestos para este tipo de problemas.
4 i =1
Ejemplo 7 con SPSS.

Consideremos que el ndice de precio al mayorista IPM se puede explicar por la tasa de
cambio TCN , la masa monetaria M 2M y el tiempo t , el modelo es:
IPM = 0 M 2M 1TCN 2 e 3TIEMPO +
Se cuenta con una base de datos mensual desde Enero de 1980 a Diciembre del 2002.
Para resolver el problema se emple el software SPSS . El paquete exige que se ingrese
un valor inicial para cada parmetro (Ver apndice SPSS). Estos valores se van
cambiando buscando mejorar el modelo, tomando como criterio que el cuadrado medio
de la regresin mejore y que se estabilicen las estimaciones de los parmetros. Para
aclarar esto veamos el siguiente cuadro:
RESULTADOS DE CINCO PRUEBAS
CAMBIANDO LOS VALORES INICIALES
Beta0
Beta1
Beta2
Beta3
0,5
0,4
0,5
1,0
0,5
0,4
0,5
0,5
0,01
0,4
0,5
0,5
0,5
0,4
0,5
0,05
0,5
0,1
0,2
0,1
SCR/gl
SCE/gl
R2
-289E+38
4,253E+36
-
120988,606
6327,17
-
120812
6329
-
550540,449
10,23
0,998
550540,49
10,233
0,998
14
El cuadro muestra los valores iniciales dados a los parmetros en cinco pruebas, se
podr notar que las dos ltimas son ms convincentes. En general, puede ocurrir que la
solucin ptima no sea nica o que se obtenga un ptimo local. A continuacin
presentamos dos resultados seleccionados. El primero, los valores iniciales de los
parmetros fueron beta0=0,05; beta1=0,2; beta2=0,1; beta3=0,1. Para el segundo estos
valores fueron: beta0=0,05; beta1=0,01; beta2=0,01; beta3=0,01
Estimaciones de los parmetros
Parmetro
beta0
bata1
beta2
beta3
Estimacin
,003
,383
,657
,001
Error tpico
,001
,016
,012
,000
Intervalo de confianza al
95%
Lmite
superior
Lmite inferior
,002
,005
,351
,414
,633
,681
,000
,002
Parmetro
beta0
bata1
beta2
beta3
Estimacin
,003
,383
,657
,001
Error tpico
,001
,016
,012
,000
95%
Lmite
superior
Lmite inferior
,002
,005
,351
,414
,633
,681
,000
,002
Se puede observar que las estimaciones obtenidas son idnticas. El modelo ajustado es:
IPM * = 0,03M 2M 0,383TCN 0 , 657 e 0, 001TIEMPO
Adems de lo indicado para seleccionar la estimacin del modelo, debe tenerse presente
los supuestos tericos del rea donde se est aplicando, puesto que puede ocurrir que las
estimaciones por ms que luzcan satisfactorias, debe verificarse si no contradice algn
supuesto importante, propio del fenmeno que se quiere modelar.
Correlaciones de las estimaciones de los parmetros
beta0
bata1
beta2
beta3
beta0
1,000
-,983
-,265
,829
bata1
-,983
1,000
,123
-,790
beta2
-,265
,123
1,000
-,652
beta3
,829
-,790
-,652
1,000
15
ANOVAa
Origen
Regresin
Residual
Total sin correccin
Total corregido
Suma de
cuadrados
2202161,8
2783,301
2204945,1
1494274,2
gl
4
272
276
275
Medias
cuadrticas
550540,449
10,233
Variable dependiente: IPMG

a. R cuadrado = 1 - (Suma de cuadrados residual) /
(Suma corregida de cuadrados) = ,998.
En los modelos no lineales el coeficiente de determinacin no tiene la misma

connotacin que en los lineales, sin embargo se puede tomar para seleccionar el mejor
ajuste despus de elegir los valores iniciales. De acuerdo al valor obtenido de
R 2 = 0,998 podemos pensar que el modelo se adecua bien a los datos. La suma de
cuadrados del residual lo emplearemos para hacer contraste de hiptesis.
IIIe.-Transformacin de Box-Cox.
La transformacin de Box.Cox consiste en lo siguiente. Asumamos el modelo dado por:
p
Y = 0 + j f ( X j ) +
j =1
Cada regresor f ( X j ) se modifica por; Z j = ( X j 0 1) / 0 , donde [ 1,1] si

= 1; f ( X j ) = ( X j 1 1) /(1) =
1
+ 1 , esto nos conduce a un modelo de regresin
Xj
lineal clsico, donde hay que tomar como regresores los inversos.
Si
= 1; f ( X j ) = ( X 1j 1) / 1
Si
= 0; lim f ( X j ) = lim( X j 1) / = 0 / 0 . Esta indeterminacin se resuelve mediante la
0
0
regla de Hospital, obteniendo lo siguiente:
lim df ( X j ) / d = lim d ( X j 1) / d /( d / d ) = lim1. X j log X j = LogX j
0
0
0
En los tres casos podemos escribir el modelo como:
p
Y = 0 + j Z j +
j =1
Si se asume que la variable a explicar tiene la forma g (Y ) = (Y 1) / y procedemos de

la misma forma obtenemos, para el caso de = 0 el modelo log-lineal dado por:
p
LogY = 0 + LogX j +
j =1
En la practica se puede variar el valor del parmetro y mediante el empleo de los

mnimos cuadrados ordinarios encontrar el modelo que mejor se ajusta a los datos, sin
embargo como anota Novales (1992) el proceder de esta forma afecta la estimacin de
la matriz de varianza covarianza. Un tratamiento ms amplio de esta transformacin se
encuentra en Greene (1999).
16
IV.-Contrastes Restringidos.
Tanto para modelos lineales como no lineales se proponen hiptesis restrictiva con
respecto a los parmetros. Puede darse uno de estos casos: a) el modelo es lineal y el
conjunto de restricciones tambin es lineal, este un caso frecuente en diseo de
experimento b) el modelo es lineal y el conjunto de restricciones al menos una
restriccin es no lineal c) el modelo es no lineal y el conjunto de restricciones es lineal,
un ejemplo el modelo de produccin de Cobb-Douglas donde se establece una o dos
restricciones lineales sobre los parmetros d) el modelo y las restricciones son no
lineales.
Como ejemplo del primer caso tenemos el siguiente modelo de consumo en funcin de
la renta con dos rezagos:
Yt = 0 + 1 X t + 2 X t 1 + t
Donde Yt es el consumo en el perodo t , X t y X t 1 corresponden a las rentas del
perodo t y t 1 respectivamente, t es la perturbacin aleatoria que asumimos normal
y 0 , 1 , 2 son los parmetros. Como puede observarse el modelo es lineal. Las
restricciones pueden ser: 1 2 y 1 + 2 = 1 , la primera restriccin podemos escribirla
como: 1 2 + h = 0
Esto ltimo permite escribir las restricciones en forma matricial como:
1
1 1 1 0
2 =
1
Entonces, tenemos un modelo lineal con restricciones lineales.

Del segundo caso tenemos el modelo que es el mismo que el anterior pero con
restricciones no lineales:
Yt = 0 + 1 X t + 2 X t 1 + t
El conjunto de restricciones ahora es:
12 + 22 = 1 y 1 . 2 = 0
En el caso el modelo es no lineal y el conjunto de restricciones lineales tenemos el
ejemplo de la funcin de consumo dada por:
Ct = 0 + 1 Rt + 2Ct 1 + t
Donde Ct es el consumo del perodo t , Ct 1 es el consumo del perodo anterior y Rt es
la renta. Las restricciones son:
1 /(1 2 ) = 1
=1
Por ltimo tenemos como ejemplo de un modelo y restricciones no lineales el siguiente:
Ct = 0 + 1 Rt + 2Ct 1 + t
12 + 22 = 1 y 1 . 2 = 0
Entonces, en forma general el problema es: dado el modelo Y = G ( X ; ) + realizar el
contraste de hiptesis: H 0 : R = r donde R es una matriz en el caso de ser las
restricciones lineales y r el vector de valores o H 0 : R( ) = r donde R( ) es un conjunto
de ecuaciones no lineales. En este ltimo caso no se verifica necesariamente que:
ER( ) = R( E ( )) pero si se demuestra la consistencia, esto es: P lim R ( ) = R ( P lim ) .

n
17
Para realizar el contraste: H 0 : R = r H 0 : R( ) = r hay varios test: el uso del

estadstico F cuando se tiene una muestra suficientemente grande, en teora para
muestras infinitas, el contraste de Wald (W) el cul solo requiere obtener el estimador
del vector de parmetro sino considerar la restriccin formulada como hiptesis, el
mtodo de la razn mxima verosimilitud (MV)que implica el clculo del estimador
tanto del modelo no restringido, como del modelo con las restricciones formuladas en la
hiptesis y finalmente, el contraste del multiplicador de Lagrange o prueba de C.R Rao
(ML).
Podemos empezar con el caso ms sencillo: dado el modelo lineal Y = X + y la
hiptesis H 0 : R = r . El estimador mnimo cuadrtico sin considerar las restricciones
es: * = ( X T X ) 1 X T Y . Si se trata de una sola restriccin, esto es: R es un vector fila: v ,
d
y asumiendo que las perturbaciones aleatorias son normales: t N (0, 2 ) entonces para
medir la discrepancia entre lo observado y la hiptesis nula, podemos emplear la prueba
t : que bajo la hiptesis nula es:
t = (v v ) / (v ( ( X T X ) 1 )v T = (v r ) / (v ( *2 ( X T X ) 1 )v T
*2
En el caso de que R es una matriz de l filas, esto es: l restricciones lineales entonces
podemos emplear la prueba F para tamao de muestras suficientemente grandes.
1
F = (n k ) R r (R( X T X ) 1 R T ) (R r ) / l *T
Bajo la hiptesis nula el estadstico se distribuye como una Fl ,:n k . En cualquiera de los
dos casos, bajo la hiptesis nula, la esperanza de la discrepancia d debe ser igual al
vector nulo, esto es en forma general:
E (d ) = E ( R R ) = 0 l
Si se desea obtener el estimador del modelo restringido, entonces el problema es:

Min Y X p = 2
Sujeto a:
R r = 0 l
Empleando los multiplicadores de Lagrange13 obtenemos:
13
Es una tcnica que permite resolver problemas de programacin no lineal restringido, esto es, dada una
funcin: F ( x1 , x2 ,...xn )
la cual, por ejemplo,
quiere minimizar y, un conjunto de
restricciones: Gi ( x1 , x2 ,...xn ) bi = 0 n . Para i = 1,2...m

llamada lagrangiana dada por:
definimos entonces una nueva funcin
L( x1 , x 2 ,...x n ; 1 , 2 ,... m ) = F ( x1 , x 2 ,...x n ) + i (Gi ( x1 , x 2 ,...x n ) bi )

i =1
Si las restricciones fuesen del tipo Gi ( x1 , x 2 ,...x n ) bi 0 , se restara a cada restriccin una nueva
variable no negativas llamadas variables de holguras hi obteniendo lo siguiente:
m
L( x1 , x 2 ,...x n ; 1 , 2 ,...m ) = F ( x1 , x 2 ,...x n ) + i (Gi ( x1 , x 2 ,...x n ) bi hi )

i =1
18
Min
,
L( , ) = (Y X ) T (Y X ) + 2 ( R r )
Las condiciones necesarias para la existencia de un punto extremo son:
L( , ) / = 2 X T (Y X ML ) + 2R T = 0 p +1
L( , ) / = 2( R ML r ) = 0 l
De estas ecuaciones normales obtenemos:

X T X
R T ml X T Y
=
0 r

Simplificando la notacin:
B = b de donde: = B 1b . La suma de los cuadrados de los errores para un modelo sin
restricciones lo expresamos como:
SCE = Y X
p=2
Y la suma de cuadrados de los errores del modelo restringido lo a anotamos como:
SCE * = Y X ML
p=2
La variabilidad de Y recogida por el modelo restringido est limitada por el conjunto de

restricciones, por tanto se verifica que:
SCE * SCE
En efecto podemos descomponer el vector de los residuos del modelo restringido como
sigue:
*
e R* = Y X ML = Y X + X ( ML ) = e+ X ( ML )
e R*T e R* e T e
La igualdad se cumple si ML = .
Cuando el modelo es no lineal y las restricciones son lineales el procedimiento puede
partir de la linealizacin del modelo y proceder de forma similar como se ha indicado
para hacer el contraste, el problema se presenta en la situacin de no linealidad de las
restricciones.
IVa.-Prueba F asinttica.
Tomando en cuenta la relacin SCE * SCE , se pude construir el contraste F tomando
en cuenta que el tamao de la muestra es suficientemente grande como para que se
justifique la aplicacin de este test desde el punto de vista asinttico, tericamente esto
significa que se hace tan grande como se quiera:
Esta nueva funcin es la que emplearemos para encontrar la solucin ptima. Este mtodo tiene validez
cuando el nmero de restricciones m es menor al nmero de variables n.
L( x1 , x2 ,...xn ; 1 , 2 ,...m ) / x j = 0; j = 1,2...n; x j = x j

L( x1 , x2 ,...xn ; 1 , 2 ,...m ) / j = 0; j = 1,2...m; j = i
19
F = (n k )( SCE * SCE ) / lSCE

Como se recordar p es el nmero de regresores, n es el nmero de observaciones y
l el nmero de restricciones. Bajo la hiptesis nula H 0 : R( ) = r , el estadstico F

converge asintticamente a una distribucin Fl ;n p . La hiptesis nula se rechaza si:
P( Fl ,n p F * ) , siendo el nivel de significacin.
IVb.-Prueba de Wald.
Esta prueba se usa indistintamente en el caso del modelo lineal o no lineal, la prueba se
construye tomando en cuenta la discrepancia: R( ) r y su varianza, esto es:

1
W = ( R( ) r ) T Var ( R( ) r ) ( R( ) r )
En el caso de un modelo lineal con restricciones lineales, esto es: Y = X + ,
H 0 : R = r , tenemos que: = ( X T X ) 1 X T Y , y asumiendo que tiene una distribucin
N (0, 2 I ) la estimacin de la matriz de varianza covariaza es Var ( ) = *2 ( X T X ) 1
luego Var ( R r ) = R Var ( ) R T = *2 R( X T X ) 1 R T por tanto el contraste es:
W = *2 ( R r ) T ( R ( X T X ) 1 R T ) 1 ( R r )
Este estadstico se distribuye como una l2 con tantos grados de libertad como
restricciones estn presentes en: H 0 : R = r .
Cuando el modelo es lineal: Y = X + y las restricciones no lineales: H 0 : R( ) = r ,
una vez obtenido el estimador: = ( X T X ) 1 X T Y debemos obtener: Var ( R ( ) r ) , en

este caso empleamos en primer lugar la expansin de Taylor como una aproximacin de
R ( ) dada por:
R( ) = R( ) + [R( * ) / ]( )
Donde [R ( ) / ] es una matriz de dimensin: lxk , la varianza Var ( R ( ) r ) es ahora:
Var ( R ( )) = R( * ) / Var ( ) R ( * ) /
La estimacin de la matriz de varianza covarianza es:
Var ( R ( )) = *2 R ( * ) / ( X T X ) 1 R ( * ) /
Ahora suponemos que el modelo es no lineal Y = G ( X ; ) + y las restricciones
lineales: H 0 : R = r . El estimador se obtiene empleando el mtodo de mxima

verosimilitud, asumiendo que tiene una distribucin N (0, 2 I ) . Por tanto:
Var ( R r ) = RVar ( ) R T = R[I ( )] R T

1
Cuya estimacin es:

1
Var ( R r ) = R Var ( ) R = R I ( ) R T
20
Finalmente si el modelo y el conjunto de restricciones es no lineal: Y = G ( X ; ) + ,

H 0 : R( ) = r entonces, si se emplea el estimador mximo verosmil obtenemos:
Var ( R ( )) = [R( ) / ][I ( )] [R ( ) / ]

1
De forma general el estadstico tiene la forma en el caso de restriccin lineal:

1
*
*
*
W = R r Var ( R ) R r
Y en el caso de restriccin no lineal:

1
*
*
*
W = R ( ) / Var ( R ( )) R ( ) /
W sigue, bajo la hiptesis nula una distribucin l2 . La hiptesis nula se rechaza si:
P ( l2 W H 0 )
Ejemplo 8. Yt = e X t + t donde t es una variable aleatoria N (0, 2 ) y supongamos

como hiptesis H 0 = 2 + 2 = 1 , luego R ( ) = 2 + 2 y r = 1 Asumamos que los
estimadores son de mxima verosimilitud, Como se vio en el ejemplo 6:
I ( , , *2 )
n 2 X*
e i
* ni =1
*
X e 2 X i
i
i =1
*2
=
n 2 X t
1
* *
e
2
I ( ; = tn=1
X t e 2 X t
t =1
*
Donde: R ( ) / = 2
X ie
i =1
2 X i2 e 2 X i
2 Xi
0
*2
0
n
X t e2 Xt
t =1
X t2 e 2 X t
t =1
R ( ) / = 2 por tanto:
n 2 X t
2
e

W = 2 ,2 tn=1
X e 2 X t
t
t =1
X te
t =1
2 n
2 2 Xt
Xt e
t =1
2 Xt

2 ,2
Dependiendo del valor de W , rechazamos o no la hiptesis.

IVc.-Contraste de los multiplicadores de Lagrange (ML).
Como sabemos siempre se cumple que SCE * SCE , por tanto el contraste partir de
esta relacin. El mtodo no cambia sustancialmente si el modelo es o no lineal, el
cambio se nota cuando: H 0 : R = r o H 0 : R( ) = r , esto es: si las restricciones son
21
lineales o no. Entonces, consideremos el modelo Y = G ( X ; ) + bajo la restriccin:

H 0 : R = r
El problema es:
Max LnL( ; ) R = Max[LnL( ; ) + T ( R r )]
,
Las condiciones necesarias para la existencia de un punto extremo son:

*
LnL( R ; ) R / = LnL( ; ) / + R T = 0 p
LnL( R ; ) R / = [R r ] = 0 l
*
H 0 : R = r , entonces: R T debe ser muy
Si la hiptesis nula es cierta entonces

prximo al vector nulo, por tanto:
*
LnL( R ; ) R / LnL( ; ) / 0 p
Es decir las dos funciones de mxima verosimilitud, la del modelo restringido y la del
modelo sin restriccin deben estar prximas. El estadstico tiene la forma
*
ML = n(LnL( R ; ) R / )T I ( R ) 1 (LnL( R ; ) R / ) / eR*T eR* (1)

En el caso del contraste para la restriccin no lineal: H 0 : R( ) = r el problema es:
Max LnL( ; ) R = Max LnL( ; ) + T ( R ( ) r )

,
LnL( R ; ) R / = LnL( ; ) / + T R( ) / = 0 p
*
*
LnL( R ; ) R / = R( ) r = 0 l
Si H 0 : R( ) = r es cierta entonces la discrepancia R( ) r debe estar muy prxima al

vector nulo y por tanto T R( ) / debe ser nulo luego, el estadstico nuevamente es
igual que el dado en (1). Este estadstico tiende asintticamente a lg2 l . l2 . La hiptesis
nula se rechaza si: P( l2 ML H 0 )
Ejemplo 9. Consideremos el modelo lineal Y = 0 + 1 X 1 + 2 X 2 +
restricciones H 0 : 12 + 2 = 1 . (El desarrollo se deja al lector)
con las
IVd.-Contraste de la razn de verosimilitud14.
14
En general, el contraste de razn de verosimilitud consiste en lo siguiente. Consideremos la hiptesis

nula H 0 : 0 y la hiptesis alterna H 1 : 0 y sea la funcin de verosimilitud
L( x1 , x2 ...xn ; ) asociada a una muestra aleatoria X 1 , X 2 ... X n proveniente de una poblacin

FX ( x, 0 ) . Se define la razn de verosimilitud a: n = sup L( x1 , x2 ...xn ; ) / sup L( x1 , x2 ...xn ; ). El
0
test consiste en elegir una regin crtica W R , tal que para un valor [0,1] , n para
n
todo X S y n para todo X S . = sup X S 0 . Se rechaza la hiptesis nula si
n 0 equivalentemente si X S .
22
Considerando la nota explicativa 14 dada al pie de pgina sabemos que en forma

general n = sup L( x1 , x2 ...xn ; ) / sup L( x1 , x2 ...xn ; 1 Luego para cualquier tipo de modelo
0
o de restricciones (lineales o no) se verifica que el logaritmo de la funcin de

verosimilitud asociada al modelo restringido es mayor que el logaritmo de la funcin
de verosimilitud asociada al modelo libre de restricciones. Esto es:
LnL( R ) LnL( )
Donde:
1 T
n
n
Ln(2 ) ln 2

2
2
2 2
El estimador Mximo verosmil *2 = e *T e / n
*
n
n
n
LnL( ) = Ja cov iano Ln(2 ) ln *2
2
2
2
*
n
n
n
LnL( R ) = Ja cov iano Ln(2 ) ln R*2
2
2
2
LnL ( ) = Ja cov iano
El estadstico de la razn de verosimilitud es:
n
( Ln R*2 Ln *2 )
2
Bajo la Hiptesis nula 2 RMV se distribuye asintticamente como una l2 . La hiptesis
RMV = LnL ( R ) LnL ( ) =
nula se rechaza si: P( l2 RMV H 0 )

Ejemplo 10.
Retomemos el ejemplo 7 y consideremos ahora el modelo del IPM dado por:
IPM = 0 M 2M 1TCN 2 e 3TIEMPO +
Y consideremos el siguiente conjunto de restricciones como H 0 : 1 + 2 = 1 , 1 0 y

2 0 . Ahora los resultados usando SPSS son:
Parmetro
beta0
beta1
beta2
beta3
Estimacin
,176
,402
,598
-4,029
Error tpico
3,9E+013
1,9E+009
1,5E+014
29217483
95%
Lmite
Lmite inferior
superior
-7,674E+013
8E+013
-3704114643
4E+009
-2,985E+014
3E+014
-57521159,6
6E+007

beta0
beta1
beta2
beta3
beta0
1,000
,998
-1,000
-,997
beta1
,998
1,000
-,998
-1,000
beta2
-1,000
-,998
1,000
,997
beta3
-,997
-1,000
,997
1,000
23
ANOVAa
Origen
Regresin
Residual
Total sin correccin
Total corregido
Suma de
cuadrados
,501
2204944,6
2204945,1
1494274,2
gl
3
273
276
275
Medias
cuadrticas
,167
8076,720

(Suma corregida de cuadrados) = ..
Contratemos las hiptesis empleando el estadstico 2 RMV y tomando los datos de la

matriz de ANOVA del ejemplo 7 referente al residual y de la misma forma, el residual
de la matriz ANOVA de este ejemplo, obtenemos:
2 RMV = 2( LnL( R ) LnL( )) = n( Ln R Ln *2 ) = nLn(

*2
R*2
)
*2
Esto es equivalente a 2 RMV nLn( SCE R* / SCE ) = 275 Ln( 2.204.944,6 / 2783,301) = 1846,263
P( 32gl 1846,263) = 0 . Esto implica rechazar la hiptesis nula: que los estimadores
obtenidos en el ejemplo 7 cumplen con todas las restricciones impuestas en dicha
hiptesis .
Es importante tomar en cuenta que el SPSS permite guardar las derivadas de los
parmetros evaluadas en cada observacin. Con los clculos necesarios se puede
entonces emplear los contrastes que requieren de la matriz de informacin.
Ejemplo 11
Ahora redefinamos el modelo IPM como:
IPM = 0 M 2 M 1 TCN 2
Entonces la nueva solucin es:

Parmetro
beta0
beta1
beta2
Estimacin
,006
,327
,739
Error tpico
,001
,011
,011
95%
Lmite
Lmite inferior
superior
,005
,008
,304
,349
,717
,760
24

beta0
beta1
beta2
beta0
1,000
-,956
,655
beta1
-,956
1,000
-,847
beta2
,655
-,847
1,000
ANOVAa
Origen
Regresin
Residual
Total sin correccin
Total corregido
Suma de
cuadrados
2201115,4
3829,658
2204945,1
1494274,2
gl
3
273
276
275
Medias
cuadrticas
733705,146
14,028

Ahora consideremos las restricciones: H 0 1 + 2 = 1 , 1 0 y 2 0 los resultados son:

Parmetro
beta0
beta1
beta2
Estimacin
,007
,356
,644
Error tpico
,001
,014
,014
95%
Lmite
superior
Lmite inferior
,005
,010
,328
,385
,616
,671

beta0
beta1
beta2
beta0
1,000
-,956
,674
beta1
-,956
1,000
-,861
beta2
,674
-,861
1,000
ANOVAa
Origen
Regresin
Residual
Total sin correccin
Total corregido
Suma de
cuadrados
2198643,6
6301,476
2204945,1
1494274,2
gl
2
274
276
275
Medias
cuadrticas
1099321,810
22,998

La solucin se deja al lector.
25
El siguiente grfico muestra los tres ltimos contrastes:
Se puede observar en el grfico que la relacin entre los tres contrastes es: el estadstico
de Wald siempre dar un valor mayor a los otros dos contrastes auque los tres tienen las
mismas propiedades asntoticas, es decir: son equivalentes asintticamente. El contraste
de Wald solo requiere estimar mediante el mtodo de mxima verosimilitud el
parmetro del modelo sin restricciones, el contraste de los multiplicadores de Lagrange
necesita solamente la estimacin del parmetro del modelo reducido, mientras que el
contraste de mxima verosimilitud parte de la estimacin del parmetro del modelo sin
restricciones y con restricciones requiriendo por tanto de dos estimadores.
V.-Contrastes de Hiptesis de linealidad:
Hay varios test que permiten decidir en trminos estadstico si un fenmeno responde a
un comportamiento no lineal, bien sea en el caso de un modelo de regresin o de serie
de tiempo, algunos de estos test no estn disponibles en las versiones de los software
ms usados en estadstica tales como el SAS o SPSS por ser de desarrollo muy
recientes. En este punto veremos algunos de estos test, el primero est basado en la
descomposicin de la variacin total, conduciendo a una prueba F el segundo es el test
Pd , y finalmente el test propuesto por Samorov, A.; Spokoiny, V. ;Vial, C (2005).
26
Va.-Prueba F15
Partimos de la descomposicin de la variacin total en tres componentes, bajo la
hiptesis nula que el modelo que mejor se adecua a los datos es un modelo de regresin
lineal H 0 : Y = X + . Adems, asumimos que existen E (Y / X ) , E (Y ) , y el ajuste de
Y dado como Y . Entonces la variacin total de Y
dada por: Y E (Y )
p= 2
la
descomponemos como:
Y E (Y )
p=2
= (Y E (Y )) + (( E (Y / X ) Y ) + (Y E (Y / X ))
p=2
Y E (Y )
p=2
= Y E (Y )
+ E (Y / X ) Y
p= 2
+ Y E (Y / X )
p= 2
p=2
De donde:
*2 = R *2 + Y E (Y / X )
p= 2
/ Y E (Y )
p=2
Si *2 R *2 0 indica el grado de error de especificacin al asumir que el modelo es

lineal.
La prueba F es:
F = (n p )( *2 R *2 ) /( p 2)(1 R *2 )
Bajo la hiptesis nula F se distribuye como Fp 2;n p , g .l . La hiptesis nula se rechaza si
P ( F p 2 ; n p , g .l > F ) .
Vb.-Contraste de PE
Consideremos dos funciones no lineales: G0 ( X ; ) y G1 ( X ; ) entonces las hiptesis
son:
H 0 : y = G0 ( X ; ) + 0
H 1 : f ( y ) = G1 ( Z ; ) + 1
Apliquemos la idea del contraste J 16, y consideremos que Y se puede expresar como
una combinacin lineal convexa de G0 ( X ; ) y G1 ( Z ; ) , esto es:
Y = (1 )G0 ( X ; ) + G1 ( Z ; ) +
0 1 (1)
El conjunto de hiptesis anterior se modifica por la hiptesis: H 0 : = 0 , entonces hay
que estimar el conjunto de parmetros: , , . Una forma de proceder es estimar uno
de los vectores de parmetros por mnimos cuadrados no lineales y luego utilizarlo en la
ecuacin (1) para estimar por mnimos cuadrados no lineales tanto el otro vector de
parmetro y con la restriccin: 0 1 el siguiente paso hacer el contraste de la
hiptesis nula: H 0 : = 0 , empleando el estadstico: / Var ( * ) que sigue una
15
Este test est en Bolch, B; Huang, C (1974)

Multivariate Statistical Methods for Business and Economics.
16
El contraste J fue desarrollado por Davidson y MacKinnon en el artculo Several Tests for Model
Specification in the Presence of Alternative Hipotheses Econometrica Vol 49 pp 241-262-1981
27
distribucin normal estndar. Ahora, haremos una modificacin introduciendo en la

hiptesis alterna una funcin no lineal, montona, continua y diferenciable h( y ) de
donde se obtiene lo siguiente:
(1 )[ y G0 ( X ; )] + [h( y ) G1 ( Z ; )] =
Para facilitar la aplicacin prctica se ha propuesto reescribir la ltima expresin como:

y G0 ( X ; ) = [G1 ( Z ; ) h( y )] + [ y G0 ( X ; )] + (2)
Ahora podemos emplear la expansin de Taylor de G0 ( X ; ) , partiendo de un valor
inicial o :
G0 ( X ; ) = G0 ( X ; o ) + G0 ( X ; o )( o )
Esta expresin se sustituye en (2). Esta modificacin se llama contraste PE .
Vc.-Otro Test de linealidad.
En este punto comentaremos brevemente el trabajo de Samorov el al (2005) que parten
del modelo:
y = f ( X ) + . f ( X ) = T X 1 + G( X 2 ) +
X T = ( X 1T , X 2T )
La dimensin de cada grupo de variables es: dim( X 2 ) = M y dim( X 2 ) = d M donde

M << d , G ( X 2 ) es una funcin no lineal desconocida cuya dimensin es mucho menor
que de la parte lineal, la distribucin de es tambin desconocida. En este artculo se
propone la solucin de varios problemas asociado al modelo propuesto que se denomina
modelo parcialmente lineal. El primer problema es determinar el grado de no linealiad,
esto es el valor de M que puede tomar los valores: 0,1,2... identificando por tanto cuantas
variables conforman a G ( X 2 ) , el siguiente problema es estimar el vector de parmetro
y finalmente hay que estimar la funcin G ( X 2 ) . El test que se desarrolla es:
H 0 : y = T X 1 versus H 1 : y = f ( X ) + o equivalentemente: H 0 : M = 0 y H 1 : M > 0 . La
idea parte de que si el modelo es lineal, entonces, f ( X ) = f ( X ) / X debe ser
constante para todo X por tanto la varianza de f ( X ) es una buena medida del grado de
no linealidad de las variables X . El contraste lo generalizan como: H 0 : M M 0 versus
H 0 : M > M 0 , siendo M 0 un valor mnimo prefijado para el cual la hiptesis nula no se
rechaza, si M 0 = 1 , se est indicando que el componente no lineal es univariante. El
procedimiento supone la estimacin de la varianza, denotmosla por Vm , rechazamos la
hiptesis H 0 : M M 0 , si V(M 0+1) es significativamente diferente de cero. Se asume en
todo caso que la dimensin del componente no lineal es relativamente pequeo. Los
autores de este trabajo proponen un algoritmo construidos bajo varios supuestos tanto
para estimar el vector de parmetro como el estimador de la varianza: Vm .
28
VI.-Modelos ARCH y GARCH.

Consideremos el proceso de parmetro discreto {Yt ; t E} y consideremos adems un
conjunto de informacin t tal que t t +1 t +2 ... , = Yt ;t < , entonces,

podemos considerar a la esperanza condicional: E (Yt / t ) y la varianza condicional:
VAR(Yt / t ) esta ltima puede ser no homognea, es decir diferente para cada periodo.
Este caso puede darse tanto en modelos no lineales como lineales. La presencia de
varianza condicional no homogenea en los modelos lineales se ha asociado a una mala
especificacin del mismo y se ha tratado de resolver aadiendo nuevas variables
exgenas, pero la prctica ha demostrado que este no es el mejor camino. Tanto la
media condicional como la varianza condicional se asocia al corto plazo, mientras que
la media no condicional E (Yt ) y la varianza no condicional VAR(Yt ) se asocian al largo
plazo.
Consideremos el modelo lineal autoregresivo de primer orden AR(1) : Y = Y + a
t
t 1
donde se asume que a t N ( 0 , ) .

2
La media no condicional de este proceso, o sea su media a largo plazo es:

Asumiendo que el proceso es estacionario entonces
E ( Y t ) = 1 E (Y t 1 ) + E ( a t )
(1 1 ) = 0 mientras que la media a corto plazo o condicional es:
E (Y t / t 1 ) = 1 E (Y t 1 / t 1 ) + E ( a t ) = i Y t 1
17
La varianza no condicional dado que el proceso es estacionario, es constante, en efecto:

VAR ( Y t ) = 12 VAR ( Y t 1 ) + VAR ( a t ) = VAR ( Y t ) = 12 VAR ( Y t ) +
Luego:
VAR ( Y t ) = 2 (1 12 ) 1
La varianza condicional18 es:

VAR (Y t / t ) = VAR ( a t ) =
Entonces estamos en la situacin donde tanto la varianza no condicional como la

condicional son iguales para cualquier perodo, es decir el proceso es homoscedstico.
17
Consideremos en forma general dos vectores aleatorios X 1 y X 2 , la esperanza de X 1 condicionada a
X 2 es: E ( X 1 / X 2 ) =
x 1 f X 1 / X 2 ( x 1 / x 2 ; ) dx 1 , por otra parte
1 = E ( X 1 ) = x1 f X1 ( x1 ; )dx1 =
S
x1 f X , X 2 ( x1 , x2 ; )dx1dx2 = x1 f X / X 2 ( x1 / x2 ; ) f X 2 ( x2 ; )dx1dx2 =
S S
S S
f X 2 ( x2 ; )( x1 f X / X 2 ( x1 / x2 ; )dx1 )dx2
= E ( E ( X 1 / X 2 ))
18
De la misma forma, consideramos dos vectores aleatorios X 1 y X 2 , la varianza de X 1 condicionada a
X 2 se obtiene a partir de: X 1 1 = X 1 E ( X 1 / X 2 ) + E ( X 1 / X 2 ) 1 . por tanto la varianza de

X 1 es:
VAR( X 1 ) = VAR ( X 1 E ( X 1 / X 2 ) + E ( X 1 / X 2 ) ) = E ( X 1 E ( X 1 / X 2 ) 2 + E ( E ( X 1 / X 2 ) ) 2
considerando la nota anterior y que el producto cruzado es nulo, concluimos que:
VAR( X 1 ) = E (VAR( X 1 / X 2 ) + VAR( E ( X 1 / X 2 )
29
Pero se puede preguntar que ocurre cuando el proceso autoregresivo tiene una varianza
heteroscedstica. De ah surge la primera repuesta que da R. F. Engle (1982) con el
modelo ARCH y la generalizacin de Bollerslev (1986) el GARCH. De estos trabajos
pioneros han surgido nuevas consideraciones expresadas en los aportes de Andrew A.
Weiss (1986), Ruey S Tsay (1987), James Rochon (1992) y mucho ms, recientes estn
los de Medeiros M el al (2003), Audrini F (2005) Chandra el al (2006) Cline(2006),
Ferlan R (2006) . Lo interesante de estos ltimos trabajos es que giran en torno a nuevas
metodologas que incluyen mtodos no paramtricos y redes neurales para ampliar las
posibilidades de los modelos propuestos por ambos pioneros.
VIa.-ARCH
Veremos en primer lugar la propuesta planteada por R. F. Engle (1982), parte de un
modelo cuasilineal dado por:
Yt = t ht1 / 2 y ht = 0 + 1Yt 21 (1)
Donde Var ( t ) = 1 , y 0 , 1 parmetros desconocidos. Este es el modelo ARCH ms
sencillo. Asumiendo normalidad dado el conjunto de informacin disponible Yt 1 la
distribucin condicional de Yt / t 1 tiene una distribucin normal N (0, ht ) . La varianza
condicional ht puede expresarse ms generalmente como:
ht = h (Yt 1 , Yt 2 ,..., Yt p ; 0 , 1 , 2 ... p ) (2)
Donde de la misma forma que en (1) 0 , 1 , 2 ... p son parmetros desconocidos, el

valor de p dar el orden del modelo ARCH. Algunas formas de ht que pueden ser
tiles en ciertas aplicaciones son:
ht = exp( 0 + 1Yt 21 )
ht = 0 + 1 Yt 1
Si se asume que la esperanza de Yt es la combinacin de variables endgenas y
exgenas representadas por el vector de variables Z t y el vector de parmetros ;
T = ( 0 , 1 ,... p ) asociado al vector de variables Z t , entonces: E (Yt / t 1 ) = Z t , luego:
d
Yt / t 1 N ( Z t t , g t ) con:
g t = g ( t 1 , t 2 ,..., t p ; 0 , 1 , 2 ... p ) (3)
t = Yt Z t
Un caso particular es g t = 0 + 1 t21 como varianza condicional Var ( t / t 1 ) , la
varianza no condicional es Var ( t ) = E (Var ( t / t 1 )) = 0 + 1 E ( t21 ) = 0 + 1Var ( t 1 )
si { t } es un proceso estacionario en varianza entonces Var ( t ) = 0 /(1 1 )
Este caso es el modelo de regresin ARCH.
Considerando (1) y (2) se puede generalizar escribiendo:
h
= h o ( t 1 , t 2 ,..., t p ; , z t 1 , z t 2 ... z t p ; 0 , 1 ,... p ; 0 , 1 ... p , ) = ht ( z ; ) g t ( ; ) (4)
O empleando el concepto de conjunto de informacin disponible: t 1 y considerando

los vectores de parmetros y entonces:
h o t = h( t 1 ; ; )
30
Para el caso que solo se emplean solamente variables endgenas Ruey S. Tsay (1987)
propone lo siguiente:
d
Yt / t 1 D (rt ; g t )
rt = r (Yt 1 , Yt 2 ,..., Yt p ; 0 , 1 , 2 ... p ) = 1Yt 1 + 2 Yt 2 .... p Yt p
2
2
g t = g ( t 1 , t 2 ,..., t p ; 0 , 1 , 2 ... p ) = 0 + 1 t 1 + 2 t 2 + ... + p t p
Donde como siempre:

p
t = Yt t Yt i
i =1
Como sugieren el autor al plantear este modelo: Yt / t 1 D(ht ; g t ) donde

t 1 : {Yt 1 , Yt 2 ...Yt p } indica que el proceso sigue una distribucin con media ht y
varianza g t . Este modelo se expresa como un ARCH(p,q). El problema est en la
determinacin de los valores de p y q que pueden resultar relativamente grande y que
entonces el modelo no cumplira con el principio de parsimonia. Por tal motivo, este
autor propone otro modelo partiendo de un modelo ARMA(p,q) y el empleo de
coeficientes aleatorios para el proceso { t } . Esto es:
(B )(Yt ) = ( B) t
i ( B) t = w0t (Yt 1 (1) ) + wt ( B )(Yt ) + t
Donde: ( B) = 1 1 B ... p B p ; ( B) = 1 1 B ... q B q son polinomios de orden p y
q en B respectivamente, con coeficientes constantes
tal como ocurre en el clsico

modelo ARMA y i ( B) = 1 1,t B ... r ,t B ; w ( B) = w1,t B + .... + ws ,t B s son polinomios en
B de orden r y s con coeficientes aleatorios, Yt *1 (1) representa el pronstico mnimo
cuadrtico de Yt dado el conjunto de informacin t 1 , finalmente t es la perturbacin
aleatoria o ruido blanco en el perodo t . Este modelo lo llama Ruey S. Tsay en su
artculo: CHARMA(p,q,r,s), aparte de las propiedades y mtodos de estimacin seala
dos aplicaciones importantes aparte de su uso en series heteroscedsticas permite
manipular series de tiempo con presencia de valores atpicos y la otra aplicacin
importante es que permite refinar los coeficientes constantes, tal como llama el autor los
parmetros, del modelo ARMA.
r
VIa1.-Estimacin.
Las tcnicas de estimacin de los parmetros son: el de mxima verosimilitud
paramtrico y no paramtrico de Audrino F (2005), mnima divergencia de Ajay
Chandra et al (2006), mnimos cuadrados generalizados factibles Green (1999). El
estimador de mxima verosimilitud siguiendo a Engle (1982) se emplea para estimar
los parmetros de ht = h (Yt 1 , Yt 2 ,..., Yt p ; 0 , 1 , 2 ... p ) o de la regresin ARCH dado
como
E (Yt / t 1 ) = Z t
g t = g ( t 1 , t 2 ,..., t p ; 0 , 1 , 2 ... p ) ,
en este ltimo
consideramos el caso particular g t = 0 + 1 t21 .

d
En el primer caso, se parte de Yt / t 1 N (0, ht ) por tanto:

f Yt ( yt ;0, ht ) =
Yt 2
1
exp
(2ht )1 / 2
2ht
La funcin de log-verosimilitud es:

31
t =1
t =1
ln f Yt ( yt ;0, ht ) = ln (2h)1 / 2 +
t =1
Yt 2
2ht
n
Yt 2
1 n
n
=
+
ln
(
;
0
,
)
ln(
2
)
f
y
h
ln
h
Yt t t
t 2h
2
2 t =1
t =1
t =1
t
n
Aplicando la condicin necesaria para la existencia de un ptimo:

1
t =1
t =1
Y2
/ = 0
t
ln f Yt ( yt ;0, ht ) / = 2 lnht / + 2ht

t =1
ln f Yt ( yt ;0, ht ) / =
t =1
n
Yt 2
1 n 1
l
h
2 h / = 0
t
2 t =1 ht
t =1
t
Consideremos el caso particular:

ht = 0 + 1Yt 21 + 2 Yt 2 2 .... p Yt 2 p , entonces, ahora definimos
zT = (1, Yt 21 , Yt 2 2 ,...Yt 2 p ) y
= ( 0 , 1 ,... p ) La matriz de informacin est dada como:

I ( ) =
1 n T
( z t z t / ht )
2n t =1
El segundo caso es:

E (Yt / t 1 ) = Z t
g t = 0 + 1 t21 + 2 t2 2 + ... + p t2 p
t = Yt Z t
d
Asumiendo normalidad, esto es: Yt / t 1 N ( Z t t , g t ) empleamos nuevamente el

estimador de mximo verosimilitud.
(Yt Z t ) 2
t2
1
1
f Yt ( yt ; Z t , g t ) =
exp
exp
=
1/ 2
( 2g t )1 / 2
2gt
(2g t )
2gt
n
t =1
t =1
f Yt ( yt ; Z t , g t ) =
t2
1
exp
(2g t )1 / 2
2gt

n
Ln
t =1
n
t2
n
1 n
f Yt ( yt ; Z t , g t ) = ln(2 ) ln g t +
2
2 t =1
2gt
t =1
La condicin necesaria de existencia de un punto extremo es:

n
n
2
1 n
Ln f Yt ( y t ; Z t , g t ) / = ln g t / + t / = 0
t =1
2 t =1
t =1
2gt
La matriz de informacin del estimador de est dada por:

I ( ) =
p
1 n T
Z t Z t ( g t1 + 2 t2 2j g t2j )
n t =1
j =1
La matriz de informacin conjunta es:
32
I ( ; ) =
1 n 1 g t g t
E
n t =1 2 g t2
19
En vez de emplear los estimadores mximos verosmiles se puede emplear el siguiente

procedimiento para el caso g t = 0 + 1 t21 :
1.-Se hace la regresin de Yt sobre Z t para obtener por mnimos cuadrados y el
error et .
2.-Defina la regresin: et2 = 0 + 1et2 + t , y obtenga los estimadores mnimos
cuadrticos: 0 y 1 como valores iniciales, que lo denotamos como el
vector: = [ 0 , 1 ] .
3.-Calcule el ajuste f t = 0* + 1* et*21 y defina la regresin de [(et*2 / f t ) 1] en (1 / f t ) y
(et*21 / f t ) y obtenemos los estimadores mnimos cuadrticos, y con ellos definimos el
vector: el primer estimador del vector [ 0 , 1 ] es:
oo = +
Puede observarse que f t es un estimador de g t = 0 + 1 t21 ; et21 estima a t21
La matriz de varianza covarianza asinttica de oo es 2( R T R) 1 donde R es la matriz de
los regresores, bajo el supuesto de normalidad.
4.-Recalcule f t usando oo para t=1,2n-1 y con ello defina:
1
oo
rt = + 2 1
f t
f t +1
1/ 2
st =
1 1oo
f t f t 1
et+21
1
f t +1
Calcule la estimacin de la regresin de et st / rt en Z t rt los estimadores obtenidos lo

denotamos por el vector: . El primer estimador de es:
oo = +
Este procedimiento se itera para refinar los resultados, lo estimadores obtenidos son
asintticamente equivalentes a los de mxima verosimilitud a pesar que no
necesariamente cinciden. Este procedimiento se puede generalizar para:
g t = 0 + 1 t21 + 2 t2 2 + ... + p t2 p
Teorema (R. F. Engle (1982))
El proceso ARCH de orden p , con parmetros no negativos 0 0, 1 0,... p 0 , es
estacionario en covarianza si, y solamente si, la ecuacin caracterstica tiene todas sus
races fuera de un circulo de radio unitario. La varianza estacional est dada por:
p
E (Yt 2 ) = 0 /(1 j )
j =1
Bajo el supuesto que el modelo de regresin ARCH sea simtrico y regular entonces I ( ; ) = 0 , ver
R. F. Engle (1982).
19
33
VIa2.-Otros mtodos de estimacin.

Entre los otros mtodos de estimacin estn: Audrino, F (2005) en donde no se asume el
supuesto de normalidad de las perturbaciones aleatorias tambin conocidazas como
innovaciones, aunque la propuesta se refiere a un ARCH(1), indica el autor que es
posible extenderlo a modelos con p > 1 . El mtodo de estimacin es no paramtrico y se
basa en una transformacin logartmica y emplear luego la estimacin de verosimilitud
local. Entonces consideremos el modelo:
Yt = t h1 / 2 y ht = 0 + 1Yt 21
Yt 2 = t2 h; Log (Yt 2 ) = Log t2 + Logh = + Log t2 + Loght
Donde = E [log t2 ] , haciendo las transformaciones:
Vt = Log (Yt 2 ) y U t = Log ( t2 )
G (Yt 1 ) = + Loght
Entonces:
Vt = G (Yt 1 ) + U t
Tomando en cuenta que: = E [log t2 ] entonces: E (U t ) = 0 , la sucesin de variables

aleatorias: {U t } , son independientes e idnticamente distribuidas e independientes de la
sucesin de variables aleatorias: {Vt ; s < t} . El problema es estimar G (Yt 1 ) , para ello se
emplea el local constante log-verosimilitud, dado una muestra de tamao n definimos:
n
LogL ( y , G y ) = Wt (Y )) (Vt , G )
t =2
Donde: Wt (Y ) = W (( y Yt 1 ) / hn ) 20 cumple con la funcin de ponderar las observaciones,

dndole mayor peso a las cercanas a y (Vt , G y ) = log(( f U t G y )) , f Ut es la funcin de
densidad, hn es el ancho de banda global, la secuencia {hn } satisface con:
lim hn 0 , n lim hn , hn > 0 , n 2
El estimador local constante log-verosimilitud es:

n
G * y = min wt (Y )( log( f Ut G y ))
Gy
t=2
El autor demuestra la unicidad del estimador asumiendo normalidad de U t , la

consistencia y las condiciones de normalidad asinttica. Los resultados los lleva a cabo
mediante la tcnica de simulacin.
Bajo el supuesto de normalidad y asumiendo que la densidad estacionaria de Yt es
continua y positiva, acotada uniformemente y otros supuestos demuestra que la varianza
asinttica es:
=
2
20
(u )du
dy
W (.) es el ncleo (kernel) que en general cumple con: W (.) 0 ,
W ( z )dz = 1 es una funcin
simtrica no negativa y acotada
34
El otro mtodo es l de mnima divergencia desarrollado por Ajay Chandra, J et al

(2006), el problema es determinar la forma de la distribucin de probabilidad de t en
el modelo:
Yt = t h1 / 2 , ht = 0 + 1Yt 2 + 2 Yt 2 .... p Yt 2 p ;
Donde { t }es una sucesin de variables aleatorias independientes e igualmente

distribuidas con funcin de densidad g ( ; ) . Hagamos el cambio:
Yt 2 = t2 ht (4)
Denotemos por Z t = Yt 2 ; Wt 1 = (1, Yt 21 , Yt 2 2 ,...Yt 2 p ) y, T = ( 0 , 1 , 2 ... p ) , entonces:
ht = Wt 1 luego podemos escribir (4) como:
Z t = Wt 1 + Wt 1 ( t2 1)
Si hacemos: t = Wt 1 ( t2 1) el modelo queda finalmente como:

Z t = Wt 1 + t
Se cumple que E ( t / t 1 ) = 0 . El vector de estimadores se puede obtener partiendo
de :
Min (Z t Wt 1 )
n
t = p +1
Los residuos estn dados por: t = Yt / ht , donde: ht = 0 + 1Yt 2 + 2Yt 2 .... pYt 2 p
Encontremos ahora una funcin f como ajuste de la verdadera funcin de
densidad g ( ; ) utilizando la mnima divergencia, en general se parte de la
definicin dada por:
D ( f , g ( ; )) =
K { f ( ) / g ( ; )}g ( ; )d
Donde K ( x) = {4 /(1 2 )}{1 x (1+ ) / 2 } ; 1 < < 1 . El estimador mnimo divergente es:
*
*
n = min D ( f , g n ( ; )) , D ( f , g n ( ; )) = K f ( ) / g n ( ; ) g n ( ; ) d

x t
n
; (4)
g n* ( ; ) =
W
ncn t = 2 cn
cn = n ; 1 / 4 < < 1 / 3
Para que (4) sea ms fcil de computar , los autores consideran como ejemplo el ncleo
de Epanechbokov: W ( x) = 0,75(1 x 2 ); x 1 .
VI3a.-Test de hiptesis.
Consideremos la varianza condicional g t = 0 + 1 t21 + 2 t2 2 + ... + p t2 p , o de forma
ms general: Var ( t / t 1 , t 2 ,... t p ) = g t ( t 1 ,... t p ; 0 ... t p ) lineal o no, por ejemplo
puede ser exponencial. La hiptesis nula es: H 0 : 1 = 2 = .... p = 0 . Estoa hiptesis
mantiene que la varianza condicional es constante. Engle (1982) propone el siguiente
procedimiento, consideremos el vector et = (1, t1 , t 2 ,... t p ) , donde j son los
35
residuos, asumimos que existe g t / y la esperanza : E (e t e) 21, por tanto la matriz de

informacin es:
t
g 0 /
1 g 0 /
t
I ( * ) =
E
e
e
(
)
0
0
El estadstico para realizar el contraste es:

1 0 t 1 t 0
f e(e e) e f
2
Donde g 0 es el vector columna: {et2 / g 0 1}, este estadstico, bajo la hiptesis nula,
ML =
tiende asintticamente a una 2 con p grados de libertad. La hiptesis nula se rechaza

si la probabilidad de que el valor del estadstico exceda a una p2 sea menor que el nivel
de significacin. Una forma expedita consiste en considerar los residuos y plantear el
modelo t+2 = 0 + 1 t*21 + 2 t*22 + ... + p t*2p + t y emplear la prueba F para contrastar
la hiptesis H 0 : 1 = 2 = .... p = 0 y la pruba t para cada uno de los parmetros,
asumiendo como hiptesis nula H 0 : j = 0, j = 1,2... p . Una forma de aproximarse al
problema es, partiendo de un AR(p), estudiar los residuos y ver si hay un patrn de
agrupamiento de los mismos.
Ejemplo 12
En este ejemplo emplea el ndice de precio del consumidor en Venezuela desde Enero
de 1980 a Diciembre de 2002, en otros pases se considera que este tipo de ndice
presenta hetoroscedasticidad condicional. Lo primero que se realiz fue considerar un
ARIMA(1,1,1)22 como modelo tentativo, obteniendo los siguientes resultados.
Descripcin del modelo
ID del modelo
IPMG
Model_1
Tipo de modelo
ARIMA(1,1,1)
21
Obsrvese que para cada valor de t se obtiene un vector columna, por tanto e es una matriz.
El programa es SPSS es:
22
GET DATA /TYPE=ODBC /CONNECT=
'DSN=Excel Files;DBQ=D:\ARTCULOS\DATOS
ARCH.xls;DriverId=790;MaxBufferSiz'+
'e=2048;PageTimeout=5;'
/SQL = 'SELECT RE1C, `RE-1C` AS RE1C1, `RE-2C` AS RE2C, `RE-3C`
AS RE3'+
'C, `RE-4C` AS RE4C FROM `Hoja2$`'
/ASSUMEDSTRWIDTH=255
.
CACHE.
DATASET NAME DataSet2 WINDOW=FRONT.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA COLLIN TOL CHANGE
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT RE1C
/METHOD=ENTER RE1C1 RE2C RE3C RE4C
/SCATTERPLOT=(*SRESID ,RE1C ) (*ZRESID ,RE1C )
/RESIDUALS DURBIN HIST(ZRESID) NORM(ZRESID)
/SAVE COOK RESID .
36
De acuerdo a los siguientes resultados, el modelo se adecua satisfactoriamente, si se

observa el coeficiente de determinacin R 2 = 1,0 y el valor del ndice de informacin
Bayesiano: BIC = 1,020 . El estadstico observado de Ljung-Box conduce a no rechazar
la hiptesis nula que la correlacin de los residuos es nula, es decir: los residuos
provienen de un ruido blanco.
Estadsticos del modelo
Estadsticos de ajuste del modelo

Ljung-Box Q(18)
Nmero de
Nmero de R-cuadrado
BIC
valores
Modelo
MAPE MaxAPE MaxAE normalizado Estadsticos
GL
Sig.
predictores estacionaria R-cuadrado RMSE
atpicos
IPMG-Model_
0
,585
1,000
1,615
8,141 151,892
10,857
1,020
46,664
16
,000
0
Parmetros del modelo ARIMA

IPMG-Model_1 IPMG
Sin transformacin
Constante
AR
Diferencia
MA
Retardo 1
Retardo 1
Estimacin
1,067
,868
1
,286
ET
,516
,039
t
2,069
22,289
Sig.
,040
,000
,078
3,682
,000
Si observamos la tabla anterior, el modelo ajustado es:

*
(1 0,868B )(1 B )Yt = 1,067 + 0,286 t 1
La prueba t nos indica que todos los parmetros son significativamente diferentes de
cero Si se observa las funciones de autocorrelacio y autocorrelacin parcial de los
residuos algunas salen muy levemente de los lmites.
37
Retardo
FAS residual
FAP residual
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
IPMG - Model_1
-1,0
-0,5
0,0
0,5
1,0 -1,0
-0,5
0,0
0,5
1,0
Residual
Ahora, construimos el modelo de regresin considerando los residuos, la variable

dependiente es t*2 y los regresores: t*21 , t*22 , t*23 , t*22 ; esto es:
t*2 = 0 + 1 t*21 + 2 t*22 + 3 t*23 + 4 t*22 +
Los resultados se presentan a continuacin:
Variables introducidas/eliminadas(b)
Modelo
1
Variables
introducidas
RE4C, RE2C,
RE3C,
RE1C1(a)
Variables
eliminadas
Mtodo
.
Introducir
a Todas las variables solicitadas introducidas

b Variable dependiente: RE1C
38
b
Resumen del modelo
Modelo
1
Estadsticos de cambio
R cuadrado Error tp. de la Cambio en
Sig. del
R
R cuadrado corregida
gl1
gl2
estimacin R cuadrado Cambio en F
cambio en F
,543a
,294
,284
9,48563
,294
27,757
4
266
,000
DurbinWatson
2,107
a. Variables predictoras: (Constante), RE4C, RE2C, RE3C, RE1C1

b. Variable dependiente: RE1C
ANOVAb
Modelo
1
Regresin
Residual
Total
Suma de
cuadrados
9990,156
23933,939
33924,095
gl
4
266
270
Media
cuadrtica
2497,539
89,977
F
27,757
Sig.
,000a
a. Variables predictoras: (Constante), RE4C, RE2C, RE3C, RE1C1

b. Variable dependiente: RE1C
Coeficientesa
Modelo
1
(Constante)
RE1C1
RE2C
RE3C
RE4C
Coeficientes no
estandarizados
B
Error tp.
,486
,603
,143
,059
,035
,057
,277
,055
,249
,057
Coeficientes
estandarizad
os
Beta
,144
,036
,287
,258
t
,806
2,422
,618
4,987
4,343
Sig.
,421
,016
,537
,000
,000
Estadsticos de
colinealidad
Tolerancia
FIV
,750
,802
,801
,749
1,332
1,247
1,248
1,335
a. Variable dependiente: RE1C
De acuerdo a los resultados de la prueba F que se muestra en la tabla ANOVA se

rechaza la hiptesis H 0 : 1 = 2 = 3 = 4 = 0 . De acuerdo a la prueba t solo la
constante y el parmetro asociado a t*22 no son significativamente diferentes de cero.
Se puede aumentar el nmero de regresores para aumentar el valor de R 2 y ver si mejora
el modelo. En todo caso, es fcil verificar que si realizamos la operacin
nR 2 = 271x0,294 = 76 y calcular P ( 42 > 76) 0 rechazamos igualmente la hiptesis nula
anterior. De acuerdo el valor del estadstico Durbin Watson la autocorrelacin de los
residuos es aproximadamente 0,0535 que es un valor no significativo. Observando el
ndice de condicin se puede concluir que no hay presencia de colinealidad.
39
Diagnsticos de colinealidada
Modelo
1
Dimensin
1
2
3
4
5
Autovalor
2,256
,858
,725
,660
,501
Indice de
condicin
1,000
1,621
1,765
1,849
2,121
(Constante)
,04
,95
,01
,00
,00
Proporciones de la varianza
RE1C1
RE2C
RE3C
,07
,07
,07
,04
,02
,01
,23
,30
,28
,13
,43
,44
,52
,19
,20
RE4C
,08
,03
,21
,14
,54
Estadsticos sobre los residuosa
Valor pronosticado
Valor pronosticado tip.
Error tpico del valor
pronosticado
Valor pronosticado
corregido
Residuo bruto
Residuo tip.
Residuo estud.
Residuo eliminado
Residuo eliminado estud.
Dist. de Mahalanobis
Distancia de Cook
Valor de influencia
centrado
Mnimo
,4893
-,292
Mximo
44,1138
6,879
Media
2,2681
,000
Desviacin
tp.
6,08281
1,000
,589
6,632
,857
,964
271
,4911
62,1935
2,3835
7,04578
271
-35,55740
-3,749
-4,940
-61,75787
-5,174
,046
,000
100,70521
10,617
11,017
108,44568
14,913
130,986
3,864
,00000
,000
-,005
-,11531
,012
3,985
,052
9,41511
,993
1,077
11,30054
1,268
17,065
,356
271
271
271
271
271
271
271
,000
,485
,015
,063
271
N
271
271
VI4a.-Modelos relacionados: ARCH-M, TARCH, AR-ARCH.

En este punto veremos brevemente algunos modelos relacionados con el ARCH, tales
como ARCH-M , TARCH y finalmente el AR-ARCH. El modelo ARCH-M consiste en
introducir en el modelo la varianza condicional como regresor. Un caso de tal modelo
es:
Yt = 0 + 1Yt 1 + 2 g t + t ,
g t = 0 + 1 t21 + 2 t2 2 + ... + p t2 p
Otro modelo que se emplea en situacin de asimetra es el ARCH que dependen de un
umbral, estos modelos se llaman TARCH. Su forma es por ejemplo:
Yt = t g t1 / 2
g t = 0 + (1 + d t 1 ) t21
0 > 0;1 > 0, 1 + < 1
d t 1 = 1; si t 1 < 0 , si d t 1 = 0; si t 1 > 0
La varianza condicional puede tener la forma:
g t = 0 + (1 + d t 1 ) t21 + g t 1
Entonces:
0 > 0;1 > 0, > 0 y 1 + + / 2 < 1
40
La variable indicadora d t 1 indica si el umbral est presente o no, toma el valor uno
cuando lo est, y esto ocurre cuando la innovacin es negativa, por tanto el efecto de la
varianza condicional es mayor, un ejemplo de esto se da en el mercado de capitales, que
una mala noticia sobre el desenvolvimiento del mercado conduce a una mayor
volatilidad de los ttulos valores.
Finalmente tenemos el modelo AR-ARCH, el modelo AR-ARMA lo desarrolla por
primera vez Emanuel Parzen23, este autor clasifica las series de tiempo en tres
categoras, series con tendencias, estacionalidad y ciclos que denomina de memoria
larga, series que cumplen con la estacionalidad en media y varianza que llama series de
memoria corta y finalmente serie formadas exclusivamente con ruido blanco. Una de las
caractersticas de las series de tiempo con memoria larga es que sus autocorrelaciones
muestrales decrecen muy lentamente. Para lograr que una serie de memoria larga se
convierta en memoria corta en vez de diferenciar la serie como propone la metodologa
de Box-Jenkins, aumenta el nmero de parmetros AR sin importar el principio de
parcimonia, y la parte MA la deja solo en casos especiales. Para seleccionar el orden del
AR utiliza el criterio de informacin de Akaike. Otra propuesta para el estudio de series
de tiempo de memoria larga es emplear diferenciacin no entera, esto es: d donde
d toma cualquier valor real, generalmente entre -1 y 1, este modelo se llama AFIRMA.
El modelo AR-ARCH consiste entonces, en un modelo con una parte autoregresiva y
otra autoregresiva con heteroscedsticidad condicional.. Un caso particular de ARARCH lo presenta Cline, D.B.H (2006), en el cual considera el umbral. El modelo ARARCH lo define como: dada la sucesin de errores aleatorios { t* } independientes e
idnticamente distribuidas, con funcin de densidad simtrica a rededor de cero y
r
positiva en R , tambin se asume que E ( t* ) < . Consideremos ahora la sucesin de
variables aleatorias: { t }, entonces, el modelo AR-ARCH es:
p
i =1
i =1
t = 0 + i t i + (0 + i2 t2 i )1 / 2 t
p
La parte autoregresiva es: 0 + i t i y la parte ARCH es (0 + i2 t2 i )1 / 2 t , donde

i =1
i =1
la varianza condicional o volatilidad es (0 + i2 t2 i ) = ht . El modelo es ergdico y

i =1
tiene una distribucin estacionario si:

2
p
p
*
i + i E ( t ) < 1
i
=
i
=
1
1

El AR-ARCH bajo la condicin de umbral (TAR-ARCH) de orden p con rezago

k p es:
p
i =1
i =1
t = 10 + 1i t i + (10 + 12i t2 i )1 / 2 t si t k 0
p
i =1
i =1
t = 20 + 2i t i + (20 + 22i t2i )1 / 2 t si t k 0
23
Parzen, E (1982)
ARARMA Models for Time Series Analysis and Forecasting.
Journal of Forecasting. Vol 1pp 67-82
41
VIb.-GARCH.
El modelo GARCH es una generalizacin del ARCH, presentado por Bollerslev (1986),
el modelo es: dado el proceso estocstico: { t ; t E} entonces la distribucin dado el
conjunto de informacin t 1 es:
d
t / t 1 N (0, ht )
La varianza condicional es:
ht = 0 + 1 t21 + 2 t2 2 + ... + q t2 q + 1ht 1 + 2 ht 2 + ... + p ht p
Donde:
p 0, q > 0 , 0 > 0 , i 0 para i = 1,2...q ; i 0 para i = 1,2... p . Este es GARCH(p,d),

cuando p = 1 y q = 1 la varianza condicional es:
ht = 0 + 1 t21 + 1 ht 1
Si p = 0 , y q 0 entonces el modelo es un ARCH(q)24, si consideramos ahora, como en
el caso del ARCH que:

Yt = Z t + t
Z t es el vector de variables endgenas y es el vector de parmetros. Consideremos los
polinomios ( B) = (1 B + 2 B 2 + ... + q B q ) y ( B) = ( 1 B + 2 B 2 + ... p B p ) donde B es el
operador de retardo: B x wt = wt x . Ahora escribimos la varianza condicional como:
ht = 0 + ( B ) t2 + ( B)ht
Si se verifica que todas las raices de 1 ( z ) = 0 caen fuera de un crculo de radio
unitario, la varianza condicional resulta un ARCH ( ) , esto es:
ht = 0 (1 (1)) 1 + ( B)(1 ( B )) 1 t
p
i =1
i =1
ht = 0 (1 i ) 1 + i t2 i
Teorema. Bollerslev (1986):

El GARCH(p,q) definido anteriormente es estacionario en sentido amplio con
E ( t ) = 0 , Var ( t ) = 0 (1 (1) + (1)) 1 , Cov( t , s ) = 0 s t si y solamente si
(1) + (1) < 1 .
Bollerslev, menciona una forma alternativa de expresar el modelo GARCH:
q
i =1
j =1
j =1
t = 0 + i t2 i + j t j + j t j + t
Donde:
i .i . d
t = t2 ht = ( t2 1) ht ; t N (0,1) . De acuerdo a esto el GARCH(p,q) debe

interpretarse como un ARMA en t2 de orden m = max( p, q) y p respectivamente.
La funcin de autocorrelacin y autocorrelacin parcial es como sigue:
La covarianza es:
q
i =1
i =1
i =1
n = Cov( t2 ; t2 n ) = i ni + j n i = i n i para n p + 1 ; i = i + i i = 1,2...q
Las ecuaciones de Yule-Walker estn dada por:

24
En el artculo de Engle utiliza p en vez de q . La estructura del ARCH es similar a un MA (q ) definido

sobre los cuadrados de las innovaciones, mientras que el GARCH se asocia al ARMA.
42
n = n / 0 = i ni n p + 1
i =1
Denotemos por kk la k-sima correlacin parcial de t2 , para determinar cada una

definimos el siguiente sistema de ecuaciones con k incognitas y k ecuaciones:
k
n = ki n i n = 1,2...k
i =1
Si el proceso es un ARCH(q), entonces:

kk 0 si k < q
kk = 0 si k > q
Tanto n como kk deben estimarse con los datos observados. Se espera que el
comportamiento de un modelo GARCH tenga similitud con el ARCH. En la prctica el
primer modelo requerir un nmero de trmino menor al ARCH.
Ejemplo 13.
Tomando la informacin del ejemplo anterior, representamos las funciones de
autocorrelacin y autocorrelacin parcial de t2
RE1C
Coeficiente
Lmite de confianza
superior
Lmite de confianza
inferior
1,0
ACF
0,5
0,0
-0,5
-1,0
1
10
11
12
13
14
15
16
Nm. de retardos
Se puede observar que tanto la funcin de autocorrelacin como la funcin de

autocorrelacin parcial hay varios valores que salen de los lmites de confianza, por
43
tanto son significativamente diferente de cero. Un modelo tentativo para la varianza

condicional es un ARCH(4). Si se emplea un GARCH debe esperarse un nmero menor
de parmetros a estimar.
RE1C
Coeficiente
Lmite de confianza
superior
Lmite de confianza
inferior
1,0
ACF parcial
0,5
0,0
-0,5
-1,0
1
10
11
12
13
14
15
16
Nm. de retardos
VI1b.-Estimacin de los parmetros de GARCH-generalizacin.

La estimacin de los parmetros parte del supuesto de que las innovaciones tienen una
distribucin normal, la exposicin se har considerando los comentarios que hace
Green(1999) al artculo original de Bollerslev (1986). Asumiendo que t sigue una
distribucin normal N (0, ht ) Partimos entonces, que la funcin de mxima verosimilitud
es:
n
n
2
n
1 n
Ln f Yt ( yt ; Z t , g t ) = ln(2 ) ln h 2 t + t2
t =1
2 t =1
t =1
ht
Donde:
ht = 0 + 1 t21 + 2 t2 2 + ... + t q t2 q + 1 ht 1 + 2 ht 2 + ... + p ht p
t = Yt Z t
44
Entonces, el problema es estimar tanto el vector de parmetros: ( 0 , 1 ,... q , 1 , 2 ... p ) =

( 0 , , ) y el vector de parmetros asociado a las variables endgenas . Para
simplificar la notacin haremos:

n
Ln f Yt ( yt ; Z t , g t ) =
t =1
n
2 n
1 n
n
ln(2 ) ln h 2 t + t2 = lt ( )
2
2 t =1
ht t =1
t =1
Donde: = ( , 0 , , ) = ( ; )
2
1 1
1 1
lt ( ) / = 2 2t 2 ht2 / = 2
2 ht (ht )
2 ht
2
2
1 1
ht / t2 1 = 2 f t vt = B
ht
2 ht
Para encontrar el estimador, aplicamos la condicin de existencia de un punto extremo:

1 1
2
2
1 1
1 1
lt ( ) / = 2 2t 2 ht2 / = 2 ht2 / t2 1 = 2 f t vt = 0
2 ht (ht )
2 ht
2 ht
ht
La resolucin de la ecuacin anterior exige el empleo de algoritmos de optimizacin no

lineal.
1
La varianza asinttica de los estimadores se obtiene de: (B T B ) , que es equivalente de
partir del clculo de: 2 l ( * ) / el cual requiere de la aplicacin de algn algoritmo,
Bollerslev (1986) propone el desarrollo del algoritmo BHHH. (Berndt,Hall,Hall and
Hausman). Green (1999) propone el mtodo de Newton. Aqu estamos asumiendo que
no hay parmetro de la regresin.
Para estimar el vector de parmetros de la regresin y la matriz de varianza
consideramos que t sigue una distribucin normal N (0, ht ) E ( 2 lt ( ) / ) = 0
lt ( ) / =
t Zt
lt ( ) / =
2
t
t Zt
2
t
1 1
2 ht2
t (ht / )
1 1
2 ht2
t (ht / ) = 0
La matriz de varianza covarianza se obtiene de 2 lt ( ) / ) y su obtencin requiere de

la aplicacin de tcnicas de optimizacin no lineal.
Cuando el supuesto de normalidad de t no es apropiado, se ha propuesto como tcnica
de estimacin la del pseudos-mxima verosimilitud donde se ajusta la matriz de
varianza covarianza de los estimadores. (Green 1999)
VI2b.-Contraste de hiptesis de los parmetros de GARCH.
Para efectuar el contraste de hiptesis Bollerslev (1986) propone el uso del contraste de
multiplicadores de Lagrange sin descartar el posible uso del contraste de Wald. Para ello
descompone la varianza condicional como sigue:
ht = x = 1 x1 + 2 x2
La hiptesis nula es: H 0 : 2 = 0 , esto quiere decir que los parmetros asociados a
ht 1 ; i = 1,2... p son nulos y si la hiptesis no se rechaza entonces el modelo es un ARCH.
45
Recordemos que el contraste de multiplicadores de Lagrange para el caso del modelo de

regresin restringido parte de
Max LnL( ; ) R = Max LnL( ; ) + T ( R r )

,
De donde es test es:

*
ML = n(LnL( R ; ) R / )T I ( R ) 1 (LnL( R ; ) R / ) / eR*T eR*
En este caso el estadstico tiene la forma:

ML =
1 T
g 0 X 0 ( X 0T X 0 ) 1 X 0T g 0
2
Donde:
T
g 0 = ( 12 h11 1, 22 h21 1,... n2 hn1 1)
X 0 = (h1h1 / , h2 h2 / ,....hn hn / ) T
Estn evaluados bajo la hiptesis nula.

Este estadstico se distribuye con una 2 con tantos grados de libertad como elementos
tiene el vector 2 , un test equivalente es:
ML = nR 2
Donde R 2 es el coeficiente de correlacin mltiple entre g 0 y X 0 que de la misma
forma se distribuye con una 2 con tantos grados de libertad como elementos tiene el
vector 2 .
Es importante el comentario que hace el autor, para la hiptesis nula de que el modelo
es un ARCH(q), el contraste de los multiplicadores de Lagrange, usando como hiptesis
alternativas GARCH(r,q) o ARCH(q+r) el resultado se confunde. Siguiendo a Green, el
contraste para ARCH(q) frente a GARCH(p,q) es exactamente el mismo que l de
ARCH(q) frente a ARCH(p+q).
VI3b Modelos relacionados. INGAR
En los ltimos aos hay un creciente inters en aquellos procesos tanto de conjunto de
ndice como espacio discreto, en especial los procesos de Poisson entre cuyas
aplicaciones estn: cierto tipo de transacciones que se realiza en el mercado y problemas
relacionados con epidemiologa, de ah surge el estudio del modelo INGAR. Los
autores Ferland, R et al (2006) presentan un estudio bastante completo en su artculo
donde estudian las propiedades generales de este modelo y luego lo particularizan a un
modelo INGAR(1,1) y finalmente dan una aplicacin empleando los datos
epidemiolgico de la infeccin de campylobacterosis. Ahora cambiamos el proceso
d
t / t 1 N (0, ht ) por t / t 1 P(ht ) lo que quiere decir que la distribucin condicional

del proceso dado el conjunto de informacin poissoniano, es una distribucin de
Poisson.
El modelo INGARCH ( p, q ) se define como:

d
t / t 1 P(ht ) t Z
ht = 0 + 1 t21 + 2 t2 2 + ... + t q t2 q + 1 ht 1 + 2 ht 2 + ... + p ht p
p 0, q > 0 , 0 > 0 , i 0 para i = 1,2...q ; i 0 para i = 1,2... p . Empleando los
polinomios en funcin del operador de retardo: ( B) = (1 + 1 B + 2 B 2 + ... + q B q ) y
46
( B) = (1 + 1 B + 2 B 2 + ... p B p ) y asumiendo que las races de ambos polinomios caen

p
fuera de un crculo unitario y adems (1) = i < 1 , entonces la varianza condicional

i =1
puede escribirse como sigue:

ht = 1 ( B )( 0 + ( B) t ) = 0 1 (1) + H ( B ) t
H ( B ) = ( B) 1 ( B ) = i B i
i =1
Los coeficientes i son dado por el desarrollo de ( B ) 1 ( B ) . Para que un proceso

estacionario de segundo orden satisfaga la definicin de INGARCH ( p, q ) es necesario
p
que (1) (1) > 0 o equivalentemente que 0 + i < 1 .

i =1
i =1
Para construir INGARCH los autores proceden de la siguiente forma: consideran dos
sucesiones de variables aleatorias independientes y distribuidas como una Poisson
{U t : t Z } y {Z t ,i , j ; t Z (i, j ) N } , la primera sucesin tiene media
comn: 0 = 0 / (1) . Las variables U y Z son variables independientes. Ahora se
define la sucesin { t( n ) ; t Z }:
1) t( n ) = 0 para n < 0
2) t( n ) = U t para n = 0
3)
(n)
t
( ni )
n X t =1
= Ut +
i =1
Z t i ,i , j para
n > 0.
j =1
Algunas propiedades de esta sucesin de variables aleatorias son:

1) Si (1) (1) > 0 , entonces tiene al menos un lmite seguro.
2) La sucesin es un proceso estrictamente estacionario para cada n .
3) Si (1) (1) > 0 , entonces los dos primeros momentos son finitos.
4) INGARCH(p,d) est relacionado con el ARMA (max{p, q}, p )
El modelo INGARCH(1,1) tiene la forma:
d
t / t 1 P(ht ) t Z
ht = 0 + 1 t21 + 1 ht 1
Las propiedades ms importantes son en este caso:
1) la media es: = 0 /(1 1 1 )
2) Var ( t ) = (1 (1 + 1 ) 2 + 12 ) /(1 (1 + 1 ) 2 )
3) La funcin de autocorrelacin : (r ) = 1 (1 1 (1 + 1 )(1 + 1 ) r 1 /(1 (1 + 1 ) 2 )
La estimacin de los parmetros de modelo INGARCH es similar al mtodo empleado

en GARCH, solo debemos cambiar la funcin de verosimilitud que en el segundo
asume normalidad de t . En el caso INGARCH es por tanto:
e t t t
L ( ) =
t!
t =1
n
47
VII.-Constraste de linealidad: DBS.25

En los ltimos aos han surgido un conjunto de test para contrastar la hiptesis nula de
linealidad de la serie de tiempo versus la alternativa de no linealidad. Uno de lo ms
reciente es el que presenta Escanio. J.C (2006). En su artculo hace un recuento de los
diferentes trabajos que tratan el tema. Despus de hacer una breve crtica de los test
basado en las correlaciones de los residuos para detectar la buena especificin de un
modelo con datos temporales, y de otra naturaleza como los basados en ncleos,
presenta su test que parte del concepto de transformada de Fourier explicando y
demostrando posteriormente las propiedades del mismo y finalmente presenta un
ejemplo va simulacin. Se menciona este trabajo, al inicio de esta parte de la
monografa dada su importancia, sin embargo escapa del nivel de la misma. Por tanto
presentaremos uno de los test ms usados como lo es el test de Brock, Dechert y
Scheinkman: BDS.
Primeramente consideramos lo que se denomina historia de dimensin n . Entonces
dada la sucesin {Yt ; t T } formemos las historias con un nmero finito:
(2) = {(Y0 , Y1 ), (Y1 , Y2 ), (Y2 , Y3 ).....(Yt 2 , Yt 1 ,)}
(3) = {(Y0 , Y1 , Y2 ), (Y1 , Y2 , Y3 ), (Y2 , Y3 , Y4 ).....(Yt 2 , Yt 1 , Yt 2 )}
Al construir historia lo que hacemos una aplicacin: R R m , esto es:
{Yt } {Yt , Yt + , Yt + 2 ...Yt + ( n+1) }. Takens demostr que la aplicacin sealada anteriormente,
conserva las propiedades topolgica de la orbita original del sistema en otra palabras,
las m historias reproducen la dinmica del sistema original si n2d+1, siendo d la
dimensin del subespacio que contiene al actractor.
El problema es determinar los valores de los parmetros y n que nos permitan detectar
la existencia del atractor. Si es muy grande ser difcil distinguir el efecto de las
condiciones iniciales y las variables estarn incorrelacionadas y si es muy pequeo los
puntos estarn muy cercanos los elementos de las m historias seran muy parecidos. Para
determinar m hay varios mtodos que se describen en la bibliografa especializada. Uno
de esto es la correlacin espacial dada por:
T (n)
C n ( ) =
j ,i =1
j i
y i (n) y j (n) / T (n)(T (n) 1)
y i (n) y j (n) es la distancia euclidea entre yi (n) y y j (n) . Entonces se verifica:
{
{
}
y (n) y (n) }=0 si
yi (n) y j (n) =1 si yi (n) y j (n) <

i
y i ( n) y j ( n) >
El test (BDS) debido a los autores Brock, Dechert y Scheinkman asumen como
hiptesis nula que la serie responde a una sucesin de variables aleatorias
independientes e idnticamente distribuidas en donde para una dimensin n, Cn ( ) =
C1 ( ) . La hiptesis alterna es que la serie responde a un sistema determinstico o

estocstico no lineal. Para contrastar la hiptesis nula proponen el estadstico:
n
Wn ( , N ) = N ( Cn ( ) - C1 ( ) )/ n* ( )
n
25
Este test est explicado en A.E.Reyes P (2007)

Herramientas Cuantitativas en La Toma de Decisin Empresarial.
Fondo Editorial Tropykos-Caracas
48
Dado: Cn ( ) , C1 ( ) , n* ( ) es la desviacin estndar de ( Cn ( ) - C1 ( ) ). Esta viene

dada como:
n
n* ( ) = 4{h n + 2 4
n 1
m j
c 2 j + (n 1) 2 c 2 n n 2 hc 2 n 2 }
j =1
Para obtener el valor de h simplificaremos

funcin xi (n) x j (n) como H (i, j ) .
la
notacin
de
la
h= 2 (H (t , s ) H ( s, r ) + H (t , r ) H (r , s ) + H ( s, t ) H (t , r )) /(n(n 1)(n 2))

t =1 s =t +1= s +1
Bajo la hiptesis nula este estadstico se distribuye como una normal N(0,1). Si el valor
del estadstico es tal que P Wn ( , N ) Wn* ( , N ) < entonces rechazamos la hiptesis
nula. El otro test conocido como test residual de Brock, consiste en utilizar un AR(p)
para ajustar la serie, si el coeficiente de correlacin espacial de la serie de los residuos y
de la serie x son significativamente diferentes entonces sospechamos la existencia de
una estructura catica.
El cociente entre Cn ( ) y cuando tiende a cero da una nueva dimensin conocida
como dimensin de correlacin:
D(n ) = lim Cn ( ) /
0
Si el proceso es aleatorio D(n) tiende a infinito.
49
ANEXO 1 SPSS: REGRESIN NO LINEAL LIBRE Y RESTRINGIDA.
El siguiente anexo presenta las ventanas del SPSS para el problema de regresin no
lineal, la visualizacin de la mismas debe ser suficiente para un lector avisado, sin
embargo nos tomaremos la libertad de explicar la misma, sin tener la pretensin de
dictar un curso de SPSS que los hay mejores, en mucho. Suponemos que el usuario
conoce el manejo de la base de datos de este paquete tan popular entre alumnos y
especialista, por tanto, aunque parezca trivial la explicacin que sigue lo haremos para
aquellos que no estn tan familiarizado, aunque insistimos, ver la secuencia debera ser
lo suficientemente ilustrativo. La primera ventada es la seleccin del men.
Al seleccionar Nonlinear, obtendr una nueva ventana donde aparece la lista de

variables.
50
Adems una casilla donde debe especificar los parmetros, al activar el botn
parameters, aparecer una nueva ventana donde debe colocar el nombre del primer
parmetro y el valor inicial, al terminar debe activar el botn Add, luego escribir el
nombre del segundo parmetro y su valor adicional y, activar nuevamente el botn Add.
Este procedimiento continua tanta veces como parmetro tiene el modelo.
51
Al finalizar la escritura de todos los parmetros active continuar: Continue. Con este
ltimo paso se presentara en la ventana parameers la lista de los nombres de los
parmetros con los valores iniciales seleccionados entre parntesis. Si desea cambiar o
remover algn parmetro, debe activar nuevamente la ventana parameters, al hacerlo
aparecer la ventana con los parmetros que utiliz para signarle nombres y valor
iniciales y podr usar los botones remove y change Esta misma ventana permite
cambiar o remover un parmetro o su valor inicial.
Una vez realizado este procedimiento, escriba el nombre de la variable dependiente en
la casilla correspondiente.
En la casilla Model expression introduzca los parmetros indicando si estn
multiplicado las variables o si son exponentes de las mismas, para ello emplee el
recuadro de nmeros y smbolos o la listas de funciones. En la listas de smbolos cuenta
con parntesis, el smbolo de multiplicar con un asterisco etc. En el caso de necesitar
alguna funcin preestablecida en la lista de las mismas debe recordar que debe indicarle
el argumento, este aparecer con un smbolo de interrogacin hasta tanto usted no lo
defina.
52
53
Concluido lo sealado active el botn OK.

Si el modelo est especificado con una o varias restricciones sobre los parmetros active
el botn constraints y marque el redondillo: Define parameters constraints, entonces
podr escribir cada restriccin con la ayuda del cuadro de nmeros y smbolos. Al lado
derecho de la casilla donde escribe la forma de la restriccin, tiene para seleccionar el
tipo de disigualda y el valor nmrico con la se compara la restriccin.
Repita este procedimiento tanta veces como restricciones tiene el modelo. Al finalizar le
dar al botn continuar. Hay que tener cuidado en el momento de especificar las
restricciones pues el paquete tiene ciertas limitaciones si en la ventana se seleccion
como Options : Estimation Method Levenberg-Marquardt, que es un mtodo de
estimacin que est entre el mtodo de la expansin de Taylor y el mtodo de la
pendiente descendiente.
Los otros botones que estn en la primera ventana son: 1) Reset, que borra todo lo
escrito si se quiere modificar sustancialmente el modelo. 2) Save, que permite guardar
en la base de datos los valores predichos por el modelo, los residuos y las derivadas de
los parmetros evaluadas en cada punto.3)Loss, permite definir una funcin de prdida
o penalizacin. 4) Paste, que permite obtener el programa del procedimiento empleado.
54
REFERENCIA BIBLIOGRFICA.
Audrino, F. (2005)
Local Likelihood for non parametric ARCH(1) Models.
Journal of Time Series Analysis Vol 26, N 2 pag. 252-278.
Avriel, M (2003)
Nonlinear Programming-Analysis and Methods
Dover Publications. INC. New York.
Bazaraa, M.S.; Shetty, C.M (1979)
NonLinear Programming. Theory and Algorithms.
Jonh Wiley and Sons.-New York.-USA.
Blake, A.P and Kapetanios. G (2003)
Pure significance test of unit root hypothesis against nonlinear alternatives.
Journal of Time Series Analysis Vol 24, N3 pag. 254-267.
Bollerslev, T. (1986)
Generalized Autoregressive Conditional Heteroskedasticity.
Journal of Econometrics 31; pag. 307-327.
55
Byers, J.D and Peel, D.A (1995)

Foecasting Industrial Production Using Non-Linear Methods.
Journal of Forecasting, Vol 14, pag. 325-336.
Chandr,. A and Taniguchi Masanobu (2006)
Minimum -divergence Estimation for ARCH Models.
Cline, D.B.H (2006)
Evaluating the Lyapunov Exponent and Existence of Moments for Threshold ARARCH Models.
Dhrymes, P.J (1970)
Econometrics-Statistical foundations and Applications.
Harper International Edition.-New York.
Draper, N.R and Smith.H (1981)
Applied Regression Analysis. 2 Edition.
John Wiley and Sons.Inc. New York.
Engle, R.F (1982)
Autoregresive Conditional Heteroscedasticity with Estimates of the Variance of
United Kingdom Inflation.
Econometrica, Vol 50, Pag 987-1007.
Escanciano, J.C (2006)
Goodness of Fit Test for Linear and Nonlinear Time Series Models.
Journal of American Statistical Association. Vol 101, N 474 pag. 531-541.
Ferland, R. ; Latour, A. ;Oraichi, D(2006)
Integer-Valued GARCH Process.
Green, W.H (1999)
Anlisis Economtrico. 3 Edicin.
Prentice Hall-Madrid-Espaa.
Gujarati, D.N (2004)
Econometra 4 Edicin.
McGraw Hill-Mxico.
Koopman, J.S. ; Ooms, M. ; Carnero,M.A. (2007)
Periodic Seasonal Reg-AFIRMA-GARCH Models for Daily Electricity Spot Prices.
Kumar, K (1986)
On The Identification of Some Bilinear Time Series Models.
56
Lai, D.;Chen, G (2003)

Distribution of the Estimated Lyapunov Exponents from Noisy Time Series.
Maddala,G,S (1986)
Introduccion a la Econometra. 2 Edicin.
Prentice Hall-Madrid-Espaa.
Marcelo, M.C. ; Veiga, A (2003)
Diagnostic Checking in a Flexible Nonlinear Time Series Model.
Novales, A (1993)
Econometra. 2 Edicin.
McGraw Hill.-Mxico.
Pindyck, R.S. ; Rubinfeld, D.L (2000)
Econometra:-Modelos y Pronsticos. 4 Edicin.
McGraw Hill.-Mxico.
Samoro, A.; Spokoiny, V. ;Vial, C (2005)
Component Identification and Estimation in Nonlinear High_Dimension Regression
Models by Structural Adaptation.
Rochon, J.(1992)
ARMA Covariance Structure with Time Heteroscedasticity for Repeated Measures
Experiments.
Theil, H (1971)
Principles of Econometrics.
John Wiley and Sons.Inc. New York.
Tsay, R.S (1987)
Conditional Heteroscedasticic Time Series Models.
Zellner, A.,and M. Geisel(1970)
Analysis of Distributed Lag Models wiht Application to the Consumption Funtion
Econometrica, 38, pag 865-888.
57
58

Econometría - Modelo de Regresión No Lineal - Arch-Garch.

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Econometría - Modelo de Regresión No Lineal - Arch-Garch.

Enviado por

Direitos autorais:

Formatos disponíveis

ECONOMETRA: MODELO DE REGRESIN NO LINEAL- ARCH-GARCH.

San Antonio de Los Altos 30 de julio de 2007

Esta monografa est organizada de la siguiente forma: la primera parte se

Palabras claves: regresin no lineal, expansin de Taylor, mnimos cuadrados no

Profesor Asociado UCV.

uniecuacionales y multiecuacionales lineales para explicar y predecir la evolucin de las

aleatoria en el perodo t que se asume con distribucin normal N (0, 2 ) .

+ j Yt j + t y una parte no lineal

estaramos en presencia de un AR( p) . Si la serie de tiempo es hetoroscedstica

j > k el modelo se llama superdiagonal, si jk = 0 j < k el modelo se llama

j k el modelo se llama diagonal. Un caso particular del

modelo dado en (2) es:

Empleando este modelo, el mtodo de Monte Carlo y utilizando el momento de tercer

III.-MTODOS DE ESTIMACIN NO LINEAL.

En donde Y es una variable aleatoria observable endgena, X i son p variables

f : Rn R una funcin doblemente diferenciable en un punto

X , esto es : existen el vector

gradiente f ( X ) y la matriz Hessiana H ( X ) y una funcin : R n R , entonces f (.) puede

( f (.)T = (f / x1 , f / x2 ...f / xn ); H (.) = 2 f / xi x j )

IIIa.- Expansin de Taylor:

Donde X i = ( xi 0 , xi1 , xi 2 , xi 3 ...xip ) es el vector asociado a la observacin i-sima y

Donde es un valor inicial del vector de parmetros, si despejamos y agrupamos

El miembro izquierdo lo expresamos como: j f ( X i ; ) / j + i = j Z ij +

Ahora, podemos escribir la ecuacin (3) como:

En notacin matricial es:

Si se asume que es normal N (0, 2 I ) y si existe la matriz inversa ( Z T Z ) 1 y el

p = p + 1 , entonces el estimador converge

asintticamente5 a la distribucin normal N ( , *2 ( Z T Z ) 1 )

valores iniciales de los parmetros: y y evaluamos la funcin y sus derivadas en

Evaluamos ahora los componentes de la suma: j f ( X i ; ) / j dados como:

Que en nuestro ejemplo es:

estimador logrado en la iteracin (K) y j

el obtenido en el paso (K+1), el proceso termina si para

< para j = 1,2... p .

Consideremos una sucesin de variables aleatorias

con la misma funcin de distribucin

distribucin FX ( x;1 , 2 ... k ) , si la sucesin {X n } converge en probabilidad a X entonces, la sucesin

: FX n ( x;1 , 2 ... k ) converge

distribucin FX ( x;1 , 2 ... k ) , esta ltima se llama distribucin lmite y se escribe:

lim FXn (x;1 , 2 .. k ) = F ( x,1 , 2 .. k )

La ecuacin linealizada es:

IIIb.- Mnimos cuadrados no lineales MCNL:

Tomando derivadas parciales respecto a los parmetros obtenemos:

O escrito de otra forma:

Ahora, hacemos [ f ( X , ) / ] = X T ; f ( X ; ) = X * . Entonces la ecuacin (6) se

El problema fundamental es que tanto [ f ( X , ) / ] ; como f ( X ; ) no son

se puede obtener de forma directa, entonces se requiere de algoritmos6 eficientes en

El procedimiento termina cuando X 0T e 0 est prximo a cero. Green, W (1999)

Un algoritmo es un procedimiento que consiste en generar de forma iterativa un conjunto de valores de

. Entonces, definimos un nuevo valor:

X n +1 = X n H ( X n ) 1 f ( X ) Este algoritmo es til cuando la funcin es no cuadrtica, de serla se

IIIb.1.-Propiedades de los estimadote MCNL.

Donde Q0 es una matriz positiva definida, esto es: Q0 X T Q0 X > 0

ajuste por mnimos cuadrados no lineales: Yt = e X t ; para obtener el estimador de la

calculamos las correspondientes derivadas parciales: Yt / = e X t ; Yt / = e X t y

c < , es un suceso seguro. Esto se escribe como: P lim n = c .

Donde: t*2 = t*2 / n y t = Yt Y t

III.c.- Mxima verosimilitud.

fX1,X 2,...Xn(x1, x2,...xn;1,....k ) = f Xi(xi ;1,2...k )

Tomando logaritmo neperiano, obtenemos la funcin log-verosimilitud:

Lnf X 1, X 2,... Xn ( x1 , x 2 ,...x n ;1 ,.... k ) = Ln f Xi ( xi ;1 , 2 ... k )

Considerando la condicin necesaria para la existencia de un punto extremo, obtenemos

Donde: t2 = t2 / n y t = Yt Y t

Lnf X 1, X 2 ,... Xn ( x1 , x2 ,...xn ; 1 ,.... k ) / j = Ln f Xi ( xi ; 1 , 2 ... * k ) / j = 0; j = 1,2..k

2 LnL / 2 = 0 ; 2 LnL / 2 = 0 ; 2 LnL / ( *2 ) 2 =