Escolar Documentos
Profissional Documentos
Cultura Documentos
CAMPUS MONTERREY
SERIES DE TIEMPO
MA -140
Prof. Dra. Graciela Gonzlez Faras
CONTENIDO
INTRODUCCIN
DESARROLLO
12
14
CONCLUSIONES
19
BIBLIOGRAFA
20
1 de 20
Introduccin
Observaciones extraordinarias e inesperadas que parezcan discordantes con la mayora de las observaciones de
un conjunto de datos es comn encontrarlas en varios tipos de anlisis de datos, tal es le caso del anlisis de las
series de tiempo. A dems de los posibles errores las observaciones de una serie de tiempo, est sujeta a la
influencia de intervenciones exgenas no repetitivas, por ejemplo las huelgas, cambios repentinos en el mercado,
cambios inesperados de ciertas condiciones de un sistema fsico o un proceso industrial, entre otros. A este tipo
de observaciones se les conoce como valores atpicos (outliers)1.
Como consecuencia de los valores atpicos las series de tiempo se ven modificadas y se pueden evaluar dichas
intervenciones en cinco dimensiones2:
1) Cantidad y tipo de valor atpico
2) Punto de la serie de tiempo en el que ocurre el valor atpico
3) Duracin de la intervencin ocasionada por este valor atpico
4) Cantidad de repeticiones
5) Secuencia de los diferentes tipos de valores atpicos
A partir de estas cinco dimensiones se pueden identificar diferentes estrategias para modelar la serie de tiempo
que incluya la deteccin de valores atpicos y ajuste del nuevo modelo con dichos valores. El objetivo de este
trabajo es presentar dos de estas estrategias o tcnicas utilizando mxima verosimilitud y mediante una
distribucin Gumbel. Adems, se presentar una propuesta para la obtencin de valores atpicos aplicada a un
control estadstico de proceso. Para ello es necesario definir los tipos de valores atpicos que existen y mencionar
los diferentes mtodos para analizarlos.
Tipos de valores atpicos
Los valores atpicos se pueden presentar en muchas formas, tales como parches, que afectan el remanente del
registro; picos, que varan la forma y la frecuencia; cambios de nivel, que alteran la frecuencia y la magnitud; y
las disfuncionalidades en la captura de datos3. En la literatura se clasifican estas formas de valores atpicos en 4
categoras: Aditivo (AO), Desplazamiento de nivel (LS), Cambio Temporal (TC) e Innovacin (IO)4.
El valor atpico aditivo (AO), es un evento o en la serie de tiempo, el cual no tiene un efecto en la serie de
tiempo excepto en el tiempo en el que ocurre. yt = xt + vt , donde las observaciones son etiquetadas como yt,
con yt relacionado al proceso xt y vt representa los valores atpicos. Por lo tanto una serie de tiempo sin valores
atpicos implica que vt=0.
Un valor atpico aditivo en forma grfica se muestra en la figura 1.
Fig. 1. Valor atpico aditivo con un decaimiento abrupto
2 de 20
El desplazamiento de nivel (LS) ocurre a travs de una funcin de saltos, el efecto es un cambio permanente en
la serie de tiempo a partir de que ocurre el valor atpico xt y continuando en xt+1, xt+2,, xn(figura 2).
El valor atpico de innovacin (IO) afecta la serie de tiempo despus del periodo t donde el valor atpico ocurre.
En IO afecta todos los valores subsecuentes en la serie de tiempo despus de que este ocurre de acuerdo a un
proceso ARIMA alterando los impactos i. Tpicamente un valor IO es ocasionado por un factor externo (ver
figura 3).
El TC es un evento con un impacto inicial que decae exponencialmente de acuerda a un factor . (ver figura 4)
En este proyecto nos enfocaremos en valores atpicos aditivos (AO) y de Innovacin (IO).
3 de 20
Por ejemplo, el anlisis de intervencin es una tcnica que emplea una variable dummy estructurada que ha sido
propuesta por Box y Tiao (1975) para lidiar con situaciones en donde la causa del valor atpico es conocida y
que adems puede causar un efecto especial, similar a la de un valor atpico aditivo, este enfoque asume que el
efecto de la intervencin tiene una estructura paramtrica el cul puede ser conocido o fcilmente estimado3.
Por otro lado, Denby y Martin (1979) investigaron la estimacin robusta para un proceso autoregresivo de primer
orden con AI e IO. Abraham y Box (1979) usaron anlisis Bayesiano para hacer inferencias con respecto a los
parmetros de un modelo Autoregresivo con posibilidad de presencia de IO en la serie de tiempo. Chernick,
Downing, y Pike (1982) sugirieron que la estrategia para la deteccin de valores atpicos sea a travs de una
funcin matricial de intervencin de las correlaciones estimadas4.
Tres aos ms tarde Tiao investig un mtodo para la deteccin de valores atpicos en procesos autorregresivos
de promedios mviles (ARMA). Posteriormente, Chang, Tiao y Chen (1988) consideraron la estimacin de los
parmetros de series de tiempo tomando en cuenta la presencia de AO e IO para procesos autorregresivos
integrados de promedios mviles (ARIMA). Otras consideraciones, como es el problema de mltiples valores
atpicos fueron tratados por Schmid (1986).
(1988) trataron el caso de un solo valor atpico AO e IO pero cuando ste ocurre en un tiempo desconocido4.
Chen continu trabajando junto con Liu (1993) y juntos tambin presentaron un mtodo de deteccin de valores
atpicos para un proceso ARIMA considerando los cuatro tipos de valores atpicos. El enfoque de ellos fue
basado en la estimacin conjunta de los parmetros del modelo y en los efectos ocasionados por los valores
atpicos en la serie de tiempo ARIMA.
4 de 20
Dado un proceso estacionario, sea Zt la serie observada y Xt la serie libre de valores atpicos. Supongamos que
{Xt} sigue un modelo general ARMA(p,q)
(B )X t = (B )at
Donde
(B ) = 1 1B K p B p
(1)
(B ) = 1 1B K q B q
invertibles sin factores comunes, y {at} es una secuencia de ruido blanco iid N(0, a ). Un modelo de valor
2
t T
Xt
Zt =
Xt + t = T
(2)
= X t + I t(T )
=
( B)
a +I t(T )
( B) t
(2a)
1, t = T
I t(T ) =
0, t T
donde
es una variable indicadora que representa la presencia o ausencia de un valor atpico en el tiempo T.
Un modelo con valor atpico de innovacin (OI) es definido como
Zt = X t +
( B ) (T )
I
( B) t
(3)
( B)
(
=
at + I t(T ) )
( B)
Entonces, un valor atpico aditivo afecta slo al nivel de la T-sima observacin, mientras que un valor atpico
de innovacin afecta a todas las observaciones ZT, ZT+1,, ms all del tiempo T a travs de la memoria del
sistema descrita por
( B) ( B ).
De forma ms general, una serie de tiempo puede contener varios, digamos k valores atpicos de distintos tipos, y
por tanto se tiene el siguiente modelo general de un modelo con valores atpicos:
k
Z t = j j (B )I t
(T j )
+ Xt
j =1
cuando X t =
(B)
a , (B ) = 1
( B) t j
para algn AO y j (B ) = ( B)
5 de 20
( B) para un IO en el tiempo t = T j .
(4)
Desarrollo
(B ) =
( B)
= (1 1B 2 B 2 K)
( B)
(1.1)
y se define
et = ( B) Z t ,
(1.2)
(T )
IO: et = I t
(T )
+ at ,
(1.3)
+ at .
(1.4)
De (1.4) podemos ver que la informacin contenida acerca de un IO est contenida en el residual et en el tiempo
T, mientras que la informacin para un AO est dispersa en la cadena de residuales eT, eT+1, Esto es, para n
observaciones disponibles el modelo AO de (1.3) puede escribirse de la siguiente forma:
e1
0 a1
M
M M
eT 1
eT 1 aT 1
eT = eT + aT
eT +1
eT +1 aT +1
eT + 2
eT + 2 aT + 2
M
M M
en
en an
Sea AT el estimador de mnimos cuadrados de
(1.5)
AT =
AO:
eT j =1 j eT + j
n T
* ( F )eT
2
6 de 20
j =0
2j
(1.6)
donde
* (F ) = (1 1F 2 F 2 K n T F n T )
n T
= j = 0 2j . La varianza del estimador es
)
* ( F )eT
Var ( AT ) = Var
1
= 4 Var [ * ( F ) aT ]
(1.7)
2
= 2a
Se tiene que:
IT =eT
IO:
(1.8)
(1.9)
= a2
Entonces, el mejor estimador del efecto de un valor atpico de innovacin en el tiempo T es el residual eT,
mientras que el mejor estimador del efecto de un valor atpico aditivo es la combinacin lineal de et,et+1, y en
con el peso dependiente de la estructura del proceso Xt de la serie de tiempo.
Si comparamos las varianzas de AT y de IT podemos ver fcilmente que Var ( AT ) Var ( IT ) , esto es
H0:
ZT no tiene ni AO ni IO
es decir,
H1:
ZT tiene AO
es decir,
H1:
AO 0
H2:
ZT tiene IO
es decir,
H2:
IO 0
H1 vs. H0 :
1,T = AT a
(1.10)
H2 vs. H0 :
2,T = IT a
(1.11)
1,T y 2, T
se distribuyen N(0,1).
7 de 20
Por otro lado, el mtodo de mxima verosimilitud nos da el siguiente criterio para probar la posibilidad de un AI
o IO en una posicin desconocida de la serie Zt.
AO:
{ }
IO: max 2 ,t
max 1, t
t =1,.... n
t =1,.... n
1,t y 2, t
para cada t =1,2,,n para tomar la decisin basado en los resultados de la muestra. Sin
j , j , j y a2
deben ser estimados. Si se conoce de antemano la existencia de puntos atpicos, entonces los estimadores de los
parmetros pueden estar bastante sesgados. En particular,
a2
Chang y Tiao (1983) como se mencion con anterioridad, propusieron un procedimiento iterativo para detectar y
manejar la situacin cuando un nmero desconocido de AO e IO pueda existir en la serie de tiempo.
Paso 1. Modelar la serie {Zt} bajo el supuesto de la ausencia de valores atpicos. Calcular los residuales del
modelo estimado, es decir,
et = ( B) Z t
=
donde
a2 =
(B )
Zt
(B )
(B ) = 1 1B 2 B 2 K p B p
(2.1)
(B ) = 1 1 B K q B q .
Sea
1 n 2
et el estimado inicial de a2 .
n t =1
{ }
T = max max i ,t ,
t
(2.2)
donde T denota el tiempo cuando el mximo ocurre. Si T = 1,T > C , donde C es una constante
positiva predeterminada tpicamente tomada de algn valor entre 3 y 4. Se recomienda utilizar C=3
para una alta sensibilidad, C=3.5 para sensibilidad media y C=4 para una sensibilidad baja en la
deteccin de puntos atpicos en la serie con longitud mxima de 200 observaciones.1 Entonces existe
un AO en el tiempo T con su efecto estimado por
AT .
~
Z t = Z t AT I tT ,
(2.3)
e~t = et AT ( B) I t(T ) .
8 de 20
(2.4)
IT .
Este efecto
del IO puede ser eliminado mediante la modificacin de los datos utilizando la ecuacin (3), esto es,
)
(B)
~
Zt = Zt )
IT I t(T ) ,
( B)
(2.5)
~
et = et IT I t(T ) .
(2.6)
2
Se hace una nueva estimacin de ~a a partir de los residuales modificados.
2
Paso 3. Recalcular 1,t y 2, t a partir de los residuales modificados y ~a , y repetir paso 2 hasta que todos los
Paso 4. Asumamos que el Paso 3 ha terminado y se han identificado tentativamente k valores atpicos en los
tiempos T1,T2, y Tk. Entonces tratemos a estos tiempos como si fueran conocidos, y ahora estimemos
los parmetros de los valores atpicos
Z t = j j (B )I t
(T j )
j =1
donde j (B ) = 1
para el AO y j (B ) = (B )
( B)
a
( B) t
(2.7)
(B ) para el IO en el tiempo t =
nuevos residuales:
(1)
t
( B)
IT I t(T ) .
= ( B) Z t )
(B)
(1)
(2.8)
Los pasos 2 al 4 son repetidos hasta que todos los valores atpicos son identificados y sus impactos son
simultneamente estimados. Entonces, se tiene el siguiente modelo ajustado:
k
Z t = j j (B )I t
(T j )
j =1
donde
j , (B ) = 1 1B 2 B 2 K p B p
( B)
at
( B)
(2.9)
(B ) = 1 1B K q B q son obtenidos de la
iteracin final.
9 de 20
En general, la potencia (probabilidad de detectar o identificar correctamente los valores atpicos) del
procedimiento aumenta cuando el tamao de la muestra aumenta y decrece cuando el valor crtico de C aumenta.
Para valores atpicos muy grandes, = 5a el procedimiento parece ser aceptable. Las probabilidades de detectar
correctamente valores atpicos con C = 3.5, oscila entre 89.6% a 98.8% para el caso de un solo valor atpico y
entre 79.2% a 95.2% para el caso de dos valores atpicos. Los porcentajes de de la correcta identificacin del
tipo de valor atpico est entre 76%-98% excepto para el caso de dos valores atpicos aditivos con n=50. Para
valores atpicos de tamao mediano, = 3a, el desempeo del procedimiento no es tan bueno.
El
procedimiento puede no identificar valores atpicos de forma regular especialmente cuando hay ms de un valor
atpico.
Ejemplo
Las observaciones de la serie representa el nmero de defectos por camin encontrados en la estacin de
inspeccin final de la lnea de ensamble de una planta manufacturera de vehculos comerciales. Los datos son
las observaciones de 45 das consecutivos laborales entre Noviembre 4 a Enero 10. La grfica de la serie sugiere
un proceso estacionario con una media y varianza constante.
exponencialmente y en la grfica PACF slo tiene un pico en el periodo 1, lo que sugiere que la serie es un
AR(1).
2.5
2.0
1.5
1.0
0
10
20
30
40
Dias
0.0
0.2
ACF
0.4
0.6
0.8
1.0
Series : TRUCK$W1
-0.2
No. de Defectos
3.0
3.5
10
Lag
10 de 20
15
-0.2
Partial ACF
0.0
0.2
0.4
Series : TRUCK$W1
10
15
Lag
(2.9)
con = 0.21 . La inspeccin de los residuales del modelo ajustado sugiere la posible existencia de valores
2
a
atpicos. Para mantener la calidad en el proceso, la deteccin de valores atpicos es una actividad importante en
el control de calidad. En este ejemplo se aplic el procedimiento iterativo antes descrito y se obtuvo el siguiente
resultado:
DETECCIN DE VALORES ATPICOS
Iteracin
Tiempo
Tipo
36
AO
IO
AO
IO
Z t = 0 + 1I t(36 ) + 2
1
1
1
I t(9) + 3 I t( 7 ) + 4
I t( 4 ) +
a
(1 B )
(1 B )
(1 B ) t
= 0 + 1I t(36 ) + 3 I t( 7 ) + 2 I t(9) + 4 I t( 4 ) + at
) (1 1B )
(2.10)
(2.10a)
11 de 20
) (1 01.28B )
(2.11)
y a2 = 0.11 . Al comparar 2.11 con 2.9 se observa una reduccin del 100% en la estimacin de la varianza de
a2 de 0.21 a 0.11 cuando los efectos de los cuatro valores atpicos son tomados en cuenta. Adems, el cambio
en los parmetros autorregresivos es tambin substancial, decrecen de 0.43 a 0.28.
Para el proceso de
produccin bajo la perspectiva de control de calidad, uno esperara que los defectos de la serie ocurran bajo la
modalidad de ruido blanco. Esto ocurrira si se escogiera un valor de C ms pequeo y se identificaran ms
valores atpicos.
Una prueba para valores atpicos aditivos aplicada a series tiempo fue desarrollada por Patrick Chareka, Florance
Matarise, Rolf Turner en el 2005, en dicha prueba encontraron la distribucin del estadstico de prueba para
detectar valores atpicos aditivos. La distribucin del estadstico de prueba converge a una distribucin Gumbel.
En esta seccin se mostrar las ideas principales de la prueba y sus conclusiones ms relevantes.
Asumiendo que potencialmente hay valores atpicos aditivos en los tiempos t1,t2,,tk (usualmente desconocidos)
el modelo para la serie de tiempo puede ser escrito como sigue:
k
Yt = j I t
( tj )
+ Xt
(3.1)
j =1
donde
It
( tj )
si t = t j
1
=
0 en otro caso
serie de tiempo Gaussiana. Se trata de determinar si hay evidencia de influencias exgenas que hayan sido
introducidas a las observaciones de la serie de tiempo, en otras palabras, se desea probar si existe alguna
innovacin aditiva (AO).
Los procedimientos actuales para probar valores atpicos aditivos se basan tpicamente en estadsticos que
toman la forma del mximo en valor absoluto de ciertos estimadores, cuya distribucin nula no ha sido tratada.
Esta prueba estadstica se construye como sigue: Sea Y1 ,K, Yn la serie de tiempo observada, que se asume que
se modela por (3.1).
12 de 20
El conjunto
(3.2)
donde Yt (n) y St ( n) son la media y la varianza muestral de la serie observada, con la t-sima observacin
omitida.
(Yt Yt (n)) 2
por Tt (n) , y por lo tanto
2
St ( n)
(Y Y (n) )2
(Y Y (n) )2
,L, n 2
Tn max 1 2
S (n)
S (n)
(3.3)
donde Y (n) y S (n) son la media y la varianza muestral usual de la serie observada. Consecuentemente, para
n grande,
2
(Y1 )2
(
Yn )
Tn max
,L ,
2
2
donde
La distribucin
el proceso
(3.4)
12
{Yt }
esta en el dominio mximo de una distribucin Gumbela. Esto es, bajo ciertas condiciones
(equivalente a
{X t })
distribucin a la distribucin de Gumbel. Las dos aproximaciones, en (3.3) y (3.4) no influyen de manera
importante en el comportamiento lmite de Tn y por lo tanto el estadstico de prueba
Cn =
Tn d n
cn
(3.5)
lim z (k ) ln(k ) = 0
{ z (k )} tal que
(Condicin de Berman)
(3.6)
La coleccin de distribuciones, para la cual la funcin de distribucin limite del mximo pertenece a una familia de distribucin en
particular, se llama mximo dominio de atraccin de esa familia.
13 de 20
k =1
z (k )
k
0 <1
(3.7)
Para cualquier realizacin Y1 ,K , Yn de esta serie de tiempo, sea Cn definido como en la ecuacin (3.5) donde
donde ( x ) = e
conforme
( e )
x
(3.8)
D
significa que converge en
< x < denota la distribucin de Gumbel y
distribucin.
Las condiciones (3.6) y (3.7) se satisfacen por una amplia variedad de procesos incluyendo todos los ARMA
estacionarios y todos los procesos estacionarios ARMA integrados fraccionarios. Asimismo, la serie de tiempo
con memoria larga tambin satisface estas condiciones.
Para comparar la potencia de esta prueba con la prueba de Chang-Tiao, se simularon varios modelos
estacionarios. En cada modelo se consideraron 100 series de 300 observaciones con un slo valor atpico de
magnitud 3 correspondiente a la serie evaluada, la posicin del valor atpico fue aleatorio. La potencia
alcanzada para la prueba de Chang-Tiao se encontr en un intervalo de 0.27 a 1.00. Mientras que la potencia de
la prueba propuesta por Chareka et al. se encuentra entre 0.25 y 1.00. La tasa de las potencias (prueba de ChangTiao sobre la propuesta aqu) tiene un intervalo cerca de 0.93 a 1.53, con mediana de 1.05 y media de 1.15. Esto
significa que bajo las condiciones simuladas, la prueba de Chang-Tiao tiene una mayor potencia.
En la prctica este tipo de control tiene varios defectos, entre los que destacan los siguientes:
- El intervalo de tiempo entre una muestra y otra puede ser muy grande comparado con la velocidad a la que
pueden ocurrir los cambios en el proceso.
- Las mediciones, al ser llevadas a cabo por diferentes personas y en muchos casos con diferentes instrumentos,
acumulan los errores de medicin de los operadores responsables y de los instrumentos.
14 de 20
- Es comn encontrar cartas de control implementadas en procesos para los cuales no son adecuadas.
- La mayora de las cartas de control empleadas no toman en cuenta la estructura dinmica del proceso que
genera los datos registrados.
- El tiempo de respuesta ante condiciones fuera de control es lento y en muchas circunstancias la presencia de
uno o ms de los problemas ya mencionados lo vuelve an ms lento.
Lo anterior vuelve necesaria la implementacin de procedimientos que eliminen o mitiguen de alguna manera
estos problemas, con el propsito no solo de controlar la calidad en un proceso, sino de asegurar un nivel
mnimo de calidad en el mismo.
Un mejor acercamiento al control del proceso estara dado por la implementacin de procedimientos
automatizados de registro y anlisis de la informacin, supervisados regularmente, en los cuales se tome en
cuenta tanto la velocidad de movimiento del proceso (inspeccin al 100%), como la naturaleza dinmica del
mismo. Esta aproximacin elimina los problemas generados por el tiempo de espera para tomar cada muestra,
adems de que remueve los errores provocados por los responsables de registrar la informacin.
CEP desde el punto de vista de los procesos ARMA con valores atpicos aditivos
Supongamos que se est monitoreando un proceso {Nt}, supongamos adems que el tiempo entre observaciones
requerido por el proceso es constante en t y que hemos empezado a registrar la informacin en t=0.
Bajo el supuesto inicial de que el proceso se ha mantenido estable durante un intervalo de tiempo lo
suficientemente largo, podemos ajustar un modelo ARMA(p,q) de la forma:
Nt = -1(B) (B) Zt = (B)Zt
(4.1)
Ahora, nuestro supuesto inicial de estabilidad del proceso no nos asegura que esta condicin se mantendr de
esta manera en el futuro; as pues, corremos el riesgo de que se introduzca un impacto generado por alguna
condicin externa al proceso, como por ejemplo el desajuste de uno de los mecanismos de operacin, la
introduccin de un nuevo material en el proceso, una modificacin en las especificaciones de diseo no
implementada correctamente, etc.
15 de 20
Aunque la forma del impacto introducido puede llegar incluso a ser permanente en el proceso observado de no
ser controlado , al estar llevando a cabo una inspeccin al 100% en el proceso podemos estar en condiciones de
detectar cualquier indicio de que algo ha ocurrido y controlarlo. Esto nos permite que de manera razonable
podamos considerar nicamente impactos temporales, como aquellos provocados por valores atpicos aditivos
que pueden ser estudiados a travs de un modelo de intervencin que considere nicamente una intervencin en
el tiempo = n, donde n es el tamao de la serie considerada.
(4.2)
Adems la fucin Pt() es una funcin indicadora que puede ser expresada en la forma
Pt ( ) =
0
t=
(4.3)
t
i=o
Pn+i (n ) =
0
i = ... 2,1,0
(4.4)
io
y entonces
Pn- j (n i ) =
j=o
16 de 20
P (n + j i )
j
j=0
(4.5)
En (4.5) podemos ver fcilmente que Pn(n+j-i) 0 siempre que i=j, o equivalentemente cuando j=0 en el punto
en el que Pn+i(n) 0 y asi,
Xn = 0
(4.6)
yt = 0,n + Nt
(4.7)
Esta ultima expresin, con la forma para Nt dada por (4.1), nos permite escribir un modelo que considera la
posible existencia de un valor atpico aditivo en la ltima observacin registrada, donde el subndice n en 0,n
indica que dicho trmino toma un valor de 0 en cualquier punto anterior a n.
Recordando nuestra suposicin inicial de que los parmetros del proceso que genera la serie observada son
estables hasta la observacin n-1, y expresando (4.7) en la forma
0,n = yt Nt
(4.8)
podemos probar la hiptesis de que en la n-sima observacin no ha ocurrido ningn impacto. Para hacer esto,
calculamos el mejor predictor lineal a un paso (en error cuadrado medio) para Nn en base a las n-1 observaciones
previas usando un modelo de la forma (4.1) y entonces
n
0,n = y n N
(4.9)
es el mejor estimador lineal del impacto sufrido en la n-sima observacin, en caso de existir.
02,n
Q = 2
z
(4.10)
Sigue una distribucin Ji-cuadrada con 1 grado de libertad bajo el supuesto de que el modelo ajustado sea
correcto y adems {Zt} sean iid N(0,2).
17 de 20
Si el valor de Q es mayor que el valor de 21 tenemos entonces evidencia suficiente para rechazar la hiptesis de
que la ltima observacin obtenida no constituye un valor atpico en nuestra serie de tiempo y debera procederse
en ese momento a una verificacin de las condiciones de operacin en el proceso. En caso de verificarse una
condicin fuera de control, podemos sustituir el valor observado en la serie con la prediccin hecha para t=n y
continuar con el monitoreo. En caso de que la hiptesis no sea rechazada podemos reajustar el modelo hasta la
observacin n y esperar a la aparicin de una nueva observacin en t=n+1 para repetir el proceso.
Desventajas
Suponiendo que la forma del modelo empleado sea correcta y que adems conocemos el valor real de los
parmetros, el estadstico Q en (4.10) sigue exactamente una distribucin Ji-cuadrada con 1 grado de libertad.
En la prctica lo que hacemos es ajustar el mejor modelo para los datos de la realizacin disponible, lo que
introduce errores de estimacin de los parmetros del modelo ARMA y de la varianza de Zt, en la prediccin de
la ltima observacin de la serie.
Lo anterior nos indica que, lo que realmente tenemos, es una aproximacin a la distribucin en cuestin y hace
que nos preguntemos acerca del tamao del efecto que tienen los errores de estimacin en la deteccin de
posibles valores atpicos en la serie.
Para tener una idea de esto se realiz una simulacin en la cual se generaron 1000 series de tiempo con las
siguientes caractersticas:
Estructura
Parmetros
1
Series Generadas
AR(2)
0.2
0.7
400
238
100
MA(2)
0.3
0.6
400
161
100
ARMA(1,1)
0.4
0.6
200
189
100
El valor de los parmetros se fij para todas las series con la misma estructura y luego se introdujo un impacto
aleatorio (con magnitud entre 1 y 3) en la observacin nmero 100 a un nmero de series seleccionado al azar.
Hecho esto, procedimos a ajustar los parmetros de las series simuladas usando mxima verosimilitud para las
primeras 99 observaciones, para despus obtener una prediccin para la observacin nmero 100 usando el
modelo ajustado.
Para todos los casos se calcul el estadstico Q y se prob la hiptesis de que no exista un valor atpico en la
ltima observacin de la serie. Una vez hechas todas las pruebas, comparamos el resultado contra el registro de
las series impactadas y pudimos as aproximar el valor de la potencia de la prueba para cada caso. Los resultados
se muestran en la siguiente tabla:
18 de 20
Modelo
Potencia
Autorregresivo
52.10%
Promedio mvil
52.17%
ARMA
57.67%
Como puede verse, la potencia de la prueba se encontr desde un 52.1% para los modelos autorregresivos, hasta
un 57.67% para los modelos ARMA.
Conclusiones
El procedimiento iterativo mostrado en la seccin 2 del documento es til para la estimacin de parmetros de
series de tiempo con posibles valores atpicos y puede ser aplicado a cualquier modelo invertible ARMA, aunque
en la literatura tambin demuestran que aplica a modelos ARIMA. Adems, el algoritmo es fcil de interpretar y
de ajustar a situaciones especficas para su aplicacin.
desventaja de que no se asocia un valor de significancia especfico y en lugar de esto, se utiliza una constante
positiva predeterminada con valores entre 3 y 4.
Con la prueba de distribucin de valores extremos, en cambio si se tiene un nivel de significancia asociado a
diferencia de la de Tiao. Sin embargo, Tiao tiene mayor potencia comparado con la prueba escrita por Chareka y
otros.
Por otro lado, la aportacin de este trabajo se fundamenta en la distribucin del mejor estimador lineal para el
impacto de un valor atpico observado en la serie desarrollada por Box (1976). La deteccin de un valor atpico
en series de tiempo generado en la lnea de un proceso industrial. La importancia de detectar dicha valor en este
mbito, radica en que un valor atpico representa un defecto generado por el proceso, por lo tanto es crucial que
la deteccin de un cambio en el proceso y la correccin del efecto exgeno introducido en el modelo sea en el
tiempo en el que ste se presenta.
Finalmente, la potencia de la prueba no result ser tan alta, sin embargo un futuro trabajo puede ser la
consideracin de alternativas tales como la extensin del periodo de anlisis, es decir no limitarlo a que se
considere un valor atpico en la ltima observacin, sino hacer la prueba para un periodo final de 5
observaciones anteriores, por ejemplo. Otra alternativa puede ser emplear el estimador del impacto obtenido
como un estimador preliminar y ajustar a la serie completa por mxima verosimilitud un modelo que considere
los parmetros del proceso ms un parmetro que considere el impacto que se est investigando. En el futuro,
estas alternativas deben ser estudiadas a detalle para poder seleccionar la mejor alternativa para la deteccin de
valores atpicos.
19 de 20
Bibliografa
1
Ih Chang, George C. Tiao y Chung Chen, Estimation of Time Series Parameters in the Presence of Outliers, Technometrics, Vol. 30, No. 2.
(May, 1988), pp. 193-204.
2
Arnau Gras, Diseos de Series Temporales: Tcnicas de Anlisis, Edicions de la Universitat de Barcelona, Espaa 2001
D.R. Brillinger and P.R. Krishnaiah, Time Series un the Frequency Domain, Elsevier Science Publishers B.V., EUA 1983
Wright, Y. Hu, Booth, Effectiveness of Joint Estimation When the Outlier Is the Last Observation in an Autocorrelated Short Time Series,
Decision Sciences, Volume 30 Number 3, Summer 1999, Printed in the U.S.A.
Patrick Chareka, Florance Matarise, Rolf Turner, A test for additive outliers applicable to long-memory time series, Journal of Economic
Dynamics & Control 30 (2006) 595-621.
20 de 20