Datos Faltantes e Imputacion-I

Tratamiento Estadstico a la Prdida e Inconsistencia de Datos del Mdulo de
Registro Histrico del Sistema de Manejo de Energa del Ecuador del Centro
Nacional de Control de Energa - CENACE
A. J. Pacheco H. Capa
Corporacin Centro Nacional de Control de Energa - CENACE
Escuela Politcnica Nacional
Resumen-- Se revisa el marco conceptual para el es el de los datos faltantes, tambin denominados
anlisis de datos faltantes sustentado en mtodos de perdidos o incompletos. Disponer de un archivo de
inferencia estadstica, se analizan las estimaciones datos completos es obligatorio para cierto tipo de
de los mtodos de imputacin tradicionales (Hot modelaciones (la regresin, por ejemplo); pero al
deck), imputacin simple, imputacin mltiple aplicar mtodos de imputacin inapropiados para
e interpolacin ptima por series de tiempo, lograrlo, puede generar ms problemas de los que
cuidando siempre de mantener el tamao de la se resuelve. Durante las ltimas dcadas se han
muestra y que no condicione la potencia estadstica desarrollado procedimientos que tienen mejores
del estudio y a la vez permita controlar posibles propiedades estadsticas que las opciones tradicionales
sesgos en las series de datos. Adems se aprovecha (eliminacin de los datos, el mtodo de las medias y
las ventajas que incorpora el programa estadstico el hot-deck, por ejemplo). Rubin (1976), propuso un
-STATA, para conseguir las estimaciones de los marco conceptual para el anlisis de datos faltantes
mtodos sealados y resolver el problema de los sustentado en mtodos de inferencia estadstica,
datos faltantes en distintos conceptos de potencia posteriormente, la aparicin de los mtodos de mxima
activa instantnea de las barras de carga del verosimilitud permiti generar estimadores robustos
Sistema Nacional Interconectados del Ecuador. en donde las observaciones faltantes se asumen
El anlisis se fundamenta en datos reales por como variables aleatorias y los datos imputados se
aplicacin de seis mtodos de imputacin para generan sin necesidad de ajustar modelos. En el ao
estudiar qu mtodo estima el valor perdido con de 1987, Rubin, introdujo el concepto de imputacin
un error inferior al 1%, por la precisin requerida mltiple en el que la premisa sustentaba de que cada
por los procesos tcnicos y comerciales que se dato faltante debe ser reemplazado a partir de m>1
realizan en CENACE. Se demuestra que es factible simulaciones, la aplicacin de esta tcnica se facilita
emplear tcnicas de imputacin a la variable por los avances computacionales y el desarrollo
potencia activa instantnea de las barras de carga de mtodos bayesianos de simulacin (Schafer,
del Sistema Nacional y que los datos perdidos 1997) los que se pueden aplicar utilizando paquetes
pueden ser reemplazados en un 66% a travs de comerciales. Adems se revisa estimaciones de datos
mtodos de imputacin mltiple o simple y 39% faltantes a travs de series de tiempo.
por otros mtodos como hot deck con Regresin
Condicionada, adems los datos reemplazados 2. DEFINICIN DE IMPUTACIN
no subestiman la varianza. Se propone que el
CENACE estime sus datos a travs de mtodos Imputar significa sustituir observaciones, ya sea
de Imputacin mltiple, simple e interpolacin porque se carece de informacin (valores perdidos)
ptima de series, ya que la matriz de datos refleja o porque se detecta que algunos de los valores
su semejanza entre las observaciones de las series recolectados no corresponden con el comportamiento
de tiempo reales. esperado. En esta situacin es comn que se desee
reponer las observaciones y se decida aplicar algn
Palabras Clave-- Datos perdidos, Imputacin mtodo de sustitucin de datos y de imputacin.
Simple, Mltiple, Series de Tiempo, Sistema
Elctrico del Ecuador, STATA. Para algunos procesos estadsticos como la regresin
lineal, anlisis de componentes principales, anlisis
1. INTRODUCCIN de varianza, etc. se requieren de datos completos y
producir algoritmos para estos modelos con datos
En el desarrollo terico de la mayora de tcnicas faltantes puede ser demasiado complicado y costoso.
y modelos estadsticos se parte de supuestos que no
se satisfacen en la prctica. Uno de los ms comunes A continuacin se revisarn el patrn de datos
que con seguridad ha enfrentado cualquier analista perdidos y los mtodos de imputacin.
35
3. PRDIDA DE DATOS PATRONES[3] variable ingresos y de otros factores.
Pr (R(Ingresos)\Edad, Ingresos) = Pr (R(Ingresos)\
Interpretando a la base de datos como una matriz, Edad, Ingresos)
en donde las filas son las unidades de observacin y las
columnas corresponden a las variables de inters, la Las imputaciones permiten obtener distribuciones
eleccin del mtodo de imputacin debera considerar predictivas de los valores perdidos, requiriendo para
el comportamiento de los datos faltantes, de acuerdo ello mtodos de creacin de este tipo de distribuciones
al anlisis visual que permite identificar los patrones basados en datos observados[3].
como se muestra en el Fig. 1.
4. METODOS DE IMPUTACIN
4.1. Imputacin por el mtodo de las medias no

condicionadas[3]
Se asume que los datos faltantes siguen un

patrn MCAR y consiste en la sustitucin de los
Figura 1: Patrones de ausencia de datos datos utilizando promedios. Su aplicacin afecta la
distribucin de probabilidad de la variable imputada,
3.1. MCAR (missing completely at random) atena la correlacin con el resto de variables y
Perdidos completamente al azar[8] subestima la varianza.
Los datos estn perdidos completamente al azar En este procedimiento de imputacin, el valor
cuando la probabilidad de que el valor de una variable medio de la variable se preserva, pero los estadsticos
Yj, sea observado para un individuo i no depende ni que definen la forma de la distribucin como la
del valor de esa variable, yij, ni del valor de las dems varianza, covarianza, quantiles, sesgo, kurtosis, etc.
variables consideradas yij, ij. Es decir, la ausencia de se ven afectados.
la informacin no est originada por ninguna variable
presente en la matriz de datos. Por ejemplo en el caso 4.2. Imputacin por medias condicionadas para
de tener en un estudio las variables ingreso y edad, datos agrupados[3]
se estar en un modelo MCAR cuando al analizar
conjuntamente edad e ingresos, la falta de respuesta Una variante del caso anterior consiste en formar
en el campo ingresos es independiente del verdadero categoras a partir de covariables correlacionadas con
valor de los ingresos y edad, es decir: la variable de inters, y posteriormente imputar los
Pr (R(Ingresos)\Edad, Ingresos)=Pr (R(Ingresos)) datos faltantes con observaciones provenientes de una
submuestra que comparte caractersticas comunes. En
3.2. MAR (missing at random) Prdidos al este procedimiento tambin se asume que el patrn
azar[8] de datos es MCAR. Adems se debe considerar que
existirn tantos promedios como categoras se formen
La ausencia de datos est asociada a variables los que contribuye a atenuar el sesgo en cada celda
presentes en la matriz de datos. Por ejemplo, si pero de ninguna manera a eliminarlo.
se supone que los ingresos totales de un hogar
son independientes del ingreso individual de sus 4.3. Imputacin Hot Deck[3],[8]
miembros pero si puede depender de la edad, en este
caso se trata de un modelo MAR, es decir: Este mtodo tiene como objetivo llenar los registros
Pr (R (Ingresos)\ Edad, Ingresos) = Pr (R(Ingresos)\ vacos (receptores) con informacin completa
Edad) (donantes); los datos faltantes se reemplazan a partir
de una seleccin aleatoria de valores observados,
3.3. NMAR (not missing at random) Prdidos los cuales no introducen sesgos a la varianza del
no al azar[8] estimador. Adems el propsito de este mtodo
es preservar la distribucin de probabilidad de las
La hiptesis de datos perdidos no al azar (NMAR) variables con datos incompletos.
es general y se produce cuando la probabilidad de que
un valor yij sea observado depende del propio valor El algoritmo ubica los registros completos e
yij, siendo este valor desconocido. En el ejemplo incompletos, identifica caractersticas comunes de
mencionado, se obtiene que la funcin respuesta de los donantes y receptores y decide los valores que
la variable ingresos depende del propio valor de la se emplearn para imputar los datos omitidos. Es
36
fundamental para la aplicacin del procedimiento que la distribucin marginal de los registros observados
generar agrupaciones que garanticen que la esta asociada a una funcin de verosimilitud para un
imputacin se llevar a cabo entre observaciones parmetro desconocido, siempre que el modelo sea
con caractersticas comunes, y la seleccin de los adecuado para el conjunto de datos completos.
donantes se realiza en forma aleatoria evitando que se
introduzca sesgo en el estimador de la varianza. Se resume el procedimiento para estimar los
parmetros de un modelo utilizando una muestra de
Existen variantes del procedimiento Hot Deck y datos faltantes, de la siguiente manera:
una de ellas es el algoritmo secuencial, el que consiste
en que ste parte de un proceso de ordenacin de los 1. Estimar los parmetros del modelo con los datos
datos en cada subgrupo y selecciona donantes en la completos con la funcin de mxima verosimilitud.
medida que recorre el archivo de datos. Otra variante 2. Utilizar los parmetros estimados para predecir
de Hot Deck, es el mtodo aleatorio, el que consiste los valores omitidos.
en identificar los registros que no poseen datos y 3. Sustituir los datos por las predicciones y obtener
elige en forma estocstica al donante. Adems existe nuevos valores de los parmetros maximizando la
la posibilidad que el donante sea el vecino ms verosimilitud de la muestra completa.
cercano al registro de datos y la seleccin se efecta 4. Aplicar el algoritmo hasta lograr la convergencia,
a partir de la definicin de criterios de distancia. la que se obtiene cuando el valor de los parmetros
no cambia entre dos iteraciones sucesivas.
4.4. Imputacin por Regresin[3]
Un procedimiento eficiente para maximizar la
Si la presencia de los datos faltantes es MCAR, es verosimilitud cuando existen datos faltantes es el
factible emplear modelos de regresin para imputar algoritmo EM, que fue proporcionado por Dempster,
informacin en la variable Y, a partir de covariables Laird y Rubin(1977).
(X1,X2,..Xp) correlacionadas.
4.6. Algoritmo EM[3]
Este procedimiento consiste en eliminar las
observaciones con datos incompletos y ajustar la Se supone una muestra de tamao n de una variable
ecuacin de la regresin para predecir los valores aleatoria, en la que alguna de la variable tiene datos
de que permitir sustituir los valores faltantes, de faltantes. Se asume que los datos faltantes se generan
modo que el valor de se construye como una media al azar. Las dos situaciones de valores faltantes son:
condicionada de las covariables X`s. i) algunos elementos de la muestra estn completos
(x1,,xn) y otros no tienen datos (x n+1,,xm) y
El presente mtodo no es factible aplicarlo cuando ii) algunas variables no tienen datos.
el anlisis secundario de datos involucra tcnicas de
anlisis de datos o de correlaciones, pues sobreestima Se supone que se trabaja con una matriz de datos
la asociacin entre variables, y en modelos de Y=(y1,..,yn), donde yi es un vector de dimensin
regresin mltiple puede sobredimensionar el valor p1*1, y un conjunto de datos ausentes Z=(z1,.,zm),
del coeficiente de determinacin R2. con zi un vector de dimensin p2*1 y el problema
consiste en estimar el vector de parmetros q con la
Una modificacin a este procedimiento es la informacin disponible.
imputacin por regresin estocstica en donde
los datos faltantes se obtienen con un modelo de La funcin de distribucin conjunta de las variables
regresin ms un valor aleatorio asociado al trmino (Y,Z) se escribe como: f(Y,Z|=f(Z|Y,)f(Y|), por lo que
de error, garantizando as la variabilidad de los se tiene que el log f(Y|)=log f(Y,Z|)-log f(Z|Y, ). En
valores imputados y contribuyendo a reducir el sesgo el procedimiento de mxima verosimilitud, el primer
en la varianza y en el coeficiente de determinacin miembro de la expresin log(f(Y|) corresponde a la
del modelo. funcin de datos observados, cuya maximizacin en
genera el estimador de mxima verosimilitud, en
4.5. Imputacin por Mxima Verosimilitud[3] cambio el trmino log f(Y,Z|) es la funcin que se
hubiese observado con la muestra completa y f(Z|Y, )
Los mtodos de imputacin por mxima proporciona la densidad de los datos ausentes, siempre
verosimilitud tienen como objetivo realizar que se conozca la muestra y el vector de parmetros .
estimaciones mximo verosmiles de los parmetros
de una distribucin cuando existen datos faltantes. Se Por tanto, la funcin de verosimilitud es
asume que los datos faltantes siguen un patrn MAR y L(|Y)=Q(|Y,Z) - log f(Z|Y, ). El algoritmo EM es un
37
procedimiento iterativo para encontrar el estimador compuesta como Y=(Yobs,Yaus), (Yobs,Yaus) es valor
de mxima verosimilitud de q, utilizando la funcin del estimador Q que se genera a partir de los datos
Q(|Y,Z). La aplicacin del algoritmo se logra y U=U(Yobs,Yaus) el error estndar de . Para el
ejecutando los siguientes pasos: conjunto de datos completos se los estandariza, es
decir.
1. Paso E (prediccin) del algoritmo EM, Se calcula
cuando i=1, a travs de la esperanza matemtica Cuando no existen datos faltantes, y considerando
de las funciones de los valores perdidos que que se dispone de m>1 simulaciones independientes
aparecen en la funcin de verosimilitud completa, de datos imputados Y(1)aus,., Y(m)aus, entonces
por su esperanza condicionada Q(|Y,Z) con
respecto a la distribucin Z dados los valores de se calcula el valor de estimador
y los datos observados Y. y sus respectivos errores
2. El paso M (maximizacin), Maximiza la funcin i=1,m. El estimador Q es el promedio de los
Q(|Y,Z) con respecto a q. Este paso equivale a estimadores .
maximizar la verosimilitud completa donde se
han sustituido las observaciones faltantes por El error estndar de se calcula a partir
estimadores. de la varianza entre las distintas imputaciones
y debido a que la varianza
Con el valor obtenido en el paso M ( ), se de cada una de las imputaciones es , el
vuelve a ejecutar el paso E, y se itera hasta lograr la estimador de la varianza total sera
convergencia, es decir, hasta que la diferencia
sea suficientemente pequea. .
La prueba de hiptesis y los intervalos de confianza

4.7. Imputacin Mltiple[2],[3],[6] se construyen a partir de una aproximacin a la t de
student por medio de , donde los
La imputacin mltiple utiliza mtodos de Monte grados de libertad se determina por medio de
Carlo y sustituye los datos faltantes a partir de un .
nmero (m>1) de simulaciones. La metodologa
consta de varias etapas, y en cada simulacin se El incremento relativo de la varianza debido
analiza la matriz de datos completos a partir de a la presencia de datos faltantes a travs de
mtodos estadstico convencionales y posteriormente , y la tasa de datos faltante se
se combinan los resultados para generar estimadores aproxima a
robustos, su error estndar e intervalos de confianza.

El procedimiento de imputacin mltiple propuesto .
por Rubin [2] se describe a continuacin y se lo
representa en el Fig. 2. El procedimiento de Rubin cuenta con los
siguientes supuestos principales:
1. El patrn de datos faltantes es MAR, es decir

que la probabilidad de que existan datos
faltantes en la variable Y depende de otros
variables pero no de Y.
2. El modelo (estadstico o economtrico)
empleado para generar los datos imputados
debe ser apropiado, es decir que, exista
correlacin alta entre la variable a imputar
y el vector de covariables que se utiliza
para modelar los datos que se utilizarn
Figura 2: Esquema de la imputacin mltiple reemplazando los faltantes.
Sea Q una variable aleatoria y se supone que se 4.8. Imputacin Mltiple Markov Chain Monte
desea estimar la media, la varianza o su coeficiente de Carlo (MCMC) [5]
correlacin con otras variables. Adems se considera
a X la matriz de los datos disponibles que se encuentra El procedimiento MCMC es una coleccin de de
38
procesos de simulacin generados por mtodos de
seleccin aleatoria mediante cadenas de Markov, y (1)
es uno de los procedimientos que se consideran ms
adecuados para generar imputaciones cuando se est
en presencia de problemas de estimacin no triviales. donde i corresponde a los coeficientes de
autocorrelacin inversa y Z(T) incluye a todos los
El mtodo MCMC se aplica para explorar la datos excepto los valores perdidos.
distribucin posterior en inferencia bayesiana.
Asumiendo que los datos provienen desde una Adicionalmente se define el proceso dual de un
distribucin normal multivariable, la agregacin de modelo ARIMA inversible como un proceso ARMA:
los datos es aplicada desde la inferencia bayesiana
a datos perdidos, a travs de la repeticin de los (2)
siguientes pasos:
Escribiendo la serie de tiempo en la representacin
1. Imputacin.- Con la estimacin del vector de la general AR( ):
media y matriz de covarianzas, el primer paso
consiste en simular los valores perdidos para cada (3)
una de las observaciones independientemente.
2. Distribucin Posterior: Concluida la simulacin entonces, si el valor zT es perdido, se obtiene un
del primer paso, se obtiene el vector de la media estimador insesgado a travs de:
de la poblacin y de la matriz de covarianza de
la muestra completa. Entonces estas nuevas (4)
estimaciones son usadas en el primer paso.
y su estimado, el que se construye con las
Finalmente se realizan varias iteraciones para observaciones previas de los valores perdidos tendr
que los resultados sean confiables, pues se tiene un una varianza . Sin embargo se debe recordar que
conjunto de datos imputados. se tiene ms informacin en zT. Esta informacin est
contenida en todas las observaciones posteriores a
Por tanto, el objetivo es que estas iteraciones converjan los valores perdidos. Se puede obtener la siguiente
a la distribucin estacionaria y entonces se obtiene una expresin para todo j, tal que pj 0:
estimacin aproximada de los valores perdidos.
(5)
Estos es, con el estimador de los parmetros en
la t-sima iteracin, el primer paso consiste en estimar
desde y en los P-Pasos y, por tanto, se obtiene un estimador adicional
estimar desde . insesgado con retardos de zT a travs de la ecuacin:
Esto crea una cadena de Markov:
(6)
La que converge a la distribucin

con varianza . Como todas estas estimaciones
El resultado de la estimacin EM provee un buen son condicionalmente insesgadas e independientes
valor inicial para comenzar el proceso MCMC. dados los valores observados, la mejor estimacin
lineal insesgada de los valores perdidos zT, ser:
4.9. Interpolacin ptima y funcin de auto
correlacin inversa para series de tiempo de (7)
una variable con valores perdidos[9]
Se supone que se tiene una serie estacionaria donde 0 =-1.

con observaciones perdidas en el tiempo T. La
estimacin de los valores perdidos es un problema Se pueden combinar los estimadores de adelanto
de interpolacin que puede ser resuelto por el clculo con n-T estimadores de retraso, a travs de la siguiente
de la esperanza de la variable aleatoria no observada ecuacin para el interpolador simple finito:
conocidos los dems datos de la misma variable.
Grenander y Rosenblatt (1957) encontraron que esta (8)
esperanza es:
39
Los procedimientos para clculo de los valores de las variables elctricas del Sistema Nacional
perdidos en series de tiempo se lo resumen as: Interconectado del Ecuador.
El anlisis de la falta de respuesta se realiza para
1. Ejecutar una primera interpolacin de los el mes de Septiembre del 2007 con una base de datos
valores perdidos, identificando los modelos horaria correspondiente a tres meses anteriores; es
ARIMA y estimando sus parmetros por mxima decir, la base de datos completa corresponde a los
verosimilitud en la serie completa. meses de julio hasta agosto del 2007.
2. Obtener los coeficientes de auto correlacin En la primera fase de este trabajo se cuantifica la
inversa, que estn directamente dados en el falta de respuesta y se observa la distribucin en la
modelo, y calcular el interpolador ptimo de los muestra.
valores perdidos.
En la siguiente fase, para el reemplazo del dato
El procedimiento es iterativo hasta cuando las faltante se aplican los siguientes procedimientos:
series hayan sido completadas por el interpolador hot deck, hot deck con regresin, regresin
ptimo. Las interacciones son importantes cuando condicionada, imputacin simple, un algoritmo de
el nmero de valores perdidos son grandes, debido a imputacin mltiple y reemplazo de dato por series
que el primer parmetro estimado se basa en algunas histricas.
interpolaciones toscas que pueden dirigir a parmetros
estimados sesgados. A continuacin se presenta el proceso de anlisis
efectuado para la Empresa Elctrica Ambato y la
5. APLICACIN AL SISTEMA NACIONAL barra Totoras, a travs del programa STATA y sus
INTERCONECTADO DEL ECUADOR resultados.
CENACE cuenta con un sistema de ltima Tabla 1: Resultados del patrn de datos de potencia activa de
generacin que le permite realizar la supervisin en la posicin Montalvo procesados por STATA.
tiempo real del sistema elctrico del Ecuador a travs
del EMS, el cual adquiere la informacin proveniente
desde el campo a travs de las unidades terminales
remotas (RTU) de las subestaciones de transmisin
y generacin del pas y que posteriormente por el
sistema de comunicaciones se transmiten datos hacia De los resultados del programa estadstico se
los Centros de Control de CENACE y CELEC- observa que los datos presentan un patrn de datos
TRANSELECTRIC. perdidos aleatoriamente.
Este procedimiento de recopilacin de los datos es Debido a que en los mtodos hot deck, hot deck
vulnerable a sufrir daos que pueden ocurrir tanto en con regresin, imputacin mltiple se requiere
las RTUs, sistema de comunicaciones o servidores, incluir el nmero de imputaciones, se realiza un
que en varias ocasiones no pueden ser superados grupo de simulaciones que permiten obtener el
inmediatamente. nmero de simulaciones que son requeridas para la
estimacin del valor. A continuacin se presentan las
Este problema provoca que los datos que son figuras:
almacenados en la base de datos histrica no
cuenten con la calidad requerida, especialmente
de consistencia y homogeneidad del dato y ello
implique contar con matrices de datos incompletas
especialmente potencias activas instantneas de las
barras de carga del Sistema Nacional Interconectado
del Ecuador, lo que dificulta la preparacin de la
informacin para los procesos tcnicos y comerciales
que ejecuta CENACE.
Por esta razn, se analiza el problema de los

datos faltantes dentro del marco de la extraccin de
la informacin de las bases de datos del Sistema de Figura 3: Nmero de imputaciones por mtodo Hot Deck
Manejo de Energa - EMS, que registra informacin
40
Tabla 2: Imputaciones mtodo de hot deck a la variable Tabla 5: Aplicacin del mtodo hot deck con regresin a la variable
potencia activa de la posicin Montalvo potencia activa de la posicin Montalvo
# imput Simulacin Valor Original AO MES DIA HORA mw_hdr
5 23,502 23,554 2007 9 3 8 21,653
28 23,144 23,554 2007 9 3 12 22,351
56 22,926 23,554 2007 9 5 12 24,189
84 22,891 23,554 2007 9 5 13 22,693
100 22,895 23,554 2007 9 5 14 24,056
2007 9 12 13 23,057
2007 9 12 14 24,049
2007 9 13 13 22,675
2007 9 13 16 23,568
Tabla 6: Aplicacin del mtodo regresin condicionada a la

variable potencia activa de la posicin Montalvo
AO MES DIA HORA mw_imp
2007 9 3 8 23,566
2007 9 3 12 23,566
2007 9 5 12 24,217
Figura 4: Nmero de imputaciones por mtodo Hot Deck con 2007 9 5 13 22,886
regresin
2007 9 5 14 23,304
2007 9 12 13 21,528
Tabla 3: Imputaciones mtodo de hot deck con regresin a la
2007 9 12 14 22,225
variable potencia activa de la posicin Montalvo
2007 9 13 13 23,168
# imput dato valor original
2007 9 13 16 24,579
5 21,239 23,553
28 22,379 23,553
56 22,365 23,553 Tabla 7: Aplicacin del mtodo imputacin simple a la variable
potencia activa de la posicin Montalvo
84 22,271 23,553
AO MES DIA HORA mw_isim
100 22,271 23,553
2007 9 3 8 23,241
2007 9 3 12 22,524
Los grficos y Tablas presentados permiten 2007 9 5 12 23,042
concluir que las 100 simulaciones son apropiadas 2007 9 5 13 23,595
para estimacin del dato, pues a partir de este 2007 9 5 14 25,297
nmero el valor estimado es constante y no existen
2007 9 12 13 21,805
variaciones significativas; cumpliendo por tanto, con
2007 9 12 14 24,040
lo establecido en la Ley de los Grandes Nmeros.
2007 9 13 13 23,316
2007 9 13 16 23,551
A continuacin se presentan los datos arrojados por
el programa STATA con los diferentes mtodos:
Tabla 8: Aplicacin del mtodo imputacin mltiple a la variable
Tabla 4: Aplicacin del mtodo hot deck a la variable potencia potencia activa de la posicin Montalvo
activa de la posicin Montalvo AO MES DIA HORA mw_imul
AO MES DIA HORA mw_hd 2007 9 3 8 23,566
2007 9 3 8 21,725 2007 9 3 12 23,565
2007 9 3 12 22,895 2007 9 5 12 24,216
2007 9 5 12 20,761 2007 9 5 13 22,885
2007 9 5 13 19,888 2007 9 5 14 23,303
2007 9 5 14 20,379 2007 9 12 13 21,528
2007 9 12 13 21,040 2007 9 12 14 22,225
2007 9 12 14 21,588 2007 9 13 13 23,167
2007 9 13 13 21,872 2007 9 13 16 24,571
2007 9 13 16 22,678
41
Tabla 9: Aplicacin del mtodo interpolacin a series de tiempo En el mtodo de Imputacin Mltiple los valores se
a la variable potencia activa de la posicin Montalvo sustituyeron de manera aleatoria y no se generaron
AO MES DIA HORA mw_series sesgos en la asignacin del valor imputado.
2007 9 3 8 22,594
2007 9 3 12 22,656 Adicionalmente se observa un menor error cuando
2007 9 5 12 24,438
los datos son imputados por Regresin Condicionada.
2007 9 5 13 24,500
Por tanto, cualquiera de los dos mtodos podra ser
utilizado para estimar la potencia activa de la posicin
2007 9 5 14 24,563
Montalvo.
2007 9 12 13 25,979
2007 9 12 14 26,521
6. CONCLUSIONES
2007 9 13 13 23,688
2007 9 13 16 23,469 Todos los mtodos de imputacin estudiados
tienen limitaciones y su correcta aplicacin
5.1. Anlisis de los Resultados depende de la manera en que se comporten los
datos faltantes. En la medida en que la falta
Los seis mtodos de imputacin propuestos se de respuesta no muestre un patrn aleatorio, la
aplicaron para sustituir a los datos perdidos en la eficacia de todas las metodologas se debilita, an
variable potencia activa instantnea de la posicin en los procedimientos de imputacin mltiple.
Montalvo en la Empresa Elctrica Ambato. Estos Al culminar este trabajo, es posible aseverar que
datos estimados se comparan con los datos reales que es factible aplicar los mtodos de imputacin
fueron registrados por CENACE en los procesos de estadstica a los datos de los registros de potencia
validacin de la informacin y almacenados en la activa instantnea provenientes del EMS,
base de datos del Sistema de Adquisicin y Datos de las barras de carga del Sistema Nacional
y Reportes - SADYR, base de datos paralela a la Interconectado del Ecuador y que, como fruto del
analizada de Histrico del EMS, para observar cul es anlisis, se puede determinar que los mtodos a
la mejor estimacin. aplicarse en las barra de carga ver Tabla 11.
Se debe mencionar que la base de datos SADYR Tabla 11: Barra de carga del Sistema Nacional Interconectado
tuvo vigencia hasta febrero del 2008, y a partir de esta EMPRESA BARRA POSICIN
MTODO
fecha la base del histrico del EMS tiene vigencia IMPUTACIN
como base de datos nica en la Corporacin CENACE. Imputacin

mltiple
Adicionalmente se seala, que no es factible mantener E.E.Ambato Totoras Montalvo
Regresin
las dos bases de datos, debido a que la base de datos Condicionada
SADYR requiere del esfuerzo de los operadores del Imputacin
Centro de Control para realizar el ingreso manual hora Pascuales Cervecera
mltiple
Regresin
a hora, en cambio la nueva base, almacena los datos Condicionada
registrados en campo directamente en el Histrico.
Imputacin
CATEG-SD Guasmo
Simple
A continuacin se presentan los anlisis de los errores Trinitaria
Regresin
Pradera
presentados por los distintos mtodos de imputacin, para Condicionada
tres datos perdidos en la base de datos de histrico del Policentro Hot Deck con
Policentro
RANGER: ATR Regresin
Hot Deck con
E.E.Quito Pomasqui Quito 1
Regresin
Tabla 10: Resultado de los errores presentados en la variable
Imputacin
potencia activa de la posicin Montalvo E.E.Cotopaxi Mulal Ambato
Simple
POSICIN
Dos Cerritos Imputacin
Mtodo de Imputacin MONTALVO EMELGUR Dos Cerritos
VALOR1 VALOR2 VALOR3 % ERROR 1 % ERROR 2 % ERROR 3 ATR Simple
Hot Deck 20,379 22,895 21,872 12,537 2,798 5,557
Hot Deck con Regresin 24,056 22,351 22,675 3,243 5,108 2,091 Imputacin
Regresin Condicionada 23,304 23,566 23,168 0,015 0,048 0,040 mltiple
EMELNORTE Ibarra 69 kV Otavalo
Imputacin Simple 25,297 22,524 23,316 8,569 4,374 0,677 Regresin
Imputacin Mltiple 23,303 23,565 23,167 0,012 0,044 0,037
Condicionada
Series de Tiempo 24,563 22,656 23,688 5,418 3,813 2,283
Dato Original 23,300 23,554 23,159
El proceso de imputacin debe preservar el valor
Se observa que el menor error en la estimacin real, es decir el valor imputado debe ser lo ms
con relacin al dato real se presenta en el mtodo de cercano posible al valor real. En el presente trabajo,
Imputacin Mltiple para los tres casos analizados. en las imputaciones se logr un error inferior al
42
1%, y en la mayora de los casos incluso un error [2] Rubin D.(2002), Multiple imputation for
cercano a 0%, cumpliendo con el criterio descrito. nonresponse in surveys, Wiley Classics Library,
Se observa que los datos perdidos de la variable 2004
potencia activa instantnea de las barras de [3] Little, Roderick J.A., y Donald B. Rubin. (2002).
carga del Sistema Nacional Interconectado del Statistical Analysis With Missing Data. Segunda
Ecuador pueden ser estimadas en un porcentaje Edicin. New Yersey. John Wiley & Sons, Inc.
aproximado al 66% mediante procedimientos [4] Von Hippel P.(2004), Biases in SPSS 12.0 Missing
de imputacin simple y mltiple, ya que estos Value Analysis, The American Statistician, Vol. 58,
mtodos reemplazan los datos perdidos en No. 2.
forma estocstica y esta es una caracterstica del [5] Carlin, Bradley P., y Thomas A. Louis. (2000).
comportamiento de la variable analizada. Adems, Bayes and Empirical Bayes Methods for Data
el empleo de estos mtodos para la variable de Analysis. . Segunda Edicin. Florida. Chapman &
estudio garantiza que no se introduzcan sesgos Hall./CRC
de asignacin en los datos, ni se subestime o [6] http:/www.multiple-imputation.com/
sobreestime la varianza. [7] Rodrguez, Gioconda, y Juan Vallecilla. (2008).
La variable con mayor tasa de no respuesta Adquisicin de Datos en el Sistema de Manejo
(7,82%) corresponde a la potencia activa de la de Energa, Network Manager. Revista Tcnica
posicin Pradera de la subestacin Trinitaria, energa Edicin No. 4.
para lo cual el mtodo de estimacin que mejor [8] Giocoechea, Aitor (2002). Imputacin basada en
la caracteriza es el de regresin condicionada, rboles de clasificacin. Eustat.
por cuanto garantiza variabilidad en los valores [9] Pea Daniel, Teno George, Tsay Ruey. (2001). A
imputados y contribuye a reducir el sesgo en la course in time series analysis. John Wiley & Sons.
varianza. [10] StataCorp LP. (2005). Stata Documentation Version
El objetivo de la imputacin es obtener una 9 Data Management. New York.
base de datos completa y consistente para que
posteriormente estos datos puedan ser analizados
mediante tcnicas estadsticas estndares.
La imputacin mltiple permiti hacer uso eficiente Hollger Capa Santos.- Naci en
de los datos, obtener estimadores no sesgados y Paltas, Ecuador, en 1955. Recibi su
reflejar adecuadamente la incertidumbre que la ttulo de Matemtico (1979) y de
no respuesta parcial introduce en la estimacin de Magister en Gerencia Empresarial
parmetros. (MBA,1995) en la Escuela
No se sugiere aplicar el mtodo de imputacin por Politcnica Nacional de Quito,
regresin cuando el anlisis secundario de datos Ecuador; y su ttulo de Doctor en Estadstica en la
involucra tcnicas de anlisis de covarianza o de Universidad Pierre y Marie Curie de Pars, Francia. Sus
correlacin, ya que sobreestima la asociacin entre principales campos de investigacin estn relacionados
las variables y sus modelos de regresin mltiple con la Econometra, el Anlisis de Riesgo y el Anlisis
pueden sobredimensionar el valor del coeficiente Bayesiano.
de determinacin R2.
El mtodo de sustitucin de datos perdidos a travs Adriana Janet Pacheco
de la media tiene implicaciones negativas en la Toscano.- Ingeniera Elctrica de
varianza del estimador e introduce distorsiones en la Escuela Politcnica Nacional en
el patrn de correlacin de los datos. 1996; y Master en Estadstica
No existe el mejor mtodo de imputacin. Aplicada de la Escuela Politcnica
Cada situacin es diferente y la eleccin del Nacional en el 2009. Ha
procedimiento de sustitucin de datos depende desempeado sus labores
de la variable de estudio, del porcentaje de datos profesionales en la fbrica de
faltantes y del uso que se har de la informacin transformadores ECUATRAN S.A. como Ingeniera de
imputada. Investigacin y Desarrollo y en el CENACE en el rea de
Estudios Elctricos de la Direccin de Planeamiento.
7. REFERENCIAS BIBLIOGRFICAS Actualmente se desempea en la Direccin de Operaciones
en el rea de Anlisis de la Operacin. Sus campos de
[1] Pacheco, Adriana (2009) Imputacin estadstica: investigacin esta relacionados con el control estadstico
Una aplicacin al Sistema Nacional Interconectado de procesos, anlisis de datos perdidos, confiabilidad de
del Ecuador Tesis de Maestra Escuela Politcnica sistemas elctricos de potencia, anlisis de series de
Nacional. tiempo.
43

Datos Faltantes e Imputacion-I

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Datos Faltantes e Imputacion-I

Enviado por

Direitos autorais:

Formatos disponíveis

Tratamiento Estadstico a la Prdida e Inconsistencia de Datos del Mdulo de

4.1. Imputacin por el mtodo de las medias no

Se asume que los datos faltantes siguen un

La prueba de hiptesis y los intervalos de confianza

1. El patrn de datos faltantes es MAR, es decir

La que converge a la distribucin

Se supone que se tiene una serie estacionaria donde 0 =-1.

Por esta razn, se analiza el problema de los

Tabla 6: Aplicacin del mtodo regresin condicionada a la

como base de datos nica en la Corporacin CENACE. Imputacin

Você também pode gostar