Você está na página 1de 7

INVESTIGACIONES EN INGENIERÍA CIVIL - ARTÍCULO DE INVESTIGACIÓN

Estimation de Datos faltantes de precipitacion de la Estación


Meteorológica ISER Pamplona, ​Colombia

/ Aplicación de metodologías para estimar los datos de precipitación de la estación meteorológica ISER
falta

Jeisson Leal R 1, María Esther Rivera 2

1 Joven investigador de Último semestre de Ingeniería Ambiental. Facultada de Ingenierías y Arquitectura.

Universidad de Pamplona, ​Jeison.leal@unipamplona.edu.co.


2 Lic. En Matemáticas y Física, Doctor en Hidrología. Grupo de Investigaciones Ambientales Agua, Aire y Suelo (GIAAS). Facultad de Ingenierías y

Arquitecturas. Programa de Ingeniería Ambiental; Universidad de Pamplona, ​maes@unipamplona.edu.co.

Fecha de Recepción del Artículo: 08/08/2016 Fecha de aceptación de article: 11/08/2016 Página
83

Esing

Resumen Que la Cantidad de Datos faltantes es menor al 1%.

En meteorología y climatología, comunmente no se registran la totalidad Key words


de Datos meteorológicos DEBIDO una Factores antrópicos, naturales,
Como instrumentales. Con una base de Este Problema y gracias a los Dato faltante, imputación, Iser Pamplona,
Datos de precipitacion 1973-2015 aportados por el Instituto de hidrología, SOLAS
Hidrología, Meteorología y Estudios Ambientales de Colombia (IDEAM), Resumen
se estimo Mediante Diferentes Metodologías de Datos faltantes Los
Valores Que No were Registrados en la serie mensual multianual de En meteorología y climatología, normalmente no todos los datos

- REVISTA INGENIEROS MILITARES


precipitacion de la estación meteorológica ISER PAMPLONA, UBICADA meteorológicos se registran debido tanto a factores antropogénicos y
en el municipio de Pamplona, ​Norte de Santander, Colombia. Para ola, naturales, como instrumentos. Sobre la base de este problema y gracias
se utilizó el software de SOLAS para la falta de análisis de datos versión a los datos de precipitación a partir de 1973- 2013 aportado por el

Estimation de Datos faltantes de precipitacion de la Estación Meteorológica ISER Pamplona, ​Colombia


5.0, aplicando Ocho Metodologías de imputación: medias de grupo, en IDEAM, los valores de los datos que faltan y que no se hayan grabado
la cubierta caliente, media prevista, Predictivo Basado en Modelos, en la serie plurianual precipitación mensual de la estación meteorológica
propensity score, predictivo media a juego, Distancia de Mahalanobis y ISER PAMPLONA (que se encuentra en Pamplona, ​Norte de Santander
Propensión Score / predictivo medio / Distancia de Mahalanobis - Colombia ) se estimaron utilizando diferentes metodologías. Para
Combinación Método, determinando Cual o cuales de Metodologías lograr esto, se utilizó el software SOLAS para faltar software de análisis
Estas resultaron aceptables Ser Al Momento de USAR Los Datos De la de datos de la versión 4.02, donde el valor de los datos que faltan se
serie mensual multianual de precipitacion de la Estación ISER estimó por ocho metodologías diferentes: Grupo de medios, la cubierta
PAMPLONA para posteriores análisis de CUALQUIER tipo. Se caliente, media prevista imputación, el modelo predictivo basado,
obtuvieron y compararon las gráficas de precipitacion anual y mensual método de puntuación de propensión, Predictivo significar método de
Acumulada párrafo Cada Una de las Metodologías utilizadas. Las coincidencia, La distancia de Mahalanobis y la propensión puntuación /
gráficas no mostraron Diferencias notables Entre sí. Los Datos faltantes método de combinación distancia media / Mahalanobis predictivo. Se
de Cada Metodología were promediados obteniéndose los Valores de determinó que de estas metodologías resultó ser aceptable en el
8.89, 25.52, 25.69 y 25.80 mm correspondientes a febrero de 1984, momento de su uso para el análisis posterior de cualquier tipo. Las
marzo de determinando Cual o cuales de Metodologías Estas resultaron gráficas de precipitación anual y mensual acumulado para cada
aceptables Ser Al Momento de USAR Los Datos De la serie mensual metodología se obtuvieron y se comparan, los gráficos no muestran
multianual de precipitacion de la Estación ISER PAMPLONA para diferencias significativas entre sí. Los datos que faltan calculados por
posteriores análisis de CUALQUIER tipo. Se obtuvieron y compararon cada metodología se promediaron, la obtención de valores de 8,89,
las gráficas de precipitacion anual y mensual Acumulada párrafo Cada 25,52, 25,69 y 25,80 mm correspondiente a 1984 de febrero de marzo
Una de las Metodologías utilizadas. Las gráficas no mostraron de 1976, marzo de 1987 y noviembre de 1995, respectivamente. Las
Diferencias notables Entre sí. Los Datos faltantes de Cada Metodología gráficas de precipitación anual y mensual acumulado para cada
were promediados obteniéndose los Valores de 8.89, 25.52, 25.69 y metodología se obtuvieron y se comparan, los gráficos no muestran
25.80 mm correspondientes a febrero de 1984, marzo de determinando Cual o diferencias significativas Estas
cuales de Metodologías entre sí. Los datos
resultaron que faltanSer
aceptables calculados por de USAR Los Datos De la
Al Momento
1976, marzo de 1987 y noviembre de 1995, respectivamente. cada metodología se promediaron, la obtención de valores de 8,89,
Para la serie mensual multianual de precipitacion de la 25,52, 25,69 y 25,80 mm correspondiente a 1984 de febrero de marzo
estación meteorológica ISER PAMPLONA Es Posible de 1976, marzo de 1987 y noviembre de 1995, respectivamente. Las
Realizar la Aplicación de Metodología any mencionada, Esto gráficas de precipitación anual y mensual acumulado para cada
Se Dębe una metodología se obtuvieron y se comparan, los gráficos no muestran diferencias significativas ent

Para citar este article / Para citar este artículo


J. Leal, ME Rivera estimacion de Datos faltantes de precipitacion de la Estación Meteorológica ISER Pamplona, ​Colombia. Revista Ingenieros Militares, nº 11, pp. 83, 2016.
Para varios años serie precipitación mensual de la estación 1. MCAR perdidos completamente al azar (Completamente
meteorológica PAMPLONA ISER es posible la aplicación de aleatorio): Se da Este tipo CUANDO La probability De que
cualquier metodología mencionada, esto es porque la cantidad de El Valor De Una variable de mar Observado PARA UN
datos que faltan es menor que 1%. Individuo no ni del valor de la variable dependiente ESA, NI
Del Valor de las variables de consideradas. Es factible de, la
ausencia de información No Está originada por la variable
Palabras clave Ninguna Presente en La Matriz de Datos.

Imputación, Iser Pamplona, ​la hidrología, los datos faltantes,


SOLAS. 2. MAR perdidos al azar (Aleatorio): Se da Este tipo de Si La
probability Que El Valor De Una variable de mar Observado
Por un Individuo no del valor de la variable dependiente
Introducción ESA, Pero quiza sí del que toma Alguna otra variable de
Página
observada. Es factible de, la ausencia de Datos this
84 La Importancia Que Representa La precipitacion en el diseño de Asociada variables de un Presentes en La Matriz de Datos.
Esing obras civiles, en la Agricultura y en la Seguridad de la sociedad
frente a algunos adj Desastres naturales Hace imprescindible
Contar con la totalidad de los Datos de precipitacion para Obtener 3. No NMAR perdidos al azar: Se producen Este tipo de
Resultados ajustados a la Realidad del fenómeno Que se mecanismo m en El caso en el cual sea la probability de Que
Estudia; : Desafortunadamente no siempre se registran todos los Un valor mar Observado Depende del propio valor, Siendo
Datos de precipitacion, lo cual sea géneros inconvenientes a la Este valor desconocido de la ONU.
- REVISTA INGENIEROS MILITARES

hora de estudiar el fenómeno. Dado Este inconveniente, varios


Número 11, Año 2016, ISSN 2145 a 3144 / BOGOTÁ-COLOMBIA

autores mencionan Diferentes Métodos para estimar los Datos


faltantes [1] - [4], algunos adj Modelos sí de basan en la Imputaciones simples
utilizacion De Una estación o estaciones Vecinas para dar
Respuesta a los Datos faltantes Como Es El caso de curvas de Grupo de Medios: Propuesta por primera vez por [7] Y
doble Masa o de otras estaciones con interpolación, en donde Posiblemente uno de los Métodos Más Sencillos, Consiste
estan estaciones Vecinas Presentan Características simplemente en imputar el dato O: datos faltantes Como el
geoclimatológicas muy Similares a La Estación de estudio. Promedio aritmético de los Datos Que se Tienen.
También, de otras EXISTEN Metodologías Que se Basan en
Modelos de Regresión Lineal Múltiple, Cadenas de Markov,
Metodos bayesianos o Técnicas de Monte Carlo para dar solución Cubierta caliente: Proceso de Duplicación. CUANDO Existe ONU
f un pecado Los Datos faltantes Necesidad de Contar con Una dato faltante, se Duplica valor ONU ya existente en la Muestra para
estación vecina logrando Una buena estimation. reemplazarlo [5]. Una ventaja f de la imputación en la cubierta
caliente Es Que los Valores imputados no sufren La Perdida de
variabilidad. Bajo la hipótesis Que El mecanismo m Que géneros La
ausencia de Datos ES MAR ó MCAR, las estimaciones de la
varianza medios e hijo no sesgadas. Otra ventaja f Es Que El
Método sin NECESITA fuertes de Presupuestos Matemáticos para la
Los Datos faltantes hijo Aquellos Datos Que No Registrados hijo estimation de los Valores faltantes [8].
DEBIDO un acontecimiento any. Dentro de la imputación de
Datos se encuentran los Métodos de imputación sencilla y
múltiple. La imputación sencilla Consiste en Asignar ONU valor
por Cada dato faltante basándose en el valor de la variable de Predicho decir: Este Método de imputación de Datos faltantes
EE.UU. La imputación de cubierta caliente Basada en la
Propia o de de otras variables Generando Una BASE DE DATOS
imputación Mediante regresión lineal por Mínimos Cuadrados,
completa, MIENTRAS Que la imputación múltiple Consiste en
Propuesto por primera vez por [9].
Asignar A Cada dato faltante Varios Valores (m), Generando m
conjuntos de Datos completos, en Cada conjunto de Datos
completo se Estiman los Parámetros de Interés y posteriormente
En su forma más Reservas simple, es mas Cercana a la
se combinan los Resultados obtenidos [5]. Los Datos faltantes se imputación por El Vecino Más Cercano En Donde La Distancia se
clasifican de la siguiente forma: [6] definen basándose en los Valores predichos yi del modelo de
imputación [10]

Imputaciones Múltiples
Rubin considera Que El Número Mínimo de imputaciones para ofrecer, en algunos adj Casos, MEJORES Resultados [14], [15], [16]
proporcionar estimaciones Validas es, en general, los Tres y Citado por [17].
Schafer no aconseja Como utilizar Más De 10 [5]. Las
imputaciones Múltiples Usadas se dividen en: Coincidencia predictivo se refiere a: Es uno de los Métodos Más
comunmente Usados ​[18]. El Método Matching predictivo Media
(PMM) Se Puede considerar Como un Método de imputación de
Sobre la base de modelos de predicción: This imputación se más cercano Neigtbor Donante (NND) en particular [19]. En Este
Desarrolla utilizando Una regresión de Mínimos Cuadrados Método utilizació Regresiones lineales y se basa en la ONU
ordinaria o de la ONU Análisis de discriminantes. LA bootstrap Bayesiano Aproximado [11]. La idea básica del modelo
INFORMACIÓN DE UN de conjunto Especificado Por El Usuario de de imputación PMM es Como utilizar Métodos de regresión para
covariables sí utilizació párr imputar los Valores Perdidos en las Llegar a Una estimation del dato faltante de la variable x. Sin
variables de una ser imputadas, EL USO of this modelo Estima embargo, en Lugar de Como utilizar Dicha estimation,
Nuevos Parámetros de regresión lineal Que Son extraídos IDENTIFICACIÓN uno o mas vecinos Que posean Valores
aleatoriamente De Una Distribución bayesiana [11]. Estimados SIMILARES, El Valor Observado del Vecino Más
Página
Próximo es utilizado Como el valor imputado para el dato faltante 85

de la variable x [20]. Esing


Propensión puntuación o índice de propensión: Definido por [12]
Como la probability condicional de Recibir ONU Tratamiento
Dadas las Características de la ONU pre-tratamiento [13]. El
índice de propensión para LA UNA Unidad i, e (x yo), Puede Ser Mahalanobis Distancia: Es Una Medida Que Se Puede Como
estimado A partir de Regresiones Logísticas de las Condiciones utilizar para Medir la similitud Entre dos Vectores. Los Vectores
del Tratamiento z yo En un vector de covarianza X yo y Viene dado Séran los Casos del Conjunto de Datos los Cuales se
por la Ecuación 1: Componen de los Valores de las covariables especificadas para
el cálculo [11]. La Distancia de Mahalanobis Viene dada por la
Ecuación 2:

- REVISTA INGENIEROS MILITARES


(1)

(2)

Estimation de Datos faltantes de precipitacion de la Estación Meteorológica ISER Pamplona, ​Colombia


Donde β Es El vector de los Coeficientes de regresión. El índice
de propensión Estima la probability DE UN Tratamiento de Ser
asignado basándose en los pretratamientos de las covariaves Donde: (x yo) Representa el vector con los Datos completos, y
del ya observadas, es Común Que this method utilizació Representa el vector con Datos faltantes y S- 1 Representa la
modelación pueden paramétrica, particularmente en las matriz de covarianzas. Cada valor de dato faltante un imputar,
Regresiones Logísticas, Métodos Aunque No paramétricos es extraído al azar del subconjunto de Valores observados
Como Arboles de regresión o Modelos impulsaron Que Poseen una menor distancia de Mahalanobis.

Figura 2. Proceso de imputación sencilla.


Propensión Score / predictivo medio / Distancia de Metodología
Mahalanobis Combinación Método: Es Una
Combinación de los Métodos de imputación múltiple puntaje Por medio del IDEAM se obtuvieron los Datos De la serie
de propensión, predictivo Mean juego y la Distancia de mensual multianual de precipitacion de la estación meteorológica
Mahalanobis. Utilizació el índice de propensión y predictivo ISER PAMPLONA; LUEGO SE importaron SOLAS de software
Mean juego al conjunto de Datos. Los Resultados hijo los Datos Al para faltante nálisis datos de la versión 5.0 (Figura
utilizados Como covariables Y SE APLICA El Método de la 1). Una Vez Importados Los Datos se inicio la imputación de
Distancia de Mahalanobis para ENCONTRAR Casos Que se ESTOS Mediante Diferentes Metodologías.
puedan Como utilizar para imputar los Datos faltantes [11].

Página
86

Esing
- REVISTA INGENIEROS MILITARES
Número 11, Año 2016, ISSN 2145 a 3144 / BOGOTÁ-COLOMBIA

Figura 3. Metodologías de imputación múltiple.

Figura 4. Proceso de imputación múltiple.

Figura 5. Datos faltantes imputados Metodología párrafo Cada


imputación sencilla. Se accedió al menú, despues analizar
imputación sencilla y En Donde se selecciono El Método de
imputación sencilla un USAR. Párr El caso del Método medias de
grupo en sí seleccionaron las variables Como los meses de
Febrero, Marzo, Noviembre y un imputar (Figura 2a). For the
methodology cubierta caliente,: Además de Seleccionar los meses
de Febrero, Marzo, las variables de Como Noviembre Y a imputar,
se seleccionaron los meses de Enero, Abril, las variables de Como
Octubre y Diciembre de Clasificación dada su Proximidad con los
meses de Datos faltantes (Figura 2b). Finalizar para, en La
metodologia predictivo Mean sí seleccionaron las variables a
imputar correspondientes a los meses de Febrero, Marzo y
Noviembre, Los Demás meses se asignaron Como covariables
(Figura 2c).
Página

Figura 1. Software SOLAS para la falta de análisis de datos versión 5.0. 87

Esing

- REVISTA INGENIEROS MILITARES


Estimation de Datos faltantes de precipitacion de la Estación Meteorológica ISER Pamplona, ​Colombia
Figura 5. Datos faltantes imputados párrafo mes de febrero.

Figura 6. Datos faltantes imputados párrafo mes de marzo

Figura 7. Datos faltantes imputados párrafo mes de noviembre


múltiple imputación. Se accedió al menú, analizar y imputación Otro method.
múltiple En Donde se selecciono El Método de imputación
múltiple un USAR (Figura Cabe resaltar Que la Elección del PROCEDIMIENTO Para El Manejo
3). Posteriormente SE seleccionaron las variables a imputar de Datos faltantes Resultados de la Búsqueda Una Tarea
correspondientes a los meses de Febrero, Marzo, Noviembre y, COMPLEJA, pues la ONU Mismo method en determinadas
Los Demás meses se seleccionaron Como covariables Fijas. Situaciones producir estimaciones Precisas y En otras, no, ESTO
Se selecciono 5 Como el Número de imputaciones Realizar sugiere un los Investigadores Que, Cuando manejen Datos faltantes,
una. Este PROCEDIMIENTO SE Realizo párr TODAS LAS Valoren previamente, el USO de Más de una alternativa para tratarlos
Metodologías de imputación múltiple (Figura 4). Que les permita una mejor Elección del PROCEDIMIENTO un
implementar, y no basarse en Resultados obtenidos de Otras
Investigaciones Donde las Condiciones pudieran Haber Sido
Resultados y Discusión Diferentes [2].

Página
En la Figura 4 se sample Cada valor de dato faltante Hallado
88 párrafo Cada mes y año del registro mensual multianual de agradecimientos
Esing precipitacion de la estación meteorológica ISER PAMPLONA
Mediante las Diferentes Metodologías de imputación. El Una solución de Estadística, por su Colaboración y Entrega del

Promedio de las Metodologías de Datos faltantes FUE de 8,89, software de la versión 5.0 de Solas.

25,52, 25,69 y 25,80 mm correspondientes a febrero de 1984,


Referencias
marzo de 1976, marzo de 1987 y noviembre de 1995. Se Cuenta
- REVISTA INGENIEROS MILITARES

con un registro de 42 años de precipitaciones mensuales


[1] FJ Aparicio, Fundamentos de Hidrología de
Número 11, Año 2016, ISSN 2145 a 3144 / BOGOTÁ-COLOMBIA

multianuales de la Estación meteorológica ISER PAMPLONA,


En Donde los Datos faltantes corresponden al 0,79% del 100% superficie. Limusa editorial. 1992 [2]
de Datos. La Figura 5, 6 y 7 representan las acumulaciones M. Cañizares, I. Barroso y Alfonso K.
mensuales de precipitacion (1973-2015) de los Datos imputados “incompletos Datos: Una mirada crítica para su
por Cada Metodología párrafo de los meses de Febrero, Marzo y Manejo en estudios sanitarios”.
Noviembre, respectivamente de Datos faltantes se observan los Diario Gaceta Sanitaria, Vol 18, No. 1, pp. 58-63,
Datos obtenidos de precipitacion anual Acumulada para Todos 2004.
los meses y Para Cada mes con dato faltante. AUNQUE
EXISTEN Diferencias Entre Metodologías Estas Diferencias
[3] S. Fattorelli, P. Fernández. “Diseño
hidrológico”. Associazione Italiana di Idronomia,
notables hijo Poco Al Momento de graficar la precipitacion
Acumulada, ESTO DEBIDO La Cantidad de Datos faltantes. 2011. [4]
Para La precipitacion de Acumulada del mes de marzo se
GS Monsalve. “Hidrología en la Ingeniería”. Escuela
presento Una Mayor Diferencia Entre Metodologías de
Colombiana de Ingeniería, edición Segunda, 1999.
imputación con un RESPECTO Las gráficas de febrero y
noviembre, Dado Que El mes de marzo Hubo Una Mayor [5]
Cantidad de Datos faltantes. DG Otero. Imputación de Datos faltantes En un
Sistema de Información Sobre Conductas de
Riesgo. Máster en Técnicas Estadísticas.
Universidad de Santiago de Compostela,
Universidade Da Coruña y Universidade de Vigo,
2011. [6]
Goicoechea, Aitor Puerta. Imputación Basada en
Conclusiones
Árboles de Clasificación. Es: EUSTAT, [en línea]
Dada la similitud de los Datos obtenidos de la Acumulación p.5-19, 2002. [7]
anual para Todos los meses y La Acumulación anual párr SS Wilks. Ciertas generalizaciones en el análisis
Cada mes con dato faltante, se concluye Que párr El caso de
la precipitacion mensual multianual de la estación de la varianza. Biométrika 24, 471-94, 1932. [8]
meteorológica ISER PAMPLONA any Metodología de
imputación de Datos ES APLICABLE Y Realmente no se AM Ferreira, Metodologías de Análisis e
observan Diferencias significativas Entre uno u imputación de Datos faltantes en serie
de Velocidad del viento. VI Congreso de Estadística e el uso de la máquina de aprendizaje. Statistics in Medicine 29
Investigación de Operaciones.
(3): 337-346 2009. [15]
2003.
DF McCaffrey, G. Ridgeway, y AR Morral, propensity
[9] SF Buck. Un método de estimación de los valores score Estimación con la potenciado regresión para la
que faltan en datos multivariados adecuados para uso evaluación de los efectos causales de estudios
observacionales.
con un ordenador electrónico. Revista de la Royal
Métodos psicológicos, 9, 403-425,
Statistical Society, B22, 302-306, 1960. [10]
2004.

GB Durrant, métodos de imputación para el manejo de [dieciséis] S. Setoguchi, S. Schneeweiss, MA


ítem-falta de respuesta en las ciencias sociales: Una Brookhart, RJ Glynn, y EF Cook, usos Evaluación de

revisión metodológica. ESRC Centro Nacional de técnicas de minería de datos en la propensión puntuación de

Métodos de Investigación y Southampton Ciencias estimación: Un estudio de simulación. Farmacoepidemiología Página


89
Estadísticas Instituto de Investigación de la Universidad seguridad de los medicamentos, 17 (6), 546-555, 2008. [17] Esing
de Southampton. 2005. [11]

Pan y W. H. Bai, puntuación de propensión de análisis y


Soluciones Estadísticos. Modelo predictivo basado
acontecimientos fundamentales. 2015. [18]
Características de imputación múltiple.
2014. Disponible en: http: //www.statsols. com / G. Durrant y C. Skinner, utilizando métodos de datos

productos / SOLAS-para-falta-datos. [12] que faltan para corregir meas. Encuesta Meth, 2006. [19]

PR Rosenbaum y Rubin DB “El papel central de la


puntuación de la propensión en los estudios M. Zio, U. A Guarnera semiparamétricos Predictive
observacionales de los efectos causales”, Mean Matching: Una evaluación empírica.

- REVISTA INGENIEROS MILITARES


Biométrika 70 (1), 41-55, 1983. [13] Estadístico comisión
y la Comisión Económica para Europa.
S. Becker, A. Ichino, “Estimación de los efectos de Conferencia de Estadísticos Europeos.

Estimation de Datos faltantes de precipitacion de la Estación Meteorológica ISER Pamplona, ​Colombia


tratamiento promedio basado en Puntuaciones de 2006.
propensión”. El Stata Journal,
vol. 2, no. 4. 2002. [14] [20] R. Williams, que faltan datos Parte II: Imputación
múltiple. Universidad de Notre Dame, 2015.
B. Lee, J. Lessler y EA Stuart, Mejorar la
propensión ponderación puntuación

Você também pode gostar