Analisis Imputación de Datos Con Máxima Verosimilitud

Psicothema, 1997. Vol. 9, n 1, pp.
187-197
ISSN 0214 - 9915 CODEN PSOTEG
SOFTWARE, INSTRUMENTACIN
Y METODOLOGA
ESTIMACIN DE DATOS PERDIDOS POR
MXIMA VEROSIMILITUD EN PATRONES
MISSING ALEATORIOS (MAR) Y
COMPLETAMENTE ALEATORIOS (MCAR) EN
MODELOS ESTRUCTURALES
Concepcin San Luis Costas, Juan A. Hernndez Cabrera y Gustavo Ramrez Santana
Universidad de La Laguna
En las investigaciones del campo aplicado con tcnicas multivariadas es muy frecuente encontrar matrices de datos con valores perdidos. Las estrategias ms comnmente utilizadas para reconducir este problema, utilizan los mtodos listwise, pairwise y
los de estimacin de mxima verosimilitud. En este articulo se demuestra mediante las
tcnicas de simulacin de Monte Carlo en el mbito de los modelos estructurales, que independientemente del patrn de missing simulado (missing completamente aleatorio,
monotnico o condicional) la estimacin mediante el algoritmo de mxima verosimilitud EM arroja los mejores resultados, en cuanto a la precicin de la estimacin de los parmetros de los modelos, disminucin de los errores tpicos, y la posibilidad de encontrar soluciones adecuadas y convergentes en aquellos patrones de missing donde las estrategias MCAR (listwise y pairwise) son imposibles de utilizar.
Maximun likelihood missing values estimation in patterns of missing MAR and MCAR
in structurals models. In the researchs of the applied field is very common to find matrices
of data with lost values. The main strategies used in order to fix this problem, are the methods listwise, pairwise and maximum likelihood estimates. This article shows through
Monte Carlo simulation in the field of the structural models, that irrespective of the pattern
of missing simulated (missing completely at random, monotonic missing or conditional missing) the estimates through the maximum likelihood algorithm EM throws the better results,
concerning the biases in the estimate of the parameters of the models, decrease of the standard errors, and the possibility of finding convergent and adequate solutions in those patterns
of missing where the strategies MCAR (listwise and pairwise) are impossible to use.
La inferencia estadstica con datos perdidos es un problema muy importante de la

Correspondencia: Concepcin San Luis Costas
Facultad de Psicologa
Universidad de La Laguna. Campus de Guajara
Tenerife (Spain)
Psicothema, 1997
investigacin aplicada en general y de las

investigaciones con modelos estructurales
en particular. Bsicamente son tres las dificultades fundamentales en el uso de matrices con datos perdidos. En primer lugar, si
los casos con missing son diferentes a los
casos completos, las estrategias comunes de
187
ESTIMACIN DE DATOS PERDIDOS POR MXIMA VEROSIMILITUD EN PATRONES MISSING ALEATORIOS (MAR) Y COMPLETAMENTE ALEATORIOS (MCAR) EN MODELOS ESTRUCTURALES
tratamiento de este problema presentan un

importante sesgo. En segundo lugar, la existencia de datos perdidos generalmente implica una importante prdida de informacin, por lo que las estimaciones de parmetros pueden ser ineficientes. Finalmente,
las tcnicas estadsticas disponibles estn
diseadas para datos completos, por lo que,
la sola presencia de datos perdidos perjudica notablemente el anlisis (Roderick, Little
& Schenker, 1995).
Antes de exponer los mtodos disponibles para la estimacin de casos perdidos, se
hace necesario describir sucintamente los
diferentes patrones de missing que pueden encontrarse en la investigacin aplicada.
Patrones de missing.
Si una matriz es completa (sin casos perdidos), puede ser definida como una matriz
X=Xij de orden n x p, de tal forma que Xij es
el valor de la variable j, j=1... p en el caso
i, i=1 ...n. Si consideramos a la matriz
M=mij de orden n x p, como una matriz de
indicadores de datos perdidos, de tal forma
que mij= 1 si xij es un dato perdido y mij=0
si xij est presente. La matriz M describe el
patrn de missing, y su media marginal de
columna, puede ser interpretada como la
probabilidad de que xij sea missing.
La determinacin del patrn de missing
presente en los datos, es una tarea de gran
inters. Responder a preguntas del tipo.
Los sujetos que responden a una determinada variable son en realidad diferentes de
los que no responden?. La ausencia de respuesta a una determinada variable, es funcin de otra variable antecedente? (vg: a
mayor nivel socioeconmico, menor ndice
de respuesta en la variable ingresos brutos
anuales). En general, si podemos considerar
que la matriz generada mediante los procedimientos listwise o pairwise es una matriz
aleatoria de la matriz global, diremos que
188
los datos presentan un patrn de missing

completamente aleatorio (missing completely at random , MCAR), o lo que es lo mismo, diremos que el patrn de missing no es
funcin de ninguna variable de la investigacin. El patrn MCAR se define finalmente
segn Rubin (1976) como:
P( M X, ) = P( M ) para todo X
Ec. 1
la distribucin de missing dado X, depende
exclusivamente del parmetro , que carac^
teriza a las respuestas.
Esta premisa MCAR
puede ser evaluada mediante el programa
BMDPP8 (Dixon, 1988), que arroja valores
t, para cada variable, bajo la hiptesis nula
de un patrn univariado de missing completamente aleatorio. Sin embargo, si este
patrn depende de otra variable y de sta se
dispone de respuesta tanto para los que responden como para los que no, el sesgo en la
estimacin de los datos perdidos mediante
las estrategias anteriormente comentadas
que exigen un patrn MCAR, puede ser
controlado mediante un anlisis que estratifica o ajusta la variable missing en funcin
de la variable o variables antecedentes correlacionadas con la variable con ausencia
de respuesta, de las cuales se dispone de datos para todos los sujetos de la muestra. Este patrn de missing se conoce como valores perdidos aleatorios MAR (missing at
random). Se define funcionalmente como:
P( M Xobservada, Xmissing, ) = P( M Xobservada) para todo Xmissing
Ec. 2
Es decir, la distribucin de los casos perdidos, dado X, depende exclusivamente de la
variable Xobservada de la matriz de datos X.
Seguidamente haremos un breve recorrido por las estrategias mas comunes, utilizadas por los investigadores del campo aplica-
Psicothema, 1997
CONCEPCIN SAN LUIS COSTAS, JUAN A. HERNNDEZ CABRERA Y GUSTAVO RAMREZ SANTANA
do en el tratamiento de matrices de datos

con valores perdidos.
Anlisis de casos completos
En este tipo de anlisis, el investigador
simplemente elimina aquellos casos que
presentan datos perdidos en las variables
que vayan a ser utilizadas. Es el sistema estandarizado en la mayora de los paquetes
estadsticos comerciales, y se conoce con el
nombre de listwise. Presenta como ventaja fundamental su facilidad de implementacin, as como la obtencin de estimadores
vlidos, siempre que el patrn de missing
sea completamente aleatorio (MCAR ). En
otras palabras, si podemos considerar la
muestra de datos incompletos como una
muestra aleatoria de la muestra global (sin
datos perdidos) (Rubin, 1976). Sin embargo, esta estrategia de anlisis pierde una importante cantidad de informacin directamente proporcional al nmero de missing. La solucin a este problema de prdida de informacin suele radicar en eliminar
aquellas variables con un mayor porcentaje
de valores missing. En cualquier caso, si el
patrn de missing no es MCAR, el tamao
del sesgo depende, entre otros aspectos, del
grado de asociacin entre la variable missing y otras variables de la investigacin, de
la cantidad de datos perdidos as como de
las caractersticas intrnsecas del anlisis
que se est llevando a cabo.
damental derivado del hecho de que la matriz as obtenida, es frecuentemente no positiva definida, lo que la invalida para ser usada en tcnicas estadsticas que requieran la
inversin de la matriz de momentos.
Sustitucin de los valores perdidos por el
valor medio de la variable
Otra estrategia muy comn en presencia
de matrices de datos, donde la metodologa
listwise conduce a matrices de varianzas y
covarianzas con muy pocos sujetos, consiste en sustituir el valor perdido por la media
de la variable que corresponda. Sin embargo, este mtodo presenta ms inconvenientes que ventajas, dado que se produce una
disminucin artificial de la varianza de la
variable que se ha imputado, sesgndose por
tanto las asociaciones entre las mismas,
dando lugar a estimaciones errneas (Browne, 1982, 1984).
Estimacin de Mxima verosimilitud con
datos perdidos
La distribucin normal multivariada es
una premisa bsica en la mayora de las tcnicas estadsticas multivariadas, y especialmente en todas aquellas que realizan la estimacin de los parmetros de los modelos
mediante mxima verosimilitud. Este mtodo de estimacin en el entorno de datos perdidos, requiere la especificacin de un modelo de la distribucin de X y M:
Anlisis de las respuestas disponibles

El mtodo conocido como pairwise,
constituye otra estrategia muy utilizada. Esta metodologa de anlisis forma una matriz
de varianzas y covarianzas utilizando para
ello todos los datos disponibles . De esta
forma, los elementos de la matriz de momentos resultante surgen, como es obvio, de
diferentes tamaos muestrales, lo cual confiere a esta estrategia un inconveniente fun-
Psicothema, 1997
P( X, M , ) = P( X ) P( M X, )
Ec. 3
donde P(X,) representa el modelo de la
distribucin de la matriz de datos X en ausencia de datos perdidos, P(M|X, ) el modelo para los datos perdidos y y son parmetros desconocidos. El inters de la estimacin, se centra generalmente en la esti-
189
macin de los parmetros del vector , considerando a los parmetros del patrn de
missing () como ignorables. En este sentido, se asume que las filas de X siguen una
distribucin normal, con media y matriz
de varianzas y covarianzas ((,)). Las
estimaciones de mxima verosimilitud de
son los valores que maximizan la Ec. 3. Dado que el patrn de missing se asume MAR
y, por tanto, ignorable slo el trmino
P(X,) de la Ec. 3 contribuye a la estimacin ML de . Consiguientemente esta estimacin es realizada sin incluir el modelo
que explica el mecanismo subyacente a los
datos perdidos. En este sentido, la probabilidad al ignorar el mecanismo missing es la
probabilidad de en funcin de la densidad
marginal de Xobservada, ignorando la contribucin de M al modelo. Rubin (1976) indica que el mecanismo de los datos perdidos
es ignorable s:
a.-) y son parmetros distintos, o sea
no funcionalmente relacionados.
b.-) El patrn de missing es MAR; es decir, el mtodo de estimacin ML con mecanismo missing ignorable, hace depender la
estimacin de los datos perdidos de las puntuaciones observadas de X.
Esta es una de las particularidades ms
interesantes de la estimacin ML, ya que supera con creces a la estimacin basada en el
patrn MCAR. El mismo autor, declara que
el mtodo ML ignorable es preferible en todos los casos al resto de los mtodos presentados y en muchas ocasiones al mtodo
ML con patrn de missing definido y por
tanto no ignorable ya que: a) la especificacin de un modelo adecuado al mecanismo missing presente en los datos, es frecuentemente una tarea imposible. b) An
cuando a ciencia cierta el mecanismo missing sea no ignorable, el mtodo ML ignorable, puede ser superior a un mecanismo no
ignorable mal especificado.
La estimacin ML con patrn de missing
ignorable ms frecuentemente utilizada es
190
el algoritmo EM (Expected-Maximization)
(Dempsted, Laird & Rubin, 1977) que maximiza la siguiente funcin de probabilidad
para estimar la matriz de varianzas y covarianzas as como el vector de medias a partir de matrices de datos incompletas.
L( Xobs ) = p (Xobs, Xmiss ) dXmiss

Ec. 4
Sea
P( Xobservada, X missing)
la probabilidad de ( basada en los datos
completos X=(Xobservada, Xmissing). As en el
mtodo de mxima verosimilitud EM, t es
la estimacin de en la iteracin t del algoritmo. La iteracin t+1 consiste en un primer paso de esperanza (Expected) y otro de
maximizacin (Maximization). El paso E
toma la esperanza de
P( Xobservada, X missing)
en funcin de la distribucin condicional de
Xmissing dado Xobservada, evaluada en = t.
En la prctica el paso E puede ser considerado como un procedimiento de prediccin
de datos perdidos por el mtodo de regresin iterativa. De hecho, este paso predice
los valores perdidos a travs de la regresin
de las variables missing sobre las variables
observadas para cada sujeto de la muestra,
con coeficientes basados en la estimacin
de esos parmetros en la iteracin t. El paso M estima la matriz de varianzas y covarianzas as como el vector de medias, a partir del relleno de los datos missing realizados en el paso E anterior, es decir maximizando el logaritmo de la funcin (Orchad &
Woodbury, 1972, Little & Rubin, 1987, Dixon, 1988, Schoemberg, 1988). Este mto-
Psicothema, 1997
do asume una distribucin normal multivariada de las variables implicadas. Si sta no

fuese una premisa realista por la naturaleza
no normal de los datos, Little y Smith
(1987) describen una variacin del mtodo
EM, denominada ER que utiliza la distancia de Mahalanobis para ponderar a la baja
la influencia de los valores extremos en la
estimacin. Esta variacin del algoritmo
EM es til cuando EM no encuentra convergencia.
Una vez que se ha estimado el vector de
medias y la matriz de varianzas y covarianzas mediante ML, es posible imputar los
datos perdidos para cada caso utilizando el
valor esperado de las observaciones dada la
matriz de varianzas y covarianzas y el vector de medias ML. La tcnica de imputacin, es similar a la generacin de puntuaciones factoriales del anlisis de componentes principales o ejes principales. Este mtodo, sin embargo, no va a generar una matriz
de datos completa con varianzas y covarianzas idnticas a la estimada. Es exactamente
el mismo problema que se encuentra cuando se computan las puntuaciones factoriales, dado que la matriz de covarianzas de las
puntuaciones factoriales puede no ser la
misma que la matriz terica de los autnticos factores. La solucin evidente a este
problema, se encuentra en solicitar mltiples imputaciones de los datos. En este sentido Rubin y Schenker (1986, 1987) encuentran que un nmero de imputaciones
igual a 3, es para la mayora de las ocasiones el mejor, dado que conduce con una mayor probabilidad a los valores reales de los
datos perdidos. En cualquier caso, de llevarse a cabo la triple imputacin de los datos
perdidos, la matriz de datos aparecer triplicada para cada caso. Su anlisis posterior
con cualquiera de las tcnicas estadsticas
disponibles, requerir la ponderacin de cada caso por 1/3. Una vez realizada esta ponderacin la matriz de datos puede ser analizada como una matriz completa normal,
Psicothema, 1997
aunque los errores tpicos estimados en

cualquiera de las tcnicas habrn de ser
multiplicados por la raz cuadrada del nmero de imputaciones realizadas para obtener as el autntico valor del error tpico estimado en cada caso.
La existencia de datos perdidos es, tal y
como hemos indicado, un problema frecuente en la investigacin aplicada. En este trabajo, pretendemos evaluar mediante simulacin
de Monte Carlo, la eficacia de las distintas
estrategias examinadas para reconducir el
problema de los datos perdidos, y especficamente en el mbito de los modelos de estructura de covarianza. Esta es una tcnica estadstica muy difundida, donde es muy frecuente el uso de matrices de varianzas y covarianzas listwise como input, an cuando el
patrn de missing no sea MCAR, lo cual
ocurre la mayor parte de las ocasiones.
En el mbito de los modelos estructurales, se han propuesto otras tcnicas para solucionar el problema de los missing, la primera de ellas lleva a cabo la estimacin simultnea del modelo a partir de dos grupos
(Baker & Fulker, 1983; Allison 1987), el
primero de ellos contiene la matriz de varianzas y covarianzas y el vector de medias
de los datos sin missing, mientras que el segundo contiene las mismas matrices para
los datos con missing, con ceros en los parmetros relativos a las variables con datos
perdidos. El problema fundamental de esta
estrategia es doble, por un lado, si existen
muchas variables con missing ser necesario reparametrizar el modelo adecuadamente, lo cual no es una tarea fcil y, por otro,
ser necesaria una buena aproximacin a los
parmetros de comienzo para evitar as los
problemas de convergencia y de soluciones
inapropiadas por estimacin de varianzas
negativas. La otra estrategia consiste en incorporar los valores perdidos a la funcin de
discrepancia a minimizar, as como al cmputo del vector de gradientes y matriz de segundas derivadas parciales (Lee, 1986).
191
Desgraciadamente, tal incorporacin no est actualmente disponible en los paquetes

comerciales y exige un trabajo tedioso y
complicado por parte del analista de datos.
Mtodo
La presente investigacin se realiz a
partir de un modelo estructural de 11 variables observables y 5 latentes (3 exgenas y
2 endgenas). En este modelo de la Figura 1
existen 33 parmetros a estimar. Por tanto,
es un modelo con (11*(11+1)/2)-33=33 grados de libertad. A partir de la matriz de varianzas y covarianzas poblacional correspondiente al modelo de la figura 1, se generaron 500 muestras de tamao 300 en 11 variables utilizando el algoritmo de Fleishman
(1978) y Vale and Maurelli (1983) segn un
programa GAUSS (Hernndez, J., San Luis,
C. & Snchez Bruno, 1995). A cada una de
estas muestras se le aplic 3 patrones de
missing distintos, con un 20% de datos perdidos en cada uno de ellos.
macin de matrices de varianzas y covarianzas por los mtodos listwise y pairwise,

dado que si para los sujetos i=1 hasta 10 hay
missing en la primera variable, para esos
mismos sujetos en las siguientes variables
los casos estn completos. Una vez aplicadas las tres mscaras missing a cada una
de las muestras, stas eran analizadas una a
una mediante un paquete de modelos estructurales creado a tal efecto en lenguaje
GAUSS (Aptech Systems, 1995) (Hernndez, J. Ramrez, G. & Snchez, A, 1995),
primero de forma completa (muestra completa) y luego cada una de las nuevas
muestras con el patrn de missing simulado,
utilizando como matriz de momentos de entrada la matriz de los datos sin missing, la
matriz listwise y la matriz de varianzas y
covarianzas estimada segn el algoritmo
EM implementado en el mdulo MISS del
paquete GAUSS (Schoenberg, 1988).
Figura 1. Modelo estructural de 11 variables observables, 5 factores y 33 parmetros a estimar.
En la Figura 2, pueden verse los distintos

patrones aplicados. El primer patrn es
completamente aleatorio (MCAR), el segundo es monotnico creciente, es decir a
medida que aumentamos el nmero de la
variable observable, disminuye el nmero
de missing por variable. El tercer patrn, de
missing condicional, hace inviable la esti-
192
Figura 2. Patrones de Missing simulados.
Psicothema, 1997
Resultados
En la Tabla 1 se presentan el valor medio
y desviacin tpica del mnimo de la funcin
de discrepancia (cuyo producto por el tamao de la muestra da lugar al estadstico 2) el
estadstico 2, los ndices de ajuste GFI y
AGFI (para la estimacin ML) y el error
cuadrtico medio para cada una de las condiciones simuladas. En esta tabla puede verse en primer lugar, que el valor ms pequeo de la funcin de discrepancia, se sita como cabra esperar, en la estimacin de la matriz de datos sin missing. Sin embargo, este
valor ha sido incluido por un inters meramente comparativo con el mnimo de las distintas estrategias utilizadas para solucionar
el problema de los datos perdidos en los tres
patrones de missing simulados (completamente aleatorio, monotnico y condicional).
En este sentido, puede verse que el mnimo
de la estrategia listwise, es siempre mayor
que el encontrado en la estimacin ML independientemente del patrn de missing simulado. Por otra parte, puede observarse que,
como cabra esperar, no existe solucin listwise alguna para el patrn de missing condicional, consiguindose sin embargo el 100%
de las soluciones a travs de las 500 muestras al utilizar la estimacin ML. En la segunda lnea de esta tabla, se encuentra el
error cuadrtico medio para cada una de las
condiciones. Nuevamente, el valor ms bajo
se sita en la estimacin sin missing, si comparamos este valor con el resto de los errores, vemos que en todos los casos la estimacin mediante matrices listwise genera un
error considerablemente mayor que el encontrado en la estimacin de mxima verosimilitud, los cuales se encuentran muy prximos tanto al valor medio como a la desviacin tpica de la estimacin sin missing.
Con respecto al estadstico 2, vemos que
se encuentra muy prximo al valor esperado
de 33 para la media y 8 de desviacin tpica
para la estimacin sin missing. Sin embargo,
Psicothema, 1997
la estimacin a partir de una matriz listwise,

genera valores superiores al esperado tanto
para la media como para la desviacin tpica
tanto en el patrn MCAR como para el patrn monotnico. Aunque hay que considerar que la estrategia listwise, para ambos patrones, genera matrices de varianzas y covarianzas a partir de 86 y 109 casos completos,
respectivamente. Con respecto a la estrategia ML, si consideramos al nmero de sujetos de la muestra como de 300 (sin missing),
evidentemente arrojara valores del estadstico 2 muy superiores al esperado a pesar de
presentar un error cuadrtico medio y un mnimo de la funcin de discrepancia mucho
menores que los valores encontrados en la
estimacin a partir de las matrices listwise.
Por este motivo, se ha escogido como indicadores de ajuste mas adecuado, los ndices
GFI y AGFI independientes del tamao
muestral. Estos indicadores, evidencian valores medios de ajuste ptimos con una gran
estabilidad como se evidencia en la escasa
desviacin tpica de los mismos, independientemente del patrn de missing investigado, en clara concordancia con los errores
cuadrticos medios encontrados.
Tabla 1
Media y desviacin tpica del mnimo de la
funcin de discrepancia, error cuadrtico
medio en la estimacin de los 33 parmetros
del modelo estructural 2, GFI y AGFI
Patrn de Missing
MCAR
Mnimo F.D.
x
Error
x
2
x
x
GFI
x
AGFI
x
Missing Monotnico
Missing C.
Sin Missing
Listwise
ML
Listwise
ML
ML
.1142
.0277
.4106
.0961
.1939
.0454
.3264
.0840
.2402
.0586
.3882
.1101
.0140
.0042
.326
.0389
.0178
.0073
.289
.0393
.0215
.0108
.0201
.0069
34.28
8.333
35.31
8.270
.9917
.0022
.9899
.0024
.9837
.0046
0.9917
.0022
.9899
.0024
.9837
.0046
35.58
9.159
193
En la Tabla 2, se presentan los valores

medios de los 33 parmetros estimados para cada una de las condiciones simuladas.
En general, si los comparamos con los encontrados para la estimacin sin missing,
vemos que presentan valores muy prximos
a los de referencia. Aunque como es obvio,
en el patrn condicional slo encontramos
los referentes a las soluciones provenientes
de la estimacin de la matriz de varianzas y
covarianzas mediante ML.
Tabla 2
Media del parmetro estimado a travs de los
patrones de missing simulados
Patrn de Missing
MCAR
Missing Monotnico
Missing C.
Sin Missing
Listwise
ML
Listwise
ML
ML
21
42
21
31
32
52
73
1.00619
.99636
1.09257
.51458
.70919
.99032
1.06118
1.00450
.99522
1.09965
.51484
.71157
.98456
1.06262
1.00692
.99630
1.08949
.50956
.71162
.98695
1.06284
1.00612
.99677
1.09623
.51200
.71476
.98781
1.06789
1.00367
.99594
1.09579
.51830
.71144
.98642
1.06609
1.01506
.98574
1.09878
.51726
.71001
.98408
1.06513
21
12
.60822
.23785
.60524
.24108
.60463
.23966
.59963
.24151
.61133
.24037
.59735
.23689
11
21
12
23
.25048
.48259
.48945
.64658
.25160
.36274
.44988
.70355
.24634
.44031
.47169
.66452
.24457
.43494
.48042
.66817
.25451
.44044
.47903
.67229
.24992
.47381
.48694
.65491
11
12
13
22
32
33
.13148
.08244
.12970
.75514
.49331
.82027
.13121
.11007
.47478
.73346
.50342
.84439
.13313
.09353
.15774
.73202
.49270
.81364
.13252
.09430
.18054
.72471
.49299
.81908
.12806
.09134
.17141
.72193
.48737
.81006
.05747
.11328
.12762
.70464
.47605
.80247
11
21
22
.39663
.19214
.84098
.40381
.19636
.84781
.39547
.19714
.83383
.39210
.19002
.83027
.39280
.19179
.82915
.38527
.18729
.81938
1
2
3
4
5
6
7
.07203
.06039
.02213
.02906
.27034
.13482
.04043
.07101
.05980
.02236
.02947
.26486
.13026
.03887
.07081
.05939
.02192
.02930
.27003
.13425
.03943
.07021
.06026
.02228
.02838
.27264
.12971
.03913
.06895
.06023
.02255
.02844
.27207
.13472
.04044
.15479
.13512
.01166
.03893
.26666
.13174
.03999`
1
2
3
4
.18551
.20564
.16384
.05723
.17970
.20602
.16074
.05763
.18353
.20610
.16349
.05284
.18434
.20583
.16650
.05579
.18303
.20518
.16523
.05709
.18042
.20015
.16266
.06087
194
En la Tabla 3, vemos los errores tpicos

empricos (desviacin tpica cada parmetro
estimado en las 500 resplicaciones) y los
errores tpicos estimados (media de los errores tpicos estimados para cada parmetro) a
travs de los distintos patrones de missing
investigados. Si observamos los errores tpicos empricos y estimados para las muestras
sin missing, encontramos que ambos son
bajos y coinciden (los errores tpicos estn
correctamente estimados). Sin embargo, si
los comparamos con los errores tpicos de la
estimacin a partir de listwise en el patrn
aleatorio y monotnico vemos que, aunque
tanto los errores tpicos como los estimados
coinciden, stos son considerablemente mayores conduciendo, por tanto, a valores t de
significacin de cada parmetro menores a
los esperados.
Con respecto a la estimacin de mxima
verosimilitud, vemos que todos los errores
tpicos empricos son claramente menores a
los obtenidos con listwise, lo cual concuerda con una estimacin mas certera de los
parmetros del modelo. Sin embargo, si observamos los errores tpicos estimados, vemos que en general stos son infraestimados, conduciendo a valores t de significacin superiores a los que correspondera.
Dicha situacin, evidentemente, se debe al
hecho de que la estimacin de los errores tpicos en un modelo estructural se lleva a cabo a partir del producto del inverso del tamao muestral declarado por la raz cuadrada de los elementos de la diagonal de la matriz hessiana (segundas derivadas parciales)
en el mnimo de la funcin de discrepancia
1
ET =
diag (H 1 )
.
N
Para todas las estimaciones de ML se ha
incluido como tamao muestral el de la
muestra sin missing (N=300). Con la intencin de comprobar esta hiptesis, repetimos
Psicothema, 1997
nuevamente el anlisis para la estimacin de

mxima verosimilitud, en los tres patrones
missing incluyendo como tamao muestral
N-20% de los casos (porcentaje de missing
de la muestra). En la Tabla 4, puede verse
que existe una mayor coincidencia entre los
errores tpicos estimados y empricos, lo
cual demuestra lo acertado de la solucin de
disminuir el valor del tamao muestral eliminando del mismo el porcentaje de missing de la muestra.
Conclusiones
A la luz de la claramente mayor eficacia
de la estimacin de mxima verosimilitud
de las matrices de varianzas y covarianzas
(utilizadas en todos las tcnicas estadsticas
multivariadas), la conclusin obvia de esta
investigacin recae en el hecho de recomendar la utilizacin de esta tcnica para estimar la matriz de momentos siempre que el
investigador se encuentre ante matrices de
Tabla 3
Desviacin tpica del parmetro estimado y media de error tpico estimado a travs de los tres patrones de
missing y de las tres estimaciones de la matriz de varianzas y covarianzas
Patrn de Missing
MCAR
Sin Missing
X
.0226
.0136
.0497
.0381
.0373
.0419
.0365
Listwise
Missing Monotnico
ML
Listwise
M. Condicional
ML
ML
.0394
.0244
.1012
.0735
.0768
.0785
.0756
X
.0418
.0258
.0926
.0715
.0692
.0771
.0683
.0276
.0151
.0608
.0493
.0498
.0536
.0483
X
.0226
.0136
.0495
.0379
.0370
.0418
.0364
.0391
.0224
.0838
.0672
.0654
.0681
.0655
X
.0378
.0228
.829
.0642
.0626
.0695
.0620
.0381
.0199
.0617
0.479
.0458
.0459
.0446
X
.0227
.0137
.0497
.0381
.0373
.0418
.0370
.0579
.0227
.0633
0.482
.0465
.0490
.0664
X
.0341
.0135
.0497
.0381
.0374
.0422
.0363
21
42
21
31
32
52
73
.0239
.0127
.0486
.0382
.0383
.0434
.0375
21
12
.0386
.0445
.0368
.0439
.0761
.093
.0709
.0838
.0421
.0497
.0368
.0437
.0617
.0710
.0630
.0746
.0533
.0601
.0374
.0440
.0499
.0547
.0342
.0398
11
21
12
23
.0407
.1129
.0472
.0636
.0403
.1238
.0495
.0708
0.745
.7704
.2033
.4186
0.075
.8270
.0415
.4752
.0446
.1433
.0560
.0777
.0401
.1262
.0503
.0719
.0685
.7419
.2144
.4092
.0682
.6649
.2040
.3665
.0577
.2654
.0872
.1333
.0404
.1666
.0585
.0896
.0504
.2103
.0681
.1081
.0367
.1462
.0544
.0802
21
12
13
22
32
33
.0206
.0324
.0589
.0774
.0590
.0780
.0208
.0357
.0639
.0798
.0601
.0821
.0410
.1747
.5267
.1463
.1132
.1528
.0395
.1979
.7551
.1491
.1137
.1562
.0228
.0397
.0789
.0847
.0614
.0820
.0207
.0362
.0677
.0794
.0599
.0819
.0361
.1799
.1331
.1334
.1031
.1369
.0354
.1677
.3779
.1325
.1000
.1368
.0312
.0714
.2624
.0907
.0644
.0849
.0211
.0463
.1345
.0798
.0600
.0819
.0255
.0507
.2884
.0840
.0589
.0893
.0182
.0318
.1232
.0780
.0582
.0795
11
21
22
.0529
.0483
.0841
.0557
.0525
.0824
.1018
.0942
.1522
.1047
.0995
.1544
.0569
.0510
.0883
.0555
.0524
.0822
.0951
.0856
.1436
.0918
.0866
.1356
.0605
.0546
.0824
.0553
.0521
.0817
.0613
.0538
.1054
.0544
.0510
.0803
1
2
3
4
5
6
7
.0094
.0087
.0044
.0046
.0263
.0203
.0087
.0089
.0084
.0043
.0045
.0272
.0207
.0091
.0173
.0153
.0086
.0083
.0502
.0433
.0170
.0163
.0153
.0080
.0084
.0495
.0376
.0167
.0109
.0102
.0059
.0057
.0327
.0277
.0125
.0088
.0102
.0043
.0045
.0269
.0203
.0090
.0164
.0083
.0082
.0084
.0478
.0352
.0161
.0145
.0136
.0071
.00744
.0448
.0334
.0150
.0161
.0137
.0077
.0078
.0352
.0272
.0124
.0087
.0082
.0043
.0045
.0272
.0202
.0090
.0261
.0151
.0056
.0074
.0356
.0317
.0131
.0145
.0134
.0034
.0044
.0265
.0194
.0085
1
2
3
4
.0220
.0215
.0212
.0193
.0216
.0226
.0208
.0185
.0374
.0406
.0416
.0335
.0394
.0417
.0381
.0340
.0272
.0273
.0252
.0233
.0214
.0224
.0206
.0184
.0341
.0399
.0367
.0332
.0352
.0372
.0343
.0307
.0242
.0271
.0281
.0279
.0214
.0224
.0208
.0185
.0274
.0258
.0385
.0357
.0210
.0219
.0196
.0171
Psicothema, 1997
195
datos con valores perdidos independientemente de que el patrn sea MCAR o MAR.
Tal recomendacin se sustenta en el hecho
de que aunque la estrategia listwise es suficientemente eficiente en lo que a la estimacin de los parmetros se refiere, en patrones missing completamente aleatorios y
monotnicos, no lo es tanto en el estadstico
de ajuste y en los errores tpicos que son claramente ms elevados que los de la muestra
sin missing, lo que conducir frecuentemente a la eliminacin de parmetros aparentemente no significativos del modelo investigado. Por otra parte, el nmero de soluciones convergentes y adecuadas con esta estrategia es claramente menor al conseguido
con la estimacin ML. Cuando el patrn de
missing es MAR o el nmero de casos perdidos muy elevado, puede producirse un
sesgo en la estimacin de los parmetros ya
que la matriz muestral listwise no es una
muestra aleatoria de la matriz de datos sin
missing , o la imposibilidad de estimar el
modelo dado que la matriz listwise contiene
muy pocos casos. Tal y como hemos podido
comprobar, en todas las ocasiones la estimacin de mxima verosimilitud fue claramente superior a la realizada a partir de la
matriz listwise, y esta estrategia fue imposible de utilizar cuando el patrn de missing
era condicional. Hay que indicar, sin embargo, que la estimacin ML en este patrn,
aunque exitosa en las 500 muestras utilizadas, requiri de un nmero muy elevado de
iteraciones (aproximadamente 200), dado
que se utiliz como matriz de comienzo para iterar una matriz identidad de orden p x
p (11 x 11).
En el caso de que se necesite disponer de
los valores perdidos, y no solamente del
vector de medias y de la matriz de varianzas
y covarianzas, puede realizarse la triple imputacin de los datos perdidos, una vez estimadas las matrices de momentos anteriores
por ML, realizando posteriormente la ponderacin de los casos por 1/3 para poder lle-
196
var a cabo de esta forma los anlisis multivariados clsicos con normalidad.
Tabla 4
Desviacin tpica y media del parmetro
estimado y del error tpico estimado
respectivamente, para la estimacin de la
matriz de varianzas y covarianzas mediante
ML, considerando el tamao muestral como
N-20%
Patrn de Missing con estimacin ML
MCAR
Missing Monotnico
Missing C.
21
42
21
31
32
52
73
.02666
.01668
.05941
.04453
.04910
.04935
.04624
.02954
.01804
.06482
.04959
.04898
.05505
.04818
.03830
.02139
.06718
.04616
.04819
.04765
.04462
.02923
.01792
.06565
.05042
.04929
.05510
.04834
.05877
.02439
.06141
.04757
.04646
.04934
.07035
.04538
.01777
.06549
.04997
.04855
.05474
.04812
21
12
.04099
.05229
.04877
.05744
.05656
.07063
.04782
.04724
.05326
.05287
.04467
.05183
11
21
12
23
.04865
.16950
.06760
.09027
.05313
.19152
.07180
.10698
.06423
.24200
.08237
.13444
.05271
.20791
.07898
.11700
.05173
.17187
.06451
.09456
.04744
.17063
.06619
.09545
11
12
13
22
32
33
.02337
.05067
.12367
.09051
.06929
.09224
.02752
.05497
.12223
.10518
.07864
.10664
.03500
.07324
.25893
.09424
.06711
.08646
.02666
.05877
.17836
.10420
.07798
.10621
.02627
.03671
.10947
.08587
.06362
.08714
.02354
.03602
.10408
.10171
.07646
.10509
11
21
22
.06237
.05440
.08749
.07292
.06833
.10715
.06018
.05630
.07921
.07236
.06798
.10677
.05987
.05803
.09978
.07096
.06705
.10520
1
2
3
4
5
6
7
1
2
3
4
.01085
.00997
.00597
.00631
.03542
.02686
.01349
.02632
.02797
.02753
.022472
.01154
.01087
.00566
.00599
.03571
.02710
.01189
.02809
.02951
.02717
.02429
.01470
.01302
.00674
.00710
.03490
.02793
.01156
.02504
.02538
.02628
.0207
.01131
.01076
.00562
.00588
.03575
.02702
.01194
.02803
.02940
.02711
.02415
.02667
.01603
.00501
.00789
.03067
.02998
.01329
.02652
.02522
.04028
.03974
.01946
.01787
.00450
.00591
.03469
.02586
.01130
.02755
.02868
.02605
.02296
Psicothema, 1997
Referencias
Allison, P.D. (1987). Estimation of linear models

with incomplete data. In C.C. Clogg, ed., Sociological Methodology, 1987. Washington,
D.C.: American Sociological Association,
(pp. 71-103).
Aptech Systems, Inc (1995). Gauss. The Gauss
System Version 3.2. Washington.
Baker, L.A. and Fulker, D.W. (1983). Incomplete covariance matrices and LISREL. Data Lanalyst, 1, 3-5.
Browne, M.W. (1984). Asymptotically distribution-free methods for the analysis of covariance structures. British Journal of Mathematical and Statistical Psychology, 7, 6283.
Dempsted, A.P, Laird, N.M. and Rubin, D.B.
(1977). Maximun likelihood from incomplete
data via the EM algorithm. Journal of the
American Statistical Association, 81, 29-41
Dixon, W.J., ed. (1988). BMDP Statistical Software, Los Angeles: University of California
Press.
Fleishman, A.(1978). A method for simulating
non-normal distributions. Psychometrika, 43,
4, 521-531.
Hernndez, J.; San Luis, C. y Sanchez, J. (1995).
Un programa GAUSS para simular distribuciones no normales multivariadas. Psicothema, 7, 427-434.
Hernndez, J. Ramrez, G. & Snchez, A,
(1995). A High-level language program to
obtain the Bootstrap corrected Adf test statistic. Behavior Research Methods Instruments,
& Computer. (En prensa).
Lee, S.Y, (1986). Estimation for structural equation models with missing data. Psychometrika, 51, 93-99.
Psicothema, 1997
Little, R.J.A. and Rubin, D.B. (1987). Statistical

Analysis with Missing Data, New York: Wiley.
Little, R.J.A. and Schenker, N. (1995). Missing
Data. Handbook of Statistical Modeling for
the Social and Behavioral Sciences (pp 3975), New York: Arminger, Clifford, Clogg
and Sobel. Plenum Press.
Little, R.J.A. and Smith, P.J. (1987). Editing and
imputation for quantitative survey data. Journal of the American Statistical Association,
82, 58-68.
Orchad, T. and Woodbury, M.A.(1972). A missing information principle: theory and applications, Proceedings of the Sixth Berkeley
Symposium on Mathematical Statistics and
Probability, 1, 697-715.
Rubin, (1976). Inference and missing data. Biometrika, 70, 41-55.
Rubin, D.B. and Schenker, N. (1986). Multiple
imputation for interval estimation from simple random samples with ignorable nonresponse. Journal of the American Statistical Association, 81, 366-374.
Rubin, D.B. and Schenker, N. (1987). Interval
estimation from multiply-imputed data: A case study using census agriculture industry codes. Journal of Official Statistics, 3, 375-387.
Schoenberg, R. (1988), MISS: A Program for
Missing Data, in GAUSS Programming Language, Aptech Systems Inc., P.O. Box 6487,
Kent, WA 98064.
Vale, D., & Maurelli, V. (1983). Simulating multivariate nonnormal distributions. Psychometrika, 48, 3, 465-471.
Aceptado el 3 de mayo de 1996
197

Analisis Imputación de Datos Con Máxima Verosimilitud

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Analisis Imputación de Datos Con Máxima Verosimilitud

Enviado por

Direitos autorais:

Formatos disponíveis

Psicothema, 1997. Vol. 9, n 1, pp.

La inferencia estadstica con datos perdidos es un problema muy importante de la

investigacin aplicada en general y de las

tratamiento de este problema presentan un

los datos presentan un patrn de missing

do en el tratamiento de matrices de datos

Anlisis de las respuestas disponibles

L( Xobs ) = p (Xobs, Xmiss ) dXmiss

do asume una distribucin normal multivariada de las variables implicadas. Si sta no

aunque los errores tpicos estimados en

Desgraciadamente, tal incorporacin no est actualmente disponible en los paquetes

macin de matrices de varianzas y covarianzas por los mtodos listwise y pairwise,

Figura 1. Modelo estructural de 11 variables observables, 5 factores y 33 parmetros a estimar.

En la Figura 2, pueden verse los distintos

Figura 2. Patrones de Missing simulados.

la estimacin a partir de una matriz listwise,

En la Tabla 2, se presentan los valores

En la Tabla 3, vemos los errores tpicos

nuevamente el anlisis para la estimacin de

Allison, P.D. (1987). Estimation of linear models

Little, R.J.A. and Rubin, D.B. (1987). Statistical

Você também pode gostar