Escolar Documentos
Profissional Documentos
Cultura Documentos
187-197
ISSN 0214 - 9915 CODEN PSOTEG
SOFTWARE, INSTRUMENTACIN
Y METODOLOGA
ESTIMACIN DE DATOS PERDIDOS POR
MXIMA VEROSIMILITUD EN PATRONES
MISSING ALEATORIOS (MAR) Y
COMPLETAMENTE ALEATORIOS (MCAR) EN
MODELOS ESTRUCTURALES
Concepcin San Luis Costas, Juan A. Hernndez Cabrera y Gustavo Ramrez Santana
Universidad de La Laguna
En las investigaciones del campo aplicado con tcnicas multivariadas es muy frecuente encontrar matrices de datos con valores perdidos. Las estrategias ms comnmente utilizadas para reconducir este problema, utilizan los mtodos listwise, pairwise y
los de estimacin de mxima verosimilitud. En este articulo se demuestra mediante las
tcnicas de simulacin de Monte Carlo en el mbito de los modelos estructurales, que independientemente del patrn de missing simulado (missing completamente aleatorio,
monotnico o condicional) la estimacin mediante el algoritmo de mxima verosimilitud EM arroja los mejores resultados, en cuanto a la precicin de la estimacin de los parmetros de los modelos, disminucin de los errores tpicos, y la posibilidad de encontrar soluciones adecuadas y convergentes en aquellos patrones de missing donde las estrategias MCAR (listwise y pairwise) son imposibles de utilizar.
Maximun likelihood missing values estimation in patterns of missing MAR and MCAR
in structurals models. In the researchs of the applied field is very common to find matrices
of data with lost values. The main strategies used in order to fix this problem, are the methods listwise, pairwise and maximum likelihood estimates. This article shows through
Monte Carlo simulation in the field of the structural models, that irrespective of the pattern
of missing simulated (missing completely at random, monotonic missing or conditional missing) the estimates through the maximum likelihood algorithm EM throws the better results,
concerning the biases in the estimate of the parameters of the models, decrease of the standard errors, and the possibility of finding convergent and adequate solutions in those patterns
of missing where the strategies MCAR (listwise and pairwise) are impossible to use.
Psicothema, 1997
187
ESTIMACIN DE DATOS PERDIDOS POR MXIMA VEROSIMILITUD EN PATRONES MISSING ALEATORIOS (MAR) Y COMPLETAMENTE ALEATORIOS (MCAR) EN MODELOS ESTRUCTURALES
188
P( M X, ) = P( M ) para todo X
Ec. 1
la distribucin de missing dado X, depende
exclusivamente del parmetro , que carac^
teriza a las respuestas.
Esta premisa MCAR
puede ser evaluada mediante el programa
BMDPP8 (Dixon, 1988), que arroja valores
t, para cada variable, bajo la hiptesis nula
de un patrn univariado de missing completamente aleatorio. Sin embargo, si este
patrn depende de otra variable y de sta se
dispone de respuesta tanto para los que responden como para los que no, el sesgo en la
estimacin de los datos perdidos mediante
las estrategias anteriormente comentadas
que exigen un patrn MCAR, puede ser
controlado mediante un anlisis que estratifica o ajusta la variable missing en funcin
de la variable o variables antecedentes correlacionadas con la variable con ausencia
de respuesta, de las cuales se dispone de datos para todos los sujetos de la muestra. Este patrn de missing se conoce como valores perdidos aleatorios MAR (missing at
random). Se define funcionalmente como:
P( M Xobservada, Xmissing, ) = P( M Xobservada) para todo Xmissing
Ec. 2
Es decir, la distribucin de los casos perdidos, dado X, depende exclusivamente de la
variable Xobservada de la matriz de datos X.
Seguidamente haremos un breve recorrido por las estrategias mas comunes, utilizadas por los investigadores del campo aplica-
Psicothema, 1997
CONCEPCIN SAN LUIS COSTAS, JUAN A. HERNNDEZ CABRERA Y GUSTAVO RAMREZ SANTANA
damental derivado del hecho de que la matriz as obtenida, es frecuentemente no positiva definida, lo que la invalida para ser usada en tcnicas estadsticas que requieran la
inversin de la matriz de momentos.
Sustitucin de los valores perdidos por el
valor medio de la variable
Otra estrategia muy comn en presencia
de matrices de datos, donde la metodologa
listwise conduce a matrices de varianzas y
covarianzas con muy pocos sujetos, consiste en sustituir el valor perdido por la media
de la variable que corresponda. Sin embargo, este mtodo presenta ms inconvenientes que ventajas, dado que se produce una
disminucin artificial de la varianza de la
variable que se ha imputado, sesgndose por
tanto las asociaciones entre las mismas,
dando lugar a estimaciones errneas (Browne, 1982, 1984).
Estimacin de Mxima verosimilitud con
datos perdidos
La distribucin normal multivariada es
una premisa bsica en la mayora de las tcnicas estadsticas multivariadas, y especialmente en todas aquellas que realizan la estimacin de los parmetros de los modelos
mediante mxima verosimilitud. Este mtodo de estimacin en el entorno de datos perdidos, requiere la especificacin de un modelo de la distribucin de X y M:
Psicothema, 1997
P( X, M , ) = P( X ) P( M X, )
Ec. 3
donde P(X,) representa el modelo de la
distribucin de la matriz de datos X en ausencia de datos perdidos, P(M|X, ) el modelo para los datos perdidos y y son parmetros desconocidos. El inters de la estimacin, se centra generalmente en la esti-
189
ESTIMACIN DE DATOS PERDIDOS POR MXIMA VEROSIMILITUD EN PATRONES MISSING ALEATORIOS (MAR) Y COMPLETAMENTE ALEATORIOS (MCAR) EN MODELOS ESTRUCTURALES
macin de los parmetros del vector , considerando a los parmetros del patrn de
missing () como ignorables. En este sentido, se asume que las filas de X siguen una
distribucin normal, con media y matriz
de varianzas y covarianzas ((,)). Las
estimaciones de mxima verosimilitud de
son los valores que maximizan la Ec. 3. Dado que el patrn de missing se asume MAR
y, por tanto, ignorable slo el trmino
P(X,) de la Ec. 3 contribuye a la estimacin ML de . Consiguientemente esta estimacin es realizada sin incluir el modelo
que explica el mecanismo subyacente a los
datos perdidos. En este sentido, la probabilidad al ignorar el mecanismo missing es la
probabilidad de en funcin de la densidad
marginal de Xobservada, ignorando la contribucin de M al modelo. Rubin (1976) indica que el mecanismo de los datos perdidos
es ignorable s:
a.-) y son parmetros distintos, o sea
no funcionalmente relacionados.
b.-) El patrn de missing es MAR; es decir, el mtodo de estimacin ML con mecanismo missing ignorable, hace depender la
estimacin de los datos perdidos de las puntuaciones observadas de X.
Esta es una de las particularidades ms
interesantes de la estimacin ML, ya que supera con creces a la estimacin basada en el
patrn MCAR. El mismo autor, declara que
el mtodo ML ignorable es preferible en todos los casos al resto de los mtodos presentados y en muchas ocasiones al mtodo
ML con patrn de missing definido y por
tanto no ignorable ya que: a) la especificacin de un modelo adecuado al mecanismo missing presente en los datos, es frecuentemente una tarea imposible. b) An
cuando a ciencia cierta el mecanismo missing sea no ignorable, el mtodo ML ignorable, puede ser superior a un mecanismo no
ignorable mal especificado.
La estimacin ML con patrn de missing
ignorable ms frecuentemente utilizada es
190
el algoritmo EM (Expected-Maximization)
(Dempsted, Laird & Rubin, 1977) que maximiza la siguiente funcin de probabilidad
para estimar la matriz de varianzas y covarianzas as como el vector de medias a partir de matrices de datos incompletas.
P( Xobservada, X missing)
la probabilidad de ( basada en los datos
completos X=(Xobservada, Xmissing). As en el
mtodo de mxima verosimilitud EM, t es
la estimacin de en la iteracin t del algoritmo. La iteracin t+1 consiste en un primer paso de esperanza (Expected) y otro de
maximizacin (Maximization). El paso E
toma la esperanza de
P( Xobservada, X missing)
en funcin de la distribucin condicional de
Xmissing dado Xobservada, evaluada en = t.
En la prctica el paso E puede ser considerado como un procedimiento de prediccin
de datos perdidos por el mtodo de regresin iterativa. De hecho, este paso predice
los valores perdidos a travs de la regresin
de las variables missing sobre las variables
observadas para cada sujeto de la muestra,
con coeficientes basados en la estimacin
de esos parmetros en la iteracin t. El paso M estima la matriz de varianzas y covarianzas as como el vector de medias, a partir del relleno de los datos missing realizados en el paso E anterior, es decir maximizando el logaritmo de la funcin (Orchad &
Woodbury, 1972, Little & Rubin, 1987, Dixon, 1988, Schoemberg, 1988). Este mto-
Psicothema, 1997
CONCEPCIN SAN LUIS COSTAS, JUAN A. HERNNDEZ CABRERA Y GUSTAVO RAMREZ SANTANA
Psicothema, 1997
191
ESTIMACIN DE DATOS PERDIDOS POR MXIMA VEROSIMILITUD EN PATRONES MISSING ALEATORIOS (MAR) Y COMPLETAMENTE ALEATORIOS (MCAR) EN MODELOS ESTRUCTURALES
192
Psicothema, 1997
CONCEPCIN SAN LUIS COSTAS, JUAN A. HERNNDEZ CABRERA Y GUSTAVO RAMREZ SANTANA
Resultados
En la Tabla 1 se presentan el valor medio
y desviacin tpica del mnimo de la funcin
de discrepancia (cuyo producto por el tamao de la muestra da lugar al estadstico 2) el
estadstico 2, los ndices de ajuste GFI y
AGFI (para la estimacin ML) y el error
cuadrtico medio para cada una de las condiciones simuladas. En esta tabla puede verse en primer lugar, que el valor ms pequeo de la funcin de discrepancia, se sita como cabra esperar, en la estimacin de la matriz de datos sin missing. Sin embargo, este
valor ha sido incluido por un inters meramente comparativo con el mnimo de las distintas estrategias utilizadas para solucionar
el problema de los datos perdidos en los tres
patrones de missing simulados (completamente aleatorio, monotnico y condicional).
En este sentido, puede verse que el mnimo
de la estrategia listwise, es siempre mayor
que el encontrado en la estimacin ML independientemente del patrn de missing simulado. Por otra parte, puede observarse que,
como cabra esperar, no existe solucin listwise alguna para el patrn de missing condicional, consiguindose sin embargo el 100%
de las soluciones a travs de las 500 muestras al utilizar la estimacin ML. En la segunda lnea de esta tabla, se encuentra el
error cuadrtico medio para cada una de las
condiciones. Nuevamente, el valor ms bajo
se sita en la estimacin sin missing, si comparamos este valor con el resto de los errores, vemos que en todos los casos la estimacin mediante matrices listwise genera un
error considerablemente mayor que el encontrado en la estimacin de mxima verosimilitud, los cuales se encuentran muy prximos tanto al valor medio como a la desviacin tpica de la estimacin sin missing.
Con respecto al estadstico 2, vemos que
se encuentra muy prximo al valor esperado
de 33 para la media y 8 de desviacin tpica
para la estimacin sin missing. Sin embargo,
Psicothema, 1997
Mnimo F.D.
x
Error
x
2
x
x
GFI
x
AGFI
x
Missing Monotnico
Missing C.
Sin Missing
Listwise
ML
Listwise
ML
ML
.1142
.0277
.4106
.0961
.1939
.0454
.3264
.0840
.2402
.0586
.3882
.1101
.0140
.0042
.326
.0389
.0178
.0073
.289
.0393
.0215
.0108
.0201
.0069
34.28
8.333
35.31
8.270
.9917
.0022
.9899
.0024
.9837
.0046
0.9917
.0022
.9899
.0024
.9837
.0046
35.58
9.159
193
ESTIMACIN DE DATOS PERDIDOS POR MXIMA VEROSIMILITUD EN PATRONES MISSING ALEATORIOS (MAR) Y COMPLETAMENTE ALEATORIOS (MCAR) EN MODELOS ESTRUCTURALES
Missing Monotnico
Missing C.
Sin Missing
Listwise
ML
Listwise
ML
ML
21
42
21
31
32
52
73
1.00619
.99636
1.09257
.51458
.70919
.99032
1.06118
1.00450
.99522
1.09965
.51484
.71157
.98456
1.06262
1.00692
.99630
1.08949
.50956
.71162
.98695
1.06284
1.00612
.99677
1.09623
.51200
.71476
.98781
1.06789
1.00367
.99594
1.09579
.51830
.71144
.98642
1.06609
1.01506
.98574
1.09878
.51726
.71001
.98408
1.06513
21
12
.60822
.23785
.60524
.24108
.60463
.23966
.59963
.24151
.61133
.24037
.59735
.23689
11
21
12
23
.25048
.48259
.48945
.64658
.25160
.36274
.44988
.70355
.24634
.44031
.47169
.66452
.24457
.43494
.48042
.66817
.25451
.44044
.47903
.67229
.24992
.47381
.48694
.65491
11
12
13
22
32
33
.13148
.08244
.12970
.75514
.49331
.82027
.13121
.11007
.47478
.73346
.50342
.84439
.13313
.09353
.15774
.73202
.49270
.81364
.13252
.09430
.18054
.72471
.49299
.81908
.12806
.09134
.17141
.72193
.48737
.81006
.05747
.11328
.12762
.70464
.47605
.80247
11
21
22
.39663
.19214
.84098
.40381
.19636
.84781
.39547
.19714
.83383
.39210
.19002
.83027
.39280
.19179
.82915
.38527
.18729
.81938
1
2
3
4
5
6
7
.07203
.06039
.02213
.02906
.27034
.13482
.04043
.07101
.05980
.02236
.02947
.26486
.13026
.03887
.07081
.05939
.02192
.02930
.27003
.13425
.03943
.07021
.06026
.02228
.02838
.27264
.12971
.03913
.06895
.06023
.02255
.02844
.27207
.13472
.04044
.15479
.13512
.01166
.03893
.26666
.13174
.03999`
1
2
3
4
.18551
.20564
.16384
.05723
.17970
.20602
.16074
.05763
.18353
.20610
.16349
.05284
.18434
.20583
.16650
.05579
.18303
.20518
.16523
.05709
.18042
.20015
.16266
.06087
194
1
ET =
diag (H 1 )
.
N
Para todas las estimaciones de ML se ha
incluido como tamao muestral el de la
muestra sin missing (N=300). Con la intencin de comprobar esta hiptesis, repetimos
Psicothema, 1997
CONCEPCIN SAN LUIS COSTAS, JUAN A. HERNNDEZ CABRERA Y GUSTAVO RAMREZ SANTANA
Conclusiones
A la luz de la claramente mayor eficacia
de la estimacin de mxima verosimilitud
de las matrices de varianzas y covarianzas
(utilizadas en todos las tcnicas estadsticas
multivariadas), la conclusin obvia de esta
investigacin recae en el hecho de recomendar la utilizacin de esta tcnica para estimar la matriz de momentos siempre que el
investigador se encuentre ante matrices de
Tabla 3
Desviacin tpica del parmetro estimado y media de error tpico estimado a travs de los tres patrones de
missing y de las tres estimaciones de la matriz de varianzas y covarianzas
Patrn de Missing
MCAR
Sin Missing
X
.0226
.0136
.0497
.0381
.0373
.0419
.0365
Listwise
Missing Monotnico
ML
Listwise
M. Condicional
ML
ML
.0394
.0244
.1012
.0735
.0768
.0785
.0756
X
.0418
.0258
.0926
.0715
.0692
.0771
.0683
.0276
.0151
.0608
.0493
.0498
.0536
.0483
X
.0226
.0136
.0495
.0379
.0370
.0418
.0364
.0391
.0224
.0838
.0672
.0654
.0681
.0655
X
.0378
.0228
.829
.0642
.0626
.0695
.0620
.0381
.0199
.0617
0.479
.0458
.0459
.0446
X
.0227
.0137
.0497
.0381
.0373
.0418
.0370
.0579
.0227
.0633
0.482
.0465
.0490
.0664
X
.0341
.0135
.0497
.0381
.0374
.0422
.0363
21
42
21
31
32
52
73
.0239
.0127
.0486
.0382
.0383
.0434
.0375
21
12
.0386
.0445
.0368
.0439
.0761
.093
.0709
.0838
.0421
.0497
.0368
.0437
.0617
.0710
.0630
.0746
.0533
.0601
.0374
.0440
.0499
.0547
.0342
.0398
11
21
12
23
.0407
.1129
.0472
.0636
.0403
.1238
.0495
.0708
0.745
.7704
.2033
.4186
0.075
.8270
.0415
.4752
.0446
.1433
.0560
.0777
.0401
.1262
.0503
.0719
.0685
.7419
.2144
.4092
.0682
.6649
.2040
.3665
.0577
.2654
.0872
.1333
.0404
.1666
.0585
.0896
.0504
.2103
.0681
.1081
.0367
.1462
.0544
.0802
21
12
13
22
32
33
.0206
.0324
.0589
.0774
.0590
.0780
.0208
.0357
.0639
.0798
.0601
.0821
.0410
.1747
.5267
.1463
.1132
.1528
.0395
.1979
.7551
.1491
.1137
.1562
.0228
.0397
.0789
.0847
.0614
.0820
.0207
.0362
.0677
.0794
.0599
.0819
.0361
.1799
.1331
.1334
.1031
.1369
.0354
.1677
.3779
.1325
.1000
.1368
.0312
.0714
.2624
.0907
.0644
.0849
.0211
.0463
.1345
.0798
.0600
.0819
.0255
.0507
.2884
.0840
.0589
.0893
.0182
.0318
.1232
.0780
.0582
.0795
11
21
22
.0529
.0483
.0841
.0557
.0525
.0824
.1018
.0942
.1522
.1047
.0995
.1544
.0569
.0510
.0883
.0555
.0524
.0822
.0951
.0856
.1436
.0918
.0866
.1356
.0605
.0546
.0824
.0553
.0521
.0817
.0613
.0538
.1054
.0544
.0510
.0803
1
2
3
4
5
6
7
.0094
.0087
.0044
.0046
.0263
.0203
.0087
.0089
.0084
.0043
.0045
.0272
.0207
.0091
.0173
.0153
.0086
.0083
.0502
.0433
.0170
.0163
.0153
.0080
.0084
.0495
.0376
.0167
.0109
.0102
.0059
.0057
.0327
.0277
.0125
.0088
.0102
.0043
.0045
.0269
.0203
.0090
.0164
.0083
.0082
.0084
.0478
.0352
.0161
.0145
.0136
.0071
.00744
.0448
.0334
.0150
.0161
.0137
.0077
.0078
.0352
.0272
.0124
.0087
.0082
.0043
.0045
.0272
.0202
.0090
.0261
.0151
.0056
.0074
.0356
.0317
.0131
.0145
.0134
.0034
.0044
.0265
.0194
.0085
1
2
3
4
.0220
.0215
.0212
.0193
.0216
.0226
.0208
.0185
.0374
.0406
.0416
.0335
.0394
.0417
.0381
.0340
.0272
.0273
.0252
.0233
.0214
.0224
.0206
.0184
.0341
.0399
.0367
.0332
.0352
.0372
.0343
.0307
.0242
.0271
.0281
.0279
.0214
.0224
.0208
.0185
.0274
.0258
.0385
.0357
.0210
.0219
.0196
.0171
Psicothema, 1997
195
ESTIMACIN DE DATOS PERDIDOS POR MXIMA VEROSIMILITUD EN PATRONES MISSING ALEATORIOS (MAR) Y COMPLETAMENTE ALEATORIOS (MCAR) EN MODELOS ESTRUCTURALES
datos con valores perdidos independientemente de que el patrn sea MCAR o MAR.
Tal recomendacin se sustenta en el hecho
de que aunque la estrategia listwise es suficientemente eficiente en lo que a la estimacin de los parmetros se refiere, en patrones missing completamente aleatorios y
monotnicos, no lo es tanto en el estadstico
de ajuste y en los errores tpicos que son claramente ms elevados que los de la muestra
sin missing, lo que conducir frecuentemente a la eliminacin de parmetros aparentemente no significativos del modelo investigado. Por otra parte, el nmero de soluciones convergentes y adecuadas con esta estrategia es claramente menor al conseguido
con la estimacin ML. Cuando el patrn de
missing es MAR o el nmero de casos perdidos muy elevado, puede producirse un
sesgo en la estimacin de los parmetros ya
que la matriz muestral listwise no es una
muestra aleatoria de la matriz de datos sin
missing , o la imposibilidad de estimar el
modelo dado que la matriz listwise contiene
muy pocos casos. Tal y como hemos podido
comprobar, en todas las ocasiones la estimacin de mxima verosimilitud fue claramente superior a la realizada a partir de la
matriz listwise, y esta estrategia fue imposible de utilizar cuando el patrn de missing
era condicional. Hay que indicar, sin embargo, que la estimacin ML en este patrn,
aunque exitosa en las 500 muestras utilizadas, requiri de un nmero muy elevado de
iteraciones (aproximadamente 200), dado
que se utiliz como matriz de comienzo para iterar una matriz identidad de orden p x
p (11 x 11).
En el caso de que se necesite disponer de
los valores perdidos, y no solamente del
vector de medias y de la matriz de varianzas
y covarianzas, puede realizarse la triple imputacin de los datos perdidos, una vez estimadas las matrices de momentos anteriores
por ML, realizando posteriormente la ponderacin de los casos por 1/3 para poder lle-
196
var a cabo de esta forma los anlisis multivariados clsicos con normalidad.
Tabla 4
Desviacin tpica y media del parmetro
estimado y del error tpico estimado
respectivamente, para la estimacin de la
matriz de varianzas y covarianzas mediante
ML, considerando el tamao muestral como
N-20%
Patrn de Missing con estimacin ML
MCAR
Missing Monotnico
Missing C.
21
42
21
31
32
52
73
.02666
.01668
.05941
.04453
.04910
.04935
.04624
.02954
.01804
.06482
.04959
.04898
.05505
.04818
.03830
.02139
.06718
.04616
.04819
.04765
.04462
.02923
.01792
.06565
.05042
.04929
.05510
.04834
.05877
.02439
.06141
.04757
.04646
.04934
.07035
.04538
.01777
.06549
.04997
.04855
.05474
.04812
21
12
.04099
.05229
.04877
.05744
.05656
.07063
.04782
.04724
.05326
.05287
.04467
.05183
11
21
12
23
.04865
.16950
.06760
.09027
.05313
.19152
.07180
.10698
.06423
.24200
.08237
.13444
.05271
.20791
.07898
.11700
.05173
.17187
.06451
.09456
.04744
.17063
.06619
.09545
11
12
13
22
32
33
.02337
.05067
.12367
.09051
.06929
.09224
.02752
.05497
.12223
.10518
.07864
.10664
.03500
.07324
.25893
.09424
.06711
.08646
.02666
.05877
.17836
.10420
.07798
.10621
.02627
.03671
.10947
.08587
.06362
.08714
.02354
.03602
.10408
.10171
.07646
.10509
11
21
22
.06237
.05440
.08749
.07292
.06833
.10715
.06018
.05630
.07921
.07236
.06798
.10677
.05987
.05803
.09978
.07096
.06705
.10520
1
2
3
4
5
6
7
1
2
3
4
.01085
.00997
.00597
.00631
.03542
.02686
.01349
.02632
.02797
.02753
.022472
.01154
.01087
.00566
.00599
.03571
.02710
.01189
.02809
.02951
.02717
.02429
.01470
.01302
.00674
.00710
.03490
.02793
.01156
.02504
.02538
.02628
.0207
.01131
.01076
.00562
.00588
.03575
.02702
.01194
.02803
.02940
.02711
.02415
.02667
.01603
.00501
.00789
.03067
.02998
.01329
.02652
.02522
.04028
.03974
.01946
.01787
.00450
.00591
.03469
.02586
.01130
.02755
.02868
.02605
.02296
Psicothema, 1997
CONCEPCIN SAN LUIS COSTAS, JUAN A. HERNNDEZ CABRERA Y GUSTAVO RAMREZ SANTANA
Referencias
Psicothema, 1997
197