Escolar Documentos
Profissional Documentos
Cultura Documentos
ISSN: 0211-2159
psicologica@uv.es
Universitat de València
España
1
Correspondencia: Guillermo Vallejo, Universidad de Oviedo, Departamento de
Psicología, Plaza Feijóo, s/n, 33003 Oviedo (Spain), E-mail (gvallejo@uniovi.es).
Agradecimientos: Este trabajo ha sido financiado mediante un proyecto de investigación
concedido por el MEC (PSI2008-03624).
130 G. Vallejo, et al.
del modelo más adecuado para contrastar las hipótesis de interés. Una
exposición detallada de la problemática implicada puede consultarse en
MacNaughton (1998).
Cuando el tamaño de muestra de las combinaciones de tratamiento
(celdas) es uniforme, todas las soluciones proporcionan idéntica
descomposición de la suma de cuadrados (SC) del modelo. Sin embargo,
cuando el tamaño de las celdas difiere, las diferentes soluciones
proporcionan estimaciones de las SC que no son por lo general
coincidentes, dependiendo del tipo de codificación empleado y del orden en
el cual los efectos son introducidos en el modelo. Por ejemplo, mediante un
ANOVA de dos vías se pueden obtener, al menos, tres descomposiciones
diferentes de la SC correspondiente a las filas (factor A), a saber: SC Tipo I,
Tipo II y Tipo III (el programa SAS utiliza estos tres nombres). El primer
tipo implica computar la SC de A ignorando el efecto de las columnas
(factor B) y de la interacción AB. El segundo tipo implica calcular la SC de
A contemplando los efectos de B e ignorando la contribución de AB,
mientras que el tercer tipo implica obtener la SC de A ajustándola, tanto
para los efectos de B como para los efectos de AB. Cuando la
descomposición de las SC es única, es posible interpretar los resultados de
un experimento de manera clara, concisa y exacta. Desafortunadamente,
esta simplicidad interpretativa desaparece cuando el diseño no está
balanceado (Wang y Akritas, 2006); particularmente, cuando algún efecto
es significativo utilizando un tipo de SC y no significativo usando otro u
otros (Ato y Vallejo, 2007). Por consiguiente, cuando se utilice el modelo
ANOVA factorial con datos no equilibrados puede resultar clave conocer
las causas del desgaste de muestra.
Las razones que ocasionan las pérdidas, referidas frecuentemente
como mecanismos generadores de las mismas, puede ser independientes de
todas las variables y covariables presentes en el estudio o dependientes de
las mismas. En el primer caso, cabe pensar que las observaciones
registradas constituyan una muestra aleatoria, aunque restringida de la
inicialmente prevista; por este motivo, es razonable contrastar las hipótesis
sin hacerlas depender del número de réplicas realizadas. En el segundo caso
no cabe efectuar la misma conjetura, puesto que el mecanismo responsable
de la pérdida se relaciona sistemáticamente con los niveles de alguna de las
variables manipuladas y/o con las características de los participantes
observados en el estudio; por dicho motivo, lo razonable sería contrastar las
hipótesis haciéndolas depender del tamaño de las celdas.
Cuando se emplea un modelo ANOVA factorial adoptando la
solución mínimo cuadrática basada en el enfoque de comparación de
Pruebas robustas para modelos A+OVA 131
a µ jk a µ jk ′
H 0 ( B) = ∑ −∑ = 0, ∀ k ≠ k ′ ,
j =1 a j =1 a
H 0 ( AB ) = µ jk − µ j ′k − µ jk ′ + µ j ′k ′ = 0 , ∀ j ≠ j ′ y k ≠ k ′ . (1)
Desde la perspectiva de comparación de modelos, con este enfoque
cada efecto principal se prueba comparando la SC residual correspondiente
al modelo no aditivo con la SC residual obtenida tras eliminar del modelo
completo el efecto referido a la H0 de interés. Este método de estimación es
similar al análisis de medias no ponderadas descrito por Horst y Edwards
(1982); de hecho, los resultados obtenidos con ambos enfoques son
idénticos si los factores tienen sólo dos niveles. En nuestra opinión, siempre
que el investigador esté interesado en poner a prueba aquellas hipótesis que
surgen de su ámbito de trabajo y no aquellas otras que dependan del número
de sujetos que aparecen en las celdas, este procedimiento representa la
mejor opción.
MÉTODO DE LA SIMULACIÓ
En orden a evaluar la robustez de los enfoques WJ, BDM y GLM
cuando los valores críticos se obtienen mediante valores teóricos y mediante
remuestreo bootstrap cuando se incumplen los supuestos de normalidad y
homogeneidad, llevamos a cabo un estudio de simulación usando un
ANOVA factorial de dos factores con J = 2 y K = 5. Para ello fueron
manipuladas las cuatro variables siguientes:
Pruebas robustas para modelos A+OVA 137
RESULTADOS
El procedimiento más directo para decidir si un determinado enfoque
es o no robusto consiste en identificar todas aquellas tasas que excedan
significativamente el valor nominal de alfa (α) en más/menos dos errores
estándar. No obstante, utilizamos el criterio liberal de Bradley (1978) para
facilitar la comparación entre nuestros resultados y los obtenidos por otros
investigadores en estudios similares. De acuerdo con este criterio, aquellas
pruebas cuya tasa de error empírica (α̂ ) se encuentre en el intervalo
.5 α ≤ αˆ ≤ 1.5 α , serán consideradas robustas. Por consiguiente, para el nivel
de significación nominal usado en esta investigación (α = .05) , el intervalo
utilizado para definir la robustez de las pruebas fue .025 ≤ α ˆ ≤ .075 . Se
excusa decir que de haber utilizado otros criterios, diferentes
interpretaciones de los resultados son posibles.
Pruebas robustas para modelos A+OVA 139
Tabla 1.- Tasas de error asociadas con la suma de cuadrados Tipo III
de los procedimientos WJ y WJB en un diseño factorial 2x5
Tabla 2.- Tasas de error asociadas con la suma de cuadrados Tipo III
de los procedimientos BDM y BDMB en un diseño factorial 2x5
Tabla 3.- Tasas de error asociadas con la suma de cuadrados Tipo III
de los procedimientos GLM y GLMB en un diseño factorial 2x5
COCLUSIOES Y DISCUSIÓ
El objetivo de este trabajo ha sido examinar la robustez de los
enfoques WJ, BDM y GLM con los valores críticos derivados desde la
teoría normal y mediante remuestreo bootstrap (WJB, BDMB y GLMB)
usando un ANOVA factorial de dos factores con J = 2 y K=5. Para ello se
ha llevado a cabo una investigación Monte Carlo en la que se han simulado
condiciones adveras debidas al desequilibrio en el tamaño de los grupos y a
la heterogeneidad de las varianzas, con el añadido de la ausencia de
normalidad en la distribución de los datos.
Los resultados hallados nos llevan a concluir que los procedimientos
que más veces mantienen la tasa de error dentro de los límites del criterio de
robustez de Bradley en las condiciones manipuladas son WJ y WJB.
Cuando la relación entre el tamaño de las celdas y el tamaño de las
varianzas (CH) fue positiva el procedimiento más robusto fue el test WJ con
los valores críticos derivados desde la teoría normal, resultados que son
consistentes con los hallados por Keselman et al. (1995) y Vallejo et al.
(2009) bajo condiciones similares a las manipuladas por nosotros. Mientras
que cuando la relación CH fue negativa el procedimiento más robusto fue el
test WJB.
Así las cosas, ninguno de los procedimientos sometidos a prueba se
sitúa entre los límites del criterio de robustez Bradley en todas las
condiciones, siendo, cuando la distribución es asimétrica y la relación CH
negativa, cuando más veces se exceden los límites del intervalo de robustez.
Este punto merece dos puntualizaciones:
1.- Cuando la distribución es severamente asimétrica (Lognormal)
todos los estadísticos se comportan de modo más liberal o más conservador
(de este último modo es apreciablemente menos abundante) de lo que son
en la distribución moderadamente asimétrica (Exponencial), siendo la tasa
de error mayor conforme mayores son los niveles de las variables C y H
(ejerciendo mayor influencia en el resultado esta última). También es
destacable que cuando la relación CH es positiva, la fuente de variación A
sólo resulta afectada en 6 ocasiones en el conjunto de los 6 estadísticos
estudiados, siendo B y A×B las afectadas prácticamente en exclusividad.
Cuando la relación CH es negativa las tres fuentes de variación se muestran
afectadas aunque el error es inferior en A.
2.- Todos los estadísticos tienen un mejor comportamiento, con
excepción de GLM en ambas relaciones CH (Milligan et al. 1987, Vallejo
et al., 2008 y Vallejo et al., 2009 obtuvieron resultados en concordancia
con los encontrados por nosotros en condiciones similares), y GLMB en la
Pruebas robustas para modelos A+OVA 145
ABSTRACT
Robust tests for two-way AOVA models under heteroscedasticity: The
aim of this research was to compare the robustness of two heteroscedastic
test statistics, the Welch-James statistic developed by Johansen (WJ) and the
Type-Box statistic developed by Brunner, Dette and Munk (BDM), together
with the General Linear Model (GLM), not heteroscedastic test statistic, in
two different manners depending on the calculation of the critical value. On
the one hand, when the critical values are based on theoretical values (WJ,
BDM and GLM respectively), and on the other hand, when they are
obtained by means of bootstrap resampling (WJB, BDMB and GLMB
respectively). To carry out it a study of simulation was realized on a
factorial design lacking in homogeneity, normality and orthogonally. The
results show that when the relation between the size of the cells and the size
of the variances was positive the procedure WJ was the most robust and that
when the relation was negative the most robust procedure was WJB. Both
procedures behaved in a liberal way when the shape of the distribution was
skewed, in major measure major it were the degree of inequality of the size
of the cells and the heterogeneity of the variances.
Pruebas robustas para modelos A+OVA 147
REFERECIAS
Akritas, M. G. & Brunner, E. (2003). Nonparametric Models for ANOVA and ANCOVA:
A Review. In M. G. Akritas & D. N. Politis (Eds.), Recent Advances and Trends in
+onparametric Statistics (pp. 79-91). Amsterdam: Elsevier
Ato, M. & Vallejo, G. (2007). Diseños Experimentales en Psicología. Madrid: Pirámide.
Box, G. E. P. (1954). Some theorems on quadratic forms applied in the study of analysis of
variance problems, I. Effects of inequality of variance in the one–way classification.
Annals of Mathematical Statistics, 25, 290-403.
Box, G. E. P. & Cox, D. R. (1964). An analysis of transformations. Journal of the Royal
Statistical Society, Series B, 26, 211-246.
Bradley, J. (1978). Robustness? British Journal of Mathematical and Statistical
Psychology, 31, 144-152.
Brown, M.B. & Forsythe, A.B. (1974). The small sample behaviour of some statistics
which test the equality of several means. Technometrics, 16, 129-132.
Brunner, E., Dette, H. & Munk, A. (1997). Box-type approximations in heteroscedastic
factorial designs. Journal of the American Statistical Association, 92, 1494-1503.
Chernick, M. R. (2007). Bootstrap Methods: A Guide for Practitioners and Researchers,
2nd edition. New York: Wiley.
Efron, B. & Tibshirani, R. J. (1993). An introduction to the Bootstrap. New York:
Chapman & Hall/CRC Press.
Good, P. (2006). Resampling Methods: A Practical Guide to Data Analysis, 3rd edition,
Boston: Birkhäuser.
Hall, P. (1986). On the number of bootstrap simulations required to construct a confidence
interval. Annals of Statistics, 14, 1431-1452.
Horst, P. & Edwards, A. (1982). The k factorial experiment. Psychological Bulletin, 91,
190-192.
Headrick, T. C., Kowalchuk, R. K. & Sheng, Y. (2008). Parametric probability densities
and distribution functions for Tukey g-and-h transformations and their use for fitting
data. Applied Mathematical Sciences, 2, 449-462.
Johansen, S. (1980). The Welch-James approximation to the distribution of the residual
sum of squares in a weighted linear regression. Biometrika, 67, 85-92.
Kulinskaya, E. & Dollinger, M. B. (2007). Robust weighted one-way ANOVA: Improved
approximation and efficiency. Journal of Statistical Planning and Inference 137,
462–472.
Keselman, H. J., Carriere, K. C. & Lix, L. M. (1995). Robust and powerful nonorthogonal
analyses. Psychometrika, 60, 395-418
Keselman, H. J., Kowalchuk, R. K. & Lix, L. M. (1998). Robust nonorthogonal analyses
revisited: An update based on trimmed, means. Psychometrika, 63, 145-163.
MacNaughton, D. B. (1998). Which Sums of Squares Are Best in Unbalanced Analysis of
Variance? Available at http://www.matstat.com/ss.htm.
Micceri, T. (1989). The unicorn, the normal curve, and other improbable creatures.
Psychological Bulletin, 92, 778-785.
Milligan, G. W., Wong, D. S. & Thompson, P. A. (1987). Robustness properties of
nonorthogonal analysis of variance. Psychological Bulletin, 101, 464-470.
Richter, S. J. & Payton, M. E. (2003). Performing two-way analysis of variance. Journal of
Modern Applied Statistical Methods, 2, 152-160.
SAS Institute (2008). The MIXED procedure, SAS/STAT User’s Guide, SAS On-Line
Documentation. Cary, NC: SAS Institute Inc.
Searle, S. R. (1987). Linear Models for Unbalanced Data. New York: Wiley.
148 G. Vallejo, et al.
Tukey, J.W. (1977). Modern techniques in data analysis. NSF-sponsored regional research
conference at Southern Massachusetts University (North Dartmouth, MA).
Vallejo, G., Cuesta, M., Fernández, P. & Herrero, F. J. (2006). A comparison of the
bootstrap-F, improved general approximation and Brown-Forsythe multivariate
approaches in a mixed repeated measures design. Educational and Psychological
Measurement, 66, 35-62.
Vallejo, G., Fernández, P. & Livacic-Rojas, P. E. (2008). Generalización del enfoque
Brown-Forsythe a diseños factoriales. Psicothema, 20, 969-973.
Vallejo, G., Fernández, P. & Livacic-Rojas, P. E. (2009). Analysis of unbalanced factorial
designs with heteroscedastic data. Journal of Statistical Computation and
Simulation. DOI: 10.1080./00949650802482386.
Wang, L. & Akritas, M. G. (2006). Two-way heteroscedastic ANOVA when the number of
levels is large. Statistica Sinica, 16, 1387-1408
Westfall, P. H. & Young, S. S. (1993). Resampling-Based Multiple Testing. New York:
Wiley.
Zimmerman, D.W. (2004). Inflaction of type I error rates by unequal variances associated
with parametric, nonparametric, and rank-transformation tests. Psicologica, 25, 103-
133.