Você está na página 1de 3

Meditaciones sobre pruebas de hiptesis y significancia estadstica

La teora estadstica de prueba de hiptesis y evaluacin de la significancia estadstica surge de un anlisis de toma de decisiones con respecto a dos hiptesis que compiten: una hiptesis nula y una hiptesis alternativa. Dos tipos de errores son posibles. Tipo I: Rechazar equivocadamente la hiptesis nula (H0), a favor de la hiptesis alternativa (HA), i.e., rechazar errnemante al azar como explicacin suficiente para los resultados observados. Tipo II: Equivocadamente no logramos rechazar H0, i.e., errneamente aceptamos el azar como explicacin. [veremos una dicotoma paralela ms adelante en el curso cuando discutamos sensibilidad y especificidad.] Tradicionalmente, la probabilidad de error de Tipo I ha recibido ms atencin y es conocido como el nivel de significancia de la prueba. El error de Tipo I presumiblemente debe su importancia al deseo de la comunidad cientfica para evitar falsas alarmas, i.e., para evitar reaccionar frente a resultados que bien podran ser fluctuaciones aleatorias. Por otro lado, la probabilidad de error de Tipo I es ms fcil de estimar, dado que la probabilidad de error de Tipo II depende de la identificacin del tamao de la verdadera diferencia que uno busca detectar. En las ltimas dcadas, el clculo y la presentacin de valores p (que dan informacin sobre la probabilidad del error de Tipo I) se han vuelto de rigor en la literatura cientfica emprica. De hecho, hay un nmero significativo (!) de personas que se niegan a prestar atencin a resultados que tienen valores de p mayores de .05 (probabilidad de un error de Tipo I). Esta actitud es un buen artefacto para generar trabajo, pero tal vez sea un poco cruel. Despus de todo, un resultado con un valor p de .10 resultara de un proceso aleatorio en slo uno de diez ensayos. Debera descartarse semejante hallazgo? Es ms, dado que el valor p refleja el nmero de sujetos adems del tamao de la diferencia observada, un pequeo estudio tendra valores p muy pequeos slo en el caso de diferencias observadas muy grandes (y tal vez poco realistas?) Si el tamao de la diferencia observada es extraordinariamente grande, podemos sentir cierta sospecha sobre el hallazgo, a pesar de un valor p pequeo. Si la diferencia observada es plausible, pero el valor p es no significativo porque el estudio es pequeo, podramos tal vez prestarle algo de atencin. Otra razn para un enfoque reflexivo de los valores p (y la estadstica inferencial en general) es que las propias estimaciones de probabilidad son precisas slo con respecto a los modelos que los subyacen. No slo ocurre que los modelos matemticos pueden no captar adecuadamente la verdadera situacin, sino que adems el contexto en que son utilizados puede confundir an ms la situacin. Un supuesto crtico es el del muestreo al azar o aleatorizacin (como en un ensayo aleatorio controlado).Aunque este supuesto es la base de toda la teora estadstica de prueba de hiptesis e intervalos de confianza, raramente se logra en los estudios observacionales y las limitaciones que impone sobre la interpretacin de las pruebas estadsticas a menudo son poco apreciadas (Greenland S. Randomization, statistics, and causal inference Epidemiology 1990;1:421). Los problemas de interpretacin existen an en los ensayos clnicos aleatorizados. Por ejemplo, el valor p de un nico resultado en un nico estudio puede ser 5 por ciento. Pero eso significa que 20 estudios independientes de dos fenmenos idnticos observaran, en promedio, una diferencia que resulta significativa al nivel de cinco por ciento. Un investigador prolfico que lleva a cabo 200 estudios en su vida profesional puede esperar que diez sean significativos slo por azar. Es ms, un estudio a menudo investiga mltiples resultados, incluyendo maneras diferentes de definir las variables involucradas. Estas comparaciones mltiples aumentan la probabilidad de que diferencias al azar sean consideradas significativas. Pero los procedimientos estadsticos para manejar esta inflacin de significancia tienden, igual que las medidas para controlar la inflacin de precios o inflacin de notas acadmicas, a producir recesin o an depresin [de los hallazgos del estudio.] Debera obligarse a un investigador a jurar que (1) especific una hiptesis a priori, incluyendo los procedimientos para definir y manipular todas las variables, decisiones sobre todas las relaciones a examinar, qu factores controlar, etc; (2) procedi directamente a la prueba estadstica preespecificada sin mirar los dems datos; y (3) no llevar a

cabo ms pruebas estadsticas con los mismos datos? (Ver Modern Epidemiology para ms discusin sobre estos temas.) Y qu ocurre con las llamadas expediciones de pesca (N.T. fishing expeditions en ingls) en que un investigador (o su computadora) estudian una base de datos para encontrar relaciones significativas? Debe caracterizarse este procedimiento como busca y encontrars o ms bien bsqueda y destruccin? Algunos analistas recomiendan ajustar el nivel de significancia para tomar en cuenta dichas comparaciones mltiples, pero un investigador con energas puede llevar a cabo suficientes pruebas de manera que el nivel de significancia ajustado es imposible de lograr. Otros autores (p.ej., Rothman, Poole) aseguran que no es necesario ajustar que una vez que los datos estn incluidos, el nmero de pruebas no es relevante. Otros (p.ej. Greenland) han propuesto enfoques ms sofisticados al ajuste. Tal vez el mejor camino en este momento es doble: (1) Si ests llevando a cabo una investigacin, por ejemplo, en ensayo aleatorizado, en que tienes grandes posibilidades de satisfacer los supuestos de una prueba de hiptesis estadstica y esperas probar una hiptesis especfica, sobretodo una que pueda ayudar a tomar una decisin, probablemente sea mejor adherir lo mejor posible al formato de prueba de hiptesis de Neyman- Pearson. Este enfoque asegura el mximo impacto de tus resultados; (2) Si ests llevando a cabo una investigacin con algunas de las caractersticas anteriores, o ya has completado la prueba de hiptesis establecida a priori, analiza todo lo que quieras pero s cndido describiendo como has procedido. As los lectores podrn interpretar los resultados como consideren ms apropiado. La prueba de significacin de ANOVA (1 de 2) prximo ------------------------------------------------------------------------------Si la hiptesis nula es cierta, entonces los dos MSB y MSE estiman la misma cantidad. Si la hiptesis nula es falsa, entonces MSB es una estimacin de una cantidad mayor (haga clic aqu para ver lo que es). La prueba de significacin implica el estadstico F que es la relacin de MSB a MSE: F = MSB / MSE. Si la hiptesis nula es verdadera, entonces el cociente F debe ser de aproximadamente un puesto MSB y el MSE debera ser aproximadamente el mismo. Si la proporcin es mucho mayor que uno, entonces es probable que MSB es la estimacin de una cantidad ms grande que es MSE y que la hiptesis nula es falsa. Para llevar a cabo una prueba de significacin, es necesario conocer la distribucin muestral de F dado que la hiptesis nula es verdadera. A partir de la distribucin de muestreo, la probabilidad de obtener un F tan grande o ms grande que la calculada a partir de los datos se puede determinar. Esta probabilidad es el valor de probabilidad. Si es menor que el nivel de significacin, entonces la hiptesis nula puede ser rechazada. Las matemticas de la distribucin de muestreo fueron elaborados por el estadstico RA Fisher y se llama la distribucin F en su honor. (Haga clic aqu para obtener ms informacin acerca de la distribucin F).

Siguiente seccin: Particin de las sumas de cuadrados Despus de un F se calcula, el valor de probabilidad puede ser calculada a partir de una tabla de F. Para utilizar esta tabla, es necesario conocer los dos grados de libertad parmetros DFN y dfd

DFN = a-1 DFD = N-un donde a es el nmero de grupos y N es el nmero total de sujetos en todos los grupos. El dfd parmetro se llama a menudo grados de libertad o error dfe para abreviar. Para los datos del ejemplo, DFN = 3-1 = 2 dfd = 12-3 = 9, MSB = 4, y el MSE = 1,111. Por lo tanto,F = MSB / MSE = 4/1.111 = 3,6. Una tabla F se puede utilizar para calcular que el valor de probabilidad para un F de 3,6 con 2 y 9 df es 0.071. Por lo tanto, la hiptesis nula no puede ser rechazada en el nivel 0,05.

Você também pode gostar