Você está na página 1de 10

POTENCIA ESTADISTICA: CONCEPTOS, PROCEDIMIENTOS, Y APLICACIONES

MARK HALLAHAN y ROBERT ROSENTHAL.


Resumen - En este trabajo se analiza el concepto de potencia estadstica y su aplicacin a la investigacin
psicolgica. Potencia, la probabilidad de que una prueba de significacin producir un resultado
significativo cuando la hiptesis nula es falsa, a menudo se descuida con consecuencias potencialmente
graves. El concepto de potencia debe ser considerado como parte de la planificacin y la interpretacin de
la investigacin. Este artculo proporciona la explicacin del concepto de potencia y las sugerencias para
que los investigadores aumenten la potencia de sus investigaciones.

INTRODUCCIN
No considerar el concepto de potencia estadstica en la planificacin y la interpretacin de los
estudios empricos a menudo resulta en una conclusin errneas de los datos, especficamente, al pasar
por alto efectos interesantes e importantes y llevar prematuramente a rendirse en vas prometedoras de
investigacin. En este artculo se explica el concepto de potencia y las consecuencias potencialmente
graves de ignorar la potencia en la planificacin y la interpretacin de la investigacin. Adems, se
describen algunas maneras de aumentar la potencia y se ofrecen sugerencias para integrar el concepto de
potencia en nuestra estrategia global de anlisis de datos.

EL CONCEPTO DE POTENCIA.
Los investigadores recogen datos de las muestras con el fin de hacer generalizaciones acerca de
una poblacin mayor. Una manera de pensar esto es que los investigadores observan el grado en que un
efecto existe en una muestra con el fin de estimar la magnitud de este efecto en una poblacin mayor. La
palabra clave aqu es la estimacin. Incluso las estimaciones muy precisas consideran algn error. A
veces, el tamao del efecto1 en la poblacin ser sobreestimada y este ser a veces subestimado por una
muestra. El posible grado de error depende de la naturaleza de la muestra. Muestras pequeas y muestras
con grandes cantidades de variabilidad entre las observaciones proporcionarn menos estimaciones
precisas de efectos en la poblacin que las muestras grandes y muestras con poca variabilidad.
Pruebas (Tests) de significancia tienen un enfoque un tanto diferente. Las pruebas de significancia
se refieren a que tan probable es que el tamao del efecto obtenido se hubiese producido siendo la
hiptesis nula (H0) cierta. En la mayora de los casos la hiptesis nula apunta a que no hay ningn efecto
en la poblacin ms grande (el tamao del efecto de la poblacin es igual a cero), pero los nulos distintos
de cero tambin son posibles 2. Por convencin, cuando es improbable que los datos de la muestra se
hubiesen observado mientras la hiptesis nula fuese verdad, los investigadores suponen que la hiptesis
nula es probablemente falsa. Sin embargo, este enfoque probabilstico implica necesariamente algn error.
Cuando P <0,05 como el valor crtico (), los investigadores estn dispuestos a creer que la hiptesis nula
no es verdadera si observan que el tamao del efecto se produce menos del 5% del tiempo cuando la
hiptesis nula es verdadera. Esto significa que el 95% de las muestras extradas de una poblacin en la
que la hiptesis nula es cierta, el nivel de significancia observada no estara por debajo de la P crtico
<0,05 y sera inferir correctamente que la hiptesis nula es verdadera. Sin embargo, 5% de las muestras de
esta poblacin estarn por debajo de P = 0,05 y los investigadores errneamente creern que la hiptesis
nula es falsa cuando en realidad no lo es. Este tipo de error, creyendo que la hiptesis nula es falsa,
cuando en realidad es cierta, se llama error de tipo I. La probabilidad de cometer un error tipo I es igual al
nivel de significancia crtica () que se utiliza.
Muchas personas, incluyendo Cohen (1990), han sealado que en realidad la hiptesis nula casi
nunca es cierta. Una hiptesis nula en que dos grupos no difieren se podra expresar como d = 0,00, donde
d es la diferencia entre dos medias dividida por una comn. Con una muestra lo suficientemente grande,
sera un evento estadsticamente raro observando incluso efectos extremadamente pequeos (por ejemplo,
d = 0.01, d = 0,0001, d = 0,000001) en una muestra de una poblacin en la que el verdadero valor de d =
0,00. Adems de casi nunca ser cierta, la hiptesis nula es rara vez interesante. Investigadores suelen
1 Ejemplos de los tamaos del efecto son la diferencia en la proporcin de pacientes que mejoraron en un tratamiento versus condicin de
control, la diferencia entre las medias de grupo (generalmente estandarizada por la desviacin estndar), y la correlacin entre dos niveles de una
variable de tratamiento y una variable de resultado.

2 Por ejemplo, si eran bien sabido que el tratamiento A es mejor que un tratamiento de placebo por un importe d = 0.30, podramos establecer el
valor nulo para d = 0,30 en nuestra comparacin de un nuevo tratamiento (B) con un tratamiento placebo. En este caso lo haramos "Rechazar" la
nula si nuestro efecto obtenido del tratamiento B fueron significativamente mayores que d = 0,30. Conceptualmente, esto es muy al igual que un
valor nulo de 0,00 pero con la definicin del tamao del efecto (es) de cambiar a es = d, - db = 0,00.

probar una hiptesis nula con la esperanza de ser capaz de rechazarla para poder inferir que sus datos se
ajustan mejor a otra, a la hiptesis ms interesante.
Dado que la hiptesis nula generalmente no es ni verdadera ni cientficamente interesante, tal vez
sera ms fructfero considerar los tipos de errores que se cometen en pruebas de significancia cuando la
hiptesis nula no es verdadera. Si la hiptesis nula es falsa y la prueba de significancia para la muestra
tiene una P> 0.05 entonces (como la sabidura convencional va) los investigadores creen que no tienen
suficiente evidencia para rechazar la hiptesis nula. Este es un ejemplo de error tipo II (1 - ), o en su
defecto para rechazar la hiptesis nula cuando es falsa y debe ser rechazada. La Tabla 1 ilustra errores de
tipo I y tipo II. La potencia es la probabilidad de no cometer un error del tipo II (1 - ). En otras palabras,
la potencia estadstica es la probabilidad de detectar un tamao del efecto distinto del cero existente. Por
'detectar' nosotros entendemos que una prueba de significancia para un efecto resultar a P - valor que
est en o debajo del nivel crtico estipulado (), mientras el efecto es distinto de cero en la poblacin ms
grande.
La potencia de una prueba particular se determina por tres factores: el nmero de observaciones,
el tamao del efecto en la poblacin en general, y el nivel que se establece. Puede ser til tener en mente
la relacin entre estos parmetros y potencias. La Potencia aumenta con el tamao del efecto - es ms
fcil de detectar un efecto grande comparado con detectar un efecto pequeo. La Potencia aumenta con el
tamao de la muestra - que es ms fcil de detectar un efecto con ms observaciones de lo que es para
detectar un efecto con menos observaciones. La potencia se incrementa con indulgencia de alfa - es ms
fcil de detectar un efecto con un criterio indulgente (Por ejemplo, P = 0,20) que la deteccin de un
criterio estricto (por ejemplo, P = 0,001)

EL DESCUIDO DE LA POTENCIA
Muchos psiclogos investigadores no parecen considerar la potencia. Por ejemplo, Cohen (1962)
revisando la potencia estadstica en 70 estudios que fueron publicados en la Journal of Abnormal and
Social Psychology en 1960 encontr que la potencia media de estos estudios para detectar efectos de
mediana intensidad (por ejemplo, d = 0.50) fue solo de 0.46 (con = 0.05, dos colas). Si los efectos
investigados por los autores de estos estudios existan y eran de mediana intensidad, ms de la mitad de
estos estudios tienen menos del 50% de posibilidad de observar un resultado significativo. El estudio de
Cohen (1962) sealo que los psiclogos investigadores contemporneos no parecan considerar la
potencia cuando diseaban y ponan en marcha sus investigaciones. Un estudio con una potencia de 0.46
tiene una probabilidad de 54% de cometer un Error Tipo II si la hiptesis nula fuese falsa, que es casi 11
veces la probabilidad de 5% de cometer un Error Tipo I (con = 0,05) si la hiptesis nula fuese verdadera
Tabla 1. Ilustracin de Error Tipo I y Tipo II

Una muestra
(con = 00.5)
P > 0.05
(No se rechaza la hiptesis nula)
P > 0.05
(Se rechaza la hiptesis nula)

En una poblacin
Hiptesis nula es verdadera
Hiptesis nula es falsa
(por ejemplo, tamao de efecto (tamao de efecto 0.00)
= 0.00)
Sin error
Error Tipo II ()
(Correctamente no se rechaza la (equivocadamente no se rechaza
hiptesis nula)
la hiptesis nula)
Error Tipo I ()
Sin error
(Equivocadamente se rechaza la (Correctamente se rechaza la
hiptesis nula)
hiptesis nula)

Es importante prestar atencin a la potencia? Al parecer, muchas de las principales agencias de


financiacin as lo creen. El anlisis de la potencia est comenzando a ser solicitado de forma rutinaria
como parte de la subvencin, tal vez en respuesta a los problemas que el abandono de la potencia puede
generar en la investigacin. Las consecuencias del descuido de la potencia son de dos tipos. En primer
lugar, al no considerar la potencia durante el diseo de la investigacin, los investigadores pueden disear
estudios que tienen pocas posibilidades de detectar un efecto que existe, en donde la deteccin est
definida por , que es fijada por el investigador. Al hacerlo, se arriesgan a dedicar tiempo y recursos
valiosos para una investigacin en donde no ser probable rechazar la hiptesis nula en el nivel de
significancia esperado. En segundo lugar, al no considerar la potencia cuando se interpretan los
resultados, los investigadores pueden abandonar prematuramente vas prometedoras de investigacin.
Esta es una consecuencia debido a la interpretacin errnea de un resultado no significativo para querer
decir que la hiptesis nula es verdadera, independientemente de la capacidad de la muestra para detectar
un efecto no nulo existente.

Un ejemplo hipottico ilustra estos problemas. Un investigador pens que el desarrollo de un


nuevo tratamiento podra mejorar el funcionamiento cognitivo de las personas que han sufrido accidentes
cerebrovasculares. Para probar esta hiptesis se asign al azar a 20 pacientes para que recibieran el nuevo
tratamiento y los otros 20 pacientes del grupo de control recibieron el tratamiento estndar de
rehabilitacin post-accidente cerebrovascular. Despus de un periodo de tiempo, se midi el
funcionamiento cognitivo de ambos grupos. Como se predijo, el grupo experimental tuvo un mejor
resultado en las funciones cognitivas que el grupo de control. El tamao de la diferencia entre los dos
grupos (0.4 de desviacin estndar) no fue pequeo. Sin embargo, el investigador estaba decepcionado
por los resultados obtenidos en la prueba de significancia. El valor de P para la prueba t de Student
realizado (P = 0.225, dos colas) no fue inferior al criterio critico 0.05. Desde esto, el investigador infiri
que la diferencia entre el nuevo tratamiento y el tratamiento estndar no fue ms de las que se esperara
por azar si los tratamientos fueran idnticos, y estaba decepcionado de haber usado tanto tiempo y
recursos de comprobacin en un tratamiento que no proporciona ningn beneficio adicional.
Parece que este investigador no se dio cuenta que el experimento que dise depende mucho de la
suerte. La potencia estadstica o una prueba t de Student con = 0.05, dos colas, y 20 Ss en cada
condicin para detectar una diferencia de 0.4 desviaciones estndar solo es de 0.23, con su
correspondiente probabilidad de cometer un Error Tipo II igual a 1.00 0.23 = 0.77. En otras palabras, si
el tratamiento actual realmente produjo un aumento de 0.4 puntos de desviacin estndar en el incremento
de las funciones cognitivas, un pequeo nmero de una de cuatro muestras de este tamao produciran un
resultado significativo en el nivel de 0.05, dos colas. Las probabilidades estaban en contra del
investigador desde el principio. Mediante la planificacin de un estudio con tan solo unas pocas
observaciones, el investigador tena pocas posibilidades de observar un resultado significativo. La
conclusin del investigador de que el nuevo tratamiento no proporciono ningn beneficio adicional fue su
segundo error. l se rindi, convencido por resultado no significativo de que el tratamiento no funciono,
cuando el debi haber vuelto al hospital y haberle hecho prueba a ms pacientes.

LOS ANTECEDENTES DE LA POTENCIA


La historia de cmo las pruebas de significancia fueron adoptadas por el campo de la psicologa, puede
proporcionar perspicacia dentro de por qu los psiclogos aparentan prestar menos atencin a la potencia
y al Error Tipo II, relativo a la hiptesis nula, y Error Tipo 1. Gigerenzer y Murray (1987) informaron que
el campo de la psicologa comenz a utilizar ampliamente las pruebas de significacin durante la
revolucin de la inferencia (p. 20) que ocurri entre 1940 y 1955. En esa poca, exista una fuerte
disensin entre estadsticos sobre el tipo de inferencias que se podran hacer desde las pruebas de
significancia. La naturaleza de estos desacuerdos se describe en detalles por Gigerenzer y Murray (1987).
Sir Ronald Fisher discuta con Jerzy Neyman y Egon Pearson acerca de que las pruebas de significancia y
la hiptesis nula eran ms centrales al concepto de potencia. En resumen, la metodologa de Fisher (1996,
1973) para las pruebas de significacin se centr solo en la hiptesis nula, mientras que el enfoque de
Neyman-Pearson (1933) consideraba tanto la hiptesis nula como la hiptesis alternativa.
Los conceptos de Potencia y Error Tipo II son centrales para Neyman-Pearson pero no para
Fisher. Sin embargo, la perspectiva de Fisher recibi una gran circulacin entre los psiclogos a travs de
del muy ledo texto de Snedecor Statistical Methods (1937). La psicologa ignoro las incompatibilidades
sustanciales de los acercamientos de Fisher y de Neyman-Pearson y, en su lugar de asimilaron algunas
ideas de Neyman y Pearson con las de Fisher para crear algo aparentemente coherente, aparentemente
incontrovertible una nica teora, hibrida de la cual ni Fisher ni, ciertamente, Neyman y Pearson
habran aprobado (Gigerenzer & Murray, 1987, p. 21). Aunque los textos de estadstica que los
psiclogos usaban en ese tiempo mencionaban algunos conceptos de Neyman-Pearson, como Error Tipo
II, no se les atribua estos conceptos a sus fundadores, ni se mencionaba la controversialdad que les
rodeaba. Por ejemplo, Guilford (1956, p. 217) menciono la potencia, pero no intento discutir el concepto
porque pensaba que sera muy complejo. As, la manera en que los psicolgicos han intentado analizar
informacin puede tener una prominencia por la prueba de hiptesis nula y el evitar el Error Tipo I a
expensas del anlisis de potencia y el evitar el Error Tipo II. Este desbalance parece reflejar la asimetra
entre la probabilidad de obtener un Error Tipo I y un Error Tipo II en las investigaciones psicolgicas.

LAS CONTRIBUCIONES DE COHEN


Jacob Cohen ha hecho ms que ningn otro por ensear en el campo de la psicologa la importancia de la
potencia y disipar la confusin y malentendidos que rodean al concepto. Sus obras explican porque la
potencia es importante y muestra a los investigadores a prestar un poco de atencin a esta. Adems, su
tabla de potencia hace ms fcil determinar el nivel de potencia que dan los estudios. Estas contribuciones

(y muchas otras) de Cohen hacia la metodologa psicolgica son enormes, pero tristemente su sabidura
parece ser ignorada por muchos. Sedlmeier and Gigerenzer (1989) analizo las investigaciones que fueron
publicadas en la Journal of Abnormal Psychology en 1984 encontrando que el nivel de potencia de estos
estudios eran muy idnticos a los que Cohen (1962) encontr cuando examino a la predecesora de aquella
revista (journal) alrededor de dos dcadas atrs (en 1984, potencia media = 0.44). En el mejor de los
casos, la potencia tpica de la investigacin actual es algo peor que cuando Cohen examino por primera
vez este asunto debido a que el uso de los procedimientos de ajustes de , que fueron pocos usados en
1960. Cuando Sedlmeier y Gigerenzer (1989) ajustaron sus clculos de potencia para el efecto de estos
procedimientos, la media de la potencia bajo a 0.37. Adicionalmente, en un reciente sondeo sobre
conocimiento estadstico de psiclogos (Zukerman, Hodigns, Zukerman & Rosenthal, 1993) se encontr
que la mayora de preguntas que estaban involucradas con la potencia o Error Tipo II eran respondidas
incorrectamente (39% y 47% fue el porcentaje de respuestas correctas para las dos preguntas). El mismo
Cohen (1990) reconoce filosficamente que el cambio puede venir lentamente en trminos de una
adaptacin de los avances metodolgicos en psicologa. Dando como ejemplo la prueba t de Student, una
de las herramientas estadstica ms usadas en la investigacin psicolgica, que fue publicada
primeramente en 1980 (Student, 1908) pero que no apareci en los textos estadsticos psicolgicos hasta
despus de las segunda guerra mundial.

ANLISIS DE LA POTENCIA
El Anlisis de la Potencia Estadstica para las Ciencias del Comportamiento (1997, 1988) es la
fuente definitiva en potencia y en un recurso invaluable para cualquier persona interesada en hacer el
anlisis de la potencia. Este libro proporciona tablas detalladas que hacen que sea fcil encontrar: (a) la
potencia de un estudio, y (b) el nmero de observaciones requerido para lograr un determinado nivel de
potencia. Estas tablas permiten a los usuarios responder a preguntas de potencia para una amplia gama de
pruebas de significancia y su utilidad se incrementa an ms por el hecho de que se pueden adaptar
fcilmente para casos especficos como muestras no independientes y muestras pruebas individuales. Para
los lectores ms tcnicos, Cohen ofrece un apndice con las frmulas que se utilizaron para producir sus
tablas. Sin embargo, el texto clsico de Cohen (1977, 1988) no es en absoluto el nico recurso disponible
sobre potencia. Cohen (1992) tambin tiene un breve artculo de introduccin a la potencia que introduce
el concepto, se incluye una tabla para responder las preguntas bsicas de la potencia, y proporciona claras,
sencillas instrucciones para realizar el anlisis de la potencia. Otras pruebas recientes (por ejemplo,
Kramer y Thieman, 1987; Lipsey, 1990) discuten sobre la potencia y proporcionar tablas para realizar el
anlisis de la potencia. Adicionalmente, un muestreo (no aleatorio) de textos de mtodos
estadsticos/investigativos para la psicologa, revela que muchos poseen ambos captulos dedicados a la
potencia y tablas que los investigadores pueden usar para determinar la potencia (Por ejemplo, Aron y
Aron, 1994; Howell, 1995; Rosenthal y Rosnow, 1991; Welkowitz, Ewen y Cohen, 1991).
Consultar tablas de potencia puede ser til para planificar una investigacin e interpretar
resultados. Cuando se planifica un estudio, el anlisis de potencia ayuda a los investigadores a planificar
estudios que son adecuadamente sensibles a detectar los efectos predichos. Al analizar los resultados,
anlisis de potencia tambin puede ser informativo, especialmente cuando las pruebas de significancia no
se encuentran por debajo del nivel crtico de requerido para rechazar la hiptesis nula. En este contexto,
el anlisis de potencia puede responder a dos preguntas muy tiles. En primer lugar, uno querra saber la
potencia de la prueba de significancia que se realiz, o dado el tamao del efecto obtenido, cual era la
posibilidad de rechazar la hiptesis nula. Esta informacin gua la interpretacin de los resultados. Con
una potencia especialmente baja, un resultado no significativo quiere decir muy poco, 3 pero
especialmente con una potencia ms elevada, un resultado no significativo significa que es probable que
el efecto que est siendo investigado sea bastante pequeo. En segundo lugar, uno querra saber qu
nmero de Ss sera necesario para alcanzar un cierto nivel de potencia dado por el tamao del efecto
obtenido. Esta informacin puede ayudar en la planificacin de futuros estudios que estn investigando la
cuestin de la investigacin.
Cuestiones prcticas

3 Es de vital importancia que se considera la potencia al momento de interpretar los resultados de la investigacin en la que la
hiptesis nula es una investigacin de hiptesis. Con baja potencia, sera poco probable que uno rechace la hiptesis nula aunque
esta fuera falsa, pero este error de no rechazar la hiptesis no significa que la hiptesis nula sea verdadera. Preocupantemente,
Sedlmeier y Gigerenzer (1989) encontraron que los estudios hiptesis nula tena muy baja potencia. En 1984, 7 de los 56 artculos
de la Journal of Abnormal Psychology tenan la hiptesis nula en al menos una de sus hiptesis de investigacin. La potencia
media de estos estudios para rechazar la hiptesis nula fue un increblemente bajo de 0.25. Esto es un grave error de inferir que la
hiptesis nula es verdadera sobre la base de una prueba que tiene pocas posibilidades de rechazar una genuina hiptesis nula
falsa.

El anlisis de potencia implica estimar uno de los cuatro parmetros -(a) nivel de significancia
(); (b) la potencia; (c) el tamao del efecto; y (d) el nmero de Ss-, de los otros tres. Determinar la
potencia de un estudio que ya se ha llevado a cabo es una tarea bastante sencilla. Cuando uno sabe el
nmero de Ss, el tamao del efecto obtenido, y el nivel de significacin que se utiliz. Sin embargo,
determinar de antemano el nmero de Ss requerida para un nivel dado de potencia requiere que los
investigadores especifiquen el nivel de significancia, el nivel deseado de potencia, y el tamao del efecto
esperado.
Cohen (1977, 1988, 1992) ha proporcionado muchos buenos consejos para cmo especificar estos
parmetros. La convencin de usar = 0,05 es bastante fuerte, y Cohen (1965, 1977, 1988, 1992) sugiere
una potencia de = 0,80 como una meta razonable para la investigacin. Ambos son estndares
razonables, siempre y cuando mantengan su estado convencional y no se aplican de manera servil,
absoluta, o acrtica. Un investigador que es consciente de los costos y beneficios relativos de los errores
de tipo I y tipo II para una especfica pregunta de investigacin, podra decidir cules de los diferentes
niveles de potencia o que son ms adecuados en ese contexto.
Expectativa del tamao del efecto
Para muchos investigadores, la parte ms incierta de anlisis de la potencia implica especificar el tamao
del efecto antes de la realizacin de un estudio. Este artculo pone de relieve algunas de las maneras de
estimar razonablemente el efecto esperado para un estudio planificado.
1. Consultar investigaciones anteriores. Los estudios que han abordado cuestiones similares o han
utilizado un paradigma parecido pueden proporcionar una estimacin razonable de la magnitud
del efecto que se esperara en un estudio planificado. Algunos simples procedimientos metaanalticos (Rosenthal, 1991b) se podran utilizar para encontrar el efecto promedio que se
observ en los estudios relevantes existentes. El tamao del efecto esperado para el estudio
planificado podra basarse en el efecto promedio que se ha encontrado en las investigaciones
similares.
2. Confiar en datos preliminares. Muchos investigadores de la conducta llevan a cabo una
investigacin preliminar o piloto antes de la realizacin de un extenso proyecto de investigacin.
Adems de proporcionar una oportunidad para probar y para afinar los procedimientos
experimentales, la investigacin piloto produce informacin que se puede utilizar para estimar el
tamao del efecto que se podra observar en un estudio ms amplio. El tamao del efecto de la
potencia de datos de la investigacin piloto proporcionara una estimacin razonable de lo que se
podra observar en un estudio ms amplio.
3. Estimacin subjetiva. En situaciones en las que un investigador no tiene datos experimentales, ni
absolutamente nada en la literatura de investigacin existente que se relacione con el estudio
planificado, puede que no sea aconsejable hacer una suposicin educada sobre el tamao del
efecto esperado. Presumiblemente, el investigador tiene alguna intuicin en cuanto a lo que los
resultados de la investigacin podran ser (o de lo contrario por qu el estudio se ha
planificado?). Por supuesto, el valor de adivinar es cuestionable. Una estimacin especulativa y
subjetiva pueden no ser exactos y, sin datos que lo soporten, quin lo creera realmente? Sin
embargo, en algunos aspectos, esta es una envidiable situacin para estar planificando un estudio
para el que no hay absolutamente ninguna informacin previa para estimar el tamao del efecto
esperado. Los datos del estudio planificado pueden ser muy valiosos, ya que son la primera
informacin disponible sobre el tamao del efecto de un fenmeno potencialmente interesante.
4. Consejos de Cohen. Una vez ms Cohen (1977, 1988, 1992) ofrece algunos consejos muy
razonables que podran ser utilizados para ayudar a estimar la magnitud del efecto esperado para
un estudio planificado en ausencia de ms informacin especfica. Para cada tipo de tamao del
efecto para el que Cohen ha creado tablas de potencia, tambin sugiere la magnitud de los efectos
podran ser consideradas como pequeas, medianas y grandes. Por ejemplo, Cohen sugiere que d
= 0,20 sera un pequeo efecto, d = 0,50 se producira un efecto medio, y d = 0,80 sera un gran
efecto. Estos puntos de referencia pueden ser tiles para estimar el efecto esperado de un estudio
planificado. Cohen deja claro que sus sugerencias son para guiar investigadores a su 'propio juicio
sobre sus datos, reemplazar con reglas duras y rpidas que se pueden aplicar sin ser pensadas.
Esta convencin para clasificar los tamaos del efecto en pequeos, medianos y grandes "... se
recomienda usarlas solo cuando no hayan mejores bases para estimar el tamao del efecto"
(Cohen, 1977, p. 25). En los casos en que no exista informacin anterior sobre la cual basar una
estimacin, Cohen seala que podra ser razonable esperar un efecto pequeo, ya que, sin ningn
trabajo anterior de observacin en un rea, el fenmeno de inters probablemente no est bien
controlado experimentalmente, ni los instrumentos de medida puedan ser especialmente precisos.
5. Anlisis de costo-beneficio. En algunos casos, sobre todo en la investigacin aplicada, puede ser
apropiado seleccionar un tamao de efecto esperado sobre la base de anlisis de costo-beneficio.
La aplicacin de un umbral del tamao de efecto, o el grado de eficacia en que los beneficios

esperados de una intervencin justificaran su costo de implementacin, se puede determinar. El


uso de este tamao del efecto para los anlisis de potencia asegurara que un estudio planificado
tiene potencia suficiente para detectar el tamao de efecto mnimo considerado importante.
6. Evite enredarse en una estimacin. Se aconseja evitar el siguiente enfoque para estimar tamaos
del efecto esperado. Imagine un investigador con acceso a 50 Ss que queran que su estudio
planificado tuviese un nivel de potencia "socialmente deseable". Tal vez l o ella ha escuchado
algo as como "las agencias solo subvencionan estudios con altos niveles de potencia o "Cohen
que una potencia de = 0,80 es deseable ". Este investigador podra consultar las tablas de Cohen
(1977, 1988) para aprender que dos colas en la prueba t de Student con 50 Ss tiene una potencia
de 0,80 para detectar un tamao del efecto d = 0,80. Utilizando las tablas de esta manera, el
investigador podra 'estimar' la magnitud del efecto esperando d = 0,80 y luego afirmar haber
planeado un estudio con de alta potencia. Sin embargo, el uso de las tablas de potencia para
obtener de vuelta 'un tamao efecto esperado puede ser problemtico debido a la posibilidad de
auto-engao. Por ejemplo, si los datos de la investigacin o de la investigacin piloto existentes
habran sugerido un tamao del efecto esperado d = 0.30, la potencia real del estudio sera mucho
peor. De hecho, en una prueba t de Student con 25 Ss por condicin tiene menos de un 20% de
probabilidad de detectar un efecto tamao d = 0,30; aproximadamente 175 Ss por condicin (7
veces ms grande que el estudio planeado) se requerira para tener una potencia de = 0,80.

AUMENTANDO LA POTENCIA
No slo es fcil de determinar la potencia de un estudio, tambin hay una serie de pasos que
puede realizar para aumentar la potencia. Trabajando con las tablas de potencia probable sugiere una
manera obvia de aumentar la potencia: aumentando el nmero de observaciones en un estudio. Aunque
sin duda es deseable tener muestras grandes, el aumento del tamao de la muestra es slo una de las
muchas maneras de aumentar la potencia. En algunos casos puede que no sea posible aumentar tamao de
la muestra porque Ss son raros, difciles de reclutar, o es costoso. En tales casos, los investigadores estn
obligados a trabajar con un pequeo nmero de Ss, pero pueden alcanzar niveles razonables de poder a
travs de otros medios. Incluso cuando Ss estn fcilmente disponibles, es importante estar al tanto de
toda la gama de formas de aumentar la potencia. No slo es importante tener suficiente potencia para
detectar efectos predichos, pero tambin es importante para alcanzar la potencia de manera eficiente. La
eficiencia es la capacidad de maximizar el poder contra diversas limitaciones de costos. Esto debera ser
considerado en el curso de la planificacin de un estudio con el fin de entender donde hay influencia para
mejorar la calidad general de un estudio planificado. Por ejemplo, en casos en los que son particularmente
Ss difcil obtener un investigador podra hacer bien en invertir atencin y los recursos para minimizar
error experimental. Sin embargo, en los casos en Ss son abundantes, puede ser relativamente mejor, en
trminos de aumentar la potencia, dedicar atencin y recursos para aumentar el tamao de la muestra.
Cada pregunta de investigacin tiene su propio conjunto nico de limitaciones logsticas y de costos
cientficos que influyen en cmo un investigador mejor puede ir sobre la maximizacin de la potencia.
Como el cuadro 2 ilustra, la potencia se puede aumentar de muchas maneras y en muchos
momentos de la investigacin, incluyendo el diseo, anlisis de datos y el uso de procedimientos metaanalticos.
Tabla 2. Diez procedimientos para aumentar la potencia
Durante el Diseo
1. Aumentar tamao de las muestras
2. Administrar tratamientos ms fuertes
3. Evite la restriccin de rango para las variables dependientes
4. Estandarizar los procedimiento experimentales
5. Utilice los instrumentos de medicin ms fiable
6. Utilice las poblaciones sujetas ms homognea
7. Utilice el bloqueo de las variables
8. Use diseos de medidas repetidas (la variable de bloqueo final)
Durante el Anlisis
9. Prefiera el uso de contrastes enfocado ms que pruebas de Omnibus
Durante la acumulacin
10. Combinar los resultados de los estudios individuales

Diseo

Tener en cuenta los parmetros que determinan la potencia - tamao de la muestra, y del
tamao del efecto- proporciona un buen marco para pensar acerca de cmo aumentar la potencia.
Cualquier prueba de significacin se determina por el tamao del efecto observado y el tamao de la
muestra:
Prueba de significacin = tamao del efecto tamao del estudio.
Por lo tanto, el poder de un estudio se ver afectada por cualquier accin que tiene implicaciones para
cualquiera de estos tres parmetros. Aumentar el nmero de observaciones en cualquier estudio aumentara
la potencia, como sera el establecimiento de a un nivel menos riguroso, aunque eso puede no ser un
consejo realista para la practica en un mundo que sostiene que P = 0,05. Adems, todas las medidas que
aumentan el tamao del efecto observado aumentaran la potencia.
Varias cosas podran hacerse para aumentar el tamao del efecto y, por lo tanto, aumentar la
potencia. Estos pasos pueden organizarse en funcin de los factores que determinan el tamao del efecto:
(a) el grado en que las observaciones diferir en funcin de una variable experimental, tambin conocido
como "seal"; y (b) la cantidad de errores de varianza contra el que se compara el efecto, tambin
conocido como "ruido". El tamao del efecto d proporciona un buen ejemplo de esta relacin. El
numerador, ml - m2, representa la variabilidad entre condiciones experimentales, y el denominador, ,
representa la variabilidad de las observaciones dentro de las condiciones experimentales
Tamao del efecto =

Variabilidad entre las condiciones experimentales


Dentro de la variabilidad de la condicin

Ej:

m1 m 2

Cualquier cosa que aumenta la condicin de variabilidad aumentar el tamao del efecto y por lo
tanto aumentar la potencia. Por ejemplo, el aumento de la fuerza de un tratamiento debe aumentar la
diferencia entre las condiciones. Por lo tanto, si se estaban estudiando la relacin entre la cantidad de
teraputica de contacto y mejora, la diferencia en la mejora deben ser ms grandes entre 40-min de
entrevista y 5-min de entrevista que entre una entrevista de 20 minutos y una entrevista de 15 min.
Tambin, queremos evitar la restriccin de rango. El tamao de una relacin entre dos variables ser ms
grande en una muestra que representa completamente el rango de calificaciones para la variable
dependiente que en una muestra con una gama muy restringida para esa variable. Por ejemplo, el tamao
de la correlacin entre el ejercicio y la frecuencia cardaca probablemente sera ms pequea en una
muestra de corredores de maratn de lite que en la poblacin general.
Cualquier cosa que reduzca la variabilidad dentro de la condicin aumentar el tamao del efecto
y, por lo tanto aumentar la potencia. Dentro de la condicin o error de varianza se puede reducir en gran
medida. Los esfuerzos para estandarizar procedimientos experimentales para reducir la varianza debido a
las diferencias en las condiciones en que Ss realizaron una tarea experimental. Adems, el uso de
instrumentos de medicin ms fiables reduce la varianza debido a un error de medicin. El instrumento de
medicin trmino se refiere ampliamente a cualquier cosa usada para obtener una medicin en una
variable de inters, que van desde el tiempo de reaccin, la frecuencia cardaca, a una construir que se
mide con una escala de papel y lpiz. Independientemente de lo que se mide, baja fiabilidad reduce el
tamao de los efectos observados, que reducen la potencia. De sujeto a sujeto las diferencias son otra
fuente de variabilidad dentro de la condicin. Una de las estrategias para reducir el tema varianza es
utilizar una poblacin de sujetos relativamente homognea. Otra sera la de utilizar el bloqueo de
variables para reducir los errores de varianza. Estas son variables distintas de las variables independientes
primarias variables que tambin estn relacionadas con la variable dependiente. Bloquear las variables
aumenta el tamao del efecto debido a la variacin en la variable dependiente que se debe a las variables
de bloqueo que se eliminaron efectivamente de la varianza dentro de condiciones. El uso de diseos con
medidas repetidas, son especialmente de gran alcance, ya que emplean la ltima variable bloqueable el individuo S.
"Student" (193 l) proporcion un ejemplo temprano de la posibilidad de mejorar el poder a travs
de la investigacin diseo. Segn su anlisis, un experimento comparando la altura y el peso de los nios
que reciban leche natural o leche pasteurizada, con cerca de 5.000 nios de igual condicin, podra haber
alcanzado el mismo nivel de potencia con slo 50 parejas de gemelos idnticos, con uno de los gemelos
que se asigna a cada condicin. Este dramtico incremento en el poder habra dado lugar porque la
cantidad de varianza en la altura y los pesos de dos gemelos idnticos son mucho menor que entre 2 nios
elegidos al azar.
Un ejemplo ms reciente de la posibilidad de mejorar la potencia es a travs del diseo de
investigacin que tiene especial aplicacin al estudio de parejas. Para un nmero dado de Ss, el diseo de
bloques round robin (todos contra todos) es ms poderosos que los diseos alternativos. En este diseo,
Ss son asignados a los bloques. Dentro de cada bloque, Ss se emparejan en diadas con cualquier otra
persona en su bloque. La ventaja de potencia de este diseo es doble. En primer lugar, genera un gran

nmero de diadas con relativamente pocos Ss. Por ejemplo, 4-personas por bloque de round robin genera
6 diadas y un bloque de round robin de 6 plazas que genera 15 diadas. Este se compara con un diseo no
round robin donde slo 2 diadas se forman a partir de 4 personas y slo 3 dadas se forman a partir 6. En
segundo lugar, como en el de medidas repetidas, hay menos variabilidad entre las dadas dentro de los
bloques del round robin de entre dadas robin no redondos porque cada dada en un round robin bloque se
crea a partir del mismo conjunto de personas. Los procedimientos desarrollados recientemente hacen ms
fcil analizar los datos del diseo de bloques round robin (por ejemplo, Kenny, 1994; Kenny & La Voie,
1984; Li, Hallahan & Rosenthal, 1995), lo que debera aumentar el uso de este diseo eficiente de la
energa en la investigacin sobre la interaccin didica.
Anlisis
Para las comparaciones de mltiples grupos, el uso de contrastes enfocado es preferible el uso de
pruebas de significacin desenfocados o combinadas. Anlisis de varianza pruebas F con df > 1 en la
numerador o pruebas de chi-cuadrado con df > L son ejemplos de pruebas combinadas. En un grupo de
comparacin mltiple, tales como, por ejemplo, una comparacin de las puntuaciones en una prueba de
rendimiento cognitivo para los nios de 5 diferente edades, un contraste probar una hiptesis centrada,
como el aumento de rendimiento con la edad, tendria ms probabilidades de producir un resultado
significativo de la prueba F mnibus para el anlisis de la varianza la comparacin de las puntuaciones de
los grupos de edad 5, suponiendo que los datos correspondan razonablemente a la tendencia prevista.
La ventaja de potencia de contrastes viene de hacer una pregunta especfica sobre una difusa. En
efecto, los contrastes se pueden concentrar la varianza entre grupos en una sola, la prediccin se centr en
una manera que una prueba difusa no se puede. Los contrastes consideran que el patrn de grupo se
entiende en relacin a su varianza total. Por ejemplo, no importara para una prueba de mnibus si las
calificaciones de 5 grupos de edad aument de menor a mayor en un claro, patrn significativo o si
diferan en un patrn aparentemente aleatorio, pero sera muy importante para un contraste.
Sin embargo, debe tenerse en cuenta que la caracterstica ms importante de contrastes no es su
poder, pero en lugar de que puedan abordar cuestiones cientficamente significativas de una manera que
las pruebas fuera de foco generalmente no pueden. Los contrastes prueban preguntas especficas que
corresponden precisamente a cientficamente relaciones significativas (por ejemplo, el rendimiento
aumenta con la edad), mientras que las pruebas no enfocadas dicen slo si los grupos difieren de alguna
manera no especificada (por ejemplo, nivel de rendimiento no es idntico a travs de 5 niveles de edad).
Ver Koutstaal y Rosenthal (1994) o Rosenthal y Rosnow (1985) para una discusin ms detallada del
anlisis de contraste.
Acumulacin
El uso de procedimientos meta-analticos para acumular los resultados de los estudios
individuales aumenta la probabilidad de que los efectos que existen en la naturaleza no se pasen por alto
porque los estudios individuales fueron incapaz de rechazar la hiptesis nula a un nivel dado de
significacin estadstica. La acumulacin de investigaciones resulta efectiva al incrementar el nmero de
observaciones que pueden utilizarse para poner a prueba una hiptesis.
Considere este ejemplo. Un estudiante A propuso un experimento con una hiptesis intrigante, un
diseo claro y una prueba directa de la hiptesis experimental Una prueba t de Student comparando las
medidas del grupo experimental y el grupo de control. El asesor del estudiante le permiti reclutar Ss de
una clase que dispone de entre 20 y 30 estudiantes. El experimento se realizado con 13 Ss en cada
condicion. Aunque la diferencia entre el grupo experimental y el de control fue en la direccin prevista,
esta diferencia no fue significativa t (24) = 1.18, P = 0.13, una cola. Al ao siguiente, otro estudiante
(estudiante B) expreso su inters en la misma pregunta de investigacin. El consejero accedi a dejarle
realizar la investigacin con algunas consideraciones, debido a la resultados 'decepcionantes' del
experimento del Estudiante A. Como en el ao anterior, la diferencia entre el grupo experimental (n = 11)
y control (n = 11) significo que todo fuese en la direccin prevista, pero esta diferencia no fue
significativa t (20) = 1,27, P = 0,11, uno cola. Al ao siguiente, un tercer estudiante (Estudiante C)
expres su inters en el experimento que estudiantes A y B haban realizado. Aunque el consejero se
mostr reacio a patrocinar un experimento en el que el hallazgo fue "no hay diferencia entre el grupo de
tratamiento y el de control y esto ya haba sido replicado en dos estudios ", finalmente fue persuadido
para dejar al Estudiante C realizar el experimento. Una vez ms, aunque la diferencia entre el tratamiento
(N = 12) y control (n = 12) fue en la direccin prevista, esta diferencia no fue t significativa t (22) = 1.22,
P = 0.12, de una cola.

Estudiante A
Estudiante B

Tabla 3. Los resultados individuales y acumulados de 3 estudios


na
d
Potencia b
Pc
13
0.48
0.32
0.13
11
0.57
0.37
0.11

Z
1.15
1.23

Estudiante C
Acumulado

12
36

0.52
0.52

0.35
0.71

0.12
0.02

1.19
2.06d

Numero de Ss por cada condicin. b Con = 0.05, una cola. c Una cola. d Z = 2.06 basado en el mtodo de Stouffer. El
mtodo de probar la Z promedio producira un resultado incluso ms fuerte (Z = 3.56, P = 0.00019). Revisar Rosenthal (1991b,
Capitulo 5) para ms detalles de estos dos y otros mtodos de probabilidades combinadas.

Aunque, tomados individualmente, ninguno de estos estudios produjo un efecto lo suficientemente grande
como para rechazar la hiptesis nula, en conjunto, el efecto acumulativo de estos estudios fue
estadsticamente significativo Z = 2.06, P = 0.02, una cola, con un promedio de d = 0.52. Como muestra
la Tabla 3, el poder de estos experimentos para detectar una diferencia media desviacin estndar entre el
grupo de tratamiento y control fue bastante bajo (potencia mediana = 0.35), y an ms baja (potencia
mediana = 0.22) para las pruebas de dos colas. Por lo tanto, ninguno de estos experimentos tena una
buena posibilidad de obtener un resultado con una diferencia estadsticamente significativa, incluso si la
hiptesis nula fuera falsa, con d = 0.52. Sin embargo, cuando los procedimientos meta-analticos simples
se utilizan para acumular los resultados de estos tres estudios, la condicin de tratamiento (grupo
experimental) fue significativamente diferente a la condicin de control.
Se podra obtener una idea aproximada de como los meta-anlisis aumentan la potencia mediante
la bsqueda de la potencia asociada con el nmero total de Ss y el tamao medio de efecto para un grupo
de estudios. En este caso, la potencia es de = 0.71 para la prueba t de Student comparando dos medidas de
72 Ss (36 por condicin) y tamao del efecto promedio de d = 0.52, aproximadamente el doble de la
potencia de los estudios individuales.
Los investigadores, conscientes del concepto de potencia, generalmente quieren llevar a cabo
estudios que tienen el poder suficiente para rechazar la hiptesis nula. Sin embargo, esto no siempre es
posible. Por ejemplo, en una reciente cuestin de Ciencia, Jon Cohen (1993) inform los resultados de
dos estudios piloto comparando la salud de monos que fueron vacunados con SIV (el anlogo de simio al
VIH), -el grupo experimental-, con el grupo de control. En estos dos estudios piloto, las condiciones
experimentales incluyeron 3 y 5 monos respectivamente, los monos del grupo de control incluyen 3 y 6,
respectivamente. Con un meta-anlisis, tiene sentido realizar estudios pequeos, de baja potencia,
especialmente en los casos en que Ss son raros o difciles de reclutar. Los resultados de estos estudios
pueden ser muy informativos, contribuyendo a una mayor base de datos, aunque es poco probable que
cada uno conduzca a un resultado significativo (Rosenthal, 1995).

CONSIDERACIONES FINALES
Atencin a la potencia
Le sugerimos que se trata de una buena prctica consultar las tablas de potencia de Cohen (1977,
1988) con frecuencia durante la realizacin de la investigacin. El conocimiento de la probabilidad de que
un experimento puede producir un resultado significativo para una genuina falsa hiptesis nula debe
ayudar a los investigadores a planificar estudios con una potencia suficiente para detectar los efectos
previstos y de interpretar los resultados no significativos correctamente. Adems, los investigadores debe
utilizar el complementos disponibles para aumentar la potencia de sus investigaciones como
eficientemente como sea posible, ya sea mediante el aumento de tamao de la muestra, generando efectos
ms fuertes, reduciendo errores experimental, generando anlisis de datos ms precisos, acumulando
mltiples estudios con procedimientos meta-analticos, o, mejor, una combinacin de estas cosas.
Pensando en las pruebas de significacin
Muchos observadores han sealado que la prueba de la hiptesis nula a menudo se utiliza
de una problemtica manera en la investigacin en ciencias sociales (Cohen, 1990, 1994; Gigerenzer,
1993; Jones, 1955; Loftus, 1991, 1993, 1994; Rosenthal, 1991a, 1995). Ciertamente, un nfasis excesivo
en pruebas de significacin a las expensas de la informacin til sobre el tamao del efecto puede dar
lugar a dos errores de inferencia comunes: (a) Una falla interpretativa al rechazar la hiptesis nula en el
sentido en que la hiptesis nula es verdadera o que no hay ningn efecto; y (b) no distinguir la
significacin estadstica de un resultado de su importancia cientfica. Estos errores se pueden evitar
mediante el uso de procedimientos al analizar y reportar los resultados de investigacin que contienen
ms informacin que la probabilidad de que el tamao del efecto de la muestra pudiera obtener si la
hiptesis nula fuera verdad. Es una buena prctica para calcular y reportar las estimaciones del tamao del
efecto para cualquier efecto que se prueba, y para proporcionar los errores estndar o intervalos de
confianza para los efectos, como por ejemplo, Loftus (1991, 1993, 1994) y Rosenthal y Rubin (1978)
sugieren. Rosenthal y Rubin (1994) proponer una hiptesis alternativa (tamao del efecto que est
apoyado por los datos de la hiptesis nula) como una manera de evitar los errores de inferencia asociados
con una nfasis excesivo en la prueba de hiptesis nula.

Para un tamao del efecto obtenido, el valor de la hiptesis alternativa de un tamao del efecto es
la magnitud no nula del tamao del efecto que se apoya en la misma cantidad de pruebas que apoya el
valor nulo del tamao del efecto. Por ejemplo, si un tamao del efecto de la muestra fue d = 0.30, con P =
0.20, eso significara que slo 1 vez dentro de 5 muestras podra tener un tamao del efecto tan grande
como d = 0.30 si se extrae de una poblacin grande, donde d = 0,00. Con P tan lejos de ser significativo
muchos investigadores concluyen que la hiptesis nula es verdadera. Sin embargo, la hiptesis alternativa
especifica la alternativa igualmente probables: un tamao de muestra de efecto tan pequeo como d =
0.30 se observara slo 1 vez de 5 de una poblacin donde d = 0.60. En otras palabras, la hiptesis
alternativa ilustra que las poblaciones con d = 0.00 y d = 0.60 son igualmente susceptibles de producir un
efecto tamao de la muestra de d = 0.30. La hiptesis alternativa es fcil calcular. Para las estadsticas del
tamao de los efectos distribuidos simtricamente (por ejemplo, d), la hiptesis alternativa es
simplemente el doble el tamao del efecto observado menos el tamao del efecto nulo:

es(counternull)=2 es (obtained )es (null )


Para los tamaos del efecto no simtricos, como la r de Pearson, esta frmula se puede aplicar despus de
que el tamao del efecto ha sido transformado a una escala simtrica, como la transformacin z de Fisher
hace para la r de Pearson. El uso de un hiptesis alternativa evita los errores de inferir que un efecto no
significativo significa que no hay efecto y asumiendo que un efecto significativo sea cientficamente
importante. Se evita el primer error porque la hiptesis alternativa ilustra que es igualmente probable que
el verdadero tamao de efecto de la poblacin es mayor que el tamao del efecto observado como que sea
cero, y evita el segundo error, porque si incluso el valor del hiptesis alternativa es demasiado pequeo
para ser cientficamente importante seremos menos tentados a concluir que un resultado es importante
simplemente porque es significativo.
La paradoja del poder
Por supuesto, en un mundo donde el rechazo de la hiptesis nula es tenido en alta estima, es
prcticamente importante tener en consideracin el poder para asegurar que estamos en condiciones de
rechazar aquellas hiptesis nulas que merecen el rechazo. Sin embargo, podemos imaginar un mundo en
el que el objetivo de la comprensin cientfica tiene prioridad sobre el rechazo de la hiptesis nula. En
este mundo los investigadores harn las preguntas "Qu tan grande era el efecto?", "Qu tan bien se
estima que?", Y "Es este efecto lo suficientemente grande como para ser cientficamente importante?"
ms bien de "Qu tan probable es que este efecto podra haber venido de una poblacin en la que ningn
efecto real existe?. Sin embargo, no es necesariamente inconsistente para abogar por un lado, que los
investigadores sean conscientes del concepto de potencia estadstica para as tomar las medidas para
aumentar la potencia en sus investigaciones, y, por otro lado, para argumentar que las pruebas de la
hiptesis nula se enfatizan demasiado en las investigaciones de ciencias sociales. Incluso con un menor
nfasis en las pruebas de hiptesis nula, todos los procedimientos para aumentar la potencia estadstica
siguen siendo prcticas adicionales a la investigacin. Estos procedimientos, de manera colectiva,
conducirn a estimaciones ms exactas de los tamaos del efecto, a ms extensos tamaos del efecto, y
conceptualmente ms tamaos del efecto interpretables.