Escolar Documentos
Profissional Documentos
Cultura Documentos
en pequeas dosis
Las trampas de la estadstica
M. Molina Arias
Publicado en Internet:
Servicio de Gastroenterologa. Hospital Infantil Universitario La Paz. Madrid. Espaa.
30-junio-2014
Grupo de Trabajo de Pediatra Basada en la Evidencia AEP/AEPap. Editor de www.cienciasinseso.com
Manuel Molina Arias:
mma1961@gmail.com
Resumen
Diariamente se publican gran cantidad de artculos en revistas biomdicas pero, desgraciadamente, una
alta proporcin de ellos estn afectos de errores metodolgicos que pueden poner en peligro la validez
de sus resultados. Estos errores suelen ser debidos a la falta de formacin en metodologa de los auto-
res de los artculos, que son fundamentalmente clnicos, y a la falta de revisores adecuadamente forma-
dos en las revistas cientficas. Adems, en algunas ocasiones los errores pueden ser deliberados para
favorecer la obtencin de determinadas conclusiones, como ocurre en los casos con conflicto de inters.
Palabras clave: En el presente artculo se revisan los errores ms frecuentes que pueden observarse en el uso de las
Metodologa pruebas estadsticas, bien por falta de formacin de los autores, bien para maquillar los datos a fin de
Estadstica mostrar las conclusiones deseadas.
Conflicto de inters
Huge quantities of medical papers are published every day in biomedical journals, but unfortunately, a
high proportion of them have methodological errors that may question the validity of their results.
These errors are usually due to the lack of knowledge about methodology by the authors, who are
primarily clinical physicians, and the lack of adequately trained reviewers in scientific journals. Also,
sometimes mistakes can be made deliberately to favor obtaining certain conclusions, as in the cases
Key words: with conflict of interest. In this article we review the most common mistakes that can be observed in
Methodology the use of statistical tests, either for lack of training of the authors, or to mask the data to show the
Statistics desired conclusions.
Conflict of interest
Cmo citar este artculo: Molina Arias M. Las trampas de la estadstica. Rev Pediatr Aten Primaria. 2014;16:181-6.
Quizs el aspecto ms difcil de valorar para el cl- repartido los participantes entre los dos grupos al
nico sin formacin en metodologa sean los aspec- azar, cualquier diferencia se deber al azar, sea cual
tos relacionados con los estudios estadsticos utili- sea el valor de p. De todas formas, el valor de p
zados para el anlisis de los datos del trabajo. Es tampoco tiene mucho significado en este caso, ya
aqu, sin duda, donde nos pueden engaar con que el tamao de la muestra del estudio est cal-
ms facilidad utilizando, o dejando de utilizar, los culado para valorar la diferencia del efecto de la
mtodos de anlisis adecuados en favor de otros intervencin en los dos grupos y no para valorar las
que proporcionen unos resultados ms vistosos o diferencias basales entre ellos. Lo realmente inte-
apetecibles. resante ser valorar la importancia clnica de las
Daremos a continuacin una serie de pistas que, diferencias que podamos observar.
sin ser expertos en estadstica, nos permitan de- Podemos tener diferencias relevantes que no al-
tectar algunas de estas posibles trampas. cancen valor significativo desde el punto de vista
estadstico por no ser la muestra lo suficientemen-
te grande. Por tanto, ser el autor el que debe deci-
1. SE HA UTILIZADO ALGN MTODO dir si las diferencias observadas son relevantes
ESTADSTICO? para el estudio y hacer el ajuste pertinente en la
fase de anlisis de los resultados.
Esta pregunta puede parecer obvia, pero no lo es
en absoluto. Aunque afortunadamente con poca
3. EL AZAR NO PRODUCE GRUPOS IGUALES
frecuencia, en alguna ocasin podemos encontrar-
nos con un trabajo cuyos autores se limitan a com-
parar los resultados para extraer directamente sus La aleatorizacin es una parte fundamental de
conclusiones sin hacer uso de metodologa esta- cualquier ensayo clnico, por lo que debe estar cla-
dstica alguna. Evidentemente, toda comparacin ramente definido cmo se ha hecho. Con relativa
deber hacerse con el adecuado contraste de hip- frecuencia vemos trabajos en los que el grupo con-
tesis, e indicarse su nivel de significacin y la prue- trol y el de intervencin tienen el mismo nmero
ba estadstica utilizada. En caso contrario las con- de participantes. Pues bien, esto es altamente im-
probable si se hace un muestreo aleatorio simple.
clusiones no sern vlidas.
Por ejemplo, si aleatorizamos 100 individuos, la
probabilidad de que el azar reparta exactamente
2. LA COMPARABILIDAD BASAL 50 a cada grupo es del 9% (0,09). Esta probabilidad
DE LOS GRUPOS DE ESTUDIO es an menor cuanto mayor sea el nmero de par-
ticipantes, por lo que podremos desconfiar cuando
Todo estudio, especialmente si se trata de un ensa- los autores consigan grupos iguales con un mues-
yo clnico, debe incluir una tabla que muestre las treo aleatorio.
caractersticas basales de los grupos de control e Esto no tiene nada que ver con otras situaciones en
intervencin. Esto es as porque para poder valorar las que el muestreo no es aleatorio simple. Existen
el efecto de la intervencin se necesita que los gru- tcnicas, como el muestreo estratificado, por blo-
pos sean comparables en todo, excepto en la inter- ques o las tcnicas de minimizacin, que tratan de
vencin estudiada. asegurar un nmero similar de participantes en
Aunque cada vez con menos frecuencia, podemos todos los grupos. Estas tcnicas son lcitas si se uti-
ver en estas tablas las diferencias en los distintos lizan de forma adecuada y s nos pueden dar fcil-
parmetros con su correspondiente valor de p para mente grupos con un mismo nmero de partici-
decidir si se deben o no al azar, pero esto, si lo pen- pantes.
samos un poco, no tiene mucho sentido. Si hemos
4. OPERACIONES CON DATOS CUALITATIVOS el anlisis de la varianza (que solo nos indica que
no todas la medias son iguales, pero no nos dice
El tipo de datos utilizados y las operaciones que se cules son diferentes entre s). En estos casos es
hagan con ellos es otro aspecto que debemos te- preceptivo realizar siempre alguna correccin,
ner en cuenta. Hay que juzgar con especial aten- como la de Bonferroni, ya que al aumentar el n-
cin la aritmtica que se haga con variables cuali- mero de comparaciones aumenta el riesgo de ob-
tativas. Si la variable es dicotmica puede tener una significativa por azar.
codificarse como cero y uno y hallarse la media A modo orientativo, en la Tabla 1 se muestran las
aritmtica, pero el resultado debe interpretarse pruebas correctas para realizar comparaciones de
con precaucin. medias segn el nmero de muestras, la presencia
Tambin es posible hacer operaciones similares de homocedasticidad y la distribucin de los datos.
con escalas de variables cualitativas, pero para que Otro aspecto que debemos tener en cuenta es qu
esto tenga sentido debe haber una graduacin medidas de centralizacin y dispersin se han uti-
constante y proporcional entre los diferentes valo- lizado. En casos de distribuciones no normales o
res de la variable. De lo contrario, las operaciones muy sesgadas, es preferible utilizar la mediana y
aritmticas carecern de sentido. los recorridos intercuartlicos en lugar de la media
Aunque a veces es til categorizar una variable y la desviacin tpica. Esto puede evitarse utilizan-
continua, esta transformacin debe tener un sen- do medidas de centralizacin robustas, como la
tido clnico lgico o de gradacin; sin embargo, media recortada o la media geomtrica, o bien
esto no siempre es as, por lo que se pueden encon- aplicando a los datos una transformacin como la
trar diferencias estadsticas significativas donde a logartmica, inversa, etc.
priori no las hay. Transformar los datos es completamente lcito,
siempre que se tenga despus la precaucin de
deshacer la transformacin a la hora de interpretar
5. SE HA EMPLEADO LA PRUEBA
los resultados.
ESTADSTICA CORRECTA?
Por ltimo, llamar la atencin sobre la existencia
de datos pareados. En estos casos, el anlisis esta-
Este puede ser uno de los puntos ms difciles de
dstico debe realizarse empleando las pruebas
valorar para el no experto en estadstica. Un error
adecuadas para anlisis de datos pareados.
frecuente es utilizar pruebas paramtricas sin com-
probar previamente que los datos siguen una dis-
tribucin normal. Esto es as porque las pruebas no 6. POR QU HAN USADO UN MTODO
paramtricas suelen ser bastante ms conservado- TAN RARO?
ras, por lo que siempre es ms fcil obtener signifi-
cacin estadstica con una prueba paramtrica. Eso es lo que nos preguntamos a veces cuando lee-
Adems de la asuncin de normalidad, la mayor mos la descripcin de una tcnica estadstica de la
parte de las pruebas de contraste de hiptesis, que nunca antes habamos odo hablar. Si los datos
como la t de Student o el anlisis de la varianza, del trabajo son datos estndares recogidos de for-
precisan tener en cuenta la independencia de las ma estndar, por qu utilizar un mtodo raro?
muestras o la existencia de homocedasticidad En estos casos debe exigirse de los autores que jus-
(igualdad de varianzas), comprobaciones que se tifiquen su eleccin e, idealmente, que aporten
pasan por alto en numerosos trabajos. una cita bibliogrfica donde se describa la tcnica
Un error frecuente al comparar medias de ms de empleada. En estadstica hay que elegir la tcnica
dos poblaciones es realizar comparaciones dos a correcta para cada ocasin y no buscar aquella que
dos una vez obtenida significacin estadstica con nos d el resultado que ms nos guste.
El contraste de hiptesis unilateral (con una cola) Esta es una fuente bastante comn de error. El
es menos exigente que el bilateral a la hora de con- coeficiente de correlacin de Pearson investiga la
seguir significacin estadstica, por lo que algunos fuerza de la relacin lineal entre dos variables con-
autores presuponen la direccin del efecto de la tinuas. Solo nos dice si estn relacionadas, pero no
intervencin y realizan un contraste unilateral. Sin si son dependientes o independientes, y mucho
embargo, y como norma general, no es bueno asu- menos si una es causa de la otra. Tampoco sirve
mir la direccin del efecto, por lo que siempre es para calcular el valor de una variable a partir de
preferible el contraste bilateral. otra. Para eso tenemos que recurrir a la regresin,
que mide la naturaleza de la relacin entre las dos
variables y nos da una idea de la direccin de la
influencia de una variable sobre la otra. En cual- valor de significacin estadstica es totalmente ar-
quier caso, insistimos, ni correlacin ni regresin bitrario, por lo que tiene mucha ms utilidad el uso
implican causalidad. de los intervalos de confianza3, que nos permiten
Otro error que podemos encontrar es el uso del valorar tambin la importancia clnica de los resul-
coeficiente de correlacin de Pearson sin que se tados, incluso aunque las diferencias no alcancen
cumplan las exigencias para su uso: las variables significacin estadstica.
deben seguir una distribucin normal, deben ser
estructuralmente diferentes (no tiene sentido 12. E L USO DE MEDIDAS
calcular la correlacin entre, por ejemplo, peso e MS PRESENTABLES
ndice de masa corporal, que incluye el peso) y
solo debe haber dos medidas por cada participan-
Siempre hay muchas formas de presentar los re-
te en el estudio. Lo correcto es, adems, acompa-
sultados y, aunque todas digan en el fondo lo mis-
arlo de un valor de p o del correspondiente inter-
mo, la apariencia puede ser muy diferente segn el
valo de confianza.
parmetro que escojamos.
En los casos en los que no se cumplen las condicio-
Quizs el ejemplo ms claro y ms frecuente sea el
nes previas, debe utilizarse el coeficiente de corre-
de la utilizacin de medidas de impacto relativas
lacin de Spearman, que es el equivalente no para-
en lugar de las absolutas. Es frecuente que los au-
mtrico.
tores del trabajo nos muestren la estimacin del
Otro mal uso del coeficiente de correlacin es el efecto utilizando la reduccin relativa del riesgo en
que se comete con frecuencia al utilizarlo para lugar de la reduccin absoluta o el nmero necesa-
comparar los resultados entre dos observadores rio de pacientes a tratar4. Esto es as porque el valor
distintos. En estos casos lo correcto es utilizar un de la reduccin relativa es mayor que el de la abso-
coeficiente de correlacin intraclase (para varia- luta, por lo que parece que el impacto de la inter-
bles continuas) o un ndice kappa para variables vencin es mayor. Sin embargo, la reduccin abso-
dicotmicas. luta y, sobre todo, el nmero necesario a tratar son
Por ltimo, otro error frecuente y similar al anterior las medidas que nos informan del valor absoluto
es comparar dos mtodos de medicin mediante del impacto de nuestra intervencin. Dado que las
una correlacin o regresin lineal, por ejemplo medidas absolutas se calculan fcilmente a partir
comparar la glucemia capilar con la venosa. Esto de los mismos datos que las relativas, deberemos
no es correcto, ya que estas pruebas estudian la desconfiar cuando no se nos ofrezcan en el traba-
relacin entre dos variables ya sea de forma sim- jo: quizs el efecto no sea tan importante como los
trica (correlacin) o asimtrica (regresin). En estos autores nos pretenden hacer ver.
casos hay que utilizar la regresin de Passing y Ba-
Otro ejemplo podemos encontrarlo en los estudios
blok, que tiene la ventaja de estimar una recta de
sobre pruebas diagnsticas, en los que con fre-
regresin no sesgada mediante mtodos no par-
cuencia solo se muestran indicadores como sensi-
metricos.
bilidad o especificidad, ocultndose los cocientes
de probabilidades, que son los que mejor estiman
11. EL VALOR DE P Y SUS USOS el rendimiento de la prueba.
Otra trampa que puede observarse de forma oca-
El valor de p es la probabilidad de que la diferencia sional es mostrar los resultados utilizando la me-
de efecto observada entre dos o ms grupos no se dia ms menos el error estndar en lugar de la
deba al azar o, dicho de otro modo, la probabilidad media ms menos la desviacin estndar. La razn
de cometer un error de tipo I (rechazar la hiptesis para esto es casi pueril: el error estndar es mucho
nula siendo cierta). No debemos olvidar que este menor que la desviacin estndar, con lo que se
1. Altman DG. Poor-quality medical research: what can 4. Molina Arias M. Clculo de la reduccin del riesgo y
journal do? JAMA. 2002;287:2765-7. el nmero necesario de pacientes a tratar. Rev Pedia-
tr Aten Primaria. 2012;14:369-72.
2. Molina Arias M. Razones para dejar de leer un artcu-
lo. Rev Pediatr Aten Primaria. 2014;16:87-91.