Escolar Documentos
Profissional Documentos
Cultura Documentos
Instituto Epidemiologa
de Salud
Carlos III
Roberto Pastor-Barriuso
BIOESTADSTICA
Centro Nacional de
Instituto Epidemiologa
de Salud
Carlos III
MINISTERIO Centro
DE ECONOMA Nacional de
Y COMPETITIVIDAD Instituto
de Salud
Epidemiologa
Carlos III
Centro Nacional de Epidemiologa
Instituto de Salud Carlos III
Monforte de Lemos, 5
28029 MADRID (ESPAA)
Tel.: 91 822 20 00
Fax: 91 387 78 15
http://www.isciii.es
http://creativecommons.org/licenses/by-nc-sa/2.1/es/
EDITA: CENTRO NACIONAL DE EPIDEMIOLOGA Instituto de Salud Carlos III
Madrid, diciembre de 2012
Roberto Pastor-Barriuso
Cientfico Titular
2 Probabilidad 13
2.1 Introduccin 13
2.2 Concepto y definiciones de probabilidad 14
2.3 Probabilidad condicional e independencia de sucesos 16
2.4 Regla de la probabilidad total 18
2.5 Teorema de Bayes 18
2.6 Referencias 20
vii
ndice
5 Inferencia estadstica 59
5.1 Introduccin 59
5.2 Estimacin puntual 60
5.3 Estimacin por intervalo 62
5.3.1 Distribucin t de Student 62
5.3.2 Intervalo de confianza para una media poblacional 63
5.4 Contraste de hiptesis 67
5.4.1 Formulacin de hiptesis 67
5.4.2 Contraste estadstico para la media de una poblacin 69
5.4.3 Errores y potencia de un contraste de hiptesis 72
5.5 Referencias 76
viii
ndice
ix
ndice
x
TEMA 1
ESTADSTICA DESCRIPTIVA
1.1INTRODUCCIN
La estadstica es la rama de las matemticas aplicadas que permite estudiar fenmenos cuyos
resultados son en parte inciertos. Al estudiar sistemas biolgicos, esta incertidumbre se debe al
desconocimiento de muchos de los mecanismos fisiolgicos y fisiopatolgicos, a la incapacidad
de medir todos los determinantes de la enfermedad y a los errores de medida que inevitablemente
se producen. As, al realizar observaciones en clnica o en salud pblica, los resultados obtenidos
contienen una parte sistemtica o estructural, que aporta informacin sobre las relaciones entre
las variables estudiadas, y una parte de ruido aleatorio. El objeto de la estadstica consiste en
extraer la mxima informacin sobre estas relaciones estructurales a partir de los datos recogidos.
En estadstica se distinguen dos grandes grupos de tcnicas:
yy La estadstica descriptiva, en la que se estudian las tcnicas necesarias para la organizacin,
presentacin y resumen de los datos obtenidos.
yy La estadstica inferencial, en la que se estudian las bases lgicas y las tcnicas mediante
las cuales pueden establecerse conclusiones sobre la poblacin a estudio a partir de los
resultados obtenidos en una muestra.
El anlisis de una base de datos siempre partir de tcnicas simples de resumen de los datos y
presentacin de los resultados. A partir de estos resultados iniciales, y en funcin del diseo del
estudio y de las hiptesis preestablecidas, se aplicarn las tcnicas de inferencia estadstica que
permitirn obtener conclusiones acerca de las relaciones estructurales entre las variables
estudiadas. Las tcnicas de estadstica descriptiva no precisan de asunciones para su
interpretacin, pero en contrapartida la informacin que proporcionan no es fcilmente
generalizable. La estadstica inferencial permite esta generalizacin, pero requiere ciertas
asunciones que deben verificarse para tener un grado razonable de seguridad en las inferencias.
A continuacin se definen algunos conceptos generales que aparecen repetidamente a lo
largo de la exposicin:
yy Poblacin es el conjunto de todos los elementos que cumplen ciertas propiedades y entre
los cuales se desea estudiar un determinado fenmeno.
yy Muestra es un subconjunto de la poblacin seleccionado mediante un mecanismo ms o
menos explcito. En general, rara vez se dispone de los recursos necesarios para estudiar a
toda la poblacin y, en consecuencia, suelen emplearse muestras obtenidas a partir de
estas poblaciones.
Pastor-Barriuso R. 1
Estadstica descriptiva
yy Variables son propiedades o cualidades que presentan los elementos de una poblacin.
Las variables pueden clasificarse en:
Variables cualitativas o atributos son aquellas que no pueden medirse numricamente
y que, a su vez, pueden ser:
Nominales, en las que no pueden ordenarse las diferentes categoras.
Ordinales, en las que pueden ordenarse las categoras, pero no puede establecerse
la distancia relativa entre las mismas.
Variables cuantitativas son aquellas que tienen una interpretacin numrica y que se
subdividen en:
Discretas, slo pueden tomar unos valores concretos dentro de un intervalo.
Continuas, pueden tomar cualquier valor dentro de un intervalo.
En la prctica, todas las variables continuas que medimos son discretas en el sentido de
que, debido a las limitaciones de los sistemas de medida, las variables continuas no
pueden adoptar todos los valores dentro de un intervalo. De cara a los anlisis posteriores,
la principal distincin se establece, por tanto, entre variables con relativamente pocas
categoras (como nmero de hijos) frente a variables con muchas categoras (como
niveles de colesterol en sangre).
2 Pastor-Barriuso R.
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
Medidas de tendencia central
central de la muestra sirven tanto para resumir los resultados observados como para
Ejemplo 1.7 En la muestra del estudio EURAMIC la media 6 del colesterol 5HDL es
ligeramente superior a la mediana (1,223 y 1,175 mmol/l, respectivamente). En
consecuencia, la distribucin de estos 10 valores del colesterol HDL es aproximadamente
simtrica con un leve sesgo positivo.
4 Pastor-Barriuso R.
de estos
x G =
consecuencia, la distribucin x i 10
= nvalores del
x1 x 2 ... xcolesterol
n .
HDL es
i =1
aproximadamente simtrica con un leve sesgo positivo. Medidas de posicin: cuantiles
1.2.3 Media geomtrica
En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en
La1.2.3
media geomtrica, denotada por xG , se define como la raz n-sima del producto de
1.2.3 Media
calcular Mediageomtrica
primero geomtrica
el logaritmo de cada valor muestral, hallar a continuacin la media de
los
La
La
los
valores
media
logaritmos
de una muestra
mediageomtrica,
geomtrica,
y deshacer
de tamao
denotada
denotada
finalmentepor laxGn, ,, se define
define como
transformacin como razn-sima
lalaraz
logartmica. n-sima
Paradeldelproducto losdede los
producto
calcular
valores de una muestra de tamao n,
los valores
logaritmos se de una muestra
puede de tamao
usar cualquier base, n, 1 / n y cuando el logaritmo y el
n siempre
x G = x i = n x1 x 2 ... x n .
antilogaritmo estn en la misma base. i =Notar
1 1que
/n la media geomtrica slo puede
n
En la prctica, la forma ms xsencilla G = de x i calcular
= n x1lax 2media
... x ngeomtrica
. consiste en calcular
emplearse
primero como
el medida
logaritmo de de
cada tendencia
valor central
muestral, en variables
hallar a que
continuacin
En la prctica, la forma ms sencilla de calcular la media geomtrica consiste
i =1 tomanla valores
media de positivos.
losenlogaritmos y
deshacer finalmente la transformacin logartmica. Para calcular los logaritmos se puede usar
cualquier
calcular base, siempre
primero
En la prctica, laelforma yms
logaritmocuando el logaritmo
de cada
sencilla devalor y ellaantilogaritmo
muestral,
calcular mediahallar estn en
a continuacin
geomtrica la misma
consiste laen base.deNotar
media
Ejemplo 1.8 Para calcular la media geomtrica del colesterol
que la media geomtrica slo puede emplearse como medida de tendencia central en variables HDL en la muestra
que
los tomanprimero
calcular valores
logaritmos elpositivos.
y deshacer
logaritmofinalmente
de cadalavalor transformacin
muestral, hallar logartmica. Para calcular
a continuacin la medialos de
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los
Ejemplo
los logaritmos
logaritmos 1.8 Para
y deshacer
se puede calcular labase,
finalmente
usar cualquier media geomtrica
la transformacin
siempre y cuandodel colesterol
logartmica. HDL
Para
el logaritmo en la muestra
ycalcular
el los del
valores
estudio yEURAMIC,
a continuacin se se calcula
halla primero suelmedia aritmtica,
logaritmo natural de cada uno de los valores ya
consecuencia, la distribucin de estos 10 valores del colesterol HDL es
continuacin
logaritmos
antilogaritmo seestn
puede se calcula
enusar
la misma su media
cualquier
base.base, aritmtica,
Notarsiempreque lay cuando el logaritmoslo
media geomtrica y elpuede
aproximadamente simtrica 1 10 con un leve log(0sesgo
,89) +positivo.
... + log(1,53)
antilogaritmo estn enlog
la
emplearse como medida deGtendencia x =
misma
base.
10 i =1
log x
Notar
central i =que
en la media geomtrica
variables slo puede
10que toman valores positivos.
emplearse como medida de tendencia 0,117central
+ ... + 0en ,425
variables que toman valores positivos.
1.2.3 Media geomtrica= = 0,155.
Ejemplo 1.8 Para calcular la media 10geomtrica del colesterol HDL en la muestra
LaLa mediageomtrica,
media
Ejemplo geomtrica es, porlatanto,
denotada ,=seexp(0,155)
por xGgeomtrica define delcomo=colesterol
1,168
la razmmol/l.
n-simaendel producto de
del estudio1.8 Para calcular
EURAMIC, media
se halla primero el logaritmo naturalHDL de cada la muestra
uno de los
La media geomtrica es, por tanto, xG = exp(0,155) = 1,168 mmol/l.
Allos
igual que la
valores
del demediana,
estudio la media
una muestra
EURAMIC, dehalla
se geomtrica
tamao n, eleslogaritmo
primero til comonatural medidade decada
tendencia
uno decentral
los para
valores
variables muyyasimtricas,
a continuacin
en lasseque
calcula su media
un pequeo aritmtica,
grupo de observaciones extremas tienen una
excesiva
Al igual influencia sobre la la
que ylaamediana,
valores media
continuacin se aritmtica.
media geomtrica
calcula La1 /media
su media es
n til
geomtrica
como medida
aritmtica, tienedelatendencia
ventaja adicional de
presentar un tratamiento estadstico 10 sencillo
ms n
que la mediana.
1
log xG = x G= log x x i= log(=0n,89 x1)x 2+ ...
...+ xlog(
n .
1,53)
central para variables muy asimtricas, 10
1 i10=1
en lasi
que un pequeo
i =1 log(0,89) + 10 grupo
... + log(1,53 de) observaciones
log x G = log x i =
0,i117 + ... + 0,425
1.3 MEDIDAS
extremas tienen unaDE POSICIN:
excesiva = 10 CUANTILES
influencia =1
sobre la media 0,15510 .
= aritmtica. La media geomtrica
En la prctica, la forma ms sencilla de calcular
0,117 +10... + 0,425 la media geomtrica consiste en
Los cuantiles indican la posicin=relativa de una observacin = 0,155con . respecto al resto de la muestra.
8
10
calcular primero
A continuacin el logaritmo
se describen de cadams
los cuantiles valor muestral, hallar a continuacin la media de
utilizados:
La media geomtrica es, por tanto, xG = exp(0,155) = 1,168 mmol/l.
yy Percentiles son los valores de una variable que dejan un determinado porcentaje de los
losLalogaritmos y deshacer
media geomtrica por tanto, laxGtransformacin
es,finalmente = exp(0,155) =logartmica.1,168 mmol/l. Para calcular los
datos por debajo de ellos. As, por ejemplo, el percentil 10 es el valor superior al 10% de
las observaciones,
Allogaritmos
igual que se pero inferior
la mediana, media al 90% restante. Lacomomediana corresponde, por tanto, al
puede usarlacualquier geomtrica
base, siempre es til
y cuando medida de tendencia
el logaritmo y el
percentil 50. En una muestra de tamao n, previamente ordenada de menor a mayor, el
Al igual que la mediana, la media geomtrica es til como medida de tendencia
percentil
central p-simo
para variables
antilogaritmo estnseendefine
muy la como:
asimtricas,
misma base.enNotar
las que que unlapequeo grupo de observaciones
media geomtrica slo puede
central np/100
Sipara es un nmero
variables entero, la media
muy asimtricas, deque
en las las observaciones
un pequeo grupo(np/100) y (np/100 + 1)-simas.
de observaciones
emplearse
extremas tienen como
una medida de
excesiva tendenciasobre
influencia central
la en variables
media que toman
aritmtica. La valores
media positivos.
geomtrica
Si np/100 no es un nmero entero, el valor k-simo de la muestra, siendo k el menor
extremas tienen
entero una excesiva
superior a np/100.influencia sobre la media aritmtica. La media geomtrica
8
Ejemplo
yy Deciles, 1.8 Para acalcular
corresponden la media10,
los percentiles geomtrica
20, ..., 90.del
Loscolesterol HDL
deciles se en lapara
utilizan muestra
dividir
8
la muestra en 10 grupos de igual tamao.
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los
yy Quintiles, corresponden a los percentiles 20, 40, 60 y 80, y dividen la muestra en 5 grupos
de igual tamao.
valores y a continuacin se calcula su media aritmtica,
Pastor-Barriuso R. 5
1 10 log(0,89) + ... + log(1,53)
log x G = log x i =
10 i =1 10
0,117 + ... + 0,425
mmol/l. De igual forma, como 10p/100 = 2,5 no es un nmero entero para p = 25,
Estadstica descriptiva
el percentil 25 es el tercer valor de la muestra, que corresponde a 0,87 mmol/l.
diferencias
realizar inferencias
1.4.1 acerca entrey cada
de los
Varianza valor de
parmetros
desviacin la muestra ycorrespondientes.
poblacionales
tpica su media, dividida
A por el tamao muestral
semenos
continuacin La 1, muestral,
varianza
describen denotada
los principales por s2, se define
estimadores como la suma
de la tendencia de los
central cuadrados de las diferencias
de una
entre cada valor de la muestra y su media, dividida por el tamao muestral menos 1,
variable. media, el nmero de valores independientes de la muestra (denominado grados de
1 n 1 n 2
2
s = 2
( xi x ) = x i nx 2 .
libertad) para el clculo denlavarianza
1.2.1 Media aritmtica
1 i =1 n 1 i =1 la media y n - 1 valores, el
es n - 1 (conocida
Como puede apreciarse, cuanto ms dispersos estn los datos, mayores sern los cuadrados de
valor restante se(x
deducira automticamente). sumaUna .justificacin ms formal paradeesta
La media aritmtica,
las
Como denotada
desviaciones i x ), se
por
puede apreciarse, define
y cuanto
mayor comola
ser
ms lavarianza
dispersos des2cada
estn uno
Notar
los de las
que
datos, los desviaciones
mayores sern loscada valor
2
respecto de la media se elevan al cuadrado para evitar que se compensen las desviaciones
definicin
positivas de por
la varianza
(valores se aaporta en el2Tema 5.
valores muestrales dividida
cuadrados de lassuperiores
el nmero
desviaciones delaobservaciones
media)
(x i - x )con lasrealizadas.
y mayor negativas
ser la(valores
Si denotamos
varianza inferiores
s2. Notaraquela media).
las Cabe
destacar tambin que, en la frmula de la varianza muestral, el denominador es n 1 en lugar de n.
por n el tamao
Esto Lasevarianza
muestral
debey por
ademuestral
xcada
que,i eluna
valores observado
vez difcil de interpretar
calculada para el como
sujeto
lalamedia, medida
elsei-simo,
nmero ide=de1,dispersin,
valores ya que sus
..., n, independientes
desviaciones valor respecto de media elevan al cuadrado para evitar quedesela
muestra (denominado grados de libertad) para el clculo de la varianza es n 1 (conocida la
unidades
la media vendra
mediadada son
y npor las
1las de la el
valores, variable originalse
valorpositivas
restante al deducira
cuadrado.automticamente).
La medida de dispersin ms
compensen desviaciones (valores superiores a la media)Una con justificacin
las negativasms
formal para esta definicin de la varianza se aporta en el Tema 5.
utilizada es la desviacin tpica o desviacin estndar s, que se define como la raz
(valores inferiores
La varianza 1a nlaesmedia).
muestral x +de
difcil Cabe + ...destacar
x 2interpretar
+ x n comotambin que,
medida deen la frmula
dispersin, yade
quelasus
varianza
unidades
x = xi = 1 .
son las de la variable
cuadrada de la varianza original
n i =1 al cuadrado.
n La medida de dispersin ms utilizada es la desviacin
muestral,
tpica el denominador
o desviacin estndar es n - 1seen
s, que lugarcomo
define de n.laEsto razse debe a que,
cuadrada de launa vez calculada la
varianza
mbio de escala (unidades). Si se multiplica 19 10i =1cada uno 2de los (0,89 1,223
datos de una) 2 + ...9 + (1,53 1,223) 2
valores muestrales dividida s 2 = por
90,111
el ( xnmero
x )
+i ... + 0,094
de
= observaciones realizadas.
92
Si denotamos
DE TENDENCIA CENTRAL = i =1
= 0,156 (mmol/l)
stra por una porconstante,
n el tamao la varianza
muestralresultante
y por
0,111 xi el +es 9igual
valor
... a la varianza
+ 0,observado
094 parainicial
el sujeto pori-simo, i = 1, ..., n,
= = 0,156 (mmol/l) 2
tendencia central 9 valor
onstante mediainforman
allacuadrado acerca
y la desviacin
vendra dada porde cules
tpica esigual
el a lams representativo
desviacin tpica
yy la desviacin tpica por s = 0,156 = 0,395 mmol/l.
la desviacin
nada
ial porvariable o, dicho
dicha constante; y ladesidesviacin
forma
yi = cxequivalente,
i, entonces
tpica por sestos
2
y ns==c s0
2estimadores
2
y sy == cs
x ,156 xindican
0,395. Unmmol/l.
cambio
Algunas propiedadesxde= la varianza 1 x + x + ... + x
x i = y la desviacin .tpica son:
1 2 n
valor se agrupanAlgunas los datos observados.deLas
propiedades n
la medidas
varianza de
y latendencia
n valores
desviacin tpica son:
scala que se realizayy con Cambio frecuencia
de origen es (traslacin).
la divisin i =1 de todos
Si se suma losuna constante de una
a cada uno de los datos de una muestra,
Algunas
la varianza propiedades de la varianza
y la desviacin tpica noycambian; la desviacin si yi = tpica
xi + c, son:
entonces sy2 = sx2 y sy = sx.
uestra sirven tanto para resumir los resultados observados como para
stra por su desviacin
La media tpica. La desviacin
es la medida de (unidades).
tendencia tpicacentral
de la variable
ms utilizadaresultantey de
yy Cambio de escala Si se multiplica cada unoms de fcil
los datos de una muestra por
cias acerca de los parmetros una constante, la varianza
poblacionales resultante es igual
correspondientes. A a la varianza inicial por la constante al
, por tanto,interpretacin.
igual a 1. Corresponde al centro de gravedad
cuadrado y la desviacin tpica es igual a ladedesviacin
los datos de la muestra.
tpica inicial porSu dicha constante;
11
e describen los principales cxi, entoncesde
si yi = estimadores sy2la = ctendencia
2 2
sx y sy =central csx. Undecambiouna de escala que se realiza con frecuencia
edades delprincipalcambio de origen
limitacin y escala
es que se emplean
est muy para la estandarizacin de
es la divisin de todos los influenciada
valores de una pormuestra
los valorespor su extremos y, entpica.
desviacin este La desviacin
11
tpica de la variable resultante ser, por tanto, igual a 1.
que consiste caso,en puede
restarlenoa ser los un
valores de unadevariable
fiel reflejo la tendenciasu media centraly dividirlos por
de la distribucin.
Las propiedades del cambio de origen y escala se emplean para la estandarizacin de variables,
itmtica
cin que consiste
tpica. La variable en restarle
estandarizada a los valores
resultante de una0variable
tiene media y desviacin su media y dividirlos por su desviacin
1.2tpica.
MEDIDAS
Ejemplo La 1.4 DE
variable TENDENCIA
En este estandarizada
y en los sucesivos CENTRAL
resultante tiene media
ejemplos sobre 0estimadores
y desviacin tpica 1; essedecir, si zi =
muestrales,
stica, si zi = (x(x
decir,denotada por
-
ii x x)/,s
)/s se
xx,, define
entonces
entonces comoz =
= la
00 ysuma
y sszz == de
1.
1. cada uno de los
utilizarn los valores
Las medidas de tendencia central informan del colesterol HDLacerca obtenidos de cul en loses el10valor
primeros sujetos del
ms representativo
ales dividida por el nmero de observaciones realizadas. Si denotamos
go intercuartlico 1.4.2 Rango intercuartlico
estudio
de una European
determinada Study o,
variable ondicho
Antioxidants,
de formaMyocardial
equivalente,Infarction and Cancer
estos estimadores of
indican
muestral y porEl xi rango
el valor observado
intercuartlico para el
se define sujeto i-simo, i = 1, ..., n,
ntercuartlico se define como la diferencia entrecomo el tercer la diferencia
y el primer entre el tercer y el primer cuartil (percentiles
cuartil
the
alrededor
75 y 25,Breast (EURAMIC),
derespectivamente).
qu valor se agrupan un estudio
El rangolos datos multicntrico
observados.indica
intercuartlico de casos layamplitud
Las medidas controles realizado
de tendencia
del 50% central de la
a dada por muestra y se usa como medida de dispersin cuando la variable presenta valores extremos. En
es 75 y 25, respectivamente). El rango intercuartlico indica la amplitud del
entre
central 1991
de lasuele
tal caso, y 1992
muestra en ocho
sirven tantode
ir acompaado pases para Europeos
resumir los
la mediana e Israel
como para
resultados evaluar
medida observados el efecto
de tendenciacomo de los
para
central.
al de la muestra y1se usa como n
x +medida
x 2 + ... +dexdispersin cuando la variable
x=
realizar x i = 1 1.11
inferencias
Ejemplo acercaAde
n
los. parmetros
partir de los poblacionales
10 valores correspondientes.
del colesterol HDL ordenados A
n i =1 n 5de menor a
alores extremos. En tal mayor,caso,los percentiles
suele ir acompaado 25 y 75de vienen determinados
la mediana como por la tercera (0,87 mmol/l) y octava
continuacin observacinse describen(1,53los principales
mmol/l), estimadores El
respectivamente. de rango
la tendencia central de
intercuartlico se una
calcula entonces
latendencia
medida de tendencia central ms utilizada y de ms
central. como la diferencia entre ambos percentiles, 1,53 0,87 = 0,66 mmol/l.fcil
variable.
Corresponde al centro de gravedad de los datos de la muestra. Su
1.4.3 Coeficiente de variacin
mplo 1.11 A 1.2.1 partirMedia
de los 10 valores del colesterol HDL ordenados de menor a
aritmtica
cin es que estElmuy influenciada
coeficiente de variacin por lossevaloresdefine como extremos y, en este
el cociente entre la desviacin tpica y la media aritmtica,
or, los percentiles media25 yaritmtica,
Laexpresado 75comovienen determinados
denotada
porcentaje, por xpor
100s/ seladefine
.,Este tercera
estimador (0,87
como nolammol/l)
suma
est dey cada
afectado poruno de losde escala ya que,
cambios
ser un fiel reflejo de la tendencia central de la distribucin.
al multiplicar los valores de una variable por un mismo factor, tanto la media como la desviacin
va observacin (1,53muestrales
tpica
valores mmol/l),por
cambian respectivamente.
dicho por
dividida factor El
su rango
el ynmero de intercuartlico
cociente se
permanece inalterable.
observaciones realizadas.El Si coeficiente
denotamosde variacin
relaciona la desviacin tpica con la media y es til para comparar la variabilidad de diferentes
1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
n el tamao
porvariables con distintas y por xiAs,
muestralmedias. por ejemplo,
el valor unapara
observado desviacin i-simo,
tpica
el sujeto de 10i kg n, muestra de
= 1,en...,una
adultos con un peso medio de 70 kg indicara un mismo grado de dispersin que una desviacin
los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
la media vendra dada por 12
Pastor-Barriuso R. 7
European Study on Antioxidants, Myocardial Infarction and Cancer of
1 n x + x 2 + ... + x n
x =
t (EURAMIC), un estudio multicntrico de casos
n i =1
xyi controles
= 1
nrealizado
.
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
Estadstica descriptiva
continuacin se describen los principales estimadores de la tendencia central de una
variable.
tpica de 0,5 kg en una muestra de recin nacidos con un peso medio de 3,5 kg (ambos coeficientes
de variacin son 10010/70 = 1000,5/3,5 = 14,3%).
1.2.1 Media aritmtica
Ejemplo 1.12 El coeficiente de variacin de los 10 primeros valores del colesterol HDL
en
Laelmedia
estudio EURAMIC
aritmtica, denotada por x ,=se
sera 100s/ 1000,395/1,223
define como la =suma
32,3%; es decir,
de cada uno la
dedesviacin
los
tpica es aproximadamente un tercio de la media.
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
1.5 REPRESENTACIONES
por n el tamao muestral yGRFICAS
por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
En el anlisis e interpretacin de los datos de un estudio, es importante no limitarse a realizar medidas
la media vendra dada por
de resumen numricas. Las medidas de tendencia central y dispersin deben completarse con grficos
que permitan observar directamente las caractersticas y relaciones de las variables estudiadas. En
esta seccin se revisan los principales mtodos
1 n grficos
x +para
x 2 +presentar
... + x n y resumir una variable.
x = xi = 1 .
n i =1 n
1.5.1 Diagrama de barras
La media
Los diagramas es la medida
de barras de tendencia
son adecuados para central ms utilizada
representar variables ycualitativas
de ms fcily cuantitativas
discretas. En estos diagramas se representan las categoras de la variable en el eje horizontal y sus
interpretacin.
frecuencias (absolutas Corresponde
o relativas) enalelcentro de gravedad
eje vertical. Para cada de los datos
categora devariable
de la la muestra. Su
se construye
un rectngulo de anchura constante y altura proporcional a la frecuencia. Los rectngulos estn
principal
separados limitacin
unos de otros poresla que estdistancia
misma muy influenciada porlalos
para reflejar valores extremos
discontinuidad y, en este
de la variable.
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
Ejemplo 1.13 La representacin del diagrama de barras del hbito tabquico en el grupo
control del estudio EURAMIC se ilustra en la Figura 1.1. De los 700 controles del estudio que
no haban padecido
Ejemplo 1.4 un
Eninfarto
este y agudo
en los de miocardio,
sucesivos todos salvo
ejemplos sobreuno presentaban
estimadores informacin
muestrales, se
sobre el consumo de tabaco. De stos, un 27,2% (190/699) eran nunca fumadores, un 35,3%
(247/699) eran exlos
utilizarn fumadores, y elcolesterol
valores del restante 37,5%
HDL (262/699)
obtenidoseran fumadores
en los actuales.
10 primeros sujetos del
estudio
40 European Study on Antioxidants, Myocardial Infarction and Cancer of
entre
30 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
Frecuencia relativa (%)
5
20
10
Figura 1.1 Diagrama de barras del hbito tabquico en el grupo control del estudio EURAMIC.Figura 1.1
8 Pastor-Barriuso R.
Representaciones grficas
150
125
100
Frecuencia absoluta
75
50
25
Figura 1.2 Histograma y polgono de frecuencias del colesterol HDL en el grupo control del estudio
EURAMIC.
Pastor-Barriuso R. 9
Estadstica descriptiva
Ejemplo 1.15 La Figura 1.3 muestra el grfico de tallo y hojas del colesterol HDL en los
100 primeros controles del estudio EURAMIC con datos para esta variable. Los 2 valores
ms bajos del colesterol HDL son 0,21 y 0,26 mmol/l, cuyo tallo comn es 0,2 y sus
respectivas hojas son 1 y 6, que aparecen a la derecha de la primera lnea del grfico. El
siguiente tallo es 0,3, que no tiene ninguna hoja ya que no hay valores entre 0,30 y 0,39
mmol/l, y lo mismo sucede con el tallo 0,4. En el tallo 0,5 hay una hoja igual a 7, que
corresponde al valor 0,57 mmol/l. En el tallo 0,6 hay 5 hojas (35558), que corresponden a
los 5 valores del colesterol HDL entre 0,60 y 0,69 mmol/l y que son 0,63, 0,65, 0,65, 0,65 y
0,68 mmol/l. El resto de los tallos se interpreta de la misma manera. A partir de este grfico
resulta sencillo calcular los cuantiles; as, por ejemplo, la mediana se obtendra como la
media de los valores ordenados en las posiciones 50 y 51, (1,10 + 1,12)/2 = 1,11 mmol/l.
2 0,2 16
0 0,3
0 0,4
1 0,5 7
5 0,6 35558
3 0,7 467
12 0,8 002344455579
13 0,9 0013334566779
13 1,0 0111123455559
9 1,1 023456789
15 1,2 000023356689999
7 1,3 1223778
6 1,4 345789
6 1,5 133689
2 1,6 44
2 1,7 34
2 1,8 36
1 1,9 0
1 2,0 9
Figura 1.3 Grfico de tallo y hojas del colesterol HDL en los 100 primeros controles del estudio EURAMIC.
Figura 1.3
10 Pastor-Barriuso R.
Representaciones grficas
Ejemplo 1.16 La Figura 1.4 muestra el diagrama de caja del colesterol HDL en el grupo
control del estudio EURAMIC. Como puede observarse, esta distribucin presenta un
leve sesgo positivo ya que el lmite superior de la caja est ligeramente ms alejado de la
mediana que el lmite inferior.
2,5
2
Colesterol HDL (mmol/l)
1,5
0,5
Figura 1.4 Diagrama de caja del colesterol HDL en el grupo control del estudio EURAMIC. Figura 1.4
Pastor-Barriuso R. 11
Estadstica descriptiva
1.6 REFERENCIAS
12 Pastor-Barriuso R.
TEMA 2
PROBABILIDAD
2.1INTRODUCCIN
Pastor-Barriuso R. 13
Probabilidad
B B
(a)AAB
persona, los sucesos = (0, 1] y B = (1,5, ) son mutuamente
(b) ABexcluyentes ya que
= (1, ).
B
sensibilidad,
Ejemplola 2.2
especificidad y los valoresdepredictivos
En el experimento de lasa pruebas
supervivencia diagnsticas.
los 6 meses de 4 pacientes con
cncer, la unin de los sucesos B = {1, 2} y C = {2, 3, 4} es BC = {1, 2, 3, 4} y su
interseccin es BC = {2}. Al medir los niveles de colesterol HDL de una persona, los
2.2 CONCEPTO Y 1]
sucesos A = (0, DEFINICIONES
y B = (1,5, ) sonDE PROBABILIDAD
mutuamente excluyentes ya que AB = . Asimismo,
en este experimento el complementario de A es el suceso Ac = (1, ).
El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano:
En este tema se define el concepto de probabilidad y se introducen las reglas bsicas para
operar con probabilidades.
la probabilidad de un sucesoEstas reglas
refleja constituyen la
la verosimilitud debase paraocurra,
que ste el clculo e interpretacin
de forma que de
los procedimientos de inferencia estadstica (por ejemplo, el valor P de un contraste de hiptesis
vase Tema
los sucesos ms5)probables
y permiten tambin
se darn con evaluar la sensibilidad,
mayor frecuencia que loslamenos
especificidad y los
probables. Sinvalores
predictivos de las pruebas diagnsticas.
embargo, para abordar la probabilidad de forma sistemtica, es necesaria una definicin
2.2 CONCEPTO Y DEFINICIONES DE PROBABILIDAD
rigurosa, a la vez que compatible con nuestra intuicin. Dos definiciones de
El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano: la
probabilidad de
probabilidad de un
usosuceso
comnrefleja
son: la verosimilitud de que ste ocurra, de forma que los sucesos
ms probables se darn con mayor frecuencia que los menos probables. Sin embargo, para
Definicin frecuentista (von Mises). Al repetir un experimento indefinidamente,
abordar la probabilidad de forma sistemtica, es necesaria una definicin rigurosa, a la vez que
compatible con nuestra intuicin. Dos definiciones de probabilidad de uso comn son:
la probabilidad de un suceso es el lmite del cociente entre el nmero de veces que
yy Definicin frecuentista (von Mises). Al repetir un experimento indefinidamente, la
probabilidad
ocurre dicho de un suceso
suceso es el lmite
y el nmero del cocienterealizados,
de experimentos entre el nmero de veces que ocurre
dicho suceso y el nmero de experimentos realizados,
#A
P(A) = lim ,
n n
cumplan losaxiomtica
yy Definicin siguientes axiomas:
(Kolmogorov). La probabilidad es una funcin que asigna a cada
posible suceso de un experimento un valor numrico, de tal forma que se cumplan los
negatividad: P(A) 0,
(i) Noaxiomas:
siguientes
(i) (ii)No negatividad: P(
Normatividad: P(A) ) = 0, 1,
(ii) Normatividad: P(W) = 1,
Aditividad:SiSiAA, 1A, A, 2...
(iii) (iii)Aditividad: , ...son
sonsucesos
sucesosmutuamente
mutuamenteexcluyentes,
excluyentes,entonces
entonces
1 2
axiomtica se derivan
algunas propiedades importantes de la funcin de
P Ai = P( A1 A2 ...) = P( A1 ) + P( A2 ) + ... = P( Ai ) .
axiomtica se derivan algunas propiedades importantes de la funcin de
probabilidad: i =1 i =1
Notar que esta definicin de probabilidad tan slo especifica las propiedades generales
probabilidad:
- P(
Notar
que
debe ) tener
que =esta
0, una
definicin
funcin de probabilidad,
probabilidad tan
peroslo especifica
no permite las propiedades
la asignacin de probabilidades
a- un
P(suceso
) = 0, concreto. No obstante, de la definicin axiomtica se derivan algunas
- P(Ac) =que
generales
propiedades P(A),tener de
1importantes
- debe unalafuncin
funcinde
deprobabilidad,
probabilidad:pero no permite la
c
- P(AP()
(iv) ) = 1=-0,P(A),
asignacin
- Si A estdeincluido
probabilidades a un
en B, A B, suceso concreto.
entonces No obstante, de la definicin
P(A) P(B),
P(A
-(v) Si A
c
1 P(A),
) =incluido
est en B, A B, entonces P(A) P(B),
- 0 P(A) 1,
(vi) Si A est incluido en B, AB, entonces P(A) P(B),
- 0 P(A) 1,
0 P(A) 1, Para cualquier coleccin de sucesos A1, A2, ...,
- Sub-aditividad:
(vii)
4
- Sub-aditividad: Para cualquier coleccin de sucesos A1, A2, ...,
(viii) Sub-aditividad: Para cualquier coleccin de sucesos A1, A2 , ...,
P Ai P( Ai ) ,
i=1 i=1
P Ai P( Ai ) ,
i =1 i =1
- Principio
(ix) Principio de de
inclusin-exclusin:
inclusin-exclusin: Sean
SeanA1,AA,2A
, ..., AkAsucesos
, ..., sucesoscualesquiera,
cualesquiera,
1 2 k
- Principio de inclusin-exclusin: Sean A1, A2, ..., Ak sucesos cualesquiera,
k k
P Ai = P ( Ai ) P( Ai A j ) + ...
ik=1 ik=1
P Ai = P(k A ) P( Ai A j ) + ...
1 i < j k
+1i
i =1 + i(=1 1) P( A11 i <j Ak 2 ... Ak ).
+ (1) k +1 P( A1 A2 ... Ak ).
Del tercer axioma de la probabilidad se deduce que, si dos sucesos son mutuamente
Del tercer axioma
excluyentes, de la probabilidad
la probabilidad se deduce
de la unin es la que,
sumasi de
dossus
sucesos son mutuamente
probabilidades por separado. El
Del tercer de
principio axioma de la probabilidad
inclusin-exclusin se deduceeste
generaliza que,resultado
si dos sucesos son mutuamente
para sucesos no necesariamente
excluyentes, la probabilidad de la unin es la suma de sus probabilidades por separado.
excluyentes, la probabilidad de la unin es la suma de sus probabilidades por separado.
El principio de inclusin-exclusin generaliza este resultado para sucesos no Pastor-Barriuso R. 15
necesariamente
El excluyentes: la probabilidad
principio de inclusin-exclusin
Probabilidad generalizadeeste
la unin de dos
resultado sucesos
para cualesquiera
sucesos no es
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
la suma de sus probabilidades
necesariamente excluyentes: lapor separado, menos
probabilidad la probabilidad
de la unin de lacualesquiera
de dos sucesos interseccin,es
poblacin de adultos es 0,20, la probabilidad de ser diabtico es 0,03 y la
excluyentes: la probabilidad de la unin de dos sucesos cualesquiera es la suma de sus
la suma de sus probabilidades
P(Apor
B)separado,
= P(A) +menos
P(B)de-la probabilidad
P(A B). de la interseccin,
probabilidades por separado,
probabilidad menos la probabilidad
de ser simultneamente bebedor yladiabtico
interseccin,
es 0,01. Si se denota por
B al suceso
Este principio puede P(Ayapor
ser aplicarse
bebedor B) D
= P(A)
colecciones P(B)
+con
al suceso
- P(AB).
ser
msdiabtico, la probabilidad
de dos sucesos. As, por de que un
ejemplo,
Este principio puede aplicarse a colecciones con ms de dos sucesos. As, por ejemplo, para tres
individuo
para principio
Este tres sucesosdecualesquiera,
puedeesta poblacin sea bebedor,
quecondiabtico
asecolecciones
cumple o ambos a laAs,
vez por
viene
sucesos cualesquiera, se aplicarse
cumple que ms de dos sucesos. ejemplo,
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
determinada
para tres por
sucesos cualesquiera,
P(ABse C)cumple
= P(A) que
+ P(B) + P(C)
poblacin de adultos es 0,20, la probabilidad de ser diabtico es 0,03 y la
- P(AB) - P(AC) - P(BC)
P(BD)P(A=P(B)
BC)+ =P(D)P(A)- P(B D)+ =P(C)
+ P(B) 0,20 + 0,03 - 0,01 = 0,22.
probabilidad de ser simultneamente bebedor
+ P(ABC). y diabtico es 0,01. Si se denota por
- P(AB) - P(AC) - P(BC)
B al suceso ser bebedor y por D al suceso ser diabtico, la probabilidad de que un
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
2.3poblacin
PROBABILIDAD
de adultos CONDICIONAL E INDEPENDENCIA DE SUCESOS
individuo de esta es 0,20, lasea
poblacin probabilidad
+ P(A de ser diabtico
Bdiabtico
bebedor, C). o ambos aesla0,03 y la probabilidad5 de
vez viene
ser simultneamente bebedor y diabtico es 0,01. Si se denota por B al suceso ser bebedor
D al suceso
La yprobabilidad de un
pordeterminada sersuceso
por puede
diabtico, la depender de laderealizacin
probabilidad de otrode
que un individuo suceso. As, por sea
esta poblacin
5
bebedor, diabtico o ambos a la vez viene determinada por
ejemplo, la probabilidad de tener un infarto de miocardio es diferente en los hombres
P(BD) = P(B) + P(D) - P(BD) = 0,20 + 0,03 - 0,01 = 0,22.
que en las mujeres; es decir, la probabilidad del suceso tener un infarto de miocardio
2.3depende
PROBABILIDAD
2.3 del suceso serCONDICIONAL
PROBABILIDAD hombre
CONDICIONAL EE INDEPENDENCIA
o ser mujer. DESUCESOS
El concepto matemtico
INDEPENDENCIA DE SUCESOS
que permite
La probabilidad
formalizar de un
cmo sesuceso puede
modifica la depender de de
probabilidad la realizacin defuncin
unrealizacin
suceso en otro suceso. As,espor
de otro la ejemplo,
La probabilidad de un suceso puede depender de la de otro suceso. As,
la probabilidad de tener un infarto de miocardio es diferente en los hombres que en las mujeres; por
es decir, la probabilidad
probabilidad del suceso
condicional. Entenertener un
general, lainfarto de miocardio
probabilidad depende
delessuceso del suceso ser hombre
B condicionada
ejemplo, la probabilidad de un infarto de miocardio diferente en los hombresal
o ser mujer. El concepto matemtico que permite formalizar cmo se modifica la probabilidad
de un suceso
suceso
que enAlasenmujeres;
se funcin
define esdedecir,
como otro la
esprobabilidad
la probabilidad condicional.
del suceso tener unEninfarto
general, la probabilidad del
de miocardio
suceso B condicionada al suceso A se define como
depende del suceso ser hombre o ser mujer. El
P(concepto
A B) matemtico que permite
P(B|A) = .
formalizar cmo se modifica la probabilidad dePun
( Asuceso
) en funcin de otro es la
De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este suceso.
probabilidad condicional. En general, la probabilidad del suceso B condicionada al
As,DeP(infarto|hombre) es equivalente
forma intuitiva, condicionar por el suceso A es equivalente
a seleccionar en primer lugar a los
a seleccionar porhombres
este y
posteriormente determinar
suceso A se define como su probabilidad de tener un infarto de miocardio.
no suceso.
expuestos y RR
As, = P(D|E)/P(D|Eesc) equivalente
P(infarto|hombre) es el riesgo arelativo de la en
seleccionar enfermedad entre
primer lugar los
a los
El concepto de probabilidad condicional tiene numerosas aplicaciones en epidemiologa y
salud pblica. Por ejemplo, si D es el sucesoP(tener A Buna
) deenfermedad y E es el suceso estar
expuestos
hombres y ylosposteriormente
no expuestos.
expuesto a un factor de riesgo,determinar
P(D|E) es su
P(B|A) probabilidad
la =probabilidad
P ( A)
tener
. de la un infartoentre
enfermedad de miocardio.
los expuestos,
P(D|E ) es la probabilidad de la enfermedad entre los no expuestos y = P(D|E)/P(D|Ec) es el
c
El concepto
riesgoEjemplo
relativo de deenfermedad
probabilidad condicional tiene ynumerosas aplicaciones en
2.5laContinuando entre
con ellos expuestos
ejemplo anterior,loslanoprobabilidad
expuestos. de que un
De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este
epidemiologa y salud pblica. Por ejemplo, si D es el suceso tener una enfermedad y E
Ejemplo
bebedor 2.5diabtico
sea Continuando con como
se calcula el ejemplo anterior, la probabilidad de que un bebedor
suceso. As, P(infarto|hombre)
sea diabtico se calcula comoes equivalente a seleccionar en primer lugar a los
es el suceso estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la
hombres y posteriormente determinarPsu( Bprobabilidad
D) 0,01 de tener un infarto de miocardio.
P(D|B) = c =
enfermedad entre los expuestos, P(D|E ) es la probabilidad = 0,05
de la enfermedad entre los
P( B) 0,20
El concepto de probabilidad condicional tiene numerosas aplicaciones en
6
epidemiologa y salud
y la probabilidad de pblica.
que un noPorbebedor si Ddiabtico
ejemplo,sea es el suceso
comotener una enfermedad y E
16 es el suceso
Pastor-Barriuso R. estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la
c P( B c D) P( D) P( B D) 0,03 0,01
P(D|B ) = = c = de la enfermedad
= 0,025.
P( B c ) P(D|E ) es
enfermedad entre los expuestos, 1 laPprobabilidad
( B) 1 0,20 entre los
As, el riesgo de diabetes es el doble en los bebedores que en los no bebedores,
P( B D) 0,01
c (B c D
PP(D|B) = ) P( D) P = ( B D=)0,05 0,03 0,01
P(D|B ) c=
RR = P(D|B)/P(D|B ) = 0,05/0,025 ==P2.( B) =
0,20Probabilidad = 0,025.
c
P( B ) 1 P( B) 0,20 e independencia de sucesos
1condicional
Se ydice
la probabilidad
queeldos
As, riesgo
de que
sucesos sonun
de diabetes
no bebedor seasidiabtico
independientes comode uno no afecta a la
la bebedores
es el doble en los ocurrenciaque en los no bebedores,
y la probabilidad de que un no bebedor sea diabtico como
probabilidad c A y B son independientes si P(B|A) = P(B|Ac) = P(B) o,
RR =del otro;
P(D|B)/P(D|B
c
es decir,
P( B )c = 0,05/0,025
D) P( D)=2.P( B D) 0,03 0,01
P(D|B ) = = = = 0,025.
P( B ) c
c 1 P( B) 1 0,20
de forma equivalente, si P(A|B) = P(A|B ) = P(A). En consecuencia, si dos sucesos son
Se dice
As, que dos
el riesgo desucesos
diabetesson es el independientes
doble en los sujetos si la ocurrencia
bebedoresdeque unoennolos afecta a la
no bebedores,
independientes,
As, el riesgo
= P(D|B)/P(D|Bpuede probarse
de diabetes
c esque
) = 0,05/0,025 el doble = 2.en los bebedores que en los no bebedores,
probabilidad del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o,
RR = P(D|B)/P(D|Bc) = 0,05/0,025 = 2.
Se dice que dos sucesos son P(AB) = P(A)P(B|A)
independientes P(A)P(B).de uno no afecta a la probabilidad
si la=ocurrencia
de forma equivalente, si P(A|B) = P(A|Bc) = P(A). En consecuencia, si dos sucesos son
del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o, de forma equivalente,
es=que
decir, c riesgo relativo es distinto de la unidad, RR = 2 1. Esta dependencia
si P(A|B)
PorSe dice
tanto,
P(A|B dosel)sucesos
dos sucesos
independientes,
= P(A). son
puedetambin
En consecuencia,
probarse independientes
pueden
si doslasucesos
que definirse sicomo ocurrencia son independientes,
independientes de unosinolaafecta puede
a la probarse
probabilidad
que
se refleja tambin en elAhecho y B son de que la probabilidad de ser= simultneamentec
probabilidad
de su interseccin del otro; es decir,
es igual al producto la probabilidad sideP(B|A)
de independientes cada suceso P(B|A por) = P(B) o,
separado.
P(AB) = P(A)P(B|A) = P(A)P(B).
de bebedor y diabtico P(A|B) no = esP(A|B
el producto
c
) = P(A). de susEn probabilidades,
Porforma
tanto,equivalente,
dos sucesossitambin pueden definirse como consecuencia,
independientes si dossi lasucesos son de su
probabilidad
PorEjemplo
tanto,
interseccin dos2.6
es igual
es decir, A partir
sucesos
al producto
el riesgo de
tambinlos
relativo resultados
pueden
de es del
definirse
la probabilidad ejemplo
distinto de la de como anterior, puede
independientes
cada suceso
unidad, RR = 2 por concluirse
si
1.separado. la que
probabilidad
Esta dependencia
independientes, puede probarse que = 0,01 0,200,03 = P(B)P(D).
P(BD)
los sucesos
de Ejemplo
su interseccin
se refleja padecer
es diabetes
igual al y serde
el producto bebedor
de
quelala no son independientes
probabilidad dedecada
ser suceso dadopor queseparado.
la
2.6tambinA partirende hecho
los resultados del probabilidad
ejemplo anterior, simultneamente
puede concluirse que los
sucesos padecer diabetes P(AB) y ser= bebedor
P(A)P(B|A) no son independientes dado que la probabilidad
= P(A)P(B).
probabilidad
Notar que lael de ser diabtico
yprobabilidad node esinterseccin
la diferente ende bebedores
dos que en no bebedores,
bebedor
es
de ser decir,
diabtico diabtico
riesgo relativo
es diferente esen el
es producto
distinto dede
bebedores lasus
que unidad,
en nosucesos
RR = 2cualesquiera
probabilidades,
bebedores, 1. Esta dependencia
Ejemplo 2.6 A partir de los resultados del ejemplo anterior, puede concluirse que
es decir,
Por tanto, el riesgotambin
dos sucesos relativopuedenes distinto de la como
definirse unidad, RR =c2 1. Esta
independientes si ladependencia
probabilidad
se refleja tambin en el P(D|B)
hecho
P(BD)y=ser = de
P(AB) 0,05
que
0,01
= 0,025
la =
probabilidad
P(A)P(B|A)
0,200,03 P(D|B );
de ser
P(B)P(D). simultneamente
los sucesos padecer diabetes bebedor no son=independientes dado que la
se refleja
de su interseccin tambin
es igual en el hecho
al producto de que
de lade la probabilidad
probabilidad de ser simultneamente
es decir,
bebedor el riesgo relativo
y diabtico no eses distinto
el producto ladeunidad, de= cada
sus probabilidades,2 1.suceso por separado.se refleja
Esta dependencia
probabilidad
no equivale
tambin en al producto de ser
el hecho de sus diabtico es
que probabilidades, diferente
la probabilidad salvo en bebedores
de serque que en
ambos sucesosbebedor
simultneamente no bebedores,
sean y diabtico
bebedor
Notar que y diabtico
la probabilidadno es el de producto
la de sus de
interseccin probabilidades,
dos sucesos cualesquiera
no es el producto de sus probabilidades, 7
Ejemplo 2.6 A
independientes. Enpartir
general, de P(BD)
los
para resultados
= 0,01del
cualquier ejemplodeanterior,
0,200,03
conjunto = c puede
P(B)P(D).
sucesos A1, A2,concluirse
..., Ak, la que
P(D|B) = 0,05 0,025 = P(D|B );
P(BD) =P(AB) 0,01 0,200,03
= P(A)P(B|A) = P(B)P(D).
los sucesosdepadecer
probabilidad diabetes es
su interseccin y ser bebedor no son independientes dado que la
Notar que la probabilidad de la interseccin de dos sucesos cualesquiera
Notar que la al
noprobabilidad
equivale probabilidad
producto dede la probabilidades,
interseccin
es diferente de en dos sucesos cualesquiera
Notar que
P(Ala A
de ser diabtico
probabilidad
...A ) = desus
P(Ala interseccin
)P(A ...A de |A
salvo
bebedores
dos
)
que ambos
sucesos que ensucesos
no bebedores,
cualesquiera sean
7
1 2 k 1 2 k 1
probabilidad
condicionales de su deinterseccin es )P(A
la frmula= anterior
P(A se2|Areducen a probabilidades no condicionales y, en
1 1)P(A3|A1A2)P(Ak|A1A2...Ak 1).
P(A1A2...Ak) = P(A1)P(A2...Ak|A1)
Enconsecuencia,
el P(A
caso1A la
de2...A
que probabilidad
estos
k) = P(A sucesosde la sean
1)P(A2...A
interseccin
mutuamente
k|A1)
es igualindependientes,
al producto de sus las probabilidades
condicionales de la frmula= anterior P(A )P(Ase 1)P(A3...A
2|Areducen k|A1A2) = ... no condicionales y, en
a probabilidades
En el caso de que estos sucesos 1sean mutuamente
probabilidades, independientes, las probabilidades
consecuencia, la probabilidad de la interseccin
= P(A1)P(A2|A1)P(A3...Ak|A1A es igual al producto
2) = ...
de sus probabilidades,
condicionales de la frmula = P(A 1)P(A2|A1)P(A3|A1A2)P(Ak|A1A2...Ak-1).
anterior se reducen a probabilidades no condicionales y, en
k
= P(A1)P(A2|A1)P(A3|A1A2)P(Ak|A1A2...A k
k-1).
P Ai = P(A1A2...Ak) = P(A1)P(A2)P(Ak) = P( Ai ) .
consecuencia,
En el caso de que i =la
1 probabilidad
sucesosdesean
estos la interseccin
mutuamenteesindependientes,
igual al producto lasi =1de sus
probabilidades
En el caso de que estos sucesos sean mutuamente independientes, las probabilidades
probabilidades,
condicionales de la frmula anterior se reducen a probabilidades no condicionales y, en
condicionales
2.4 REGLAdeDE la frmula anterior se reducen
LA PROBABILIDAD a probabilidades no condicionales y, en
TOTAL
consecuencia, lak probabilidad de la interseccin es igual al producto de sus Pastor-Barriuso R. 17
k
Pprobabilidad
consecuencia, la Ai = P(Ade
1A ...Ak) = P(A
la2interseccin )P(A2al)P(A
es 1igual de
k) =
producto susP( Ai ) .
La
probabilidades, i =1
probabilidad no condicional de un suceso B se relaciona con su probabilidad
i =1
i =1 i =1
espacio muestral; es decir, A y Ac son sucesos exhaustivos AAc = y mutuamente
Probabilidad
excluyentes AAc = .
2.4 REGLA DE LA PROBABILIDAD TOTAL
As,
En la probabilidad
general, para unnoconjunto
condicional de B esAla
de sucesos 1, Amedia ponderada
2, ..., A k globalmentede lasexhaustivos
probabilidades
y
2.4LaREGLA DE LA PROBABILIDAD TOTAL
probabilidad no condicional de un suceso B se relaciona con su probabilidad
condicionales de B dadoque Ac. Estauna
A yformen descomposicin de la probabilidad sedel sucesoqueB en
Lamutuamente
probabilidadexcluyentes
no condicional de un suceso particin
B se relacionadel espacio muestral,
con su verifica
probabilidad condicionada
condicionada en la ocurrencia o no de otro suceso A mediante la frmula
en la ocurrencia o nocde otro suceso A mediante la frmula
trminos de A y A es aplicablek porque estos sucesos k
constituyen una particin del
P(B) =P(B) = +PP(A
P(AB) ( Ai c
B)
B) == P(A)P(B|A)
P( Ai ) P( B Ai )c,)P(B|Ac).
+ |P(A
espacio muestral; es decir, A y A son sucesos exhaustivos AAc = y mutuamente
i =1
c
i = 1
decir, En
A ygeneral,
epidemiologa, para un
Ac son sucesos
donde conjunto
emplean de
seexhaustivos con sucesos
AA c
= WA1y, A
frecuencia 2, ...,
mutuamente
las Ak globalmente
particiones.excluyentes exhaustivos
AAal
Por ejemplo, c
y
=dividir
.
En general, para un conjunto de sucesos A1, A2, ..., Ak globalmente exhaustivos y mutuamente
mutuamente
la poblacin excluyentes que formen unaestn
particin del espacio muestral, se verifica que
excluyentes queenformen
gruposuna
de edad y sexo
particin delseespacio empleando categoras
muestral, se globalmente
verifica que
exhaustivas y mutuamente excluyentes. k En general,k siempre que se divide la poblacin
P(B) = P( Ai B) = P( Ai ) P( B | Ai ) ,
en estratos se aplica una particin i =1
a esa poblacin.i =1
P( A B) 0,300,075P(+A0,100,300
) P( B | A) = 0,0645,
P(A|B) == 0,600,020 +
= .
P( B) P( A) P( B | A) + P( A c ) P( B | A c )
resultando
El teorema 64,5secasos
de Bayes porfrecuencia
usa con 1000 personas.
en la evaluacin de pruebas diagnsticas. Cuando
El teorema
se desarrolla una de Bayesdiagnstica
prueba se usa con yfrecuencia en lasus
se comparan evaluacin de con
resultados pruebas diagnsticas.
los de un patrn oro
(mtodo de referencia en el diagnstico de la enfermedad), suelen determinarse los siguientes
Cuando se
parmetros desarrolla una propias
o caractersticas prueba diagnstica
de la pruebaydiagnstica:
se comparan sus resultados con los de un
En la aplicacin clnica de una pruebaPdiagnstica ( D c ) P( | Dac una ) determinada poblacin (1 P ) E interesa conocer,
c
VP los
sin embargo, = Psiguientes
( D | ) = parmetros: = .
| D)c P( | D ) P(1 S )PS + (1 P) E
c c
P( D) P (P| (DDc))+P(P+( D
yy Valor VP + = P ( Dc | +positivo
VP predictivo
)=
= P( D | ) = P( Des laPprobabilidad
( D ) P( | D de ) tener la = enfermedad (1 Pentre
) E las personas
, que
) P(+ | D) + P( D cc ) P(+ | D cc ) = PS P ( 1
+ (1 P)(1 E ) .
S ) + (1 P ) E
P ( D )
tienen un resultado positivo, VP+ = P(D|+). P ( | D ) + P ( D ) P ( | D )
P( D) P(+ | D) PS
yy ValorVPpredictivo
Ejemplo P( D
+ =2.8 negativo
La| +sensibilidad
)= es de la probabilidad
la prueba ELISA de nopara tener = la enfermedad entre,las personas
c detectar seropositividad
P(negativo,
D) P(+ | DVP ) + P( D c
) Pc (+ | D ) PS + (1 P)(1 E )
que tienen un resultado
c P ( D c ) P= (P(D | D c |).) (1 P ) E
VP al=virus
Ejemplo
frente P( D
2.8 La de inmunodeficiencia
)=
|sensibilidad de la prueba
humana ELISA
c es del para = y su especificidad
c detectar
99% seropositividad es. del de la
Aplicando el teorema de Bayes, P( D) Ppueden ( | D) +calcularse
P( D ) P( los| Dvalores) P(1predictivos
S ) + (1 en P) Efuncin
prevalencia de la enfermedad en la poblacin c y de la sensibilidad y especificidad de la prueba
frente
96%. al
En virus
una cde inmunodeficiencia
poblacin con una P( D )P ( | D c de
humana
prevalencia )es infeccin
del 99% ypor P ) Ede es del
el(1virus
su especificidad
diagnstica,
VP = P( D | ) = = .
P( D) P ( | D) + P( D ) P( | D ) P(1 S ) + (1 P) E
c c
Ejemplo
96%. 2.8 La
En una
inmunodeficiencia sensibilidad
poblacin con del de0,3%,
una la
P (prueba
prevalencia(+ |ELISA
D) Pnicamente Dde ) infeccin para detectar
por elseropositividad
virus
PS de con un
VP + = P ( D | + )humana = el 6,9% = de las personas ,
P( D) P(+ | D) + P( D c ) P(+ | D c ) PS + (1 P)(1 E )
frente al virus
inmunodeficiencia
resultado positivode inmunodeficiencia
humana
del test ELISA del 0,3%, humana
nicamente
estarn realmentees del el 99%
6,9%yde
infectadas, sulas especificidad
personas con es un del
Ejemplo 2.8 La sensibilidad de la prueba ELISA para detectar seropositividad
c P ( D c ) P( | D c ) (1 P ) E
96%.VPEn
resultado P( D
=una | del
poblacin
positivo ) =test conELISAuna prevalencia
estarn realmente de infeccin = por el virus de
infectadas, .
frente al virus de inmunodeficienciaP(PS D) P ( | D)humana + P( D )es c
0P,003 | D
(del 0,)99y Psu(1especificidad
99% c
S ) + (1 P)es E del
VP+ = = = 0,069,
inmunodeficiencia PShumana
+ (1 Pdel )(1 0,3%,E ) nicamente
0,003 0,99 el + 06,9% ,997 de 0,04
las personas con un
96%. En una PS una prevalencia de 0,003 0,99 por el virus de
VP+poblacin
= con = infeccin = 0,069,
Ejemplo 2.8 LaPS sensibilidad
+ test P)(1de
(1 ELISA Elaestarn
) prueba
0,003 ELISA
0,99 +para detectar
0,04 seropositividad frente al
0infectadas,
,997
resultado positivo del realmente
virus de inmunodeficiencia
mientras que prcticamente
inmunodeficiencia humana del humana
todas 0,3%, las es del 99%
personas
nicamente conyelresultado
su 6,9%especificidad
de negativo
las personasesestarn
delcon
96%. un En una
Ejemplo 2.8 La sensibilidad de la prueba ELISA
poblacin con una prevalencia de infeccin por el virus de inmunodeficiencia humana del para detectar seropositividad
mientras
0,3%,
libres de
resultado que
nicamente
la prcticamente
infeccin,
positivo el testPS
del6,9% de todas
ELISA las
las personas personas
estarn con
realmente un0con
,003 resultado
infectadas,
resultado 0,99 positivo negativo del estarn
test ELISA estarn
frente alVP+
virus =de inmunodeficiencia = humana es del 99% y su = 0,069, es del
especificidad
realmente infectadas, PS + (1 P)(1 E ) 0,003 0,99 + 0,997 0,04
libres de la infeccin,
96%. EnVP- una poblacin (1 PS P) Euna prevalencia 00de
con ,,997
003 00,,99
infeccin 96 por el virus de
VP+ == =
= =
= 1,000.
0,069,
PPS
mientras que prcticamente +(1S(1)+PP()1todas
(1 )( 1 P)EE las
) 00,,003
personas
003 00,,con
01 +
99 + 00,,997
resultado
997 00,,negativo
96
04 estarn
E 0,997 0,96
inmunodeficiencia
VP- = humana del 0,3%, = nicamente el 6,9% de las=personas 1,000. con un
mientras
libres de que P(1 S ) + (1todas
prcticamente
la infeccin, P) las E personas
0,003 0con ,01 +resultado
0,997 0,negativo96 estarn libres de la
Sin embargo,
mientras
infeccin, que en una
prcticamente poblacin todas de alto
las riesgo
personas
resultado positivo del test ELISA estarn realmente infectadas, concon una
resultadoprevalencianegativo del virus
estarnde
i =1
2.6REFERENCIAS
edades entre
Esto es, 6574,
el 18,6, 7584
34,9 y 85
y 46,5% de aos, respectivamente.
los casos de la enfermedad de Alzheimer tienen
1. Billingsley P. Probability and Measure, Third Edition. New York: John Wiley & Sons, 1995.
edades entre 6574, 7584 y 85 aos, respectivamente.
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press, 2002.
2.6 REFERENCIAS
3. Feller W. An Introduction to Probability Theory and Its Applications, Volume 1, Third
Edition. New York: John Wiley & Sons, 1968.
2.6 REFERENCIAS
4. 1.Rosner
Billingsley P. Probability
B. Fundamentals and Measure,
of Biostatistics, Third
Sixth Edition.
Edition. New York:
Belmont, John Wiley
CA: Duxbury & 2006.
Press,
1. Sons, 1995. P. Probability and Measure, Third Edition. New York: John Wiley &
Billingsley
Sons, 1995.
12
12
20 Pastor-Barriuso R.
TEMA 3
VARIABLES ALEATORIAS Y
DISTRIBUCIONES DEPROBABILIDAD
3.1INTRODUCCIN
Ejemplo 3.1 A continuacin se definen algunas variables aleatorias para los experimentos
del Ejemplo 2.1 del tema anterior. En el experimento consistente en observar la
supervivencia a los 6 meses de 4 pacientes con cncer sometidos a tratamiento, una
variable aleatoria X podra ser el nmero de supervivientes, que tomara los valores X =
0, 1, 2, 3 4 en funcin del nmero de pacientes que hayan sobrevivido a los 6 meses.
Alternativamente, podra definirse otra variable aleatoria Y como el nmero de muertes,
cuyos valores seran Y = 0, 1, 2, 3 4 en funcin del nmero de muertes observadas. Para
el experimento de medir el colesterol HDL de una persona, la variable aleatoria X ms
natural sera el nivel de colesterol HDL en mmol/l, que podra tomar cualquier valor
positivo. Si el inters se centra en saber si los niveles de colesterol HDL son superiores o
inferiores al umbral de 0,90 mmol/l, otra variable aleatoria Y podra definirse como Y = 0
si el nivel observado es inferior a 0,90 mmol/l y 1 en caso contrario. La eleccin de los
valores 0 y 1 es arbitraria, bastara con asignar dos valores distintos para diferenciar
ambos tipos de resultados.
Como las variables aleatorias son funciones definidas sobre el espacio muestral, sus posibles
valores tendrn asociada una probabilidad, que corresponder a la probabilidad del suceso
constituido por aquellos resultados del experimento que toman dichos valores. Los diferentes
valores de una variable aleatoria y las probabilidades asociadas constituyen la distribucin de
probabilidad de la variable.
Pastor-Barriuso R. 21
Variables aleatorias y distribuciones deprobabilidad
F(x)P(X
como la probabilidad de observar P(X
= un valor
A) = P( XPo=( igual
=x)menor Xx =) .xai )x,.
i
xi A
xi x
= E(X) = x P( X = x ) .
i 1
i i
Tabla
La esperanza es la media3.1 Funcin
de los valores xde masa de probabilidad y
i ponderados por su probabilidad y representa
funcin de distribucin del nmero de supervivientes
a los de
as el valor promedio 6 meses de4aleatoria.
la variable pacientesNotar
con cncer sometidos
que la media a se puede
muestral
tratamiento.
calcular de forma similar, multiplicando cada
Nmero valor observado
Funcin de la variable por su
Funcin
de supervivientes de masa de distribucin
frecuencia relativa. (x) P(X = x)una
La varianza poblacional de F(x) = aleatoria
variable P(X x) discreta X,
0 0,1296 0,1296
abreviada por o var(X), 1se define
2
como 0,3456
la esperanza del 0,4752
cuadrado de la desviacin de
2 0,3456 0,8208
3 0,1536 0,9744
la variable respecto de su media,
4 0,0256 1,0000
0,4
2 = var(X) = E(X - )2 = (x
i 1
i ) 2 P( X = xi )
1
0,8
0,3 = x
i 1
2
i P( X = x i ) 2 = E(X2) - 2.
0,6
P(X = x) 0,2 F(x)
0,4
5
0,1
0,2
0 0
0 1 2 3 4 0 1 2 3 4
x x
(a) (b)
Figura 3.1 Funcin de masa de probabilidad (a) y funcin de distribucin (b) del nmero de supervivientes
a los 6 meses de 4 pacientes con cncer sometidos a tratamiento.
Figura 3.1
Pastor-Barriuso R. 23
as el valor promedio de la variable aleatoria. Notar que la media muestral se puede
Variables aleatorias y distribuciones deprobabilidad
calcular de forma similar, multiplicando cada valor observado de la variable por su
distribucin
igual a 1.a En
igual binomial toma
la prctica,
1. En valores
resulta
la prctica, en kcalcular
tedioso
resulta = 0,
tedioso lasnlas
1, ...,
calcular con probabilidad
probabilidades de de
probabilidades una distribucin
24 Pastor-Barriuso R. 6 una distribucin
binomial mediante
binomial la frmula
mediante anterior.
la frmula PorPor
anterior. ello, en en
ello, la Tabla 1 del
la Tabla Apndice
1 del se facilitan
Apndice se facilitan
6
caractersticas sometidos a una misma terapia.
Distribuciones de probabilidad discretas
observar
frmula la Por
anterior. supervivencia (o muerte)
ello, en la Tabla en pacientes
1 del Apndice con un determinado
se facilitan las probabilidades cncer binomiales
para n = 2, 3, ..., 20 y = 0,05, 0,10, ..., 0,50.
sometidos al mismo tratamiento. Si por estudios previos se sabe que la
En general, la distribucin binomial se aplica al estudio de observaciones repetidas e
independientes de una misma variable dicotmica (con slo dos resultados posibles), tal como
supervivencia a los 6 meses en dichos pacientes es del 40%, el nmero de
el resultado de un tratamiento (xito o fracaso) en pacientes de similares caractersticas
sometidos a una misma terapia.
supervivientes a los 6 meses en una muestra de 4 pacientes seguir una
dado que el resultado en cada paciente es independiente y todos tienen una misma
Ejemplo 3.5binomial
distribucin En los ejemplos
X de parmetros anteriores, n = se 4 yha considerado
= 0,4. el experimento de observar
probabilidad de supervivencia del 0,4. En general,
la supervivencia (o muerte) en pacientes con un determinado cncer la probabilidad desometidos
que al mismo
tratamiento.
Utilizando Si
las por
leyes estudios
de la previos
probabilidad, se sabe que
si denotamos la supervivencia
por Si al sucesoa los 6 meses
dedeque en dichos
dado
sobrevivanque 2 el resultado
pacientes en cada
cualesquiera paciente
puede es independiente
descomponerse,
pacientes es del 40%, el nmero de supervivientes a los 6 meses en una muestra de 4 y
en todos
funcin tienen una
qu misma
pacientes seguir
sobreviva el i-simo unapaciente,
distribucin binomial X de de que
parmetros n = 4nicamente
y = 0,4. los
probabilidad
pacientes sobrevivan, como la probabilidad
de supervivencia del 0,4. En general, sobrevivan
la probabilidad de que
Utilizando las leyes de la probabilidad, si denotamos por Si al suceso de que sobreviva el
dado
dos quepaciente,
el resultado
primeros
i-simo pacientes envendra
cada paciente
la probabilidad dada
de que pores independiente
sobrevivan nicamentey todoslos tienenprimeros
una misma
sobrevivan 2 pacientes cualesquiera cpuede c descomponerse, c enc dos
funcin de qu pacientes
vendra dada por P(X = 2) = P{(S1S2 S 3 S 4 )(S1 S 2 S3 S 4 )
probabilidad de supervivencia del 0,4. En general, la probabilidad de que
pacientesP(Ssobrevivan,
1S2 S 3 como
c
S 4c ) = P(S1)P(S2)P( S 3c )P( S 4c ) = 0,42(1 0,4)2,
sobrevivan 2 pacientes cualesquiera (S1 S 2cpuede S 3c descomponerse,
S4)( S1c S2Sen 3 S 4 )
c
funcin de qu
dado que el resultado en cada paciente es independiente c c
y todosctienen unac misma probabilidad
P ( X = 2) = P {( S
de supervivencia del 0,4. En general, la 3probabilidad
1 S 2 S S 4 )( S1de S2 que S3sobrevivan
S4 ) 2 pacientes
pacientes sobrevivan, como( S1c S2 S 3c S4)( S1c S 2c S3S4)}.
cualesquiera puede descomponerse, en funcin de qu pacientes sobrevivan, como
(S1 S 2c S 3c S4)( S1c S2S3 S 4c )
posibles 7
c
Esta probabilidadP(Xest = P{(S1Spor
= 2)constituida 2 Sla 3 S 4c )(
unin deStantos
1 S 2
c
S3 S 4c como
sucesos )
cc c c c
(S( 1 S12 SS23SS34 S4)(
S1c SS12 SS32SS4c3 ) S4)}.
c
)(
4 4! 24
combinaciones de 4 pacientes ( Stomados
c
S S dec 2 en 2; es
S )( S c decir,
S c
S S= )}. =
2 4 2 2! (4 2)! 4
3 4
Esta probabilidad est constituida por la unin de tantos sucesos
1 3 1 2
como posibles
Esta probabilidad est constituida por la unin de tantos sucesos como posibles
= 6 sucesos. Adems, estos sucesos son mutuamente excluyentes y todos ellos
4 4! 24
combinaciones
combinaciones de 4depacientes
4 pacientes tomados
tomados dede2 2enen 2;es
2; decir, =
es decir, = =6
Esta
tienenprobabilidad
una misma est constituida
probabilidad de por
ocurrir la uninde 0,4 de(1tantos
2
- 0,4)sucesos
2
2como
. En consecuencia, (4 2)!
2!posibles la 4
sucesos. Adems, estos sucesos son mutuamente excluyentes y todos ellos tienen una
= 6 probabilidad
misma sucesos.
probabilidad Adems,
de que estosde
sobrevivan
de ocurrir sucesos
2 0,4 2 son mutuamente
pacientes
(1 0,4) cualesquiera
2
. En consecuencia,es 4 la probabilidad
excluyentes 4y! todos ellos
24 de que
combinaciones de 4 pacientes tomados de 2 en 2; es decir, = =
sobrevivan 2 pacientes cualesquiera es 2 2! (4 2)! 4
tienen una misma probabilidad de ocurrir de 0,42(1 - 0,4)2. En consecuencia, la
4 2
= 6 sucesos. Adems, P 2) = son
(X =sucesos
estos (1 0,4) 2 =excluyentes
0,4mutuamente 0,3456, y todos ellos
probabilidad de que sobrevivan 22 pacientes cualesquiera es
tienen una mismaa probabilidad
que corresponde la probabilidad dedeocurrir de 0,42(1 binomial
la distribucin - 0,4)2. En deconsecuencia,
parmetros n =la4 y = 0,4
que corresponde a la probabilidad de la
4
para k = 2. Aplicando esta frmula, las probabilidades distribucin
2 binomial de parmetros n = 4
2para k = 0, 1, 2, 3 4 supervivientes
probabilidad P ( X = 2) = 0,4 (1 0, 4 ) = 0,3456,
aparecen en de la que
Tablasobrevivan
3.1 y en 2lapacientes 2 3.1(a).
Figura
cualesquiera es
Estas probabilidades tambin pueden
y = 0,4 para k = 2. Aplicando esta
obtenerse directamente de la Tabla 1 del Apndice.frmula, las probabilidades para k = 0, 1, 2, 3
4 2
4 que corresponde
supervivientes aPla
(
aparecenX probabilidad
=
A partir de las frmulas generales para 2)
en =laTabla
0,4
ladeesperanza
3.1(la
1 distribucin
y0en,4)la2yFigura binomial
=la0,3456, 3.1(a).
varianza de
deEstas
unaparmetros n=4
variable aleatoria
2
discreta, puede probarse que la esperanza de una distribucin binomial de parmetros n y es
y = 0,4 para k = 2. Aplicando
probabilidades tambin pueden obtenerse esta frmula,directamentelas probabilidades
de la Tabla 1para del k = 0, 1, 2, 3
que correspondeEa(Xla) =
n
probabilidad de la
n
n k binomial
distribucin n=4
Apndice.
4 supervivientes aparecen en la Tabla 3.1
kP ( X = k ) = k y en(1la ) n k =de
Figura nparmetros
3.1( a). Estas
k =0 k =0 k
y = 0,4 para k = 2. Aplicando esta frmula, las probabilidades para k = 0, 1, 2, 3
probabilidades tambin pueden obtenerse directamente de la Tabla 1 del
yAsupartir de lasesfrmulas generales para la esperanza y la varianza de una variable
varianza
4 supervivientes aparecen en la Tabla 3.1 y en la Figura 3.1(a). Estas
Apndice. Pastor-Barriuso R. 25
aleatoria discreta, puede probarse que la esperanza de una distribucin binomial de
probabilidades tambin pueden n obtenerse directamente de la Tabla 1 del
var(X) = (k n ) 2 P( X = k )
A partir
parmetros n y de
eslas frmulask =generales
0 para la esperanza y la varianza de una variable
Apndice.
k
k =0
n n
n
E(X) = kP( X = k ) = k k k
(1 ) n k = n
Variables aleatorias y distribuciones deprobabilidad
k =0 k =0
As, el nmero esperado de xitos es igual al n
Pastor-Barriuso R. 27
Variables aleatorias y distribuciones deprobabilidad
0,25 0,25
0,2 0,2
0,15 0,15
P(X = k)
0,1 0,1
0,05 0,05
0 0
0 5 10 15 20 0 5 10 15 20
k k
(a) (b)
Figura 3.2 Distribucin de probabilidad del nmero de muertes por cncer de vescula en un periodo de 1
ao (a) y de 2 aos (b) en una poblacin de 140.000 hombres.
Figura 3.2
28 Pastor-Barriuso R.
Este resultado es particularmente til en la prctica, ya que el clculo de las
3.2.3 Aproximacin
virtualmente idnticos. de Poisson a la distribucin binomial
Bajo determinadas circunstancias, la distribucin de Poisson puede utilizarse como aproximacin
a la distribucin
Ejemplo 3.8 binomial. Supongamos
Retomemos que,anterior
del ejemplo en una distribucin binomial,Xel nmero de pruebas
la variable aleatoria
n es grande y la probabilidad individual de xito es pequea. En tal caso, el nmero de xitos
de la distribucin binomial
correspondiente puedede
al nmero sermuertes
muy grande y su varianza
por cncer seren
de vescula aproximadamente
un periodo de 2 igual al
valor esperado, n(1 ) n. Como se vio en el apartado anterior, estas dos caractersticas son
propias de en
aos unauna
distribucin
poblacin de
de Poisson, lo que sugiere
140.000 hombres. la validez del
El experimento siguienteconsistira
subyacente resultado: si el
nmero de pruebas n es grande y la probabilidad de xito es pequea, la distribucin binomial
se aproxima a unapara
en observar, distribucin de los
cada uno de Poisson hombres, la =ocurrencia
con parmetro
n = 140.000 n. Por regla general,
o no de una esta
aproximacin se considera suficientemente precisa cuando n 100 y 0,01.
muerte
Este por cncer
resultado de vescula durante
es particularmente unprctica,
til en la periodo ya
de que
2 aos. El resultado
el clculo de las en cada
probabilidades
binomiales para n grande y pequea es muy laborioso, en cuyo caso las probabilidades de
sujeto
Poisson son es
msindependiente y la probabilidad
fciles de manejar de que un virtualmente
y facilitan resultados individuo promedio de esta
idnticos.
Utilizando la aproximacin de Poisson a la distribucin binomial, el nmero de
Ejemplo 3.8
poblacin mueraRetomemos
por cncerdel ejemplo en
de vescula anterior = IA2 aleatoria
2 aoslaesvariable X correspondiente
= 0,000036. Por
al nmero de muertes por cncer de vescula en un periodo de 2 aos en una poblacin
muertes por cncer de vescula en un periodo de 2 aos seguir aproximadamente
de 140.000
tanto, hombres.
el nmero El experimento
de muertes por cncersubyacente
de vesculaconsistira en observar,
en esta poblacin para cada
a lo largo de uno
de los n = 140.000 hombres, la ocurrencia o no de una muerte por cncer de vescula
una distribucin dede
Poisson conElparmetro =enncada
= 140.0000,000036 = 5,04. Eny la
2durante un periodo
aos seguir 2 aos.
una distribucin binomialresultado
con parmetros nsujeto es independiente
= 140.000 y=
probabilidad de que un individuo promedio de esta poblacin muera por cncer de
consecuencia, la es
probabilidad de observarPor
= IAla2 =probabilidad
0,000036. 2 muertes
tanto, elpuede
nmeroaproximarse
de muertes por
vescula
0,000036. enAs,
2 aos
por ejemplo, de que ocurran exactamente 2 por cncer
de vescula en esta poblacin a lo largo de 2 aos seguir una distribucin binomial con
muertes es n = 140.000 y = 0,000036.
parmetros e As,
5 , 04 por2 ejemplo, la probabilidad de que ocurran
5,04
exactamente 2 muertes es P( X = 2) = 0,082222,
Utilizando la aproximacin de Poisson a la2!distribucin binomial, el nmero de
140.000 2 139.998
muertes por Pcncer
(X = 2)de
= vescula 0,un
en 000036
periodo 0,999964
de 2 aosbinomial= 0,082220.
seguir aproximadamente
que coincide casi perfectamente
2 con la probabilidad exacta.
Utilizando la aproximacin
una distribucin de Poisson de
conPoisson
parmetro a la distribucin binomial, el nmero
= n = 140.0000,000036 = 5,04.deEn
muertes
por cncer de vescula en un periodo de 2 aos seguir aproximadamente una distribucin
3.3de Poisson conla parmetro
DISTRIBUCIONES
consecuencia, de
= n
DE PROBABILIDAD
probabilidad = 140.0000,000036
observar puede=aproximarse
CONTINUAS
2 muertes 5,04. En consecuencia,
por la
probabilidad de observar 2 muertes puede aproximarse por
13
Las variables aleatorias continuas son aquellas
e 5 , 04
5,04que
2 pueden tomar cualquier valor dentro
P(X = 2) = 0,082222,
2!
de un intervalo. La probabilidad de que estas variables tomen exactamente un valor
que coincide casi perfectamente con la probabilidad binomial exacta.
que coincide
determinado es 0casi perfectamente
y, en consecuencia,con la probabilidad
carece binomial
de sentido definir unaexacta.
funcin de masa de
3.3probabilidad.
DISTRIBUCIONES DE PROBABILIDAD
Para las variables CONTINUAS
aleatorias continuas, las probabilidades se asignan a
Las variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de un
3.3intervalos
DISTRIBUCIONES DE PROBABILIDAD
una funcin CONTINUAS
intervalo. de valores mediante
La probabilidad de que estas variablesdetomen
densidad de probabilidad
exactamente un valor ,determinado
denotada es 0
y, en consecuencia, carece de sentido definir una funcin de masa de probabilidad. Para las
Laspor f(x).aleatorias
variables
variables Esta funcin
aleatorias ha de ser
continuas
continuas, las no
son negativa
aquellaspara
probabilidades quesecualquier
pueden valor
asignantomar x, f(x) de0,
cualquier
a intervalos y eldentro
valor rea
valores mediante
una funcin de densidad de probabilidad, denotada por f(x). Esta funcin ha de ser no negativa
de total
parauncualquier
intervalo.
bajo lavalorLa probabilidad
curvax,definida y eldeesta
f(x) 0, por quefuncin
rea estasbajo
total variables tomen
deladensidad
curva exactamente
debe
definidaser
porigual un
1, valorde densidad
esta afuncin
debe ser igual a 1,
determinado es 0 y, en consecuencia, carece de sentido definir una funcin de masa de
x) dx = 1.
f (
probabilidad. Para las variables aleatorias continuas, las probabilidades se asignan a
A partir
intervalos de la funcin
de valores de densidad,
mediante la probabilidad
una funcin de densidadde
deque una variable
probabilidad aleatoria
Pastor-Barriuso R.
, denotada 29
VariablesAaleatorias
partir de la funcin
y distribuciones de densidad,
deprobabilidad la probabilidad de que una variable aleatoria
continua X tome valores dentro de cualquier intervalo (a, b) puede calcularse como el
A partir de la funcin de densidad, la probabilidad de que una variable aleatoria continua X
rea
tome bajo ladentro
valores funcinde de densidad
cualquier entre los
intervalo (a,puntos
b) puedea ycalcularse
b, como el rea bajo la funcin
de densidad entre los puntos a y b,
en regiones de baja probabilidad. La funcin debdistribucin F(x) corresponde a la
P(a < X < b) = f ( x) dx .
a
probabilidad de que la variable tome un valor igual o inferior a x y, en el caso de una
As, aun cuando la probabilidad de obtener un valor concreto es 0, la funcin de densidad
tomar valores
As, aun
variable cuandoelevados
aleatoria en regiones
lacontinua,
probabilidad de de alta probabilidad
obtener
se calcula como un valorbajo
el rea ydevalores
concretola es 0,pequeos
curva ladefuncin en
deregiones
la funcin de de
baja probabilidad. La funcin de distribucin F(x) corresponde a la probabilidad de que la
variable tome
densidad unizquierda
atomar
la valor igual
valores ox, inferior
deelevados x y, en el
enaregiones decaso de una variable
alta probabilidad aleatoria
y valores continua, se
pequeos
calcula como el rea bajo de la curva de la funcin de densidad a la izquierda de x,
x 14
F(x) = P(X x) =
f (t ) dt .
La funcin de distribucin de una variable aleatoria continua es una funcin que, partiendo de 0,
crece
La de formade
funcin continua hasta alcanzar
distribucin el valoraleatoria
de una variable 1. continua es una funcin que,
partiendo
Ejemplo de 3.9
0, crece
La de formade
funcin continua
densidadhasta
paraalcanzar el valorHDL
el colesterol 1. en hombres adultos se
representa en la Figura 3.3(a). Notar que, aunque el rea bajo la curva ha de ser igual a 1, la
funcin de densidad puede tomar valores superiores a 1. Los niveles de colesterol HDL
Ejemplo
prximos a 13.9 La funcin
mmol/l son losdequedensidad para elprobabilidad
tienen mayor colesterol HDL en hombres
de ocurrir, adultos
mientras que para
niveles inferiores y superiores esta probabilidad decrece. As, por ejemplo, la probabilidad de
queseunrepresenta en la tenga
hombre adulto Figuraun3.3( a).de
nivel Notar que, aunque
colesterol el reaa bajo
HDL inferior 0,90 la curva(niveles
mmol/l ha de ser
bajos
segn las recomendaciones del National Cholesterol Education Program) corresponde al
reaigual a 1, la funcin
sombreada de densidad
bajo la curva puedede
a la izquierda tomar
0,90 valores
mmol/l ysuperiores
es igual a aP(X
1. Los niveles
0,90) = 0,3274.
Al igual que para variables discretas, la esperanza o media poblacional de una
Esta probabilidad tambin puede obtenerse a partir de la funcin de distribucin del colesterol
HDL,de colesterol HDL prximos
que se representa a 13.3(b).
en la Figura mmol/lEsta
sonfuncin
los quepresenta
tienen mayor probabilidad
el aspecto de de
caracterstico
variable aleatoria
las funciones decontinua representa
distribucin el valorcontinuas
para variables promedioaproximadamente
de esa variable, ysimtricas.
se define
ocurrir, mientras que para niveles inferiores y superiores esta probabilidad
como
Al igual que para variables discretas, la esperanza o media poblacional de una variable
aleatoria decrece.
continuaAs, por ejemplo,
representa el valorla promedio
probabilidad de que
de esa un hombre
variable, adultocomo
y se define tenga un nivel
de colesterol HDL inferiora=0,90 = x(niveles
E(X)mmol/l f ( x) dxbajos
. segn las
de distribucin del colesterol HDL, que se representa en la Figura 3.3( b). Esta
0,5
0,25
2 = var(X) = E(X - )2 = ( xde
funcin presenta el aspecto caracterstico
) 2 f ( x) dx
las funciones de distribucin para
0 0
variables continuas aproximadamente simtricas.
x f ( x) dx 0 =0,5E(X ) 1- . 1,5
2 2 2 2
0 0,5 1 1,5 2 =2,5 2 2,5
Colesterol HDL (mmol/l) Colesterol HDL (mmol/l)
30
para la media y la varianza poblacional de una variable continua son similares a las
Pastor-Barriuso R.
facilitadas para variables discretas, salvo que la suma sobre el nmero discreto de 15
= x 2 f ( x) dx 2 = E(X2) - 2.
La varianza poblacional de una variablealeatoria continua es la esperanza de las
, que representa
La raz cuadrada de la varianza es la desviacin tpica poblacionalDistribuciones la continuas
de probabilidad
Ladesviaciones
raz cuadradaalde cuadrado de los
la varianza es la valores de la variable
desviacin respecto de,su
tpica poblacional quemedia, y se calcula
representa la
dispersin de la variable aleatoria respecto de su media poblacional. Estas expresiones
Lacomo
varianza
dispersin de poblacional de una variable
la variable aleatoria respectoaleatoria
de su media continua es la esperanza
poblacional. de las desviaciones
Estas expresiones
para
al la media
cuadrado deylosla varianza
valores depoblacional
la variablede una variable
respecto de su media,continua son
y se similares
calcula como a las
para la media y la varianza poblacional de 2 unavariable 2continua son similares a las
facilitadas para variables 2
= var( discretas,
X ) = E(Xsalvo = la( suma
) que x )sobre f ( x)eldxnmero discreto de
Existen muchos modelos tericos de distribuciones continuas, cada una de ellas
facilitadas para variables discretas, salvo que la suma sobre el nmero2discreto de
valores con probabilidad no nula se reemplaza por
2 la integral 2sobre todos los posibles
concreta para la funcin de densidad. A 2
caracterizada por una frmula o expresin = x f ( x ) dx = E ( X ) .
valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles
valores
La de la variable
raz cuadrada continua.es la desviacin tpica poblacional , que representa la dispersin
de la varianza
continuacin se revisa en detalle la distribucin normal, que es la utilizada con mayor
de la variable aleatoria respecto de su media poblacional. Estas expresiones para la media y la
valores de la variable continua.
La raz poblacional
varianza cuadrada de de la varianza
una variable es la desviacin
continua son tpicasimilares a las
poblacional , que representa
facilitadas la
para variables
frecuencia
Ejemplo en estadstica. Otras distribuciones continuas, como la t de Student, chi-
discretas, salvo3.10
que Utilizando
la suma sobre la funcin
el nmero de densidad
discreto del ejemplo
de valores anterior,
con el valor
probabilidad no nula se
reemplaza
dispersin
Ejemplopor lalaintegral
de3.10 variable sobre
Utilizando latodos
aleatoria los posibles
respecto
funcin de suvalores
de densidad media del de la variable
poblacional.
ejemplo continua.
Estas
anterior, elexpresiones
valor
cuadrado
esperado o Fdeldecolesterol
Fisher, seHDLdiscutirnen unasegn vayande
poblacin surgiendo
hombresaadultos
lo largosera
del texto.
paraesperado
la mediadel
Ejemplo y lacolesterol
3.10 varianza poblacional
Utilizando
HDL laen una de
funcin deuna variable
densidad
poblacin continua
del
de hombres ejemplo son similares
anterior,
adultos a las esperado
sera el valor
3.3.1 Distribucin normal
del colesterol HDL en una poblacin de hombres adultos sera
3.3.1 y la de
desviacin
Distribucin
tcnicas tpica
normal
inferencia estadstica: incluso cuando la distribucin poblacional de una
La distribucin normal, tambin denominada distribucin Gaussiana, es el modelo terico de
variable diste mucho de ser normal, puede probarse1 / que,
2 bajo ciertas condiciones, la
= en ) dx mediciones
distribucin continua ms utilizado ( x la1prctica.
,10) f ( xMuchas
2 epidemiolgicas y clnicas
= 0,30 mmol/l.
al0 modelo terico normal
presentan distribuciones similares (presin arterial, colesterol srico, ndice
distribucin de los valores medios de dicha variable seguir un modelo
de masa corporal) o bien pueden transformarse para conseguir distribuciones aproximadamente
normales (tpicamente mediante transformaciones logartmicas de los datos originales). No obstante,
aproximadamente normal.
como se ver en los temas posteriores, la utilidad fundamental de la distribucin normal surge dentro
16
de las tcnicas de inferencia estadstica: incluso cuando la distribucin poblacional de una variable
Una variable aleatoria continua X sigue una distribucin normal si su funcin de
diste mucho de ser normal, puede probarse que, bajo ciertas condiciones, la distribucin de los
valores medios de dicha variable seguir un modelo aproximadamente normal.
densidad es
Una variable aleatoria continua X sigue una distribucin normal si su funcin de densidad es
1 (x ) 2
f (x) = exp ,
2 2 2
para cualquier valor x en la recta real, < x < . Esta funcin de densidad depende de los
parmetros y , donde
para cualquier valor x en la recta real, - < x < . Esta funcin de densidad depende de
yy representa la esperanza o media poblacional de la distribucin y
ylos correspondeaysu
y parmetros ,desviacin
donde tpica poblacional.
17
Variables aleatorias y distribuciones deprobabilidad
1
2
abreviadamente
f(x) por N(, 2). Para cualquier y > 0, la funcin de densidad normal
es positiva y el rea total bajo la curva es igual a 1. Esta funcin de densidad, que
corresponde
de la media y tiene dos puntos de inflexin en + ya su- desviacin tpica
. Al tratarse poblacional.
de una
0
Lamediana
distribucin simtrica, la media y la distribucin normalElo valor
coinciden. Gaussiana con media y varianza 2 se denot
ms frecuente
- 3 - 2 - + + 2 + 3
2
abreviadamente
1/( 2 ) se alcanza en la media y su dispersinpor N(, del
alrededor ). Para
valorcualquier y > 0, la funcin de de
medio aumenta
x
Figura 3.4
al aumentar
Figura la desviacin
3.4 Funcin de densidadtpica .es positiva
de unadistribucin
As, yprobarse
el rea total
puedenormal que bajo
con media
la curva
el68,27% deles
y desviacin
igual
rea
tpica
a 1. Esta funcin de dens
bajo
. una
aparece representada
funcin de densidad normal est comprendido entre en, la
el Figura
95,45%3.4, tiene
entre forma de campana, es simt
2 y el
La distribucin normal o Gaussiana con media y varianza se denota abreviadamente
2
N(, 2entre
por99,73% ). Para
cualquier
3. y > de
0, la
la media ydetiene
funcin dos puntos
densidad normal de es
inflexin
positivaenyel+ rea
y - . Al tratars
total bajo la curva es igual a 1. Esta funcin de densidad, que aparece representada en la
Figura 3.4, tiene forma de campana, distribucin
es simtricasimtrica,
alrededorlademedia y la mediana
la media y tiene coinciden.
dos puntosEl valor ms fre
de inflexin en + y . Al[Figura
tratarse3.4
deaproximadamente
una distribucin simtrica,
aqu] la media y la mediana
coinciden. El valor ms frecuente 1/( 2 ) se se alcanza
alcanzaenenla lamedia y suydispersin
media alrededor del valor
su dispersin
alrededor del valor medio aumenta al aumentar la desviacin tpica . As, puede probarse
que elLa distribucin
68,27% normal
del rea con funcin
bajo una media 0 de
y desviacin
densidad
al aumentar tpica 1 est
normal
la desviacin tpica . As, distribucin
se denomina
comprendido puedeentre ,que el 68,27% d
probarse
el 95,45% entre 2 y el 99,73% entre 3.
normal estandarizada, y suele denotarse por Z o N(0, normal
1). La funcin de densidadentre
de , el 95,45% en
La distribucin normal con media 0funcin de densidad
y desviacin est comprendido
tpica 1 se denomina distribucin normal
estandarizada, y suele
una distribucin denotarse
normal por Z o se
estandarizada N(0, 1). La funcin de densidad de una distribucin
normal estandarizada se reduce a 99,73%reduce
entre a 3.
1 1
f (z) = exp z 2 , [Figura 3.4 aproximadamente aqu]
2 2
para cualquier < z < , que se representa en la Figura 3.5(a). Como puede observarse,
se trata de una funcin
para cualquier - < z <simtrica La distribucin
, que sealrededor
representa normal
deen0.la Para 3.5(con
obtener
Figura media
a).las
Como 0 y desviacin
probabilidades
puede tpica
bajo la 1 se denomin
funcin de densidad normal estandarizada, no se recurre al clculo integral, ya que estas
probabilidades
observarse, seestn
tratatabuladas y son normal
de una funcin estandarizada
fcilmente
simtrica de ,0.
accesibles.
alrededor y Para
En suele denotarse
general,
obtenerestas por Z facilitan
lastablas o N(0, 1). La funcin de
la funcin de distribucin; es decir, la probabilidad de que la variable normal estandarizada
tome un valor igual
probabilidades bajoolainferior una
La distribucin
funcin adez.densidad
funcin
normal de normal estandarizada
distribucin
estandarizada, normal se reduce
al a
estandarizada
no se recurre se
denota por F(z) = P(Z z), y se ilustra en la Figura 3.5(b). En la Tabla 3 del Apndice se
facilita la funcin
clculo integral,de
yadistribucin F(z) para valores
que estas probabilidades de z no negativos.
estn tabuladas y son fcilmente 1 1
f ( z) = exp z 2 ,
accesibles. En general, estas tablas facilitan la funcin de distribucin; es decir, 2 la 2
f(z) (z)
1
0,5
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
z z
(a) (b)
Figura 3.5 Funcin de densidad (a) y funcin de distribucin (b) de una variable aleatoria normal
estandarizada.
Figura 3.5
resultado
El clculosobre la estandarizacin
de probabilidades de una distribucin
para cualquier normal:
distribucin normal si con
una variable
media aleatoria
y varianza 2
no requiere de tablas especficas, sino que puede realizarse a partir de las tablas de la distribucin
X sigue
normal una distribucin
estandarizada. normal
Para ello, uso del siguiente
con media
se hace 2, X ~ sobre
y varianzaresultado N(, la2),estandarizacin
entonces la de
una distribucin normal: si una variable aleatoria X sigue una distribucin normal con media
y varianza 2
, X ~ N(,
variable aleatoria Z =(2X),-entonces la una
)/ sigue variable Z = (Xestandarizada,
aleatorianormal
distribucin )/ sigue una distribucin
normal estandarizada,
X
Z= ~ N(0, 1),
1, al restar a los valores de una variable su media y dividirlos por su desviacin tpica,
procedimiento de estandarizacin de variables normales permite utilizar las tablas
correspondientes a la distribucin
Variables aleatorias y distribuciones normal estandarizada.
deprobabilidad
dondeEjemplo 3.12
el smbolo Supongamos
~ significa estarque el colesterol
distribuido HDL
como. en una
Como poblacin
ya se coment de
en hombres
el Tema 1, al restar
a los valores de una variable su media y dividirlos por su desviacin tpica, la variable resultante
tiene adultos
media sigue una distribucin
0 y desviacin tpica normal X con media
1. El resultado = 1,10
anterior mmol/l
garantiza y desviacin
adems que la variable
estandarizada conserva la distribucin normal. Este procedimiento de estandarizacin de variables
normales = 0,30
tpicapermite mmol/l.
utilizar Utilizando
las tablas la estandarizacin
correspondientes de variables
a la distribucin normales,
normal el
estandarizada.
Ejemplo 3.12
porcentaje Supongamos
de hombres de estaque el colesterol
poblacin HDLniveles
que tienen en una de
poblacin de HDL
colesterol hombres adultos
sigue una distribucin normal X con media = 1,10 mmol/l y desviacin tpica = 0,30
mmol/l.
entre 0,90Utilizando la estandarizacin
y 1,20 mmol/l corresponde ade variables normales, el porcentaje de hombres de
esta poblacin que tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l corresponde a
0,90 1,10 X 1,10 1,20 1,10
P(0,90 X 1,20) = P
0,30 0,30 0,30
= P ( 0,67 Z 0,33) = P(Z 0,33) P(Z 0,67).
Utilizando la Tabla 3 del Apndice, se obtiene que P(Z 0,33) = F(0,33) = 0,6293 y P(Z
20
0,67) = F(0,67) = 1 F(0,67) = 1 0,7486 = 0,2514. As, resulta que P(0,90 X
1,20) = 0,6293 0,2514 = 0,3779; es decir, el 37,79% de los hombres de esta poblacin
tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l.
Para obtener el percentil 90 de la distribucin del colesterol HDL en esta poblacin, se
calcula primero el percentil 90 en la distribucin normal estandarizada, que corresponde
a z0,90 = 1,28, ya que F(1,28) 0,90. Para pasar este percentil estandarizado al
correspondiente percentil del colesterol HDL basta resolver z0,90 = (x0,90 )/. Por tanto,
el percentil 90 del colesterol HDL es x0,90 = + z0,90 = 1,10 + 1,280,30 = 1,484 mmol/l.
34 Pastor-Barriuso R.
extrema, de forma que n(1 - ) 5, la distribucin binomial con parmetros n y se
Distribuciones de probabilidad continuas
aproxima a una distribucin normal con media n y varianza n(1 - ).
Este
P(X =resultado
k) 0,2 es un caso particular del llamado teorema
0,2 central del lmite, que se
0,1 0,1
presentar ms adelante (vase Tema 4), y se utiliza para aproximar las probabilidades
0 0
binomiales mediante la distribucin normal. As, para una variable binomial X con
0 5 10 15 20 0 5 10 15 20
utilizar la aproximacin
0,1 normal, los lmites del intervalo
0,1 se amplan en 1/2 para incluir
0 0
las probabilidades de obtener exactamente k1 o k2 xitos. Este ajuste se conoce como
0 5 10 15 20 0 5 10 15 20
correccin por continuidad y se deriva
k del hecho de aproximar una distribucin
k
(c) (d)
binomial discreta mediante una distribucin normal continua.
Figura 3.6 Distribuciones binomiales con parmetros = 0,10 y n = 10 (a), 25 (b), 50 (c) y 100 (d). En el panel d,
se representa adems la funcin de densidad de una distribucin normal con media n = 1000,10 = 10
Ejemplo
y varianza n(1 3.13
) = La probabilidad
1000,100,90 = 9. de obtener entre 12 y 14 xitos sobre un total de
100 pruebas con una probabilidad individual de xito del 0,10 se obtiene a partir
Ejemplo 3.13 La probabilidad de obtener entre 12 y 14 xitos sobre un total de 100
pruebas
de con una binomial
la distribucin probabilidad
X conindividual
parmetrosden xito
= 100 del
y 0,10
= 0,10secomo
obtiene a partir de la
distribucin binomial X con parmetros n = 100 y = 0,10 como
14
100
P(12 X 14) =
k =12 k
0,10 k (1 0,10)100 k
P(k1 XAproximacin
3.3.3 k2) puede aproximarse mediante
normal a la el readebajo
distribucin la curva de la distribucin
Poisson
La distribucin normal tambin puede emplearse como aproximacin a la distribucin de Poisson
normal N(, ) entre k1 - 1/2 y k2 + 1/2.
cuando el nmero esperado de casos es moderadamente grande. En la Figura 3.7 se representan las
distribuciones de Poisson con parmetros = 1, 2,5, 5 y 10, donde puede apreciarse que, al aumentar
el nmero esperado de casos, las probabilidades
[Figura de Poisson tienden
3.7 aproximadamente aqu]a distribuirse de forma normal. En
trminos generales, una distribucin de Poisson con parmetro se aproxima a una distribucin
normal con media y varianza iguales a , cuando el nmero esperado de casos es moderadamente
elevado, tpicamente 10. As, para una variable aleatoria X que siga a una distribucin de Poisson
Ejemplo3.14
con parmetro moderadamente
Si el nmerogrande, la probabilidad
de casos P(k1 X a lo
de una enfermedad k2)largo
puededeaproximarse
un ao en mediante
el rea bajo la curva de la distribucin normal N(, ) entre k1 1/2 y k2 + 1/2.
una determinada poblacin sigue una distribucin de Poisson X de parmetro =
Ejemplo 3.14 Si el nmero de casos de una enfermedad a lo largo de un ao en una
determinada
10, poblacin
la probabilidad sigue
de tener 15 una
o msdistribucin
casos en undemismo aoXesde
Poisson parmetro = 10, la
exactamente
probabilidad de tener 15 o ms casos en un mismo ao es exactamente
e 10 10 k
P(X 15) = = 0,0835,
k 15 k!
que puede aproximarse mediante la distribucin normal Y ~ N(10, 10) como
que puede aproximarse mediante la distribucin normal Y ~ N(10, 10) como 23
Y 10 14,5 10
P(X 15) P(Y > 14,5) = P >
10 10
= P(Z > 1,42) = 1 (1,42) = 1 0,9222 = 0,0778.
Esta aproximacin corresponde al rea sombreada bajo la curva normal en la Figura 3.7(d).
Esta aproximacin corresponde al rea sombreada bajo la curva normal en la
0,4 0,4
Figura 3.7(d).
0,3 0,3
3.4 COMBINACIN
0,1 LINEAL DE VARIABLES ALEATORIAS
0,1
0 0
En este apartado se introducen algunas propiedades de la combinacin lineal de
0 5 10 15 20 0 5 10 15 20
(a)
variables aleatorias (discretas o continuas) (b) e
que sern tiles para la estimacin
0,4 0,4
inferencia estadstica.
0,3
En particular, se pretende derivar
0,3
el valor esperado y la varianza
de laP(X
combinacin
= k) 0,2 lineal c1X1 + ... + ckXk, donde c1, ...,
0,2ck son constantes arbitrarias y X1,
0,1 0,1
..., Xk son variables aleatorias con esperanzas 1, ..., k y varianzas 12 , ..., k2 . Como el
0 0
valor esperado de la
0 suma 5de variables
10 aleatorias
15 20es igual a0la suma
5 de sus10respectivas
15 20
k k
esperanzas, se tiene que
(c) (d)
Figura 3.7 Distribucionesk de Poisson con parmetros k = 1 (a), 2,5 (b), 5 (c) y 10 (d). En el panel d, se re-
de densidad
presenta adems la funcin k de una distribucin k
normal con media y varianza iguales a = 10.
E c i X i = E (c i X i ) = c i E ( X i ) = c i i ,
i =1 i =1 i =1 i =1
36 Pastor-Barriuso R.
i =1 1 i < j k
variable,
dondela covarianza
mientras
xsta que si
y depende ser negativa.
valores
las altos No
de obstante,
una deresulta
variable Xdese complicado
relacionan
Y. condeterminar
valores el de lacarece
bajos otra
que y son lasde desviaciones
unidades tpicas
de medida elas El coeficiente
variables. Una de correlacin
medida alternativa del de
unidades
donde xyytoma valores
lay son entre 1 y 1;tpicas
las desviaciones de tal de
forma Yque
Xlaemagnitud
. El xy = 1, las de
sicoeficiente variables presentan
correlacin una
carece
gradorelacin
de relacin
grado delineal
variable,
lineal entre
covarianza
asociacin
positiva dosser
variables
lineal
perfecta,entre xya=variables
negativa.
y si dos partir
Nolas
1, devariables
obstante,
aleatorias X ede
resulta la covarianza,
complicado
Y es
presentan el
una ya
determinar
coeficiente
relacin lineal el
de negativa
perfecta. Cuando xy = 0, se dice que las variables estn incorrelacionadas. Notar que si dos
de depende
que sta unidades
grado dede
correlacin
variables son yindependientes,
toma
las
relacin valores
unidades
lineal de
poblacional entre
entre
en
xy el-1sentido
medida
dos
, que yde
1;las
dede
variables
se define tal forma
variables.
aque
como partir
el deque
Una si xy = alternativa
la medida
magnitud
conocimiento 1,del
lasla
de variables
valor del
covarianza,
que toma yauna
grado presentan
de asociacin
que staunalineal entre
relacin
depende dos
lineal
de las variables
positiva
unidades medida deyXlas
aleatorias
de perfecta, sie Yvariables.
es=el-1,coeficiente
lasUna de presentan
variables
medida alternativa una
delR.
cov( X , Y ) xy Pastor-Barriuso 37
xy = ,
correlacin poblacional
grado xy, que
de asociacin lineal
se entre
definedos x aleatorias
variables
como y X e Y es el coeficiente de 25
xy
implica necesariamente
correlacin se discutirnindependencia, ya en
en mayor detalle queellas variables
Tema 10. podran presentar una
Variables aleatorias y distribuciones deprobabilidad
dependencia node
La varianza lineal
una aun cuando xy
combinacin = 0. de
lineal Este y otros aspectos
variables aleatoriassobre
quedaelentonces
coeficiente de
correlacin
variable sepor
discutirn
no aporta
determinada ningunaeninformacin
mayor detalle sobreen elelTema
valor10. de la otra variable, entonces estn
incorrelacionadas; pero que la incorrelacin no implica necesariamente independencia, ya que
La varianza
las variables de una
podran combinacin
presentar lineal de variables
una dependencia no lineal aleatorias queda entonces
aun cuando xy = 0. Este y otros
k
k
var de
aspectos sobre el coeficiente ci X i = c i i + 2 c i c j cov( X i , X j )
correlacin 2 se discutirn en mayor detalle en el Tema 10.
2
determinada por i =1 i =1 1 i < j k
La varianza de una combinacin
E(X1 - X2) lineal = 1k - de
2 variables
= 130 - 80 aleatorias
= 50 mm queda
Hg entonces determinada por
= k ci i + 2 ci c j i j ij ,
2 2
k
var
E(X
y, teniendo en cuenta
la -c iXX2)i ==
1 correlacin
i =1
i =1 2 2
1 - entre
i =1
+ 21-
ci2=i 130
ambas
i< jk
c=i c50
80variables,
1 i < j k
mmXlaHg
j cov( X j)
i ,varianza de la
k
donde ij es
presin delelen
coeficiente
pulso vendradedada
correlacin
por + 2Xi
c i2entre
= entre 2 y Xcj.cEn el caso de que las variables
y, teniendo cuenta la correlacin i ambas variables, ij , varianza de la
i j i j la
i =1 1 i < j k
sean mutuamente
presin del pulso independientes
vendra dada2por(bastara la condicin menos restrictiva de que
1 - X2) = 1 + 2 - 21212
2
var( X
donde ij es el coeficiente de correlacin entre Xi y Xj. En el caso de que las variables sean
donde ij esincorrelacionadas),
estuvieran
mutuamente el coeficiente de(bastara
independientes correlacin
la varianza de laXcombinacin
entre
la condicin i y Xj. En el caso
linealdeesque de
menos restrictiva las que
variables
estuvieran
22 22 2
incorrelacionadas),var( la1 combinacin
X1 - X2) =de20
la varianza 2 - 220
+ 10 110120,60es= 260 (mm Hg) ,
2lineal
sean mutuamente independientes (bastara la condicin menos restrictiva de que
2 k 2 2
k
desviacin tpica= 20
para una incorrelacionadas),
estuvieran
var
260
la
+=
10
varianza
i =1
2
c
16,1
X
-i 2mm=
i20
de
10
la
Hg.
ci =
0,60
combinacin
i =1
i .260 (mm Hg) ,
lineal es
2
Ejemplo
para 3.15 Supongamos
una desviacin tpica 260 que=kla 16,1 media
mm yk la desviacin tpica de la presin arterial
Lossistlica
resultados anteriores son vlidos para Hg.
cualquier
X1 en una determinada var ci X i son
poblacin = 1 =cvariable
130 mm aleatoria.
i i .
2 2
Hg y 1 = 20 Nomm obstante,
Hg, y la media
Ejemplo 3.15 Supongamos que la media y la desviacin tpica de la presin
y la desviacin tpica E(X1 - X2) = 1 - 2 = 130 - 80 = 502 mm Hg
de la presin i =arterial
1 diastlica
i =1 X son 2 = 80 mm Hg y 2 = 10 mm
si las variables
Los Hg. X ,
Supongamos..., X siguen
kadems una
que distribucin
elcoeficiente normal, puede
de- correlacin probarse
entre que la
resultados Hg la presin arterial sistlica
1 anteriores son vlidos para cualquier
arterial sistlica EX(X -X
1 1en una 1 - 2 = 130
2) =determinada 80variable
poblacin = 50sonmm aleatoria. No obstante,
1 = 130 mm Hg y 1 = 20
y diastlica de los sujetos de esta poblacin es 12 = 0,60. El valor esperado de la presin del
y, teniendo
combinacin linealenc1cuenta
X + ...lala+diferencia
correlacin
cuna
kXk tambin
entre ambas
seguir unavariables,
distribucinla varianza
normal de lala
con
si pulso,
las variablesdefinida
EjemploX1, ...,
3.15 como
X1kSupongamos
siguen queentre
distribucin la presin
la media normal, arterial
puede sistlica
y la desviacin tpica yde
probarse diastlica,
quelalapresinsera
mm Hg,en
y, teniendo y la media
cuenta la ycorrelacin
la desviacin entretpica
ambasde la presin arterial
variables, la varianza de la X2 son 2
diastlica
presin del pulso E (
vendraX 1 dada
X 1 2 = 130 80 = 50 mm Hg
2 ) =por
media y varianza
combinacin linealdescritas
c1X1 + X... anteriormente.
+ ckXk tambin Este resultado
seguir se utilizar en
una distribucin los temas
normal de
arterial sistlica 1 en una determinada poblacin son 1 = 130 mmcon Hg la
y 1 = 20
= 80del
presin
y, teniendomm Hgcuenta
pulso
en 2 =la10dada
yvendra mmpor Hg. Supongamos
correlacin entre ambasadems quelaelvarianza
variables, coeficiente de de
la presin del
inferencia.
y, teniendo
media ypulso
varianza en
vendra cuenta
dada
var(
descritas X por
- laX correlacin
) =
anteriormente. 2
+ entre
2
Este- 2 ambas
resultado variables,
se la
utilizar varianza
en los de
temas lade
mm Hg, y la media 1 y2 la desviacin
1 2 tpica 1 de
2 12 la presin arterial diastlica X2 son 2
correlacin entre la presin2 arterial 2 sistlica y diastlica de los sujetos de esta
presin del pulsovar(Xvendra
1 X2) = 1 + 2 2 1 2 12
dada 2por 2
inferencia. 22010adultas Hg)2, sigue
= 2 = 10== 20 Hg.+ 10 2 - mujeres 0,60 = 260 (mm
poblacin es 12 = 0,60.mm
Ejemplo 80 mm
3.16 Hg
El y
colesterol HDL
20 10Supongamos
+ en
El2valor las 22010de
esperado adems
0,60 deque
= 260
la presin delelpoblacin
una
(mm coeficiente
Hg)2, definida
pulso, de como
correlacinvar( 12 arterial
X1 -laX2presin
) = + 22 -sistlica
21 212ymmol/l
una Elentre
distribucin normal la Xpresin
con media = ydiastlica desera
los sujetos de1esta
11,25 y desviacin tpica =
para
Ejemplo
la una desviacin
3.16
diferencia entretpica
colesterol 1 HDL en== las
260arterial16,1
16,1 mm
mujeres Hg.
sistlica
mm adultas de una
diastlica, poblacin sigue
para una desviacin
poblacin lostpica
12 =hombres
yesennormal 0,60. 260
El 2 = 16,1
valor 2
2mm
esperado Hg.
de la variable
presin del Hg)2distribucin
pulso, definida 26
0,35
una
Los mmol/l,
distribucin
resultados anteriores X1=con
son 20 + 10para
adultos
media
vlidos -de
1=
20 10
dicha
1,25
cualquier0,60
mmol/l= 260
poblacin (mm
sigue
y desviacinuna
aleatoria. ,tpica 1 =comosi las
No obstante,
Los resultados
variables X1, ..., Xanteriores son vlidos para cualquier variable aleatoria. No obstante,
k siguen una distribucin normal, puede probarse que la combinacin lineal
normal
X1 0,35
c1Los + la diferencia
X
+ ckX
... mmol/l, con
tambin entre
media la =presin
seguir 1,10 una arterial
mmol/l ysistlica
distribucindesviacin y diastlica,
normal tpica sera
la2 =media
conaleatoria.0,30 mmol/l.
y varianza As,
resultados
para una 2 y en lostpica
k anteriores
desviacin hombres
2
son vlidos adultos
260 =para
16,1 de dicha
cualquier
mm Hg. poblacin
variable sigue una No obstante, descritas
distribucin
si las variables Este
anteriormente. X1, ...,resultado
Xk siguen seuna distribucin
utilizar en los temasnormal, de puede probarse que la
inferencia. 26
la diferencia
normal X con del colesterol
media = HDL
1,10 entre
mmol/l las
y mujeres
desviacin y los hombres
tpica = de esta
0,30 poblacin
mmol/l. As,
si las variables X1, ..., Xk siguen una distribucin normal, puede probarse que la
2 2 2
combinacin
LosEjemplo lineal
resultados 3.16 c1XEl
anteriores + cvlidos
1 +colesterol
...son kXk tambin
HDL paraenseguir
las mujeres
cualquier unavariable
distribucin
adultas de normal
una No
aleatoria. con
poblacin la sigue una
obstante,
se distribuir
ladistribucin segn
normal una normal
X conHDL mediacon media
1 =las1,25 mmol/l y desviacin tpica poblacin
combinacin diferencia
linealdel c1Xcolesterol
1 + ... 1+ ckX entre
k tambin mujeres
seguir una ydistribucin
los hombresnormalde estacon1 =
la0,35 mmol/l,
media y varianza descritas anteriormente. Este resultado
si las variables X1, ..., Xk siguen una distribucin normal, puede probarse que la X
y en los hombres adultos de dicha poblacin sigue se
una utilizar en
distribucin los temas
normal de2 con media
mediase y2varianza
= 1,10 mmol/l
distribuir segn
descritas y(desviacin
E una
X X2) = tpica
1 - normal
anteriormente. 1con
=2 =1,25
media
- 2Este 0,30 - mmol/l.
resultado
1,10 se As, mmol/l
la diferencia
utilizar
= 0,15 del colesterol
en los temas de HDL
inferencia.
entre las mujeres y los hombres de esta poblacin se
combinacin lineal c1X1 + ... + ckXk tambin seguir una distribucin normal con la distribuir segn una normal con media
inferencia. E(X1 X2 ) = 1 2 = 1,25 1,10 = 0,15 mmol/l
y varianza
media y varianza descritas anteriormente. Este resultado se utilizar en los temas de
Ejemplo
y varianza 3.16 El colesterol HDL en las mujeres adultas de una poblacin sigue
y varianza
Ejemplo
inferencia. 3.16var(ElXcolesterol
X2) = HDL 2 en2las mujeres 2 adultas
2 de una poblacin 2 sigue
1 + 2 = 0,35 + 0,30 = 0,213 (mmol/l) ,
una distribucin 1normal X1 con media 1 = 1,25 mmol/l y desviacin tpica 1 =
una distribucin normal X1 con
0,35 mmol/l, yElXencolesterol
var( X2)hombres
1 -los 22 = 0,35
media
= 12 + adultos 1 = 21,25 mmol/l
+ 0,302 y desviacin tpica
= 0,213sigue
(mmol/l)2
,
1 =
38 oEjemplo R. 3.16tpica
desviacin
Pastor-Barriuso 0,213 HDL
= 0,46 las de
enmmol/l, dicha
mujeres poblacin
adultas
ya que una
de unapara
los valores distribucin
poblacin sigue
distintos
0,35 mmol/l, y en los hombres adultos de dicha poblacin sigue una distribucin
normal
una X con media
distribucin 2X=1 1,10
normal con mmol/l1y =desviacin
media tpica 2 = 0,30 mmol/l.
tpica 1As,
osujetos son2 independientes
desviacin tpica 0,213 y,
= en mmol/l, 1,25
consecuencia,
0,46 mmol/l
ya que y desviacin
= 0.valores
12 los para distintos =
y varianza
Referencias
2 2 2
var(X1 - X2) = + = 0,35 + 0,30 = 0,213 (mmol/l) ,
2
1
2
2
Pastor-Barriuso R. 39
TEMA 4
PRINCIPIOS DE MUESTREO
Y ESTIMACIN
4.1INTRODUCCIN
Pastor-Barriuso R. 41
Principios de muestreo y estimacin
Estas cuestiones estn estrechamente relacionadas entre s. As, por ejemplo, al aumentar el
tamao muestral aumenta la exactitud en las estimaciones. La determinacin del tamao
muestral se tratar ms adelante (vase Tema 9). En el presente tema, se discuten los principales
tipos de muestreo probabilstico, as como la estimacin en el muestreo aleatorio simple. Antes
de ello, es conveniente revisar la definicin de algunos conceptos que se utilizan de forma
repetida a lo largo del captulo:
yy Poblacin o universo muestral es la coleccin de elementos o unidades de anlisis
acerca de los cuales se desea informacin. Con frecuencia, no se puede obtener informacin
de toda la poblacin, sino tan slo de unidades que cumplen una serie de caractersticas
(criterios de inclusin/exclusin). La poblacin marco es aquella sobre la que es posible
obtener informacin. La muestra se obtiene de la poblacin marco, por lo que debe
recordarse que las conclusiones extradas de la muestra son generalizables a la poblacin
marco y no necesariamente a la poblacin de inicio o universo.
yy Dentro del proceso de seleccin de una muestra, la poblacin suele dividirse en unidades
de muestreo, que deben constituir una particin de toda la poblacin. Estas unidades de
muestreo pueden coincidir con las unidades de anlisis, pero tambin pueden estar
constituidas por un conjunto de distintas unidades de anlisis.
Ejemplo 4.1 Supongamos que se desea estudiar la capacidad funcional de una poblacin
de ancianos institucionalizados. Para ello, se dispone de un lista de residencias, algunas
de las cuales se seleccionan para el estudio. Dentro de cada residencia seleccionada, se
eligen a su vez algunos ancianos que formarn parte de la muestra definitiva. En tal caso,
la seleccin de la muestra se habra realizado en dos etapas: las residencias constituiran
las unidades de muestreo de primera etapa y los ancianos (unidades de anlisis) seran las
unidades de muestreo de segunda etapa.
yy Muestreo probabilstico es aquel en que todas las unidades de la poblacin tienen una
probabilidad conocida y no nula de ser seleccionadas para la muestra. El muestreo
probabilstico minimiza la probabilidad de sesgos (si el tamao muestral no es muy
limitado, la muestra ser muy probablemente representativa de la poblacin) y permite
cuantificar el error cometido en las estimaciones como consecuencia de la variabilidad
aleatoria. La teora del muestreo se basa fundamentalmente en el muestreo probabilstico,
ya que otros tipos de muestreo (de conveniencia, por cuotas) estn sujetos a una mayor
probabilidad de sesgos y es ms difcil extrapolar los resultados a la poblacin.
yy En el muestreo con reposicin, cada vez que se elige un nuevo elemento muestral se
dispone de toda la poblacin para realizar la seleccin, mientras que en el muestreo sin
reposicin los elementos que ya han aparecido en la muestra no estn disponibles para ser
elegidos de nuevo. En el muestreo con reposicin, por tanto, una unidad poblacional puede
aparecer ms de una vez en la muestra. En la prctica, el muestreo suele realizarse sin
reposicin. No obstante, si el tamao de la poblacin es muy grande con respecto al tamao
muestral, la probabilidad de que un elemento de la poblacin sea elegido ms de una vez
en la muestra es tan pequea que ambos tipos de muestreo son similares.
42 Pastor-Barriuso R.
Principales tipos de muestreo probabilstico
Ejemplo 4.2 Supongamos que, en el ejemplo anterior, se dispone de una lista completa
de los N = 875 ancianos institucionalizados en dicha poblacin, de los cuales se desean
seleccionar n = 10. La seleccin de una muestra aleatoria simple de este tamao puede
realizarse a partir de la Tabla 4 del Apndice como sigue. Comenzando en cualquier lugar
de esta tabla y leyendo grupos de 3 dgitos en cualquier direccin, seleccionar los 10
primeros nmeros distintos entre 1 y 875. Por ejemplo, empezando en el primer dgito de
la tercera fila y de izquierda a derecha, estos nmeros son: 339, 117, 619, 68, 440, 788,
696, 716, 183 y 546. Notar que los nmeros 897 y 898 han sido descartados por ser
superiores a N = 875. La muestra aleatoria simple estara as constituida por aquellos
ancianos de la poblacin numerados previamente por estos 10 valores.
Pastor-Barriuso R. 43
Principios de muestreo y estimacin
44 Pastor-Barriuso R.
respectivamente, cuya suma ser igual al tamao total n de la muestra. La seleccin
Pastor-Barriuso R. 45
Principios de muestreo y estimacin
Ejemplo 4.5 Con cualquiera de las tcnicas de muestreo utilizadas en los ejemplos
anteriores, la muestra incluira muy probablemente ancianos institucionalizados en
mltiples residencias, con el consiguiente inconveniente en la recogida de informacin.
Supongamos que los N = 875 ancianos institucionalizados se encuentran distribuidos en
M = 15 residencias con los tamaos especificados en la Tabla 4.1. Para optimizar el
trabajo de campo, se decide extraer la muestra de tamao n = 10 a partir de m = 2
residencias (conglomerados) seleccionadas con probabilidades proporcionales a sus
tamaos.
46 Pastor-Barriuso R.
Principales tipos de muestreo probabilstico
1 50 50 1 50
2 30 80 51 80
3 35 115 81 115
4 70 185 116 185
5 55 240 186 240
6 45 285 241 285
7 125 410 286 410
8 80 490 411 490
9 20 510 491 510
10 100 610 511 610
11 65 675 611 675
12 35 710 676 710
13 40 750 711 750
14 75 825 751 825
15 50 875 826 875
En primer lugar, se asigna a cada residencia un rango de valores de amplitud igual a su tamao
(Tabla 4.1). A continuacin, se extrae una muestra sistemtica de tamao 2 entre 1 y 875: si el
nmero de arranque result ser 316, los valores muestreados son 316 y 753 (ver apartado de
muestreo sistemtico). As, como el valor 316 est incluido dentro del rango asignado a la residencia
7 y el valor 753 en el rango de la residencia 14, resultan seleccionadas las residencias 7 y 14.
Para completar la muestra de n = 10 ancianos, se extraen finalmente muestras aleatorias
simples de tamao n/m = 10/2 = 5 de las residencias 7 y 14. De los 125 ancianos institucionalizados
en la residencia 7, se seleccionaron los nmeros 74, 23, 104, 111 y 57; y de los 75 ancianos de
la residencia 14, los nmeros 38, 51, 25, 34 y 41. En conclusin, la muestra total estar
formada por los ancianos listados en los lugares 74, 23, 104, 111 y 57 de la residencia nmero7,
ms aquellos que ocupan los lugares 38, 51, 25, 34 y 41 de la residencia nmero 14.
Pastor-Barriuso R. 47
Principios de muestreo y estimacin
Una tcnica de muestreo en etapas que se emplea con cierta frecuencia es el muestreo
estratificado polietpico. Bajo esta tcnica, las unidades de primera etapa se clasifican en
distintos estratos y, dentro de cada estrato, se selecciona al menos una de sus unidades de
primera etapa. La muestra final resultar de aplicar sucesivas etapas de muestreo dentro de las
unidades de primera etapa seleccionadas en cada estrato. Este muestreo permite obtener una
mayor representatividad muestral al seleccionar unidades dentro de todos los estratos.
Ejemplo 4.7 Supongamos que, de las 15 residencias listadas en la Tabla 4.1, las
residencias 4, 7, 8, 10 y 14 son pblicas, con un total de 450 ancianos (51,4%), y las
restantes 10 residencias son privadas, con un total de 425 ancianos (48,6%). En el Ejemplo
4.5, las 2 residencias seleccionadas (7 y 14) fueron pblicas; es decir, la muestra final no
incluy a ningn anciano institucionalizado en residencias privadas. Para garantizar la
representatividad de los ancianos institucionalizados tanto en residencias pblicas como
privadas, bastara con seleccionar una residencia de cada uno de estos estratos. En la
Tabla 4.2, se muestran las 15 residencias reorganizadas segn su carcter pblico o
privado. Para las residencias pblicas, se escogi aleatoriamente el nmero 20 entre 1 y
450, resultando as seleccionada la residencia 4, cuyo rango incluye dicho nmero. Para
las residencias privadas, se extrajo aleatoriamente el nmero 326 entre 1 y 425, resultando
seleccionada la residencia 12. A continuacin, se procedera a escoger aleatoriamente 5
ancianos de estas 2 residencias. Notar que, como ambos estratos tienen aproximadamente
el mismo tamao, la muestra resultante sera equiprobabilstica.
Apuntar, por ltimo, que en la mayora de los muestreos polietpicos el error muestral es
sensiblemente superior al de un muestreo aleatorio simple, debido principalmente a la correlacin
entre los elementos que integran las unidades de primera etapa.
48 Pastor-Barriuso R.
puede realizarse con mltiples propsitos, nos centraremos aqu en la estimacin de una
Estimacin en el muestreo aleatorio simple
media y de una proporcin poblacional.
4.3 ESTIMACIN
4.3.1 EN EL de
Estimacin puntual MUESTREO
una media ALEATORIO
poblacional SIMPLE
variable. variable.
1.2.1 Media aritmtica
A partir de esta poblacin, se obtienen 1000 muestras aleatorias simples de tamao n = 10
y, en cada1.2.1
una Media
deLa ellas, se calcula
aritmtica
media la media
aritmtica, denotada por 1.2.1
muestral seMedia
x ,del colesterol
define comoaritmtica
HDL. El histograma
la suma de cada uno de los
de estas medias muestrales se representa en la Figura 4.1(a), que constituye una
aproximacin a lavalores
La media distribucin
aritmtica, muestral
denotada
muestrales por
dividida ., Como
de xpor Lapuede
seeldefinemedia
nmero como de aritmtica,
apreciarse,
la suma de
observaciones denotada
los unopor
valores
cada x Si
de los
realizadas. , sedenotamos
define com
difieren entre las distintas muestras, pero su distribucin conjunta est centrada alrededor
de la verdadera
valoresmedia
por n elpoblacional
muestrales tamao por
= 1,09
muestral
dividida mmol/l valores
por xi elde
elynmero (lnea
valor muestrales
vertical
observado
observaciones dividida
en realizadas.
trazo
para por el nmero
eldiscontinuo).
sujeto i-simo,
Si denotamos i =de1,observ
..., n,
En las Figuras 4.1(b) y (c) se presentan las distribuciones muestrales de la mediana y la
media geomtrica
por n el lapara estas
media
tamao mismas
vendra
muestral y muestras.
dada Ambas
xi el valor
porpor por n el tamao
distribuciones
observado muestral
para elmuestrales por xii el
y presentan
sujeto i-simo, = 1,valor observado
..., n,
un claro sesgo respecto a la media poblacional, tendiendo a infraestimar su verdadero
valor de 1,09 mmol/l.
la media vendra dada por la media vendra dada por
1 n x + x + ... + x n
Notar que el inters de este ejemplo es meramente x= x i = 1 ya2 que, en la
acadmico . prctica, se
n i =1 n
desconoce la verdadera media poblacional1y nse dispone x + de x 2 una
+ ... nica
+ x n muestra. 1 n x + x2 +
x = xi = 1 . x = xi = 1
n n n i =1 n
La media es la medida dei =1tendencia central ms utilizada y de ms fcil
25
interpretacin.
La media Corresponde
es la medida de tendencia centralLa
al centro demedia es la yde
gravedad
ms utilizada medida
delos defcil
datos
ms tendencia centralSums u
de la muestra.
20
15 interpretacin. Corresponde alextremos
centro
principal
interpretacin. limitacin es
Corresponde al que estde
centro muy influenciada
gravedad de lospor los valores
datos de la muestra. Sude
y,gravedad
en este
10
5 caso,
principal puede no
limitacin ser un
es que estfiel
muyreflejo deprincipal
porlimitacin
la tendencia
influenciada loscentralesde
valores que est muy
y, eninfluenciada
la distribucin.
extremos este po
0
caso, puede
caso, puede no ser un fiel reflejo de la tendencia centralno
deser un fiel reflejo de la tendencia cen
la distribucin.
0,7 Ejemplo
0,8 0,9
1.4 En 1este y1,1
en los1,2 1,3 ejemplos
sucesivos 1,4 1,5
sobre estimadores muestrales, s
Frecuencia relativa (%) en muestras de tamao 10
25
20
15
10
5
0
50 Pastor-Barriuso R.
centralestndar
4.3.2 Error de la muestra
de la sirven
media tanto para resumir los resultados observados como para
muestral
realizar
Dado que inferencias
la media acerca
muestral es unde los parmetros
estimador poblacionales
insesgado de la media correspondientes.
poblacional,
Estimacin todas A simple
en el muestreo aleatorio
continuacin
las posibles se describen
medias muestrales los principales
estarn distribuidas estimadores
alrededor de de la la tendencia
media poblacional. central de una
4.3.2 Error estndar de la media muestral [Figura 4.2 aproximadamente aqu]
variable.
No obstante, queda por determinar el grado de variabilidad o dispersin de estas medias
Dado que la media muestral es un estimador insesgado de la[Figura media4.2 aproximadamente
poblacional, todas las aqu]
muestrales
posibles medias alrededor
1.2.1 Media muestrales de
aritmticaestarn distribuidas alrededor de la media poblacional. No obstante, muestras, las
. La Aun
dispersin cuando de en
las la
mediasprctica carece
muestrales de x sentido
de tamao tomar n repetidas
queda por determinar el grado de variabilidad o dispersin de estas medias muestrales alrededor
de vendr determinada
. La dispersin
La de las
media aritmtica, pormedias propiedades
la varianza Aun
muestrales
denotada depor su de
cuando laseen
distribucin
x ,de distribucin
tamao la prctica
define muestral,
n vendr
como muestral
carece
la sumaquede
determinadade
es xcada
desentido
igual pueden tomar
apor
uno utilizarse
lade repetidas
varianza
los para cuantifica
muestras, las
de su distribucin muestral, que es igual a
valores muestrales dividida propiedades
cometido por en la de
el nmero la distribucin
estimacin a partirmuestral
de observaciones de una de x pueden
nica
realizadas. muestra utilizarse
Si denotamos de tamao para cuantifi
n. La desvi
1 n 1 n 2 ,
var( x ) = var x i = 2 var( x i ) =
1.2 MEDIDAS DE TENDENCIA n de n observado nde
por n el tamaoCENTRAL muestral estndar
cometido
y por ix=1 el
i
la distribucin
envalor
la estimacin i =1 muestral
a partir
para el x esnica
desujeto
una i-simo, muestrai = 1,de ...,tamao
n, n. La des
[Figura 4.2 aproximadamente 1.2 MEDIDAS aqu] DE TENDENCIA CENTRAL
dado que los distintos valores de la muestra son independientes (vase Apartado 3.4). Puede
la que
media vendra dadadepor estndar de de la es distribucin muestral de x es
Las medidas de
dadotendencia
observarse que loscentral
la informan
variabilidad
distintos valores acerca
delaslamedias
muestra cul sonelindependientes
muestrales valorser ms representativo
tanto mayor Apartado
(vase cuanto mayor sea la
3.4).
Las medidasSE( x )
de var( x ) =
=tendencia central ,
varianza poblacional de la variable a estudio. Por otra parte, esta variabilidad n informan acerca de c
disminuye
2
Aun cuando en la prctica carece de sentido tomar repetidas muestras, las
de una determinada
Puede variable
conforme aumentao, el
observarse dicho
que lade
tamao forma
n de equivalente,
variabilidad la muestra;
de1lasn medias estos
es decir, estimadores
+ xal
x1 muestrales aumentar xindican
ser el tamao
tanto mayormuestral,cuanto las
2 + ... +SE( n x) = var( x ) =o, dicho , de forma equival
medias de las distintas muestras estarn
propiedades de la distribucin muestral nde x pueden utilizarse
1.2 MEDIDAS DE
x =
ms
TENDENCIA
x
prximasi = de
a la
CENTRAL
una determinada
verdadera para . media variable
cuantificarpoblacional. el
n de la distancia de las distintas medias muestrale errorn
alrededor de qumayor valorseaselaagrupan datosque
varianzalospoblacional facilita
2 deun
observados. i =1valor promedio
laLas variablemedidas de tendencia
a estudio. Por otra parte, esta
cometido
Ejemplo en4.9
la estimacin
En las Figuras a partir de una
4.2(a), (b)nicay (c)muestra alrededor
se presentan de tamao de medias
las qu n. valor
Ladel se
desviacinagrupan HDL
colesterol los datos observado
central de la muestra
variabilidad
en 1000sirven tanto
Las es
La disminuye
media
muestras para
medidas
la resumir
medida
conforme
aleatorias tamao
que los
de tendencia
de n
facilita respecto
resultados
tendencia
aumenta
simples un
central
de de
valor
central
el tamao
tamao la
observados medida
promedio
informannms poblacional.
comode
acerca
nde= utilizada
la10, la
25 de
muestra; distancia
para
yy cul
de
es ms
100, Esta de valor msSE(
cantidad
las
esrespectivamente,
decir, el
fcil
al distintas xmedias
) se conoce
representativo c
muestra
estndar
obtenidasde laadistribucin
partir de losmuestral [Figurade4.2
controles x aproximadamente
del esestudio EURAMIC. central de aqu] laEn muestraestas sirven grficastanto se puedepara resumir los resu
realizar inferencias
aumentar acerca de
interpretacin.
apreciar el tamao los parmetros
que,deindependientemente
una determinada
Corresponde
muestral, tamao
error estndar
poblacionales
las medias n
variable
al centro respecto
deldetamao de la
o,dedicho
las de
gravedad
distintas la
media
correspondientes. medida
de forma
muestral, muestral
de las
muestras poblacional.
A y
equivalente,
los datospermite
estarn
medias dems Esta
estos
la cantidad
cuantificar
estimadores
muestra.
prximas
muestrales Suel SE(
estn grado x ) de
se incertid
indican conoce
centradas alrededor de la media poblacional de 1,09 realizar
mmol/l. inferencias
Sin embargo, acercaalde los parmetros
aumentar el poblacion
continuacin se describen los principales
alrededor la error
estimacin
estimadores
deesqu valor estndar
se de dela
agrupan una de
tendencia la
media
los
media a muestral
partir
central de
de y
una
una permite
muestra cuantificar
de tamao n.
tendencia de incer
el grado
Aun
a latamaoprincipal
cuando
verdadera limitacin
en
media
muestral, lase prctica
poblacional.
observa que SE(
carece
una est xde)muy=sentido
disminucin influenciada
var( xtomar = datos
)substancial ,porobservados.
repetidas los
de la valores
muestras,
variabilidad Las lasmedidas
extremos de las y, en deeste
medias
muestrales. As, por ejemplo, la proporcin de muestras n con unse
continuacin niveldescribenmedio los principales estimadores
de colesterol
variable. caso,
propiedades
HDL entre puede central
de1,03 no de un
ser
la distribucin
y 1,15 la la
muestraEn
fielmuestral
mmol/l la
reflejo
es del prctica,
estimacin
sirven de latanto
de
48,7% de para
una
x tendencia
pueden
para para poder
media=resumircalcular
central
n utilizarse a
10, 69,1%partir
los
de
para el
de error
una
resultados
lapara estndar,
muestra
n = 25observados
distribucin.
cuantificar y el de estamao
error
95,4% comon.para
necesario
para obtener
=Ejemplo
100. un 4.9
quenfacilita valor Enpromedio
las Figuras de En4.2(a),
la distancia (b) y de (c)las se variable.
presentanmedias
distintas las medias muestrales del colesterolde es
cometido en la realizar
estimacin a previamente
inferencias
partir la
acerca
de una prctica,
una
de
nica los para
estimacin
parmetros
muestra poder de
de calcular
la varianza
poblacionales
tamao n.el Laerror
poblacionalestndar,
correspondientes.
desviacin 2 denecesario
la variable
A obtener
a estu
1.2.1 Media aritmtica
HDL enEjemplo 1.4 En este y en los sucesivos ejemplos nSE(=sobre estimadores muestrales, se
Aun
tamao cuando en1000
n respecto demuestras
la prctica la medida aleatorias
carece de sentido
poblacional. simples tomar
Esta decantidad
tamao
repetidas
1.2.1 Media 10,
muestras, 25
x )aritmtica
se ylas
conoce 100, propiedades
como de la
previamente una estimacin de la varianza poblacional 2 poblacional
de la variable 2a e
estndar
distribucin
La media aritmtica, de la continuacin
distribucin
muestralpor
denotada de x ,pueden que
se
muestral
se define este
describen
utilizarsede
como laparmetro
x los
paraes
suma es
principales
cuantificar tpicamente
de cada el estimadores
uno error
de los cometido en la estimacin a de una pu
desconocido. de la La
tendencia varianza central
1.2 MEDIDAS DEnica utilizarn los
TENDENCIA valores adel colesterol HDL obtenidos en losEURAMIC. 10 primerosEn sujetos del
partir
error respectivamente,
de una
estndarmuestra de la media de CENTRAL
obtenidas
tamao
muestral n.partir
La de los controles
y desviacin
permite estndar
cuantificarLa media del el estudio
de laaritmtica,
gradodistribucin muestralpor
denotada
de incertidumbre deenx ,esse define como2
variable.
valores muestrales dividida por el nmero de observaciones realizadas. que
estimarse este a parmetro
partir de es
la tpicamente
propia muestra
Si denotamos desconocido.
mediante la La varianza
varianza poblacional
muestral
estudio se European Study on Antioxidants, Myocardial Infarction and Cancer of
Las medidas deestas grficas
tendencia
la estimacin de central
una media puede
informana apreciar
SE(
partir x )que,
acerca
de = de
una independientemente
culxes
var(
muestra ) =el valores
de valor , ms
tamao n.del
muestrales tamao
representativo divididamuestral, por ellasnmero de observac
estimarse a partir de lai-simo, n
propia muestra mediante la varianza muestral
por n el tamao muestral y por xi elMedia
1.2.1 valor observado
aritmtica para el sujeto i 2= 1, ..., 1 n, ny controles
de una que medias
facilita
determinada un
the Breast
muestrales
valor para
variable
En la prctica, promedio
o, dicho
(EURAMIC),
estn
poderde de centradas
la distancia
forma
calcular
unalrededor
estudio multicntrico
el errordeestndar,
equivalente, las estosde la
pores
distintas media s
n necesario
elmedias
tamao
estimadores
de casos
poblacional
=
muestral
muestrales
indican
obtener
n 1 i =1
(de 1,09
x i y por
de
2 realizado
x )tamao
x. i el valor n observado pa
la media vendra quedada
respecto de por
facilitala medida
un valor
La media poblacional.
promedio aritmtica, deEsta cantidadde
la distancia
denotada SE(
por lasx )distintas
, se conoce
define como
medias
como la1error
sumaestndar
muestrales n de de cada2 uno de lade los
alrededor de
media qummol/l.
valor
muestral
entre
y Sin
se
1991
embargo,
agrupan
permite
y 1992
los al
datos
cuantificar
en ocho pases
aumentar
observados.
el grado
previamente una estimacin de la varianza poblacional de la variable
el tamao
de
Europeos
Las muestral,
la
medidas
incertidumbre
e2Israel
media dese
en
para
observa
s
vendra
2
=
tendencia
la
evaluar
dada
estimacin una por
n 1ai =estudio,
(el
xde
i
efecto
x
una )
dado .de los
media
a partir
tamao de una muestra
n respecto dedenlamuestrales
valores tamao
medida Puede probarsepor
n.poblacional.
dividida que
Esta el lanmero
varianza
cantidad de muestral
SE( x ) se conoce
observaciones es un 1estimador como insesgado
realizadas. Si denotamos de la varia
disminucin 1
substancial x1de + xla2 variabilidad
+ ... + x n de las medias muestrales. As, por
central de que
la muestra
En laeste
sirven
parmetro
prctica, xpara tanto
= espoder
nnlael
para
tpicamente resumir
x i =calculardesconocido.
el
los resultados
error estndar,
nprobarse
. La varianza observados
es necesario
como
poblacional para
obtener
2
puede 1 una
2 previamente
n 5x + x + ...
error
estimacin estndar por
de la varianza
ejemplo, la
de i=
proporcin
1 tamao
media poblacional;
Puede
muestral
muestral
poblacionalde muestras
y
2y permite
de con
espor decir,
que
la variable
un
x el el
la
cuantificar
i
nivel
valor
varianza
valoramedio
esperado
observado
estudio, el muestral
grado
de dado para
de
colesterol
ses
que este
sobre
elun sujeto
incertidumbre
HDL
todas
estimador
xi-simo,
parmetro
entre
=
n
en
sobre
es
todas
insesgado
xi = 1 las
de posib
i 1, ..., n,
= 2la var
n
realizar inferencias acerca
a partirde
estimarse desconocido. delos parmetros
la propia muestra poblacionales
mediante lacorrespondientes.
varianza muestralA i =1
tpicamente La varianza poblacional 2 2 puede estimarse a partir
2
2 de la propia
eslalaestimacin dela media vendra poblacional;
amuestrasdada es
por es) decir,
E(smuestra = de .69,1% el tamao
El valor
error esperado
estndar
n. de dela s media
sobre todas muestral sobre se todas
estimalas pos
enton
La media muestra medida
mediante y de launa
tendencia media
varianza central partir
esmuestral msdeutilizadauna
para nde=yla
de
ms fcil n = 25 y 95,4% para n =
continuacin se1,03 describen 1,15 mmol/l
los principales del estimadores
48,7% 10, tendencia para
central de una
La media es la medida de tendencia central ms uti
En la prctica, para poder muestras
calcular el 1es
error E(s
n 2
) =
estndar, 2
. 2El error estndar de la media muestral se estima ento
interpretacin. Corresponde al centro de gravedad s/ ns . As,
2
= de una losvez datos ndex ) laes
( x iseleccionada necesario
x1 +una
. muestra. x 2 +Su
obtener
... + x n concreta, la media muestral x fa
muestra
variable. 100. n 1 i =x1 = 1 interpretacin. xi = Corresponde . al centro de gravedad d
previamente una estimacin de la varianza poblacional n i =1 2 de la variable n a estudio, dado
principal limitacin es que que
Puede probarse est lamuy influenciada
varianza una s/ estimacin
muestral n por
. As,
eslos ununa valoresvez seleccionada
insesgada
estimador extremosde la media
insesgado y, en una
deeste muestra
poblacional
la varianza concreta,
ypoblacional;
el error la de media muestral
dicha estimacix
1.2.1 Media
es decir,
Puedearitmtica
elprobarse
valor esperadoque la varianzade s sobre
2
todas las
muestral es posibles
un estimador principal
muestras insesgadolimitacin
es E(s de 2 es
) =la varianza
2 que est
. 2El error estndarmuy 18 influenciada por l
caso, puededenoque
laser este
media parmetro
un fiel reflejoLa
muestral esmedia
de
se tpicamente
la tendencia
estima es una desconocido.
central
estimacin
la medida
entonces
determinado como de
pordetendencia
la La n ..varianza
distribucin.
s/insesgada As, unalapoblacional
de
central media
msseleccionada
vez ypuede
poblacional
utilizada deuna y elmuestra
ms error
fcil de dicha estima
La media aritmtica,
concreta, la media
poblacional; denotadamuestral
es decir, por x ,facilitar
el valor seesperado
defineuna como 2
s lasobre
deestimacin sumatodas caso,
de cada
insesgada puede
sobre uno de no
de
todas ser
la los mediaun
las posibles fiel reflejo
poblacional deylaeltendencia centra
estimarse
error de dichaa estimacin
partir de la vendr
interpretacin. propia muestraCorresponde
determinado mediante s/la varianza
al centro
por n .. de gravedad muestralde los datos de la muestra. Su
Ejemplo 1.4
valores muestrales En este y en los sucesivos ejemplos sobre estimadores muestrales, se
muestras dividida
es E(s ) =por
2
el. El
2 nmero de observaciones
error estndar de la media realizadas.
muestralSi sedenotamos
estima entonces como
principal limitacin es que est Ejemplo
muy influenciada por los valores 1.4 En este y extremos
en los sucesivos y, en este ejemplos
1 n
utilizarn
por n el tamaolos valores dely colesterol
s/ n . muestral
As, una vez xi el valor
porseleccionada HDLobservado
sobtenidos
2
=
una muestra
n 1
en (los
para concreta,
10x )primeros
xeli sujeto 2
. i-simo,
la utilizarn
sujetos
media muestral i = 1,del
los de
..., n,
valores
Pastor-Barriuso R. 51
x facilitar
del colesterol HDL obtenid
caso, puede no ser un fiel reflejo de la tendencia central i =1 la distribucin.
laestudio European
media vendra dadaStudypor on Antioxidants, Myocardial Infarction and Cancer of
una estimacin insesgada de la media poblacional y el error de dicha
estudio estimacin
European Study vendron Antioxidants, Myoc
Puede probarse que la varianza muestral es un estimador insesgado de la varianza
Principios de muestreo y estimacin
30
20
10
30
Frecuencia relativa (%)
20
10
30
20
10
0,8 de los
Ejemplo 4.10 A partir 0,9controles
1 del estudio
1,1 1,2 1,3
EURAMIC, 1,4
se ha obtenido una
(c) Media del colesterol HDL (mmol/l) en muestras de tamao 100
Ejemplo 4.10 A partir
muestra aleatoria de de
simple lostamao
controles
n =del
10,estudio
cuyos EURAMIC, se ha obtenido
valores de colesterol una
HDL son
Figura 4.2 Distribucin muestral de la media del colesterol HDL en 1000 muestras aleatorias
Figura 4.2 simples de
n = 10 (a),
tamaomuestra 25 (b)
aleatoria y 100 (c)
simple obtenidas
de tamaoa partir
n = del
10, grupo
cuyos control
valores del
deestudio EURAMIC.
colesterol HDL La
sonlnea ver-
tical en 1,45, 1,32, 1,74,corresponde
trazo discontinuo 0,82, 0,92, a1,46, 1,10,
la media 0,88, 0,97
poblacional =y 1,09
0,63mmol/l
mmol/l. La mediaHDL.
de colesterol
1,45, 1,32,es1,74, 0,82, 0,92, 1,46, 1,10, 0,88, 0,97 y 0,63 mmol/l. La media
muestral
Ejemplo 4.10 A partir de los controles del estudio EURAMIC, se ha obtenido una
muestra
muestralaleatoria
es simple de tamao n = 10, cuyos valores de colesterol HDL son 1,45,
1,32, 1,74, 0,82, 0,92,11,46, 10
1,10, 1,45 + 1,32
0,88, 0,97+ ... + 0,63
y 0,63 mmol/l. La media muestral es
x = xi = = 1,13 mmol/l
10 10i =1 10
1 1,45 + 1,32 + ... + 0,63
x = xi = = 1,13 mmol/l
10 i =1 10
y la varianza muestral
y la varianza muestral
y la varianza muestral
1 n
s2 = ( xi x ) 2
n 1 in=1
1
s 2 = (1,45 2
x i )2 x+)...
1(,13 + (0,63 1,13) 2
= n 1 i =1 = 0,12 (mmol/l) 2 .
9
(1,45 1,13) 2 + ... + (0,63 1,13) 2
= = 0,12 (mmol/l) 2 .
9
52
Por tanto, la estimacin puntual de la media poblacional del colesterol HDL es x
Pastor-Barriuso R.
Por tanto,
= 1,13 la estimacin
mmol/l y su errorpuntual la media poblacional del colesterol HDL es x
dees
estndar
(1,45 1,13) 2 +alrededor
... + (0,63 de 13) 2valor se agrupan 2los datos observados. Las medidas d
1,qu
= = 0,12 (mmol/l) .
muestra sirven tanto para resumir los resultados observados 9 como para variable.
central de laDE
1.2 MEDIDAS muestra sirven
TENDENCIA tanto para
CENTRAL
Estimacin en resumir
el muestreo los simple
aleatorio resultados observad
ncias acerca de los parmetros
Por tanto,poblacionales
la estimacin correspondientes.
puntual de la media A 1.2.1 Mediadel
poblacional colesterol HDL es x
aritmtica
realizar inferencias acerca de los parmetros poblacionales correspond
Las medidas de tendencia central informan acerca de cul es el valor ms r
e describen los principales
Por
= 1,13estimadores
tanto,
mmol/l y sude
la estimacinla tendencia
error puntual central
estndardees de La
la media unamedia aritmtica,
poblacional del colesterol
denotadaHDLpor es x ,=se1,13
define como la su
mmol/l y su error estndar esde una determinadasevariable
continuacin describen los principales estimadores de la tendencia
o, dicho de forma equivalente, estos estimador
valores muestrales dividida por el nmero de observacione
s 0,35
) = variable.
SE( xalrededor = de qu=valor
0,11 se
mmol/l.
agrupan los datos observados. Las medidas de ten
1.2 MEDIDAS
ritmtica DE TENDENCIA CENTRAL n 10 por n el tamao muestral y por xi el valor observado para e
Notar que, en este ejemplo ilustrativo, central1.2.1 Media
de el
la error
muestra aritmtica
de sirven
la estimacin
tanto para muestral
resumir es los
exactamente
resultados observados co
mtica,
Lasdenotada
medidas por xNotar
,se
de tendencia define
=que,
1,13 como
central 1,09 la=
informansuma
0,04 de cada
mmol/l.
acerca de uno
En
cul de
la losla
prctica,
es el media
valor sin vendra
embargo,
ms
en este ejemplo ilustrativo, el error de la estimacin muestral es dada
el
representativo por
error exacto no puede
calcularse ya que es desconocido Lay,inferencias
realizar media aritmtica,
en consecuencia, acercase denotada
deemplea SE( x ), como
por
los parmetros sepoblacionales
define como la
estimacin suma de cada
correspondiente
ralesdedividida por el nmero
una determinada del de
error
variable observaciones
promedio
o, dicho que
de realizadas.
cabra
forma esperar Si
equivalente, denotamos
en similares
estos circunstancias
estimadores
exactamente x - = 1,13 - 1,09 = 0,04 mmol/l. En la prctica, sin embargo, el1 indican (esto es, en todas
n lasx1 + x 2 + ... + x n
posibles muestras del mismocontinuacin tamaovalores muestrales
obtenidas de la dividida
se describen poblacin por
deelreferencia).
los principales nmero
estimadores
x =de observaciones
n i =1
xde
i = realizadas
la tendencia
n
centr
o muestral
alrededory por xi elvalor
de qu valor observado
se agrupan para
los el
datos sujeto i-simo,
observados. i
Las = 1, ...,
medidas n,
error exacto no puede calcularse ya que es desconocido y, en consecuencia, sede tendencia
por n el tamao muestral y por xi el valor observado para el sujeto i-s
variable.
ra dada porde la4.3.3
central muestra Teorema
sirven central
tanto para del lmite los resultados observados como para
resumir
emplea SE( x ) como estimacin del error promedio La media es la medida
que cabra esperar de en tendencia central ms utilizad
la media vendra dada por
En los apartados anteriores se ha probado 1.2.1 que,
Media paraaritmtica
cualquier variable aleatoria, el valor esperado y
realizar inferencias n acerca de
similares
la varianza los parmetros
circunstancias
dex1la+distribucin (estopoblacionales
es, en todas
x 2 + ... + x n de las medias muestrales correspondientes.
las interpretacin.
posibles
son muestras
y 2/n, A respectivamente.
Corresponde
del mismo al tamao
centro
No se de hagravedad de los
1
= x i sin
xanalizado, = embargo, el aspecto . global de la distribucin muestral de . Retomando
ndescriben n La media aritmtica, denotada por x , 1se define xcomo n
1 el x 2la+suma
+ ejemplo ... + xde
n cada uno
continuacin se i =1
obtenidas los
deprincipales
la poblacin estimadores
de de
referencia). la tendencia
principal
de la distribucin muestral de las medias de colesterol HDL (Figura 4.2), puede central
limitacinde xuna=es
que
n i =1
xest= muy
observarse
i influenciada
quen la . por los v
forma de esta distribucin tiende a valores aproximarse a una dividida
muestrales distribucin por normal
el nmero conforme aumenta el realizadas. Si d
de observaciones
s la variable.
medida de tendencia central ms utilizada y de ms fcil caso, puede no
tamao muestral. Esta caracterstica puede resultar intuitivamente lgica, ya que la distribucin ser un fiel reflejo de la tendencia central de
subyacente
4.3.3 Teorema del colesterol
central del HDL en lapor
lmite n el La
poblacin mediamuestral
presenta
tamao esunla aspecto
medida de tendencia
y poraproximadamente
xi el valor observadocentral ms
normal utilizada
para(ver el sujetoyi-simo,
de ms
Corresponde al centro
1.2.1 MediaFigura
aritmtica de gravedad de los datos de la muestra. Su
1.2 del Tema 1). Dado que muchas de las variables utilizadas en la prctica no presentan una
interpretacin. Ejemplo 1.4alEn este yde engravedad
los sucesivoslos ejemplos sob
distribucin
En los apartados poblacional
anteriores normal, cabra
la media
se ha probado preguntarse
vendra
que, para dada siCorresponde
esta variable centro
por tendencia
cualquier a la normalidad
aleatoria, el valor de de la datos de la
acin es que est muy
La media aritmtica,
distribucininfluenciada
denotada
muestralporpor los valores
de x ,sesemantiene extremos
define como y,
para cualquier en
la suma de este
tipo
cadade uno
variable
de los aleatoria.
principal limitacin utilizarn
es que los
est valores 2 del colesterol
muy influenciada porHDL obtenidos
los valores e
extre
esperado y la varianza de la distribucin de las medias muestrales son n y /n,
o servalores
un fiel muestrales
reflejo deEjemplo
ladividida
tendencia 1 x + x + ... + x
porcentral
4.11 elEn la de
nmero ladedistribucin.
Figura observaciones
4.3 se muestra realizadas.
la distribucin xde=los
Si denotamos x i = de
niveles 1 2
b-caroteno n
en .
caso, puede no estudio
ser un fiel European
n
reflejo de Study
la on
tendencia nAntioxidants, Myocardia
tejido adiposo
respectivamente. Noen se el
hagrupo control
analizado, sindel estudioelEURAMIC,
embargo, aspecto global que de
presenta
i =1 una distribucin de la distribuc
la distribucin
central
por n el tamao muestral
marcadamente y por xiasimtrica
el valor observado para elde
con una media sujeto i-simo,
= 0,37 i =Las
1, ..., n,
Figuras 4.4(a),
1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se the mg/g.
Breast (EURAMIC), un (b)
estudio
20
y (c)multicntrico de
La media es la medida
Ejemplo 1.4 Endeeste tendencia
y en loscentral
sucesivos msejemplos
utilizadasobre y de ms fcil
estimado
la media vendra dada por 250
n los valores del colesterol HDL obtenidos en los 10 primeros sujetos del entre 1991 y 1992 en ocho pases Europeos e Israel p
interpretacin. Corresponde
utilizarn los valores al centro de gravedad
del colesterol de los datos
HDL obtenidos en de
losla10mue
pri
European Study on Antioxidants, 1 n
Myocardial xInfarction
1 + x 2 + ...and
+ x nCancer of
200 x = x i = principal .
limitacin es que estStudy muy on influenciada por Myocardial
los valores extremos
n i =1 n estudio European Antioxidants, Infarction
st (EURAMIC), un estudio multicntrico de casos y controles realizado
caso, puedethe noBreast
ser un fiel reflejo de launtendencia central de la distribucin.
Frecuencia absoluta
estudio
caso, puede no ser un fiel50reflejo de la tendencia central European
de la Study on Antioxidants, Myocardial Infarction and
distribucin.
-caroteno (g/g)
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
Figura 4.3
Figura 4.3 Distribucin de frecuencias del nivel de -caroteno en el grupo control del estudio EURAMIC.
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
Pastor-Barriuso R. 53
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
Principios de muestreo y estimacin
30
20
10
30
Frecuencia relativa (%)
20
10
30
20
10
Figura 4.4
Figura 4.4 Distribucin muestral de la media de -caroteno en 1000 muestras aleatorias simples de tamao
n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La lnea vertical en
trazo discontinuo corresponde a la media poblacional = 0,37 g/g de -caroteno.
54 Pastor-Barriuso R.
estadstica, conocido como teorema central del lmite, formaliza esta intuicin: para
Las medidas de tendencia central informan acerca de cu
estadstica, conocido como teorema central del lmite, formaliza esta intuicin: para
cualquier variable aleatoria X con media y varianza 2, la
de una distribucin
determinada
Estimacin en
de
variable las medias
el muestreo o,aleatorio
dicho simple
de forma equivalen
cualquier variable aleatoria X con media y varianza 2, la distribucin de las medias
en muestras aleatorias simples de tamao n se aproxima, alrededor al aumentar
de qu valor el tamao
se agrupan los datos observados. L
en muestras aleatorias simples de tamao ~ n se aproxima, al aumentar el tamao
seguir una distribucin normal,normal x N(1,09, 0,00086).
particularmente
muestral, a una distribucin con mediacuando aumenta el
y varianza
central
2 tamao de la muestra. Uno de
de la/n; es decir,
muestra al aumentar
sirven tantoformaliza
para resumir los resulta
losmuestral,
principales resultados en estadstica, conocido
a una distribucin normal con media y varianza 2/n; como teorema central
es decir,del lmite,
al aumentar
esta
n, intuicin:
As, por paraejemplo,
cualquier la variable
probabilidad aleatoria de queX con media dey colesterol
la media varianza HDL 2
, la distribucin
endeuna de las
medias en muestras aleatorias simples de tamao n se realizar
aproxima, inferencias
al aumentar acerca
el tamao los muestral,
parmetros poblacional
n,
a una distribucin
muestra de normal
tamao = 100 est
conn media y varianza
comprendida 2/n; es decir,
entre 1,03al yaumentar
1,15 mmol/l n, puede
2 continuacin se describen los principales estimadores de
~ N ,
calcularse como
x
~ n 2,
x N , variable. ,
n
Supongamos
media que el.inters del estudio se centra en estimar la proporcin de
poblacional
Si se selecciona una muestra aleatoria simple de tamao n, en la cual k individuos
1
Principios de muestreo y estimacin
(k (xi =) 1)P(yXlos= krestantes
2
presentan la caractersticade=inters
k =0
2
) n - k individuos no la
30
20
10
30
Frecuencia relativa (%)
20
10
30
20
10
estudio
puntual EURAMIC, se obtuvieron
de la proporcin de fumadoresk = 35 fumadores
actuales es actuales. La estimacin
Ejemplo 4.14 A partir de una muestra aleatoria simple de n = 100 controles del estudio
EURAMIC,
puntual se obtuvieron
de la proporcin k = 35 fumadores
de fumadores actuales esactuales. La estimacin puntual de la
k 35
proporcin de fumadores actuales p =es = = 0,35,
n 100
k 35
p= = = 0,35,
n 100
y su error estndar es
y su error estndar es
y su error estndar es
p (1 p) 0,35(1 0,35)
SE(p) = = = 0,05,
n 100
p (1 p) 0,35(1 0,35)
que corresponde alSE (p) =promedio que=cabra esperar entre
error n 100
= todas
0,05, las posibles muestras de
tamao
que 100 de laalpoblacin
corresponde a estudio.
error promedio que cabra esperar entre todas las posibles
que corresponde
muestras al error
de tamao 100 promedio que cabra
de la poblacin esperar entre todas las posibles
a estudio.
Pastor-Barriuso R. 57
muestras de tamao 100 de la poblacin a estudio.
En este apartado se ha discutido la estimacin puntual de una proporcin poblacional
Principios de muestreo y estimacin
4.4 REFERENCIAS
1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole, 2001.
3. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977.
4. Kish L. Survey Sampling. New York: John Wiley & Sons, 1995.
5. Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer
Verlag, 1998.
6. Levy PS, Lemeshow S. Sampling of Populations: Methods and Applications, Third
Edition. New York: John Wiley & Sons, 1999.
7. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
8. Serfling RJ. Approximation Theorems of Mathematical Statistics. New York: John Wiley
& Sons, 1980.
9. Silva LC. Diseo Razonado de Muestras y Captacin de Datos para la Investigacin
Sanitaria. Madrid: Daz de Santos, 2000.
10. Stuart A, Ord JK. Kendalls Advanced Theory of Statistics, Volume 1, Distribution Theory,
Sixth Edition. London: Edward Arnold, 1994.
58 Pastor-Barriuso R.
TEMA 5
INFERENCIA ESTADSTICA
5.1INTRODUCCIN
La teora del muestreo aporta diversos mtodos formales para seleccionar muestras a partir de
una determinada poblacin. La informacin obtenida de dichas muestras puede resumirse
utilizando tcnicas de estadstica descriptiva. Sin embargo, cuando se trabaja con una muestra,
rara vez nos interesa la muestra como tal, sino que sta interesa por su capacidad para aportar
informacin con respecto a otros sujetos o a otras situaciones.
En los estudios descriptivos, el inters radica en seleccionar una muestra representativa de la
poblacin de referencia, o dicho ms concretamente, la muestra ha de presentar el mismo grado
de diversidad que la poblacin respecto al parmetro o caracterstica objeto de estudio. Las
tcnicas de muestreo probabilstico descritas en el tema anterior facilitan muestras que sern
muy probablemente representativas de la poblacin si el tamao muestral es suficientemente
grande. De esta forma, los resultados de la muestra podrn inferirse a toda poblacin con un
grado razonable de certidumbre.
Ejemplo 5.1 En las Encuestas Nacionales de Salud, se obtiene informacin de una muestra
representativa a nivel provincial o nacional. Esta muestra interesa por la informacin que
aporta sobre toda la poblacin. En este caso, la representatividad de la muestra es determinante
para la validez de las conclusiones derivadas del proceso inferencial.
En los estudios epidemiolgicos analticos, los resultados son interesantes porque pueden
aplicarse a situaciones de salud semejantes. En este caso, el objetivo principal del diseo es asegurar
la comparabilidad o semejanza de los grupos de estudio, ms que la representatividad poblacional
de la muestra. En los ensayos clnicos randomizados, los sujetos se asignan a los distintos grupos
de tratamiento mediante algn mecanismo aleatorio (por ejemplo, mediante un muestreo aleatorio
simple). As, si el tamao muestral es grande, las caractersticas basales de los sujetos asignados a
los distintos grupos sern muy similares. En consecuencia, las diferencias observadas entre estos
grupos a lo largo del seguimiento podrn atribuirse al tratamiento objeto de estudio.
La estadstica inferencial aporta las tcnicas necesarias para extraer conclusiones sobre el
valor poblacional de un determinado parmetro a partir de la evaluacin de una nica muestra.
Pastor-Barriuso R. 59
Inferencia estadstica
Como se discuti en el tema anterior, las conclusiones derivadas de este proceso inferencial
siempre estarn sujetas a error como consecuencia de la variabilidad aleatoria inherente al
propio procedimiento de seleccin muestral. Por ello, resulta necesario disponer no slo de una
estimacin puntual, sino tambin de un intervalo de confianza, que facilite un rango de valores
verosmiles para el parmetro poblacional, as como de una prueba de significacin estadstica,
que permita determinar el grado de compatibilidad de los datos muestrales con una hiptesis
predeterminada. En este tema, se revisan los fundamentos y la interpretacin de las tcnicas
estadsticas de inferencia: la estimacin puntual, el intervalo de confianza y el contraste de
hiptesis. Para simplificar la exposicin, se asume que la muestra se obtiene por muestreo
aleatorio simple y que la poblacin de referencia es de tamao muy superior a la muestra.
Una forma natural de estimar muchos parmetros poblacionales consiste en utilizar el estadstico
muestral correspondiente. As, la media muestral es un estimador 1.2 MEDIDAS puntualDE de laTENDENCIA
media poblacional CENTRAL
yprincipales
la proporcin de casos de una
propiedades estadsticas que enfermedad
1.2haMEDIDAS en la
de satisfacer muestra
DEunTENDENCIA es un
buen estimador estimador
CENTRAL puntual
muestral de la
probabilidad de tener la enfermedad en la poblacin. No obstante, para un determinado
parmetro poblacional, pueden contemplarse distintos Las estimadores
medidas de tendencia alternativos. central informan acerca de c
Algunos
cabe destacar las siguientes:
estimadores de la media poblacional distintos de la media muestral podran ser, por ejemplo,cul
Las medidas de tendencia central informan acerca de la es el valor m
mediana, la media de unadedeterminada variable o, dicho de forma equival
Ausencia de del 50%Un
sesgo. central de laes
estimador muestra
insesgadoo la simedia valorlos
suvariable medio valores sobre mximo
todas y mnimo.
las
En este apartado se presentan algunos criterios estadsticos que justifican la eleccin de un estos estima
de una determinada o, dicho de forma equivalente,
determinado alrededor de qu valor se agrupan los datos observados
posiblesestimador
muestrasfrente a otras
de tamao posibles alternativas.
n coincide
alrededorcon deelqu parmetro
valor se poblacional.
agrupan los datos La observados. Las medidas de
Los mritos de un estimador no se juzgan por la central estimacin de la resultante
muestra sirven en una tantomuestra
para resumir los resu
insesgadez de un estimador
concreta, sino por la distribucin de todos es una propiedad
centrallosde
posibles deseable
la muestra valores ya que sus
o estimaciones
sirven estimaciones
tanto para resumir no
a que pueda dar
los resultados observado
lugar; esto es, por las propiedades de su distribucin muestral. Entre las principales propiedades
realizar inferencias acerca de los parmetros poblacion
diferirn
estadsticas quesistemticamente
ha de satisfacer un delbuen
parmetro
estimador
realizar poblacional.
muestral
inferencias acercacabede destacar
los parmetroslas siguientes:
poblacionales correspondi
yy Ausencia de sesgo. Un estimador es insesgado si continuacin su valor medio se sobre
describen todasloslasprincipales
posibles estimadores d
muestras tamaosenprob
de Como coincide continuacin se describen los principales estimadores de la tendencia ce
Ejemplo 5.3 en el con
temaelanterior,
parmetro la media poblacional.
y la proporcin La insesgadez muestralde un
estimador es una propiedad deseable ya que sus estimaciones variable. no diferirn sistemticamente
del variable.
sonparmetro
estimadores poblacional.
insesgados de la media y la proporcin poblacional,
1.2.1 Media aritmtica
Ejemplo 5.3 Como
respectivamente, E( x se
) =prob en1.2.1
y E(p) el= tema
. Sinanterior,
Media la la
aritmtica
embargo, media y la proporcin
varianza muestral definida muestral son
estimadores insesgados de la media y la proporcin La poblacional,
media aritmtica, respectivamente,
denotada por E( x ), =se define como l
por
y E(p)
(xi -= x.) Sin
2
/n esembargo, la varianza
un estimador La media
sesgado muestral definida
aritmtica,
de la varianza por S(x
denotada
poblacional, pori x ya), /n
2
es
seque un estimador
define como la suma de cada u
sesgado de la varianza poblacional, ya que valores muestrales dividida por el nmero de observac
valores muestrales dividida por el nmero de observaciones realizadas.
2
1 n
2 1 n 2 2 1 porn n el2 tamao 1 muestral
n
y por xi el valor observado pa
E ( x i x ) = E por xi x = nmuestral E ( x i )ypor E x el xi observado para el sujeto i-sim
n i =1 n i =1 n el tamao i =1 ni i =1valor
la media vendra dada por
1 n la media 1 n
= E ( x i2 ) vendra Edada
2
( x i2 )por
+ 2 E ( x i ) E ( x j )
n i =1 n i =1 x + x 2 + ...
1 i < j n
1 n
n 1 n
2 1 n x =
x + x 2 n+ ...
xi = 1
+ xn n
= 2 E ( x i2 ) 2 E ( x i ) E ( xxj =) x i = 1 i =1 .
n i =1 n 1i < j n n i =1 n
n 1 2 n 1 La n 1
( + 2 )
= 2 =media es2la
; medida de tendencia central ms util
n La media es nla medida den tendencia central ms utilizada y de ms f
interpretacin. Corresponde al centro de gravedad de
interpretacin. Corresponde al centro de gravedad de los datos de la m
es decir, este estadstico tiende a infraestimar la varianza poblacional 2 por un
principal limitacin es que est muy influenciada por l
60 Pastor-Barriuso R. principal limitacin es que est muy influenciada por los valores extrem
factor de (n 1)/n. Notar que este sesgo ser tanto mayor cuanto menor sea el
caso, puede no ser un fiel reflejo de la tendencia centra
caso, puede no ser un fiel reflejo de la tendencia central de la distribuci
tamao muestral. En consecuencia, es preferible utilizar la varianza muestral
es decir, este estadstico tiende a infraestimar la varianza poblacional por un
forma, seque
tambin tendr una mayor
las distintas confianza en
estimaciones que
difieran laloestimacin
menos se
continuacin resultante
posible de la
de dicho
describen los principales estimadores de la t
factor de (n 1)/n. Notar que este sesgo ser tanto mayor cuanto menor sea el
Estimacin puntual
muestra finalmente
parmetro, que1.2
la MEDIDAS
es decir, seleccionada
varianza estar DE
muestralTENDENCIA
prxima al parmetro
del estimador
variable. CENTRAL
seapoblacional.
mnima. DePor esta
tamao muestral. En consecuencia, es preferible utilizar la varianza muestral
ello, entre
forma, los distintos
se tendr estimadores
una mayor
Las confianza
medidas insesgados
deen que la de
tendencia un determinado
estimacin
central resultante
informan parmetro, es es el valor ms represe
de2 lade cul
acerca
es decir, por
definida estesestadstico
2
= (xi - xtiende
)2/(n a1)infraestimar la varianza
1.2.1
como estimador Media poblacional
aritmtica
insesgado por un factor
de la varianza de
(n 1)/n.
convenienteNotar que este
seleccionar sesgo ser tanto mayor cuanto menor sea el tamao muestral. En
muestra finalmente deaquel
seleccionada
una que presente
estar
determinada una menor
prxima
variable varianza
al parmetro
mediao,aritmtica,
dicho (o, de
poblacional.
de forma forma Por 2 estos estimadores ind
s2 =equivalente,
consecuencia, es preferible
poblacional, utilizar la varianza
La muestral definida por
denotada S(x i x ), /(n
por 1) como la sum
se define
como estimador
equivalente,
entre losun insesgado de
menor alrededor
error la varianza
estndar). poblacional,
ello, distintos estimadores quEn general,
de insesgados
valor
valores
puede
sedeagrupan
un demostrase
determinado
los
muestrales datos que, si laesLas medidas de tendenc
parmetro,
observados.
dividida por el nmero de observaciones
1 n 2
distribucin seleccionar
conveniente poblacional subyacente
E(s 2
aquel
central de ( xuna
es normal,
E lapresente
) = que muestra la
sirvenx )media
i menor tanto
n 1 i =1 por n el tamao
x. y la
2
=varianza
para varianza
(o,
resumir
muestral
de los muestral observados como p
forma
y porresultados
xi el valor observado para el s
s2 son respectivamente
equivalente, un menor errorlos estimadores
estndar).
realizar insesgados
En
inferencias general,
acerca puede
dedelos 2 con menor
yparmetros
demostrase que,varianza.
si la
poblacionales correspondientes. A
yy Mnima varianza. Adems de la insesgadez la media
de un vendra
estimador,dada porque garantiza que las
estimaciones
distribucin estarn centradas alrededor del parmetro poblacional,
x y la interesa
varianza tambin que
muestral
De la mismapoblacional subyacente
forma, la continuacin
proporcin es normal,
muestral p eslaellos
media
estimador insesgado de con
las distintas estimaciones difieran lo se describen
menos posible de principales
dicho parmetro;estimadores de la que
es decir, tendencia
la central de
1 n x1 + x 2 + ... + x n
varianza
2
smenor
muestral del estimador sea mnima. De esta forma, se2 tendr una mayor
son respectivamente los estimadores insesgados de y con menor xvarianza. = x4i =
confianza .
error estndar. variable. n n
en que la estimacin resultante de la muestra finalmente seleccionada est prxima i =1 al
parmetro poblacional. Por ello, entre los distintos estimadores insesgados de un
De la misma forma, la proporcin muestral p es el estimador insesgado de con
determinado
Ejemplo 5.4parmetro, es conveniente
1.2.1
Para cualquier distribucin seleccionar
Media aritmtica aquel
La media
poblacional, quelapresente
la es
media medida
muestral una
de esmenor
un varianza
tendencia central ms utilizada
(o, de forma equivalente, un menor error estndar). En general, puede demostrarse que, si
menor error estndar.
laestimador
distribucin poblacional
insesgado deLa subyacente
la media es normal,
media aritmtica,
poblacional y sulaerror
denotada media
interpretacin. por x ,yse la define
varianza
Corresponde
estndar es al muestral
como la suma
centro s2 son
de de cada uno
gravedad dedeloslos
d
respectivamente los estimadores insesgados de y con menor varianza. De la misma
2
forma,
Ejemplo la proporcin valores
muestral
5.4 Para cualquier pmuestrales
distribucin dividida
es el estimador por
insesgado
principal
poblacional, laelmedia
nmero
limitacin es de
de muestral
con observaciones
menor
que es error
est muy estndar.
un realizadas.por
influenciada Silos
denota
val
SE( x ) = .
Ejemplo 5.4 Para cualquiern
estimador insesgado de la media poblacional y suypuede
por el tamao
distribucinmuestraln
poblacional,
caso, por xla
error i el
no valor
media
ser
estndar observado
unmuestral para
es un
fiel reflejo
es deestimador sujeto i-simo,
laeltendencia centrali de
= 1,la
insesgado de la media poblacional y su error estndar es
la media vendra dada por
En el caso de que la distribucin subyacente sea normal, puede probarse que la
SE( x ) = . Ejemplo 1.4 En este y en los sucesivos ejemplos sobre
n la media1poblacional x +yxque su+ x n
mediana tambin es un estimador insesgado de 2 + ...
n
x=
utilizarn losx ivalores
= 1 del colesterol . HDL obtenidos en
En el caso de que la distribucin subyacente sea normal,n puede i =1 probarse nque la mediana
error
En
tambin estndar
el caso esde es
unque aproximadamente
la distribucin
estimador insesgadosubyacente sea normal,
de la media poblacional puedey probarse
que Study que la
su error
estudio European on estndar
Antioxidants, es Myocardial
aproximadamente
mediana tambin es un estimador La media es la medida
insesgado de lade tendencia
media centralyms
poblacional que utilizada
su y de ms fcil
the
Breast (EURAMIC), un estudio multicntrico de c
SE(mediana) 1,25 .
interpretacin. Corresponde nal centro de gravedad de los datos de la muestra. S
error estndar es aproximadamente
entre 1991 y 1992 en ocho pases Europeos e Israel par
As, aunque ambos estimadores son insesgados, el error estndar de la mediana es un 25%
mayor que el de la media principal
muestrallimitacin es que
y, por tanto, est muy
la mediana influenciada
tender porestimaciones
a facilitar los valores extremos y, en
menos precisas que la media SE(mediana)
muestral. 1,25 .
caso, puede no ser un fiel reflejo n de la tendencia central de la distribucin.
yy Consistencia. Las propiedades de insesgadez y mnima varianza se refieren a la
distribucin muestral del estimador para un tamao n fijo de la muestra. La consistencia,
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestr
sin embargo, hace referencia al comportamiento del estimador al aumentar n. Se dice 5 que
un estimador es consistente si,utilizarn
al aumentar
loselvalores
tamaodel
decolesterol
la muestra, la probabilidad
HDL obtenidos endelos
que10 primeros suje
el estimador difiera del verdadero parmetro poblacional se reduce progresivamente. La
consistencia es, por tanto, un requerimiento
estudio Europeanbsico paraon
Study unAntioxidants,
buen estimador ya que bastar
Myocardial Infarction and Canc
con aumentar el tamao muestral para obtener estimaciones arbitrariamente prximas 5 al
verdadero parmetro. Por supuesto, la media,
the Breast la varianza
(EURAMIC), y la proporcin
un estudio muestral
multicntrico son y controles rea
de casos
estimadores consistentes de sus respectivos parmetros poblacionales.
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto d
Ejemplo 5.5 En el Ejemplo 4.9 se evalu empricamente el comportamiento de la media
muestral de colesterol HDL en muestras de tamao n = 10, 25 y 100 obtenidas a partir
delos controles del estudio EURAMIC, donde la media poblacional del colesterol HDL
Pastor-Barriuso R. 61
Inferencia estadstica
En los problemas de estimacin ms simples, como es el caso de una media o una proporcin
poblacional, se dispone de un estimador natural que cumple las propiedades descritas
anteriormente. En otros problemas ms complejos, como por ejemplo en la estimacin de
parmetros en modelos de regresin, la eleccin de un estimador razonable no es tan directa. En
general, existen diversos mtodos formales para obtener estimadores con buenas propiedades
estadsticas, entre los que destacan el mtodo de mxima verosimilitud, el mtodo de mnimos
cuadrados y el mtodo de los momentos. Los mtodos de mnimos cuadrados y mxima
verosimilitud se presentarn en el contexto particular de los modelos de regresin lineal (Temas
10 y 11) y logstica (Tema 12), respectivamente. No obstante, los principios generales de estos
procesos de estimacin y la evaluacin de los estimadores resultantes pueden consultarse en los
textos de estadstica matemtica referenciados al final del tema.
TENDENCIA CENTRAL
5.3 ESTIMACIN POR INTERVALO
dencia central informan acerca de cul es el valor ms representativo
Como ya se ha comentado previamente, las estimaciones puntuales obtenidas a partir de una muestra
diferirn
variable o, dicho del equivalente,
de forma parmetro poblacional y, en consecuencia,
estos estimadores indican quedar un margen de incertidumbre que se
expresa en trminos del error estndar del estimador. As, resulta natural la pretensin de disponer de
unadatos
or se agrupan los medida
5.3.1 del parmetro
observados.
Distribucin Las poblacional
t demedidas que incorpore tanto la estimacin puntual como su error
Studentde tendencia
estndar. Esta medida es el intervalo de confianza, que facilita un rango de valores dentro del cual se
encontrar
a sirven tanto para resumir
5.3.1
El mtodoellos
verdadero tvalor
resultados
Distribucin
ms del
paraparmetro
deobservados
extendido Student comopoblacional
el clculo para conde
de intervalos unconfianza
cierto grado
se de confianza.
basa en las En este
apartado se describe detenidamente el procedimiento para la construccin de un intervalo de
confianza
acerca de los parmetros
El para
mtodo
propiedades lade
msmedia
poblacionales poblacional.
extendido elLos
correspondientes.principios
para muestral
la distribucin Adel
clculo bsicos del
de estimador.
intervalos de
Porclculo e interpretacin
confianza
el teorema secentral
basa endeldelmite
las intervalos
de confianza para otros parmetros son similares y se discutirn en los siguientes temas.
criben los principales estimadores
propiedades
sabemos dedistribucin
que,depara
la la tendencia
cualquier centralaleatoria
muestral
variable dedeluna
estimador. Porelyteorema
con media varianzacentral
2, la del lmite
5.3.1Distribucin t de Student
sabemos que,depara
distribucin las cualquier variable aleatoria
medias muestrales con media y varianza
x es aproximadamente normal con 2,media
la y
El mtodo ms extendido para el clculo de intervalos de confianza se basa en las propiedades
tica de distribucin
la distribucin
varianza 2/n desimuestral
las
el medias
delmuestrales
tamao esxsuficientemente
estimador.
muestral es aproximadamente
Por grande;normal
el teorema central del
es lmite
decir, media que,
consabemos y para
cualquier variable aleatoria con media y varianza , la distribucin de las medias muestrales
2
2
, denotada por x es definecomo
, varianza
seaproximadamente
/n silaelsuma decon
normal
tamao cada uno es
media
muestral de los
ysuficientemente
varianza 2/n si elgrande;
tamaoesmuestral
decir, es suficientemente
grande; es decir,
~ N , 2
x
ividida por el nmero de observaciones realizadas. Si denotamos
n2
x ~ N ,
estral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, n
o, de forma equivalente, aplicando la estandarizacin de una distribucin normal
da por o, de forma equivalente, aplicando la estandarizacin de una distribucin normal
o, de forma equivalente, aplicando la estandarizacin de una distribucin normal
x ~
N (0, 1) .
1 n x1 + x 2 + ... + x n
x = xi = . x n ~
n i =1 n N (0, 1) .
n
Esta cantidad estandarizada depende de dos parmetros desconocidos: la media
edida de tendencia central ms utilizada y de ms fcil
Esta cantidad
62 Pastor-Barriuso
poblacional R.
,estandarizada depende
que es el parmetro de dos
objeto deparmetros
inferencia, desconocidos:
y la desviacinlatpica
media
esponde al centro de gravedad de los datos de la muestra. Su
poblacional
poblacional ,, que
que es
es el
unparmetro
parmetroobjeto denecesario
auxiliar inferencia, y laconocer
para desviacin tpica
el error estndar en
es que est muy influenciada por los valores extremos y, en este
s probabilidad en los extremos (Figura 5.1). Los grados de libertad de
la estimacin de . Parece entonces lgico sustituir en la expresin anterior el valor
Estimacin por intervalo
t de Student determinan su dispersin: al aumentar los grados de
desconocido de por la desviacin tpica muestral s. Sin embargo, como s es un
uye la variabilidad y la distribucint de Student se aproxima a una
Estaestimador de que conlleva
cantidad estandarizada depende a sude vezdosunparmetros
error de muestreo, el estadstico
desconocidos: la media resultante
poblacional ( x,-que
mal estandarizada. es elCuanto
parmetro menorobjetoseade el inferencia,
tamao muestral y la n, mayor ser
desviacin tpica poblacional , que es un parmetro
auxiliar
)/(s/necesario para conocer
n ) presentar una mayor el error estndar en
imprecisin. Puede la estimacin
probarse que de .
la Parece entonces
distribucin lgico
de este
t de
sustituir en la expresin anterior el valor desconocido de por la desviacin tpica muestral s.
Sinestadstico
embargo, ya como sLa
no ser esnormal,
un estimador
distribucin sino tquede que aproximadamente
deStudent
seguir conlleva a su vez una
es una distribucin un error dealrededor
distribucin
simtrica muestreo,deel0 y de aspecto
una mayo estadstico resultante (x )/(s/ n ) presentar una mayor imprecisin. Puede probarse que la
distribucin
conocida comode este deestadstico
tparecido
Student al deconya nno
una 1ser normal,
- distribucin
grados sino que
de libertad
normal seguir por
y denotada
estandarizada, aproximadamente
tn-1,
aunque una
menos apuntada en el
ral es grande,s distribucin
facilitar unconocida
estimacin como t de Student
precisa de con n 1 grados de libertad y denotada por tn1,
centro y con ms probabilidad x ~ en los extremos (Figura 5.1). Los grados de libertad de
icho estadstico ser aproximadamente normal. En la Tabla 5del t n 1 .
s
una distribucin t de Student n determinan su dispersin: al aumentar los grados de
entan los percentiles de la distribucint de Student para distintos
La distribucin tlibertad,
de Student es una distribucin
disminuye la variabilidad simtrica y la alrededor
distribucin det0dey de aspecto
Student separecido
aproxima a una
ad. al de una distribucin normal estandarizada, aunque menos apuntada en el centro y con ms
probabilidad en los distribucin
extremos (Figura normal 5.1).estandarizada.
Los grados de Cuanto libertad menor sea el tamao
de una distribucin t demuestral
Studentn, mayor ser
determinan su dispersin: al aumentar los grados de libertad, disminuye la variabilidad y la
[Figura 5.1 aproximadamente
distribucin t de Student se aproximaaqu] a una distribucin normal estandarizada. Cuanto menor8sea t de
el tamao muestral n, mayor ser el error de la desviacin tpica muestral s y, en consecuencia,
la distribucin t de StudentStudent otorgar
otorgar una mayo dispersin al estadstico (x )/(s/ n ). Por el
unamayor
contrario, si el tamao muestral
6 De la Tabla 5 del Apndice se obtiene que el percentil 97,5 es grande, s facilitar
en unauna estimacin precisa de , de tal forma
que la distribucinelde dichomuestral
tamao estadstico ser aproximadamente
es grande, normal. En
s facilitar un estimacin la Tabla
precisa de 5 del
Apndice se presentan los percentiles
n t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente de la distribucin t de Student para distintos grados de
libertad. distribucin de dicho estadstico ser aproximadamente normal. En la Tabla 5 del
303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de
Ejemplo 5.6Apndice De la Tabla 5 del Apndice
se presentan los percentiles se obtiene que el percentil
de la distribucin 97,5 en
t de Student paraunadistintos
nes simtricas en 0, eldistribucin
percentil 2,5 t decoincide
Studentcon 5, 10 y 30 grados de libertad es respectivamente t2;0,975 =
conel2,correspondiente
4,303, t5;0,975 grados
= 2,571, t
de libertad.
10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de distribuciones
7,5 con signo opuesto; simtricas
es decir, en 0, el=percentil
t2;0,025 2,5 coincide
-4,303, t5;0,025 = -2,571, con el correspondiente percentil 97,5 con signo
t10;0,025
opuesto; es decir, t2;0,025 = 4,303, t5;0,025 = 2,571, t10;0,025 = 2,228 y t30;0,025 = 2,042. Por
= -2,042. tanto, elel95% central dedelaladistribucin t [Figura
de Student 5.1 con
aproximadamente
2, 5, 10 y 30 grados aqu] de libertad
tdistribucin
30;0,025 simtricatanto,
Por alrededor 95% de central
0 y de aspectodistribucint de
est comprendido entre 4,303, 2,571, 2,228 y 2,042, respectivamente. As, puede
nl estandarizada,
2, 5, 10 y 30 grados
aunqueobservarse
demenos
libertad queest
apuntadala comprendido
dispersin
en el deentre 4,303, t de Student disminuye al aumentar los
la distribucin
grados de libertad, aproximndose a una distribucin normal estandarizada (95% de los
Ejemplo 5.6 De la Tabla 5 del Apndice se obtiene que el percentil 97,5 en una
228 y 2,042,
extremos (Figura 5.1).valores
respectivamente. entreAs,
Los grados de1,96,
puede Ejemplo
libertad de 3.11).
observarse que la
distribucin t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente
de
an lasudistribucin
dispersin: t
al de Student
aumentar disminuye
los grados
5.3.2 Intervalo de confianza al aumentar
de para una losmedia
gradospoblacional
de
t2;0,975 = 4,303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de
a distribucint de Student
A partir de se
losaproxima
resultadosa anteriores
una puede construirse un intervalo de confianza para la media
poblacional. En general, la distribucionespor
estimacin intervaloenlleva
simtricas 0, elasociada
percentiluna coincide conoelnivel
2,5probabilidad de
correspondiente
uanto menor sea el tamaodenotada
confianza, muestral n,enmayor
trminosser porcentuales por 100(1 )%, que indica la cobertura del
parmetro poblacional. Aunque percentil en97,5
la prctica
con signo se utilizan
opuesto; 9 casi exclusivamente
es decir, los intervalos
t2;0,025 = -4,303, t5;0,025 = de
-2,571, t10;0,025
confianza al 95% ( = 0,05), t de nos referiremos aqu de forma genrica al intervalo de confianza
al 100(1 )% para la media = -2,228
poblacional. = -2,042. la
y t30;0,025Utilizando Por tanto, el 95%
aproximacin t decentral
Studentdeallaestadstico
distribucin t de
(x )/(s/ n ), se sigue que hay una probabilidad 1 de que dicho estadstico est
Student con 2, 5, 10 y 30 grados de libertad est comprendido entre 4,303,
ar un estimacin precisa de
2,571, 2,228 y 2,042, respectivamente. As, puede observarse que la
aproximadamente normal. En la Tabla 5 del
dispersin de la distribucin t de Student disminuye al aumentar los grados de
de la distribucint de Student para distintos Pastor-Barriuso R. 63
libertad, aproximndose a una distribucin normal estandarizada (95% de los
valores
Inferencia estadstica entre 1,96, Ejemplo 3.11).
que indica
media la cobertura
poblacional. del parmetro
En general, poblacional.
la estimacin Aunque lleva
por intervalo en la asociada
prctica se
unautilizan casi
exclusivamente
probabilidad los intervalos
o nivel de confianza
de confianza , denotadaalen
95% ( = 0,05),
trminos nos referiremos
porcentuales aqu
por 100(1 - de
)%,
forma
que genrica
indica al intervalo
la cobertura de confianza
del parmetro poblacional. )% para
al 100(1 - Aunque enlalamedia poblacional.
prctica se utilizan casi
exclusivamente
Utilizando los intervalos
la aproximacin deStudent
t de confianza al 95% ( (=x0,05),
al estadstico - )/(s/
nos nreferiremos
), se sigue aqu de
que hay
forma
una genrica al1intervalo
probabilidad de dicho
- de que confianza al 100(1
estadstico - comprendido
est )% para la media
entrepoblacional.
los percentiles
/2 y 1 - /2
Utilizando la de una distribucin
aproximacin t de Student
t de Student con n 1( xgrados
al estadstico - )/(s/
de libertad, denotados
n ), se sigue que hay
-3 -2 -1 0 1 2 3
respectivamente
una probabilidadpor y tn-1,1-
1 - tn-1,de/2que dicho /2;estadstico
esto es,x est comprendido entre los percentiles
Figura 5.1 Funcin de densidad
1.2 MEDIDAS de la distribucin t de Student con
DE TENDENCIA 2, 5, 10 y 30 grados de libertad,
CENTRAL Figuray 5.1
fun-
cin de densidad normal estandarizada.
/2 y 1 - /2 de una distribucin
t de Student con n 1 grados de libertad, denotados
x central informan
Las medidasP t 1/2 de tendencia
, / 2 y<1 /2 de< t una acerca de cul es el valor ms representativ
/ 2 = 1 .t de Student con n 1 grados
comprendido entre los
respectivamente tn-1,/2 y tnn-1,1-
porpercentiles ;
/2 s esto es, distribucin
n 1,1
por tn1,/2 ; esto es,
de libertad, denotados respectivamente
de una
determinada n y tn1,1/2
variable o, dicho de forma equivalente, estos estimadores indican
a distribucin simtrica alrededor de 0 y de aspecto
al estandarizada, aunque menos se
Este resultado apuntada en
representa el
alrededor de qu valor
grficamente x enselaagrupan los datos observados. Las medidas de tendencia
P t n 1, / 2 < < t n 1,1 / 2 5.2.
Figura =1 Por
.la simetra de la
s
extremos (Figuradistribucin
5.1). Los grados central de
de libertad
t de Student, la
tn-1,de
/2 =muestra
-t n
sirven
n-1,1-/2 y la tanto
expresin para resumirpuede
anterior los resultados observados como para
rescribirse
Estecomo
nan su dispersin: alresultado
aumentar selos
representa
realizar
grados grficamente
de inferenciasenacerca la Figura de los5.2.parmetros
Por la simetra de la distribucin
poblacionales t de
correspondientes. A
Este resultado se representa grficamente en la Figura
Student, tn1,/2 = tn1,1/2 y la expresin anterior puede rescribirse como 5.2. Por la simetra de la
la distribucint de Student se aproxima continuacin
a una se describen los principales estimadores de la tendencia central de una
distribucin t de Student, tn-1,/2 = -tn-1,1-/2 y la expresin anterior puede rescribirse
x
Cuanto menor sea el tamao muestral n, variable.
mayor P ser
t n 1,1 / 2 < < t n 1,1 / 2 = 1 .
como s
n
t de Media aritmtica
1.2.1 s s
P x t n 1,1 / 2 < < x + t n 1,1 / 2 =1 .
Para despejar la media poblacional, se nmultiplica cada trmino n de la desigualdad por el error
x muestral
(x Para
estndar despejar
)/(s/ n )y alacontinuacin
media
La poblacional,
P tse
media 1resta
se< multiplica
,1 / 2 la
naritmtica, media
denotada< t n cada trmino
1 / 2 x,,=
1,por de. lacomo
resultando
se
1 define desigualdad
que la sumapor de el
cada uno de los
s
As, elestndar
intervalo de confianza muestrales
(IC) al
y a continuacin s 100(1 n- )% para la media
s depoblacional
xobservaciones viene
precisa de s/ nPvalores
ar un estimacinerror x t n 1,1 / 2
sedividida
resta la por
media muestral
el nmero
< < x + t n 1,1 / 2
, resultando
= 1 .
que
realizadas. Si denotamos
n n
determinado pormedia ndel
por5poblacional,
el tamao se muestral y porcada xi eltrmino
valor observado para el sujeto i-simo, i = 1, ..., n,
aproximadamentePara despejar
normal. En la Tabla multiplica de la desigualdad por el10
As, el intervalo de confianza (IC) al 100(1 )% para la media poblacional viene determinado por
de la distribucinAs,
t de el intervalo dedistintos
confianzavendra (IC) al 100(1por - )% spara la media poblacional viene
error Student
estndarparas/ n lay media
a continuacindada se resta la media muestral x , resultando que
x t n 1,1 / 2 ,
determinado por n
1 n x + x 2 + ... + x n 10
x = xi = 1 .
que depende tanto de la estimacin puntual x (valor n i =1 del intervalo) n como de su
s central
64 Pastor-Barriuso R.
tn-1
La distribucin tLas
de Student
medidasesdeuna distribucin
tendencia centralsimtrica
informanalrededor
acerca dedecul
0 y es
deelaspecto
valor ms representativo
1-
parecido al de una de
distribucin normal variable
una determinada estandarizada,
o, dichoaunque menos
de forma apuntadaestos
equivalente, en elestimadores indican
a distribucin simtrica alrededor de 0 y de aspecto
centro y con ms probabilidad
alrededor deen losvalor
qu extremos (Figura
se agrupan los5.1).
datosLos grados deLas
observados. libertad de de tendencia
medidas
al estandarizada, aunque menos apuntada en el
una distribucin t de Student
central de determinan
la muestra sirven su dispersin:
tanto para alresumir
aumentar loslos grados de
resultados observados como para
/2
extremos (Figura 5.1). Los grados de libertad de /2
libertad, disminuyerealizar la variabilidad y la distribucin t de Student se
inferencias acerca de los parmetros poblacionales correspondientes. A aproxima a una
nan su dispersin: al aumentar los tn-1,/2grados de 0 tn-1,1-/2
distribucin normalcontinuacin
estandarizada. Cuanto menor
se describen seax el
los principales tamao muestral
estimadores n,
de mayor
la ser central de una
tendencia
la distribucint de Student se aproxima a una s
variable. n t de
Figura 5.2
uanto menor sea el tamao muestral n, mayor ser
Student otorgar
Figura 5.2una mayo muestral del estadstico (x )/(s/ n ).
Distribucin
1.2.1 Media aritmtica
t de
el tamao que muestral
depende Laes media
grande,
tanto de facilitar
s la estimacin
aritmtica, un estimacin
denotada puntual por x ,precisa
(valor
se define decomo
central dellaintervalo)
suma de cada como unodedesulos
error
DIDAS DE TENDENCIA CENTRAL
(x )/(s/ n .)
estndar
distribucin1.2 de MEDIDAS
dicho DE TENDENCIA
estadstico ser aproximadamente CENTRALnormal. En la Tabla 5 del
Los lmitesvalores muestrales
del intervalo estndividida
determinados por el nmero
por datosdemuestrales
observaciones realizadas. Sieldenotamos
y, en consecuencia, intervalo
didas
ar undeestimacin
tendencia central
precisainforman
de acerca de cul es el valor ms representativo
ApndiceLasde confianza
se presentan variar en funcin de la muestra seleccionada. El principio fundamental de la estimacin
medidas por de nloseltendencia
percentiles
tamao muestral de la informan
central distribucin
y por xi el t de Student
acerca
valor de cul es
observado para distintos
elpara
valor el ms
sujeto representativo
i-simo, i = 1, ..., n,
por intervalo radica en que, de todas las posibles muestras del mismo tamao de la poblacin de
determinada
aproximadamentevariablenormal.
o, dichoEn delaforma equivalente, estos estimadores indican
grados dereferencia,
libertad. el 100(1 Tabla
)% de5 los delintervalos resultantes incluir el parmetro poblacional. As, aunque
de una determinada
la media vendra variable o, dicho
dada por de forma equivalente, estos estimadores indican
no es posible saber si efectivamente un intervalo concreto incluye o no el parmetro desconocido, se
ordedelaqu valor se agrupan
distribucin t deuna
Studentlos datos paradel observados.
distintos Las medidas de tendencia
l estudio EURAMIC. tendr En cadaconfianzaunavalor de las 100(1 )% en que el nico intervalo disponible est entre aquellos que
alrededor de qu se agrupan los datos observados. Las medidas de tendencia
contienen dicho parmetro. [Figura En
5.1 otras palabras,1el nivel
aproximadamente n
dexconfianza
aqu] 1 + x 2 + ...de x n intervalo hace referencia a
+ un
de la muestra sirven tanto para resumir los resultados observados x = x i como = para .
mo la frecuencia con la cual el mtodo producenintervalos certeros y no a la probabilidad de que el
n observados
central de la muestra sirven tanto para resumir i =1 los resultados como para
intervalo obtenido en una muestra concreta incluya el parmetro poblacional.
inferencias acerca de los parmetros poblacionales correspondientes. A
.1 realizarobtenidas
inferencias a partir acercade los de controles
los parmetros del estudio EURAMIC.
poblacionales En cada una de
correspondientes. A las
s aproximadamente
Ejemplo aqu]
5.6
s Ejemplo De La la5.7
Tabla
media 5es del
la
En la Figura Apndice
medida de se obtiene
tendencia que
centralel percentil
ms 97,5
utilizada eny una
de ms fcil
acin = xsedescriben
2,262 los, principales estimadores de 5.3 se presentan
la tendencia centrallos ICde unaal 95% para la media poblacional del
10 10 colesterol
muestras,
continuacin HDL
el IC
se describen en
al 100
95% muestras
se calcul
los5,principales aleatorias
como
estimadores de tamao n =
de laestendencia 10 obtenidas
central de a partir
una de los
distribucin de Student
tinterpretacin. conCorresponde
2, 10 y 30algrados centro dede libertad
gravedad respectivamente
de los datos de la muestra. Su
. controles del estudio EURAMIC. En cada una de las muestras, el IC al 95% se calcul como
Apndice
s medias ysedesviaciones
tobtiene que tpicas
variable. el percentil muestrales.97,5 en una = 2,228 sy t = 2,042.sPor tratarse de
2;0,975 = 4,303, t5;0,975
principal =limitacin
2,571, t10;0,975
es
x quet 9;0est
, 975
muy30;0,975
=influenciada
x 2,262 por, los valores extremos y, en este
edia aritmtica 10 10
5, 10 y 30 grados x 1.2.1de libertad es respectivamente
tra se obtuvodistribuciones
= 1,20 Media simtricas
y scaso,
= aritmtica
0,30,
puede de talen 0,
no serelunpercentil
fiel reflejo 2,5 decoincide con el central
la tendencia correspondiente
de la distribucin.
a aritmtica, denotada por x y, se
donde s sondefinelas correspondientes
como la suma de medias
cada yuno desviaciones
de los tpicas muestrales. As, por ejemplo,
= 2,228 y t30;0,975 = 2,042.
donde x y Por
s son tratarse
las de
correspondientes medias
a0;0,975 percentil
media poblacional La media 97,5
de con
colesterol
en la aritmtica, signo
primera muestra HDL opuesto;
denotada es
se obtuvo decir,
por x = , set
1,20 =
y s =como
define
2;0,025 0,30,desviaciones
y
-4,303, lat5;0,025
de tal
suma =de
forma tpicas
-2,571,
que
cada launo muestrales.
testimacin
de los puntual de la
10;0,025
Figura 5.3 Estimaciones puntuales (crculos) e intervalos de confianza al 95% (lneas horizontales) para
la media poblacional del colesterol HDL en 100 muestras aleatorias de tamao n = 10 obtenidas a partir de
los controles del estudio EURAMIC. La lnea vertical en trazo discontinuo corresponde al verdadero nivel
medio = 1,09 mmol/l de colesterol HDL.
66 Pastor-Barriuso R.
El error estndar de la estimacin SE( x ) = s/ n . Cuanto mayor sea el error de la
esto es, la media
MEDIDAS DE TENDENCIA poblacional del colesterol HDL se encuentra entre 0,89 y 1,51
CENTRAL
se calculara como
estimacin,
mmol/l con unamayor confianza ser del la amplitud
99%. Notar del intervalo. Es decir,eslams
que este intervalo amplitud
amplio deque
un el
Contraste de hiptesis
Pastor-Barriuso R. 67
tratamiento;
Ejemplo 5.10esEn
decir, la presin
un estudio paraarterial medialade
determinar la poblacin
eficacia tratada con el
de un frmaco
Inferencia estadstica
frmaco T es igual
antihipertensivo, a la medialade
se compara la poblacin
presin arterial no
de tratada P.deLapacientes
un grupo hiptesistratados
alternativa
hiptesis
con nula.
dichoEnsera,
estepor
frmaco el la
punto,
con contrario,
cabe que las
de unincidir
grupo presiones
en pacientes
de arteriales
que el trmino
tratados medias
aceptar
con ladehiptesis
placebo. ambas
La nula no
implica que dicha hiptesis sea efectivamente cierta, sino que se carece de evidencia suficiente
poblaciones
para rechazarla. son
Como
hiptesis nula msdistintas.
se ver As,
natural, ms eladelante,
en estecontraste de
caso, eslas hiptesis de
la hiptesis quedara
nunca formulado
pueden
no efecto como
del ser corroboradas
completamente, quedando siempre un margen o probabilidad de error.
tratamiento; es decir, la presin arterial H0: media
T = P,
de la poblacin tratada con el
Ejemplo 5.10 En un estudio para determinar la eficacia de un frmaco antihipertensivo,
se compara
frmaco la presin
T es igual a laarterial
mediadedeunlaH grupo de pacientes
poblacin tratados
no tratada P. Lacon dicho frmaco con la
hiptesis
1: T P.
de un grupo de pacientes tratados con placebo. La hiptesis nula ms natural, en este caso,
es la hiptesis
alternativa sera,depornoelefecto del que
contrario, tratamiento; es decir,
las presiones la presin
arteriales mediasarterial media de la
de ambas
La hiptesis nula se aceptar a no ser que los resultados del ensayo clnico
poblacin tratada con el frmaco T es igual a la media de la poblacin no tratada P. La
hiptesis alternativa
poblaciones sera, As,
son distintas. por el contrario,
contraste de quehiptesis
las presiones arteriales
quedara medias
formulado de ambas
como
muestren una gran diferencia entre los grupos que resulte poco compatible
poblaciones son distintas. As, el contraste de hiptesis quedara formulado como con
68 antihipertensivo
Pastor-Barriuso R. sea eficaz.
x 0
Distribuci n de t = bajo H 0 : = 0
s
n
tn-1
central de la muestra
Figura sirven tanto
5.4 Valor para elresumir
P para losbilateral
contraste resultados
de la observados
media de unacomo para
poblacin.
medidas de tendencia central informan acerca de cul es el valor ms representativo
realizar inferencias acerca de los parmetros poblacionales : = 1,
H0correspondientes. A
Ejemplo 5.12 Supongamos que se pretende contrastar si la media poblacional del
na determinada variable o, dicho de forma equivalente, estos estimadores indican
colesterol
continuacin se describen HDL en los
los principales controles del
estimadores de laHEURAMIC es igualdea una
: 1. central
1tendencia 1 mmol/l mediante el test de
hiptesis bilateral
edor de qu valor se agrupan los datos observados. Las medidas de tendencia
variable.
Para ello, se obtiene una muestra de H 0 : = 1,
tamao n = 10 donde la media y desviacin
al de la muestra sirven tanto para resumir los resultados observados H1 : 1. como para
1.2.1 Media aritmtica tpica resultaron ser x = 1,20 y s = 0,30 mmol/l. A partir de estos datos se calcula
zar inferencias acercaPara
de los parmetros
ello, se obtiene poblacionales
una muestracorrespondientes.
de tamao n = 10Adonde la media y desviacin tpica
La media aritmtica, resultaron
denotada
el estadstico por x ,=contraste
ser del se1,20 ys=
define 0,30lammol/l.
como suma de A cada
partiruno
de estos
de losdatos se calcula el estadstico
Para
nuacin se describen del ello, se obtiene
los contraste
principales una muestra
estimadores de tamaocentral
de la tendencia n = 10 de donde
una la media y desviacin
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
ble. tpica resultaron ser x = 1,20 xy ,20 1 A partir de estos datos se calcula
s = 00,301mmol/l.
t= = = 2,11,
por n el tamao muestral y por xi el valor observado para s 0,30 i-simo, i = 1, ..., n,
el sujeto
el estadstico del contraste n 10
Media aritmtica
la media vendra dadaque pordetermina la diferencia estandarizada (dividida por el error estndar) entre la media
que determina
por x ,yse
muestral ella diferencia
valor predeterminadox 0 cada
estandariza 1 de
1,20 uno
(dividida porlos
el error estndar) entre la
edia aritmtica, denotada define como t =la suma de =0. La distribucin
= 2,11,muestral de este estadstico bajo
la hiptesis 1nula n H : = 1 seguir s 0,30
0 x1 + x 2 + ... + xaproximadamente una t de Student con 9 grados de
n1 n n
es muestrales dividida media
por el (n
libertad x =
muestral
nmero x
= dex
10 y=el valor
i observaciones predeterminado
1 = 9). nAs, sirealizadas..
la hiptesis 10
Si. La distribucin
fuera ciertamuestral
denotamos
0 nula (esto es, de este
si la verdadera
i =1
media poblacional fuera 1 mmol/l), la probabilidad de obtener una muestra de 10 sujetos
el tamao muestral ycon poruna
que xi elmedia
estadstico
determinavalor
bajola deobservado
hiptesispara
ladiferencia
colesterol nulaelHsujeto
superior 0: o
estandariza igual
i-simo,
a 1,20ipor
=(dividida
1 seguir =mmol/l
1,el..., n,
aproximadamente
(mayor
error una
o igual
estndar) tdesviacin
entredela que
La media es la medida de tendencia
la observada por lacentral
derecha)msoutilizada
inferior oy de msa fcil
igual 0,80 mmol/l (mayor o igual desviacin
edia vendra dada porquemedia la observada
Student con 9 grados
muestral xpor
y ella izquierda)
devalor
libertad (nsera
- 1 = 10 - 10.=La
predeterminado 9).distribucin
As, si la hiptesis
muestral nula fuera
de este
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
cierta (esto es, sixla +verdadera + media
x n H0: poblacional
1 n bajo
estadstico x 2 + ... nula
la1 hiptesis = 1 seguirfuera 1 mmol/l), la probabilidad
aproximadamente una t de
principal limitacin es que x =est
n
muy
x i = influenciada
n
por los
. valores extremos y, en este
de obtener una muestra de 10 sujetos con una media de colesterol superior o igual
70 Pastor-Barriuso R. i =1
inferior o igual a 0,80 mmol/l (mayor o igual desviacin que la observada por la
Contraste de hiptesis
izquierda) sera
P = P( x 1,20 | H0 ) + P( x 0,80 | H0 )
x 0 1,20 0 x 0 0,80 0
= P H 0 + P H0
s s s s
n n n n
fueronHDL
n los valores del colesterol estadsticamente
P =en
caso,
obtenidos significativos
2P(t
puede no
los9910 ser un(P
2,90)
primeros =
2{1
fiel 0,005),
reflejo
sujetos aportando
- (2,90)}
de
del suficiente
la=tendencia
0,004. centralevidencia
de la distribucin.
En este caso, aunque la diferencia entre el valor predeterminado y la media
Inferencia estadstica
La realizacin de una prueba de hiptesis presenta la misma estructura bsica para todos los
parmetros. En general, se calcula primero un estadstico del contraste, cuyo numerador
corresponde a la diferencia entre el valor observado en la muestra y el valor esperado bajo la
hiptesis nula, y cuyo denominador representa la variabilidad o error estndar de la estimacin.
El valor P se obtiene entonces como la probabilidad de obtener un valor del estadstico tanto o
ms extremo que el observado en el estudio, asumiendo que la hiptesis nula es cierta.
El contraste de hiptesis para un determinado parmetro est relacionado con su
correspondiente intervalo de confianza. Si se contrasta la hiptesis nula H0: = 0 frente a
la hiptesis alternativa bilateral H1: 0, el resultado ser estadsticamente significativo
para un nivel = 0,05 si el IC al 95% para no incluye el valor 0. Por el contrario, este
contraste no resultar estadsticamente significativo si el IC al 95% para contiene al valor
0. No obstante, ambos mtodos facilitan 1.2 MEDIDAS
informacin DEcomplementaria.
TENDENCIA CENTRAL El intervalo de
confianza aporta una medida de la magnitud y precisin en la estimacin del parmetro,
aunque no facilita el valor exacto de P Las o elmedidas
grado dedecompatibilidad
tendencia centralconinforman
una hiptesis
acercanula
de cul es el valor
de inters. El valor P s determina la compatibilidad de los datos con una determinada
hiptesis, pero no facilita una medida de de la
unamagnitud del parmetro
determinada variable o, odicho
asociacin
de formaobjeto de
equivalente, estos esti
estudio. En general, el uso de los contrastes de hiptesis como forma exclusiva de presentar
los resultados de un estudio est siendo ampliamente
alrededor cuestionado
de qu valor se agrupan enlosla datos
actualidad. La Las medidas
observados.
presentacin de los resultados de un estudio ha de consistir fundamentalmente en el
estimador puntual y el intervalo de confianza,
central dequela pueden
muestra completarse con el
sirven tanto para P deresultados
valor los
resumir la observa
hiptesis correspondiente.
realizar inferencias acerca de los parmetros poblacionales correspon
Ejemplo 5.14 En la primera muestra de tamao n = 10 del Ejemplo 5.7 se obtuvo una
media de 1,20 mmol/l y una desviacin tpica de
continuacin se0,30 mmol/l,
describen losde tal formaestimadores
principales que el IC alde la tendencia
95% para la media poblacional del colesterol HDL result ser (0,99; 1,41). Estos mismos
datos muestrales se emplearon en elvariable.
Ejemplo 5.12 para el contraste bilateral de la hiptesis
nula H0: = 1, obteniendo un valor P de 0,064. Ambos resultados son consistentes dado
que el IC al 95% incluye el valor preestablecido de 1 mmol/l para la hiptesis nula y, por
1.2.1 Media aritmtica
tanto, el contraste no resulta estadsticamente significativo para un nivel = 0,05.
En el Ejemplo 5.9, a partir de unaLamuestra
media aritmtica, n = 100 con
de tamao denotada por x ,=se1,09 mmol/l
define comoyla suma de cada
s=0,31 mmol/l, se obtuvo un IC al 95% para la media poblacional del colesterol HDL de
valores muestrales
(1,03; 1,15). El correspondiente contraste de H0: = 1dividida
frente apor
H1:elnmero de observaciones
1 se realiz en el realizada
Ejemplo 5.13, resultando un valor P de 0,005. En este caso, el valor 1 mmol/l queda fuera
de los lmites de confianza al 95%por ny,elen
tamao muestral ylos
consecuencia, xi el valor observado
porresultados para el sujeto i-
del test son
estadsticamente significativos.
la media vendra dada por
5.4.3 Errores y potencia de un contraste de hiptesis
1 n x + x 2 + ... + x n
x = xi = 1 .
Como se coment anteriormente, las hiptesis nunca pueden ser corroboradas n i =1 completamente,
n
quedando siempre un margen o probabilidad de error. La eleccin entre las hiptesis nula y
alternativa conlleva a alguna de las situaciones presentadas en la Tabla 5.1. Si se acepta la
hiptesis nula cuando sta es cierta, o si seLarechaza
media la
es hiptesis
la medidanula
de tendencia
cuando lacentral ms utilizada
alternativa es y de ms
cierta, se habr tomado una decisin correcta. Sin embargo, es posible cometer alguno de los
siguientes tipos de error en un contraste interpretacin.
de hiptesis: Corresponde al centro de gravedad de los datos de l
principal limitacin es que est muy influenciada por los valores extr
72 Pastor-Barriuso R.
caso, puede no ser un fiel reflejo de la tendencia central de la distribu
Contraste de hiptesis
P(error de tipo I) = P(rechazar H0 | H0 cierta)
P(error de tipo I) = P(rechazar H0 | H0 cierta)
= P(t tn-1,1-
Tabla 5.1 Resultados /2 | H0 en
posibles cierta) + P(t tn-1,
un contraste /2 | H0 cierta)
dehiptesis.
==P(t n-1,1-/2 | H0 cierta)
P(t t t +t P(t ) t=n-1,/2
) + P(t Realidad /2 | H0 cierta)
+ /2 = ,
n-1 n-1,1-/2 n-1 n-1,/2
Decisin H0 cierta H1 cierta
Aceptar H0 = P(tn-1 tn-1,1-Correcto /2) =detipo
/2) + P(tn-1 tn-1,Error /2 +II /2 = ,
es decir, la probabilidad
Rechazar H0
de cometer un error de
Error de tipo I
tipo I viene determinada
Correcto
de
esantemano
decir, la probabilidad
por el nivel dedesignificacin
cometer un error . As,depor tipo I vienepara
ejemplo, determinada
un test condeun
yy El error de tipo I consiste en rechazar la hiptesis nula cuando sta es, en realidad, cierta.
Como
antemano
nivel de se significacin
coment
por el nivel anteriormente,
de
=significacin . As,
0,05, laelprobabilidad
nivel por incurrir enpara
de significacin
de ejemplo, seunutiliza
un test
error para
de con
tipoclasificar
un
I los
resultados obtenidos en un test como significativos si el valor P , en cuyo caso se
rechaza
nivel
serde la0,05;
hiptesis
delsignificacin esto es,nula, ohiptesis
si=la0,05, como nonula
significativos
la probabilidad es cierta, de stasi Pse>rechazar
incurrir ,
en enun cuyo
error caso
de tipose acepta
errneamente I la
hiptesis nula. Con esta regla de decisin, puede comprobarse a partir de la Figura 5.4 que
en un
ser del 5%
0,05; de esto
los contrastes de hiptesis realizados
es cierta, sobre todas las posibles
P(error de tipoes, I) =si P(rechazar
la hiptesis nula
H 0 | H 0 cierta)
sta se rechazar errneamente
= P(t tn 1,1 /2 | H 0 cierta) + P(t tn 1 , /2 | H 0 cierta)
enmuestras
un 5% de dellos mismo tamao.
contrastes de hiptesis realizados sobre todas las posibles
EDIDAS DE TENDENCIA CENTRAL = P(tn 1 tn 1,1 /2 ) + P(t n 1 t n 1 , /2 ) = /2 + /2 = ;
muestras
es decir, la delprobabilidad
mismo tamao. delos cometer un error de tipo I viene determinada
Ejemplo 5.15 A partir de controles del EURAMIC se obtienen 1000de antemano por
muestras
didas de tendencia central informan acerca de cul es el valor ms representativo
el nivel de significacin . As, por ejemplo, para un test con un nivel de significacin
aleatorias
= 0,05, la deprobabilidad
tamao nde= los
10 dey,incurrir
en cadaen una undeerror
ellas,desetipo I ser
realiza del 0,05;deesto es, si la
el contraste
esEjemplo
determinada variable o, dicho
decir,
hiptesis la5.15
de A
forma
probabilidad
nula
partir
equivalente,
es cierta, de
sta
controles
se estos
cometer un
rechazar
del
errorEURAMIC
estimadores de tipoindican
errneamente I se obtienen
viene 1000 muestras
en undeterminada de
5% de los contrastes de
hiptesis
hiptesisrealizados
bilateral para sobre la todas
medialas posibles muestras
poblacional del mismo
del colesterol HDL tamao.
aleatorias
or de qu valor se agrupan losde tamao
datos n = 10 y,
observados. Las enmedidas
cada una dede ellas, se realiza el contraste de
tendencia
antemano por el nivel de significacin . As, por ejemplo, para un test con un
Ejemplo 5.15 A partir de los controles del EURAMIC se obtienen 1000 muestras
de la muestra sirvenhiptesis
tanto para
aleatorias bilateral
resumir
de tamao para la=media
los nresultados
10 y, en H0: una
poblacional
observados
cada = 1,09,
delellas,
como
de colesterol
para HDLel contraste de hiptesis
se realiza
nivel de significacin = 0,05,
bilateral para la media poblacional del colesterol HDL la probabilidad de incurrir en un error de tipo I
inferencias acerca de los parmetros poblacionales correspondientes. H1: 1,09, A
H0 : = 1,09,
ser del 0,05; esto es, si la hiptesis nula es cierta, sta se rechazar errneamente
acin se describen los principales estimadores de la tendencia H1 : central
1,09, de una
mediante el estadstico
en En
un este
5% de
mediante
ejemplo
ellos
ilustrativo,de
contrastes
estadstico
la hiptesis
hiptesis nula es ciertasobre
realizados ya que la media
todas poblacional
las posibles
e.
del colesterol HDL tamao.
en el grupo control x 1,09 es efectivamente = 1,09
mediante
muestras delel estadstico
mismo t = del EURAMIC ,
Media aritmtica s
mmol/l. Por lo tanto, se tom la decisin correcta 10 de aceptar H0 en el 94,4% de las
x 1,09
donde
ia aritmtica, denotada
Ejemplo por 5.15x ,yses A son
definelascomo
partir correspondientes
de los la suma
controlesde medias
t =cadadeluno yde,desviaciones
EURAMIC los tpicas muestrales.
se obtienen 1000 muestras En cada
muestras
donde x se
muestra, yy se rechazo
scalcula
son P como elHmedias
errneamente
laselcorrespondientes
valor reas bajo
0 (error ydedesviaciones
latipo
curvaI) en
de el restante
latpicas 5,6%, t9 que
muestrales.
distribucin para valores
10
muestrales dividida por
tanto
aleatoriasel onmero
ms
de de observaciones
distantes
tamao n de
= 0 que
10 y, enelrealizadas.
valor una
cada Si
observado denotamos
de se
designificacin
ellas, t, yrealiza
se decide rechazar ladehiptesis
el contraste
concuerda
En cada
nula casi
si Pmuestra, 0,05. perfectamente
se calcula
As, elcon
la hiptesis valor elnula
nivel
P se de
como el reaenbajo
acept la curva
un 94,4% = 0,05
dedelas
la muestras (944 de
tamao muestral ydonde
por
1000)xi elxyvalor observado
ysesrechaz
son las en unpara
5,6%
correspondientes el (56
sujeto i-simo,
1000). yi desviaciones
de medias = 1, ..., n, tpicas muestrales.
hiptesis bilateral
preestablecido parael la media
contraste. poblacional del colesterol HDL
distribucin t9 para valores tanto o ms distantes de 0 que el valor observado de t,
En este ejemplo ilustrativo, la hiptesis nula es cierta ya que la media poblacional del
a vendra dada por En cada muestra, se calcula el valor P como el rea bajo la curva de la
colesterol HDL en el grupo control del EURAMIC es efectivamente = 1,09 mmol/l. Por
y se decide rechazar la hiptesis nula H0:si P 1,09,
0,05. As, la hiptesis nula se acept
Ello error
tanto, de se tipo
tomIIlaconsiste
decisinencorrecta
aceptar de=
la aceptar H
hiptesis 0 encuando,
nula el 94,4% de las muestras
en realidad, es y se
distribucin
1 n
rechaz errneamentet 9 para
x + valores
x + ... + tanto
x
H0 (error o ms distantes de 0 que el valor
de tipo I) en el restante 5,6%, que concuerda casiobservado de t,
en
x =un 94,4%
perfectamente
x i =de1 las muestras
con el
2
El balance
entre 1991 yentre1992lasenprobabilidades
ocho pases de un error
Europeos e de tipo
Israel para I yevaluar
tipo II el puede
efecto observarse
los en
0 z1 / 2 / n 0 + z1de
/ 2 / n
aumenta, disminuye
predeterminado . En la prctica,
(tpicamente = 0,05)laeestrategia
intentar minimizar o, deforma
habitual es fijar en el nivel
equivalente,
74 Pastor-Barriuso R.
predeterminado (tpicamente
maximizar la potencia =contraste.
1 - del 0,05) e intentar
Para minimizar o, dedeforma
fijo, la potencia equivalente,
1 - depende de la
TENDENCIA CENTRAL
0 -de
dencia central informan acerca /2/es n
z1-cul 0 +
< x <ms
el valor z1-variable.
/2/ n ;
representativo Contraste de hiptesis
predeterminado
edida de tendencia(tpicamente = 0,05)y edeintentar
central ms utilizada minimizar estudio
ms fcil o, de forma equivalente,
European Study on Antioxidants, Myocardial Infar
esponde al centro
maximizar de gravedad
la potencia 1 - deldecontraste.
los datos Para
de la
muestra.
fijo, laSu
potencia de 1 -
the Breast (EURAMIC),
depende de un
la estudio multicntrico de casos
/2 /2
es que est muy influenciada por los valores extremos y, en este entre 1991 y 1992 en ocho pases Europeos e Israel para ev
0 z1 / n 0 + z
1 / 2 / n 0 1 / 2
~ N ( , 2 / n)
H1 : x ~ N ( , 2 / n)
H0 : x 26
n este y en los sucesivos ejemplos sobre estimadores muestrales, se
1 0
1 0 z1 / 2 / n5 0 0 + z1 / 2 / n
(b)
Figura 5.6 Errores de tipo I y II para una mayor diferencia 0 1 (a) y para un mayor tamao muestral n (b).
Figura 5.6
Pastor-Barriuso R. 75
S DE TENDENCIA CENTRAL
Inferencia estadstica
superposicin
e tendencia central informan de las distribuciones
acerca nula yms
de cul es el valor alternativa de x , que est a su vez
representativo
ritmtica yyEl
Elerror
error estndar
estndar / n . Al Al aumentar
aumentareleltamao muestraln,n,disminuye
tamaomuestral disminuye el el
error estndar de la
error
media muestral y, en consecuencia, la variabilidad de las distribuciones nula y alternativa de
x .,As,
mtica, denotada por estndar para
de laun
se define comonivellamuestral
media de significacin
suma de y,
cada predeterminado,
uno de los
en consecuencia, la potencia
la variabilidad de del
las contraste aumenta
conforme aumenta el tamao de la muestra (Figura 5.6(b)). Esta relacin puede utilizarse
ales dividida por el nmero
tanto para de observaciones
distribuciones calcular realizadas.
nula ylaalternativa
potencia de
deun xSi denotamos
.contraste
As, parauna vez determinado
un nivel el tamao
de significacin muestral,
como para estimar a priori el tamao muestral necesario para una determinada potencia.
o muestral y por xi elpredeterminado,
valorltimo
Este observado
puntolapara
se el sujeto
discutir
potencia i-simo,
delcon mayoridetalle
contraste = 1, ...,enn,conforme
aumenta el Tema 9 aumenta
de determinacin
el tamaodel tamao
muestral.
a dada por de la muestra (Figura 5.6(b)). Esta relacin puede utilizarse tanto para calcular la
Ejemplo 5.16 A partir de los controles del EURAMIC se obtienen 1000 muestras
potencia
1 aleatorias
n
xde+de
un contraste
+ ... + x nn una
x 2 tamao = 10,vez25determinado
y 100 y, enelcada tamao unamuestral,
de ellas, como para el contraste
se realiza
x = xi = 1 .
n i =bilateral
1
de lasn hiptesis nulas H0: = 1 y 1,05 mmol/l para la media poblacional del
estimar a priori
colesterol HDL. el Para
tamao cada muestral
muestranecesario paraeluna
y contraste, determinada
valor potencia.
P se calcula segn Este
los mtodos
del Apartado 5.4.2 y la hiptesis nula se rechaza si P 0,05. En la Tabla 5.2 se presenta
ltimo
la medida de tendencia puntoms
central
el porcentaje se discutir
utilizada
de muestras con
y demayor detalle en significativos
ms resultados
con fcil el Tema 9 de determinacin del tamaos
para los distintos
muestrales e hiptesis nulas.
tamao
Corresponde al centro muestral. de los datos de la muestra. Su
de gravedad
En este caso, ambas hiptesis nulas son falsas dado que la verdadera media del colesterol
acin es que est muyHDL en los controles
influenciada del estudio
por los valores EURAMIC
extremos es 1,09 mmol/l. As, los porcentajes de la
y, en este
Tabla 5.2 representan [Figuravalores empricos de la potenciaaqu]
5.6 aproximadamente de cada contraste. Para una desviacin
subyacente de = 1,09
ser un fiel reflejo de la tendencia central0 de la distribucin. 1 = 0,09 mmol/l entre el verdadero nivel medio de colesterol
HDL y el valor nulo, la potencia result ser del 11,2% para n = 10, 26,9% para n = 25 y
85,7% para n = 100. Para una desviacin de 0 = 1,09 1,05 = 0,04 mmol/l, la potencia
Ejemplo
se redujo5.16
1.4 En este y en los sucesivos A 5,0%
ejemplos
a un partir de los
sobre
para controles
estimadores
n= 10, 8,0% del EURAMIC
muestrales,
para n = 25 se yse obtienen
23,0% para1000 muestras
n = 100. Como puede
apreciarse, slo se alcanza una potencia aceptable para detectar una diferencia de 0,09
aleatorias
n los valores del colesterol
mmol/l HDL de obtenidos
con tamao
un tamao n en
= muestral
10,los25
10yprimeros
100100,
de y, enmientras
cada una
sujetos del desera
que ellas,necesaria
se realizaunael muestra mayor
para poder detectar una diferencia de 0,04 mmol/l.
contraste
European Study on Antioxidants, bilateral de las hiptesis
Myocardial Infarction nulas 0: = 1of
andHCancer y 1,05 mmol/l para la media
5.5 REFERENCIAS
st (EURAMIC), unpoblacional del colesterol
estudio multicntrico HDL.yPara
de casos realizadoy contraste, el valor P se
cada muestra
controles
1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
calcula
91 y 1992 en ocho pases segn los
Europeos
Englewood
mtodos
e Israel
Cliffs, paradel Apartado
evaluar
NJ: Prentice
5.4.2de
Hall,el1977.
efecto loshiptesis nula se rechaza si P
y la
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole,
2001. 5
3. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
27
76 Pastor-Barriuso R.
Referencias
4. Lehmann EL. Testing Statistical Hypotheses, Second Edition. New York: Springer Verlag,
1997.
5. Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer
Verlag, 1998.
6. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
7. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.
8. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
9. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
Pastor-Barriuso R. 77
TEMA 6
6.1INTRODUCCIN
En el presente tema se revisan las tcnicas bsicas de inferencia a partir de datos de carcter
cuantitativo. En la mayor parte de las ocasiones, la inferencia sobre variables cuantitativas se
centra en el estudio de parmetros subyacentes tales como la media y la varianza poblacional.
A partir de los datos obtenidos en muestras aleatorias y utilizando los principios de inferencia
descritos en el tema anterior, se pretende dar respuesta a los siguientes tipos de problemas:
yy La estimacin de la media y la varianza de una poblacin.
Ejemplo 6.1 Supongamos que los controles del estudio EURAMIC constituyen una
muestra representativa de la poblacin de referencia del estudio. A partir de los valores de
colesterol HDL obtenidos en los controles, cul es la estimacin y el intervalo de
confianza al 95% para la media y la varianza del colesterol HDL en la poblacin de
referencia? Son estos datos muestrales compatibles con una verdadera media poblacional
de 1 mmol/l?
Ejemplo 6.3 En un estudio de casos y controles sobre el efecto del colesterol HDL en
el riesgo de desarrollar infarto de miocardio, cada caso se emparej por grupo de edad y
sexo a un control libre de la enfermedad. En este caso, las medias de colesterol HDL de
los casos y de los controles no pueden analizarse como medidas procedentes de muestras
independientes, ya que es esperable un cierto grado de correlacin entre los valores de
Pastor-Barriuso R. 79
Inferencia sobre medias
colesterol HDL en cada pareja caso-control. Cmo contrastar entonces si existe una
asociacin significativa entre el nivel de colesterol HDL y la ocurrencia de un infarto de
miocardio?
Para evaluar la eficacia de un frmaco antihipertensivo, se seleccionaron 50 pacientes
hipertensos y se administr a todos ellos dicho frmaco durante 4 semanas. La presin
arterial sistlica de cada paciente se determin tanto al comienzo del estudio como
despus de las 4 semanas de tratamiento. En tal caso, los valores medios de presin arterial
antes y despus del tratamiento no son independientes, ya que los datos recogidos en un
mismo paciente estn correlacionados. En estas circunstancias, cmo estimar la reduccin
media de presin arterial sistlica al administrar dicho tratamiento?
1.2 MEDIDAS DE TENDENCIA CENTRAL
Para cada uno de estos problemas, se facilitan las tcnicas de inferencia apropiadas para
Las medidas
obtener estimaciones puntuales y por intervalo de tendencia
del parmetro central objeto
poblacional informan acerca deascul es el valor
de estudio,
como para el contraste de hiptesis preestablecidas. Estos procedimientos van a permitir inferir
de una determinada
los resultados del estudio al mbito poblacional variable
de forma clara o, dicho de forma equivalente, estos estim
y sucinta.
2
grados de libertad,
chi-cuadrado aumenta
determinan su la media ycentral,
tendencia la varianza de la distribucin yaldisminuye su
6 del Apndicedispersin y asimetra: aumentar
de la los
5
y n 1,1 / 2 ,
2
1.2 MEDIDAS DE TENDENCIA CENTRAL
y /2 2de la distribucin chi-cuadrado con n - 1 grados 2de2 libertad, denotados por n21, / 2
A partir de
n 1,1 / 2 ,
la distribucin 2
n1 del estadstico (n 1)s / resulta sencillo calcular un intervalo
de confianza para la varianza Las medidas
poblacional. (n 1El de tendencia
) s 100(1
2 )% central
de lainforman
distribucin acerca de culdeeseste
muestral el valor ms repre
y 2
, P 2
< < 2
= 1 .
estadstico
n 1,1est
/ 2 comprendido entre los percentiles 12)2s 2 /2 y 1 /2 de la distribucin chi-cuadrado
n 1, / 2 n 1 ,1 / 2
diferencia de los intervalos de confianza para , que estn centrados alrededor de x , los
la media vendra
2 (n dada
1) s 2por
=
2
, 6
0
1 n x + x 2 + ... + x n 6
x = xi = 1 .
que bajo H sigue una distribucin chi-cuadrado con n - 1 n i =1 de libertad. As,
grados n el
82 Pastor-Barriuso R. 0 6
84 Pastor-Barriuso R.
Comparacin de medias en dos muestras independientes
Tratamiento Placebo
trat plac
(a) Efecto constante
Tratamiento Placebo
6.3.1 Comparacin de medias en distribuciones con igual varianza
Si se asume que las varianzas poblaciones son iguales 12 = 22 , resulta natural estimar
(n1 1) s12 + (n 2 1) s 22
s2 =
n1 + n 2 2
n1 n2
( xi x1 ) 2 + ( x j x 2 ) 2
i =1 j =1
= .
n1 + n 2 2
El numerador de s2 es simplemente la suma de las desviaciones al cuadrado respecto de la
El numerador
media de s2 yeselsimplemente
de cada grupo, la corresponde
denominador suma de las desviaciones
al nmero dealgrados
cuadrado respectopara
de libertad de el
clculo de este estimador: n1 1 grados de libertad en la primera muestra y n2 1 en la segunda,
(n1 la media
1) + (n2de cada
1) = ngrupo, y el denominador corresponde al nmero de grados de libertad
1 + n2 2.
la diferencia
distribucin detmedias
En la distribucin dex1 Student
poblacionales
x 2 ( con
muestral 1 den1la + n~ 2 1 -2grados
2 ) diferencia
2 comode libertad,
de medias, las varianzas desconocidas 12 y 22
t n1 + n2 2 .
pueden entonces sustituirse
de la diferencia de medias 1 por ya 1 la noestimacin
ser normal, combinada
sino quede la varianza
seguir s2. Sin embargo,
aproximadamente unacomo
s
esta estimacin s est sujeta al error + del muestreo, la~1distribucin de la diferencia de medias ya
n1 x1n2 xx12 xt 2n1 +n2(2,11 /2 2s)
2
1
nodistribucin
ser normal,t de sinoStudent
que seguir t n1 + n2 2, .
+ t de Student con n1 + n2 2
conMEDIDAS
1.2 naproximadamente
1 + n2 1 2 DE grados
1 TENDENCIA una
de distribucin
n1libertad, n 2 CENTRAL
grados de libertad,
1.2 MEDIDAS DE TENDENCIAn1CENTRAL s +
n2
A partir de este resultado, y siguiendo un procedimiento anlogo al1.2
1.2 MEDIDAS utilizado
MEDIDAS para una
DE TENDENCIA
DE TENDENCIA
que est centrado alrededorLas de medidas x 2 de( tendencia
lax1diferencia 1de 2 ) ~central
medias muestrales informan y cuyaacerca amplitudde cul CENTRALes el CENTRAL
valor ms represen
Las medidas de tendencia central informan t n1 + n2 2 .
media (Apartado 5.3.2),
A partir depuede derivarse
este resultado, un intervalo
y siguiendo 1 un 1 acercaalde100(1
de confianza
procedimiento
cul es
anlogo - el )% valor ms representativo
al para
utilizado para una
de una determinada s + variable o, dicho detendencia
forma equivalente, estos estimadores indic
depende de su error estndar SE( x1 - xn2 1) = sn 2 1 / n1 + 1 / n 2 . Notar que este central Las medidas
Las medidas de de tendencia intervalocentral
informan
es informan acerca acerca
de cul de es
c
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
la diferencia demedia
medias poblacionales
(Apartado 5.3.2),alrededor1 - 2 como
puede derivarse
de un un
quprocedimiento
valor intervalo
se unaagrupan de confianza
los datos 100(1 - )%
alobservados. Las para medidas de tendencia
A partir de este resultado, y siguiendo de dedeterminada
una
anlogo determinadaal variable
utilizado variable
o,
paradichoo,
una dicho
de forma
media de forma
equivalente,
equivale
una generalizacin
alrededor de puedebastante
qu valor natural
se agrupan del intervalo
los datos para la media de una poblacional.
(Apartado
Alapartir 5.3.2),
de este deresultado, derivarsey siguiendo un intervalo un deobservados.
procedimiento confianzaanlogo alLas100(1medidas )%depara
al utilizado tendencia
la diferencia
para una
diferencia medias poblacionales
central de la 1 - 2 como
muestra sirven
alrededor tanto
alrededor de paraqu deresumir
valor
qu valor
se los resultados
agrupan
se agrupanlos datosobservados
los datos como Las
observados.
observados par
de medias poblacionales 1 2 como 1 1
x 1 x 2 t
central de la muestra sirven tanto paran + n 2 ,1 / 2 s + resumir , los resultados observados como para
del - )% para
1 2
media (Apartado
Ejemplo 6.7 En 5.3.2),el estudiopuedeEURAMIC, derivarse n1 un nla2intervalo
media y la dedesviacin
confianza tpica al 100(1
realizar inferencias acerca central de 1los
central
de la parmetros
1demuestra
la muestra poblacionales
sirven sirven
tantotanto paracorrespondientes.
resumir
para resumir los A
los resultadosresul
realizar inferencias acercax1de los x 2 parmetros
t n1 + n2 2,1 / poblacionales
2 s + , correspondientes. A
colesterol HDL
la diferencia los nca = 462 casos
entrepoblacionales - 2decomo infarto 1 de n
ncuya miocardio fueron x ca =
que est centrado alrededorde demedias
la diferencia continuacin de medias se1muestrales
describen realizarlos principales
yrealizar amplitud
2
inferenciasinferencias estimadores
acerca de losdeparmetros
acerca la
lostendencia
parmetros central
poblacionales de unc
poblacion
continuacin se describen los principales
que est centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de estimadores de la tendencia central de una
0,98 y sca = 0,25 mmol/l, y entre los nco = 539 controles fueron seyxdescriben
co = 1,09 y sco =
que est
depende de su error centrado
estndar x1 xvariable.
SE(alrededor 2 ) =de s la1 /diferencia
n1 + 1 / n 2 de continuacin
medias
. Notar continuacin
1 muestrales
que este1 se describen
intervalo cuya es unalos principales
amplitudlos principales
generalizacin estimadores
estimadores de la dt
variable.
bastante natural del intervalo para x 1 x
la2media t n1 + nde 2 2 ,una s
1 / 2poblacin. + ,
0,29 mmol/l. De estos datos se deduce que la n1 n 2 puntual de la diferencia
estimacin
una generalizacindepende de sunatural
bastante error estndar
del1.2.1 intervalo SE(
Media xpara xla
1 - aritmtica = s variable.
2 ) media / n1una
1 de variable. n 2 . Notar que este intervalo es
+ 1 /poblacional.
Ejemplo
1.2.1
en el Media
nivel 6.7 En el
aritmtica
medio deestudio
colesterol EURAMIC, HDL es la x camedia
- x co y=la0,98 desviacin
- 1,09 =tpica -0,11del colesterol
mmol/l. Si HDL
que est
entre centrado
los n
una generalizacin ca = alrededor
462 casosLa de
media
de la diferencia
infarto
bastante natural del intervalo aritmtica,
de de
miocardio medias
denotada
1.2.1
para fueron
1.2.1
Media muestrales
por Media
la media x , se
=
aritmtica
ca de 0,98 y
define cuya
aritmtica y s
como
una poblacional.
ca
amplitud
= la
0,25 suma
mmol/l, de cada y uno de los
Ejemplo 6.7La En el
media
entre estudio
los naritmtica, EURAMIC,
= 539 controles denotada la
fueronmedia
por x co, se y la
= 1,09 desviacin
define y scomo = 0,29 tpica
la suma del
mmol/l. de De cada unodatos
estos de los se deduce
asumimoscouna misma variabilidad del colesterolco HDL en casos y controles, la
que ladeestimacin
depende su error estndar valores
puntual de muestrales
SE(laxdiferencia
1 - x 2 ) = en dividida
s La el nmedia
1 /nivel por
1 La
+ 1medio el
media nmero
/ aritmtica,
n 2 . de aritmtica,
Notar de
colesterol
que observaciones
denotada denotada
esteHDL pores xpor
intervalo realizadas.
ca, se
esxdefine
, se
co = defineSi denotam
como como
la sum l
colesterol HDL
valores
0,98
es entre
Ejemplo
1,09
decir, los
la = n
6.7
muestrales 0,11=
desviacin 462
caEndividida
elmmol/l.casos
estudio
tpica por de
Si infarto
EURAMIC,
el nmeroesde
asumimos
combinada de miocardio
la
una
s media
=observaciones
misma
0 , 074 fueron
y lavariabilidad
=desviacin
0,272 x =
realizadas.
cammol/l, tpica
del Si del
cuyodenotamos
colesterol HDL en
varianza combinada de ambas muestras vendra determinado por
una casos y controles,
generalizacin la varianza
bastante n el combinada
por natural tamao muestral
del intervalo de ambas y por
valores
para valores ximedia
muestras
la el muestrales
muestrales valor deobservado
vendradividida dividida
unadeterminado porpara
poblacional. elpor elpor
nmerosujeto
el nmero dei-simo, i = 1, ..
observaciones
de observaci
0,98 y sca =por
0,25 n mmol/l,
colesterol
valorelest
tamaoms y entre
HDL muestral
prxima los nalos
entre ycolapor =ndesviacin
539
ca controles
x=i el462 valor casos fueron
de
observado
tpica infarto
observada xpara
code =enel
1,09
miocardio
sujeto
los y scoi-simo,
controles =fueron quei enx=ca1,=..., n,
la media vendra
2
(n ca 1) s ca + (n co 1) s conpor dada por 2
n el tamao
el tamao muestral muestral y poryxpor xi el valor
i el valor observado
observadopara elpa
s2 =
0,29 mmol/l. la De
media
los estos
0,98 yvendra
casos ca
Ejemplo s datos
=
(mayor 0,25 dada
se
6.7 En tamao deduce por
mmol/l,
el estudio quey
muestral la
entre
n ca + de
EURAMIC, estimacin
los
n colos n
co = puntual
539
2primeros).
la media As, controlesde la diferencia
fueron
el error estndar
y la desviacin x = 1,09
tpicadedel
co y
la co s =
es decir, la desviacin tpica combinada es sla=media la
0,074 media
vendra
12 = n vendra
0,272 dada dada
por
mmol/l, por
cuyo
x + x 2 + ... + x n
2
(462 ca1se )-0x,deduce
25 +0,98(539 1estimacin
) 0x=,= 29 xpuntual
= 1 Si
en el nivel medio demmol/l.
diferencia
0,29
colesterolcolesterol
de
HDL medias HDL
Deentre estos
=puede es
losdatos nxcalcularse
ca 1 = 462 n =
co como
casos que - 1,09 -0,11
x1 + x 2 + ... +n xi==n1 0,074; de
de lainfarto de mmol/l.
miocardio
i x ca .=
la diferencia
fueron
n
valor est ms prxima a la desviacin x = 462 +xi539 = 2
n i =1 tpica observada n en.los controles que 1enn 1 n x1 + xx21 + ... x 2++x...
n +
asumimos una0,98 misma
en variabilidad
ely nivel medio de del colesterol
colesterol HDL HDL es en
x cacasos
- x co y=controles,
0,98 - 1,09 la = -0,11 = x
xmmol/l. = xSi i = xi = .
es decir,sla
es decir, = 0,25 mmol/l,
ca desviacin
la desviacin
SE( xtamao
tpica
tpica ycombinada
entre 1 los1nco
combinada es=s 539 = controles
0 , 1 =10,272
074 fueron x co = cuyo
mmol/l, 1,09 sn =
n yivalor
=1 co i =est n n
ca - x co La)muestral
=medias es +lalos medida = 0,272 de tendencia + el error = 0,017.
central ms utilizada
de la y de ms fcil 1
los casos (mayor de primeros). As, estndar
ms
varianza combinada prximo
de ambas a la desviacin
muestras tpica
n ca observadan en los
462 controles
539 que en los casos (mayor
La media
asumimos esuna la medida
misma de vendra
tendencia
variabilidad determinado
central
co
del colesterolmspor utilizada
HDL en ycasos de ms fcil
y controles, la
0,29 est
tamao
valor mmol/l.
muestral
ms De deestos
prxima los a datos
primeros).
la se deduce
desviacin As, eltpicaque observada
error laestndar
estimacin de en puntual
lalosdiferencia
controles de de laque
diferencia
mediasen 12 puede
interpretacin.
diferencia de medias puede calcularse como La media Corresponde al centro
La media de
es la es gravedad
medidala medida de
de tendencia los
de tendenciadatoscentral decentral
lams
muestra.
utilizada
ms util Su
calcularse
interpretacin. como Corresponde al centro de gravedad deerror
los datos de la muestra. Su
Avarianza
partir decombinada 2 de ambas muestras vendra determinado por
encasos
los els nivel (nlamedio
2 (mayor
diferencia
) sde
ca 1tamao ca + (de
colesterol
medias
nmuestral
co 1) sHDL
2 muestrales
code los es x
y de su
ca - x co As,
primeros). = 0,98 el
estndar,
- 1,09
error =
y teniendo
estndar-0,11 mmol/l. Si extremos
= principal limitacin es que est
interpretacin. muy
interpretacin. influenciada
CorrespondeCorresponde al de
por losal lavalores
centro centro
de gravedad
de gravedad y,
deen loses
ded
en cuenta
principal que
limitacin la n caes +
distribucinn
que co
est 2 t de
muy1 Student 1
influenciada con n +
por n 1 los 2 =1
valores999 grados
extremos de y, en este
SE( x ca x co ) = (n cascalcularse ) s+ca2ser
n1cano +cocomo = 0,272
ncolesterol
(un
ca
1reflejo2
) sprincipal
co + = 0,017.
asumimosdeuna
diferencia medias misma s 2 variabilidad
puede
caso, = 2 puede ndel 2fiel
co
principal co 462 HDL de
limitacin en
539
la casos
tendencia
limitacin es que y es controles,
central
est
que muy de la
est la
muy distribucin.
influenciada
influenciadapor los porval
lo
(462 1) 0,25 + (539 1) 0,29
libertad
caso, puede =es novirtualmente
ser un fielidntica reflejo de n acauna + n 2
distribucin
la tendencia
co = 0,074 centralnormal
; de estandarizada,
la distribucin.el IC al
Avarianza
partir de combinada
la diferencia 462 de de
+ambas medias
539 muestrales
2muestras y de su
vendra error estndar,
determinado por y teniendo en cuenta
1) muestrales 1 caso,caso, puede 1 puede
no2 ser1 nounser fielunreflejo
fiel reflejo
de la de tendencia
la tendenciacentral centra
de l
A
que partir
la de la
distribucin diferencia t de de
Student ( medias
462 con 0n , 25 + 2
n+ (
539 y
2 de
= su
999
1 ) 0 error
, grados
29 estndar,
de libertad y teniendo
es virtualmente
95% para SE( ca - xcoca viene
- x co=)dado =Ejemplo
s por +1.4 ca En= coeste
0,272 y en los +sucesivos = 0 , ejemplos
= 0,017.
074 ; sobre estimadores muestral
idntica a una distribucin
Ejemplo 1.4 En este ynormal en los n caestandarizada,
462 n co+ 539ejemplos
sucesivos 2el2 IC 462 alsobre
95% para ca comuestrales,
539estimadores viene dado se por
2
en cuenta que la distribucin 2 ( n t de 1 ) s
Student
utilizarn los valores del
ca ca + ( n con
co 1
n )
cas +
co n
colesterol
Ejemplo co 2
Ejemplo = 999
1.4 HDL En grados
1.4este En de
obtenidos
yeste y enen
en los lossucesivos
sucesivos
los 10 primeros
ejemplos sujeto
ejemplos
sobre
x ca s x=co t999;0,975 n +SEn( x ca 2 x co ) 12
utilizarn
A partiresdevirtualmente los valores
la diferenciaidntica de = delmediascolesterol
ca co HDL obtenidos en los 10 primeros sujetos del
muestrales y =de(normal
su error estndar, y teniendo
libertad estudio 0,11a unaEuropean distribucin
1,960,017 Study 0,14; estandarizada,
onutilizarn
utilizarn 0,08).
Antioxidants, delelcolesterol
Myocardial IC al Infarction andobtenid
Cancer
2 2 los valores los valores del colesterol HDLHDL obtenidos en
estudio European (
Study 462
on 1 ) 0 , 25
Antioxidants, + ( 539 1 )
Myocardial 0 , 29 Infarction and Cancer 12
of
en cuenta = t de Student con nca + nco 2 == 999 0,074 ;
95% para que la distribucin
ca - co viene dado the por Breast + 539 2estudio
462(EURAMIC), un estudio
estudio
European
grados
multicntrico
European
de
StudyStudy on de on casos
Antioxidants, y controles
Antioxidants, Myocardialreali
Myoca
De lostheresultados
libertad Breast
es virtualmente(EURAMIC),
del estudio idntica una estudio
EURAMIC una distribucin multicntrico
puede entonces normal de casos
concluirse y que
estandarizada, controles
el nivel
el IC realizado
al
86 Pastor-Barriuso R.
entre 1991
x ca - x co t999;0,975 SE( x ca - x co )the Breasty 1992 en ocho pases
the Breast Europeos
(EURAMIC),(EURAMIC),e Israelun para un evaluar
estudio estudio el efecto de
multicntrico
multicntric
medio de 1991 colesterol HDL en los pases
casos de infarto es inferiorpara en 0,11 mmol/l al de los
95% entre
para ca - yco1992 vieneendado ocho por Europeos e Israel evaluar el efecto
= -0,11 1,960,017 =entre (-0,14;entre
1991 1991
y 1992
-0,08). y 1992en ocho en ocho
pasespases 12 Europeos
Europeos e Israel e Isra
pa
medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al
Comparacin de medias en dos muestras independientes
nivel medio de los sujetos libres de la enfermedad, estando esta diferencia
que sigue aproximadamente una distribucin t de Student con n1 + n2 - 2 grados de
comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%.
De los resultados del estudio EURAMIC puede entonces concluirse que el nivel medio de
libertad si la hiptesis nula H0: 1 = 2 es cierta. Por tanto, el valor P se obtiene como el
colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al nivel medio de los
En el caso
sujetos de la
libres decomparacin
la enfermedad, de medias
estandoentre
esta dos poblaciones,
diferencia la hiptesis
comprendida entrenula
0,08ms
y 0,14
rea bajo la distribucin t n1 +n2 2 para valores ms extremos que el valor observado de t.
mmol/l con una confianza del 95%.
natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta
Esta prueba de hiptesis se conoce genricamente como el test de la t de Student para
En el caso de la comparacin de medias entre dos poblaciones, la hiptesis nula ms natural
hiptesis nula H0: 1 = 2 frente a la hiptesis alternativa bilateral H1: 1 2 a partir de
es la igualdad
muestras de ambas medias
independientes con igualpoblacionales.
varianza. Para realizar el contraste de esta hiptesis nula
H0: 1 = 2 frente a la hiptesis alternativa bilateral H1: 1 2 a partir de dos muestras
dos muestras independientes de igual varianza, se emplea el siguiente test estadstico
independientes de igual varianza, se emplea el siguiente test estadstico
Ejemplo 6.8 Un nivel medio de colesterol HDL significativamente ms bajo en
x1 x 2 x1 x 2
t= = ,
los casos de infarto que en losSE ( x1 libres
sujetos x 2 ) de enfermedad
1 1 sera compatible con
que sigue aproximadamente una distribucin t de Student con ns 1 + n+ - 2 grados de
n1 2 n 2
la hiptesis de que el colesterol HDL es un factor protector en el infarto de
libertad si laque
hiptesis nula H0: 1 = 2 esuna
sigue aproximadamente cierta. Por tanto,t de
distribucin el valor P secon
Student obtiene
n1 + ncomo el
2 2 grados de libertad si
la hiptesis
miocardio. H0:este
nula En 1 =ejemplo,
2 es cierta. Por tanto,
se pretende el valor
contrastar estaP hiptesis
se obtiene comode
a partir el los
rea bajo la
rea bajo la distribucin t n1 +n2 2 para valores
valores ms msextremos
extremosque queelelvalor
valor observado
observado t. t. Esta prueba de
de de
niveles
hiptesis de colesterol
se conoce HDL observados
genricamente la tcasos
como el testendelos de Student para muestras
y controles del estudio 13
independientes
Esta prueba con igual varianza.
de hiptesis se conoce genricamente como el test de la t de Student para
EURAMIC. El resultado de este contraste, junto con la estimacin puntual y por
muestras independientes
Ejemplo con 6.8igual varianza.
Un nivel medio de colesterol HDL significativamente ms bajo en los
intervalo
casos de infarto que enellos
obtenida en ejemplo
sujetosanterior,
libres depermiten evaluar
enfermedad seranocompatible
slo la con la hiptesis
de que el colesterol HDL es un factor protector para el infarto de miocardio. En este
Ejemplo 6.8significacin
Un nivelse
ejemplo, medio de colesterol
estadstica
pretende contrastar HDL
estasignificativamente
sino tambin la relevancia
hiptesis mslos
clnica
a partir de y bajo en pblica
deniveles
salud del HDL
de colesterol
observados en los casos y controles del estudio EURAMIC. El resultado de este contraste,
los casos dehallazgo.
infarto
junto que
con la en los sujetos
estimacin libresyde
puntual enfermedad
por sera compatible
intervalo obtenidas con anterior, permiten
en el ejemplo
evaluar no slo la significacin estadstica sino tambin la relevancia clnica y de salud
la hiptesis Asumiendo
de que eldel
pblica colesterol
igualdadHDL
hallazgo. es un factor
de varianzas protector enelelcontraste
poblacionales, infarto debilateral de la
Asumiendo
miocardio. En igualdad
este ejemplo,H0se de varianzas
: pretende poblacionales,
contrastar elelestadstico
contraste
esta hiptesis a partir bilateral
de los de la hiptesis nula
hiptesis nula ca = co se realiza mediante
H0: ca = co se realiza mediante el estadstico
niveles de colesterol HDL observados en los casos y controles del estudio
x ca x co 0,11
t= = = 6,35.
SE (junto
EURAMIC. El resultado de este contraste, x ca con
x co ) la estimacin
0,017 puntual y por
Si ambas medias poblacionales fueran iguales, la distribucin de este estadstico sera t999 o
intervalo obtenida
Si ambasen medias
el ejemplo anterior, permiten
poblacionales fueran El evaluar la
iguales, nodistribucin
slo la de este estadstico
aproximadamente normal estandarizada. valor P bilateral se obtiene entonces como el doble
de la probabilidad a la izquierda de 6,35 en la distribucin normal estandarizada, que corresponde
significacinsera
estadstica sino tambin la relevancia clnica y de salud pblica del se obtiene
a P < t0,001.
999 o aproximadamente normal
As, puede concluirse estandarizada.
que existen El muy
diferencias valor P bilateral
significativas en el nivel medio
de colesterol HDL entre los infartados y los sujetos libres de enfermedad. Esta diferencia
hallazgo. entonces como el doble de la probabilidad a la izquierda de -6,35 en la
significativa es perfectamente consistente con el intervalo de confianza calculado en el ejemplo
anterior,
igualdadpuesto
Asumiendo distribucin que stepoblacionales,
de varianzas no contena al cero (valor nulo
el corresponde
contraste para la de
bilateral diferencia
la As,depuede
medias).
normal estandarizada, que a P < 0,001.
hiptesis Los
nulamtodos
H0: ca descritos en este apartado
co existen
=que se realiza mediantepueden extenderse a la comparacin de tres o ms medias
el estadstico
poblacionales. Las tcnicas para comparar medias en mltiplesen
concluirse diferencias muy significativas el nivelindependientes
muestras medio de se conocen
con el nombre de anlisis de la varianza de una va y pueden consultarse en los libros referenciados
colesterol
al final HDL
del tema. entre los
x coinfartados
x ca estos y los sujetos
- 0,11 no selibres
tratandeexplcitamente
enfermedad. Esta
t Aunque
= procedimientos
= = -6,35. en este texto, la
comparacin de mltiplesSE (medias
x ca xacopartir de datos independientes tambin puede abordarse mediante
) 0,017
los modelos de regresin lineal que se presentarn ms adelante (Temas 10 y 11).
14
Si ambas medias poblacionales fueran iguales, la distribucin de este estadstico
Pastor-Barriuso R. 87
sera t999 o aproximadamente normal estandarizada. El valor P bilateral se obtiene
distribuyen
en ambascomomuestrasuna independientes,
chi-cuadrado con se nobtiene n2 1 grados de libertad, respectivamente.
1 1 yque
Combinando
A la derechala distribucin de estosseestadsticos
de esta expresin en ambas
tiene el cociente de muestras independientes,
dos variables se obtiene
independientes chi- que
A la derecha de estacuadrado
expresin se tiene por
divididas el cociente des12 dos
sus respectivos / 12variables
n2 1de
grados /(independientes
nlibertad,
1 1) que sechi-conoce como la
2 2
~ 2
1 .
s 2 / 2 n2 1 /(n 2 1)
uadrado divididas distribucin
por sus respectivos grados de libertad,
F de Fisher con n1 - 1 grados que dese libertad
conoce como la
en el numerador y n2 - 1 en el
A la derecha de esta expresin se tiene el cociente de dos variables independientes chi-
istribucin F decuadrado
Fisher con n1 - 1 grados
divididas susderespectivos
pordenota libertad en el numerador y n2 que- 1 en2 el
denominador, y se por Fn1 1, n2grados de libertad, se conoce 2como
1 . As, la razn entre s1 / 1 y s 2 / 2 sigue una
2 2 la distribucin
15
F de Fisher con n1 1 grados de libertad en el numerador y n2 1 en el denominador, y
enominador, y se por Fn1 1, n2 1 . As, la razn entre ss112/
denota por
sedenota
2
/ 1212y ys22s/22 2/2sigue
2
2 sigue unauna
distribucin F con n1 1 y
distribucin F con n1 - 1 y n2 - 1 grados de libertad,
n2 1 grados de libertad,
istribucin F con n1 - 1 y n2 - 1 grados de libertad,
s12 / 12
2 2
~ Fn1 1, n2 1 .
s1 / 1
2 2 s 2 / 2
~ Fn1 1, n2 1 .
La distribucin F
2
s 2 de/ Fisher
2
2 toma slo valores positivos y est sesgada positivamente con un
valor La
msdistribucin
frecuente (moda)F de Fisher
menor toma de 1slo valores
y una media positivos
mayor ydeest sesgada
1. Al positivamente
aumentar los grados de
libertad del numerador y denominador, tanto la media como la moda se aproximan al valor 1
La distribucin Fcon
de Fisher toma slo valores positivos y est
deF1sesgada positivamente
(Figuraun valor
6.3). Losms frecuente
percentiles de(moda) menor
la distribucin dey Fisher
una media paramayor de grados
distintos 1. Al aumentar
de libertad del
numerador y denominador se presentan en la Tabla 7 del Apndice.
on un valor ms frecuente
los grados(moda) menordel
de libertad de numerador
1 y una media mayor de 1. Al
y denominador, aumentar
tanto la media como la moda se
os grados de libertad del0,8
numerador
aproximan al valory 1denominador,
(Figura 6.3). tanto la media como
Los percentiles
F 0,8lala
de moda se F de Fisher para F
distribucin
5,5 5,5
F5,10 F10,5
proximan al valor distintos
1 (Figuragrados
6.3). Los percentiles de la distribucin
F F de Fisher para F30,5
de libertad del numerador5,30y denominador se presentan en la Tabla 7 del
0,6 0,6
istintos grados de libertad
Apndice.del numerador y denominador se presentan en la Tabla 7 del
f(x) 0,4 0,4
Apndice.
0,2 [Figura 6.3 aproximadamente
0,2 aqu]
[Figura 6.3 aproximadamente aqu]
0 0
Ejemplo 6.9 Utilizando la Tabla 7 del Apndice, el percentil 97,5 de una
0 1 2 3 0 1 2 3
Ejemplo 6.9 Utilizando la TablaF7de
distribucin delFisher
Apndice,
con 5elgrados
percentil 97,5 de en
de libertad unael numerador y denominador
x x
distribucin F de Fisher
es F con 5 =
grados
7,15, de libertad
y (a)
para en el numerador
30 grados de libertadyendenominador
ambos es F (b) = 2,07.
5;5;0,975 30;30;0,975
es F5;5;0,975Figura
= 7,15,6.3 Funcin
yAunque
para de densidad
30esta
grados
tabladeno
libertad ambos Fesdeinferiores,
de la distribucin
facilitaenpercentiles FFisher al aumentar los grados de libertad del de-
30;30;0,975 = 2,07.
puede comprobarse que el
nominador (a) y del numerador (b). Figura 6.1
n1 n 2
6.3.3 As,
Comparacin
sustituyendode 1medias
2
por s12eny distribuciones
22 por s 22 en lacon distinta varianza
distribucin muestral de la
Aunque resulta complicado derivar la distribucin exacta de este estadstico, existen
Cuando las varianzas poblacionales son distintas, carece de sentido calcular una estimacin
diferencia de medias, se obtiene el estadstico
combinada
diversas de la varianza, yaque
aproximaciones quefuncionan
sta infraestimar
bien en la o sobreestimar la variabilidad
prctica. El mtodo especfica
ms utilizado es de
cada poblacin. En este caso, aun perdiendo algo de precisin, es preferible estimar porseparado las
121y por y x1 22sus
2
As,poblacionales
varianzas sustituyendo
la aproximacin de Welch, s12 permite
22que
mediante por s(22en
xaproximar1 la la2distribucin
2 correspondientes muestral
)distribucin
varianzas este de la s12 y s22 .
demuestrales
estadstico
.
2
s 22
As, sustituyendo 12 por s12 y 22 por s22 en sla1 distribucin muestral de la diferencia de medias,
diferenciauna
mediante de medias, se obtiene
t de Student con loselsiguientes +
estadsticogrados de libertad
se obtiene el estadstico n1 n 2
x1 (s 2x 2/ n (+ s1 2/n2 )) 2
Aunque resulta complicado 2 .
d = derivar la distribucin
1
2
1 2
2 2
exacta de este estadstico,
. existen
2 2 s1 s
( s1 / n1 ) /(n1 1)++ ( s 2 / n 2 ) 2 /(n 2 1)
2
diversas aproximaciones que funcionan bien n1 enn 2la prctica. El mtodo ms utilizado es
Aunque
Puederesulta complicado
comprobarse que dderivar
es siempre la distribucin
inferior o igualexacta a nde1 +este
n2 estadstico,
2; es decir, existen
esta diversas
la aproximacin de Welch, que permite aproximar la distribucin de este estadstico
Aunque resulta
aproximaciones complicado
que funcionan derivar
bien en la la distribucin exacta de
prctica. El mtodo ms este estadstico,
utilizado es laexisten
aproximacin
de distribucin t de Student
Welch, que permite ser ms
aproximar dispersa quede
la distribucin la este
empleada en el mediante
estadstico caso de igualdad
una t dedeStudent
mediante una t de Student con los siguientes grados de libertad
diversas aproximaciones que
con los siguientes grados de libertad funcionan bien en la prctica. El mtodo ms utilizado es
varianzas. Esto es lo que cabra esperar ya que, al estimar por separado las varianzas, la
la aproximacin de Welch, que permite ( s12 aproximar
/ n1 + s 22 / nla2 )distribucin
2
de este estadstico
d
distribucin resultante ha de= .
( s12reflejar
/ n1 ) 2 /(mayor
n1 1)incertidumbre.
+ ( s 22 / n 2 ) 2 /(nEsto
2 1)
conllevar una
mediante una t de Student con los siguientes grados de libertad
disminucin
Puede comprobarsetantoque
en la precisin
d es siempredeinferior los intervalos
o igual de a nconfianza
1 + n2 2; como en la
es decir, potencia
esta de t
distribucin
de Puede
Studentcomprobarse que d que
ser ms dispersa es siempre
la empleada inferioren o
el igual
caso a
de n + n
igualdad
1 2 2;
de es decir,
varianzas.esta
Esto es lo que
( s12 / n1 + s 22 / n 2 ) 2
los contrastes.
cabra esperar ya que, al destimar
= 2 por 2separado las varianzas, la distribucin
. resultante ha de
reflejar mayor tincertidumbre.
distribucin de Student ser( sEsto
1 ms/ n1 conllevar
/(n1 1que
)dispersa ) +una s 22disminucin
(la / n 2 ) 2 /(n 2en tanto
empleada 1) casoendelaigualdad
el precisinde de los
En eldecaso
intervalos de distribuciones
confianza como en lacon distinta
potencia devarianza,
los contrastes.el intervalo de confianza al 100(1 -
varianzas. Esto es lo que cabra esperar ya que, al estimar por separado las varianzas, la
Puede comprobarse
En el caso que d es con
de distribuciones siempredistintainferior o igual
varianza, n1 + n2 de2;confianza
el aintervalo es decir, esta
al 100(1 )%
)% para la diferencia de medias poblacionales 1 - 2 vendr determinado por
para la diferencia
distribucin de medias
resultante ha poblacionales
de reflejar mayor 2 vendr determinado
1 incertidumbre. por
Esto conllevar una
distribucin t de Student ser ms dispersa que la empleada en el caso de igualdad de
2 2
disminucin tanto en la precisin de los intervaloss1de confianza s2 como en la potencia de
varianzas. Esto es lo que cabrax1esperar x 2 ya
t d ,1que, +
/ 2 al estimar ,por separado las varianzas, la
n1 n 2
los contrastes.
distribucin
donde d son losresultante
grados dehalibertad
de reflejar mayor incertidumbre.
calculados segn la frmula Esto conllevar
anterior. una forma, para
De igual
donde
contrastar
En el dlason los
degrados
hiptesis
caso nulade H0libertad
distribuciones 2calculados
: 1 =con frente
distintaa la segn laelfrmula
alternativa
varianza, H1: 1 anterior.
intervalo de De de
2 aconfianza
partir igual
dosforma,
muestras
al 100(1 -
disminucin tanto en la precisin de los intervalos
independientes con distinta varianza, se emplea el estadstico de confianza como en la potencia de
para
contrastar
)%contrastes. la hiptesis
para la diferencia de medias 0: 1 = 2 frente
nula Hpoblacionales 1 a- la
2alternativa H1: 1 por
vendr determinado 2 a partir de
los x1 x 2
t= ,
dos muestras independientes con distinta varianza, s12 s 22 2se emplea el estadstico
En el caso de distribuciones con distinta varianza, + s1 els 22intervalo de confianza al 100(1 -
x1 x 2 t d ,1n1 / 2 n 2 + ,
n1 n 2
quebajo
)% para la diferencia
la hiptesis nula,de se medias
distribuyepoblacionales
aproximadamente 1 - 2 vendr
segn unadeterminado
t de Student porcon d grados
19
de que bajo As,
libertad. la hiptesis P viene
el valor nula, se distribuye
dado por laaproximadamente
probabilidad de obtener segn una t de ms
valores Student con d que
extremos
el valor d son los de
dondeobservado grados
t bajodelalibertad calculados
distribucin td. Estesegn la frmula
contraste anterior.
se conoce con elDe igual forma,
nombre de test de
s12 s 22
grados de libertad. As, el valor
la t de Student para muestras independientes P viene dado
x1 x 2 t d ,1 / con
por
2 la probabilidad
+ ,
distinta varianza. de obtener valores ms
para contrastar la hiptesis nula H0: 1 = 2 frentena1 la nalternativa 2 H1: 1 2 a partir de
90 extremos R.que el valor observado de t bajo la distribucin td. Este contraste se conoce
Pastor-Barriuso
dos
donde muestras
d son losindependientes con distinta
grados de libertad calculadosvarianza,segnselaemplea
frmulaelanterior.
estadstico
De igual forma,
con el nombre de test de la t de Student para muestras independientes con distinta
Ejemplo 6.11 En el Ejemplo 6.10 se contrast que
HDL difiere significativamente entre los casos de infarto y los sujetos libres de la
independientes con distinta varianza. La estimacin puntual de la significativamente
HDL difiere diferencia de entre los casos de i
enfermedad. Por ello, la comparacin del nivel medio de colesterol
Comparacin de medias en HDL entreindependientes
dos muestras
medias es x ca - x co = 0,98 - 1,09 = -0,11 mmol/l, cuyo error estndar
enfermedad. se estima
Por ello, la comparacin del nivel med
casos y controles ha de realizarse mediante la prueba t de Student para muestras
directamente
Ejemplo 6.11porcon
En el Ejemplo 6.10 seLacontrast casos
quepuntual y controlesdel
la variabilidad ha colesterol
de realizarse
HDL mediante la prue
independientes distinta varianza. estimacin de la diferencia de
difiere significativamente entre los casos de infarto y los sujetos libres de la enfermedad.
Por ello, la comparacin del nivel2 medio2 de colesterol 2 independientes
HDL2 entre casosconydistinta
controlesvarianza.
ha de La estimacin
medias es x ca - x co = 0,98 - 1,09 s ca= -0,11
s co mmol/l,
0,25 cuyo 0,error
29 estndar se estima
realizarse mediante
SE( x ca la
- xprueba
co ) = t de + Student= para muestras
+ independientes
= 0,017. con distinta
varianza. La estimacin puntualn cade landiferencia
co 462de medias
539 es x ca x co == 0,98 - 1,09
1,09 ==-0,11 mmol/l, c
directamente por
0,11 mmol/l, cuyo error estndar se estima directamente por
En el caso de varianzas heterogneas, los grados de libertad directamente
para lapor
distribucin
2 2 2 2
s ca s co 0,25 0,29
SE( x ca x co ) = + = + = 0,017.
de la diferencia de medias vienen n cadeterminados
n co por la aproximacin
462 539 de Welch, a
s ca2 s co2 0,25 2
SE( x ca - x co ) = + =
En el caso de varianzas heterogneas, los grados de libertad para la distribucin de
saber n cala n co 462
En el caso de
diferencia de medias
varianzas heterogneas,
vienen determinados los grados de libertad para
por la aproximacin delaWelch
distribucin
contrastar en primer
En resumen, lugar la igualdad
la comparacin de varianzas,
de medias paraindependientes
en muestras despus utilizar segn proceda
requiere
el test de laent de
contrastar Student
primer con
lugar la igual o distinta
igualdad varianza.
de varianzas, Esta
para distincin
despus no es
utilizar meramente
segn proceda
Pastor-Barriuso R. 91
acadmica:
el test de la si la Student
t de variabilidad difiere
con igual entre ambas
o distinta poblaciones,
varianza. los procedimientos
Esta distincin de
no es meramente
Inferencia sobre medias
Los datos dependientes surgen cuando las observaciones recogidas en el estudio estn
correlacionadas entre s. A continuacin se presentan algunos mecanismos y diseos
epidemiolgicos que generan datos dependientes:
yy La obtencin de dos o ms determinaciones de la misma variable en un mismo sujeto da
lugar a datos dependientes, que pueden presentarse como:
Diferentes medidas de la misma variable en un momento determinado, habitualmente
para aumentar la fiabilidad del instrumento de medida.
Determinaciones de la misma variable en diferentes localizaciones anatmicas.
Medidas repetidas en el mismo sujeto a lo largo del tiempo, bien sea en comparaciones
antes y despus de un tratamiento, en ensayos clnicos cruzados o en estudios de medidas
repetidas con visitas sucesivas.
yy La seleccin de los participantes en un estudio emparejndolos por determinadas
caractersticas pronsticas genera datos dependientes entre los sujetos emparejados. El
ejemplo ms habitual es el emparejamiento en el diseo de los estudios de casos y controles.
yy Los datos de estudios procedentes de sujetos de una misma familia o de animales
pertenecientes a la misma camada suelen ser tambin dependientes.
En todos estos casos, la correlacin se limita a los grupos especficos donde se genera la
dependencia, que suelen ser habitualmente parejas. As, en un estudio de casos y controles
emparejados, los datos de cada pareja son dependientes, pero los datos de las distintas parejas
son independientes entre s. Igualmente, en un estudio de medidas repetidas, los datos de un
mismo individuo son dependientes, mientras que los resultados en diferentes individuos son
independientes entre s.
Las muestras dependientes estn constituidas por observaciones en los mismos sujetos o en
distintos sujetos emparejados segn ciertas caractersticas pronsticas de inters. De esta forma,
la distribucin de dichas caractersticas ser similar en ambas muestras, eliminando as la
posibilidad de que estos factores influyan en la comparacin objeto de estudio. En general, el
emparejamiento es una tcnica frecuentemente utilizada en el diseo de estudios clnicos o
epidemiolgicos con el propsito de controlar por determinados factores de confusin (ver
textos de mtodo epidemiolgico referenciados al final del tema). Estos diseos requieren de
tcnicas especficas de anlisis que preserven el emparejamiento. En este apartado se revisan
los mtodos estadsticos para el tratamiento de un caso especfico de dependencia, en el que se
dispone de dos determinaciones de una variable continua para cada pareja de datos dependientes.
92 Pastor-Barriuso R.
Comparacin de medias en dos muestras dependientes
Tabla 6.1 Colesterol HDL en 50 casos y controles del estudio EURAMIC emparejados
segn grupos quinquenales de edad.
Colesterol HDL (mmol/l) Colesterol HDL (mmol/l)
Pareja Caso Control d* Pareja Caso Control d*
1 0,81 0,63 0,18 26 0,96 1,29 0,33
2 0,91 0,91 0,00 27 1,33 0,72 0,61
3 0,98 0,76 0,22 28 0,93 1,04 0,11
4 0,91 1,19 0,28 29 0,32 1,54 1,22
5 0,55 0,99 0,44 30 0,86 1,08 0,22
6 0,62 1,14 0,52 31 0,93 1,12 0,19
7 0,79 0,73 0,06 32 1,40 1,75 0,35
8 0,89 1,08 0,19 33 1,50 1,29 0,21
9 1,24 0,87 0,37 34 0,92 1,17 0,25
10 1,76 1,04 0,72 35 0,88 0,93 0,05
11 1,35 1,03 0,32 36 0,82 0,88 0,06
12 0,72 1,09 0,37 37 1,52 0,74 0,78
13 0,94 1,12 0,18 38 1,68 1,45 0,23
14 1,01 1,20 0,19 39 0,81 1,02 0,21
15 0,98 1,62 0,64 40 0,60 1,15 0,55
16 0,92 1,25 0,33 41 1,16 1,49 0,33
17 0,68 1,31 0,63 42 0,75 0,98 0,23
18 1,48 1,00 0,48 43 0,96 1,31 0,35
etar el problema, supongamos
19 que
1,23se dispone de
0,78 n pares de
0,45 observaciones
44 1,46 1,15 0,31
20 0,83 0,95 0,12 45 0,76 1,51 0,75
e aleatoria continua. 21
En cada pareja
0,92
de datos1,13
dependientes,
0,21
una 46 0,76 1,01 0,25
22 0,82 0,97 0,15 47 1,12 1,26 0,14
corresponde a la primera muestra y la otra observacin x2 a la segunda
23 1,21 0,74 0,47 48 1,01 0,91 0,10
24 0,78 0,88 0,10 49 0,99 1,63 0,64
jetivo se centra en comparar las medias poblacionales 1 y 2 a partir de
25 0,88 1,14 0,26 50 0,75 1,45 0,70
* Diferencia de colesterol HDL entre caso y control.
stras dependientes.
medias muestrales,
1 n 1 n
d= n
n i =1
d i =
i =1
( x i1 x i 2 )
Pastor-Barriuso R. 93
1 n
1 n
=
n i =1
x i1 xi 2 = x1 x 2
n i =1
n i =1 n i =1
son independientes.
6.3 no puedenPor a 1esta
otro lado, la media1den las diferencias d coincide con la
n
rrollados en el Apartado aplicarse
Inferencia sobre medias
=
n i =1
x i1 xi 2 = x1 x 2
n i =1
de ambas muestras diferencia de medias muestrales,
no son independientes por provenir de
donde sd es la desviacin tpica de las diferencias observadas. De igual forma, la
das. Sin embargo, y, la en consecuencia,
comparacin d es un estimador
se simplifica notablemente insesgado de la diferencia de medias
1 n 1 n
= d i = H: (x i1=x i 2puede
hiptesis de igualdad de mediasdpoblacionales ) contrastarse frente a la
s d = x - x en cada una de las n observaciones
poblacionales n i =1 de la
1 - 2. As, el problema
emparejadas. n comparacin
0
i =1
1 2
de medias en dos muestras
1 2
1 n el estadstico
hiptesis alternativa H1: 1 2 mediante 1 n
dependientes
tas parejas no estn relacionadasqueda
entrereducido a=una simple
s, estas diferencias xi 2 = sobre
x i1 inferencia x1 xla
2 media de una nica
n i =1 n i =1
o lado, la mediay,deen muestra
las de n diferencias
diferencias
consecuencia, d escoincide independientes.
un estimador con la insesgado d de la diferencia de medias poblacionales 1 2.
t= .
As,y,elenproblema
consecuencia, de la comparacin
d es un estimador de medias s d en dosde
insesgado muestras dependientes
la diferencia de medias queda reducido a
rales, una simple Los mtodos
inferencia delsobre
Apartado la media 6.2.1de paraunalanica media
n muestrade unade muestra pueden independientes.
n diferencias entonces
poblacionales
Los mtodos 1 -Apartado
2. As, el6.2.1 problema demedia
la comparacin de medias en dos muestras
utilizarse paradel calcular un intervalo parade la confianza deal una
100(1 muestra
- )% para pueden entonces
1 - 2 como
utilizarse
1 n
1Bajo la hiptesis
para calcular
n nula, las de
un intervalo diferencias
confianzaobservadas al 100(1 se )% distribuiran
para aleatoriamente
2 como
d = di = ( x i1 x i 2 ) queda reducido a una simple inferencia sobre1 la media
dependientes de una nica
n i =1 n i =donde
alrededor sdel d esvalor
la desviacin tpica de quelas diferenciassobservadas. Dedistribucin
igual forma,t de la
1
0, de tal forma deste
testadstico
d seguira una
,
nmuestra de n diferencias independientes.
n 1,1 / 2
1 n
1 n
= x i1 Student xi 2 con
hiptesis = x1de n x12 grados de
- igualdad de medias
liberad. poblacionales
El valor P H0: 1 = 2 puede
corresponder, contrastarse
por tanto, a la frente a la
n i =1 n i =1
donde sd esmtodos
Los la desviacin tpica de
del Apartado las para
6.2.1 diferencias
la media observadas.
de una muestra De igual puedenforma, la hiptesis de
entonces
igualdad
hiptesis
probabilidad de medias
alternativa H1: 1 t2H
bajo lapoblacionales
distribucin 1 =valores
0:para
mediante
n-1
2 el puede contrastarse
estadstico
ms extremos que frenteel avalor
la hiptesis
observado alternativa
n estimador insesgado H :
1 utilizarse mediante
para calcular
1 de 2la diferencia el estadstico
un intervalo de confianza al 100(1 - )% para 1 - 2 como
de medias
de t. Esta prueba se denomina habitualmente como el test de la t de Student para 24
d
el problema de la comparacin de medias en dos muestrast = .s d
muestras dependientes. d t s d
n 1,1 / 2 ,
n n
o a una simple inferencia sobre la media de una nica
Bajo la hiptesis nula, las diferencias observadas se distribuiran aleatoriamente alrededor del
dependientes. valor Bajo Ejemplo
0, la
dehiptesis 6.13 nula,
tal forma Para
que estepreservar
las diferencias
estadstico el emparejamiento
observadas
seguira unase entre los casos
distribuiran
distribucin t de yStudent
controles
aleatoriamenteconden la1 grados
ar el problema,de libertad. Elque
supongamos valor se P corresponder,
dispone de n parespor detanto, a la probabilidad bajo la distribucin tn1 para
observaciones
do 6.2.1 para la valores
media dems Tabla
alrededor 6.1,
del
unaextremos se calcula
valor 0,
muestra pueden de latal diferencia
que el entonces valor observado de t. HDL
forma que de colesterol
este estadstico d = xca una
Estaseguira
prueba -sexcodenomina
en cada pareja.
distribucin t de 24
habitualmente
aleatoria continua. comoEn test de
el cada la t de
pareja de Student
datos dependientes,para muestras una dependientes.
Student Como conpuede
n
ntervalo de confianza al 100(1 - )% para 1 - 2 como - 1apreciarse,
grados de predominan
liberad. El las
valor parejas donde el caso
P corresponder, porpresenta
tanto, a laun nivel
corresponde a la primera Ejemplo muestra6.13y laPara otrapreservar
observacin el emparejamiento
x2 a la segundaentre los casos y controles de la Tabla 6.1,
inferior debajo
probabilidad colesterol HDL quetn-1
la distribucin supara
correspondiente
valores control (diferencias negativas).
se
sd calcula la diferencia de colesterol HDL d = xca ms extremos
xco en que el
cada pareja. valor
Como observado
puede apreciarse,
d
etivo se centrat n 1en
,1 comparar ,
/ 2 predominan las parejas
las medias donde el caso
poblacionales 1 y presenta
2 a partir undenivel inferior de colesterol HDL que su
de tDe hecho,
nEsta
.correspondiente
prueba la media
secontrolde estashabitualmente
denomina diferencias
(diferencias negativas). De como el hecho, t de Student
test delalamedia de estas para
diferencias
tras dependientes.
muestras dependientes. 1 50 0,18 + 0,00 + ... 0,70
mientos desarrollados en el Apartado 6.3 no50
d=
pueden i =1
di =
aplicarse a esta 50
= 0,12
1 ncomo
As, el 1ICde
casos n
alinfarto
95% paray loslasujetos
diferencia dede
libres medias poblacionales
la enfermedad. ca - co de
La varianza se las
obtiene
=
n i =1
x i1
n i =1
xi 2 = x1 x 2
SE (d ) =
= = 0,057 .
n 50
As, el IC al 95% para la diferencia de medias poblacionales ca - co se obtiene
Referencias
As, el IC al 95% para la diferencia de medias poblacionales ca - co se obtiene
como
como
As, el IC al 95% para
d la
t diferencia ) medias poblacionales ca co se obtiene como
SE( d de
49;0,975
Pastor-Barriuso R. 95
Inferencia sobre medias
96 Pastor-Barriuso R.
7.1 INTRODUCCIN
cuya distribucin
dado por ser aproximadamente N(0, 1) si la hiptesis nula H0: = 0 es cierta.
As, el intervalo de confianza al 100(1 )% para la proporcin poblacional viene dado por
El valor P del test corresponde entonces a la probabilidad bajo la distribucin normal
p(1 p )
p z1 / 2 .
estandarizada para valores ms alejados de 0 que el nvalor observado de z.
Para realizar el contraste de la hiptesis nula H0: = 0 frente a la alternativa bilateral H1: 0,
puedeEjemplo
emplearse
Para el A
realizar
7.1 estadstico
el contraste
partir de controles
de los la hiptesisdelnula H0:
estudio = 0 frente se
EURAMIC, a la alternativa
pretende estimar
p 0
bilateral H1: z el estadstico ,
la proporcin de0, individuos
puede emplearse
en la poblacin
0 (1 de
0referencia
) de dicho estudio que
n
presentan niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles 2
cuya distribucin ser aproximadamente N(0, 1) si la hiptesis nula H0: = 0 es cierta. El
P
bajos
cuya
valor segn el National
distribucin
del test Cholesterol
ser aproximadamente
corresponde entonces Education
a la probabilidad Program).
N(0, 1) si bajo
la hiptesis nula
la distribucin =de
En kH=0normal
:158 0estandarizada
los n=
es cierta.
para valores ms alejados de 0 que el valor observado de z.
539 controles
El valor P del testsecorresponde
observaron entonces
valores inferiores o igualesbajo
a la probabilidad a este
la umbral,
distribucin normal
Ejemplo 7.1 A partir de los controles del estudio EURAMIC, se pretende estimar la
obtenindose
estandarizada deuna
proporcin para proporcin
valores
individuos ms muestral
enalejados de 0 que
la poblacin el valor observado
de referencia de dichode z.
estudio que presentan
niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles bajos segn el
National Cholesterol Education p = k/nProgram).
= 158/539 =En k = 158 de los n = 539 controles se
0,293.
Ejemplo 7.1 A partir de los controles del
observaron valores inferiores o iguales a este umbral, estudio EURAMIC, se pretende
obtenindose una estimar
proporcin
muestral
Dado que np(1 - p)
la proporcin de =individuos
111,7 5,enpuede emplearse
la poblacin de la aproximacin
referencia normal
de dicho paraque
estudio
p = k/n = 158/539 = 0,293.
presentan
calcular
Dado que ICniveles
unnp(1 p) =depara
al 95% colesterol
111,7 HDL inferiores
laproporcin
5, puede olaiguales
poblacional
emplearse como a 0,90 mmol/l
aproximacin normal(niveles
para calcular
un IC al 95% para la proporcin poblacional como
bajos segn el National Cholesterol Education Program). En k = 158 de los n =
0,293(1 0,293)
0,293 z 0,975
539 controles se observaron valores539 inferiores o iguales a este umbral,
= 0,293 1,960,020 = (0,255; 0,332);
obtenindose una proporcin muestral
es decir, la proporcin poblacional de sujetos con niveles bajos de colesterol HDL est
comprendida entre el 25,5 y el 33,2% p = k/ncon=una confianza
158/539 del 95%. Asimismo, para determinar
es decir, la proporcin poblacional de sujetos con=niveles
0,293. bajos de colesterol HDL
si los datos muestrales son compatibles con una proporcin subyacente del 30%, se
contrast la hiptesis H0: = 0,30 versus H1: 0,30 mediante el estadstico
estDado
comprendida
que np(1 entre
- p) =el111,7
25,5 y 5, el puede
33,2% emplearse
con una confianza del 95%.normal
la aproximacin Asimismo,
para
p 0 0,293 0,30
z= = 0,35,
para determinar
calcular un ICsiallos
95%datos muestrales
para
0 (1
son
laproporcin
0)
compatibles
0,30 (1 0,30) con
poblacional una proporcin
como
n 539
subyacente del 30%, se contrast la hiptesis H0: = 0,30 versus H1: 0,30
que corresponde a un valor P = 2P(Z 0,35)
0,293 = 2{1
(1 0,293 ) (0,35)} = 0,726 en las tablas de
la distribucin normal0, 293 z
estandarizada
P = 2P(Z (Tabla
que corresponde a un valor 5393 del
-0,35) Apndice).
= 2{1 - (0,35)}Por= tanto,
0,726 puede
en las concluirse
0 , 975
mediante el estadstico
que la prevalencia poblacional de niveles bajos de colesterol HDL no es significativamente
distintadedel
tablas la 30%.
distribucin normal=estandarizada (Tabla=3(0,255;
del Apndice).
0,293 1,960,020 0,332); Por tanto,
Lospuede concluirse que
procedimientos de la prevalencia
inferencia poblacional
presentados en de niveles
este bajosasumen
apartado de colesterol
que el tamao
es decir, la proporcin poblacional de sujetos con niveles bajos
muestral es suficientemente grande para aplicar la aproximacin normal; es decir,de colesterol HDL
3 ha de
HDLelnorequerimiento
cumplirse es significativamente
mnimo de distinta del 30%.
que n(1 ) 5. No obstante, en el Apndice de este
tema (Apartado 7.8) se facilitan correcciones de con
est comprendida entre el 25,5 y el 33,2% unamtodos
estos confianza
quedelpermiten
95%. Asimismo,
aumentar la
cobertura de los intervalos de confianza y reducir la probabilidad de un error de tipo I en los
para
contrastes, determinardesiinferencia
Los procedimientos
particularmente los datoselmuestrales
cuando presentados son
en compatibles
tamao muestral este
es apartado
moderado con
o una
asumen proporcin
que el
pequeo. tamao
Esta correccin
muestral subyacente
es suficientemente
del 30%,grande para aplicar
se contrast H0: = 0,30
la aproximacin
la hiptesis normal; 1: ha
versusesHdecir, de
0,30
98 Pastor-Barriuso R.
Supongamos ahora que el inters radica en comparar la proporcin de sujetos con una
determinada caracterstica en dos muestras independientes. Este planteamiento general es
aplicable a las comparaciones realizadas en cualquiera de los siguientes diseos de un estudio:
yy Un estudio prospectivo es aquel en el que n1 individuos expuestos a una intervencin
(ensayo clnico) o a un potencial factor de riesgo (estudio de cohortes) y n2 individuos no
expuestos son seguidos a lo largo de un periodo de tiempo para determinar cuntos
desarrollan la enfermedad. Los tamaos muestrales de ambos grupos n1 y n2 estn fijados
de antemano y, en el caso de un ensayo clnico, la intervencin se asigna de forma aleatoria
a cada sujeto. El objetivo se centra en comparar la proporcin de sujetos que desarrollan
la enfermedad entre los expuestos y los no expuestos.
yy Un estudio retrospectivo (estudio de casos y controles) es aquel en el que m1 sujetos con
la enfermedad (casos) y m2 sujetos libres de ella (controles) son examinados para determinar
cuntos han estado previamente expuestos al potencial factor de riesgo. Bajo este diseo,
el nmero de casos y controles est predeterminado y, en consecuencia, ha de compararse
la proporcin de expuestos entre los sujetos con y sin la enfermedad.
yy Un estudio transversal es aquel en el que se selecciona un total de n individuos en un
instante determinado para establecer en cada sujeto la presencia o ausencia de la exposicin
y la enfermedad. A diferencia de los estudios prospectivos, donde se compara la incidencia
de nuevos casos de la enfermedad, los estudios transversales comparan la prevalencia de
la enfermedad en un instante determinado entre expuestos y no expuestos.
Pastor-Barriuso R. 99
valores de colesterol HDL
valores
inferiores
de colesterol
a dicho HDL
umbral.
inferiores a dicho umbral.
tras independientesmuestras
suelen organizarse
independientes en una
suelen
tablaorganizarse
22 (Tabla en 7.1).
unaEntabla
este22 (Tabla 7.1). En este
Tabla 7.1Tabla 22 genrica de la
2(1 - 2)/n2). Adems, como ambas muestras son
asociacin entre exposicin y enfermedad.
ado suponemos queapartado
se analizan
suponemos
datos deque
un estudio
se analizan
prospectivo,
datos de un
en el
estudio
que seprospectivo, en el que se
4), se tiene que Enfermedad
1, en ~ N( , (1 - )/n ). Adems, como ambas muestras son
N(
nde estimar la diferencia
pretende la- proporcin
1(1estimar
1)/n1la p2 de
) ydiferencia
enfermos
en
2 la2 proporcin
Exposicin entreS
2 expuestos
2 de No
enfermos
y no Total
entre expuestos y no
1 (1 1 ) 2 (1 2 ) S a b n1
estos.
1 Estos
2, mtodos independientes
expuestos. Estos . mtodos
pueden aplicarse
(vase Apartado
igualmente a3.4),
No pueden se tiene
estudios
aplicarse que d a estudios
c retrospectivos,
igualmente peron retrospectivos, pero
n1 n2 2
Total m1 m2 n
arando la proporcin comparando
de expuestos la proporcin
entre casosdey expuestos controles (ver entre
1Ejemplo
(1casos
1 )y 7.5).
controles
2 (1 (ver Ejemplo 7.5).
~ 2)
p1 - p2 es un estimador puntuallos
En general, insesgadop1 de
resultados p 2de 1 2 ,
lalaN comparacin de .
n1 una variable n 2 dicotmica
en dos muestras
independientes
N(1,[Tabla
1(1 - 7.1suelen ~
organizarse en
2, aqu] una tabla 22 (Tabla
2)/n2). Adems, como 7.1). En este apartado suponemos
1)/n 1) y p2 N(
aproximadamente [Tabla 2(1
7.1- aproximadamente aqu] ambas muestras son
1 - 2 entre expuestos y no expuestos, E(p - p ) = -
que se analizan datos de un estudio prospectivo, en el que se pretende estimar la diferencia en
1 2 1
De este resultado
la independientes
proporcin se desprende
de enfermos que p1 - p2 yesno
entre expuestos unexpuestos.
estimador puntual insesgado
Estos mtodos de la aplicarse
pueden
(vase Apartado 3.4), se tiene que
0(1 - )% para igualmente
- se obtiene siguiendo el mismo
1
proporcin de enfermos 2
ena laestudios retrospectivos, pero comparando la proporcin
La proporcin muestra de de enfermos
sujetosen expuestos
la muestra vienede sujetos
dada por p1 =
expuestos de expuestos entre= casos
viene dada por p1
diferencia(ver
y controles de Ejemplo
riesgos subyacente
7.5). 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 -
roporcin como 1 (1 1 ) 2 (1 2 )
y en la muestra de N( a/n
La proporcin
1,yen
sujetos 1no muestra
(1la-expuestos ) ypde
1por
p2sujetos
de 1enfermos
1)/n =~ la
p~p22en
N(
,2.expuestos
Nno
c/n2muestra2Sin-1 de
1(1 nsujetos
y22,)/n
2 2por
son psuficientemente
= c/n2como n1ambas
. Siviene
2expuestos
). Adems, y ndada
2. son a/n1 y en la
p1 = son
suficientemente
por
muestras
. El intervalo de confianza al 100(1
- )% paran 1 1 - 2 se obtiene
muestra de sujetos no expuestos por p2 = c/n2. Si n1 y n2 son suficientemente grandes, estas
2 n 2 siguiendo el mismo
des, estas proporciones grandes, ~ N(
pp11 ~ N( ,
1)/n1) ypp12
p 2 (1muestrales
proporciones pestas
p1 (1 p1 ) independientes ) proporciones
tendern
2muestrales
(vase tendern a distribuirse
Apartado muestrales
3.4), sede
a distribuirse tendern
de
tieneforma quenormal,
forma anormal,
distribuirse de forma
1, 1(1 normal,
/ 2 procedimiento , utilizado para unamuestras
proporcin como
2
n1 (1
2 De este )/n ). Adems, como ambas son independientes
2n 2 2resultado se desprende que p1 - p2 es un estimador puntual insesgado de la (vase Apartado 3.4), se tiene que
~ , 1 (1 1 ) 2 (1 2 ) .
diferencia de riesgospsubyacente1 p 2 N -1 entre 2p1 (1 expuestos
p1 ) p 2y(1no p2 )
expuestos, E(p1 - p2) = 1 -
erencia de proporciones muestrales con una p 2 z11 / 22
p1 amplitud n1 n2 6 , 6
n1 n2
Deeste
2. Elresultado
intervalosededesprende
confianzaque p1 p2- es
al 100(1 )% un para 1 - puntual
estimador 2 se obtiene insesgado de laeldiferencia
siguiendo mismo de
macin de su error estndar.
De este
riesgos resultadose
subyacente 1 desprende que p1 - py2 no
2 entre expuestos es un estimador
expuestos, E(p puntual
1 p2) = insesgado deintervalo
1 2. El la de
que es simtrico
confianza alrededor
)% para
al 100(1utilizado
procedimiento paradeuna
ladiferencia
se obtiene
proporcin decomo proporciones
siguiendo el muestrales
mismo con una amplitud
procedimiento utilizado
encias en la probabilidad subyacente de desarrollar 1 la2
para una proporcin
diferencia de riesgoscomo subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 -
directamente proporcional a la estimacin de su error estndar.
stos y no expuestos, se contrasta la hiptesis nula H0: p1 (1 p1 ) p 2 (1 p 2 )
2. El intervalo de confianza p1 pal 2 z1 / 2- )% para 1- 2 se obtiene
100(1 , siguiendo el mismo
Para determinar si existen diferencias en lan1probabilidadn 2subyacente de desarrollar la
tiva bilateral H1: 1 2. Bajo la hiptesis nula de
queprocedimiento
es simtrico
enfermedad
utilizado
alrededor
entre los sujetos
para una
de expuestosproporcindecomo
la diferencia y no expuestos,proporciones muestrales
se contrasta con una
la hiptesis amplitud
nula H0:
directamente
2 = , se cumple que que es proporcional
simtrico alrededor a ladeestimacin
la diferencia de su
de error estndar.
proporciones muestrales con una amplitud
Para
1 = determinar
2 frente a la si hiptesis
existenalternativa
diferenciasbilateral pen1 (1la H 11): 1 p2 (12.Bajo
pprobabilidad 2 ) la hiptesis
psubyacente de nula de
desarrollar la
directamente proporcional p1 a pla2 estimacin
z1 / 2 de su error estndar. ,
enfermedad 1 entre los sujetos expuestos y no expuestos, n1 se contrasta
n2 la hiptesis nula H0: 1 = 2
~ N 0, (1 ) 1igualdad
,
de proporciones H : = = , se cumple que
frente
a la hiptesis alternativa 0 bilateral
1 2 H1: 1 2. Bajo la hiptesis nula de igualdad de
n1 Paran 2 determinar
proporciones H : = si existen= , se
diferencias en
cumple que
la probabilidad subyacente de desarrollar la
0 1 2
que es simtrico alrededor de la diferencia de proporciones muestrales con una amplitud
enfermedad entre los sujetos expuestos ~ N y0no expuestos, 1 se1contrasta
la hiptesis nula H0:
dad de enfermar comn para expuestos y no p1 p 2 , (1
de su error ) ,
directamente proporcional a la estimacin n 2
n1estndar.
1 = 2 frente a la hiptesis alternativa bilateral H1: 1 2. Bajo la hiptesis nula de
ad es desconocida, su
dondePara valor puedea estimarse
corresponde
determinar lasiprobabilidad de enfermar
existen diferencias en la comn para expuestos
probabilidad subyacentey no expuestos. Aunque
de desarrollar la esta
probabilidad
donde es desconocida,
corresponde a la su valor
probabilidadpuede
igualdad de proporciones H0: 1 = 2 = , se cumple que estimarse
de enfermar mediante
comn la proporcin
para combinada
expuestos y no de enfermos
de enfermos enenambas ambas muestras
muestras
enfermedad p =los
entre =(a(asujetos
c)/(1nexpuestos
++c)/(n +1 +n2) = m1/n. y As, el estadstico
no expuestos, se propuesto
contrasta para este test nula
la hiptesis es H0:
expuestos. Aunque esta probabilidad es desconocida, p 1 p 2 su valor puede estimarse
z ~ 1 ,1
uesto para este testes 1 = 2 frente a la hiptesis p1alternativa
p 2 N bilateral
0, (11 H)1: 11
2. Bajo , la hiptesis nula de
mediante la proporcin combinada depenfermos (1 p ) enambas n1 n muestras
2 p = (a + c)/(n1 +
n1 n 2
igualdad de proporciones H0: 1 = 2 = , se cumple que
) = mH1/0corresponde
quen2bajo
donde n.sigue aproximadamente
As, el estadstico propuesto
a la probabilidad
una distribucin
depara este test
enfermar
normal
es para
comn
estandarizada, lo que permitir
expuestos y no
determinar
que bajo la H0significacin estadstica deuna
sigue aproximadamente la distribucin
diferencia entre normalproporciones.
estandarizada, lo que
p1 p 2 ~ N 0, (1 ) 1 1 ,
expuestos. Aunque esta probabilidad es desconocida, puede estimarse
sun valor
permitir determinar la significacin estadstica delan1diferencia
2 entre proporciones.
100 Pastor-Barriuso R. 7
mediante la proporcin combinada de enfermos en ambas muestras p = (a + c)/(n1 +
corresponde
dondeEjemplo 7.4 EnalalaTabla
probabilidad de enfermar
7.2 se presenta comn
el nmero depara expuestos
muertes y no
por enfermedad
n ) = m /n. As, el estadstico propuesto para este test es 7
permitir determinar la significacin estadstica de la diferencia entre proporciones.
p2 es un estimador puntual insesgado de la
que bajo H0 sigue aproximadamente una distribucin normal estandarizada, lo que
Comparacin de proporciones en dos muestras independientes
entre expuestos y no Ejemplo 7.4E(p
expuestos, En1 la 2) = 17.2
- pTabla - se presenta el nmero de muertes por enfermedad
permitir determinar la significacin estadstica de la diferencia entre proporciones.
)% para 1 - 2 se obtiene siguiendoobservadas
cardiovascular el mismo durante el seguimiento del estudio NHANES II entre
Tabla 7.2 Muertes por enfermedad cardiovascular
rcin como Ejemplo
los sujetos En(ECV)
7.4con niveles durante
la Tablaaltos el seguimiento
7.2 ysemoderados-bajos
presenta el nmero
de de del estudio
muertes
colesterol por enfermedad
srico total (Ejemplo
NHANES II segn niveles del colesterol srico total.
cardiovascular observadas
7.2). La proporcin durante
de muertes
Colesterol porelenfermedad
seguimiento
Mortalidad del
ECVestudio NHANES
cardiovascular
por II entre
es p1 = 254/2.713
p1 (1 p1 ) p 2 (1 p 2 )
, total (mmol/l) S No Total
n1 n 2 los sujetos
= 0,094 en con niveles altos ycon
los participantes moderados-bajos de colesterol
niveles de colesterol srico total
total superiores (Ejemplo
a 6,20
6,20 254 2.459 2.713
< 6,20 309 4.690 4.999
cia de proporciones 7.2).
mmol/lLa yproporcin
muestrales pcon
2 = una de muertes
309/4.999 porenenfermedad
= 0,062
amplitud aquellos cardiovascular
con es p1a=6,20
niveles inferiores 254/2.713
mmol/l.
Total 563 7.149 7.712
n de su error estndar.=Por0,094
tanto,enlalosestimacin
participantes con niveles
puntual de colesterol
de la diferencia total superiores
de riesgos subyacentea es6,20
p - p2 =
Ejemplo 7.4 En la Tabla 7.2 se presenta el nmero de muertes por1 enfermedad
cardiovascular
mmol/l observadas=durante
p2 = =309/4.999 el aquellos
seguimiento con del estudio NHANES II entre los sujetos
0,094 - y0,062
s en la probabilidad subyacente 0,032 y su 0,062 en
la intervalode de confianza niveles
al 95% inferiores a 6,20 mmol/l.
con nivelesde desarrollar
altos y moderados-bajos colesterol srico total (Ejemplo 7.2). La proporcin
de muertes
Por tanto, lapor enfermedad
estimacin cardiovascular
puntual de la diferencia es p1 de
= 254/2.713 = 0,094 eneslos
riesgos subyacente p1 participantes
- p2 =
y no expuestos, se contrasta
con nivelesla hiptesis
de colesterol H0:0,superiores
nula total 094(1 0,094 0,062(1yp02 ,=062
) mmol/l
a 6,20 )
309/4.999 = 0,062 en aquellos
0,032 z 0,975
con niveles
0,094 - 0,062inferiores
= 0,032 ya su 6,20 mmol/l.
2.713
intervalo dePor tanto, laalestimacin
confianza 495%
.999 puntual de la diferencia de
bilateral H1: 1 2. Bajo
riesgosla hiptesis
subyacente nulaes de
p1 p2 = 0,094 0,062 = 0,032 y su intervalo de confianza al 95%
cardiovascular en los sujetos con=niveles 0,032 altos de colesterol
1,960,007 = (0,019;total0,045).
excedi en 32
, se cumple que 0,094(1 0,094) 0,062(1 0,062)
0,032 z 0,975
casos por 1.000 a la de los participantes 2.713 con niveles4ms .999bajos (IC al 95% entre 19
Para el contraste bilateral de la hiptesis nula de igualdad de proporciones
1 1 = diferencia
0,032 1,960,007 = (0,019;(0,045).
0, (1 ) y ,45 casos por 1.000), siendo esta muy significativa P < 0,001).
n
1 n 2 poblacionales
Para el contraste 1 = 2 de
H0:bilateral se emplea el estadstico
la hiptesis nula de igualdad de proporciones poblacionales
H0: el
Para 2 se emplea
1 =contraste el estadstico
bilateral de la hiptesis nula de igualdad de proporciones
de enfermar comn para expuestos y no 0,032
z = [Tabla 7.2 aproximadamente aqu]= 5,13,
poblacionales H0: 1 = 2 se emplea el estadstico 1 1
es desconocida, su valor puede estimarse 0,073(1 0,073)
2.713 4.999
Ejemplo
donde p 7.5 La
a +Tabla
cz)/(=n17.3
= (563/7.712 += muestra
0,073 eslos 0la,032
casos de infarto
proporcin de miocardio
global y lospor enfermedad
nfermos en ambas muestras = de muertes
5,13,
donde p = 563/7.712
cardiovascular en todos= los 0,073 es la proporcin
participantes del1 NHANES 1 de
global II.muertes
El valorporP enfermedad
del test se obtiene
controles del EURAMIC 0,073
con (1valores
0,073de ) colesterol
HDL superiores o inferiores a
para este test es como 2P(Z 5,13) = 2{1 (5,13)} < 0,001.
2.713 4.999 En resumen, despus de 15 aos de
seguimiento,
cardiovascularlaen incidencia
todos losacumulada
participantes de del
muertes
NHANESpor enfermedad
II. El valor cardiovascular
P del test se en los
0,90
sujetosmmol/l. A partiraltos
con niveles de esta tabla 22, total
de colesterol se pretende
excedicomparar
en 32 casosla proporcin
por 1.000dea la de los
obtienepcomo
donde
participantes = 563/7.712
con
2P(niveles = 0,073
Z 5,13) ms es la- (IC
= bajos
2{1 proporcin global
al 95%< entre
(5,13)} 0,001. de
19En muertes
y 45 casos por
resumen, por enfermedad
1.000),desiendo
despus 15 esta
sujetos
diferencia conmuyniveles bajos de colesterol
significativa (P < 0,001). HDL ( 0,90 mmol/l) entre casos p1 = c/m1
cardiovascular en todos los participantes
aos de seguimiento, la incidencia acumulada del NHANES
de muertes II. por
El valor P del test se
enfermedad
= 193/4627.5
Ejemplo = 0,418 y controles
La Tabla p2 = dlos
7.3 muestra /m2 casos
= 158/539 = 0,293.
de infarto La diferencia
de miocardio y losdecontroles del
obtiene como 2 P ( Z 5,13) 7= 2{1 - (5,13)} < 0,001. En resumen, despus de 15
EURAMIC con valores de colesterol HDL superiores o inferiores a 0,90 mmol/l. A8 partir
proporciones
de esta tabla muestrales
22, se pretendees p1 - comparar
p2 = 0,418la- 0,293 = 0,125
proporcin deysujetos
el IC alcon para bajos
95%niveles 1- de
aos de seguimiento, la incidencia acumulada de muertes por
colesterol HDL ( 0,90 mmol/l) entre casos p1 = c/m1 = 193/462 = 0,418 y controles p2 = enfermedad
d/m dado por= 0,293. La diferencia de proporciones muestrales es p1 p2 = 0,418
2 = 158/539
2 viene
0,293 = 0,125 y el IC al 95% para 1 2 viene dado por 8
p1 (1 p1 ) p 2 (1 p 2 )
p1 p 2 z 0,975
m1 m2
0,418(1 0,418) 0,293(1 0,293)
= 0,125 1,96
462 539
= 0,125 1,960,030 = (0,065; 0,184).
Pastor-Barriuso R. 101
7.4fijos), retrospectivos
ASOCIACIN (marginales m1 EN
ESTADSTICA y m2UNA
fijos)TABLA
y transversales (tamao muestral n fijo).
DE CONTINGENCIA
102 Pastor-Barriuso R.
Ejemplo 7.6 La Tabla 7.2 muestra los valores observados de la asociacin entre la
Ejemplo
estimarse7.6 La Tabla
mediante 7.2 muestra
la proporcin los valores
combinada observados
de muertes de lamuestras
en ambas asociacin entre la
mortalidad por enfermedad cardiovascular y el colesterol total en el estudio prospectivo
NHANES
563/7.712 =II.0,073.
Si ambas variables
As, entre fueran
los 2.713 independientes,
participantes la probabilidad
con niveles altos de de morir por
enfermedad cardiovascular sera igual en los sujetos con niveles altos y bajos de
colesterol total,
total.cabra
Esta probabilidad podra =entonces
esperar 2.7130,073 estimarse
198,1 muertes mediante la proporcin
por enfermedad
combinada de muertes en ambas muestras 563/7.712 = 0,073. As, entre los 2.713
participantes
cardiovascularcon bajoniveles altos de
la hiptesis nulacolesterol total, cabra
de independencia. esperar este
Aplicando 2.7130,073
mismo = 198,1
muertes por enfermedad cardiovascular bajo la hiptesis nula de independencia.
Aplicando
razonamiento,estelosmismo
valoresrazonamiento, los valores
esperados en cada esperados
celda vendran en por
dados cada celda vendran
dados por
Estos valores esperados se representan en la Tabla 7.4. Notar que los marginales de la
[Tabla
tabla de frecuencias observadas 7.4 aproximadamente
(Tabla aqu] 7.4) coinciden. De hecho,
7.2) y esperadas (Tabla
una vez calculado el valor esperado en una cualquiera de las celdas, los restantes11
valores
esperados de la tabla 22 quedan determinados por dichos marginales.
Para evaluar la independencia de las variables de una tabla 22, se comparan las
Para evaluarobservadas
frecuencias la independencia de las mediante
y esperadas variables el
deestadstico
una tabla 22, se comparan las frecuencias
observadas y esperadas mediante el estadstico
2 2
(Oij E ij ) 2
2 = Eij .
i 1 j 1
Cuanto mayor sea la diferencia entre los valores observados y esperados, mayor ser la magnitud
del estadstico y, en consecuencia, se tendr mayor evidencia en contra de la hiptesis nula de
independencia. En particular, puede probarse que si las variables de la tabla 22 son
independientes, este estadstico sigue aproximadamente una distribucin chi-cuadrado con 1
grado de libertad (slo una frecuencia esperada de la tabla 22 es independiente). El valor P del
contraste corresponde entonces a la probabilidad a la derecha del estadstico 2 bajo la
distribucin 21. Esta prueba se conoce con el nombre de test chi-cuadrado de independencia
o asociacin de Pearson, y puede aplicarse siempre que los marginales de la tabla sean
suficientemente grandes, de tal forma que todas las frecuencias esperadas sean superiores o
iguales a 5.
Ejemplo 7.8 La Tabla 7.5 muestra las muertes por enfermedad cardiovascular
Dado que las frecuencias esperadas son superiores a 5, puede utilizarse la distribucin
chi-cuadrado
Dado queconlas
(3frecuencias
1)(2 1)esperadas
= 2 grados
son de libertad a(Tabla
superiores 6 del
5, puede Apndice)
utilizarse la para
obtener un valor P = P( 2 33,79) < 0,005. Esto es, la incidencia de muertes por
2
enfermedad cardiovascular
distribucin difierecon
chi-cuadrado significativamente
(3 - 1)(2 - 1) = 2entre
gradoslosde
tres grupos,
libertad obtenindose
(Tabla 6 del
una incidencia acumulada en los 15 aos de seguimiento de 52, 72 y 94 muertes por
cada 1.000 participantes
Apndice) con niveles
para obtener un valordeseables,
P = P( 22 limtrofes
33,79) <altos
0,005.y Esto
altoses,
delacolesterol
total, respectivamente.
incidencia de muertes por enfermedad cardiovascular difiere significativamente
Tabla 7.5Frecuencias observadas (esperadas) de
entre los tres por
muertes grupos, obtenindose
enfermedad una incidencia
cardiovascular acumulada
(ECV) entre en
loslos 15 aos de
participantes del NHANES II con niveles de colesterol
seguimiento de 52,
total < 5,20, 72 y 94ymuertes
5,20-6,19 por cada 1.000 participantes con niveles
6,20 mmol/l.
Colesterol Mortalidad por ECV
deseables, limtrofes altos y altos de colesterol total, respectivamente.
total (mmol/l) S No Total
6,20 254 (198,1) 2.459 (2.514,9) 2.713
5,20-6,19 174 (175,8) 2.234 (2.232,2) 2.408
< 5,20 [Tabla 7.5
135 (189,1) aproximadamente
2.456 (2.401,9) aqu]
2.591
Total 563 7.149 7.712
A partir de una tabla r2, el test chi-cuadrado de Pearson permite contrastar la hiptesis
De este Deresultado
este resultado p1se p1 )que pp21que
(1 desprende
se desprende (-1 p2ppes
1 2-)un
p2 estimador
es un estimador
puntual
puntual
insesgado
insesgado
de la de la
p1 p 2 z1 / 2 ,
Inferencia sobre proporciones n1 n 2
diferencia
diferencia
de riesgos
de riesgos
subyacente 1 - 2entre
subyacente 1 - 2 expuestos
entre expuestos
y no expuestos,
y no expuestos, p2)1=- p12)- = 1 -
E(p1 -E(p
e es simtrico alrededor de la diferencia de proporciones muestrales con una amplitud
. El intervalo
2. El intervalo
de confianza
de confianza
al 100(1 - )%-para
al 100(1 )%para 1 - 2se 2 se obtiene
1 - obtiene siguiendo
siguiendo
el mismo
el mismo
7.52 TEST DE TENDENCIA EN UNA TABLA r2
ectamente proporcional a la estimacin de su error estndar.
Aprocedimiento
partirprocedimiento
utilizado
de una tabla utilizado
r2, para
el testuna
paraproporcin
una proporcin
chi-cuadrado como
de comopermite contrastar la hiptesis nula de
Pearson
Para determinarigualdad
si existende diferencias
proporciones en H 1 = 2 = ... =subyacente
la0:probabilidad r frente a de la hiptesis
desarrollar alternativa
la H1: i j, donde
i y j son 2 muestras cualesquiera. Un resultado p1 (1 ppsignificativo
) pp12)(1 ppde ) esta
p 2 prueba indicara que al
1 1(1 2 2(1 )
menos 2 de las r p1 pp2poblacionales
proporciones 1 zp
fermedad entre los sujetos expuestos y no expuestos, se contrasta / 2 z1 / 2son heterogneas.
12
lanhiptesis En
nula ,el
H0:caso, de que los grupos o
simplemente tomar los valores 1, 2, ..., r indicando el orden de n1los grupos.
1 An
muestras estn intrnsecamente ordenados, cabra preguntarse adems si estas proporciones
2 n 2
= 2 frente a la siguen
hiptesisalguna tendencia
alternativa determinada
bilateral H1: 1 alo largo la dehiptesis
los grupos. nulaEndeeste apartado se presenta un
continuacin, setest
relacionan las proporciones observadas 2.pBajo con sus correspondientes
que especfico
esquesimtrico
simplemente para
es simtrico
tomar detectar
alrededorlos delalaexistencia
alrededor
valores diferencia
de2,la...,
1, r de
i
diferencia deun gradiente
proporciones
indicando de omuestrales
proporciones
el orden componente conlineal
muestrales
de los grupos. una (creciente
Aconamplitud o
una amplitud
decreciente) entre las proporciones de los sucesivos grupos.
ualdad de proporciones
puntuaciones si mediante H0el: estadstico
1 = 2 = , se cumple que
directamente
directamente
continuacin,
En primer proporcional
proporcional
se relacionan
lugar, se asigna a lalasestimacin
una a puntuacin
la estimacin
proporciones de su error
de su estndar.
sobservadas errorpiestndar.
con sus correspondientes
i a cada una de las muestras ordenadas. Esta
puntuacin puede representar un atributo numrico del grupo (ver Ejemplo 7.9), o simplemente
Para
lospdeterminar
Para determinar
puntuaciones r ...,
si
s~i1,medianteexisten si el 1 diferencias
existen
diferencias
estadstico 1 en2
la probabilidad
en la probabilidad subyacente
subyacente
de desarrollar
de desarrollar
la la
tomar valores
1 p 2 N
2, 0n, (r(p1indicando
p))( s els )orden
, de los grupos. A continuacin, se relacionan las
proporciones observadas
i pi i con sus
n1i correspondientes
n2
puntuaciones si mediante el estadstico
enfermedad
enfermedad entre
2
= los
entre
i 1
sujetos
los sujetos
expuestosexpuestosy no , expuestos,
y no expuestos,
se contrasta
2 se contrasta
la hiptesis nula Hnula
la hiptesis 0: H0:
r
r 2
p (1 p ) ni ( s i s ) ni ( p i p )( s i s )
nde corresponde 1 a=la2probabilidad
= 2 frente
1frente
de
a laenfermar
a la hiptesis hiptesis comn
ialternativa
1 2 alternativa
para expuestos
i 1bilateral H1: 1Hy1:no
bilateral 2.1 Bajo
2. la
Bajo
hiptesis
la hiptesis
nula de
nula de
= r
,
puestos. Aunque igualdad
esta probabilidad
igualdad
de proporciones es desconocida,
de proporciones H0: 1H=0:2su p (1valor
1==
,2sep=)cumple
puede
, ni (cumple
se sestimarse
i s)
que
2
que
donde ni es el tamao de cada muestra, n = ni, p = nipi/n esi la 1 proporcin
prospectivos
7.6.1 parariesgo
veces ms
Riesgo comparar
relativo o sonlaun
incidencia
25% msdepropensos
la enfermedad entre expuestos
a desarrollar y no que los
la enfermedad
expuestos,
El riesgo no y seodefine
relativo razn
expuestos como
de
(100( riesgos
- 1) =es100(1,25
la medida- 1)de =
efecto
25%).ms utilizada en estudios prospectivos
para comparar la incidencia de la enfermedad entre expuestos y no expuestos, y se define como
< 1 indica una menor probabilidad 1 deP(contraer
D | E ) la enfermedad en expuestos que
= ,
2 P( D | E c )
en no expuestos. Por ejemplo, si = 0,80, los sujetos expuestos son un 20%
donde 1 = P(D|E) y 2 = P(D|Ec) representan la probabilidad de desarrollar la enfermedad D
entre los sujetos
donde 1 = P(D|E)
menos y 2 E=a ydesarrollar
expuestos
propensos no expuestos
P(D|E c Ec, respectivamente.
) representan la probabilidad
la enfermedad As,
que los no de el riesgo (100(0,80
relativo
desarrollar
expuestos la determina
- 1)
cuntas veces es ms frecuente la enfermedad en expuestos que en no expuestos. Se trata, por
tanto, de =una
enfermedad medida
D entredelos
-20%). efecto
sujetosmultiplicativa
expuestos Eque y nopuede tomarEcualquier
expuestos c valor no negativo,
, respectivamente. As, el de
tal forma que:
riesgo relativo
yy =Un
1 indica la
valordetermina
de y su cuntas
misma inverso 1/ representan
veces
probabilidad es ms
de frecuente
enfermar la enfermedad
el mismo nivel de
en expuestos en expuestos
asociacin,
y no expuestospero en =
P(D|E)
P(D|Ec); es decir, la exposicin y la enfermedad son independientes. Cuanto ms alejado
queest
ensentido
nodeexpuestos.
opuesto.
1 en SePor
cualquiertrata, por tanto,
ejemplo,
sentido, si de
mayor una
=ser
4, lamedida
los sujetosdeexpuestos
magnitud efecto multiplicativa
son 4 veces
de la asociacin que
entrems
exposicin
y enfermedad.
puede propensos
tomar cualquier valor nolanegativo,
a desarrollar enfermedad de tal
queforma
los noque:
expuestos, o equivalentemente
yy > 1 indica una mayor probabilidad de desarrollar la enfermedad en expuestos que en no
expuestos.
Por ejemplo, = 1,25, losdesujetos
siprobabilidad expuestos tienen 1,25
y no veces ms riesgo o
los= no
1 indica la misma
expuestos son un 75% menos propensosenfermar aen expuestos
contraer expuestos
la enfermedad que los
son un 25% ms propensos a desarrollar la enfermedad que los no expuestos (100( 1)
= 100(1,25
P(D|E) = P(D|E
1) = 25%).
c
);es- decir, la exposicin
expuestos (100(1/ 1) = 100(0,25 - 1) =y-75%).
la enfermedad son independientes.
yy < 1 indica una menor probabilidad de contraer la enfermedad en expuestos que en no
expuestos.
Esta medida Pordeejemplo, si = 0,80,
efecto tambin puedelosaplicarse
sujetos expuestos
a estudiosson un 20% menos
transversales propensos a
en trminos
desarrollar la enfermedad que los no expuestos (100(0,80 1) = 20%). 18
yde la razn
y Un valor dede prevalencias.
y su inversoSin 1/embargo,
representany aleligual quenivel
mismo ocurrade con la diferencia
asociacin, de sentido
pero en
opuesto. Por ejemplo, si = 4, los sujetos expuestos son 4 veces ms propensos a
riesgos, el riesgo
desarrollar relativo no que
la enfermedad es directamente
los no expuestos,estimable a partir de estudios
o equivalentemente los no expuestos son
un 75% menos propensos a contraer la enfermedad que los expuestos (100(1/ 1) =
retrospectivos
100(0,25 1)ya=que la proporcin de casos est predeterminada por el propio diseo
75%).
Esta medida de efecto tambin puede aplicarse a estudios transversales en trminos de la
del estudio.
razn de prevalencias. Sin embargo, y al igual que ocurra con la diferencia de riesgos, el riesgo
relativo
A no es directamente
partir estimable a en
de los datos observados partir
unade estudios
tabla retrospectivos
22 (Tabla 7.1), un ya que la proporcin
estimador puntual de
casos est predeterminada por el propio diseo del estudio.
delpartir
A riesgoderelativo viene
los datos determinado
observados por tabla 22 (Tabla 7.1), un estimador puntual del
en una
riesgo relativo viene determinado por
p1 a / n1
RR = ,
p 2 c / n2
que corresponde al cociente entre la proporcin de enfermos en la muestra de sujetos expuestos
p1 = a/n1 y no expuestos p2 = c/n2.
19
Ejemplo 7.10 De la Tabla 7.2 se desprende que la proporcin de muertes por enfermedad
cardiovascular es p1 = 254/2.713 = 0,094 en los participantes del estudio NHANES II con
niveles de colesterol total superiores a 6,20 mmol/l y p2 = 309/4.999 = 0,062 en aquellos
con niveles inferiores a 6,20 mmol/l. As, la estimacin puntual del riesgo relativo es
RR = 0,094/0,062 = 1,51;
108 Pastor-Barriuso R.
El clculo de un intervalo de confianza y un test de hiptesis para no resulta
Medidas de efecto en una tabla de contingencia
sencillo ya que la distribucin muestral de su estimador RR es muy asimtrica,
particularmente cuando el riesgo relativo subyacente dista mucho del valor nulo 1. Para
es decir, la incidencia acumulada de muertes por enfermedad cardiovascular en 15 aos
de seguimiento
solventar es un de
este problema 51% superior en
inferencia, los sujetostrabajar
es preferible con niveles altos
con el de colesterol
logaritmo naturaltotal
del que
en quienes tienen niveles ms bajos.
riesgo relativo, cuya distribucin presenta una mayor simetra. De hecho, puede
El clculo de un intervalo de confianza y un test de hiptesis para no resulta sencillo ya
queprobarse
la distribucin muestral
que si los tamaos dedesu ambas
estimador RR esson
muestras muy asimtrica, particularmente
suficientemente grandes n11(1cuando
- 1) el
riesgo relativo subyacente dista mucho del valor nulo 1. Para solventar este problema de
inferencia,
5 y n2es preferible
2(1 - 2) 5,trabajar
el log(RR)contiende
el logaritmo naturalde
a distribuirse delforma
riesgo relativo,
normal concuya distribucin
media log()
presenta una mayor simetra. De hecho, puede probarse que si los tamaos de ambas muestras
sonysuficientemente 1/an-11/n
grandes
varianza aproximada + 1/c
1(11 1) - 5 y 2n, 22(1 2) 5, el log(RR) tiende a distribuirse
1/n
de forma normal con media log() y varianza aproximada 1/a 1/n1 + 1/c 1/n2,
~ N log( ), 1 1 1 1 .
log( RR)
a n1 c n 2
Ejemplo 7.11 En las Figuras 7.2(a) y (b) se presentan las distribuciones muestrales
RR y del7.11
delEjemplo log(RR) deFiguras
En las mortalidad poryenfermedad
7.2(a) cardiovascular
(b) se presentan entre los sujetos con
las distribuciones
un colesterol total 6,20 y < 6,20 mmol/l obtenidos a partir de 1000 muestras aleatorias
simples de tamao
muestrales del RR 500
y deldel estudio
log(RR) NHANES por
de mortalidad II. enfermedad
Como puede observarse, ambas
cardiovascular
distribuciones estn centradas alrededor de los parmetros subyacentes 1,51 y log(1,51)
= 0,42 en todos los participantes del estudio. Sin embargo, la distribucin muestral del
20
RR presenta una clara asimetra, mientras que el log(RR) se distribuye de forma
aproximadamente normal.
25 25
20 20
15 15
Frecuencia relativa (%) en muestras de tamao 500
10 10
5 5
0 0
0 1 2 3 4 -1 0 1 2
25 25
20 20
15 15
10 10
5 5
0 0
0 1 2 3 4 -1 0 1 2
Pastor-Barriuso R. 109
1 / 2
En base a la distribucin aproximadamente a normal
n1 cdel log(RR),
n2
[Figura 7.2 aproximadamente aqu] puede obtenerse un
intervalo
Inferencia de confianza
sobre proporciones - )% para el
al 100(1 logartmica
Deshaciendo la transformacin enlog( ) como
ambos lmites de este intervalo, el IC al
En base a la distribucin aproximadamente normal del log(RR), puede obtenerse un
bajo -H0 )%
que100(1 siguepara el riesgo relativouna
aproximadamente subyacente 1 queda
distribucin 1 entonces
1normal determinado
estandarizada.
1 por
Conviene
intervalo
En base ade - ) )%
confianza alaproximadamente
la distribucin 100(1
log( RR zpara del
el log(
1 / 2 normal )como
log(RR),
. puede obtenerse un intervalo
de confianza
destacar que estaal 100(1 )%nula
hiptesis paraHel:
log()
= 1 comoa con
coincide
n1 c n 2
la hiptesis H : = 2 de la
0
1 1 1 1 0 1
explog( RR) z1 / 2 1 1 1 1 .
Deshaciendo
comparacin de la log(
transformacin
proporciones RR z1 / 2 en
)muestras
logartmica
en dos aambos
n1 lmites
c nde
independientes, 2. este intervalo, el IC al
a n1 c n 2as como con la hiptesis
100(1
Deshaciendo- )% la para el del
riesgo
transformacin relativo subyacente queda entonces determinado por
unalogartmica enenambos lmites deEste
este intervalo, el IC unal 100(1
2
nula de independencia
Notar que por tratarse detest de Pearson
medida de efecto una tabla 22.
multiplicativa, test es, por
el intervalo detanto,
confianza
)%
Deshaciendo
para el la
riesgo transformacin
relativo subyacente
que bajo H0 sigue aproximadamente una distribucin normal estandarizada. Conviene al
logartmicaqueda en ambos
entonces lmites de
determinadoeste intervalo,
por el IC
procedimiento
no es simtrico alternativo
alrededor para
de contrastar
la estimacinla misma
puntual hiptesis
RR. nula,quelaarroja resultados
100(1 - )% para el riesgo relativo subyacente 1 Asimismo,
1 queda 1entonces hiptesis
1 determinado nula de
destacar que esta hiptesisexp nula H0: RR
log( =) 1 zcoincide
1 / 2 lahiptesis
con H . 0: 1 = 2 depor la
muy similares cuando el tamao muestral es grande.a No n1 obstante,
c n 2 si la muestra es
no efecto H0: = 1 puede contrastarse frente a la hiptesis alternativa bilateral H1:
comparacin
Notar que pordetratarseproporciones
de una en dos muestras
medida de efectoindependientes,
1 1 1 as
multiplicativa, el como condela confianza
1 intervalo hiptesis no es
moderada
1Notar o
mediante
simtrico que pequea, el
el estadstico
alrededor
por valor
de la de
tratarse exp P de
log(
estimacin
una este
medida test
RRpuntual puede
) dez1efecto
RR.
/2 resultar algo impreciso,
la hiptesis
Asimismo,
multiplicativa, .intervalo
el en cuyo
nulade nocaso
efecto H0:
deconfianza
2 a n c n
nula
= 1de independencia
puede contrastarsedel test ala de
frente Pearson
hiptesis en una tabla
alternativa
1
22. H
bilateral
2
Este test es, por tanto, 2un
1: 1 mediante el estadstico
es preferible utilizar los contrates basados en la diferencia de proporciones o el test
no es simtrico alrededor de la estimacinlog( RR) RR. Asimismo, la hiptesis nula de
puntual
procedimiento
Notar que por alternativo
tratarse de para z delaefecto
unacontrastar
medida mismamultiplicativa,
hiptesis, nula,elque arroja resultados
intervalo de confianza
de no
Pearson.
efecto H0: = 1 puede contrastarse frente 1 1 1 1
a la hiptesis alternativa bilateral H1:
muy nosimilares
es simtrico cuando el tamao
alrededor de lamuestral aes grande.
estimacin npuntual
1 c No n 2obstante,
RR. Asimismo, si lalamuestra esnula de
hiptesis
que1 bajo
mediante
H0 sigue
Ejemplo
el estadstico
7.12 aproximadamente
Retomando una distribucin
de este
nuevo delnormal estandarizada. Conviene la destacar
moderada
no efectoo pequea,
H : = 1elpuede P de
valor contrastarse testlos
frente
datosresultar
puede a la
NHANES
hiptesis
II presentados
algoalternativa
impreciso, en cuyo
bilateral
encaso
H 1: de
que esta hiptesis nula H : = 1 coincide con la hiptesis H : = de la comparacin
0
0 0 1 2
proporciones en dos
Tabla 7.2, muestras
el IClos independientes,
al contrates
95% para el log(en asRR
log(
) resultacomo
) con la hiptesis nula de independencia
ser 2
es preferible
1 mediante utilizar
el estadstico basados
z la diferencia ,de proporciones o el test
del test de Pearson en una tabla 22. Este
2
test
1 1 1 1 es, por tanto, un procedimiento alternativo para
contrastar la misma hiptesis nula, que arroja resultados
muy similares cuando el tamao 21
de Pearson. a 1n1 c 1 n 2 1
1 muestra
muestral es grande. No obstante, si la
log(1,51) z 0,975 z log(es moderada
RR
) o pequea, el valor P de este test
puede resultar algo impreciso, en cuyo 254 caso 2.713
es 309 4,utilizar
preferible .999 los contrastes basados en la
1 1 1 1
diferencia de proporciones o el test
2 de Pearson.
Ejemplo 7.12 Retomando de nuevo alos datos
n cdel nNHANES II presentados en la
= 0,415 1 1,960,081 2
= (0,256; 0,574).
Ejemplo
Tabla 7.2,7.12 Retomando
el IC al 95% para eldelog( nuevo los datos
) resulta ser del NHANES II presentados en la
Tabla 7.2, el IC al 95% para el log() resulta
Aplicando la exponencial a ambos lmites del intervalo, ser el IC al 95% para 21
1 1 1 1
por1,51) z 0,975
vendra dadolog(
254 2.713 309 4.999 21
= 0,415
(exp{0,256}, 1,960,081
exp{0,574}) = (0,256;
= (1,29; 1,78), 0,574).
Aplicando la exponencial a ambos lmites del intervalo, el IC al 95% para vendra dado por
que es ligeramente
Aplicando asimtrico
la exponencial respecto
a ambos
(exp{0,256},
a ladel
lmites estimacin
exp{0,574}) intervalo, el IC alRR
puntual
= (1,29; 1,78),
= 1,51.
95% para El
que corresponde a un valor P bilateral 2P(Z 5,11) = 2{1 - (5,11)} < 0,001.
,
medirse
7.6.2 Odds ratio la probabilidad P(D|E)
mediante P( D c de
| Eque
) un sujeto de la poblacin expuesta
vendra dada por
presente o desarrolle
La frecuencia de una dicha enfermedad.
enfermedad D en una Otrapoblacin
medida de frecuencia
expuesta
Medidas adeun de la
factor
efecto en enfermedad
unaEtabla
suele
de contingencia
que se conoce como el odds de estar enfermo P( D | E ) entre los expuestos y puede estimarse
vendra ,
medirse dada
mediantepor la probabilidad P(D|E) P( D c de | Eque ) un sujeto de la poblacin expuesta
mediante
7.6.2 Odds ratio
presente o desarrolle dicha enfermedad.POtra ( D | medida
E) de frecuencia de la enfermedad
que se conoce como el odds
La frecuencia de una enfermedad D ena /unade estar enfermo entre
n1( Dpoblacin
ca
,
los expuestos
expuesta ya puede un factor estimarse
E suele medirse
P | .E )
vendra dada por
mediante la probabilidad P(D|E) de quebun / nsujeto
1 b de la poblacin expuesta presente o desarrolle
mediante
dicha enfermedad. Otra medida de frecuencia de la enfermedad vendra dada por
que se conoce como el odds de estar enfermo P( D | Eentre ) los expuestos y puede estimarse
a / n1 por ca
,
Ejemplo 7.13 La proporcin de muertes P ( D | .E enfermedad
) cardiovascular entre los
mediante b / n1 b
que se conoce como el odds de estar enfermo entre los expuestos y puede estimarse mediante
participantes del NHANES II con niveles de colesterol total 6,20 mmol/l es
que se conoce como el odds de estar enfermo a / n1 entre a los expuestos y puede estimarse
.
Ejemplo 7.13porLa proporcin deconmuertesb / n1poraltos b de colesterol
medianteesto es, cada 10 sujetos a niveles 254 enfermedad cardiovascular
que no fallezcan entre los
por
0,094 ;
Ejemplo n1de muertes
2.713 por enfermedad cardiovascular entre los
esto es,7.13
participantes
enfermedad pordel La
NHANESproporcin
cardiovascular,
cada 10 sujetosII con habr
con niveles de
aproximadamente
niveles altos colesterol
de colesterol total
1 muerteque 6,20no
por mmol/l
dicha es
fallezcan causa
por a
participantes del NHANES II con a
niveles/ n 1 deacolesterol total 6,20 mmol/l es
Ejemplo 7.13 La proporcin de muertespor. enfermedad cardiovascular entre los
es decir,
los 15aproximadamente 1 dehabr
cada 11 1sujetos b con niveles altosambas de colesterol
enfermedadaos de seguimiento.
cardiovascular, a baproximadamente
Aunque / nla
254 interpretacin 1difiere,
muerte por medidas
dicha causade a
participantes del NHANES IIn con niveles 0de ,094 ;
colesterol total 6,20 mmol/l es
fallecer 2.713
es,por
porenfermedad cardiovascular laa interpretacin
los 15deaos dedifiere,
seguimiento. Por otraporde
1
frecuencia
esto
los 15 aos facilitan
cada
de 10 la
seguimiento. misma
sujetos con informacin.
Aunqueniveles altos colesterol queambasno fallezcan
medidas
es decir,
Ejemplo aproximadamente
7.13 La proporcin 1 dede cada 11 sujetos
muertes con nivelescardiovascular
por enfermedad altos de colesterol entrefallecer
los
parte,
por el odds
enfermedad de morir por
cardiovascular enfermedad
a a
los 15 254
cardiovascular
aos de entre
seguimiento. estos Por sujetos
otra es
parte, el odds
es decir, aproximadamente
enfermedad
frecuencia cardiovascular,
facilitan la misma1 dehabr
cada 11
sujetos
aproximadamente
informacin. 0con ,094niveles
; 1 muerte altos por de colesterol
dicha causa a de
Departicipantes
morirforma equivalente,
por enfermedad el odds II
cardiovasculardecon n
estar
1 entre 2 . 713
enfermo estos entre
sujetos loses no expuestos se define
del NHANES niveles de colesterol total 6,20 mmol/l es
fallecer
los 15 por
aosenfermedad
de seguimiento. cardiovascular
Aunque
a 254 laa los 15
interpretacin aos de seguimiento.
difiere, ambas Por otra
medidas de
como
Dees forma equivalente, el odds de enfermo
estar 0,103 ; los no expuestos se define
entre
decir, aproximadamente 1 bde cada 11 sujetos con niveles altos de colesterol
parte, el odds facilitan
de morir la por enfermedad a2.459 254
cardiovascular
frecuencia misma informacin.
0,094 ; entre estos sujetos es
comoestofallecer
es, por cada 10 sujetos con
por enfermedad cardiovascular niveles
n altos
2 . 713 de colesterol que no fallezcan por enfermedad
1
P( D | Ea )los 15 aos de seguimiento. Por otra
c 23
cardiovascular, habr aproximadamente 1 muerte , por dicha causa a los 15 aos de
a P254 c
| E 0c ,)103
seguimiento.
De parte, Aunque
formaelequivalente,
odds de lael interpretacin
morir odds
por ( Denfermo
de estar
enfermedad difiere, ambas ; los
entre medidas
no de frecuencia
expuestos esfacilitan la
se define
es decir, aproximadamente 1 bde cada
misma informacin. P
2.(459D11 | Ecardiovascular
sujetos
c
) con nivelesentre estos
altos sujetos
de colesterol
,
como P( D c | E c )
y el odds ratio opor
fallecer razn de odds entre
enfermedad expuestos
cardiovascular 254ayentre no15
los expuestos
aos de queda seguimiento. entonces Por otra 23
De forma equivalente, el odds de estaraenfermo 0,103 ; los no expuestos se define como
b 2.459c
ydeterminado
el odds
parte, elpor
ratio o razn
odds de demorirodds porentre expuestos
enfermedad y) no expuestos
P( D | Ecardiovascular queda
entre estosentonces
sujetos es
,
P( D | E )c c
23
determinado por c c c
P( D | E ) / P( D
y el odds ratio o raznde= odds entre expuestos a | E254 ) P( D | E ) Pqueda (D | E )
yc no expuestos
0,103 ; entonces
, determinado por
P ( D | E
y el odds ratio o razn de odds entre expuestos
c
) / P ( b
D c
| 2
E . 459
) P ( D c
| E
y no expuestos cqueda ) P ( D | E c
) entonces
P( D | E ) / P( D c | E ) P( D | E ) P( D | E c )
= c c c
c c
, 23
determinado
cuya estimacin por puntualP( D | E ) / P ( D | E ) P( D | E ) P( D | E )
cuya estimacin puntual
cuya estimacin puntual P( D | E ) / P ( D c
(a / |nE1 )( ) d / nP2()D | ad E ) P( D c | E c )
= OR = c c c ,
P( D | E c ) / P( D | E )
(b / n1 )(c / n 2 ) bc P ( D | E ) P ( D | E c
)
(a / n1 )(d / n 2 ) ad
coincide con la razn del productoOR =
cruzado de las celdas de una tabla 22.
cuya estimacin puntual (b / n1 )(c / n 2 ) bc
coincide
Al conellariesgo
igual que razn relativo,
del producto el odds cruzado
ratio es deuna las celdas
medidadedeuna efecto tabla 22.
multiplicativa que toma
valores no negativos. Si = 1, las probabilidades de enfermar en expuestos y no expuestos
Al igual
coincide
coinciden conque
P(D|E) elP(D|E
la=razn riesgo c relativo,
del), producto
indicando elcruzado
odds
(a / nratio
1 )(ded las/esn 2una) medida
celdas ad de una detablaefecto 22. multiplicativa
OR = independencia entre exposicin y enfermedad. Si por el
contrario > 1, la probabilidad de contraer (b / nla1 )(enfermedad
c / n 2 ) bcser mayor en expuestos que en no
queAltoma
expuestos; igual valores
que elque
mientras no negativos.
riesgo < 1, Si
si relativo, la el odds
= 1, las
probabilidad ratio probabilidades
esdeuna medidadede
desarrollar laenfermar en expuestos
efecto multiplicativa
enfermedad ser menor y en
expuestos que en no expuestos. Resulta sencillo probar que el odds ratio estar siempre ms
c
coincide
tomacon
no expuestos
que lacoinciden
valores razn delP(D|E)
producto
no negativos. cruzado
= P(D|E
Si de
= 1, ),lasindicando las celdas
probabilidades de de
unaenfermar
independencia tablaentre22. enexposicin
expuestos yy
no Al igual que
enfermedad.
expuestos Si el
porriesgo relativo,
el contrario
coinciden P(D|E) el odds
=P(D|E
> 1, lac),probabilidad
ratio es unaindependencia
indicando medida de efecto
de contraer multiplicativa
laentre
enfermedad sery R.
exposicin
Pastor-Barriuso 111
que toma
en valores
enfermedad.
mayor noelque
Si por
expuestos negativos.
contrario > 1,
Si = la
1, probabilidad
en no expuestos; las probabilidades
mientras de enfermar
quedesicontraer
< 1, en expuestos
lalaprobabilidad
enfermedad ser y
de
254 4.690
OR = = 1,57.
Inferencia sobre proporciones 2.459 309
y no expuestos, de tal forma que P(Dc|E) y P(Dc|Ec) estn prximas a 1, el odds ratio
Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57%
ser entonces
alejado del valor aproximadamente igualrelativo.
nulo 1 que el riesgo al riesgo relativo.si la probabilidad de enfermar es baja en
Adems,
los sujetos superior
expuestosen los sujetos
y no con niveles
expuestos, de colesterol
de tal forma que P(Dtotal
c
|E) ysuperiores a 6,20prximas
P(Dc|Ec) estn mmol/l que
a 1, el
odds ratio ser entonces
Ejemplo 7.14 Acon aproximadamente
partir de datos igual alenriesgo
observados relativo.
el estudio
en aquellos niveles inferiores a 6,20 mmol/l. Este NHANES
odds ratio II
es(Tabla 7.2),
ligeramente
Ejemplo 7.14 A partir
la estimacin deodds
los datos observados en el estudio NHANES II (Tabla 7.2), la
mayor que puntual
el riesgodel
relativo ratio
RR =es1,51 estimado en el Ejemplo 7.10, aunque la
estimacin puntual del odds ratio es
diferencia no es muy grande porque 254 la4.incidencia
690 acumulada es relativamente baja
OR = = 1,57.
2.459 309
tanto en expuestos 254/2.713 = 0,094 como en no expuestos 309/4.999 = 0,062.
Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57% superior en los
sujetos conelniveles
Por tanto, odds dedemortalidad
colesterol total superiores a cardiovascular
por enfermedad 6,20 mmol/l queesen unaquellos
57% con niveles
inferiores
De la propia a 6,20 mmol/l.
definicin de Este odds obvio
, resulta ratio esqueligeramente
el odds ratiomayor
puedeque el riesgo
estimarse relativo
a partir
RR
superior
= 1,51enestimado
los sujetos
en con niveles 7.10,
el Ejemplo de colesterol
aunque la total superiores
diferencia a 6,20
no es muymmol/l
grande que
porque la
de estudios prospectivos y transversales, ya que ambos diseos facilitan estimaciones como
incidencia acumulada es relativamente baja tanto en expuestos 254/2.713 = 0,094 de
aquellos
en no con niveles
expuestos 309/4.999inferiores
= 0,062.a 6,20 mmol/l. Este odds ratio es ligeramente
las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definicin de
Demayor que definicin
la propia el riesgo relativo RR = 1,51
de , resulta obvioestimado
que el en el Ejemplo
odds 7.10,estimarse
ratio puede aunque laa partir de
estudios prospectivos
probabilidad y transversales,
condicional (ver Tema 2), ya elque
odds ambos diseosexpresarse
ratio puede facilitan aestimaciones
su vez en de las
diferencia de
probabilidades no es muy grande
enfermar porque
P(D|E) la incidencia
y P(D|E c acumulada
). Aplicando es relativamente
la definicin baja
de probabilidad
condicional
trminos (ver
de laTema 2), el odds
probabilidad de ratio
estarpuede expresarse
expuesto a su vez
en enfermos enenfermos
y no trminos de la probabilidad
como
tanto
de estar en expuestos
expuesto 254/2.713
en enfermos y no = 0,094 como
enfermos comoen no expuestos 309/4.999 = 0,062.
P( D | E ) P( D c | E c ) P( D E ) P( D c E c )
De la propia definicin Pde( Dc, |resulta
E ) P ( Dobvio
| E c )quePel
( Dodds
c
Eratio
) P(puede
D Eestimarse
c
) a partir
( E | D) P( E c ya
de estudios prospectivos yPtransversales,
c
| D que) ambos diseos facilitan estimaciones de
,
P( E | D c ) P( E c | D)
las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definicin de
de donde se desprende
estimacin queodds
puntual del el odds ratio
ratio en es tambin
estudios estimable a partir
retrospectivos de estudios
coincide retrospectivos,
con la razn del
aundecuando
dondeestos
probabilidad se diseos (ver
desprende
condicional no
quefacilitan
el odds2),
Tema informacin
ratio es tambin
el odds alguna
ratio sobre
estimable
puede las probabilidades
a partir
expresarse devez
a su en absolutas de
estudios
enfermar en cruzado
producto expuestos y no expuestos. Por supuesto, la estimacin puntual del odds ratio en
estudios
trminos retrospectivos
retrospectivos, coincide
aun cuando
de la probabilidad condiseos
deestos
estar la raznnodel
expuesto producto
enfacilitan
enfermos cruzado
informacin alguna
y no enfermos sobre las
como
112 estimacin
Pastor-Barriuso R. del riesgo relativo, asumiendo que se cumplen las condiciones citadas
anteriormente.
retrospectivo
poblacin dedelhombres
estudio no permite
adultos, esteconocer la incidencia
odds ratio de infartoscomo
puede interpretarse entreunlosriesgo
con un colesterol HDL inferior a 0,90 mmol/l (100(0,58 - 1) = -42%).
sujetos
Como con
layvalores
relativo altos
concluir
incidencia deylos
que bajos
infarto de
sujetoscolesterol
agudo HDL, ses
condeunmiocardio
colesterol es
HDLposible
Medidas obtener
superior
de efecto
relativamente enauna
0,90
bajaunammol/l
tabla
en de contingencia
la
El odds
medida
presentanratio un
poblacin es
relativade una
de
42% lamedida
hombresasociacin
menos de efecto
riesgo
adultos, de multiplicativa
entre
este el colesterol
padecer
odds un puede
ratio cuya
HDL
infarto ydedistribucin
elmiocardio
riesgo de
interpretarse muestral
infarto
que
como dees
aquellos
un riesgo
incidencia de infartos entre los sujetos con valores altos y bajos de colesterol HDL, s es
notablemente
miocardio
con
posible un
relativo asimtrica
mediante
colesterol
obtener el(Figura
HDLodds
una medida
y concluir que los 7.2(c)),
ratio
inferior a 0,90
relativa
sujetos demientras
con lammol/l que
asociacin
un suentre
colesterol transformacin
(100(0,58HDLel - superior
1)colesterol
= -42%).alogartmica
HDLmmol/l
0,90 y el riesgo
de infarto de miocardio mediante el odds ratio
log(OR) tiende aun
presentan distribuirse
42% menos normalmente
riesgo de (Figuraun
padecer 7.2(d))
infartocon deuna varianza
miocardio que aquellos
269 158
El odds ratio es una medida deOR efecto
= multiplicativa = 0,58.cuya distribucin muestral es
aproximadamente igual HDL
a la suma de los 381 193 de las frecuencias de una tabla 22
inversos
con un colesterol inferior a 0,90 mmol/l (100(0,58 - 1) = -42%).
notablemente asimtricade(Figura
Como la incidencia infarto7.2(c)),
agudo de mientras
miocardio que essu relativamente
transformacinbaja logartmica
en la poblacin
de hombres adultos, este odds ratio puede interpretarse 1 1 1 1 como un riesgo relativo y concluir
log(OR)
que tiende
los
El odds ratioaes
sujetos distribuirse
con
una un normalmente
var{log(OR)}
colesterol
medida (Figura
HDLmultiplicativa
de efecto superior 7.2(d))
a 0,90cuyacon
mmol/l unapresentan
varianza
. distribucin un 42%
muestral esmenos
riesgo de padecer un infarto de miocardioa queb aquellos c d con un colesterol HDL26 inferior
aproximadamente
a 0,90 mmol/l
notablemente igual a(Figura
(100(0,58
asimtrica la suma de los inversos
1) =7.2(c)),
42%). mientrasde quelassufrecuencias
transformacin de una tabla 22
logartmica
Utilizando esta aproximacin normal a la distribucin muestral del log(OR) y
log(OR)
El odds tiende
ratio aesdistribuirse
una medida normalmente
de efecto(Figura 1 1 7.2(d)) 1 1con
multiplicativa cuya unadistribucin
varianza muestral es
deshaciendoasimtrica
notablemente a continuacin
(Figura var{log(OR)}
la 7.2(c)),
transformacin
mientraslogartmica, .
se obtiene ellogartmica
que su transformacin intervalo delog(OR)
a b c d
aproximadamente igual a la suma de los inversos de las
tiende a distribuirse normalmente (Figura 7.2(d)) con una varianza aproximadamente frecuencias de una tabla 22igual a la
confianza
suma al 100(1de
de los inversos - las
)%frecuencias
para el oddsderatio tabla 22
una subyacente
Utilizando esta aproximacin normal a la distribucin muestral del log(OR) y
1 1 1 1
var{log(OR)} .
deshaciendo a continuacin transformacinalogartmica, 1 b 1 c 1 dse1 obtiene
explalog( OR) z1 / 2 , el intervalo de
Utilizando esta aproximacin normal a la distribucin a bmuestral c d del log(OR) y deshaciendo a
confianza
Utilizandoal
continuacin 100(1
laesta - )% para
transformacin
aproximacin el odds aratio
logartmica,
normal subyacente
lasedistribucin
obtiene el intervalo
muestral de log(OR) yal 100(1 )%
delconfianza
para el odds ratio subyacente
que no es simtrico alrededor de la estimacin puntual OR. De forma anloga, la
deshaciendo a continuacin la transformacin logartmica, se obtiene el intervalo de
Ejemplo 7.16 Continuando con el ejemplo anterior, 1 1 el1 IC 1al95% para el odds
significacin estadstica exp log(OR) bilateral
del contraste z1 / 2 de la nula , H0: = 1 se obtiene
confianza al 100(1 - )% para el odds ratio subyacente a bhiptesisc d
ratio de infarto agudo de miocardio entre los sujetos con niveles altos y bajos de
quea no es simtrico
partir alrededor de la estimacin puntual OR. De forma anloga, la significacin
del estadstico
quecolesterol
no es
estadstica delsimtrico
contraste
HDL es alrededor estimacin
bilateral de la hiptesis nula1 H0:1OR.
puntual =11 seDe forma anloga,
1 obtiene a partir del la estadstico
explog(OR) z1 / 2 ,
log(ORa) b c d
significacin estadstica del contraste z bilateral de la hiptesis , nula H0: = 1 se obtiene
11 1 1 1 11 1
exp log(0,58) z 0,975
aqueEjemplo
partir
no es 7.16 Continuando
delsimtrico
estadstico con el 269 a b381
ejemplo c 193 d OR.
anterior, el158
ICDe al 95% para el odds
alrededor de la estimacin puntual forma anloga, la
que bajo H0 sigue aproximadamente una distribucin normal estandarizada.
ratio de infarto
significacin agudodel
estadstica de miocardio
contraste entre losdesujetos
bilateral con niveles Haltos
: =y 1bajos de
se obtiene
que bajo H0 sigue aproximadamente una distribucin
= exp(-0,55log(OR ) la hiptesis nula
normal=estandarizada.
1,960,134) (0,44; 00,75).
z ,
Ejemplo
colesterol 7.16
HDL Continuando
es con el 1ejemplo 1 1anterior,1 el IC al 95% para el odds ratio de
a partir
infartodel estadstico
agudo de miocardio entreuna
losconfianza
sujetos
Por tanto, puede afirmarse con a b con cdelniveles
d95% que altoslos y bajos decon
sujetos colesterol
nivelesHDL es
1 log( 1OR) 56% 1 riesgo de padecer un
1 menos
altos de colesterol
log(HDL
0,58)tienen
z 0,975zentre
expaproximadamente unaun 25 y un
, estandarizada.
que bajo H0 sigue 269 distribucin normal 27
1 1381 1 193 1 158
infarto de miocardio que quienes tienen
= exp( niveles
a0,55 ms
d bajos=(100(0,75
b c1,960,134) - 1) = -25% y
(0,44; 0,75).
100(0,44
Por tanto, -puede
1) = -56%). Asimismo,
afirmarse con una el contrastedelbilateral
confianza 95% que delos
la hiptesis de niveles
sujetos con no altos de
que bajo H0 sigue aproximadamente una distribucin normal estandarizada.
colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un infarto de miocardio
Por tanto,
efecto H0: puede afirmarse el
tienen
= 1 mediante con una confianza del 95% que los sujetos con niveles 27
estadstico
que quienes niveles ms bajos (100(0,75 1) = 25% y 100(0,44 1) = 56%).
Asimismo, el contraste bilateral de la hiptesis de no efecto H0: = 1 mediante el estadstico
altos de colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un
log(0,58)
z= = 4,10
infarto de miocardio que quienes1 tienen1 niveles
1 ms
1 bajos (100(0,75 - 1) = -25% y 27
269 381 193 158
100(0,44 - 1) = -56%). Asimismo, el contraste bilateral de la hiptesis de no
arroja
efecto un
H0:resultado muy significativo
= 1 mediante P = 2P(Z -4,10) = 2{1 - (4,10)} <Pastor-Barriuso
el estadstico 0,001. R. 113
arroja un resultado muy significativo P = 2P(Z 4,10) = 2{1 (4,10)} < 0,001. Notar
que este test es equivalente al contraste de hiptesis realizado en el Ejemplo 7.5 sobre la
igualdad en la proporcin de sujetos con niveles bajos de colesterol HDL entre los casos
de infarto y los sujetos libres de la enfermedad, de tal forma que los valores P resultantes
de ambos procedimientos son virtualmente idnticos.
Hasta este punto se han presentado distintos mtodos para la comparacin de proporciones a
partir de muestras independientes. Con cierta frecuencia, sin embargo, suelen emplearse
muestras dependientes, que surgen tanto de observaciones tomadas en los mismos sujetos como
en distintos sujetos emparejados de acuerdo a determinados factores pronsticos. En el Apartado
6.4 del tema anterior, se presentaron diversos diseos o mecanismos de generacin de datos
dependientes. En general, el propsito de los diseos emparejados es aumentar la precisin de
las comparaciones y, en mayor medida, mejorar la validez de las inferencias al controlar por
posibles factores de confusin. En este apartado se aborda el tratamiento estadstico de datos
binarios o dicotmicos procedentes de parejas dependientes.
La muestra consiste en n parejas dependientes o correlacionadas, donde cada pareja est
compuesta por dos observaciones de una variable dicotmica procedentes de distintas poblaciones.
As, por ejemplo, en comparaciones antes y despus de un tratamiento, cada pareja de datos est
constituida por la respuesta en un mismo sujeto antes y despus de dicho tratamiento. Igualmente,
en un estudio de casos y controles emparejados, cada pareja de observaciones est formada por
la presencia o ausencia de exposicin en cada caso y su correspondiente control. Para simplificar
la presentacin, nos centraremos en adelante en un estudio de casos y controles emparejados.
Para preservar el emparejamiento muestral, la unidad de anlisis ser cada pareja y no cada
individuo. As, la organizacin de los datos por individuo mediante la Tabla 7.1 no resulta adecuada
ya que se pierde la informacin relativa al emparejamiento. La forma apropiada de presentar los
datos se muestra en la Tabla 7.6. Cada unidad de esta tabla representa una pareja, de tal forma que
hay a parejas donde ambos caso y control estn expuestos al factor de riesgo, b parejas donde el
caso est expuesto y el control no, c parejas donde el control est expuesto y el caso no, y d parejas
donde ninguno est expuesto. Las a + d parejas donde ambos o ninguno de los miembros estn
expuestos se denominan parejas concordantes, mientras las restantes b + c parejas son discordantes.
114 Pastor-Barriuso R.
[Tabla 7.7 aproximadamente
Comparacin deaqu]
proporciones en dos muestras dependientes
1
que
donde delaesta
coincideexpresin,
ltima con
igualdad se refleja
la razntiene que
entre
suambos
relacin tipos
condeelpares
oddsdiscordantes.
ratio subyacente Si el.
nmero de
Despejando de
esta expresin, se tiene que
parejas probabilidadb con
Como ladiscordantes puede estimarse
el caso expuestomediante la proporcin
es superior de parejasb/(b + c) de
al nmeroobservada
.
parejas discordantes 1
discordantes c con eldonde
controlelexpuesto,
caso est el
expuesto,
odds ratio la estimacin
ser mayor puntual
de 1 y ladel odds ratio de
exposicin
Como la probabilidad puede estimarse mediante la proporcin observada b/(b + c) de parejas 30
enfermar
discordantes
Como
estar entre
dondeexpuestos
el caso
la probabilidad
directamente y no
est
puede
asociada conexpuestos
expuesto,
estimarse es
la estimacin
mediante
la enfermedad; lapuntual delsiodds
proporcin
mientras que es ratio
bobservada deb/(b
inferior enfermar
a c,+elc) deentre
expuestos y no expuestos es
odds ratio
parejas ser menordonde
discordantes de 1 yellacaso
exposicin
best c)estarb inversamente
expuesto,
/(b c) b asociada
labestimacin
/( conodds
puntual del la ratio de
OR = ,
1 b /(b c) c /(b c) c
enfermedad.
enfermar entre expuestos y no expuestos es
que coincide con la razn entre ambos tipos de pares discordantes. Si el nmero de parejas
queAlcoincide
igualbque
discordantes conenel
con lamuestras
caso independientes,
raznexpuesto
entre ambos tipos el log(OR)
c) de al
bes/(bsuperior pares tambin se Si
b discordantes.
b /(nmeroc) deb parejas
distribuye
el nmerode de
discordantes forma
c con el
control expuesto, el odds ratioOR ser= mayor de 1 y la exposicinestar
1 b /(dependientes,
b c) c /(b con c) media
c
, directamente asociada con
aproximadamente
parejas discordantes
la enfermedad; mientrasnormal conen
bque sielbmuestras
caso expuesto
es inferior eselsuperior
a c, odds ratioal nmero deparejas
ser log(
menor ) ydevarianza
1 y la exposicin
estar inversamente asociada con la enfermedad.
discordantes
aproximada
que ccon
coincide1/b con elrazn
+la1/c. control expuesto,
El intervalo
entre ambos el odds
de confianza
tipos de ratio ser
al 100(1
pares mayor
discordantes.de Si
- )% para 1 el
yella exposicin
odds ratiode
nmero
Al igual que en muestras independientes, el log(OR) tambin se distribuye de forma
estar directamente
aproximadamente
subyacente
parejas normal
resulta
discordantes asociada
en el con
casolaexpuesto
conmuestras
bentonces enfermedad;
dependientes, mientras
con
es superiormedia que si byde
log()
al nmero esvarianza
parejas a c, el
inferioraproximada 1/b
+ 1/c. El intervalo de confianza al 100(1 )% para el odds ratio subyacente resulta entonces
odds ratio ser
discordantes menor
c con de 1 y la
el control exposicin
expuesto, estar
el odds inversamente
ratio ser mayorasociada
de 1 y la con la
exposicin
1 1
explog(OR) z1 / 2 .
enfermedad.
estar directamente asociada conla enfermedad; mientras b c que si b es inferior a c, el
Alratio
odds igual quemenor
en muestrasy independientes, el log(OR) tambinasociada
se distribuye lade forma
Ejemploser
7.18 Endela 1Tabla
la exposicin estar
7.7 se tienen inversamente
6 parejas discordantes con slo
donde el caso de
infarto tiene7.18
Ejemplo un nivel
En la alto
Tabla de7.7
colesterol
se tienenHDL y 17discordantes
6 parejas parejas discordantes
donde slodonde slo el
el caso
aproximadamente
enfermedad. normal en muestras dependientes, con media log( ) y varianza
de infarto tiene un nivel alto de colesterol HDL y 17 parejas discordantes donde
aproximada 1/b en
Al igual que + 1/c. El intervalo
muestras de confianza
independientes, el log(OR) - )% para
al 100(1tambin el odds ratio
se distribuye de forma R.
Pastor-Barriuso 115
subyacente resulta
aproximadamente normal en muestras dependientes, con media log() y varianza
entonces
slo el control presenta un nivel alto, de lo cual se deduce que la estimacin
Inferencia sobre proporciones
slo el control
puntual del oddspresenta
ratio es un nivel alto, de lo cual se deduce que la estimacin
esperada
esta bajo laesperada
frecuencia
Ejemplo hiptesis
7.19 nula.
sera Si del
no hubiera
simplemente
El estadstico test de asociacin
la McNemar
mitad enentre
del nmero exposicin
total7.7
la Tabla de toma y enfermedad,
parejas el valor
contraste
Ejemplo se 7.19
conoceElcomo el test del
estadstico de McNemar
test de McNemar y se aplica en lacuando
Tabla 7.7la varianza de b bajo
toma el valor
esta frecuencia
discordantes (b +esperada
c)/2, consera
lo cualsimplemente
el estadstico la mitad del nmero
del2 contraste vienetotal de parejas por
determinado
la hiptesis nula es var(b) = (b + c)2=(1(-6)17 = )(b += c)/45,26. 5; es decir, cuando el nmero
discordantes (b + c)/2, con lo cual el estadstico 6 17del contraste viene determinado por
de Aparejas
partir discordantes es superior
de la distribucin o igual acon
chi-cuadrado 20.1 grado de libertad (Tabla 6 del Apndice),
A partircomprobarse
puede de la distribucin que chi-cuadrado con 1est
este estadstico gradocomprendido
de libertad (Tabla
entre6 del
los percentiles
1 Ejemplo
2
;0,975 = 5,02 y El1 ;0,99
7.19
2
= 6,63, de
estadstico dello cual se tiene queen0,01 < P <7.7
0,025. As, el riesgo de
Apndice),
infarto puede
agudo comprobarse
de miocardio quetest
difiere este deestadstico
McNemar
significativamente
la Tabla
est entre
comprendido toma ellos
entre
los sujetos con
valor
niveles
32 de
colesterol HDL superiores e inferiores a 0,90 mmol/l.
percentiles 12;0,975 = 5,02 y 12;0,99 2= 6,63, (6 de
17lo) 2 cual se tiene que 0,01 < P < 32
= = 5,26.
6 17
0,025. As, el riesgo de infarto agudo de miocardio difiere significativamente
116 Pastor-Barriuso R.
A partir de la distribucin chi-cuadrado con 1 grado de libertad (Tabla 6 del
entre los sujetos con niveles de colesterol HDL superiores e inferiores a 0,90
Apndice), puede comprobarse que este estadstico est comprendido entre los
siguen
CE: CORRECCIN PORargumentos similares a los descritos en este apartado y pueden consultarse en los
CONTINUIDAD
libros de anlisis de datos categricos referenciados en este tema.Apndice: correccin por continuidad
ice se derivan las versiones con correccin
cada paciente que conformaporun
continuidad del intervalo
grupo de emparejamiento). Estas generalizaciones
7.8
y del test de hiptesis APNDICE:
para
siguen una proporcin
argumentos CORRECCINpoblacional
similares . Si kCONTINUIDAD
POR
a los descritos es
en el nmero
este apartado y pueden consultarse en los
La inferencia sobre proporciones puede extenderse a estudios donde se empareja ms de un
eventos en una sujeto
muestra
En
poraleatoria
libros
este
muestra de
deapndice
(por
anlisis se de
ejemplo,
datos n,
tamao
derivan
unintervalo
el estudio dedecasos
categricos
las versiones referenciados
con
y controles
confianza
correccin enaleste por
donde cada caso est emparejado
tema.
continuidad del intervalo
con mltiples controles, o un ensayo clnico donde cada paciente que recibe un nuevo tratamiento
est emparejado
para vendr determinado con
por aquellos varios pacientes
valores bajo
( inf, para tratamiento estndar), as como a estudios donde se
de confianza y del test de hiptesis sup) unaque proporcin
verifiquen poblacional . Si k es el nmero
comparan ms de dosCORRECCIN
7.8 APNDICE: muestras dependientes (por ejemplo, un ensayo clnico donde se asignan
POR CONTINUIDAD
aleatoriamente distintos tratamientos a cada paciente que conforma un grupo de emparejamiento).
observado
k | de= eventos
P(Xgeneralizaciones
Estas en
/2, unaargumentos
inf) = siguen muestra aleatoria similares de atamao n, el intervalo
los descritos en este de confianza
apartado al
y pueden
En este apndice
consultarse en los librosse derivan
de anlisislas versiones con correccin
de datos categricos por continuidad
referenciados en estedel intervalo
tema.
100(1 - )% para
P(X k | = sup) = /2, vendr determinado por aquellos valores ( inf , sup ) que verifiquen
de confianza y del test de hiptesis para una proporcin poblacional . Si k es el nmero
7.8 APNDICE: CORRECCIN POR CONTINUIDAD
a distribucin binomial de parmetros y una
n en . Como P(X k | = en
se discuti infel) = /2,
En observado
este apndicede eventos
se derivan lasmuestra
versiones aleatoria de tamao por
con correccin n, elcontinuidad
intervalo de del confianza al de
intervalo
confianza y del test de hiptesis para P(X una proporcin = sup)poblacional
k | aproximarse = /2, . Si k es el nmero observado
2, si n(1 - ) 5,100(1
estas probabilidades
- )% para binomiales
vendr pueden
determinado por aquellos valores ( infconfianza
, sup) quealverifiquen
de eventos en una muestra aleatoria de tamao n, el intervalo de 100(1 )%
para vendr determinado por aquellos valores (inf, sup) que verifiquen
istribucin normaldonde X es unaZdistribucin
estandarizada como binomial de parmetros n y . Como se discuti en el
P(X k | = inf) = /2,
Apartado 3.3.2,k si n/2(1-n) 5, P(X k | = sup) = /2,
1 estas probabilidades binomiales pueden aproximarse
P(X k | = inf) P Z = /2,
inf
donde X es una distribucin
n (1 binomial
) de parmetros n y . Como se discuti en el Apartado 3.3.2,
mediante la distribucin
inf inf
normal estandarizada Z como aproximarse mediante la distribucin
si n(1 ) 5, estas probabilidades binomiales pueden
donde X es una distribucin
normal estandarizada Z como binomial de parmetros n y . Como se discuti en el
k 1 / 2 n sup
3.3.2, n inf pueden aproximarse
P(X k | = Apartado
sup) P Z
siP(X n(1 -k|)=5,estas P Z k 1 / 2binomiales
= )/2.probabilidades = /2,
n sup (1 sup ) inf
n (1 )
inf inf
mediante la distribucin normal estandarizada Z como
k 1 / 2 n sup
rmino 1/2 de la correccin por continuidad P(X k | se =aade
sup)aambas P Z expresiones = /2.
n (1 )
sup sup
k 1 / 2 n inf
P(X k | = inf) P Z
incluir la probabilidad de observar exactamente k eventos. Para = /2,
Notar que el trmino 1/2 de la correccin k 1 / 2 por ncontinuidad
inf n inf (1 se ) a ambas expresiones con
infaade
= z1-/2,
objeto de incluir
s clculos, las desviaciones tpicasladeprobabilidad
estas distribuciones de observar
np (1normales
p ) exactamente
se k eventos. Para simplificar los
clculos, las desviaciones tpicas de estas distribuciones normalesaade
Notar que el trmino 1/2 de la correccin por continuidad se a ambaspor
se sustituyen expresiones
la estimacin
k 1 / 2 n sup
la estimacin np p) , dedeloincluir
(1 objeto cual k | = que
P(Xseladeduce ksup)1/de2P Z = /2.
con probabilidad n sup n=exactamente
observar
sup1-(
-z 1/2. sup )k eventos. Para
k np 1 / (21 np) inf = z
simplificar los clculos, las desviaciones 1/2,
np(1 tpicasp) de estas distribuciones normales se
Notar que el trmino 1/2 de la correccin por continuidad se aade a ambas expresiones
Finalmente,
sustituyen por despejando
la estimacin inf y npksup( 1se/p2obtiene
1, n lo
) , de supel intervalo
cual de confianza al 100(1 - )%
= zse deduce
1/2.
que
con objeto de incluir la probabilidadnpde(1observar p) exactamente k eventos. Para
para 34
Finalmente, despejando inf y sup, se obtiene el intervalo de distribuciones
simplificar los clculos, las desviaciones tpicas de estas confianza al 100(1 normales
)% separa
Finalmente, despejando inf y sup, se obtiene p(1 el
pintervalo
) 1 de confianza al 100(1 - )%
sustituyen por la estimacin pnp (1z1p/)2 , de lo cual se deduce . que
n 2n
para 34
Este intervalo de confianza difiere de la versin sin correccin presentada en el Apartado 7.2 en
que ambos lmites del
Este intervalo deintervalo
confianzasedifiere
amplan deen la una cantidad
versin 1/(2n) inversamente
sin correccin presentadaproporcional
en el al
tamao muestral. La utilizacin de esta p (1 p ) 1
p z1correccin se fundamenta
. en el hecho de aproximar una
lmites del 2n encontinua.
/ 2
distribucin
Apartado binomial
7.2 en quediscreta
ambosmediante una intervalo n se amplan
distribucin normal Cuanto
una cantidad menor sea el
1/(2n)
tamao muestral, ms imprecisa ser la aproximacin normal y, en consecuencia, la correccin 34por
inversamente proporcional al tamao muestral. La utilizacin de esta correccin se
Este intervalo de confianza difiere de la versin sin correccin presentada en el
fundamenta en el hecho de aproximar una distribucin binomial discreta mediante una R.
Pastor-Barriuso 117
Apartado 7.2 en que ambos lmites del intervalo se amplan en una cantidad 1/(2n)
distribucin normal continua. Cuanto menor sea el tamao muestral, ms imprecisa ser
inversamente proporcional al tamao muestral. La utilizacin de esta correccin se
la aproximacin normal y, en consecuencia, la correccin por continuidad 1/(2n) ha de
si p 0. Combinando ambos k n 0 1 / 2
P = 2P(X resultados,
k | H0)setiene 2 P Zque el valor P corresponde , al doble de
k nn0 (011/ 02)
la probabilidad normal P = 2P(X k | aHla0) derecha
estandarizada 2 PZdel test estadstico
n 0 (1 0 )
si la proporcin observada p > 0, o alternativamente como
si la proporcin observada p > 0, o alternativamente como
1
P = 2P(X k | H 0) 2 P| p
Z nk0| 0nk0 11// 22
| k n 0 | 1 = / 22 P Z n 2(n1 ) ,
z 0 . 0
n 0 (1 0 ) 0 (1 n00()1 0 )
nn 0 k 1 / 2
= 2 P Z ,
si p 0. Combinando ambos resultados, se tiene quenel valor
(1 P )
corresponde al doble de
0 0
El test con correccin por continuidad incorpora el trmino -1/(2n) en el numerador
si plaprobabilidad
0. Combinando normal estandarizada
ambos resultados, a lasederecha
tiene que del eltest estadstico
valor P corresponde al doble de la
probabilidad
del siestadstico,normal estandarizada
de tal formaambos
p 0. Combinando a
que elresultados, la derecha
valor P ser del test
se ligeramente estadstico
tiene que el valor mayorPque el obtenido
corresponde al en el 35
doble de
1
correspondiente contraste sin correccin por | p 0(Apartado
continuidad | 7.2). Esta
la probabilidad normal estandarizada | k n 0 a| la1derecha
/2 del test estadstico
2n .
z
correccin ser tanto mayor cuantonms 0 (1reducido
0 ) seael0 (tamao 1 0 ) muestral.
1
| p n0 |
| k n 0 | 1 / 2 2n .
El Ejemplo
test con correccin por z continuidad
el trmino
incorpora 1/(2n) en EURAMIC
el numerador del
7.20 En el Ejemplo 7.1 n 0se(1utilizaron
incorpora
0)
los controles
0 (1 0 ) del estudio
estadstico, de tal forma que el valor P ser ligeramente mayor que el numerador
El test con correccin por continuidad el trmino -1/(2n) en el obtenido en el
correspondiente contraste sin correccin por continuidad n
(Apartado 7.2). Estaadultos
correccin ser
para realizar
delmayor
estadstico,
inferencias sobre la prevalencia
P ser
poblacional de hombres
tanto cuantodemstal forma
reducido quesea el valor
el tamao ligeramente mayor que el obtenido en el
muestral.
El test
con con correccin
niveles bajos por continuidad
de colesterol HDL ( incorpora
0,90 el trmino
mmol/l). A -1/(2n) ense
continuacin el calculan
numerador
correspondiente contraste sin correccin por continuidad
Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC para (Apartado 7.2). Esta
delrealizar
los inferencias
estadstico,
correspondientes sobre
de tal forma
intervalosla prevalencia
que elde valor
confianza poblacional
P ser ligeramente
y sea
test el de
detamao hombres
mayor
hiptesis que eladultos
utilizando la conenniveles
obtenido el
correccin ser tanto mayor cuanto ms reducido
bajos de colesterol HDL ( 0,90 mmol/l). A continuacin se calculan los correspondientes muestral.
intervalos
correccinde
correspondiente porconfianza
contraste
continuidad. ysintest EldeIChiptesis
correccin al 95% utilizando
porpara
continuidad
vendra la (Apartado
correccin
dado por7.2). por continuidad.
Esta El IC
al 95% para vendra dado por
Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC
correccin ser tanto mayor cuanto ms reducido sea el tamao muestral.
0,293(1 0,293) 1
para realizar inferencias
0,293 z 0,975 sobre la prevalencia poblacional de hombres adultos
539 2 539
Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC
con niveles bajos de colesterol HDL ( 0,90 mmol/l). A continuacin se calculan
= 0,293 (1,960,020 + 0,001) = (0,254; 0,333),
para realizar inferencias sobre la prevalencia poblacional de hombres adultos
y ellos correspondientes
estadstico corregidointervalos
para el contrastede confianzabilateraly testde de hiptesis nula
la hiptesis utilizando
H0: = la0,30 sera
y elcon niveles bajos
estadstico de colesterol
corregido para el HDL ( bilateral
1 contraste
0,90 mmol/l). A continuacin
de la1 hiptesis nula H0se : calculan
=
correccin por continuidad.
| p 0 | El IC al 95% para
| 0,293 0,30 | vendra dado por
2n de confianza y test2 de 539
0,30lossera
correspondientes
z= intervalos hiptesis
= 0,30,utilizando la
0 (1 0 ) 0,30(1 0,30)
0,293(1 0,293) 1
correccin por 0,293 z 0,n975 El IC al 95% para
continuidad. vendra
539 dado por
539 2 539
36
con un valor P asociado en las tablas de la distribucin normal estandarizada P = 2P(Z
0,30) 2{1 P(0,30)}
con un= valor asociado= en0,293
0,293 z=0,764.
las tablas
0Como
,293 (dela0,distribucin
1cabra
(1,960,020 293 )+ 0,001)
esperar,
1elnormal
intervalo confianzaPcorregido
estandarizada
=(0,254; de 0,333),
=
2 539
0 , 975
539
2P(Z 0,30) = 2{1 - (0,30)} = 0,764. Como cabra esperar, el intervalo de
118 Pastor-Barriuso R.
y el estadstico corregido para el contraste bilateral de la hiptesis nula H0: =
confianza corregido por continuidad = 0,293 (1,960,020 (IC al 95%+25,433,3%)
0,001) = (0,254; 0,333),
es ligeramente ms
0,30 sera
Tabla 7.8 Intervalos de confianza (IC) y tests de hiptesis con correccin por continuidad.
Tabla 7.8 Tabla 7.8 Intervalos
Intervalos de confianza
de confianza (IC) y tests(IC)
de hiptesis hiptesis
y tests decon con correccin
correccin por continuidad.
por continuidad.
IC al 100(1 )% Test estadstico
)%
IC al 100(1IC- al 100(1 - )% Test estadstico
Test estadstico
1 1
p(1 p ) 1 | p 00 | | p 00 |
muestra 2n 2 n
Una
Una muestra
muestra Una
Una muestra p(1zz11p// 22) 1
p z11 // 22pp z zz
n 2nnn 22nn 00 (1 00 ) 00 (1 00 )
n nn
1 1 11 1 1
| p11 p22 | | p11 p 22|
p(1 p ) p1 (p1 (1p1 )p ) p 2 (11 1p 2 ) 1 1 1 1 2 n n22
Dos
DosmuestrasDos
muestrasindependientes
Dos muestras
muestras independientes
independientes
independientesp11 p 22 ppz1111
p11 (zz111
//pp22 22 p11 ) p11 (p122(1p11 )p22 ) p22 (11 1p22 ) 1 1 1 1
// 22 n z 2 n11 n22 11
zz
n11 n11 n22 2nn22 n11 n22 22 nn11 nn22 1 1 1 1
p (1 p ) p (1 p)
n11 n 22 n11 n 22
2 22 2 2 2
2 2 2
22 22 (2| O 2 E
ijij
2 (||
ijij
O1ijij/ 2)E ijij | 1 / 2)
Test 2 de Pearson*
2 de2 Pearson*
Test deTest
Pearson*
2 2
ii 11
jj 11
ii 11 E E
jj 11 ijij
Eijij
2
( | b c2 | 1( )| 22b c | 1 ) 2
Test
Test de de Test de McNemar
McNemar
McNemar
22 ( | b c22 | 1()| b c | 1 )
bc bc bc
2
** La correccin
** La
La correccin correccin
por
correccin
Lapor por
continuidad
continuidad no
no se aplica no
por continuidad
continuidad
se aplica no
al se
test
se aplica
al testaplicade al
22 de al test
Pearson
test
Pearson de
en
2en Pearson
tablas de en
Pearson
detablas de en tablas
contingencia
tablas de
de contingencia
contingencia contingencia
mayores
mayores de mayores
22.
mayores de
de 22. de 22.
22.
* La correccin por continuidad no se aplica al test 2 de Pearson en tablas de contingencia mayores de 22.
Pastor-Barriuso R.
Apndice: correccin por continuidad
119
46 46
Inferencia sobre proporciones
7.9REFERENCIAS
1. Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons,
2002.
2. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth
Edition. Oxford: Blackwell Science, 2001.
3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
4. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and
Analysis of Cohort Studies. Lyon: International Agency for Research on Cancer, 1987.
5. Collett D. Modelling Binary Data, Second Edition. London: Chapman & Hall, 2002.
6. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
7. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition.
New York: John Wiley & Sons, 2003.
8. Hennekens CH, Buring JE. Epidemiology in Medicine. Boston: Little, Brown and
Company, 1987.
9. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research: Principles and
Quantitative Methods. New York: John Wiley & Sons, 1982.
10. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press,
1999.
11. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.
120 Pastor-Barriuso R.
TEMA 8
MTODOS NO PARAMTRICOS
8.1 INTRODUCCIN
En los temas anteriores se han presentado distintos mtodos de inferencia para datos de carcter
continuo (Tema 6) y categrico (Tema 7). Estos procedimientos se conocen como mtodos
paramtricos y asumen que los datos proceden de una poblacin cuya distribucin de probabilidad
es conocida (normal o binomial), o que al menos la distribucin de los estadsticos empleados
puede aproximarse mediante el teorema central del lmite. As, las inferencias se fundamentaban
en la aproximacin normal a la distribucin de las medias y proporciones muestrales. Aunque en
la mayora de las ocasiones estas asunciones son razonables, pudiera ocurrir que no se cumplan
las condiciones necesarias para la realizacin de anlisis paramtricos, especialmente cuando los
tamaos muestrales son muy reducidos. En tales circunstancias, es posible utilizar mtodos
alternativos que realizan asunciones mnimas acerca de la distribucin de la variable a estudio, y
que reciben colectivamente el nombre de mtodos no paramtricos o de distribucin libre.
Antes de proceder a la descripcin de los mtodos no paramtricos ms utilizados, conviene apuntar
sus principales ventajas e inconvenientes. Entre las ventajas fundamentales cabe destacar que:
yy Los mtodos no paramtricos son muy robustos y, en consecuencia, pueden aplicarse a
situaciones donde la utilizacin de pruebas paramtricas es cuestionable. As, por ejemplo,
la comparacin de medias en dos muestras independientes requiere de tamaos muestrales
suficientemente grandes para aplicar el teorema central del lmite y de una varianza
homognea en ambas poblaciones, mientras que su equivalente no paramtrico permite
contrastar globalmente la igualdad de distribuciones bajo la nica asuncin de que ambas
distribuciones sean continuas.
yy Como se ver ms adelante, la propia naturaleza de las pruebas no paramtricas las hace
particularmente tiles para comparar variables cualitativas ordinales, cuyo tratamiento
mediante mtodos paramtricos clsicos entraa problemas conceptuales ya que estas variables
carecen de interpretacin numrica (ver definicin de tipos de variables en el Tema 1).
Sin embargo, los mtodos no paramtricos presentan una serie de limitaciones que impiden
su uso generalizado:
yy Los mtodos no paramtricos se emplean casi exclusivamente para determinar la
significacin estadstica de la comparacin entre grupos. Aunque existen procedimientos
no paramtricos para obtener estimadores de efecto e intervalos de confianza, stos
requieren de asunciones adicionales y su aplicacin es ms compleja.
yy Si se cumplen las condiciones de aplicacin de las pruebas paramtricas, el uso de mtodos no
paramtricos es un tanto ineficiente, lo que conlleva una leve prdida de potencia en el anlisis.
Estudios de simulacin bajo la asuncin de normalidad han mostrado una perdida de potencia
aproximada del 5% de las pruebas no paramtricas respecto a sus equivalentes paramtricos.
yy Los mtodos paramtricos pueden extenderse fcilmente al anlisis multivariante de
situaciones ms complejas. Aunque en la actualidad los mtodos no paramtricos han
experimentado un fuerte desarrollo, su utilizacin es an limitada por la mayor complejidad
y menor disponibilidad en los programas de anlisis estadstico de uso rutinario.
Pastor-Barriuso R. 121
Mtodos no paramtricos
correspondientes.
8.2 Finalmente,
TEST(empates),
DE LA SUMA DEseRANGOS
suman los DE
rangos de una cualquiera de las dos
WILCOXON
la variable se asigna a cada una de ellas la media de los rangos
muestras, seleccionemos
En el Apartado 6.3 se tratpor ejemplo la
el problema deprimera muestra,de variables continuas en dos muestras
la comparacin
correspondientes. Finalmente, se suman los rangos de una cualquiera de las dos
independientes. Si ambos tamaos muestrales n1 y n2 son suficientemente grandes para aplicar
el teorema central del lmite, el test de la t den1 Student permite realizar inferencias acerca de la
muestras, seleccionemos por ejemplo la primera muestra,
U = rSin
diferencia de medias entre ambas poblaciones. i . embargo, si la distribucin subyacente dista
mucho de ser normal y las muestras son muyi =pequeas,
1 las medias muestrales no se distribuirn
n1
de forma normal y la anterior prueba paramtrica no ser aplicable. Bajo estas circunstancias,
U = ri .
ha estadstico
El de utilizarse el equivalente
del test de Wilcoxonnose paramtrico
basa en al test de la t de Student para muestras
i =1 esta suma de rangos.
independientes, que se conoce como el test de la suma de rangos de Wilcoxon. Este procedimiento
permite contrastar globalmente la igualdad de distribuciones bajo la nica asuncin de que la
El estadstico
Ejemplo
variable del
8.1test
a estudio de una
tenga Wilcoxon
Supongamos queselabasa
distribucin en esta
subyacente
muestra suma de nrangos.
continua.
consiste en 1 = 10 casos de infarto de
y en los controles
i =1
ri = 1 + 9 + ... + 19 = 96,5
rango 1, al siguiente valor 0,05 g/g se le otorga el rango 2 y as sucesivamente
y en los controles
y enhasta
los controles 10
asignar el rango 20 al
r j mayor
= 13 +valor + 6 g/g.
2 + ...0,57 A los dos sujetos con idntico
= 113,5.
j =1
nivel
Notar que la g/g
0,13 de -caroteno
eleccin entre una les
10 corresponden
u otra las posiciones
suma de rangos 7 y 8 y,
es arbitraria. Laensuma total de
rangos en ambas muestras es
r j = 13 + 2 + ... + 6 = 113,5.
(n + n
Notar que la eleccin entrej =1una1u otra )(n
2 suma
1 + n 2de rangos es irrelevante. Latal
+ 1)/2 = 2021/2 = 210, de forma que una
suma
vezconsecuencia, se asigna
calculada la suma el rango
de rangos 96,5medio
en la(7primera
+ 8)/2 =muestra,
7,5 a ambas observaciones.
la otra queda determinada
por 210 96,5 = 113,5.
total de rangos en ambas muestras es (n1 + n2)(n1 + n2 + 1)/2 = 2021/2 = 210, de
Notar
As,que la eleccin
la suma entreen
de rangos una
losucasos
otra suma de rangos
de infarto es es irrelevante. La suma
122 tal forma
Pastor-Barriuso que una vez calculada la suma de rangos 96,5 en la primera muestra, la
R.
total de rangos en ambas muestras
10 es (n1 + n2)(n1 + n2 + 1)/2 = 2021/2 = 210, de
otra queda determinada por 210 r = 1 + 9 + ... + 19 = 96,5
- i96,5 = 113,5.
tal forma que una vez calculada la suma de rangos 96,5 en la primera muestra, la
i =1
Test de la suma de rangos de Wilcoxon
muestra es igualmente
nula de igualdad de distribuciones, probable. As, como1elcombinacin
cualquier nmero de combinacionesde rangos en ladeprimeralos n1 + n2
.
nacin r1, ..., rn1 viene n1 + n 2
si u dada
muestra E(U).espor Esta probabilidad
igualmente probable. puede
As, calcularse 2teniendo
n1 +elnnmero
como de en cuenta que bajo
combinaciones la hiptesis
de los n1 + n2
posibles rangos tomados de n1 en n1 es n1 , la probabilidad bajo H0 para
nula de igualdad de distribuciones, n1 combinacin
cualquier de rangos en la primera
El clculo 1
del valor exacto de P se ilustra en nel n2
1 +siguiente ejemplo.
posibles rangos. tomados de n1 en n1 es , la probabilidad bajo H0 para
El clculo
cualquier del
n 2 valor exacto
n1 +combinacin r , de
..., P
r se ilustra
viene
dadaen n el
1por siguiente
ejemplo.
muestra
es igualmente probable.
1 n1
As, como el nmero de combinaciones de los n1 + n2
n 1
cualquier combinacin r1, ..., rn1 viene dada 27 27
n1 1+porn2
posibles rangos tomados de n1 en n1 es ., la probabilidad bajo H0 para
alor exacto de P se ilustra en el siguiente ejemplo. n1 +n1n 2 5 R. 123
Pastor-Barriuso
1
n1 .
cualquier combinacin r1, ..., rn1 viene dada n1 + porn2
Ejemplo 8.2 Si la distribucin del -caroteno fuera igual en los casos de infarto y
10(10 + 10 + 1)
E(U) = = 105.
en los controles libres de enfermedad, la 2suma de rangos esperada en los 10 casos
Como el valor observado de esta suma de rangos u = 96,5 es inferior al esperado,
Mtodos no paramtricos
Ejemplo 8.2 Si la distribucin del -caroteno fuera igual en los casos de infarto y
de
Como infarto
el valor del
el Pvalor ejemplo
observado
se obtiene anterior sera
de esta
mediante sumaigual a
de rangos u = 96,5 es inferior al esperado,
en los controles libres de enfermedad, la suma de rangos esperada en los 10 casos
Ejemplo
el valor P8.2 Si la distribucin
se obtiene mediante del10b-caroteno fuera igual en los casos de infarto y en los
controles + 10
(10 de +961) esperada en los 10 casos de infarto del
de infartolibres de enfermedad,
del ejemplo anterior
P = 2PE(U) la suma
sera igual arangos
= | H0) = 2 P=(U105.
(U 96,5 = k | H0).
ejemplo anterior sera igual a 2 k =55
96
P = 2P(U 96,5
E(U) =
10| (H
100)+=102 + 1)P(U = k | H 0 ) .
Como el valor
Notar que observado
la suma arrancadeenesta sumamnimo
el valor de rangos
k = 55 u==105.
posible 96,5
1 + 2es+inferior
... + 10al= esperado,
55 y slo
2
Como
el valor
Notar elPvalor
que observado
se suma
la obtiene de
enesta
mediante
arranca sumamnimo
el valor de rangos u = 96,5
posible es
2 +inferior
1 + facilitar 10alclculos).
... + los =esperado, el valor
55 y sloLa
toma valores enteros (se excluyen posibles empates para
Como
P el valor
se obtiene observado de esta suma de rangos u = 96,5 es inferior al esperado,
mediante
toma valores enteros
probabilidad bajo H0(se excluyen
para posibles
cualquier empates
combinacin
96 depara facilitar
rangos en lalos clculos).
primera La
muestra
el valor P se obtiene = 2P(U 96,5 | H0) = 2 P(U = k | H 0 ) .
P mediante
k = 55
probabilidad
es bajo H0 para cualquier combinacin de rangos en la primera muestra
Notar que la suma arranca en el valor mnimo96posible 1 + 2 + ... + 10 = 55 y slo toma
Notar que
valores
es la suma
enteros P = 2P(en
(se arranca
excluyen Uposibles
el96,5 H 0) = 2
valor| empates
mnimo P(facilitar
U =1 k+| 2Hlos
posible
para +0 )...
. + 10 = 55
clculos). Layprobabilidad
slo
1 10! (20 10)!k =55 1
bajo H0 para cualquier combinacin = de rangos en = la primera , muestra es
20
toma valores enteros (se excluyen 20! empates 184para
.756 facilitar los clculos). La
1 10posibles
! (20 10)! 1
Notar que la suma arranca 10 en el= valor mnimo =posible 1 +, 2 + ... + 10 = 55 y slo
20
probabilidad bajo H0 para cualquier 20!
combinacin 184
de.756rangos en la primera muestra
toma valores enteros (se excluyen
10 posibles empates para facilitar los clculos). La
de
es lo cual se sigue que
de lo cual se sigue
probabilidad bajo Hque
0 para cualquier combinacin de rangos en la primera muestra
de lo cual se sigue que
P(U = 55 | H0) = P(1, 1 2,10 3,! 4,
(205,6,107, 1 | H0) = 1/184.756,
)! 8, 9, 10
es = = ,
P(U = 56 | H0) =P(1, 20 2, 3, 4,20 5,!6, 7, 8, 184
9, 11.756| H0) = 1/184.756,
P(U = 55 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 10 | H0) = 1/184.756,
P(U = 57 | H0) =P(1, 10 3, 4, 5, 6, 7, 8, 9, 12 | H )
1 2,10 ! (20 10)! 1 0
P(U = 56 | H0) =+P(1, =
2, 3, 4, 5, = ,
| H ) = 1/184.756,
P(1,
20 2, 3, 4,20 5,!6,
6,7,7,8,8,9,
10,11.11
184 756| 0H0) = 2/184.756
de lo cual se sigue que 10
y as sucesivamente. ComoP(1,
P(U = 57 | H 0 ) = puede 2, 3, 8, 9, 12 | H0) resulta muy laborioso incluso
4, 5, 6,el7,procedimiento
intuirse,
para estas pequeas muestras de tamao 10, ya que requiere determinar el nmero de
P(U = con
combinaciones H0) =
55 | igual P(1, 2,
+suma de3,rangos.
4, 5, 6, 7, 8, 9,
10,10 H|H
11|mltiples
0)0)==1/184.756,
2/184.756
de lo sucesivamente.
y as cual se sigue queComo puede intuirse,Despus de
el procedimiento clculos,
resulta se tiene que
muy laborioso
96
yincluso
P(U P = 256
as sucesivamente.
para
| HP0()U= =P(1,
Como kpuede| H2,0 3, =4,2(1
5, 6,
)intuirse, 17,+
+ el 8,29,+ 11 +| H
...ya
procedimiento 0) = 1/184.756,
4.397)/184.756
resulta muydeterminar
laborioso
P(Uestas
= 55k =pequeas
|55H0) = P(1, muestras
2, 3, 4, de tamao
5, 6, 10,10
7, 8, 9, |H que se requiere
0) = 1/184.756,
P(U = 57 | H0) = P(1, 2,= 3,
= 97.708/184.756 4, 5, 6, 7, 8, 9, 12 | H0)
0,529.
incluso paradeestas
el nmero pequeas muestras de tamao 10, ya que se requiere determinar
P(U =combinaciones
56 | H0) = P(1,con igual
2, 3, 4, 5,suma
6, 7,de8, rangos.
9, 11 | HDespus de mltiples
0) = 1/184.756,
Aunque los casos de infarto muestran
+ P(1, 2, 3, 4, niveles
5, 6, 7, 8, inferiores
10, 11 | de H0)b-caroteno
= 2/184.756 que los controles
el nmerose
clculos, detiene
combinaciones
que con igual suma de rangos. Despus de mltiples
(la suma P(U
de rangos
= 57 | H observada
0) = P(1, 2,en3,los casos
4, 5, 6, 7,es8,menor
9, 12 | queH0) la esperada), no se alcanzan
Aunque los casos
diferencias de infarto muestran
estadsticamente niveles inferiores
significativas. No obstante, de -caroteno
dado el que los
reducido tamao
se tiene que Como puede intuirse, el procedimiento resulta muy laborioso6
y as sucesivamente.
clculos,
muestral, cabe esperar que la potencia
+ P(1, 2, 3, 4, 5,de6,este7, 8,contraste
10, 11 | H sea
0) =muy pequea para detectar
2/184.756
controles
cualquier (la sumadiferencia
posible de rangos en observada
los niveles en los casos es menor
subyacentes que la esperada),
de b-caroteno entre los no
casos de
6
incluso para estas pequeas muestras de tamao 10, ya que se requiere determinar
infarto y los sujetos libres de la enfermedad.
y as
se sucesivamente.
alcanzan diferencias Como puede intuirse,
estadsticamente el procedimiento
significativas. resulta muy
No obstante, dadolaborioso
el
el nmero de combinaciones con igual suma de rangos. Despus de mltiples
Para simplificar
incluso
reducido para
tamao los clculos
estas pequeas
muestral, decabe
esteesperar
test, la
muestras Tabla
deque la8potencia
tamao del
10,Apndice
ya que sefacilita
de este losdeterminar
requiere
contraste percentiles
sea muy de la
distribucin de la suma de
clculos, se tiene que rangos de Wilcoxon bajo la hiptesis nula de igualdad de distribuciones,
cuando el la menor
nmero
pequea dede
para las doscualquier
combinaciones
detectar muestras es desuma
conposible
igual tamao inferior
de rangos.
diferencia o igualsubyacentes
en losDespus
niveles a mltiples
de 8. Para un de nivel de
significacin bilateral, la hiptesis nula se rechazar si la suma de rangos en la muestra 6 de
menorclculos,
tamao es
-caroteno inferior
seentre
tienelos
que al percentil
casos /2 oysuperior
de infarto los sujetosal percentil /2 de dicha tabla.
libres de1la enfermedad.
6
Para simplificar los clculos de este test, la Tabla 8 del Apndice facilita los
124 percentiles
Pastor-Barriusode
R. la distribucin de la suma de rangos de Wilcoxon bajo la hiptesis nula
s r2 == (n + n )(n (r i r ) 2
n111++ nn222111n1ii=++=1n12n2i + 1) 2
2
= n 1 n1. + n 2 + 1
= 12 i
n(n1 1++nn2 2)(1nn11i+=+n12 n2 + 1) 2
n1 .+ n 2 + 1
2
= 1
= 12 i
Sustituyendo en la expresin=anterior, n(n1 1++nn2 2se )(1ntiene
1i =+ 1 n 2 + 1) 2
.
Sustituyendo en la expresin anterior, se tiene 12
Sustituyendo en la expresin= anterior, (n1 + n 2 )(sen1tiene + n 2 + 1)
.
n1
n1 (n12 1 + n 2 + 1)
Sustituyendo en la expresin ri se tiene
anterior, 2 U E (U )
z= i =n11
n1 (n1 + n 2 + 1) = ,
Sustituyendo en la expresin nri1 n2 (n1se+tiene
anterior, n 2 + 1)
2
SE (U )
U E (U )
z = in=11 n1 (12 n1 + n 2 + 1) = ,
rni 1n 2 (n1 + n 2 + 1)
2
SE (U )
U E (U )
z = in=11 n1 (n12 1 + n 2 + 1) = ,
rni 1n 2 (n1 + n 2 + 1)
2
SE (U )
U E (U )
z = i =1 12 = , Pastor-Barriuso R. 125
n1 n 2 (n1 + n 2 + 1) SE (U ) 8
12
8
Las medidas
Las medidas
de tendencia
de tendencia
central
central
informan
informan
acercaacerca
de cul
de es
cul
el valor
es el valor
ms representati
ms represe
alrededor
alrededor
de qu devalor
qu valor
se agrupan
se agrupan
los datos
los datos
observados.
observados.
Las medidas
Las medidas
de tendencia
de tendenc
que corresponde simplemente a la suma de rangos estandarizada; es decir, la diferencia entre la
suma de rangos observada central
central
de la de
y esperada muestra
enlalamuestra
sirvensirven
primera tanto tanto
muestrapara resumir
para resumir
dividida lossuresultados
por los resultados
error observados
estndar observados
bajo comocomo
para p
la hiptesis nula de igualdad de distribuciones. Bajo H0, este estadstico seguir aproximadamente
una distribucin normalrealizar realizar
inferencias
estandarizada inferencias
si n1,acercaacerca
n2 > 8. de losdeparmetros
Notar los en
que, parmetros
poblacionales
general, poblacionales
este tamaocorrespondientes.
correspondientes.
muestral A A
es muy inferior al que se requerira para aplicar la prueba paramtrica de la t de Student en dos
muestras independientes. continuacin
continuacin
se describen
se describen
los principales
los principales
estimadores
estimadores
de la de
tendencia
la tendencia
central
central
de unade
variable.
Ejemplo 8.4 A partir variable.
del estudio EURAMIC, se seleccionan 1000 muestras aleatorias
simples de n1 = 10 casos de infarto de miocardio y n2 = 10 controles. En cada una de estas
muestras, se calcula1.2.1
la diferencia
1.2.1
Media de niveles
Media
aritmtica medios de b-caroteno entre casos y controles, as
aritmtica
como la suma de rangos para los casos de infarto. Las Figuras 8.1(a) y (b) presentan las
La media
distribuciones muestrales Lademedia
aritmtica,
aritmtica,
la diferenciadenotada por xpor
dedenotada
medias se xdefine
1, 2, y
sede
define
como como
la suma
la suma delarangos
suma
de cada U,uno
de cadadeuno
losde los
respectivamente. Como la distribucin poblacional del b-caroteno es marcadamente asimtrica
(ver Figura 4.3) yvalores
las muestras
valores son muy
muestrales
muestrales pequeas,
dividida
dividida lanmero
por elpor diferencia
el nmero dedemedias
de observaciones muestrales
observaciones realizadas.se Si denotamos
realizadas. Si denota
distribuye de forma asimtrica alrededor de la diferencia subyacente 1 2 = 0,09 mg/g, de
tal forma que no sepor npor
cumple lan condicin
el tamao
el tamao
muestral
de y poryxipor
muestral
normalidad xi el valor
elnecesaria
valor observado
observado
para paraelel
aplicar para
testsujeto
el la
de i-simo,
t de i-simo,
sujeto i = 1,i...,
= 1,n
Student. Por el contrario, la suma de rangos s se distribuye de forma aproximadamente normal
en torno a su valorlaesperado
media
la media
vendra vendra
en esta dada dada
por E(U)
poblacin por = 96,9. As, aun cuando se disponga de
muestras tan reducidas, se podra aplicar la aproximacin normal al test de la suma de rangos
de Wilcoxon. 1 n 1 n x1 + xx21 ++ ... x 2++x...
n + xn
x = x = xi
= xi = . .
n i =1 n i =1 n n
30 30
La media
La media
es la medida
es la medida
de tendencia
de tendencia
central
central
ms utilizada
ms utilizada
y de ms
y defcil
ms fcil
Frecuencia relativa (%)
25 25
1.2 MEDIDAS
1.2 MEDIDASDE TENDENCIA
DE TENDENCIA CENTRALCENTRAL
20 interpretacin.
interpretacin.
Corresponde
Corresponde al centro
20 al centro
de gravedad
de gravedad de losdedatoslos datos
de la demuestra.
la muestra.
Su S
Las medidas
Las medidas
de tendencia
de tendencia
centralcentral
informan
informan
acercaacerca
de cul
dees
cul
el valor
es el valor
ms repres
ms
15 15
principal
principal
limitacin
limitacin
es quees est
quemuyest influenciada
muyvariable
de unadedeterminada
una determinada
influenciadapor
variable
o, dicho
los
porvalores
o, dicho
de forma
losequivalente,
valores
de forma
extremos
extremos
equivalente,
y, enestimado
estos estos
y,
este
estimadores
enin
10 10
caso, caso,
puedepuede
no sernounser
fielunalrededor
reflejo
fielalrededor
reflejo
de ladede
de qu tendencia
lavalor
valor
qu setendencia
secentral
agrupan los central
agrupan dedatos
datos
los la de
distribucin.
la distribucin.
observados.
observados.
Las medidas
Las medidas
de tenden
de te
5 5
centralcentral
de la muestra
de la muestra
sirvensirven
tanto tanto
para resumir
para resumir
los resultados
los resultados
observados
observados
como c
0 0
Ejemplo
Ejemplo
1.4 En
1.4este
Enrealizar
yeste
enrealizar
los
y ensucesivos
los sucesivos
inferencias
inferencias ejemplos
acercaacerca ejemplos
de losde los sobre
parmetros sobre
estimadores
parmetros estimadores
poblacionales muestrales,
poblacionales muestr
correspondientes.
correspondien
A
-0,9 -0,6 -0,3 0 0,3 0,6 50 70 90 110 130 150
continuacin
continuacin
se describen
se describen
los principales
los principales
estimadores
estimadores
de la tendencia
de la tendencia
centralcent
de
xutilizarn
1 x2
utilizarn
los valores
los valores
del colesterol
del colesterol
HDL HDL
obtenidos
U obtenidos
en losen10los
primeros
10 primeros
sujetos
suje
d
variable.
variable.
estudio
(a) estudio
European StudyStudy
European on Antioxidants,
on Antioxidants,
Myocardial
(b) Myocardial
Infarction
Infarction
and Cancer
and Canc
of
1.2.1 1.2.1
MediaMedia
aritmtica
aritmtica
the Breast
the Breast
(EURAMIC),
(EURAMIC),
un estudio
un estudio
multicntrico
multicntrico
de casos
de casos
y controles
y controles
realizad
rea
Figura 8.1 Distribucin muestral de la diferencia de niveles La medios
La media media de denotada
aritmtica, -caroteno
aritmtica, 1
por xpor
denotada 2 entre casos y
, se xdefine
, se define
como como
la suma
la suma
de cada
de uno
cadadeuno
lo
controles (a) y de la suma de rangos U en los casos de infarto (b) en 1000 muestras aleatorias Figura simples
8.1 de
entre
n1 = 10 casos de infarto de miocardio y nentre
1991 1991
y 1992
y 1992
en ocho
en
valores ocho
pases
valores pases
muestrales Europeos
muestrales Europeos
dividida e por
dividida
por el Israel
elenmero
nmero Israel
para evaluar
para evaluar
de observaciones
2 = 10 controles obtenidos a partir del estudio EURAMIC. Las lneas
de elrealizadas.
observacionesefecto
el efecto
de los
realizadas. Sid
Si deno
verticales en trazo discontinuo corresponden a los parmetros subyacentes 1 2 = 0,09 g/g y E(U) = 96,9.
por n por n el tamao
el tamao muestral y por yxi por
muestral xi el valor
el valor observado
observado
para elpara
sujeto i-simo,
el sujeto i-simo
i=1
la media
la media
vendra
vendra
dada por
dada por
La media
La media
es la medida
es la medida
de tendencia
de tendencia
centralcentral
ms utilizada
ms utilizada
y de ms
y defcil
ms fci
interpretacin.
interpretacin.
Corresponde
Corresponde
al centro
al centro
de gravedad
de gravedad
de losde
datos
los datos
de la muestra.
de la mu
126 Pastor-Barriuso R. principal
principal
limitacin
limitacin
es queesest
quemuy
estinfluenciada
muy influenciada
por los
por
valores
los valores
extremos
extremos
y, en
caso, caso,
puedepuede
no serno
unser
fielunreflejo
fiel reflejo
de la tendencia
de la tendencia
centralcentral
de la distribucin.
de la distribucin
Si se producen empates en la asignacin T
de rangos en la muestra combinada, la
f = T ,
(n1 + n 2 )(nt1i (+t i n+2 1+)(1t)( n + n 1)
[Tabla 8.2 aproximadamente
i =1
i 1)
1 2
aqu]
con ti el nmero de empates fpara = el valor i-simo de la variable. Notar , que, si no hay empates,
f =con
0 y teste estadstico ( n
se reducepara1 + n 2 )( n1 + n 2 + 1)( n1 + n 2 1)
al citado anteriormente.
i el nmero de empates el valor i-simo de la Finalmente,
variable. Notarcomo la si
que, suma de rangos
no hay
es una variable discreta que se aproxima mediante una distribucin normal continua, es frecuente
aplicar
con tilael correccin
empates,
Ejemplo f = 8.5
nmero0 y Como
esteporlacontinuidad
estadstico
de empates paraseel
muestra a estos
dereduce
casos
valor al estadsticos.
citado
y controles
i-simo laLa
deanteriormente.
lade Tabla
variable. versin con
n1 =sicorreccin
Finalmente,
8.1
Notares
que, 10 la por
2como
nno =hay
continuidad del test de la suma de rangos de Wilcoxon (con o sin empates) se presenta en la
Tabla
suma>8.2.
empates,8,depuede
rangos y es unestadstico
variable
f = 0 aplicarse
este discreta
la aproximacin
se reduce que alsecitado
normal aproxima mediante
a laanteriormente.
suma de rangosunaUdistribucin
= 96,5 en
Finalmente, los la
como
normal
suma decontinua,
Ejemplo
casos 8.5eses
de infarto.
rangos Como
unfrecuente
Bajo
variable aplicar
lalamuestra
hiptesis
discreta lacasos
denula correccin
que deseyuna por continuidad
misma
controles
aproxima distribucin
de la Tabla
mediante a8.1
una estos
deles nestadsticos.
1 = n2 = 10 > 8,
-caroteno
distribucin
puede aplicarse la aproximacin normal a la suma de rangos U = 96,5 en los casos de
La en
versin
infarto.
normal con
Bajo
continua,
casos correccin
la el por
es hiptesis
frecuente
y controles, continuidad
10nula
aplicar
valor dela+una
esperado
10 (10 +del
correccin
10 de )(test
misma
1esta 0de
1 suma por lacontinuidad
,00075 suma
de ) dedel
distribucin
rangos rangos de estadsticos.
ab-caroteno
seraestos Wilcoxon
en casos y
var(U) =
controles, el valor esperado de esta suma = 174,87,
12de rangos sera
(con
La o sin empates)
versin se presenta
con correccin en la Tabladel
por continuidad 8.2.test de la suma de rangos de Wilcoxon
10(10 + 10 + 1)
E(U) = = 105
(condonde
o sin empates) se presenta en la Tabla 2
8.2.
10 10(10 + 10 + 1)(1 0,00075)
y su varianza var(U) = [Tabla 8.2 aproximadamente aqu] = 174,87,
12
y su varianza 102(10 (2 ++ 110
)(2+1)( 1)1 0,00075)
f = = 10
var(U) [Tabla 8.2 aproximadamente aqu] = 0,00075
(10 + 10)(10 + 10 +12 1)(10 + 10 1) = 174,87, 10
donde
Ejemplo 8.5 Como la muestra de casos y controles de la Tabla 8.1 es n1 = n2 = 10
donde
es el
donde
> 8,factor
puededeaplicarse
correccin de
lamuestrala 2varianza
aproximacin (2de+ casos debido
y1)controles
1)(2normal aa la
la presencia
suma de t1 =U2 = 96,5 en los
deTabla
rangos
Ejemplo 8.5 Comof= la = 0,00075 8.1 es n1 = n2 = 10
de la
(10 + 10)(10 + 10 + 1)(10 + 10 1)
observaciones
casos
> 8, puede
empatadas
de infarto. para 2el(2valor
Bajolalaaproximacin
aplicarse hiptesis )(20,13
+ 1nula de1)una
normal
g/g.misma
Por tanto, el estadstico
a la sumadistribucin
de rangos Udel de
= 96,5
la
-caroteno
en los
f =
es el factor de correccin de la varianza debido a la presencia de t1 = 2 observaciones = 0,00075
suma de rangos de (10 + 10)(con 10 +correccin
10 + 1)(10 por + 10continuidad
1)
empatadas
es casos
el factor
en casos para
de
y el Wilcoxon
valorel0,13
correccin
controles, de la
valor mg/g.
varianza Pordebido
esperado tanto,
de esta elsuma
a la estadstico
presencia esde tsera
de
dedistribucin
rangos 1la=suma de rangos de
2 -caroteno
de infarto. Bajo la hiptesis nula una misma del
Wilcoxon con correccin por continuidad es
observaciones
es el
enfactor
casos de empatadas
correccin
y controles, para
elde el valor
la| varianza
96 ,5 10 0,13
105 | +1esta
debido /g/g. laPor
2a+suma tanto, elde
presencia estadstico
t1 = 2 de la
zvalor
=E(U esperado
) = 174,87
(10de 10 =1)0,60,de rangos sera
= 105
suma de rangosempatadas
observaciones de Wilcoxon paracon correccin
el valor 0,13 2por
g/g.continuidad
Por tanto, elesestadstico de la
que corresponde a un valor PE(=U2P(Z 10(10 + 10 + 1)
) = 0,60) = 2{1=105 F(0,60)} = 0,549 a partir de la
suma sudevarianza
distribucin rangos
quey corresponde de
normal Wilcoxon
a un valor P con
estandarizada =| 962Pcorreccin
de
( Z la
Tabla
0,60) 2por
=3 2{1continuidad
del Apndice.
- (0,60)} esEste
= 0,549valor aproximado
a partir de de
,5 105 | 1 / 2
z = = 0,60,
P es muy similar al valor exacto calculado en el Ejemplo 8.2, no habiendo as suficiente
evidencia para rechazar la hiptesis 174 ,87 10
la distribucin
y su varianza normal estandarizada | 96,5 de de igualdad
105 1 / 2de
la| Tabla distribuciones
3 del Apndice. Este del nivel
valorde b-caroteno
en los casos de infarto de miocardio z= y los sujetos =libres 0,60,de la enfermedad.
aproximado de P aesunmuy similar 174 ,87 10
que corresponde valor P = 2al P(valor
Z 0,60)exacto = 2{1calculado en el=Ejemplo
- (0,60)} 0,549 a 8.2,
partirnode
habiendo
que as suficiente
la distribucin
corresponde normal evidencia
a un valor P = 2Ppara
estandarizada rechazar
(Z de la Tabla
0,60) la3 hiptesis
= 2{1 del de igualdad
- Apndice.
(0,60)} ade
Este valor
= 0,549 partir de
Pastor-Barriuso R. 127
distribuciones
aproximado
la dedel
distribucin nivel
P es
normalmuy -caroteno
desimilar deenlalos
al valor
estandarizada casos
exacto
Tabla de infarto
calculado
3 del en de miocardio
el Ejemplo
Apndice. y los
8.2,
Este valor no
sujetos
habiendolibres
aproximado dePlaesenfermedad.
asde
suficiente
muyevidencia
similar alpara rechazar
valor exacto la hiptesisendeeligualdad
calculado Ejemplode
8.2, no
128
Pastor-Barriuso R.
Mtodos no paramtricos
Tabla 8.2
Tabla
Tabla
Tabla Estadsticos
8.28.2
8.2 Estadsticos
Estadsticos
Estadsticos para
para
para
para el
el test test
de
eleltest
test de
la la
suma
dedela suma
sumasuma
la de de
rangos
deyrangos
de rangosde
rangos los
yy de de
rangos
de los
los los
y rangos rangos
concon
rangos signo
signo
con de
decon
signo Wilcoxon
signo con
de Wilcoxon
Wilcoxon Wilcoxon
decon
correccin
con con
correccin
por
correccin correccin
por continuidad.
continuidad.
por continuidad.por continuidad.
Tabla
Tabla 8.28.2 Estadsticos
Estadsticos para
para el test
el test de de la suma
la suma de de rangos
rangos y de
y de loslos rangos
rangos concon signo
signo de de Wilcoxon
Wilcoxon concon correccin
correccin porpor continuidad.
continuidad.
SinSin
Sin empates
empates
empates Con
Con Con empates
empates
empates
Con empates
SinSin empates
empates Con
Con empates
empates
n1 nn11 n1 nn11
n1 (n11(+n1n1 +2 +n212)+ 1) 1 1 1
n (n11(+n1n1 +2 +n212)+ 1) 1 1
n1 n1 n1 n1
i i
+ n +1) 1 + n +1) 1
ii 1
rrrn(nn ((+nnn+ 1 1 2
+n 1)+ 1) 1 12 ii 1
rrrn(nn ((+nnn+ 1 1 2
+n 1)+ 1) 1 1 2
r r 2 22
i =1 ii=i=11 i 2 22 r r 2 22
i =1 ii=i=11 i 2 22
deTest
TestTest
Test de
ladesuma
la la
desuma rangos
de de
ladesuma
suma rangos
de rangos
rangos =
z =zz = i =1 i =1 2 2 2 2 =
z =zz = i =1 i =1 2 2 2 2
Test
Test de de la suma
la suma de de rangos
rangos z =z = 1
n nn2n(11nn212(+
(nn1n+2++nn21)++11)) 1 2 11 212
z =z =n nnn(nn (+
(nn1n+2++nn21)(
++111)(
)(11f) ff ))
1
n nn2 1(n21 (+n11n+2 +n221)+ 1) 1 2 1 21
n nn(n (+n11n+2 +n221)( +11)(1f) f )
12 12 12 12 12 12
12 12 12 12
T TT
T T
t i iii
(ttt (+(tt1)( ii i ii
++t11)()(tt1)11))
ii i i
t (tt (+t 1)(
i =1 ii=i=11
i+ t1)(t 1) 1)
concon
con
f =ff == i =1 i =1
conconf =f(n=1((+nn n++)( 2 n
11 2 221
nnn)()(+nn11n++ +n221)(
++n11)(
1)(+ 2 n
nn11n++ n21)11))
(n1(+ n n+ )(
n n)(+ 1 2 21
n1n+2 n+21)( 1 +
+ n1)( n1n+2 n221) 1)
m mm m mm
m m
n(nnn+((n1n)++11))1 11 m
n(nn+(n1)+ 11))1 11
i
r (nn+(n1)+1) 1 1 r mr n( n +
i rriin riin(nn+(n1)+ 1) 1 1
=1
i ir
=i=11ri 4 4
i 4 2 22 =1 iri=i=11ri 4 4 4 2 22
Test
Test de de
Test los
de los
los rangos
rangos concon
rangos con signo
signo
signo i =1 i =1
z =zz == 4 4 2 2 i =1 i =1
z =zz ==i 4 4 2 2
TestTestlos
deTest de
derangos
losloscon
rangossigno
rangos
concon signo
signo z =z = n(nnn+((n1n)( ++211)(
n)(2+2n1n)++11)) z =z =n(nnn+((nn1)( ++211)(
n)(2+2nn1)++11))f ff
n(nn+(n1)( + 21)(
n 2+n1)+ 1) n(nn+(n1)( + 21)(
n 2+n1)+1)f f
24 24 24 24 24 24
24 24 24 24
T TT
T T
t i (tttiii(+(tti1i )(
++t11i)()(tti1i )11))
=1
i t
ii=i=11(ttii (+t i1)(+ t1i)(t i1) 1)
concon
con
f =ff ==1 i =1
i=
conconf =f = 2 22
2 2
28 28
28
28 28
Test de los rangos con signo de Wilcoxon
0,01 g/g hasta la mayor diferencia absoluta 1,00 g/g. A las dos parejas con
otras dos parejas con diferencia absoluta 0,38 g/g se les asigna su rango medio
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos
correspondientes
Mtodos no paramtricos a diferencias positivas y un signo negativo a los rangos
correspondientes
correspondientes aa diferencias
diferenciasnegativas.
positivas La
y un signo
suma de negativo a los rangos
rangos positivos resulta
correspondientes a diferencias
a diferencias positivas y un
9
negativas.
signo La asuma
negativo de rangos
los rangos positivos resulta
correspondientes a diferencias
negativas. La suma de rangos positivos resulta
ri = 17 + 12,5 + ... + 3 = 91
i =91
r i =1
i = 17 + 12,5 + ... + 3 = 91
y la suma de rangos negativos
y la suma de rangos negativos
y la suma de rangos negativos
10
r
j =1
j = ( 4) + ( 14) + ... + ( 9,5) = 99.
10
SumaSuma
de rangos positivos rrii ==9191
positivos
de rangos
ii ==11
10
10
SumaSuma
de rangos negativos rrjj= =
negativos
de rangos -99
99
jj =
=1
1
130 Pastor-Barriuso R.
de 0, se esperara la misma suma de rangos
[Tabla 8.3 positivos que negativos
aqu] y, por consiguiente,
2 aproximadamente
2 4
la suma esperada de rangos positivos sera 1 n(nla+ mitad
1) n(de n +la1suma
) Testtotal de rangos absolutos
Bajon la
donde indica el nmero
hiptesis nula de E(W)
deque las =diferencias
diferencias no nulas.se= Al igual ,que
distribuyen endeel
losapartado
simtricamente anterior,
rangos con signo de Wilcoxon
alrededor
2 2 4
1 n(n + 1) n(n + 1)
el
devalor
0, se exacto
esperara P misma
de la para el suma
contraste bilateral
E(W)de=rangos vendr
= que
positivos dadonegativos
,por la probabilidad bajo H0
y, por consiguiente,
donde n indica el nmero de diferencias2 no 2nulas. Al 4
igual que en el apartado
Bajo la hiptesis nula de que las diferencias se distribuyen simtricamente alrededor de 0, se anterior,
de obtener
la suma
esperara una suma
laesperada
misma suma de
de rangos
de rangos positivos
positivos
rangos tanto
sera o msdedistante
la negativos
que mitad la
y, suma E(W)
detotal deque
por consiguiente, susuma
rangos
la valor
absolutos
esperada
el valor
de rangos exacto
donde npositivos de P
indica elserapara el
la mitad
nmero contraste bilateral
de la sumanototal
de diferencias vendr
de Al
nulas. dado
rangos por la
igualabsolutos probabilidad bajo
que en el apartado anterior, H0
observado w; esto es, si w > E(W),
1 n(n + 1) n(n + 1)
devalor
el obtener una de
exacto suma de rangos
P para positivos
E(W) tanto vendr
= bilateral
el contraste dado, pordelaE(W)
o=ms distante que su valor
probabilidad bajo H0
2 2 4
P = 2P(W w | H0)
de
donde n indicaw;
observado
obtener elesto
una suma es,de
nmero w diferencias
> E(W),
siderangos positivos tanto oAlms
no nulas. que endeelE(W)
distante
igual apartadoque anterior,
su valor el valor
donde n
exacto de P para el contraste bilateral vendr dado por la probabilidad bajo H0 deanterior,
indica el nmero de diferencias no nulas. Al igual que en el apartado obtener una
y,
suma sidew rangos
observado E(W),
w; esto es, si w
positivos > E(W),
tanto o ms distante de E(W) que su valor observado w; esto es,
P = 2P(W w | H0)
el valor exacto
preestablecido,
si w > E(W), de P para el contraste bilateral vendr dado por la probabilidad
la hiptesis nula se rechazar si la suma de rangos positivos es inferior bajo H0
PP == 2P(W
2P(W ww || H H00).)
de
al w E(W),
y, percentil
si
obtener una
/2 suma de rangos
o superior positivos
al percentil /2. o ms distante de E(W) que su valor
1 - tanto
y, si w E(W),
Bajo dicha
observado
y, si w hiptesis
w;
E(W), esto es,nula,
si w cualquier
> E(W), combinacin de un nmero arbitrario de rangos
P = 2P(W w | H0).
Ejemplo 8.7 Como ilustracin, supongamos que la suma de rangos positivos es w
Bajopositivos r1, ..., rm nula,
dicha hiptesis es igualmente
cualquierprobable
combinacin y su probabilidad
de un nmeroviene determinada
arbitrario porpositivos
de rangos
Bajo dicha hiptesis nula, cualquierP= 2P(W w | de
combinacin
)
H00).
un nmero arbitrario de rangos
r1, ..., rm =
es25
igualmente
a partir deprobable y su probabilidad
n = 12 parejas viene determinada
de datos dependientes por
con diferencias no nulas. La
1
positivos
y,
Bajosi wdicha , ..., rm bajo
r1hiptesis
E(W),
distribucin es nula,
igualmente
H0 de probable
cualquier
la suma y nsu, probabilidad
combinacin
de rangos viene
de un nmero
positivos determinada
arbitrario
es simtrica por
de rangos
alrededor de
2
preestablecido, la hiptesis nula se rechazar si la suma de rangos positivos es inferior
donde 2nE(W)
positivos es el
r1,=nmero
n(nrm+es1)/4
..., deigualmente
subconjuntos
= 12(12 +probable de=cualquier
1)/4 y1su
39, lo tamao
deprobabilidad que
cual se deduce pueden
viene obtenersepor
determinada
que a partir de
npercentil
lasaldonde
parejasn
2 es /2
con el odiferencias
superiordealsubconjuntos
nmero percentil
no P = 2P(W
- de
nulas. 1Haciendo w
/2.cualquier
uso | H
, de tamao 0 ).
este resultado,
que pueden la Tabla 9 del Apndice
obtenerse a
n
2
facilita los percentiles de la distribucin de la suma de rangos positivos bajo la hiptesis nula de
w0,05 = n(n + 1)/21 - w0,95 = 78 60 = 18,
quepartir
las diferencias
Bajo dicha n parejas
de lashiptesisse distribuyen simtricamente
con diferencias
nula, cualquier no nulas.
combinacin alrededor de unde
, Haciendo 0, cuando
uso
nmero esteelresultado,
de arbitrarionmero deladiferencias
de rangos Tabla
Ejemplo
n
dondees2 nes
no nulas 16.8.7 Como
Para unde
el nmero ilustracin,
nivel supongamos
de significacin
subconjuntos 2 n
que la suma
preestablecido,
de cualquier tamao quede rangos
la pueden positivos
hiptesis es w
nula se rechazar
obtenerse a
9positivos
si la del
suma donde
Apndice w
derrangos
, ...,
0,95r = 60
facilita se
los
positivos
es obtiene
igualmentees de
percentiles
inferior la
probable Tabla
de
al la 9
percentil
y su del
distribucin Apndice
/2
probabilidad o de la
superiorpara
suma
viene aln =
de 12. Como
rangos
percentil
determinada 1 la suma
positivos
/2.
por
= 25n a1partir mde n = 12 parejas de datos dependientes con diferencias no nulas. La
partir de
donde 2 las
es eln parejas
nmerocon diferencias nodenulas.
de subconjuntos cualquierHaciendo tamao usoque de pueden
este resultado,
obtenerse la Tabla
a
bajoEjemplo
laobservada
hiptesis w
8.7 bajonula
=
Como25de > w
que las=
ilustracin,diferencias
18, se sigue se que P(W
distribuyen 25 | H
simtricamente
) > 0,05. alrededor
As, el es de
w = 25
distribucin H0 de la suma desupongamos
0,05
rangos1 positivos que la es suma
simtricade rangos
0
alrededor positivos
de
9 del
partir Apndice
a partir =facilita
de lasdennparejas losdiferencias
con
12 parejas percentiles de nulas.
no la distribucin
de datos dependientes n
, Haciendo
con de la
uso
diferencias suma
de este
node rangos
resultado,
nulas. Lapositivos
la Tabla
distribucin
0, cuando P >de20,10. ncual
16. Para unque niveldedeE(W)significacin =
bajo
E(W) H0el
contraste
=de nmero
n(n 1)/4de=de
labilateral
+suma diferencias
arroja
rangos
12(12 +un1)/4 no
valor nulas
positivos
= 39, es
eslo simtrica se deducealrededor = n(n + 1)/4
9bajo
del laApndice
12(12 hiptesis =nula
+ 1)/4 facilita39, dedelosque
lo las se
diferencias
percentiles
cual de laque
deduce se distribuyen
distribucin desimtricamente
la suma de rangos alrededor
positivosde
n
donde 2 es el nmero de subconjuntos de cualquier tamao que pueden obtenerse a
Enlaaquellas muestras w0,05 = el
donde n(n + 1)/2 dewdiferencias
nmero 0,95 = 78 60 no=simtricamente
18, sea superior a 16,
nulas
0, cuando
bajo el nmero
hiptesis nulade dediferencias no nulasse
que las diferencias es n 16. Para
distribuyen un nivel de significacin
alrededor de
partir
donde w0,95n =parejas
de las con diferencias
60 se obtiene de la Tabla no9nulas. Haciendo
del Apndice para uson =de12. este
Comoresultado,
la sumalaobservada
Tabla
puede =utilizarse
w donde
0, cuando >w0,95
25 el nmero
w =la=60
siguiente
se
de
18, obtiene aproximacin
diferencias
se sigue deque
la no
Tabla
P(Wnulas
9normal.
del
25es | H Dado
Apndice
n )16.
> Para
0,05.queAs,
paraun los=elrangos
n nivel
12. Como
de conlasigno
suma
significacin
contraste bilateral arroja
0,05 0 14
9 del
un Apndice
valor P > facilita
0,10. los percentiles de la distribucin de la suma de rangos positivos
constituyen
observada unawrepresentacin
= 25 > w0,05 = 18, estandarizada
se sigue quede P(W lasdiferencias
25 | H0) > 0,05. observadas
As, el en cada
bajo la hiptesis nula de que las diferencias se distribuyen simtricamente alrededor de14
pareja contraste
de datos
En aquellas bilateral
muestras arroja
dondeunpodra
dependientes, elvalor
nmeroP > 0,10.
construirse un estadstico
de diferencias no nulas sustituyendo
sea superior las a 16, puede
utilizarse
0, cuando la siguiente
el nmeroaproximacin
de diferenciasnormal. no nulas Dado
es n que 16.los Pararangos
un nivel con de signo constituyen
significacin una
diferencias no
representacin nulas di porde
estandarizada loslasrangos con signo
diferencias ri en el en
observadas testcada
de la t de Student
pareja de datospara 14
dependientes,
En aquellas muestras donde el nmero de diferencias no nulas sea superior a 16,
podra construirse un estadstico sustituyendo las diferencias no nulas di por los rangos con
muestras
signo r en eldependientes (Apartado
test de la t de Student para6.4). As, eldependientes
muestras estadstico resulta (Apartado 6.4). As, el estadstico
puedei utilizarse la siguiente aproximacin normal. Dado que los rangos con signo
resulta
constituyen una representacin estandarizada de rlas diferencias observadas en cada 14
z= ,
sr
pareja de datos dependientes, podra construirse unnestadstico sustituyendo las
diferencias no nulas di por los rangos con signo ri en el test de la t de Student para
donde la media de los m rangos positivos y n - m rangos negativos es
muestras dependientes (Apartado 6.4). As, el estadstico resulta
Pastor-Barriuso R. 131
r
z= ,
sr
Mtodos no paramtricos
1 n 1 m nm
r = 1 n ri =
1 i =1m ri + nm r j
r =n i =1 ri = n ri +
j =1 r j
n i =1 y n im
donde la media de los m rangos positivos =1 rangos j =1 negativos
es
1 n m mm nn(nm + 1)
= 11
m ri +1 m ri
n(n + 1)
r== n i =1riri=+ i =1 riri + 2r j
n
nn i =i1=1
i =i1=1 j =12
2 m n(n + 1)
= 21 m ri
(mn4+ 1) n(n + 1)
+ n
m
= n i =1 rii ri
n ii==11 i =14 2
y, en el caso de que no haya empates,
2 m la varianza H0 de los rangos con signo se
n(n + 1)bajo
= rla i
y, en el caso de que no haya empates,
n i =1 4 H0 de los rangos con signo se
varianza bajo
estima mediante
estima
y, Para
en mediante
elconcretar
caso el problema,
de que supongamos
no haya empates, la varianza bajo H0deden los
que se dispone pares de observaciones
rangos con signo se estima
y, en el caso de que no haya empates,
mediante la varianza bajo H 0 de los rangos con signo se
1 n 2 1 n 2 (n + 1)(2n + 1)
sr = 1
de una variable aleatoria continua.
2
Enn rcada
1
i = pareja n i de
= (datos dependientes, una
n + 1)(62n + 1) .
estima mediante 2 n
s r = ri = i =
i =1 2 n i =1 2
.
n i =1 muestra
observacin x1 corresponde a la primera n i =1 y la otra observacin
6 x2 a la segunda
Aplicando ambas resultados, se
1 tienen el 1estadstico
n
(n + 1)(2n + 1)
Aplicando ambas resultados, se
Aplicando ambos resultados,
2 se tiene el 2 estadstico
muestra. El objetivo se centra s r en= comparar r = las
tiene el estadstico
i i 2 = poblacionales. 1 y 2 a partir de
medias
n i =1 n i =1 6
estas dos muestras dependientes. m ri n(n + 1)
m
n(n4+ 1) W E (W )
Aplicando ambas resultados, z= se i =tiene
1 ri el estadstico
= W E (W ) ,
Los procedimientos desarrolladosin=1(en el Apartado
n + 1)(2n + 1) = SE4 6.3 no(pueden
W ) , aplicarse a esta
z=
nm (n + 124 )(2n + 1) SE (W )
situacin, ya que las medias de ambas rmuestras n(n +no 1) son independientes por provenir de
que representa la diferencia entrey,elen
i =valor
i 24
observado4 yW E (W )de la suma de rangos positivos,
esperado
distribucin asimtrica z= 1 consecuencia,
=la utilizacin, de la prueba de la t de
dividida por sucorrelacionadas.
que representa
observaciones error estndar bajo
la diferencia SinHembargo,
entre n0.(elnSivalor
+el1)(nmero
2observado
la 1)de parejas
n +comparacin (Wcon
y esperado
SE se diferencias
de la suma
) simplifica node
nulas es n > 16,
rangos
notablemente
que representa
este estadstico
Studentsigue la diferencia
para aproximadamente entre
muestras dependientes el valor observado
una distribucin y esperado de la suma de rangos
normal estandarizada bajo la hiptesis
24 resulta cuestionable. Sin embargo, a pesar de
sepositivos,
sinula de simetra
calculan dividida
las de las por
diferencias su derror
diferencias estndar
= x1alrededor
- x2 en cada bajo
de 0. H0.de
una Si las el nmero de parejasemparejadas.
n observaciones con diferencias
positivos, dividida por su error estndar
contar nicamente con 20 parejas, la distribucin bajo H 0 . Si el nmero de parejas
de la suma de rangos con positivos
diferencias
Pornoque representa
unnulas
lado,
Ejemplo es
como > la
n8.8 16,
lasA diferencia
este
distintas entre
partirestadstico
delparejas
estudio elsigue
no valor
estn
EURAMIC, observado
aproximadamente
relacionadas y esperado
se seleccionan deestas
una1000
entre la suma
distribucin
s, de rangos de 20
normal
diferencias
muestras aleatorias
no parejas
nulas es
presenta n > 16, este
un aspecto
de casos estadstico
y controlesmucho sigue
ms normal,
agrupados aproximadamente
segn permitiendo
quinquenios de una distribucin
asedad.
el usoLadeFigura normal
la aproximacin
8.2 presenta la
positivos,
estandarizada dividida
bajo
distribucin muestral
son independientes. por
la
Por otro su error
hiptesis
delado, estndar
nula
la diferencia
la mediamedia de bajo
simetra H .
de
de lasdediferencias
0 Si lasel nmero
diferencias
b-caroteno d entre de parejas
alrededor
casoscon
coincide con
la diferencias
de 0. as como
y controles,
estandarizada bajo
normal al test
la distribucin la hiptesis
de los de
muestral rangos nula
la suma conde de simetra
signo
rangos de
de Wilcoxon. las diferencias alrededor
positivos W (esto es, la suma de rangos de 0. en las
no nulas
diferencia es n
de medias
parejas > 16,
donde el este estadstico
muestrales, sigue aproximadamente
caso presenta un nivel superior de b-caroteno que el control). Debido al una distribucin normal
Ejemplo
reducido 8.8 Adepartir
nmero parejas, dellaestudio
media de EURAMIC,
las diferencias se seleccionan
de b-caroteno1000 muestras
presenta una distribucin
Ejemplo
estandarizada 8.8
bajo Ala partir
hiptesis del estudio
nula de EURAMIC,
simetra de se
las seleccionan
diferencias 1000
alrededormuestras
de 0. muestras
asimtrica y, en consecuencia,n la utilizacin de la prueba de la t de Student para
aleatorias de 20 parejas1[Figura de casos8.2 y1 controles
n
aproximadamente agrupadosaqu] segn quinquenios de
d = d i Sin
casos ny
dependientes resulta cuestionable. = embargo, ( x i1 axpesari2 ) de contar nicamente con 20 parejas,
aleatorias de 20 parejas de controles agrupados segn quinquenios de
la distribucin de la suman de i =1 rangos ipositivos
=1 presenta un aspecto mucho ms normal,
Ejemplo
edad. 8.8 A partir
La Figura del estudio
8.2depresenta EURAMIC,muestral
la distribucin se seleccionan 1000 muestras
de la diferencia media de -
permitiendo as el uso la aproximacin n normal al test de los rangos con signo de Wilcoxon.
En edad.
el caso de existir
La Figura 8.2 presenta 1
diferencias n
con 1el mismo valor absoluto,
de la diferencia medialade -
ha de utilizarse
= xla i1
distribucin
xi 2 = xmuestral
1 x2
aleatoriasddeentre
caroteno 20 parejas
casosnydei controles,
=1
casos yn controles i =as
agrupados segn quinquenios de
1 como la distribucin muestral de la suma
siguiente versin
En el caroteno
caso de existir corregida
d entre diferenciasdel estadstico
casos y controles, con el mismo del
as comotest
valorlalos
de rangos ha
absoluto,
distribucin conde signo
utilizarse
muestral de lalasuma
siguiente
de rangos positivos W (esto es, la suma de rangos en las parejas donde el caso -
edad.
versin corregida La Figura
del 8.2
estadstico presenta
del la
test distribucin
de los rangos muestral
con signo de la diferencia media de
y, en consecuencia, d es un estimador
de rangos positivos W (esto es,insesgado lamsuma nde derangos
la diferencia de medias
(n + 1) en las parejas donde el caso
caroteno un
presenta d nivel
entre superior
casos y controles,de -caroteno rias comoque 4 ellacontrol).
distribucin
Debidomuestral de la suma
al reducido
poblacionales - . As, el problema z = de ila
=1 comparacin
presenta un nivel superior de -caroteno que el control). Debido al reducido
1 2 de ,medias en dos muestras
nla
(nsuma+ 1)(2de n +rangos
1) f en las parejas donde el caso
de rangos
nmero parejas, laWmedia
depositivos (esto es, de las diferencias de -caroteno presenta una
dependientes nmeroqueda dereducido
parejas, la a una
media simple de lasinferencia 24 sobre
diferencias de la-caroteno
media depresenta
una nica una
presenta un nivel superior de -caroteno que el control). Debido al reducido 16
muestra de n diferencias independientes. 16
cuya varianza incluye el trmino de correccin por empates
nmero de parejas, la media de las diferencias de -caroteno presenta una
Los mtodos
132 Pastor-Barriuso R. del Apartado 6.2.1 para la media de una muestra pueden entonces
T
16
utilizarse para calcular un intervalo de confianza t i (t i +al1)(100(1 t i 1)- )% para - como
1 2
f = i =1 ,
distribucin asimtrica y, en consecuencia, la utilizacin de la prueba de la t de
En el0caso de existir
situacin, ya quediferencias
las medias decon el muestras
ambas mismo valor
0 son absoluto,
no ha de
independientes porutilizarse
provenir dela
observaciones
siguiente versin
-0,6 correlacionadas.
corregida
-0,3 0 Sin embargo,
del estadstico la comparacin
del test
0,3 de los 30se simplifica
0 rangos con 90notablemente
60 signo 120 150 180
d
si se calculan las diferencias W emparejadas.
d = x1 - x2 en cada una de las n observaciones
m
n(n + 1)
(a)distintas parejasrinoestn relacionadas entre s, estas
Por un lado, como las
i =1 4
(b)diferencias
z= ,
Figura 8.2 Distribucin muestralPor
son independientes. deotro
la diferencia
lado, + media
n(lan media n de
1)(2de las1-caroteno
+ )diferencias
f d entre casos
coincide cony la
controles (a) y de la
suma de rangos positivos W (b) en 1000 muestras aleatorias de n = 20 parejas de casos y controles agrupados
segn quinquenios de edad
diferencia a partir
de medias muestrales, 24
del estudio EURAMIC. Las lneas verticales en trazo discontinuo
Figura 8.2
corresponden a los parmetros subyacentes 1 2 = 0,09 g/g y E(W) = 80,3.
signo de Wilcoxon
Aplicando resultapor
la correccin entonces
continuidad, el test estadstico de los rangos con signo de
Wilcoxon resulta entonces
| 91 95 | 1 / 2
z= = 0,14,
617,25
con un valor P = 2P(Z 0,14) = 2{1 F(0,14)} = 0,889. Notar que el resultado del test
sera
con unidntico
valor Pde= utilizar
2P(Z la suma
0,14) de rangos
= 2{1 negativos
- (0,14)} W =Notar
= 0,889. 99, que
ya que su valor esperado
el resultado
es E(W) = 95 y su varianza coincide con var(W) = 617,25. As, una vez controladas las
diferencias
del test seradeidntico
edad, las
dediferencias de b-caroteno
utilizar la suma de rangosanegativos
favor de W
los=casos deque
-99, ya infarto
su no son
significativamente distintas de las diferencias a favor de los sujetos libres de la enfermedad.
valor esperado es E(W) = -95 y su varianza coincide con var(W) = 617,25. As,
La comparacin no paramtrica de una variable continua en ms de dos muestras dependientes
puedeuna vez controladas
realizarse mediante las diferencias
el test de edad,Bajo
de Friedman. las diferencias
la asuncin -caroteno
dede a favorsigue la
que la variable
misma distribucin continua excepto posibles diferencias de localizacin (traslaciones), esta
prueba permite contrastar la hiptesis nula de una misma localizacin de la variable en cada una
de las poblaciones. Este procedimiento tambin se fundamenta en la definicin de rangos y
puede consultarse en los libros especficos de mtodos no paramtricos.
18
En el Apartado 7.4 se present el test 2 de Pearson como un procedimiento general para evaluar
la asociacin estadstica entre las variables de una tabla 22. Esta prueba se basa en la asuncin
de que el tamao muestral es suficientemente grande para justificar la aproximacin chi-
cuadrado a la distribucin nula del estadstico 2 de Pearson. En concreto, si los marginales de
la tabla son pequeos, de tal forma que la frecuencia esperada en alguna de las celdas sea
inferior a 5, esta aproximacin puede resultar imprecisa. En tales circunstancias, es preferible
utilizar mtodos alternativos basados en la distribucin exacta de las frecuencias de las celdas
de una tabla 22. En este apartado se describe el ms conocido de estos procedimientos, el test
exacto de Fisher.
Ejemplo 8.10 La Tabla 8.4 presenta el nmero de sujetos con niveles de b-caroteno
Ejemplo
superiores8.1. Bajo la hiptesis
e inferiores de independencia
a 0,30 mg/g entre los 10 entre
casoseldenivel de -caroteno
infarto y el
y los 10 controles del
estudio EURAMIC seleccionados de forma independiente en el Ejemplo 8.1. Bajo la
riesgo de de
hiptesis infarto de miocardio,
independencia entrelaelfrecuencia esperada en
nivel de b-caroteno y elcada celda
riesgo sera de miocardio,
de infarto
la frecuencia esperada en cada celda sera
510
E11 = E12 = = 2,5,
20
15 10
E21 = E22 = = 7,5.
20
Como los valores esperados en dos de las cuatro celdas son inferiores a 5, la prueba 2 de
Pearsonlosnovalores
Como ser aplicable a esta
esperados tablade22
en dos lasycuatro
la asociacin ha de
celdas son contrastarse
inferiores mediante otro
a 5, la
procedimiento.
prueba 2 de Pearson no ser aplicable a esta tabla 22 y la asociacin ha de
134 Pastor-Barriuso R.
[Tabla 8.4 aproximadamente aqu]
Test exacto de Fisher
El test exacto de Fisher se basa en determinar la probabilidad exacta de observar una tabla
cualquiera con frecuencias a, b, c y d, bajo la hiptesis nula de independencia y asumiendo que
todos los marginales n1, n2, m1 y m2 son fijos (Tabla 7.1). La condicin de marginales fijos se
impone por conveniencia matemtica, ya que los clculos se simplifican notablemente y los
marginales contienen poca informacin sobre la asociacin a estudio. Bajo H0, la probabilidad
de enfermar es comn en los sujetos expuestos y los no expuestos. As, el nmero de enfermos
entre los expuestos sigue una distribucin n1 binomial de parmetros n1 y , mientras que entre los
a n1 a n 2
P(a, b, c, d | H ) =
no expuestos sigue una distribucin binomial
0 a (1 )
de parmetros c
c n2 y .
(1 )Como
n2 c
las muestras de
expuestos y no expuestos son independientes,
la probabilidad de obtener una tabla con
frecuencias a, b, c y d es el producto de las probabilidades binomiales de observar a sujetos
enfermos entre los expuestos y c entre losn1 n 2 m1
= no expuestos, (1 ) m2 .
na1 m1 a n2
P(a, b, c, d | H0) = a (1 ) n1 a c (1 ) n2 c
a c
Para marginales n1, n2, m1 y m2 fijos, el rango de valores posibles k para el nmero de
n1 n 2 m1
=
casos expuestos vara entre k1 = max(0, m - n ) y k = ) m,2 m
(1min(n . ). Por tanto, la
a
m
1 1
2 a 2 1 1
Para
probabilidad n1,obtener
marginales de n2, m1 yuna
m2tabla
fijos,con
el rango de valores
frecuencias a, b, cposibles k para ela unos
y d condiciona nmero de casos
expuestos vara entre k = max(0, m
Para marginales n1, n1 2, m1 y m2 fijos,
1 n ) y k = min(n
el2 rango2 de valores , m ).
1 posibles
1 Por tanto, la probabilidad
k para el nmero de de
obtener una tabla
marginales n1, con 1 y m2 fijosa,viene
frecuencias
n2, m b, c ydada
d condicionada
por a unos marginales n1, n2, m1 y m2 fijos
viene dada por
casos expuestos vara entre k = max(0, m - n ) y k = min(n , m ). Por tanto, la
1 1 2 2 1 1
n1 n 2 m1
probabilidad de obtener una tabla con frecuencias a, b, c y d condiciona
(1 ) m2 a unos
a
1 m a
P(a, b, c, d | n1, n2, m1, m2; H0) = k
marginales n1, n2, m1 y m2 fijos viene dada por n1 n 2 m1 (1 ) m2
2
k = k1 k m1 k
nn1 nn2 m1 n m2 n
1 2 (1 1 )
2
aa m 1 a
P(a, b, c, d | n1, n2, m1, m2; H0) == m1 a a m1 a
k2 n
k2
n1 nn2 =m1 n + mn2 ,
k= k1
1
2
k m k
(1
1 ) 2
1
k = k1 k m1 k
m1
n1 de
donde el denominador de la ltima igualdad se obtiene n1 nde
n 2 las propiedades coeficientes
2 los
binomiales. Esta distribucin
donde el denominador de ladeltima
probabilidades entre
igualdad se a todas
obtiene m1 delas posibles
alas a tablas
propiedades m1 deacon
loslos mismos
=
marginales se conoce como distribucin hipergeomtrica y =
determina la ,
distribucin bajo H0
k2
n1 n 2 n1 + n 2
coeficientes binomiales. Esta distribucin de
probabilidades entre todas
lasposibles
k = k1 k m1 k m1
tablas con los mismos marginales se conoce como distribucin hipergeomtrica y
Pastor-Barriuso R. 135
del nmero de casos expuestos y no expuestos en una muestra de m1 casos obtenidos a partir de
un total de n1 sujetos expuestos y n2 sujetos m no expuestos. Notar que esta probabilidad depende
1 m 2 n1 n 2
nicamente del nmero a de casos expuestos, dado
que una vez conocido a las frecuencias de
las restantes celdas quedan determinadas a los
por nmarginales
1 a a la
de mtabla.
1 a
Cabe destacar tambin
P(a | n1, n2, m1, m2; H0) = =
que aunque los clculos se han derivado de mun m2
1 + estudio n1 + n 2 se obtendra el mismo
prospectivo,
resultado a partir de un estudio retrospectivoen trminos del nmero de sujetos expuestos entre
n1 m1
casos y controles,
n1 !nm2 !1 m
1 ! mm2 2! n1 n 2
= ,
n! aa! b! c!nd1! a a m1 a
P(a | n1, n2, m1, m2; H0) = =
m1 + m 2 n1 + n 2
lo cual confirma que la probabilidad condicional n1 a una determinada
asociada m1 tabla no
exacto de Fisher
de Fisher corresponde
consiste entonces
en enumerar todasa las
la suma de probabilidades
posibles para todas
tablas con los mismos aquellas que
marginales
probabilidades de las tablas tanto o menos compatibles con la hiptesis nula que la tabla
Tabla 8.5 Todas las posibles tablas con los mismos
observada). marginales que la Tabla 8.4, junto con sus probabilidades
tablas con probabilidad inferior
asociadas o igual
bajo a la de nula
la hiptesis la tabla observada (esto es, la suma de
de independencia.
P = P(0) + Pmenores
tienen asociadas probabilidades (1) + P(4)o +iguales
P(5) que la probabilidad P(1) =
= 0,016 + 0,136 + 0,136 + 0,016 = 0,304.
0,136 de la tabla observada, el valor P bilateral del test exacto de Fisher es
Notar que se obtendra el mismo valor P si se sumaran las probabilidades asociadas a
todas
Notaraquellas tablas con
que se obtendra un oddsvalor
ratio Ptanto osumaran
ms alejado del valor nulo 1 que el OR =
P = Pel(0)
mismo
+ P(1) + P(4)si+seP(5) las probabilidades
16/(49) = 0,17 de la tabla observada; es decir, las probabilidades de las tablas con OR 0,17
OR 1/0,17
oasociadas = 6. aquellas
a todas As,= a0,016
partir+de0,136
tablas esta muestra
con un odds tan
+ 0,136 reducida,
ratio
+ tanto
0,016 no puede
o ms
= 0,304. concluirse
alejado que exista
del valor
una asociacin significativa entre el nivel de b-caroteno y el riesgo de infarto de miocardio.
nulo 1 que el OR = 16/(49) = 0,17 de la tabla observada; es decir, las
Cuando elque
Notar se obtendra
tamao muestral el es
mismomuy valor P si el
pequeo, se nmero
sumarande lasposibles
probabilidades
tablas con los mismos
marginales muy reducido, de tal forma que el valor P
probabilidades de las tablas con OR 0,17 OR 1/0,17 = 6. As,dea partir
ser del test exacto Fisherde
podr
esta tomar
asociadas a todas aquellas tablas con un odds ratio tanto o ms alejado del
muy pocos valores, siendo as particularmente difcil obtener resultados significativos. Para un valor
nivel de significacin
muestra preestablecido,
tan reducida, el test exacto
no puede concluirse de Fisher
que exista tender a ser
una asociacin conservador con
significativa
nulo 1 que el OR = 1 6/(4 9) = 0,17 de la tabla observada; es decir,
una verdadera probabilidad de error de Tipo I menor que el valor nominal . Un contraste las
alternativo
entremenos
el nivelconservador
de -carotenoconsiste en calcular
y el riesgo el valor
de infarto mid-P bilateral, que se define como
de miocardio.
probabilidades de las tablas con OR 0,17 OR 1/0,17
la probabilidad de la tabla observada ms la probabilidad de las tablas = 6.menos
As, a verosmiles
partir de esta
bajo H0.
Este valor mid-P ser siempre inferior o igual al valor exacto de P, obtenindose resultados 23
muestra tan
muy similares si elreducida, no puedeesconcluirse
tamao muestral grande. que exista una asociacin significativa
23
Mtodos no paramtricos
Ejemplo 8.13 De todas las posibles tablas enumeradas en la Tabla 8.5, slo las tablas
con a = 0 y 5 tienen probabilidades bajo H0 menores que la probabilidad P(1) = 0,136 de
la tabla observada, as que el valor mid-P bilateral se calcula como
mid-P = P(0) + P(1) + P(5) = 0,016 + 0,136 + 0,016 = 0,168,
que es considerablemente menor que el valor exacto de P = 0,304 calculado en el ejemplo
anterior. No obstante, ambos valores de P arrojan resultados no significativos para el
nivel de significacin estndar = 0,05.
El test exacto de Fisher puede generalizarse para evaluar la asociacin estadstica entre las
variables categricas de una tabla rc, cuando algunas frecuencias esperadas sean muy bajas y
no pueda aplicarse el test 2 de Pearson. Aunque el valor P del test exacto de Fisher para tablas
mayores de 22 se define igualmente como la suma de probabilidades para aquellas tablas tanto
o menos probables que la tabla observada, su clculo requiere de algoritmos de computacin
dado el elevado nmero de posibles tablas con los mismos marginales.
8.5 REFERENCIAS
1. Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons, 2002.
2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
4. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
5. Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley
& Sons, 1998.
6. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley &
Sons, 1986.
7. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition.
New York: John Wiley & Sons, 2003.
8. Hollander M, Wolfe DA. Nonparametric Statistical Methods, Second Edition. New York:
John Wiley & Sons, 1999.
9. Lehmann EL. Nonparametrics: Statistical Methods Based on Ranks. San Francisco:
Holden and Day, 1975.
10. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press,
1999.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
138 Pastor-Barriuso R.
TEMA 9
9.1INTRODUCCIN
Desde un punto de vista puramente terico, basta con aumentar el tamao muestral para
obtener estimaciones arbitrariamente precisas o para detectar como estadsticamente significativo
cualquier efecto por pequeo que sea. Aun cuando esto sea posible en la prctica, la utilizacin
de muestras excesivamente grandes es ineficiente, ya que la posible deteccin de efectos
trivialmente pequeos y de escasa utilidad prctica no justificara los recursos empleados. En
ltimo trmino, el objetivo de la determinacin a priori del tamao muestral consiste en estimar
la muestra mnima necesaria para asegurar estimaciones razonablemente precisas o para tener
una potencia suficiente en la deteccin de efectos clnicamente relevantes.
Con cierta frecuencia, el nmero de sujetos disponibles para un estudio viene dictado de
antemano por las limitaciones econmicas o temporales. En tales circunstancias, es importante
determinar qu magnitudes de efecto tendran una probabilidad razonable de ser detectadas con
la muestra disponible, para contar as con una idea aproximada de las posibilidades que ofrecera
la realizacin de dicho estudio.
Como se ver a continuacin, el clculo del tamao muestral requiere de informacin previa
a la realizacin del estudio. Estos datos suelen proceder de investigaciones previas relacionadas
y, en la medida de lo posible, han de ajustarse a unas hiptesis de trabajo verosmiles. En
cualquier caso, las asunciones realizadas en el clculo del tamao muestral pueden diferir de los
resultados posteriores del estudio y, en consecuencia, estas determinaciones deben servir como
gua orientativa ms que como norma rgida para la estimacin del tamao muestral. Conviene
apuntar tambin que la muestra resultante se refiere al nmero de sujetos necesarios para el
Pastor-Barriuso R. 139
acin de tamao esencialmente infinito. La correccin de las frmulas del tamao
Ejemplopara
tamao 9.1 En unel nivel
estimar pequeo estudio
medio piloto
de2presin
2
realizado
arterial en personas
sistlica adultas de una
con una precisin
determinada poblacin, la media 1,96 20
n = y la2 desviacin tpica de la presin arterial sistlica
= 384,16;
resultaron ser 130 y 20 mm Hg, 2
respectivamente. Utilizando
de 2 mm Hg. Asumiendo un nivel de confianza del 95% y una estadesviacin
informacin preliminar,
tpica
se planea obtener una muestra aleatoria simple de mayor tamao para estimar el nivel
medio
similar de presin
a la
es decir, se del arterial
estudio
requeriran sistlica
piloto, con una385
se tiene
aproximadamente precisin
sujetosde 2 estimar
para mm Hg.laAsumiendo
presin un nivel
de confianza del 95% y una desviacin tpica similar a la del estudio piloto, se tiene
La nivel
El de confianza
proporcin poblacional tanto,
100(1 - .)%, que se establece de los siguientes
habitualmente en elelementos:
95%.
Pastor-Barriuso R. 141
El nivel de confianza 100(1 - )%, que se est
La proporcin
precisin deseada o el error
poblacional . absoluto que se considere aceptable.
La precisin
El conocimiento deseada
previo o elaproximado
del valor error absoluto que
de la proporcin
La objeto
se considere
proporcin aceptable.poblacional
de estudio es .
Determinacin del tamao muestral
0,30 y = 0,03,
prevalencia se necesitara una
estamuestra mnima deerror absoluto del 3%
Ejemplo 9.2de En
hipertensin
el estudioenpiloto poblacin
del ejemplo conanterior,
un la proporcin de hipertensos
(presin arterial sistlica 140 mm Hg) fue del 30%. En base a esta informacin, se
(error relativo
pretende delun
realizar 10%).
estudio1,Asumiendo
0,30(1 el
96transversal
2 nivel
0,para
30 de confianza
) estimar estndar del
la prevalencia de 95%, =
hipertensin en
n =
esta poblacin con un error absoluto = 896,37 897.
0,03 2 del 3% (error relativo del 10%). Asumiendo el
0,30 yde =confianza
nivel 0,03, se necesitara
estndar del una95%,muestra
= mnima
0,30 y de= 0,03, se necesitara una muestra
mnima de
Si, por el contrario, el estudio 2se diseara para estimar la prevalencia de diabetes,
1,96 0,30(1 0,30)
n= = 896,37 897.
que se asume prxima al 5%, con0,un 03 2error absoluto del 1% (error relativo del
Si, por el contrario, el estudio se diseara para estimar la prevalencia de diabetes, que se
20%),
asume elsecontrario,
requerira
Si, por prxima elunestudio
al 5%, tamao
con un semuestral
error considerablemente
absoluto
diseara del 1%
para estimar mayor
(error relativo
la prevalencia del 20%), se
de diabetes,
requerira un tamao muestral considerablemente mayor
que se asume prxima al1,96 5%,2 con un error absoluto del 1% (error relativo del
0,05(1 0,05)
n= = 1.824,76 1.825.
0,012
20%), se requerira un tamao muestral considerablemente mayor
Como se desprende de este ejemplo, para estimar fiablemente una proporcin extrema
(muy
Comopequea
se desprendeo muy de grande) se necesitar
este ejemplo, una fiablemente
para estimar muestra mayor que para estimar una
una proporcin
1,96 2 0,05(1 0,05)
proporcin cercana nal=50%. = 1.824,76 1.825.
extrema (muy pequea o muy grande) 0,012 se necesitar una muestra mayor que para
La frmula del tamao muestral presentada en este apartado se basa en la aproximacin
normal a laseuna
estimar
Como distribucin demuestral
proporcin
desprende cercana
este alde50%.
ejemplo, una
para proporcin. Aunqueunaesta
estimar fiablemente aproximacin es
proporcin
razonable en la mayora de las circunstancias, existen frmulas alternativas, tales como
las basadas en (muy
extrema la aproximacin
pequea o muy normal con correccin
grande) poruna
se necesitar continuidad o en la
muestra mayor aproximacin
que para
La frmula del tamao muestral presentada en este apartado se
de Poisson, que pueden ser tiles cuando se prev trabajar con muestras de reducido basa en la
tamao o conuna
estimar proporciones
proporcinmuy extremas.
cercana al 50%.Una descripcin y comparacin ms detallada
de los distintos mtodos de clculo delmuestral
aproximacin normal a la distribucin de una proporcin.
tamao muestral Aunque esta
puede encontrarse en la bibliografa
de este tema.
aproximacin
La frmula es delrazonable en la mayora
tamao muestral presentadade lasencircunstancias,
este apartado existen
se basa frmulas
en la
alternativas,
9.3 TAMAO
aproximacin tales como lasdistribucin
MUESTRAL
normal a la basadas
PARAen muestral
la
LAaproximacin
COMPARACIN normal DE
conMEDIAS
de una proporcin. correccin
Aunque estapor
Muchos diseos
continuidad
aproximacin esepidemiolgicos,
o en la aproximacin
razonable bien
de sean
deobservacionales
Poisson,
en la mayora que
las pueden ser(estudios
tiles
circunstancias, defrmulas
cuando
existen cohortes o de casos y
se prev
controles) o experimentales (ensayos clnicos), se realizan con un afn comparativo, donde el
objetivo
trabajar no es
con
alternativas, tanto
muestras
tales estimar
comodelas la magnitud
reducido
basadas tamao de un determinado
o con proporciones
en la aproximacin parmetro
normalmuy
conextremas.poblacional,
correccin por sino ms
Una
bien comparar parmetros entre distintas poblaciones. En tales diseos, el problema radica en
determinar
continuidadelyotamao
descripcin muestral
comparacin msmnimo
en la aproximacin detalladanecesario
de los
de Poisson, en cada mtodos
distintos
que pueden grupo dedecomparacin,
ser tiles clculosedel
cuando de tal forma
tamao
prev
que el contraste de hiptesis que se pretende realizar tenga una potencia suficiente para detectar
posibles
muestral diferencias
puede
trabajar con clnica
encontrarse
muestras o epidemiolgicamente
en la bibliografa
de reducido tamao o con esterelevantes.
de proporciones
tema. muy En extremas.
este apartado
Una se presentan
7
determinada
minada variable
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
equivalente,
estosestos
estimadores
estimadores
indican
indican
orqu
de valor
qu valor independientes
se agrupan
se agrupan
los datos
los datos
observados.
observados.
Las medidas
Las medidas
de tendencia
de tendencia
Tamao muestral para la comparacin de medias
de
muestra
la muestra
sirven Supongamos
sirven
tantotanto
para para quelos
resumir se resultados
resumir pretende contrastar
los resultados la hiptesis
observados
observados
comocomo paraH0: 1 = 2 de igualdad de
paranula
rencias
inferencias
acerca
acerca
de medias
laslos
de frente
frmulas del apoblacionales
parmetros la hiptesis
tamao
los parmetros alternativa
muestral
poblacionales para contrastar
correspondientes.
correspondientes. 1 2 enendos
bilateralAHdiferencias
1: A losdistribuciones
niveles mediosconde una
variable cuantitativa a partir de dos muestras dependientes o independientes.
2
nacin
se describen
se describen
los principales
los principales
igual varianza estimadores
1 = 2de
estimadores
2 2
de
= la tendencia
la tendencia
. Segn central
los central
de una
resultados de
deluna
Apartado 6.3, la distribucin
mitacin
l limitacin
es que
es est
que est
muymuy
influenciada
influenciada
por los los x1 extremos
por+valores x 2 extremos
P( valores z1 y, + 1 / n 2 | H1 ).
n1 este
1este
/2 eny,/en
1 - = P( x1 - x 2 -z1- /2 1 / n1 + 1 / n 2 | H1 )
no
edeser
noun
serfiel
un reflejo
fiel reflejo
de lade
tendencia
la tendencia
central
central
de lade
distribucin.
la distribucin.
Asumiendo sin prdida de generalidad que 1 < 2 (Figura 9.1), la segunda probabilidad
+ P( x1 - x 2 z1- /2 1 / n1 + 1 / n 2 | H1 ).
H1: 1 2 H0: 1 = 2
lo
emplo
1.4 En
1.4este y ende
En este lasucesivos
ylos
en expresin
los sucesivosanterior,
ejemplos
~ejemplos
que representa
sobre sobre
estimadores el evento
estimadores de que
muestrales,
muestrales,~se
x1 se
sea apreciablemente mayor
x1 x2 N ( 1 2 , 2 (1 / n1 + 1 / n2 )) x1 x2 N (0, 2 (1 / n1 + 1 / n2 ))
Asumiendo sin prdida de generalidad que 1 < 2 (Figura 9.1), la segunda probabilidad
rn
ilizarn
los valores
los valores
delque
colesterol
del xcolesterol
HDL
2 , ser HDL
obtenidos
virtualmenteobtenidos en los
cero. en
La10 losprimeros
10 primeros
potencia sesujetos
reduce sujetos
del del a
entonces
de la expresin anterior, que representa el evento de que x1 sea apreciablemente mayor
otudio
European
EuropeanStudyStudy
on Antioxidants,
on Antioxidants, Myocardial
Myocardial Infarction
Infarctionand Cancer
and Cancer of of
1 - = P( x1 - x 2 -z1- /2 1 / n1 + 1 / n 2 | H1 )
que x 2 , ser virtualmente cero. La potencia se reduce entonces a
east
e Breast
(EURAMIC),
(EURAMIC), un estudio
un estudio
multicntrico
multicntrico de casos
de casos y controles
y controles
realizado
realizado
x x 2 ( 1 2 ) z1 / 2 1 / n1 + 1 / n 2 ( 1 2 )
tre
9911991
y 1992
y 1992
en ocho
en ocho
pasespases P x1e1 -Israel
P(
- =Europeos
1 Europeos x1e2- Israel
para
-z1- para
evaluar
/2 / nel
1evaluar + 1 / n
efecto
el |
efecto
de H los
1 )
de los H
1/ n + 1/ n 1 2
1 / n1 + 1 / n 2
1
1 2
x x 2 ( 1 2 ) z1 / 2 1 / n1 +5 1 / n52 ( 1 2 )
= P 1 | |
H1
= z11/ 2/ n+1 + 1 / n12 /2 2 , 1 / n1 + 1 / n 2
/2
1 / n1 + 1 / n 2
1 - 2 0
z | 1 2 |
=
donde la ltima igualdad + ,
de la distribucin normal de x1 - x 2 bajo la hiptesis
1 / 2se deriva
1z / n1+ 11//nn+2 1/ n
1 / 2 1 2 z1 / 2 1 / n1 + 1 / n2
alternativa.
Figura Notar que sedealcanzara
9.1 Representacin la potenciaeldel
mismo resultado
contraste si de1 >medias
bilateral 2. Esta expresin
a partir de dos muestras
Figura 9.1
donde la ltima igualdad se deriva de la distribucin normal de x1 - x 2 bajo la hiptesis
independientes.
permite determinar a posteriori la potencia de un contraste para detectar una diferencia
alternativa. Notar que se alcanzara el mismo resultado si 1 > 2. Esta expresin
Pastor-Barriuso R. 143
de medias subyacente 1 - 2 a partir de dos muestras independientes de tamaos n1 y
permite determinar a posteriori la potencia de un contraste para detectar una diferencia
n2.
continuacin sexdescriben
+ P( 1 - x 2 z1- /2 1 / n1 + 1 / n 2 | H1 ).
los principalescontinuacin
estimadores se describen
de la tendencia
los principales
central deestimadores
una
son igualmente
resultados eficaces
del estudio nooaportan
si, por el contrario,
suficiente el estudio
evidencia carece
para de potencia
afirmar que el
1 2
Por tanto, no
detectaran es sorprendente
como que elsignificativa
estadsticamente estudio anterior arrojara unreal
una diferencia resultado
de 5 mmnoHg.
asumiendo un nivel
significativo, de significacin
aunsorprendente
cuando exista =diferencia
0,05 y una desviacindetpica magnitud
= 20 mm
Por tanto, no es queuna
el estudio subyacente
anterior arrojara
Tamao
dicha
un
muestral resultado
para no de medias
la comparacin
Hgentre
en ambos
ambosgrupos, la potencia para detectar dicha diferencia en un estudio con
tratamientos.
significativo, aun cuando exista una diferencia subyacente de dicha magnitud
n1 = ny2una
0,05 = 50desviacin
sera tpica = 20 mm Hg en ambos grupos, la potencia para detectar
entre ambos tratamientos.
dicha diferencia en un estudio
Como ilustra el ejemplo anterior, n2 = 50de
conenn1el= diseo sera
un estudio es importante determinar
5
a priori
Comoqu tamao
ilustra = anterior,
1el ejemplo
muestral 96 +necesario
1,ser de un
en cada
en el diseo (de
=estudio
grupo 0,71)
es =importante
0,239. para
comparacin evitar la
determinar
20 1 / 50 + 1 / 50
aobtencin
priori qudetamao
Es decir, resultados
nicamente no 23,9%
muestral
un concluyentes poren
ser necesario falta
cada
de los estudios degrupo
con potencia. Supongamos,
de comparacin
este tamao en el
para casocomo
evitar
muestral detectaran la
estadsticamente significativa
Es decir, nicamente un 23,9% unadediferencia realcon
los estudios de 5este
mmtamao
Hg. Pormuestral
tanto, no es sorprendente
msque el estudio anterior arrojara un resultado no significativo, aunncuando
general,
obtencin de que se pretende
resultados no asignar
concluyentesdistinto
por tamao
falta de a ambas
potencia. muestras
Supongamos,2 = kn
en1,eldonde
caso una
exista
diferencia
detectaransubyacente de dicha magnitud
como estadsticamente entre ambos
significativa tratamientos.
una diferencia real de 5 mm Hg.
k es un
ms nmero
general, quepositivo prefijado.
se pretende A partir
asignar detamao
distinto la frmula de la muestras
a ambas 2 =n
potencia ncon 1, kn
2=
kn 1, y
donde
Como Porilustra
tanto, el
noejemplo anterior, que
es sorprendente en eleldiseo
estudio deanterior
un estudio es importante
arrojara determinar
un resultado no a priori
recordando
k es un que
nmero (z
positivo ) = 1 - ,
prefijado. se sigue
A partirque de la frmula
qu tamao muestral ser necesario en cada grupo de comparacin para evitar la2 obtencin
1- de la potencia con n = kn 1 y
, de
resultados no concluyentes
significativo, aun cuandopor falta
existadeuna potencia.
diferencia Supongamos,
subyacenteendeeldicha caso magnitud
ms general, que se
recordando
pretende asignarque
distinto ) = 1 - aambas
(z1-tamao , se sigue que n2|=kn1, donde
muestras k es un nmero positivo prefijado.
2 |
A partir de laambos
entre frmula de la potencia
tratamientos. z1 con
= zn12=/ 2kn+1, y recordando
1
, que (z1) = 1 , se sigue que
1 1
| + |
z1 = z1 / 2 + n1 1 kn 2
1 ,
Como ilustra el ejemplo anterior, en el diseode un 1 estudio 1 es importante determinar
+
n1 kn1
de donde
a priori puede despejarse
qu tamao muestral sern1 para obteneren cada grupo
necesario de comparacin para evitar la
de donde puede despejarse n1 para obtener
de dondedepuede
obtencin despejarse
resultados n1 para obtener
no concluyentes
que corresponde al tamao necesario 1por
(k + en z1falta
)( la primera
de potencia.
/ 2 + z 1muestra
)
2 2 Supongamos, en el caso
y n2 = kn1 al de la segunda
n1 = 2
,
msmuestra.
general,En que k ( tamao
1 2 )a ambas 2 muestras n2 = kn1, donde
el se pretende
caso asignar
particular de que distinto
(k + 1)( z1 / 2 + z1 ) 2 tamao
se desee un mismo muestral en ambos
que corresponde al tamao necesario n 1 = en la primera muestra ,
y n = kn1 al de la segunda muestra.
k esgrupos kde( la 2 ) 2 de la 2potencia
1 frmula 2 = kn1k
con ngrupos
En eluncaso
nmero
= 1,positivo
kparticular prefijado.
de que
ste vendr se desee A partir
determinado un mismo
por tamao muestral en ambos , y= 1, ste
vendr determinado por 11
recordando que (z1-) = 1 - , se sigue que
2( z1 / 2 + z1 ) 2 2 11
n1 = n 2 = 2
.
( | 1 2 ) |
z1 = z1 / 2 + 1 2
,
La asignacin de igual tamao a ambas muestras 1 es,1 en general, ms eficiente ya que da
lugar aLaunasignacin
menor tamao totaltamao
de igual del estudio.
a ambas No obstante,
muestras
n1 kn
+ es, hayensituaciones
general, ms prcticas en ya
eficiente lasque
que es
1
preferible seleccionar muestras de distinto tamao, aun cuando ello conlleve un aumento de la
muestra totalapara
da lugar alcanzar
un menor la misma
tamao totalpotencia;
del estudio. tal esNo el caso
obstante,de loshay estudios donde la
situaciones disponibilidad
prcticas en
de sujetos
de donde puede despejarse
o los costes difierenn1 entre
para obtener
los grupos, o cuando se requieren estimaciones ms precisas
en uno de los
las que grupos. Adems
es preferible de estas
seleccionar consideraciones,
muestras de distinto en el clculo
tamao, del tamao
aun cuando ellomuestral
conlleve para
la comparacin de medias es necesario determinar previamente los siguientes elementos:
(k + 1)( z1 / 2 + z1 ) 2 2
un aumento de la muestra
yy El nivel de significacin total para alcanzar
n1 = del contraste bilateral, la misma potencia;
,
que tal es ellacaso
representa de los
probabilidad de
k ( ) 2
rechazar errneamente la hiptesis nula1 y se2establece usualmente en = 0,05.
estudios donde la disponibilidad de sujetos o los costes difieren entre los grupos, o
yy La potencia 1 del contraste, que determina la probabilidad de detectar hiptesis
alternativas
cuando ciertasestimaciones
se requieren y se fija habitualmente
ms precisas en en 1 uno =de 0,80 losgrupos.
0,90. Adems de estas 11
yy La varianza poblacional . En la determinacin del tamao muestral suele asumirse que
2
consideraciones, en el clculo
la varianza es comn para ambosdel tamao
grupos, muestral
ya que para la comparacin
generalmente de medias
se carece es
de informacin
previa suficiente para determinar una varianza especfica en cada uno de los grupos.
necesario determinar previamente los siguientes elementos:
yy La diferencia mnima detectable |1 2|. El tamao muestral ser tanto mayor cuanto
menor sea la diferencia que se pretende detectar. La magnitud de esta diferencia debe ser
El nivel de significacin del contraste bilateral, que representa la probabilidad
donde d2 esesladecir,
566;
significativo varianza
cuando ddiferencia
lademedia
las
64 pacientes diferencias.
-z
ms
de /2de
1-las de /medias
dlos Para dmuestrales,
un
nrequeridos
diferencias nivel
z1-en dcaso
/2de
el significacin
/ n de preestablecido, el
. igual tamao
contraste arrojar un resultado significativo cuando la media de las diferencias
muestral para alcanzar una misma potencia. 1 n , la potencia
1 n
Por tanto, asumiendo como d en zel apartado anterior que
1/2 d / n d z1d/2 =d1 /< n2d. i = ( x i1para x i 2detectar
)
n i =1 n i =1
Por tanto, asumiendo como en anterior que 1 igual < 2n, ala potencia 13 una
una diferencia de medias 1 -el
2apartado
ser aproximadamente para detectar
Por tanto, 1
quea=1 < 2,xla 1 n
diferencia deasumiendo
medias 1 como enaproximadamente
2 ser el apartado anterior igual i1 potencia
xi 2para= x1detectar
x2
n i =1 n i =1
una diferencia1de = P( d 1 -
medias z12ser / n | H1 )
/2 d aproximadamente igual a
dy,en( consecuencia,
1 2 ) z1d / es n ( 1 insesgado
d / estimador
2 un 2) de la diferencia de medias
= P H1
1 - = P(d -zd 1-//2 n d / n | H1) d / n
poblacionales 1 - 2. As, el problema de la comparacin de medias en dos mues
| |
= d z1(/ 12 + 2 )1 2z1 ./ 2 d / n ( 1 2 )
= P dependientes
/ n reducido
queda a una simple H1
inferencia sobre la media de una nica
/ n d d / n
d
muestra de n diferencias independientes.
146 Pastor-Barriuso R. | 1 2 |
= z1Los +
/ 2 mtodos del Apartado . 6.2.1 para la media de una muestra pueden entonces
/ n que
Como por definicin (z 1-) = 1 - ,sed sigue
utilizarse para calcular un intervalo de confianza al 100(1 - )% para 1 - 2 com
| 2 |
= z1 / 2 + 1 .
d / n
Tamao muestral para la comparacin de medias
( z1 / 2 + z1 ) 2 d2
n= .
Como por definicin (z1-) = 1 - , se sigue 2) 2
( 1 que
Como por definicin (z1) = 1 , se (sigue + z1 ) 2 d2
z1 / 2que
n= .
En la prctica, resulta difcil determinar 2) 2
( 1 directamente
| 2 | la varianza de las diferencias
z1 = z1 / 2 + 1 ,
d / n
dEnyalaque
2
los datos
prctica, de una
resulta misma
difcil pareja estn
determinar correlacionados.
directamente Asumiendo
la varianza igual
de las diferencias
de donde puede despejarse n para obtener el nmero mnimo de parejas que sern necesarias
parade2 donde puede
detectar
varianza una
2 despejarse
endiferencia nmisma
para obtener
subyacente y un el nmero
estn
1 coeficiente
mnimo
2 concorrelacionados.
unadepotencia de
1 parejas
, entreque lossern
d ya que los datos
ambas depoblaciones
una pareja correlacin Asumiendo igual
valores de
2 2
( z1 / 2 + z1 ) d
necesarias
una misma 2para detectar
pareja, la una diferencia
varianza de n =
las subyacente
diferencias 1 -determinada
viene . 2 con una potencia
segn los ,
1 -resultados
varianza en ambas poblaciones y un ( ) 2 de correlacin entre los valores de
coeficiente
1 2
dellaApartado
En
una prctica,
misma 3.4
pareja,por
resulta difcil determinar
la varianza directamente
de las diferencias vieneladeterminada
varianza de segn
las diferencias d2 ya que
los resultados
En la
los datos deprctica,
una mismaresulta difcil
pareja determinar
estn directamente
correlacionados. la varianza
Asumiendo igualdevarianza
las diferencias
en ambas
2
poblaciones
del Apartadoy un3.4
coeficiente
por de correlacin
2 2 entre los valores de una misma pareja, la varianza
2 2 2 14
d = + - 2 = 2 (1 - ).
de las
d2 diferencias viene de
ya que los datos determinada
una mismasegnparejalos resultados
estn del Apartado
correlacionados. 3.4 por igual
Asumiendo
2 2 2 2 2
d = + 2 = 2 (1 ).
As, el nmero
2 de parejas necesarias tambin puede
varianza en ambas poblaciones y un coeficiente de correlacin expresarse como
entre los valores de
As, el nmero de parejas necesarias tambin puede expresarse como
As, misma
una el nmero de parejas
pareja, necesarias
la varianza de 2las tambin
( z1diferencias puede
viene
2 2expresarse
determinada como
segn los resultados
/ 2 + z1 ) (1 )
n=
( 1 2 ) 2
del Apartado 3.4 por
2( z1 / 2 + z1 ) 2 2 (1 )
que, adems de los parmetros n=
descritos en de la correlacin
ensayo
que, ademsclnico
de emparejado
los parmetros donde, enel apartado
(lugar de ) 2anterior,
2 asignar depende
distintos pacientes a ambos entre
2 =descritos
2 + no
cada pareja de datos. Si el emparejamiento d
2 en1 el 2apartado
- es
2efectivo,
= 2 de 2 anterior, depende de la
(1tal
- forma
). que est prximo a 0, el
nmero de parejas
grupos, cada necesarias
paciente espara un estudio
sometido a laSiemparejado
monoterapiaser aproximadamente
estndar durante igual al nmero
un primer
correlacin
que, adems
de sujetos entre
de
por grupo cada
lospara unpareja
parmetros
estudio de datos.
descritos
con enelelemparejamiento
muestras apartado anterior,
independientes no es efectivo,
depende
(notar =de0,tal
que side la la frmula
As,
anterior el nmero
se reduce de parejas necesarias tambin puede expresarse como
periodo de 4a semanas
la obtenida y alentratamiento
el caso de muestras
combinado independientes
con el nuevodel mismodurante
frmaco tamao). Si, por
forma queel entre
correlacin
el contrario, est prximo
cada pareja
emparejamiento a 0,es elefectivo,
de nmero
datos. Sideel parejas
los necesarias
emparejamiento
datos de cada parejanopara un estudio
es efectivo,
estarn de tal
correlacionados
positivamente
un segundo y, enperiodo
consecuencia,
de igualelduracin.
2nmero
( z1 / 2 de
+Sezparejas
asume ser
(1 substancialmente
que la )desviacin tpica inferior
de la al nmero
1 ) de
2 2
emparejado
de forma
sujetos que ser
requeridos aproximadamente
en cadaagrupo
est prximo 0,n el deigual
= nmero al nmero
un estudio
de sujetos bajo
independiente
parejas necesarias por
para grupo
las
un para un
mismas
estudio estudio
condiciones.
(1 2 ) 2
presin arterial sistlica bajo ambos tratamientos es 20 mm Hg, y que el
conEjemplo
muestrasser
emparejado independientes
9.5 Con objeto (notar
aproximadamente que sialla
igual
de asegurar =comparabilidad
0, la de
nmero frmula
sujetos anterior
por sepacientes
grupo
de los reduce
para un a hipertensos
la
estudio
que,bajo monoterapia
coeficiente
adems dedelos y tratamiento
correlacin
parmetros entre combinado, en el se
las determinaciones
descritos decide disear
apartado tomadas
anterior, undepende
ensayo
en clnico
un mismo emparejado
de lasujeto
obtenida
condonde, en
muestras el caso
en lugar de muestras
de asignar (notar
independientes independientes
distintos del
si = 0, alaambos
quepacientes mimo
frmula tamao).
grupos,
anterior Si,
cada por el
se paciente contrario,
reduce aes la sometido
a la monoterapia
con un intervalo
correlacin entre cada estndar
de 4pareja
semanas durante un primer
es aproximadamente
de datos. periodo
Si el emparejamiento de
0,50. Para 4 semanas
no esdetectar y al
unade tal
efectivo, tratamiento
el emparejamiento
combinado
obtenida casoeles
en el con efectivo,
denuevo
muestrasfrmacolos datos
durante
independientesde cada pareja
un segundo
del mimo estarn
periodo
tamao). correlacionados
de igual
Si, porduracin.
el contrario,Se asume
que
forma la desviacin
diferencia subyacente
que est tpica
prximode de la
5 mm
a 0, presin
Hg en de
el nmero arterial
la presinsistlica
parejas arterial bajo
necesarias ambos
sistlica
para un tratamientos
media al final de20 mm
estudio es
positivamente y, en
Hg, y que el coeficiente
el emparejamiento consecuencia,
es efectivo, el
de correlacin nmero
los datos deentre de
cada lasparejas ser substancialmente
determinaciones
pareja tomadas en
estarn correlacionados inferior
un mismo
sujeto con un
ambos tratamientos
emparejado intervalo de 4
con una potencia
ser aproximadamente semanas
igual de es aproximadamente
0,80 y undenivel
al nmero sujetos 0,50.
de significacin
por grupo paraPara
deun detectar
estudiouna
0,05,
al nmero de sujetos
diferencia subyacente
positivamente requeridos
de 5 mm Hg
y, en consecuencia, en cada grupo
en la presin
el nmero de un
de parejas estudio
arterial independiente
sersistlica bajo
media al final
substancialmente las
de ambos
inferior
con tratamientos
elmuestras
nmero de con una potencia
sujetos necesarios
independientes (notarende 0,80
que este y un nivel
si estudio de
= 0, laemparejadosignificacin
frmula anterior de 0,05,
sera se reduce a lael nmero de
mismas
al nmero condiciones.
parejas necesarias sera
de sujetos requeridos en cada grupo de un estudio independiente bajo las
obtenida en el caso de muestras
2(1,96 + independientes
0,84) 2 20 2 (1 0del
,50)mimo tamao). Si, por el contrario,
mismas condiciones. n = = 125,44de los
126;pacientes
Ejemplo 9.5 Con objeto de asegurar 52 la comparabilidad
el emparejamiento es efectivo, los datos de cada pareja estarn correlacionados
es decir, la mitad
hipertensos
Ejemplo 9.5bajo
Condemonoterapia
los sujetos
objeto que seran
y tratamiento
de asegurar necesarios en de
combinado,
la comparabilidad cada
selosuno
decidededisear
los grupos
pacientes un de un
es decir,nolaemparejado
positivamente
diseo mitad de los(Ejemplo
sujetos el
y, en consecuencia, que seran de
nmero
9.4). necesarios en cada
parejas ser uno de los grupos
substancialmente de
inferior
hipertensos bajo monoterapia y tratamiento combinado, se decide disear un
al un diseo
Lanmero de no
determinacin emparejado
sujetos tamao (Ejemplo
del requeridos
muestral 9.4).
en cada grupo
para de un estudio
la comparacin de independiente
medias en ms bajo lasmuestras
de dos 15
dependientes o independientes sigue argumentos similares a los descritos en este apartado. No
mismas condiciones.
La determinacin del tamao muestral para la comparacin de medias en ms de dos 15 Pastor-Barriuso R. 147
muestrasEjemplo
dependientes o independientes
9.5 Con siguelaargumentos
objeto de asegurar similares
comparabilidad a los
de los descritos en
pacientes
aproximacin
en el Apartadonormal
9.2.2, alas
la frmulas
distribucin muestral
descritas de una proporcin
a continuacin y, en consecuencia,
se fundamentan en la
sern vlidas
aproximacin
Determinacin siempre
del tamao muestralque
normal (1 - ) 5 muestral
a landistribucin en ambosdegrupos de comparacin.
una proporcin En las
y, en consecuencia,
referencias de siempre
sern vlidas este temaque
pueden
n(1 -consultarse otros mtodos
) 5 en ambos alternativos
grupos de de clculo
comparacin. En las del
obstante, para preservar la incertidumbre global del proceso de inferencia, es necesario utilizar
tamao muestral
referencias particularmente
de este tema pueden tiles para laotros
consultarse comparacin
mtodos de proporciones muy del
tcnicas de correccin por las mltiples comparaciones que se alternativos de clculo
pretendan realizar en el anlisis
(por ejemplo, un ensayo clnico en el que se comparan varios tratamientos frente a placebo). Estos
extremas
tamao en muestras
muestral reducidas. tiles para la comparacin de proporciones muy
particularmente
mtodos pueden consultarse en los libros de tamao muestral referenciados al final del tema.
extremas
9.4.1 en muestras
Tamao muestral reducidas.
para la comparacin de proporciones en dos muestras
9.4 TAMAO MUESTRAL PARA LA COMPARACIN DE PROPORCIONES
independientes
9.4.1 Tamao muestral para la comparacin de proporciones en dos muestras
En esta seccin se aborda el problema de la determinacin del tamao muestral en estudios
observacionales
El o ensayos
propsito se
independientes centra enclnicos donde
contrastar se pretende
la hiptesis nulacontrastar diferencias
de igualdad entre proporciones
de proporciones
a partir de dos muestras dependientes o independientes. Al igual que en el Apartado 9.2.2, las
frmulas descritas
poblacionales
El propsito Ha0centra
se : continuacin
1 = en
2 frentesea fundamentan
contrastarla la
hiptesis
hiptesis en la aproximacin
alternativa
nula Hnormal
bilateral de
de igualdad : 1 a2laa partir
1proporciones distribucin
de
muestral de una proporcin y, en consecuencia, sern vlidas siempre que n(1 ) 5 en
ambos
dos grupos deindependientes
muestras
poblacionales comparacin. En
delas
H0: 1 = 2 frente a referencias
tamaos n1 y nde
la hiptesis este tema bilateral
pueden
2. Del Apartado
alternativa 7.3consultarse
1 2otros
se1:desprende
H quemtodos
lade
a partir
alternativos de clculo del tamao muestral particularmente tiles para la comparacin de
proporciones
diferencia muy
de
dos muestras extremas enmuestrales
proporciones
independientes muestras
de tamaos reducidas.
p1 -np12yseguir
n2. Delaproximadamente una distribucin
Apartado 7.3 se desprende que la
normal N(0,demuestral
diferencia
9.4.1 Tamao (1 - )(1/npara
proporciones 1 + 1/n
la2)) bajo H
muestrales
comparacin p10 -ypN( 1 -proporciones
2, aproximadamente
2 seguir
de 1(1 - 1)/n en1 + 2(1
dos - distribucin
una 2)/n2) bajo
muestras
independientes
Hnormal
1, donde =(n
N(0, (11-1)(1/n
+ n212+ 1/n
)/(n 1+ 2) es H
2))nbajo y N(1 - 2,combinada
la0proporcin 1(1 - 1)/nque 2(1
1 + se - 2)/n
asume 2) bajo
comn a
El propsito se centra en contrastar la hiptesis nula de igualdad de proporciones poblacionales
H11, =
H0:ambos =bajo
grupos
donde
2 frente (na1la
H1+ nEl2contraste+ n2resultar
2)/(n1 alternativa
0.hiptesis ) es la proporcin Hcombinada
significativo
bilateral 1: para
1 un que
2 anivelseasume
partir cuando
de doscomn a
lamuestras
independientes de tamaos n1 y n2. Del Apartado 7.3 se desprende que la diferencia de
proporciones
diferencia
ambos grupos de bajo Hp0.1 El
muestrales
proporciones pcontraste
2 seguir aproximadamente
muestrales resultar significativo una distribucin
para un nivelnormal N(0,la(1 )
cuando
(1/n1 + 1/n2)) bajo H0 y N(1 2, 1(1 1)/n1 + 2(1 2)/n2) bajo H1, donde = (n11 + n22)/
n2) es la proporcin
(n1 +diferencia de proporcionescombinada que se asume comn a ambos grupos bajo H0. El contraste
muestrales
p - p
resultar significativo para un nivel cuando
1 2 -z 1- /2 (la )(1 / n1 +de
1 diferencia n2 )
1 /proporciones muestrales
p1 p2 z1 /2 (1 )(1 / n1 + 1 / n 2 )
o
o
o
p1 p2 z1 /2 (1 )(1 / n1 + 1 / n 2 ) .
As, asumiendo
diferencia1de = sin
P( pprdida
proporciones de generalidad
subyacente 1 - que 1 < determinada
2 vendr 2, la potenciapor
para detectar una
1 p2 z1 /2 (1 )(1 / n1 + 1 / n 2 ) | H1 )
diferencia de proporciones psubyacente
1 p 2 (
1 1-22 )vendr determinada por
= P
(1 ) / n + (1 ) / n
1 1 1 2 2 2
17
z1 / 2 (1 )(1 / n1 + 1 / n 2 ) ( 1 2 )
H1
/ 2
1 (1 1 ) / n1 + 2 (1 2 ) / n 2 17
| 2 | z1 / 2 (1 )(1 / n1 + 1 / n 2 )
= 1 .
1 (1 1 ) / n1 + 2 (1 2 ) / n 2
Ejemplo 9.6 Se planea realizar un estudio de cohortes para evaluar la asociacin entre
el =
uso de anticonceptivos
0,00750. Aplicando laorales
regla ydeellariesgo de cncer
probabilidad de (vase
total mama Apartado
en mujeres2.4),
entre la 40 y 49
aos. Para ello, se dispone de una cohorte de 6.000 mujeres en este rango de edad sin
evidencia
relacinbasal
entrede cncer
esta de mama,combinada
probabilidad que sern seguidas
de cncerdurante
de mamaun en
periodo decohorte
toda la 5 aos para
determinar casos incidentes de la enfermedad. Se estima que un 40% de estas mujeres han
utilizado regularmente especficas
y las probabilidades anticonceptivos oralesdeyexposicin
por grupo que la tasavendr
de incidencia
dada porde cncer de
mama en este grupo de edad es de I = 150 casos por 100.000 personas-ao. Para un nivel
de significacin = 0,05, cul sera la potenciacde este estudioc
para detectar un hipottico
= P(D) = P(E)P(D|E) + P(E )P(D|E )
aumento del riesgo de cncer de mama del 50% entre las usuarias de anticonceptivos
orales?
= 0,40 1 + 0,60 2 = 0,401,50 2 + 0,60 2 = 1,20 2 ,
Asumiendo una tasa delaincidencia
= 0,00750. Aplicando regla de laconstante
probabilidaden los 5 aos
total (vasedeApartado
seguimiento,
2.4),lalaincidencia
acumulada o probabilidad de desarrollar un cncer de mama en esta cohorte durante los
ya queentre
prximos
relacin se
5 estima
aos que aproximadamente
estasera un 40% de
probabilidad las mujeres
combinada de son
= IA usuarias
5 = 0,001505
cncer de mama de anticonceptivos
=
en0,00750. Aplicando la
toda la cohorte
regla de la probabilidad total (vase Apartado 2.4), la relacin entre esta probabilidad
orales
combinada
y las y que
de cncer
probabilidades de mama1por
la probabilidad
especficas endetoda
padecer
grupo ladeun cncer
cohorte y las
exposicin devendr
mama dada
entrepor
probabilidadeslasespecficas
usuarias es por
grupo de exposicin vendr dada por
un 50% superior a la probabilidad 2 entre clas no usuarias.c
As, la probabilidad de
= P(D) = P(E)P(D|E) + P(E )P(D|E )
desarrollar un cncer
= 0,40de mama en los 5 aos de seguimiento sera 2 = /1,20 =
1 + 0,60 2 = 0,401,50 2 + 0,60 2 = 1,20 2 ,
ya0,00750/1,20
que se estima=que un 40%
0,00625 de las mujeres
entre sonyusuarias
no usuarias deanticonceptivos
1 = 1,50 2 = 1,500,00625orales
= y que
la que se estima1que
yaprobabilidad de padecer
un 40% un de cncer de mama
las mujeres entre lasde
son usuarias usuarias es un 50% superior a
anticonceptivos
la 0,00938
probabilidad
entre las
2 entre
usuarias de anticonceptivos orales. Como se espera que un
las no usuarias. As, la probabilidad de desarrollar n1 =cncer de
mama
orales en los la
y que 5 aos de seguimiento
probabilidad sera un
1 de padecer /1,20 de
2 = cncer = 0,00750/1,20
mama entre las = 0,00625
usuariasentre
es las
usuarias y =12.400
no0,406.000 = 1,50 = 1,500,00625
mujeres
2 = 0,00938 entre las usuarias de anticonceptivos
de la muestra sean usuarias de estos anticonceptivos y
orales. Como se espera que n1 = 0,406.000 = 2.400 mujeres de la muestra sean usuarias
un 50% superior a la probabilidad 2 entre las no usuarias. As, la probabilidad de
delas
estos anticonceptivos
restantes y las restantes
n2 = 0,606.000 = 3.600 non2 usuarias,
= 0,606.000 = 3.600denoeste
la potencia usuarias,
estudiolasera
potencia
de este estudio sera
desarrollar un cncer de mama en los 5 aos de seguimiento sera 2 = /1,20 =
| 0,00938 0,00625 | 1,96 0,00750(1 0,00750)(1 / 2.400 + 1 / 3.600)
1 = = 0,00625 entre las no usuarias y 1 = 1,502 = 1,500,00625 =
0,00750/1,20
0,00938 (1 0, 00938 ) / 2 .400 + 0, 00625(1 0, 00625) / 3. 600
0,00938 entre las usuarias de anticonceptivos orales. Como se espera que n1 =
0,00313 1,96 0,00227
= = ( 0,56) = 0,287;
0,00237
0,406.000 = 2.400 mujeres de la muestra sean usuarias de estos anticonceptivos y
es decir, la probabilidad de detectar un hipottico incremento del riesgo de cncer de
las restantes n = 0,606.000 = 3.600 no usuarias, la potencia de este estudio sera
mama del 50%2 entre las usuarias y no usuarias de anticonceptivos orales sera nicamente
es decir, la probabilidad de detectar un hipottico incremento del riesgo de cncer
del 28,7% a partir de una cohorte de 6.000 mujeres seguidas durante 5 aos.
| 0,00938 0,00625 | 1,96 0,00750(1 0,00750)(1 / 2.400 + 1 / 3.600)
1de- mama
= del 50% entre las usuarias y no usuarias de anticonceptivos orales sera
La expresin anterior de,00938
0 la potencia
(1 0, permite
00938 ) / asimismo
2 .400 + 0, determinar
00625 (1 0, a priori) /la3.muestra
00625 600
mnima
que sernicamente
necesaria endelcada uno de
28,7% los grupos
a partir de unapara alcanzar
cohorte una potencia
de 6.000 mujeres preestablecida
seguidas durante 1 5 en
la deteccin de una diferencia subyacente de proporciones 1 2. En general, si se prev asignar
0,00313 1,96 0,00227 sigue a partir de la frmula de la potencia que
distinto aos.
tamao= aambas muestras n2 = kn1, se = (-0,56) = 0,287;
0,00237
n1 = 2 2
k ( 1kn1 2 ) 2
de tal forma que el tamao muestral requerido ser
de en
tal la
forma que muestra
el tamao y nmuestral requerido ser
primera 2 = kn1 en la segunda muestra, donde la proporcin combinada
de tal forma que el tamao muestral requerido ser
( z1 / 2 (k + 1) (1 ) + z1 k 1 (1 1 ) + 2 (1 2 ) ) 2
en ambas muestrasn1 = viene dada por = (n11 + n22)/(n + n2) = (1 + k2)/(1 + k). En el
k ( 1 2 ) 2 1
( z1 / 2 (k + 1) (1 ) + z1 k 1 (1 1 ) + 2 (1 2 ) ) 2
en caso de asignar
la primera n1 =
igualytamao
muestra n2 = kna1 ambos grupos de
en la segunda comparacin k = 1, el tamao muestral
k ( 1 muestra,
2 ) 2 donde la proporcin combinada en
ambas muestras viene dada por
en la primera muestra y n2 = kn1 en la = (n + n
1 1segunda )/(n
2 2 muestra,1 + n2) donde= (1 +lak 2)/(1 + k). combinada
proporcin En el caso de
en cada
asignar una
igual de las amuestras
tamao ambos grupos se reduce a
de comparacin k = 1, el tamao muestral en cada una de
las en
muestras
enambas se
la primera reduce
muestra
muestras a
viene 2 = kn
y ndada 1 en
por la
= segunda
(n11 + nmuestra,
22)/(n1 +donde n2) = la(1proporcin
+ k2)/(1 +combinada
k). En el
( z1 / 2 2 (1 ) + z1 1 (1 1 ) + 2 (1 2 ) ) 2
en ambas
caso muestras
de asignar n 2 viene
n1 =igual =tamao dada por =grupos
a ambos (n11 +den2comparacin
2)/(n1 + n2) =k =(1, 2)/(1
1 +elktamao k). En el
, + muestral
( 1 2 ) 2
caso
en cadade una
asignar
de lasigual tamaoseareduce
muestras ambosagrupos de comparacin k = 1, el tamao muestral
donde la proporcin combinada es = (1 + 2)/2. Como se coment anteriormente, la asignacin
de donde
igual tamao a las dos
la proporcin muestras
combinada es es
=ms
( + eficiente
2)/2. Como al requerir un menor
se coment tamao total
anteriormente, la del
en cada una de las muestras se reduce a 1
estudio para alcanzar una (misma z1 / 2 potencia.
2 (1 )Sin
+ zembargo,
1 1 (1 en
el1 )diseo
+ 2 (1de
determinados
2) )
2 estudios
(verasignacin
ejemplos de n1igual
= n 2 tamao
= la aseleccin
posteriores), de muestras
las dos muestras es ms de2 eficiente
distinto altamao
requerir un, menor
puede resultar ms
factible en trminos de coste 1 2)
( pacientes.
( z1odisponibilidad de En cualquier caso, 2la determinacin
/ 2 2 (1 ) + z1 1 (1 1 ) + 2 (1 2 ) )
deltamao
tamaototal n1 =estudio
muestral
del npara
2 = lapara
comparacin
alcanzar unade proporciones
misma potencia. en muestras
Sin embargo, en ,el diseoprecisa
independientes
( 1 2 ) 2
de los
dondesiguientes elementos:
la proporcin combinada es = (1 + 2)/2. Como se coment anteriormente, la
de determinados estudios
yy El nivel de significacin (ver ejemplos
del posteriores),
contraste bilateral, que la seleccin de muestras
suele establecerse pordeconvenio en
donde
asignacinla proporcin
= 0,05. combinada
de igual tamao dos muestras
a las es = (1 + es 2)/2.
ms Como se coment
eficiente anteriormente,
al requerir un menor la
distinto tamao puede resultar ms factible en trminos de coste o disponibilidad de
yy La potencia 1 para detectar hiptesis alternativas ciertas. La mayora de los estudios
asignacin
tamao totalde
deligual tamao
estudio paraaalcanzar
las dos muestras
una misma es potencia.
ms eficiente al requerirenunelmenor
Sin embargo, diseo
se disean con una potencia 1 = 0,80 0,90.
ydey Las
tamao proporciones poblacionales
total del estudios
determinados estudio para 1 una
(ver alcanzar
ejemplos 2misma
yposteriores),
. A diferencia de Sin
potencia. la comparacin
la seleccin embargo, en de
de muestras medias, no
eldediseo
es suficiente con determinar la diferencia de proporciones que se pretende detectar, sino
deque
distinto estamao
necesario
determinados especificar
estudios
puede (verla
resultar magnitud
ejemplos
ms aproximada
posteriores),
factible lade
en trminos esta
costeproporcin
seleccin
de o de en cada
muestras
disponibilidad grupo
de de 20 de
comparacin, para contar as con un valor aproximado de las varianzas poblacionales
1) y 2(1
1(1 tamao
distinto 2).resultar ms factible en trminos de coste o disponibilidad de
puede
Ejemplo 9.7 Como se vio en el ejemplo anterior, una cohorte de 6.000 mujeres carece
de potencia suficiente para detectar un hipottico incremento del 50% en la incidencia
20
acumulada de cncer de mama en 5 aos entre las mujeres usuarias y no usuarias de
anticonceptivos orales. Segn los clculos del ejemplo anterior, la incidencia acumulada
20
en este periodo en una cohorte de mujeres entre 40 y 49 aos ser aproximadamente
= 0,00750, siendo 1 = 0,00938 y 2 = 0,00625 las respectivas incidencias acumuladas
150 Pastor-Barriuso R.
aos ser aproximadamente = 0,00750, siendo 1 = 0,00938 y 2 = 0,00625 las
mujeres usuarias de estos anticonceptivos y n2 = 1,510.202,55 = 15.303,82
respectivas incidencias acumuladas en usuarias y no usuarias. Como se prev que
Tamao muestral para la comparacin de proporciones
15.304 no usuarias. As, para detectar un aumento subyacente del riesgo de cncer
la cohorte est compuesta de un 40% de mujeres usuarias de anticonceptivos
de mama del 50% entre las usuarias de anticonceptivos orales con una potencia de
en usuarias
orales y no de
y un 60% usuarias. Comosesetiene
no usuarias, prev que
que n2 la cohorte
= 1,5n est compuesta
1. Asumiendo de de
un nivel un 40% de
0,80, se precisara de una cohorte inicial de 25.507 mujeres seguidas durante untiene que
mujeres usuarias de anticonceptivos orales y un 60% de no usuarias, se
nsignificacin
2 = 1,5n1. Asumiendo
= 0,05 un nivel
y una de significacin
potencia =se0,05
1 - = 0,80, y una potencia 1 = 0,80, se
necesitaran
necesitaran
periodo de 5 aos.
(1,96 2,5 0,00744 + 0,84 1,5 0,00929 + 0,00621 ) 2
n1 =
El tamao necesario de la cohorte se reducira si el seguimiento del estudio se
1,5(0,00938 0,00625) 2
extendiera, por ejemplo, hasta
= 10.202,55 los 10 aos, ya que el nmero esperado de eventos
10.203
mujeres usuarias de estos anticonceptivos y n2 = 1,510.202,55 = 15.303,82 15.304 no
aumentara considerablemente.
usuarias. As, Siguiendo
para detectar un aumento argumentos
subyacente similares
del riesgo a los del
de cncer deejemplo
mama del 50%
entre las usuarias de anticonceptivos orales con una potencia de 0,80, se precisara21de una
anterior, la incidencia
cohorte inicial acumulada
de 25.507 mujeresen toda ladurante
seguidas cohorteun
durante 10 de
periodo aos sera =
5 aos.
El tamaoy necesario
0,01500, de la cohorte
las incidencias se reducira
acumuladas si elentre
especficas seguimiento del estudio
las usuarias se extendiera,
y no usuarias
por ejemplo, hasta los 10 aos, ya que el nmero esperado de eventos aumentara
considerablemente.
de Siguiendo
anticonceptivos orales argumentos
seran similares
1 = 0,01875 y 2 =a 0,01250,
los del ejemplo anterior, la incidencia
respectivamente. La
acumulada en toda la cohorte durante 10 aos sera = 0,01500, y las incidencias
acumuladas
cohorte especficas
necesaria entreentonces
consistira las usuarias
en y no usuarias de anticonceptivos orales seran
1 = 0,01875 y 2 = 0,01250, respectivamente. La cohorte necesaria consistira entonces en
= 5.061,27 5.062
usuarias de anticonceptivos orales y n2 = 1,55.061,27 = 7.591,90 7.592 no usuarias; es
decir, 12.654 mujeres seguidas a lo largo de 10 aos.
usuarias de anticonceptivos orales y n2 = 1,55.061,27 = 7.591,90 7.592 no
de la poblacin de referencia, la proporcin de utilizacin de anticonceptivos
Ejemplo es
usuarias; 9.8decir,
Dado que la
12.654 realizacin
mujeres seguidasde una loestudio
largo de prospectivo
10 aos. requerira de una gran
cantidad de personas-ao de seguimiento para obtener un nmero2suficiente
orales entre las mujeres del grupo control ser aproximadamente = 0,40. Ade casos de
de la poblacin
cncer de mama,deresultar
referencia,
mslaviable
proporcin
llevar adecaboutilizacin
un estudio de anticonceptivos
de casos y controles. En tal
partir de la expresin del odds ratio en estudios de casos
caso, el propsito se centrar en seleccionar un nmero suficiente de y controles (vase
casos y controles
Ejemplo
para 9.8 las
oralesdetectar
entre Dado queratio
unmujeres
odds ladel
realizacin
grupo
de de
deun
control
cncer estudio
ser
mama =prospectivo
aproximadamente
1,50 entre las requerira
usuarias
2 = deyAuna
0,40. no usuarias
Apartado 7.6.2), se tiene que
de anticonceptivos orales con una potencia 1 = 0,80. Si los controles seleccionados
gran
partircantidad
constituyen de personas-ao
una muestra
de la expresin de seguimiento
representativa
del odds ratio para
de la poblacin
en estudios obtener
de casos un nmero
ydecontroles
referencia, suficiente
la proporcin de
(vase
utilizacin de anticonceptivos P( E | Dorales
) P( E c | entre
D c ) las 1 (1mujeres
2 ) del grupo control ser
de casos de cncer
aproximadamente de =mama,
Apartado 7.6.2), se 2tiene que =
0,40. resultar
A partir dems
la viable=
expresin llevar
del aodds , ratio
cabo un estudio de de casos y
en estudios
P( E | D c ) P( E c | D) 2 (1 1 )
controles (vase Apartado 7.6.2), se tiene que
casos y controles. En tal caso, el propsito se centrar en seleccionar un nmero
P( E | D) P( E c | D c ) 1 (1 2 ) ,
de donde puede despejarse = la proporcin =
1 de mujeres que han usado
suficiente de casos y controles | D c detectar
P( Epara ) P( E c | Dun) odds 1 1de
2 (ratio ) cncer de mama =
anticonceptivos
de donde puede orales entre la
despejarse losproporcin
casos de cncer
1 de de mamaque
mujeres comohan usado anticonceptivos
1,50 entre las usuarias y no usuarias de anticonceptivos orales con una potencia 1
orales entre
de donde los casos
puede de cncer
despejarse de mama como
la proporcin 1 de mujeres que han usado
mismo
Determinacin del nmero de casos
tamao muestral que controles, de tal forma que la proporcin combinada
mediante sin prdida de generalidad que b < c, la probabilidad del segundo evento ser
Asumiendo
despreciable bajo la hiptesis alternativa y la potencia podr entonces aproximarse mediante
1 = P( pb pc z1 / 2 ( b + c ) / n | H1)
p b p c ( b c ) z1 / 2 ( b + c ) / n ( b c )
= P H1
{( + ) ( ) 2 } / n {( b + c ) ( b c ) 2 } / n
b c b c
| b c | z1 / 2 ( b + c ) / n
= .
{( + ) ( ) 2 } / n
b c b c
A partir de esta expresin, se sigue que el nmero total de parejas necesarias para alcanzar una
potencia 1 es
A partir de esta expresin, se sigue que el nmero total de parejas necesarias para
( z1 / 2 b + c + z1 ( b + c ) ( b c ) 2 ) 2
n =
alcanzar una potencia 1 - es ,
( ) 2
b c
para cuyo clculo se precisa de una idea aproximada de las probabilidades de obtener ambos
paradecuyo
tipos clculo
parejas se precisa de
discordantes b una
y cidea aproximada
. Aunque losprobabilidades
de las
son pocos de obtener
diseos emparejados donde se
cuenta con informacin a priori de estas probabilidades, las siguientes consideraciones generales
pueden
ambos resultar tiles
tipos de parejas prctica. Si elbemparejamiento
en ladiscordantes y c. Aunque sonnopocos fueralos
efectivo,
diseospongamos por
ejemplo un estudio de casos y controles donde las variables de emparejamiento no estuvieran 25
asociadas
emparejadoscon la exposicin
donde se cuenta principal, el nivel ade
con informacin exposicin
priori de estas sera entonces virtualmente
probabilidades, las
independiente entre caso y control, de tal forma que la proporcin esperada de parejas con el
caso expuestoconsideraciones
siguientes y el control no expuesto
generalessera
pueden 1(1 tiles
b =resultar 2) y con
en laelprctica.
control expuesto
Si el y el caso
no expuesto c = 2(1 1), para una proporcin total de pares discordantes b + c = 1(1 2)
+ emparejamiento
2(1 1). En tal no caso,
fuera puede
efectivo,probarse
pongamosquepor el ejemplo
nmero un necesario
estudio de casos
parejasy coincidira
aproximadamente con el nmero de sujetos por grupo en un estudio de casos y controles
independientes;
controles donde resultado esperable
las variables siempre que seno
de emparejamiento empareje
estuvieranporasociadas
caractersticas
con lairrelevantes.
Por el contrario, si el emparejamiento fuera efectivo, esto es, si los factores pronsticos
empleados
exposicin en principal,
el emparejamiento
el nivel deestuvieran
exposicinasociados con la exposicin
sera entonces virtualmentea independiente
estudio, los casos y
controles se asemejaran en su nivel de exposicin, induciendo as una correlacin positiva en
entre caso ydecontrol,
la exposicin de taldeforma
cada pareja caso que la proporcin
y control. Las parejasesperada de parejas
discordantes con entonces
seran el caso menos
probables b + c < 1(1 2) + 2(1 1) y, en consecuencia, para obtener un nmero suficiente
de expuesto
pares discordantes para
y el control noelexpuesto
anlisis, sera b = total
el nmero 2parejas
1(1 -de ) y con habra de ser
el control superiory al
expuesto el nmero
de sujetos por grupo en un estudio independiente. En general, la comparacin de proporciones
en caso
muestras emparejadas
no expuesto c = tiene menor
2(1 - potencia
1), para que la comparacin
una proporcin total de pares cruda de proporciones
discordantes b + c en
muestras independientes, pero mayor validez interna al controlar los posibles sesgos derivados
de =los1factores
(1 - 2) +deconfusin utilizados en el emparejamiento.
2(1 - 1). En tal caso, puede probarse que el nmero necesario de parejas
Ejemploaproximadamente
coincidira 9.9 En el estudiocondeel casos
nmero y de
controles
sujetos independientes
por grupo en undel ejemplo
estudio anterior,
de casos
cabra esperar que la edad media de los casos sea superior a la de los controles ya que la
incidencia
y controles de cncer de mama
independientes; aumenta
resultado con la edad.
esperable Adems,
siempre como
que se la edadpor
empareje est inversamente
relacionada con el uso de anticonceptivos orales, esta variable podra provocar una
confusin negativa
caractersticas en la asociacin
irrelevantes. a estudio,
Por el contrario, si elde tal forma que elfuera
emparejamiento oddsefectivo,
ratio obtenido de la
esto es,
comparacin cruda de casos y controles independientes tendera a infraestimar el potencial
efecto
si los nocivo
factores del uso deempleados
pronsticos anticonceptivos orales en el riesgo
en el emparejamiento de cncerasociados
estuvieran de mama.con la
control. Las parejas discordantes seran entonces menos probables b + c < 1(1 - 2) +
Determinacin del tamao muestral
Para evitar esta posible confusin, se decide disear un estudio de casos y controles
emparejados, donde cada caso de cncer de mama se empareja aleatoriamente con un
control de su misma edad. Como consecuencia de este emparejamiento por edad, se
inducira un cierto grado de correlacin positiva en la utilizacin de anticonceptivos de
cada pareja. As, la proporcin esperada de pares discordantes sera inferior a 1(1 2) +
2(1 1) = 0,50(1 0,40) + 0,40(1 0,50) = 0,50, donde 1 = 0,50 y 2 = 0,40 son las
proporciones poblacionales de usuarias de anticonceptivos orales entre casos y controles
obtenidas del ejemplo anterior. Asumiendo una correlacin moderada, podra establecerse
a priori una proporcin aproximada de parejas discordantes b + c = 0,40. Para un
hipottico odds ratio de cncer de mama = b/c = 1,50, se esperara entonces una
proporcin de parejas
necesarias para condicho
detectar el control
efectousuario depotencia
con una 1 - = 0,80
anticonceptivos orales y elnivel
y un caso de
no usuario
c = (b + c)/( + 1) = 0,40/2,50 = 0,16, y con el caso usuario y el control no usuario
b = c = 1,500,16
significacin = 0,24.
= 0,05 sera As, el nmero total de parejas necesarias para detectar dicho
efecto con una potencia 1 = 0,80 y un nivel de significacin = 0,05 sera
9.5REFERENCIAS
entre casos y controles.
1. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and
ElAnalysis
clculo of
delCohort
tamaoStudies.
muestralLyon: International
puede extenderse Agency for Research
a la comparacin on Cancer,
de tres o ms 1987.
2. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977.
proporciones
3. Desu MM, enRaghavarao
muestras dependientes o independientes.
D. Sample Size Methodology. Aunque
Boston: las frmulas
Academic se 1990.
Press,
4. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley &
derivan siguiendo procedimientos similares a los aqu descritos, suelen emplearse
Sons, 1986.
5. FleissdeJL,
mtodos Levin B, del
correccin MC.deStatistical
Paiknivel Methods
significacin forpreservar
para Rates andlaProportions,
probabilidadThird Edition.
global
New York: John Wiley & Sons, 2003.
6. Lemeshow
de obtener S, Hosmer
un resultado DW, Klar J,entre
significativo Lwanga SK. Adequacy
las mltiples of Sampleque
comparaciones Sizese
in Health Studies.
New York: John Wiley & Sons, 1990.
pretendan
7. realizar
Levy PS, (ver referencias
Lemeshow S. Samplingbibliogrficas).
of Populations: Methods and Applications, Third Edition.
New York: John Wiley & Sons, 1999.
8. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
9.5 REFERENCIAS
9. Silva LC. Diseo Razonado de Muestras y Captacin de Datos para la Investigacin
Sanitaria. Madrid: Daz de Santos, 2000.
1. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The
154 Pastor-Barriuso R.
Design and Analysis of Cohort Studies. Lyon: International Agency for Research
on Cancer, 1987.
TEMA 10
CORRELACIN Y
REGRESIN LINEAL SIMPLE
10.1INTRODUCCIN
En el Tema 6 se discutieron las tcnicas estadsticas adecuadas para comparar los niveles medios
de una variable continua en dos grupos de sujetos definidos segn la presencia o ausencia de
una determinada caracterstica dicotmica; esto es, la dependencia entre una variable continua
y otra dicotmica. Asimismo, en el Tema 7 se presentaron distintos procedimientos para
determinar la existencia o no de asociacin entre dos variables dicotmicas. Queda pendiente,
por tanto, describir los mtodos necesarios para evaluar la relacin entre dos variables continuas.
En este tema se presentan el coeficiente de correlacin y la regresin lineal simple como las
dos tcnicas estadsticas ms utilizadas para investigar la relacin entre dos variables continuas
X e Y. Como veremos ms adelante, ambos procedimientos estn estrechamente relacionados,
aunque obedecen a estrategias de anlisis un tanto diferentes. Por un lado, el coeficiente de
correlacin determina el grado de asociacin lineal entre X e Y, sin establecer a priori ninguna
direccionalidad en la relacin entre ambas variables. Por el contrario, la regresin lineal simple
permite cuantificar el cambio en el nivel medio de la variable Y conforme cambia la variable X,
10.2 COEFICIENTE
asumiendo implcitamenteDE X es la variable explicativa o independiente e Y es la variable
queCORRELACIN
respuesta o dependiente.
Como ya se anticip en el Apartado 3.4, el parmetro ms utilizado para medir la
10.2 COEFICIENTE DE CORRELACIN
asociacin lineal entre dos variables aleatorias X e Y es el coeficiente de correlacin
Como ya se anticip en el Apartado 3.4, el parmetro ms utilizado para medir la asociacin
poblacional
lineal xy, que sealeatorias
entre dos variables define como
X e Y es el coeficiente de correlacin poblacional xy, que
se define como
cov( X , Y ) E{( X x )(Y y )}
xy = = ,
x y x y
x x x
(d) xy = -0,70 (e) xy = -0,50 (f) xy = -0,30
Figura 10.1
Figura 10.1 Diagramas de dispersin entre dos variables aleatorias X e Y con coeficientes de correlacin
positivos xy = 0,70 (a), 0,50 (b) y 0,30 (c), as como con coeficientes de correlacin negativos xy = 0,70 (d),
0,50 (e) y 0,30 (f).
x x
(c) xy = -0,70 (d) xy = -0,80
Figura 10.2
Figura 10.2 Diagramas de dispersin, coeficientes de correlacin y rectas de regresin entre dos variables
aleatorias X e Y con distintas pendientes de la recta de regresin (paneles a y b) y distintas formas de la
relacin subyacente (paneles c y d).
Pastor-Barriuso R. 157
Una vez descritas las propiedades e interpretacin del coeficiente de correlacin
i
n 1 i =1
( x x )( y i y ) ( x i x )( y i y )
r= = i =1
,
sx s y n n
aritmtica ( xi x ) 2 ( y i y ) 2
i =1 i =1
n los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 5
158 Pastor-Barriuso R.
que indica una asociacin lineal negativa moderada entre el ndice de masa
controles del estudio EURAMIC con valores para ambas variables. A simple
corporal y el colesterol HDL.
vista, se aprecia un cierto grado de dependencia lineal negativa entre ambas
Coeficiente de correlacin
variables; esto es, el colesterol HDL tiende a decrecer conforme aumenta el ndice
altura en metros al cuadrado,
[Figura y10.3
el colesterol HDL enaqu]
aproximadamente los 533 controles del estudio
de masa corporal.
EURAMIC Esta apreciacin
con valores para ambasvisual se confirma
variables. A simple mediante
vista, seelaprecia
clculoundelcierto grado
de dependencia lineal negativa entre ambas variables; esto es, el colesterol HDL tiende a
coeficiente
decrecer de de
El coeficiente correlacin
conforme aumentamuestral
correlacin elrndicede
dePearson,
masa
de Pearson corporal.
tiene Esta apreciacin
una distribucin visual
muestral tantose confirma
ms
mediante el clculo del coeficiente de correlacin muestral de Pearson,
1 533 est la correlacin subyacente del valor 0. Cuando
asimtrica cuanto ms distante
( xi x )( y i y ) 0,285
532 i =1
est relativamenterprximo
= a 1 -1, las estimaciones
= muestrales del coeficiente de
= 0,276,
sx s y 3,50 0,295
correlacin
que indicatendern por fuerza
una asociacin a desviarse
lineal negativams moderada entre el ndice
del parmetro en la de
cola que corporal
masa no est y el
que indicaHDL.
colesterol una asociacin lineal negativa moderada entre el ndice de masa
limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribucin con
El coeficiente
corporal y eldecolesterol
correlacin r de Pearson tiene una distribucin muestral tanto ms asimtrica
HDL.
un marcado
cuanto sesgoest
ms distante negativo o positivo.
la correlacin Por ello, el
subyacente clculo
del valorde0.unCuando
intervalo de confianza
est relativamente
prximo a 1 1, las estimaciones muestrales del coeficiente de correlacin tendern por fuerza
y un test ms
a desviarse de hiptesis para no
del parmetro ensuele
la cola realizarse
que no est a partir de la por
limitada distribucin
el rango muestral r,
[1, 1] dedevalores
posibles de r, resultando en[Figura 10.3 aproximadamente
una distribucin con un marcado aqu]sesgo negativo o positivo. Por
ello,sino mediante
el clculo delauntransformacin
intervalo de confianzaz de Fishery un test de hiptesis para no suele realizarse a
partir de la distribucin muestral de r, sino mediante la transformacin z de Fisher
El coeficiente de correlacin r de Pearson tiene una distribucin muestral tanto ms
1 1 + r
z = log ,
asimtrica cuanto
del modelo msydistante
normal el tamao estmuestral 2no es
la correlacin r pequeo,
1muy
subyacente del n > 50, la
valor 0. Cuando
tpicamente
cuya distribucin muestral presenta una mayor simetra para cualquier valor de . Puede
esttransformacin
relativamente
que si laszprximo
de Fishera 1sedistribuye
-1,poblacionales
las estimaciones muestrales del
X coeficiente de mucho del
probarse
cuya distribucin distribuciones
muestral presenta una de forma
mayor de aproximadamente
las
simetra variables e Ynormal
para cualquier no con
de media
distan
valor . Puede
modelo normal y el tamao muestral no es muy pequeo, tpicamente n > 50, la transformacin
zcorrelacin
delog{(1 tendern
que
Fisher+se
probarse )/(1
distribuyeporde
)}/2
si- las yfuerza
forma a desviarse
varianza
distribuciones 1/(n - 3),ms del
aproximadamente
poblaciones
parmetro
normal
de las con media
variables
en la cola que+no
X e Y log{(1
no distan
est )}/2 y
)/(1
mucho
varianza 1/(n 3),
limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribucin con 6
z ~ N 1 log 1 + , 1 .
un marcado sesgo negativo o positivo. Por 2 ello,
1el n de
clculo 3 un intervalo de confianza
Notar quedelahiptesis
y un test de z es
varianza para inversamente
no proporcional
suele realizarse al la
a partir de tamao muestral
distribucin e independiente
muestral de r, de
Notar que lasubyacente
la correlacin varianza de. z es inversamente proporcional al tamao muestral e
sino mediante la transformacin z de Fisher
independiente
Ejemplo 10.2 de laLas
correlacin y (b).muestran las distribuciones del coeficiente de
subyacente
Figuras 10.4(a)
correlacin r de Pearson y de la transformacin z de Fisher entre el ndice de masa corporal
y el colesterol HDL en 1000 muestras 1 1 + r simples de tamao 50 obtenidas a partir
z = logaleatorias ,
muestran
de Ejemplo 10.2 del
los controles Lasestudio
FigurasEURAMIC.
10.4(a)
2 y (b) 1 La las distribuciones
r distribucin
muestral de rdel coeficiente
presenta un leve
sesgo positivo ya que el percentil 75 (0,18) est ligeramente ms alejado de la mediana
de correlacin
(0,28) r de Pearson
que el percentil y de la
25 (0,36). Para corregir esta zleve
transformacin de Fisher entrelaeltransformacin
asimetra, ndice de z
de Fisher aumenta la dispersin de los valores de r ms distantes de 0 (cola.inferior
cuya distribucin muestral presenta una mayor simetra para cualquier valor de Puede de la
masa corporal
distribucin) y el colesterol
y mantiene HDL constantes
virtualmente en 1000 muestras aleatorias
los valores simples
prximos de tamao
a 0 (cola superior),
probarse que si las distribuciones poblaciones de las variables
dando lugar as a una distribucin sensiblemente ms simtrica. X e Y no distan mucho
50 obtenidas a partir de los controles del estudio EURAMIC. La distribucin
En este ejemplo, la distribucin muestral del coeficiente de correlacin r de Pearson 6
presenta unade
muestral leve asimetraunyaleve
r presenta quesesgo
la correlacin
positivo subyacente 0,276 en
ya que el percentil 75 todos losest
(-0,18) controles
del estudio EURAMIC es moderadamente baja. En otras situaciones donde la correlacin
subyacente
ligeramente seamsalta, la distribucin
alejado de la medianamuestral r ser
(-0,28)deque notablemente
el percentil asimtrica
25 (-0,36). Para y, en
consecuencia, el efecto normalizador de la transformacin z de Fisher ser mucho ms
marcado.
corregir esta leve asimetra, la transformacin z de Fisher aumenta la dispersin
20 20
Frecuencia relativa (%)
10 10
En base a la distribucin muestral de la transformacin z de Fisher, el intervalo de
5 5
confianza al 100(1 - )% para el parmetro log{(1 + )/(1 - )}/2 viene dado por
0 [Figura 10.4 aproximadamente0 aqu]
1
-0,8 -0,6 -0,4 (z1, z2)0= z 0,2z1 / 2 -0,8 , -0,6 -0,4 -0,2
-0,2 0 0,2
n 3
En base a la distribucin muestral de la transformacin z de Fisher, 1 elintervalo
1+ r de
(a) r (b ) z = log
2 1 r
confianza
donde z1-/2ales
100(1 - )% para
el percentil 1 - el/2parmetro
de la distribucin )/(1 - estandarizada.
log{(1 +normal )}/2 viene dado
As,por
el
Figura 10.4 Distribucin muestral del coeficiente
[Figura de correlacin r deaqu]
10.4 aproximadamente Pearson (a) y de la transformacin
z deintervalo
Fisher (b)de
entre el ndice de masa corporal y el colesterol
confianza al 100(1 - )% para el coeficiente HDL en 1000 muestraspoblacional
aleatorias simples
de
tamao 50 obtenidas a partir de los controles del estudio 1 deLas
EURAMIC.
correlacin
lneas verticales en trazo discon-
(z1, z2) = z z1 / 2 ,
tinuo representan los parmetros subyacentes = 0,276 y log{(1
n3 + )/(1 )}/2 = 0,284.
se obtiene
En basedea aplicar el inverso
la distribucin de la transformacin
muestral de la transformacin z dea Fisher,
de Fisher ambos ellmites del Figura
intervalo de 10.4
intervalo,
confianza
donde
En base z1-a/2al 100(1
laes - )%muestral
el percentil
distribucin para
1 - el/2parmetro
de
de la log{(1 +normal
la distribucin
transformacin )/(1 )}/2 viene
z de- estandarizada.
Fisher, dado
As,por
el intervalo el confianza
de
al 100(1 )% para el parmetro log{(1 + )/(1 )}/2 viene dado por
intervalo de confianza al 100(1 exp(- )%
2 z1para
) 1 elexp( 2 z )1 1 de correlacin poblacional
coeficiente
(z1 , z2 ) = z ,z1 / 2 2 , .
exp( 2 z ) +
se obtiene de aplicar el inverso de la transformacin de Fisher
1 1 exp( 2 z 2 n) + 3
1 a ambos lmites del
donde z1/2 es el percentil 1 /2 de la distribucin normal estandarizada. As, el intervalo de
intervalo,
confianza
donde
Este zal
1-100(1
intervalo/2 es para )%
elpercentil
espara 1el- ms
tanto coeficiente
/2 de de correlacin
la distribucin
asimtrico alrededor normaldepoblacional sepuntual
laestandarizada.
estimacin obtiene
As, elr de aplicar
el inverso de la transformacin de Fisher a ambos lmites del intervalo,
intervalo
cuanto de confianza
mayor al 100(1
sea r en valor absoluto- )%
exp( 2 zy1para 1 elexp(
)menor coeficiente
sea2el ) 1 de correlacin
z 2 tamao poblacional
muestral. Asimismo, el
, .
se obtienededelaaplicar
contraste el inverso
hiptesis nula H de la2 ztransformacin
exp( 1 ) + 1 exp( 2 z 2 ) de+ Fisher
1 a ambos lmites del
0: = 0 frente a la hiptesis alternativa bilateral H1:
Este intervalo para es tanto ms asimtrico alrededor de la estimacin puntual r cuanto mayor
sea intervalo,
r0 en
Este valor absoluto
se intervalo
realiza para yesmenor
mediante eltanto sea
mselasimtrico
estadstico tamao muestral.alrededor Asimismo, el contraste
de la estimacin de la
puntual r hiptesis
nula H0: = 0 frente a la hiptesis alternativa bilateral H1: 0 se realiza mediante el estadstico
cuanto mayor sea r en valor absoluto exp(2 zy1 )menor sea el tamao muestral. Asimismo, el
1 + 20z 2 ) 1 .
1 1 ,exp(
exp(z2z1 2) +log1 exp(
1 2 z 2 ) + 1
contraste de la hiptesis nula H0: = 0 frente a la0hiptesis
alternativa bilateral H1:
,
1
Este
0 se intervalo para eseltanto
realiza mediante estadstico
ms asimtrico n alrededor
3 de la estimacin puntual r
que bajo H0 sigue aproximadamente una distribucin normal estandarizada. El valor P del
cuanto mayor sea r en valor absoluto y menor sea el tamao muestral. Asimismo, el
contraste
que bajo se Hcalcula,
0 sigue por tanto, como el una
aproximadamente rea 1 +lacurva
bajo
1 distribucin 0 normalnormal estandarizadaElpara
estandarizada. valoraquellos
P
z log
valores tanto o ms distantes de 0 que el valor observado del estadstico.
0hiptesis
contraste de la hiptesis nula H0: = 20 frente 1 a la alternativa bilateral H :
del contraste se calcula, por tanto, como el rea bajo la , curva normal estandarizada1 para
1
Ejemplo 10.3 A partir de 533 controles del estudio EURAMIC, la estimacin puntual del
0 se realiza
aquellos valores
mediante el estadstico
tanto o msentre
distantes nque
de 0de masa
3 el corporal
valor observado del estadstico.
coeficiente de correlacin el ndice y el colesterol HDL fue r = 0,276.
La transformacin z de Fisher de esta correlacin es z = log{(1 0,276)/(1 + 0,276)}/2 = 0,284.
quePara
bajoobtener
H0 sigueuna estimacin por una
aproximadamente intervalo 1 +dela
1 distribucin correlacin subyacente entre ambas
0 normal estandarizada. El valor P
Ejemplo 10.3 A partir de 533zcontroles log del estudio EURAMIC, la estimacin
2 1 0
del contraste se calcula, por tanto, como el rea bajo la , curva normal estandarizada para
160 puntual
Pastor-Barriuso R. del coeficiente de correlacin1entre el ndice de masa corporal y el
aquellos valores tanto o ms distantes de 0nque 3 el valor observado del estadstico.
8
referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el
1
0,284 z 0,975 = -0,284 1,960,043 = (-0,369; -0,199)
intervalo de la correlacin533
subyacente
3 entre ambas variables en la poblacin de
parmetro log{(1 + )/(1 - )}/2 como Coeficiente de correlacin
(r
i =1
i r )( s i s )
rs = ,
n n
(r
i =1
i r)2 (s
i =1
i s)2
Pastor-Barriuso R. 161
10
montona creciente
yi < yj; es que
verifican decir,
xi <losxde perfecta.
j,valores
De igual forma,
observados si rs de
de valores = -1,
las variables Xlose rangos verifican
Y presentan que si =orden
una relacin
Y preservan n+
clculo
lculo del coeficientedel
decoeficiente
correlacin desus correspondientes
correlacin
Spearman desimplifica
se Spearman la variable
se simplifica
notablemente notablemente
ya que la yadicho
que la
- ri,j;yde
1ymontona
i<y
donde se
creciente deduce que
perfecta. losigual
De valores
dede
laslas
forma, si variables eXYrangos
rs = -1, Xlos Y presentan
e presentan unauna
verifican relacin
que si = n +
Correlacin
varianza de losvarianza
rangos de es
es losdecir,
regresin loses
lineal
rangos valores
simple observados variables relacin
montona
1 - ri, de donde
montona decreciente
creciente se deduce perfecta.
perfecta. queDe losCuando
valores
igual rsde
forma, = 0, silos
las rangos X
rvariables
s = -1, los
estne Y incorrelacionados
rangos presentan
verificanunaque si y=no
relacin n+
1 21 1 21
n n n n
donde (ri r montona
losrelacin
rangos = (son
)medios r 2
(rs)i ==sentre)= (n si s )Elde
+ (valores
1)/2. 2
coeficiente de correlacin de Spearman
1existe
montona
- ri,1de
n decreciente
donde se
n deduce
1 n 1
i alguna
perfecta.
que los Cuando
valores
n 1 los rsde = 0, laslos rangos
variables ambas evariables.
estn
X incorrelacionados
Y presentan una relacin y no
siempre toma valores entre 1 y 1. Si rs = 1, los rangos son necesariamente idnticos si = ri, de
i =1 i =1 i =1 i =1
2 n 2
tal existe
forma
En el que
caso si dedos que observaciones
1perfecta.
no haya
n
valores +cualesquiera
nentre 1 idnticos (n0,+n1los
nvalores +de
) 1de
(empates)la ambasvariable
n(ennestn 1) Xincorrelacionados
+variables.
ninguna verifican
de las que xi < xel
variables, , sus
montona relacin
correspondientes valores
montona
decreciente =
n de
alguna
1 i =la1
i
variable
Cuando
=
los
= r s
2n 1Yi =preservan
=
i
1 12 2
rangos
=
dicho orden 12 yi < yj; es decir, los valores
y noj
observados
clculo
En el
existe de
del
caso
relacin las variables
coeficienteque nodehaya
demontona X e Y
alguna presentan
correlacin
valores de una
losSpearman
entreidnticos relacin
valores montona
deseambas
(empates) simplifica
envariables.
ninguna creciente
notablemente
de lasperfecta.ya que
variables, De el
igual
la
forma, si rs = 1, los rangos verifican que si = n + 1 ri, de donde se deduce que los valores de
y su
y su covarianza es covarianza deXes Yrangos
las variables
varianza
clculo
En eldel caso ede
los presentan
que noes
coeficiente dehaya unavalores
correlacin relacin demontona
idnticosSpearman (empates) decreciente
se simplificaen ninguna perfecta. Cuando
notablemente
de las yarque
variables, s = 0,
la los
el
rangos estn incorrelacionados y no existe relacin montona alguna entre los valores de ambas
1 nvariables.varianza
clculo 1 del den coeficiente
los rangos 1 1es den correlacin 1 2 de n
Spearman se simplifica notablemente ya que la
i i i ( ri r ) = ( s1{(
n n
( r r )( s s )( r
= r )( s s ){(= r r ) + i ri s)(2rs)2(+rsi )( 2s is
2 2
i ) s}) (ri s i ) 2 }
i
n 1 i =1 En elncaso 1 i =de1 que 2(non nhaya
1) 1i =1valores 2(n
i
2
1) i =n1 1 (empates) en ninguna de las variables, el clculo
idnticos i
=
n(n + 1)
Aplicando
Aplicando ambos resultados, ambos resultados, el
el coeficiente decoeficiente
correlacinde nde correlacin
1Spearman
i =1 2sedereduce
Spearman a se reduce a
12
y su covarianza es 1 n n +1
2
n(n + 1)
= i 2 = 12
n 1n i =1
y su covarianza 6 n
6
rs1= 1nes 2 rs = 1 (ri 2s i )12 , n(ri s i ) 2 ,2
y su covarianza es ni(n 1)i i =1 s )n=(n 1) i =
( r r )( s {( ri r ) + ( s i s ) 2 (ri s i ) 2 }
n 1 i =1 2(n 1) 1i =1
y su covarianzanes
1 1 n
=
5,06
= 0,552,
11
1 10 1 10 3,03 3,03
9 i =1
( ri r ) 2
9 i =1
(si s ) 2 11
o de forma equivalente mediante la frmula simplificada en ausencia de empates
o de forma equivalente mediante la frmula simplificada en ausencia de empates
o de forma equivalente 6 mediante la frmula simplificada en6 ausencia 74 de empates
2 2
rs = 1 {( 7 3 ) + ... + ( 6 6 ) } = 1 = 0,552,
10(10 2 1) 10(10 2 1)
6 6 74
que refleja rs = 1una fuerte {(7 3) 2 + ... + (6 6) 2 } = 1
2 relacin montonamente creciente entre2 los niveles de a-tocoferol
= 0,552,
10(10 1) 10(10 1)
yque refleja unaCabe
b-caroteno. fuerte destacar
relacin quemontonamente
esta estimacincreciente no esta influenciada entre los niveles por elde valor
- extremo
1,46 mg/g de b-caroteno ya que el rango de esta observacin continuara siendo 10 para
cualquier
que reflejayvalor
tocoferol una arbitrariamente
fuerte relacin
-caroteno. Cabe destacar mayor que
montonamente que esta los dems.creciente entre
estimacin no esta niveles de -por
los influenciada
162 tocoferol
el valor
Pastor-Barriuso y -caroteno.
R. extremo Cabe
1,46 g/g dedestacar queya
-caroteno esta
queestimacin noesta
el rango de estaobservacin
influenciada por
el valor extremo
continuara siendo 10 g/g
1,46 de -caroteno
para cualquier valorya que el rango de
arbitrariamente esta observacin
mayor que los dems.
Coeficiente de correlacin
de Al
0 queigual que otros
el valor procedimientos
observado del estadstico no t.
paramtricos,
Aparte del mnimo el coeficiente de correlacin
requerimiento muestral,de los
rangos de Spearman permite contrastar la hiptesis nula de ausencia de asociacin montona
entre dos variables.
este contraste tiene Bajo esta hiptesis
la ventaja adicionalnula, se ha aplicarse
de poder comprobado que el coeficiente
a cualquier distribucin de correlacin
rs de Spearman tiende a distribuirse de forma normal o, ms concretamente, que el estadstico
subyacente de las variables X e Y, a diferencia del rs contraste paramtrico basado en el
t=
1 rs2
coeficiente de correlacin de Pearson que requiere de distribuciones poblacionales
n2
sigue aproximadamente
aproximadamente una distribucin t de Student con n 2 grados de libertad, siempre que
normales.
el tamao muestral
sigue aproximadamentesea n > 10.
unaAs, el valor P bilateral
distribucin t de Studentdel contraste
con n - 2 puede
gradosaproximarse
de libertad, mediante
el rea bajo la distribucin tn2 para valores tanto o ms alejados de 0 que el valor observado del
estadstico t.que
Ejemplo
siempre Aparte
10.5 del
Como
el tamao mnimo requerimiento
las distribuciones
muestral sea n > 10. muestral,
subyacentes
As, el valor este
delPcontraste
bilateraltiene
-tocoferol la
el ventaja
-
delycontraste adicional
puede
de poder aplicarse a cualquier distribucin subyacente de las variables X e Y, a diferencia del
contraste paramtrico
caroteno
aproximarse (Figura
mediante basado
4.3) reaen
el son el coeficiente
marcadamente
bajo de tcorrelacin
asimtricas
la distribucin de Pearson
en los controles delque requiere de
estudio
n-2 para valores tanto o ms alejados
distribuciones poblacionales aproximadamente normales.
de EURAMIC,
0 que el valorelobservado
contraste bilateral de la hiptesis
del estadstico t. Apartede delnomnimo
asociacin entre ambas
requerimiento muestral,
Ejemplo 10.5 Como las distribuciones subyacentes del a-tocoferol y el b-caroteno
variables
este(Figura a tiene
4.3)
contraste partir deventaja
son la los 10 controles
marcadamente de
de la
asimtricas
adicional Tabla
poder 10.1
enaplicarse
los haade
controles realizarse mediante
del estudio
cualquier el
EURAMIC,
distribucin el
contraste bilateral de la hiptesis de no asociacin entre ambas variables a partir de los 10
estadstico
controles
subyacente debasado
de la Tabla
las en10.1
la correlacin
variables Xhae de de losmediante
Y, realizarse
a diferencia rangos deelSpearman
del contraste estadstico basado
paramtrico en la correlacin
basado en el
de los rangos de Spearman
coeficiente de correlacin de Pearson rs que requiere0,552 de distribuciones poblacionales
t= = = 1,87,
2 2
aproximadamente normales. 1 rs 1 0 ,552
n2 8
que bajo la distribucin t de Student con 8 grados de libertad corresponde a un valor
Ejemplo 10.5
aproximado de PComo= 2P(tlas distribuciones
1,87) = 0,098. subyacentes
As, aunque el -tocoferol
del coeficiente -
ydeelcorrelacin de
que bajo la distribucin t8de Student con 8 grados de libertad corresponde a un
Spearman rs = 0,55 estima una fuerte relacin montonamente creciente entre los valores
caroteno de
observados (Figura 4.3) sony marcadamente
a-tocoferol b-caroteno, estaasimtricas
asociacinennolosllega
controles del estudio
a ser estadsticamente
valor aproximado de P = 2P(t 8 1,87) = 0,098. As, aunque el coeficiente de
significativa, probablemente debido a la escasa potencia del test para detectar cualquier
EURAMIC, el contraste
asociacin bilateral de la hiptesis de no asociacin entre ambas
correlacinsubyacente
de Spearman conr tan
s
reducido
= 0,55 estimatamao muestral.
una fuerte relacin montonamente
variables a partir de los 10inferior
controles de laaTabla
10, la10.1 ha de realizarse mediante el
Cuando el tamao
creciente muestral
entre los valoresesobservados o de
igual
-tocoferol y -caroteno,t de
distribucin estaStudent no es una
buena aproximacin a la distribucin muestral del estadstico t y, en consecuencia, el contraste
estadstico basado en la correlacin de los rangos de Spearman
asociacin no llega a ser estadsticamente significativa, probablemente debido a la
Pastor-Barriuso R. 163
rs 0,552
t= = = 1,87,
1 rs2 1 0,552 2
dada por 1/n!. Haciendo uso de este resultado, es posible derivar la distribucin bajo la
hiptesisynula
Correlacin dellineal
regresin coeficiente
de correlacin de Spearman, cuyos percentiles en
simple
10.3 REGRESIN LINEAL SIMPLE
muestras de tamao n 10 se presentan en la Tabla 10 del Apndice. Para un contraste
Lasbasarse
debe tcnicasendelaregresin evalan
distribucin la relacin
exacta entre dosde
del coeficiente variables siguiendo
correlacin una
de Spearman bajo la
bilateral con
hiptesis nula.unSinivel de significacin
no existe preestablecido,
ninguna relacin la hiptesis
montona entre de no asociacin
las variables, y los rangos seri de la
estrategia
X se de anlisis distinta a cualquier
la correlacin. Mientrass ,que el coeficiente de correlacin
variable asumen constantes, permutacin 1 ..., sn de los rangos de la variable Y
rechazar
es si elprobable
igualmente coeficiente
y su correlacin rviene
deprobabilidad s de Spearman
dada por es inferior
1/n!. uso de
al percentil
Haciendo /2 oresultado,
este
determina el grado de asociacin lineal entre X e Y tratando ambas variables
es posible derivar la distribucin bajo la hiptesis nula del coeficiente de correlacin de forma de
Spearman, 1 - /2 deendicha
cuyos percentiles
superior al percentil tabla. de tamao n 10 se presentan en la Tabla 10 del
muestras
Apndice. Para un contraste bilateral conlaun
simtrica,
10.3 la
REGRESIN regresin lineal
LINEAL estudia
SIMPLE variacin
nivel deen el nivel medio
significacin de la variablela hiptesis
preestablecido,
de no asociacin se rechazar si el coeficiente de correlacin rs de Spearman es inferior al
percentil /2 Yo asuperior
respuesta
LasEjemplo
tcnicas
medida
10.6 alque
El valor
de regresin
cambia
percentil
evalan
la variable
laP/2
exacto 1de para
de el
relacin
explicativa
contraste
dicha tabla.
entre
X, estableciendo
bilateral
dos variables de as una
la hiptesis
siguiendo una de no
direccionalidad en laelrelacin entreydichas
-tocoferol variables. Aunque en ocasiones la eleccin
asociacin
estrategia
Ejemplo entre
de10.6
anlisis
Eldistinta de-caroteno
el
a la correlacin.
valor exacto el viene
P paraMientras dadoel
que
contraste por
coeficiente
bilateral de ladehiptesis
correlacin
de no
asociacin entre el a-tocoferol y el b-caroteno viene dado por
entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la
determina el grado de asociacin
P = P(r 0,552|H )lineal
+ P(rentre X e Y tratando
0,552|H ) = 2P(rambas variables
0,552|H ), de forma
s 0 s 0 s 0
asociacin
ya que laentre
simtrica, el -tocoferol
distribucin
regresin H
bajoestudia
lineal -caroteno),
y eldel variacinlaen
lacoeficiente direccionalidad
de nivel mediodesuele
elcorrelacin establecerse
deSpearman
la variable de
es simtrica
0
ya que la distribucin
alrededor de 0. Utilizando bajo laH0Tabla
del coeficiente
10 del Apndicede correlacin
para n = de10,Spearman
se tiene quees el percentil
forma natural
rs;0,95 = Y0,552,por el propio
de loque diseo
cualcambia
se deduce del estudio o la naturaleza
que P =explicativa
2P(rs 0,552|H de las variables (porEste valor
respuesta a medida la variable 0) 20,05 as
X, estableciendo = 0,10.
una
simtrica
exacto de alrededor
P es similar de 0.al Utilizando la Tabla mediante
valor aproximado 10 del Apndice para n =t 10,
la distribucin de se tiene en el
Student
ejemplo, los cambios
ejemplo anterior.
direccionalidad medios en el colesterol HDL conforme aumenta
en la relacin entre dichas variables. Aunque en ocasiones la eleccin el ndice de masa
que el percentil rs;0,95 = 0,552, de lo cual se deduce que P = 2P(rs 0,552|H0)
corporal).
entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la
10.3 20,05
REGRESIN = 0,10. Este LINEAL SIMPLE
valor exacto de P es similar al valor aproximado mediante la
El modelo
asociacin entrede regresin linealy asume
el -tocoferol que la media
el -caroteno), de la variable suele
la direccionalidad respuesta Y cambiade
establecerse
Las tcnicas de regresin
distribucin evalan
t de Student en ellaejemplo
relacinanterior.
entre dos variables siguiendo una estrategia de
linealmente
anlisis con lacorrelacin.
variable explicativa X; esto es, para un de valor fijo x de la variable el grado
forma natural por el propio diseo del estudio coeficiente
distinta a la Mientras que el o la naturaleza correlacin determina
de las variables (por
de asociacin lineal entre X e Y tratando ambas variables de forma simtrica, la regresin lineal
explicativa,
estudia el valor
la variacin en elesperado de la variable
nivel medio respuesta es Y a medida que cambia la variable
ejemplo, los cambios medios en elde la variable
colesterol HDLrespuesta
conforme aumenta el ndice de masa
explicativa X, estableciendo as una direccionalidad en la relacin entre dichas variables.
Aunque en ocasiones la eleccin entreE(Y|x)
corporal). la variable
= 0 +respuesta
1x, y explicativa es un tanto arbitraria
14
(por ejemplo, en la asociacin entre el a-tocoferol y el b-caroteno), la direccionalidad suele
establecerse
El modelo de forma natural lineal
de regresin por elasume
propioque diseo del estudio
la media o la naturaleza
de la variable respuestadeYlas variables
cambia
donde
(por ejemplo, 0 y
los son la constante y la pendiente de la recta de regresin
1 cambios medios en el colesterol HDL conforme aumenta el ndice de masa , respectivamente.
corporal).
linealmente con la variable explicativa X; esto es, para un valor fijo x de la variable
La constante 0 determina la media de Y cuando X = 0, E(Y|0) = 0 + 10 = 0, y la
El modelo de regresin lineal asume que la media de la variable respuesta Y cambia
explicativa,
linealmente conellavalor esperado
variable de la variable
explicativa X; esto es,respuesta
para un es valor fijo x de la variable explicativa,
pendiente corresponde al cambio
el valor esperado de la variable respuesta es
1 en el valor medio de Y por cada aumento de una
donde el trmino de error aleatorio , que representa la desviacin de cada respuesta individual
modelo se completa asumiendo que los valores individuales de la variable respuesta se
Y respecto de la recta de regresin 0 + 1x, se distribuye de forma normal con media150 y
distribuyen de forma normal alrededor del valor esperado definido por la recta de
164 Pastor-Barriuso R.
regresin. As, la estructura general del modelo de regresin lineal es
Y = + x + ,
individual Y respecto de la recta de regresin 0 + 1x, se distribuye de forma normal
con media 0 y varianza 2. Por tanto, la regresin lineal establece que para Regresin
un valor fijosimple
lineal
Y|x ~ N( 0 + 1 x, 2 ),
de donde se derivan las siguientes asunciones:
de donde se derivan las siguientes asunciones:
yy Linealidad: El valor esperado de la variable respuesta Y es una funcin lineal de la variable
explicativa X, de tal forma que cambios de magnitud constante a distintos niveles de X se
Linealidad: El valor esperado de la variable respuesta Y es una funcin lineal de
asocian con un mismo cambio en el valor medio de Y.
yy Homogeneidad de la varianza:
la variable explicativa Laforma
X, de tal varianza
que de la variable
cambios respuesta
de magnitud Y es la misma
constante a para
cualquier valor de la variable explicativa X; es decir, a diferencia de la media, la varianza
de Ydistintos
no est relacionada
niveles de Xcon X.
se asocian con un mismo cambio en el valor medio de Y.
yy Normalidad: Para un valor fijo de la variable explicativa X, la variable respuesta Y sigue
Homogeneidad
una de la varianza: La varianza de la variable respuesta Y es la
distribucin normal.
Las asunciones subyacentes
misma para cualquieralvalor
modelo
de ladevariable
regresin lineal se X;
explicativa representan
es decir, agrficamente
diferencia de en
la la
Figura 10.5. Estas asunciones facilitan el proceso de inferencia sobre la recta de regresin y su
idoneidadmedia,
debe ser evaluadade
la varianza utilizando
Y no esttcnicas diagnsticas,
relacionada con X. algunas de las cuales se presentan
al final de este tema.
Normalidad
En regresin lineal: simple
Para unsevalor fijo la
estudia dedistribucin condicionalX,de
la variable explicativa la una
variable respuesta
variable respuesta
continua en funcin de una nica variable explicativa. Esta variable explicativa puede ser tanto
continua Ycomo
siguecategrica
una distribucin
ya que normal.
el modelo de regresin lineal no establece ninguna asuncin
respecto a su distribucin. La extensin de estos modelos al anlisis de regresin lineal mltiple,
Lasse
donde asunciones
consideransubyacentes al modelo
simultneamente dos odems
regresin lineal
variables se representan
explicativas, grficamente
se tratar en el Tema 11.
explicativa puede ser tanto continua como categrica ya que el modelo de regresin
16
x1 x2 x3 x4
X
Figura 10.5
Figura 10.5 Asunciones estadsticas subyacentes al modelo de regresin lineal simple.
Pastor-Barriuso R. 165
mutuamente independientes. Intuitivamente, se tratara de identificar la lnea recta que
ms se
Correlacin aproxime
y regresin linealal conjunto
simple de todos los puntos del diagrama de dispersin entre
ambas variables. Para formalizar esta idea, es preciso calcular la distancia de cada punto
10.3.1 Estimacin de la recta de regresin
observado (xi, yi) respecto al punto correspondiente (xi, y i ) = (xi, b0 + b1xi) sobre la
El primer objetivo de la regresin lineal es obtener estimaciones puntuales b0 y b1 de la constante
0 yrecta
la pendiente 1 deestimada
de regresin la recta de
enregresin que mejor
xi. Esta distancia, se se
que ajuste a los valores
representa 10.6, (xi, yi)
observados
en la Figura
de las variables explicativa y respuesta en una muestra de n sujetos mutuamente independientes.
Intuitivamente,
viene dada por se tratara
el errordedeidentificar
estimacinlaen lnea recta que
la variable ms se aproxime
respuesta ei = yi - yali =conjunto
yi - b0 - de
b1xtodos
i.
los puntos del diagrama de dispersin entre ambas variables. Para formalizar esta idea, es
preciso
As, calcular
la recta dela distancia
regresinde cada determinada
vendr punto observado (xi, yi) respecto
por aquellos valoresalb0punto
y b1 que correspondiente
hagan
(xi, y i) = (xi, b0 + b1xi) sobre la recta de regresin estimada en xi. Esta distancia, que se representa
en laeste
Figura
error10.6, viene
lo ms dada por
pequeo el error
posible de estimacin
para en la variable o,
todas las observaciones respuesta ei = yi y i =que
equivalentemente, yi b0
b1xi. As, la recta de regresin vendr determinada por aquellos valores b0 y b1 que hagan este
error lo ms pequeo
minimicen la sumaposible para todas
de cuadrados laserror
del observaciones o, equivalentemente, que minimicen
la suma de cuadrados del error
n n n
SSE = e
i =1
2
i = ( y i y i ) 2 = ( y i b0 b1 x i ) 2,
i =1 i =1
tambin llamada suma de cuadrados residual. Notar que los errores se elevan al cuadrado
paratambin
evitar llamada
que se compensen los errores
suma de cuadrados positivos
residual. Notaryque
negativos. Este
los errores procedimiento
se elevan al para
estimar los parmetros de la recta de regresin se conoce como el mtodo de mnimos
cuadrados.
cuadrado para evitar que se compensen los errores positivos y negativos. Este
ei = yi y i
17
y ( xi , y i ) = ( xi , b0 + b1 xi )
Figura 10.6 Error o desviacin del valor observado de la variable respuesta respecto a su valor estimado
Figura 10.6
por la recta de regresin.
166 Pastor-Barriuso R.
Para obtener los valores
1
b0 yi =b11 que minimizan
i =1
la suma de cuadrados del error, se
calculan
cuya las derivadas parciales de SSE respecto a b y b1 y se igualan a cero,
solucin resultando
Para obtenereslos valores b0 y b1 que minimizan la0suma de cuadrados delRegresin
error, selineal simple
directamente entre
a partir1991de y 1992
su media en ocho en mmol/l pases como Europeos 1,223 e Israel
38,8 =para 47,45 evaluar
mg/dl.el efecto de los
Ejemplo 10.7 En el estudio de la relacin entre el ndice de masa corporal y6el 5
central de la muestra sirven tanto para resumir los resultados observados como para
1 10 0,89 + 1,58 + ...A +partir
1,53 de estos datos, las estimaciones de la pendiente y
x =
variables
realizar inferencias =de r =de-0,276.
x iacerca
10 yi =regresin
Correlacin 1
los parmetros
lineal simple10
= 1,223 mmol/l.
poblacionales correspondientes. A
continuacinlaseconstante
describen delos
la recta de regresin
principales por elde
estimadores mtodo de mnimos
la tendencia cuadrados
central de una son
La media aritmtica presenta las siguientes propiedades:
variable. el nivel medio del colesterol HDL s y conforme 0aumenta
,295 el ndice de masa corporal utilizando
un modelo de regresinblineal
1 = r simple.
= 0,276 = -0,023
En este caso, tanto la variable respuesta como la
sx
Cambio de origen (traslacin). Si se suma una constante a cada3uno
,50 de los datos
variable explicativa son continuas.
1.2.1 MediaEjemplo 10.1 se obtuvo
aritmtica un coeficiente de correlacin de Pearson entre ambas
En
de una muestra, la ymedia n =de
Ejemplo 533lacontroles
10.1muestra
se obtuvo del un estudio
resultante esEURAMIC,
coeficiente igual de la media
a lacorrelacin
media inicial y laPearson
de desviacin
ms la entretpica ambas del ndice de
variables
masa
La media aritmtica, de r =fueron
corporal
denotada -0,276.
por xA,=se partir
26,0
define de
y sestos
como = datos,
3,50la kg/m
suma lasde 2estimaciones de la pendiente y
, y
cada los correspondientes
uno de los valores del
x
si yi = xi de
constante utilizada;colesterol
variables cr, entonces
+HDL fueron
= -0,276. b0 =deAy y= xb1+xde
-1,09
partir s1,09
cy=. estos
Un y =cambio
0,295
datos,
+mtodo
0,023 mmol/l.
de
las origen =Adems,
que deenlaelpendiente
estimaciones
26,0 1,69. Ejemplo y10.1 se
la constante
obtuvo
valores muestrales de la
un coeficiente
dividida porrecta regresin
de correlacin
el nmero por
de observaciones de elPearson de mnimos
entre
realizadas. ambas cuadrados
Si variables
denotamos desonr = 0,276. A
partir
se realiza con frecuencia de
es estos
la constante dedatos,
el centradola recta las
de de estimaciones
la variable,
regresinque de consiste
por la
elpendiente
mtodo ende y mnimos
la constante
restar a de la recta
cuadrados sonde regresin
La
por n el tamao el mtodoby0de
porconstante
muestral = mnimos
por 1,69
xi elmmol/l
valor es
cuadrados una
observado
sy estimacin
son para el
0,295 del
sujeto valor esperado
i-simo, i = 1, de...,colesterol
n,
cada valor de la muestra su media. La media b1 de= runa variable= 0,276centrada=ser, -0,023 por
s xy 3 ,50
0,295 igual a 0 kg/m2, extrapolacin
HDL dada
la media vendra para porun sujeto con bun=ndice r de
= 0,276masa corporal = 0,023
1
tanto, igual a 0. sx 3,50
y carece de sentido biolgico. La pendiente b1 = -0,023 estima que, por cada
que
y 1 n x + x + ... + x n
Cambio de escala (unidades).
y x = x icada
Si se multiplica = 1 uno 2de los datos . de una
incremento de 1 kg/mbn20 ien =1 y
= elndice
b1 x =de1,09 nmasa + 0,023
corporal, 26,0el=nivel1,69.medio de colesterol
muestra por una constante, la media de la b0 muestray - b1resultante
=mmol/l x una = 1,09 +es0,023
igual26,0 a la media
= 1,69.
La constante
HDL disminuye b0 =en1,69 0,023 mmol/l. es En estimacin
general, la del valor
pendiente esperado
puede de colesterol
utilizarse para HDL
La mediapara
es la medida
La constante de
b =tendencia
1,69 mmol/lcentral es ms
una utilizada
estimacin
un sujeto con un ndice de masa corporal igual a 0 kg/m , extrapolacin que carece
0 y de
del ms
valor fcil
esperado
2 de colesterol
inicial por la constante utilizada; si yi = cxi, entonces y = c x .
de sentido
La Corresponde
constante
calcular biolgico.
el efectob0 =alasociado
1,69 Lammol/l
pendiente es una
a incrementos b1 =estimacin
0,023
delos estima
cualquier del valorque,esperado
magnitudpor cada 2 de
c en incremento
variable de 1 kg/
la colesterol
interpretacin.
HDL para un sujeto centro
con un de gravedad
ndice de masa de datos
corporal
m en el ndice de masa corporal, el nivel medio de colesterol HDL disminuye en 0,023
2 de
igual la amuestra.
0 kg/m Su
, extrapolacin
Cambio simultneommol/l.
de origen Enuny general,
escala. Silasependiente multiplicapuede cada uno de los datos
utilizarse de
para acalcular 2el efecto asociado a
HDL para
explicativa,
principal limitacin es que sujeto
est con influenciada
muy un ndice de masa
por los corporal
valores igual
extremos 0 kg/my, en , este
extrapolacin
que carece de sentido biolgico. La
incrementos de cualquier magnitud c en la variable explicativa, pendiente b 1 = -0,023 estima que, por cada
una muestra por una constante y al resultado se le suma otra constante, la media
queser carece de reflejo
sentidode biolgico. La pendiente b = -0,023 estima que, por cada
caso, puede incremento
no un fiel de 1 ykg/m (xy +=2 c)lael
en
1,69tendencia
y-ndice
(x) = bde
0,023x, 0central
b1 (x de
+masa + c)la1distribucin.
corporal, (b0 + el bnivel
1 x) = medio
cb1 . de colesterol
de la muestra resultante es igual a la media 2 inicial por la primera constante, ms la
incremento
As, de 1 kg/m en el ndice de masa corporal, el nivel
c= medio de colesterol
HDLpor ejemplo, enincrementos de una desviacin tpica 3,50 kg/m enpara
el ndice de
2
disminuye 0,023 mmol/l. y En= 1,69 general, la pendiente
- 0,023x, puede utilizarse
2
que se muestra
EjemploAs,
segunda constante;masa en1.4por
la En ejemplo,
Figura
si yi =corporaleste y10.7.
en incrementos
c1xi + c2,seentonces Esta
los recta
sucesivos
asocian ycon de
= cuna una
regresin
ejemplos desviacin
disminucin puede
sobre tpica c
utilizarse
estimadores = 3,50
para kg/m
muestrales,
media en el colesterol HDL de cb1 = en el
se ndice
1x + c2 .
HDL disminuye
3,50(0,023) = en 0,023
0,081 mmol/l.
mmol/l. Notar Enque, general,
como laconsecuencia
pendiente puede de lac utilizarse
hiptesis para
de linealidad,
calcular el efecto asociado a incrementos de cualquier magnitud en la variable
de
que
estimarutilizarn
o predecir masa
se
losel corporal
muestra
valor
valores en
esperado
del sela asocian
Figura
del
colesterol con
10.7.
colesterol
HDL una
Esta disminucin
recta
HDL
obtenidos ende funcin
en
esta disminucin se asume constante a lo largo de todo el rango observado del ndice de losmedia
regresin10 del en el
puede
ndice
primeros colesterol
utilizarse
de
sujetos HDL
para
del de
calcular el efecto asociado a incrementos de cualquier magnitud c en la variable
masa
Ejemplo 1.5 Para transformar corporal;
explicativa, esto es,del
los valores el colesterol
modelo deHDL regresin
de mmol/l lineal estima
a mg/dl seuna misma reduccin de
estudiocb 1 = 3,50(-0,023) = -0,081 mmol/l. Notar que, como consecuencia de masa
laofhiptesis
2
masa corporal. estimar
Por
European o predecir
ejemplo, para
Study el
onunvalor
ndiceesperado
Antioxidants, de masa
0,081 mmol/l en el colesterol HDL entre 25 y 28,5 kg/m del ndice del colesterol
corporal
Myocardial de HDL
25
Infarction 2en and
kg/m funcin
, el Cancerdel
de ndice de
corporal que
explicativa,
multiplica por el factor
entrede conversin
28,5 y 32 kg/m yde(x38,8.
2
+. c) As, utilizando
- ypara
(x) b0de + bla propiedad
+dec) del b1x) =de cbtodo
modelotheestimade
masa
un
Breastlinealidad,
corporal.
nivel medio
(EURAMIC), esta
Por disminucin
ejemplo,
colesterol
un estudio se=un
HDL asume
multicntrico ndice (x
y1constante
de
(25) masa - (b
=casos
1,69 -+
acorporal
0lo largo
y0,023
controles 25 25. kg/m
=1realizado
2
el rango
, el
La recta de regresin estimada del colesterol HDL sobre el ndice de masa corporal es
cambio de escala, la media del colesterol y (x + HDL c) - yen (x)mg/dl= b0 +sebcalculara
1(x + c) - (b0 + b1x) = cb1.
entre observado
modelo
1991 y 1992 del
estima en ndice
un
ocho nivelde masa
medio
pases corporal;
de
Europeos colesterol
e esto
Israel es,
HDL
para el modelo
de y (25)
evaluar de=efecto
regresin
1,69 de-de0,023lineal
25ndice
=
1,11 mmol/l. As,
Por supuesto,
por ejemplo, los valores
incrementos observados
dey una = 1,69 del colesterol
desviacin
0,023x, HDL
tpica =el3,50
c difieren kg/m 2 los
en el
directamente a partir de su media en mmol/l como 1,22338,8 = 47,45 mg/dl. 2
As,
estima
que por
se unaejemplo,
misma
muestra en incrementos
reduccin dede una
0,081 desviacin
mmol/l tpica
enregresin
el c =puede
colesterol 3,50 kg/m
HDL en25
entre el yndice
1,11
los valores medios
de masammol/l.
predichos Por
corporal selala
por Figura
supuesto,
recta los
asocian 10.7.
de Esta
valores
conregresin.
una recta
La de
observados
disminucin varianzadel
media colesterol
residual utilizarse
delHDL
en el colesterol HDL para
difieren
5
estimar o
de
de
que se muestra en la Figura 10.7. Esta recta
predecir el2 valor esperado del colesterol HDL en funcin del ndice de regresin puede utilizarse para
de masa corporal. Por
2
de
28,5masa
ejemplo,kg/m
los1respecto
valores corporal
del
para un
medios se
ndice asocian
ndice de masa
de con
masa una
corporal disminucin
corporal que deentre
25 media
28,5
kg/m 2 y 32
, elen el
kg/m
modelocolesterol
6 . estima HDL
undel de medio
nivel
colesterol HDL cb a la recta
= 3,50(-0,023) =predichos
de regresin
-0,081 por laesrecta
mmol/l. Notardeque, regresin. La varianza residual
como consecuencia de la hiptesis
estimar o predecir
de colesterol HDLeldevalor (25)esperado
= 1,69 del colesterol
0,02325 HDLmmol/l.
= 1,11 en funcin
Por del ndice los
supuesto, de valores
cb
La =
recta3,50(-0,023)
observados de regresin
del533 = -0,081
estimada
colesterol aHDLmmol/l.
del Notar
colesterol
difieren de que,
HDLcomo sobre
los valores consecuencia
es a lo medios el ndice dede la
masa hiptesis
colesterol
de 1
linealidad, HDL estarespecto
disminucin la rectase de regresin
asume constante largo depredichos
todo el rango por la recta de
SSE
masa 1
corporal. Por ejemplo, para un ndice 42,63
de masa corporal de 25 kg/m 2
, el
s2 regresin. = La varianza { y i (residual
1,69 0,del 023colesterol
x i )} = HDL=respecto 0,080. a la recta de regresin es
es531
2
=
de 531
linealidad,
corporal esta disminucin se asume constante
531 a lo largo de todo el rango
observado del ndicei =1
SSE de medio 1masa533 corporal; esto es, el modelo de regresin lineal
42,63
modelo estima 2y (25) - 0,02325 =
s2 = un nivel = {dey i colesterol
(1,69 0HDL ,023xdei )} =
= 1,69
= 0,080.
observado del ndice 531 de masa
531 i =1 corporal; esto es, el modelo de regresin
531 HDL entre lineal
estimaque
Notar, por ltimo, unadebido
misma a reduccin
la hiptesisdede0,081 mmol/l en de
homogeneidad el colesterol
la varianza, la 25 y 20
1,11 mmol/l. Por supuesto, los valores observados del colesterol HDL difieren de
Notar,
estima poruna2ltimo,
misma que debido de
reduccin a la0,081
hiptesis
mmol/l de homogeneidad
en el colesteroldeHDL la2 varianza,
entre 25lay desviacin
28,5
Notar, kg/m
por del
ltimo,ndiceque de masa
debido acorporal
la hiptesisque entre
de 28,5
homogeneidad y 32 kg/m .
tpica
desviacin tpica residualdel
residual delcolesterol
colesterolHDL HDLss== 0,080 ==0,283 mmol/lseseasumevarianza,
0,283mmol/l de la constantelaalrededor
los valores2 medios predichos por la recta de regresin. La varianza 2 residual del
de
28,5cualquier
kg/m del punto
ndice de de
la recta
masade regresin.
corporal que entre 28,5 y 32 kg/m .
La recta de tpica
regresin estimada del colesterol HDL= sobre
0,080el=ndice0,283de masa se
asume constantedesviacin
alrededor
colesterol HDL
residual
derespecto
cualquiera la del
puntocolesterol
rectadedelaregresin
HDL
recta desregresin.
es
mmol/l
La recta de regresin estimada del colesterol HDL sobre el ndice de masa
corporal es
asume constante alrededor de cualquier punto de la recta de regresin.
corporal ess2 = SSE = 1 42,63
168 Pastor-Barriuso R. 533
[Figura 531
10.7 aproximadamente
531 i =1
{ y i (1,69 0,023x i )}2 =
aqu] 531
= 0,080.
20
Regresin lineal simple
2,25
1,5
0,5
0,25
20 24 28 32 36
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en
Indice de masa corporal (kg/m)
i =1si yi =
inicial por la constante utilizada; cxiuna
, entonces y =lac media
x . i =1 de la muestrai =resultante
=1 =1
muestra por constante,
i =1 1 es igual a la media
Pastor-Barriuso R. 169
Cambio simultneo de origen inicial porSilaseconstante
y escala. multiplica
n utilizada;
cada unosi yi =los
n de cxdatos de y = c x .
i, entonces
ya que ambas componentes estn = incorrelacionadas
( y i y ) 2 + ( y i y i ) 2 = SSR + SSE,
i =1 i =1
una muestra por una constante y al resultado
Cambio se le de
simultneo suma otrayconstante,
origen escala. Si la
semedia
multiplica cada uno de los datos de
n n
= ( y i y ) 2 + ( y i y i ) 2 = SSR + SSE,
i =1 i =1
Correlacin y regresin lineal simple
ya que ambas
es en el riesgo de desarrollar componentes
un primer infarto estn
agudoincorrelacionadas
antioxidantesde miocardio 1.2 en
en el riesgo MEDIDAS DE TENDENCIA
de desarrollar un primer infarto CENTRAL
agudo de miocardio e
ya que ambas componentes estn incorrelacionadas
ultos. Los valores obtenidos fueron n 0,89, 1,58, hombres
0,79, 1,29,adultos.
n 1,42, Los0,84,
Las valores
medidas n obtenidos fueron
de tendencian 0,89, 1,58,
central 0,79,acerca
informan 1,29, 1,42, 0,84
de cul es
(
y i y )( y i
y i ) = b 1 ( x i x ) e i = b 1 i i x e b1 i
x e = 0
1,96 y 1,53 mmol/l. La media de i =1 los niveles del 1,06,colesterol
0,87,i =1,96
1 HDL y 1,53
en una
de mmol/l.
i =1 La mediai =de
determinada
1 los niveles del colesterol HDL en
variable o, dicho de forma equivalente, e
segn las ecuaciones de regresin derivadas del mtodo de mnimos cuadrados. As, la suma
rticipantes es de cuadrados total SST sededescompone
segn las ecuaciones estos 10derivadas
regresin participantes
en dos trminos
del es independientes:
mtodo
alrededor de qu
de mnimos sesuma
la
valor cuadrados.
agrupande As,
cuadrados
la observados. Las
los datos
de la regresin SSR, que representa la variabilidad de la variable respuesta explicada por la
1 10 nica 0,89variable
suma +de
1,58 +independiente
cuadrados
... + 1,53 total SST delsemodelo
descomponede regresin,
en dos
1central
10 y 0la,89
trminos
de suma1,58de cuadrados
+independientes:
muestra sirven
+ ... delresumir
suma
,53 lapara
+ 1tanto error los resultados
x = x iSSE,= que corresponde a la=variabilidad 1,223 mmol/l. residual de lavariable
x = x i = respuesta que queda=sin 1,223 mmol/l.
explicar.
10 i =1 10 10 i =1 10
Conviene recordar
de cuadrados de que la recta SSR,
la regresin de regresin
que representa estimada
realizar por el procedimiento
la inferencias
variabilidad acerca de los de
de la variable mnimospoblacionales c
parmetros
cuadrados minimiza la suma de cuadrados del error, maximizando entonces la capacidad
predictiva o explicada
explicativa pordel modelo de regresin. La Figurase
continuacin 10.8 ilustra
describen grficamente
los y la esta
principales estimadores de la t
mtica presenta lasrespuesta
siguientes propiedades: la nica
La mediavariable
aritmtica independiente
presenta lasdel modelo
siguientes de regresin,
propiedades:
descomposicin.
variable.a la variabilidad
origen (traslacin).suma sede cuadrados
LaSidescomposicin
suma una constante della
de error
variabilidad
Cambio
a cada SSE, deque
uno de corresponde
de la
origenlosvariable
datos respuesta
(traslacin). Si se suele residual
suma representarse
una de la
constante mediante
a cada uno de los datos
la denominada tabla del anlisis de la varianza (Tabla 10.2). En primer lugar, esta tabla
stra, la media de lavariable
presenta lasrespuesta
muestra sumas deque
resultante es queda
deasin
cuadrados
igual una explicar.
junto
la media susConviene
con inicial
muestra, 1.2.1 recordar
Media
lacorrespondientes
media
ms la de que la
aritmtica
grados
la muestra recta de es
regresin
de libertad.
resultante La suma
igual de
a la media inicial ms
cuadrados de la regresin contiene nicamente 1 grado de libertad ya que, una vez conocida la
tilizada; si yi = media muestral y , =losx valores
xi + c, entonces + c. Un estimados
cambio utilizada;
constante depor
origen ymedia
la recta
sique
La i=dexiregresin
+aritmtica,i =
c, entonces y += bx1(xpor
denotada +i c. Un
x ), quedan
cambio
se definede
22 origen
como que
la sum
completamente determinados por su pendiente; mientras que, como se vio en el apartado
on frecuencia esanterior, la suma
el centrado de la de cuadrados
variable, que del error
se realiza
consiste entiene
con nvalores
a 2 grados
frecuencia
restar de libertad.
esmuestrales
el centrado de la A
dividida continuacin,
por el nmero
variable, los
de observaciones
que consiste en restar a
trminos de la varianza se obtienen de dividir las sumas de cuadrados por sus grados de libertad.
de la muestra suFinalmente, la razn
media. La media de de
unavarianzas
cada se
variable define
centrada
valor como
de la
ser, el cociente
por
muestra n su
el tamao
media.entre lamedia
varianza
muestral
La ydeporexplicada
unaxivariable
el valor por la
observado
centrada parapor
ser, el s
regresin y la varianza residual, que constituye el estadstico del contraste de regresin.
a 0. tanto, igual a 0. la media vendra dada por
(xi, yi)
a constante utilizada; si yi = cxi, entonces y inicial
= c x . por la constanteLa
utilizada; yi medida
media essi la = cxi, entonces y = ccentral
de tendencia x. ms utilizada
pendiente; mientras
Tabla que,
10.2Tabla
Tabla 10.2 Tabla como se viodel
genrica
genrica
enanlisis
del anlisis
el apartado anterior,
de laen
de la varianza varianza laensuma de cuadrados del
regresin
regresin lineal simple.* lineal
varianzasimple.*
var(b1). As, bajo la hiptesis nula H0: 1 = 0, el cociente SSR/ 2 es el
error tiene n - 2 grados de libertad.
Suma de A continuacin, Gradoslos
de trminos de la varianza
Razn dese
Suma de
cuadrados Grados de
libertad Varianza Razn de
varianzas
cuadrado de una distribucin normal estandarizada,
cuadrados libertadque corresponde por definicin a
varianzas
obtienen de dividir las sumas nde cuadrados por sus gradosVarianza
de libertad. Finalmente, la
SSR
una distribucin SSR = con
Regresin chi-cuadrado ( y i 1ygrado
) 1 2
de libertad. F = con
SSRparte, basta
Por otra 2 que se
razn de varianzas se define como
i =1
el cociente entre la varianza explicada porsla
cumplan las asunciones subyacentes
n n
al modelo lineal para que la varianza residual s2
SSE
regresin y la varianza
Error ei = que
SSE =residual,
2
( y i constituye
i =1
y i ) 2
el
n estadstico
i =1
2 s =del contraste de regresin.
2
n2
sea un estimador insesgado de 2 y el cociente
n
Total ( y i 10.2
SST =[Tabla
i =1
y) 2 aproximadamenten 1 aqu]
2
varianza var(b1). As, bajo la hiptesis (n H
nula 2) s: = 0, el cociente SSR/ 2 es el
2 0 1
* Coeficiente de determinacin R = SSR/SST.
* Coeficiente de determinacin R = SSR/SST. 2
2
Para realizar el contraste de regresin, es preciso conocer la distribucin de la razn
cuadrado de una distribucin normal estandarizada, que corresponde por definicin a
de
siga
Paravarianzas
una
realizar bajo
distribucinla hiptesis
el contraste de nula
chi-cuadrado H 0: n1es
con
regresin, -=20. Por unde
grados
preciso lado, selatiene
libertad.
conocer que
Combinando
distribucin ambos
de la razn de
una distribucin chi-cuadrado con 1 grado de libertad. Por otra parte, basta con que se
varianzas bajo la hiptesis nula H0: 1 = 0. Por un lado, se tiene que
resultados,
varianza sebtiene quen bajolalahiptesis
hiptesis n HH
nula : 1 =0,0ella
0: 01 =
razn entre las
2varianzas
cumplan var( 1). As,1 bajo bal12nula b12cociente 2 SSR/ es el s2
SSR
las asunciones subyacentes modelo lineal 2 para n 1la
(que ) s varianzab12 residual
2 2
= (
y i y ) 2
= ( x i x ) = x
= ,
explicada 2
y residual i =1 i =1 2
var( b )
cuadrado de
sea un estimadoruna distribucin
insesgado denormal 2 y elestandarizada,
cociente que corresponde por definicin a 1
se distribuye
F como el cociente
bajo la distribucin
explicada y residual F1,n-2.de dos chi-cuadrado independientes divididas por sus respectivos
grados de libertad,
se distribuye comoqueelescociente
una distribucin F de Fisher con
de dos chi-cuadrado 1 grado de libertad
independientes enpor
divididas el numerador
sus
y n 2La
grados de libertad en el denominador. El valor
tabla del anlisis de la varianza suele ir 2acompaada P del contraste de regresin
del coeficiente de de la hiptesis
H0: 1 = 0 grados SSR SSR / 2
nularespectivos frente adelalibertad,
hiptesis
F = que alternativa
es
= una ~ 2 H1F:1de
bilateral
distribucin 1 Fisher
0 se calcula entonces
con 1 grado de como la
probabilidad a la derecha
2 del estadstico
s 2
determinacin R , que se define como la proporcin Fs bajo
2
/ la
2
distribucin /( n F2) .
n 2de la variabilidad
1,n2 de la variable
libertad en el numerador y n - 2 grados de libertad en el denominador. El valor P del
La tabla del anlisis de la varianza suele ir acompaada del coeficiente de determinacin R2,
querespuesta
se defineque
sedistribuye
comose explica
como la el por el modelo
proporcin
cociente de dos de regresin,
la variabilidad
chi-cuadrado de la variable respuesta que por
se explica por
contraste de regresin de la hiptesis nula H0: 1 = 0independientes divididas
frente a la hiptesis sus
alternativa
el modelo de regresin,
respectivos grados de libertad,n que es una 2 distribucin
n
F de Fisher con 1 grado de
bilateral H1: 1 0 se calcula entonces
( y i y )como b12laprobabilidad
( x i x ) 2 a la derecha
2
del estadstico
2 SSR i =1 i =1 2 sx 2
R =
libertad en el numerador y =n -n2 grados de =libertad n
= b1 2 = rEl. valor P del
en el denominador.
F bajo la distribucinSST F1,n-2. sy
( yi y) 2
( yi y) 2
172 Pastor-Barriuso R.
y,
donde b1 = cii ==1 y(ixnson
comoloslascoeficientes
observaciones - x independientes
)/{( n - 1) =2 }i =n1dependen
s (vase Apartado= c3.4),
i y i ,de
su varianza
valoreses
la variable explicativa que se asumen constantes.
i x Bajo las2nicamente
asunciones de los
linealidad yde
1.2.1 Media aritmtica ( x i
i =1
x ) 2
( x
i =1
i x ) i =1
la variable explicativa
homogeneidad que se asumen
de la varianza, eln valor constantes.
esperado 2deBajo n
b1 2eslas asunciones
2 de linealidad y
, 2y ) =
la
2
La media
dondearitmtica,
los coeficientes var(
ci = (x
denotada b
por1 ) =
i x )/{(n
c
se define var(
i 1)sx }como
dependen
i suma c =
i de cada uno
nicamente .
de los de valores
los de la variable
i =1 i =1 (n 1) s x2
explicativa
homogeneidadque se de asumen constantes.
la varianza, el
n
valor Bajo las
esperado asunciones
n
de b 1 es den
linealidad y homogeneidad de la
valores muestrales
varianza, el valor dividida por
esperado
E(bdeel nmero
b es de observaciones realizadas. Si denotamos
1) = 1 c i E ( y i ) = 0 c i + 1 c i x i = 1 26
Es decir, b1 es un estimador insesgado i=n1 de 1 que i=n1 ser tanto i=n1 ms preciso cuanto menor
por n el tamao muestral y por E(bx1i)el
= valor ( yi ) = 0
observado
ci E para 1 ci-simo,
c i el+ sujeto i xi = 1
i = 1, ..., n,
sea la varianza
y, como de la variable
las observaciones respuesta
i =1
yi son alrededor (vase
independientes
i =1
de la recta i =1
Apartadode regresin
3.4), suyvarianza
mayoreses
la media vendra dada por
y, como las observaciones yi son independientes (vase Apartado 3.4), su varianza es
sean
y, comoel tamao muestral y la
las observaciones yi dispersin
sonn independientes de la variable (vase explicativa.
Apartado Adems,
3.4), si el tamao
su varianza es
n 2
1 = x=c i 1var( y2 i ) =
2x + x + ... +2 x
n 2
muestral n es suficientemente x =b1 )
var(
grande,
i1 puede aplicarse
n ci =
. una(generalizacin
n 1 ) s 2
.
del teorema
n i =1 i =
n n i =
n1
2 x
var(b1) = c i var( y i ) = c i =
2 2 2
.
decir, bdel
Es central 1 es un
lmiteestimador
(ver su insesgado
versin i =1ms de
simple1 queen ser
el i tanto
Apartado
=1 (ms
n preciso
4.3.3)
1 ) s 2
x para cuanto menor
demostrar quesea la
Es
varianzadecir,
de b
la es un estimador
variable respuesta insesgado
alrededor dede
La media es la medida de tendencia central ms utilizada y de ms fcil
1 1 que
la rectaser de tanto ms
regresin preciso
y mayorescuantoseanmenor
el tamao
b1 se distribuye
muestral de formadeaproximadamente
y la dispersin la variable explicativa. normal con Adems,la media si yelvarianza
tamao descritas
muestral n es
Es
sea decir,
la
suficientemente
interpretacin. b
varianza es un
de estimador
la variable
grande, al
Corresponde
1 puede
centroinsesgado
respuesta
aplicarse de
alrededorque
una generalizacin
de gravedad 1 ser
de la
de los datosdel tanto
recta ms
de preciso
regresin
de teorema
la muestra. cuanto
Su delmenor
y
centralmayores lmite (ver
su anteriormente,
versin ms simple en el Apartado 4.3.3) para demostrar que b1 se distribuye de forma
sea
sean
principal laelvarianza
tamao
limitacin
aproximadamente es de
quelaest
normalvariable
muestral muy
con respuesta
y laladispersin
influenciada
media y varianza alrededor
de por
la variable
los de laexplicativa.
valores
descritas recta de regresin
extremos
anteriormente, Adems, y mayores
y, en estesi el tamao
variable respuesta,
desviacin
distribucintpica siempre
resultante de bs,1que
residual serelconlleva
que tamao un
entonces muestral
error
ms sea suficientemente
adicional
dispersa que de muestreo.
la normal, grande.
La
siguiendo
27
A partir deresultante
distribucin
aproximadamente la distribucin muestral
de b1 ser
una distribucinentonces b1ms
t dedeStudent
, el intervalo
dispersa de
- 2confianza
con los nque la normal,
grados 100(1 - )%
dealsiguiendo
libertad
Pastor-Barriuso R. 173
aproximadamente
para auna distribucin
la pendiente subyacente
correspondientes t la
1 dedela
la estimacin de Student
recta con los nviene
de regresin
varianza residual, - 2 grados de libertad
dado por
A partir de la distribucin muestral b1 t nde b , el intervalo. de confianza al 100(1 - )%
2 ,11 / 2
variable respuesta, siempre que el tamao muestral s x n sea
1 suficientemente grande.
para la pendiente subyacente 1 de la recta de regresin viene dado por
Correlacin y regresin lineal simple
DeAigual
partir de la el
forma, distribucin muestraldedelabhiptesis
contraste bilateral 1, el intervalo de confianza
de ausencia - )%
al 100(1 lineal
de asociacin
s
para
entrelalaspendiente
variablessubyacente
explicativa b1
de la trecta
y1 respuesta de
n 2 ,1H regresin
/ 2: .realiza
viene dado por el estadstico
A partir de la distribucin muestral de b1, el intervalo 0 s x n0se
1 = 1de mediante
confianza al 100(1 )% para la
pendiente subyacente 1 de la recta de regresin viene dado por
b s
b1 ttde
De igual forma, el contraste bilateral n= 2la
,1hiptesis
/2 1 .
, de ausencia de asociacin lineal
ss x n 1
Deentre
iguallas variables
forma, explicativa
el contraste y respuesta
bilateral sHx 0:n
de la hiptesis11=de
0 se realiza de
ausencia mediante el estadstico
asociacin lineal entre las
De igual forma,
variables explicativa
1.2 el contraste bilateral
y respuesta H0: un de la
1 =primer
hiptesis
0 se realiza de ausencia
mediante estadsticoen lineal
de asociacin
el miocardio
antioxidantes en elMEDIDAS
riesgo DE TENDENCIA
de desarrollar CENTRAL
infarto agudo de
s en el riesgo de desarrollar
quePara un primer
se distribuye
completar la infarto
aproximadamente
exposicin, agudosedepresentan comomiocardio una b el t deen Studentde
intervalo con n - 2 grados
confianza de libertad
y el test de
entre las variables explicativa y respuesta t = H0: 1 1 = ,0 se realiza mediante el estadstico
hombres adultos. Los valores obtenidos fueron 0,89, s
Las medidas de tendencia central informan acerca de cul es el valor ms representativo 1,58, 0,79, 1,29, 1,42, 0,84,
ultos. Los valores obtenidos
si laPara
hiptesisfueron nula 0,89, 1,58,de0,79,
esexposicin,
cierta. Este 1,29,es
test de1,42, 0,84, aunque
equivalente
hiptesis para
completar la constante
la la recta
se presentan regresin,
s x nel intervalo1 al contraste deestas de regresin
inferencias
confianza lineal
suelen
y el test de tener
1,06, 0,87, 1,96 y 1,53 mmol/l.
de una determinada variable o, La media de los niveles
b del colesterol HDL en
,96 y 1,53 mmol/l. La
simple
queescasa
se media
distribuye de los
presentado niveles
en
aproximadamenteel del
apartado colesterol
anterior.
como t =dicho
HDL
una De t
1de forma equivalente, estos estimadores indican
en hecho,
de , el estadstico
Student con n en 2Fla del
grados contraste
de de
libertad si la
importancia porque
hiptesis para la constante de la recta de regresin, la relacin en x = 0
s carece aunquede sentido estas inferencias mayora de las
suelen tener
estos 10
queparticipantes
hiptesis senuladistribuye
es es
cierta. aproximadamente
Este test es como
equivalente una
al t de
contraste Student de con
regresin n - 2 grados
lineal de
simple libertad
presentado
ticipantes es en el Para alrededor
completarde la qu valor se se
exposicin, agrupan
presentan s xlosntdatosel intervalo
1este observados. de confianza Las medidas y el test dede tendencia
regresin
apartado
aplicaciones. es igual
anterior.
El al
estimador cuadrado
De hecho, del
el estadstico
estadstico
mnimo-cuadrtico
escasa importancia porque la relacin en x = 0 carece de sentido0 en la mayora F de
del
de contraste
la contraste,
constante de regresin
b = y - bes
1 xigual
es al
una cuadrado
de las
delsi la hiptesis
estadstico t nula
de este es cierta.
contraste, Este test es equivalente al contraste de regresin lineal
Para central
hiptesis para1lade
completar 10 la muestra sirven tanto para resumir los resultados observados como para
constante 0,89de+la
la exposicin, 1,58 se+presentan
recta ...de+ 1regresin,
,53 el intervalo aunquedeestas inferencias
confianza y el testsuelen
de tener
1 10 que se
0combinacin
aplicaciones. x
,89 + 1,58 + ...10 =
distribuye
lineal 53xde
El+ 1estimador i =dos estimadores
,aproximadamente mnimo-cuadrtico
SSR como 2 =
una
independientes
b ( n t
de
1,223
de 1la
) s 2 mmol/l.
Student
constantey y con
b b n
que =- 2 y grados
tienden- b xa de
es libertad
una
distribuirse
x = x i = simple presentado realizar i =1 en el = 1,223
apartado F =10
mmol/l.
anterior. De
1
=parmetros hecho, x
el=estadstico
2
tsentido
,
1 0 1
F del contraste de A
10 i =1 hiptesis para lainferencias
escasa importancia
10 porque de
constante laacerca
relacin
la recta de2los
s en
de x = 0
regresin, scarece
2 poblacionales
aunquede en correspondientes.
estas inferencias la mayora de las
suelen tener
si laforma
hiptesis
combinacin
de normal nulaconforme
lineal es
decierta. Este testelestamao
dos estimadores
aumenta equivalente
independientes muestral, al contraste
ydey lo b1 cual
que detienden
seregresin
deduce lineal
a distribuirse
que la
de regresin es igual al cuadrado del estadstico t de este contraste,
tal
La mediaescasa
forma
aplicaciones.
aritmtica
que
continuacin
importancia ambos
El
presenta estimador procedimientos
se describen
porque losfacilitan
mnimo-cuadrtico
la relacin
las siguientes en x = 0siempre
principales
propiedades: de
careceestimadores
la constantelossentido
de mismos =lavalores
bde0 en b1 xP es
ytendencia
la -mayora (lacentral
distribucin
una
de las de una
F simple
de
de Fisher
tal presentado
con
forma
distribucin 1
quegrado
muestral en
ambos deel apartado
libertad
procedimientos
de b0 aumenta en
tambin seranterior.
el numerador De
facilitan hecho,
aproximadamente y n
siempre el
2 estadstico
gradoslos de
mismos F
libertad del contraste
valoresen elP de
denominador
(la
tica presenta las siguientes
de forma normal propiedades: conforme el tamao muestral, de normal lo cual con se deducemedia que la
Cambio
es, aplicaciones.
por definicin,
combinacin variable. El elestimador
lineal
de origen (traslacin).
cuadrado de la distribucin
mnimo-cuadrtico
de dosSiestimadores
se suma SSR b12 (ntde
unaindependientes
constante
de
1la )Student
2
saxconstante
cada y 2unoyconb1 bden0 = 2tienden
que grados
losy datos- b1 xade es libertad).
una
distribuirse
regresin
distribucin es igual
F de al
Fishercuadradocon 1 Fdel= estadstico
grado de =libertad t de en esteel = t
contraste,
numerador , y n - 2 grados de
origen (traslacin).Para Si secompletar
suma una constante
la de b)0a=tambin
exposicin, cada uno de los el datos
distribucin muestral E(sey presentan
) -sser
E(b1aproximadamente intervalo de normal
confianza conymedia el test de hiptesis
2 2
E(b 0 ) x = s 0 + 1 x - 1 x = 0
de para laforma
unacombinacin
demuestra, 1.2.1
constante normal Media
de
la media
lineal dearitmtica
laconforme
recta lademuestra
dos regresin,
estimadores
aumenta aunque
resultante
el tamao estas
es
independientes igualinferencias
muestral, a laymedia dey blosuelen inicial
que
1 cual tener
tienden
se ms escasa
deduce importancia
aladistribuirse
que la
tra, la media deporque libertad
la muestra en el denominador
resultante es, por definicin, el cuadrado de la distribucin t de Student
la relacin en xes=igual 0 carece a la mediadeSSR sentido inicial b1en
2
(nms la )la
1mayora
sx 2
de las aplicaciones. El estimador
de tal forma que ambos ) = E(
E(bprocedimientos F =yb ) =- E(b 1) x = 0siempre
=facilitan + 1 = x t-2los ,1 de = 0 valores P (la
xmismos
mnimo-cuadrtico
constante
de utilizada;
ydistribucin
varianza
forma Lanormal
media si yde
muestral =laxide + 0bc,0 entonces
constante
iaritmtica,
conforme denotada
tambin
aumenta 0 sser
2y por
el = bx1 x +,esse c
aproximadamente
tamao s 2.una
Un
define
muestral, combinacin
cambio como lo la
de normal origen
cualsumalineal de
condeduce
se decada
que
media dosqueestimadores
uno lade los
+ con
ilizada; si yi = xindependientes
c , n -
entonces 2 grados y de x libertad).
c
y b1 que tienden a distribuirse de forma normal conforme aumenta el tamao
= + . Un cambio de origen que
i
distribucin
muestral, de lo F deseFisher
cual deduce conque 1 grado de libertad
la distribucin en el numerador
muestral de b0normal tambin y n -ser 2 grados de
aproximadamente
y varianza
se realiza valores
con frecuencia
distribucin muestrales
muestral es de b)0 dividida
el centradotambin depor elaproximadamente
la variable,
ser nmero que deconsiste
observaciones en2restar conrealizadas.
amedia Si denotamos
de
normal talconformamedia que ambos E(b = E(
procedimientos
0 y ) - E(b ) x
facilitan
1 = +
2 0siempre x
21 1 los - x x=
1 mismos
0 valores P (la
n frecuencia es el centrado de la variable, var(b0que ) = es, consiste
var( + en
y )definicin,
var(b restar
1) xel a= + . 28
libertad en el denominador por cuadrado n de ( n la 1distribucin
) s 2 t de Student
por n el tamao
cada valor de la muestra su media. La media de muestral y por x el valor
i una variable observado centrada 2ser,para elx por i-simo, i = 1, ..., n,
sujeto
e la muestra su media. distribucin
La media
y varianza
F de unaE(b
de Fisher 0) = 1
con
variable E(grado
y ) E(b
centrada
0) = var( y ) + var(b1) x =
de ser, 1) x =
libertad por 0 + el
2 en x1 1 x x= y 0n - 2 grados de
21numerador
con n - 2 grados devar(b libertad). + (n 1) s 2 .
tanto, igual a 0.
y varianza la media vendra dada 2por 2 n x
a 0.
Reemplazando
libertad el parmetroes,
en el denominador por pordefinicin,
su estimacin s , el intervalo
el cuadrado de confianza
de la distribucin t deal Student
100(1 -
y varianza
Cambio de escala (unidades). Si se multiplica cada 1 datos de x una
2
yy de ICs
la pendiente s x n 1 3,50 532
Los al 95% para la constante y la pendiente de la recta de regresin
y de la pendiente s 0,283
poblacional son
Los ICs al b95% SE(b
entonces 1) = = de la==recta
0,0035.
t para laSE(b
1
constante
531;0,975 1
yn la
) =s -0,023 x 1pendiente
3,50 532
1,960,0035 de regresin
(-0,030; -0,016).
s 0,283
poblacional
Los son
ICs al 95% entonces
b0para la constante
tSE(b 1) = y la pendiente
= de la= recta
0,0035.de regresin poblacional son
531;0,975SE(b0) = 1,69 1,960,092 = (1,51; 1,87)
Del
Los intervalo
ICs al 95%
entonces para la pendiente
para s xpuede
la constante yn la
1pendiente
3,50 532
concluirse con
de la una
rectaconfianza del 95% que
de regresin
ypoblacional
el nivel medio t531;0,975 SE(b
b0 colesterol 0 ) = 1,69 1,960,092 = (1,51; 1,87)
sonde entonces HDL en la poblacin de referencia del estudio
Los ICs al 95% para la constante y la pendiente de la recta de regresin
y significativa ya que el contraste de la hiptesis nula H0: 1 = 0 mediante el
EURAMIC
y disminuye entre)0,016 y 0,030 mmol/l por cada incremento de 1
poblacionalb1son bt531;0,975
0entonces SE(b
t531;0,975 1 = 0)0,023
SE(b = 1,69 1,960,0035
1,960,092==((1,51; 0,030; 0,016).
1,87)
estadstico
2
kg/mintervalo
Del en el ndice para la dependiente
masa corporal. puedeEn general, con
concluirse el intervalo
una confianza de confianza del 95% paraqueelel nivel
Del intervalo b1 para t531;0,975
la SE(b1) = puede
pendiente 1,960,0035
-0,023concluirse con = (-0,030;
una confianza -0,016).
del 95% que
y
medio de colesterol b 0 t SE(b
HDL en la poblacin
531;0,975 0 ) = 1,69 1,960,092 = (1,51;
de referencia del estudio EURAMIC disminuye 1,87)
efecto0,016
entre y 0,030c
subyacente 1 asociado
mmol/l port =cada bincremento
a cualquier1 incremento
0,023
de 1=kg/m c en 2 la variable explicativa
en el ndice de masa corporal.
el nivel medio de colesterol HDL en la =
poblacin -6,63
Del intervalo
yEn general,b1elintervalo
para la pendiente
t531;0,975SE(b de confianza puede
SE (bpara concluirse
) el0,0035 efecto subyacente del
de
con referencia
una confianza c1 estudio
del 95% que
asociado a cualquier
1) = -0,0231 1,960,0035 = (-0,030; -0,016).
incremento c en la variable
se obtiene multiplicando losexplicativa
lmites del se obtienepara
intervalo 1 por dicho
multiplicando losincremento,
lmites del intervalo
EURAMIC
el nivel
para 1 por medio disminuye
dicho de incremento,
colesterol entre HDL 0,016en y 0,030
la poblacin mmol/lde porreferencia
cada incremento del estudio de 1
resulta
Del intervalo en un
b1 para valor
t531;0,975 P bilateral
SE(b1) = puede
la pendiente 2P(t
-0,023531 -6,63)
1,960,0035
concluirse 2(-6,63)
con = una (-0,030; <
confianza 0,001.
-0,016). Notar
del 95% que que este
kg/m
EURAMIC
2
en el ndice
disminuye cb
de1 masa t n 2,1corporal.
entre 0,016
/2 SE(cb En )
y 0,030
1 = c{b
general,
mmol/l
1 t nel intervalo
por
2,1 SE(b )}.
1de confianza
/2cada incremento depara
1 el
test arroja
el1.2
nivel medioelde mismo
colesterol valorHDL P queenellacontraste poblacin dede regresin
referencia deldel ejemplo
estudio anterior ya
antioxidantes en elDel As, por deejemplo,
2MEDIDAS
intervalo
riesgo paraDE
desarrollar con un primer
TENDENCIA
la pendiente
un nivel de puedeconfianza
infarto CENTRAL
concluirse
agudo delde95%,
con los confianza
una
miocardio incrementos
envariable delde 95%unaque desviacin
efecto
kg/m
As, por subyacente
en el ndice
ejemplo, c
de
con asociado
masa corporal.a cualquier
En incremento
general,
2 un nivel de confianza del 95%, los incrementos de una
1 el intervaloc en lade confianza explicativa
para el media
tpica c = 3,50yakg/m
significativa que elencontraste
el ndice dela
de masa 2 corporal
hiptesis nulaseHasocian 0 : 1 = 0 con una disminucin
mediante el
EURAMIC disminuye
el-6,63) entre
= P( HDL t0,016
2
531
yentre
0,030 mmol/l
P(F 1,531 por cada yincremento de 1
hombres adultos. Los el que 2P(t
poblacional
nivel
Lasvalores medio
medidas en
531
de
obtenidos
de colesterolfueronHDL
colesterol
tendencia 0,89,
central de6,63
en
2 1,58,
)= 3,500,016
la poblacin
informan 0,79, 1,29,
acerca de1,42,
43,93).
=de 0,057
referencia
cul0,84, es 3,500,030
delvalor
el estudioms= 0,105 mmol/l.
representativo
se obtiene
efecto
desviacin
Por multiplicando
subyacente
tpica c c
= 3,50 los
asociado kg/m lmites a en del
cualquier
el intervalo
ndice incremento
de
supuesto, esta disminucin es estadsticamente significativa ya que el contraste de la
estadstico 1 masa para c por dicho
1 en la variable
corporal se incremento,
asocian explicativa
con una
kg/m2 en el ndice de masa corporal. En general, el intervalo de confianza para el
EURAMIC
1,06, 0,87, 1,96 y 1,53hiptesismmol/l. disminuye
nula La H0media 0entre
: 1 =variable los0,016
demediante niveles y 0,030
el estadstico mmol/l
deldecolesterol por
HDL cada en incremento de 1
sedeobtiene
una determinada
disminucin multiplicando
media poblacional
cb1 tn-2,1- los o,en
lmites dicho
el del forma
intervalo
colesterol HDLequivalente,
para de por
1entre
estos
dicho estimadores
3,500,016 = 0,057indican
incremento,
10.3.4 Bandas de confianza y /2SE(cb
prediccin ) = c{b
para
la t
recta de SE(b )}.
regresin
2 subyacente c1 asociado abcualquier
1 0,incremento
023
1 n-2,1- /2 1
efecto
kg/m c en la variable explicativa
estos 10 participantes es en el de
alrededor ndicequ de valor masa setcorporal.
=
agrupan
1
En
los general,
= datos =elintervalo
observados. 6,63 Lasdemedidas confianza de para el
tendencia
y 3,500,030 = 0,105 mmol/l. SE (supuesto,
Por b1 ) 0,0035 esta disminucin es estadsticamente
Adems de ejemplo,
realizar inferencias
cb1 un tn-2,1- sobre SE(cb los1parmetros
) = c{bdel 0 ylos
tn-2,1- 1,incrementos
es a)}. menudodeinteresante
As,
efecto
por
se obtiene multiplicando
subyacente
con
c nivel
asociado
/2de
los lmites a
confianza
del intervalo
cualquier
1 95%,
incremento para /2c1SE(b
porla1dicho
en variable
una
incremento,
explicativa
resulta
1central
10 en deun la valor
muestra P 1 bilateral
0,89 + 1,58 + ... + 1,53sirven 2P(t
tanto para 6,63)
resumir 2F(6,63)
los resultados < 0,001.
observados Notar que este
como paratest
531
xcalcular
= arroja xelen =un valor
intervalos
mismo de
valor confianza
P que elpara 2 =la
contraste 1,223
propia mmol/l.
de recta
regresin de regresin
del ejemplo + x.
anterior Ms 30
resulta
desviacin
As, i
por ejemplo,
10obtiene tpica ccon P
=10 bilateral
3,50
un2 los 2P(t
kg/mdeenconfianza
nivel 531 -6,63)
el ndicedel 2(-6,63)
de masa
95%, corporal
los < 0,001.
se asocian
incrementos0 Notar
1
de unacon una 2P(t531
ya
que que
este
se i =1
realizar multiplicando
6,63) =inferencias
P(t 531 6,63cb
1acercat = P(F
)n-2,1- lmites
de/2losSE(cb del )
parmetrosintervalo
= c{b tpara
1 poblacionales por
SE(b dicho
)}. incremento,
1correspondientes. A
1,531 43,93).
2 1 n-2,1-/2 1
concretamente,
test arroja eltpica
disminucin
desviacin dado
mismo
media un determinado
3,50 P
valor
c =poblacional kg/mqueen 2 el
enelvalor
contraste x
elcolesterol
ndice de
0 de la variable
de regresin
HDL
masa de explicativa,
del ejemplo
entre
corporal 3,500,016
se asocian se pretende
anterior
=con ya
0,057
una
continuacin se describen
cb1 untn-2,1- los principales
SE(cb estimadores
= c{bdel tn-2,1-de de la tendencia de una de una
central
La media aritmtica
10.3.4 As,
presenta porlas
Bandas ejemplo,
siguientes
de con
confianza ynivel
propiedades: /2de
prediccin 1) para
confianza 1 recta
la 95%, /2SE(b
los 1)}.
incrementos
regresin
obtener un intervalo de confianza 2 para 2el valor esperado + x de la variable
yque 2P(t531 media
3,500,030
disminucin =-6,63) P( t 531 Por
=mmol/l.
0,105poblacional 6,63
ensupuesto, = P(F1,531
el) colesterol estaHDLdisminucin
43,93).de0 entre 1 es estadsticamente
03,500,016 = 0,057
Adems variable.
de realizar
desviacin tpicainferencias
csuma
= 3,50 sobre
kg/m 2
los
en parmetros
el andice de masa y , es
corporal a menudo
se asocianinteresante
con unacalcular
Cambio de origen (traslacin).
As, porEl Si
ejemplo, se conpuntual una constante
un niveldedeeste confianza cada uno
del 95%, 0 de los datos
losy incrementos
1
de yuna
respuesta.
intervalos de estimador
confianza para la propia
y 3,500,030 = 0,105 mmol/l. Por supuesto, esta disminucin recta valor
de esperado
regresin es + x.= b
Ms + b x =
concretamente,
es estadsticamente
0 1 0 + b1(xdado
0- un
0 01
30
determinado
de una muestra, disminucin
1.2.1 de
la desviacin
media valor
Media x0aritmtica
media
latpica
muestradec la variable
=poblacional
resultante kg/mexplicativa,
en
2es elelpara
enigual a lase
colesterol pretende
HDL de obtener
entre unasocian
intervalo
3,500,016 deuna
= 0,057 confianza
10.3.4 Bandas de confianza 3,50y prediccin ndice lamedia
recta
de masa inicial
decorporal ms la
regresin se con
parax el valor
) que, esperadoun0razonamiento
siguiendo + 1x0 de la anlogo variable al respuesta.
del apartado El estimador
anterior, presentapuntual una de este
30 valor
esperado
constante utilizada; y La
si yes =
3,500,030
media x =+ bc ,
= + b
aritmtica,
entonces
0,105 x =denotada
y
mmol/l. += bx (x
Por +porc
. x
Un
supuesto,), que,
se
cambio
colesterolHDL siguiendo
define
esta de como
origen
disminucin un
la razonamiento
suma
que es de cada = 0,057 al del
uno
estadsticamente anlogo
de los
dei realizar 0 y 1de
Adems disminucin 0i 0 inferencias
media 1 poblacional
0 sobre1 los en0 el parmetros , esentre a menudo
3,500,016 interesante
distribucin
apartado anterior, aproximadamente
presenta unanormal en muestras
distribucin suficientemente grandes,
aproximadamente normal con en media
muestras
se realiza concalcular
frecuenciavalores
suficientemente muestrales
grandes,
es el centrado condividida
de media
la para por
variable, el nmero
que consiste de observaciones
en realizadas.
restar a es+ estadsticamente Si denotamos
30
intervalos
y 3,500,030 =de0,105
confianza mmol/l. Por la supuesto,
propia rectaesta dedisminucin
regresin 0 1x. Ms
E( y 0 ) = E( y ) + E(b1 )(x0 x ) = 0 + 1 x + 1 (x0 x ) = 0 + 1 x0
por nsuelmedia.
cada valor deconcretamente,
la muestra tamaoLa muestral
media de y poruna xvariable
i el valorcentrada observado ser, para porel sujeto i-simo, i = 1, ..., n,
dado un determinado valor x0 de la variable explicativa, se pretende 30
la media vendra dada por
tanto, igual a 0. y varianza Pastor-Barriuso R. 175
obtener un intervalo de confianza para el valor esperado 0 + 1x0 de la variable
Cambio de escala (unidades). Si se multiplica cada uno
1 de
n los datos de una
x + x + ... + x
respuesta. El estimador puntual de este valor x i = 1 2 es2 y2 0 1= b0n(+x.0b
esperado 1x0x )= y + b1(x0 -
2
x =
explicativa. Esta banda de1.2
confianza
MEDIDASest DE
delimitada por las ramas
TENDENCIA de una hiprbola y su
CENTRAL
es sensiblemente
explicativa, sino tambin ms precisopara quelaentre
predecir media vendra
aquellos con dada por y0 de
un ndice de un masa corporal
de la variable respuesta 1,69para 0,02332
un determinado la1,960,024
respuesta
sujeto =
individual
con (0,90; 1,00).
x = xEjemplo viene dado
nuevo
1.4 En poreste
sujeto
y =y en +los sucesivos ejempl
conforme x0 se aleja de la media x = 26,0 kg/m2 del ndice0 de masa corporal.0 As,0
El valor
rea 2 gris oscuro Ejemplo 1.4 En este y en loslasucesivos deejemplos sobre estimadores muestrales
dadode su 32 kg/men x,0. Segn la estructura de la Figura del 10.9modelo representa
de regresin banda lineal, confianza
el valor al 95%
subyacente
1xpor
La 0recta 0, de
+ ejemplo, cuyoregresin
estimador puede insesgado utilizarsedenonuevo slo para y 0 =colesterol0 + butilizarn
bestimar 1x0la yaxmedia
n
valores1 delx 2colesterol
1los poblacional x + + ...la+ x n HDL obten
de
el IC al 95% para el es valor medio del HDL que
= entre xlos
i = sujetos .
variable respuesta
para todarespuestaentre los
la recta de sujetos utilizarn
regresin con un
del los valores
determinado
colesterol del colesterol
valor x de HDL
la variableobtenidos
n en
explicativa, los
32 10
n primeros
sino sujetos
de la variable para
[Figura un determinado
10.9 aproximadamente sujetoHDL con aqu] xsobre
= xestudio
0 el ndice
0 viene Europeandado depor
i =1 masa = 0 +on Antioxidants, Myo
y0Study
tambin para predecir la respuesta individual y0 de 2 un nuevo sujeto dado su valor x0. Segn la
con un ndice de E(ymasa - ycorporal +de
= 0lineal, 25 kg/m E(0,)Study - 0 - on 1xAntioxidants, E(la0variable
estructuracorporal,
del modelo de 0 regresin0 )estudio 1x0el+valor
European subyacente 0 =de ) = 0.Myocardial respuesta Infarction
para un and Cancer o
x + , cuyo que se obtiene
estimador insesgado de calcular es de
La estos
nuevo
media intervalos
y
es la= b
medida + enb1sucesivos
xde ya que
tendencia valores dentro
central ms
determinado sujeto con x = x0 viene dado por y0 = 0 + 1x0 + the
1 0 0 0 0 , cuyo
0 Breast estimador (EURAMIC), insesgado unutilizada
estudio ymulticnt
es de ms
La recta de regresin puede utilizarse no slo para estimar la0 media poblacional de la
de nuevodel
Asimismo,
b x ya1,69
b0 + observado
0 =rango quedel
como 1el0 valor estimado
-the
0,02325
Breast
ndice depor 1,960,013
(EURAMIC),
masa
yinterpretacin. corporal.
la recta
= (1,09;
de
un Los
regresin
Corresponde
estudio 1,14),multicntrico
lmites en
al de
x es
centro esta banda
independiente
de
dede casos y controles realiza
gravedad de losEuropeos
datos deelaI
0 entre 1991 y 1992 en ocho pases
0
variable respuesta entre E(ylos0 sujetos
y 0 ) = 0con + un + E( 0 ) 0 valor
1 x0determinado 1 x0 x=0 E( dela 0 ) variable
= 0.
confianza tienen forma entre 1991 y 1992
de hiprbola en ocho pases Europeos e Israel para evaluar el efecto de lo
es sensiblemente ms preciso entre yaquellos
queprincipal sulimitacin
amplitud con un aumenta
ndice gradualmente
de masainfluenciada
corporal
de la nueva observacin
Asimismo, como el valor estimado y 0 , se sigue0 por la recta de regresin en x0 es independiente por
que es que est muy de lalos valores extre
explicativa, sino tambin para predecir la respuesta individual y 0 de un nuevo sujeto
nueva observacin 2 y0el, sealeja
sigue
Asimismo,
de conforme
32 kg/m como , x0 sevalor deque
estimadola media y 0 xpor= la
caso, puede 26,0 recta kg/m de 2regresin
no ser del un fiel ndice endex0masa
reflejo
es independiente
de lacorporal.
tendenciaAs, central de la distribuc
2 ) subyacente
2
dado su valor x0. Segn la estructura del modelo de regresin 1lineal, ( x 0 el xvalor
por ejemplo, var(yel0 ICyal 0y ),95%= var( 0) +
para elvar(valory 0medio
) = del 1 +colesterol + HDL ;
2 entre los sujetos 32
de la nueva observacin 0 se sigue que n ( n 1 ) s
x
de la variable respuesta para un determinado sujeto Ejemplo con1.4 x =Enx0este viene y en dado lospor y0 = 0 ejemplos
sucesivos + sobre estimado
con un ndice de masa corporal de 25 kg/m2,
2 1 la (recta x 0 xde) 2regresin
1xes
0 + decir,
0 , cuyola prediccin
var(y
estimador 0 - dey una
)
insesgado
0 = nueva
var(
es 0 ) observacin
de + var(
nuevo utilizarn
y 0 0)y= a
= partir
b
los
0 1+ + bde
valores
1 0x + ya del
quecolesterol 2
; HDL obtenidos en los 10 pri
n (n 1) s x
176 Pastor-Barriuso R. 1,69 - 0,02325 1,960,013 = (1,09; 1,14),
estimada est sujeta a dos fuentes de error:estudio la varianza European inherente Study de on cada respuesta Myocardial Infarction
Antioxidants,
E(y0 - y 0 ) = 0 + 1x0 + E(0) - 0 - 1x0 = E(0) = 0.
es decir,
individual larespecto
prediccin
es sensiblemente a ladems una
recta nueva
preciso
de que
regresinobservacin
entre a partir
aquellos
subyacente con eldeerror
unla ndice
recta
en lade de regresin
masa corporal
the Breast y(EURAMIC), unestimacin
estudio de
multicntrico de casos y co
explicativa, sino tambin para predecir la respuesta individual y0 de un nuevo sujeto
Regresin lineal simple
dado su valor x0. Segn la estructura del modelo de regresin lineal, el valor subyacente
1x0 + 0, cuyo
2
estimador insesgado es de nuevo y 0 = b0 + b1x0 ya que
1,5
1 ( x0 x ) 2
var(y0 - y 0 ) = var(0) + var( y 0 ) = 1 + +
2
;
n (n 1) s x2
0,5
0,25
es decir, la prediccin de una nueva observacin a partir de la recta de regresin
20 24 28 32 36
estimada est sujeta a dos fuentes de error: la varianza inherente de cada respuesta
Indice de masa corporal (kg/m)
individual respecto a la recta de regresin subyacente y el error en la estimacin deFigura 10.9
Figura 10.9 Bandas de confianza (rea en gris oscuro) y prediccin (rea en gris claro) al 95% para la recta
de regresin del colesterol
dicha recta. Adems,HDLsi elsobre el ndice
trmino de masa
de error corporal
0 se en el grupo
distribuye control
de forma del estudio
normal EURAMIC.
(asuncin
de normalidad),
es decir, la diferencia
la prediccin de una nueva y 0 tambin seguir
y0 - observacin a partir una
de ladistribucin normal,estimada
recta de regresin de tal est
sujeta a dos fuentes de error: la varianza inherente de cada respuesta individual respecto a la
recta de regresin
forma subyacente
que el intervalo y el error al
de prediccin en100(1
la estimacin
- )% parade una
dicha recta.observacin
nueva Adems, si el trmino
de error 0 se distribuye de forma normal (asuncin de normalidad), la diferencia y0 0 tambin
seguir una distribucin
individual y0 es normal, de tal forma que el intervalo de prediccin al 100(1 )% para
una nueva observacin individual y0 es
2
1 ( x0 x )
b0 + b1 x 0 t n 2,1 / 2 s 1 + + .
n (n 1) s x2
La banda de prediccin viene entonces determinada por estos intervalos de prediccin en los
33
distintos valores observados x0 de la variable explicativa. En general, la banda de prediccin
ser substancialmente ms amplia que la banda de confianza, particularmente cuando el tamao
muestral es grande, lo que refleja el hecho de que existe mucha ms incertidumbre en la
prediccin de la respuesta individual de un nico sujeto que en la estimacin del valor medio de
la variable respuesta para todos los sujetos con un mismo valor de la variable explicativa.
Cabe destacar, por ltimo, que los intervalos de confianza para el valor esperado de la
variable respuesta se basan nicamente en las asunciones de linealidad y homogeneidad de la
varianza, mientras que los intervalos de prediccin para una nueva observacin requieren
adems de la hiptesis de normalidad, siendo estos ltimos incorrectos si la distribucin
subyacente de la variable respuesta no es normal.
Ejemplo 10.11 A partir del modelo de regresin lineal del colesterol HDL sobre el
ndice de masa corporal se tiene que el intervalo de prediccin al 95% para el nivel de
colesterol HDL de un sujeto con un ndice de masa corporal x0 es
Pastor-Barriuso R. 177
Ejemplo 10.11 A partir del modelo de regresin lineal del colesterol HDL sobre el
1 ( x 26,0) 2
1,69 0,023 x 0 1,96 0,283 1 + + 0 .
533 532 3,50 2
El clculo de estos intervalos en distintos valores x0 del ndice de masa corporal da lugar
a laclculo
El banda de prediccin en grisenclaro
estos intervalos de la valores
distintos Figura 10.9.
x0 delAlndice
igual de
quemasa
la banda de confianza,
corporal
la banda de prediccin est centrada alrededor de la recta de regresin estimada, pero su
amplitud
da lugar aeslanotablemente mayor alenincorporar
banda de prediccin gris claro la
devariabilidad de cada
la Figura 10.9. respuesta
Al igual que laindividual
respecto a su valor esperado. Por ejemplo, el intervalo de prediccin al 95% para el nivel
de colesterol
banda HDL delaun
de confianza, sujeto
banda decon 25 kg/mest
prediccin 2
de centrada
ndice dealrededor
masa corporal vienede
de la recta dado por
1,69 0,02325 1,960,284 = (0,56; 1,67),
regresin estimada, pero su amplitud es notablemente mayor al incorporar la
que es mucho ms impreciso que el intervalo de confianza calculado en el ejemplo anterior
que
paraes
el mucho
valorde
variabilidad ms
cadaimpreciso
medio del que
colesterol
respuesta el
HDLintervalo
individual de los
enrespecto
todos confianza
valorcalculado
sujetos
a su con dichoen
esperado. el del ndice de
valor
Por
masa corporal (IC al 95% 1,09-1,14 mmol/l).
ejemplo anterior
ejemplo, parade
el intervalo el prediccin
valor medioaldel
95%colesterol HDLde
para el nivel encolesterol
todos los HDL
sujetos
decon
un
10.3.5 Evaluacin de las 2 asunciones del modelo de regresin lineal simple
dicho valor
sujeto con 25del ndice
kg/m dede masade
ndice corporal (IC al 95%
masa corporal viene 1,091,14
dado pormmol/l).
Los procedimientos de estimacin e inferencia derivados en los apartados anteriores se basan
en las asunciones de linealidad, homogeneidad de la varianza y normalidad. La violacin de
estas asunciones
10.3.5 Evaluacin puede
de las darasunciones
lugar a conclusiones
del modelo errneas del modelo
de regresin lineallineal,
simple 34
siendo as necesario
evaluar su idoneidad en cada aplicacin prctica. Aunque existen diversos tests para contrastar
curvilneas y con similar dispersin a lo largo de toda la recta. Tal parece ser el caso del
estadsticamente
Los procedimientos cada
de una de las hiptesis
estimacin e inferencia delderivados
modelo lineal
en los (vase
apartados referencias
anterioresalsefinal del
tema), en este apartado se presentan algunas tcnicas diagnsticas basadas en el anlisis grfico
diagrama de dispersin entre el ndice de masa corporal y el colesterol HDL de la
de los en
basan residuos, proponindose
las asunciones asimismo
de linealidad, extensiones bsicas
homogeneidad del modelo
de la varianza y transformaciones
y normalidad. La de
los datos para acomodar posibles desviaciones de estas asunciones. En particular, se presta
Figura 10.7, donde no se aprecian desviaciones obvias de estas asunciones. En la Figura
especial atencin
violacin a las hiptesis
de estas asunciones puede dedarlinealidad y homogeneidad
lugar a conclusiones de la
errneas delvarianza,
modelo ya que las
principales inferencias relativas a la pendiente de la recta de regresin y al valor esperado de la
10.2(d), sin embargo, se muestra un claro ejemplo de violacin de la asuncin de
variable
lineal, respuesta
siendo son aproximadamente
as necesario evaluar su idoneidad vlidas en encada
muestras moderadamente
aplicacin prctica. Aunque grandes aunque
la distribucin subyacente de la variable respuesta no sea normal.
linealidad, ya que la relacin subyacente es visiblemente cuadrtica. No obstante, el
existen diversos
El grfico mstests
simplepara contrastar
para evaluar estadsticamente
el grado de cumplimiento cada unade delas
lasasunciones
hiptesis del de la regresin
grfico
lineal simplems esutilizado
el diagrama parade chequear
dispersin las entre
asunciones de la regresin
las variables explicativalineal es el diagrama
y respuesta, junto con
modelo lineal
la recta de (vase estimada.
regresin referenciasSialsefinalcumplen del tema), en este apartado
las hiptesis se presentan
de linealidad y homogeneidadalgunas de la
de dispersin
varianza, los puntosde los diagramaei de
delresiduos = ydispersin
i - y i frente hana los valores predichos
de distribuirse y i = b0 +alrededor
aleatoriamente b1xi por de
tcnicas
la recta dediagnsticas
regresin sin basadas en elde
evidencia anlisis grfico
relaciones de los residuos,
curvilneas proponindose
y con similar dispersin a lo largo
de la
toda la de
recta recta. Tal parece
regresin. Este ser el caso
grfico del diagrama
es equivalente de dispersin
al diagrama entre elentre
de dispersin ndicexi ede
yi masa
asimismo
corporal yextensiones
el colesterolbsicas
HDL de dellamodelo
Figuray10.7, transformaciones
donde no se de los datos
aprecian para
desviaciones obvias de
estas
enasunciones.
regresin linealEn lasimple,
Figurapero10.2(d),
tienesin embargo,
la ventaja de se
sermuestra un claro
directamente ejemplo deaviolacin
generalizable la
acomodar
de la asuncinposiblesde desviaciones
linealidad, yadeque estasla asunciones. En particular,
relacin subyacente se presta especial
es visiblemente cuadrtica. No
obstante,
presenciael grfico
de ms de msuna utilizado
variablepara chequear
explicativa en las asunciones
regresin lineal de la regresin lineal es el
mltiple.
atencin
diagramaade lasdispersin
hiptesis de de los
linealidad
residuosy ehomogeneidad
= y frente de
a la varianza,
los valores ya que las = b + b x por
predichos
i i i i 0 1 i
la recta de regresin.
Antes de proceder Este grfico grfico
al anlisis es equivalente al diagrama
de los residuos, de dispersin
es importante describirentre xi e yi en
algunas
principales
regresin linealinferencias
simple,relativas
pero tiene a la
la pendiente
ventaja de de serladirectamente
recta de regresin y al valor
generalizable a la presencia de
msdedesusunapropiedades.
variable explicativa en regresin
Bajo las hiptesis lineal mltiple.
de linealidad y homogeneidad de la varianza, los
esperado de la variable respuesta son aproximadamente vlidas en muestras
Antes de proceder al anlisis grfico de los residuos, es importante describir algunas de
sus residuos
propiedades.ei = yiBajo
- y i las
tienen un valor
hiptesis de esperado
linealidadsubyacente
y homogeneidad de la varianza,
moderadamente grandes aunque la distribucin de la variable respuestalos noresiduos
ei = yi i tienen un valor esperado
sea normal. E(ei) = E( yi) E( y i ) = 0
predichos 1yEn n
no x1 + xapreciar
permite + ... xclaramente
+casos las posibles
predichos
x= y no
En permite
determinados
determinados
quex ipresentarn
leverage),
i i = ambosentonces 2apreciarcasos
residuos
nclaramente
el grfico
el
. pequeos grfico de
ei y ri se comportan las los
de posibles
residuos residuos
los edesviaciones
residuos
estandarizada i.de
desviaciones
Por estandarizados
forma estandarizados
ello, de y la
anloga.
dede
con las rasunciones
las
distancia
objeto asunciones
i frente
ri frente
deentrea los
que alos valores
los
cada valores
valor xi de la variable exp
n
que se obtienen 1.2.1
i = 1 n
de dividir Media residuos ei por una estimacin de su desviacin tpica. El trmino hi
losaritmtica
se
dedelinealidad
linealidad que
predichos
predichos
conoceyyEn se obtienen
y
como
homogeneidad
homogeneidad
determinados
i no
y iel no de
permite dividir
permite
leverage de casos los
de apreciar
la lade apreciar
una
varianza.
varianza.
el residuos
claramente
observacin
grfico ParaParadeeobtener
claramente por
las
yresiduos
iobtener
los que esuna
posibles
las
se una estimacin
posibles
una
tratar medida desviaciones
en desviaciones
representacin
representacin
estandarizados de su desviacin
elestandarizada
apartado ms de
rms las
dedelas
clara
i frenteclara
siguiente. tpica.
asunciones
asunciones
laa distancia
los No Elentre si el tamao
obstante,
valores 36
cada valor x de La
a medida de tendencia central ms utilizada y de ms fcil
i la variable
media explicativa
aritmtica, y
denotada su media por x ,quese se
define tratar como en el
la apartado
suma de siguiente.
cada uno deNo los
enentales trmino
talescircunstancias,
circunstancias,
obstante,
de predichos
linealidad
de linealidad h sees conoce
es aconsejable
si elyy ihomogeneidad
i tamaoaconsejable
ynohomogeneidad como
muestral el
dividir
de la leverage
dividir loslos
es varianza.
de grande
la n n
varianza. de una
residuos
residuos
yPara
no no
hay observacin
Para r
hay r en
valores
obtener en K K grupos
valores
iobtener grupos
muy
una y es
muy una
dede
extremos
representacin
una medida
tamao
tamao
extremos
representacin de las n n
lams de
kvariable
msla clara
clara variable
explicativa (observac
permite apreciar claramente las posibles
i desviaciones de k asunciones
explicativa valores
(observaciones
orresponde al centro de gravedad de los datos de la muestra. Su muestrales
con alto dividida
leverage), por el
ambos nmero de
residuos observaciones
e i y r i se realizadas.
comportan de Si denotamos
forma
ordenados
ordenados estandarizada
porpor
anloga. valores
valores de
crecientes
crecientes la distancia
de de y y (por entre
(por cada
ejemplo,
ejemplo, valordeciles)
deciles)
leverage), x de
n residuos y la
y variable
calcular
calcular
ambosri residuos la explicativa
la
ri K media
media ei y rde y
i se
su media
decomportan x
k nkde forma anloga.
en de tales circunstancias,
en linealidad
tales circunstancias, es aconsejable
es iaconsejable de la dividir dividir losPara los nobtener
residuos en en grupos
K grupos tamao ms nclara
tamao
i
y homogeneidad i varianza. una representacin
por n
n es que est muy influenciada por los valores extremos y, en este el tamao muestral y por x i el valor observado para el sujeto i-simo, i = 1, ..., n,
En
que determinados
se tratar en el casos
apartado el grfico
siguiente. de Nolos residuos
obstante,
En determinados estandarizados
si el tamao casos muestral r
el la frente
grfico es a
grande
de los valores
y
los residuos
ordenados tales por
ordenados valores
por valores crecientes
crecientes de de ykin (por
y idividir
(por ejemplo, ejemplo, n deciles) deciles) yrcalcular
y calcular media
la media nk de estandarizado
i
en
predichos circunstancias, es aconsejable 11 npor laslos residuos i en K grupos de lasdeasunciones
tamao
i nolapermite media apreciar
vendra dadaclaramente posibles desviaciones
k
variable
dedeloslosresiduos bsica.
residuos enencadacadauno unodedelos losgrupos.
grupos.LaLapresencia
presenciadedecurvatura
curvaturaenenelelgrficogrficodedeloslos
residuos estandarizados por deciles de los valores predichos. La Figura 10.10(b) de los
residuos
residuos
residuos mediosrkrkfrente
medios
medios frenteaaalos
frente losvalores
los valorespredichos
valores predichosmedios
predichos mediosy kyde
medios kenen losdistintos
los
cada distintos
decil grupos
grupos
muestra indicios
1.2 MEDIDAS DEde TENDENCIA CENTRAL
antioxidantes en el riesgo de desarrollar
una posible relacin cuadrtica
[Figura 10.10 entre el ndice de masa
aproximadamente aqu] corporal y el colesteroldeHDL,
un primer infarto agudo miocardio en
ya quefalta
indicar
indicar los
faltaresiduos del modelo
dedelinealidad
linealidad lineal
enenlalarelacin,
relacin, tienden a serque
mientras
mientras positivos
que para valores
lalaexistencia
existencia predichos
dedetendencia
tendencia enenelaltos
el
Las medidas de tendencia y bajos central
del colesterol hombres
informan HDL adultos.
y negativos
acerca Los
de cul paravalores obtenidos
es elvalores
valor ms fueron
predichos 0,89, 1,58, 0,79,
intermedios. Por otra
representativo 1,29, 1,42, 0,84,
parte,
en la Figura 10.10(c) no [Tabla 10.4 aproximadamente
se aprecian desviaciones deaqu] la asuncin de homogeneidad de la
de una determinadavarianza, variable o, dadodicho 1,06,
quedelas 0,87, 1,96
desviaciones
forma y 1,53
equivalente, mmol/l.
tpicas La
estosresiduales media
estimadores sk de
son lossimilares
indican niveles del en colesterol
los distintosHDL en
3737
deciles de los valores predichos.
alrededor de qu valor se agrupanms estos
los datos 10 observados.
participantesLas es
La alternativa
Ejemplo 10.13 Lossimple nivelespara acomodar medidas
de -tocoferol una de tendencia
relacin
y -caroteno cuadrtica entre el ndice de masa
en tejido adiposo
corporal y el colesterol HDL es extender el modelo lineal a un modelo polinomial de segundo
central de la muestra sirven tanto = para resumirx2los resultados
1 10 elobservados 1,como
58 + ...para
0,89 +cuadrtico +x21adems
,53
orden
presentan E(Y|x) 0 + 1x + asimtricas
distribuciones 2 , que incluye
x = enlos
trmino
x i 700
= controles del estudio=EURAMIC,
del trmino lineal
1,223 mmol/l.
x del ndice de masa corporal. La relacin 10 i =1 resultante entre 10 ambas variables ya no ser una
realizar inferenciaslnea acercarecta de los sinoparmetros
una poblacionales
parbola, cuya correspondientes.
curvatura vendr A
determinada porLaelmedia
coeficiente 2
con un marcado sesgo positivo en el caso del -caroteno (Figura 4.3). y
asociado
residuos sean comparables al trmino
a distintos niveles cuadrtico. El ajusteesdepreferible
de la variable explicativa, los modelos polinomiales se tratar en el Tema
continuacin se describen 11 ya que losestos
principales
modelos estimadores
pueden considerarsede la tendencia como centralparticulares
casos de una de la regresin lineal
la del
desviacin La media
tpicalosdel aritmtica
-tocoferol presenta
son x = 146,1las siguientes
y sx = propiedades:
87,6 g/g y del -
realizar el diagnstico modelo mediante residuos estandarizados
mltiple cuyas variables explicativas son distintas potencias de una misma variable bsica.
variable.
Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos
caroteno y = 0,37ei ys = = 0,40
ei g/g, y el coeficiente de correlacin de Pearson
Ejemplo 10.13 Los 2yniveles
r i =
s 1
de, a-tocoferol y b-caroteno en tejido adiposo presentan
hi
1 ( xi x )
1.2.1 Media aritmtica distribuciones de una muestra,
s 1 asimtricas
n (n 1) s x2
en losla700 media de la muestra
controles resultante
del estudio EURAMIC, es igual cona la
unmedia
marcado inicial ms la
entre ambas variables es r = 0,45. A partir de estos datos
sesgo positivo en el caso del b-caroteno (Figura 4.3). La media y la desviacin tpica del se estima que la recta de
La media aritmtica, denotada por
a-tocoferol son xconstante
,=se define
146,1
que se obtienen de dividir los residuos ei por una estimacin
scomo
yutilizada;
x= 87,6 lasimg/g
suma
yi = yxde +cada
idel
de su desviacin tpica. El
uno de los
cb-caroteno
, entonces y == 0,37x + yc.syUn cambio
= 0,40 mg/g,deyorigen
el que
regresin del -caroteno sobre el -tocoferol es
coeficiente de correlacin de Pearson entre ambas variables es r = 0,45. A partir de estos
valores muestrales
trmino datos
hi se conocedividida
como el seleverage
estima
por el de que
nmero la
unarealiza
se recta
de con
observacin deyfrecuencia
regresin
es una medidadel
observaciones b-caroteno
realizadas.
es el centrado sobre
Si denotamos el a-tocoferol
de la variable, es
que consiste en restar a
estandarizada de la distancia entre cada valor xi de la variableyexplicativa = 0,072y +su 0,0021x,
media x
por n el tamao muestral y por xi el cada valorvalorobservado
de la para el sujeto
muestra su i-simo,
media. i = 1,de
La media n, variable centrada ser, por
...,una
con una desviacin tpica residual de los niveles de b-caroteno alrededor de dicha recta de
que se tratar en el apartado siguiente. No obstante, si el tamao muestral es grande y
s = 0,36 mg/g. El error estndar de la constante es SE(b0) = 0,026 y de la pendiente SE(b1) =
la media vendra dada conporuna desviacin tpica
tanto, igualresidual
a 0. de de los niveles de -caroteno alrededor de dicha
no hay valores muy0,00015.
extremos deAs, se tiene
la variable que
explicativaincrementos
(observaciones una
con altodesviacin tpica (87,6 mg/g) en el a-tocoferol
se asocian con un aumento deanloga.
87,60,0021 = 0,18 mg/g en el nivel medio de b-caroteno, con
recta ede i y rsi se
= comportan g/g.
0,36Cambio El es SE(b0) = uno 0,026 deylosde datos
la
x1deerror
x 2 +estndar
+ x n de laconstante
leverage), ambos residuos de forma escala
un IC al 95% comprendido 1 n +entre ...(unidades).
87,6(0,0021 Si se multiplica
1,96 0,00015) =cada (0,15; 0,21). de una
x
En determinados casos el grfico denlos
= =1residuos
x i =
n sertiene
estandarizados
.
i frente a los valores
pendiente SE(b1i)muestra = 0,00015. por unaAs, constante,que la incrementos
media de la 0,5 de una desviacin
muestra resultante es igual a la media
4
predichos y i no permite apreciar claramente las posibles desviaciones de las asunciones
k r 0
de linealidad y homogeneidad de la varianza. Para obtener una representacin ms clara
1,2
-caroteno (g/g)
sk 1
y la varianza
0 0
0 100 1 nk 2
s k2 = 200 ri 300 400 0,1 0,3 0,5 0,7
n k i =1
-tocoferol (g/g) yk
(a) (c)
de los residuos en cada uno de los grupos. La presencia de curvatura en el grfico de los
Figura 10.11 Regresin lineal del -caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC (a), junto
con las medios
residuos medias rk (b) y desviaciones
frente a los valorestpicas sk (c)medios
predichos de los residuos
y k en losestandarizados por deciles de los valoresFigura
distintos grupos predichos.
10.11
indicar falta de linealidad en la relacin, mientras que la existencia de tendencia en el Pastor-Barriuso R. 181
37
El segundo procedimiento para tratar con varianzas heterogneas es encontrar una
Correlacin y regresin lineal simple
lineal
En a esta variable
presencia transformada.
de heterogeneidad de La seleccinlos
la varianza, de estimadores
la transformacin adecuada
puntuales b0 y bsuele
1, as como
la propia recta de regresin estimada = b0 + b1x, continan siendo insesgados, pero la varianza
basarse
residual en lasesgada
s2 est relacinyaexistente entre la varianza
que infraestima residual
la variabilidad deylaelvariable
valor esperado
respuesta dealrededor
la de
unos puntos de la recta de regresin y la sobreestima en otros. En consecuencia, los errores
variable
estndar de respuesta. En el caso
los estimadores no sonms frecuente
correctos de que
y sus la desviacin tpica
correspondientes residual
intervalos tienda a y
de confianza
tests de hiptesis dejan de ser vlidos. En general, existen dos procedimientos alternativos para
aumentar
tratar linealmente
con varianzas con el valor
heterogneas. El predicho (tal como
primer mtodo ocurre
consiste enenrealizar
la regresin del - lineal
una regresin
ponderada, que es una extensin del modelo lineal ordinario donde cada observacin de la
caroteno
variable sobre el
respuesta -tocoferol),
recibe la heterogeneidad
un peso inversamente de la varianza
proporcional se resuelve
a su varianza utilizando
estimada la
alrededor
de la recta de regresin. As, cuanto ms precisa sea una observacin, mayor ser su peso en la
transformacin
estimacin de la rectalogartmica
de regresin.
, dadoEnque
el ejemplo anterior,
el logaritmo de la la regresin
respuesta linealentonces
tendr ponderada unadel
b-caroteno sobre el a-tocoferol otorgara ms peso a los puntos con valores bajos del a-tocoferol
quevarianza
a aquellos con valores altos,
aproximadamente ya que los
constante. Estaprimeros presentan
transformacin menor variabilidad
logartmica produce elen el nivel
de b-caroteno. Las tcnicas de regresin lineal ponderada pueden consultarse en los textos
mismo efecto
especficos en cualquier
de regresin base
citados en yeste
slo puede aplicarse a variables respuestas positivas.
tema.
El segundo procedimiento para tratar con varianzas heterogneas es encontrar una
Adems de homogeneizar la varianza, la transformacin logartmica tambin suele
transformacin de la variable respuesta que estabilice la varianza y ajustar el modelo lineal a
esta variable transformada. La seleccin de la transformacin adecuada suele basarse en la
emplearse para normalizar variables respuestas sesgadas positivamente, as como para
relacin existente entre la varianza residual y el valor esperado de la variable respuesta. En el
caso ms frecuente de que la desviacin tpica residual tienda a aumentar linealmente con el
linealizar relaciones con pendiente montonamente creciente.
valor predicho (tal como ocurre en la regresin del b-caroteno sobre el a-tocoferol), la
heterogeneidad
Para volver ade la
la el varianza
escala se resuelve
original, se tomautilizando la transformacin
la exponencial logartmica, dado que
Aun cuando uso de una respuesta logartmica est en ambos lados
plenamente de esta igualdad,
justificado en
el logaritmo de la respuesta tendr entonces una varianza aproximadamente constante. Esta
transformacin
resultando logartmica
que la media produce el mismo efecto en cualquier base y slo
comopuede
la aplicarse a
trminos estadsticos, losgeomtrica
resultados de
dellamodelo
variable respuesta
transformado (definida
han de interpretarse en la
variables respuestas positivas. Adems de homogeneizar la varianza, la transformacin
logartmica
exponencial tambin
de de suelede los
la media emplearse paravase
logaritmos; normalizar
Apartado variables respuestas
funcinquesesgadas
escala original la variable respuesta. El modelo en escala1.2.3) es una
logartmica asume el
positivamente, as como para linealizar relaciones con pendiente montonamente creciente.
exponencial
Aun
valorcuando
esperado de la
el delvariable
uso de unaexplicativa,
logaritmo respuesta logartmica
de la variable est
respuesta plenamente
Y cambia justificado
linealmente con en
la trminos
estadsticos,
Para volverlosa resultados del modelo
la escala original, transformado
se toma han de
la exponencial eninterpretarse
ambos ladosen de la escala
esta original
igualdad,
de variable
la variable respuesta. El modelo en escala logartmica asume
explicativa X, EG(Y|x) = exp{E(logY|x)} = exp(0 + 1x). que el valor esperado del
logaritmo de laque
resultando variable respuesta
la media Y cambia
geomtrica de lalinealmente con la variable
variable respuesta como la X,
(definidaexplicativa
0,5 ei ei 1,6
0 ri = = ,
1 ( xi x ) 2 s 1 hi
-caroteno (g/g)
s 1 1,2
log(-caroteno)
n (n 1) s x2
-1
0,8
que se obtienen de dividir los residuos ei por una estimacin de su desviacin tpica. El
-2 0,4
trmino hi se conoce como el leverage de una observacin y es una medida
-3 0
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x
0 100 200 300 400 0 100 200 300 400
que se tratar en el apartado siguiente. No obstante,
-tocoferol (g/g) si el tamao muestral es grande y-tocoferol (g/g)
no hay valores muy extremos de la variable (a)explicativa (observaciones con alto (b)
Figura 10.12 Recta de regresin del logaritmo del -caroteno sobre el -tocoferol en el grupo control del
leverage),estudio
ambos EURAMIC ri se
residuos ei y(a) comportanexponencial
y tendencia de forma anloga.
resultante en la escala original del -caroteno (b).
2
de linealidad y homogeneidad rk clara
de la varianza. Para obtener una representacin ms 0
en tales circunstancias,
1 es aconsejable dividir los n residuos ri en K grupos de tamao nk
-0,5
-2 -1,5 -1 -0,5
ordenados por
ri valores
0 crecientes de y i (por ejemplo, deciles) y calcular la media
(b)
-1 nk 1,5
1
rk =
nk
r
i =1
i
-2 sk 1
y la varianza -3
0,5
-2 -1,5 -1 nk -0,5 0 0,5 -2 -1,5 -1 -0,5
1
s k2 =
nk
yrii2
i =1
yk
(a) (c)
de los residuos
Figuraen10.13
cada uno de los
Grfico degrupos. La presencia
los residuos de curvatura
estandarizados en aellos
ri frente grfico depredichos
valores los i de la regresin lineal
del logaritmo del -caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC (a), junto Figuracon
10.13las
medias rk (b)
residuos medios frente a los valorestpicas
y desviaciones predichos
sk (c)medios y k en los
de los residuos distintos grupos
estandarizados por deciles de los valores predichos.
184 Pastor-Barriuso R.
obtenidas en la muestra completa con sus correspondientes estimaciones tras excluir
Regresin lineal simple
dicha observacin. Una medida estandarizada del cambio global que se produce en las
[Figura 10.14
Figura 10.14 Rectas de regresin resultantes aproximadamente
de incluir aqu] (lnea fina) los puntos A y B
(lnea gruesa) y excluir
del ajuste del modelo lineal. [Figura 10.14 aproximadamente aqu]
186 Pastor-Barriuso R.
4/(n - 2), que corresponde, por ejemplo, a un punto con un leverage medio hi = 2/n y un
ri
0
-2
-3
la observacinrAilapresenta
0 A presenta
un valor
observacin centrado
unde la variable
valor centradoexplicativa (leverage
de la variable muy (leverage muy
explicativa
particularmenteparticularmente b1, la
en la pendiente en debido a quebeste
pendiente puntoapresenta
1, debido que este un valor
punto muy un valor muy
presenta
-3
extremo de la variable
extremoexplicativa.
de la variable explicativa.
consiste10.5
Tabla en encontrar una transformacin
Observaciones de la variable
ms influyentes en la explicativa
regresin olineal
respuesta
del que
logaritmo del
-caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC.
permita reducir la influencia de dichas observaciones. Por un lado, las transformaciones
Valores observados Valor predicho Medidas diagnsticas Estimaciones*
de laxvariable yi
afectani al residuo estandarizado
ri hi
pero no alDleverage deb0una b1(i)
(i)
i
respuesta i
medias
es decir,geomtricas
100(1,50 0,51 esrelativos
constante
- 1) = 100(1,23
a incrementos - 1)en=ela
igual
23% a la explicativa
en
variable media geomtrica de -caroteno.
les corresponde El cambio
un mismo
relativo
es decir,en la variable respuesta.
a incrementos relativosPor en ejemplo, incrementos
la variable explicativadel les50% (c = 1,50)un
corresponde en el nivel de
IC al 95% para
a-tocoferol la razn
se asocian condeunmedias
aumento geomtricas
del
y G (cx) 0,023(cx) 100(1,50 viene
0 , 51 0,51 dado por
1)
0,51
= 100(1,23 1) = 23% en la media
geomtrica de b-caroteno.
relativo enElla = = c ;
mismo cambio yIC ( xal) 95%0respuesta.
variable
G
para
,023xla0,razn
51 Porde medias geomtricas
ejemplo, incrementosviene
del dado por
b t SE ( b )
c 1 698; 0 , 975 1 = 1,500,511,960, 039 = (1,19; 1,27),
50% (c = 1,50) en el nivel de -tocoferol se asocian con un aumento del
de decir,
es dondeaseincrementos
concluye con una confianza
relativos del 95%
en la variable que la media
explicativa geomtrica un
les corresponde de b-caroteno
aumenta
de donde entre
100(1,50 0,51
- 1)un=19
se concluye ycon
un 27%
100(1,23 una- 1) por cadaen
confianza
= 23% incremento
della95%media quedel
la 50%
media
geomtrica engeomtrica
el -caroteno.
de nivel de de
a-tocoferol.
-
El
mismo cambio relativo en la variable respuesta. Por ejemplo, incrementos del
188 caroteno
IC al 95%
Pastor-Barriuso R. aumenta entre un
para la razn de 19 y un geomtricas
medias 27% por cada incremento
viene dado pordel 50% en el nivel
50% (c = 1,50) en el nivel de -tocoferol se asocian con un aumento del
de -tocoferol. b t SE ( b ) 511, 96 0 , 039
100(1,500,51 - 1) = 100(1,23 ,500,en
c 1 698; 0 , 975 - 1)1 == 123% la media = (1,19; 1,27),de -caroteno. El
geomtrica
Regresin lineal simple
0,5 1,6
ei
0 ri =
1 (x
-caroteno (g/g)
1,2
log(-caroteno)
s 1
n (n
-1
0,8
que se obtienen de dividir los residuos ei p
-2 0,4
trmino hi se conoce como el leverage de
-3 0
estandarizada de la distancia entre cada va
2,5 3 4 5 6 0 100 200 300 400
log(-tocoferol) que(g/g)
-tocoferol se tratar en el apartado siguiente. No
(a) (b)
no hay valores muy extremos de la variabl
Figura 10.17 Recta de regresin del logaritmo del -caroteno sobre el logaritmo del -tocoferol en el grupo
control del estudio EURAMIC (a) y tendencia potencial resultante en la escala originalleverage),
de ambasambos (b). ei y ri se compo
residuos
variables
1 -0,5
en tales circunstancias, es aconsejable divi
ri -2 ordenados
-1,5 -1 valores
por -0,5 crecientes de y (po
0 i
(b)
-1 1,5
rk =
-2 sk 1
-3 y la varianza
0,5
0,0015 0,003 0,005 0,01 0,02 0,04 -2 -1,5 -1 -0,5
s k2 =
hi yk
(a) ( c)
Figura 10.18 Grfico de los residuos estandarizados ri frente a los leverages hi dedelalos residuos lineal
regresin en cada deluno de los grupos.
logaritmo del -caroteno sobre el logaritmo del -tocoferol en el grupo control del estudio EURAMIC (a),
Figura 10.18
donde el rea de los crculos es proporcional a la distancia de Cook Di, y grficoresiduos
de las medias
medios rk (b) y a los valores pre
frente
desviaciones tpicas sk (c) de los residuos estandarizados por deciles de los valores predichos.
indicar falta de linealidad en la relacin,
Pastor-Barriuso R. 189
Correlacin y regresin lineal simple
DeEjemplo
estos resultados
10.18 Para se comparar
desprendelos queniveles mediosbde
la pendiente 1 ycolesterol
su error estndar
HDL entre SE(b
los1) coinciden
exactamente con la estimacin puntual y el error estndar de la diferencia de medias en
distribuciones con igual
casos de infarto de varianza
miocardio(vase y los Apartado
controles libres 6.3.1).dePuede concluirse,sepor
la enfermedad, tanto, que las
podra
inferencias relativas a la pendiente de un modelo de regresin lineal con una nica variable
explicativa
ajustardicotmica
un modeloson de algebraicamente
regresin lineal simple equivalentes a la comparacin
del colesterol HDL sobredelamedias variablemediante
el test de la t de Student para muestras independientes con igual varianza.
indicadora del estatus caso/control (xi = 1 en los casos y 0 en los controles) en la
Ejemplo 10.18 Para comparar los niveles medios de colesterol HDL entre los casos de
muestra
infarto decompleta
valor esperadomiocardiodelde yn1los
= 462
colesterol casosen
controles
HDL delosinfarto
libres controlesn2 =libres
de layenfermedad,
539 controles
de la del ajustar
se enfermedad,
podra estudio un modelo
cuyo
de regresin lineal simple del colesterol HDL sobre la variable indicadora del estatus
EURAMIC
IC al 95% escon
caso/control (xi =valores
1 en los delcasos
colesterol
y 0 enHDL. La recta de
los controles) en regresin
la muestraestimada
completaentre de n1 = 462
casos de infarto y n2 = 539 controles del estudio EURAMIC con valores del colesterol
el valor
HDL. esperado
colesterol
La recta HDLdedely colesterol
la variable
regresin HDL enentre
indicadora
estimada los controles
del estatus libres
el colesterol de lay enfermedad,
caso/control
HDL es
la variable cuyo
indicadora del
b0 t999;0,975SE(b0) = 1,09 1,960,012 = (1,06; 1,11).
estatus caso/control es
IC al 95% es
y = 1,09 0,11x,
Por otra parte, la pendiente b1 = -0,11 mmol/l determina el cambio en el nivel
con una desviacin b0 tpica
t999;0,975 SE(b0) del
residual = 1,09 1,960,012
colesterol HDL de s = 0,27
= (1,06; 1,11).mmol/l que, debido a la
con
mediounadedesviacin
hiptesis de tpica
HDL residual
homogeneidad
colesterol pordecada del colesterol
la varianza,
incremento deHDL
se asume de s = 0,27
una constante
unidad en enlammol/l
casos que,
variable y controles. El
valor
error esperado
estndar del
de colesterol
la constante HDL
Por otra parte, la pendiente b1 = -0,11 mmol/les SE(b
en los0 ) controles
= 0,012 ylibres
de lade la enfermedad,
pendiente
determina el cambio en el nivel SE(b 1)cuyo
= 0,017. La
debido
constantea lab0hiptesis
indicadora, lo= que de homogeneidad
1,09equivale
mmol/l estima la media
a la diferencia de la de varianza,
del colesterol
medias se asume
entre HDL
casosenconstante
(xlos 1) y en con valor 0
i = sujetos
ICmedio
de al variable
la 95% es indicadora; esto es, el valor esperado
de colesterol HDL por cada incremento de una unidad en la variable del colesterol HDL en los controles
casos
libres ydecontroles.
controles i = 0). El error
la(xenfermedad, IC al estndar
cuyo
95%ICpara al de laladiferencia
95% constantede
es SE(b0) subyacente
esmedias = 0,012 y deviene la
indicadora, lob0que equivale
t999;0,975 SEa(bla0 )diferencia de medias entre
= 1,09 1,960,012 casos
= (1,06; (xi = 1) y
1,11).
dado por SE(b1) = 0,017. La constante b0 = 1,09 mmol/l estima la media del
pendiente
Por otra parte,
controles (xi =la0).pendiente
El IC al 95%b1 = 0,11
para lammol/l
diferencia determina
de medias el cambio
subyacente en elviene
nivel medio de
Por otra parte,
colesterol HDL HDL en la pendiente
porloscada b = -0,11
incremento
sujetos 1 con valorde mmol/l
0 de determina
unala unidad el cambio
variableenindicadora; en
la variableesto el nivel
indicadora,
es, el lo que
b1 t999;0,975SE(b1) = -0,11 1,960,017 = (-0,14; -0,08)
equivale
dado por a la diferencia de medias entre casos (xi = 1) y controles (x i = 0). El IC al 95%
medio de colesterol HDL por cada incremento
para la diferencia de medias subyacente viene dado por de una unidad en la variable 53
y el contraste bilateral de la hiptesis de igualdad de medias H : = 0 mediante
indicadora, lobque 1 tequivale
999;0,975 SEa(b = 0,11 1,960,017
la1 )diferencia de medias =entre ( 0,14;
casos0 0,08)
1
(xi = 1) y
yel el
estadstico
contraste bilateral de la hiptesis de igualdad de medias H0: 1 = 0 mediante el
controles
y (xi = 0).
el contraste
estadstico El IC de
bilateral al 95% para la de
la hiptesis diferencia
igualdadde
demedias
mediassubyacente viene
H0: 1 = 0 mediante
dado por
el estadstico b1 0,11
t= = = 6,35
SE (b1 ) 0,017
b1 t999;0,975
resulta en un valor P = 2P(tSE(b1) 6,35)
= b-0,11 2F(6,35)
1,960,017
0,11 <= 0,001.
(-0,14;As,
-0,08)
los casos de infarto de
t=
999 1
= = -6,35
miocardio
resulta en unpresentan
valor Pun = 2nivel
P(t999medio
SE (bde
-6,35) colesterol
1) 0 ,017 HDL
2(-6,35) significativamente
< 0,001. As, los casos inferior
de que los
sujetos libres de la enfermedad (P < 0,001), con una diferencia
y el contraste bilateral de la hiptesis de igualdad de medias H0: 1 = 0 mediante estimada en 0,11 mmol/l
(IC al 95%
infarto 0,08-0,14presentan
de miocardio mmol/l). un Notar,
nivelpormedioltimo, que estos HDL
de colesterol resultados son exactamente
resultaaen
iguales los valor P =mediante
unobtenidos 2P(t999 -6,35)
el test de2(-6,35)
la t de < 0,001.
Student As,muestras
para los casosindependientes
de
el estadstico
con igual varianza (Ejemplos
significativamente inferior que6.7 losy sujetos
6.8). libres de la enfermedad (P < 0,001),
infarto de miocardio presentan un nivel medio de colesterol HDL
b1 0,11
con una diferencia estimadat =en 0,11 mmol/l
= libres (IC=al-6,35
95% 0,080,14 mmol/l). Notar,
significativamente inferior queSE los(bsujetos
) 0 ,017 de la enfermedad (P < 0,001),
10.4REFERENCIAS 1
con una diferencia estimada en 0,11 mmol/l (IC al 95% 0,080,14 mmol/l). Notar,
10.4 REFERENCIAS
Correlacin y regresin lineal simple
3. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury
Press, 2002.
4. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
5. Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley
& Sons, 1999.
6. Draper NR, Smith H. Applied Regression Analysis, Third Edition. New York: John Wiley
& Sons, 1998.
7. Kleinbaum DG, Kupper LL, Nizam A, Muller KE. Applied Regression Analysis and
Other Multivariable Methods, Fourth Edition. Belmont, CA: Duxbury Press, 2008.
8. Pea D. Estadstica: Modelos y Mtodos, Volumen 2, Modelos Lineales y Series
Temporales. Madrid: Alianza Editorial, 1987.
9. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.
10. Seber GAF, Lee AJ. Linear Regression Analysis, Second Edition. New York: John Wiley
& Sons, 2003.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
12. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
13. Weisberg S. Applied Linear Regression, Third Edition. New York: John Wiley & Sons,
2005.
192 Pastor-Barriuso R.
TEMA 11
11.1INTRODUCCIN
En el Tema 10 se present la regresin lineal simple como una herramienta para analizar la
relacin lineal entre una variable respuesta continua y una nica variable explicativa. En la
prctica, sin embargo, suele contarse con ms de una variable explicativa y el inters se centra
en estudiar la relacin de cada una de las variables explicativas con la variable respuesta,
teniendo en cuenta a su vez las restantes variables explicativas. De este tipo de problemas se
ocupa la regresin lineal mltiple.
En presencia de mltiples variables explicativas asociadas con la variable respuesta, la
utilizacin de distintos modelos de regresin lineal simple para cada variable explicativa da
lugar a estimaciones imprecisas y a menudo sesgadas de las asociaciones subyacentes con la
variable respuesta. Para ilustrar este hecho, la Figura 11.1 presenta los diagramas de dispersin
entre una variable respuesta Y y una variable explicativa X1, diferenciando mediante puntos y
crculos los valores de otra variable explicativa dicotmica X2. En la Figura 11.1(a), la variable
explicativa X2 est asociada con la variable respuesta Y (los valores de Y tienden a ser mayores
en uno que en otro grupo de X2), pero no con la variable explicativa X1 (los valores de X1 se
distribuyen por igual en ambas categoras de X2). Si se ignora la variable X2 y se ajusta un
modelo de regresin lineal simple entre X1 e Y a toda la nube de puntos (lnea gruesa), se
obtiene la misma pendiente que al ajustar distintas rectas para cada valor de X2 (lneas finas)
y, en consecuencia, la asociacin entre X1 e Y no estar confundida por X2. No obstante, la
varianza residual alrededor de la recta de regresin es mayor al ignorar la variable explicativa
X2, lo que ocasionar un mayor error estndar en la estimacin de la pendiente. Por el contrario,
en la Figura 11.1(b), la variable explicativa X2 est asociada de forma independiente con la
variable respuesta Y y con la variable explicativa X1 (para valores fijos de X1 o Y, los valores
de la otra variable difieren segn categoras de X2). La pendiente de la recta de regresin
simple entre X1 e Y (lnea gruesa) sobreestima el efecto independiente de X1 sobre Y cuando X2
permanece constante (lneas finas). Esto es debido a que las variables explicativas X1 y X2
estn correlacionadas y la regresin lineal simple estimar los efectos confundidos de ambas
variables al no poder discernir entre el efecto independiente de X1 y el efecto inducido por su
asociacin con X2.
La principal conclusin del ejemplo anterior es que, si las variables explicativas estn
relacionadas entre s, lo que sucede con cierta frecuencia, la regresin lineal simple puede
proporcionar estimaciones sesgadas de las asociaciones subyacentes de cada variable
explicativa con la variable respuesta. Por ello, los efectos de distintas variables explicativas
deben estudiarse conjuntamente mediante modelos de regresin lineal mltiple. Estos modelos
son una extensin de la regresin lineal simple a la presencia de dos o ms variables explicativas,
que pueden ser tanto continuas como categricas. Como veremos a continuacin, la regresin
lineal mltiple permite estimar el efecto independiente de cada variable explicativa,
manteniendo constantes las restantes variables incluidas en el modelo. Su utilidad en los
anlisis epidemiolgicos es, por tanto, directa ya que facilita estimaciones ajustadas del efecto
de cada variable explicativa.
Pastor-Barriuso R. 193
11.2 lineal
Regresin ESTRUCTURA
mltiple DE LA REGRESIN LINEAL MLTIPLE
puede expresarse como una combinacin lineal de las variables explicativas X1, ..., Xp;
es decir, para valores fijos x1, ..., xp de estas variables explicativas, el valor esperado de
y
la variable respuesta es
puede expresarse como una combinacin lineal de las variables explicativas X1, ..., Figura Xp; 11.1
una unidad en Xj, manteniendo constantes el resto de variables explicativas, p
11.2 ESTRUCTURA DE LA REGRESIN LINEAL MLTIPLE
es decir, para valores E(Y|xfijos x1x, p...,
1 , ..., ) =xp 0de
+ estas
1 x1 +variables p = 0 + elj x
+ p xexplicativas, valor
j .
esperado de
El modelo de regresin
E(Y|x1 , ...,lineal
xj-1, xjmltiple
+ 1, xj+1,asume..., xp ) -que , ..., xp )de la variable respuesta Y puede
la 1media
E(Y|x j =1
la variable
expresarse respuesta
como es
una combinacin lineal de las variables explicativas X1, ..., Xp; es decir, para
valores fijos x1, ...,0xpcorresponde
La constante =deestas
0 + 1variables
x1 +al +explicativas,
valor j-1 deel
xj-1 + j(x
esperado Yvalor
j + 1) + esperado
cuando xj+1 +de
j+1todas lavariables
las +variable
p xp respuesta es
p
E(Y|x ...,x1 xp)1 =+
(10, +
explicativas son 0,- E(Y|0, , 0) =0 +0 +
+ 1pxx1p )+= j+ j x j que
10 + . + pxpp0==00;+mientras .
j =1
cada
La As,
constante
coeficiente 0decorresponde
los coeficientesregresin alj determina
de regresin valor esperado
asociados a de
el cambio cada Yesperado
cuando en
variable todas lascada
Y por
explicativavariables explicativas
noincremento
pueden de
estar
son0, E(Y|0, , 0) =
La constante 0 corresponde 0 + 1 0 + + 0 =
al valor pesperado 0 ; mientras que cada coeficiente
de Y cuando todas las variables de regresin j
determina
una unidad
confundidos el cambio
porXlas
en esperado
j, manteniendo
dems variables en Y porexplicativas,
cadaelincremento
constantes restoyadeque destas
variables unidad en Xconstantes.
unapermanecen
explicativas, j, manteniendo
constantes el resto de variables explicativas,
explicativas son 0, E(Y|0, , 0) = 0 + 10 + + p0 = 0; mientras que cada
En este sentido, E(Y|xy 1a, diferencia
..., xj 1, xj +de1,laxjregresin
+1, ..., xp ) simple,
E(Y|x1 ,los..., coeficientes
xp ) de regresin lineal
coeficiente de regresin j determina el cambio esperado en Y por cada incremento de
= 0 + 1 x1 + + j 1 xj 1 + j(xj + 1) + j+1 xj+1 + + p xp
mltiple facilitan el efecto independiente de cada variable explicativa sobre la variable
una unidad en Xj, manteniendo ( 0 + 1 x1 constantes
+ + p xpel) =resto j. de variables explicativas,
respuesta ajustando o controlando por posibles diferencias en la distribucin de las
As, los coeficientes de regresin asociados a cada variable explicativa no pueden estar
confundidos por E(Y|x , ..., xj-1variables
las 1dems , xj + 1, xexplicativas,
j+1, ..., xp) - E(Y|x 1, ...,
ya que xp) permanecen constantes. En este
stas
restantes variables explicativas incluidas en el modelo.
sentido, y a diferencia de la regresin simple, los coeficientes de regresin lineal mltiple
As, los coeficientes de regresin asociados a cada variable explicativa no pueden estar
= 0 + 1 x1 +
facilitan el efecto independiente j-1xj-1variable
de+ cada + j(xj +explicativa
1) + j+1xj+1sobre
+ +lavariable
p xp respuesta
Para completar la estructura general de la regresin lineal mltiple, se asume que los
ajustando o controlando por posibles diferencias en la distribucin de las restantes variables
confundidos por las dems variables explicativas, ya que stas permanecen constantes.
explicativas incluidas-en (el+modelo.
1x1 + respuesta
+ p x p ) = j.
valores individuales de0 la variable se distribuyen normalmente alrededor del
Para completar
En este sentido,layestructura
a diferencia general
de lade la regresin
regresin simple,lineal
losmltiple, se asume
coeficientes que loslineal
de regresin valores
individuales
valorlos
As, de la definido
esperado variable
coeficientes respuesta
por
de regresin se distribuyen
la ecuacin
asociados a cadanormalmente
de regresin, alrededornodel
variable explicativa valor estar
pueden esperado
mltiple
definido la ecuacin
por facilitan de regresin,
el efecto independiente de cada variable explicativa sobre la variable
confundidos por las dems variables explicativas, ya que stas permanecen constantes.
Y|x1 , ..., xp ~ N( 0 + 1 x1 + + p xp , 2),
orespuesta ajustando o controlando por posibles diferencias en la distribucin de las
equivalentemente
o equivalentementey a diferencia de la regresin simple, los coeficientes de regresin lineal3
En este sentido,
restantes variables explicativas incluidas en el modelo.
mltiple facilitan el efecto independiente Y = 0 + 1 xde1 + + p xp + ,
cada variable explicativa sobre la variable
Para completar la estructura general de la regresin lineal mltiple, se asume que los
194 respuesta
donde el error
Pastor-Barriuso ajustando
R. o controlando
aleatorio en la variable por posibles
respuesta diferencias
sigue unaendistribucin
la distribucin
normal de las
con
valores individuales de la variable respuesta se distribuyen normalmente alrededor del
restantes
media 0 yvariables
varianzaexplicativas
2 para cualquier incluidas
valoren de el modelo.
las variables explicativas. De esta
valor esperado definido por la ecuacin de regresin,
Estructura de la regresin lineal mltiple
donde el error aleatorio en la variable respuesta sigue una distribucin normal con media 0 y
varianza 2 para cualquier valor de las variables explicativas. De esta especificacin del modelo
de regresin lineal mltiple, se desprenden las siguientes asunciones:
yy Linealidad: El valor esperado de la variable respuesta Y cambia linealmente con cada
variable explicativa Xj, de tal forma que para valores fijos de las dems variables
explicativas, cambios de magnitud constante a distintos niveles de Xj se asocian con un
mismo cambio en la media de Y.
yy Aditividad: El efecto conjunto de varias variables explicativas sobre la variable respuesta
es la suma de sus efectos independientes.
yy Homogeneidad de la varianza: La varianza de la variable respuesta permanece constante
para cualquier valor de las variables explicativas.
yy Normalidad: Dados unos valores fijos de las variables explicativas, la variable respuesta
se distribuye de forma normal.
En el caso de dos variables explicativas, estas asunciones pueden representarse mediante el
grfico tridimensional de la Figura 11.2. Debido a las hiptesis de linealidad y aditividad, los
valores esperados de Y para cualquier combinacin de X1 y X2 se sitan en el plano definido por
la ecuacin de regresin 0 + 1x1 + 2x2. Asimismo, por las asunciones de homogeneidad de la
varianza y normalidad, los valores individuales de Y para cualquier combinacin de X1 y X2 se
distribuyen de forma normal y con la misma varianza alrededor de dicho plano de regresin.
Las hiptesis de linealidad y homogeneidad de la varianza se evaluarn utilizando procedimientos
de diagnstico grfico similares a los empleados en regresin lineal simple. Las desviaciones
de la asuncin de aditividad se explorarn, por su parte, mediante la inclusin de trminos de
interaccin entre las variables explicativas.
Plano de regresin:
Y E(Y|x1, x2) = 0 + 1x1 + 2x2
0 + 1xj1 + 2xj2
0 + 1xi1 + 2xi2
xi1 xj1
xj2 X1
xi2
X2
Figura 11.2 Asunciones subyacentes al modelo de regresin lineal mltiple con dos variables explicativas.
Pastor-Barriuso R. 195
individuales sobre
Independencia la variable
lineal respuesta explicativas:
de las variables seran indiscernibles.
Ninguna variable explicativa
Regresin lineal mltiple
es una combinacin lineal exacta de las dems ya que, en tal caso, sus efectos
Ejemplo 11.1 Supongamos que un modelo de regresin lineal mltiple incluye
individuales
A estas sobre la variable respuesta seran indiscernibles.
comoasunciones, anlogas a las
variables explicativas la utilizadas en regresin
presin arterial lineal
sistlica X1 ysimple, se aaden
la presin arterialdos nuevas
condiciones necesarias para poder estimar la ecuacin de regresin:
yy Independencia
Ejemplo X2, Supongamos
diastlica11.1 lineal de lasque
variables explicativas:
un modelo de regresinNinguna
lineal variable
mltipleexplicativa
incluye es una
combinacin lineal exacta de las dems ya que, en tal caso, sus efectos individuales sobre
lacomo
variable respuesta
variables seran indiscernibles.
explicativas laY presin sistlica X1 y la presin arterial
= 0 + arterial
1 x1 + 2 x2 + .
Ejemplo 11.1
diastlica X2, Supongamos que un modelo de regresin lineal mltiple incluye como
Si se aade adems la la
variables explicativas presin delarterial
presin pulso,sistlica
definidaXcomo la diferencia entre la
1 y la presin arterial diastlica X2,
196 Pastor-Barriuso R.
coeficientes de regresin 0, 1, , p se obtienen mediante el mtodo de mnimos
Estimacin e inferencia de la ecuacin de regresin
cuadrados a partir de una muestra de n observaciones (yi, xi1, , xip) mutuamente
independientes. En concreto, tal y como se muestra en la Figura 11.3 para dos variables
11.3.1 Estimacin de los coeficientes de regresin
explicativas, se trata de estimar los valores b0, b1, , bp que minimicen la suma de
Al igual que en regresin lineal simple, las estimaciones puntuales b0, b1, , bp de los coeficientes
de regresin 0, 1, , p se obtienen mediante el mtodo de mnimos cuadrados a partir de
una cuadrados
muestra de de los errores o residuos
n observaciones ei x= y) i mutuamente
(yi, xi1, , ip
- y i , que corresponden a las En
independientes. distancias
concreto, entre
tal y
como se muestra en la Figura 11.3 para dos variables explicativas, se trata de estimar los valores
b0, blos valores observados yi de la variable respuesta y los correspondientes valores
1, , bp que minimicen la suma de cuadrados de los errores o residuos ei = yi i, que
corresponden a las distancias entre los valores observados yi de la variable respuesta y los
estimados o predichos
correspondientes por la ecuacin
valores estimados de regresin
o predichos y i = b0 +debregresin
por la ecuacin 1xi1 + +ib=pxbip0, + b1xi1 +
+ bpxip,
n n n
SSE = ei2 = ( y i y i ) 2 = ( y i b0 b1 xi1 ... b p xip ) 2.
i =1 i =1 i =1
Para estimar los coeficientes de regresin que minimizan esta suma de cuadrados del error,
se calculan las derivadas parciales de SSE respecto a b0, b1, , bp y se igualan a cero, resultando
[Figura 11.3 aproximadamente aqu]
el sistema de p + 1 ecuaciones lineales
SSE n n
= 2 ei = 2 ( y i b0 b1 x i1 ... b p x ip ) = 0,
Para estimar los
b0 coeficientes
i =1
de regresin
i =1
que minimizan esta suma de cuadrados del
SSE n n
= 2las
error, se calculan i = 2 x ij ( y i b0 b1 x i1 ... b p xip ) 0= 0,
xij ederivadas parciales de SSE respecto a b , b1, , bpj = y se igualan
1, , p. a
b j i =1 i =1
Apndice al final del tema se derivan las frmulas matriciales para calcular b0, b1, , bp
(xi1, xi2, yi) Plano de regresin estimado: 7
y y = b0 + b1 x1 + b2 x2
que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los
incorrelacionadas, sus coeficientes estimados por regresin mltiple coinciden con los
ficientes de regresin 0, 1, , p. En el caso particular de dos variables explicativas, puede comprobarse que es
s, puede comprobarse que estos estimadores vienen dados por
que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los
licativas, puedeRegresin comprobarse lineal mltiple que estos estimadores vienen dados por ry
r r r s b1 =
coeficientes yx de yx regresin
2 x1 x 2 y 0, 1, , p. En el caso particular de dos variables
b1 = 1 ,
1 rxr1 xyx2 1 rsyxx21rx1 x2 s y
2
explicativas,
regresin 0, b1,1 puede= .comprobarse
, p1 Enr 2el casos particular , estosdeestimadores
que dos variables vienen dados porpuede comprobarse
explicativas, ry
x1 x 2 x
e XX11eeYY rryxyx1 1(como
re (como
que ocurre ocurre
estos en
en regresin
ryxregresin
estimadores r r lineal
lineal
vienen s simple),
simple),
dados 1
porsino sinotambintambinde desus sus b2 =
yx1 x1 x 2 y
entre X1 e Y ryx11 (como b2 = ocurre 2
en2 regresin, lineal simple), r sino r rtambin s de sus
1 rxr1yxx22 rsyxx12rx1 x2 s y b1 = yx1 yx2 x1 x2 y ,
pectivas correlacionescon
ectivas correlaciones conlalavariablevariable
b2 = X X rr
22 yxyx2 2 y y r r .
x1xx1 2x2 ,. 1 rx1 x22
s x1
1 rx21 x2 s x2 b0 = y
respectivas correlaciones con la variable X2 ryx22 y rx11x22 .
b0 = y - b1 x1 - b2 x 2 . r 22
2yx r r s
b2 = de delalayxvariable
1 x1 x 2 y
Unavez
Una vezestimada
estimadalalaecuacin ecuacinde deregresin,
regresin,lalavarianza varianza variable respuesta
respuesta
,
b0 = y - b1 x1 - b2 x 2 . 2
1 rx21 x2 s x2 De estas expresiones se deduce que, si l
Una vez estimada la ecuacin de regresin, la varianza de la variable respuesta
xpresiones
ededor
dedor de se deduce
dedicha
dicha ecuacin
ecuacin que,se siestima
se las variables
estima mediante
mediante explicativas varianza
lalavarianza X1 residualX2 estn
yresidual
b0 = y b1 x1 b2 x 2 . incorrelacionadas rx1 x2 = 0, las estimaci
estas alrededor
expresiones de dicha ecuacin
se deduce que,sesiestima las variablesmediante la varianza
explicativas X1residual
y X2 estn
onadas rx1 x2 = 0, Delas estimaciones dese
estas los coeficientes que, si de lasregresin
variables mltiple se X y X estn incorrelacionadas
SSE expresiones
SSE 11 nndeduce explicativas
22
22 1 2
orrelacionadas s =
s = r = 0,, las =
= estimaciones ( y
( ydeii
los b
b00coeficientes b x ...
b11x i1i1 ... deb pregresin b x
px ipip) ,) , mltiple se reducen a b1 = ryx1 s y / s x1 y b2 = ryx2 s y /
n1n22 pp11SSE
x x nn pp11i =i1=11 n
b1 = ryx1 s y / s x1 y bs2De == estas / s x2 ,=,que
ryx2 s yexpresiones
n p 1
queson
n
son
p
seiguales
iguales
1
deduce ( yai alas las
que, bobtenidas
0 si blas 1 x ivariables
obtenidas 1 en...en b pexplicativas
regresin
regresin 2
x ip ) simple , (vase
X1 y XApartado
2 estn
10.3.1). Por
ucen a b1 = ryx1 stanto, cuando las variables explicativas estn incorrelacionadas, sus coeficientes estimados por10.3.1). Por tan
i = 1
y / s x1 y b2 = r yx2 s y / s x 2 , que son iguales a las obtenidas en regresin
simple (vase Apartado
nde
de la
la suma
suma
ase Apartado 10.3.1). de
de cuadrados
regresin
cuadrados del
mltiple
del
incorrelacionadas error
error
Por tanto, cuando SSE
coinciden
SSE sese
rx1 x2las divide
divide
= variables con por
por
0, las estimaciones los nn - - pp
obtenidos
-
explicativas -1 1 yaya que,
de
que,
de estn una
distintas
una vezvez regresiones
los coeficientes de regresin mltiple se simples para cada
donde variable
laApartado
suma de explicativa.
cuadrados del Por
errorcuandoel
SSE contrario,
selas divide cuando las
por nexplicativas
-lineal variables
p - 1 simple),
ya que, explicativas
una vez estn correlacionadas,
incorrelacionadas, sus coeficientes estim
ple
mados
mados (vase los
los pp + + 11
sus 10.3.1).
entre
coeficientes
efectos
coeficientes e de Y
X1 ajustados
Por
de rregresin,
yxtanto,
(como
regresin, mediante ocurre
loslos n n envariables
errores
regresin
errores regresino o desviaciones
mltiple
desviaciones pueden de de estn
lala sino
variable
diferir
variable tambin
notablemente de susde sus efectos
onadas, sus coeficientes estimados
a b1 = las
1
por regresin
ryx1restantes
s y / s x1 y variables mltiple
b2 = ryx2 sexplicativas. coinciden con los
crudos reducen ignorando y / s x 2 , que son As,iguales por ejemplo, a las obtenidas la relacin en de regresin
la variable
estimados
orrelacionadas, lossusp + 1 coeficientes
coeficientes estimadosde regresin,
por los
regresin n errores
mltiple o desviaciones
coinciden con de la
los obtenidos
variable de distintas regresiones simpl
puesta
deuesta respecto
respecto
distintas aa la
explicativa
la
regresiones ecuacin
ecuacin
respectivas
simples X 1dedecon regresin
la
regresin
correlaciones
para variable
cada contienen
contienen
con
variable respuesta
la n n -
variable -p
explicativa. p
Y -- 1 1
X grados
ajustando
grados
r
2 Por y dede
por
yx2 el x1 x2 r libertad.
la
libertad.
. variable Bajo
Bajo X 2 se estima mediante el
como ocurre encoeficiente regresin
simple lineal
(vase simple),
Apartado sino10.3.1). tambin Por detanto,sus cuando las variables explicativas estn
entre X e Y r
respuesta respecto de regresin
a la ecuacin mltiplecontienen
de regresin b1, que depende n - p - 1 no grados slo de delibertad.
la correlacin Bajo entre
contrario, cuando yx1 (comoexplicati
X11 las variables ocurre e
enidos
hiptesis de distintas
de linealidad, regresiones
aditividad simples para
yyhomogeneidad
homogeneidad cada variable
de explicativa. Por el
hiptesis
cuando lasde linealidad,
(comoexplicativas
variables Unaaditividad
ocurre vezenestimadaregresin
estn la lineal
correlacionadas,
ecuacin simple),dedelala susvarianza,
varianza,
sino
regresin, tambin
efectos lalala varianza
varianza
ajustados
varianzade susrespectivas 2
de la variable correlaciones
respuestacon la
laciones con la variable
las2hiptesis incorrelacionadas,
de linealidad, X2 ryx2aditividad sus coeficientes estimados
y rx1 x2 .. y homogeneidad de la varianza, la varianza mediante respectivas por regresin mltiple coinciden con los mltiple pueden dife
regresin
trario, 2cuando las variables explicativas estn correlacionadas, 2sus 2 efectos ajustados correlaciones con l
idual
dual
egresin ss es esmltiple
unestimador
un estimador
pueden
Una
alrededor
insesgado
insesgado
diferir
vez estimada del
del
notablemente
dichalaecuacin
de distintas
parmetro
parmetro
ecuacinsedeestima de poblacional
poblacional
sus efectos
regresin, mediante .
crudos .
la varianza la varianza de la
2
variable respuesta alrededor
residual
2 obtenidos de regresiones
2 simples para cada 2 variable explicativa. Por el
ignorando lasUna restantes variables explica
ada residual
la s
ecuacin es
de un
de estimador
regresin,
dicha ecuacin lainsesgado
varianza
se estima
diante regresin mltiple pueden diferir notablemente de sus efectos crudos
del parmetro
de
mediante la variablela poblacional
respuesta
varianza
residual . vez estimada la ecuaci
las restantes variables explicativas. As, por ejemplo, la relacin de la
Ejemplo11.2
Ejemplo 11.2En En contrario,
elelEjemplo
Ejemplo cuando 10.7
10.7 2 selas
seestudiSSE antioxidantes
variables
estudi explicativas
lalarelacin
relacin 1 del en
del el riesgo
n estn
ndice
ndice de demasa de
correlacionadas,
masa desarrollarsus unefectos
variable
primer ajustados
infarto agudo de miocardio e
explicativa X con la variable re
orando las restantes variables explicativas. As, por ejemplo,la relacin
a ecuacin se estima mediante la varianza residual 2
s = = ( y i b
0 de1 la b x i1 ... b x
p ip ) , alrededor de1dicha ecuacin se
plicativaEjemploX1 con la11.2 En elrespuesta
variable Ejemplo Y10.7 n ajustando
psehombres 1 npor
estudi la padultos.
la 1 i =1 Los
relacin
variable del ndice
X2valores
se estima de masa
obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84
corporalcon
corporal mediante
conelelcolesterol
colesterolHDL regresin
HDLutilizando mltiple
utilizando ununpuedenmodelodiferir
modelo deregresin
de notablemente
regresin linealsimple.
lineal de
simple.sus efectos crudos
Y ajustando mediante el coeficiente de regresin m
able SSE explicativadonde X11 con la la n variable
suma respuestadel
de cuadrados error SSE por la variable
se divide por n X2pse estima 1 ya que, una vez estimados los
l=coeficiente
nNo
No
corporal
de
p 1 npexisten
obstante,
obstante,
con
regresin
= +ignorando
existen
el colesterol
1coeficientes
pdonde otros
1otros
mltiple
la( ysuma
ilas
muchos
muchos 0de
HDL
b
brestantes 1 , que
cuadrados
utilizando
depende
b1 x i1 variables
regresin, ...1,06,
determinantes
determinantes
los
del
un
no
b p nxerror
0,87, modelo
2slo de la
) ,SSE
iperrores
explicativas.
dede los
los 1,96 o se
niveles
niveles
de regresin
correlacin
ydesviaciones
1,53
divide
As,
dede mmol/l.
por por
lineal
nde-La
ejemplo,
colesterol
colesterol plaHDL
HDL
simple.
-media
variable
1laya de respuesta
que,
relacin los unaniveles
de del colesterol
la respecto
vez as2 = HDL en=
SSE
diante el coeficiente la ecuacin
i =1
de regresin de regresin mltiple b1, que depende
contienen n p 1 no gradosslo de de libertad.
la correlacin 8 Bajo lasHDL hiptesis de linealidad, n p 1
No obstante, existen otros muchos determinantes de los niveles de colesterol
como,por
como, aditividad
porejemplo,
ejemplo, estimados
variable yexplicativa
elelconsumo homogeneidad
consumo los p de X
+de1alcohol.
1 con
alcohol. de estos
coeficientes laPara
Para varianza,
variable 10
de participantes
laelel
regresin,
obtener
obtener varianza
respuesta efecto
efecto losYes errores so2por
residual
najustando
independiente
independiente es un
desviaciones estimador
la variable X2la
de insesgado
estima del
sevariable
8
cuadrados del parmetro error SSE se divide porn.- p - 1 ya que, una vez
poblacional 2
donde la suma de cuadrados de
como, por ejemplo, el consumo de alcohol. Para obtener el efecto independiente
dedecada
cadauno unode mediante
deestosrespuesta
estos el
determinantes,
determinantes, coeficiente
respecto ase se de regresin
la podra
ecuacin
podra ajustar
ajustar mltiple
de regresinunmodelo
un modelo bcontienen
1
1 , que
dede depende
regresin
10 regresin n - p -no 1 slo
grados
0,89 + 1,58 + ... + 1,53 de dela correlacin
libertad. Bajo
1 coeficientes de regresin,
de cada uno Ejemplo
los n errores
11.2 En el Ejemplo
de estos determinantes,
o desviaciones
se podra 10.7ajustar de x
la
se estudi =
variable
un10
x
la relacin
modelo
i =1
i =
de regresindel ndice 10 de masa
= 1,223
corporallos
estimados
mmol/l.
con
8 p + 1 coeficiente
linealmltiple
lineal mltiplecon lasel
con elhiptesis
elcolesterol
colesterol
colesterol deHDL linealidad, comoaditividad
HDLutilizando
como variable
variable un modelo y homogeneidad
respuesta
respuesta de yregresin
yelelndice ndice delineal
dela
demasavarianza,
masa simple. la Novarianza
obstante, existen
o a la ecuacin de regresin otros contienen n - p - 1 grados de libertad. Bajo
lineal mltiple conmuchos determinantes de los
2el colesterol HDL como variable respuesta y el ndice de 2masa
niveles de colesterol HDL como, por ejemplo,
respuesta el a la ecuaci
respecto
corporalyyelelconsumo
corporal residual
consumo consumo desalcohol
de esde
alcohol un alcohol.
estimador
comovariables
como variables insesgado
Para obtener del
explicativas.
explicativas. parmetro
el efecto
La media aritmtica presenta las siguientes propiedades: poblacional
independiente .
de cada uno de estos
nealidad, aditividad ydeterminantes, homogeneidadsedepodra la varianza, ajustar launvarianza
modelo de regresin lineal mltiple con las el colesterol
hiptesis de linealidad, adit
corporal y el consumo de alcohol como variables explicativas.
EnEnnn==449 449controles
controles HDL delcomo
del estudio
estudio variable
EURAMIC
EURAMIC respuesta
Cambio
con
con y el
datos
datos ndice de
disponibles
disponibles masa de corporal
de estas
estas y el
de origen (traslacin). Si se suma una constante a cada uno de los dato consumo de alcohol como
estimadorEn insesgado del
n = 449 controles
Ejemplo
parmetro
variables del
11.2 En el Ejemplo
poblacional
explicativas.
estudio EURAMIC 2. 10.7 se estudi la relacin del ndice de masa
con datos disponibles de 2estas residual s2 es un estimador ins
2
variables,lalamedia
variables, mediaEn yylala desviacin
ndesviacin
= 449 controles tpicadel
tpica fueron
fueronde unaxx1muestra,
estudio 1= =26,226,2yylassmedia
EURAMIC ==3,61
x1x1 con 3,61de kg/m
datos kg/m
la muestra
disponiblespararesultante
para de estas esvariables,
igual a la la media inicial m
corporal con el colesterol HDL utilizando un modelo de regresin 22
lineal simple.
variables, la media yy la la tpica fueron x1 = 26,2 y s x11 == 3,61 3,61 kg/m kg/m para para el ndice de masa
1.2 En el Ejemplo 10.7media se estudidesviacin la relacin del ndice de masa
elelndice
ndicede demasa
masacorporal,corporal,xx22 ==16,5
corporal, 16,5yyy ssxx2 2===21,8
16,5 constante 21,8g/da
21,8 utilizada;
g/dapara
g/da parael
para si y
elelconsumo
consumo
consumoi = x +
i de c
dedealcohol y y == 1,08
, entonces x + yc.sEjemplo
Un 0,29511.2
= cambio deEn el Ejem
origen qu
No obstante, existen otros muchos fue fuer determinantes
r = -0,091
= -0,091 y de
las
y los
las niveles
correlaciones
correlaciones de colesterol
de de
estasestas
y HDL
variables
variables explicativas
explicativas co
n el colesterol el ndice HDL mmol/l
deutilizando
masa para
corporal, unelmodelo colesterol
x 2 = 16,5 HDL.
de regresin y s x22 El = 21,8coeficiente
lineal
x1 x2 x1 x2 de correlacin de Pearson entre el ndice de
g/da
simple. para el consumo de corporal con en el colestero
alcoholyy yy ==1,08
alcohol 1,08masa yysscomo, corporal
yy==0,2950,295 pormmol/l
y el consumo
mmol/l
ejemplo, para
para elseconsumo
elelrealiza de alcohol
colesterol
colesterol con HDL.
HDL.
de alcohol. fue El
frecuencia rEl == 0,091
es -0,091
el centrado
2coeficiente
1 xcoeficiente
xPara obtener
yde
ydeellas
lasde
efecto
correlaciones
correlaciones
variable, de
la independiente deestas
que estas variables
consiste explica
restar a
e, existenalcohol otros muchos variables
determinantes explicativas de mmol/l
los nivelescon el colesterol
colesterol
colesterol
deelcolesterol HDLHDL
HDL HDL fueron
fueron fueron r r
yx1 yx1 = 0,273
-0,273
= -0,273 y r
yy r =
yx2 yx2 0,232,
0,232,
= 0,232, respectivamente.
respectivament L
y y respectivamente.
= 1,08 y sy = 0,295 Las estimaciones para colesterol
losmuestra HDL.
coeficientes El coeficiente
de fueron
regresin de No obstante, existen otro
correlacinde
correlacin Pearsonde
dePearson cadaeleluno
entre
entre ndice
ndice de estos
dedemasa masacada
determinantes, valor deyyla
corporal
corporal elel podra su
colesterol
seconsumo
consumo ajustar
de
de media.
HDL un La
alcohol
alcohol modelo mediaryx1 mltiple
de=deregresin
-0,273 sey obtienen
una variable ryx2 =centrada ser, por
0,232, respectiva
ejemplo, el consumo de entonces
de Pearson
alcohol. entre como
Para obtener elde efecto estimaciones
estimaciones
independiente de de loslos coeficientes
coeficientes de de
regresin
regresin mltiple
mltiple se se
obtienen
obtienenento
e
correlacin el ndicetanto, masaigual corporal
a 0. y el consumo de alcohol como, por ejemplo, el co
lineal mltiple con el colesterol HDL como estimaciones variablederespuesta los coeficientes y el ndice de masa mltiple se obtie
de regresin
o de estos determinantes, se R.podra ajustar un modelo de regresin r r r rr r s s de cada uno
198 Pastor-Barriuso
Cambio de escala (unidades). yx yx Si yx2 se x1 x29y9 y 0
x12x2multiplica ,273
0,273+ 0+,2320,232 0,091
0datos0,de
,091 295 estos
0de,295 dete
= = cada uno de2 los una
yx
corporal y el consumo de alcohol comobvariables 1b =1 = 1 1explicativas. = -0,02
= -0
ple con el colesterol HDL como variable respuesta y el ndice de masa 1 1rx1rxr2yxx1 x2 sryxx1 2srxx11x2 9s y 1 100,,091
2 2 2
0,091
273 + 0,232 3 0,61 ,3091
,61 0,295
b = = lineal mltiple con el col
En n = 449 controles muestra por EURAMIC
una constante, conladatos media de r 2la muestra resultante1 0es igual a la media
1
del estudio 1disponibles s de estas ,091 2
3,61
colesterolbHDL ryxfueron
ryx2 rrx1x2 =s y-0,273 0,y273
ryx2+ =0,0,232,
232 0,respectivamente.
091 0,295 Las
1=
1
yx1 = = -0,0207,
2
1 rx1x2 s x1 1 0,091 2
3,
Estimacin 61
e inferencia de la ecuacin de regresin
Pastor-Barriuso R. 199
explicativa sobre la variable respuesta, una vez controladas las posibles
g/da (aproximadamente una desviacin tpica) en la ingesta de alcoholPor se asocian
otro lado, para un mismo nd
corporal se asocia con una disminucin media en el colesterol HDL de
diferencias en la otra variable explicativa. Por un lado, manteniendo constante el
con
Regresin unmltiple
lineal aumento medio en el colesterol HDL de g/da (aproximadamente una des
consumo y (xde1 +alcohol,
c1, x2) -cada
y (xincremento
1, x2) = b0 +de b1c(x1 1=+3,50
c1) +kg/mb2x22 -en
(bel b1x1 +deb2masa
0 +ndice x2 )
y (x1, x2 + c2) - y (x1, x2) = b0 + b1x1 + b2(x2 + c2) - (b0 + b1x1 + bcon 2x2)un aumento medio en el cole
Por un lado,
corporal se manteniendo
asocia con una constante
disminucin b1 =media
=elc1consumo
3,50(-0,0207)
deen
alcohol, = -0,072.
cada
el colesterol HDL de de c1 = 3,50 kg/m2
incremento
en el ndice de masa corporal se asocia con una disminucin media en el colesterol HDL de
= c2b2 = 200,0028 = 0,056. y (x1, x2 + c2) - y (x1, x2)
Por otroy lado,
(x1 + para
c1, x2un
) mismo
y (x1, xndice
2 ) = b 0 de
+ masa
b (x
1 1 corporal,
+ c 1 ) + b xincrementos
2 2 (b0 + b x
1 1de
+ c
b 2x=
2 2 ) 20
Para 1b1 = 3,50(
= cinducido 0,0207) = 0,072.
g/daevaluar el grado de confusin
(aproximadamente una desviacin por
tpica) el la
en consumo
ingesta dede alcohol
alcohol en la
se asocian
Porcruda
otro (una
lado,pequea
para unparte
mismo ndice
de la de masa
reduccin corporal, incrementos
del colesterol HDL entre los c2 = 20
desujetos cong/da
asociacin entre el ndice de
el masa corporal y deel colesterol HDL, basta comparar el el grado de confusi
con un aumento
(aproximadamente medio
una en colesterol
desviacin HDLen
tpica) la ingesta de alcohol sePara evaluar
asocian con un
Por otro
aumento lado,
medio para un mismo ndice de masa corporal, incrementos de c 2 = 20
sobrepeso no en
se el colesterol
debe a su mayorHDLndice
de de masa corporal sino a un consumo de
coeficiente ajustado mediante regresin mltiple b1 = -0,0207 con el coeficiente asociacin entre el ndice de mas
y (x1, x2 + c2) y (x
g/da (aproximadamente 1, xdesviacin
una 2) = b0 + btpica)
1x1 + b2en c2) (b0de+ alcohol
(x2la+ingesta b1x1 + bse 2x2asocian
)
alcohol ligeramente menor). No obstante, los efectos crudo y ajustado no difieren
crudo obtenido de una regresin =simple c2b2 =en 20la 0,0028
misma =muestra
0,056. de 449 controles
coeficiente ajustado mediante reg
con
Para un aumento
evaluar medio
elpequea
gradopor en el
departe colesterol
confusin HDL
inducidode de
por el consumo de alcohol ensujetos
la asociacin
substancialmente, lo que el reduccin
consumo alcohol no parece ser unlosfactor de con
b1 cruda
= rel
entre
(una
yx1 sndice
y / s x1 =
de la
masa0,295/3,61
de-0,273 corporal y=el-0,0222.
del
colesterolLacolesterol
razn
HDL,entre
HDL entre
bastaloscomparar
coeficientes
crudo el obtenido de una regresin
coeficiente
ajustado
Para y mediante
(x1, xel
evaluar
confusin
sobrepeso +sec2regresin
2 grado ) -dey para
importante
no debe a(x mltiple
1, x
confusin
su la
mayor +b1b1=x10,0207
= binducido
2) asociacin
0ndice bmasa
+por
entre
de 2(x con
c2)el- de
+corporal
el2 consumo
ndice coeficiente
(b + crudo
+ alcohol
0de
masa
sino 1un 2x2)layobtenido
b1axcorporal
ben
consumo el de de
crudo y ajustadosimple en la misma muestra de 449 controles b1 = ryx1 s y / s x1 == -0,2730,295/3
una regresin
asociacin
colesterolentre
0,2730,295/3,61
HDL el en
alcohol ligeramente ndice
los de masa
= 0,0222. La
controles
menor). No corporal
= crazn
del 20y0,0028
= entre
2b2 estudio
obstante, ellos
los colesterol
EURAMIC.= 0,056.
efectos HDL,
coeficientes
crudo bastay comparar
crudo ajustado
y ajustado el
no difieren
b1 0,0222 crudo y ajustado
coeficiente ajustado mediante
substancialmente, por lo queregresinel=consumo mltiple b1 = -0,0207
de=alcohol
1,08 no parece conser
el un
coeficiente
factor de
Para evaluar el grado de confusin b1 inducido
0,0207por el consumo de alcohol en la
11.3.2 Inferencia sobre los coeficientes de regresin
crudo
indica obtenido nodeseuna
que, si importante
confusin regresin
ajusta simple ende
porlaelasociacin
para consumo la misma
alcohol,
entre muestra de 449corporal
se sobreestima
el ndice de masa controles
un 100(1,08y el 1) = b1
asociacin entre el ndice de masa corporal y el colesterol HDL, basta comparar el
8%
En indica la que,
asociacin
el Apndice seinversa
sialnofinal del tema
ajusta delse
por elndice de masa
demuestra
consumo deque, corporal se con
bajo las
alcohol, el colesterol
asunciones
sobreestima de HDL. Esto es
unlinealidad,
100(1,08 b1
b1 colesterol
debido= ryxa1 sque / s el
HDL = -0,273
consumo
en los 0,295/3,61
de alcohol
controles = -0,0222.
presenta
del estudio una La razn
leve
EURAMIC. entre
correlacinlos coeficientes
negativa con el ndice
coeficiente y
ajustado
x1
mediante regresin mltiple b1 = -0,0207 con el coeficiente
de
aditividad masa y corporal,
homogeneidad
- 1) = 8% la asociacin lo queinversa
deinduce unndice
la varianza,
del pequeo sesgocorporal
losdeestimadores
masa en ladeestimacin
mnimos cruda (una
cuadrados
con el colesterol bpequea
indicaHDL. j
que, si no se ajusta por el
parte de ajustadode una regresin simple en la misma muestra de 449 controles debe a su
la
crudo yobtenido reduccin del colesterol HDL entre los sujetos con sobrepeso no se
mayor es ndice
debidode masa corporal sino ade unregresin
consumo de
unaalcohol ligeramente
j y correlacin 2
v=jj menor). No
siguen
Esto
11.3.2 aproximadamente
Inferencia asobre
que una
ellos distribucin
consumo
coeficientes de alcoholnormal con media
presenta leve varianza -1)negativa
en
8% la asociacin inversa d
obstante, los efectos crudo y ajustado no difieren substancialmente, por lo que el consumo
b1 = ryx1 s y / s x1 = -0,2730,295/3,61 b = 0-0,0222.
,0222 unLapequeo razn entre los coeficientes
Enconde
muestras alcohol no
el suficientemente
ndice al
el Apndice parece
definal
masadel ser un
corporal, factor
tema selodemuestra
grandes, 1 de confusin
=que induce que, importante
bajo
= 1,08 sesgopara
las asunciones en la
ladeasociacin
estimacin
linealidad, entre el
Esto es debido a que el consumo
ndice de masa corporal y el colesterol b1 0HDL ,0207en los controles del estudio EURAMIC.
crudo y ajustado 11
aditividad y homogeneidadb de la varianza, los estimadores de mnimos cuadrados con el bj de masa corporal, l
ndice
j j ~
11.3.2indica Inferencia
que, si no sobre los coeficientes
se ajusta por N de (0, regresin
1)de j = 0, 1, ,
, alcohol, p,
siguen aproximadamente una v jj b consumo
el
distribucin 0 ,normal
0222 con
se sobreestima
media
un 100(1,08
j y varianza 2vjj en
1
En el Apndice = = 1,08 asunciones de linealidad, aditividad
- 1) = 8% al la final del tema
asociacin se demuestra
inversa bdel
1 0,0207
ndice que,
de bajo
masalas corporal con el colesterol HDL.
y homogeneidad de la varianza,
muestras suficientemente los estimadores de mnimos cuadrados bj siguen aproximadamente
grandes,
donde vjj es un valor conocido que depende del 2tamao muestral y de las varianzas y
una distribucin
Esto es debido normal conelmedia
a que consumo j y de alcohol presenta
varianza vjj en muestras
una leve suficientemente
correlacin negativa grandes,
indica que, si no se ajusta por el consumo de alcohol, se sobreestima un 100(1,08
covarianzas entre las variables b j explicativas.
j ~ Si se reemplaza el parmetro desconocido
con el ndice de masa corporal, lo que N (0induce
, 1) , jun = 0, 1, , p,
pequeo sesgo en la estimacin
- 1) = 8% la asociacin inversa v jj del ndice de masa corporal con el colesterol HDL.
por la desviacin tpica residual s, puede probarse que los estadsticos resultantes siguen 11
dondeEsto vjj es es
undebido
valor conocido que depende del tamao muestral
a que el consumo de alcohol presenta una leve correlacin negativay de las varianzas y covarianzas
aproximadamente
donde
entre vjj es un valor
las variables unaconocido
distribucin
explicativas. Sique t de Student
depende
se reemplaza del con
el tamao los nmuestral
parmetro - pdesconocido
- 1 grados
y de lasde libertad
varianzas
por y
la desviacin
tpica conresidual s, puede probarse que los estadsticos resultantes
el ndice de masa corporal, lo que induce un pequeo sesgo en la estimacin siguen aproximadamente una
correspondientes
distribucin
covarianzas t deentre
Studenta la estimacin de
con los nexplicativas.
las variables la desviacin
p 1 grados tpica
de reemplaza
Si se residual,
libertad correspondientes a la estimacin
el parmetro desconocido
de la desviacin tpica residual, 11
por la desviacin tpica residual b j s,j puede~ t
probarse que los estadsticos resultantes siguen
n p 1 , j = 0, 1, , p.
aproximadamente una distribucin s v jj t de Student con los n - p - 1 grados de libertad
Notar que estas distribuciones de los estimadores bj en muestras suficientemente grandes no
correspondientes
requieren de estas
la asuncin a la estimacin
de normalidad de la y,desviacin
por tanto, tpica residual,
Notar que distribuciones de los estimadores bj son vlidas para
en muestras cualquier distribucin
suficientemente
subyacente de la variable respuesta.
grandes no requieren de la basuncin j j ~de normalidad y, por tanto, son vlidas para
200 Pastor-Barriuso R. t n p 1 , j = 0, 1, , p.
s v jj
cualquier distribucin subyacente de la variable respuesta.
Utilizando estos resultados, los intervalosjj de confianza al 100(1 - )% para los
los contrastes bilaterales de las hiptesis
variable explicativa H : de
= 0ausencia de efecto
se realizan medianteindependiente de cada
los estadsticos
0 j
coeficientes de regresin j vienen dados por
que H
ariable explicativa bajo dichas hiptesis nulas se distribuyen aproximadamente
0: j = 0 se realizan mediante los estadsticos
como
Estimacin una de
e inferencia t de Studentde regresin
la ecuacin
Utilizando estos resultados, los intervalos bj de confianza al 100(1 - )% para los
con n - p - 1 grados de libertad. t = ,
s v jj /2 s v jj
bj tn-p-1,1-
coeficientes de regresin bj j vienen dados por
Utilizando estos resultados,
t= , intervalos de confianza al 100(1 )% para los coeficientes
los
de regresin j vienen dados s vporjj
Ejemplo
quey bajo
los dichas11.3
contrastes Los programas
bilaterales
hiptesis nulasdeselas estadsticos deconvencionales
hiptesis aproximadamente
distribuyen ausencia de efectofacilitan
como unadirectamente
independiente
t de Studentde cada
bj tn p 1,1 /2 s v jj
ue bajo dichas hiptesis
ycon las
- pestimaciones
variable
los nulas
- 1explicativa
ncontrastes grados depuntuales
sebilaterales
distribuyenH0:de
libertad. = 0de
las selos
j aproximadamente coeficientes
realizan
hiptesis de mediante como
ausencia deunaregresin
los
de t de Student
estadsticos
efecto lineal mltipledey cada
independiente sus variable
explicativa H0: j =bilaterales
y los contrastes 0 se realizan de mediante
las hiptesis los de estadsticos
ausencia de efecto independiente de cada
on n - p - 1 grados deerrores
libertad. estndar. Segn la Tabla 11.1, los errores estndar de los coeficientes
Ejemplo 11.3 Los programas estadsticos bj
variable explicativa H t = convencionales
0: j = 0 se realizan mediante los estadsticos
, facilitan directamente
estimados para el ndice de masa corporal y
s v jj el consumo de alcohol son
Ejemplo 11.3 Loslasprogramas
estimaciones estadsticos
puntualesconvencionales
de los coeficientes facilitan directamente
de regresin lineal mltiple y sus
que bajo dichas hiptesis nulas se
respectivamente SE(b1) = s v11 = 0,0036byj SE(b2) = s v 22 =distribuyen aproximadamente como0,0006. unaPor t detanto,
Student con
n que
las estimaciones p puntuales
1 grados
bajo
errores dichas de hiptesis
estndar.
de libertad.
los Segnnulas
coeficientes la Tabla sededistribuyen
11.1, t
regresin = los errores
lineal,
aproximadamente
estndar ydesus
mltiple loscomo una t de Student
coeficientes
s v jj
los ICs al 95% para estos coeficientes de regresin son
errores estndar. estimados
n - p -la1 Tabla
conEjemplo
Segn para el
grados
11.3 dendice
11.1,
Los losde
libertad.
programas masa estndar
errores corporal de
estadsticos y ellosconsumo
coeficientes
convencionales de alcohol son directamente las
facilitan
queestimaciones
bajo dichas hiptesis puntualesnulas de los coeficientesaproximadamente
se distribuyen de regresin lineal como mltiple
una t dey Student
sus errores
estimados para elestndar.
ndice de b1Segn
respectivamente t446;0,975
masa la (SE
b1)(=
corporal
SETabla b111.1,
ys) el
=v-0,0207
consumo
11 los= 0,0036
errores 1,970,0036
de y alcohol
SE (
estndar b2 ) son
= =
des (-0,0278;
v
los 22 = -0,0135),
0,0006.
coeficientes Por tanto,
estimados para el
Ejemplo 11.3 Los programas estadsticos convencionales facilitan directamente
conndice - 1degrados
n - ppuede
As, masa
afirmarse corporal
de libertad.
con una confianza y el consumo del 95% que deel nivel
alcohol medio son respectivamente
de colesterol
respectivamente SE ( b
los ICs ) = s
1 al 95%b 2
v t = 0,0036SE ( b
11 para estos coeficientes
446;0,975 y 2 )
SE = (0,0028
b 2 ) = s v1,970,0006
=
de regresin
22 0,0006. son = (0,0016;
Por
Por tanto,
tanto, 0,0040),
los ICs al 95% para
las
estos estimaciones puntuales de son del estudio EURAMIC disminuye entre y sus
los coeficientes de regresin lineal mltiple
HDL coeficientes
en la poblacin de regresin
de referencia
los ICs al 95% para Ejemplo
estos 11.3 Los programas deestadsticos convencionales facilitan directamente
queerrores
tambin bcoeficientes
set446;0,975
1estndar.
incluyen SE de(bdentro
Segn regresin
1 ) la= Tabla
0,0207 son
los 11.1,resultados
1,97 0,0036
los errores de la= Tabla
( 0,0278;
estndar 11.1.
de los Encoeficientes
general,
0,0135), el
3,500,0135 = 0,047 y 3,500,0278 = 0,097 mmol/l por cada incremento de c1 =
b2 t446;0,975puntuales
las estimaciones SE(b2 ) = de 0,0028 1,97 0,0006
los subyacente
coeficientes = (0,0016;lineal 0,0040),
intervalo
SE(b1de
estimados
b1 t446;0,975 )2 =confianza
para el ndice
-0,0207 para el
deefecto
1,970,0036 masa =corporal (-0,0278; cde
y el-0,0135),
regresin
j asociado
jconsumo deaalcohol
mltipledeycsus
un aumento son j
que kg/m enseelincluyen
3,50tambin ndice de dentromasade corporal
los resultados entre sujetos
de la Tabla con la11.1. misma En ingesta
general,de el intervalo
errores
unidades enestndar.
la variable Segn lasubyacente
explicativa TablaX11.1, cjlos errores estndar de los coeficientes
de respectivamente
confianza para elSEefecto j se calcula como
j asociado a=un aumento de cj unidades
b2 t446;0,975 SE
que tambin ( b ) = 0,0028
2 se incluyen dentro ( b1,970,0006
1 ) = s v == (0,0016;
0,0036 y 0,0040),
SE
de los resultados de la2 Tabla 11.1. ( b ) s v 22 =En 0,0006. Poreltanto,en la
general,
alcohol, explicativa
variable y que la media calcula 11
Xj sepoblacional como del colesterol HDL aumenta entre 200,0016
estimados para el ndice de masa corporal y el consumo de alcohol son
intervalo
que tambin se incluyen los ICsde
= 0,032 dentro
95%
y 200,0040 decjlos
al confianza bj resultados
para tpara
estos
n p 1,1
= 0,080 mmol/l
/2 SE(cjsubyacente
de labpor
elcoeficientes
efecto
Tabla cj{11.1.
j ) = de
cada
bj ctj
regresin En1,1
incremento
/2 SE(abun
n jpasociado
son
general, de cel
j )}. aumento de cj
2 = 20 g/da en el
As,respectivamente
puedeenafirmarse SEcon (b1una) = sconfianza v11 = 0,0036 del 95% y SEque (b2el s vmedio
) =nivel 22 = 0,0006. Por tanto,
de colesterol HDL en
unidades
intervalo de confianza para el la variable
efecto explicativa
subyacente c X se
asociado
j calcula a como
un aumento de c
consumo
la poblacin debalcohol
1de t446;0,975
referenciaentre SEsujetosb1) estudio
(del = -0,0207
j con el
j 1,970,0036
mismo
EURAMIC ndice de
disminuye= masa
(-0,0278; -0,0135),
corporal.
entre
j Estos = 0,047
3,500,0135
los ICs al 95% para estos coeficientes
y3,500,0278 = 0,097 mmol/l por cada incremento de c1 = 3,50 kg/m en el ndice dede regresin son 2
unidades en la variable
efectos
masa explicativa
independientes
corporal b2entre X setdel
ctj446;0,975
bj sujetos
calcula
SEndice
n-p-1,1- (con como
b2/2)SElade
= cmisma
jbmasa
(0,0028 j) = c bj tn-p-1,1-
{1,970,0006
jcorporal
ingesta deyalcohol,
de/2= SE(0,0016;
la (bjy)}.quede
ingesta la alcohol
0,0040),
media poblacional
13
del colesterol HDL aumenta entre 200,0016
b1 t446;0,975SE(b1) = -0,0207 1,970,0036 = (-0,0278; -0,0135), = 0,032 y 200,0040 = 0,080 mmol/l por
sobre
cada
cjbque el colesterol
incremento
j tn-p-1,1- /2SE de HDLc = son
20 muy
g/da significativos,
en el consumo ya de que sus
alcohol correspondientes
entre sujetos contest
el mismo
tambin se(cincluyen
jbj)2 cj{dentro
bj tn-p-1,1- de los /2SE (bj)}. de la Tabla 11.1. En general, el
resultados
ndice de masa corporal. Estos efectos
b2 t446;0,975SE(b2) = 0,0028 1,970,0006 independientes del=ndice
(0,0016; de 0,0040),
masa corporal y de la
estadsticos
ingesta de alcohol sobre el colesterol HDL son muy significativos, ya que sus
intervalo de confianza para el efecto subyacente cjj asociado a un aumento 13 de cj
correspondientes test estadsticos
que tambin se incluyen dentro de los resultados de la Tabla 11.1. En general, el
b1 0,0207 como
unidades en la variablet explicativa = =Xj se calcula = 5,68, 13
intervalo de confianza para el efecto SE ( b 1 ) 0 , 0036
subyacente cjj asociado a un aumento de cj
cjbj tn-p-1,1-b/22SE(cjb0j),0028 = cj{bj tn-p-1,1-/2SE(bj)}.
unidades en la variable explicativa t= X=j se calcula = 4,68,
como
SE (b2 ) 0,0006
arrojan valores P bilaterales 2P(t446
cjbj tn-p-1,1- 5,68) 2F(5,68) < 0,001 y 2P(t446 4,68)
/2SE(cjbj) = cj{bj tn-p-1,1-/2SE(bj)}.
2{1 F(4,68)} < 0,001, tal como muestra la Tabla 11.1.
arrojan valores P bilaterales 2P(t446 -5,68) 2(-5,68) < 0,001 y 2P(t446 4,68) 13
11.3.3 2{1
Inferencia sobre
- (4,68)} la ecuacin
< 0,001, de muestra
tal como regresin
la Tabla 11.1.
13
La ecuacin de regresin puede utilizarse para estimar el valor esperado de la variable respuesta
en funcin de los valores de las variables explicativas. Dados unos determinados valores x01, ,
11.3.3 Inferencia sobre la ecuacin de regresin
Pastor-Barriuso R. 201
La ecuacin de regresin puede utilizarse para estimar el valor esperado de la variable
nuevo
Ejemplo y 011.5
= 1,58El- 0,020725 + 0,002820
valor predicho = 1,12HDL
del colesterol mmol/l.
paraSin
un embargo, el con un ndice
nuevo sujeto
de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/da es de nuevo 0 = 1,58
0,020725
intervalo + 0,002820
de prediccin = 1,12
al 95% mmol/l.
para Sin embargo,
esta nueva el intervalo de prediccin al 95%
observacin
para esta nueva observacin
y 0 t446;0,975 s 1 + h0 = 1,12 1,97 0,077(1 + 0,0025) = (0,57; 1,67)
es notablemente ms impreciso que el intervalo de confianza calculado en el ejemplo
anterior
es para el valor
notablemente medio delque
ms impreciso colesterol HDLde
el intervalo enconfianza
todos los calculado
sujetos con
en dichos
el valores
del ndice de masa corporal y del consumo de alcohol (IC al 95% 1,09-1,15 mmol/l).
ejemplo anterior para el valor medio del colesterol HDL en todos los sujetos con
11.4 dichos
CONTRASTES
valores del DE HIPTESIS
ndice EN REGRESIN
de masa corporal LINEAL
y del consumo MLTIPLE
del alcohol (IC al 95%
Como1,091,15
se vio en mmol/l).
el Apartado 10.3.2 del tema anterior, el contraste de un modelo de regresin
lineal simple se reduce a evaluar si el coeficiente 1 asociado a la nica variable explicativa es 0,
en cuyo caso el modelo no aportar explicacin alguna sobre la variabilidad de la variable
respuesta. En regresin lineal mltiple, sin embargo, la presencia de mltiples variables
explicativas
11.4 permite realizar
CONTRASTES distintos contrastes
DE HIPTESIS de hiptesis,
EN REGRESIN que danMLTIPLE
LINEAL respuesta a diferentes
preguntas de investigacin. En general, los contrastes de hiptesis en regresin lineal mltiple
pueden clasificarse en tres grandes grupos, a saber:
Como se vio en el Apartado 10.3.2 del tema anterior, el contraste de un modelo de
yy El contraste global determina si el modelo en su conjunto explica una parte significativa
de lalineal
regresin variabilidad de reduce
simple se la variable respuesta.
a evaluar si el coeficiente 1 asociado a la nica
yy Los contrastes parciales individuales evalan la contribucin independiente de cada
variable explicativa
variable es 0, en
explicativa unacuyo caso el modelo
vez controlados no aportar
los efectos de lasexplicacin alguna sobre
restantes variables explicativas.
yy Los contrastes
la variabilidad parcialesrespuesta.
de la variable mltiplesEnvaloran si un
regresin determinado
lineal subgrupo
mltiple, sin embargo,delados o ms
variables explicativas contribuye significativamente a explicar la variabilidad residual de
la variable
presencia respuesta
de mltiples que noexplicativas
variables se explica por las otras
permite variables
realizar incluidas
distintos en el de
contrastes modelo.
En los siguientes apartados se describen los procedimientos estadsticos necesarios para realizar
hiptesis, que danConviene
dichos contrastes. respuestaresaltar
a diferentes preguntas
que estos de de
contrastes investigacin. En general,
hiptesis asumen losy aditividad
linealidad
en los efectos de las variables explicativas y, en consecuencia, no deben interpretarse como pruebas
contrastes
de bondad dedelhiptesis
ajuste, yaen
queregresin lineal
no facilitan mltiple
ninguna pueden clasificarse
informacin en tres del
sobre la idoneidad grandes
modelo lineal
aditivo para describir la relacin subyacente de las variables explicativas con la variable respuesta.
grupos, a saber:
11.4.1 Contraste global del modelo de regresin lineal mltiple 17
La hiptesis nula del contraste global de un modelo de regresin lineal mltiple establece que ninguna
de las variables explicativas se asocia linealmente con la variable respuesta, que puede formularse
Pastor-Barriuso R. 203
Regresin lineal mltiple
Al igual
antioxidantes en el riesgo que en regresin
de desarrollar lineal
un primer simple,
infarto este de
agudo contraste global
miocardio en se realiza
como descomponiendo
Hvalores = la
: 1 = 2obtenidos = variabilidad de 1,58,
la variable respuesta. Una devez estimada la ecuacin
hombres adultos. Los p= 0. Bajo
fueron esta
0,89, hiptesis 0,79, nula, la ecuacin regresin se reduce al trmino
Al0 igual que en regresin lineal simple, este1,29, contraste 1,42, global 0,84, se realiza
constante 0 y el modelo no aportar entonces ninguna explicacin sobre la variabilidad de la variable
1,06, 0,87, 1,96respuesta.y de1,53 regresin
El propsito
mmol/l. yLa=media b0es,+ por
bde1x1tanto, +
los + bpxpdel
contrastar
niveles suma
, lacolesterol
la hiptesis de cuadrados
HDLnula en H0: 1total= 2 =SST = dela=variable
0 frente a la
descomponiendo la variabilidad de la variable respuesta. Una vez estimada lap ecuacin
hiptesis alternativa bilateral de que al menos una de las variables explicativas se relaciona linealmente
estos 10 participantes conrespuesta es puede
la respuesta, quedescomponerse
corresponde a Hcomo : 0 para algn j = 1, , p.
de regresin y = b0 + b1x1 + 1+ bjpxp, la suma de cuadrados total SST de la variable
Al igual que en regresin lineal simple, este contraste global se realiza descomponiendo la
variabilidad
1 10
respuesta de 0la
puede ,89variable
+ 1,58=+respuesta.
descomponerse
n
...(+y1,53ycomo 2Una vez estimada la ecuacin
n
de regresin = b0 + b1x1
x+ = + x = SST
b x i, la suma de cuadrados i ) = =
1,223 ( ymmol/l.
y + yi y i ) 2
totali =1SST de la variable respuesta puede descomponerse
i
10 p p 10 i =1
como i =1 n n n
n n
SST = ( yii y ) =
( yii yi + yi
y i )(2y i y )( yi y i )
2 2
= ( y y ) 2 + ( y y ) + 2
i =1 en antioxidantes en el riesgo de desarrollar un primer infarto agu
riesgo aritmtica
media de desarrollar presenta un primer infarto agudo
las siguientes i =1 de miocardio
i =1
propiedades:
i =1 i =1
n n
DAS DE TENDENCIA 1.2 MEDIDASCENTRAL DE TENDENCIA n CENTRAL n n
Los valores
=
=
(( yyi yy )) 22 ++ (( yyi
1 cadahombres
yyi ))22 + = 2SSR( +y SSE,
adultos. i yLos y i ) obtenidos fueron 0,89, 1,58, 0,7
)( yi valores
Cambio de obtenidos fueron 0,89,
origen (traslacin). Si se 1,58,suma 0,79, =1 1,29,
i una
i =1
i
constante 1,42,i =0,84,
i =a1
i i
uno de los i =1 datos
s de tendencia Las medidas
central informande tendencia acerca centralde cul informan
n es el valor acerca n ms de representativo
cul 2es el valor ms representativo
1,53 mmol/l.
de una muestra, layaLa mediamedia de los
de laniveles
muestra del =
colesterol
resultante ( y y
es
que las desviaciones i =y1i - y y yi - iy=1i estn incorrelacionadas
i
HDL
) 2
+
igual ena( ylai media 1,06,
y i ) =0,87, SSR1,96
inicial +msSSE,y la1,53 mmol/l. La media de los niveles del co
rminada variable de una determinada
o, dicho de forma variable o, dicho deestos
equivalente, forma equivalente,
estimadores indicanestos estimadores indican
tes es
constante ya que
utilizada; si las
yi =desviaciones
xi + c, entonces i y y=yxi +icestn . Un cambio estos
incorrelacionadas de10 participantes
origen que es
e qu valor alrededor
se agrupan deque
ya qu
loslas valor
datos se nagrupan los datos observados.
observados.
desviaciones y i Las
- y medidas y yi - yni de estntendencia Lasn medidas de tendencia
incorrelacionadas
se
1 realiza
10 con
0,89frecuencia
+ 1,58 + ...es + 1el,53
centrado
(
y y )(
i de la variable,y i
y i ) =
que y e
consiste
i i y ei
en restar a 1 10 0,89 + 1,58 + ... + 1,53
a10 i =1
x i =
muestracentralsirven de tanto la10muestra
para resumir =i =1
1,223
sirvenlostanto
n
mmol/l.
resultadospara resumir observados
i =1
los nresultados
n
comoppara
i =1
n
observados
n
x = como
10n i =1
xpara
i =
10
= 1,223 m
= b0
ii
cada valor de la muestra su media. La
( ymedia de una variable y i eecentrada
+ y b ejser, ei y ei = 0
xijpor
i y )( y i y i ) = i
rencias acercarealizar deinferencias
los parmetros acerca i =1de los parmetros
poblacionales poblacionales
correspondientes. i =1 i =1 Aj =i1=correspondientes.
1 i =1 i =1 A
tanto, igual a 0.
resenta las siguientes de acuerdo propiedades:
a las ecuaciones lineales derivadas del n
La media mtodoaritmtica
p
de mnimos
n
presenta
cuadrados
n
las siguientes
(vase Apartado propiedades:
n se describen continuacin
los se
principales
11.3.1).
de acuerdo
describenestimadores
En consecuencia, los
a las ecuaciones
principales
de
la suma la tendencia
lineales
=
estimadores b
de derivadas
0 central
cuadrados
e +
i de de
del
la
total
b
una j ij i central
tendencia
j =1 mtodo
SST
x e
se
y
de descompone
mnimos
ede
i =una 0
en dos(vase
cuadrados trminos
Cambio de escala
(traslacin). (unidades).
Si independientes:
se suma Silase
una constante multiplica
a cada uno cada de unolos de
datos los
i =1
suma de cuadrados de la regresin SSR, que representa la variabilidad de
datos
Cambio de una
i =1
de origen
i =1
(traslacin). Si se suma unala constante a cad
variable. es cierta. Por otro lado, comopor elsemodelo vio la ensuma el regresin,
Apartado 11.3.1, la suma de
variable
Apartado respuesta11.3.1). explicada
En consecuencia, de de cuadrados y la suma total deSST se cuadrados
cuadrados descompone del errordelenSSE,
muestradepor
media unaque
la muestra constante,
derepresenta
acuerdo
resultante la amedia
es igual de la
a la muestra
media resultante
la variabilidad residual que permanece sin explicar. Por un lado,(vase
las ecuaciones lineales inicial derivadas
ms esla igual
de deluna a la
mtodo
muestra, media de mnimos
la media cuadrados
de la muestra laresultante
suma es igual a la
a aritmtica 1.2.1 Media erroraritmtica
decuadrados
dos SSE contiene
trminos deindependientes: n - p - 1 SSR
la regresin grados de libertad.
contiene
la suma p grados
de cuadrados Adems, dedelibertad bajo
la lasya
regresin asunciones
que,SSR, conocida
quedel modelo la media
;inicial
si yi =por xi +lac,constante
entoncesApartado utilizada;
y = 11.3.1).
x + si
c . yEn
Un
i = cx
cambioi , entonces
consecuencia, de origen yla = c
suma
que x .
muestral , los valores estimados por la ecuacin de regresin i = b0 + ib1xi1i + bpxipen= y += x + c. Un cam de cuadrados
constante total
utilizada; SSTsi y se
= descompone
x + c , entonces
2
itmtica,La media
denotada de regresin
b1(xrepresenta
aritmtica,
por
i1 x 1,) se
+ la lineal
+ bcomo
denotada
define
variabilidad mltiple,
p(xip por lade xsuma
p,)la
sese comprueba
quedan
define
de cada
variable como unoque
completamente
respuesta la
desuma elloscociente dedeterminados
explicada cada SSE/unoelde
por selos
distribuye
por
modelo losdepregresin,
coeficientes
Cambio simultneo
uencia es el centrado dos
asociados de origen
trminos
de laavariable, y escala.
independientes:
las variables Si se
explicativas.
que consiste multiplicala suma
en restar cada
de
De hecho, a uno
cuadradossepuedede
realiza los dedatos
probarse la de
regresin
con frecuencia SSR,
que el cociente que
es el centrado SSR/ de 2
sigue
la variable, que con
valoresuna
strales dividida conforme
distribucin
muestrales
por el nmero a una
dividida
de chi-cuadrado
chi-cuadradopor
observaciones el nmerocon con
p den
grados
realizadas.
y la suma de cuadrados del error SSE, que representa la variabilidad residual - p - 1
de
observaciones Sigrados
libertad
denotamos de libertad
cuando
realizadas. la con independencia
hiptesis
Si denotamos nula H : de
0 que 1 = la
2 =
una muestra
uestra su media.=La por una
p media constante
representa
= 0 es de la
cierta. y
una Por al resultado
variabilidad
variable otro centrada de se
lado, como la le suma
variable
ser, otra
se por respuesta
vio encada constante, el Apartado la
explicada media
valor de 11.3.1, por
la muestrael modelo
la suma
su media. de regresin,
de cuadrados
La mediadel de una variable c
ao muestral por nyel error
por hiptesis
x
tamao SSE
permanece
i el nula.
contiene
muestral
valor Combinando
observado y n
por p x
parael 1 valor
el las
grados distribuciones
de
observado
sujeto libertad.
i-simo,
sin explicar. Por un lado, la suma de cuadrados de la regresin SSR contiene
i para i muestrales
Adems,
= el1, sujeto
..., n, bajode ambas
las
i-simo, =sumas
asunciones
i 1, ..., de
n, del modelo de
de la muestra resultante y la suma
regresin es igual
lineal a la media
de mltiple,
cuadrados se del inicial
comprueba errorporSSE, laque primeraque constante,
representa
el cociente
tanto, igual SSE/ a ms
la 2 la
variabilidad
0. se distribuye residual que a una
conforme
ndra dada la por
media chi-cuadrado
pcuadrados,
vendra
gradosdada deconse n p que
tiene
por
libertad 1 grados
ya bajoconocida
que, ladehiptesis
libertad la con nulaindependencia
media 0: 1 = 2 y=,de
Hmuestral p = 0 estimados
losla=valores
hiptesis lanula.
raznCombinando
entrepor la
segunda constante;
(unidades). Si selasmultiplica si y
permanece =
distribuciones
i c x +
sin
cada uno
1 i c , entonces
explicar.
muestrales
2 de los datos Por y
de ambasun = c
lado,
de una
1 x +la c suma.
sumas deCambio
2 de cuadrados
cuadrados, de escala de
se tienela regresin
que bajo Si
(unidades). SSR contiene
la hiptesis
se multiplica nulacada uno de los
2
1 = n2 = explicada
H0:ecuacin
varianza = = 0 la
por razn
la regresin entre la varianza
SSR/ p y la explicada
varianza por
residualla regresin
s = SSE/( SSR/pn - y
p la
- 1) varianza
1 2 de x1 +p x 2 +ya...yque,
de regresin 1i+=nx nbconocida0 + bx11xi1 + +lax 2 + ...+ b+pxipn = y + b1(xi1 - x1 ) + + bp(xip - x p )
onstante, la media residual
Ejemplo 1.5 Para transformar
xde la
p=grados muestra
n i =1
= libertad
s =x i SSE/(n px = 1)es
resultante
los valores
igual x.i =a la
n ndeli =1colesterol HDL
media media muestramuestral
n de mmol/l a mg/dl se
. por yuna , losconstante,
valores estimados la media de porlalamuestra resultante e
quedan completamente determinados SSR por los p coeficientes asociados a las variables
ante utilizada; si yiecuacin = cxi, entonces de regresin y = c xy i. = b0 + b1xi12 + + inicial bpxip = por y +labconstante + + bp(sixipyi- =xcx
(x - x ) utilizada; p )i, entonces y = c x
multiplica por el factor de conversin 38,8. SSR As, utilizando p la propiedad p2 del / p 1 i1 1
a es la medida Lade media
tendencia es la medida
explicativas. central DeFhecho,de= tendencia
ms utilizada
puede= central y de ms
probarse ms fcil
que utilizada
~el cociente y deSSR/ ms fcil 2 = Fp,n p 1
sigue una distribucin
ps 2
SSE n2 p 1 /(n
Cambio
simultneo p 1 ) de origen
o de origen y escala.
cambio de escala, quedan
Si se multiplica
la mediacompletamente
del colesterol HDL
cada uno
determinados de
en
los
mg/dl
datos porse
de los p coeficientes asociados
2 calculara
a las yvariables
escala. Si se multiplica cada u
n. Corresponde interpretacin.
al centro Corresponde
de gravedad de los(ndatos
al centro p de1)la
de gravedad muestra. de los Su datos de la muestra. Su
chi-cuadrado con p grados de libertad cuando la hiptesis nula2H0: 1 = 2 = = p = 0
na constante y al resultado explicativas. se le suma
Deen hecho,otra constante,
puede probarse la media que el una muestra
cociente SSR/ porunasigue constante y al resultado se le suma otra c
una distribucin
directamente a se distribuye
partir de su media como el cociente
mmol/l de dos
como 1,223distribuciones
38,8 = 47,45 chi-cuadrado
mg/dl. independientes divididas por
mitacin es principal
que estlimitacin
muy influenciada es que est pormuy los valoresinfluenciada extremos por los y, en valoreseste extremos y, en este
sussecorrespondientes
distribuye comogrados el cociente de libertad, de dos distribuciones
que equivale chi-cuadrado a una distribucin F de Fisher con p
independientes
tante es igual a la chi-cuadrado
media inicial por la primeradeconstante, ms ladelalahiptesis muestranula resultante 1es = igual
entre a la= media
p =19 0 inicial por la prim
grados de libertadcon en pelgrados numerador libertad
y n pcuando 1 en el denominador. H
La0: razn 2 = las varianzas
no ser uncaso, puede no
fiel reflejo de ser un fiel reflejo
la tendencia central de de la la tendencia
distribucin. central de la distribucin. 6 a una distribucin F
divididas por sus correspondientes grados de libertad, que equivale
; si yi = c1xi + c2, entonces y = c1 x + c2. segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2.
R.con p grados de libertad en el numerador y n - p - 1 en el denominador. La 19
y endelos
Fisher
204 Pastor-Barriuso
plo 1.4 En este Ejemplo 1.4 En
sucesivos este y en lossobre
ejemplos sucesivos ejemplos
estimadores sobre estimadores
muestrales, se muestrales, se
ransformar los valores del colesterol HDL de mmol/l a mg/dl seEjemplo 1.5 Para transformar los valores del colesterol HDL
delrazn
arn los valoresutilizarn entre las varianzas
los valores
colesterol HDL explicada
del colesterol
obtenidos 10y primeros
HDL
en los residual constituye,
obtenidos 10 por
en los del
sujetos tanto, sujetos
primeros el estadstico
del para el
Contrastes de hiptesis en regresin lineal mltiple
n n
SSE
Error SSE = ei2 = ( y i y i ) 2
i =1 i =1
n p 1 s2 =
n p 1
n
Total SST = (y
i =1
i y) 2 n 1
* Coeficiente
* Coeficiente de determinacin
de determinacin R2 = SSR/SST.
R2 = SSR/SST.
explicada y residual constituye, por tanto, el estadstico para el contraste global del modelo de
regresin lineal mltiple. La descomposicin de la variabilidad de la variable respuesta, junto
con la razn de varianzas resultante, suele resumirse en la tabla del anlisis de la varianza
(Tabla 11.2).
Como complemento al contraste global del modelo, suele calcularse el coeficiente de
determinacin R2 = SSR/SST, que es una medida cuantitativa de la proporcin de la variabilidad
equivale al cuadrado del coeficiente de correlacin r y entre los valores observados yi
de la variable respuesta explicada por el modelo de yregresin mltiple. El coeficiente de
determinacin R2 vara entre 0 y 1 y aumenta siempre que se incluyen nuevas variables
de la variable
explicativas en elrespuesta
modelo, yaunque
los valores incrementoy i puede
este predichos por la no
ecuacin de regresin,
ser significativo que
(ver se
apartado
siguiente). Otra de sus principales propiedades es que equivale al cuadrado del coeficiente de
coeficiente de correlacin
correlacin ryy entre
conoce como entre losvalores
los valores
coeficiente observadosyyimltiple
de observados
correlacin ide la variable
, respuesta y los valores predichos i
por la ecuacin de regresin, que se conoce como coeficiente de correlacin mltiple,
y los valores predichos y i por la ecuacin de regresin, que se 2
n
n 2
( y y )
SSR i =1 i
2
i =1
(
y i y )
de correlacin mltiple, 2
R = = n = n n
SST
( y i y ) 2 ( y i y ) 2 ( y i y ) 2
i =1 i =1 i =1
2
n
n
( y ( y i y ) 2
2 2
y) n n
i =1
i
i =1 ( y i y )( y i y ) ( y i y i )( y i y )
= n = n i =1 i =1
2 =
n
( y y ) 2
( y y ) 2
(
y y ) n n
( y i y ) 2 ( y i y ) 2
i i i
i =1 i =1 i =1
2 i =1 i =1
n n
( y i y )( y i y ) ( y i y i )( y i y ) n
2
=
i =1 i =1 ( y i y )( y i y )
= n = 2
i =1
n n
ryy .
( y y ) 2
(
y y ) 2 n
( y i y ) ( y i y )
i i 2 2
i =1 i =1 64
2 i =1 i =1
n
( y i y )( y i y )
Notar quelas estimaciones de los coeficientes de regresin minimizan la suma de cuadrados del
= n Notar que las estimaciones de los coeficientes de regresin minimizan R la2 suma de
i =1 2
error
n
= r yy .
SSE y, en consecuencia, maximizan el coeficiente de determinacin del modelo. De la
( y i y ) 2
(
relacin
y i y )
entre
2
los coeficientes de determinacin y correlacin mltiple, se deriva
i =1 cuadrados del error SSE y, en consecuencia, maximizan el coeficiente de determinacin
entonces que
i =1
las estimaciones b0, b1, , bp maximizan la correlacin entre los valores observados yi y los
R2 del modelo. De la relacin entre los coeficientes de determinacin y correlacin
es de los coeficientes de regresin minimizan la suma de
Pastor-Barriuso R. 205
mltiple, se deriva entonces que las estimaciones b0, b1, , bp maximizan la correlacin
y, en consecuencia, maximizan el coeficiente de determinacin
entre los valores observados y y los valores predichos y = b + b x + + b x , de tal
estimada y = 1,58 - 0,0207x1 + 0,0028x2
correlacin con la variable respuesta.
Regresin lineal mltiple 449
SSR = (1,58 0,0207 x i1 + 0,0028 x i 2 1,08) 2 = 4,58
Ejemplo 11.6 En la primera
i =1
parte de la Tabla 11.1 se presenta el anlisis de la
SSR 1 SSR 0
2
SSR 1 SSR 0 r
2 r /r
F= = ~ 2 = Fr,n p 1
rs12 SSE1 n p 1 /( n p 1)
(n p 1) 2
sigue una distribucin F de Fisher con r y n p 1 grados de libertad al ser el cociente de dos
sigue una distribucin
distribuciones F de
chi-cuadrado Fisher con r ydivididas
independientes n - p - 1 grados
por susderespectivos
libertad al ser el cociente
grados de libertad.
Este anlisis de la varianza para el contraste parcial de un modelo de regresin lineal mltiple
de dos distribuciones
se representa chi-cuadrado
esquemticamente independientes
en la Tabla 11.3. divididas por sus respectivos grados
X1,..., Xp r SSR0 p r
Ejemplo 11.7 La Tabla 11.4 muestra los resultados obtenidos en el grupo control del
estudio EURAMIC al ajustar un modelo de regresin lineal mltiple con el colesterol
HDL como variable respuesta, el ndice de masa corporal, el consumo de alcohol y la
edad en aos como variables explicativas continuas y el estatus socioeconmico como
variable explicativa dicotmica (xi4 = 1 en sujetos con bajo nivel socioeconmico y 0 en
sujetos con alto nivel socioeconmico). De la tabla del anlisis de la varianza se
desprende que el modelo en su conjunto explica el 11,9% de la variabilidad del colesterol
HDL, lo que representa una parte significativa de la variabilidad total de la respuesta ya
que la razn de varianzas del contraste global del modelo F = 14,85 resulta en un valor
P = P(F4,440 14,85) < 0,001 bajo la distribucin F de Fisher con 4 y 440 grados de
libertad. No obstante, una vez incluidos el ndice de masa corporal y la ingesta de alcohol,
ni la edad (t = b3/SE(b3) = 0,0002/0,0014 = 0,12, P = 2P(t440 0,12) 2{1 F(0,12)} =
0,90) ni el estatus socioeconmico (t = b4/SE(b4) = 0,021/0,027 = 0,80, P = 2P(t440 0,80)
2{1 F(0,80)} = 0,43) presentan efectos independientes significativos sobre los niveles
de colesterol HDL. De hecho, cada incremento de 10 aos en la edad se asocia con un
aumento despreciable de 100,0002 = 0,002 mmol/l en la media del colesterol HDL entre
sujetos con igual ndice de masa corporal, consumo de alcohol y nivel socioeconmico.
De igual forma, ajustando por diferencias en el ndice de masa corporal, la ingesta de
alcohol y la edad, la media del colesterol HDL difiere nicamente en 0,021 mmol/l entre
los sujetos con nivel socioeconmico bajo y alto.
A partir de estos resultados, sera razonable preguntarse si la edad y el estatus
socioeconmico contribuyen conjuntamente a explicar la variabilidad residual del
colesterol HDL que permanece sin explicar por el ndice de masa corporal y el consumo
de alcohol, lo que equivale a contrastar este modelo frente al modelo reducido de la
Tabla 11.1 que incluye nicamente el ndice de masa corporal y la ingesta de alcohol
como variables explicativas. No obstante, los resultados de ambos modelos no son
Tabla 11.4 Resultados de la regresin lineal mltiple del colesterol HDL sobre
el ndice de masa corporal (IMC), el consumo de alcohol, la edad y el estatus
socioeconmico (ESE) en el grupo control del estudio EURAMIC.
Anlisis de la varianza*
Suma de Grados de Razn de
cuadrados libertad Varianza varianzas
Regresin 4,58 4 1,14 14,85
Error 33,93 440 0,077
Total 38,51 444
* Coeficiente de determinacin R2 = 4,58/38,51 = 0,119.
Coeficientes de regresin
Test H0: j = 0
Estimacin Error estndar IC al 95% t Valor P
Constante 1,56 0,12 (1,33; 1,79) 13,24 < 0,001
IMC 0,021 0,0037 (0,028; 0,014) 5,66 < 0,001
Alcohol 0,0028 0,0006 (0,0016; 0,0040) 4,64 < 0,001
Edad 0,0002 0,0014 (0,0026; 0,0030) 0,12 0,90
ESE 0,021 0,027 (0,031; 0,074) 0,80 0,43
208 Pastor-Barriuso R.
consumo de alcohol, lo que equivale a contrastar este modelo frente al modelo
Contrastes de hiptesis en regresin lineal mltiple
reducido de la Tabla 11.1 que incluye nicamente el ndice de masa corporal y la
EURAMIC, de
directamente donde se obtiene
comparables ya queuna suma de
el modelo cuadrados
reducido explicada
emplea por el modelo
4 observaciones ms que el
modelo completo (449 versus 445). Esto es debido a que hay 4 sujetos con valores ausentes
reducido
para de SSR
el estatus 0 = 4,53. As, el que
socioeconmico, incremento en la variabilidad
pueden utilizarse explicada
en el ajuste al incluir
del modelo reducido,
pero no en el modelo completo que incluye dicha variable. Para comparar ambos modelos,
la edad
es y elajustar
preciso estatuselsocioeconmico
modelo reducido enaellamodelo
mismacompleto es SSR
muestra de - SSR0 = del
445 1controles 4,58estudio
EURAMIC, de donde se obtiene una suma de cuadrados explicada por el modelo reducido
- 4,53
de SSR=0 0,053.
= 4,53.LaAs,
razn
el entre el incremento
incremento de la varianza
en la variabilidad explicada
explicada y la varianza
al incluir la edad y el
estatus socioeconmico en el modelo completo es SSR1 SSR0 = 4,58 4,53 = 0,053. La
residual
razn del modelo
entre completo
el incremento de es
la entonces
varianza explicada y la varianza residual del modelo
completo es entonces
0,053 / 2 0,026
F= = = 0,34,
33,93 / 440 0,077
que corresponde a un valor P = P(F2,440 0,34) = 0,71 bajo la distribucin F de Fisher con
2que
y 440 grados dea libertad.
corresponde un valor Este contraste
P = P(F 2,440 parcial
0,34) =mltiple
0,71 bajoselarepresenta en la
distribucin Tabla 11.5.
F de
En conclusin, la edad y el estatus socioeconmico no contribuyen significativamente a
explicar la 2variabilidad
Fisher con y 440 gradosdeldecolesterol
libertad. HDL una vez tenidos
Este contraste parcial en cuentaseelrepresenta
mltiple ndice de masa
corporal y el consumo de alcohol, de tal forma que el modelo reducido a estas dos ltimas
variables explicativas
en la Tabla resulta igualmente
11.5. En conclusin, la edad yefectivo.
el estatus socioeconmico no
Loscontribuyen significativamente
contrastes parciales a explicar para
pueden emplearse la variabilidad
evaluar la del colesterol HDL
contribucin una de una
adicional
nica variable explicativa o de mltiples variables explicativas. El contraste parcial individual
vez tenidos
de la variable en cuenta
explicativa Xj el
se ndice
reducede masa corporal
a evaluar y el consumo
la hiptesis nula H0: de alcohol, de tal
j = 0 frente a la hiptesis
alternativa H1: j 0 y, en consecuencia, es equivalente al test para los coeficientes de regresin
presentado en el Apartado 11.3.2. De hecho, puede probarse que el estadstico F de la razn de
varianzas del contraste parcial individual es igual al cuadrado del estadstico t = bj/SE(bj) del
correspondiente coeficiente, de tal forma que los valores P resultantes de ambos procedimientos 26
son idnticos (la distribucin F de Fisher con 1 grado de libertad en el numerador y n p 1 en
el denominador es, por definicin, el cuadrado de la distribucin t de Student con n p 1
grados de libertad).
Pastor-Barriuso R. 209
explicada por el modelo completo con la variabilidad explicada por el modelo que
obtenindose una diferencia SSR1 - SSR0 = 4,58 - 4,53 = 0,049. As, el estadstico
variable politmica, que toma valores cero en todas las variables indicadoras incluidas
210 Pastor-Barriuso R.
en el modelo, E(Y|x1 = 0, ..., xk-1 = 0) = 0. Asimismo, cada coeficiente de regresin j
k 0 0 1
determina el cambio en el valor esperado de la respuesta en la categora j = 1, , k - 1
el valor esperado
respecto de la respuesta
a la categora en la categora
k de la variable j = 1, , k 1 respecto a la categora k de la
politmica,
variable politmica,
E(Y|x1 = 0, ..., xj1 = 0, xj = 1, xj+1 = 0, ..., xk 1 = 0)
E(Y|x1 = 0, ..., xk1 = 0) = 0 + j 0 = j.
Como puede apreciarse, la categora cuya variable indicadora se deja fuera del modelo acta
como grupo de referencia, de tal forma que los coeficientes asociados a las variables indicadoras
presentes en el modelo determinan los cambios medios en la respuesta respecto a dicha categora
de referencia. Aunque en principio la eleccin del grupo de referencia es arbitraria, en la prctica
suele utilizarse como categora de referencia aquella que representa la ausencia o el menor 29 nivel
de exposicin (nunca fumadores, nivel socioeconmico alto, normopeso), siempre y cuando su
tamao muestral sea lo suficientemente grande para obtener comparaciones precisas con el
resto de categoras de la variable politmica.
En general, la contribucin de las variables indicadoras a la capacidad predictiva del modelo
debe evaluarse conjuntamente, dado que estas variables no representan ms que las distintas
categoras de una misma variable politmica. En este sentido, los contrastes parciales presentados
en el apartado anterior pueden aplicarse al conjunto de todas las variables indicadoras para
contrastar la hiptesis nula H0: 1 = = k1 = 0, lo que equivale a un test de homogeneidad
del valor medio de la respuesta en las k categoras de la variable politmica. Notar que este test
de homogeneidad permanece inalterable ante cualquier codificacin de las variables indicadoras
o seleccin del grupo de referencia, ya que stas alteran los coeficientes de regresin, pero no
cambian la contribucin global de la variable politmica al ajuste del modelo.
Pastor-Barriuso R. 211
la variabilidad explicada SSR1 = 5,44 por el modelo completo de la Tabla 11.7
con
Regresin lamltiple
lineal variabilidad explicada SSR0 = 4,58 por el modelo que excluye ambas
Tabla 11.7 Resultados de la regresin lineal mltiple del colesterol HDL sobre el
ndice de masa corporal (IMC), el consumo de alcohol y las variables indicadoras
de ex fumadores y fumadores actuales en el grupo control del estudio EURAMIC.
Anlisis de la varianza*
Suma de Grados de Razn de
cuadrados libertad Varianza varianzas
Regresin 5,44 4 1,36 18,03
Error 33,42 443 0,075
Total 38,86 447
Coeficientes de regresin
Test H0: j = 0
Estimacin Error estndar IC al 95% t Valor P
Constante 1,61 0,099 (1,42; 1,81) 16,31 < 0,001
IMC 0,021 0,0036 (0,028; 0,014) 5,79 < 0,001
Alcohol 0,0030 0,0006 (0,0018; 0,0042) 5,03 < 0,001
Ex fumador 0,009 0,034 (0,058; 0,075) 0,26 0,80
Fumador actual 0,085 0,034 (0,151; 0,019) 2,53 0,012
212 Pastor-Barriuso R.
Variables explicativas politmicas
ordinales y las variables continuas categorizadas, cabra preguntarse adems si los niveles
medios de la respuesta siguen algn patrn especfico a lo largo de las categoras. En particular,
sera relevante contar con un test de tendencia que permitiera detectar la existencia de una
componente lineal creciente o decreciente entre las respuestas medias de las sucesivas categoras.
Para ello, la variable explicativa politmica X debe tomar valores que preserven el orden de las
categoras. En el caso de variables ordinales, suelen asignarse los valores xi = 1, 2, ..., k segn
el sujeto pertenezca a la primera, segunda o sucesivas categoras. En el caso de variables
continuas categorizadas, es preferible utilizar valores xi que representen alguna medida de
tendencia central de cada categora (media o mediana) para preservar no slo el orden de las
categoras, sino tambin la distancia entre las mismas. La variable politmica as codificada se
incluye directamente en el modelo de regresin, de tal forma que el contraste de su coeficiente
determina la existencia de una tendencia lineal creciente o decreciente en el valor medio de la
respuesta al aumentar la categora de exposicin. Conviene resaltar que este test de tendencia
no permite evaluar la idoneidad de la relacin lineal, sino nicamente la existencia de una
componente lineal significativa a travs de las categoras, independientemente de cul sea la
relacin subyacente.
Ejemplo 11.10 Dado que en el ejemplo anterior los niveles medios de colesterol HDL
no diferan significativamente en nunca fumadores y ex fumadores, ambas categoras se
colapsaron en una nica categora de no fumadores actuales. Adems, como se dispone de
informacin sobre el nmero de cigarrillos al da en 154 de los 172 fumadores actuales, se
construy una nueva variable politmica que clasificaba a los sujetos en no fumadores
actuales (276 sujetos), fumadores actuales de 1-10 (50 sujetos), 11-20 (67 sujetos) y > 20
cigarrillos/da (37 sujetos). La Tabla 11.8 muestra los resultados obtenidos en los controles
del estudio EURAMIC al ajustar una regresin lineal mltiple del colesterol HDL sobre
el ndice de masa corporal, el consumo de alcohol y esta nueva variable explicativa
politmica, donde los no fumadores actuales constituyen la categora de referencia.
Tabla 11.8 Resultados de la regresin lineal mltiple del colesterol HDL sobre
el ndice de masa corporal (IMC), la ingesta de alcohol y las variables
indicadoras de fumadores actuales de 1-10, 11-20 y > 20 cigarrillos/da en los
controles del estudio EURAMIC.
Anlisis de la varianza*
Suma de Grados de Razn de
cuadrados libertad Varianza varianzas
Regresin 4,70 5 0,94 12,62
Error 31,59 424 0,075
Total 36,29 429
* Coeficiente de determinacin R2 = 4,70/36,29 = 0,130.
Coeficientes de regresin
Test H0: j = 0
Estimacin Error estndar IC al 95% t Valor P
Constante 1,59 0,10 (1,40; 1,79) 15,90 < 0,001
IMC 0,020 0,0037 (0,027; 0,013) 5,36 < 0,001
Alcohol 0,0028 0,0006 (0,0017; 0,0040) 4,70 < 0,001
Fumador 1-10 0,086 0,042 (0,168; 0,003) 2,04 0,042
Fumador 11-20 0,120 0,038 (0,193; 0,046) 3,19 0,002
Fumador > 20 0,055 0,048 (0,149; 0,040) 1,14 0,26
Pastor-Barriuso R. 213
Regresin lineal mltiple
0,2
Diferencia en la media del colesterol HDL (mmol/l)
0,1
-0,1
-0,2
-0,3
0 10 20 30 40
Nmero de cigarrillos/da
Figura11-20
Figura 11.4 Diferencia en la media ajustada del colesterol HDL de los fumadores actuales de 1-10, 11.4
y > 20 cigarrillos/da respecto a los no fumadores actuales del grupo control del estudio EURAMIC. Las
barras verticales representan los intervalos de confianza al 95% para estas diferencias.
cigarrillos/da, ya que la comparacin de la variabilidad explicada SSR1 = 4,70
porcontraste
El el modelo completo
parcial de lade
mltiple Tabla 11.8variables
las tres y la variabilidad explicada
indicadoras = 4 0==3,76
H0: 3 SSR 5 = 0 revela
que existen diferencias significativas en las medias ajustadas del colesterol HDL entre los
porfumadores
no el modelo actuales
que excluye
y loslasfumadores
tres variables indicadoras
de 1-10, 11-20 yen> la20misma muestra de
cigarrillos/da, ya que la
comparacin de la variabilidad explicada SSR1 = 4,70 por el modelo completo de la Tabla
430 controles
11.8 resulta explicada
y la variabilidad en un test SSR
estadstico
0 = 3,76 por el modelo que excluye las tres variables
indicadoras en la misma muestra de 430 controles resulta en un test estadstico
(4,70 3,76) / 3 0,31
F= = = 4,22,
31,59 / 424 0,075
que corresponde a un valor P = P(F3,424 4,22) = 0,006. En comparacin con los no
fumadores actuales
que corresponde de valor
a un igual ndice
P = P(F de3,424
masa corporal
4,22) y consumo
= 0,006. de alcohol, con
En comparacin los fumadores
los
de 1-10, 11-20 y > 20 cigarrillos/da presentan una disminucin en el nivel medio de
colesterol
no fumadores de b3 = de
HDLactuales igual bndice
0,086, 4 = 0,120 y b5corporal
de masa = 0,055 mmol/l, respectivamente.
y consumo de alcohol, los Esta
tendencia decreciente en la media ajustada del colesterol HDL se representa en la
Figura11.4,
fumadores dedonde
110,el1120
eje horizontal corresponde presentan
y > 20 cigarrillos/da al nmerouna medio de cigarrillos
disminucin en eldiarios
para cada categora (0 en el caso de no fumadores actuales).
nivel contrastar
Para medio de colesterol
si esta tendencia 3 = -0,086, b4es
HDL de bdecreciente = -0,120 y b5 = -0,055
significativa, se creammol/l,
una variable
politmica con valores xi = 0, 7,1, 18,3 y 34,3 correspondientes al nmero medio de
respectivamente.
cigarrillos diariosEsta tendencia
de los sujetosdecreciente
no fumadores en la ymedia ajustadadedel1-10,
fumadores colesterol
11-20 y > 20
cigarrillos/da, respectivamente. Esta variable politmica se incluye directamente en un
HDL sede
modelo representa
regresinen la Figura
mltiple 11.4,
junto condonde el eje
el ndice dehorizontal corresponde
masa corporal al de alcohol.
y la ingesta
El coeficiente asociado a la variable politmica y su error estndar se estiman en b3 =
nmero medio
0,0030 y SE(b3de
) = cigarrillos diariossepara
0,0012, de donde cadauncategora
obtiene (0 ten
estadstico = bel caso de no
3/SE(b3) = 0,0030/0,0012
= 2,46 y un valor P = 2P(t426 2,46) 2F(2,46) = 0,014 bajo la distribucin t de
fumadores actuales).
214 Pastor-Barriuso R.
Para contrastar si esta tendencia decreciente es significativa, se crea una variable
Regresin polinomial
[Figura 11.4 aproximadamente aqu]
Student con n p 1 = 430 3 1 = 426 grados de libertad. As, puede concluirse que la
11.6 REGRESIN
media ajustada delPOLINOMIAL
colesterol HDL no slo difiere entre las categoras (P de homogeneidad
= 0,006), sino que tiende a decrecer significativamente conforme aumenta la categora de
La exposicin (P demltiple
regresin lineal tendencia = 0,014).
permite No obstante,
explorar la Figura
relaciones 11.4 entre
no lineales muestra que la relacin
las variables
subyacente podra no ser estrictamente lineal al presentar un leve repunte en la categora
de fumadores
explicativas de ms de
y la variable 20 cigarrillos/da.
respuesta. El modelo ms habitual para acomodar un efecto no
lineal
11.6 de una variable
REGRESIN explicativa continua X es la regresin polinomial de orden k, que
POLINOMIAL
polinomios de orden superior al cuadrtico tienden adems a producir curvas con puntos
k
La incorpora
regresinenlineal mltiple
el modelo permite polinomiales
los trminos X2, , Xno
explorar relaciones lineales
adems del entre
propiolas variables
trmino
de inflexin y otras formas extraas de difcil interpretacin en trminos
explicativas y la variable respuesta. El modelo ms habitual para acomodar un efecto no lineal
de lineal
una variable
X, explicativa continua X es la regresin polinomial de orden k, que incorpora en
epidemiolgicos.
el modelo los trminos Porpolinomiales
ello, esta presentacin se limitadel
X2, , Xk adems a los modelos
propio polinomiales
polinomios
trmino linealde de superior al cuadrtic
X, orden
del ndice de masa corporal, adems del consumo de alcohol y de la variable indicadora
de los fumadores actuales (Tablaaritmtica
1.2.1 Media 11.9). Como el ndice
La media es lademedida
masa corporal
de tendencia X1 y su cuadrado
central ms utilizada y de
X La
presentaban
2
1 una correlacin lineal casi perfecta
media es la medida de tendencia central ms utilizada y de ms fcil de 0,995, esta variable fue
previamente centrada alrededor
La media de su interpretacin.
aritmtica, media muestral
denotada x 1, =se26,2
por Corresponde kg/m
define como
al
2
antes
centro de
la suma deincluir
de cadaen uno
gravedad de deloslos
datos
el modelo los trminos lineal
interpretacin. Corresponde al centro X 1 26,2 y cuadrtico (X 26,2)
de gravedad de los1 datos de la muestra. Su2
, cuya correlacin era
nicamente de 0,297. valores muestrales principal dividida por el nmero
limitacin de observaciones
es que est muy influenciada realizadas. porSilosdenotamos
valores
principal
El contrastelimitacin
para laesnulidad
que est delmuy influenciada
coeficiente por los
asociado valores extremos
al trmino cuadrticoy,del en este
ndice de
por n el tamao muestral
caso, y por
puede x
noi elservalor
masa corporal resulta en un valor P = 0,021, lo que indica que el modelo cuadrtico un observado
fiel reflejo para
de la el sujeto
tendencia i-simo,
mejora central ide= la ..., n
1, dist
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
la media vendra dada por
Tabla 11.9 Resultados de la regresin mltiple Ejemplodel 1.4colesterol
En este y en HDL los sobre
sucesivos los ejemplos sobre estim
Ejemplo
trminos 1.4yEn
lineal este y en del
cuadrtico los ndice
sucesivos ejemplos
de masa sobre (IMC),
corporal estimadores muestrales,
el consumo de se
1 n x1 + x 2 + ... + x n
alcohol y la variable indicadora de fumadores =
x actuales
utilizarn en
losxvalores
i = el grupo
del control
colesterol . del
HDL obtenidos en los 1
estudioutilizarn
EURAMIC. n
los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
i =1 n
Anlisis de la varianza*
estudio European Study on Antioxidants, Myocardial Infar
estudio European LaStudy
Suma media
de
onesAntioxidants,
medidadedeMyocardial
la Grados tendencia central Infarction
ms and Cancer
utilizada
Razn
of
de y de ms fcil
cuadrados libertad the Breast (EURAMIC),
Varianza un estudio
varianzas multicntrico de casos
the Breast (EURAMIC),
interpretacin. un Corresponde
estudio multicntricoal centro dede casos y controleslosrealizado
Regresin 5,84 4 1,46 gravedad de 19,57 datos de la muestra. Su
entre 1991 y 1992 en ocho pases Europeos e Israel para eva
Error 33,02 443 0,075
entre 1991 y 1992 en ocho
principal pases Europeos
limitacin es que est e Israel para evaluarpor
muy influenciada el efecto de losextremos y, en este
los valores
Total 38,86 447
* Coeficiente de determinacin R = 5,84/38,86 = 0,150.
2
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
5
Coeficientes de regresin
Test H0: j = 0
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales
Estimacin Error estndar IC al 95% t Valor P
Constante 1,05 0,020 (1,01; 1,09) 52,62 < 0,001
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos d
IMC 26,2 0,024 0,0038 (0,031; 0,016) 6,25 < 0,001
(IMC 26,2)2 0,0016estudio 0,0007
European (0,0002;
Study on 0,0029) 2,32 Myocardial
Antioxidants, 0,021Infarction and Cancer o
Alcohol 0,0030 0,0006 (0,0018; 0,0042) 5,00 < 0,001
Fumador actual 0,098 the Breast
0,027(EURAMIC),
(0,150; un estudio multicntrico
0,045) 3,63 de casos y controles realiza
< 0,001
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de lo
216 Pastor-Barriuso R.
Regresin polinomial
2,25
nicamente
1,5
de 0,297.
la pendiente
0,5 de la relacin entre elde una determinada
colesterol HDL y elvariable o, masa
ndice de dichocorporal
de forma equivalente, estos estim
media del colesterol HDL dentro del rango de normopeso (< 25 kg/m2), que se atena
progresivamente al aumentar los niveles del ndice de masa corporal.
Aunque los modelos cuadrticos permiten detectar efectos no lineales de las variables
explicativas, la tendencia global resultante de estos modelos puede estar fuertemente influenciada
por una o muy pocas observaciones con valores extremos de la variable explicativa. En este
sentido, resulta especialmente importante evaluar los cambios que se producen en la tendencia
cuadrtica, o incluso la propia idoneidad del modelo cuadrtico, al excluir del anlisis las
observaciones ms influyentes (vase apartado de anlisis diagnstico).
La regresin lineal mltiple puede utilizarse con dos propsitos claramente diferenciados. Por
un lado, los modelos de regresin pueden emplearse para predecir el valor de la variable
respuesta en funcin de los valores de las variables explicativas. En tal caso, el inters se centra
en identificar e incluir todas aquellas variables explicativas que se asocien de forma significativa
e independiente con la variable respuesta, de tal forma que el modelo resultante se ajuste bien a
los datos observados (elevado coeficiente de determinacin) y prediga con cierta precisin la
respuesta en nuevos sujetos. Los contrastes parciales descritos en el Apartado 11.4.2 son
particularmente tiles para este propsito, ya que permiten seleccionar las variables explicativas
que mejoran significativamente la capacidad predictiva del modelo. Por otro lado, los modelos
de regresin pueden utilizarse para estudiar la relacin de una o varias variables explicativas de
inters con la variable respuesta, controlando por otras variables explicativas o covariables que
pudieran afectar a dicha relacin. En este caso, no es necesario que el modelo incluya todos los
determinantes de la variable respuesta, sino nicamente aquellos que influyan en la asociacin
objeto de estudio; es decir, aquellas covariables cuya inclusin afecte a las estimaciones de los
coeficientes de regresin asociados a las variables explicativas de inters.
La confusin y la interaccin son dos conceptos epidemiolgicos estrechamente relacionados
con este segundo propsito. A continuacin se presenta una descripcin general de ambos
conceptos y su tratamiento dentro de los modelos de regresin lineal mltiple.
218 Pastor-Barriuso R.
1
yy El factor de
mientras queconfusin X2 no debe
el efecto estimado serlaun
para paso intermedio
variable explicativa enX1 la relacin de la variable
permanecer
explicativa X1 con la variable respuesta Y. A diferencia de las dos condiciones anteriores,
As, la covariable
este requisito epidemiolgico noXpuede
2 no secomprobarse
relacionar con
con la
losrespuesta al controlar
datos disponibles por X1,
y 41
requiere
de informacin externa o juicio experto sobre los mecanismos subyacentes que relacionan
mientras con
la variable explicativa que la
el efecto estimado
respuesta. para la variable
Por ejemplo, el ndiceexplicativa X1 permanecer
de masa corporal podra
considerarse a simple vista un potencial factor de confusin para la asociacin entre la
actividad fsica y el colesterol HDL, ya que se relaciona de forma independiente con 41
ambas variables. Sin embargo, el ndice de masa corporal no es un factor extrao que
distorsiona dicha asociacin, sino ms bien un factor intermedio, ya que la actividad fsica
reduce el ndice de masa corporal, que a su vez provoca un aumento del colesterol HDL.
En general, los modelos de regresin no deben incluir factores intermedios para la
asociacin objeto de estudio, a no ser que se pretenda estimar el efecto que no est mediado
por dichos factores.
La seleccin de los potenciales factores de confusin debe limitarse, por tanto, a las covariables
que satisfagan estas tres condiciones necesarias, a saber, aquellas covariables que se asocien de
forma independiente con las variables explicativa y respuesta y que no constituyan un paso
intermedio en la relacin entre ambas variables. No obstante, es posible que una covariable
cumpla los tres requisitos y no sea un factor de confusin, en el sentido de no introducir un sesgo
en la asociacin a estudio. Esto puede ocurrir, por ejemplo, cuando existen varios factores cuyos
potenciales sesgos de confusin se compensan al actuar en direcciones opuestas.
En la prctica, para determinar si una o varias covariables son en realidad factores de
confusin, se compara la estimacin cruda de la asociacin objeto de estudio con la estimacin
ajustada por los potenciales factores de confusin. Como se vio en el Apartado 11.2, estas
estimaciones ajustadas pueden obtenerse directamente a partir de modelos de regresin mltiple
que incorporen los potenciales factores de confusin adems de la variable explicativa de
inters. As, los factores de confusin vendrn determinados por aquellas covariables cuya
inclusin en el modelo produzca un cambio substancial en la estimacin del coeficiente de
regresin asociado a la variable explicativa de inters. La comparacin entre los coeficientes
Pastor-Barriuso R. 219
asociaran tambin con el ndice de masa corporal, verificaran los tres requisitos
Regresin lineal mltiple
La Tabla
estimados con y11.10 muestra
sin ajuste porlaslos
estimaciones
potencialesdel coeficiente
factores asociadono
de confusin al ndice de mediante
se realiza
pruebas estadsticas, ya que la significacin estadstica no depende nicamente de la magnitud
masa corporal
del cambio, en distintos
sino tambin modelos
del tamao de regresin
muestral lineal, a saber,
(vase Apartado 5.4.2).un primerelmodelo
Aunque criterio vara
segn el mbito de aplicacin, en general se considera necesario controlar la confusin cuando
sin covariables
la estimacin de ajuste,
cruda difiere de laun segundo
ajustada enmodelo
ms delajustado
10%. por el consumo de alcohol,
asociaran tambin con el ndice de masa corporal, verificaran los tres requisitos
un tercer 11.12
Ejemplo modelo En ajustado por el hbito
los ejemplos tabquico
anteriores se hanactual y un ltimo
considerado otrosmodelo
determinantes del
para ser potenciales factores de confusin.
colesterol HDL distintos del ndice de masa corporal, pero no se ha prestado especial
ajustado apor
atencin la ambas
confusincovariables. Todos los modelos se obtuvieron a partir de la el ndice
La Tabla 11.10 muestraque podran
las estimaciones inducir delestos factores
coeficiente en la asociacin
asociado al ndiceentre
de
de masa corporal y el colesterol HDL. La edad y el estatus socioeconmico no mostraron
misma
un muestra
efecto de 448 controles
independiente sobre losdel estudio
niveles deEURAMIC
colesterol con informacin
masa corporal en distintos modelos de regresin lineal, aHDL
saber,(Tabla 11.4),modelo
un primer por lo que no
cumplen una de las condiciones necesarias para ser factores de confusin. Sin embargo,
completa
el consumo dedetodas las variables.
alcohol y elunhbito Tomando
tabquico como referencia el modelo
conajustado por
sin covariables de ajuste, segundo modeloactual s sepor
ajustado asociaron
el consumo el
decolesterol
alcohol, HDL
independientemente del ndice de masa corporal (Tablas 11.7, 11.8 y 11.9). Adems, el
ambas covariables,
alcohol el cambio relativo queque se no produce en el la
coeficientedelestimado
un tercery modelo
el tabacoajustado
son factores
por elexternos
hbito tabquico median
actualeny un relacin
ltimo modelo ndice de masa
corporal con el colesterol HDL. Si ambas covariables se asociaran tambin con el ndice
del masa
de ndice corporal,
de masa corporal al excluir
verificaran el consumo
los tres de alcoholser es potenciales factores de
ajustado por ambas covariables. Todos los requisitos
modelos separa obtuvieron a partir de la
confusin.
misma
La Tabla muestra
11.10demuestra
448 controles b1|3del estudio
las estimaciones 0,0225 EURAMIC
del coeficiente conasociado
informacin al ndice de masa
= = 1,08;
corporal en distintos modelos de regresin
b1|2,3 0,0209 lineal, a saber, un primer modelo sin covariables
completa
de ajuste,de untodas las variables.
segundo Tomandopor
modelo ajustado como referenciade
el consumo el modelo
alcohol,ajustado
un tercerpormodelo
ajustado por el hbito tabquico actual y un ltimo modelo ajustado por ambas covariables.
es decir,
ambas
Todos losuna vez tenido
covariables,
modelos se en cuenta
elobtuvieron
cambio el hbito
relativo
a partirquedeselatabquico
produce actual,
en
misma muestra las448
diferencias
el coeficiente
de endel
estimado
controles elestudio
EURAMIC con informacin completa de todas las variables. Tomando como referencia
consumo
del
el ndicede
modelo de alcohol provocan
masa corporal
ajustado por ambas una
al excluir sobreestimacin
el consumo
covariables, dedel
el cambio 100(1,08
alcohol es - que
relativo 1) = se
8%produce
en la en el
coeficiente estimado del ndice de masa corporal al excluir el consumo de alcohol es
asociacin inversa del ndice de masa corporal con el colesterol HDL. Como se
b1|3 0,0225
= = 1,08;
apunt en el Ejemplo 11.2, esto b1|2,es
3 0
debido , 0209
a que una pequea parte de la reduccin
es
deldecir, una vez
colesterol HDLtenido enlos
entre cuenta el hbito
sujetos tabquico
con mayor ndiceactual, las diferencias
de masa corporal seendebe el consumo
de decir,
es alcohol provocan
una unaen
vez tenido sobreestimacin
cuenta el hbito deltabquico
100(1,08actual,
1) = 8% en la asociacin
las diferencias en el inversa
del ndice dea su
en realidad masa corporal
menor con el
consumo decolesterol
alcohol. PorHDL. otraComo
parte,sesi apunt en ellaEjemplo 11.2,
se excluye
consumo de alcohol
esto es debido a queprovocan una sobreestimacin
una pequea parte de la reduccindel 100(1,08 - 1) = 8%HDL
del colesterol en laentre los
sujetos
variablecon mayor ndice
indicadora de los de masa corporal
fumadores se debe
actuales, en realidad
el cambio relativoa essu menor consumo de
asociacin
alcohol. Porinversa del ndice
otra parte, de masalacorporal
si se excluye variablecon el colesterol
indicadora de los HDL. Como se
fumadores actuales, el
cambio relativo es
el hbitoentabquico
apunt el Ejemplo no11.2,
se asocia
estob1|es
2con el
0ndice
debido ,0206
a quede una
masa corporal
pequea en eldegrupo
parte control
la reduccin
= = 0,99;
b1|2,3 0,0209 2
del
del estudio EURAMIC
colesterol HDL entre(lalos media
sujetosdelconndice de masa
mayor ndicecorporal
de masaescorporal
26,3 kg/m en los
se debe
esto es, una vez controladas las diferencias en la ingesta de alcohol, el hbito tabquico
2
no fumadores
estorealidad
actual
en es,no y 26,1
unaintroduce
avez
su menor kg/m
controladas enlaslos
virtualmente
consumo defumadores
diferencias
ningn en
alcohol. actuales).
Porla otra
sesgo ingestalaPor ltimo,
deasociacin
enparte, alcohol,
si sielse
se excluye excluyen
hbito
objeto
la de estudio
(infraestimacin del 100(0,99 1) = 1%). Esto es consecuencia de que el hbito tabquico
simultneamente
tabquico
no se asocia
variable actual
con el
indicadora ambas
nondice
de covariables
introduce
los de masa
fumadores del
virtualmente
corporalmodelo,
ningn
en
actuales, el cambio
sesgo
elelgrupo
cambio enrelativo
control la del
relativo en el EURAMIC
asociacin
estudio
es objeto (la
media del ndice de masa corporal es 26,3 kg/m2 en los no fumadores y 26,1 kg/m2 en los
coeficiente
fumadores estimado del
de estudio (infraestimacin
actuales). Porndice
ltimo, desimasa
del 100(0,99 corporal
- 1) = -1%).
se excluyen es Esto es consecuencia
simultneamente de que del
ambas covariables
b 0,0206
modelo, el cambio relativo en el1|2coeficiente
= estimado
= 0,99; del ndice de masa corporal es
b1|2,3 0,0209 44
b1 0,0222
= = 1,06.
b1|2,3 0,0209
esto es, una vez controladas las diferencias en la ingesta de alcohol, el hbito
Pastor-Barriuso R.
220
Notar que actual
tabquico esta sobreestimacin del 6% es resultado
no introduce virtualmente de la en
ningn sesgo combinacin de objeto
la asociacin los
sesgos inducidos
de estudio de forma independiente
(infraestimacin del 100(0,99 -por
1) =el-1%).
consumo
Estode
esalcohol y el hbito
consecuencia de que
Confusin e interaccin en regresin lineal
Pastor-Barriuso R. 221
la covariable y, en consecuencia, deben obtenerse estimaciones especficas para cada
Regresin lineal mltiple
nivel, que estn libres de confusin al referirse a sujetos con idntico valor de la
covariable.
a corregir Porestimacin
en la el contrario,
delcuando
efecto,nolaexiste interaccin,
interaccin el efecto
es una se asumeinherente
caracterstica igual en de la
asociacin a estudio, que debe describirse mediante estimaciones especficas del efecto de la
todosexplicativa
variable los niveles de
de inters
la covariable
en los ydistintos
basta entonces conmodificador
niveles del obtener una de
nica estimacin
efecto.
La confusin y la interaccin son fenmenos diferentes que pueden o no ocurrir
para todos los sujetos, que s podra estar confundida por diferencias en la distribucin
simultneamente. No obstante, cuando existe evidencia de interaccin con una determinada
covariable, la valoracin de la confusin inducida por dicha covariable es irrelevante. En
de la covariable. Por ello, en la prctica slo tiene sentido controlar la confusin cuando
presencia de interaccin, la magnitud del efecto vara segn el nivel de la covariable y, en
consecuencia, deben obtenerse estimaciones especficas para cada nivel, que estn libres de
se ha descartado previamente la presencia de interaccin.
confusin al referirse a sujetos con idntico valor de la covariable. Por el contrario, cuando no
existe interaccin, el efecto se asume igual en todos los niveles de la covariable y basta entonces
Los efectos independientes de una variable explicativa de inters X y otra covariable
con obtener una nica estimacin para todos los sujetos, que s podra 1estar confundida por
diferencias en la distribucin de la covariable. Por ello, en la prctica slo tiene sentido controlar
X2 sobre la variable respuesta Y se obtienen a partir del modelo de regresin lineal
la confusin cuando se ha descartado previamente la presencia de interaccin.
Los efectos independientes de una variable explicativa de inters X1 y otra covariable X2
mltiple
sobre la variable respuesta Y se obtienen a partir del modelo de regresin lineal mltiple
Y = 0 + 1 x1 + 2 x2 + ,
que incluye distintos trminos para cada variable explicativa. Bajo este modelo, la relacin entre
X1 eque incluye
Y para distintos trminos
un determinado para
valor fijo cada
c2 de variable explicativa.
la covariable X2 viene dada Bajopor
este modelo,
E(Y|x la
1, c2) = (0 + 2c2)
+ 1x1. As, este modelo asume que no existe interaccin entre X1 y X2 ya que el cambio esperado
en Yrelacin
por cadaentre X1 e Y para
incremento de una un unidad
determinado valor
en X1 es fijo cigual
siempre 2 de la
a covariable X2 viene dada
1, independientemente del nivel
de X2. De hecho, los cambios en el valor de la covariable X2 slo afectan a la constante de la recta
de regresin , c2Y) =sobre
por E(Y|x1de (0 +X1,2cpero 1xa1. su
2) + no As, este modelo
pendiente. Estaasume quede
ausencia nointeraccin
existe interaccin
se representa
grficamente en la Figura 11.6(a), donde las rectas de regresin de Y sobre X1 son lneas paralelas
de igual X1 y X2 yapara
entre pendiente quelos
el cambio
distintosesperado en Y pory cada
valores (puntos incremento
crculos) de una unidad
de una covariable en X1 X2.
dicotmica
En regresin lineal mltiple, la forma ms sencilla de modelar la interaccin entre la variable
es siempre igual a , independientemente del nivel de X2. De hecho, los cambios en el
explicativa de inters X11 y la covariable X2 consiste en aadir al modelo un nuevo trmino con
el producto de ambas variables,
valor de la covariable X2 slo afectan a la constante de la recta de regresin de Y sobre
Y = 0 + 1 x1 + 2 x2 + 3 x1 x2 + .
X1, pero no a su pendiente. Esta ausencia de interaccin se representa grficamente en la
Notar que el modelo ha de incluir el trmino producto X1X2 adems de los trminos
Figura 11.6(a), donde las rectas de regresin de Y sobre X1 son lneas paralelas de igual
principales para las variables X1 y X2. Bajo este modelo extendido con el trmino
pendiente para los distintos valores (puntos y crculos) de una covariable dicotmica X2.
producto,
y la recta de regresin de Y sobre X1 para un determinado valor fijo c2 de la
[Figura 11.6 aproximadamente aqu]
covariable X2 viene dada por E(Y|x1, c2) = (0 + 2c2) + (1 + 3c2)x1. As, el nuevo
modelo contempla
En regresin la posibilidad
lineal mltiple, ladeforma
interaccin entre Xde
ms sencilla X2 ya que
1 ymodelar el cambio esperado
la interaccin entre la
en Y por explicativa
variable cada incremento xde
de intersuna
X1 unidad en X1 es X
y la covariable igual a 1 +en
2 consiste 3aadir
c2, que depende
x1 al modelodel
un
1
nuevodetrmino
nivel con elque
X2 siempre el(a)coeficiente
producto de ambas3 del
variables, (b)
trmino producto sea distinto de 0. La
Figura 11.6 Rectas de regresin de la variable respuesta Y sobre la variable explicativa X1 para distintos
47
presencia
valores (puntosde interaccin
y crculos) se covariable
de una ilustra en dicotmica
la Figura 11.6(b),
X2 que nodonde las rectas
interacciona con Xde regresin de
1 (panel a) y que inte-
racciona con X1 (panel b).
Y sobre X1 presentan distintas pendientes para los dos valores (puntos y crculos) deFigura
una11.6
Notar que el modelo ha de incluir el trmino producto X1X2 adems de los trminos principales
+ b3clas
para 2)x1variables
, de tal forma X2. elBajo
X1 yque cambio
este en el nivel
modelo medio decon
extendido Y por
el cada incremento
trmino delauna
producto, recta de
regresin de Y sobre X1 para un determinado valor fijo c2 de la covariable X2 viene dada por
E(Y|x
unidad c2) X=1 se
1, en (0estima ) + (1 +b1 3+c2b)x3c1.2.As,
+ 2c2mediante Estaelcombinacin
nuevo modeloconstituye un estimador
contempla la posibilidad de
interaccin entre X1 y X2 ya que el cambio esperado en Y por cada incremento de una unidad en
X
insesgado
1 es igualdea la1 pendiente
+ 3c2, queespecfica del nivel de X2 siempre que el coeficiente 3 del trmino
depende subyacente,
producto sea distinto de 0. La presencia de interaccin se ilustra en la Figura 11.6(b), donde las
rectas de regresin de Y sobre X1 presentan distintas pendientes para los dos valores (puntos y
E(b + b3 c2 ) = E(b1 ) + E(b3 )c2 = 1 + 3 c2 ,
crculos) de una covariable1dicotmica X2.
+ b c )x ,
A diferencia
3 2 1 de tal forma que el cambio
de la confusin, la interaccin en elsnivel de Y por cada incremento
medioestadsticamente
se evala mediante elde una
contraste
cuya varianza viene dada por (vase Apartado 3.4)
parcial del coeficiente 3 asociado al trmino producto. Si este coeficiente no difiere
unidad en X1 se estima
significativamente mediante
del valor nulo, elb1 + b3c2. de
efecto EstaX combinacin constituye
sobre la variable un estimador
respuesta Y no variar
1
significativamentevar(b en los
1 +distintos niveles
b3 c2 ) = var(b 1) +decX22 2var(b
. En ausencia de interaccin,
3 ) + 2c2 cov(b 1 , b3 ) ha de eliminarse el
insesgado de la pendiente especfica subyacente,
trmino producto y volver al modelo con los trminos principales de ambas variables, que
permite estimar el efecto global =de X2 (v 1 ajustado
2 por X . Por el contrario, si el coeficiente del
11 + c 2 v33 + 2c22 v13 ), 3
trmino producto resulta significativo,
E(b1 + b3 c2 ) el efecto
= E(b 1 ) +de X13 )c
E(b diferir
2 = 1 +significativamente
3 c2 , segn el nivel
de X+2 by, cen)xconsecuencia, se tendr una interaccin significativa entre ambas variables. Aunque
3 2 1, de tal forma que el cambio en el nivel medio de Y por cada incremento de una
queestimaciones
las depende de las de varianzas de b1 ydel
los coeficientes b3 ymodelo
tambincon de elsutrmino
covarianza ya que,nocomo
producto tienenseen general
cuya varianza viene dada por (vase Apartado 3.4)
una+unidad
interpretacin
b3c2)xen , de tal directa,
forma que pueden
el cambiocombinarse
en el nivel para
medioobtener
de
1 X se estima mediante b + b c . Esta combinacin constituye un estimador Y estimaciones
por cada especificas
incremento de la
de una
1 1 3 2
muestra en
relacin de elX1Apndice
con la variable tema, las Yestimaciones
de esterespuesta en los distintos de los de X2. Para
coeficientes
niveles de regresin
un determinado
valor fijo
unidad
insesgadocen
2 deX la
de secovariable
estima X ,
mediantela ecuacin
var(b1 + bespecfica
1 la pendiente b +
23 c2 ) = var(b b c de . regresin
Esta
2
estimada
combinacin es (x
constituye
31 ) 2+ c 2 var(b3 ) + 2c2 cov(b1 , b31) 2
1 subyacente, , c )
un= (b0 + b2c2) + (b1
estimador
+ b3c2)x1,estn
mltiple de talcorrelacionadas.
forma que el cambio As, elenintervalo
el nivel medio de Y poralcada
de confianza 100(1 - )% paradelauna unidad
incremento
en X se
insesgado
1 estima de mediante
la b
pendiente 1 + b c .
especficaEsta combinacin
2 subyacente, 2
3 2 = (v11 + c v33 + 2c2 v13 ), constituye un estimador insesgado de la
pendiente especfica
subyacentesubyacente, E(b +
1 + 3c12 de lab c ) = E(b ) +
2
E(b )c =
3 2relacin1 entre X3 e2Y en1 el valor
1
+ c ,
3 2 c de la covariable
2
Xque sedepende
correlacionadas.
calcula
2 masa
de
As,
como laselvarianzas
intervalo de 1 y b3 y tambin
de bconfianza al 100(1 desu)% covarianza ya que, como
para la pendiente se
subyacente 1
corporal sobre el colesterol HDL en los estratos de fumadores actuales y no
3c2 de
+ que la relacin
depende entre X1 e Y de en bel1 valor
y blas ctambin
2 de la covariable X2 se calcula como
muestra en eldeApndice
las varianzas
de este tema, 3 y estimaciones de sudecovarianza ya que,
los coeficientes decomo se
regresin
fumadores actuales,bse+ ajust b3 c2 un tnpmodelo de regresin 2 lineal mltiple en los
1 1,1 /2 s v11 + c 2 v 33 + 2c 2 v13 .
muestra en el Apndice de este tema, las
mltiple estn correlacionadas. As, el intervalo de confianza estimaciones de los coeficientes
al 100(1 - de )%regresin
para la
controles del estudio EURAMIC que inclua los trminos principales del ndice de
Ejemplo
mltiple 11.13
estn Para evaluar
correlacionadas. As,unael posible
intervalomodificacin
de confianzadel efecto- del
al 100(1 )%ndice
para lade masa
pendiente subyacente 1 + 3c2 de la relacin entre X1 e Y en el valor c2 de la covariable
corporal
masa sobre
corporal
Ejemplo 11.13 el colesterol
X1, el consumo
Para HDL
evaluardeuna en los
alcohol
posible estratos de
X2modificacin fumadores
y la variable indicadora actuales
del efecto del X3 de y no fumadores
los
ndice de
actuales,subyacente
pendiente se ajust un1 +modelo
c de de
la regresin
relacin lineal
entre X mltiple
e Y en el en los
valor ccontroles
de la del
covariable estudio
X2 EURAMIC
se calcula como
que inclua los
3 2
trminos principales del
1
ndice de masa
2
corporal X , el consumo
fumadores actuales,
masa corporal as el
sobre como un trmino
colesterol HDLadicional
en los estratoscon elde producto
fumadores entre el 1ndice
actuales y no
de alcohol
X2 se calcula comoX 2 y la variable indicadora X 3 de los fumadores actuales, as como un trmino
adicional con
de fumadores
masa corporal el producto
y la entre
b1 variable el ndice
c2 indicadora de masa corporal y la variable indicadora de los
actuales, +seb3ajust /2 s de
un modelo vdelosregresin
fumadores actuales,
lineal mltiple en los
2
tn-p-1,1- 11 + c 2 v 33 + 2c 2 v13 .
fumadores actuales,
2
controles del estudio b1 + bEURAMIC
3c2 tn-p-1,1-que /2 sinclua
v + clos 2 v 33 + 2c 2 v13principales
trminos . del ndice de
Y = 0 + 1 x1 + 2 x2 + 11 3 x3 + 4 x1 x3 + .
Ejemplo
masa 11.13XPara
corporal evaluar una posible modificacin del efecto del ndice de
1, el consumo de alcohol X2 y la variable indicadora X3 de los
estudio European
En laStudy
donde Figuraon11.7
Antioxidants,
la correlacin
3,50{b 1+
se entre b2Myocardial
representa
= b0,0049
4 t443;0,975
b4 se
1 y en trazo
SE(b
+ 0,0072
Infarction
obtiene
2 gruesode la and Cancer
la recta
segunda parteofde laestimada
de regresin
1 ++b20,00490,0072(-0,679)
4)}
Tabla 11.11.
= 0,000028,del
224 Pastor-Barriuso R.
the Breast (EURAMIC),
El IC al 95%
colesterol unpara
HDL estudio
sobre multicntrico
el efecto
el especfico
ndice dedel
de masa casos y controles
ndice
corporal de masa
entre losrealizado
corporal
fumadores en actuales
los con
= 3,50(-0,016 - 0,010 1,97 0,000028
donde la correlacin entre b1 y b4 se obtiene de la segunda ) = (-0,129;
parte de -0,056).
la Tabla 11.11.
entre 1991 y 1992 en
fumadores
una ochoactuales
ingesta pases de
media Europeos
calculaede
sealcohol Israel
x =para
entonces evaluar
g/da, el efecto de los
como
16,5
= 3,50(-0,016 - 0,010 1,97 0,000028 ) = (-0,129; -0,056).
continuacin se describen los principales estimadores de la tendencia central de una
En la Figura 11.7 se representa en trazo grueso la recta de regresin estimada
Confusin e interaccin en del
regresin lineal
variable.
colesterol HDL sobre el ndice de masa corporal entre los fumadores actuales con
En la Figura 11.7 se representa en trazo grueso la recta de regresin estimada del colesterol
1.2.1 Media aritmtica
una
HDL ingesta media
sobre el ndice dede
alcohol de x 2 = 16,5
masa corporal entreg/da,
los fumadores actuales con una ingesta media
La media aritmtica, denotada de x 2, =se16,5
de alcoholpor g/da,
define como la suma de cada uno de los
y (x1 ; 16,5; 1) = (1,49 + 0,18) (0,016 + 0,010)x1 + 0,0029 16,5
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
= 1,72 0,026x1 .
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
En conclusin, a partir del modelo con la interaccin se tiene que un mismo incremento
de 3,50 kg/m2 en el ndice de masa corporal se asocia con distintas disminuciones en el
la media vendra dada por
nivel medio de colesterol HDL de 0,057 mmol/l en los no fumadores y 0,09251mmol/l
en los fumadores actuales. El cambio en la magnitud del efecto es notable pero, debido
al limitado1 tamao
n
xmuestral
+ x 2 + ...de
+ xambos estratos, las estimaciones especficas son
x = xi = 1 n
.
relativamente imprecisas
n i =1 y el
n test de interaccin no alcanza la significacin estadstica.
Por tanto, los resultados de este estudio no son concluyentes respecto a la posible accin
sinrgica del ndice de masa corporal y el tabaco en los niveles de colesterol HDL, y se
La media es la medida de tendencia
requerira de un central
estudiomsmsutilizada
potente ypara
de ms fcil un cambio subyacente de dicha
detectar
magnitud en los efectos especficos del ndice de masa corporal en fumadores y no
interpretacin. Corresponde al centro
fumadores de gravedad de los datos de la muestra. Su
actuales.
principal limitacin es que est muy influenciada por los valores extremos y, en este
Tabla 11.11 Resultados de la regresin lineal mltiple del colesterol HDL
caso, puede no ser unsobre
fiel reflejo de la de
el ndice tendencia central de(IMC),
masa corporal la distribucin.
el consumo de alcohol, la variable
indicadora de fumadores actuales y el producto entre IMC y fumador actual
en el grupo control del estudio EURAMIC.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
Coeficientes de regresin
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
Test H0: j = 0
Estimacin Error estndar IC al 95% t Valor P
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
Constante 1,49 0,13 (1,24; 1,75) 11,47 < 0,001
IMC 0,016 0,0049 (0,026; 0,007) 3,30 0,001
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
Alcohol 0,0029 0,0006 (0,0018; 0,0041) 4,88 < 0,001
Fumador
entre 1991 y 1992 0,18
en ocho pases Europeos 0,19para evaluar
e Israel (0,20; 0,55) de los0,91
el efecto 0,36
IMCFumador 0,010 0,0072 (0,024; 0,004) 1,40 0,16
Pastor-Barriuso R. 225
Regresin lineal mltiple
2,25
2
Colesterol HDL (mmol/l)
1,5
0,5
0,25
20 24 28 32 36
En el mismo modelo,
cada variable
E(Y|x losx2cambios
1 explicativa
+ 1, ) - E(Y|x , x2 ) = 0 +en 1Y(x1al+aumentar
son 1esperados 1) + 2 x2 por + 3separado
(x1 + 1)x2una unidad cada
variable explicativa son
En el mismo modelo, los cambios esperados en Y al aumentar por separado una unidad
- (00 ++11(xx11 + 1)
E(Y|x1 + 1, x2 ) E(Y|x1 , x2 ) = 2 x+2 +2 x23+
x1x23)(x=1 + 11)x
+ 2 3 x2
cada variable explicativa son ( 0 + 1 x1 + 2 x2 + 3 x1 x2 ) = 1 + 3 x2
y
y
E(Y|x1 + 1, x2) - E(Y|x1, x2) = 0 + 1(x1 + 1) + 2x2 + 3(x1 + 1)x2
y
E(Y|x1 , x2 + 1) E(Y |x1 , x2 ) = 0 + 1 x1 + 2 (x2 + 1) + 3 x1 (x2 + 1)
-((0 ++1xx1 ++2xx2 ++3xx1xx2))==1 ++3xx2 .
E(Y|x1, x2 + 1) - E(Y|x1, x2) = 00+ 1x1 1 1+ 2(x 2 + 1) + 3x1(x2 + 1)
2 2 3 1 2 2 3 1
y - ( 0 + 1 x1 + 2 x2 + 3 x1 x2 ) = 2 + 3 x1 .
As, si existe interaccin entre X1 y X2, el coeficiente 3 asociado al trmino producto
226 x2 + 1) - E(Y|x
E(Y|x1,
Pastor-Barriuso R. ) =X2, 0el+coeficiente
1,Xx12y 1x1 + 2(x23 +asociado
1) + 3x1(xtrmino
2 + 1)
serAs, si existe
distinto de 0interaccin
y el efectoentre
conjunto de ambas variables diferir al
de la sumaproducto
de sus
(0ambas
ser distinto de 0 y el efecto conjunto- de + 1x1variables
+ 2x2 +diferir
3x1x2)de 2suma
= la + 3xde
1. sus
efectos independientes,
ser distinto de 0 y el efecto conjunto de ambas
- ( 0 +variables
1 x1 + 2diferir
x2 + 3 xde
1 x2 )la=suma
2 + de
3 xsus
1.
E(Y |xde
ser distinto 1 +01, y xel2 + 1) - E(Y|x
efecto 1 , x2 )de ambas variables diferir de la suma de sus
conjunto
As, si existe interaccin entre X1 y X2, el coeficiente 3 asociado al trmino producto ser
distinto 0 y el- {E(Y|x
deindependientes,
efectos + 1, x2 ) - de
efecto 1 conjunto E(Y|x 1 , x2 ) +
ambas E(Y|x1 , xdiferir
variables 2 + 1) - E(Yde |x x2 )} de sus efectos
la1 , suma
independientes,
+ 2 +20;
= y1 (28,5; = x1,49
3 (x0)1 + 2 + 1) - ( 1 + 3 x2++0,002920
- 0,01628,5 2 + 3 x1 )==1,091,
3.
E(Y |x1 + 1, x2 + 1) E(Y|x1 , x2 )
y(28,5;
{E(Y|x20; 1 + 0)
1, =x21,49 - 0,01628,5
) E(Y|x + 0,002920
1 , x2 ) + E(Y|x 1 , x2 + 1)= 1,091,
E(Y |x1 , x2 )}
el de los fumadores actuales con un ndice de masa corporal de 25 kg/m2 y un
Ejemplo 11.14=A 1partir + 2 + delas (x estimaciones
+ x + 1) (del modelo con el trmino producto
1 + 3 x2 + 2 + 3 x1 ) = 3 .
y (28,5; 20; 0)3 = 11,492 - 0,01628,5 + 0,002920 = 1,091,
el de los fumadores
consumo de alcohol actuales de 20 g/da cones un ndice de masa corporal de 25 kg/m2 y un
de la Tabla 11.11, el nivel medio de colesterol HDL de los no fumadores con un
Ejemplo 11.14 A partir de las estimaciones del modelo con el trmino 2
producto de la
elconsumo
de los
Tabla 11.11, de alcohol
fumadores
el nivel de
medio20 g/da
actuales decon es
un 2ndice
colesterol HDLde masa
de los corporal
no de 25 kg/m
fumadores con un yndice
un de masa
ndice de y (25,
masa 20,corporal1) = 1,49 de -25 0,01625
kg/m y+un 0,002920
consumo+de 0,18 - 0,01025
alcohol de 20=g/da
1,070 es
corporal
Ejemplo de 25 y kg/m
11.14 (28,5; y20;
A partir
2
un0)consumo
de= las
1,49 -de alcohol del
estimaciones
0,01628,5 de
+ 20 g/da con
modelo
0,002920 es= 1,091,
el trmino producto
consumo de alcohol de 20 g/da es
y (25, 20, 1) = 1,49 - 0,01625 + 0,002920 + 0,18 - 0,01025 = 1,070
y elde delalos Tablafumadores y (25, el
11.11, 20,nivel
0) =medio
actuales 1,49
con un 0,016
deelevado 25 +ndice
colesterol 0,002920
HDL de demasa = 1,148,
los corporal de 28,5
no fumadores con un
2
el de los fumadores y (28,5; actuales
20; con un ndice de masa corporal de 25 kg/m y un
el de 2losy no (25, 20,
fumadores 1) = 1,49con0) un =elevado
1,49 - 0,01628,5
- 0,01625 +2 0,002920
ndice de masa++ 0,002920 =
de1,091,
0,18 - 0,01025
corporal 28,5=kg/m
1,070 2
y un consumo
y elndice
kg/m deylos unde fumadores
consumo
masa deactuales
corporal alcohol
de con
25 un
20 elevado
dekg/m g/da
y un ndice dedemasa
esconsumo corporal
alcohol de 20 deg/da
28,52 es
de
el alcohol
de los no de 20
fumadores
consumo de alcohol de 20 g/da es g/da es
con un elevado ndice de masa corporal de 28,5 kg/m y un
2los fumadores actuales con un ndice de masa corporal de 25 kg/m2 y un
yel eldede
kg/m ylos y (28,5; de
unfumadores
consumo 20; 0) = 1,49
alcohol
actuales con 200,01628,5
de un g/da es ndice
elevado + 0,002920
de masa=corporal1,091, de 28,5
y (28,5;
consumo de 20;alcohol 1) =y de
1,49
(25, - g/da
2020, 0,01628,5
0) =es1,49 +- 0,01625
0,002920+ +0,002920 0,18 - 0,01028,5
= 1,148, = 0,978.
el de 2los y (25, 20, 1) = 1,49 - 0,01625
fumadores + 0,002920 + 0,18 - 0,01025 = 1,070
consumo
kg/m y un alcohol actuales
deconsumo de
de 20 g/da
alcohol conde esun20ndice
g/da de es masa corporal de 25 kg/m2 y un consumo
2
eldede y los
(28,5;
alcohol de20;
fumadores 201)g/da =actuales
1,49es - 0,01628,5
con un ndice + 0,002920
de masa +corporal 0,18 - 0,01028,5
de 25 kg/m= 0,978.
y un 2
Tomandoel de los comono fumadoresreferencia con a losunsujetos
elevado nondice
fumadores de masa concorporal
un ndicedede28,5masa kg/m 53 y un
y el de los y (25,fumadores actuales con un elevado ndice de masa corporal de 28,5
consumo y (28,5; de 20; 20,1)1)==2de
alcohol 1,49
1,49 20-g/da0,016
0,01628,5es25 ++0,002920
0,002920++0,18 0,18-0,010 25 = 1,070
0,01028,5 = 0,978.
Tomando
corporal
consumo decomo 25
de referencia
kg/m
alcohol , losde no a los
20 sujetos
fumadores
g/da es no
confumadores
un elevadocon un ndice
ndice de masade masa
corporal
2
y el de
kg/m ylos
unfumadores
consumo de actuales
alcoholcon de un20elevado
g/da esndice de masa corporal de 28,5 kg/m2 y un
deconsumo
ycorporal
el28,5
Tomando de ylos de
(25,
de
kg/mcomo alcohol
fumadores
252
20, kg/m1) =2de
presentan
referencia 20
, 1,49
los no
unag/da
actuales con
a- 0,01625es un +elevado
fumadores
disminucin
los sujetos 0,002920
con
no en landice
un + 0,18
elevado
media
fumadores de masa
delndice
con un corporal
-colesterol
0,01025
de masa
ndice HDL
de de
= 1,070 28,5
corporal
masa de
53
y 2(28,5; 20; 1) = 21,49 0,01628,5 + 0,002920 + 0,18 0,01028,5 = 0,978.
kg/m
de 28,5y kg/m
corporal un
de consumo
2
25ypresentan
kg/m de alcohol
una fumadoresde 20 g/da
disminucin enesla elevado
media del colesterol HDL de
yTomando
el de loscomo fumadores (28,5;, actuales
los
20; no
0) - con y (25,
un 20, con
0) =un1,091
elevado ndice - de ndice
1,148
masa
de masa
= corporal
-0,057, corporal
de 28,5
referencia a los sujetos no fumadores con un ndice de masa corporal de
25
Tomando
de 28,5 kg/m 2
, los
como 2 no fumadores con un elevado ndice de masa corporal de 28,5 kg/m2
kg/m20;ypresentan referencia unaa0,01628,5
los sujetos+no
disminucin enfumadores con un ndice de = masa
kg/m y2(28,5;
y un consumo 1) = 1,49
(28,5; de 20; -0)
alcohol - yde(25,20 20,
g/da 0) =la1,091
0,002920
es
media del colesterol
+- 0,18
1,148 = -0,057,HDL
- 0,01028,5 0,978.
presentan
los fumadores una disminucin
actuales con en la media
el mismo del colesterol
ndice de masa corporal HDL de de 25 kg/m2 de
corporal de 25 kg/m2, los no fumadores con un elevado ndice de masa corporal
y (28,5; 20; 0) y (25, 20, 0) = 1,091 1,148 = 0,057, 2
Tomando
los fumadores
y (28,5; como
20;actuales referencia
1) = 1,49 con- a0,01628,5
ellos sujetos
mismo +no
ndice fumadores
de masa+ corporal
0,002920 con -un
0,18 ndice de =masa
de 25 kg/m
0,01028,5 de
0,978.
2 y (25, 20, 1) - y (25, 20, 0) = 1,070 - 1,148 = -0,078
delos28,5 kg/m presentan
fumadores actuales con unaeldisminucin
mismo ndice en dela media del colesterol
masa corporal de 25 HDL
kg/m2de de
corporal
los fumadores de 25 actuales kg/m2, los connoelfumadores
mismo con de
ndice un masa
elevado ndicede
corporal de25masa
kg/m 2
corporal
de
Tomando como y (25,
referencia20, 1)a
los y (25,
sujetos20, no0) = 1,070
fumadores 1,148
con =
un 0,078
ndice de masa
y los fumadores actuales con un elevado ndice de masa corporal de 28,5 kg/m2 de
2 y (28,5; 20; 0) - y (25, 20, 0) = 1,091 - 1,148 = -0,057,
de
y los28,5 kg/m presentan
fumadores actuales una
condisminucin
un elevado ndice en la media
de masa delcorporal
colesterol de HDL de 2 de
28,5 kg/m
corporal de 25 kg/m y (25,2 20, 1) - y (25, 20, 0) = 1,070 - 1,148 = -0,078
, los con
no fumadores
y los fumadores actuales un elevadocon un elevado
ndice de masandice corporal de de
masa corporal
28,5 kg/m2 de
y (28,5; 20; 1) y (25, 20, 0) = 0,978 1,148 = 0,170. 2
los fumadores2 yactuales (28,5; 20; con0)el-mismoy (25, ndice
20, 0) =de masa-corporal
1,091 1,148 = de 25 kg/m de
-0,057,
de
yAs, 28,5 kg/m
loslafumadores presentan
actuales una disminucin en la media del colesterol de HDL de 2 de
disminucin y (28,5; media20;condel-un
1) y elevado
colesterol
(25, 20, HDL ndice dede0,170
0) = 0,978 masa
- 1,148 corporal
mmol/l 28,5conjuntamente
debida
= -0,170. kg/m a
As,
fumar la ydisminucin
aumentar elmedia
y (25, 20, 1)del
ndice - ycolesterol
de masa corporal
(25, 20, HDL
0) esdemayor
= 1,070 -0,170
- 1,148enmmol/l
valor debida que la suma de
absoluto
= -0,078 2
los
las fumadores yyactuales conel0,078mismo ndice =de masa corporal decada factor de
25 kg/m
disminuciones (28,5;
0,057
(28,5; 20; 1) -- yy (25,
20; 0) (25, 20,
20, 0)
= 0,135 1,091
0,978 -- debidas
0) =mmol/l 1,148
1,148 = = a-0,057,
-0,170. por separado.
As,
En otrasla disminucin
conjuntamente palabras, losmedia
a fumar datos del estudio
y aumentar
del colesterol
el EURAMIC
ndiceHDL dede -0,170
masa
apuntan mmol/l
corporal es debida
mayor
a un posible en valor
efecto supraaditivo
2
yo los fumadores
sinrgico del yactuales
ndice
(25, de
20, con
masa
1) - uny elevado
corporal
(25, 20, y ndice
0)el= tabacode
1,070 masa
sobre
- 1,148 corporal
los= niveles
-0,078de 28,5
de kg/m
colesterol
2
deHDL.
los fumadores
conjuntamente
absoluto
As, que la asuma
la disminucin actuales
fumarmedia con
deylas el
aumentarmismo
disminuciones
del colesterol ndice
el ndice HDL de masa
dedemasa
-0,057 -0,170corporal
corporal
- 0,078 de 25 kg/m
esdebida
= -0,135
mmol/l mayor
mmol/l de
en debidas
valor
y (28,5; 20; 1) - y (25, 20, 0) = 0,978 - 1,148 = -0,170. 2
ayabsoluto
los fumadores
cada que por
factor
conjuntamente actuales
la aysuma de
separado.
fumar
(25, 20, con
ylas - un
1)En elevado
disminuciones
yotras
aumentar (25, ndice
elpalabras,
ndice
20, 0) = dedatos
-0,057
los
de -masa
masa
1,070 -0,078corporal
==
del deEURAMIC
-0,135
estudio
corporal
1,148 28,5enkg/m
mmol/l
es mayor
-0,078 valorde
debidas
As, la factor
a cada
apuntan
absoluto disminucin
aque por
un la
posible
y suma media
separado.
(28,5;efecto
de del
20;las
1)En colesterol
otras
supraaditivo20, HDL
(25,palabras,
disminuciones
-uny elevado de -0,170
los datos
o0)sinrgico
-0,057
= 0,978 -del
- 0,078mmol/l
del
ndice
1,148 dedebida
=estudio
-0,135
= EURAMIC
masa corporal
mmol/l
-0,170. debidas y
y los fumadores actuales con ndice de masa corporal de 28,5 kg/m2 de
conjuntamente
apuntan
ael tabaco
cada asobre
un por
factor alos
fumar
posible y aumentar
efecto
niveles
separado. deEn otraselpalabras,
supraaditivo
colesterolndice
HDL. delos
masa
o sinrgico corporal
del
datos ndice
del esdemayor
estudio masa en valor y
corporal
EURAMIC
As, la disminucin media del colesterol HDL de -0,170 mmol/l
y (28,5; 20; 1) - y (25, 20, 0) = 0,978 - 1,148 = -0,170. debida
absoluto
el tabacoaque
apuntan un la
sobre suma
posible de lasde
los niveles
efecto disminuciones
colesterol HDL.
supraaditivo -0,057 - 0,078
o sinrgico = -0,135
del ndice mmol/l
de masa debidas
corporal y
Pastor-Barriuso R. 227
conjuntamente a fumar y aumentar el ndice de masa corporal es mayor en valor
aAs,
elcadala factor
disminucin
tabaco porlos
sobre media del
separado.
niveles de colesterol
Encolesterol HDLlos
otras palabras,
HDL. de datos
-0,170delmmol/l
estudiodebida
EURAMIC
absoluto que la suma de las disminuciones -0,057 - 0,078 = -0,135 mmol/l debidas 54
MLTIPLE
Segn la estructura de la regresin lineal mltiple presentada en el Apartado 11.2, cada
media 0 y varianza constante 2. Estas n ecuaciones lineales pueden reescribirse en
11.8
una
Segn
Regresin deAPNDICE:
las
la
lineal estructura
mltiple
FORMULACIN
n observaciones
de la regresin independientes lineal MATRICIAL
(yi, xi1, ,
mltiple xDE
presentada LAenREGRESIN
ip) presenta el la LINEAL
relacin11.2,
Apartado lineal cada
forma matricial como
MLTIPLE
una de las n observaciones independientes (yi, xi1, , xip) presenta la relacin lineal
yi = 0 + 1 xi1 + + p xip + i, i = 1, , n,
11.8 APNDICE: FORMULACIN y
1 1 x MATRICIAL
11 x1p DE LA REGRESIN
1 LINEAL
SegnMLTIPLE yi = 0 + 1 xi1 + + p xip + i, i = 1,en
la estructura de la regresin lineal mltiple
presentada
0 ,el n,
Apartado 11.2, cada
donde los errores aleatorios i son independientes y estn distribuidos
normalmente con
= 1 +
una la
Segn las n observaciones
deestructura de la regresin independientes
lineal mltiple (yi, xpresentada
i1, , xip) presenta
en el Apartado la relacin11.2,lineal
cada una de
donde los errores aleatorios son 2
independientes yestn
distribuidos normalmente
las media 0 y varianza
n observaciones constante
independientes i .(yEstas
i i1 , x , n
, ecuaciones
x ip ) presenta
lineales
la pueden
relacin
reescribirse
lineal en con
p
yi = 0 y+n 1 x2i11+ x n1+ x i =1,n , n,
p xip +np i,
media 0 y varianza
forma matricial como constante . Estas n ecuaciones lineales pueden reescribirse en
donde los errores aleatorios i son independientes y estn distribuidos normalmente con media
0 ydonde
o,varianza
forma los constante
errorescomo
matricial
abreviadamente, 2. Estasi nson
aleatorios independientes
ecuaciones lineales y estn
pueden distribuidos
reescribirse normalmente con
en forma matricial
como y1 1 x11 x1 p 1
2 0
media 0 y varianza constante . Estas n ecuaciones pueden
y1 1 x11y = X +x1p , lineales1 1
reescribirse en
= 0 +
forma matricial como
donde y es un vector n 1 con
=los
valores de lavariable 1 respuesta,
X es una matriz de
y n 1 x n1 x np p + n
y1 columnas 1 x11sonlos xvalores 1p 1
dimensin n (p + 1) cuyas de cada variable explicativa ms
y n 1 x n1 x np 0p n
o, abreviadamente,
una primera columna de unos,
o, abreviadamente, =es un vector (p+1) 1 1 con + los coeficientes de
o, abreviadamente,
y = X + ,
regresin y es un vector n 1 con los errores aleatorios. p El nvector
de errores aleatorios
y n 1 x n1 x np
donde y es un vector n 1 con los valores de + , respuesta, X es una matriz de dimensin
y =laXvariable
(psigue
n donde+ 1)ycuyases uncolumnas
entonces una ndistribucin
vector son 1 con losnormal
los valores valoresde cada de la variable
multivariante
variable respuesta,
con
explicativa mediams 0Xy es una
matriz
una matriz
diagonal
primera de
columna
de unos,
o, es un vector (p + 1) 1 con los coeficientes de regresin y es un vector n 1 con
abreviadamente,
asuncin de homogeneidad 2de la varianza, todas las varianzas de la diagonal de la
los donde
errores
dimensin
de y aleatorios.
es nun vector
(p + El
varianzas-covarianzas 1)nvector
1con
cuyas de, los valores
errores
Icolumnas de
loslavalores
aleatorios
son variable
siguederespuesta,
entonces
cada X esexplicativa
una
variable una matrizms
distribucin de
normal
multivariante con media 0 y matriz diagonal de varianzas-covarianzas I,
2
matriz de varianzas-covarianzas son iguales y = Xa + 2 ,y que, por tratarse de observaciones
dimensin n (p + 1) cuyas columnas son
una primera columna de unos, es un vector (p 2+ 1) 1 con los coeficientes los valores de cada variable explicativa
de ms
~ N(0, I),
independientes, las covarianzas de fuera de la diagonal son iguales a cero.
donde
regresin y esy un
una 0primera
donde denota esvector
el vector
columna ndenulo
un vector unos,1ncon n 1los valores
1escon
con un todos
losvector de sus
errores laaleatorios.
(p variable
1) 1 respuesta,
+componentes conEl los Xdeeserrores
iguales
vector a una
coeficientes ceromatriz de la
I denota
ealeatorios
de
donde
matriz 0 denota
Aidentidad
partir denestaelnvector
con unos
formulacin nuloenn matricial
1diagonal
la con todos sus componentes
dely modelo
ceros fuera de ella.iguales
de regresin Notar amltiple,
linealque, cero I denota
pore la asuncin
resulta
de homogeneidad
dimensin
regresin
sigue entoncesynes(p de
un+lavector
una 1)varianza,
cuyas
distribucin 1todas
n columnas con lasson
los
normal varianzas
los valores
errores de ladecon
aleatorios.
multivariante diagonal
cada
Elmedia de0 de
variable
vector ylamatriz
matriz de
explicativa
errores varianzas-
ms
aleatorios
diagonal
covarianzas
la son iguales
identidad na n
2
y que, por tratarse de observaciones
sencillo calcular las estimaciones de los coeficientes de regresin por el mtodo de la
matriz con unos en la diagonal y ceros fuera independientes,
de ella. Notar las covarianzas
que, por
de fuera
una
sigue
de deentonces
primera la diagonal
columna
varianzas-covarianzas unason de iguales
distribucin 2I, aescero.
unos, un vector
normal (p + 1) 1con
multivariante conmedia los coeficientes
0 y matriz de diagonal
55
mnimos
A partir decuadrados.
esta formulacinEn el Apartado matricial11.3.1, del modelo se comprob
de regresin quelineal estas mltiple,
estimaciones vienen
resulta sencillo
regresin y es un vector
de varianzas-covarianzas
calcular las estimaciones de los
2
n Icoeficientes
,1 con los errores de regresinaleatorios. por el Elmtodo
vector de errores
mnimos aleatorios
cuadrados.
~ N( 0, 2I),
En dadas por la solucin
el Apartado 11.3.1, seal comprob
sistema de que p + 1estas ecuaciones
estimaciones lineales vienen dadas por la solucin al
sigue
sistema de entonces una distribucin
p + 1 ecuaciones lineales normal multivariante 2 con media 0 y matriz diagonal
~ N(0, I),
donde 0 denota el vectorn nulo n 1 con ntodos sus componentes n iguales a cero e I denota
de varianzas-covarianzas y i I=, nb0 + b1 xi1 + ... + b p xip ,
2
donde
la matriz 0 denota
identidad el vector
n n n con
i =1 nulounos n 1nencon =todos
la i diagonal
1
n
susycomponentes
ceros i =1 fuera de
n
iguales
ella. Notar e I denota
a ceroque, por la
xi1 y i = b0 1 xlai1 ~+diagonal
la matriz identidad n i=1 n con unosi =en
b10
N( , x2i1I),+ ... + b p x i1 x ip ,
i =1
2
la matriz identidad n n con unos en la diagonal y ceros fuera de ella. Notar que, por la
que puede representarse matricialmente como
55
y 1 x11 x1 p
1 1 1 1 1 b0
x x n1 x11
x n1 b
11R. 1
228 Pastor-Barriuso
=
x np x1 p
b
x1 p x np
y 1 x x p
i =1 i =1 i =1 i =1
n n n n
x
y i = b0 x ip + b1 x i1 x ip + ... + b p x ip2 ,
ip
que puede representarse
i =1 matricialmente
i =1 como i =1 Apndice: formulacin
i =1matricial de la regresin lineal mltiple
ecuacin anterior por la matriz inversa (XX)-1, se obtienen las estimaciones de los
que puede representarse matricialmente y1 como 1 x11 x1 p
1
quecoeficientes
puede representarse 1
matricialmente como
de regresin 1 1 b0
x
x n1 x11
x n1 b
11 y 1 x
11 x 1
1p
1 1 1 = 1 -1 1 b0
b = (XX) Xy.
x
x111p
xx np
xx111p
xx np bb
1p
ecuacin anterior por la matriz
n1
y =
ninversa -1 n1
(XX) , se obtienen 1las estimaciones
x x de los
n1 np
Deesta formula matricial se desprende que los estimadores
de mnimos cuadrados b
x x x x b
1 p anterior
coeficientes de regresin inversa
np
1 p(XX) , se obtienen
-1 las estimaciones de los
np
ecuacin
o,
por la matriz
y los
n 1 x n1 y, x p
sonabreviadamente,
combinaciones lineales de valores de la variable respuesta cuyosnpcoeficientes
o, abreviadamente,
coeficientes de regresin b = (XX)-1 Xy.
dependen de
o, abreviadamente, los valores de las variables = XXb, X que se asumen constantes. En
Xyexplicativas
-1
donde X' esta
De es laformula
consecuencia, matriz
si el traspuesta
matricialmuestral
tamao se X yb
dedesprendenbes XelXvector
que Xyestimadores
=es(suficientemente
) los .(p + 1) 1de
grande, con las estimaciones
mnimos
puede unade
cuadrados
aplicarse b los
donde X es
coeficientes. Comola matriz traspuesta
el modelo de X X
de regresin y es=X
y blineal Xb
elmltiple
, (pasume
vector + 1) que 1 conlas las estimaciones
variables explicativas
sonecuacin
linealmente
son Decombinaciones independientes
estaanterior
generalizacin formuladelpor lineales
la matriz
teorema
matricial seylos
de quevalores
inversa
central delel lmite
desprende (nmero
XX de
que)-1para dedemostrar
la,los
se observaciones
variable
obtienen
estimadores respuesta
lasque yn, estimadores
es
estimaciones
de los
mnimos superior
cuyos de losbo igual
coeficientes
cuadrados b al
nmero de coeficientes
de los coeficientes.
donde X es la matriz Comop + 1, la matriz
el modelo
traspuesta de Xde X tiene
y bregresin rango
es el vector lineal p + 1
(p mltiple y, en
+ 1) 1 asume consecuencia,
con lasque las
estimaciones la matriz
cuadrada
dependen
siguen X'X dees no
los
aproximadamente
coeficientes
son singular.
valores
de regresin
combinaciones linealesde Multiplicando
las
una variables
dedistribucin
los valores de ambos
explicativas
normal lados
la variable X deque
multivariante la ecuacin
se
respuesta asumen
con anterior
y, media por la
constantes.
cuyos coeficientes Enmatriz
variables
inversa
de los(X'X) explicativas
1
, se obtienen
coeficientes. Como sonlaslinealmente
modelo deindependientes
el estimaciones linealy mltiple
de los coeficientes
regresin que eldenmero asumede
regresin que observaciones
las
consecuencia, si
dependen de los valores el tamao de muestral
las variables n es suficientemente
explicativas X-1 que se asumen constantes.una
grande, puede aplicarse
n es superior o igual E(
al bnmero
) = E{(de XX -1
)b X = (yX
coeficientes } =X)E{(
1
pX+X .X)la X
y1, (X +Xtiene
matriz )} rango p + 1 En y, en
variables explicativas son linealmente independientes y que el nmero de observaciones
generalizacin
De esta formula
consecuencia, del teorema
matricial
si el tamao=se central del
desprende
muestral lmite
n)-1esXque para demostrar
los estimadores
suficientemente que
grande, los
de mnimos estimadores
puede aplicarse b
cuadradosuna b son
+ (XXX X E( ) los
= estimadores
singular.
n es superior o igual al nmero de coeficientes p + 1, la matriz X tiene rango p + 1 y,laen
consecuencia,
De esta
combinaciones la
formula matriz
lineales de cuadrada
matricial
los se
valoresdesprende
de es
la noque
variable Multiplicando
respuesta y, de
cuyos ambos
mnimos lados
cuadrados
coeficientes de b
dependen
siguen
de los aproximadamente
valores de las
generalizacin delvariables una distribucin
teorema explicativas
central del lmite normal
X quepara multivariante
se asumen
demostrar constantes.con media
En consecuencia,
que los estimadores b si el
son
tamao
y combinaciones
muestral
matriz de n es lineales
suficientemente
varianzas-covarianzas de los valores
grande, de la
puede variable
aplicarse
consecuencia, la matriz cuadrada XX es no singular. Multiplicando ambos lados de la respuesta
una y , cuyos
generalizacin coeficientes
del teorema
central
siguendel aproximadamente
lmite para demostrar
E(b) una que
= E{( Xlos
X)estimadores
distribucin
-1
Xy}normal = E{(bXsiguen
X)-1 Xaproximadamente
multivariante (X + con )} media
una distribucin
56
dependen
normal de los valores
multivariante con media de las variables explicativas-1 X que se asumen constantes. En
var(b) = E{(b - )(b - )} = E{(XX) X X(XX)-1 }
-1
+X (XXX)n)1X X E(
} = )E{( = XX)1 X(X + )}
consecuencia, si el tamao E(b) =muestral
E{( es ysuficientemente
-1 grande, puede aplicarse una 56
= (XX)-1 XE( )X ( X X ) -1
= ( X X ) X (
2
I ) X ( X X) -1
= + (XX) 1 XE( ) =
generalizacin del teorema
y matriz de varianzas-covarianzas central del lmite para demostrar que los estimadores b
y matriz de varianzas-covarianzas= 2 (XX)-1 ,
siguen
y matrizaproximadamente una distribucin normal multivariante con media
de varianzas-covarianzas
var(b) = E{(b )(b 2)} = E{(XX)1 X X(XX)1 }
ya que E() = 0 y E() = var( ) = I por las asunciones de linealidad, aditividad,
= (XX)1 XE(-1)X(XX)1 = (X X 1 2
-1) X( I)X (XX)1
var(b) E( b) =b E{(
= E{( XbX-))}
- )( Xy=} E{(
= E{( X)XX
XX -1 ) X(X+X))}}
X(X -1
homogeneidad de la varianza
= 2 (XXe)independencia.
1
, Cada estimador de mnimos cuadrados bj
= (X= X)-1+ X))-1XX(E(
(X
X2E( XX ))-1= = (XX)-1X( 2I)X(XX)-1
ya que E() = 0 y E(') = var() = I por las
es entonces un estimador insesgado de su correspondienteasunciones de linealidad,
coeficienteaditividad, homogeneidad
de regresin j y
de la varianza e independencia. Cada 2estimador de mnimos cuadrados b es entonces un
ysigue E( = ) 2= var(-1
(XX) ),= I coeficiente
correspondiente por las asunciones de linealidad, aditividad, j
yamatriz
estimador E(de
) varianzas-covarianzas
insesgado
= 0 y de su
queaproximadamente la distribucin normal de regresin j y sigue aproximadamente
la distribucin normal
homogeneidad
ya 0de
que E() = var(
yb la)
E( =varianza
) = bvar(~e)(independencia.
)b=-2)} Cada-1 estimador
I por las asunciones de-1mnimos
de(Xlinealidad,
, cuadrados bj
aditividad,
E{( bj - N( j, 2 v=jj ),E{(XjX=) 0,X1, X p,X) }
es entonces
homogeneidad
donde un estimador
vjj es el elemento insesgado
de la =varianza
(Xj)-simo
(j, de
E(de )laXsu
X)-1eXindependencia. (Xcorrespondiente
matriz Cada
X)-1(X'X)
1 -1 coeficiente
= (XestimadorX( 2Ide
X.-1)Adems, de)-1regresin
mnimos
los
)X bjyj ybbkj de
cuadrados
(Xestimadores
X
distintos vjj es el elemento
dondecoeficientes (j, j)-simo
de regresin estnde la matriz (XX)con
correlacionados . Adems, cov(bj, bkb) j=y 2vjk.
los estimadores
una covarianza
sigue
Cabe
es aproximadamente
destacar
entonces que
un estimador 2la(insesgado
Xdistribucin
estas=distribuciones
X)-1, muestrales
de su normal no requierencoeficiente
correspondiente de la asuncin j y y
de normalidad
de regresin
sonbkvlidas
de distintos coeficientes
para cualquier de regresin
distribucin estn correlacionados
subyacente de la variable conrespuesta,
una covarianza
siempre que el
tamao muestral sea suficientemente
sigue aproximadamente labdistribucin ~ grande. normal j = 0, 1, , p,
2
j N(j,2 vjj),
ya
cov(b bk))==02vyjkE(
quej, E( ) =destacar
. Cabe var( ) =que
Iestas por las asunciones muestrales
distribuciones de linealidad,no aditividad,
requieren de la
~ N( , 2v ),
homogeneidad
donde vjj es el elemento (j,bj)-simo
de la varianza j e independencia.
jde la matriz
jj j(X
Cada=X -1 , p,
0,estimador
)1, de mnimos
. Adems, cuadrados
los estimadores bj y57bj
es
bk entonces
donde vjj es un
de distintos estimador(j,insesgado
coeficientes
el elemento de
de su
de regresin
j)-simo correspondiente
laestn coeficiente
correlacionados
matriz con los
(XX)-1. Adems, de regresin bj jyy
unaestimadores
covarianza
Pastor-Barriuso R. 229
2
sigue
bcov(b aproximadamente
k de distintos vjk. Cabeladestacar
j, bk) = coeficientes distribucin
de regresinnormal
que estas distribuciones
estn muestrales
correlacionados con unanocovarianza
requieren de la
E( y 0 ) = x0 E(b) = x0
y 0 = b0 + bde
Una vez estimados los coeficientes 1 x01regresin,
+ + bpel = x0 esperado
x0pvalor b de la variable
Regresin lineal mltiple
y varianzaY dados unos valores fijos x0 = (1, x01, , x0p) de las variables explicativas
respuesta
que, al ser una combinacin lineal de b, tambin se distribuye de forma
puede estimarse
Una vez como
estimados ylos coeficientes
0 E{( b - de)(b
regresin,
- )}x0 =elvalor
2
(esperado demedia
XX)-1xcon
x0grandes, 0=
la2hvariable respuesta Y
aproximadamentevar( 0 ) = xen
normal muestras suficientemente 0;
dados unos valores fijos x0 = (1, x01, , x0p)' de las variables explicativas puede estimarse como
es decir,
y 0 = bE(
0+ y 0b)1x=01x+0 E( 0 = x0 b
bpxx0p
b+) =
que, al ser una combinacin lineal de b, tambin se distribuye de forma aproximadamente
normal
que, enser
al muestras
y varianza
suficientemente
una combinacin linealgrandes,
yde b~, tambin
con media
se2 distribuye de forma
0 N( x0 , h0 ),
x0 (i by
n
=
0 no depende de la nueva observacin y0,bla0 varianza n n E( (de
0
x esta 0 0
x )xdiferencia xx0xes
y ib y i ) x i }= yxi E( b ) E( 0 ) = 0.
E( b y=0 - y0)==E{ - y)2i0-)=0}E{ 0(i E( b - ) -0 E(0) 0= 0.
var( y 0 y0 ) = x0 E{( bEn
10.3.1, E( y 0 yy)}
el)(bcaso
10.3.3
Como
=x0E{
0 )10.3.4).
particular + var(xb01 (As,
el valor deb 0)se
una ) tiene
predicho
xi0 } =
nica que xx0 E(
0variable
noi depende b ) xi E(
explicativa,
y 0 ) = 0.
de ila nueva todos los resultados
observacin y0, la varianza 58de esta diferencia es
ynueva i0 i i 0,i la)}
Como el= valor
2
{1 + x0 todos
donde
predicho (XX )
no
1
los x sumatorios
}
depende
0 =
2
(1
de +la son
h ).
nueva
0 sobre observacin
1 var(de i = 1, , xy n.
2
, laPor y tanto,
varianza xla
de estimacin
estax y
diferencia de la
es
Como el valor 0 predicho y no depende 0 la
yregresin 0 ) = xobservacin 0 E{(b )(by
i varianza de esta
x0 + var( 0 )
anteriores se reducen a los0=obtenidos en 2 1 lineal simple (vase ,Apartados
de la nueva observacin pendiente se
var( esdistribuye
y 0 by=0 ) =de b
0 x0forma E{(
n n (
b normal x
i)(b (asuncin
x x
) i)} x0 +n = var(x y i 2 i 0 ) i i 1
de y
i {1
x y
+ x0 (XX) x0 } = (1 + h0 ).
2
b normal 2= x 2
{1 x0 }n.=
cia 0 y0 tambindiferencia seguir la distribucin
donde 10.3.1,todos 10.3.3 es sumatorios
los y 10.3.4). = 1As,
son se
+ xtiene
sobre 0i (iX= X1,)x i,
que 1
x(1
Por
2 y i+ h ).
i tanto, 0 la estimacin de la pendiente es
2 Si adems el error 0 de la nueva2 observacin se distribuye de forma normal (asuncin d
y 0 y0 donde ~ N(0, (1 los
el error todos
+ hsumatorios
0 )).
normalidad), son sobre 1nse idistribuye= 1, , i
n.de
y xtambin Por yformatanto,
i seguir normalxlai estimacin
laxdistribucin
i y(asuncin
de lanormal
Si adems 0 de la nueva observacin=la diferencia ( xi 20 x )(1 0y i y )
i
, de
ar denormalidad),
una nica variable
pendiente es 0 b0= b0 = b
la diferencia explicativa, y todos tambin losnseguir n( xii=1la
resultados
1=
n
xdistribucin
)xanteriores
i x normal
se
y 0 yi iyi=
y
0 ~ r N(0,i
s y x 2 y i
(1 + h0 )). 58
s en regresin lineal simple (vase Apartados 10.3.1, 210.3.3
2 y 10.3.4).
xi (1 x(+ixh 0)).x
n
s
y b
En el0 caso 1 y0 ~ N(0,
particular de una i ) 2 x i yvariable
nica i x
explicativa, todos los resultados anteriores s
donde todos los sumatorios son sobre n ii=1= 1, , n. 2 Por tanto, la estimacin de la
En el caso particular
n a losobtenidos
b0 reducen
1
x i enyAs,
dereducen una nica
a los
=
obtenidos
variable
1 en regresin
explicativa,
( x
x
)( y i ylos
xtodos
y
lineal
) simple
i resultados x i (vase i
Apartados
x i yanteriores
,y 10.3.4).
se 10.3.1, 10.3.3 y 10.3.4
= = iregresin se tiene linealque simple (vase Apartados
nb= ( xi =i1 x ) n x i y=i r y x i y i
i 2 i 10.3.1,
s 10.3.3
pendiente es
b1 As,
se tiene
xi que x i2 estimacin
y la x y de
la constante 1 es n
xsix y i
1
i i
b0(x x )n2
x i2 n x i x i xyii bn=
1
i=b
1 yi
i=
1 donde todos b0los y i sumatorios son sobre i = 1, , n.x iPor tanto,
x i2 laestimacin x i y i de la
= b = =
bx y xx y y( xx 2 x
n , 1 n
n ( x i x ) 2 n 1 i i ii i ii i =)1
2( x x )( y y )
ixxi y i ( xi i x )( y i sy )
1 = r y x i y i x i x i y i
2
i =1 b =
ypendiente
230 Pastor-Barriuso
la estimacin R. es debla =constante es i =1
= y b x.
y=i n ,
1
orios son sobre i = 1, , n. Por tanto, 0la estimacin de xnlai2n pendiente xxi
es xxi)sy2xi n x1 y x
=
1
2 (
( xi x i x) x2) 2 (
i , i i i yi
n
n ( x i n x ) n i = n x y i i n. Por tanto, la estimacin de la pendiente es
x y
( xi x )( y i ydonde ) todos los sumatorios 2
1i =1 i n i
son sobre i = 1, ,
b1 = =r
n
sx
(x
i =1
i x) 2
y la estimacin de la constante es 1
y la estimacin b) la
var(de
var(b0 )
= constante es
cov(b0 , b1 )
= 2
n xi
cov( b0 n, b1 ) var(b1 ) n xi x i2 1
(=xi 2 x)( y2i y
var(b0 ) cov(b , b1 ) n x
var(b) = y ( xi x ) 2 0 x ) 2i 2
cov(b , b ) var(b1 )i =1=
x i
x xi xi
b0 = i0=1 1 =
i b x .
y ,
n
n2 ( xi 2 x ) 2 x2i 1
n
( xi x )
=
xi xi
,
2
cov(b0 , b1 ) n2 ) xi x i
i =1 1
var(b0 ) (nxi x n
Adems, var(
la matriz
de donde b) de
se sigue= que
varianzas-covarianzas de estimadores2es
=estos
cov(b0 , b1 ) var(b1 ) xestimadores xi 1 es
Adems, la matriz de varianzas-covarianzas de estos i
( xi 2 x ) = 2 12 +x x
= n 2(n, 1) s 2 ,
2 i =1
var(b0 ) = var(b
n 1) = n i =1
n( )nx)22 (n 1) s x x
n 2
x i (
i =1
xxi )(2x x+
i 1 x 2
var(b0) = 2 i =1 n i =1 2 2 x = 2 2+2 x ,
cov(b0, b1) = n 2 = n (n2 . 1) s x2
var(b1)n= ( x i x ) 2 =2 (n 1)2s,x
i =1 i x2
n ( x x ) (n 1)s 2 x
cov(b0, b1) = i =(n1x i x ) = x .
(n 1) s x2
i =1
(x x)
2 i2
2
2 2
Por ltimo, para un valorcov(b var(b
fijo x0, de ) = i =1
la nvariable explicativa, x = x,
=(n 1) slax2 varianza del valor predicho
1
0 b1) = n .
( x x ) 2
(i x i explicativa,
x) 2
(n 1) s x 2
yPor
0 =ltimo,
b 0 + b para
x
1 0 es un valor fijo x 0 de la i =1variable
i =1
la varianza del valor predicho
1.2 MEDIDAS DE TENDENCIA CENTRAL
Por ltimo,
y 0 = b0 +para es valor fijo x0 de la variable
b1x0un 2 explicativa,
x 2 lax varianza del valor predicho
0 = b0 + b1x0 es cov(b0, b1) = n 1 = .
var( y ) = [1 x ] Las
2
n xi 2 1(n 1) s x2
( x i medidas
2x) de tendencia central informan acerca de cul es el val
Por ltimo, para un0 valor fijo x00de xii=1 xexplicativa,
la variable 1 x la varianza del valor predicho
n xi i 10
var( y 0 ) = [1 2x 0 ]
2
x 2 x
i x xi 1
xidex una determinada
2 variable
o, dicho de forma equivalente, estos e
y 0 = b0 + b1x0 es =
Por ltimo, para un valor fijo x0 de la2 variable [1 ] i 0
0 explicativa, la varianza del valor predicho
n ( xi 2 x ) dex2i qu valor n x0
alrededor xi xise agrupan
1 los datos observados. Las medid
y 0 = b0 + b1x0 es = n [1 x 0 ] 1 2
n( x(ix x )x n) + n ( x 0xi x ) x1i n x 0 2
2 2
x0 x2i xi 1
i =1 2
donde se observa que el leverage n 2 del valor
donde se observa que el leverage
=
n ( x
(1xi del
i xvalor
)
x2 )[1
2
+
0
x
n ( ]x
xvariable.
0
xi
0 x )
21
n (xx0 0 x ) 2
donde se observa que= el leverage del
2 i=
valor x0 = + ,
n n
1 ( x2 0 x2) 2 n (n 1) s x2
( xi nhx0 )(=xi+1.2.1
2 n+x( x) 0Media
x ) aritmtica
i = 1 n (n 1) s x2 2 2 1 ( x 0 x ) 2
= 2 i =1
nh =
1 ( x 0 x ) = + ,
2
es una medida estandarizada de su desviacin 0 La +media
respecto aritmtica, n denotada
2de la media (nmuestral
1) spor
x x ,dese la
define como la suma de c
variable
n ( xi n x ) (n 1) s x 2
donde
explicativa. se observa que el leverage del
i =1 valor x 0
valores muestrales dividida por el nmero de observaciones realiz
60
donde se observa que el leverage del valor 1 x(0x 0 x ) 2
h0 = por + n el tamao muestral y por xi el valor observado
Pastor-Barriuso para el sujeto
n (n 1) s x2 60R. 231
1la media( x vendra x) 2 dada por
h0 = + 0
n (n 1) s 2
Regresin lineal mltiple
11.9REFERENCIAS
232 Pastor-Barriuso R.
APNDICE
TABLAS ESTADSTICAS
Pastor-Barriuso R. 233
Tablas estadsticas
n
Tabla
Tabla Probabilidades P(X = k) = k (1 ) n k para
1 1Probabilidades para laladistribucin
distribucin binomial
binomial X con
X con
k
parmetros n = 2, 3, ..., 20 y = 0,05, 0,10, ..., 0,50.*
parmetros n = 2, 3, ..., 20 y = 0,05, 0,10, ..., 0,50.*
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
2 0 0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
1 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000
2 02 0,0025
0,9025 0,0100 0,0225 0,6400
0,8100 0,7225 0,0400 0,5625
0,0625 0,4900
0,0900 0,4225
0,1225 0,3600
0,1600 0,3025
0,2025 0,2500
0,2500
1 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000
3 0 0,8574 0,7290 0,6141 0,5120 0,4219 0,3430 0,2746 0,2160 0,1664 0,1250
2 0,00250,0100 0,0225 0,0400 0,0625 0,0900 0,1225 0,1600 0,2025 0,2500
1 0,1354 0,2430 0,3251 0,3840 0,4219 0,4410 0,4436 0,4320 0,4084 0,3750
3 02 0,0071
0,8574 0,0270
0,7290 0,0574 0,0960 0,4219
0,6141 0,5120 0,1406 0,3430
0,1890 0,2746
0,2389 0,2160
0,2880 0,1664
0,3341 0,1250
0,3750
13 0,0001
0,1354 0,0010
0,2430 0,0034 0,3840
0,3251 0,0080 0,4219
0,0156 0,4410
0,0270 0,4436
0,0429 0,4320
0,0640 0,4084
0,0911 0,3750
0,1250
2 0,0071 0,0270 0,0574 0,0960 0,1406 0,1890 0,2389 0,2880 0,3341 0,3750
4
30 0,8145
0,00010,6561 0,5220 0,4096 0,3164 0,2401 0,1785 0,1296 0,0915 0,0625
0,0010 0,0034 0,0080 0,0156 0,0270 0,0429 0,0640 0,0911 0,1250
1 0,1715 0,2916 0,3685 0,4096 0,4219 0,4116 0,3845 0,3456 0,2995 0,2500
4 02 0,0135
0,8145 0,0486
0,6561 0,0975 0,1536 0,3164
0,5220 0,4096 0,2109 0,2401
0,2646 0,1785
0,3105 0,1296
0,3456 0,0915
0,3675 0,0625
0,3750
13 0,1715
0,0005 0,2916
0,0036 0,3685
0,0115 0,4096
0,0256 0,4219
0,0469 0,4116
0,0756 0,3845
0,1115 0,3456
0,1536 0,2995
0,2005 0,2500
0,2500
24 0,0135
0,0000 0,0486
0,0001 0,0975
0,0005 0,1536
0,0016 0,2109
0,0039 0,2646
0,0081 0,3105
0,0150 0,3456
0,0256 0,3675
0,0410 0,3750
0,0625
3 0,0005 0,0036 0,0115 0,0256 0,0469 0,0756 0,1115 0,1536 0,2005 0,2500
5 40 0,7738
0,00000,5905 0,4437 0,0016
0,0001 0,0005 0,3277 0,0039
0,2373 0,0081
0,1681 0,0150
0,1160 0,0256
0,0778 0,0410
0,0503 0,0625
0,0313
1 0,2036 0,3281 0,3915 0,4096 0,3955 0,3602 0,3124 0,2592 0,2059 0,1563
5 02 0,7738
0,0214 0,5905
0,4437
0,0729
0,1382 0,3277
0,2048 0,2373
0,2637 0,1681
0,3087 0,1160
0,3364 0,0778
0,3456 0,0503
0,3369 0,0313
0,3125
13 0,2036
0,0011 0,3281
0,3915
0,0081
0,0244 0,4096
0,0512 0,3955
0,0879 0,3602
0,1323 0,3124
0,1811 0,2592
0,2304 0,2059 0,1563
0,2757 0,3125
24 0,0214
0,0000 0,0729
0,1382
0,0005
0,0022 0,2048
0,0064 0,2637
0,0146 0,3087
0,0284 0,3364
0,0488 0,3456
0,0768 0,3369
0,1128 0,3125
0,1563
3 0,0011 0,0081
0,0244 0,0512 0,0879 0,1323 0,1811 0,2304 0,2757 0,3125
5 0,0000 0,0000
0,0001 0,0003 0,0010 0,0024 0,0053 0,0102 0,0185 0,0313
4 0,0000 0,0005 0,0022 0,0064 0,0146 0,0284 0,0488 0,0768 0,1128 0,1563
6 50 0,0000 0,5314
0,7351 0,0000 0,0001
0,3771 0,0003
0,2621 0,0010
0,1780 0,0024
0,1176 0,0053
0,0754 0,0102
0,0467 0,0185
0,0277 0,0313
0,0156
1 0,2321 0,3543 0,3993 0,3932 0,3560 0,3025 0,2437 0,1866 0,1359 0,0938
6 0 0,7351 0,5314
0,3771 0,2621 0,1780 0,1176 0,0754 0,0467 0,0277 0,0156
2 0,0305 0,0984
0,1762 0,2458 0,2966 0,3241 0,3280 0,3110 0,2780 0,2344
1 0,2321 0,3543
0,3993 0,3932 0,3560 0,3025 0,2437 0,1866 0,1359 0,0938
3 0,0021 0,0146
0,0415 0,0819 0,1318 0,1852 0,2355 0,2765 0,3032 0,3125
2 0,0305 0,0984
0,1762 0,2458 0,2966 0,3241 0,3280 0,3110 0,2780 0,2344
34 0,0001
0,0021 0,0012
0,0055
0,0146
0,0415 0,0154
0,0819 0,0330
0,1318 0,0595
0,1852 0,0951
0,2355 0,1382
0,2765 0,1861 0,3125
0,3032 0,2344
45 0,0000
0,0001 0,0001
0,0004
0,0012
0,0055 0,0015
0,0154 0,0044
0,0330 0,0102
0,0595 0,0205
0,0951 0,0369
0,1382 0,0609 0,2344
0,1861 0,0938
56 0,0000
0,0000 0,0001
0,0004
0,0000
0,0000 0,0015
0,0001 0,0044
0,0002 0,0102
0,0007 0,0205
0,0018 0,0369
0,0041 0,0609
0,0083 0,0938
0,0156
6 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0018 0,0041 0,0083 0,0156
7 0 0,6983 0,4783 0,3206 0,2097 0,1335 0,0824 0,0490 0,0280 0,0152 0,0078
7 01 0,2573
0,6983 0,3720
0,4783 0,3960
0,3206 0,3670
0,2097 0,3115
0,1335 0,2471
0,0824 0,1848
0,0490 0,1306
0,0280 0,0872 0,0078
0,0152 0,0547
12 0,2573
0,0406 0,3720
0,1240 0,3960
0,2097 0,3670
0,2753 0,3115
0,3115 0,2471
0,3177 0,1848
0,2985 0,1306
0,2613 0,0872
0,2140 0,0547
0,1641
23 0,0406
0,0036 0,1240
0,0230 0,2097
0,0617 0,2753
0,1147 0,3115
0,1730 0,3177
0,2269 0,2985
0,2679 0,2613
0,2903 0,2140
0,2918 0,1641
0,2734
34 0,0036
0,0002 0,0230
0,0026 0,0617
0,0109 0,1147
0,0287 0,1730
0,0577 0,2269
0,0972 0,2679
0,1442 0,2903
0,1935 0,2918 0,2734
0,2388 0,2734
45 0,0002
0,0000 0,0026
0,0002 0,0109
0,0012 0,0287
0,0043 0,0577
0,0115 0,0972
0,0250 0,1442
0,0466 0,1935
0,0774 0,2388
0,1172 0,2734
0,1641
5 0,0000 0,0002 0,0012 0,0043 0,0115 0,0250 0,0466 0,0774 0,1172 0,1641
6 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0084 0,0172 0,0320 0,0547
6 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0084 0,0172 0,0320 0,0547
77 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0001
0,0001 0,0002
0,0002 0,0006
0,0006 0,0016
0,0016 0,0037 0,0078
0,0037 0,0078
8 0 0,6634 0,4305 0,2725 0,1678 0,1001 0,0576 0,0319 0,0168 0,0084 0,0039
8 0 0,6634 0,4305 0,2725 0,1678 0,1001 0,0576 0,0319 0,0168 0,0084 0,0039
1 0,2793 0,3826 0,3847 0,3355 0,2670 0,1977 0,1373 0,0896 0,0548 0,0313
1 0,2793 0,3826 0,3847 0,3355 0,2670 0,1977 0,1373 0,0896 0,0548 0,0313
22 0,0515
0,0515 0,1488
0,1488 0,2376
0,2376 0,2936
0,2936 0,3115
0,3115 0,2965
0,2965 0,2587
0,2587 0,2090
0,2090 0,1569 0,1094
0,1569 0,1094
33 0,0054
0,0054 0,0331
0,0331 0,0839
0,0839 0,1468
0,1468 0,2076
0,2076 0,2541
0,2541 0,2786
0,2786 0,2787
0,2787 0,2568 0,2188
0,2568 0,2188
4 0,0004
0,0004 0,0046
0,0046 0,0185
0,0185 0,0459
0,0459 0,0865
0,0865 0,1361
0,1361 0,1875
0,1875 0,2322
0,2322 0,2627 0,2734
0,2627 0,2734
5 0,0000
0,0000 0,0004
0,0004 0,0026
0,0026 0,0092
0,0092 0,0231
0,0231 0,0467
0,0467 0,0808
0,0808 0,1239
0,1239 0,1719
0,1719 0,2188
0,2188
66 0,0000
0,0000 0,0000
0,0000 0,0002
0,0002 0,0011
0,0011 0,0038
0,0038 0,0100
0,0100 0,0217
0,0217 0,0413
0,0413 0,0703
0,0703 0,1094
0,1094
77 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0001
0,0001 0,0004
0,0004 0,0012
0,0012 0,0033
0,0033 0,0079
0,0079 0,0164 0,0313
0,0164 0,0313
8 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0017 0,0039
234 Pastor-Barriuso R.
2
Tablas estadsticas
Tabla 1 (Continuacin)
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
9 0 0,6302 0,3874 0,2316 0,1342 0,0751 0,0404 0,0207 0,0101 0,0046 0,0020
1 0,2985 0,3874 0,3679 0,3020 0,2253 0,1556 0,1004 0,0605 0,0339 0,0176
2 0,0629 0,1722 0,2597 0,3020 0,3003 0,2668 0,2162 0,1612 0,1110 0,0703
3 0,0077 0,0446 0,1069 0,1762 0,2336 0,2668 0,2716 0,2508 0,2119 0,1641
4 0,0006 0,0074 0,0283 0,0661 0,1168 0,1715 0,2194 0,2508 0,2600 0,2461
5 0,0000 0,0008 0,0050 0,0165 0,0389 0,0735 0,1181 0,1672 0,2128 0,2461
6 0,0000 0,0001 0,0006 0,0028 0,0087 0,0210 0,0424 0,0743 0,1160 0,1641
7 0,0000 0,0000 0,0000 0,0003 0,0012 0,0039 0,0098 0,0212 0,0407 0,0703
8 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0013 0,0035 0,0083 0,0176
9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0008 0,0020
10 0 0,5987 0,3487 0,1969 0,1074 0,0563 0,0282 0,0135 0,0060 0,0025 0,0010
1 0,3151 0,3874 0,3474 0,2684 0,1877 0,1211 0,0725 0,0403 0,0207 0,0098
2 0,0746 0,1937 0,2759 0,3020 0,2816 0,2335 0,1757 0,1209 0,0763 0,0439
3 0,0105 0,0574 0,1298 0,2013 0,2503 0,2668 0,2522 0,2150 0,1665 0,1172
4 0,0010 0,0112 0,0401 0,0881 0,1460 0,2001 0,2377 0,2508 0,2384 0,2051
5 0,0001 0,0015 0,0085 0,0264 0,0584 0,1029 0,1536 0,2007 0,2340 0,2461
6 0,0000 0,0001 0,0012 0,0055 0,0162 0,0368 0,0689 0,1115 0,1596 0,2051
7 0,0000 0,0000 0,0001 0,0008 0,0031 0,0090 0,0212 0,0425 0,0746 0,1172
8 0,0000 0,0000 0,0000 0,0001 0,0004 0,0014 0,0043 0,0106 0,0229 0,0439
9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0016 0,0042 0,0098
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010
11 0 0,5688 0,3138 0,1673 0,0859 0,0422 0,0198 0,0088 0,0036 0,0014 0,0005
1 0,3293 0,3835 0,3248 0,2362 0,1549 0,0932 0,0518 0,0266 0,0125 0,0054
2 0,0867 0,2131 0,2866 0,2953 0,2581 0,1998 0,1395 0,0887 0,0513 0,0269
3 0,0137 0,0710 0,1517 0,2215 0,2581 0,2568 0,2254 0,1774 0,1259 0,0806
4 0,0014 0,0158 0,0536 0,1107 0,1721 0,2201 0,2428 0,2365 0,2060 0,1611
5 0,0001 0,0025 0,0132 0,0388 0,0803 0,1321 0,1830 0,2207 0,2360 0,2256
6 0,0000 0,0003 0,0023 0,0097 0,0268 0,0566 0,0985 0,1471 0,1931 0,2256
7 0,0000 0,0000 0,0003 0,0017 0,0064 0,0173 0,0379 0,0701 0,1128 0,1611
8 0,0000 0,0000 0,0000 0,0002 0,0011 0,0037 0,0102 0,0234 0,0462 0,0806
9 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018 0,0052 0,0126 0,0269
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0007 0,0021 0,0054
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0005
12 0 0,5404 0,2824 0,1422 0,0687 0,0317 0,0138 0,0057 0,0022 0,0008 0,0002
1 0,3413 0,3766 0,3012 0,2062 0,1267 0,0712 0,0368 0,0174 0,0075 0,0029
2 0,0988 0,2301 0,2924 0,2835 0,2323 0,1678 0,1088 0,0639 0,0339 0,0161
3 0,0173 0,0852 0,1720 0,2362 0,2581 0,2397 0,1954 0,1419 0,0923 0,0537
4 0,0021 0,0213 0,0683 0,1329 0,1936 0,2311 0,2367 0,2128 0,1700 0,1208
5 0,0002 0,0038 0,0193 0,0532 0,1032 0,1585 0,2039 0,2270 0,2225 0,1934
6 0,0000 0,0005 0,0040 0,0155 0,0401 0,0792 0,1281 0,1766 0,2124 0,2256
7 0,0000 0,0000 0,0006 0,0033 0,0115 0,0291 0,0591 0,1009 0,1489 0,1934
8 0,0000 0,0000 0,0001 0,0005 0,0024 0,0078 0,0199 0,0420 0,0762 0,1208
9 0,0000 0,0000 0,0000 0,0001 0,0004 0,0015 0,0048 0,0125 0,0277 0,0537
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0008 0,0025 0,0068 0,0161
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0029
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002
Pastor-Barriuso R. 235
Tablas estadsticas
Tabla 1 (Continuacin)
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
13 0 0,5133 0,2542 0,1209 0,0550 0,0238 0,0097 0,0037 0,0013 0,0004 0,0001
1 0,3512 0,3672 0,2774 0,1787 0,1029 0,0540 0,0259 0,0113 0,0045 0,0016
2 0,1109 0,2448 0,2937 0,2680 0,2059 0,1388 0,0836 0,0453 0,0220 0,0095
3 0,0214 0,0997 0,1900 0,2457 0,2517 0,2181 0,1651 0,1107 0,0660 0,0349
4 0,0028 0,0277 0,0838 0,1535 0,2097 0,2337 0,2222 0,1845 0,1350 0,0873
5 0,0003 0,0055 0,0266 0,0691 0,1258 0,1803 0,2154 0,2214 0,1989 0,1571
6 0,0000 0,0008 0,0063 0,0230 0,0559 0,1030 0,1546 0,1968 0,2169 0,2095
7 0,0000 0,0001 0,0011 0,0058 0,0186 0,0442 0,0833 0,1312 0,1775 0,2095
8 0,0000 0,0000 0,0001 0,0011 0,0047 0,0142 0,0336 0,0656 0,1089 0,1571
9 0,0000 0,0000 0,0000 0,0001 0,0009 0,0034 0,0101 0,0243 0,0495 0,0873
10 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0022 0,0065 0,0162 0,0349
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0012 0,0036 0,0095
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0016
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
14 0 0,4877 0,2288 0,1028 0,0440 0,0178 0,0068 0,0024 0,0008 0,0002 0,0001
1 0,3593 0,3559 0,2539 0,1539 0,0832 0,0407 0,0181 0,0073 0,0027 0,0009
2 0,1229 0,2570 0,2912 0,2501 0,1802 0,1134 0,0634 0,0317 0,0141 0,0056
3 0,0259 0,1142 0,2056 0,2501 0,2402 0,1943 0,1366 0,0845 0,0462 0,0222
4 0,0037 0,0349 0,0998 0,1720 0,2202 0,2290 0,2022 0,1549 0,1040 0,0611
5 0,0004 0,0078 0,0352 0,0860 0,1468 0,1963 0,2178 0,2066 0,1701 0,1222
6 0,0000 0,0013 0,0093 0,0322 0,0734 0,1262 0,1759 0,2066 0,2088 0,1833
7 0,0000 0,0002 0,0019 0,0092 0,0280 0,0618 0,1082 0,1574 0,1952 0,2095
8 0,0000 0,0000 0,0003 0,0020 0,0082 0,0232 0,0510 0,0918 0,1398 0,1833
9 0,0000 0,0000 0,0000 0,0003 0,0018 0,0066 0,0183 0,0408 0,0762 0,1222
10 0,0000 0,0000 0,0000 0,0000 0,0003 0,0014 0,0049 0,0136 0,0312 0,0611
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0010 0,0033 0,0093 0,0222
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0019 0,0056
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0009
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
15 0 0,4633 0,2059 0,0874 0,0352 0,0134 0,0047 0,0016 0,0005 0,0001 0,0000
1 0,3658 0,3432 0,2312 0,1319 0,0668 0,0305 0,0126 0,0047 0,0016 0,0005
2 0,1348 0,2669 0,2856 0,2309 0,1559 0,0916 0,0476 0,0219 0,0090 0,0032
3 0,0307 0,1285 0,2184 0,2501 0,2252 0,1700 0,1110 0,0634 0,0318 0,0139
4 0,0049 0,0428 0,1156 0,1876 0,2252 0,2186 0,1792 0,1268 0,0780 0,0417
5 0,0006 0,0105 0,0449 0,1032 0,1651 0,2061 0,2123 0,1859 0,1404 0,0916
6 0,0000 0,0019 0,0132 0,0430 0,0917 0,1472 0,1906 0,2066 0,1914 0,1527
7 0,0000 0,0003 0,0030 0,0138 0,0393 0,0811 0,1319 0,1771 0,2013 0,1964
8 0,0000 0,0000 0,0005 0,0035 0,0131 0,0348 0,0710 0,1181 0,1647 0,1964
9 0,0000 0,0000 0,0001 0,0007 0,0034 0,0116 0,0298 0,0612 0,1048 0,1527
10 0,0000 0,0000 0,0000 0,0001 0,0007 0,0030 0,0096 0,0245 0,0515 0,0916
11 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0074 0,0191 0,0417
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0016 0,0052 0,0139
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0032
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
16 0 0,4401 0,1853 0,0743 0,0281 0,0100 0,0033 0,0010 0,0003 0,0001 0,0000
1 0,3706 0,3294 0,2097 0,1126 0,0535 0,0228 0,0087 0,0030 0,0009 0,0002
2 0,1463 0,2745 0,2775 0,2111 0,1336 0,0732 0,0353 0,0150 0,0056 0,0018
3 0,0359 0,1423 0,2285 0,2463 0,2079 0,1465 0,0888 0,0468 0,0215 0,0085
236 Pastor-Barriuso R.
Tablas estadsticas
Tabla 1 (Continuacin)
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
4 0,0061 0,0514 0,1311 0,2001 0,2252 0,2040 0,1553 0,1014 0,0572 0,0278
5 0,0008 0,0137 0,0555 0,1201 0,1802 0,2099 0,2008 0,1623 0,1123 0,0667
6 0,0001 0,0028 0,0180 0,0550 0,1101 0,1649 0,1982 0,1983 0,1684 0,1222
7 0,0000 0,0004 0,0045 0,0197 0,0524 0,1010 0,1524 0,1889 0,1969 0,1746
8 0,0000 0,0001 0,0009 0,0055 0,0197 0,0487 0,0923 0,1417 0,1812 0,1964
9 0,0000 0,0000 0,0001 0,0012 0,0058 0,0185 0,0442 0,0840 0,1318 0,1746
10 0,0000 0,0000 0,0000 0,0002 0,0014 0,0056 0,0167 0,0392 0,0755 0,1222
11 0,0000 0,0000 0,0000 0,0000 0,0002 0,0013 0,0049 0,0142 0,0337 0,0667
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011 0,0040 0,0115 0,0278
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0008 0,0029 0,0085
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
17 0 0,4181 0,1668 0,0631 0,0225 0,0075 0,0023 0,0007 0,0002 0,0000 0,0000
1 0,3741 0,3150 0,1893 0,0957 0,0426 0,0169 0,0060 0,0019 0,0005 0,0001
2 0,1575 0,2800 0,2673 0,1914 0,1136 0,0581 0,0260 0,0102 0,0035 0,0010
3 0,0415 0,1556 0,2359 0,2393 0,1893 0,1245 0,0701 0,0341 0,0144 0,0052
4 0,0076 0,0605 0,1457 0,2093 0,2209 0,1868 0,1320 0,0796 0,0411 0,0182
5 0,0010 0,0175 0,0668 0,1361 0,1914 0,2081 0,1849 0,1379 0,0875 0,0472
6 0,0001 0,0039 0,0236 0,0680 0,1276 0,1784 0,1991 0,1839 0,1432 0,0944
7 0,0000 0,0007 0,0065 0,0267 0,0668 0,1201 0,1685 0,1927 0,1841 0,1484
8 0,0000 0,0001 0,0014 0,0084 0,0279 0,0644 0,1134 0,1606 0,1883 0,1855
9 0,0000 0,0000 0,0003 0,0021 0,0093 0,0276 0,0611 0,1070 0,1540 0,1855
10 0,0000 0,0000 0,0000 0,0004 0,0025 0,0095 0,0263 0,0571 0,1008 0,1484
11 0,0000 0,0000 0,0000 0,0001 0,0005 0,0026 0,0090 0,0242 0,0525 0,0944
12 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0081 0,0215 0,0472
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0021 0,0068 0,0182
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0016 0,0052
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
18 0 0,3972 0,1501 0,0536 0,0180 0,0056 0,0016 0,0004 0,0001 0,0000 0,0000
1 0,3763 0,3002 0,1704 0,0811 0,0338 0,0126 0,0042 0,0012 0,0003 0,0001
2 0,1683 0,2835 0,2556 0,1723 0,0958 0,0458 0,0190 0,0069 0,0022 0,0006
3 0,0473 0,1680 0,2406 0,2297 0,1704 0,1046 0,0547 0,0246 0,0095 0,0031
4 0,0093 0,0700 0,1592 0,2153 0,2130 0,1681 0,1104 0,0614 0,0291 0,0117
5 0,0014 0,0218 0,0787 0,1507 0,1988 0,2017 0,1664 0,1146 0,0666 0,0327
6 0,0002 0,0052 0,0301 0,0816 0,1436 0,1873 0,1941 0,1655 0,1181 0,0708
7 0,0000 0,0010 0,0091 0,0350 0,0820 0,1376 0,1792 0,1892 0,1657 0,1214
8 0,0000 0,0002 0,0022 0,0120 0,0376 0,0811 0,1327 0,1734 0,1864 0,1669
9 0,0000 0,0000 0,0004 0,0033 0,0139 0,0386 0,0794 0,1284 0,1694 0,1855
10 0,0000 0,0000 0,0001 0,0008 0,0042 0,0149 0,0385 0,0771 0,1248 0,1669
11 0,0000 0,0000 0,0000 0,0001 0,0010 0,0046 0,0151 0,0374 0,0742 0,1214
12 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0047 0,0145 0,0354 0,0708
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0045 0,0134 0,0327
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011 0,0039 0,0117
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0009 0,0031
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006
Pastor-Barriuso R. 237
Tablas estadsticas
Tabla 1 (Continuacin)
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
19 0 0,3774 0,1351 0,0456 0,0144 0,0042 0,0011 0,0003 0,0001 0,0000 0,0000
1 0,3774 0,2852 0,1529 0,0685 0,0268 0,0093 0,0029 0,0008 0,0002 0,0000
2 0,1787 0,2852 0,2428 0,1540 0,0803 0,0358 0,0138 0,0046 0,0013 0,0003
3 0,0533 0,1796 0,2428 0,2182 0,1517 0,0869 0,0422 0,0175 0,0062 0,0018
4 0,0112 0,0798 0,1714 0,2182 0,2023 0,1491 0,0909 0,0467 0,0203 0,0074
5 0,0018 0,0266 0,0907 0,1636 0,2023 0,1916 0,1468 0,0933 0,0497 0,0222
6 0,0002 0,0069 0,0374 0,0955 0,1574 0,1916 0,1844 0,1451 0,0949 0,0518
7 0,0000 0,0014 0,0122 0,0443 0,0974 0,1525 0,1844 0,1797 0,1443 0,0961
8 0,0000 0,0002 0,0032 0,0166 0,0487 0,0981 0,1489 0,1797 0,1771 0,1442
9 0,0000 0,0000 0,0007 0,0051 0,0198 0,0514 0,0980 0,1464 0,1771 0,1762
10 0,0000 0,0000 0,0001 0,0013 0,0066 0,0220 0,0528 0,0976 0,1449 0,1762
11 0,0000 0,0000 0,0000 0,0003 0,0018 0,0077 0,0233 0,0532 0,0970 0,1442
12 0,0000 0,0000 0,0000 0,0000 0,0004 0,0022 0,0083 0,0237 0,0529 0,0961
13 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0024 0,0085 0,0233 0,0518
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0082 0,0222
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0022 0,0074
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
19 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
20 0 0,3585 0,1216 0,0388 0,0115 0,0032 0,0008 0,0002 0,0000 0,0000 0,0000
1 0,3774 0,2702 0,1368 0,0576 0,0211 0,0068 0,0020 0,0005 0,0001 0,0000
2 0,1887 0,2852 0,2293 0,1369 0,0669 0,0278 0,0100 0,0031 0,0008 0,0002
3 0,0596 0,1901 0,2428 0,2054 0,1339 0,0716 0,0323 0,0123 0,0040 0,0011
4 0,0133 0,0898 0,1821 0,2182 0,1897 0,1304 0,0738 0,0350 0,0139 0,0046
5 0,0022 0,0319 0,1028 0,1746 0,2023 0,1789 0,1272 0,0746 0,0365 0,0148
6 0,0003 0,0089 0,0454 0,1091 0,1686 0,1916 0,1712 0,1244 0,0746 0,0370
7 0,0000 0,0020 0,0160 0,0545 0,1124 0,1643 0,1844 0,1659 0,1221 0,0739
8 0,0000 0,0004 0,0046 0,0222 0,0609 0,1144 0,1614 0,1797 0,1623 0,1201
9 0,0000 0,0001 0,0011 0,0074 0,0271 0,0654 0,1158 0,1597 0,1771 0,1602
10 0,0000 0,0000 0,0002 0,0020 0,0099 0,0308 0,0686 0,1171 0,1593 0,1762
11 0,0000 0,0000 0,0000 0,0005 0,0030 0,0120 0,0336 0,0710 0,1185 0,1602
12 0,0000 0,0000 0,0000 0,0001 0,0008 0,0039 0,0136 0,0355 0,0727 0,1201
13 0,0000 0,0000 0,0000 0,0000 0,0002 0,0010 0,0045 0,0146 0,0366 0,0739
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0049 0,0150 0,0370
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0013 0,0049 0,0148
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0013 0,0046
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002
19 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
20 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
*Para = 0,55, 0,60, ..., 0,95, P(X = k) = P(Y = n k) donde Y es la distribucin binomial con parmetros n y
1 .
238 Pastor-Barriuso R.
Tablas estadsticas
e k
TablaTabla
2 Probabilidades
2 Probabilidades P(X = k) = parala la
para distribucin
distribucin X con X con
de Poisson
de Poisson
k!
parmetro de 0,5 a 20 en intervalos de 0,5.
parmetro de 0,5 a 20 en intervalos de 0,5.
k 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
0 0,6065 0,3679 0,2231 0,1353 0,0821 0,0498 0,0302 0,0183 0,0111 0,0067
1 0,3033 0,3679 0,3347 0,2707 0,2052 0,1494 0,1057 0,0733 0,0500 0,0337
k 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
2 0,0758 0,1839 0,2510 0,2707 0,2565 0,2240 0,1850 0,1465 0,1125 0,0842
30 0,0126
0,6065 0,0613
0,3679 0,1255
0,2231 0,1804
0,1353 0,2138
0,0821 0,2240
0,0498 0,2158
0,0302 0,1954
0,0183 0,1687
0,0111 0,1404
0,0067
41 0,3033 0,0153
0,0016 0,3679 0,0471
0,3347 0,0902
0,2707 0,2052
0,1336 0,1494
0,1680 0,1057
0,1888 0,0733
0,1954 0,0500
0,1898 0,0337
0,1755
52 0,0758 0,0031
0,0002 0,1839 0,0141
0,2510 0,0361
0,2707 0,2565
0,0668 0,2240
0,1008 0,1850
0,1322 0,1465
0,1563 0,1125
0,1708 0,0842
0,1755
63 0,0126
0,0000 0,0613
0,0005 0,1255
0,0035 0,1804
0,0120 0,2138
0,0278 0,2240
0,0504 0,2158
0,0771 0,1954
0,1042 0,1687
0,1281 0,1404
0,1462
4 0,0016 0,0153 0,0471 0,0902 0,1336 0,1680 0,1888 0,1954 0,1898 0,1755
7 0,0000 0,0001 0,0008 0,0034 0,0099 0,0216 0,0385 0,0595 0,0824 0,1044
5 0,0002 0,0031 0,0141 0,0361 0,0668 0,1008 0,1322 0,1563 0,1708 0,1755
86 0,0000
0,0000 0,0000
0,0005 0,0001
0,0035 0,0009
0,0120 0,0031
0,0278 0,0081
0,0504 0,0169
0,0771 0,0298
0,1042 0,0463
0,1281 0,0653
0,1462
97 0,0000
0,0000 0,0000
0,0001 0,0000
0,0008 0,0002
0,0034 0,0009
0,0099 0,0027
0,0216 0,0066
0,0385 0,0132
0,0595 0,0232
0,0824 0,0363
0,1044
108 0,0000
0,0000 0,0000
0,0000 0,0001
0,0000 0,0009
0,0000 0,0031
0,0002 0,0081
0,0008 0,0169
0,0023 0,0298
0,0053 0,0463
0,0104 0,0653
0,0181
119 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0002
0,0000 0,0009
0,0000 0,0027
0,0002 0,0066
0,0007 0,0132
0,0019 0,0232
0,0043 0,0363
0,0082
10
12 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0002
0,0000 0,0008
0,0001 0,0023
0,0002 0,0053
0,0006 0,0104
0,0016 0,0181
0,0034
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0007 0,0019 0,0043 0,0082
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0013
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0016 0,0034
14
13 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0001
0,0002 0,0002
0,0006 0,0005
0,0013
15
14 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0001
0,0002 0,0002
0,0005
15
16 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0001
0,0000 0,0002
0,0000
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
5,5 6,0 6,5 7,0 7,5 8,0 8,5 9,0 9,5 10,0
0
5,5
0,0041
6,0
0,0025
6,5
0,0015
7,0
0,0009
7,5
0,0006
8,0
0,0003
8,5
0,0002
9,0
0,0001
9,5
0,0001
10,0
0,0000
1 0,0225
0 0,0041 0,0149
0,0025 0,0098
0,0015 0,0064
0,0009 0,0041
0,0006 0,0027
0,0003 0,0017
0,0002 0,0011
0,0001 0,0007
0,0001 0,0005
0,0000
21 0,0618
0,0225 0,0446
0,0149 0,0318
0,0098 0,0223
0,0064 0,0156
0,0041 0,0107
0,0027 0,0074
0,0017 0,0050
0,0011 0,0034
0,0007 0,0023
0,0005
32 0,1133
0,0618 0,0892
0,0446 0,0688
0,0318 0,0521
0,0223 0,0389
0,0156 0,0286
0,0107 0,0208
0,0074 0,0150
0,0050 0,0107
0,0034 0,0076
0,0023
43 0,1133 0,1339
0,1558 0,0892 0,1118
0,0688 0,0912
0,0521 0,0389
0,0729 0,0286
0,0573 0,0208
0,0443 0,0150
0,0337 0,0107
0,0254 0,0076
0,0189
54 0,1558 0,1606
0,1714 0,1339 0,1454
0,1118 0,1277
0,0912 0,0729
0,1094 0,0573
0,0916 0,0443
0,0752 0,0337
0,0607 0,0254
0,0483 0,0189
0,0378
6
5 0,1714
0,1571
0,1606
0,1606
0,1454
0,1575
0,1277
0,1490
0,1094
0,1367
0,0916
0,1221
0,0752
0,1066
0,0607
0,0911
0,0483
0,0764
0,0378
0,0631
6 0,1571 0,1606 0,1575 0,1490 0,1367 0,1221 0,1066 0,0911 0,0764 0,0631
7 0,1234 0,1377 0,1462 0,1490 0,1465 0,1396 0,1294 0,1171 0,1037 0,0901
7 0,1234 0,1377 0,1462 0,1490 0,1465 0,1396 0,1294 0,1171 0,1037 0,0901
88 0,0849 0,1033 0,1188 0,1304
0,0849 0,1033 0,1188 0,1304 0,1373
0,1373 0,1396
0,1396 0,1375
0,1375 0,1318
0,1318 0,1232
0,1232 0,1126
0,1126
99 0,0519
0,0519 0,0688
0,0688 0,0858
0,0858 0,1014
0,1014 0,1144
0,1144 0,1241
0,1241 0,1299
0,1299 0,1318
0,1318 0,1300
0,1300 0,1251
0,1251
10
10 0,0285 0,0413
0,0285 0,0413 0,0558
0,0558 0,0710
0,0710 0,0858
0,0858 0,0993
0,0993 0,1104
0,1104 0,1186
0,1186 0,1235
0,1235 0,1251
0,1251
11
11 0,0143
0,0143 0,0225
0,0225 0,0330
0,0330 0,0452
0,0452 0,0585
0,0585 0,0722
0,0722 0,0853
0,0853 0,0970
0,0970 0,1067
0,1067 0,1137
0,1137
12
12 0,0065
0,0065 0,0113
0,0113 0,0179
0,0179 0,0263
0,0263 0,0366
0,0366 0,0481
0,0481 0,0604
0,0604 0,0728
0,0728 0,0844
0,0844 0,0948
0,0948
13 0,0028 0,0052 0,0089 0,0142 0,0211 0,0296 0,0395 0,0504 0,0617 0,0729
13 0,0028 0,0052 0,0089 0,0142 0,0211 0,0296 0,0395 0,0504 0,0617 0,0729
14 0,0011 0,0022 0,0041 0,0071 0,0113 0,0169 0,0240 0,0324 0,0419 0,0521
14
15 0,0011
0,0004 0,0022
0,0009 0,0041
0,0018 0,0071
0,0033 0,0113
0,0057 0,0169
0,0090 0,0240
0,0136 0,0324
0,0194 0,0419
0,0265 0,0521
0,0347
15
16 0,0004
0,0001 0,0003 0,0007 0,0033
0,0009 0,0018 0,0014 0,0057
0,0026 0,0090
0,0045 0,0136
0,0072 0,0194
0,0109 0,0265
0,0157 0,0347
0,0217
17
16 0,0000 0,0003
0,0001 0,0001 0,0007
0,0003 0,0014
0,0006 0,0012
0,0026 0,0021
0,0045 0,0036
0,0072 0,0058
0,0109 0,0088
0,0157 0,0128
0,0217
18
17 0,0000 0,0001
0,0000 0,0000 0,0003
0,0001 0,0006
0,0002 0,0005
0,0012 0,0009
0,0021 0,0017
0,0036 0,0029
0,0058 0,0046
0,0088 0,0071
0,0128
19
18 0,0000 0,0000
0,0000 0,0000 0,0001
0,0000 0,0002
0,0001 0,0002
0,0005 0,0004
0,0009 0,0008
0,0017 0,0014
0,0029 0,0023
0,0046 0,0037
0,0071
20 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0003 0,0006 0,0011 0,0019
19 0,0000 0,0000 0,0000 0,0001 0,0002 0,0004 0,0008 0,0014 0,0023 0,0037
21 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0003 0,0005 0,0009
20
22 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0001
0,0000 0,0002
0,0000 0,0003
0,0001 0,0006
0,0001 0,0011
0,0002 0,0019
0,0004
21
23 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0001
0,0000 0,0001
0,0000 0,0003
0,0000 0,0005
0,0001 0,0009
0,0002
24
22 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0000
0,0001 0,0000
0,0002 0,0001
0,0004
25
23 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0000
0,0002
24 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
25 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
Pastor-Barriuso R.
7 239
Tablas estadsticas
Tabla 2 (Continuacin)
k 10,5 11,0 11,5 12,0 12,5 13,0 13,5 14,0 14,5 15,0
0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
1 0,0003 0,0002 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
2 0,0015 0,0010 0,0007 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000
3 0,0053 0,0037 0,0026 0,0018 0,0012 0,0008 0,0006 0,0004 0,0003 0,0002
4 0,0139 0,0102 0,0074 0,0053 0,0038 0,0027 0,0019 0,0013 0,0009 0,0006
5 0,0293 0,0224 0,0170 0,0127 0,0095 0,0070 0,0051 0,0037 0,0027 0,0019
6 0,0513 0,0411 0,0325 0,0255 0,0197 0,0152 0,0115 0,0087 0,0065 0,0048
7 0,0769 0,0646 0,0535 0,0437 0,0353 0,0281 0,0222 0,0174 0,0135 0,0104
8 0,1009 0,0888 0,0769 0,0655 0,0551 0,0457 0,0375 0,0304 0,0244 0,0194
9 0,1177 0,1085 0,0982 0,0874 0,0765 0,0661 0,0563 0,0473 0,0394 0,0324
10 0,1236 0,1194 0,1129 0,1048 0,0956 0,0859 0,0760 0,0663 0,0571 0,0486
11 0,1180 0,1194 0,1181 0,1144 0,1087 0,1015 0,0932 0,0844 0,0753 0,0663
12 0,1032 0,1094 0,1131 0,1144 0,1132 0,1099 0,1049 0,0984 0,0910 0,0829
13 0,0834 0,0926 0,1001 0,1056 0,1089 0,1099 0,1089 0,1060 0,1014 0,0956
14 0,0625 0,0728 0,0822 0,0905 0,0972 0,1021 0,1050 0,1060 0,1051 0,1024
15 0,0438 0,0534 0,0630 0,0724 0,0810 0,0885 0,0945 0,0989 0,1016 0,1024
16 0,0287 0,0367 0,0453 0,0543 0,0633 0,0719 0,0798 0,0866 0,0920 0,0960
17 0,0177 0,0237 0,0306 0,0383 0,0465 0,0550 0,0633 0,0713 0,0785 0,0847
18 0,0104 0,0145 0,0196 0,0255 0,0323 0,0397 0,0475 0,0554 0,0632 0,0706
19 0,0057 0,0084 0,0119 0,0161 0,0213 0,0272 0,0337 0,0409 0,0483 0,0557
20 0,0030 0,0046 0,0068 0,0097 0,0133 0,0177 0,0228 0,0286 0,0350 0,0418
21 0,0015 0,0024 0,0037 0,0055 0,0079 0,0109 0,0146 0,0191 0,0242 0,0299
22 0,0007 0,0012 0,0020 0,0030 0,0045 0,0065 0,0090 0,0121 0,0159 0,0204
23 0,0003 0,0006 0,0010 0,0016 0,0024 0,0037 0,0053 0,0074 0,0100 0,0133
24 0,0001 0,0003 0,0005 0,0008 0,0013 0,0020 0,0030 0,0043 0,0061 0,0083
25 0,0001 0,0001 0,0002 0,0004 0,0006 0,0010 0,0016 0,0024 0,0035 0,0050
26 0,0000 0,0000 0,0001 0,0002 0,0003 0,0005 0,0008 0,0013 0,0020 0,0029
27 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0004 0,0007 0,0011 0,0016
28 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0005 0,0009
29 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0004
30 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002
31 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001
32 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
33 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
15,5 16,0 16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0
0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
1 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
2 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
3 0,0001 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
4 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000
5 0,0014 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0001
6 0,0036 0,0026 0,0019 0,0014 0,0010 0,0007 0,0005 0,0004 0,0003 0,0002
7 0,0079 0,0060 0,0045 0,0034 0,0025 0,0019 0,0014 0,0010 0,0007 0,0005
8 0,0153 0,0120 0,0093 0,0072 0,0055 0,0042 0,0031 0,0024 0,0018 0,0013
9 0,0264 0,0213 0,0171 0,0135 0,0107 0,0083 0,0065 0,0050 0,0038 0,0029
10 0,0409 0,0341 0,0281 0,0230 0,0186 0,0150 0,0120 0,0095 0,0074 0,0058
11 0,0577 0,0496 0,0422 0,0355 0,0297 0,0245 0,0201 0,0164 0,0132 0,0106
12 0,0745 0,0661 0,0580 0,0504 0,0432 0,0368 0,0310 0,0259 0,0214 0,0176
240 Pastor-Barriuso R.
Tablas estadsticas
Tabla 2 (Continuacin)
k 15,5 16,0 16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0
13 0,0888 0,0814 0,0736 0,0658 0,0582 0,0509 0,0441 0,0378 0,0322 0,0271
14 0,0983 0,0930 0,0868 0,0800 0,0728 0,0655 0,0583 0,0514 0,0448 0,0387
15 0,1016 0,0992 0,0955 0,0906 0,0849 0,0786 0,0719 0,0650 0,0582 0,0516
16 0,0984 0,0992 0,0985 0,0963 0,0929 0,0884 0,0831 0,0772 0,0710 0,0646
17 0,0897 0,0934 0,0956 0,0963 0,0956 0,0936 0,0904 0,0863 0,0814 0,0760
18 0,0773 0,0830 0,0876 0,0909 0,0929 0,0936 0,0930 0,0911 0,0882 0,0844
19 0,0630 0,0699 0,0761 0,0814 0,0856 0,0887 0,0905 0,0911 0,0905 0,0888
20 0,0489 0,0559 0,0628 0,0692 0,0749 0,0798 0,0837 0,0866 0,0883 0,0888
21 0,0361 0,0426 0,0493 0,0560 0,0624 0,0684 0,0738 0,0783 0,0820 0,0846
22 0,0254 0,0310 0,0370 0,0433 0,0496 0,0560 0,0620 0,0676 0,0727 0,0769
23 0,0171 0,0216 0,0265 0,0320 0,0378 0,0438 0,0499 0,0559 0,0616 0,0669
24 0,0111 0,0144 0,0182 0,0226 0,0275 0,0328 0,0385 0,0442 0,0500 0,0557
25 0,0069 0,0092 0,0120 0,0154 0,0193 0,0237 0,0285 0,0336 0,0390 0,0446
26 0,0041 0,0057 0,0076 0,0101 0,0130 0,0164 0,0202 0,0246 0,0293 0,0343
27 0,0023 0,0034 0,0047 0,0063 0,0084 0,0109 0,0139 0,0173 0,0211 0,0254
28 0,0013 0,0019 0,0028 0,0038 0,0053 0,0070 0,0092 0,0117 0,0147 0,0181
29 0,0007 0,0011 0,0016 0,0023 0,0032 0,0044 0,0058 0,0077 0,0099 0,0125
30 0,0004 0,0006 0,0009 0,0013 0,0019 0,0026 0,0036 0,0049 0,0064 0,0083
31 0,0002 0,0003 0,0005 0,0007 0,0010 0,0015 0,0022 0,0030 0,0040 0,0054
32 0,0001 0,0001 0,0002 0,0004 0,0006 0,0009 0,0012 0,0018 0,0025 0,0034
33 0,0000 0,0001 0,0001 0,0002 0,0003 0,0005 0,0007 0,0010 0,0015 0,0020
34 0,0000 0,0000 0,0001 0,0001 0,0002 0,0002 0,0004 0,0006 0,0008 0,0012
35 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0005 0,0007
36 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0004
37 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0001 0,0002
38 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001
39 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
40 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
Pastor-Barriuso R. 241
Tablas estadsticas
1,00 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,10 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,20 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,30 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,40 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,50 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,60 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,70 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,80 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,90 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,00 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,10 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,20 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,30 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,40 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,50 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,60 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,70 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,80 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,90 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,00 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,10 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,20 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,30 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,40 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,50 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,60 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,70 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,80 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,90 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
* Para valores z negativos, (z) = P(Z z) = P(Z z) = 1 P(Z z) = 1 (z).
242 Pastor-Barriuso R.
Tablas estadsticas
6 81262 04831 92203 25447 65875 71086 12676 42753 79223 63135
7 27510 88900 41437 07409 87437 79309 83499 50721 40752 82801
8 84888 90443 23200 86340 07731 64171 76935 02931 66982 30842
9 92551 42420 29984 87522 19370 30357 33530 58101 59423 91700
10 48644 97274 33475 71381 27387 50740 03176 96910 94049 65052
11 71226 14223 27559 00943 46943 40680 96829 09265 94401 98461
12 59902 65129 28077 80487 79160 56426 47978 08556 20753 10206
13 24973 51863 86605 16991 58423 33341 70147 06005 81833 00868
14 27005 74018 05569 70982 80438 76901 80061 11144 91733 07228
15 25651 65765 98249 24231 32819 26680 17613 29917 47814 92539
16 34255 68331 66861 37285 34606 68167 55636 70101 51328 57528
17 74791 18769 92325 19959 90031 27008 25857 68520 41469 45100
18 63485 89564 62107 80055 08094 85412 33589 71900 05892 63260
19 99762 44503 91645 15352 25957 73662 71146 26161 98418 10195
20 85157 99008 25927 31118 65466 48706 20302 26133 04751 34701
Pastor-Barriuso R. 243
Tablas estadsticas
Grados de Percentil
libertad 0,75 0,80 0,85 0,90 0,95 0,975 0,99 0,995 0,9995
1 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657 636,619
2 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 31,599
3 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841 12,924
4 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 8,610
5 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 6,869
244 Pastor-Barriuso R.
Tablas estadsticas
Percentil
d 0,005 0,01 0,025 0,05 0,10 0,25 0,50 0,75 0,90 0,95 0,975 0,99 0,995
1 0,000 0,0002 0,001 0,004 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,63 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,81 9,35 11,34 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,55
7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,28
8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,95
9 1,73 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23,59
10 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25,19
11 2,60 3,05 3,82 4,57 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26,76
12 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28,30
13 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29,82
14 4,07 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31,32
15 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32,80
16 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34,27
17 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35,72
18 6,26 7,01 8,23 9,39 10,86 13,68 17,34 21,60 25,99 28,87 31,53 34,81 37,16
19 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38,58
20 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40,00
21 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,93 29,62 32,67 35,48 38,93 41,40
22 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42,80
23 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44,18
24 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45,56
25 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46,93
26 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48,29
27 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49,64
28 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50,99
29 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52,34
30 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53,67
35 17,19 18,51 20,57 22,47 24,80 29,05 34,34 40,22 46,06 49,80 53,20 57,34 60,27
40 20,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66,77
45 24,31 25,90 28,37 30,61 33,35 38,29 44,34 50,98 57,51 61,66 65,41 69,96 73,17
50 27,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79,49
60 35,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91,95
70 43,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,43 104,21
80 51,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,88 106,63 112,33 116,32
90 59,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,57 113,15 118,14 124,12 128,30
100 67,33 70,06 74,22 77,93 82,36 90,13 99,33 109,14 118,50 124,34 129,56 135,81 140,17
Pastor-Barriuso R. 245
Tablas estadsticas
12 0,90 3,18 2,81 2,61 2,48 2,39 2,33 2,24 2,19 2,10 2,06 2,01 1,90
0,95 4,75 3,89 3,49 3,26 3,11 3,00 2,85 2,75 2,62 2,54 2,47 2,30
0,975 6,55 5,10 4,47 4,12 3,89 3,73 3,51 3,37 3,18 3,07 2,96 2,72
246 Pastor-Barriuso R.
Tablas estadsticas
Tabla 7 (Continuacin)
d1
d2 Percentil 1 2 3 4 5 6 8 10 15 20 30
0,99 9,33 6,93 5,95 5,41 5,06 4,82 4,50 4,30 4,01 3,86 3,70 3,36
0,995 11,75 8,51 7,23 6,52 6,07 5,76 5,35 5,09 4,72 4,53 4,33 3,90
14 0,90 3,10 2,73 2,52 2,39 2,31 2,24 2,15 2,10 2,01 1,96 1,91 1,80
0,95 4,60 3,74 3,34 3,11 2,96 2,85 2,70 2,60 2,46 2,39 2,31 2,13
0,975 6,30 4,86 4,24 3,89 3,66 3,50 3,29 3,15 2,95 2,84 2,73 2,49
0,99 8,86 6,51 5,56 5,04 4,69 4,46 4,14 3,94 3,66 3,51 3,35 3,00
0,995 11,06 7,92 6,68 6,00 5,56 5,26 4,86 4,60 4,25 4,06 3,86 3,44
16 0,90 3,05 2,67 2,46 2,33 2,24 2,18 2,09 2,03 1,94 1,89 1,84 1,72
0,95 4,49 3,63 3,24 3,01 2,85 2,74 2,59 2,49 2,35 2,28 2,19 2,01
0,975 6,12 4,69 4,08 3,73 3,50 3,34 3,12 2,99 2,79 2,68 2,57 2,32
0,99 8,53 6,23 5,29 4,77 4,44 4,20 3,89 3,69 3,41 3,26 3,10 2,75
0,995 10,58 7,51 6,30 5,64 5,21 4,91 4,52 4,27 3,92 3,73 3,54 3,11
18 0,90 3,01 2,62 2,42 2,29 2,20 2,13 2,04 1,98 1,89 1,84 1,78 1,66
0,95 4,41 3,55 3,16 2,93 2,77 2,66 2,51 2,41 2,27 2,19 2,11 1,92
0,975 5,98 4,56 3,95 3,61 3,38 3,22 3,01 2,87 2,67 2,56 2,44 2,19
0,99 8,29 6,01 5,09 4,58 4,25 4,01 3,71 3,51 3,23 3,08 2,92 2,57
0,995 10,22 7,21 6,03 5,37 4,96 4,66 4,28 4,03 3,68 3,50 3,30 2,87
20 0,90 2,97 2,59 2,38 2,25 2,16 2,09 2,00 1,94 1,84 1,79 1,74 1,61
0,95 4,35 3,49 3,10 2,87 2,71 2,60 2,45 2,35 2,20 2,12 2,04 1,84
0,975 5,87 4,46 3,86 3,51 3,29 3,13 2,91 2,77 2,57 2,46 2,35 2,09
0,99 8,10 5,85 4,94 4,43 4,10 3,87 3,56 3,37 3,09 2,94 2,78 2,42
0,995 9,94 6,99 5,82 5,17 4,76 4,47 4,09 3,85 3,50 3,32 3,12 2,69
25 0,90 2,92 2,53 2,32 2,18 2,09 2,02 1,93 1,87 1,77 1,72 1,66 1,52
0,95 4,24 3,39 2,99 2,76 2,60 2,49 2,34 2,24 2,09 2,01 1,92 1,71
0,975 5,69 4,29 3,69 3,35 3,13 2,97 2,75 2,61 2,41 2,30 2,18 1,91
0,99 7,77 5,57 4,68 4,18 3,85 3,63 3,32 3,13 2,85 2,70 2,54 2,17
0,995 9,48 6,60 5,46 4,84 4,43 4,15 3,78 3,54 3,20 3,01 2,82 2,38
30 0,90 2,88 2,49 2,28 2,14 2,05 1,98 1,88 1,82 1,72 1,67 1,61 1,46
0,95 4,17 3,32 2,92 2,69 2,53 2,42 2,27 2,16 2,01 1,93 1,84 1,62
0,975 5,57 4,18 3,59 3,25 3,03 2,87 2,65 2,51 2,31 2,20 2,07 1,79
0,99 7,56 5,39 4,51 4,02 3,70 3,47 3,17 2,98 2,70 2,55 2,39 2,01
0,995 9,18 6,35 5,24 4,62 4,23 3,95 3,58 3,34 3,01 2,82 2,63 2,18
35 0,90 2,85 2,46 2,25 2,11 2,02 1,95 1,85 1,79 1,69 1,63 1,57 1,41
0,95 4,12 3,27 2,87 2,64 2,49 2,37 2,22 2,11 1,96 1,88 1,79 1,56
0,975 5,48 4,11 3,52 3,18 2,96 2,80 2,58 2,44 2,23 2,12 2,00 1,70
0,99 7,42 5,27 4,40 3,91 3,59 3,37 3,07 2,88 2,60 2,44 2,28 1,89
0,995 8,98 6,19 5,09 4,48 4,09 3,81 3,45 3,21 2,88 2,69 2,50 2,04
40 0,90 2,84 2,44 2,23 2,09 2,00 1,93 1,83 1,76 1,66 1,61 1,54 1,38
0,95 4,08 3,23 2,84 2,61 2,45 2,34 2,18 2,08 1,92 1,84 1,74 1,51
0,975 5,42 4,05 3,46 3,13 2,90 2,74 2,53 2,39 2,18 2,07 1,94 1,64
0,99 7,31 5,18 4,31 3,83 3,51 3,29 2,99 2,80 2,52 2,37 2,20 1,80
0,995 8,83 6,07 4,98 4,37 3,99 3,71 3,35 3,12 2,78 2,60 2,40 1,93
60 0,90 2,79 2,39 2,18 2,04 1,95 1,87 1,77 1,71 1,60 1,54 1,48 1,29
0,95 4,00 3,15 2,76 2,53 2,37 2,25 2,10 1,99 1,84 1,75 1,65 1,39
0,975 5,29 3,93 3,34 3,01 2,79 2,63 2,41 2,27 2,06 1,94 1,82 1,48
0,99 7,08 4,98 4,13 3,65 3,34 3,12 2,82 2,63 2,35 2,20 2,03 1,60
0,995 8,49 5,79 4,73 4,14 3,76 3,49 3,13 2,90 2,57 2,39 2,19 1,69
120 0,90 2,75 2,35 2,13 1,99 1,90 1,82 1,72 1,65 1,55 1,48 1,41 1,19
0,95 3,92 3,07 2,68 2,45 2,29 2,18 2,02 1,91 1,75 1,66 1,55 1,25
0,975 5,15 3,80 3,23 2,89 2,67 2,52 2,30 2,16 1,94 1,82 1,69 1,31
0,99 6,85 4,79 3,95 3,48 3,17 2,96 2,66 2,47 2,19 2,03 1,86 1,38
0,995 8,18 5,54 4,50 3,92 3,55 3,28 2,93 2,71 2,37 2,19 1,98 1,43
Pastor-Barriuso R. 247
Tablas estadsticas
Tabla 7 (Continuacin)
d1
d2 Percentil 1 2 3 4 5 6 8 10 15 20 30
0,90 2,71 2,30 2,08 1,94 1,85 1,77 1,67 1,60 1,49 1,42 1,34 1,00
0,95 3,84 3,00 2,60 2,37 2,21 2,10 1,94 1,83 1,67 1,57 1,46 1,00
0,975 5,02 3,69 3,12 2,79 2,57 2,41 2,19 2,05 1,83 1,71 1,57 1,00
0,99 6,63 4,61 3,78 3,32 3,02 2,80 2,51 2,32 2,04 1,88 1,70 1,00
0,995 7,88 5,30 4,28 3,72 3,35 3,09 2,74 2,52 2,19 2,00 1,79 1,00
* Para percentiles inferiores = 0,005, 0,01, 0,025, 0,05 y 0,10, Fd1,d2, = 1/ Fd2,d1,1.
248 Pastor-Barriuso R.
Tablas estadsticas
Tabla 8 Percentiles de
n1
Pastor-Barriuso R. 249
Tablas estadsticas
Tabla 8 (Continuacin)
Percentil 0,99 Percentil 0,995
n1 n1
n2 3 4 5 6 7 8 3 4 5 6 7 8
3 15 15
4 18 26 18 26
5 21 29 38 21 30 39
6 24 32 42 53 24 33 43 54
7 26 36 46 58 70 27 37 48 59 72
8 29 39 50 62 76 90 30 40 52 64 77 92
9 31 42 54 67 81 96 32 44 56 69 83 98
10 34 46 58 72 86 102 35 47 60 74 88 104
11 37 49 62 77 92 108 38 51 64 79 94 110
12 39 52 66 81 97 114 40 54 68 83 99 116
13 42 56 70 86 102 119 43 58 72 88 105 122
14 45 59 74 91 108 125 46 61 77 93 110 129
15 47 62 78 95 113 131 48 64 81 98 116 135
16 50 66 82 100 118 137 51 68 85 103 121 141
17 52 69 86 104 123 143 54 71 89 107 127 147
18 55 72 90 109 129 149 57 75 93 112 132 153
19 58 76 94 114 134 155 59 78 97 117 138 159
20 60 79 98 118 139 161 62 81 101 122 143 165
21 63 82 102 123 144 167 65 85 105 127 149 171
22 66 86 106 128 150 173 67 88 110 131 154 177
23 68 89 110 132 155 179 70 92 114 136 159 184
24 71 92 114 137 160 185 73 95 118 141 165 190
25 73 96 118 141 166 190 75 99 122 146 170 196
26 76 99 122 146 171 196 78 102 126 151 176 202
27 79 102 126 151 176 202 81 105 130 155 181 208
28 81 105 130 155 181 208 84 109 134 160 187 214
29 84 109 134 160 187 214 86 112 138 165 192 220
30 86 112 138 165 192 220 89 116 142 170 197 226
31 89 115 142 169 197 226 92 119 147 174 203 232
32 92 119 146 174 202 232 94 123 151 179 208 238
33 94 122 150 178 208 238 97 126 155 184 214 244
34 97 125 154 183 213 243 100 129 159 189 219 250
35 99 129 158 188 218 249 102 133 163 193 225 256
36 102 132 162 192 223 255 105 136 167 198 230 263
37 105 135 166 197 229 261 108 140 171 203 235 269
38 107 139 170 202 234 267 110 143 175 208 241 275
39 110 142 174 206 239 273 113 146 179 213 246 281
40 112 145 178 211 244 279 116 150 183 217 252 287
41 115 148 182 215 250 285 119 153 188 222 257 293
42 118 152 186 220 255 290 121 157 192 227 263 299
43 120 155 190 225 260 296 124 160 196 232 268 305
44 123 158 194 229 265 302 127 164 200 236 273 311
45 126 162 198 234 271 308 129 167 204 241 279 317
46 128 165 202 238 276 314 132 170 208 246 284 323
47 131 168 205 243 281 320 135 174 212 251 290 329
48 133 172 209 248 286 326 137 177 216 255 295 335
49 136 175 213 252 292 332 140 181 220 260 301 341
250 Pastor-Barriuso R.
Tablas estadsticas
W == ri para
Wilcoxon W para un nmero
nmerode
deparejas
parejascon
condiferencias nono
diferencias nulas n n16.*
nulas 16.*
i =1
Percentil
Percentil
n 0,95 0,975 0,99 0,995
n 5 0,95 14 0,975 15 0,99 15 0,995 15
6 18 20 21 21
5 7 14 24 15 25 15 27 15 28
6 18 20 21 21
8 30 32 34 35
7 24 25 27 28
8 9 30 36 32 39 34 41 35 43
9 10 36 44 39 46 41 49 43 51
10 11 44 52 46 55 49 58 51 60
11 12 52 60 55 64 58 68 60 70
12 60 64 68 70
13 69 73 78 81
13 14 69 79 73 83 78 89 81 92
14 15 79 89 83 94 89 100 92 104
15 89 94 100 104
16 100 106 112 116
16 100 106 112 116
* Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, w = n(n + 1)/2 w1.
* Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, w = n(n + 1)/2 - w1-.
19
Pastor-Barriuso R. 251