Você está na página 1de 262

Centro Nacional de

Instituto Epidemiologa
de Salud
Carlos III

 Roberto Pastor-Barriuso

BIOESTADSTICA

Centro Nacional de
Instituto Epidemiologa
de Salud
Carlos III

MINISTERIO Centro
DE ECONOMA Nacional de
Y COMPETITIVIDAD Instituto
de Salud
Epidemiologa
Carlos III
Centro Nacional de Epidemiologa
Instituto de Salud Carlos III
Monforte de Lemos, 5
28029 MADRID (ESPAA)
Tel.: 91 822 20 00
Fax: 91 387 78 15
http://www.isciii.es

Catlogo general de publicaciones oficiales:


http://publicacionesoficiales.boe.es/
Para obtener este libro de forma gratuita en internet (formato pdf):
http://publicaciones.isciii.es/

http://creativecommons.org/licenses/by-nc-sa/2.1/es/


EDITA: CENTRO NACIONAL DE EPIDEMIOLOGA Instituto de Salud Carlos III
Madrid, diciembre de 2012

N.I.P.O. (en lnea): 477-11-083-3


I.S.B.N.: 978-84-695-3775-6
Imprime: Agencia Estatal Boletn Oficial del Estado.
Avda. de Manoteras, 54. 28050 MADRID
BIOESTADSTICA

Roberto Pastor-Barriuso

Cientfico Titular

Centro Nacional de Epidemiologa,


Instituto de Salud Carlos III,
Madrid
Para citar este libro

Pastor-Barriuso R. Bioestadstica. Madrid: Centro Nacional de Epidemiologa, Instituto de


Salud Carlos III, 2012.
Este texto puede ser reproducido siempre que se cite su procedencia.
A la memoria de Carmen

A Marta, Pablo, Miguel y Antonio


NDICE
1 Estadstica descriptiva 1
1.1 Introduccin 1
1.2 Medidas de tendencia central 3
1.2.1 Media aritmtica 3
1.2.2 Mediana 4
1.2.3 Media geomtrica 5
1.3 Medidas de posicin: cuantiles 5
1.4 Medidas de dispersin 6
1.4.1 Varianza y desviacin tpica 6
1.4.2 Rango intercuartlico 7
1.4.3 Coeficiente de variacin 7
1.5 Representaciones grficas 8
1.5.1 Diagrama de barras 8
1.5.2 Histograma y polgono de frecuencias 9
1.5.3 Grfico de tallo y hojas 10
1.5.4 Diagrama de caja 11
1.6 Referencias 12

2 Probabilidad 13
2.1 Introduccin 13
2.2 Concepto y definiciones de probabilidad 14
2.3 Probabilidad condicional e independencia de sucesos 16
2.4 Regla de la probabilidad total 18
2.5 Teorema de Bayes 18
2.6 Referencias 20

3 Variables aleatorias y distribuciones de probabilidad 21


3.1 Introduccin 21
3.2 Distribuciones de probabilidad discretas 22
3.2.1 Distribucin binomial 24
3.2.2 Distribucin de Poisson 26
3.2.3 Aproximacin de Poisson a la distribucin binomial 29
3.3 Distribuciones de probabilidad continuas 29
3.3.1 Distribucin normal 31
3.3.2 Aproximacin normal a la distribucin binomial 34
3.3.3 Aproximacin normal a la distribucin de Poisson 36
3.4 Combinacin lineal de variables aleatorias 37
3.5 Referencias 39

vii
ndice

4 Principios de muestreo y estimacin 41


4.1 Introduccin 41
4.2 Principales tipos de muestreo probabilstico 42
4.2.1 Muestreo aleatorio simple 43
4.2.2 Muestreo sistemtico 43
4.2.3 Muestreo estratificado 44
4.2.4 Muestreo por conglomerados 46
4.2.5 Muestreo polietpico 47
4.3 Estimacin en el muestreo aleatorio simple 49
4.3.1 Estimacin puntual de una media poblacional 49
4.3.2 Error estndar de la media muestral 51
4.3.3 Teorema central del lmite 53
4.3.4 Estimacin de una proporcin poblacional 55
4.4 Referencias 58

5 Inferencia estadstica 59
5.1 Introduccin 59
5.2 Estimacin puntual 60
5.3 Estimacin por intervalo 62
5.3.1 Distribucin t de Student 62
5.3.2 Intervalo de confianza para una media poblacional 63
5.4 Contraste de hiptesis 67
5.4.1 Formulacin de hiptesis 67
5.4.2 Contraste estadstico para la media de una poblacin 69
5.4.3 Errores y potencia de un contraste de hiptesis 72
5.5 Referencias 76

6 Inferencia sobre medias 79


6.1 Introduccin 79
6.2 Inferencia sobre una media y varianza poblacional 80
6.2.1 Inferencia sobre la media de una poblacin 80
6.2.2 Inferencia sobre la varianza de una poblacin 81
6.3 Comparacin de medias en dos muestras independientes 83
6.3.1 Comparacin de medias en distribuciones con igual varianza 85
6.3.2 Contraste para la igualdad de varianzas 88
6.3.3 Comparacin de medias en distribuciones con distinta varianza 90
6.4 Comparacin de medias en dos muestras dependientes 92
6.5 Referencias 95

viii
ndice

7 Inferencia sobre proporciones 97


7.1 Introduccin 97
7.2 Inferencia sobre una proporcin poblacional 97
7.3 Comparacin de proporciones en dos muestras independientes 99
7.4 Asociacin estadstica en una tabla de contingencia 102
7.5 Test de tendencia en una tabla r2 106
7.6 Medidas de efecto en una tabla de contingencia 107
7.6.1 Riesgo relativo 108
7.6.2 Odds ratio 111
7.7 Comparacin de proporciones en dos muestras dependientes 114
7.8 Apndice: correccin por continuidad 117
7.9 Referencias 120

8 Mtodos no paramtricos 121


8.1 Introduccin 121
8.2 Test de la suma de rangos de Wilcoxon 122
8.3 Test de los rangos con signo de Wilcoxon 129
8.4 Test exacto de Fisher 134
8.5 Referencias 138

9 Determinacin del tamao muestral 139


9.1 Introduccin 139
9.2 Tamao muestral para la estimacin de un parmetro poblacional 140
9.2.1 Tamao muestral para la estimacin de una media 140
9.2.2 Tamao muestral para la estimacin de una proporcin 141
9.3 Tamao muestral para la comparacin de medias 142
9.3.1 Tamao muestral para la comparacin de medias en dos muestras
independientes 143
9.3.2 Tamao muestral para la comparacin de medias en dos muestras
dependientes 146
9.4 Tamao muestral para la comparacin de proporciones 148
9.4.1 Tamao muestral para la comparacin de proporciones en dos muestras
independientes 148
9.4.2 Tamao muestral para la comparacin de proporciones en dos muestras
dependientes 152
9.5 Referencias 154

10 Correlacin y regresin lineal simple 155


10.1 Introduccin 155
10.2 Coeficiente de correlacin 155

ix
ndice

10.2.1 Coeficiente de correlacin muestral de Pearson 158


10.2.2 Coeficiente de correlacin de los rangos de Spearman 161
10.3 Regresin lineal simple 164
10.3.1 Estimacin de la recta de regresin 166
10.3.2 Contraste del modelo de regresin lineal simple 169
10.3.3 Inferencia sobre los parmetros de la recta de regresin 173
10.3.4 Bandas de confianza y prediccin para la recta de regresin 175
10.3.5 Evaluacin de las asunciones del modelo de regresin lineal simple 178
10.3.6 Observaciones atpicas e influyentes 184
10.3.7 Variable explicativa dicotmica 190
10.4 Referencias 191

11 Regresin lineal mltiple 193


11.1 Introduccin 193
11.2 Estructura de la regresin lineal mltiple 194
11.3 Estimacin e inferencia de la ecuacin de regresin 196
11.3.1 Estimacin de los coeficientes de regresin 197
11.3.2 Inferencia sobre los coeficientes de regresin 200
11.3.3 Inferencia sobre la ecuacin de regresin 201
11.4 Contrastes de hiptesis en regresin lineal mltiple 203
11.4.1 Contraste global del modelo de regresin lineal mltiple 203
11.4.2 Contrastes parciales 206
11.5 Variables explicativas politmicas 210
11.6 Regresin polinomial 215
11.7 Confusin e interaccin en regresin lineal 218
11.7.1 Control de la confusin en regresin lineal 218
11.7.2 Evaluacin de la interaccin en regresin lineal 221
11.8 Apndice: formulacin matricial de la regresin lineal mltiple 228
11.9 Referencias 232

Apndice: tablas estadsticas 233

x
TEMA 1

ESTADSTICA DESCRIPTIVA

1.1INTRODUCCIN

La estadstica es la rama de las matemticas aplicadas que permite estudiar fenmenos cuyos
resultados son en parte inciertos. Al estudiar sistemas biolgicos, esta incertidumbre se debe al
desconocimiento de muchos de los mecanismos fisiolgicos y fisiopatolgicos, a la incapacidad
de medir todos los determinantes de la enfermedad y a los errores de medida que inevitablemente
se producen. As, al realizar observaciones en clnica o en salud pblica, los resultados obtenidos
contienen una parte sistemtica o estructural, que aporta informacin sobre las relaciones entre
las variables estudiadas, y una parte de ruido aleatorio. El objeto de la estadstica consiste en
extraer la mxima informacin sobre estas relaciones estructurales a partir de los datos recogidos.
En estadstica se distinguen dos grandes grupos de tcnicas:
yy La estadstica descriptiva, en la que se estudian las tcnicas necesarias para la organizacin,
presentacin y resumen de los datos obtenidos.
yy La estadstica inferencial, en la que se estudian las bases lgicas y las tcnicas mediante
las cuales pueden establecerse conclusiones sobre la poblacin a estudio a partir de los
resultados obtenidos en una muestra.
El anlisis de una base de datos siempre partir de tcnicas simples de resumen de los datos y
presentacin de los resultados. A partir de estos resultados iniciales, y en funcin del diseo del
estudio y de las hiptesis preestablecidas, se aplicarn las tcnicas de inferencia estadstica que
permitirn obtener conclusiones acerca de las relaciones estructurales entre las variables
estudiadas. Las tcnicas de estadstica descriptiva no precisan de asunciones para su
interpretacin, pero en contrapartida la informacin que proporcionan no es fcilmente
generalizable. La estadstica inferencial permite esta generalizacin, pero requiere ciertas
asunciones que deben verificarse para tener un grado razonable de seguridad en las inferencias.
A continuacin se definen algunos conceptos generales que aparecen repetidamente a lo
largo de la exposicin:
yy Poblacin es el conjunto de todos los elementos que cumplen ciertas propiedades y entre
los cuales se desea estudiar un determinado fenmeno.
yy Muestra es un subconjunto de la poblacin seleccionado mediante un mecanismo ms o
menos explcito. En general, rara vez se dispone de los recursos necesarios para estudiar a
toda la poblacin y, en consecuencia, suelen emplearse muestras obtenidas a partir de
estas poblaciones.

Ejemplo 1.1 Algunos ejemplos de poblaciones son:


Las personas residentes en Washington D.C. a 1 de enero de 2010.
Las personas infectadas con el virus de inmunodeficiencia humana en Brasil a da de
hoy.

Pastor-Barriuso R. 1
Estadstica descriptiva

Para estas poblaciones, algunas muestras podran ser:


500 residentes en Washington D.C. a 1 de enero de 2010 seleccionados mediante
llamadas telefnicas aleatorias.
Todas las personas que acuden a un hospital de Ro de Janeiro durante el presente ao
para realizarse un test del virus de inmunodeficiencia humana y que resultan ser
positivas.

yy Variables son propiedades o cualidades que presentan los elementos de una poblacin.
Las variables pueden clasificarse en:
Variables cualitativas o atributos son aquellas que no pueden medirse numricamente
y que, a su vez, pueden ser:
Nominales, en las que no pueden ordenarse las diferentes categoras.
Ordinales, en las que pueden ordenarse las categoras, pero no puede establecerse
la distancia relativa entre las mismas.
Variables cuantitativas son aquellas que tienen una interpretacin numrica y que se
subdividen en:
Discretas, slo pueden tomar unos valores concretos dentro de un intervalo.
Continuas, pueden tomar cualquier valor dentro de un intervalo.
En la prctica, todas las variables continuas que medimos son discretas en el sentido de
que, debido a las limitaciones de los sistemas de medida, las variables continuas no
pueden adoptar todos los valores dentro de un intervalo. De cara a los anlisis posteriores,
la principal distincin se establece, por tanto, entre variables con relativamente pocas
categoras (como nmero de hijos) frente a variables con muchas categoras (como
niveles de colesterol en sangre).

Ejemplo 1.2 Algunos ejemplos de variables son:


Variables cualitativas nominales: sexo, raza, estado civil (soltero, casado, viudo,
separado, divorciado), religin (catlico, protestante, otros), nacionalidad.
Variables cualitativas ordinales: salud auto-percibida (buena, regular, mala), severidad
de la enfermedad (leve, moderada, grave). Por ejemplo, para esta ltima variable
ordinal, podemos establecer un orden de severidad, pero no podemos decir que la
diferencia de severidad entre un paciente moderado y uno leve sea la misma que entre
uno grave y uno moderado.
Variables cuantitativas discretas: nmero de hijos, nmero de dientes cariados.
Variables cuantitativas continuas: edad, peso, altura, presin arterial, niveles de
colesterol en sangre.

yy Estadstico es cualquier operacin realizada sobre los valores de una variable.


yy Parmetro es un valor de la poblacin sobre el que se desea realizar inferencias a partir
de estadsticos obtenidos de la muestra, que en este caso se denominan estimadores. Por
convencin, los parmetros poblacionales se denotan con letras del alfabeto griego,
mientras que los estimadores muestrales se denotan con letras de nuestro alfabeto.

2 Pastor-Barriuso R.
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
Medidas de tendencia central
central de la muestra sirven tanto para resumir los resultados observados como para

realizar inferencias acerca de los parmetros poblacionales correspondientes. A


Ejemplo 1.3 Algunos ejemplos de estadsticos incluyen:
1.2 MEDIDAS DE TENDENCIA CENTRAL
La media de continuacin
los valores desecolesterol
describendelos principales
una muestra. estimadores de la tendencia central de una
El valor
Las medidas ms variable.
alto de
de tendencia colesterol
central de unaacerca
informan muestra.
de cul es el valor ms representativo
La suma de los valores de colesterol de una muestra elevados al cuadrado.
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
As, por ejemplo,1.2.1 Media
la media colesterol en una poblacin, que se denotara por , es un
delaritmtica
parmetro
1.2 MEDIDAS que
DE se estima
TENDENCIA a partir de la media de los valores de colesterol en una muestra
CENTRAL
alrededor de qu valor se agrupan los
La media aritmtica,
obtenida de esa poblacin, datos observados.
denotada
que se representara por x ., Las
por medidas
se define delatendencia
como suma de cada uno de los
Las
En medidas
central
elde detema,
presente tendencia
la muestra sirven
se central
revisan
valores las informan
tanto acerca
para resumir
herramientas
muestrales deresultados
los elcul
fundamentales
dividida por es elpara
nmero valor ms representativo
observados
de como
la realizacin
observaciones para
derealizadas.
un anlisisSi denotamos
descriptivo de las variables recogidas en una muestra, tanto mediante estimadores de la tendencia
de unaposicin
central,
realizar determinada
inferencias variable
y dispersin
acerca de
por n el o,los
como dicho
tamao de forma
mediante
parmetros
muestral equivalente,
la utilizacin
por xi el de
ypoblacionales estos
valor estimadores
representaciones
observado indican
grficas.
correspondientes.
para el A
sujeto i-simo, i = 1, ..., n,
alrededor de se
continuacin qudescriben
valor se agrupan los dada
los vendra
la media datosestimadores
principales observados. de
por Laslamedidas de tendencia
tendencia central de una
1.2 MEDIDAS DE TENDENCIA CENTRAL
central de la muestra sirven tanto para resumir los resultados observados como para
variable. 1 esn
x1 +ms
x 2 +representativo
... + x n
Las medidas de tendencia central informan acerca de cul xeli =valor de una
determinada variable acerca
realizar inferencias o, dichodedelos
forma equivalente,
parmetros
x=
estosestimadores
poblacionales
n i =1 indican
correspondientes.
n
.
alrededor
A de qu
valor se
1.2.1 agrupan
Media los datos observados. Las medidas de tendencia central de la muestra sirven
aritmtica
tanto para resumir
continuacin los resultados
se describen observados
los principales como para
estimadores de larealizar
tendencia inferencias
central deacerca
una de los
parmetros poblacionalesLa media es la medida
correspondientes. de tendencia
A continuacin central ms utilizada
sededescriben yprincipales
de ms fcil
La media aritmtica, denotada por x , se define como la suma cada unolos de los
estimadores
variable. de la tendencia central de una variable.
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
1.2.1 Media
1.2.1 Media aritmtica
principal limitacin es que est muy influenciada por los valores extremos y, en este
aritmtica
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
LaLamedia
mediaaritmtica,
aritmtica,caso,
denotada
denotada
puede noxser
por ,, seundefine
define como
comode
fiel reflejo lalasuma
lasuma dede
tendenciacada unouno
cada dede
central los
delalos valores
distribucin.
muestrales
la divididadada
media vendra el nmero de observaciones realizadas. Si denotamos por n el tamao
por por
valores ymuestrales
muestral dividida
por xi el valor por el para
observado nmero de observaciones
el sujeto i-simo, i = 1,realizadas. Si denotamos
..., n, la media vendra dada por
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
por n el tamao muestral y por 1 valor
n
x1 + x 2 +para... +elx nsujeto i-simo, i = 1, ..., n,
x =xi el x i =observado .
utilizarn
n i =los
1 valores del n colesterol HDL obtenidos en los 10 primeros sujetos del
la media vendra dada por
La media es la medida de tendencia
estudio EuropeancentralStudyms onutilizada y de ms
Antioxidants, fcil interpretacin.
Myocardial Infarction and Cancer of
Corresponde
La media alescentro de gravedad
la medida de tendenciade los datos ms
central de lautilizada
muestra. ySudeprincipal
ms limitacin es que
fcil
est muy influenciada por losthe 1 nextremos
valores x1 +y, xen
2 +este x n puede no ser un fiel reflejo de la
... +caso,
=
xBreast x(EURAMIC),
i =
un estudio. multicntrico de casos y controles realizado
tendencia centralCorresponde
interpretacin. de la distribucin. n i =1 de gravedad
al centro n de los datos de la muestra. Su
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
Ejemplo
principal 1.4 En
limitacin
antioxidantes es esteest
el que y de
enmuy
los influenciada
sucesivos ejemploslos sobre
por infarto estimadores
valores extremos muestrales,
y, este se
en en
La media es laen riesgo
medida desarrollar
de tendencia unms
central primer
utilizada agudo
y de ms de miocardio
fcil
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio
caso, European
puede no
hombres Study
ser unLos
adultos. on valores
fiel Antioxidants,
reflejo de la deMyocardial
tendencia
obtenidos Infarction
fueroncentral
0,89, dedatos
1,58, and 1,29,
la0,79, Cancer
distribucin. of 0,84,
1,42, the Breast
interpretacin. Corresponde al centro gravedad de los de la muestra. Su
(EURAMIC), un estudio multicntrico de casos y controles realizado entre 1991 y 1992
en ocho pases Europeos e Israel para evaluar el efecto de los antioxidantes en el riesgo
1,06,
principal 0,87, 1,96 yes1,53
limitacin que mmol/l.
est muyLa media de los
influenciada porniveles del colesterol
los valores extremos HDL en
y, en este
de desarrollar
Ejemplo un este
1.4 En primer
y eninfarto agudo deejemplos
los sucesivos miocardio en hombres
sobre adultos.
estimadores Los valores
muestrales, se
obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 1,06, 0,87, 1,96 y 1,53 mmol/l. La
caso, puede
estos no ser un fiel es
10 participantes reflejo de la tendencia central de la distribucin.
media de los niveles del colesterol HDL en estos 10 participantes es
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
Ejemplo 1.4 xEn 89 + 1,58 +ejemplos
1 10y en los0,sucesivos ... + 1,53sobre estimadores muestrales, se
estudio = esteStudy
European x i =on Antioxidants, = 1,223Infarction
Myocardial mmol/l. and Cancer of
10 i =1 10
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
estudio
La media European
aritmtica Studylas
presenta onsiguientes
Antioxidants, Myocardial Infarction and Cancer
propiedades: of
Pastor-Barriuso R. 3
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
the Breast
Cambio (EURAMIC),
de origen un Si
(traslacin). estudio multicntrico
se suma de casos
una constante y controles
a cada uno de losrealizado
datos
1,06, 0,87,MEDIDAS
antioxidantes 1.2
1,96 y 1,53
de una
en el riesgo DE

mmol/l.
dedeterminada
desarrollar
iLa media de los niveles del colesterol HDL en
10TENDENCIAvariable
un primerCENTRAL
o, dicho de
10 forma
de equivalente,
enestoscorrespondientes.
estimadores indican
realizar i =1
inferencias acercainfarto
de los agudo miocardio
parmetros poblacionales A
estos 10 participantes
alrededor esde qu valor se agrupan los datos observados. Las medidas de tendencia
hombres adultos.
Las Los valores
medidas
Estadstica descriptivaobtenidossecentral
de tendencia
continuacin fueron
describen 0,89,
informan 1,58,
los 0,79, 1,29,
acerca
principales 1,42,
es el0,84,
de estimadores
cul valor
de lams representativo
tendencia central de una
La media aritmtica presenta las siguientes propiedades:
1,06, 0,87, 1,96 central 1de10laLamuestra sirven tanto + 1para
delresumir losHDL
resultados observados como para
de yuna
1,53 mmol/l.
determinada media0,89 de
variable +o,1,los
58 niveles
+
dicho ...de ,53
forma colesterol
equivalente, en estimadores
estos indican
Cambio de origenx =
10
La media aritmtica

variable.
i =1
x =
(traslacin).
i = 1,223 mmol/l.
Si se suma una constante a cada uno de los datos
10
presenta las siguientes propiedades:
estos 10 participantes realizar inferencias acerca de los parmetros poblacionales correspondientes. A
alrededoresde qu valor se agrupan los datos observados. Las medidas de tendencia
de unayymuestra,
Cambio deMedia
1.2.1la origende
media (traslacin).
aritmtica Si se sumaesuna
la muestra resultante igualconstante
a la mediaa cada unoms
inicial de los
la datos de una
muestra,
continuacin la media
se de
describen la muestra
los resultante
principales es
estimadoresigual adela media
la inicial
tendencia ms
central la constante
de una
La mediacentral
aritmtica
1 de10 lapresenta
muestra
0 ,89 las 1 siguientes
sirven
+ ,58 + tanto
... + 1,propiedades:
para
53 resumir los resultados observados como para
constante
x = utilizada;
utilizada;
xLa media =i =xxi i++ c,
si siyiyaritmtica, c, entonces
denotada ypor x ,++secc..define
= mmol/l. Un cambio
Un cambio
como de ladesuma
origen
origen dequeque se
cada unorealiza
de loscon
i = = 1,223
10variable.
frecuencia
i =1 es el centrado10 de la variable, que consiste en restar a cada valor de la muestra
Cambio de origen
realizar (traslacin).
inferencias acerca Side se los
suma una constante
parmetros a cada uno
poblacionales de los datos
correspondientes. A
se realiza sucon media.
valores Lamuestrales
frecuencia media decentrado
es el una variable
dividida porlacentrada
de elvariable,
nmero ser, por tanto,enigual
de observaciones
que consiste a 0.a
realizadas.
restar Si denotamos
yy 1.2.1
Cambio
de unacontinuacin
muestra, sede
la Media
media escala
aritmtica
de
describen (unidades).
la muestra Si seestimadores
resultante
los principales multiplica
es igual a la cada la uno
demedia de losms
inicial
tendencia datosla de
central deuna
una muestra por
media aritmtica
cada presenta porlasmuestra
nsiguientes
el tamao propiedades:
muestral por xide
ymedia el una
valorvariable
observado por i-simo, i = 1, ..., n,
valor
unade la
constante, la su
media media. Lamuestra
de la resultante es igual a para
centrada el sujeto
ser,
la media inicial por la constante
constante utilizada;
utilizada;
La
variable. media i =yx
si i +cx
si yaritmtica,
i = ci,, entonces
denotadaypor
entonces == cxx .,+sec.define
Un cambio
comode la origen
suma de que
cada uno de los
Cambio de origen
tanto, (traslacin).
igual ala0.media Si se suma
vendra una constante
dada por a cada uno de los datos
yy Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de una
se realiza con valores
frecuencia
muestra muestrales
por esuna dividida
el constante
centrado depor el nmero
laresultado
variable, de
que observaciones
consiste enms realizadas.
restar a la mediaSi denotamos
de una muestra,1.2.1
Cambio
la Media
media
de escaladearitmtica
la muestra
(unidades). Si seymultiplica
resultante ales igual
1
lanse
acada le suma
media
uno x
otra
inicial
de + los
x
constante,
datos
+ ... +
la
de
x una de la muestra
resultante es igual a la media inicial por la primera constante, ms. la segunda constante; si
cada valor por
desi n=c el tamao
lay=iaritmtica,
muestra su muestral
media. La ymedia
por xse
i eluna
de
x =valor xi =
observado
variable
1 2
paraque
centrada elcada
n
por i-simo,
sujeto
ser, de los i = 1, ..., n,
constante utilizada;
La mediay
muestra por i x
una +
+ c
c , , entonces
entonces
1 ii constante,
2 denotada la media1 de la2muestra resultante esnde
y =
=
porcx x +,+ c c. .
Un ncambio
define i =como
1 dela origen
suma igual a launo
media
tanto, igual
valores ala0.media vendra dada por
muestrales dividida
se realiza coninicial
frecuenciaEjemplo
por laes el 1.5
Lacentrado
constante media Para
esde lapor
utilizada; la el
si nmero
transformar
variable,
medida los
quedevalores
yi =decxtendencia observaciones
consiste
i, entonces ydel x realizadas.
colesterol
en= restar
central cms a HDLSi
. utilizada denotamos
y de
de mmol/l
ms fcila mg/dl se
multiplica por el factor de conversin 38,8. As, utilizando la propiedad del cambio de
Cambio de escala (unidades). Si se multiplica cada n uno de los datos de una
por
cada valor deCambio n elescala,
la muestra tamao
su lamuestral
media. media
deLa del
media xde
yCorresponde
por i el
colesteroluna valorHDL observado
1alse
variable x +para
encentrada
mg/dl xcada
se +el sujeto
+por
...uno
calculara
2 ser, ndei-simo,
xde datosi de
=de1,la...,
directamente n,
amuestra.
partir de
Susu
interpretacin.
simultneo origen y escala. x= Si centro
x i = 1de gravedad
multiplica los
. los datos
media en mmol/l como 1,22338,8 = 47,45 mg/dl.
n i =1 resultante esnigual a la media
muestrala por
mediaunavendra
constante, dada lapor
media de la muestra
tanto, igual auna
0. muestra principal
por una constante limitaciny es que est muy
al resultado se leinfluenciada
suma otra constante, por los valores
la media extremos y, en este
inicial por la constante
1.2.2Mediana
La media utilizada;
es multiplicasi yi =de
la medida cxtendencia
i, entoncescentral y = c ms x . utilizada y de ms fcil
Cambio de escala (unidades).
de la muestra caso, Si
resultante se
puede noigual
es ser un acada
1la uno de
fielnmedia
reflejo los
+ xladatos
x1 de
inicial la+deprimera
tendencia
por
+ ... xuna central de la distribucin.
constante, ms la
x = xi = 2 n
.
Cambio
La mediana
simultneo es origen
interpretacin.
de el valor y de
Corresponde un variable
escala. n al
Si que deja
=1 centro
i se multiplica por
n encima
deesgravedad
cada unolade de ellos50%
los datos
datos dede losladatos
de muestra. de laSumuestra
muestra por una y constante,
segunda debajolaelmedia
por constante; si yi de
otro cla
=50%. muestra
1 xi + c2, entonces
Para resultante
calcular = c1igual
lay mediana, x + aces media
2. necesario ordenar los valores de la
muestra de menor Ejemplo
a mayor. 1.4 En Si el este y en los
tamao sucesivos
muestral ejemplos la
nconstante,
es sobre estimadores muestrales, se
unalamuestra
inicial por constante principal
por una limitacin
constante
utilizada; si yi =y de esi,resultado
al
cx que est
entonces muy
sey le=influenciada
suma
c xms. otra porimpar,
los valores
la mediana
media extremosviene dada
y, en estepor el
La media es la medida tendencia central utilizada
valor (n + 1)/2-simo. Si n es par, la mediana viene dada por la media aritmtica de los y de ms fcil
Ejemplo
valores 1.5 Para
(n/2) utilizarn
transformar
y (n/2 +ser loslosvalores
1)-simos. valores
La inicialdeldelcolesterol
principal colesterol
ventaja HDLHDL
de laobtenidos
dede
medianammol/l en
es los
aque 10 primeros
mg/dl sujetos del
se influenciada
de la muestra caso,
interpretacin.
puede
resultante esnoigual
Corresponde
un fiel
a laal reflejo
media
centro
de lapor
de
tendencia
gravedad la primera
de
central
los constante,
datos de lams lano est
la distribucin.
muestra. Su
Cambio simultneo de origen y escala. Si se multiplica cada uno
por los valores extremos. No obstante, se utiliza menos que la media como medida de de los datos de
multiplica porcentral estudio de European Study on Antioxidants, la Myocardial Infarction and Cancer of
segunda tendencia
constante;
principal sielyfactor
limitacin
porque
es que
conversin
su tratamiento
i = c1xi + c2, entonces y = c1 x + c2.
est muy
38,8. estadstico
As,
influenciada
utilizando
por
es ms
los
propiedad
valores
complejo.del
extremos y, en muestrales,
este
una muestra por una constante y al resultado se le suma otra constante,
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores la media se
cambio de escala, themedia
la Breast del (EURAMIC),
colesterol HDL unen estudio
mg/dl multicntrico
se calculara de casos y controles realizado
Ejemplo 1.6 Para obtener la mediana del colesterol HDL en la muestra del estudio
de la muestra caso, puedeesno
resultante ser un
igual
utilizarn a lafiel
media reflejo de
inicial lapor
tendencia
la primera central de la distribucin.
constante, msenala
Ejemplo 1.5 Para EURAMIC,
transformar se los
ordena
los valores
valores del
en primer
del colesterol
lugar los
colesterol HDLvalores
HDL obtenidos
de de
mmol/lmenor los 10 primeros
a mayor; esto es, sujetos
0,79, del
0,84,
directamente a partirentrede 1991
su mediay 1992 en en ochocomo
mmol/l pases1,223 Europeos
38,8 = Israelmg/dl
e 47,45 para
mg/dl.
se
evaluar el efecto de los
0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Como el tamao muestral es par
segunda constante; si yi = estudio
c1xi + c2European
, entonces yStudy = c1on x + c2 .
multiplica por (n
el=factor
Ejemplo 10), 1.4la
deEnmediana
este yser
conversin la media
38,8.
en los As,Antioxidants,
sucesivos de los
utilizando
ejemplos la Myocardial
dos valores propiedad
sobre centrales Infarction
del
estimadores (en este and Cancer
caso,
muestrales, el se of 6),
5 y el
que corresponde a (1,06 + 1,29)/2 = 1,175 mmol/l. 6 5
cambio de escala, themedia
la Breast del (EURAMIC),
colesterol HDL unen estudio
mg/dl multicntrico
se calculara de casos y controles realizado
utilizarn los
Ejemplo 1.5 Para transformar losvalores
valoresdel delcolesterol
colesterolHDL HDLobtenidos
de mmol/lena mg/dl los 10 se primeros sujetos del
Comparacin de la media aritmtica y la mediana. En las distribuciones simtricas
(ambas
directamente entre
colas
a partir dedesu1991
lamediay 1992
distribucin
en As,en ocho
mmol/l soncomo pases Europeos
semejantes),
1,223 38,8 la =emedia
Israeles
47,45 para evaluar el efectoigual
aproximadamente
mg/dl. de losa la
multiplica por el estudio
factor European
de conversin Study
38,8. on Antioxidants,
utilizando Myocardial
la propiedad delInfarction and Cancer of
mediana. En distribuciones sesgadas positivamente (la cola superior de la distribucin es mayor
cambio de escala, quelathe
lamedia
inferior),
Breast la media HDL
(EURAMIC),
del colesterol tiende unenaestudio
ser mayor
mg/dl que la mediana;
multicntrico
se calculara de casosmientrasy controlesquerealizado
en distribuciones 5
6
sesgadas negativamente (la cola inferior de la distribucin es mayor que la superior), la media
tiende a ser menor que en la mediana. LaEuropeos
comparacin de laparamedia y la mediana permite evaluar,
directamente a partirentrede su 1991
media y 1992en mmol/l ocho comopases 1,223 38,8 = e47,45 Israel mg/dl.evaluar el efecto de los
por tanto, la asimetra de una distribucin.

Ejemplo 1.7 En la muestra del estudio EURAMIC la media 6 del colesterol 5HDL es
ligeramente superior a la mediana (1,223 y 1,175 mmol/l, respectivamente). En
consecuencia, la distribucin de estos 10 valores del colesterol HDL es aproximadamente
simtrica con un leve sesgo positivo.

4 Pastor-Barriuso R.
de estos
x G =
consecuencia, la distribucin x i 10
= nvalores del
x1 x 2 ... xcolesterol
n .
HDL es
i =1
aproximadamente simtrica con un leve sesgo positivo. Medidas de posicin: cuantiles
1.2.3 Media geomtrica
En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en
La1.2.3
media geomtrica, denotada por xG , se define como la raz n-sima del producto de
1.2.3 Media
calcular Mediageomtrica
primero geomtrica
el logaritmo de cada valor muestral, hallar a continuacin la media de
los
La
La
los
valores
media
logaritmos
de una muestra
mediageomtrica,
geomtrica,
y deshacer
de tamao
denotada
denotada
finalmentepor laxGn, ,, se define
define como
transformacin como razn-sima
lalaraz
logartmica. n-sima
Paradeldelproducto losdede los
producto
calcular
valores de una muestra de tamao n,
los valores
logaritmos se de una muestra
puede de tamao
usar cualquier base, n, 1 / n y cuando el logaritmo y el
n siempre
x G = x i = n x1 x 2 ... x n .
antilogaritmo estn en la misma base. i =Notar
1 1que
/n la media geomtrica slo puede
n
En la prctica, la forma ms xsencilla G = de x i calcular
= n x1lax 2media
... x ngeomtrica
. consiste en calcular
emplearse
primero como
el medida
logaritmo de de
cada tendencia
valor central
muestral, en variables
hallar a que
continuacin
En la prctica, la forma ms sencilla de calcular la media geomtrica consiste
i =1 tomanla valores
media de positivos.
losenlogaritmos y
deshacer finalmente la transformacin logartmica. Para calcular los logaritmos se puede usar
cualquier
calcular base, siempre
primero
En la prctica, laelforma yms
logaritmocuando el logaritmo
de cada
sencilla devalor y ellaantilogaritmo
muestral,
calcular mediahallar estn en
a continuacin
geomtrica la misma
consiste laen base.deNotar
media
Ejemplo 1.8 Para calcular la media geomtrica del colesterol
que la media geomtrica slo puede emplearse como medida de tendencia central en variables HDL en la muestra
que
los tomanprimero
calcular valores
logaritmos elpositivos.
y deshacer
logaritmofinalmente
de cadalavalor transformacin
muestral, hallar logartmica. Para calcular
a continuacin la medialos de
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los
Ejemplo
los logaritmos
logaritmos 1.8 Para
y deshacer
se puede calcular labase,
finalmente
usar cualquier media geomtrica
la transformacin
siempre y cuandodel colesterol
logartmica. HDL
Para
el logaritmo en la muestra
ycalcular
el los del
valores
estudio yEURAMIC,
a continuacin se se calcula
halla primero suelmedia aritmtica,
logaritmo natural de cada uno de los valores ya
consecuencia, la distribucin de estos 10 valores del colesterol HDL es
continuacin
logaritmos
antilogaritmo seestn
puede se calcula
enusar
la misma su media
cualquier
base.base, aritmtica,
Notarsiempreque lay cuando el logaritmoslo
media geomtrica y elpuede
aproximadamente simtrica 1 10 con un leve log(0sesgo
,89) +positivo.
... + log(1,53)
antilogaritmo estn enlog
la
emplearse como medida deGtendencia x =
misma
base.
10 i =1
log x
Notar
central i =que
en la media geomtrica
variables slo puede
10que toman valores positivos.
emplearse como medida de tendencia 0,117central
+ ... + 0en ,425
variables que toman valores positivos.
1.2.3 Media geomtrica= = 0,155.
Ejemplo 1.8 Para calcular la media 10geomtrica del colesterol HDL en la muestra
LaLa mediageomtrica,
media
Ejemplo geomtrica es, porlatanto,
denotada ,=seexp(0,155)
por xGgeomtrica define delcomo=colesterol
1,168
la razmmol/l.
n-simaendel producto de
del estudio1.8 Para calcular
EURAMIC, media
se halla primero el logaritmo naturalHDL de cada la muestra
uno de los
La media geomtrica es, por tanto, xG = exp(0,155) = 1,168 mmol/l.
Allos
igual que la
valores
del demediana,
estudio la media
una muestra
EURAMIC, dehalla
se geomtrica
tamao n, eleslogaritmo
primero til comonatural medidade decada
tendencia
uno decentral
los para
valores
variables muyyasimtricas,
a continuacin
en lasseque
calcula su media
un pequeo aritmtica,
grupo de observaciones extremas tienen una
excesiva
Al igual influencia sobre la la
que ylaamediana,
valores media
continuacin se aritmtica.
media geomtrica
calcula La1 /media
su media es
n til
geomtrica
como medida
aritmtica, tienedelatendencia
ventaja adicional de
presentar un tratamiento estadstico 10 sencillo
ms n
que la mediana.
1
log xG = x G= log x x i= log(=0n,89 x1)x 2+ ...
...+ xlog(
n .
1,53)
central para variables muy asimtricas, 10
1 i10=1
en lasi
que un pequeo
i =1 log(0,89) + 10 grupo
... + log(1,53 de) observaciones
log x G = log x i =
0,i117 + ... + 0,425
1.3 MEDIDAS
extremas tienen unaDE POSICIN:
excesiva = 10 CUANTILES
influencia =1
sobre la media 0,15510 .
= aritmtica. La media geomtrica
En la prctica, la forma ms sencilla de calcular
0,117 +10... + 0,425 la media geomtrica consiste en
Los cuantiles indican la posicin=relativa de una observacin = 0,155con . respecto al resto de la muestra.
8
10
calcular primero
A continuacin el logaritmo
se describen de cadams
los cuantiles valor muestral, hallar a continuacin la media de
utilizados:
La media geomtrica es, por tanto, xG = exp(0,155) = 1,168 mmol/l.
yy Percentiles son los valores de una variable que dejan un determinado porcentaje de los
losLalogaritmos y deshacer
media geomtrica por tanto, laxGtransformacin
es,finalmente = exp(0,155) =logartmica.1,168 mmol/l. Para calcular los
datos por debajo de ellos. As, por ejemplo, el percentil 10 es el valor superior al 10% de
las observaciones,
Allogaritmos
igual que se pero inferior
la mediana, media al 90% restante. Lacomomediana corresponde, por tanto, al
puede usarlacualquier geomtrica
base, siempre es til
y cuando medida de tendencia
el logaritmo y el
percentil 50. En una muestra de tamao n, previamente ordenada de menor a mayor, el
Al igual que la mediana, la media geomtrica es til como medida de tendencia
percentil
central p-simo
para variables
antilogaritmo estnseendefine
muy la como:
asimtricas,
misma base.enNotar
las que que unlapequeo grupo de observaciones
media geomtrica slo puede
central np/100
Sipara es un nmero
variables entero, la media
muy asimtricas, deque
en las las observaciones
un pequeo grupo(np/100) y (np/100 + 1)-simas.
de observaciones
emplearse
extremas tienen como
una medida de
excesiva tendenciasobre
influencia central
la en variables
media que toman
aritmtica. La valores
media positivos.
geomtrica
Si np/100 no es un nmero entero, el valor k-simo de la muestra, siendo k el menor
extremas tienen
entero una excesiva
superior a np/100.influencia sobre la media aritmtica. La media geomtrica
8
Ejemplo
yy Deciles, 1.8 Para acalcular
corresponden la media10,
los percentiles geomtrica
20, ..., 90.del
Loscolesterol HDL
deciles se en lapara
utilizan muestra
dividir
8
la muestra en 10 grupos de igual tamao.
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los
yy Quintiles, corresponden a los percentiles 20, 40, 60 y 80, y dividen la muestra en 5 grupos
de igual tamao.
valores y a continuacin se calcula su media aritmtica,

Pastor-Barriuso R. 5
1 10 log(0,89) + ... + log(1,53)
log x G = log x i =
10 i =1 10
0,117 + ... + 0,425
mmol/l. De igual forma, como 10p/100 = 2,5 no es un nmero entero para p = 25,
Estadstica descriptiva
el percentil 25 es el tercer valor de la muestra, que corresponde a 0,87 mmol/l.

yy Cuartiles, corresponden a los percentiles 25, 50 y 75, y dividen la muestra en 4 grupos de


Es importante recordar que, para calcular cuantiles, los valores de la muestra deben
igual tamao.
yy Terciles,
estar corresponden
previamente a los
ordenados. Sipercentiles 33,3 y 66,7,
el tamao muestral y dividen
es grande, la laforma
muestra
msenrpida
3 grupos
de de
igual tamao.
obtener los cuantiles manualmente es realizando un grfico de tallo y hojas (ver ms
Ejemplo 1.9 Los 10 valores del colesterol HDL ordenados de menor a mayor son 0,79,
0,84, 0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Dado que 10p/100 = 1 es un
adelante).
nmero entero para p = 10, el percentil 10 es la media de la primera y segunda observacin,
que corresponde a (0,79 + 0,84)/2 = 0,815 mmol/l. De igual forma, como 10p/100 = 2,5
no es un nmero
1.4 MEDIDAS entero para p = 25, el percentil 25 es el tercer valor de la muestra, que
DE DISPERSIN
corresponde a 0,87 mmol/l.
Las medidas de dispersin indican el grado de variabilidad de los datos y se
1.2 MEDIDAS DE Es importante
TENDENCIA recordar que, para calcular cuantiles, los valores de la muestra deben estar
CENTRAL
previamente ordenados. Si el tamao muestral es grande, la forma ms rpida de obtener los
complementan
cuantiles con lasesmedidas
manualmente de un
realizando tendencia
grfico central
de tallo en la descripcin
y hojas de una muestra.
(ver ms adelante).
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
En este apartado se presentan las principales medidas de dispersin.
de una determinada variable o, dicho
1.4 MEDIDAS de forma equivalente, estos estimadores indican
DE DISPERSIN
1.4.1
Las
alrededor de qu Varianza
medidas
valor y desviacin
de dispersin
se agrupan los datos tpica
indican el grado Las
observados. de variabilidad
medidas de de los datos y se complementan con
tendencia
las medidas de tendencia central en la descripcin
2
de una muestra. En este apartado se presentan
La varianza
las principales
central de la muestra muestral,
medidas
sirven tanto denotada
paraderesumir por
dispersin. s , se define como la suma
los resultados observados como para de los cuadrados de las

diferencias
realizar inferencias
1.4.1 acerca entrey cada
de los
Varianza valor de
parmetros
desviacin la muestra ycorrespondientes.
poblacionales
tpica su media, dividida
A por el tamao muestral

semenos
continuacin La 1, muestral,
varianza
describen denotada
los principales por s2, se define
estimadores como la suma
de la tendencia de los
central cuadrados de las diferencias
de una
entre cada valor de la muestra y su media, dividida por el tamao muestral menos 1,
variable. media, el nmero de valores independientes de la muestra (denominado grados de
1 n 1 n 2
2
s = 2
( xi x ) = x i nx 2 .
libertad) para el clculo denlavarianza
1.2.1 Media aritmtica
1 i =1 n 1 i =1 la media y n - 1 valores, el
es n - 1 (conocida
Como puede apreciarse, cuanto ms dispersos estn los datos, mayores sern los cuadrados de
valor restante se(x
deducira automticamente). sumaUna .justificacin ms formal paradeesta
La media aritmtica,
las
Como denotada
desviaciones i x ), se
por
puede apreciarse, define
y cuanto
mayor comola
ser
ms lavarianza
dispersos des2cada
estn uno
Notar
los de las
que
datos, los desviaciones
mayores sern loscada valor
2

respecto de la media se elevan al cuadrado para evitar que se compensen las desviaciones
definicin
positivas de por
la varianza
(valores se aaporta en el2Tema 5.
valores muestrales dividida
cuadrados de lassuperiores
el nmero
desviaciones delaobservaciones
media)
(x i - x )con lasrealizadas.
y mayor negativas
ser la(valores
Si denotamos
varianza inferiores
s2. Notaraquela media).
las Cabe
destacar tambin que, en la frmula de la varianza muestral, el denominador es n 1 en lugar de n.
por n el tamao
Esto Lasevarianza
muestral
debey por
ademuestral
xcada
que,i eluna
valores observado
vez difcil de interpretar
calculada para el como
sujeto
lalamedia, medida
elsei-simo,
nmero ide=de1,dispersin,
valores ya que sus
..., n, independientes
desviaciones valor respecto de media elevan al cuadrado para evitar quedesela
muestra (denominado grados de libertad) para el clculo de la varianza es n 1 (conocida la
unidades
la media vendra
mediadada son
y npor las
1las de la el
valores, variable originalse
valorpositivas
restante al deducira
cuadrado.automticamente).
La medida de dispersin ms
compensen desviaciones (valores superiores a la media)Una con justificacin
las negativasms
formal para esta definicin de la varianza se aporta en el Tema 5.
utilizada es la desviacin tpica o desviacin estndar s, que se define como la raz
(valores inferiores
La varianza 1a nlaesmedia).
muestral x +de
difcil Cabe + ...destacar
x 2interpretar
+ x n comotambin que,
medida deen la frmula
dispersin, yade
quelasus
varianza
unidades
x = xi = 1 .
son las de la variable
cuadrada de la varianza original
n i =1 al cuadrado.
n La medida de dispersin ms utilizada es la desviacin
muestral,
tpica el denominador
o desviacin estndar es n - 1seen
s, que lugarcomo
define de n.laEsto razse debe a que,
cuadrada de launa vez calculada la
varianza

La media es la medida de tendencia central ms utilizada 10


1 yn de ms fcil
s= ( xi x )
n 1 i =1
2

interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su


y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que la media,
principal limitacin es que tpica
lay,desviacin est muy
en consecuencia, estinfluenciada
influenciada
presenta por
porlos
las mismas valores
valores
unidades extremos
muy extremos
que y, (gran
en este
la variable desviacin
original. respecto
Al igual que de la

caso, puede nolaser un fiel


media, lareflejo de la tpica
desviacin tendencia
est central de la distribucin.
influenciada por valores muy extremos (gran
6 Pastor-Barriuso R.

desviacin respecto de la media), que inflaran la estimacin resultante, no siendo un


Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
desviacin respecto de la media), que inflaran la estimacin resultante, no siendo un
buen reflejo de la dispersin global de los datos.
realizar
bueninferencias
reflejo de acerca de los parmetros
la dispersin poblacionales
global de los datos. correspondientes. A
Medidas de dispersin
continuacin Ejemplo 1.10 Conocida
se describen los principales la media del colesterol
estimadores de laHDL tendenciaen loscentral
10 primeros
de una
mbio de origen
Ejemplo
(traslacin).
1.10 Conocida
Si se suma una constante
la mediaa del colesterol
cada xuno
HDL
de los mmol/l,
en los 10 primeros
datos la varianza vendra dada
variable. participantes del estudio EURAMIC, = 1,223
media), que inflaran la estimacin resultante, no siendo un buen reflejo de la dispersin global
de losparticipantes
datos. del estudio EURAMIC, x = 1,223 mmol/l, la varianza vendra dada
na muestra, la varianza pory la desviacin tpica no cambian; si yi = xi + c,
1.2.1 Media aritmtica
por
nces s y = s x2 y sy = sEjemplo
2
x.
1.10 Conocida la media del colesterol HDL en los 10 primeros participantes
La media aritmtica,
del estudiodenotada EURAMIC, 1 10 por x ,=se1,223 define como
(mmol/l,
0,89 1,la 223suma
) 2 + de
varianza ... +cada
(1,53uno
vendra 1de
dada
,223 los
por
)2
s = ( xi x ) =
2 2

mbio de escala (unidades). Si se multiplica 19 10i =1cada uno 2de los (0,89 1,223
datos de una) 2 + ...9 + (1,53 1,223) 2
valores muestrales dividida s 2 = por
90,111
el ( xnmero
x )
+i ... + 0,094
de
= observaciones realizadas.
92
Si denotamos
DE TENDENCIA CENTRAL = i =1
= 0,156 (mmol/l)
stra por una porconstante,
n el tamao la varianza
muestralresultante
y por
0,111 xi el +es 9igual
valor
... a la varianza
+ 0,observado
094 parainicial
el sujeto pori-simo, i = 1, ..., n,
= = 0,156 (mmol/l) 2
tendencia central 9 valor
onstante mediainforman
allacuadrado acerca
y la desviacin
vendra dada porde cules
tpica esigual
el a lams representativo
desviacin tpica
yy la desviacin tpica por s = 0,156 = 0,395 mmol/l.
la desviacin
nada
ial porvariable o, dicho
dicha constante; y ladesidesviacin
forma
yi = cxequivalente,
i, entonces
tpica por sestos
2
y ns==c s0
2estimadores
2
y sy == cs
x ,156 xindican
0,395. Unmmol/l.
cambio
Algunas propiedadesxde= la varianza 1 x + x + ... + x
x i = y la desviacin .tpica son:
1 2 n
valor se agrupanAlgunas los datos observados.deLas
propiedades n
la medidas
varianza de
y latendencia
n valores
desviacin tpica son:
scala que se realizayy con Cambio frecuencia
de origen es (traslacin).
la divisin i =1 de todos
Si se suma losuna constante de una
a cada uno de los datos de una muestra,
Algunas
la varianza propiedades de la varianza
y la desviacin tpica noycambian; la desviacin si yi = tpica
xi + c, son:
entonces sy2 = sx2 y sy = sx.
uestra sirven tanto para resumir los resultados observados como para
stra por su desviacin
La media tpica. La desviacin
es la medida de (unidades).
tendencia tpicacentral
de la variable
ms utilizadaresultantey de
yy Cambio de escala Si se multiplica cada unoms de fcil
los datos de una muestra por
cias acerca de los parmetros una constante, la varianza
poblacionales resultante es igual
correspondientes. A a la varianza inicial por la constante al
, por tanto,interpretacin.
igual a 1. Corresponde al centro de gravedad
cuadrado y la desviacin tpica es igual a ladedesviacin
los datos de la muestra.
tpica inicial porSu dicha constante;
11
e describen los principales cxi, entoncesde
si yi = estimadores sy2la = ctendencia
2 2
sx y sy =central csx. Undecambiouna de escala que se realiza con frecuencia
edades delprincipalcambio de origen
limitacin y escala
es que se emplean
est muy para la estandarizacin de
es la divisin de todos los influenciada
valores de una pormuestra
los valorespor su extremos y, entpica.
desviacin este La desviacin
11
tpica de la variable resultante ser, por tanto, igual a 1.
que consiste caso,en puede
restarlenoa ser los un
valores de unadevariable
fiel reflejo la tendenciasu media centraly dividirlos por
de la distribucin.
Las propiedades del cambio de origen y escala se emplean para la estandarizacin de variables,
itmtica
cin que consiste
tpica. La variable en restarle
estandarizada a los valores
resultante de una0variable
tiene media y desviacin su media y dividirlos por su desviacin
1.2tpica.
MEDIDAS
Ejemplo La 1.4 DE
variable TENDENCIA
En este estandarizada
y en los sucesivos CENTRAL
resultante tiene media
ejemplos sobre 0estimadores
y desviacin tpica 1; essedecir, si zi =
muestrales,
stica, si zi = (x(x
decir,denotada por
-
ii x x)/,s
)/s se
xx,, define
entonces
entonces comoz =
= la
00 ysuma
y sszz == de
1.
1. cada uno de los
utilizarn los valores
Las medidas de tendencia central informan del colesterol HDLacerca obtenidos de cul en loses el10valor
primeros sujetos del
ms representativo
ales dividida por el nmero de observaciones realizadas. Si denotamos
go intercuartlico 1.4.2 Rango intercuartlico
estudio
de una European
determinada Study o,
variable ondicho
Antioxidants,
de formaMyocardial
equivalente,Infarction and Cancer
estos estimadores of
indican
muestral y porEl xi rango
el valor observado
intercuartlico para el
se define sujeto i-simo, i = 1, ..., n,
ntercuartlico se define como la diferencia entrecomo el tercer la diferencia
y el primer entre el tercer y el primer cuartil (percentiles
cuartil
the
alrededor
75 y 25,Breast (EURAMIC),
derespectivamente).
qu valor se agrupan un estudio
El rangolos datos multicntrico
observados.indica
intercuartlico de casos layamplitud
Las medidas controles realizado
de tendencia
del 50% central de la
a dada por muestra y se usa como medida de dispersin cuando la variable presenta valores extremos. En
es 75 y 25, respectivamente). El rango intercuartlico indica la amplitud del
entre
central 1991
de lasuele
tal caso, y 1992
muestra en ocho
sirven tantode
ir acompaado pases para Europeos
resumir los
la mediana e Israel
como para
resultados evaluar
medida observados el efecto
de tendenciacomo de los
para
central.
al de la muestra y1se usa como n
x +medida
x 2 + ... +dexdispersin cuando la variable
x=
realizar x i = 1 1.11
inferencias
Ejemplo acercaAde
n
los. parmetros
partir de los poblacionales
10 valores correspondientes.
del colesterol HDL ordenados A
n i =1 n 5de menor a
alores extremos. En tal mayor,caso,los percentiles
suele ir acompaado 25 y 75de vienen determinados
la mediana como por la tercera (0,87 mmol/l) y octava
continuacin observacinse describen(1,53los principales
mmol/l), estimadores El
respectivamente. de rango
la tendencia central de
intercuartlico se una
calcula entonces
latendencia
medida de tendencia central ms utilizada y de ms
central. como la diferencia entre ambos percentiles, 1,53 0,87 = 0,66 mmol/l.fcil
variable.
Corresponde al centro de gravedad de los datos de la muestra. Su
1.4.3 Coeficiente de variacin
mplo 1.11 A 1.2.1 partirMedia
de los 10 valores del colesterol HDL ordenados de menor a
aritmtica
cin es que estElmuy influenciada
coeficiente de variacin por lossevaloresdefine como extremos y, en este
el cociente entre la desviacin tpica y la media aritmtica,
or, los percentiles media25 yaritmtica,
Laexpresado 75comovienen determinados
denotada
porcentaje, por xpor
100s/ seladefine
.,Este tercera
estimador (0,87
como nolammol/l)
suma
est dey cada
afectado poruno de losde escala ya que,
cambios
ser un fiel reflejo de la tendencia central de la distribucin.
al multiplicar los valores de una variable por un mismo factor, tanto la media como la desviacin
va observacin (1,53muestrales
tpica
valores mmol/l),por
cambian respectivamente.
dicho por
dividida factor El
su rango
el ynmero de intercuartlico
cociente se
permanece inalterable.
observaciones realizadas.El Si coeficiente
denotamosde variacin
relaciona la desviacin tpica con la media y es til para comparar la variabilidad de diferentes
1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
n el tamao
porvariables con distintas y por xiAs,
muestralmedias. por ejemplo,
el valor unapara
observado desviacin i-simo,
tpica
el sujeto de 10i kg n, muestra de
= 1,en...,una
adultos con un peso medio de 70 kg indicara un mismo grado de dispersin que una desviacin
los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
la media vendra dada por 12
Pastor-Barriuso R. 7
European Study on Antioxidants, Myocardial Infarction and Cancer of
1 n x + x 2 + ... + x n
x =
t (EURAMIC), un estudio multicntrico de casos
n i =1
xyi controles
= 1
nrealizado
.
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
Estadstica descriptiva
continuacin se describen los principales estimadores de la tendencia central de una

variable.
tpica de 0,5 kg en una muestra de recin nacidos con un peso medio de 3,5 kg (ambos coeficientes
de variacin son 10010/70 = 1000,5/3,5 = 14,3%).
1.2.1 Media aritmtica
Ejemplo 1.12 El coeficiente de variacin de los 10 primeros valores del colesterol HDL
en
Laelmedia
estudio EURAMIC
aritmtica, denotada por x ,=se
sera 100s/ 1000,395/1,223
define como la =suma
32,3%; es decir,
de cada uno la
dedesviacin
los
tpica es aproximadamente un tercio de la media.
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
1.5 REPRESENTACIONES
por n el tamao muestral yGRFICAS
por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
En el anlisis e interpretacin de los datos de un estudio, es importante no limitarse a realizar medidas
la media vendra dada por
de resumen numricas. Las medidas de tendencia central y dispersin deben completarse con grficos
que permitan observar directamente las caractersticas y relaciones de las variables estudiadas. En
esta seccin se revisan los principales mtodos
1 n grficos
x +para
x 2 +presentar
... + x n y resumir una variable.
x = xi = 1 .
n i =1 n
1.5.1 Diagrama de barras
La media
Los diagramas es la medida
de barras de tendencia
son adecuados para central ms utilizada
representar variables ycualitativas
de ms fcily cuantitativas
discretas. En estos diagramas se representan las categoras de la variable en el eje horizontal y sus
interpretacin.
frecuencias (absolutas Corresponde
o relativas) enalelcentro de gravedad
eje vertical. Para cada de los datos
categora devariable
de la la muestra. Su
se construye
un rectngulo de anchura constante y altura proporcional a la frecuencia. Los rectngulos estn
principal
separados limitacin
unos de otros poresla que estdistancia
misma muy influenciada porlalos
para reflejar valores extremos
discontinuidad y, en este
de la variable.
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
Ejemplo 1.13 La representacin del diagrama de barras del hbito tabquico en el grupo
control del estudio EURAMIC se ilustra en la Figura 1.1. De los 700 controles del estudio que
no haban padecido
Ejemplo 1.4 un
Eninfarto
este y agudo
en los de miocardio,
sucesivos todos salvo
ejemplos sobreuno presentaban
estimadores informacin
muestrales, se
sobre el consumo de tabaco. De stos, un 27,2% (190/699) eran nunca fumadores, un 35,3%
(247/699) eran exlos
utilizarn fumadores, y elcolesterol
valores del restante 37,5%
HDL (262/699)
obtenidoseran fumadores
en los actuales.
10 primeros sujetos del

estudio
40 European Study on Antioxidants, Myocardial Infarction and Cancer of

the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

entre
30 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
Frecuencia relativa (%)

5
20

10

Nunca Ex fumador Fumador


fumador actual

Figura 1.1 Diagrama de barras del hbito tabquico en el grupo control del estudio EURAMIC.Figura 1.1

8 Pastor-Barriuso R.
Representaciones grficas

1.5.2 Histograma y polgono de frecuencias

El histograma es el principal mtodo grfico para la representacin de variables cuantitativas


continuas. En primer lugar, los valores de la variable continua se agrupan en categoras
exhaustivas (cubren todo el rango de la variable) y mutuamente excluyentes (no se solapan). En
el eje horizontal del histograma se representan las categoras o intervalos y en el eje vertical las
frecuencias (absolutas o relativas) de cada intervalo. Posteriormente, se construye un rectngulo
para cada categora, cuya anchura es igual a la longitud del intervalo y cuyo rea es proporcional
a la frecuencia (si los intervalos tienen distinta longitud, las alturas de los rectngulos del
histograma no sern proporcionales a las frecuencias).
El polgono de frecuencias se construye uniendo con lneas rectas los puntos medios de las bases
superiores de los rectngulos que conforman un histograma. Tanto el histograma como el polgono
de frecuencias sirven para representar grficamente la distribucin de una variable continua.

Ejemplo 1.14 El histograma de la distribucin del colesterol HDL en el grupo control


del estudio EURAMIC se presenta en la Figura 1.2. En este caso, se representa la
frecuencia absoluta en el eje vertical e intervalos de distinta longitud en el eje horizontal.
Para los intervalos de menor longitud (0,2 mmol/l), la altura de los rectngulos es igual a
la frecuencia; as, por ejemplo, la altura del rectngulo en el intervalo 1,2-1,4 mmol/l es
igual a los 86 sujetos con niveles del colesterol HDL dentro de este rango. Sin embargo,
para los intervalos de mayor longitud, la altura de la barra es igual a la frecuencia dividida
por el incremento relativo de la longitud del intervalo; as, por ejemplo, para el intervalo
1,4-1,7 mmol/l, cuya frecuencia es 55 y su longitud es 1,5 veces la longitud mnima, la
altura de la barra es 55/1,5 = 36,7. La Figura 1.2 se completa con el polgono de frecuencias,
que muestra una distribucin del colesterol HDL aproximadamente simtrica con la cola
superior ligeramente mayor que la inferior.

150

125

100
Frecuencia absoluta

75

50

25

0 0,3 0,6 0,8 1 1,2 1,4 1,7 2 2,5

Colesterol HDL (mmol/l)


Figura 1.2

Figura 1.2 Histograma y polgono de frecuencias del colesterol HDL en el grupo control del estudio
EURAMIC.

Pastor-Barriuso R. 9
Estadstica descriptiva

1.5.3 Grfico de tallo y hojas


Este grfico tiene la ventaja de reflejar los datos originales de la muestra, a la vez que permite
visualizar la distribucin de frecuencias. En primer lugar, para cada observacin de la variable,
se separa el ltimo dgito significativo (hoja) de los restantes dgitos del valor de la variable
(tallo). A continuacin, todos los posibles tallos se colocan ordenados en una misma columna.
Finalmente, para cada valor de la variable, se coloca su hoja a la derecha del tallo correspondiente.
Las hojas de un mismo tallo suelen colocarse en orden creciente. El resultado se conoce con el
nombre de grfico de tallo y hojas.

Ejemplo 1.15 La Figura 1.3 muestra el grfico de tallo y hojas del colesterol HDL en los
100 primeros controles del estudio EURAMIC con datos para esta variable. Los 2 valores
ms bajos del colesterol HDL son 0,21 y 0,26 mmol/l, cuyo tallo comn es 0,2 y sus
respectivas hojas son 1 y 6, que aparecen a la derecha de la primera lnea del grfico. El
siguiente tallo es 0,3, que no tiene ninguna hoja ya que no hay valores entre 0,30 y 0,39
mmol/l, y lo mismo sucede con el tallo 0,4. En el tallo 0,5 hay una hoja igual a 7, que
corresponde al valor 0,57 mmol/l. En el tallo 0,6 hay 5 hojas (35558), que corresponden a
los 5 valores del colesterol HDL entre 0,60 y 0,69 mmol/l y que son 0,63, 0,65, 0,65, 0,65 y
0,68 mmol/l. El resto de los tallos se interpreta de la misma manera. A partir de este grfico
resulta sencillo calcular los cuantiles; as, por ejemplo, la mediana se obtendra como la
media de los valores ordenados en las posiciones 50 y 51, (1,10 + 1,12)/2 = 1,11 mmol/l.

Frecuencia Tallo Hoja

2 0,2 16
0 0,3
0 0,4
1 0,5 7
5 0,6 35558
3 0,7 467
12 0,8 002344455579
13 0,9 0013334566779
13 1,0 0111123455559
9 1,1 023456789
15 1,2 000023356689999
7 1,3 1223778
6 1,4 345789
6 1,5 133689
2 1,6 44
2 1,7 34
2 1,8 36
1 1,9 0
1 2,0 9

Figura 1.3 Grfico de tallo y hojas del colesterol HDL en los 100 primeros controles del estudio EURAMIC.

Figura 1.3

10 Pastor-Barriuso R.
Representaciones grficas

1.5.4 Diagrama de caja

El diagrama de caja permite evaluar la tendencia central, la dispersin y la simetra de la


distribucin de una variable, as como identificar valores extremos. Los lmites inferior y
superior de la caja corresponden a los percentiles 25 y 75; es decir, la altura de la caja representa
el rango intercuartlico e indica la dispersin de la muestra. La lnea horizontal dentro de la caja
corresponde a la mediana y representa la tendencia central de la muestra. El grfico se completa
con barras verticales a ambos lados de la caja de longitud 1,5 veces el rango intercuartlico. Los
valores extremos, aquellos distanciados de los lmites de la caja entre 1,5 y 3 veces el rango
intercuartlico, se representan con un crculo y los valores muy extremos, aquellos alejados de
la caja ms de 3 veces el rango intercuartlico, se denotan mediante un asterisco.
En este grfico, si la distribucin es simtrica, los lmites superior e inferior de la caja estarn
aproximadamente a la misma distancia de la mediana, mientras que si la distribucin est sesgada
positivamente, el lmite superior estar ms alejado de la mediana que el inferior y si la distribucin
est sesgada negativamente, el lmite inferior estar ms alejado de la mediana que el superior.

Ejemplo 1.16 La Figura 1.4 muestra el diagrama de caja del colesterol HDL en el grupo
control del estudio EURAMIC. Como puede observarse, esta distribucin presenta un
leve sesgo positivo ya que el lmite superior de la caja est ligeramente ms alejado de la
mediana que el lmite inferior.

2,5

2
Colesterol HDL (mmol/l)

1,5

0,5

Figura 1.4 Diagrama de caja del colesterol HDL en el grupo control del estudio EURAMIC. Figura 1.4

Pastor-Barriuso R. 11
Estadstica descriptiva

1.6 REFERENCIAS

1. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.


2. Glantz SA. Primer of Biostatistics, Fifth Edition. New York: McGraw-Hill/Appleton &
Lange, 2001.
3. Pagano M, Gauvreau K. Principles of Biostatistics, Second Edition. Belmont, CA: Duxbury
Press, 2000.
4. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.

12 Pastor-Barriuso R.
TEMA 2

PROBABILIDAD

2.1INTRODUCCIN

Se denominan experimentos estocsticos, aleatorios o no determinsticos a aquellos en los


que pueden obtenerse resultados distintos cuando se repiten en idnticas circunstancias. Los
fenmenos biolgicos tienen en este sentido una componente aleatoria importante. La
herramienta matemtica que constituye la base para el estudio de fenmenos con una componente
aleatoria es la teora de la probabilidad, que proporciona modelos tericos aplicables a la
frecuencia de los distintos resultados de un experimento.
A continuacin, se revisan algunos conceptos previos que van a ser necesarios para
sistematizar la nocin de probabilidad.
yy Espacio muestral, denotado por W, es el conjunto de los posibles resultados de un
experimento aleatorio.
yy Se denomina suceso a cualquier subconjunto del espacio muestral W. Los sucesos pueden
ser elementos simples de W o conjuntos de elementos. Dos sucesos particulares son el
suceso seguro W, que contiene todos los elementos del espacio muestral, y el suceso
imposible o conjunto vaco , que no contiene ningn elemento.

Ejemplo 2.1 Si el experimento consiste en observar el nmero de supervivientes a


los 6 meses de 4 pacientes con cncer sometidos a tratamiento, el espacio muestral
ser W = {0, 1, 2, 3, 4}. Si el experimento consiste en medir los niveles de colesterol HDL
de una persona, el espacio muestral ser W = (0, ).
En el primer experimento, algunos sucesos podran ser: no observar ningn superviviente
A = {0}, observar 1 2 supervivientes B = {1, 2} u observar al menos 2 supervivientes
C = {2, 3, 4}. En el segundo experimento, algunos de los posibles sucesos incluiran:
tener un colesterol HDL 1 mmol/l A = (0, 1] o tener un colesterol HDL > 1,5 mmol/l
B = (1,5, ).

yy El suceso unin AB es el evento constituido por los elementos que pertenecen a A o B, o


a ambos a la vez.
yy El suceso interseccin AB es el evento formado por los elementos que pertenecen
simultneamente a A y B.
yy Sucesos disjuntos, incompatibles o mutuamente excluyentes son aquellos que no pueden
ocurrir simultneamente; es decir, su interseccin es el conjunto vaco, AB = .
yy El suceso complementario del suceso A, denotado por Ac, es el evento que ocurre cuando
no se realiza A.
Estos sucesos estn representados en los diagramas de la Figura 2.1. En general, las
operaciones entre sucesos se rigen por la teora de conjuntos, de la cual pueden derivarse algunas
propiedades importantes como A(BC) = (AB)(AC), A(BC) = (AB)(AC),
(AB)c = AcBc y (AB)c = AcBc.

Pastor-Barriuso R. 13
Probabilidad

B B

A BC = {2}. Al medir los niveles deAcolesterol HDL de una


su interseccin es

(a)AAB
persona, los sucesos = (0, 1] y B = (1,5, ) son mutuamente
(b) ABexcluyentes ya que

AB = . Asimismo, en este experimento el complementario de A es el suceso Ac

= (1, ).
B

En este tema se define el concepto de probabilidad y se introducen las reglas bsicas


A A
para operar con probabilidades. Estas reglas constituyen la base para el clculo e
(c) AB = (d) Ac
interpretacin de los procedimientos de inferencia estadstica (por ejemplo, el valor P
Figura 2.1 Diagramas de los sucesos unin (a), interseccin (b), sucesos mutuamente excluyentes
Figura 2.1(c) y
de un complementario
suceso contraste de hiptesis
(d). vase Tema 5) y permiten tambin evaluar la

sensibilidad,
Ejemplola 2.2
especificidad y los valoresdepredictivos
En el experimento de lasa pruebas
supervivencia diagnsticas.
los 6 meses de 4 pacientes con
cncer, la unin de los sucesos B = {1, 2} y C = {2, 3, 4} es BC = {1, 2, 3, 4} y su
interseccin es BC = {2}. Al medir los niveles de colesterol HDL de una persona, los
2.2 CONCEPTO Y 1]
sucesos A = (0, DEFINICIONES
y B = (1,5, ) sonDE PROBABILIDAD
mutuamente excluyentes ya que AB = . Asimismo,
en este experimento el complementario de A es el suceso Ac = (1, ).
El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano:
En este tema se define el concepto de probabilidad y se introducen las reglas bsicas para
operar con probabilidades.
la probabilidad de un sucesoEstas reglas
refleja constituyen la
la verosimilitud debase paraocurra,
que ste el clculo e interpretacin
de forma que de
los procedimientos de inferencia estadstica (por ejemplo, el valor P de un contraste de hiptesis
vase Tema
los sucesos ms5)probables
y permiten tambin
se darn con evaluar la sensibilidad,
mayor frecuencia que loslamenos
especificidad y los
probables. Sinvalores
predictivos de las pruebas diagnsticas.
embargo, para abordar la probabilidad de forma sistemtica, es necesaria una definicin
2.2 CONCEPTO Y DEFINICIONES DE PROBABILIDAD
rigurosa, a la vez que compatible con nuestra intuicin. Dos definiciones de
El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano: la
probabilidad de
probabilidad de un
usosuceso
comnrefleja
son: la verosimilitud de que ste ocurra, de forma que los sucesos
ms probables se darn con mayor frecuencia que los menos probables. Sin embargo, para
Definicin frecuentista (von Mises). Al repetir un experimento indefinidamente,
abordar la probabilidad de forma sistemtica, es necesaria una definicin rigurosa, a la vez que
compatible con nuestra intuicin. Dos definiciones de probabilidad de uso comn son:
la probabilidad de un suceso es el lmite del cociente entre el nmero de veces que
yy Definicin frecuentista (von Mises). Al repetir un experimento indefinidamente, la
probabilidad
ocurre dicho de un suceso
suceso es el lmite
y el nmero del cocienterealizados,
de experimentos entre el nmero de veces que ocurre
dicho suceso y el nmero de experimentos realizados,
#A
P(A) = lim ,
n n

donde #A es el nmero de veces que se realiza A en los n experimentos.


donde #A es el nmero de veces que se realiza A en los n experimentos.
14 Pastor-Barriuso R.
indefinidamente los registros anuales, el lmite de estos cocientes 0,4850, 0,4845,

0,4845, ... determinara la probabilidad de ser mujer. En la prctica, sin embargo,


Concepto y definiciones de probabilidad

no es posible realizar infinitos experimentos y las probabilidades tericas se


Ejemplo 2.3 Supongamos que se desea conocer la probabilidad de ser mujer entre todos
estiman mediante
los recin nacidos probabilidades
vivos en Espaa.empricas
Segn losobtenidas
datos dela Instituto
partir de Nacional
un nmero definito
Estadstica,
se registraron 226.170 nias de 466.371 nacimientos en 2005, 233.773 de 482.957 en
de experimentos.
2006 y 238.632 deAs, utilizando
492.527 losLa
en 2007. datos disponibles
proporcin de nacimientos
acumulada en226.170/466.371
de nias es 2005
= 0,4850 en 2005, 459.943/949.328 = 0,4845 en 2005-2006 y 698.575/1.441.855 = 0,4845
2007, se estimara
en 2005-2007. una probabilidad
Aumentando de ser mujerlosderegistros
indefinidamente 0,4845. anuales, el lmite de estos
cocientes 0,4850, 0,4845, 0,4845, ... determinara la probabilidad de ser mujer. En la
prctica, sin embargo, no es posible realizar infinitos experimentos y las probabilidades
Definicin
tericas se axiomtica (Kolmogorov).
estiman mediante La probabilidad
probabilidades empricas es una funcin
obtenidas quede
a partir asigna
un nmero
finito de experimentos. As, utilizando los datos disponibles de nacimientos en 20052007,
asecada posible
estimara unasuceso de un experimento
probabilidad de ser mujerundevalor numrico, de tal forma que se
0,4845.

cumplan losaxiomtica
yy Definicin siguientes axiomas:
(Kolmogorov). La probabilidad es una funcin que asigna a cada
posible suceso de un experimento un valor numrico, de tal forma que se cumplan los
negatividad: P(A) 0,
(i) Noaxiomas:
siguientes
(i) (ii)No negatividad: P(
Normatividad: P(A) ) = 0, 1,
(ii) Normatividad: P(W) = 1,
Aditividad:SiSiAA, 1A, A, 2...
(iii) (iii)Aditividad: , ...son
sonsucesos
sucesosmutuamente
mutuamenteexcluyentes,
excluyentes,entonces
entonces
1 2

axiomtica se derivan
algunas propiedades importantes de la funcin de
P Ai = P( A1 A2 ...) = P( A1 ) + P( A2 ) + ... = P( Ai ) .
axiomtica se derivan algunas propiedades importantes de la funcin de
probabilidad: i =1 i =1

Notar que esta definicin de probabilidad tan slo especifica las propiedades generales
probabilidad:
- P(
Notar
que
debe ) tener
que =esta
0, una
definicin
funcin de probabilidad,
probabilidad tan
peroslo especifica
no permite las propiedades
la asignacin de probabilidades
a- un
P(suceso
) = 0, concreto. No obstante, de la definicin axiomtica se derivan algunas
- P(Ac) =que
generales
propiedades P(A),tener de
1importantes
- debe unalafuncin
funcinde
deprobabilidad,
probabilidad:pero no permite la
c
- P(AP()
(iv) ) = 1=-0,P(A),
asignacin
- Si A estdeincluido
probabilidades a un
en B, A B, suceso concreto.
entonces No obstante, de la definicin
P(A) P(B),
P(A
-(v) Si A
c
1 P(A),
) =incluido
est en B, A B, entonces P(A) P(B),
- 0 P(A) 1,
(vi) Si A est incluido en B, AB, entonces P(A) P(B),
- 0 P(A) 1,
0 P(A) 1, Para cualquier coleccin de sucesos A1, A2, ...,
- Sub-aditividad:
(vii)
4
- Sub-aditividad: Para cualquier coleccin de sucesos A1, A2, ...,
(viii) Sub-aditividad: Para cualquier coleccin de sucesos A1, A2 , ...,

P Ai P( Ai ) ,
i=1 i=1
P Ai P( Ai ) ,
i =1 i =1
- Principio
(ix) Principio de de
inclusin-exclusin:
inclusin-exclusin: Sean
SeanA1,AA,2A
, ..., AkAsucesos
, ..., sucesoscualesquiera,
cualesquiera,
1 2 k
- Principio de inclusin-exclusin: Sean A1, A2, ..., Ak sucesos cualesquiera,
k k
P Ai = P ( Ai ) P( Ai A j ) + ...
ik=1 ik=1
P Ai = P(k A ) P( Ai A j ) + ...
1 i < j k
+1i
i =1 + i(=1 1) P( A11 i <j Ak 2 ... Ak ).

+ (1) k +1 P( A1 A2 ... Ak ).
Del tercer axioma de la probabilidad se deduce que, si dos sucesos son mutuamente
Del tercer axioma
excluyentes, de la probabilidad
la probabilidad se deduce
de la unin es la que,
sumasi de
dossus
sucesos son mutuamente
probabilidades por separado. El
Del tercer de
principio axioma de la probabilidad
inclusin-exclusin se deduceeste
generaliza que,resultado
si dos sucesos son mutuamente
para sucesos no necesariamente
excluyentes, la probabilidad de la unin es la suma de sus probabilidades por separado.
excluyentes, la probabilidad de la unin es la suma de sus probabilidades por separado.
El principio de inclusin-exclusin generaliza este resultado para sucesos no Pastor-Barriuso R. 15

El principio de inclusin-exclusin generaliza este resultado para sucesos no


necesariamente excluyentes: la probabilidad de la unin de dos sucesos cualesquiera es
El principio de
excluyentes, inclusin-exclusin
la probabilidad generaliza
de la unin este resultado
es la suma para sucesospor
de sus probabilidades no separado.

necesariamente
El excluyentes: la probabilidad
principio de inclusin-exclusin
Probabilidad generalizadeeste
la unin de dos
resultado sucesos
para cualesquiera
sucesos no es
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
la suma de sus probabilidades
necesariamente excluyentes: lapor separado, menos
probabilidad la probabilidad
de la unin de lacualesquiera
de dos sucesos interseccin,es
poblacin de adultos es 0,20, la probabilidad de ser diabtico es 0,03 y la
excluyentes: la probabilidad de la unin de dos sucesos cualesquiera es la suma de sus
la suma de sus probabilidades
P(Apor
B)separado,
= P(A) +menos
P(B)de-la probabilidad
P(A B). de la interseccin,
probabilidades por separado,
probabilidad menos la probabilidad
de ser simultneamente bebedor yladiabtico
interseccin,
es 0,01. Si se denota por

B al suceso
Este principio puede P(Ayapor
ser aplicarse
bebedor B) D
= P(A)
colecciones P(B)
+con
al suceso
- P(AB).
ser
msdiabtico, la probabilidad
de dos sucesos. As, por de que un
ejemplo,
Este principio puede aplicarse a colecciones con ms de dos sucesos. As, por ejemplo, para tres
individuo
para principio
Este tres sucesosdecualesquiera,
puedeesta poblacin sea bebedor,
quecondiabtico
asecolecciones
cumple o ambos a laAs,
vez por
viene
sucesos cualesquiera, se aplicarse
cumple que ms de dos sucesos. ejemplo,
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
determinada
para tres por
sucesos cualesquiera,
P(ABse C)cumple
= P(A) que
+ P(B) + P(C)
poblacin de adultos es 0,20, la probabilidad de ser diabtico es 0,03 y la
- P(AB) - P(AC) - P(BC)
P(BD)P(A=P(B)
BC)+ =P(D)P(A)- P(B D)+ =P(C)
+ P(B) 0,20 + 0,03 - 0,01 = 0,22.
probabilidad de ser simultneamente bebedor
+ P(ABC). y diabtico es 0,01. Si se denota por
- P(AB) - P(AC) - P(BC)
B al suceso ser bebedor y por D al suceso ser diabtico, la probabilidad de que un
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
2.3poblacin
PROBABILIDAD
de adultos CONDICIONAL E INDEPENDENCIA DE SUCESOS
individuo de esta es 0,20, lasea
poblacin probabilidad
+ P(A de ser diabtico
Bdiabtico
bebedor, C). o ambos aesla0,03 y la probabilidad5 de
vez viene
ser simultneamente bebedor y diabtico es 0,01. Si se denota por B al suceso ser bebedor
D al suceso
La yprobabilidad de un
pordeterminada sersuceso
por puede
diabtico, la depender de laderealizacin
probabilidad de otrode
que un individuo suceso. As, por sea
esta poblacin
5
bebedor, diabtico o ambos a la vez viene determinada por
ejemplo, la probabilidad de tener un infarto de miocardio es diferente en los hombres
P(BD) = P(B) + P(D) - P(BD) = 0,20 + 0,03 - 0,01 = 0,22.
que en las mujeres; es decir, la probabilidad del suceso tener un infarto de miocardio

2.3depende
PROBABILIDAD
2.3 del suceso serCONDICIONAL
PROBABILIDAD hombre
CONDICIONAL EE INDEPENDENCIA
o ser mujer. DESUCESOS
El concepto matemtico
INDEPENDENCIA DE SUCESOS
que permite

La probabilidad
formalizar de un
cmo sesuceso puede
modifica la depender de de
probabilidad la realizacin defuncin
unrealizacin
suceso en otro suceso. As,espor
de otro la ejemplo,
La probabilidad de un suceso puede depender de la de otro suceso. As,
la probabilidad de tener un infarto de miocardio es diferente en los hombres que en las mujeres; por
es decir, la probabilidad
probabilidad del suceso
condicional. Entenertener un
general, lainfarto de miocardio
probabilidad depende
delessuceso del suceso ser hombre
B condicionada
ejemplo, la probabilidad de un infarto de miocardio diferente en los hombresal
o ser mujer. El concepto matemtico que permite formalizar cmo se modifica la probabilidad
de un suceso
suceso
que enAlasenmujeres;
se funcin
define esdedecir,
como otro la
esprobabilidad
la probabilidad condicional.
del suceso tener unEninfarto
general, la probabilidad del
de miocardio
suceso B condicionada al suceso A se define como
depende del suceso ser hombre o ser mujer. El
P(concepto
A B) matemtico que permite
P(B|A) = .
formalizar cmo se modifica la probabilidad dePun
( Asuceso
) en funcin de otro es la
De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este suceso.
probabilidad condicional. En general, la probabilidad del suceso B condicionada al
As,DeP(infarto|hombre) es equivalente
forma intuitiva, condicionar por el suceso A es equivalente
a seleccionar en primer lugar a los
a seleccionar porhombres
este y
posteriormente determinar
suceso A se define como su probabilidad de tener un infarto de miocardio.
no suceso.
expuestos y RR
As, = P(D|E)/P(D|Eesc) equivalente
P(infarto|hombre) es el riesgo arelativo de la en
seleccionar enfermedad entre
primer lugar los
a los
El concepto de probabilidad condicional tiene numerosas aplicaciones en epidemiologa y
salud pblica. Por ejemplo, si D es el sucesoP(tener A Buna
) deenfermedad y E es el suceso estar
expuestos
hombres y ylosposteriormente
no expuestos.
expuesto a un factor de riesgo,determinar
P(D|E) es su
P(B|A) probabilidad
la =probabilidad
P ( A)
tener
. de la un infartoentre
enfermedad de miocardio.
los expuestos,
P(D|E ) es la probabilidad de la enfermedad entre los no expuestos y = P(D|E)/P(D|Ec) es el
c
El concepto
riesgoEjemplo
relativo de deenfermedad
probabilidad condicional tiene ynumerosas aplicaciones en
2.5laContinuando entre
con ellos expuestos
ejemplo anterior,loslanoprobabilidad
expuestos. de que un
De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este
epidemiologa y salud pblica. Por ejemplo, si D es el suceso tener una enfermedad y E
Ejemplo
bebedor 2.5diabtico
sea Continuando con como
se calcula el ejemplo anterior, la probabilidad de que un bebedor
suceso. As, P(infarto|hombre)
sea diabtico se calcula comoes equivalente a seleccionar en primer lugar a los
es el suceso estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la
hombres y posteriormente determinarPsu( Bprobabilidad
D) 0,01 de tener un infarto de miocardio.
P(D|B) = c =
enfermedad entre los expuestos, P(D|E ) es la probabilidad = 0,05
de la enfermedad entre los
P( B) 0,20
El concepto de probabilidad condicional tiene numerosas aplicaciones en
6
epidemiologa y salud
y la probabilidad de pblica.
que un noPorbebedor si Ddiabtico
ejemplo,sea es el suceso
comotener una enfermedad y E

16 es el suceso
Pastor-Barriuso R. estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la
c P( B c D) P( D) P( B D) 0,03 0,01
P(D|B ) = = c = de la enfermedad
= 0,025.
P( B c ) P(D|E ) es
enfermedad entre los expuestos, 1 laPprobabilidad
( B) 1 0,20 entre los
As, el riesgo de diabetes es el doble en los bebedores que en los no bebedores,
P( B D) 0,01
c (B c D
PP(D|B) = ) P( D) P = ( B D=)0,05 0,03 0,01
P(D|B ) c=
RR = P(D|B)/P(D|B ) = 0,05/0,025 ==P2.( B) =
0,20Probabilidad = 0,025.
c
P( B ) 1 P( B) 0,20 e independencia de sucesos
1condicional

Se ydice
la probabilidad
queeldos
As, riesgo
de que
sucesos sonun
de diabetes
no bebedor seasidiabtico
independientes comode uno no afecta a la
la bebedores
es el doble en los ocurrenciaque en los no bebedores,
y la probabilidad de que un no bebedor sea diabtico como
probabilidad c A y B son independientes si P(B|A) = P(B|Ac) = P(B) o,
RR =del otro;
P(D|B)/P(D|B
c
es decir,
P( B )c = 0,05/0,025
D) P( D)=2.P( B D) 0,03 0,01
P(D|B ) = = = = 0,025.
P( B ) c
c 1 P( B) 1 0,20
de forma equivalente, si P(A|B) = P(A|B ) = P(A). En consecuencia, si dos sucesos son
Se dice
As, que dos
el riesgo desucesos
diabetesson es el independientes
doble en los sujetos si la ocurrencia
bebedoresdeque unoennolos afecta a la
no bebedores,
independientes,
As, el riesgo
= P(D|B)/P(D|Bpuede probarse
de diabetes
c esque
) = 0,05/0,025 el doble = 2.en los bebedores que en los no bebedores,
probabilidad del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o,
RR = P(D|B)/P(D|Bc) = 0,05/0,025 = 2.
Se dice que dos sucesos son P(AB) = P(A)P(B|A)
independientes P(A)P(B).de uno no afecta a la probabilidad
si la=ocurrencia
de forma equivalente, si P(A|B) = P(A|Bc) = P(A). En consecuencia, si dos sucesos son
del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o, de forma equivalente,
es=que
decir, c riesgo relativo es distinto de la unidad, RR = 2 1. Esta dependencia
si P(A|B)
PorSe dice
tanto,
P(A|B dosel)sucesos
dos sucesos
independientes,
= P(A). son
puedetambin
En consecuencia,
probarse independientes
pueden
si doslasucesos
que definirse sicomo ocurrencia son independientes,
independientes de unosinolaafecta puede
a la probarse
probabilidad
que
se refleja tambin en elAhecho y B son de que la probabilidad de ser= simultneamentec
probabilidad
de su interseccin del otro; es decir,
es igual al producto la probabilidad sideP(B|A)
de independientes cada suceso P(B|A por) = P(B) o,
separado.
P(AB) = P(A)P(B|A) = P(A)P(B).
de bebedor y diabtico P(A|B) no = esP(A|B
el producto
c
) = P(A). de susEn probabilidades,
Porforma
tanto,equivalente,
dos sucesossitambin pueden definirse como consecuencia,
independientes si dossi lasucesos son de su
probabilidad
PorEjemplo
tanto,
interseccin dos2.6
es igual
es decir, A partir
sucesos
al producto
el riesgo de
tambinlos
relativo resultados
pueden
de es del
definirse
la probabilidad ejemplo
distinto de la de como anterior, puede
independientes
cada suceso
unidad, RR = 2 por concluirse
si
1.separado. la que
probabilidad
Esta dependencia
independientes, puede probarse que = 0,01 0,200,03 = P(B)P(D).
P(BD)
los sucesos
de Ejemplo
su interseccin
se refleja padecer
es diabetes
igual al y serde
el producto bebedor
de
quelala no son independientes
probabilidad dedecada
ser suceso dadopor queseparado.
la
2.6tambinA partirende hecho
los resultados del probabilidad
ejemplo anterior, simultneamente
puede concluirse que los
sucesos padecer diabetes P(AB) y ser= bebedor
P(A)P(B|A) no son independientes dado que la probabilidad
= P(A)P(B).
probabilidad
Notar que lael de ser diabtico
yprobabilidad node esinterseccin
la diferente ende bebedores
dos que en no bebedores,
bebedor
es
de ser decir,
diabtico diabtico
riesgo relativo
es diferente esen el
es producto
distinto dede
bebedores lasus
que unidad,
en nosucesos
RR = 2cualesquiera
probabilidades,
bebedores, 1. Esta dependencia
Ejemplo 2.6 A partir de los resultados del ejemplo anterior, puede concluirse que
es decir,
Por tanto, el riesgotambin
dos sucesos relativopuedenes distinto de la como
definirse unidad, RR =c2 1. Esta
independientes si ladependencia
probabilidad
se refleja tambin en el P(D|B)
hecho
P(BD)y=ser = de
P(AB) 0,05
que
0,01
= 0,025
la =
probabilidad
P(A)P(B|A)
0,200,03 P(D|B );
de ser
P(B)P(D). simultneamente
los sucesos padecer diabetes bebedor no son=independientes dado que la
se refleja
de su interseccin tambin
es igual en el hecho
al producto de que
de lade la probabilidad
probabilidad de ser simultneamente
es decir,
bebedor el riesgo relativo
y diabtico no eses distinto
el producto ladeunidad, de= cada
sus probabilidades,2 1.suceso por separado.se refleja
Esta dependencia
probabilidad
no equivale
tambin en al producto de ser
el hecho de sus diabtico es
que probabilidades, diferente
la probabilidad salvo en bebedores
de serque que en
ambos sucesosbebedor
simultneamente no bebedores,
sean y diabtico
bebedor
Notar que y diabtico
la probabilidadno es el de producto
la de sus de
interseccin probabilidades,
dos sucesos cualesquiera
no es el producto de sus probabilidades, 7
Ejemplo 2.6 A
independientes. Enpartir
general, de P(BD)
los
para resultados
= 0,01del
cualquier ejemplodeanterior,
0,200,03
conjunto = c puede
P(B)P(D).
sucesos A1, A2,concluirse
..., Ak, la que
P(D|B) = 0,05 0,025 = P(D|B );
P(BD) =P(AB) 0,01 0,200,03
= P(A)P(B|A) = P(B)P(D).
los sucesosdepadecer
probabilidad diabetes es
su interseccin y ser bebedor no son independientes dado que la
Notar que la probabilidad de la interseccin de dos sucesos cualesquiera
Notar que la al
noprobabilidad
equivale probabilidad
producto dede la probabilidades,
interseccin
es diferente de en dos sucesos cualesquiera
Notar que
P(Ala A
de ser diabtico
probabilidad
...A ) = desus
P(Ala interseccin
)P(A ...A de |A
salvo
bebedores
dos
)
que ambos
sucesos que ensucesos
no bebedores,
cualesquiera sean
7
1 2 k 1 2 k 1

independientes. En general, para P(AB) P(A)P(B|A)


cualquier= conjunto de sucesos A1, A2, ..., Ak, la
= P(D|B)
P(A P(AB) = 0,05
1)P(A2|A
0,025
P(A)P(B|A)
=1)P(A = P(D|Bc);
3...Ak|A1A2) = ...
no equivale al producto de sus probabilidades, salvo que ambos sucesos sean independientes. En
probabilidad
no equivale alde su interseccin
producto de susde es
probabilidades,
general, para cualquier conjunto sucesos A1, A2salvo , ..., Aque ambos sucesos sean
k, la probabilidad de su interseccin es
= P(A )P(A |A
no equivale al producto de sus probabilidades, salvo que ambos sucesos
1 2 1 )P(A 3 |A 1 A 2 )P(A k|A1A2sean ...Ak-1).
independientes.
P(A1A2En general, para cualquier conjunto de sucesos A1, A2, ..., Ak, la 7
...A k) = P(A1)P(A2...Ak|A1)
independientes. En general, para cualquier conjunto
En el caso de que estos sucesos sean mutuamente independientes, las probabilidades de sucesos A 1 , A 2 , ..., A k, la
probabilidad de su interseccin = P(Aes 1)P(A2|A1)P(A3...Ak|A1A2) = ...

probabilidad
condicionales de su deinterseccin es )P(A
la frmula= anterior
P(A se2|Areducen a probabilidades no condicionales y, en
1 1)P(A3|A1A2)P(Ak|A1A2...Ak 1).

P(A1A2...Ak) = P(A1)P(A2...Ak|A1)
Enconsecuencia,
el P(A
caso1A la
de2...A
que probabilidad
estos
k) = P(A sucesosde la sean
1)P(A2...A
interseccin
mutuamente
k|A1)
es igualindependientes,
al producto de sus las probabilidades
condicionales de la frmula= anterior P(A )P(Ase 1)P(A3...A
2|Areducen k|A1A2) = ... no condicionales y, en
a probabilidades
En el caso de que estos sucesos 1sean mutuamente
probabilidades, independientes, las probabilidades
consecuencia, la probabilidad de la interseccin
= P(A1)P(A2|A1)P(A3...Ak|A1A es igual al producto
2) = ...
de sus probabilidades,
condicionales de la frmula = P(A 1)P(A2|A1)P(A3|A1A2)P(Ak|A1A2...Ak-1).
anterior se reducen a probabilidades no condicionales y, en
k
= P(A1)P(A2|A1)P(A3|A1A2)P(Ak|A1A2...A k
k-1).
P Ai = P(A1A2...Ak) = P(A1)P(A2)P(Ak) = P( Ai ) .
consecuencia,
En el caso de que i =la
1 probabilidad
sucesosdesean
estos la interseccin
mutuamenteesindependientes,
igual al producto lasi =1de sus
probabilidades
En el caso de que estos sucesos sean mutuamente independientes, las probabilidades
probabilidades,
condicionales de la frmula anterior se reducen a probabilidades no condicionales y, en
condicionales
2.4 REGLAdeDE la frmula anterior se reducen
LA PROBABILIDAD a probabilidades no condicionales y, en
TOTAL
consecuencia, lak probabilidad de la interseccin es igual al producto de sus Pastor-Barriuso R. 17
k
Pprobabilidad
consecuencia, la Ai = P(Ade
1A ...Ak) = P(A
la2interseccin )P(A2al)P(A
es 1igual de
k) =
producto susP( Ai ) .
La
probabilidades, i =1
probabilidad no condicional de un suceso B se relaciona con su probabilidad
i =1

i =1 i =1
espacio muestral; es decir, A y Ac son sucesos exhaustivos AAc = y mutuamente
Probabilidad
excluyentes AAc = .
2.4 REGLA DE LA PROBABILIDAD TOTAL
As,
En la probabilidad
general, para unnoconjunto
condicional de B esAla
de sucesos 1, Amedia ponderada
2, ..., A k globalmentede lasexhaustivos
probabilidades
y
2.4LaREGLA DE LA PROBABILIDAD TOTAL
probabilidad no condicional de un suceso B se relaciona con su probabilidad
condicionales de B dadoque Ac. Estauna
A yformen descomposicin de la probabilidad sedel sucesoqueB en
Lamutuamente
probabilidadexcluyentes
no condicional de un suceso particin
B se relacionadel espacio muestral,
con su verifica
probabilidad condicionada
condicionada en la ocurrencia o no de otro suceso A mediante la frmula
en la ocurrencia o nocde otro suceso A mediante la frmula
trminos de A y A es aplicablek porque estos sucesos k
constituyen una particin del
P(B) =P(B) = +PP(A
P(AB) ( Ai c
B)
B) == P(A)P(B|A)
P( Ai ) P( B Ai )c,)P(B|Ac).
+ |P(A
espacio muestral; es decir, A y A son sucesos exhaustivos AAc = y mutuamente
i =1
c
i = 1

As, la probabilidad no condicional de B es la media ponderada de las probabilidades


c
excluyentes
condicionales
conocida deAA
como Bregla
dado .
= de
A ylaAprobabilidad
c
. Esta descomposicin
total. Esta de la probabilidad
frmula del sucesotil
es particularmente 8
B enentrminos
de A y A es aplicable porque estos sucesos constituyen una particin del espacio muestral; es
c

decir, En
A ygeneral,
epidemiologa, para un
Ac son sucesos
donde conjunto
emplean de
seexhaustivos con sucesos
AA c
= WA1y, A
frecuencia 2, ...,
mutuamente
las Ak globalmente
particiones.excluyentes exhaustivos
AAal
Por ejemplo, c
y
=dividir
.
En general, para un conjunto de sucesos A1, A2, ..., Ak globalmente exhaustivos y mutuamente
mutuamente
la poblacin excluyentes que formen unaestn
particin del espacio muestral, se verifica que
excluyentes queenformen
gruposuna
de edad y sexo
particin delseespacio empleando categoras
muestral, se globalmente
verifica que
exhaustivas y mutuamente excluyentes. k En general,k siempre que se divide la poblacin
P(B) = P( Ai B) = P( Ai ) P( B | Ai ) ,
en estratos se aplica una particin i =1
a esa poblacin.i =1

conocida como regla de la probabilidad total. Esta frmula es particularmente til en


conocida como
epidemiologa, reglasedeemplean
donde la probabilidad total. Esta
con frecuencia lasfrmula es particularmente
particiones. Por ejemplo, til en
al dividir la
Ejemplo 2.7 En una poblacin de mayores de 65 aos, los individuos
poblacin en grupos de edad y sexo se estn empleando categoras globalmente exhaustivas y con edades
epidemiologa,
mutuamente donde se
excluyentes. Enemplean
general,con frecuencia
siempre que selasdivide
particiones. Por ejemplo,
la poblacin al dividir
en estratos se aplica
entre 6574, 7584
una particin a esa poblacin.y 85 aos constituyen el 60, 30 y 10% de la poblacin. La
la poblacin en grupos de edad y sexo se estn empleando categoras globalmente
prevalencia de la enfermedad de Alzheimer en estos grupos de edad es
Ejemplo 2.7 En una poblacin de mayores de 65 aos, los individuos con edades entre
exhaustivas y mutuamente
65-74, 75-84 y 85 aosexcluyentes.
constituyen En general,
el 60, 30 y 10% siempre
de laque se divideLa
poblacin. la prevalencia
poblacin de
respectivamente de 20, 75 y 300 casos por 1000. La prevalencia global de la
la enfermedad de Alzheimer en estos grupos de edad es respectivamente de 20, 75 y 300
en casos
estratos
porse1000.
aplicaLauna particin aglobal
prevalencia esa poblacin.
de la enfermedad de Alzheimer en esta poblacin
enfermedad de Alzheimer en esta poblacin de mayores de 65 aos se calculara
de mayores de 65 aos se calculara
Ejemplo 2.7 En una3poblacin de mayores de 65 aos, los individuos con edades
P(A) = P( E i ) P( A | E i )
entre 6574, 7584i =y1 85 aos constituyen el 60, 30 y 10% de la poblacin. La
2.5 TEOREMA DE BAYES = 0,600,020 + 0,300,075 + 0,100,300 = 0,0645,
prevalencia de la enfermedad de Alzheimer en estos grupos de edad es
resultando 64,5 casos por 1000 personas.
El teorema de Bayes permite obtener la probabilidad condicional de A dado B a partir
respectivamente
resultando de 20,
64,5 casos por75 y 300
1000 casos por 1000. La prevalencia global de la
personas.
de la probabilidad de A y de las probabilidades condicionales inversas de B dado A y Ac.
2.5 TEOREMA
enfermedad DEdeBAYES
Alzheimer en esta poblacin de mayores de 65 aos se calculara
Aplicando
El teorema delaBayes
definicin de probabilidad
permite condicionalcondicional
obtener la probabilidad y la regla dedelaAprobabilidad total,de la
dado B a partir
3
probabilidad de A y de las probabilidades condicionales inversas de B dado A y A . Aplicando
c
se obtienede P(A) = P( E i ) P( A | E i )
queprobabilidad 9
la definicin condicional
i =1
y la regla de la probabilidad total, se obtiene que

P( A B) 0,300,075P(+A0,100,300
) P( B | A) = 0,0645,
P(A|B) == 0,600,020 +
= .
P( B) P( A) P( B | A) + P( A c ) P( B | A c )
resultando
El teorema 64,5secasos
de Bayes porfrecuencia
usa con 1000 personas.
en la evaluacin de pruebas diagnsticas. Cuando
El teorema
se desarrolla una de Bayesdiagnstica
prueba se usa con yfrecuencia en lasus
se comparan evaluacin de con
resultados pruebas diagnsticas.
los de un patrn oro
(mtodo de referencia en el diagnstico de la enfermedad), suelen determinarse los siguientes
Cuando se
parmetros desarrolla una propias
o caractersticas prueba diagnstica
de la pruebaydiagnstica:
se comparan sus resultados con los de un

patrn oro (mtodo de referencia en el diagnstico de la enfermedad), suelen 9


18 Pastor-Barriuso R.

determinarse los siguientes parmetros o caractersticas propias de la prueba


Teorema de Bayes

yy Sensibilidad es la probabilidad de obtener un resultado positivo de la prueba diagnstica


entreVP
los P( D) PS(+=| P(+|D).
D) PS
+ =sujetos
P ( D | realmente
+) = enfermos, = ,
P( D) P(+ | D) + P( D ) P(+ | D ) PS + (1 P)(1 E )
c c
yy Especificidad es la probabilidad P( D)deP(+obtener
| D) un resultado negativo
PS entre los sujetos
VP + = P ( D | + ) =
realmente sanos, E = P(|D = ,
P( D) P).(+ | D) + P( D ) P(+ | D ) PS + (1 P)(1 E )
c c c

En la aplicacin clnica de una pruebaPdiagnstica ( D c ) P( | Dac una ) determinada poblacin (1 P ) E interesa conocer,
c
VP los
sin embargo, = Psiguientes
( D | ) = parmetros: = .
| D)c P( | D ) P(1 S )PS + (1 P) E
c c
P( D) P (P| (DDc))+P(P+( D
yy Valor VP + = P ( Dc | +positivo
VP predictivo
)=
= P( D | ) = P( Des laPprobabilidad
( D ) P( | D de ) tener la = enfermedad (1 Pentre
) E las personas
, que
) P(+ | D) + P( D cc ) P(+ | D cc ) = PS P ( 1
+ (1 P)(1 E ) .
S ) + (1 P ) E
P ( D )
tienen un resultado positivo, VP+ = P(D|+). P ( | D ) + P ( D ) P ( | D )
P( D) P(+ | D) PS
yy ValorVPpredictivo
Ejemplo P( D
+ =2.8 negativo
La| +sensibilidad
)= es de la probabilidad
la prueba ELISA de nopara tener = la enfermedad entre,las personas
c detectar seropositividad
P(negativo,
D) P(+ | DVP ) + P( D c
) Pc (+ | D ) PS + (1 P)(1 E )
que tienen un resultado
c P ( D c ) P= (P(D | D c |).) (1 P ) E
VP al=virus
Ejemplo
frente P( D
2.8 La de inmunodeficiencia
)=
|sensibilidad de la prueba
humana ELISA
c es del para = y su especificidad
c detectar
99% seropositividad es. del de la
Aplicando el teorema de Bayes, P( D) Ppueden ( | D) +calcularse
P( D ) P( los| Dvalores) P(1predictivos
S ) + (1 en P) Efuncin
prevalencia de la enfermedad en la poblacin c y de la sensibilidad y especificidad de la prueba
frente
96%. al
En virus
una cde inmunodeficiencia
poblacin con una P( D )P ( | D c de
humana
prevalencia )es infeccin
del 99% ypor P ) Ede es del
el(1virus
su especificidad
diagnstica,
VP = P( D | ) = = .
P( D) P ( | D) + P( D ) P( | D ) P(1 S ) + (1 P) E
c c

Ejemplo
96%. 2.8 La
En una
inmunodeficiencia sensibilidad
poblacin con del de0,3%,
una la
P (prueba
prevalencia(+ |ELISA
D) Pnicamente Dde ) infeccin para detectar
por elseropositividad
virus
PS de con un
VP + = P ( D | + )humana = el 6,9% = de las personas ,
P( D) P(+ | D) + P( D c ) P(+ | D c ) PS + (1 P)(1 E )
frente al virus
inmunodeficiencia
resultado positivode inmunodeficiencia
humana
del test ELISA del 0,3%, humana
nicamente
estarn realmentees del el 99%
6,9%yde
infectadas, sulas especificidad
personas con es un del
Ejemplo 2.8 La sensibilidad de la prueba ELISA para detectar seropositividad
c P ( D c ) P( | D c ) (1 P ) E
96%.VPEn
resultado P( D
=una | del
poblacin
positivo ) =test conELISAuna prevalencia
estarn realmente de infeccin = por el virus de
infectadas, .
frente al virus de inmunodeficienciaP(PS D) P ( | D)humana + P( D )es c
0P,003 | D
(del 0,)99y Psu(1especificidad
99% c
S ) + (1 P)es E del
VP+ = = = 0,069,
inmunodeficiencia PShumana
+ (1 Pdel )(1 0,3%,E ) nicamente
0,003 0,99 el + 06,9% ,997 de 0,04
las personas con un
96%. En una PS una prevalencia de 0,003 0,99 por el virus de
VP+poblacin
= con = infeccin = 0,069,
Ejemplo 2.8 LaPS sensibilidad
+ test P)(1de
(1 ELISA Elaestarn
) prueba
0,003 ELISA
0,99 +para detectar
0,04 seropositividad frente al
0infectadas,
,997
resultado positivo del realmente
virus de inmunodeficiencia
mientras que prcticamente
inmunodeficiencia humana del humana
todas 0,3%, las es del 99%
personas
nicamente conyelresultado
su 6,9%especificidad
de negativo
las personasesestarn
delcon
96%. un En una
Ejemplo 2.8 La sensibilidad de la prueba ELISA
poblacin con una prevalencia de infeccin por el virus de inmunodeficiencia humana del para detectar seropositividad
mientras
0,3%,
libres de
resultado que
nicamente
la prcticamente
infeccin,
positivo el testPS
del6,9% de todas
ELISA las
las personas personas
estarn con
realmente un0con
,003 resultado
infectadas,
resultado 0,99 positivo negativo del estarn
test ELISA estarn
frente alVP+
virus =de inmunodeficiencia = humana es del 99% y su = 0,069, es del
especificidad
realmente infectadas, PS + (1 P)(1 E ) 0,003 0,99 + 0,997 0,04
libres de la infeccin,
96%. EnVP- una poblacin (1 PS P) Euna prevalencia 00de
con ,,997
003 00,,99
infeccin 96 por el virus de
VP+ == =
= =
= 1,000.
0,069,
PPS
mientras que prcticamente +(1S(1)+PP()1todas
(1 )( 1 P)EE las
) 00,,003
personas
003 00,,con
01 +
99 + 00,,997
resultado
997 00,,negativo
96
04 estarn
E 0,997 0,96
inmunodeficiencia
VP- = humana del 0,3%, = nicamente el 6,9% de las=personas 1,000. con un
mientras
libres de que P(1 S ) + (1todas
prcticamente
la infeccin, P) las E personas
0,003 0con ,01 +resultado
0,997 0,negativo96 estarn libres de la
Sin embargo,
mientras
infeccin, que en una
prcticamente poblacin todas de alto
las riesgo
personas
resultado positivo del test ELISA estarn realmente infectadas, concon una
resultadoprevalencianegativo del virus
estarnde

Sin embargo, en unahumana


inmunodeficiencia
libres de la poblacin
(1 Pdel de altoelriesgo
) E 10%, 73,3%con0de,997 una
los ,prevalencia
0sujetos
96 del virus de
con resultado
VPinfeccin,
= = ,99 0,96 1,000.
=
VP+ = P(1 S ) +PS (1 P) E =0,003 0,001 + 0 ,0997
,003
= 0,069,
inmunodeficiencia humana
positivo estarn realmente
PS del
P)(110%,
+ (1 infectados, E )el 73,3%0,003 de 0,99 los+sujetos
0,997 con 0,04resultado
Sin embargo, en una(1 poblacin P) E de alto riesgo0,997 con 0,96 una prevalencia del virus de
VP- = = = 1,000.
inmunodeficiencia
Sin embargo,
positivo (1humana
enrealmente
estarn Puna poblacin (del
1 10%, el 073,3%
Pde) Ealto
S ) + infectados, ,003 0de
riesgo con
,01 losuna
+ sujetos
0,997 con
0,96resultado
prevalencia positivo
del virus de estarn
mientras infectados,
realmente que prcticamente PS 0 ,10 0 ,
todas las=personas con resultado negativo99
VP+ = = 0,733,estarn
inmunodeficienciaPS + (1 del
humana P)(110%, E ) el 73,3%
0,10 0,de 99los+ 0sujetos
,90 0,04 con resultado
Sin embargo, en=una poblacin PS de alto riesgo con 0,10una 0,99 prevalencia del virus de
libres de VP+
la infeccin, = = 0,733,
PS + (1 P
positivo estarn realmente infectados, )(1 E ) 0 ,10 0 , 99 + 0 , 90 0 , 04
siendo muy improbable
inmunodeficiencia humana la infeccin
del 10%,entre el 73,3%aquellos
de los sujetos
sujetos con conresultado
resultadonegativo,
siendo muy improbable(1lainfeccin P) E entre aquellos 0,997 sujetos
0,96 con resultado negativo,
siendo VP- = = aquellos sujetos con resultado = 1,000.
positivomuy improbable
estarn
VP+ = P (1
realmente Sla) PS
infeccin
+ (1
infectados,
(1 P) E P ) Eentre
= 0 , 003 00,10
, 01 +0,099
0,90 0,96 ,997 0,96= 0,733,
negativo,
VP = PS + (1 P)(1 E ) = 0,10 0,99 + 0,90 0,04 = 0,999.
P(1 S ) + (1 P) E 0,10 0,01 + 0,90 0,96
(1 PS P) E 0,,9010 una
00,,96
Sin embargo,
VP- == una poblacin
VP+
en de alto == riesgo0con 99prevalencia del virus de
== 0,999.
0,733,
P
siendo muy improbable (1 S ) + (
PS + (1lainfeccin1 P ) E
P)(1 E )entre 0 ,10
0,10 0 ,
aquellos01 +
0,99 +sujetos0 , 90
0,90 0con0 ,96
,04 resultado negativo,
inmunodeficiencia humana del 10%, el 73,3% de los sujetos con resultado

siendo muy improbable P) E


(1lainfeccin entre 0,90 0,96
= aquellos sujetos con resultado
= 0,999. negativo, 11 R.
Pastor-Barriuso 19
positivo estarn
VP- = realmente infectados,
P(1 S ) + (1 P) E 0,10 0,01 + 0,90 0,96
11
(1 PPS)E ,10 0 ,096
0,090 ,99
Como puede apreciarse, el valor predictivo positivo de esta prueba vara
Probabilidad
enormemente
Como puede en funcin de
apreciarse, la prevalencia
el valor predictivopoblacional
positivo dedeesta
la infeccin.
prueba vara

enormemente en funcin de la prevalencia poblacional de la infeccin.


EnComo
general,
puede , A2, ..., Ak el
si A1apreciarse, son sucesos
valor globalmente
predictivo positivoexhaustivos y mutuamente
de esta prueba vara enormemente en
funcin de la prevalencia poblacional de la infeccin.
excluyentes, el teorema
En general, si A1, A2de
, ...,Bayes
Ak sonpuede generalizarse
sucesos globalmentecomo
exhaustivos y mutuamente
En general, si A1, A2, ..., Ak son sucesos globalmente exhaustivos y mutuamente excluyentes,
elexcluyentes, el teorema
teorema de Bayes puede degeneralizarse
BayesPpuede generalizarse
( Ai como
B) P ( Ai )como
P( B | Ai )
P(Ai|B) = = k .
P( B)
P( Ai B)
P( A ) P( B | A )
P ( Aij) P( B | Ai j)
P(Ai|B) = = k
j =1
.
P( B)
P( A j ) P( B | A j )
j =1

Ejemplo 2.9 Continuando con el Ejemplo 2.7, la distribucin de los casos de la


Ejemplo 2.9 Continuando con el Ejemplo 2.7, la distribucin de los casos de la
enfermedad deContinuando
Ejemplo 2.9
enfermedad de Alzheimer por
Alzheimer por grupo
congrupo de edad
edad
el Ejemplo
de viene
2.7, dada por
por de los casos de la
la distribucin
viene dada

enfermedad de Alzheimer Ppor ( E1grupo


) P( A |deE1edad
) viene
0,60 dada
0,020por
P(E1|A) = 3 = = 0,186,
0,0645
PP((EE1i))PP((AA|| EE1i)) 0,60 0,020
P(E1|A) = i =13 = = 0,186,
0,0645
P( EP2()EPi () P
A(| A
E |2 E
) i ) 0,30 0,075
P(E2 |A) = i =1 = = 0,349,
3
0,0645
P( E i ) P( A | E i )
i =1
P( E 2 ) P( A | E 2 ) 0,30 0,075
P(E2|A) = 3 = = 0,349,
P( E 3 ) P( A | E 3 ) 0,100,0645
0,300
P(E3|A) = 3 P ( E i ) P( A | E i )= = 0,465.
0,0645
P( E i ) P( A | E i )
i =1

i =1

Esto es, el 18,6, P(E


34,93|A)
y 46,5%P( E 3 ) P( A | E 3 ) 0,10 0,300
= 3 de los casos de la = enfermedad =de0,465.
Alzheimer tienen edades
entre 65-74, 75-84 y 85 aos, (respectivamente. 0,0645
Esto es, el 18,6, 34,9 y 46,5% PdeElos
i =1
i ) Pcasos
( A | Ede
i ) la enfermedad de Alzheimer tienen

2.6REFERENCIAS
edades entre
Esto es, 6574,
el 18,6, 7584
34,9 y 85
y 46,5% de aos, respectivamente.
los casos de la enfermedad de Alzheimer tienen
1. Billingsley P. Probability and Measure, Third Edition. New York: John Wiley & Sons, 1995.
edades entre 6574, 7584 y 85 aos, respectivamente.
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press, 2002.
2.6 REFERENCIAS
3. Feller W. An Introduction to Probability Theory and Its Applications, Volume 1, Third
Edition. New York: John Wiley & Sons, 1968.
2.6 REFERENCIAS
4. 1.Rosner
Billingsley P. Probability
B. Fundamentals and Measure,
of Biostatistics, Third
Sixth Edition.
Edition. New York:
Belmont, John Wiley
CA: Duxbury & 2006.
Press,

1. Sons, 1995. P. Probability and Measure, Third Edition. New York: John Wiley &
Billingsley

Sons, 1995.

12

12

20 Pastor-Barriuso R.
TEMA 3

VARIABLES ALEATORIAS Y
DISTRIBUCIONES DEPROBABILIDAD

3.1INTRODUCCIN

En el tema de estadstica descriptiva se revisaron las tcnicas necesarias para la realizacin de un


anlisis descriptivo de las variables recogidas en una muestra. El presente tema se centra en describir
algunos modelos tericos de probabilidad que permiten caracterizar la distribucin poblacional de
determinadas variables y que, a su vez, son aplicables a mltiples situaciones prcticas.
Cuando se realiza un estudio o un experimento aleatorio, es frecuente asignar a los resultados
del mismo una cantidad numrica. A la funcin que asocia un nmero real a cada resultado de un
experimento se le denomina variable aleatoria. Aunque el concepto de variable se ha introducido
con anterioridad, una definicin ms formal de variable aleatoria es, por tanto, la de una funcin
definida sobre el espacio muestral W que asigna a cada posible resultado de un experimento un
valor numrico. Aunque en general pueden definirse mltiples variables aleatorias para un mismo
experimento, es aconsejable seleccionar en cada caso aquellas variables que recojan las
caractersticas fundamentales del experimento. Las variables aleatorias suelen denotarse por
letras maysculas del final del alfabeto, tales como X, Y o Z, mientras que los valores que pueden
tomar se representan por sus correspondientes letras minsculas, x, y o z.

Ejemplo 3.1 A continuacin se definen algunas variables aleatorias para los experimentos
del Ejemplo 2.1 del tema anterior. En el experimento consistente en observar la
supervivencia a los 6 meses de 4 pacientes con cncer sometidos a tratamiento, una
variable aleatoria X podra ser el nmero de supervivientes, que tomara los valores X =
0, 1, 2, 3 4 en funcin del nmero de pacientes que hayan sobrevivido a los 6 meses.
Alternativamente, podra definirse otra variable aleatoria Y como el nmero de muertes,
cuyos valores seran Y = 0, 1, 2, 3 4 en funcin del nmero de muertes observadas. Para
el experimento de medir el colesterol HDL de una persona, la variable aleatoria X ms
natural sera el nivel de colesterol HDL en mmol/l, que podra tomar cualquier valor
positivo. Si el inters se centra en saber si los niveles de colesterol HDL son superiores o
inferiores al umbral de 0,90 mmol/l, otra variable aleatoria Y podra definirse como Y = 0
si el nivel observado es inferior a 0,90 mmol/l y 1 en caso contrario. La eleccin de los
valores 0 y 1 es arbitraria, bastara con asignar dos valores distintos para diferenciar
ambos tipos de resultados.

Como las variables aleatorias son funciones definidas sobre el espacio muestral, sus posibles
valores tendrn asociada una probabilidad, que corresponder a la probabilidad del suceso
constituido por aquellos resultados del experimento que toman dichos valores. Los diferentes
valores de una variable aleatoria y las probabilidades asociadas constituyen la distribucin de
probabilidad de la variable.

Ejemplo 3.2 En el primer experimento del ejemplo anterior, el nmero de supervivientes


es una variable aleatoria que toma los valores X = 0, 1, 2, 3 4. La probabilidad asociada
al valor 0 P(X = 0) sera la probabilidad del suceso ninguno de los 4 pacientes sobrevive

Pastor-Barriuso R. 21
Variables aleatorias y distribuciones deprobabilidad

a los 6 meses, la probabilidad asociada al valor 1 P(X = 1) sera la probabilidad del


suceso slo 1 de los 4 pacientes sobrevive a los 6 meses, y as sucesivamente. En el
segundo experimento, el nivel de colesterol HDL es una variable aleatoria X que puede
tomar cualquier valor en el intervalo (0, ). En este caso no tiene sentido preguntarse, por
ejemplo, cul es la probabilidad de tener exactamente un nivel de colesterol HDL de 1
mmol/l, ya que si esta variable se pudiera determinar con una precisin infinita, la
probabilidad P(X = 1) = 0. En tal caso, deberamos preguntarnos por la probabilidad de
un determinado intervalo de valores. As, por ejemplo, la probabilidad P(X 1) sera la
probabilidad del suceso tener niveles de colesterol HDL menores o iguales a 1 mmol/l.

En general, se distinguen dos grandes grupos de variables aleatorias:


yy Variables aleatorias discretas son aquellas que tan slo puede tomar un nmero discreto
(finito o infinito) de valores. Cada uno de estos valores lleva asociada una probabilidad
positiva, mientras que la probabilidad de los restantes valores es 0.
yy Variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de
un intervalo.
valor xi, i = 1, 2,En...,este caso,
de la la probabilidad
variable discreta X desu obtener un valor
probabilidad P(Xconcreto
= xi) se es 0, porcomo
conoce lo que las
probabilidades se asignan a intervalos de valores.
funcin
valor
A xi, de
i = masa
continuacin dede
1, 2,se..., probabilidad.
la variable
describen Esta funcin
discreta
las principales debe cumplir
X su probabilidad
caractersticas P(X
de las las=siguientes
xi) sealeatorias
variables conoce como
discretas
y continuas, as como algunas distribuciones tericas de probabilidad que sern aplicables a
propiedades:
funcin
muchas la probabilidad
de variables
de las masa de aleatorias deutilizadas
cadaEsta
probabilidad. valorfuncin
enhalade estar
debeentre 0 y las
cumplir
prctica. < P(X = xi) 1, y la
1, 0siguientes

suma de las probabilidades


propiedades: la probabilidadpara todosvalor
de cada los valores
ha de estardebeentre
ser igual a 1,
0 y 1, 0 < P(X = xi) 1, y la
3.2 DISTRIBUCIONES DE PROBABILIDAD DISCRETAS
valor xi, i = 1, 2, ..., de la variable discreta X su probabilidad P(X = xi) se conoce como
suma de las probabilidades para todos Plos ( Xvalores =debe
1. ser igual a 1,
Las variables aleatorias discretas toman un = x i )discreto
nmero de valores con probabilidad no nula
funcin de masa de probabilidad. Esta
i 1
funcin debe cumplir las siguientes
y, en consecuencia, estarn completamente caracterizadas si se conoce la probabilidad asociada
a cada uno de estos valores. La funcin P( Xasigna
que = x i ) a= cada
1. posible valor x , i = 1, 2, ..., de la
i
propiedades:
variableUna la probabilidad
vez conocida
discreta X su deP(X
la funcin
probabilidad cada
= valor
de masa
i 1 ha de estar
deconoce
xi) se probabilidad,
comoentre
funcin < P(Xde
la 0probabilidad
y 1,de0 masa de xprobabilidad.
i) una
= que 1, y la
Esta funcin debe cumplir las siguientes propiedades: la probabilidad de cada valor ha de estar
variable
suma
entre yde
0Una aleatoria
las
1,vez P(X discreta
probabilidades 1,Xpara
yest
= xi)lafuncin
0 <conocida comprendida
todos
la suma
de masa losde
de las en cualquier
valores
probabilidades
probabilidad, subconjunto
debe serlaigual
para atodos
1, los
probabilidad Adese calcula
valores
que debe ser
una
igual a 1,
como la suma
variable de las
aleatoria probabilidades
discreta de aquellosenvalores
X est comprendida xi incluidos dentro de calcula
A se ese
P( X = x ) =cualquier
1.i
subconjunto
i 1
subconjunto,
como la suma de las probabilidades de aquellos valores xi incluidos dentro de ese
Una vez conocida la funcin de masa de probabilidad, la probabilidad de que una variable
Unadiscreta
aleatoria vez conocida
subconjunto, X est la funcin de masa
comprendida de probabilidad,
en cualquier subconjunto la probabilidad
A se calculade que la
como unasuma de
P(X A) =
las probabilidades de aquellos valores xi incluidos
xi A
P ( X =
dentro x ) .
ide ese subconjunto,

variable aleatoria discreta X est comprendida en cualquier subconjunto A se calcula


P(X A) = P( X = x i ) .
como la suma la
En particular, defuncin
las probabilidades de aquellos
de distribucin
xi A
F(x) devalores xi incluidos
una variable dentro
aleatoria dedefine
X se ese
En particular, la funcin de distribucin F(x) de una variable aleatoria X se define como la
subconjunto,
como la probabilidad
probabilidad de observar
En particular, de
la funcinunobservar
valor un valor
menor menor
o igual
de distribucin F(x) x, ouna
a de igual a x, aleatoria X se define
variable

F(x)P(X
como la probabilidad de observar P(X
= un valor
A) = P( XPo=( igual
=x)menor Xx =) .xai )x,.
i
xi A
xi x

La funcin de distribucin de una F(x)variable x) = ser


= P(X discreta P ( Xuna
= xfuncin
i ). escalonada creciente con
La
saltos funcin
en los de distribucin
valores x con de una variable
probabilidad no discreta
nula. xi x ser una funcin escalonada
En particular, la funcin
i de distribucin F(x) de una variable aleatoria X se define
creciente
La funcincon
desaltos en los valores
distribucin xi con probabilidad
de una variable nouna
discreta ser nula.
funcin escalonada
como la probabilidad de observar un valor menor o igual a x,
22 Pastor-Barriuso R.
creciente con saltos en los valores xi con probabilidad no nula.
Ejemplo 3.3 Supongamos F(x) que
= P(X x) = previos
porestudios P ( X = xse
i ) .estima que, despus de 6
xi x

meses de tratamiento en 4 pacientes con cncer, la probabilidad de que sobrevivan


0, 1, 2, 3 y 4 con probabilidad no nula.

Distribuciones de probabilidad discretas

[Tabla 3.1 aproximadamente aqu]


Ejemplo 3.3 Supongamos que por estudios previos se estima que, despus de 6 meses
de tratamiento en 4 pacientes con cncer,
[Figura la probabilidadaqu]
3.1 aproximadamente de que sobrevivan 0, 1, 2, 3 4
pacientes viene determinada por la segunda columna de la Tabla 3.1. Estos valores y sus
probabilidades constituyen la funcin de masa de probabilidad de la variable nmero de
supervivientes,
En el primer temaquedeseestadstica
muestra endescriptiva,
la Figura 3.1(a). Los valores
se definieron de la funcin
la media de distribucin
y la varianza
en 0, 1, 2, 3 y 4 aparecen en la tercera columna de la Tabla 3.1; as, por ejemplo, la funcin
de distribucin
muestral en 1 esdeF(1)
como medidas = P(X central
tendencia 1) = P(X = 0) + P(Xde= una
y dispersin 1) =variable
0,1296 +en0,3456
una = 0,4752.
La funcin de distribucin de esta variable se representa en la Figura 3.1(b). Notar que
F(x) est
muestra. definida sobre
A continuacin, cualquier
se definen nmero
medidas real, aun
anlogas cuando
para la variable
la distribucin tome slo los
poblacional
valores 0, 1, 2, 3 y 4 con probabilidad no nula.
de una variable aleatoria. La esperanza o media poblacional de una variable aleatoria
En el primer tema de estadstica descriptiva, se definieron la media y la varianza muestral
como medidas
discreta de tendencia
X, denotada por central y dispersin
o E(X), de unalavariable
se define como suma deenlosuna muestra.de
productos A continuacin,
cada
se definen medidas anlogas para la distribucin poblacional de una variable aleatoria. La
esperanza o media
valor xi por poblacional
su probabilidad P(X xi),variable aleatoria discreta X, denotada por o E(X), se
de=una
define como la suma de los productos de cada valor xi por su probabilidad P(X = xi),

= E(X) = x P( X = x ) .
i 1
i i

Tabla
La esperanza es la media3.1 Funcin
de los valores xde masa de probabilidad y
i ponderados por su probabilidad y representa
funcin de distribucin del nmero de supervivientes
a los de
as el valor promedio 6 meses de4aleatoria.
la variable pacientesNotar
con cncer sometidos
que la media a se puede
muestral
tratamiento.
calcular de forma similar, multiplicando cada
Nmero valor observado
Funcin de la variable por su
Funcin
de supervivientes de masa de distribucin
frecuencia relativa. (x) P(X = x)una
La varianza poblacional de F(x) = aleatoria
variable P(X x) discreta X,
0 0,1296 0,1296
abreviada por o var(X), 1se define
2
como 0,3456
la esperanza del 0,4752
cuadrado de la desviacin de
2 0,3456 0,8208
3 0,1536 0,9744
la variable respecto de su media,
4 0,0256 1,0000

0,4
2 = var(X) = E(X - )2 = (x
i 1
i ) 2 P( X = xi )
1

0,8
0,3 = x
i 1
2
i P( X = x i ) 2 = E(X2) - 2.
0,6
P(X = x) 0,2 F(x)
0,4
5
0,1
0,2

0 0

0 1 2 3 4 0 1 2 3 4
x x

(a) (b)

Figura 3.1 Funcin de masa de probabilidad (a) y funcin de distribucin (b) del nmero de supervivientes
a los 6 meses de 4 pacientes con cncer sometidos a tratamiento.
Figura 3.1
Pastor-Barriuso R. 23
as el valor promedio de la variable aleatoria. Notar que la media muestral se puede
Variables aleatorias y distribuciones deprobabilidad
calcular de forma similar, multiplicando cada valor observado de la variable por su

frecuencia relativa. La varianza poblacional de una variable aleatoria discreta X,


La esperanza
s, la varianza resulta es la ponderada
ser la media media de los del valores
cuadradoxi ponderados por su probabilidad
de las desviaciones en los y representa as el
valor promedio de la2variable aleatoria. Notar que la media muestral se puede calcular de forma
abreviada por o var(X), se define como la esperanza del cuadrado de la desviacin de
lores xi. La razsimilar,
cuadradamultiplicando
de la varianzacadaes lavalor observado
desviacin tpica de la variable
poblacional por su frecuencia relativa. La
, que
As, la varianza
varianza resulta
poblacional deser
unalavariable
media ponderada del cuadrado
aleatoria discreta de las desviaciones
X, abreviada en los
por 2 o var(X), se define
la variable respecto de su media,
como ladeesperanza
presenta la dispersin la variable delaleatoria
cuadrado de la desviacin
respecto de su mediadepoblacional.
la variable respecto de su media,
As, la varianza
valores resulta
x . La raz ser lade
cuadrada media ponderada
la varianza es ladel cuadradotpica
desviacin de laspoblacional
desviaciones , en
quelos
i
2 = var(X) = E(X )2 = ( xi ) 2 P( X = xi )
valores x . La raz cuadrada de la varianza esi la desviacindetpica poblacional , que
Ejemplo 3.4 representa
A partir delalosdispersin
datos del de la variable aleatoria respecto su
delmedia poblacional.
i
ejemplo anterior, el 1valor esperado
= xrespecto
representa la dispersin de la variable aleatoria i P( X = x
de
2
media
i ) su = E(X ) . 2
poblacional.
2 2
nmero de supervivientes a los 6 meses de 4 pacientes coni 1 cncer sometidos a
Ejemplo 3.4 A partir de los datos del ejemplo anterior, el valor esperado del
tratamiento As,
seralaEjemplo
varianza3.4resulta
A partir ser lademedia ponderada
losadatos del del cuadrado
ejemplo anterior,de las
elcon desviaciones
valor esperado en los valores
del
xi. La raznmero de supervivientes
cuadrada de la varianza loses6la
meses de 4 pacientes
desviacin cncer
tpica poblacional sometidos a
, que representa5la
dispersin
4 de ladevariable
nmero aleatoriaa respecto
supervivientes de su
los 6 meses demedia poblacional.
4 pacientes con cncer sometidos a
tratamiento sera
= kP( X = k ) = 00,1296 + 10,3456 + ... + 40,0256 = 1,60,
k = 0 Ejemplo 3.4 A partir de los datos del ejemplo anterior, el valor esperado del nmero de
tratamiento sera
supervivientes a4 los 6 meses de 4 pacientes con cncer sometidos a tratamiento sera
= kP( X = k ) = 00,1296 + 10,3456 + ... + 40,0256 = 1,60,
y la varianza 4k = 0
= kP( X = k ) = 00,1296 + 10,3456 + ... + 40,0256 = 1,60,
k =0
y 4la varianza
=y
2
la
(k ) 2 P( X = k )
varianza
k =0
y la varianza
4
2 2 =+
= (0 - 1,60) 0,1296
... (+k(4 ) 2 P( X
- 1,60) 2 = k)
0,0256 = 0,96.
4k = 0
2 == )220,1296
(k1,60)
(0 P( X =+k )... + (4 1,60)20,0256 = 0,96.
Es decir, el nmero esperado de supervivientes
k =0 a los 6 meses es 1,60 y la
Es decir, el nmero esperado 2de supervivientes a los 62meses es 1,60 y la desviacin tpica
desviacin tpica Es
= decir, = (0 - 1,60) 0,1296 + ... + (4 - 1,60) 0,0256 = 0,96.
0,96 el=nmero
0,98. esperado de supervivientes a los 6 meses es 1,60 y la

Es decir, el nmero esperado de supervivientes a los 6 meses es 1,60 y la


3.2.1 desviacin
Distribucin tpica = 0,96 = 0,98.
binomial
2.1 Distribucin binomial
La distribucin
desviacinbinomial
tpica es=un 0modelo terico de distribucin de probabilidad discreta aplicable
,96 = 0,98.
distribucin binomial es un modelo terico de distribucin denprobabilidad
a aquellos experimentos en los que se realizan pruebas independientes,
discreta cada una de ellas con
3.2.1 Distribucin binomial
slo dos resultados posibles (xito o fracaso) y la misma probabilidad de xito . En tal caso, se
dice
licable a aquellos que la variable
experimentos aleatoria
en los X nmero
que se realizan de xitos
n pruebas en las n pruebas
independientes, cada sigue una distribucin
3.2.1
La Distribucin
distribucin binomial
binomial es un modelo terico de distribucin
binomial con parmetros n y . A partir de los resultados del tema de probabilidad de probabilidad(vase
discreta
Ejemplo
3.5),
a de ellas con slo puede probarse
dos resultados que la distribucin
posibleses(xito binomial
o fracaso) toma
y lademisma valores en k
probabilidad = 0, 1, ..., n con probabilidad
La distribucin
aplicable binomial
a aquellos un modelo
experimentos en los terico
que se distribucin
realizan de probabilidad
n pruebas discreta
independientes, cada
n n k k
xito . En tal caso, se dice
aplicable que la variable
a aquellos P(XP(X
=enk)=los
aleatoria
experimentos X=k) = se(realizan
nmero
que (1xitos
1de nk nk
)fracaso)
)n, pruebas
en, las n independientes, cada
una de ellas con slo dos resultados posibles
(xito
k k o y la misma probabilidad
uebas sigue unaunadistribucin
de ellas conbinomial
slo doscon parmetros n y .(xito
A partir de los y la misma probabilidad
n
de xito . En tal caso, seresultados
dice que la posibles
variable o fracaso)
aleatoria X nmero de xitos en las n
n n! n!
donde
donde = = es
es el
el
es nmero
nmero
el nmerode
de combinaciones
combinaciones
de combinaciones de ndeelementos
elementos tomados
n elementos tomadosde kdeenk k,
encon
sultados del temadedexito k. kEn
probabilidad k!tal
((vase
(nk!caso,
nk)!kseEjemplo
)! dice que 3.5),
la puede probarse
variable aleatoria que
X la
nmero de xitos en las n
pruebas sigue una distribucin binomial con parmetros n y . A partir de los
n! = n(n 1)1 y 0! = 1. Por supuesto, estas probabilidades constituyen una funcin de
stribucin binomial toma
pruebas
masa de valores
sigue
n! probabilidad una k ya
endistribucin
= y0,que,
0!1, n con
...,1.binomialprobabilidad
con nparmetros
y , y es. A
npuede partir deque
losigual
k, con
k, con
resultados =n! n(n -tema
= n(n
del 1)1
- 1)1 y =0!para
de probabilidad 1. cualquier
= Por supuesto,
Por estas
supuesto,
(vase Ejemplo su
estas suma
probabilidades exactamente
probabilidades
3.5), constituyen a 1. En la
launauna
constituyen
probarse
prctica, resulta tedioso calcular las probabilidades de una distribucin binomial mediante la
resultados
funcin
funcin de de
distribucin del
masa tema
masade de
binomial de probabilidad
probabilidad
probabilidad
toma valores (vase
ya ya
que, Ejemplo
k para
enque, n3.5),
cualquier
para
= 0, cualquier
1, ..., con puede ,probarse
ny, su
n yprobabilidad
suma que la
es exactamente
su suma es exactamente

distribucin
igual a 1.a En
igual binomial toma
la prctica,
1. En valores
resulta
la prctica, en kcalcular
tedioso
resulta = 0,
tedioso lasnlas
1, ...,
calcular con probabilidad
probabilidades de de
probabilidades una distribucin
24 Pastor-Barriuso R. 6 una distribucin
binomial mediante
binomial la frmula
mediante anterior.
la frmula PorPor
anterior. ello, en en
ello, la Tabla 1 del
la Tabla Apndice
1 del se facilitan
Apndice se facilitan
6
caractersticas sometidos a una misma terapia.
Distribuciones de probabilidad discretas

Ejemplo 3.5 En los ejemplos anteriores, se ha considerado el experimento de

observar
frmula la Por
anterior. supervivencia (o muerte)
ello, en la Tabla en pacientes
1 del Apndice con un determinado
se facilitan las probabilidades cncer binomiales
para n = 2, 3, ..., 20 y = 0,05, 0,10, ..., 0,50.
sometidos al mismo tratamiento. Si por estudios previos se sabe que la
En general, la distribucin binomial se aplica al estudio de observaciones repetidas e
independientes de una misma variable dicotmica (con slo dos resultados posibles), tal como
supervivencia a los 6 meses en dichos pacientes es del 40%, el nmero de
el resultado de un tratamiento (xito o fracaso) en pacientes de similares caractersticas
sometidos a una misma terapia.
supervivientes a los 6 meses en una muestra de 4 pacientes seguir una
dado que el resultado en cada paciente es independiente y todos tienen una misma
Ejemplo 3.5binomial
distribucin En los ejemplos
X de parmetros anteriores, n = se 4 yha considerado
= 0,4. el experimento de observar
probabilidad de supervivencia del 0,4. En general,
la supervivencia (o muerte) en pacientes con un determinado cncer la probabilidad desometidos
que al mismo
tratamiento.
Utilizando Si
las por
leyes estudios
de la previos
probabilidad, se sabe que
si denotamos la supervivencia
por Si al sucesoa los 6 meses
dedeque en dichos
dado
sobrevivanque 2 el resultado
pacientes en cada
cualesquiera paciente
puede es independiente
descomponerse,
pacientes es del 40%, el nmero de supervivientes a los 6 meses en una muestra de 4 y
en todos
funcin tienen una
qu misma
pacientes seguir
sobreviva el i-simo unapaciente,
distribucin binomial X de de que
parmetros n = 4nicamente
y = 0,4. los
probabilidad
pacientes sobrevivan, como la probabilidad
de supervivencia del 0,4. En general, sobrevivan
la probabilidad de que
Utilizando las leyes de la probabilidad, si denotamos por Si al suceso de que sobreviva el
dado
dos quepaciente,
el resultado
primeros
i-simo pacientes envendra
cada paciente
la probabilidad dada
de que pores independiente
sobrevivan nicamentey todoslos tienenprimeros
una misma
sobrevivan 2 pacientes cualesquiera cpuede c descomponerse, c enc dos
funcin de qu pacientes
vendra dada por P(X = 2) = P{(S1S2 S 3 S 4 )(S1 S 2 S3 S 4 )
probabilidad de supervivencia del 0,4. En general, la probabilidad de que
pacientesP(Ssobrevivan,
1S2 S 3 como
c
S 4c ) = P(S1)P(S2)P( S 3c )P( S 4c ) = 0,42(1 0,4)2,
sobrevivan 2 pacientes cualesquiera (S1 S 2cpuede S 3c descomponerse,
S4)( S1c S2Sen 3 S 4 )
c
funcin de qu
dado que el resultado en cada paciente es independiente c c
y todosctienen unac misma probabilidad
P ( X = 2) = P {( S
de supervivencia del 0,4. En general, la 3probabilidad
1 S 2 S S 4 )( S1de S2 que S3sobrevivan
S4 ) 2 pacientes
pacientes sobrevivan, como( S1c S2 S 3c S4)( S1c S 2c S3S4)}.
cualesquiera puede descomponerse, en funcin de qu pacientes sobrevivan, como
(S1 S 2c S 3c S4)( S1c S2S3 S 4c )
posibles 7
c
Esta probabilidadP(Xest = P{(S1Spor
= 2)constituida 2 Sla 3 S 4c )(
unin deStantos
1 S 2
c
S3 S 4c como
sucesos )
cc c c c
(S( 1 S12 SS23SS34 S4)(
S1c SS12 SS32SS4c3 ) S4)}.
c
)(
4 4! 24
combinaciones de 4 pacientes ( Stomados
c
S S dec 2 en 2; es
S )( S c decir,
S c
S S= )}. =
2 4 2 2! (4 2)! 4
3 4
Esta probabilidad est constituida por la unin de tantos sucesos
1 3 1 2
como posibles
Esta probabilidad est constituida por la unin de tantos sucesos como posibles
= 6 sucesos. Adems, estos sucesos son mutuamente excluyentes y todos ellos
4 4! 24
combinaciones
combinaciones de 4depacientes
4 pacientes tomados
tomados dede2 2enen 2;es
2; decir, =
es decir, = =6
Esta
tienenprobabilidad
una misma est constituida
probabilidad de por
ocurrir la uninde 0,4 de(1tantos
2
- 0,4)sucesos
2
2como
. En consecuencia, (4 2)!
2!posibles la 4
sucesos. Adems, estos sucesos son mutuamente excluyentes y todos ellos tienen una
= 6 probabilidad
misma sucesos.
probabilidad Adems,
de que estosde
sobrevivan
de ocurrir sucesos
2 0,4 2 son mutuamente
pacientes
(1 0,4) cualesquiera
2
. En consecuencia,es 4 la probabilidad
excluyentes 4y! todos ellos
24 de que
combinaciones de 4 pacientes tomados de 2 en 2; es decir, = =
sobrevivan 2 pacientes cualesquiera es 2 2! (4 2)! 4
tienen una misma probabilidad de ocurrir de 0,42(1 - 0,4)2. En consecuencia, la
4 2
= 6 sucesos. Adems, P 2) = son
(X =sucesos
estos (1 0,4) 2 =excluyentes
0,4mutuamente 0,3456, y todos ellos
probabilidad de que sobrevivan 22 pacientes cualesquiera es
tienen una mismaa probabilidad
que corresponde la probabilidad dedeocurrir de 0,42(1 binomial
la distribucin - 0,4)2. En deconsecuencia,
parmetros n =la4 y = 0,4
que corresponde a la probabilidad de la
4
para k = 2. Aplicando esta frmula, las probabilidades distribucin
2 binomial de parmetros n = 4
2para k = 0, 1, 2, 3 4 supervivientes
probabilidad P ( X = 2) = 0,4 (1 0, 4 ) = 0,3456,
aparecen en de la que
Tablasobrevivan
3.1 y en 2lapacientes 2 3.1(a).
Figura

cualesquiera es
Estas probabilidades tambin pueden
y = 0,4 para k = 2. Aplicando esta
obtenerse directamente de la Tabla 1 del Apndice.frmula, las probabilidades para k = 0, 1, 2, 3
4 2
4 que corresponde
supervivientes aPla
(
aparecenX probabilidad
=
A partir de las frmulas generales para 2)
en =laTabla
0,4
ladeesperanza
3.1(la
1 distribucin
y0en,4)la2yFigura binomial
=la0,3456, 3.1(a).
varianza de
deEstas
unaparmetros n=4
variable aleatoria
2

discreta, puede probarse que la esperanza de una distribucin binomial de parmetros n y es
y = 0,4 para k = 2. Aplicando
probabilidades tambin pueden obtenerse esta frmula,directamentelas probabilidades
de la Tabla 1para del k = 0, 1, 2, 3
que correspondeEa(Xla) =
n
probabilidad de la
n
n k binomial
distribucin n=4
Apndice.
4 supervivientes aparecen en la Tabla 3.1
kP ( X = k ) = k y en(1la ) n k =de
Figura nparmetros
3.1( a). Estas
k =0 k =0 k
y = 0,4 para k = 2. Aplicando esta frmula, las probabilidades para k = 0, 1, 2, 3
probabilidades tambin pueden obtenerse directamente de la Tabla 1 del
yAsupartir de lasesfrmulas generales para la esperanza y la varianza de una variable
varianza
4 supervivientes aparecen en la Tabla 3.1 y en la Figura 3.1(a). Estas
Apndice. Pastor-Barriuso R. 25
aleatoria discreta, puede probarse que la esperanza de una distribucin binomial de
probabilidades tambin pueden n obtenerse directamente de la Tabla 1 del
var(X) = (k n ) 2 P( X = k )
A partir
parmetros n y de
eslas frmulask =generales
0 para la esperanza y la varianza de una variable
Apndice.
k
k =0
n n
n
E(X) = kP( X = k ) = k k k
(1 ) n k = n
Variables aleatorias y distribuciones deprobabilidad
k =0 k =0
As, el nmero esperado de xitos es igual al n

y su varianza es probabilidad individual de xito. La varianza n


y su varianza es
n nmero de pruebas y ms extrema sea la probab
var(X) = (k n ) 2
P( X = k )
k =0
que = 0 1, la varianza ser 0 ya que todas la
cumplen las siguientes hiptesisn respecto2 anla
incidencia acumulada IA de la enfermedad
= (k n ) k (1 ) n k = n(1 ).
k o xitos.
(esto es, la probabilidad de desarrollar unnuevo
k =0
caso en un periodo de tiempo
As, el nmero esperado de xitos es igual al nmero de pruebas realizadas por la probabilidad
determinado):
As, el de
individual nmero
xito.esperado
La varianza de xitos
n(1 es)igual al nmero
disminuye de pruebas
cuanto realizadas
menor Ejemplo
sea 3.6por
el nmero la pruebas con el ejemplo
Continuando
de
y ms extrema sea la probabilidad de xito. En el caso particular de que = 0 1, la varianza
ser 0yaProporcionalidad:
que todas las pruebas La probabilidad de observarfracasos
sern respectivamente un casooesxitos.
aproximadamente
supervivientes a los 6 meses de 4 pacient
probabilidad individual de xito. La varianza n(1 - ) disminuye cuanto menor sea el
proporcional al tiempo transcurrido, de tal forma que en un nintervalo = 40,4 de 1,60,
tiempo la varianza n(1 - ) =
Ejemplo 3.6 Continuando con el ejemplo anterior, el nmero esperado de=supervivientes
nmero de pruebas y ms extrema sea la probabilidad de xito. En
a los 6 meses de 4 pacientes con cncer sometidos a tratamiento es n = 40,4 = 1,60, el caso particular de la
arbitrariamente corto, la probabilidad de observar un caso es muy pequea y la
varianza n(1 ) = 40,40,6 = 0,96 y la desviacin tpica n (1 ) = 0,98. Estos resultados coin
que = 0 1,
resultados la varianza
coinciden conser 0 ya que todas
los obtenidos en el las pruebas
Ejemplo 3.4,sern
donderespectivamente fracasosse
la media y la varianza
probabilidad de observar ms de un caso es esencialmente nula.
calculaban a partir de las frmulas generales para variables discretas. 3.4, donde la media y la varianza se calcu
o xitos.
Estacionaridad: El nmero de casos por unidad de tiempo permanece
3.2.2 Distribucin de Poisson para variables discretas.
aproximadamente
Ejemplo 3.6 Continuandoconstantecon a loellargo de todo
ejemplo el periodo
anterior, de tiempo
el nmero t. Notar
esperado de que,
La distribucin de Poisson es otro modelo terico de distribucin discreta particularmente til
para el estudio epidemiolgico
sisupervivientes
se produjera un 6de
cambio
a los lasubstancial
meses ocurrencia dedeladeterminadas
de 4 pacientes incidencia
con cncer deenfermedades.
3.2.2
laDistribucin
enfermedad
sometidos Sededice
en que
es la
elPoisson
a tratamiento
variable aleatoria X nmero de casos de una determinada enfermedad a lo largo de un periodo
nt,
de tiempotiempo, =donde
esta=
40,4 tasuncin
es un la
1,60, intervalo
no seradeaplicable.
varianza ntiempo
(1 - ) arbitrariamente
= 40,40,6 =La largo,
y la tal
distribucin
0,96 como
desviacin 1 tpica
de Poisson 10 aos,
es otro modelo teri
sigue una distribucin de Poisson si se cumplen las siguientes hiptesis respecto a la incidencia
acumulada IA de la enfermedad
Independencia: (esto es, la probabilidad de desarrollar un nuevo casoelaen un epidemiolg
n (1 ) = La0,98.ocurrencia de un
Estos resultados caso en un determinado
coinciden con los instante
particularmente
obtenidos ennoel afecta
til para
Ejemplo la
estudio
periodo de tiempo determinado):
probabilidad de La
yy Proporcionalidad: observar nuevosde
probabilidad casos en periodos
observar un caso posteriores.
esenfermedades. As, por
aproximadamente ejemplo,
Se dice que la variable aleatoria
proporcional
3.4, donde la media y la varianza se calculaban a partir de las frmulas generales
al tiempo transcurrido, de tal forma que en un intervalo de tiempo arbitrariamente corto,
esta hiptesis
la probabilidad dede independencia no se cumplir en brotes
observar enfermedad
epidmicos. a lo largo de un periodo de tiempo
para variables discretas.un caso es muy pequea y la probabilidad de observar ms de
un caso es esencialmente nula.
Aunque la distribucin de Poisson se emplea habitualmentearbitrariamente en el estudio delargo, tal como 1 10 aos, sig
la morbi-
yy Estacionaridad: El nmero de casos por unidad de tiempo permanece aproximadamente
constante
3.2.2 a lo largo
Distribucin
mortalidad debida dedePoisson
todo el periodo
a determinadas de tiempo
enfermedades, estat. distribucin
Notar que, siesseenprodujera
general un cambio
substancial de la incidencia de la enfermedad en el tiempo, esta asuncin no sera aplicable.
yLa distribucin
yaplicable de La
Poisson
a la ocurrencia
Independencia: en elestiempo
ocurrenciaotrodemodelo
de terico
un aquellos
caso de determinado
en sucesos
un distribucin
aleatoriosdiscreta
que satisfagan
instante no afecta las a la
probabilidad de observar nuevos casos en periodos posteriores. As, por ejemplo, esta
particularmente
hiptesis
hiptesis anteriorestil(por
paraejemplo,
de independencia el estudio
no selos epidemiolgico
accidentes
cumplir deepidmicos.
la ocurrencia de determinadas
de trfico).
en brotes
Aunque la distribucin
enfermedades.
Bajo de Poisson
Se dice
estas asunciones, quese la se emplea
variable
establece habitualmente
aleatoria
que en de
X nmero
la probabilidad elde
estudio
casos
que de
delauna
ocurran morbi-mortalidad
determinada
k sucesos, k=
debida a determinadas enfermedades, esta distribucin es en general aplicable a la ocurrencia
en el tiempo
1, 2, ...,de
0,enfermedad enaquellos sucesos
a loperodo
un largo aleatorios
dedeuntiempo
periodo deque
t para unasatisfagan
tiempovariable las hiptesis
t, donde anteriores
t es unXintervalo
aleatoria que (por
siguedeuna ejemplo,
tiempo
los accidentes de trfico).
arbitrariamente
distribucin
Bajo largo,setal
de Poisson
estas asunciones, es como 1que
establece 10laaos, sigue una
probabilidad dedistribucin
que ocurran kdesucesos,
Poissonk si se 1, 2, ...,
= 0,
en un periodo de tiempo t para una variable aleatoria X que sigue una distribucin de Poisson es
9
e
k
P(X = k) = ,
k!

donde el parmetro es el nmero esperado de sucesos en el perodo de tiempo t. A


26 Pastor-Barriuso R.

diferencia de la distribucin binomial, donde el nmero de xitos k no puede exceder el


nmero finito de pruebas realizadas, en la distribucin de Poisson el nmero de pruebas
Una caracterstica importante de la distribucin de Poisson es que tanto su media
se considera infinito y el nmero de sucesos k puede ser arbitrariamente grande, aunque
Distribuciones de probabilidad discretas
como su varianza son iguales al parmetro ,
la probabilidad P(X = k) decrecer al aumentar k hasta hacerse esencialmente nula. Para
donde el parmetro esel>nmero esperado de sucesos e k
en el periodo de tiempo t. A diferencia
cualquier parmetro
de la distribucin binomial, donde
E(X)0,=estas
k 0
kP
el
( X =
nmero
k ) =
de
probabilidades k son
xitos
k 0
positivas
k
k! no
= , y suman 1, constituyendo
puede exceder el nmero finito de
pruebas realizadas,
una funcin en la de
de masa distribucin de Poisson
probabilidad. En la Tablael nmero
2 del de pruebassesepresentan
Apndice consideralas
infinito y el
nmero de sucesos k puede ser arbitrariamente grande, aunque la probabilidad P(X = k) decrecer
e k
al aumentar k var( = (k esencialmente
X) hacerse
hasta
) 2 P( X = k ) =nula. (kPara .
) 2cualquier=parmetro > 0, estas
probabilidades de Poisson para de 0,5 a 20 en intervalos de
k! 0,5.
probabilidades son positivask 0 y suman 1, constituyendo k 0 una funcin de masa de probabilidad. En
la Tabla 2 del Apndice se presentan las probabilidades de Poisson para de 0,5 a 20 en
Una caracterstica importante de la distribucin de Poisson es que tanto su media
intervalos de 0,5.
UnaEjemplo
como 3.7 Segn
caracterstica
su varianza el ltimo
importante
son iguales deAtlas
al de Mortalidad
la distribucin
parmetro , de Poisson por Cncer
es que en tanto
Espaa,
su la tasa de
media como su
varianza son iguales al parmetro ,
mortalidad por cncer de vescula en hombres es de I = 1,80 casos por 100.000
e k
E( X) =
personas-ao. Partiendo de esta
k 0
kP ( X = k ) =
informacin, kse
0
k
pretende = ,
k! determinar la
2 een
k
var(X) = (k ) P( X = k ) = (k )
distribucin del nmero de muertes
2 por cncer de vescula un periodo
= . de 1 2
k 0 k 0 k !
aos en una poblacin de 140.000 hombres. Las asunciones de estacionaridad e
Ejemplo 3.7 Segn el ltimo Atlas de Mortalidad por Cncer en Espaa, la tasa de
independencia parecen razonables por tratarse de casos de mortalidad por cncer
mortalidad por cncer de vescula en hombres es de I = 1,80 casos por 100.000 personas-
ao.Ejemplo
Partiendo3.7deSegn el ltimo Atlas
esta informacin, se de Mortalidad
pretende por Cncer
determinar en Espaa,
la distribucin dellanmero
tasa de de
en periodos cortos de tiempo. Adems, como la tasa de mortalidad I es baja y se
muertes por cncer de vescula en un periodo de 1 2 aos en una poblacin de 140.000
mortalidad
hombres. Las por cncer dedevescula
asunciones en hombres
estacionaridad es de I = 1,80 casos
e independencia porrazonables
parecen 100.000 por
asume constante en el tiempo, puede probarse que la incidencia acumulada en un
tratarse de casos de mortalidad por cncer en periodos cortos de tiempo. Adems, como
personas-ao.
la tasa de mortalidadPartiendo
I es baja de yesta
se informacin,
asume constante se pretende determinar
en el tiempo, puedelaprobarse que la
periodo de tiempo t es
incidencia acumulada en un periodo de tiempo t es
distribucin del nmero de muertes por cncer de vescula en un periodo de 1 2
IAt = 1 exp(It ) It;
aos en una poblacin de 140.000 hombres. Las asunciones de estacionaridad e
es decir, la probabilidad de que un individuo de esta poblacin muera por cncer de
es decir,
vescula la
es probabilidad
aproximadamente
independencia parecen derazonables
queproporcional
un individuo aldetiempo
por tratarseesta
de poblacin mueracumplindose
transcurrido,
casos por por
de mortalidad cncer
cnceras la
hiptesis de proporcionalidad. La incidencia acumulada en 1 ao es IA1 = 0,000018 y en
de vescula
2 aos IA2 =es0,0000182
en periodos aproximadamente
cortos de =tiempo. proporcional
0,000036. al tiempo
En consecuencia,
Adems, como transcurrido,
la tasa el
de nmero de muertes
mortalidad I es bajapory secncer
de vescula en un periodo de tiempo t seguir una distribucin de Poisson con un nmero
esperado
asumede casos igual
constante en elal tiempo,
productopuede
del tamao
probarsepoblacional por la probabilidad
que la incidencia acumulada individual
en11un
de muerte en dicho periodo, = 140.0000,000018 = 2,52 muertes esperadas en 1 ao y
140.0000,000036
periodo de tiempo = 5,04
t es en 2 aos.
Estas distribuciones de probabilidad se muestran en la Tabla 3.2 y en la Figura 3.2. Por
ejemplo, la probabilidad de que no IAtse= produzca
1 - exp(-Itninguna
) It; muerte por cncer de vescula
durante 1 ao en esta poblacin se calcula a partir de la distribucin de Poisson de
parmetro = 2,52 como P(X = 0) = e 0/0! = e2,52 = 0,0805. Estas distribuciones tambin
es decir,
pueden la probabilidad
aproximarse de que
mediante un individuo dedeesta
las probabilidades poblacin
Poisson de lamuera
Tabla por
2 delcncer
Apndice
para = 2,5 y 5. En la Figura 3.2 puede observarse como, al aumentar el nmero esperado
de vescula
de muertes, es aproximadamente
la distribucin tiende a proporcional al tiempo
ser ms simtrica transcurrido,
alrededor del valor esperado y su
varianza aumenta.
11

Pastor-Barriuso R. 27
Variables aleatorias y distribuciones deprobabilidad

Tabla 3.2 Distribucin de probabilidad del


nmero de muertes por cncer de vescula en
periodos de 1 y 2 aos en una poblacin de
140.000 hombres.
Nmero P(X = k)
de muertes (k) 1 ao 2 aos
0 0,0805 0,0065
1 0,2028 0,0326
2 0,2555 0,0822
3 0,2146 0,1381
4 0,1352 0,1740
5 0,0681 0,1754
6 0,0286 0,1474
7 0,0103 0,1061
8 0,0032 0,0668
9 0,0009 0,0374
10 0,0002 0,0189
11 0,0001 0,0086
12 0,0000 0,0036
13 0,0000 0,0014
14 0,0000 0,0005
15 0,0000 0,0002
16 0,0000 0,0001
17 0,0000 0,0000

0,25 0,25

0,2 0,2

0,15 0,15
P(X = k)
0,1 0,1

0,05 0,05

0 0

0 5 10 15 20 0 5 10 15 20
k k

(a) (b)

Figura 3.2 Distribucin de probabilidad del nmero de muertes por cncer de vescula en un periodo de 1
ao (a) y de 2 aos (b) en una poblacin de 140.000 hombres.
Figura 3.2

28 Pastor-Barriuso R.
Este resultado es particularmente til en la prctica, ya que el clculo de las

probabilidades binomiales para n grande y pequea es muy laborioso, en cuyo caso


Distribuciones de probabilidad continuas

las probabilidades de Poisson son ms fciles de manejar y facilitan resultados

3.2.3 Aproximacin
virtualmente idnticos. de Poisson a la distribucin binomial
Bajo determinadas circunstancias, la distribucin de Poisson puede utilizarse como aproximacin
a la distribucin
Ejemplo 3.8 binomial. Supongamos
Retomemos que,anterior
del ejemplo en una distribucin binomial,Xel nmero de pruebas
la variable aleatoria
n es grande y la probabilidad individual de xito es pequea. En tal caso, el nmero de xitos
de la distribucin binomial
correspondiente puedede
al nmero sermuertes
muy grande y su varianza
por cncer seren
de vescula aproximadamente
un periodo de 2 igual al
valor esperado, n(1 ) n. Como se vio en el apartado anterior, estas dos caractersticas son
propias de en
aos unauna
distribucin
poblacin de
de Poisson, lo que sugiere
140.000 hombres. la validez del
El experimento siguienteconsistira
subyacente resultado: si el
nmero de pruebas n es grande y la probabilidad de xito es pequea, la distribucin binomial
se aproxima a unapara
en observar, distribucin de los
cada uno de Poisson hombres, la =ocurrencia
con parmetro
n = 140.000 n. Por regla general,
o no de una esta
aproximacin se considera suficientemente precisa cuando n 100 y 0,01.
muerte
Este por cncer
resultado de vescula durante
es particularmente unprctica,
til en la periodo ya
de que
2 aos. El resultado
el clculo de las en cada
probabilidades
binomiales para n grande y pequea es muy laborioso, en cuyo caso las probabilidades de
sujeto
Poisson son es
msindependiente y la probabilidad
fciles de manejar de que un virtualmente
y facilitan resultados individuo promedio de esta
idnticos.
Utilizando la aproximacin de Poisson a la distribucin binomial, el nmero de
Ejemplo 3.8
poblacin mueraRetomemos
por cncerdel ejemplo en
de vescula anterior = IA2 aleatoria
2 aoslaesvariable X correspondiente
= 0,000036. Por
al nmero de muertes por cncer de vescula en un periodo de 2 aos en una poblacin
muertes por cncer de vescula en un periodo de 2 aos seguir aproximadamente
de 140.000
tanto, hombres.
el nmero El experimento
de muertes por cncersubyacente
de vesculaconsistira en observar,
en esta poblacin para cada
a lo largo de uno
de los n = 140.000 hombres, la ocurrencia o no de una muerte por cncer de vescula
una distribucin dede
Poisson conElparmetro =enncada
= 140.0000,000036 = 5,04. Eny la
2durante un periodo
aos seguir 2 aos.
una distribucin binomialresultado
con parmetros nsujeto es independiente
= 140.000 y=
probabilidad de que un individuo promedio de esta poblacin muera por cncer de
consecuencia, la es
probabilidad de observarPor
= IAla2 =probabilidad
0,000036. 2 muertes
tanto, elpuede
nmeroaproximarse
de muertes por
vescula
0,000036. enAs,
2 aos
por ejemplo, de que ocurran exactamente 2 por cncer
de vescula en esta poblacin a lo largo de 2 aos seguir una distribucin binomial con
muertes es n = 140.000 y = 0,000036.
parmetros e As,
5 , 04 por2 ejemplo, la probabilidad de que ocurran
5,04
exactamente 2 muertes es P( X = 2) = 0,082222,
Utilizando la aproximacin de Poisson a la2!distribucin binomial, el nmero de
140.000 2 139.998
muertes por Pcncer
(X = 2)de
= vescula 0,un
en 000036
periodo 0,999964
de 2 aosbinomial= 0,082220.
seguir aproximadamente
que coincide casi perfectamente
2 con la probabilidad exacta.
Utilizando la aproximacin
una distribucin de Poisson de
conPoisson
parmetro a la distribucin binomial, el nmero
= n = 140.0000,000036 = 5,04.deEn
muertes
por cncer de vescula en un periodo de 2 aos seguir aproximadamente una distribucin
3.3de Poisson conla parmetro
DISTRIBUCIONES
consecuencia, de
= n
DE PROBABILIDAD
probabilidad = 140.0000,000036
observar puede=aproximarse
CONTINUAS
2 muertes 5,04. En consecuencia,
por la
probabilidad de observar 2 muertes puede aproximarse por
13
Las variables aleatorias continuas son aquellas
e 5 , 04
5,04que
2 pueden tomar cualquier valor dentro
P(X = 2) = 0,082222,
2!
de un intervalo. La probabilidad de que estas variables tomen exactamente un valor
que coincide casi perfectamente con la probabilidad binomial exacta.
que coincide
determinado es 0casi perfectamente
y, en consecuencia,con la probabilidad
carece binomial
de sentido definir unaexacta.
funcin de masa de
3.3probabilidad.
DISTRIBUCIONES DE PROBABILIDAD
Para las variables CONTINUAS
aleatorias continuas, las probabilidades se asignan a
Las variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de un
3.3intervalos
DISTRIBUCIONES DE PROBABILIDAD
una funcin CONTINUAS
intervalo. de valores mediante
La probabilidad de que estas variablesdetomen
densidad de probabilidad
exactamente un valor ,determinado
denotada es 0
y, en consecuencia, carece de sentido definir una funcin de masa de probabilidad. Para las
Laspor f(x).aleatorias
variables
variables Esta funcin
aleatorias ha de ser
continuas
continuas, las no
son negativa
aquellaspara
probabilidades quesecualquier
pueden valor
asignantomar x, f(x) de0,
cualquier
a intervalos y eldentro
valor rea
valores mediante
una funcin de densidad de probabilidad, denotada por f(x). Esta funcin ha de ser no negativa
de total
parauncualquier
intervalo.
bajo lavalorLa probabilidad
curvax,definida y eldeesta
f(x) 0, por quefuncin
rea estasbajo
total variables tomen
deladensidad
curva exactamente
debe
definidaser
porigual un
1, valorde densidad
esta afuncin
debe ser igual a 1,
determinado es 0 y, en consecuencia, carece de sentido definir una funcin de masa de
x) dx = 1.
f (
probabilidad. Para las variables aleatorias continuas, las probabilidades se asignan a

A partir
intervalos de la funcin
de valores de densidad,
mediante la probabilidad
una funcin de densidadde
deque una variable
probabilidad aleatoria
Pastor-Barriuso R.
, denotada 29

f(x). EstaX funcin


porcontinua tome valores
ha de dentro de cualquier
ser no negativa cualquier(avalor
paraintervalo , b) puede
x, f(x)calcularse como el
0, y el rea

VariablesAaleatorias
partir de la funcin
y distribuciones de densidad,
deprobabilidad la probabilidad de que una variable aleatoria

continua X tome valores dentro de cualquier intervalo (a, b) puede calcularse como el
A partir de la funcin de densidad, la probabilidad de que una variable aleatoria continua X
rea
tome bajo ladentro
valores funcinde de densidad
cualquier entre los
intervalo (a,puntos
b) puedea ycalcularse
b, como el rea bajo la funcin
de densidad entre los puntos a y b,
en regiones de baja probabilidad. La funcin debdistribucin F(x) corresponde a la
P(a < X < b) = f ( x) dx .
a
probabilidad de que la variable tome un valor igual o inferior a x y, en el caso de una
As, aun cuando la probabilidad de obtener un valor concreto es 0, la funcin de densidad
tomar valores
As, aun
variable cuandoelevados
aleatoria en regiones
lacontinua,
probabilidad de de alta probabilidad
obtener
se calcula como un valorbajo
el rea ydevalores
concretola es 0,pequeos
curva ladefuncin en
deregiones
la funcin de de
baja probabilidad. La funcin de distribucin F(x) corresponde a la probabilidad de que la
variable tome
densidad unizquierda
atomar
la valor igual
valores ox, inferior
deelevados x y, en el
enaregiones decaso de una variable
alta probabilidad aleatoria
y valores continua, se
pequeos
calcula como el rea bajo de la curva de la funcin de densidad a la izquierda de x,
x 14
F(x) = P(X x) =

f (t ) dt .

La funcin de distribucin de una variable aleatoria continua es una funcin que, partiendo de 0,
crece
La de formade
funcin continua hasta alcanzar
distribucin el valoraleatoria
de una variable 1. continua es una funcin que,

partiendo
Ejemplo de 3.9
0, crece
La de formade
funcin continua
densidadhasta
paraalcanzar el valorHDL
el colesterol 1. en hombres adultos se
representa en la Figura 3.3(a). Notar que, aunque el rea bajo la curva ha de ser igual a 1, la
funcin de densidad puede tomar valores superiores a 1. Los niveles de colesterol HDL
Ejemplo
prximos a 13.9 La funcin
mmol/l son losdequedensidad para elprobabilidad
tienen mayor colesterol HDL en hombres
de ocurrir, adultos
mientras que para
niveles inferiores y superiores esta probabilidad decrece. As, por ejemplo, la probabilidad de
queseunrepresenta en la tenga
hombre adulto Figuraun3.3( a).de
nivel Notar que, aunque
colesterol el reaa bajo
HDL inferior 0,90 la curva(niveles
mmol/l ha de ser
bajos
segn las recomendaciones del National Cholesterol Education Program) corresponde al
reaigual a 1, la funcin
sombreada de densidad
bajo la curva puedede
a la izquierda tomar
0,90 valores
mmol/l ysuperiores
es igual a aP(X
1. Los niveles
0,90) = 0,3274.
Al igual que para variables discretas, la esperanza o media poblacional de una
Esta probabilidad tambin puede obtenerse a partir de la funcin de distribucin del colesterol
HDL,de colesterol HDL prximos
que se representa a 13.3(b).
en la Figura mmol/lEsta
sonfuncin
los quepresenta
tienen mayor probabilidad
el aspecto de de
caracterstico
variable aleatoria
las funciones decontinua representa
distribucin el valorcontinuas
para variables promedioaproximadamente
de esa variable, ysimtricas.
se define
ocurrir, mientras que para niveles inferiores y superiores esta probabilidad
como
Al igual que para variables discretas, la esperanza o media poblacional de una variable
aleatoria decrece.
continuaAs, por ejemplo,
representa el valorla promedio
probabilidad de que
de esa un hombre
variable, adultocomo
y se define tenga un nivel

de colesterol HDL inferiora=0,90 = x(niveles
E(X)mmol/l f ( x) dxbajos
. segn las

recomendaciones del National Cholesterol Education


1,5 1 Program) corresponde al
La varianza poblacional de una variable aleatoria continua es la esperanza de las
rea sombreada bajo la curva a la izquierda de 0,90 mmol/l y es igual a P(X
0,75
desviaciones
1 al cuadrado de los valores de la variable respecto de su media, y se calcula
f(x) 0,90) = 0,3274. Esta probabilidad tambin
F(x) puede obtenerse a partir de la funcin
como 0,5

de distribucin del colesterol HDL, que se representa en la Figura 3.3( b). Esta
0,5

0,25
2 = var(X) = E(X - )2 = ( xde
funcin presenta el aspecto caracterstico
) 2 f ( x) dx
las funciones de distribucin para

0 0
variables continuas aproximadamente simtricas.
x f ( x) dx 0 =0,5E(X ) 1- . 1,5
2 2 2 2
0 0,5 1 1,5 2 =2,5 2 2,5

Colesterol HDL (mmol/l) Colesterol HDL (mmol/l)

La raz cuadrada de la varianza es la desviacin


(a) [Figura aqu] , que
tpica poblacional
3.3 aproximadamente (b)representa la
Figura 3.3 Funcin de densidad de probabilidad (a) y funcin de distribucin (b) del colesterol HDL en
dispersin de la variable aleatoria respecto de su media poblacional. Estas expresiones
hombres adultos. Figura 3.3

30
para la media y la varianza poblacional de una variable continua son similares a las
Pastor-Barriuso R.

facilitadas para variables discretas, salvo que la suma sobre el nmero discreto de 15


= x 2 f ( x) dx 2 = E(X2) - 2.
La varianza poblacional de una variablealeatoria continua es la esperanza de las
, que representa
La raz cuadrada de la varianza es la desviacin tpica poblacionalDistribuciones la continuas
de probabilidad

Ladesviaciones
raz cuadradaalde cuadrado de los
la varianza es la valores de la variable
desviacin respecto de,su
tpica poblacional quemedia, y se calcula
representa la
dispersin de la variable aleatoria respecto de su media poblacional. Estas expresiones
Lacomo
varianza
dispersin de poblacional de una variable
la variable aleatoria respectoaleatoria
de su media continua es la esperanza
poblacional. de las desviaciones
Estas expresiones
para
al la media
cuadrado deylosla varianza
valores depoblacional
la variablede una variable
respecto de su media,continua son
y se similares
calcula como a las
para la media y la varianza poblacional de 2 unavariable 2continua son similares a las
facilitadas para variables 2
= var( discretas,
X ) = E(Xsalvo = la( suma
) que x )sobre f ( x)eldxnmero discreto de
Existen muchos modelos tericos de distribuciones continuas, cada una de ellas
facilitadas para variables discretas, salvo que la suma sobre el nmero2discreto de
valores con probabilidad no nula se reemplaza por
2 la integral 2sobre todos los posibles
concreta para la funcin de densidad. A 2
caracterizada por una frmula o expresin = x f ( x ) dx = E ( X ) .
valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles
valores
La de la variable
raz cuadrada continua.es la desviacin tpica poblacional , que representa la dispersin
de la varianza
continuacin se revisa en detalle la distribucin normal, que es la utilizada con mayor
de la variable aleatoria respecto de su media poblacional. Estas expresiones para la media y la
valores de la variable continua.
La raz poblacional
varianza cuadrada de de la varianza
una variable es la desviacin
continua son tpicasimilares a las
poblacional , que representa
facilitadas la
para variables
frecuencia
Ejemplo en estadstica. Otras distribuciones continuas, como la t de Student, chi-
discretas, salvo3.10
que Utilizando
la suma sobre la funcin
el nmero de densidad
discreto del ejemplo
de valores anterior,
con el valor
probabilidad no nula se
reemplaza
dispersin
Ejemplopor lalaintegral
de3.10 variable sobre
Utilizando latodos
aleatoria los posibles
respecto
funcin de suvalores
de densidad media del de la variable
poblacional.
ejemplo continua.
Estas
anterior, elexpresiones
valor
cuadrado
esperado o Fdeldecolesterol
Fisher, seHDLdiscutirnen unasegn vayande
poblacin surgiendo
hombresaadultos
lo largosera
del texto.
paraesperado
la mediadel
Ejemplo y lacolesterol
3.10 varianza poblacional
Utilizando
HDL laen una de
funcin deuna variable
densidad
poblacin continua
del
de hombres ejemplo son similares
anterior,
adultos a las esperado
sera el valor
3.3.1 Distribucin normal
del colesterol HDL en una poblacin de hombres adultos sera

facilitadas para variables discretas, = salvo x f ( xque


) dxla=suma1,10 sobre
mmol/l, el nmero discreto de
0

La distribucin normal, tambin denominada
= x f ( x) dx = 1,10 mmol/l,distribucin Gaussiana, es el modelo
0
valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles
y la desviacin
terico de distribucin tpica
y la desviacin tpicacontinua ms utilizado en la prctica. Muchas mediciones
valores de la variable
y la desviacin continua.
tpica
epidemiolgicas y clnicas presentan distribuciones
1 / 2 similares al modelo terico normal
= ( x 1,10) f ( x) dx
2
= 0,30 mmol/l.
0 1 / 2
Ejemplo
(presin arterial, = srico,
3.10colesterol
Utilizando ( xlafuncin ) f de
ndice
1,10 2
(de dx corporal)
x)densidad
masa = del
0,30ejemplo
o bienanterior,
mmol/l. pueden el valor
transformarse
0
Existen muchosdel
para esperado
conseguir modelos tericos
colesterol
distribuciones HDL de
endistribuciones
una poblacin
aproximadamente continuas,
de hombres
normales cada una demediante
adultos
(tpicamente ellas caracterizada
sera
por una frmula o expresin concreta para la funcin de densidad. A continuacin se revisa 16 en
detalle la distribucin normal,
transformaciones logartmicas de los que es la utilizada con mayor frecuencia en estadstica. Otras
datos originales). No obstante, como se ver en los
distribuciones continuas, como lat=de Student, x f ( x) dxchi-cuadrado
= 1,10 mmol/l, o F de Fisher, se discutirn segn 16
0
vayan surgiendo a lo largo del texto.
temas posteriores, la utilidad fundamental de la distribucin normal surge dentro de las

3.3.1 y la de
desviacin
Distribucin
tcnicas tpica
normal
inferencia estadstica: incluso cuando la distribucin poblacional de una
La distribucin normal, tambin denominada distribucin Gaussiana, es el modelo terico de
variable diste mucho de ser normal, puede probarse1 / que,
2 bajo ciertas condiciones, la
= en ) dx mediciones

distribucin continua ms utilizado ( x la1prctica.
,10) f ( xMuchas
2 epidemiolgicas y clnicas
= 0,30 mmol/l.
al0 modelo terico normal
presentan distribuciones similares (presin arterial, colesterol srico, ndice
distribucin de los valores medios de dicha variable seguir un modelo
de masa corporal) o bien pueden transformarse para conseguir distribuciones aproximadamente
normales (tpicamente mediante transformaciones logartmicas de los datos originales). No obstante,
aproximadamente normal.
como se ver en los temas posteriores, la utilidad fundamental de la distribucin normal surge dentro
16
de las tcnicas de inferencia estadstica: incluso cuando la distribucin poblacional de una variable
Una variable aleatoria continua X sigue una distribucin normal si su funcin de
diste mucho de ser normal, puede probarse que, bajo ciertas condiciones, la distribucin de los
valores medios de dicha variable seguir un modelo aproximadamente normal.
densidad es
Una variable aleatoria continua X sigue una distribucin normal si su funcin de densidad es
1 (x ) 2
f (x) = exp ,
2 2 2
para cualquier valor x en la recta real, < x < . Esta funcin de densidad depende de los
parmetros y , donde
para cualquier valor x en la recta real, - < x < . Esta funcin de densidad depende de
yy representa la esperanza o media poblacional de la distribucin y
ylos correspondeaysu
y parmetros ,desviacin
donde tpica poblacional.

representa la esperanza o media poblacional de la distribucin y


Pastor-Barriuso R. 31

17
Variables aleatorias y distribuciones deprobabilidad

1
2

corresponde a su desviacin tpica poblacional.

La distribucin normal o Gaussiana con media y varianza 2 se denota

abreviadamente
f(x) por N(, 2). Para cualquier y > 0, la funcin de densidad normal

es positiva y el rea total bajo la curva es igual a 1. Esta funcin de densidad, que

aparece representada en la Figura 3.4, tiene forma de campana, es simtrica alrededor

corresponde
de la media y tiene dos puntos de inflexin en + ya su- desviacin tpica
. Al tratarse poblacional.
de una
0
Lamediana
distribucin simtrica, la media y la distribucin normalElo valor
coinciden. Gaussiana con media y varianza 2 se denot
ms frecuente
- 3 - 2 - + + 2 + 3
2
abreviadamente
1/( 2 ) se alcanza en la media y su dispersinpor N(, del
alrededor ). Para
valorcualquier y > 0, la funcin de de
medio aumenta
x
Figura 3.4
al aumentar
Figura la desviacin
3.4 Funcin de densidadtpica .es positiva
de unadistribucin
As, yprobarse
el rea total
puedenormal que bajo
con media
la curva
el68,27% deles
y desviacin
igual
rea
tpica
a 1. Esta funcin de dens
bajo
. una

aparece representada
funcin de densidad normal est comprendido entre en, la
el Figura
95,45%3.4, tiene
entre forma de campana, es simt
2 y el
La distribucin normal o Gaussiana con media y varianza se denota abreviadamente
2

N(, 2entre
por99,73% ). Para
cualquier
3. y > de
0, la
la media ydetiene
funcin dos puntos
densidad normal de es
inflexin
positivaenyel+ rea
y - . Al tratars
total bajo la curva es igual a 1. Esta funcin de densidad, que aparece representada en la
Figura 3.4, tiene forma de campana, distribucin
es simtricasimtrica,
alrededorlademedia y la mediana
la media y tiene coinciden.
dos puntosEl valor ms fre
de inflexin en + y . Al[Figura
tratarse3.4
deaproximadamente
una distribucin simtrica,
aqu] la media y la mediana
coinciden. El valor ms frecuente 1/( 2 ) se se alcanza
alcanzaenenla lamedia y suydispersin
media alrededor del valor
su dispersin
alrededor del valor medio aumenta al aumentar la desviacin tpica . As, puede probarse
que elLa distribucin
68,27% normal
del rea con funcin
bajo una media 0 de
y desviacin
densidad
al aumentar tpica 1 est
normal
la desviacin tpica . As, distribucin
se denomina
comprendido puedeentre ,que el 68,27% d
probarse
el 95,45% entre 2 y el 99,73% entre 3.
normal estandarizada, y suele denotarse por Z o N(0, normal
1). La funcin de densidadentre
de , el 95,45% en
La distribucin normal con media 0funcin de densidad
y desviacin est comprendido
tpica 1 se denomina distribucin normal
estandarizada, y suele
una distribucin denotarse
normal por Z o se
estandarizada N(0, 1). La funcin de densidad de una distribucin
normal estandarizada se reduce a 99,73%reduce
entre a 3.

1 1
f (z) = exp z 2 , [Figura 3.4 aproximadamente aqu]
2 2
para cualquier < z < , que se representa en la Figura 3.5(a). Como puede observarse,
se trata de una funcin
para cualquier - < z <simtrica La distribucin
, que sealrededor
representa normal
deen0.la Para 3.5(con
obtener
Figura media
a).las
Como 0 y desviacin
probabilidades
puede tpica
bajo la 1 se denomin
funcin de densidad normal estandarizada, no se recurre al clculo integral, ya que estas
probabilidades
observarse, seestn
tratatabuladas y son normal
de una funcin estandarizada
fcilmente
simtrica de ,0.
accesibles.
alrededor y Para
En suele denotarse
general,
obtenerestas por Z facilitan
lastablas o N(0, 1). La funcin de
la funcin de distribucin; es decir, la probabilidad de que la variable normal estandarizada
tome un valor igual
probabilidades bajoolainferior una
La distribucin
funcin adez.densidad
funcin
normal de normal estandarizada
distribucin
estandarizada, normal se reduce
al a
estandarizada
no se recurre se
denota por F(z) = P(Z z), y se ilustra en la Figura 3.5(b). En la Tabla 3 del Apndice se
facilita la funcin
clculo integral,de
yadistribucin F(z) para valores
que estas probabilidades de z no negativos.
estn tabuladas y son fcilmente 1 1
f ( z) = exp z 2 ,
accesibles. En general, estas tablas facilitan la funcin de distribucin; es decir, 2 la 2

probabilidad de que la variable normal estandarizada


para cualquier - <tome unque
z < , valor
se igual o inferior
representa z.
en laaFigura 3.5(a). Como p
32 Pastor-Barriuso R.

observarse, se trata de una funcin simtrica alrededor de 0. Para obtene


18
Distribuciones de probabilidad continuas

f(z) (z)
1

0,5

-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
z z

(a) (b)

Figura 3.5 Funcin de densidad (a) y funcin de distribucin (b) de una variable aleatoria normal
estandarizada.
Figura 3.5

Ejemplo 3.11 La probabilidad de obtener un valor inferior a 0,50 en una distribucin


normal estandarizada se obtiene directamente de la Tabla 3 del Apndice como el valor
de la funcin de distribucin en 0,50; es decir, P(Z 0,50) = F(0,50) = 0,6915.
Asimismo, aunque en la Tabla 3 del Apndice no aparecen las probabilidades acumuladas
para valores negativos, la probabilidad de obtener un valor inferior a 0,25 en una
distribucin normal estandarizada puede calcularse fcilmente a partir de dicha tabla.
Como la distribucin normal estandarizada es simtrica alrededor de 0, la probabilidad
a la izquierda de 0,25 es igual a la probabilidad a la derecha de 0,25 y, en consecuencia,
P(Z 0,25) = P(Z 0,25) = 1 P(Z 0,25) = 1 F(0,25) = 1 0,5987 = 0,4013. A
partir de los resultados anteriores, la probabilidad de que un valor de la distribucin normal
estandarizada. Este resultado ser particularmente til en los temas de inferencia
estandarizada se encuentre entre 0,25 y 0,50 viene dada por P(0,25 Z 0,50) = P(Z
0,50) P(Z 0,25) = 0,6915 0,4013 = 0,2902.
estadstica.
El percentil 97,5 de una distribucin normal estandarizada se denota por z0,975 y corresponde
al valor z que deja por debajo una probabilidad del 0,975. De la Tabla 3 del Apndice, se
El calculo
tiene de probabilidades
que F(1,96) = 0,9750 para y, porcualquier distribucin
tanto, z0,975 normal
= 1,96. Por de una distribucin
con media
tratarse y
simtrica en 0, el percentil 2,5 corresponde al percentil 97,5 con signo opuesto; es decir,
varianza 2 no2,5
el percentil es z0,025de= tablas
requiere z0,975 especficas,
= 1,96. As,sino
los que
valores 1,96
puede abarcan
realizarse el 95%
a partir decentral
las de
la distribucin normal estandarizada. Este resultado ser particularmente til en los temas
de inferencia
tablas estadstica.
de la distribucin normal estandarizada. Para ello, se hace uso del siguiente

resultado
El clculosobre la estandarizacin
de probabilidades de una distribucin
para cualquier normal:
distribucin normal si con
una variable
media aleatoria
y varianza 2
no requiere de tablas especficas, sino que puede realizarse a partir de las tablas de la distribucin
X sigue
normal una distribucin
estandarizada. normal
Para ello, uso del siguiente
con media
se hace 2, X ~ sobre
y varianzaresultado N(, la2),estandarizacin
entonces la de
una distribucin normal: si una variable aleatoria X sigue una distribucin normal con media
y varianza 2
, X ~ N(,
variable aleatoria Z =(2X),-entonces la una
)/ sigue variable Z = (Xestandarizada,
aleatorianormal
distribucin )/ sigue una distribucin
normal estandarizada,
X
Z= ~ N(0, 1),

donde el smbolo ~ significa estar distribuido como. Como ya se coment enPastor-Barriuso


el Tema R. 33

1, al restar a los valores de una variable su media y dividirlos por su desviacin tpica,
procedimiento de estandarizacin de variables normales permite utilizar las tablas

correspondientes a la distribucin
Variables aleatorias y distribuciones normal estandarizada.
deprobabilidad

dondeEjemplo 3.12
el smbolo Supongamos
~ significa estarque el colesterol
distribuido HDL
como. en una
Como poblacin
ya se coment de
en hombres
el Tema 1, al restar
a los valores de una variable su media y dividirlos por su desviacin tpica, la variable resultante
tiene adultos
media sigue una distribucin
0 y desviacin tpica normal X con media
1. El resultado = 1,10
anterior mmol/l
garantiza y desviacin
adems que la variable
estandarizada conserva la distribucin normal. Este procedimiento de estandarizacin de variables
normales = 0,30
tpicapermite mmol/l.
utilizar Utilizando
las tablas la estandarizacin
correspondientes de variables
a la distribucin normales,
normal el
estandarizada.

Ejemplo 3.12
porcentaje Supongamos
de hombres de estaque el colesterol
poblacin HDLniveles
que tienen en una de
poblacin de HDL
colesterol hombres adultos
sigue una distribucin normal X con media = 1,10 mmol/l y desviacin tpica = 0,30
mmol/l.
entre 0,90Utilizando la estandarizacin
y 1,20 mmol/l corresponde ade variables normales, el porcentaje de hombres de
esta poblacin que tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l corresponde a
0,90 1,10 X 1,10 1,20 1,10
P(0,90 X 1,20) = P
0,30 0,30 0,30
= P ( 0,67 Z 0,33) = P(Z 0,33) P(Z 0,67).

Utilizando la Tabla 3 del Apndice, se obtiene que P(Z 0,33) = F(0,33) = 0,6293 y P(Z
20
0,67) = F(0,67) = 1 F(0,67) = 1 0,7486 = 0,2514. As, resulta que P(0,90 X
1,20) = 0,6293 0,2514 = 0,3779; es decir, el 37,79% de los hombres de esta poblacin
tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l.
Para obtener el percentil 90 de la distribucin del colesterol HDL en esta poblacin, se
calcula primero el percentil 90 en la distribucin normal estandarizada, que corresponde
a z0,90 = 1,28, ya que F(1,28) 0,90. Para pasar este percentil estandarizado al
correspondiente percentil del colesterol HDL basta resolver z0,90 = (x0,90 )/. Por tanto,
el percentil 90 del colesterol HDL es x0,90 = + z0,90 = 1,10 + 1,280,30 = 1,484 mmol/l.

3.3.2 Aproximacin normal a la distribucin binomial

El clculo de las probabilidades binomiales es muy laborioso cuando el nmero de pruebas n en


muy elevado. Como se vio anteriormente, si n es grande y la probabilidad de xito es muy
pequea, la distribucin binomial puede aproximarse mediante una distribucin de Poisson. En
este apartado, se revisa el comportamiento de una distribucin binomial para un nmero de
pruebas n grande y una probabilidad individual de xito no excesivamente extrema. En la
Figura 3.6 se muestran las distribuciones binomiales para los parmetros = 0,10 y n = 10, 25,
50 y 100. Al aumentar el nmero de pruebas, la distribucin binomial tiende a ser ms simtrica
y se aproxima progresivamente a una distribucin normal con la misma media n y varianza
n(1 ) que la distribucin binomial (Figura 3.6(d)). En general, puede probarse que si el
nmero de pruebas n es elevado y la probabilidad de xito no es excesivamente extrema, de
forma que n(1 ) 5, la distribucin binomial con parmetros n y se aproxima a una
distribucin normal con media n y varianza n(1 ).
Este resultado es un caso particular del llamado teorema central del lmite, que se presentar
ms adelante (vase Tema 4), y se utiliza para aproximar las probabilidades binomiales mediante
la distribucin normal. As, para una variable binomial X con parmetros n y que cumpla las
condiciones anteriores, la probabilidad P(k1 X k2) se aproxima mediante el rea bajo la curva
de la distribucin normal N(n, n(1 )) entre k1 1/2 y k2 + 1/2, donde k1 k2 son nmeros
enteros cualesquiera. Notar que, al utilizar la aproximacin normal, los lmites del intervalo se
amplan en 1/2 para incluir las probabilidades de obtener exactamente k1 o k2 xitos. Este ajuste
se conoce como correccin por continuidad y se deriva del hecho de aproximar una distribucin
binomial discreta mediante una distribucin normal continua.

34 Pastor-Barriuso R.
extrema, de forma que n(1 - ) 5, la distribucin binomial con parmetros n y se
Distribuciones de probabilidad continuas
aproxima a una distribucin normal con media n y varianza n(1 - ).

0,4 0,4 aqu]


[Figura 3.6 aproximadamente
0,3 0,3

Este
P(X =resultado
k) 0,2 es un caso particular del llamado teorema
0,2 central del lmite, que se
0,1 0,1
presentar ms adelante (vase Tema 4), y se utiliza para aproximar las probabilidades
0 0
binomiales mediante la distribucin normal. As, para una variable binomial X con
0 5 10 15 20 0 5 10 15 20

parmetros n y que cumpla las condiciones


(a) anteriores, la probabilidad P((b)
k1 X k2 )
0,4 0,4
se aproxima mediante el rea bajo la curva de la distribucin normal N(n, n(1 - ))
0,3 0,3
entre k - 1/2 y k2 + 1/2, donde k1 k2 son nmeros enteros cualesquiera. Notar que, al
P(X1= k) 0,2 0,2

utilizar la aproximacin
0,1 normal, los lmites del intervalo
0,1 se amplan en 1/2 para incluir

0 0
las probabilidades de obtener exactamente k1 o k2 xitos. Este ajuste se conoce como
0 5 10 15 20 0 5 10 15 20
correccin por continuidad y se deriva
k del hecho de aproximar una distribucin
k
(c) (d)
binomial discreta mediante una distribucin normal continua.
Figura 3.6 Distribuciones binomiales con parmetros = 0,10 y n = 10 (a), 25 (b), 50 (c) y 100 (d). En el panel d,
se representa adems la funcin de densidad de una distribucin normal con media n = 1000,10 = 10
Ejemplo
y varianza n(1 3.13
) = La probabilidad
1000,100,90 = 9. de obtener entre 12 y 14 xitos sobre un total de

100 pruebas con una probabilidad individual de xito del 0,10 se obtiene a partir
Ejemplo 3.13 La probabilidad de obtener entre 12 y 14 xitos sobre un total de 100
pruebas
de con una binomial
la distribucin probabilidad
X conindividual
parmetrosden xito
= 100 del
y 0,10
= 0,10secomo
obtiene a partir de la
distribucin binomial X con parmetros n = 100 y = 0,10 como
14
100
P(12 X 14) =
k =12 k
0,10 k (1 0,10)100 k

= 0,0988 + 0,0743 + 0,0513 = 0,2244,

cuyo clculo es bastante laborioso. Sin embargo, como n(1 ) = 1000,100,90 = 9 5,


cuyoaproximacin
una razonable
clculo es bastante a esta probabilidad
laborioso. Sin embargo,puede
comoobtenerse
n(1 - )a=partir de la0,90
1000,10 distribucin
normal Y con media n = 1000,10 = 10 y varianza n(1 ) = 9 mediante
= 9 5, una aproximacin razonable a esta probabilidad puede obtenerse a partir
11,5 10 Y 10 14,5 10
P(11,5 < Y < 14,5) = P < <
de la distribucin normal Y con media n =3 1000,103= 10 y varianza
3 n(1 - ) = 9
= P(0,5 < Z < 1,5) = (1,5) (0,5)
mediante
= 0,9332 0,6915 = 0,2417.

Esta probabilidad corresponde al rea sombreada en la Figura 3.6(d). 22

Esta probabilidad corresponde al rea sombreada en la Figura 3.6(d).

3.3.3 Aproximacin normal a la distribucin de Poisson Pastor-Barriuso R. 35

La distribucin normal tambin puede emplearse como aproximacin a la distribucin


moderadamente elevado, tpicamente 10. As, para una variable aleatoria X que siga
Variables aleatorias y distribuciones deprobabilidad

a una distribucin de Poisson con parmetro moderadamente grande, la probabilidad

P(k1 XAproximacin
3.3.3 k2) puede aproximarse mediante
normal a la el readebajo
distribucin la curva de la distribucin
Poisson
La distribucin normal tambin puede emplearse como aproximacin a la distribucin de Poisson
normal N(, ) entre k1 - 1/2 y k2 + 1/2.
cuando el nmero esperado de casos es moderadamente grande. En la Figura 3.7 se representan las
distribuciones de Poisson con parmetros = 1, 2,5, 5 y 10, donde puede apreciarse que, al aumentar
el nmero esperado de casos, las probabilidades
[Figura de Poisson tienden
3.7 aproximadamente aqu]a distribuirse de forma normal. En
trminos generales, una distribucin de Poisson con parmetro se aproxima a una distribucin
normal con media y varianza iguales a , cuando el nmero esperado de casos es moderadamente
elevado, tpicamente 10. As, para una variable aleatoria X que siga a una distribucin de Poisson
Ejemplo3.14
con parmetro moderadamente
Si el nmerogrande, la probabilidad
de casos P(k1 X a lo
de una enfermedad k2)largo
puededeaproximarse
un ao en mediante
el rea bajo la curva de la distribucin normal N(, ) entre k1 1/2 y k2 + 1/2.
una determinada poblacin sigue una distribucin de Poisson X de parmetro =
Ejemplo 3.14 Si el nmero de casos de una enfermedad a lo largo de un ao en una
determinada
10, poblacin
la probabilidad sigue
de tener 15 una
o msdistribucin
casos en undemismo aoXesde
Poisson parmetro = 10, la
exactamente
probabilidad de tener 15 o ms casos en un mismo ao es exactamente
e 10 10 k
P(X 15) = = 0,0835,
k 15 k!
que puede aproximarse mediante la distribucin normal Y ~ N(10, 10) como
que puede aproximarse mediante la distribucin normal Y ~ N(10, 10) como 23
Y 10 14,5 10
P(X 15) P(Y > 14,5) = P >
10 10
= P(Z > 1,42) = 1 (1,42) = 1 0,9222 = 0,0778.

Esta aproximacin corresponde al rea sombreada bajo la curva normal en la Figura 3.7(d).
Esta aproximacin corresponde al rea sombreada bajo la curva normal en la
0,4 0,4
Figura 3.7(d).
0,3 0,3

P(X = k) 0,2 0,2

3.4 COMBINACIN
0,1 LINEAL DE VARIABLES ALEATORIAS
0,1

0 0
En este apartado se introducen algunas propiedades de la combinacin lineal de
0 5 10 15 20 0 5 10 15 20

(a)
variables aleatorias (discretas o continuas) (b) e
que sern tiles para la estimacin
0,4 0,4
inferencia estadstica.
0,3
En particular, se pretende derivar
0,3
el valor esperado y la varianza

de laP(X
combinacin
= k) 0,2 lineal c1X1 + ... + ckXk, donde c1, ...,
0,2ck son constantes arbitrarias y X1,

0,1 0,1
..., Xk son variables aleatorias con esperanzas 1, ..., k y varianzas 12 , ..., k2 . Como el
0 0

valor esperado de la
0 suma 5de variables
10 aleatorias
15 20es igual a0la suma
5 de sus10respectivas
15 20
k k
esperanzas, se tiene que
(c) (d)

Figura 3.7 Distribucionesk de Poisson con parmetros k = 1 (a), 2,5 (b), 5 (c) y 10 (d). En el panel d, se re-
de densidad
presenta adems la funcin k de una distribucin k
normal con media y varianza iguales a = 10.
E c i X i = E (c i X i ) = c i E ( X i ) = c i i ,
i =1 i =1 i =1 i =1
36 Pastor-Barriuso R.

ya que E(ciXi) = ciE(Xi). Es decir, la esperanza de una combinacin lineal de variables


k k 2 2
N LINEAL DE VARIABLES ALEATORIAS =
variables aleatorias (discretas o continuas)
c 2
i E ( X i
2
) + 2
que sern1tiles
c c
i j E ( X i X j )
i < j k para la estimacin
ci i + 2 ci c j i j

i =1 i =1 e 1 i < j k
k Combinacin lineal de variables aleatorias
introducen algunas propiedades
inferencia de la combinacin
estadstica. =
lineal
En particular, se pretende ) }el
cde{E ( X derivar 2 cesperado
+ valor i c j {E ( X y i j }
2
i Xlaj )varianza
i i
2
i
2

i =1 1 i < j k

(discretas o continuas) que sern tiles


3.4de COMBINACIN
la combinacin lineal para la estimacin
k c1X1 + 2... + c Xk,2edonde k
c ,ALEATORIAS
..., ck son constantes arbitrarias y X1,
LINEAL DE= VARIABLES
2
k
var ci X i = E ci X i c i i2+ 2 1
i =1 c i i
kk
c i c j {E ( X i X j ) i j }.
1 i < j k
ca. En particular,Ense
...,pretende
Xk son
este derivar
apartado
i =1 variables el valor
se introducen
aleatorias
i =1 esperado
algunas
con iy=1la
esperanzas varianza
1, ...,
propiedades dek ylavarianzas
combinacin lineal
12 , ..., k2 . de
Comovariables
el
aleatorias (discretas o continuas)
k que sern tiles para la estimacin k e inferencia estadstica.
En
c a
lineal c1X1 + ... particular,
+ ckXk, donde c1, ...,As,
se pretende = son
kderivar constantes
lac i2varianza
E ( X
el 2
)
valor+ de2 arbitrarias
una
esperado combinacin
c c Ey (y
laX X X ,
varianza
1 )lineal
de no c
la depende

2 2
+ 2
combinacin slo c de
c la

lineal c X
varianza
especfica de
j1 1 + ...
valor esperado de la suma de ivariables aleatorias
i j ies igual
j la suma
i i de sus respectivas
i j i
+ ckXk, donde c1, ..., ck son constantes arbitrarias y X1, ..., Xk son variables aleatorias con
i = 1 1 i < j k i = 1 1 i < j k
aleatorias con esperanzas 11,, ..., cada k variable , ...,
kk y varianzas
2
sino 2tambin
.. Comode el los
valor esperado
trminos E(XdeiXjla ij, que
) - suma de variables
se conocen como
esperanzas, se tiene que
aleatorias es igual a la i j sei tiene
2 1 2 k
= suma c 2
{ E (
i de sus X )
i respectivas i } + 2 c
esperanzas, c { E ( X X j )
quei j }
i =1 1 i < j k
a suma de variables aleatorias es igual covarianzas
k
a la suma de sus
entre las respectivas
variables Xk i y Xj. En general, la covarianza poblacional entre dos
k2 2 k k
= E c i ci X+i 2 = cEi c(cj {i XE (i )X=i X jc) iE ( Xi i )j }=. c i i ,
e que variables 1i <i =j 1 kX e Y con esperanzas
i =1 i =1 aleatorias i =1 x yi =1 y se define como
ya que E(ciXi) = ciE(Xi). Es decir, la esperanza de una combinacin lineal de variables aleatorias
k es k
la
As, que E(ciX
yacombinacin kk i) =lineal ciuna
E(Xde ). Es k
ksus decir, , la esperanza
2
esperanzas. cov( Xno de= Euna
, Y2)depende x)(Yde- la
{(Xcombinacin
-slo y)} lineal
= E(XY - xy, de
deespecfica
)variables
E (clai Xvarianza de icombinacin lineal
k
varianza
E ci X i = )
var
i = c E ( X )
ci iX i =i E = c
ci iX ii ci i
i =1 i =1 A partir de ii=este
=11 resultado,
ii==11y recordando i =1que var(X) = E(X2) 2, puede calcularse la varianza
aleatorias es la 2combinacin lineal de sus esperanzas.
cada k variable
i k,ysino ktambin k 2dedelos trminos E(XiXentre j) - ij, quevariables. se conocen como
2 2
de una combinacin lineal
es una demedida variables aleatorias
la relacin como lineal k ambas Si valores
altos (o bajos) de
var ci X i = E ci=X i c i E (
2 c
X i )i + i2 ci c j E ( X i X j ) c2 i i 2+ 2 ci c j i j
2 2
E(Xi). Es decir, la esperanza
i =1 A partir de deuna i =1 combinacin
este i =1 k iy
resultado, =1lineal 2
recordando de variables
1 i <kj k que 2var( X) = Ei(=X 1 ) - , puede calcularse la
ser
covarianzas k
entre X
lastienden
variables a asociarse
X y X . con
En valores
general, altos
la (o bajos)
covarianza Y1,i <laj kcovarianza
depoblacional entre dospositiva;
var kci X2i = Ek2 ci X i 2 2 ci i k 2 2
i j

mbinacin lineal devarianza
sus esperanzas.=i =1
de E(=X
unacicombinacin i )c+ 2
2E (
i i=1{ X ic)i cj de
lineal E }=1+i X2 j )
X
i(ivariables i
caleatorias
c j {cEi (Xi i X +como 2j ) ci i cj }j i j
mientras que si valores altos de una variable 1se
i <relacionan con valores bajos de la otra
variables aleatorias i =1 X ei =k1Y con1iesperanzas < jk x1yi <j ykse i =1 define como
k
j k

resultado, y recordando que var( k X) = = E( Xk 2 2
)c2i2- E2( ,X i ) + 2 c i c j E ( X i X j ) c i i + 2 c i c j i j
puede
2
calcularse la 2 2

= ci variable,2
{E=( X c la
i =1i )i
2 + 2
icovarianza
2
i }+ 2
c1i ci <cser
jj{ X X ) No
E ( negativa.
ick j {E i( X ji X j ) i }i .
jobstante,
i =1j }
resulta complicado
1 i < j k determinar el
cov( k X, Y) = E{(X - x)(Y - y)} = E(XY) - xy,
i =1 i =1 1 i <1jik< j k
mbinacin lineal de variables aleatorias como
= c i2 i2 + X i X j ) 1
k grado = deci2relacin
{E ( X i2 )lineal i2 }entre + 2 doscivariables c {E ( X i X a partir de la magnitud de la covarianza, ya
j ) i j }
As, la varianza i =
2
de una1combinacin
1 c i c j { E ( i i
<
j kj }. j
lineal no depende slo de la varianza especfica de
y es una medida i =1 de la relacin
que sta k
i < j k lineal entre ambas variables. Si valores altos (o bajos) de
depende de las unidades de medida de las variables. Una medida alternativa del
2 = c i i + 2 c i c j {E ( X i X j ) i j }.
2 2
cada variable i , sino tambin de los trminos E(XiXj) - ij, que se conocen como
As, laXvarianza
tienden de a asociarse coni =1 valores altos 1 i < j k (o bajos) de Y, la covarianza ser positiva;
grado
una combinacin de asociacin lineal nolineal depende entreslo dosdevariables
la varianza aleatorias
especfica X e Ydees el coeficiente de
24
As, covarianzas
la varianza de entre las variables Xi y Xj. En general, la covarianza poblacional entre dos cada
una combinacin lineal no depende slo de la varianza especfica de
mientras
As, laiquevarianzasi valorescorrelacin
de una altos de
combinacin una variable
poblacional lineal iXxyse
no, que relacionan
depende se ,define sesecon
queslo comodevalores
la varianza bajos de la otra
especfica de
, sino tambin de los trminos E(X j)j)- iij, jque conocen como covarianzas entre
2
cada variable sino tambin de los trminos E(X iX conocen como
las variables i y Xj. En general,
variablesXaleatorias X e Y conlaesperanzas covarianza x poblacional
y y se defineentre comodos variables aleatorias X e Y
variable,
con esperanzas
cada la
variablecovarianza
y se
x i y, sino
2 ser
define negativa.
como No obstante, resulta
E(XiXj) -poblacionalcomplicado
ij,Xque
determinar el
covarianzas entre las variables Xitambin
y Xj. Ende los trminos
general, la covarianza 24 cov( , Y )se entre
conocen doscomo
xy = ,
grado de relacin lineal cov( entre X, Ydos {(X x)(aYpartir
) = Evariables y)} XY) xyx yde
de=laE(magnitud , la covarianza, ya
variables covarianzas
aleatorias X entre e Y con variables Xi xyyXj.yEn
lasesperanzas general,como
se define la covarianza poblacional entre dos
y es una medida de la relacin lineal entre ambas variables. Si valores altos (o bajos) de X
quevariables
ysta depende
es una medida de delas
la
X
unidades
relacin altos delas
lineal medida
entre de lasvariables.
ambas variables. Si Una
valores medida
Elaltos
alternativa
(o bajos)de del
decorrelacin
tienden a asociarsealeatorias donde
con valores e xYycon y son
esperanzas
(o bajos) desviaciones dex yY,la y se tpicas
definede
covarianza como X e Y.positiva;
ser coeficiente mientras que si carece
cov(X, Y) = E{(X - x)(Y - y)} = E(XY) - xy,
valores altos de una variable se relacionan con valores bajos de la otra variable, la covarianza
X tienden a asociarse conentre valores altos (o bajos) de Y, la covarianza
X etal Y es ser positiva; de
coeficiente
grado
ser de asociacin
negativa. No obstante, lineal
de unidades resulta y toma
dos
complicadovariables
valores entre
aleatorias
determinar -1 y 1;eldegrado deelrelacin
forma que si lineal xy = 1,entre dos
las variables
cov(X, Y) = E{(X - x)(Y - y)} = E(XY) - xy,
y es una medidaa de
variables partirla relacin
de la lineal entre
magnitud de ambas
la covarianza,variables.yaSique valores sta altos
depende (o bajos) de lasdeunidades de
mientras que
correlacin si valores altos xyuna de una variablecomo se relacionan con valores bajos de la otra
medida de laspoblacional
variables.
presentan Una , que
medida se define
relacin alternativa
lineal positiva del grado perfecta, de asociacin
y si xy = -1,lineal entre dos
las variables presentan una
X tienden a es
variables asociarse
yvariable,
una medida
aleatorias con Xvalores
de
e Yla es altos
relacin
el (o
coeficiente bajos)
lineal entre
la covarianza ser negativa. No obstante, resulta complicado determinar dede Y , la
ambas
correlacin covarianza
variables. ser
poblacional Si positiva;
valores xy , altos
que se(o bajos)
define
el de
como
cov( X , Y ) 25
mientras que Xgradosi valores
tienden a altos
asociarse de una
con variable
valores se
altos xy = relacionan
(o bajos) con
de ,Y ,valores
la covarianza bajos deser la otra
positiva;
de relacin lineal entre dos variables apartir de la magnitud de la covarianza, ya
x y

variable,
dondela covarianza
mientras
xsta que si
y depende ser negativa.
valores
las altos No
de obstante,
una deresulta
variable Xdese complicado
relacionan
Y. condeterminar
valores el de lacarece
bajos otra
que y son lasde desviaciones
unidades tpicas
de medida elas El coeficiente
variables. Una de correlacin
medida alternativa del de
unidades
donde xyytoma valores
lay son entre 1 y 1;tpicas
las desviaciones de tal de
forma Yque
Xlaemagnitud
. El xy = 1, las de
sicoeficiente variables presentan
correlacin una
carece
gradorelacin
de relacin
grado delineal
variable,
lineal entre
covarianza
asociacin
positiva dosser
variables
lineal
perfecta,entre xya=variables
negativa.
y si dos partir
Nolas
1, devariables
obstante,
aleatorias X ede
resulta la covarianza,
complicado
Y es
presentan el
una ya
determinar
coeficiente
relacin lineal el
de negativa
perfecta. Cuando xy = 0, se dice que las variables estn incorrelacionadas. Notar que si dos
de depende
que sta unidades
grado dede
correlacin
variables son yindependientes,
toma
las
relacin valores
unidades
lineal de
poblacional entre
entre
en
xy el-1sentido
medida
dos
, que yde
1;las
dede
variables
se define tal forma
variables.
aque
como partir
el deque
Una si xy = alternativa
la medida
magnitud
conocimiento 1,del
lasla
de variables
valor del
covarianza,
que toma yauna

grado presentan
de asociacin
que staunalineal entre
relacin
depende dos
lineal
de las variables
positiva
unidades medida deyXlas
aleatorias
de perfecta, sie Yvariables.
es=el-1,coeficiente
lasUna de presentan
variables
medida alternativa una
delR.
cov( X , Y ) xy Pastor-Barriuso 37
xy = ,
correlacin poblacional
grado xy, que
de asociacin lineal
se entre
definedos x aleatorias
variables
como y X e Y es el coeficiente de 25
xy

implica necesariamente
correlacin se discutirnindependencia, ya en
en mayor detalle queellas variables
Tema 10. podran presentar una
Variables aleatorias y distribuciones deprobabilidad
dependencia node
La varianza lineal
una aun cuando xy
combinacin = 0. de
lineal Este y otros aspectos
variables aleatoriassobre
quedaelentonces
coeficiente de

correlacin
variable sepor
discutirn
no aporta
determinada ningunaeninformacin
mayor detalle sobreen elelTema
valor10. de la otra variable, entonces estn
incorrelacionadas; pero que la incorrelacin no implica necesariamente independencia, ya que
La varianza
las variables de una
podran combinacin
presentar lineal de variables
una dependencia no lineal aleatorias queda entonces
aun cuando xy = 0. Este y otros
k
k
var de
aspectos sobre el coeficiente ci X i = c i i + 2 c i c j cov( X i , X j )
correlacin 2 se discutirn en mayor detalle en el Tema 10.
2
determinada por i =1 i =1 1 i < j k
La varianza de una combinacin
E(X1 - X2) lineal = 1k - de
2 variables
= 130 - 80 aleatorias
= 50 mm queda
Hg entonces determinada por

= k ci i + 2 ci c j i j ij ,
2 2
k
var
E(X
y, teniendo en cuenta
la -c iXX2)i ==
1 correlacin
i =1
i =1 2 2
1 - entre
i =1
+ 21-
ci2=i 130
ambas
i< jk
c=i c50
80variables,
1 i < j k
mmXlaHg
j cov( X j)
i ,varianza de la
k
donde ij es
presin delelen
coeficiente
pulso vendradedada
correlacin
por + 2Xi
c i2entre
= entre 2 y Xcj.cEn el caso de que las variables
y, teniendo cuenta la correlacin i ambas variables, ij , varianza de la
i j i j la
i =1 1 i < j k
sean mutuamente
presin del pulso independientes
vendra dada2por(bastara la condicin menos restrictiva de que
1 - X2) = 1 + 2 - 21212
2
var( X
donde ij es el coeficiente de correlacin entre Xi y Xj. En el caso de que las variables sean
donde ij esincorrelacionadas),
estuvieran
mutuamente el coeficiente de(bastara
independientes correlacin
la varianza de laXcombinacin
entre
la condicin i y Xj. En el caso
linealdeesque de
menos restrictiva las que
variables
estuvieran
22 22 2
incorrelacionadas),var( la1 combinacin
X1 - X2) =de20
la varianza 2 - 220
+ 10 110120,60es= 260 (mm Hg) ,
2lineal
sean mutuamente independientes (bastara la condicin menos restrictiva de que
2 k 2 2
k

desviacin tpica= 20
para una incorrelacionadas),
estuvieran
var
260
la
+=
10
varianza
i =1
2
c
16,1
X
-i 2mm=
i20
de
10
la
Hg.
ci =
0,60
combinacin
i =1
i .260 (mm Hg) ,
lineal es
2

Ejemplo
para 3.15 Supongamos
una desviacin tpica 260 que=kla 16,1 media
mm yk la desviacin tpica de la presin arterial
Lossistlica
resultados anteriores son vlidos para Hg.
cualquier
X1 en una determinada var ci X i son
poblacin = 1 =cvariable
130 mm aleatoria.
i i .
2 2
Hg y 1 = 20 Nomm obstante,
Hg, y la media
Ejemplo 3.15 Supongamos que la media y la desviacin tpica de la presin
y la desviacin tpica E(X1 - X2) = 1 - 2 = 130 - 80 = 502 mm Hg
de la presin i =arterial
1 diastlica
i =1 X son 2 = 80 mm Hg y 2 = 10 mm
si las variables
Los Hg. X ,
Supongamos..., X siguen
kadems una
que distribucin
elcoeficiente normal, puede
de- correlacin probarse
entre que la
resultados Hg la presin arterial sistlica
1 anteriores son vlidos para cualquier
arterial sistlica EX(X -X
1 1en una 1 - 2 = 130
2) =determinada 80variable
poblacin = 50sonmm aleatoria. No obstante,
1 = 130 mm Hg y 1 = 20
y diastlica de los sujetos de esta poblacin es 12 = 0,60. El valor esperado de la presin del
y, teniendo
combinacin linealenc1cuenta
X + ...lala+diferencia
correlacin
cuna
kXk tambin
entre ambas
seguir unavariables,
distribucinla varianza
normal de lala
con
si pulso,
las variablesdefinida
EjemploX1, ...,
3.15 como
X1kSupongamos
siguen queentre
distribucin la presin
la media normal, arterial
puede sistlica
y la desviacin tpica yde
probarse diastlica,
quelalapresinsera
mm Hg,en
y, teniendo y la media
cuenta la ycorrelacin
la desviacin entretpica
ambasde la presin arterial
variables, la varianza de la X2 son 2
diastlica
presin del pulso E (
vendraX 1 dada
X 1 2 = 130 80 = 50 mm Hg
2 ) =por
media y varianza
combinacin linealdescritas
c1X1 + X... anteriormente.
+ ckXk tambin Este resultado
seguir se utilizar en
una distribucin los temas
normal de
arterial sistlica 1 en una determinada poblacin son 1 = 130 mmcon Hg la
y 1 = 20
= 80del
presin
y, teniendomm Hgcuenta
pulso
en 2 =la10dada
yvendra mmpor Hg. Supongamos
correlacin entre ambasadems quelaelvarianza
variables, coeficiente de de
la presin del
inferencia.
y, teniendo
media ypulso
varianza en
vendra cuenta
dada
var(
descritas X por
- laX correlacin
) =
anteriormente. 2
+ entre
2
Este- 2 ambas

resultado variables,
se la
utilizar varianza
en los de
temas lade
mm Hg, y la media 1 y2 la desviacin
1 2 tpica 1 de
2 12 la presin arterial diastlica X2 son 2
correlacin entre la presin2 arterial 2 sistlica y diastlica de los sujetos de esta
presin del pulsovar(Xvendra
1 X2) = 1 + 2 2 1 2 12
dada 2por 2
inferencia. 22010adultas Hg)2, sigue
= 2 = 10== 20 Hg.+ 10 2 - mujeres 0,60 = 260 (mm
poblacin es 12 = 0,60.mm
Ejemplo 80 mm
3.16 Hg
El y
colesterol HDL
20 10Supongamos
+ en
El2valor las 22010de
esperado adems
0,60 deque
= 260
la presin delelpoblacin
una
(mm coeficiente
Hg)2, definida
pulso, de como

correlacinvar( 12 arterial
X1 -laX2presin
) = + 22 -sistlica
21 212ymmol/l
una Elentre
distribucin normal la Xpresin
con media = ydiastlica desera
los sujetos de1esta
11,25 y desviacin tpica =
para
Ejemplo
la una desviacin
3.16
diferencia entretpica
colesterol 1 HDL en== las
260arterial16,1
16,1 mm
mujeres Hg.
sistlica
mm adultas de una
diastlica, poblacin sigue
para una desviacin
poblacin lostpica
12 =hombres
yesennormal 0,60. 260
El 2 = 16,1
valor 2
2mm
esperado Hg.
de la variable
presin del Hg)2distribucin
pulso, definida 26
0,35
una
Los mmol/l,
distribucin
resultados anteriores X1=con
son 20 + 10para
adultos
media
vlidos -de
1=
20 10
dicha
1,25
cualquier0,60
mmol/l= 260
poblacin (mm
sigue
y desviacinuna
aleatoria. ,tpica 1 =comosi las
No obstante,
Los resultados
variables X1, ..., Xanteriores son vlidos para cualquier variable aleatoria. No obstante,
k siguen una distribucin normal, puede probarse que la combinacin lineal
normal
X1 0,35
c1Los + la diferencia
X
+ ckX
... mmol/l, con
tambin entre
media la =presin
seguir 1,10 una arterial
mmol/l ysistlica
distribucindesviacin y diastlica,
normal tpica sera
la2 =media
conaleatoria.0,30 mmol/l.
y varianza As,
resultados
para una 2 y en lostpica
k anteriores
desviacin hombres
2
son vlidos adultos
260 =para
16,1 de dicha
cualquier
mm Hg. poblacin
variable sigue una No obstante, descritas
distribucin
si las variables Este
anteriormente. X1, ...,resultado
Xk siguen seuna distribucin
utilizar en los temasnormal, de puede probarse que la
inferencia. 26
la diferencia
normal X con del colesterol
media = HDL
1,10 entre
mmol/l las
y mujeres
desviacin y los hombres
tpica = de esta
0,30 poblacin
mmol/l. As,
si las variables X1, ..., Xk siguen una distribucin normal, puede probarse que la
2 2 2
combinacin
LosEjemplo lineal
resultados 3.16 c1XEl
anteriores + cvlidos
1 +colesterol
...son kXk tambin
HDL paraenseguir
las mujeres
cualquier unavariable
distribucin
adultas de normal
una No
aleatoria. con
poblacin la sigue una
obstante,
se distribuir
ladistribucin segn
normal una normal
X conHDL mediacon media
1 =las1,25 mmol/l y desviacin tpica poblacin
combinacin diferencia
linealdel c1Xcolesterol
1 + ... 1+ ckX entre
k tambin mujeres
seguir una ydistribucin
los hombresnormalde estacon1 =
la0,35 mmol/l,
media y varianza descritas anteriormente. Este resultado
si las variables X1, ..., Xk siguen una distribucin normal, puede probarse que la X
y en los hombres adultos de dicha poblacin sigue se
una utilizar en
distribucin los temas
normal de2 con media
mediase y2varianza
= 1,10 mmol/l
distribuir segn
descritas y(desviacin
E una
X X2) = tpica
1 - normal
anteriormente. 1con
=2 =1,25
media
- 2Este 0,30 - mmol/l.
resultado
1,10 se As, mmol/l
la diferencia
utilizar
= 0,15 del colesterol
en los temas de HDL
inferencia.
entre las mujeres y los hombres de esta poblacin se
combinacin lineal c1X1 + ... + ckXk tambin seguir una distribucin normal con la distribuir segn una normal con media
inferencia. E(X1 X2 ) = 1 2 = 1,25 1,10 = 0,15 mmol/l
y varianza
media y varianza descritas anteriormente. Este resultado se utilizar en los temas de
Ejemplo
y varianza 3.16 El colesterol HDL en las mujeres adultas de una poblacin sigue
y varianza
Ejemplo
inferencia. 3.16var(ElXcolesterol
X2) = HDL 2 en2las mujeres 2 adultas
2 de una poblacin 2 sigue
1 + 2 = 0,35 + 0,30 = 0,213 (mmol/l) ,
una distribucin 1normal X1 con media 1 = 1,25 mmol/l y desviacin tpica 1 =
una distribucin normal X1 con
0,35 mmol/l, yElXencolesterol
var( X2)hombres
1 -los 22 = 0,35
media
= 12 + adultos 1 = 21,25 mmol/l
+ 0,302 y desviacin tpica
= 0,213sigue
(mmol/l)2
,
1 =
38 oEjemplo R. 3.16tpica
desviacin
Pastor-Barriuso 0,213 HDL
= 0,46 las de
enmmol/l, dicha
mujeres poblacin
adultas
ya que una
de unapara
los valores distribucin
poblacin sigue
distintos
0,35 mmol/l, y en los hombres adultos de dicha poblacin sigue una distribucin
normal
una X con media
distribucin 2X=1 1,10
normal con mmol/l1y =desviacin
media tpica 2 = 0,30 mmol/l.
tpica 1As,
osujetos son2 independientes
desviacin tpica 0,213 y,
= en mmol/l, 1,25
consecuencia,
0,46 mmol/l
ya que y desviacin
= 0.valores
12 los para distintos =
y varianza
Referencias
2 2 2
var(X1 - X2) = + = 0,35 + 0,30 = 0,213 (mmol/l) ,
2
1
2
2

o desviacin tpica 0,213 = 0,46 mmol/l, ya ya que


que los
los valores
valorespara
paradistintos
distintos sujetos son
independientes y, en consecuencia, 12 = 0.
sujetos son independientes y, en consecuencia, 12 = 0.
3.5REFERENCIAS
27
1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics, Volume
1, Second Edition. Upper Saddle River, NJ: Prentice Hall, 2001.
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press,
2002.
3. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
4. Feller W. An Introduction to Probability Theory and Its Applications, Volume 1, Third
Edition. New York: John Wiley & Sons, 1968.
5. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.
6. Stuart A, Ord JK. Kendalls Advanced Theory of Statistics, Volume 1, Distribution Theory,
Sixth Edition. London: Edward Arnold, 1994.

Pastor-Barriuso R. 39
TEMA 4

PRINCIPIOS DE MUESTREO
Y ESTIMACIN

4.1INTRODUCCIN

Un primer paso en la realizacin de un estudio o proyecto de investigacin es definir la poblacin


de la cual se desea conocer una determinada caracterstica o parmetro. Ocasionalmente, resulta
factible obtener informacin para todos los elementos de la poblacin mediante registros o
censos. Sin embargo, en la mayora de los estudios no es posible obtener informacin de toda
la poblacin, por lo que debemos limitarnos a la recogida de datos en una pequea fraccin del
total o muestra.
La utilizacin de muestras presenta varias ventajas con respecto a la enumeracin completa
de la poblacin:
yy Coste reducido. Si los datos se obtienen de una pequea fraccin del total, los gastos se
reducen. Incluso si la obtencin de informacin en toda la poblacin es factible, suele ser
mucho ms eficiente la utilizacin de tcnicas de muestreo.
yy Mayor rapidez. Los datos pueden ser ms fcilmente recolectados y estudiados si se utiliza
una muestra que si se emplean todos los elementos de la poblacin. Por tanto, el uso de
tcnicas de muestreo es especialmente importante cuando se necesita la informacin con
carcter urgente.
yy Mayor flexibilidad y mayores posibilidades de estudio. La disponibilidad de registros
completos es limitada. Muy a menudo, la nica alternativa posible para la realizacin de
un estudio es la obtencin de datos por muestreo.
yy Mayor control de calidad del proceso de recogida de datos. Al recoger datos en un nmero
menor de efectivos, resulta ms fcil recoger un nmero mayor de variables por individuo,
as como tener un mejor control de la calidad del proceso de recogida de datos.
Si se dispone de informacin para todas las unidades de la poblacin, el parmetro poblacional
de inters quedar determinado con total precisin. Sin embargo, si se emplea nicamente una
fraccin del total, el parmetro poblacional desconocido ha de estimarse a partir de la muestra,
con el consiguiente error derivado tanto por el carcter parcial de la muestra como por su
posible falta de representatividad poblacional. La teora de muestreo persigue un doble
objetivo. Por un lado, estudia las tcnicas que permiten obtener muestras representativas de la
poblacin de forma eficiente. Por otro lado, la teora de muestreo indica cmo utilizar los
resultados del muestreo para estimar los parmetros poblacionales, conociendo a la vez el grado
de incertidumbre de las estimaciones. As, la teora de muestreo pretende dar respuesta a varias
preguntas de inters:
yy Cmo se eligen a los individuos que componen la muestra?
yy Cuntos individuos formarn parte de la muestra?
yy Cmo se cuantifican las diferencias existentes entre los resultados obtenidos en la muestra
y los que hubiramos obtenido si el estudio se hubiera llevado a cabo en toda la poblacin?

Pastor-Barriuso R. 41
Principios de muestreo y estimacin

Estas cuestiones estn estrechamente relacionadas entre s. As, por ejemplo, al aumentar el
tamao muestral aumenta la exactitud en las estimaciones. La determinacin del tamao
muestral se tratar ms adelante (vase Tema 9). En el presente tema, se discuten los principales
tipos de muestreo probabilstico, as como la estimacin en el muestreo aleatorio simple. Antes
de ello, es conveniente revisar la definicin de algunos conceptos que se utilizan de forma
repetida a lo largo del captulo:
yy Poblacin o universo muestral es la coleccin de elementos o unidades de anlisis
acerca de los cuales se desea informacin. Con frecuencia, no se puede obtener informacin
de toda la poblacin, sino tan slo de unidades que cumplen una serie de caractersticas
(criterios de inclusin/exclusin). La poblacin marco es aquella sobre la que es posible
obtener informacin. La muestra se obtiene de la poblacin marco, por lo que debe
recordarse que las conclusiones extradas de la muestra son generalizables a la poblacin
marco y no necesariamente a la poblacin de inicio o universo.
yy Dentro del proceso de seleccin de una muestra, la poblacin suele dividirse en unidades
de muestreo, que deben constituir una particin de toda la poblacin. Estas unidades de
muestreo pueden coincidir con las unidades de anlisis, pero tambin pueden estar
constituidas por un conjunto de distintas unidades de anlisis.

Ejemplo 4.1 Supongamos que se desea estudiar la capacidad funcional de una poblacin
de ancianos institucionalizados. Para ello, se dispone de un lista de residencias, algunas
de las cuales se seleccionan para el estudio. Dentro de cada residencia seleccionada, se
eligen a su vez algunos ancianos que formarn parte de la muestra definitiva. En tal caso,
la seleccin de la muestra se habra realizado en dos etapas: las residencias constituiran
las unidades de muestreo de primera etapa y los ancianos (unidades de anlisis) seran las
unidades de muestreo de segunda etapa.

yy Muestreo probabilstico es aquel en que todas las unidades de la poblacin tienen una
probabilidad conocida y no nula de ser seleccionadas para la muestra. El muestreo
probabilstico minimiza la probabilidad de sesgos (si el tamao muestral no es muy
limitado, la muestra ser muy probablemente representativa de la poblacin) y permite
cuantificar el error cometido en las estimaciones como consecuencia de la variabilidad
aleatoria. La teora del muestreo se basa fundamentalmente en el muestreo probabilstico,
ya que otros tipos de muestreo (de conveniencia, por cuotas) estn sujetos a una mayor
probabilidad de sesgos y es ms difcil extrapolar los resultados a la poblacin.
yy En el muestreo con reposicin, cada vez que se elige un nuevo elemento muestral se
dispone de toda la poblacin para realizar la seleccin, mientras que en el muestreo sin
reposicin los elementos que ya han aparecido en la muestra no estn disponibles para ser
elegidos de nuevo. En el muestreo con reposicin, por tanto, una unidad poblacional puede
aparecer ms de una vez en la muestra. En la prctica, el muestreo suele realizarse sin
reposicin. No obstante, si el tamao de la poblacin es muy grande con respecto al tamao
muestral, la probabilidad de que un elemento de la poblacin sea elegido ms de una vez
en la muestra es tan pequea que ambos tipos de muestreo son similares.

4.2 PRINCIPALES TIPOS DE MUESTREO PROBABILSTICO

En este apartado se describen brevemente los principales procedimientos probabilsticos de


seleccin de muestras, tales como los muestreos aleatorio simple, sistemtico, estratificado, por

42 Pastor-Barriuso R.
Principales tipos de muestreo probabilstico

conglomerados y polietpico. Un tratamiento ms extenso de estos procedimientos puede


encontrarse en los libros de muestreo referenciados al final del tema.

4.2.1 Muestreo aleatorio simple

El muestreo aleatorio simple es el ms sencillo y conocido de los distintos tipos de muestreo


probabilstico. Supongamos que se pretende seleccionar una muestra de tamao n a partir de
una poblacin de N unidades. Un muestreo aleatorio simple es aquel en el que cualquier
subconjunto de tamao n tiene la misma probabilidad de ser seleccionado. Puede probarse que
el muestreo aleatorio simple es un procedimiento equiprobabilstico; es decir, todas las unidades
de la poblacin tienen la misma probabilidad n/N de ser elegidas en la muestra.
Para la seleccin de una muestra aleatoria simple, se enumeran previamente las unidades del
universo o poblacin de 1 a N y a continuacin se seleccionan n nmeros distintos entre 1 y N
utilizando algn procedimiento aleatorio, tpicamente mediante una tabla de nmeros aleatorios
o un generador de nmeros aleatorios por ordenador.
yy Las tablas de nmeros aleatorios son tablas con los dgitos 0, 1, 2, ..., 9, donde cada dgito
tiene la misma probabilidad de ocurrir y el valor de un dgito concreto es independiente
del valor de cualquier otro dgito de la tabla. En la Tabla 4 del Apndice se facilitan 1000
dgitos aleatorios.
yy La mayora de los programas de anlisis estadstico contienen generadores de nmeros
aleatorios. Estos generadores producen grandes secuencias de dgitos pseudoaleatorios,
que satisfacen aproximadamente las mismas propiedades de aleatoriedad enunciadas
anteriormente.

Ejemplo 4.2 Supongamos que, en el ejemplo anterior, se dispone de una lista completa
de los N = 875 ancianos institucionalizados en dicha poblacin, de los cuales se desean
seleccionar n = 10. La seleccin de una muestra aleatoria simple de este tamao puede
realizarse a partir de la Tabla 4 del Apndice como sigue. Comenzando en cualquier lugar
de esta tabla y leyendo grupos de 3 dgitos en cualquier direccin, seleccionar los 10
primeros nmeros distintos entre 1 y 875. Por ejemplo, empezando en el primer dgito de
la tercera fila y de izquierda a derecha, estos nmeros son: 339, 117, 619, 68, 440, 788,
696, 716, 183 y 546. Notar que los nmeros 897 y 898 han sido descartados por ser
superiores a N = 875. La muestra aleatoria simple estara as constituida por aquellos
ancianos de la poblacin numerados previamente por estos 10 valores.

Puede probarse que, como el muestreo aleatorio simple es un procedimiento


equiprobabilstico, una media o una proporcin poblacional se estiman simplemente mediante
la media o proporcin muestral. La estimacin de parmetros poblacionales a partir de una
muestra aleatoria simple, as como la varianza o error de las estimaciones, se discutir en detalle
al final de este tema.

4.2.2 Muestreo sistemtico

En ocasiones, la numeracin consecutiva de las unidades de la poblacin y la posterior seleccin


de una muestra aleatoria simple resultan muy laboriosas. En tales circunstancias, un
procedimiento alternativo ms sencillo es el llamado muestreo sistemtico. Bajo este
procedimiento, no siempre es necesario numerar previamente los elementos de la poblacin,
sino que basta con disponer de alguna ordenacin explcita (por ejemplo, orden de archivo de
historias clnicas o visitas sucesivas de pacientes a una consulta mdica).

Pastor-Barriuso R. 43
Principios de muestreo y estimacin

Para la seleccin de una muestra sistemtica de tamao n de una poblacin de N unidades,


se elige aleatoriamente un nmero de arranque r entre 1 y k, donde k es la parte entera de N/n,
y a partir del elemento que ocupa el lugar r, se toman los restantes elementos en intervalos de
amplitud k hasta completar la muestra deseada. As, la muestra estar constituida por los
elementos ordenados en los lugares r, r + k, r + 2k, ..., r + (n 1)k. Como en general N no es
mltiplo de n, este mtodo de seleccin no es necesariamente equiprobabilstico (si N/n no es
un nmero entero, las unidades comprendidas entre los lugares nk + 1 y N nunca podrn formar
parte de la muestra). Una modificacin a este procedimiento, que garantiza la obtencin de una
muestra equiprobabilstica, consiste en seleccionar el nmero aleatorio de arranque r entre 1 y
N, y tomar cada k-sima unidad a partir de ah, continuando en el primer elemento al alcanzar
el final de la lista.

Ejemplo 4.3 Para seleccionar una muestra sistemtica de tamao n = 10 de la poblacin


de N = 875 ancianos institucionalizados, se calcula primero la amplitud del intervalo de
seleccin como la parte entera de N/n = 875/10 = 87,5; es decir, k = 87. Si se seleccionara
el nmero de arranque r entre 1 y 87, el ltimo anciano seleccionado ocupara en el lugar
r + (n 1)k = r + (10 1)87 = r + 783, que sera siempre inferior o igual a 870 (dado que
r 87). En consecuencia, los ancianos en los lugares 871 a 875 nunca podran formar
parte de la muestra. Para asegurar un muestreo equiprobabilstico, el nmero de arranque
se selecciona aleatoriamente entre 1 y 875. Suponiendo que este nmero de arranque fue
r = 427 y tomando intervalos de amplitud k = 87, la muestra sistemtica quedara integrada
por aquellos ancianos en los lugares 427, 514, 601, 688, 775, 862, 74, 161, 248 y 335.

En el muestreo sistemtico, la ordenacin de los elementos de la poblacin determinar las


posibles muestras. En consecuencia, este orden ha de estar exento de cualquier periodicidad
relacionada con las variables a estudio. As, por ejemplo, si para estimar el nivel de contaminacin
atmosfrica en una ciudad se toma una muestra sistemtica de das con k = 7, la muestra estar
formada por los mismos das de la semana y presentar un claro sesgo por falta de
representatividad. No obstante, estas periodicidades son muy infrecuentes en la prctica y
pueden solventarse con facilidad (en el ejemplo anterior, bastara con utilizar un intervalo de
seleccin distinto de 7). En general, si la ordenacin de las unidades de la poblacin es
esencialmente aleatoria, la estimacin de parmetros y sus correspondientes errores en un
muestreo sistemtico se realiza igual que en un muestreo aleatorio simple.

4.2.3 Muestreo estratificado

En los muestreos anteriores, las muestras se seleccionan por procedimientos puramente


aleatorios. As, si el tamao muestral es suficientemente grande, la muestra ser muy
probablemente representativa de la poblacin. Sin embargo, no existe una garanta absoluta de
que la muestra finalmente seleccionada sea representativa para cualquier variable de inters.
Cuando se desea asegurar la representatividad de determinados subgrupos o estratos de la
poblacin, la alternativa ms sencilla es seleccionar por separado distintas submuestras dentro
de cada estrato. Este procedimiento de seleccin se conoce como muestreo estratificado. Los
estratos han de definir subgrupos de poblacin que sean internamente homogneos con respecto
a la caracterstica o parmetro de inters y, por tanto, heterogneos entre s. En la prctica, los
estratos se definen en funcin de variables fciles de medir previamente y relevantes para el
tema objeto de estudio (por ejemplo, edad, sexo, raza o rea geogrfica de residencia). En
general, el nmero de estratos ha de ser reducido (rara vez resulta eficiente utilizar ms de 5
estratos) y el tamao por estrato no debe ser muy pequeo.

44 Pastor-Barriuso R.
respectivamente, cuya suma ser igual al tamao total n de la muestra. La seleccin

dentro de cada estrato suele realizarse por muestreo aleatorioPrincipales


simple otipos
sistemtico, y el
de muestreo probabilstico

procedimiento se denomina entonces muestreo aleatorio estratificado.


Para
Enlaelseleccin
muestreode una muestraesestratificada
estratificado, de tamaocmo
necesario determinar n, lasepoblacin
distribuyedeelNtamao
unidades se
divide en K estratos de tamaos N1, N2, ..., NK, cuya suma es igual a N. Los estratos son
mutuamente excluyentes
muestral total n entre losy distintos
exhaustivos, de tal
estratos; formalaque
es decir, cada elemento
asignacin de la poblacin
de los tamaos
pertenece a uno y slo a uno de los estratos. Una vez determinados estos estratos, se selecciona
pormuestrales
separado unan1, nmuestra de cada estrato de tamao n1, n2,de nK, respectivamente,
...,asignacin en funcin cuya
del suma
2, ..., nK. Aunque existen distintos tipos
ser igual al tamao total n de la muestra. La seleccin dentro de cada estrato suele realizarse
portamao
muestreo aleatoriopor
y varianza simple o sistemtico,
estrato y el procedimiento
(vase referencias al final del se denomina
tema), entonces muestreo
nos limitaremos aqu
aleatorio estratificado.
a laelasignacin
En proporcional,
muestreo estratificado, esque es el procedimiento
necesario determinar cmoutilizado con mayor
se distribuye frecuencia.
el tamao muestral
total n entre los distintos estratos; es decir, la asignacin de los tamaos muestrales n1, n2, ..., nK.
En la asignacin
Aunque proporcional,
existen distintos tipos delaasignacin
muestra total
en se repartedel
funcin entre los estratos
tamao de forma
y varianza por estrato
(vase referencias al final del tema), nos limitaremos aqu a la asignacin proporcional, que es
proporcional alutilizado
el procedimiento tamao de concada estrato
mayor en la poblacin.
frecuencia. As, comoproporcional,
En la asignacin la proporcin la muestra
total se reparte entre los estratos de forma proporcional al tamao de cada estrato en la poblacin.
As,poblacional en cada estrato
como la proporcin es Nk/N,enel cada
poblacional tamao muestral
estrato es Nkdel
/N, estrato
el tamaok-simo ser del estrato
muestral
k-simo ser
Nk
nk = n .
N
Resulta inmediato probar que esta asignacin da lugar a una muestra equiprobabilstica.
Resulta inmediato probar que esta asignacin da lugar a una muestra equiprobabilstica.
Ejemplo 4.4 La capacidad funcional de los ancianos disminuye en gran medida con la
edad. Supongamos que, de los N = 875 ancianos institucionalizados, se sabe que el 60%
Ejemplo
tienen menos4.4 deLa
75capacidad
aos (N1 =funcional
525) y elderestante
los ancianos disminuye
40% tienen 75 o en
msgran medida
aos (N2 = 350).
Para simplificar la exposicin, supongamos adems que los ancianos menores de 75 aos
con la edad.aSupongamos
corresponden los primerosque, los N = 875
525denmeros de ancianos institucionalizados,
la lista. As, de los n = 10seancianos
seleccionados por muestreo aleatorio simple en el Ejemplo 4.2, la mitad resultaron ser
sabe que
mayores de el
7560%aos.tienen
Esto menos
es, por de 75 aos
simple (N1 = 525)aleatoria,
variabilidad y el restante 40% tienen
los mayores 75 aos
de 75 o
estn ligeramente sobrerrepresentados en la muestra y, en consecuencia, la capacidad
ms aos
funcional (N2 =obtenida
media 350). Parade simplificar
esta muestrala exposicin, supongamos
podra infraestimar adems que
la verdadera los
capacidad
funcional de los ancianos institucionalizados. Para asegurar una mejor representatividad
ancianos
muestral pormenores de 75
edad, podra aos corresponden
realizarse un muestreoaestratificado
los primeroscon 525asignacin
nmeros de la lista.
proporcional
a ambos estratos de edad. Es decir, de la muestra de tamao n = 10, seleccionaramos 6
ancianos los n = 10
As, demenores deancianos
75 aos seleccionados
(n1 = nN1/N = por muestreo
100,6 = 6) yaleatorio
4 mayores simple en aos
de 75 el (n =
2
nN2/N = 100,4 = 4). Utilizando un muestreo aleatorio simple dentro de cada estrato, los
Ejemplo seleccionados
6 nmeros 4.2, la mitad resultaron
entre 1 yser525mayores
fueron de 75 493,
505, aos.24,Esto402,
es, por
371simple
y 265, y los 4
nmeros seleccionados entre 526 y 875 fueron 851, 820, 717 y 696. La muestra estratificada
variabilidad
proporcional aleatoria,
estara los mayores
formada por los 10deancianos
75 aos estn ligeramentea dichos nmeros.
correspondientes
9
Cabe resear aqu dos caractersticas importantes del muestreo estratificado. Por un lado, la
asignacin proporcional es la nica que produce muestras equiprobabilsticas y, en consecuencia,
la media y proporcin poblacional se estiman mediante la media y la proporcin muestral. Para
cualquier otra asignacin, la estimacin de parmetros poblacionales requiere de la inclusin de
pesos para cada observacin muestral (tpicamente, el inverso de la probabilidad de seleccin).
Por otra parte, para un mismo tamao muestral, el muestreo estratificado facilita estimaciones
ligeramente ms precisas (con menor error) que el muestreo aleatorio simple. Este resultado es
debido a que, cuanto ms homogneos sean los estratos, ms precisas sern las estimaciones en
dichos estratos y esto redundar en una mayor precisin de las estimaciones para toda la
poblacin.

Pastor-Barriuso R. 45
Principios de muestreo y estimacin

4.2.4 Muestreo por conglomerados

La aplicacin de los diseos muestrales anteriores requiere de la enumeracin u ordenacin de


todos los elementos de la poblacin. Sin embargo, a menudo no se dispone de una lista completa
o, aun disponiendo de tal lista, resulta muy costoso obtener informacin de las unidades
muestreadas. Por ejemplo, si se seleccionara una muestra aleatoria simple de 1000 individuos
de una gran ciudad, los individuos seleccionados estaran muy dispersos y la recogida de
informacin sera extraordinariamente laboriosa. En tales circunstancias, una alternativa
consiste en clasificar a la poblacin en grupos o conglomerados, para as seleccionar una
muestra de estos conglomerados y despus tomar a todas o a una parte de las unidades incluidas
dentro de los conglomerados seleccionados. Este mtodo de seleccin se denomina muestreo
por conglomerados y presenta dos ventajas fundamentales:
yy Este muestreo es la nica alternativa posible cuando no se dispone de una lista con todas
las unidades de la poblacin. En el muestreo por conglomerados, nicamente es necesario
contar con listas de las unidades que integran los conglomerados seleccionados.
yy Aun cuando otras tcnicas de muestreo sean posibles, con frecuencia el muestreo por
conglomerados resulta ms econmico, ya que las unidades muestrales estn concentradas
en los conglomerados seleccionados.
Notar que, a diferencia de la estratificacin, donde interesa que los estratos sean lo ms
homogneos posible, los conglomerados deben ser heterogneos: en cada conglomerado debe
haber unidades representativas de toda la poblacin, de lo contrario se perdera informacin al
seleccionar nicamente algunos de ellos. El nmero de conglomerados es tpicamente elevado,
de los cuales suele seleccionarse un nmero relativamente pequeo para resolver el problema
de la dispersin muestral.
Supongamos que se pretende extraer una muestra de tamao n a partir de una poblacin de
N unidades agrupadas en M conglomerados de tamaos N1, N2, ..., NM. Entre los distintos
mtodos de seleccin por conglomerados, el muestreo por conglomerados con probabilidad
proporcional a su tamao resulta particularmente til en la prctica. Para llevar a cabo este
muestreo, se procede como sigue:
1. Ordenar arbitrariamente los conglomerados y calcular los tamaos acumulados. Estos
tamaos acumulados delimitarn, para cada conglomerado, un rango de valores de
amplitud igual a su tamao poblacional.
2. Si se pretende seleccionar m conglomerados, extraer una muestra sistemtica de tamao m
entre 1 y N. Los conglomerados seleccionados sern aquellos cuyo rango incluya alguno
de los valores muestreados.
3. Dentro de cada conglomerado seleccionado, obtener una muestra aleatoria simple o
sistemtica de tamao n/m.

Ejemplo 4.5 Con cualquiera de las tcnicas de muestreo utilizadas en los ejemplos
anteriores, la muestra incluira muy probablemente ancianos institucionalizados en
mltiples residencias, con el consiguiente inconveniente en la recogida de informacin.
Supongamos que los N = 875 ancianos institucionalizados se encuentran distribuidos en
M = 15 residencias con los tamaos especificados en la Tabla 4.1. Para optimizar el
trabajo de campo, se decide extraer la muestra de tamao n = 10 a partir de m = 2
residencias (conglomerados) seleccionadas con probabilidades proporcionales a sus
tamaos.

46 Pastor-Barriuso R.
Principales tipos de muestreo probabilstico

Tabla 4.1 Distribucin del nmero de ancianos institucionalizados por


residencia.
Residencia (i) Tamao (Ni) Tamao acumulado Rango asignado

1 50 50 1 50
2 30 80 51 80
3 35 115 81 115
4 70 185 116 185
5 55 240 186 240
6 45 285 241 285
7 125 410 286 410
8 80 490 411 490
9 20 510 491 510
10 100 610 511 610
11 65 675 611 675
12 35 710 676 710
13 40 750 711 750
14 75 825 751 825
15 50 875 826 875

En primer lugar, se asigna a cada residencia un rango de valores de amplitud igual a su tamao
(Tabla 4.1). A continuacin, se extrae una muestra sistemtica de tamao 2 entre 1 y 875: si el
nmero de arranque result ser 316, los valores muestreados son 316 y 753 (ver apartado de
muestreo sistemtico). As, como el valor 316 est incluido dentro del rango asignado a la residencia
7 y el valor 753 en el rango de la residencia 14, resultan seleccionadas las residencias 7 y 14.
Para completar la muestra de n = 10 ancianos, se extraen finalmente muestras aleatorias
simples de tamao n/m = 10/2 = 5 de las residencias 7 y 14. De los 125 ancianos institucionalizados
en la residencia 7, se seleccionaron los nmeros 74, 23, 104, 111 y 57; y de los 75 ancianos de
la residencia 14, los nmeros 38, 51, 25, 34 y 41. En conclusin, la muestra total estar
formada por los ancianos listados en los lugares 74, 23, 104, 111 y 57 de la residencia nmero7,
ms aquellos que ocupan los lugares 38, 51, 25, 34 y 41 de la residencia nmero 14.

El muestreo por conglomerados con probabilidades proporcionales a sus tamaos facilita


muestras equiprobabilsticas, as la media y la proporcin poblacional pueden estimarse
mediante sus correspondientes funciones muestrales. En general, para un tamao muestral
constante, la precisin de las estimaciones en un muestreo por conglomerados es menor que en
un muestreo aleatorio simple. Las unidades de un mismo conglomerado suelen estar
correlacionadas y, en consecuencia, aportan menos informacin que los elementos seleccionados
de forma ms dispersa mediante un muestreo aleatorio simple.

4.2.5 Muestreo polietpico


Los diseos muestrales empleados en la prctica se realizan combinando las tcnicas descritas
anteriormente. En muchas situaciones, resulta ms apropiado obtener la muestra final en
diferentes etapas o pasos. En un muestreo polietpico, la poblacin se divide en grupos
exhaustivos y mutuamente excluyentes, que constituyen las llamadas unidades de primera
etapa; cada una de ellas se desagrega a su vez en subgrupos o unidades de segunda etapa, y as
sucesivamente, hasta llegar en una ltima etapa a los elementos o unidades de anlisis. La
seleccin de unidades en cada una de las etapas se realiza mediante una tcnica de muestreo
diferente y la muestra final ser la resultante de aplicar sucesivamente cada una de estas tcnicas.

Pastor-Barriuso R. 47
Principios de muestreo y estimacin

Ejemplo 4.6 En el ejemplo anterior se seleccionaron 2 de las 15 residencias y, dentro de


cada residencia seleccionada, se eligieron a su vez 5 ancianos para formar la muestra
definitiva. Este procedimiento de seleccin es, de hecho, un muestreo bietpico: las
residencias constituiran las unidades de muestreo de primera etapa y los ancianos seran
las unidades de muestreo de segunda etapa.

Una tcnica de muestreo en etapas que se emplea con cierta frecuencia es el muestreo
estratificado polietpico. Bajo esta tcnica, las unidades de primera etapa se clasifican en
distintos estratos y, dentro de cada estrato, se selecciona al menos una de sus unidades de
primera etapa. La muestra final resultar de aplicar sucesivas etapas de muestreo dentro de las
unidades de primera etapa seleccionadas en cada estrato. Este muestreo permite obtener una
mayor representatividad muestral al seleccionar unidades dentro de todos los estratos.

Ejemplo 4.7 Supongamos que, de las 15 residencias listadas en la Tabla 4.1, las
residencias 4, 7, 8, 10 y 14 son pblicas, con un total de 450 ancianos (51,4%), y las
restantes 10 residencias son privadas, con un total de 425 ancianos (48,6%). En el Ejemplo
4.5, las 2 residencias seleccionadas (7 y 14) fueron pblicas; es decir, la muestra final no
incluy a ningn anciano institucionalizado en residencias privadas. Para garantizar la
representatividad de los ancianos institucionalizados tanto en residencias pblicas como
privadas, bastara con seleccionar una residencia de cada uno de estos estratos. En la
Tabla 4.2, se muestran las 15 residencias reorganizadas segn su carcter pblico o
privado. Para las residencias pblicas, se escogi aleatoriamente el nmero 20 entre 1 y
450, resultando as seleccionada la residencia 4, cuyo rango incluye dicho nmero. Para
las residencias privadas, se extrajo aleatoriamente el nmero 326 entre 1 y 425, resultando
seleccionada la residencia 12. A continuacin, se procedera a escoger aleatoriamente 5
ancianos de estas 2 residencias. Notar que, como ambos estratos tienen aproximadamente
el mismo tamao, la muestra resultante sera equiprobabilstica.

Apuntar, por ltimo, que en la mayora de los muestreos polietpicos el error muestral es
sensiblemente superior al de un muestreo aleatorio simple, debido principalmente a la correlacin
entre los elementos que integran las unidades de primera etapa.

Tabla 4.2 Distribucin del nmero de ancianos institucionalizados en


residencias pblicas y privadas.
Residencia (i) Tamao (Ni) Tamao acumulado Rango asignado
Pblica
4 70 70 1 70
7 125 195 71 195
8 80 275 196 275
10 100 375 276 375
14 75 450 376 450
Privada
1 50 50 1 50
2 30 80 51 80
3 35 115 81 115
5 55 170 116 170
6 45 215 171 215
9 20 235 216 235
11 65 300 236 300
12 35 335 301 335
13 40 375 336 375
15 50 425 376 425

48 Pastor-Barriuso R.
puede realizarse con mltiples propsitos, nos centraremos aqu en la estimacin de una
Estimacin en el muestreo aleatorio simple
media y de una proporcin poblacional.

4.3 ESTIMACIN
4.3.1 EN EL de
Estimacin puntual MUESTREO
una media ALEATORIO
poblacional SIMPLE

Una vez descritas


Supongamos que las x1, xprincipales tcnicas de muestreo probabilstico, nos ocuparemos a
2, ..., xn son los valores obtenidos en una muestra de tamao n
continuacin de la estimacin de parmetros poblacionales. En adelante, se asume que la
muestra
parmetro
para se ha
una obtenido
poblacional
variable con mediante
se le denomina
media un muestreo
poblacional y aleatorio
estimador, varianza simple
y al resultado a partir
2 desconocidas.de aplicarde Ununa
dichapoblacin de
estimador
tamao esencialmente infinito.
funcin
El clculo
natural a una
de ladel determinada
media exactomuestra
valorpoblacional de unesse lalemedia
parmetro estimacin.
llama muestral poblacionalAn cuando
requiere delelconocimiento
muestreo del
valor de la variable objeto de estudio para todos y cada uno de los elementos de la poblacin.
Comopuede se realizarse
ha comentado con mltiples
anteriormente, propsitos, en la nos mayora centraremos aqu en la no
de las ocasiones estimacin
se dispone de una
de esta
1.2 MEDIDASsino DE TENDENCIA CENTRAL 1 n
informacin, que se cuenta tan slo con x = xi .
una muestra. A la funcin de los valores de una
media
1.2 y
MEDIDAS de una proporcin
DE TENDENCIA
muestra que permite hacerse una idea acerca del valorpoblacional. CENTRAL n i =1 del parmetro poblacional se le denomina
estimador, y al resultado de
Las medidas de tendencia central informan acerca de culaplicar dicha funcin a unaes eldeterminada muestra se le llama
valor ms representativo
estimacin.
4.3.1
Las medidas Andecuando
Estimacin puntual
tendencia el muestreo puede
mediarealizarse
de completamente
central unainforman poblacional
acerca concul
de mltiples
esuna propsitos,
el valor nos centraremos
ms representativo
Esta media muestral quedar determinada vez obtenida la muestra,
aqu en la estimacin de una media
de una determinada variable o, dicho de forma equivalente, y de una proporcin poblacional.
1.2estos
MEDIDAS estimadores indican
DE TENDENCIA CENTRAL
Supongamos
de
perounaeldeterminada que x
valor de la estimacin , x ,
1variable
2 ..., x o, son los valores obtenidos
n dicho de forma equivalente, estos estimadores indican en
variar en funcin de la muestra seleccionada. As, la una muestra de tamao n
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
4.3.1 Estimacin puntual de una media poblacionalLas2medidas de tendencia central informan acerca de c
para una
alrededor
media variable
de qupuede
muestral con media
valor se agrupanpoblacional
considerarse loscomo
datos una variable aleatoria,
yobservados.
varianza Lasdesconocidas.
medidas cuyo Un estimador
de valor
tendencia
depender
central de la muestra sirven tanto para
Supongamos que x1, x2, ..., xn son los valores obtenidosdeenuna resumir los resultados observados
unadeterminada como
muestra de variable para n para una
tamao o, dicho de forma equival
central de
dela lamuestra sirven tanto para
es laresumir los resultados Unobservados
natural
variable
de con
la muestra media media poblacional
poblacional
finalmente y varianza
seleccionada media
sobre muestral
2 desconocidas.
todas las posibles muestrascomo
estimador natural para
de tamao de lanmedia
de
realizar inferencias
poblacional es laacerca mediade los parmetros poblacionales correspondientes. A
muestral alrededor de qu valor se agrupan los datos observado
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
1.2 MEDIDAS DE la poblacin
TENDENCIA de referencia.
CENTRAL A la distribucin 1 de
n los valores de x sobre todas las posibles
continuacin se describen los principales estimadores x = x i . central de la central
de la tendencia de una
muestra sirven tanto para resumir los resu
continuacin se describen los principales estimadores n i =1 de la tendencia central de una
muestras central
Las medidasvariable.
de tendencia del mismo informantamao se lede
acerca cul es eldistribucin
denomina valor ms representativomuestral de x . Las razones
Esta media muestral quedar completamente determinada realizarvez
una obtenidaacerca
inferencias la muestra,
de lospero el
parmetros poblacion
variable.
valor de la estimacin variar en funcin de la muestra seleccionada. As, la media muestral
Esta
tericasmedia muestral
queo,justifican quedar completamente determinada una vez obtenida la muestra,
de una determinada variable dicho dela utilizacin
forma equivalente, de la media muestral como
estos estimadores indicanestimador de la media
puede
1.2.1 considerarse
Media aritmtica como una variable aleatoria, cuyo valor dependersededescriben
continuacin la muestra losfinalmente
principales estimadores
seleccionada
1.2.1
pero Media
el valorde entre
aritmtica
de la todas
estimacin las posibles
variar muestras
en funcin de detamao
la muestran en esta distribucin muestral. A
de la poblacin
seleccionada. de referencia.
As, la
alrededor de qu poblacional,
valor se agrupan frente losa datos
otros observados.
posibles estimadores, Las medidas se basan
de tendencia
Lalamedia
distribucin
aritmtica, de los valorespor
denotada de x ,sobre se define todascomo las posibles
la suma muestras
variable.cada uno
de delde mismo
los tamao se le
denomina
La media
media distribucin
aritmtica,
muestral puede muestral
denotada
considerarse por de xcomo
., Las razones
se define
una variable como tericas quede
laaleatoria,
suma justifican
cada uno
cuyo lade
valor utilizacin
los
depender de la
central de la muestraAsirvenpartir de los
tanto resultados
para resumirdel los Apartado
resultados3.4, el valor
observados esperado
como parade la distribucin
media muestral como estimador de la media
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamospoblacional, frente a otros posibles estimadores, se
1.2.1 Media aritmtica
basan
de laenmuestra
valores
muestral esta distribucin
muestralesx finalmente
dividida
esparmetros muestral.
seleccionada
por el nmero sobre de todas las posibles
observaciones tamao n de
muestrasSidedenotamos
realizadas.
realizar inferencias acerca de de los poblacionales correspondientes. A
por nAelpartir
tamao de losmuestral
resultados y por delxiApartado
el valor observado
3.4, el valorpara esperadoel sujeto de la i-simo, i = 1,muestral
distribucin ..., n, de es
La media aritmtica, denotada por x , se define como
n el tamao
la poblacin
por de muestral
referencia. A laxidistribucin
y por el valor observado de los valores para el de x sobre
sujeto i-simo,todas i =las1, posibles
..., n,
continuacin se describen los principales estimadores de nla tendencian central de una
la media vendra dada por 1 1
E( x ) = E x i = valores E ( x i ) =muestrales
; dividida por el nmero de observac
lamuestras
media vendra
del mismo dadatamao por se le denomina n distribucin
n muestral de x . Las razones
variable. i =1 i =1

1 n x +variablex 2 + ... +aleatoria


xpor n el estn
tamao y por xi el
muestralalrededor devalor
su observado pa
es tericas
decir, lasque medias muestrales
justifican = decualquier
laxutilizacin x i n=de 1la media muestral
x1 +n x 2 +equivalente,
n
.
... + x n como centradas
estimador de la media
1
nxo,=i =de
verdadera
es decir, media
1.2.1 Media aritmtica
sobreestiman
las medias
nifrente
poblacional
infraestiman
muestrales
n

1dicho x i de
cualquier = forma variable aleatoria
n la media
las medias
estn
. vendra centradas
dada por
muestrales
alrededorno
poblacional, a otros sistemticamente
posiblesi =estimadores,
1 la media se basan poblacional. En trminosmuestral.
en esta distribucin estadsticos,
seLa
La media aritmtica,dice
demedia entonces
denotada
su verdadera que
por
es la medida x es
, seun estimador
define
mediadepoblacional como
tendencia central centrado
la suma
o, dicho ms de o insesgado
cada
deutilizada uno
forma equivalente, de delos.
y de ms fcil La conveniencia
las medias muestrales de utilizar
estimadores
A partir insesgados
deeslos parece
resultados clara ya que,
del Apartado en
3.4,caso contrario,
el valor esperado ylas
deestimaciones
de la fcil
distribucin del parmetro
1 n x + x 2 + ...
valores muestrales
La
poblacional
media
dividida estaran
por
la medida
el nmero
de tendencia
sistemticamente
de observaciones
central
sesgadas
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
ms
respecto
realizadas.
utilizada
a
Si su verdadero
denotamos
ms
valor. Otras x =
medidas
n i =1
xi = 1
n
muestrales
muestral de tendencia
x es central, como la mediana
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su o la media geomtrica, son en general
16
por n el tamao estimadores
muestral y sesgados
por x el de
valor la media
observado poblacional.
para el
principal limitacin es que est muy influenciada por los valores extremos y, en este
i sujeto i-simo, i = 1, ..., n,
La media es la medida de tendencia central ms uti
principal limitacin es que est muy influenciada 1 n
1 porn los valores extremos y, en este
la media vendra
caso,dada porno ser
Ejemplo
puede 4.8 Supongamos
un fiel reflejoE( xde ) que
=laEtendencia
n

el grupo

= del
x i control
central
n
de estudio
E (la = EURAMIC
x i )distribucin.
interpretacin.
;
Corresponde
constituye toda la
al centro de gravedad d
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin. = 1,09 mmol/l.
poblacin o universo a estudio, cuya media
i =1 poblacionali =1 del colesterol HDL es
1 n x + x 2 + ... + x n principal limitacin es que est
Ejemplo 1.4
es decir, las medias
x =En este x iy=en 1los sucesivos .
ejemplos sobre estimadores muestrales, se muy influenciada por l
n i =1 muestrales den cualquier variable aleatoria estn centradas alrededor
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
utilizarn los valores caso, lospuede no ser un fielPastor-Barriuso
reflejo
del de la R. tendencia centra
media del colesterolo,HDL dichoobtenidos
de formaen 10 primeros sujetos 49
de su verdadera poblacional equivalente, las medias muestrales
La media es la medida utilizarn
de tendencia los valores central delms colesterol
utilizada HDL y deobtenidos
ms fcilen los 10 primeros sujetos del
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
Ejemplo 1.4 En este y en los sucesivos ejemplos
realizar continuacin se describen
inferencias acerca de los parmetrosrealizar
los principales inferencias
estimadores
poblacionales acerca
de de los parmetros
la tendencia
correspondientes. central de poblac
A una

Principios de muestreo variable.


continuacin
y estimacin se describen continuacin
los principales estimadores dese
la describen
tendencia los principales
central de una estimador

variable. variable.
1.2.1 Media aritmtica
A partir de esta poblacin, se obtienen 1000 muestras aleatorias simples de tamao n = 10
y, en cada1.2.1
una Media
deLa ellas, se calcula
aritmtica
media la media
aritmtica, denotada por 1.2.1
muestral seMedia
x ,del colesterol
define comoaritmtica
HDL. El histograma
la suma de cada uno de los
de estas medias muestrales se representa en la Figura 4.1(a), que constituye una
aproximacin a lavalores
La media distribucin
aritmtica, muestral
denotada
muestrales por
dividida ., Como
de xpor Lapuede
seeldefinemedia
nmero como de aritmtica,
apreciarse,
la suma de
observaciones denotada
los unopor
valores
cada x Si
de los
realizadas. , sedenotamos
define com
difieren entre las distintas muestras, pero su distribucin conjunta est centrada alrededor
de la verdadera
valoresmedia
por n elpoblacional
muestrales tamao por
= 1,09
muestral
dividida mmol/l valores
por xi elde
elynmero (lnea
valor muestrales
vertical
observado
observaciones dividida
en realizadas.
trazo
para por el nmero
eldiscontinuo).
sujeto i-simo,
Si denotamos i =de1,observ
..., n,
En las Figuras 4.1(b) y (c) se presentan las distribuciones muestrales de la mediana y la
media geomtrica
por n el lapara estas
media
tamao mismas
vendra
muestral y muestras.
dada Ambas
xi el valor
porpor por n el tamao
distribuciones
observado muestral
para elmuestrales por xii el
y presentan
sujeto i-simo, = 1,valor observado
..., n,
un claro sesgo respecto a la media poblacional, tendiendo a infraestimar su verdadero
valor de 1,09 mmol/l.
la media vendra dada por la media vendra dada por
1 n x + x + ... + x n
Notar que el inters de este ejemplo es meramente x= x i = 1 ya2 que, en la
acadmico . prctica, se
n i =1 n
desconoce la verdadera media poblacional1y nse dispone x + de x 2 una
+ ... nica
+ x n muestra. 1 n x + x2 +
x = xi = 1 . x = xi = 1
n n n i =1 n
La media es la medida dei =1tendencia central ms utilizada y de ms fcil
25
interpretacin.
La media Corresponde
es la medida de tendencia centralLa
al centro demedia es la yde
gravedad
ms utilizada medida
delos defcil
datos
ms tendencia centralSums u
de la muestra.
20
15 interpretacin. Corresponde alextremos
centro
principal
interpretacin. limitacin es
Corresponde al que estde
centro muy influenciada
gravedad de lospor los valores
datos de la muestra. Sude
y,gravedad
en este
10
5 caso,
principal puede no
limitacin ser un
es que estfiel
muyreflejo deprincipal
porlimitacin
la tendencia
influenciada loscentralesde
valores que est muy
y, eninfluenciada
la distribucin.
extremos este po
0
caso, puede
caso, puede no ser un fiel reflejo de la tendencia centralno
deser un fiel reflejo de la tendencia cen
la distribucin.
0,7 Ejemplo
0,8 0,9
1.4 En 1este y1,1
en los1,2 1,3 ejemplos
sucesivos 1,4 1,5
sobre estimadores muestrales, s
Frecuencia relativa (%) en muestras de tamao 10

(a) Media muestral del colesterol HDL (mmol/l)


Ejemploutilizarn
1.4 En este
losyvalores del colesterol
en los sucesivos Ejemplo 1.4estimadores
HDL sobre
ejemplos En este
obtenidos y en
en los los sucesivos
10muestrales,
primeros se ejemp
sujetos de
25
estudio
utilizarn European
los valores Study onHDL
del colesterol utilizarn
Antioxidants,
obtenidos enloslosvalores
Myocardial del colesterol
Infarction
10 primeros HDL
del obte
and Cancer
sujetos of
20
15estudio the Breast Study
European on Antioxidants,
(EURAMIC), estudio European
Myocardial
un estudio Study
Infarction
multicntrico andyonCancer
de casos Antioxidants, My
of realizado
controles
10
5the Breast
entre(EURAMIC),
1991 y 1992 un
en estudio
ocho pases the Breast
Europeos
multicntrico (EURAMIC),
e Israel
de casos para un realizado
evaluar
y controles estudio
el efectomulticn
de los
0
entre 1991 y 1992 en ocho pases Europeosentre 1991
e Israel y 1992
para en ocho
evaluar pases
el efecto de Europeos
los e
0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5

(b) Mediana del colesterol HDL (mmol/l)


5

25
20
15
10
5
0

0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5


(c) Media geomtrica del colesterol HDL (mmol/l)
Figura 4.1 Distribucin muestral de la media aritmtica (a), la mediana (b) y la media
Figura 4.1geomtrica (c) del
colesterol HDL en 1000 muestras aleatorias simples de tamao n = 10 obtenidas a partir del grupo control
del estudio EURAMIC. La lnea vertical en trazo discontinuo corresponde a la media poblacional = 1,09
mmol/l de colesterol HDL.

50 Pastor-Barriuso R.
centralestndar
4.3.2 Error de la muestra
de la sirven
media tanto para resumir los resultados observados como para
muestral

realizar
Dado que inferencias
la media acerca
muestral es unde los parmetros
estimador poblacionales
insesgado de la media correspondientes.
poblacional,
Estimacin todas A simple
en el muestreo aleatorio

continuacin
las posibles se describen
medias muestrales los principales
estarn distribuidas estimadores
alrededor de de la la tendencia
media poblacional. central de una
4.3.2 Error estndar de la media muestral [Figura 4.2 aproximadamente aqu]
variable.
No obstante, queda por determinar el grado de variabilidad o dispersin de estas medias
Dado que la media muestral es un estimador insesgado de la[Figura media4.2 aproximadamente
poblacional, todas las aqu]
muestrales
posibles medias alrededor
1.2.1 Media muestrales de
aritmticaestarn distribuidas alrededor de la media poblacional. No obstante, muestras, las
. La Aun
dispersin cuando de en
las la
mediasprctica carece
muestrales de x sentido
de tamao tomar n repetidas
queda por determinar el grado de variabilidad o dispersin de estas medias muestrales alrededor
de vendr determinada
. La dispersin
La de las
media aritmtica, pormedias propiedades
la varianza Aun
muestrales
denotada depor su de
cuando laseen
distribucin
x ,de distribucin
tamao la prctica
define muestral,
n vendr
como muestral
carece
la sumaquede
determinadade
es xcada
desentido
igual pueden tomar
apor
uno utilizarse
lade repetidas
varianza
los para cuantifica
muestras, las
de su distribucin muestral, que es igual a
valores muestrales dividida propiedades
cometido por en la de
el nmero la distribucin
estimacin a partirmuestral
de observaciones de una de x pueden
nica
realizadas. muestra utilizarse
Si denotamos de tamao para cuantifi
n. La desvi
1 n 1 n 2 ,
var( x ) = var x i = 2 var( x i ) =
1.2 MEDIDAS DE TENDENCIA n de n observado nde
por n el tamaoCENTRAL muestral estndar
cometido
y por ix=1 el
i
la distribucin
envalor
la estimacin i =1 muestral
a partir
para el x esnica
desujeto
una i-simo, muestrai = 1,de ...,tamao
n, n. La des
[Figura 4.2 aproximadamente 1.2 MEDIDAS aqu] DE TENDENCIA CENTRAL
dado que los distintos valores de la muestra son independientes (vase Apartado 3.4). Puede
la que
media vendra dadadepor estndar de de la es distribucin muestral de x es
Las medidas de
dadotendencia
observarse que loscentral
la informan
variabilidad
distintos valores acerca
delaslamedias
muestra cul sonelindependientes
muestrales valorser ms representativo
tanto mayor Apartado
(vase cuanto mayor sea la
3.4).
Las medidasSE( x )
de var( x ) =
=tendencia central ,
varianza poblacional de la variable a estudio. Por otra parte, esta variabilidad n informan acerca de c
disminuye
2
Aun cuando en la prctica carece de sentido tomar repetidas muestras, las
de una determinada
Puede variable
conforme aumentao, el
observarse dicho
que lade
tamao forma
n de equivalente,
variabilidad la muestra;
de1lasn medias estos
es decir, estimadores
+ xal
x1 muestrales aumentar xindican
ser el tamao
tanto mayormuestral,cuanto las
2 + ... +SE( n x) = var( x ) =o, dicho , de forma equival
medias de las distintas muestras estarn
propiedades de la distribucin muestral nde x pueden utilizarse
1.2 MEDIDAS DE
x =
ms
TENDENCIA
x
prximasi = de
a la
CENTRAL
una determinada
verdadera para . media variable
cuantificarpoblacional. el
n de la distancia de las distintas medias muestrale errorn
alrededor de qumayor valorseaselaagrupan datosque
varianzalospoblacional facilita
2 deun
observados. i =1valor promedio
laLas variablemedidas de tendencia
a estudio. Por otra parte, esta
cometido
Ejemplo en4.9
la estimacin
En las Figuras a partir de una
4.2(a), (b)nicay (c)muestra alrededor
se presentan de tamao de medias
las qu n. valor
Ladel se
desviacinagrupan HDL
colesterol los datos observado
central de la muestra
variabilidad
en 1000sirven tanto
Las es
La disminuye
media
muestras para
medidas
la resumir
medida
conforme
aleatorias tamao
que los
de tendencia
de n
facilita respecto
resultados
tendencia
aumenta
simples un
central
de de
valor
central
el tamao
tamao la
observados medida
promedio
informannms poblacional.
comode
acerca
nde= utilizada
la10, la
25 de
muestra; distancia
para
yy cul
de
es ms
100, Esta de valor msSE(
cantidad
las
esrespectivamente,
decir, el
fcil
al distintas xmedias
) se conoce
representativo c
muestra
estndar
obtenidasde laadistribucin
partir de losmuestral [Figurade4.2
controles x aproximadamente
del esestudio EURAMIC. central de aqu] laEn muestraestas sirven grficastanto se puedepara resumir los resu
realizar inferencias
aumentar acerca de
interpretacin.
apreciar el tamao los parmetros
que,deindependientemente
una determinada
Corresponde
muestral, tamao
error estndar
poblacionales
las medias n
variable
al centro respecto
deldetamao de la
o,dedicho
las de
gravedad
distintas la
media
correspondientes. medida
de forma
muestral, muestral
de las
muestras poblacional.
A y
equivalente,
los datospermite
estarn
medias dems Esta
estos
la cantidad
cuantificar
estimadores
muestra.
prximas
muestrales Suel SE(
estn grado x ) de
se incertid
indican conoce
centradas alrededor de la media poblacional de 1,09 realizar
mmol/l. inferencias
Sin embargo, acercaalde los parmetros
aumentar el poblacion
continuacin se describen los principales
alrededor la error
estimacin
estimadores
deesqu valor estndar
se de dela
agrupan una de
tendencia la
media
los
media a muestral
partir
central de
de y
una
una permite
muestra cuantificar
de tamao n.
tendencia de incer
el grado
Aun
a latamaoprincipal
cuando
verdadera limitacin
en
media
muestral, lase prctica
poblacional.
observa que SE(
carece
una est xde)muy=sentido
disminucin influenciada
var( xtomar = datos
)substancial ,porobservados.
repetidas los
de la valores
muestras,
variabilidad Las lasmedidas
extremos de las y, en deeste
medias
muestrales. As, por ejemplo, la proporcin de muestras n con unse
continuacin niveldescribenmedio los principales estimadores
de colesterol
variable. caso,
propiedades
HDL entre puede central
de1,03 no de un
ser
la distribucin
y 1,15 la la
muestraEn
fielmuestral
mmol/l la
reflejo
es del prctica,
estimacin
sirven de latanto
de
48,7% de para
una
x tendencia
pueden
para para poder
media=resumircalcular
central
n utilizarse a
10, 69,1%partir
los
de
para el
de error
una
resultados
lapara estndar,
muestra
n = 25observados
distribucin.
cuantificar y el de estamao
error
95,4% comon.para
necesario
para obtener
=Ejemplo
100. un 4.9
quenfacilita valor Enpromedio
las Figuras de En4.2(a),
la distancia (b) y de (c)las se variable.
presentanmedias
distintas las medias muestrales del colesterolde es
cometido en la realizar
estimacin a previamente
inferencias
partir la
acerca
de una prctica,
una
de
nica los para
estimacin
parmetros
muestra poder de
de calcular
la varianza
poblacionales
tamao n.el Laerror
poblacionalestndar,
correspondientes.
desviacin 2 denecesario
la variable
A obtener
a estu
1.2.1 Media aritmtica
HDL enEjemplo 1.4 En este y en los sucesivos ejemplos nSE(=sobre estimadores muestrales, se
Aun
tamao cuando en1000
n respecto demuestras
la prctica la medida aleatorias
carece de sentido
poblacional. simples tomar
Esta decantidad
tamao
repetidas
1.2.1 Media 10,
muestras, 25
x )aritmtica
se ylas
conoce 100, propiedades
como de la
previamente una estimacin de la varianza poblacional 2 poblacional
de la variable 2a e
estndar
distribucin
La media aritmtica, de la continuacin
distribucin
muestralpor
denotada de x ,pueden que
se
muestral
se define este
describen
utilizarsede
como laparmetro
x los
paraes
suma es
principales
cuantificar tpicamente
de cada el estimadores
uno error
de los cometido en la estimacin a de una pu
desconocido. de la La
tendencia varianza central
1.2 MEDIDAS DEnica utilizarn los
TENDENCIA valores adel colesterol HDL obtenidos en losEURAMIC. 10 primerosEn sujetos del
partir
error respectivamente,
de una
estndarmuestra de la media de CENTRAL
obtenidas
tamao
muestral n.partir
La de los controles
y desviacin
permite estndar
cuantificarLa media del el estudio
de laaritmtica,
gradodistribucin muestralpor
denotada
de incertidumbre deenx ,esse define como2
variable.
valores muestrales dividida por el nmero de observaciones realizadas. que
estimarse este a parmetro
partir de es
la tpicamente
propia muestra
Si denotamos desconocido.
mediante la La varianza
varianza poblacional
muestral
estudio se European Study on Antioxidants, Myocardial Infarction and Cancer of
Las medidas deestas grficas
tendencia
la estimacin de central
una media puede
informana apreciar
SE(
partir x )que,
acerca
de = de
una independientemente
culxes
var(
muestra ) =el valores
de valor , ms
tamao n.del
muestrales tamao
representativo divididamuestral, por ellasnmero de observac
estimarse a partir de lai-simo, n
propia muestra mediante la varianza muestral
por n el tamao muestral y por xi elMedia
1.2.1 valor observado
aritmtica para el sujeto i 2= 1, ..., 1 n, ny controles
de una que medias
facilita
determinada un
the Breast
muestrales
valor para
variable
En la prctica, promedio
o, dicho
(EURAMIC),
estn
poderde de centradas
la distancia
forma
calcular
unalrededor
estudio multicntrico
el errordeestndar,
equivalente, las estosde la
pores
distintas media s
n necesario
elmedias
tamao
estimadores
de casos
poblacional
=
muestral
muestrales
indican
obtener
n 1 i =1
(de 1,09
x i y por
de
2 realizado
x )tamao
x. i el valor n observado pa
la media vendra quedada
respecto de por
facilitala medida
un valor
La media poblacional.
promedio aritmtica, deEsta cantidadde
la distancia
denotada SE(
por lasx )distintas
, se conoce
define como
medias
como la1error
sumaestndar
muestrales n de de cada2 uno de lade los
alrededor de
media qummol/l.
valor
muestral
entre
y Sin
se
1991
embargo,
agrupan
permite
y 1992
los al
datos
cuantificar
en ocho pases
aumentar
observados.
el grado
previamente una estimacin de la varianza poblacional de la variable
el tamao
de
Europeos
Las muestral,
la
medidas
incertidumbre
e2Israel
media dese
en
para
observa
s
vendra
2
=
tendencia
la
evaluar
dada
estimacin una por
n 1ai =estudio,
(el
xde
i
efecto
x
una )
dado .de los
media
a partir
tamao de una muestra
n respecto dedenlamuestrales
valores tamao
medida Puede probarsepor
n.poblacional.
dividida que
Esta el lanmero
varianza
cantidad de muestral
SE( x ) se conoce
observaciones es un 1estimador como insesgado
realizadas. Si denotamos de la varia
disminucin 1
substancial x1de + xla2 variabilidad
+ ... + x n de las medias muestrales. As, por
central de que
la muestra
En laeste
sirven
parmetro
prctica, xpara tanto
= espoder
nnlael
para
tpicamente resumir
x i =calculardesconocido.
el
los resultados
error estndar,
nprobarse
. La varianza observados
es necesario
como
poblacional para
obtener
2
puede 1 una
2 previamente
n 5x + x + ...
error
estimacin estndar por
de la varianza
ejemplo, la
de i=
proporcin
1 tamao
media poblacional;
Puede
muestral
muestral
poblacionalde muestras
y
2y permite
de con
espor decir,
que
la variable
un
x el el
la
cuantificar
i
nivel
valor
varianza
valoramedio
esperado
observado
estudio, el muestral
grado
de dado para
de
colesterol
ses
que este
sobre
elun sujeto
incertidumbre
HDL
todas
estimador
xi-simo,
parmetro
entre
=
n
en
sobre
es
todas
insesgado
xi = 1 las
de posib
i 1, ..., n,
= 2la var

n
realizar inferencias acerca
a partirde
estimarse desconocido. delos parmetros
la propia muestra poblacionales
mediante lacorrespondientes.
varianza muestralA i =1
tpicamente La varianza poblacional 2 2 puede estimarse a partir
2
2 de la propia
eslalaestimacin dela media vendra poblacional;
amuestrasdada es
por es) decir,
E(smuestra = de .69,1% el tamao
El valor
error esperado
estndar
n. de dela s media
sobre todas muestral sobre se todas
estimalas pos
enton
La media muestra medida
mediante y de launa
tendencia media
varianza central partir
esmuestral msdeutilizadauna
para nde=yla
de
ms fcil n = 25 y 95,4% para n =
continuacin se1,03 describen 1,15 mmol/l
los principales del estimadores
48,7% 10, tendencia para
central de una
La media es la medida de tendencia central ms uti
En la prctica, para poder muestras
calcular el 1es
error E(s
n 2
) =
estndar, 2
. 2El error estndar de la media muestral se estima ento
interpretacin. Corresponde al centro de gravedad s/ ns . As,
2
= de una losvez datos ndex ) laes
( x iseleccionada necesario
x1 +una
. muestra. x 2 +Su
obtener
... + x n concreta, la media muestral x fa
muestra
variable. 100. n 1 i =x1 = 1 interpretacin. xi = Corresponde . al centro de gravedad d
previamente una estimacin de la varianza poblacional n i =1 2 de la variable n a estudio, dado
principal limitacin es que que
Puede probarse est lamuy influenciada
varianza una s/ estimacin
muestral n por
. As,
eslos ununa valoresvez seleccionada
insesgada
estimador extremosde la media
insesgado y, en una
deeste muestra
poblacional
la varianza concreta,
ypoblacional;
el error la de media muestral
dicha estimacix
1.2.1 Media
es decir,
Puedearitmtica
elprobarse
valor esperadoque la varianzade s sobre
2
todas las
muestral es posibles
un estimador principal
muestras insesgadolimitacin
es E(s de 2 es
) =la varianza
2 que est
. 2El error estndarmuy 18 influenciada por l
caso, puededenoque
laser este
media parmetro
un fiel reflejoLa
muestral esmedia
de
se tpicamente
la tendencia
estima es una desconocido.
central
estimacin
la medida
entonces
determinado como de
pordetendencia
la La n ..varianza
distribucin.
s/insesgada As, unalapoblacional
de
central media
msseleccionada
vez ypuede
poblacional
utilizada deuna y elmuestra
ms error
fcil de dicha estima
La media aritmtica,
concreta, la media
poblacional; denotadamuestral
es decir, por x ,facilitar
el valor seesperado
defineuna como 2
s lasobre
deestimacin sumatodas caso,
de cada
insesgada puede
sobre uno de no
de
todas ser
la los mediaun
las posibles fiel reflejo
poblacional deylaeltendencia centra
estimarse
error de dichaa estimacin
partir de la vendr
interpretacin. propia muestraCorresponde
determinado mediante s/la varianza
al centro
por n .. de gravedad muestralde los datos de la muestra. Su
Ejemplo 1.4
valores muestrales En este y en los sucesivos ejemplos sobre estimadores muestrales, se
muestras dividida
es E(s ) =por
2
el. El
2 nmero de observaciones
error estndar de la media realizadas.
muestralSi sedenotamos
estima entonces como
principal limitacin es que est Ejemplo
muy influenciada por los valores 1.4 En este y extremos
en los sucesivos y, en este ejemplos
1 n
utilizarn
por n el tamaolos valores dely colesterol
s/ n . muestral
As, una vez xi el valor
porseleccionada HDLobservado
sobtenidos
2
=
una muestra
n 1
en (los
para concreta,
10x )primeros
xeli sujeto 2
. i-simo,
la utilizarn
sujetos
media muestral i = 1,del
los de
..., n,
valores
Pastor-Barriuso R. 51
x facilitar
del colesterol HDL obtenid
caso, puede no ser un fiel reflejo de la tendencia central i =1 la distribucin.
laestudio European
media vendra dadaStudypor on Antioxidants, Myocardial Infarction and Cancer of
una estimacin insesgada de la media poblacional y el error de dicha
estudio estimacin
European Study vendron Antioxidants, Myoc
Puede probarse que la varianza muestral es un estimador insesgado de la varianza
Principios de muestreo y estimacin

30

20

10

0,8 0,9 1 1,1 1,2 1,3 1,4

(a) Media del colesterol HDL (mmol/l) en muestras de tamao 10

30
Frecuencia relativa (%)

20

10

0,8 0,9 1 1,1 1,2 1,3 1,4

(b) Media del colesterol HDL (mmol/l) en muestras de tamao 25

30

20

10

0,8 de los
Ejemplo 4.10 A partir 0,9controles
1 del estudio
1,1 1,2 1,3
EURAMIC, 1,4
se ha obtenido una
(c) Media del colesterol HDL (mmol/l) en muestras de tamao 100
Ejemplo 4.10 A partir
muestra aleatoria de de
simple lostamao
controles
n =del
10,estudio
cuyos EURAMIC, se ha obtenido
valores de colesterol una
HDL son
Figura 4.2 Distribucin muestral de la media del colesterol HDL en 1000 muestras aleatorias
Figura 4.2 simples de
n = 10 (a),
tamaomuestra 25 (b)
aleatoria y 100 (c)
simple obtenidas
de tamaoa partir
n = del
10, grupo
cuyos control
valores del
deestudio EURAMIC.
colesterol HDL La
sonlnea ver-
tical en 1,45, 1,32, 1,74,corresponde
trazo discontinuo 0,82, 0,92, a1,46, 1,10,
la media 0,88, 0,97
poblacional =y 1,09
0,63mmol/l
mmol/l. La mediaHDL.
de colesterol

1,45, 1,32,es1,74, 0,82, 0,92, 1,46, 1,10, 0,88, 0,97 y 0,63 mmol/l. La media
muestral
Ejemplo 4.10 A partir de los controles del estudio EURAMIC, se ha obtenido una
muestra
muestralaleatoria
es simple de tamao n = 10, cuyos valores de colesterol HDL son 1,45,
1,32, 1,74, 0,82, 0,92,11,46, 10
1,10, 1,45 + 1,32
0,88, 0,97+ ... + 0,63
y 0,63 mmol/l. La media muestral es
x = xi = = 1,13 mmol/l
10 10i =1 10
1 1,45 + 1,32 + ... + 0,63
x = xi = = 1,13 mmol/l
10 i =1 10
y la varianza muestral
y la varianza muestral
y la varianza muestral
1 n
s2 = ( xi x ) 2
n 1 in=1
1
s 2 = (1,45 2
x i )2 x+)...
1(,13 + (0,63 1,13) 2
= n 1 i =1 = 0,12 (mmol/l) 2 .
9
(1,45 1,13) 2 + ... + (0,63 1,13) 2
= = 0,12 (mmol/l) 2 .
9
52
Por tanto, la estimacin puntual de la media poblacional del colesterol HDL es x
Pastor-Barriuso R.

Por tanto,
= 1,13 la estimacin
mmol/l y su errorpuntual la media poblacional del colesterol HDL es x
dees
estndar
(1,45 1,13) 2 +alrededor
... + (0,63 de 13) 2valor se agrupan 2los datos observados. Las medidas d
1,qu
= = 0,12 (mmol/l) .
muestra sirven tanto para resumir los resultados observados 9 como para variable.
central de laDE
1.2 MEDIDAS muestra sirven
TENDENCIA tanto para
CENTRAL
Estimacin en resumir
el muestreo los simple
aleatorio resultados observad
ncias acerca de los parmetros
Por tanto,poblacionales
la estimacin correspondientes.
puntual de la media A 1.2.1 Mediadel
poblacional colesterol HDL es x
aritmtica
realizar inferencias acerca de los parmetros poblacionales correspond
Las medidas de tendencia central informan acerca de cul es el valor ms r
e describen los principales
Por
= 1,13estimadores
tanto,
mmol/l y sude
la estimacinla tendencia
error puntual central
estndardees de La
la media unamedia aritmtica,
poblacional del colesterol
denotadaHDLpor es x ,=se1,13
define como la su
mmol/l y su error estndar esde una determinadasevariable
continuacin describen los principales estimadores de la tendencia
o, dicho de forma equivalente, estos estimador
valores muestrales dividida por el nmero de observacione
s 0,35
) = variable.
SE( xalrededor = de qu=valor
0,11 se
mmol/l.
agrupan los datos observados. Las medidas de ten
1.2 MEDIDAS
ritmtica DE TENDENCIA CENTRAL n 10 por n el tamao muestral y por xi el valor observado para e
Notar que, en este ejemplo ilustrativo, central1.2.1 Media
de el
la error
muestra aritmtica
de sirven
la estimacin
tanto para muestral
resumir es los
exactamente
resultados observados co
mtica,
Lasdenotada
medidas por xNotar
,se
de tendencia define
=que,
1,13 como

central 1,09 la=
informansuma
0,04 de cada
mmol/l.
acerca de uno
En
cul de
la losla
prctica,
es el media
valor sin vendra
embargo,
ms
en este ejemplo ilustrativo, el error de la estimacin muestral es dada
el
representativo por
error exacto no puede
calcularse ya que es desconocido Lay,inferencias
realizar media aritmtica,
en consecuencia, acercase denotada
deemplea SE( x ), como
por
los parmetros sepoblacionales
define como la
estimacin suma de cada
correspondiente
ralesdedividida por el nmero
una determinada del de
error
variable observaciones
promedio
o, dicho que
de realizadas.
cabra
forma esperar Si
equivalente, denotamos
en similares
estos circunstancias
estimadores
exactamente x - = 1,13 - 1,09 = 0,04 mmol/l. En la prctica, sin embargo, el1 indican (esto es, en todas
n lasx1 + x 2 + ... + x n
posibles muestras del mismocontinuacin tamaovalores muestrales
obtenidas de la dividida
se describen poblacin por
deelreferencia).
los principales nmero
estimadores
x =de observaciones
n i =1
xde
i = realizadas
la tendencia
n
centr
o muestral
alrededory por xi elvalor
de qu valor observado
se agrupan para
los el
datos sujeto i-simo,
observados. i
Las = 1, ...,
medidas n,
error exacto no puede calcularse ya que es desconocido y, en consecuencia, sede tendencia
por n el tamao muestral y por xi el valor observado para el sujeto i-s
variable.
ra dada porde la4.3.3
central muestra Teorema
sirven central
tanto para del lmite los resultados observados como para
resumir
emplea SE( x ) como estimacin del error promedio La media es la medida
que cabra esperar de en tendencia central ms utilizad
la media vendra dada por
En los apartados anteriores se ha probado 1.2.1 que,
Media paraaritmtica
cualquier variable aleatoria, el valor esperado y
realizar inferencias n acerca de
similares
la varianza los parmetros
circunstancias
dex1la+distribucin (estopoblacionales
es, en todas
x 2 + ... + x n de las medias muestrales correspondientes.
las interpretacin.
posibles
son muestras
y 2/n, A respectivamente.
Corresponde
del mismo al tamao
centro
No se de hagravedad de los
1
= x i sin
xanalizado, = embargo, el aspecto . global de la distribucin muestral de . Retomando
ndescriben n La media aritmtica, denotada por x , 1se define xcomo n
1 el x 2la+suma
+ ejemplo ... + xde
n cada uno
continuacin se i =1
obtenidas los
deprincipales
la poblacin estimadores
de de
referencia). la tendencia
principal
de la distribucin muestral de las medias de colesterol HDL (Figura 4.2), puede central
limitacinde xuna=es
que
n i =1
xest= muy
observarse
i influenciada
quen la . por los v
forma de esta distribucin tiende a valores aproximarse a una dividida
muestrales distribucin por normal
el nmero conforme aumenta el realizadas. Si d
de observaciones
s la variable.
medida de tendencia central ms utilizada y de ms fcil caso, puede no
tamao muestral. Esta caracterstica puede resultar intuitivamente lgica, ya que la distribucin ser un fiel reflejo de la tendencia central de
subyacente
4.3.3 Teorema del colesterol
central del HDL en lapor
lmite n el La
poblacin mediamuestral
presenta
tamao esunla aspecto
medida de tendencia
y poraproximadamente
xi el valor observadocentral ms
normal utilizada
para(ver el sujetoyi-simo,
de ms
Corresponde al centro
1.2.1 MediaFigura
aritmtica de gravedad de los datos de la muestra. Su
1.2 del Tema 1). Dado que muchas de las variables utilizadas en la prctica no presentan una
interpretacin. Ejemplo 1.4alEn este yde engravedad
los sucesivoslos ejemplos sob
distribucin
En los apartados poblacional
anteriores normal, cabra
la media
se ha probado preguntarse
vendra
que, para dada siCorresponde
esta variable centro
por tendencia
cualquier a la normalidad
aleatoria, el valor de de la datos de la
acin es que est muy
La media aritmtica,
distribucininfluenciada
denotada
muestralporpor los valores
de x ,sesemantiene extremos
define como y,
para cualquier en
la suma de este
tipo
cadade uno
variable
de los aleatoria.
principal limitacin utilizarn
es que los
est valores 2 del colesterol
muy influenciada porHDL obtenidos
los valores e
extre
esperado y la varianza de la distribucin de las medias muestrales son n y /n,
o servalores
un fiel muestrales
reflejo deEjemplo
ladividida
tendencia 1 x + x + ... + x
porcentral
4.11 elEn la de
nmero ladedistribucin.
Figura observaciones
4.3 se muestra realizadas.
la distribucin xde=los
Si denotamos x i = de
niveles 1 2
b-caroteno n
en .
caso, puede no estudio
ser un fiel European
n
reflejo de Study
la on
tendencia nAntioxidants, Myocardia
tejido adiposo
respectivamente. Noen se el
hagrupo control
analizado, sindel estudioelEURAMIC,
embargo, aspecto global que de
presenta
i =1 una distribucin de la distribuc
la distribucin
central
por n el tamao muestral
marcadamente y por xiasimtrica
el valor observado para elde
con una media sujeto i-simo,
= 0,37 i =Las
1, ..., n,
Figuras 4.4(a),
1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se the mg/g.
Breast (EURAMIC), un (b)
estudio
20
y (c)multicntrico de
La media es la medida
Ejemplo 1.4 Endeeste tendencia
y en loscentral
sucesivos msejemplos
utilizadasobre y de ms fcil
estimado
la media vendra dada por 250
n los valores del colesterol HDL obtenidos en los 10 primeros sujetos del entre 1991 y 1992 en ocho pases Europeos e Israel p
interpretacin. Corresponde
utilizarn los valores al centro de gravedad
del colesterol de los datos
HDL obtenidos en de
losla10mue
pri
European Study on Antioxidants, 1 n
Myocardial xInfarction
1 + x 2 + ...and
+ x nCancer of
200 x = x i = principal .
limitacin es que estStudy muy on influenciada por Myocardial
los valores extremos
n i =1 n estudio European Antioxidants, Infarction
st (EURAMIC), un estudio multicntrico de casos y controles realizado
caso, puedethe noBreast
ser un fiel reflejo de launtendencia central de la distribucin.
Frecuencia absoluta

(EURAMIC), estudio multicntrico de casos y co


La media es la medida 150de tendencia central ms utilizada y de ms fcil
91 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar
interpretacin. Corresponde al centro de gravedadEjemplo de los datos 1.4 Ende este y en losSu
la muestra. sucesivos ejemplos sobre estimadores m
100 5
principal limitacin es que est muy influenciada por utilizarn
los valores los extremos
valores del y, colesterol
en este HDL obtenidos en los 10 primero

estudio
caso, puede no ser un fiel50reflejo de la tendencia central European
de la Study on Antioxidants, Myocardial Infarction and
distribucin.

the Breast (EURAMIC), un estudio multicntrico de casos y control


Ejemplo 1.4 En este0y en los sucesivos ejemplos sobre estimadores muestrales, se
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el ef
utilizarn los valores del colesterol
0 0,2 HDL
0,4 obtenidos
0,6 en los 10
0,8 1 primeros
1,2 sujetos1,6
1,4 del 1,8 2

-caroteno (g/g)
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
Figura 4.3
Figura 4.3 Distribucin de frecuencias del nivel de -caroteno en el grupo control del estudio EURAMIC.
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
Pastor-Barriuso R. 53
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
Principios de muestreo y estimacin

30

20

10

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

(a) Media de -caroteno (g/g) en muestras de tamao 10

30
Frecuencia relativa (%)

20

10

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

(b) Media de -caroteno (g/g) en muestras de tamao 25

30

20

10

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9


(c) Media de -caroteno (g/g) en muestras de tamao 100

Figura 4.4
Figura 4.4 Distribucin muestral de la media de -caroteno en 1000 muestras aleatorias simples de tamao
n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La lnea vertical en
trazo discontinuo corresponde a la media poblacional = 0,37 g/g de -caroteno.

representan las medias de b-caroteno en 1000 muestras aleatorias simples de tamao n =


10, 25 y 100, respectivamente, obtenidas a partir de los controles del estudio EURAMIC.
En estas grficas puede observarse, de forma emprica, las siguientes propiedades:
Ausencia de sesgo: para cualquier tamao muestral, el promedio de las medias
muestrales es similar a la media poblacional.
Disminucin del error estndar: al aumentar el tamao muestral, disminuye la
variabilidad en la distribucin de las medias.
Aproximacin a la distribucin normal: al aumentar el tamao muestral, la distribucin
de las medias se aproxima a una distribucin normal centrada en la media poblacional.

En los ejemplos anteriores, se ha comprobado de forma emprica que, independientemente de


la forma de la variable aleatoria en la poblacin, la distribucin de las medias muestrales tiende a

54 Pastor-Barriuso R.
estadstica, conocido como teorema central del lmite, formaliza esta intuicin: para
Las medidas de tendencia central informan acerca de cu
estadstica, conocido como teorema central del lmite, formaliza esta intuicin: para
cualquier variable aleatoria X con media y varianza 2, la
de una distribucin
determinada
Estimacin en
de
variable las medias
el muestreo o,aleatorio
dicho simple
de forma equivalen
cualquier variable aleatoria X con media y varianza 2, la distribucin de las medias
en muestras aleatorias simples de tamao n se aproxima, alrededor al aumentar
de qu valor el tamao
se agrupan los datos observados. L
en muestras aleatorias simples de tamao ~ n se aproxima, al aumentar el tamao
seguir una distribucin normal,normal x N(1,09, 0,00086).
particularmente
muestral, a una distribucin con mediacuando aumenta el
y varianza
central
2 tamao de la muestra. Uno de
de la/n; es decir,
muestra al aumentar
sirven tantoformaliza
para resumir los resulta
losmuestral,
principales resultados en estadstica, conocido
a una distribucin normal con media y varianza 2/n; como teorema central
es decir,del lmite,
al aumentar
esta
n, intuicin:
As, por paraejemplo,
cualquier la variable
probabilidad aleatoria de queX con media dey colesterol
la media varianza HDL 2
, la distribucin
endeuna de las
medias en muestras aleatorias simples de tamao n se realizar
aproxima, inferencias
al aumentar acerca
el tamao los muestral,
parmetros poblacional
n,
a una distribucin
muestra de normal
tamao = 100 est
conn media y varianza
comprendida 2/n; es decir,
entre 1,03al yaumentar
1,15 mmol/l n, puede
2 continuacin se describen los principales estimadores de
~ N ,
calcularse como
x
~ n 2,
x N , variable. ,
n

dondeelel smbolo ~ significa distribuirse



smbolo P(1,03 1,03 1,09 x 1,09 aritmtica
1,15As, 1As,
,09 aun
donde
~
significa
x 1,15) = P aproximadamente
distribuirse aproximadamente
1.2.1 Mediacomo. como.
aun cuando cuando la
donde el smbolo
distribucin significa
de una variable en ladistribuirse
poblacin diste aproximadamente
0,029 mucho de 0,029 como.
ser normal, As,
0,029 aun
el teorema cuando central del
la distribucin
lmite de unalavariable
permite utilizar en la poblacin
distribucin normal como disteLa mucho
aproximacin de ser anormal,
la el
distribucin
media aritmtica, denotada por teorema de x ,siseeldefine como la s
la distribucin
tamao muestral de es una variable en lagrande.
suficientemente poblacin
= P(-2,05 Aunquediste
Z elmucho
tamao
2,05) de muestral
ser normal, el teorema
necesario variar en
centralde
funcin dellalmite
variablepermite
objetoutilizar la distribucin
de estudio, esta aproximacin normal como aproximacin
valores muestrales dividida por el siempre
ser razonablemente a la
precisa nmero de observacion
quecentral del lmitea permite
n sea superior 50. utilizar la distribucin normal como aproximacin a la
= 2 (2,05) - 1 = 0,9596.
distribucin de x si el tamao muestral es suficientemente grande. muestral
por n el tamao Aunque ely tamao por xi el valor observado para
~
N(1,09,
distribucin
Ejemplo de x siLa
4.12 el tamao la xvarianza
media ymuestral 0,00086). HDL
es suficientemente
del colesterol grande.en losAunquecontroles el tamaodel estudio
muestral En el Ejemplo
necesario 4.9
variar seen comprob
funcin
EURAMIC son = 1,09 mmol/l y = 0,086 (mmol/l) deempricamente
2 la variablelaobjeto que la
de proporcin
media. vendra
2 estudio,
Por el teorema esta
dada porde central delde
muestras lmite,
muestral
laAs, necesario
distribucin variar
de las en
mediasfuncinen de la
muestras variable
de objeto
tamao
por ejemplo, la probabilidad de que la media de colesterol HDL en una de
n =estudio,
100 esta
ser aproximadamente
tamao
aproximacin
normal con nmedia
= razonablemente
ser 100 con un nivel
= 1,09 mmol/l medio
precisa de colesterol
siempre
y varianza /n =nHDL
que
2 entre 1,03
sea superior
0,086/100 y 1,15(mmol/l)
a 50.
= 0,00086 mmol/ln es 2
,
1 x1 + x 2 + ... + x
aproximacin ser razonablemente
muestra de tamao n = 100 est ~ comprendida entre 1,03 y 1,15 mmol/l puede n x i =
precisa siempre que n sea superior a 50. x =
n
del 95,4%, que coincide casi N(1,09, 0,00086).
x perfectamente con el resultado obtenido bajo la i =1
Ejemplo 4.12 La media y la varianza del colesterol HDL en los controles del
calcularse
As, como la probabilidad de que la media de colesterol HDL en una muestra de
por ejemplo,
Ejemplo
aproximacin 4.12 La media y la varianza del colesterol HDL en los controles del
normal.
As, pornejemplo,
tamao = 100 est la probabilidad
comprendida de entreque1,03la media
y 1,15 demmol/l
La colesterol
media es laHDL
puede medida en una
calcularse de tendencia
como central ms utiliza
estudio EURAMIC son = 1,09 mmol/l y 2 = 0,086 (mmol/l)2. Por el teorema
2 2
estudio EURAMIC son = 1,09 mmol/l 1,03 1y,09 entre=x0,0861,09y(mmol/l)
1,03 1,15 1.,09
Por el teorema
muestra
Como se de tamao
P(1,03
mostrar enn x=
los100 est
1,15) =
siguientes comprendida
P temas, el interpretacin.

teorema central1,15del mmol/l
Corresponde puede al centro de gravedad de l
central del lmite, la distribucin de las medias en0muestras
0,029 ,029 de tamaoconstituye
0,029
lmite n = 100 la
central del lmite, la distribucin de las medias en muestras de tamao nest
= 100
basecalcularse
fundamental como del proceso de = P(
inferencia 2,05 Z principal
ser aproximadamente normal con media = 1,09 mmol/l y varianza /n =la
estadstica,2,05) dado limitacin
que es quetanto
posibilita 2
muy influenciada por los
2
ser aproximadamente normal = con
2 media1 ==
(2,05) 1,09
0,9596.
caso, mmol/l
puede no yser
varianza
un fiel reflejo
/n = de la tendencia central d
construccin de
0,086/100P(1,03 intervalos
= 0,00086 de confianza
(mmol/l) 2 1,como el contraste de
,P 03 1,09 x 1,09 1,15 1,09 hiptesis acerca de la
En0,086/100
el Ejemplo= 4.9 x 1,15)
se comprob =
0,00086 (mmol/l)empricamente
2
, 0,029 que0,la 029proporcin 0,029 de muestras
de tamao
media
n = poblacional
100 con un nivel . medio de colesterol HDL entre 1,03 y 1,15 mmol/l es del
Ejemplo 1.4 En este y en los sucesivos 95,4%, que ejemplos so
coincide casi perfectamente
En el Ejemplo 4.9 se comprob con el resultado obtenido
empricamente que labajo la aproximacin
proporcin de muestras normal.
de
= P(-2,05 Z 2,05) 22
4.3.4 Estimacin de una proporcin poblacional utilizarn los valores del colesterol HDL obtenidos
Como se mostrar
tamao n = 100en con losunsiguientes
nivel medio temas, el teorema
de colesterol HDL central
entredel 1,03lmite
y 1,15constituye
mmol/l es la22base
fundamental del que
proceso de inferencia (2,05) - 1dado
= 2estadstica, = 0,9596.
que posibilita tanto la construccin de
Supongamos el inters del estudio se centra en estimar estudio European
la proporcin Study
de on Antioxidants, Myocard
intervalos de confianza como el contraste de hiptesis
del 95,4%, que coincide casi perfectamente con el resultado obtenido bajo laacerca de la media poblacional .
En el Ejemplo
individuos 4.9 sede
o elementos comprob
la poblacin empricamente
que cumplen que unala proporcin
thedeterminada decaracterstica.
Breast (EURAMIC), muestras de un Enestudio multicntrico
aproximacin normal.
4.3.4 tamao
Estimacinn = 100deconunaun proporcin
nivel medio poblacional
tal caso, resulta conveniente definir unade colesterol
variable HDL
aleatoria entre
entre
X 1991
que 1,03
toma yel1,15
y 1992 enmmol/l
valor ocho es Europeos e Israel
1 en pases
los
Supongamos que el inters del estudio se centra en estimar la proporcin de individuos o
Como se mostrar
del 95,4%, que en los siguientes
coincide casi temas, el teorema
perfectamente central del lmite constituye la
individuos
elementos de que presentan
la poblacin dicha
que caracterstica
cumplen y con
0 enelquienes
una determinada resultado no laobtenido
presentan.
caracterstica. En bajotalLa lacaso,
media resulta
conveniente definir una variable aleatoria X que toma el valor 1 en los individuos que presentan
base fundamental
aproximacin del proceso de inferencia estadstica, dado que posibilita tanto la
normal.
poblacional
dicha de esta
caracterstica y variable
0 en quienes aleatoriano discreta
la presentan. es La media poblacional de esta variable
aleatoria discreta es
construccin de intervalos de confianza como el contraste de hiptesis acerca de la
Como se mostrar en los siguientes temas, 1
el teorema central del lmite constituye la
= k P( X = k ) =
media poblacional . k =0
base fundamental del proceso de inferencia estadstica, dado que posibilita tanto la
4.3.4 Estimacin de una proporcin 23
construccin de intervalos de confianzapoblacional
como el contraste de hiptesis acerca dePastor-Barriuso
la R. 55

Supongamos
media que el.inters del estudio se centra en estimar la proporcin de
poblacional
Si se selecciona una muestra aleatoria simple de tamao n, en la cual k individuos
1
Principios de muestreo y estimacin
(k (xi =) 1)P(yXlos= krestantes
2
presentan la caractersticade=inters
k =0
2
) n - k individuos no la

presentan (xi = 0), el estimador natural de la proporcin poblacional es la proporcin


yLa
su varianza
varianza muestral de p=viene
2
(1 determinada
- ) + (1 - ) 2
por
=(1
(1--)/n;
). as, al aumentar el
y su varianza

La varianza muestral de p viene determinada por (1 - )/n; as, al aumentar el


muestral
tamao muestral, las proporciones 1 muestrales estarn ms prximas a la verdadera
Si se selecciona una muestra 2 = aleatoria )simple
P( X =dek tamao n, en la cual k individuos
tamao muestral, las proporciones ( k 2
muestrales
)
estarn ms prximas a la verdadera
proporcin poblacional. k =0 k 1 n

presentan la caracterstica de inters 2


p =(xi == 1) y los x i2 restantes
=x. n - k individuos no la
proporcin poblacional.= (1 n) + n(1 i=1 ) = (1 ).
Al aumentar el tamao muestral, la distribucin de las proporciones muestrales
presentan
Si se (xi = 0),
selecciona unaelmuestra
estimador naturalsimple
aleatoria de la proporcin
de tamao poblacionaln, en la cual es la proporcin
k individuos presentan
Al aumentar el tamao muestral, la distribucin de las proporciones muestrales
A partir
la caractersticade esta notacin,
de inters es evidente que una proporcin
n de k tamao muestral es un caso
tiende
Si se aselecciona
muestral
aproximarseuna(x i = 1)
amuestra
una y aleatoria
los restantes
distribucin normal.
simple individuos
Esta aproximacin
n, ennolalacual
presentan
es (xi = 0), el
k individuos
estimador natural
tiende de la proporcin poblacional es la proporcin muestral
particular de auna
aproximarse a una distribucin
media muestral para una variable normal. Esta aproximacin
dicotmica es
con la codificacin arriba
suficientemente precisa si n (1 - ) 5.
presentan la caracterstica de inters (xi = 1) y los restantes n - k individuos no la
-k)=1puede
n
suficientemente
indicada. As, el teoremaprecisa
centralsi ndelp(1=lmite 5. x i aplicarse
1 = x . poblacional a la forma particular de esta
presentan (xi = 0), el estimador natural n denlai =proporcin es la proporcin
Ejemplo 4.13 En las Figuras 4.5(a), (b) y (c) se presentan las proporciones de
variable X para obtener el siguiente resultado: la distribucin muestral de una
muestral
A partir Ejemplo
de 4.13 Enes
esta notacin, lasevidente
Figurasque 4.5(a),
una(b) y (c) se presentan
proporcin muestral es lasunproporciones de de una
caso particular
A partir deactuales
fumadores esta notacin,
en 1000 es muestras
evidente que una proporcin
aleatorias simples demuestral
tamao es
n =un10,caso
25 yel teorema
media muestral para una variable dicotmica con la codificacin
proporcin p se aproxima, al aumentar el tamao muestral, a una distribucin normal arriba indicada. As,
fumadores
central del lmite puedeactuales en 1000
aplicarse muestras
a la forma aleatorias
particular simples
de esta de tamao
variable n = 10,el25siguiente
X para obtener y
particular de una media muestral
100, respectivamente, obtenidas paraapuna k variable
una
partir 1 grupo
del
n
dicotmica
control delcon la codificacin
estudio EURAMIC, arriba
resultado: la distribucin muestral
con media y varianza (1 - )/n, de =
n
=
n

proporcin x i =p xse
. aproxima, al aumentar el tamao
muestral,100,
a unarespectivamente,
distribucin normal obtenidas
con media a partir ydel
i =1varianza (1 )/n,
grupo control del estudio EURAMIC,
indicada.
donde la As, el teorema
proporcin decentral
fumadores del lmite
actuales puedees aplicarse a la forma
= 0,37. Para particular
cualquier tamaoden esta
Adonde
partir la
deproporcin
esta notacin, de fumadores ~ N actuales
es evidente que (1 es
una )= 0,37. Para
proporcin muestralcualquier
es una caso n
un tamao
variable X para obtener el siguiente p
resultado:
de la muestra, las proporciones muestrales estn , la .
distribucin
distribuidas muestral
alrededor de de la
n
de la muestra,
particular pdeseuna las
media proporciones
muestral muestrales estn distribuidas alrededor de la arriba
En proporcin
consecuencia, aproxima,
pueden
proporcin poblacional extraerse
(ausencia laspara
al aumentar de el
una
siguientes
sesgo).
variable
tamao propiedades dicotmica
Almuestral,
aumentarde an,una
una con la codificacin
distribucin
proporcin
la distribucin normal
muestral:
En consecuencia,
yyindicada.
La proporcin pueden extraerse
muestral pcentral
es undellas siguientes
estimador propiedades
insesgado de laa de una
proporcin proporcin
poblacional ; es
con media As,
y elpoblacional
teorema
varianza (1 -
(ausencia
)/n,
de sesgo).
lmite puede Al aumentar
aplicarse lan,forma
la distribucin
particular de esta
muestral
decir, de=la.proporcin de fumadores actuales presenta una menor variabilidad
E(p)
muestral:
muestral deobtener
la proporcin de fumadores
yyvariable
La varianzaX paramuestral deel psiguiente
viene resultado:actuales
determinada lapor (1presenta
distribucin una
as, menor
)/n;muestral variabilidad
de una
al aumentar el tamao
y se aproxima a una distribucin normal ~ centrada
( 1 )en
la proporcin poblacional
muestral, las proporciones muestrales
La proporcin muestral p es pun N estarn

estimador , ms .prximas
insesgado a la verdadera
de la proporcin proporcin
poblacional
y se aproxima
proporcin
poblacional. a una distribucin
p se aproxima, al aumentarnormal el
tamao centrada en la aproporcin
n muestral, poblacional
una distribucin normal
= 0,37.
; es decir, E(p)
yy Al aumentar
= 0,37. yelvarianza
tamao = muestral,
. la distribucin de las proporciones muestrales tiende a
con media (1 - )/n,
aproximarse a una distribucin
En consecuencia, pueden extraerse las siguientesnormal. Esta aproximacin
propiedades de es una
suficientemente
proporcin precisa si
n(1 ) 5.
muestral: [Figura 4.5 ~aproximadamente
(1 ) aqu]
p N , .
Ejemplo 4.13 En las Figuras 4.5(a),
[Figura 4.5(b) y (c) se n presentan
aproximadamente las proporciones de fumadores
aqu]
actuales en 1000 muestras
La proporcin muestralaleatorias
p es un estimador tamao nde
simples deinsesgado = 10, 25 y 100, respectivamente,
la proporcin poblacional
A partir de las
obtenidas propiedades
a partir del grupo anteriores
control del seestudio
deduceEURAMIC,
que, para una dondemuestra aleatoriadedefumadores
la proporcin
EnA consecuencia,
partir
actuales
; es esdelas pueden
propiedades
= 0,37.
decir, E(p) Para extraerse
= .cualquier las siguientes
anteriores
tamaose deduce propiedades
que, paralasuna
n de la muestra, demuestra
una proporcin
proporciones aleatoria de 24
muestrales estn
n, la proporcin
tamaodistribuidas muestral p es un estimador insesgado de la proporcin
alrededor de la proporcin poblacional (ausencia de sesgo). Al aumentar n, la
muestral:
tamao n, la proporcin
distribucin muestral de muestral p es un
la proporcin deestimador
fumadoresinsesgado de la proporcin
actuales presenta una menor variabilidad
poblacional y su error estndar viene determinado por la
y se aproxima a una distribucin normal centrada en la proporcin poblacional raz cuadrada de la varianza
= 0,37.
La proporcin muestral p es un estimador insesgado
poblacional y su error estndar viene determinado por la raz cuadrada de la varianza
de la proporcin poblacional
muestral
A partirdedep, las propiedades anteriores se deduce que, para una muestra aleatoria de tamao n,
muestral;de
la proporcin esmuestral
p, p es=un.estimador insesgado de la proporcin poblacional y su error
decir, E(p)
estndar viene determinado por la raz cuadrada de la (1 varianza
) muestral de p,
SE(p) = var( p) = , 24
n (1 )
SE( p) = var( p) = ,
n
que
que puede
puede estimarse partir de la propia muestra mediante p (1 p ) / n ..
estimarse aa partir
que puede estimarse a partir de la propia muestra mediante p (1 p ) / n .
25 24
56 Pastor-Barriuso R.
25
Estimacin en el muestreo aleatorio simple

30

20

10

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

(a) Proporcin de fumadores actuales en muestras de tamao 10

30
Frecuencia relativa (%)

20

10

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

(b) Proporcin de fumadores actuales en muestras de tamao 25

30

20

10

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8


(c) Proporcin de fumadores actuales en muestras de tamao 100
Ejemplo 4.14 A partir de una muestra aleatoria simple de n = 100 controles del
Figura 4.5 Distribucin muestral de la proporcin de fumadores actuales en 1000 muestras aleatorias
Figura 4.5
simples de tamao n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La
Ejemplo
lnea vertical 4.14 discontinuo
trazo A partir
estudioenEURAMIC, sede una muestra
obtuvieron
corresponde k a=laaleatoria
35 simple
fumadores
proporcin de n =de
actuales.
poblacional 100
La controles
estimacin
fumadores del = 0,37.
actuales

estudio
puntual EURAMIC, se obtuvieron
de la proporcin de fumadoresk = 35 fumadores
actuales es actuales. La estimacin
Ejemplo 4.14 A partir de una muestra aleatoria simple de n = 100 controles del estudio
EURAMIC,
puntual se obtuvieron
de la proporcin k = 35 fumadores
de fumadores actuales esactuales. La estimacin puntual de la
k 35
proporcin de fumadores actuales p =es = = 0,35,
n 100
k 35
p= = = 0,35,
n 100
y su error estndar es
y su error estndar es
y su error estndar es
p (1 p) 0,35(1 0,35)
SE(p) = = = 0,05,
n 100
p (1 p) 0,35(1 0,35)
que corresponde alSE (p) =promedio que=cabra esperar entre
error n 100
= todas
0,05, las posibles muestras de
tamao
que 100 de laalpoblacin
corresponde a estudio.
error promedio que cabra esperar entre todas las posibles

que corresponde
muestras al error
de tamao 100 promedio que cabra
de la poblacin esperar entre todas las posibles
a estudio.
Pastor-Barriuso R. 57
muestras de tamao 100 de la poblacin a estudio.
En este apartado se ha discutido la estimacin puntual de una proporcin poblacional
Principios de muestreo y estimacin

En este apartado se ha discutido la estimacin puntual de una proporcin poblacional y su


correspondiente error estndar. No obstante, no se ha hecho un uso prctico de la aproximacin
normal a la distribucin muestral de p. Esta aproximacin se retomar ms adelante para obtener
intervalos de confianza y pruebas de hiptesis sobre la proporcin poblacional (vase Tema 7).

4.4 REFERENCIAS

1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole, 2001.
3. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977.
4. Kish L. Survey Sampling. New York: John Wiley & Sons, 1995.
5. Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer
Verlag, 1998.
6. Levy PS, Lemeshow S. Sampling of Populations: Methods and Applications, Third
Edition. New York: John Wiley & Sons, 1999.
7. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
8. Serfling RJ. Approximation Theorems of Mathematical Statistics. New York: John Wiley
& Sons, 1980.
9. Silva LC. Diseo Razonado de Muestras y Captacin de Datos para la Investigacin
Sanitaria. Madrid: Daz de Santos, 2000.
10. Stuart A, Ord JK. Kendalls Advanced Theory of Statistics, Volume 1, Distribution Theory,
Sixth Edition. London: Edward Arnold, 1994.

58 Pastor-Barriuso R.
TEMA 5

INFERENCIA ESTADSTICA

5.1INTRODUCCIN

La teora del muestreo aporta diversos mtodos formales para seleccionar muestras a partir de
una determinada poblacin. La informacin obtenida de dichas muestras puede resumirse
utilizando tcnicas de estadstica descriptiva. Sin embargo, cuando se trabaja con una muestra,
rara vez nos interesa la muestra como tal, sino que sta interesa por su capacidad para aportar
informacin con respecto a otros sujetos o a otras situaciones.
En los estudios descriptivos, el inters radica en seleccionar una muestra representativa de la
poblacin de referencia, o dicho ms concretamente, la muestra ha de presentar el mismo grado
de diversidad que la poblacin respecto al parmetro o caracterstica objeto de estudio. Las
tcnicas de muestreo probabilstico descritas en el tema anterior facilitan muestras que sern
muy probablemente representativas de la poblacin si el tamao muestral es suficientemente
grande. De esta forma, los resultados de la muestra podrn inferirse a toda poblacin con un
grado razonable de certidumbre.

Ejemplo 5.1 En las Encuestas Nacionales de Salud, se obtiene informacin de una muestra
representativa a nivel provincial o nacional. Esta muestra interesa por la informacin que
aporta sobre toda la poblacin. En este caso, la representatividad de la muestra es determinante
para la validez de las conclusiones derivadas del proceso inferencial.

En los estudios epidemiolgicos analticos, los resultados son interesantes porque pueden
aplicarse a situaciones de salud semejantes. En este caso, el objetivo principal del diseo es asegurar
la comparabilidad o semejanza de los grupos de estudio, ms que la representatividad poblacional
de la muestra. En los ensayos clnicos randomizados, los sujetos se asignan a los distintos grupos
de tratamiento mediante algn mecanismo aleatorio (por ejemplo, mediante un muestreo aleatorio
simple). As, si el tamao muestral es grande, las caractersticas basales de los sujetos asignados a
los distintos grupos sern muy similares. En consecuencia, las diferencias observadas entre estos
grupos a lo largo del seguimiento podrn atribuirse al tratamiento objeto de estudio.

Ejemplo 5.2 El primer ensayo clnico publicado sobre el papel de la aspirina en la


prevencin primaria de enfermedades cardiovasculares se realiz en mdicos americanos
participantes en el Physicians Health Study, seleccionados adems por otras
caractersticas de salud. En este caso, los sujetos a estudio no son representativos de la
poblacin a la que se aplicarn posteriormente los resultados (poblacin general de
hombres adultos a riesgo de padecer un primer evento cardiovascular), pero en cambio se
garantiz la comparabilidad de las personas que tomaban aspirina y quienes no la tomaban
mediante la asignacin aleatoria del tratamiento y el uso de la tcnica del doble ciego
(tanto el investigador como el paciente desconocan el tratamiento asignado).

La estadstica inferencial aporta las tcnicas necesarias para extraer conclusiones sobre el
valor poblacional de un determinado parmetro a partir de la evaluacin de una nica muestra.

Pastor-Barriuso R. 59
Inferencia estadstica

Como se discuti en el tema anterior, las conclusiones derivadas de este proceso inferencial
siempre estarn sujetas a error como consecuencia de la variabilidad aleatoria inherente al
propio procedimiento de seleccin muestral. Por ello, resulta necesario disponer no slo de una
estimacin puntual, sino tambin de un intervalo de confianza, que facilite un rango de valores
verosmiles para el parmetro poblacional, as como de una prueba de significacin estadstica,
que permita determinar el grado de compatibilidad de los datos muestrales con una hiptesis
predeterminada. En este tema, se revisan los fundamentos y la interpretacin de las tcnicas
estadsticas de inferencia: la estimacin puntual, el intervalo de confianza y el contraste de
hiptesis. Para simplificar la exposicin, se asume que la muestra se obtiene por muestreo
aleatorio simple y que la poblacin de referencia es de tamao muy superior a la muestra.

5.2 ESTIMACIN PUNTUAL

Una forma natural de estimar muchos parmetros poblacionales consiste en utilizar el estadstico
muestral correspondiente. As, la media muestral es un estimador 1.2 MEDIDAS puntualDE de laTENDENCIA
media poblacional CENTRAL
yprincipales
la proporcin de casos de una
propiedades estadsticas que enfermedad
1.2haMEDIDAS en la
de satisfacer muestra
DEunTENDENCIA es un
buen estimador estimador
CENTRAL puntual
muestral de la
probabilidad de tener la enfermedad en la poblacin. No obstante, para un determinado
parmetro poblacional, pueden contemplarse distintos Las estimadores
medidas de tendencia alternativos. central informan acerca de c
Algunos
cabe destacar las siguientes:
estimadores de la media poblacional distintos de la media muestral podran ser, por ejemplo,cul
Las medidas de tendencia central informan acerca de la es el valor m
mediana, la media de unadedeterminada variable o, dicho de forma equival
Ausencia de del 50%Un
sesgo. central de laes
estimador muestra
insesgadoo la simedia valorlos
suvariable medio valores sobre mximo
todas y mnimo.
las
En este apartado se presentan algunos criterios estadsticos que justifican la eleccin de un estos estima
de una determinada o, dicho de forma equivalente,
determinado alrededor de qu valor se agrupan los datos observados
posiblesestimador
muestrasfrente a otras
de tamao posibles alternativas.
n coincide
alrededorcon deelqu parmetro
valor se poblacional.
agrupan los datos La observados. Las medidas de
Los mritos de un estimador no se juzgan por la central estimacin de la resultante
muestra sirven en una tantomuestra
para resumir los resu
insesgadez de un estimador
concreta, sino por la distribucin de todos es una propiedad
centrallosde
posibles deseable
la muestra valores ya que sus
o estimaciones
sirven estimaciones
tanto para resumir no
a que pueda dar
los resultados observado
lugar; esto es, por las propiedades de su distribucin muestral. Entre las principales propiedades
realizar inferencias acerca de los parmetros poblacion
diferirn
estadsticas quesistemticamente
ha de satisfacer un delbuen
parmetro
estimador
realizar poblacional.
muestral
inferencias acercacabede destacar
los parmetroslas siguientes:
poblacionales correspondi
yy Ausencia de sesgo. Un estimador es insesgado si continuacin su valor medio se sobre
describen todasloslasprincipales
posibles estimadores d
muestras tamaosenprob
de Como coincide continuacin se describen los principales estimadores de la tendencia ce
Ejemplo 5.3 en el con
temaelanterior,
parmetro la media poblacional.
y la proporcin La insesgadez muestralde un
estimador es una propiedad deseable ya que sus estimaciones variable. no diferirn sistemticamente
del variable.
sonparmetro
estimadores poblacional.
insesgados de la media y la proporcin poblacional,
1.2.1 Media aritmtica
Ejemplo 5.3 Como
respectivamente, E( x se
) =prob en1.2.1
y E(p) el= tema
. Sinanterior,
Media la la
aritmtica
embargo, media y la proporcin
varianza muestral definida muestral son
estimadores insesgados de la media y la proporcin La poblacional,
media aritmtica, respectivamente,
denotada por E( x ), =se define como l
por
y E(p)
(xi -= x.) Sin
2
/n esembargo, la varianza
un estimador La media
sesgado muestral definida
aritmtica,
de la varianza por S(x
denotada
poblacional, pori x ya), /n
2
es
seque un estimador
define como la suma de cada u
sesgado de la varianza poblacional, ya que valores muestrales dividida por el nmero de observac
valores muestrales dividida por el nmero de observaciones realizadas.
2
1 n
2 1 n 2 2 1 porn n el2 tamao 1 muestral
n
y por xi el valor observado pa
E ( x i x ) = E por xi x = nmuestral E ( x i )ypor E x el xi observado para el sujeto i-sim
n i =1 n i =1 n el tamao i =1 ni i =1valor
la media vendra dada por
1 n la media 1 n
= E ( x i2 ) vendra Edada
2
( x i2 )por
+ 2 E ( x i ) E ( x j )
n i =1 n i =1 x + x 2 + ...
1 i < j n
1 n
n 1 n
2 1 n x =
x + x 2 n+ ...
xi = 1
+ xn n
= 2 E ( x i2 ) 2 E ( x i ) E ( xxj =) x i = 1 i =1 .
n i =1 n 1i < j n n i =1 n
n 1 2 n 1 La n 1
( + 2 )
= 2 =media es2la
; medida de tendencia central ms util
n La media es nla medida den tendencia central ms utilizada y de ms f
interpretacin. Corresponde al centro de gravedad de
interpretacin. Corresponde al centro de gravedad de los datos de la m
es decir, este estadstico tiende a infraestimar la varianza poblacional 2 por un
principal limitacin es que est muy influenciada por l
60 Pastor-Barriuso R. principal limitacin es que est muy influenciada por los valores extrem
factor de (n 1)/n. Notar que este sesgo ser tanto mayor cuanto menor sea el
caso, puede no ser un fiel reflejo de la tendencia centra
caso, puede no ser un fiel reflejo de la tendencia central de la distribuci
tamao muestral. En consecuencia, es preferible utilizar la varianza muestral
es decir, este estadstico tiende a infraestimar la varianza poblacional por un
forma, seque
tambin tendr una mayor
las distintas confianza en
estimaciones que
difieran laloestimacin
menos se
continuacin resultante
posible de la
de dicho
describen los principales estimadores de la t
factor de (n 1)/n. Notar que este sesgo ser tanto mayor cuanto menor sea el
Estimacin puntual
muestra finalmente
parmetro, que1.2
la MEDIDAS
es decir, seleccionada
varianza estar DE
muestralTENDENCIA
prxima al parmetro
del estimador
variable. CENTRAL
seapoblacional.
mnima. DePor esta
tamao muestral. En consecuencia, es preferible utilizar la varianza muestral
ello, entre
forma, los distintos
se tendr estimadores
una mayor
Las confianza
medidas insesgados
deen que la de
tendencia un determinado
estimacin
central resultante
informan parmetro, es es el valor ms represe
de2 lade cul
acerca
es decir, por
definida estesestadstico
2
= (xi - xtiende
)2/(n a1)infraestimar la varianza
1.2.1
como estimador Media poblacional
aritmtica
insesgado por un factor
de la varianza de
(n 1)/n.
convenienteNotar que este
seleccionar sesgo ser tanto mayor cuanto menor sea el tamao muestral. En
muestra finalmente deaquel
seleccionada
una que presente
estar
determinada una menor
prxima
variable varianza
al parmetro
mediao,aritmtica,
dicho (o, de
poblacional.
de forma forma Por 2 estos estimadores ind
s2 =equivalente,
consecuencia, es preferible
poblacional, utilizar la varianza
La muestral definida por
denotada S(x i x ), /(n
por 1) como la sum
se define
como estimador
equivalente,
entre losun insesgado de
menor alrededor
error la varianza
estndar). poblacional,
ello, distintos estimadores quEn general,
de insesgados
valor
valores
puede
sedeagrupan
un demostrase
determinado
los
muestrales datos que, si laesLas medidas de tendenc
parmetro,
observados.
dividida por el nmero de observaciones
1 n 2
distribucin seleccionar
conveniente poblacional subyacente
E(s 2
aquel
central de ( xuna
es normal,
E lapresente
) = que muestra la
sirvenx )media
i menor tanto
n 1 i =1 por n el tamao

x. y la
2
=varianza
para varianza
(o,
resumir
muestral
de los muestral observados como p
forma
y porresultados
xi el valor observado para el s
s2 son respectivamente
equivalente, un menor errorlos estimadores
estndar).
realizar insesgados
En
inferencias general,
acerca puede
dedelos 2 con menor
yparmetros
demostrase que,varianza.
si la
poblacionales correspondientes. A
yy Mnima varianza. Adems de la insesgadez la media
de un vendra
estimador,dada porque garantiza que las
estimaciones
distribucin estarn centradas alrededor del parmetro poblacional,
x y la interesa
varianza tambin que
muestral
De la mismapoblacional subyacente
forma, la continuacin
proporcin es normal,
muestral p eslaellos
media
estimador insesgado de con
las distintas estimaciones difieran lo se describen
menos posible de principales
dicho parmetro;estimadores de la que
es decir, tendencia
la central de
1 n x1 + x 2 + ... + x n
varianza
2
smenor
muestral del estimador sea mnima. De esta forma, se2 tendr una mayor
son respectivamente los estimadores insesgados de y con menor xvarianza. = x4i =
confianza .
error estndar. variable. n n
en que la estimacin resultante de la muestra finalmente seleccionada est prxima i =1 al
parmetro poblacional. Por ello, entre los distintos estimadores insesgados de un
De la misma forma, la proporcin muestral p es el estimador insesgado de con
determinado
Ejemplo 5.4parmetro, es conveniente
1.2.1
Para cualquier distribucin seleccionar
Media aritmtica aquel
La media
poblacional, quelapresente
la es
media medida
muestral una
de esmenor
un varianza
tendencia central ms utilizada
(o, de forma equivalente, un menor error estndar). En general, puede demostrarse que, si
menor error estndar.
laestimador
distribucin poblacional
insesgado deLa subyacente
la media es normal,
media aritmtica,
poblacional y sulaerror
denotada media
interpretacin. por x ,yse la define
varianza
Corresponde
estndar es al muestral
como la suma
centro s2 son
de de cada uno
gravedad dedeloslos
d
respectivamente los estimadores insesgados de y con menor varianza. De la misma
2

forma,
Ejemplo la proporcin valores
muestral
5.4 Para cualquier pmuestrales
distribucin dividida
es el estimador por
insesgado
principal
poblacional, laelmedia
nmero
limitacin es de
de muestral
con observaciones
menor
que es error
est muy estndar.
un realizadas.por
influenciada Silos
denota
val

SE( x ) = .
Ejemplo 5.4 Para cualquiern
estimador insesgado de la media poblacional y suypuede
por el tamao
distribucinmuestraln
poblacional,
caso, por xla
error i el
no valor
media
ser
estndar observado
unmuestral para
es un
fiel reflejo
es deestimador sujeto i-simo,
laeltendencia centrali de
= 1,la
insesgado de la media poblacional y su error estndar es
la media vendra dada por
En el caso de que la distribucin subyacente sea normal, puede probarse que la
SE( x ) = . Ejemplo 1.4 En este y en los sucesivos ejemplos sobre
n la media1poblacional x +yxque su+ x n
mediana tambin es un estimador insesgado de 2 + ...
n
x=
utilizarn losx ivalores
= 1 del colesterol . HDL obtenidos en
En el caso de que la distribucin subyacente sea normal,n puede i =1 probarse nque la mediana
error
En
tambin estndar
el caso esde es
unque aproximadamente
la distribucin
estimador insesgadosubyacente sea normal,
de la media poblacional puedey probarse
que Study que la
su error
estudio European on estndar
Antioxidants, es Myocardial
aproximadamente
mediana tambin es un estimador La media es la medida
insesgado de lade tendencia
media centralyms
poblacional que utilizada
su y de ms fcil
the
Breast (EURAMIC), un estudio multicntrico de c
SE(mediana) 1,25 .
interpretacin. Corresponde nal centro de gravedad de los datos de la muestra. S
error estndar es aproximadamente
entre 1991 y 1992 en ocho pases Europeos e Israel par
As, aunque ambos estimadores son insesgados, el error estndar de la mediana es un 25%
mayor que el de la media principal
muestrallimitacin es que
y, por tanto, est muy
la mediana influenciada
tender porestimaciones
a facilitar los valores extremos y, en

menos precisas que la media SE(mediana)
muestral. 1,25 .
caso, puede no ser un fiel reflejo n de la tendencia central de la distribucin.
yy Consistencia. Las propiedades de insesgadez y mnima varianza se refieren a la
distribucin muestral del estimador para un tamao n fijo de la muestra. La consistencia,
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestr
sin embargo, hace referencia al comportamiento del estimador al aumentar n. Se dice 5 que
un estimador es consistente si,utilizarn
al aumentar
loselvalores
tamaodel
decolesterol
la muestra, la probabilidad
HDL obtenidos endelos
que10 primeros suje
el estimador difiera del verdadero parmetro poblacional se reduce progresivamente. La
consistencia es, por tanto, un requerimiento
estudio Europeanbsico paraon
Study unAntioxidants,
buen estimador ya que bastar
Myocardial Infarction and Canc
con aumentar el tamao muestral para obtener estimaciones arbitrariamente prximas 5 al
verdadero parmetro. Por supuesto, la media,
the Breast la varianza
(EURAMIC), y la proporcin
un estudio muestral
multicntrico son y controles rea
de casos
estimadores consistentes de sus respectivos parmetros poblacionales.
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto d
Ejemplo 5.5 En el Ejemplo 4.9 se evalu empricamente el comportamiento de la media
muestral de colesterol HDL en muestras de tamao n = 10, 25 y 100 obtenidas a partir
delos controles del estudio EURAMIC, donde la media poblacional del colesterol HDL

Pastor-Barriuso R. 61
Inferencia estadstica

es = 1,09 mmol/l. La proporcin de muestras con niveles medios de colesterol HDL


prximos a = 1,09 mmol/l, pongamos por ejemplo entre 1,03 y 1,15 mmol/l, aument
de un 48,7% para n = 10 a un 69,1% para n = 25 y a un 95,4% para n = 100. Este resultado
corrobora empricamente la consistencia de la media muestral como estimador de la
media poblacional: la probabilidad de obtener estimaciones prximas al verdadero nivel
medio aumenta progresivamente conforme aumenta el tamao muestral.

En los problemas de estimacin ms simples, como es el caso de una media o una proporcin
poblacional, se dispone de un estimador natural que cumple las propiedades descritas
anteriormente. En otros problemas ms complejos, como por ejemplo en la estimacin de
parmetros en modelos de regresin, la eleccin de un estimador razonable no es tan directa. En
general, existen diversos mtodos formales para obtener estimadores con buenas propiedades
estadsticas, entre los que destacan el mtodo de mxima verosimilitud, el mtodo de mnimos
cuadrados y el mtodo de los momentos. Los mtodos de mnimos cuadrados y mxima
verosimilitud se presentarn en el contexto particular de los modelos de regresin lineal (Temas
10 y 11) y logstica (Tema 12), respectivamente. No obstante, los principios generales de estos
procesos de estimacin y la evaluacin de los estimadores resultantes pueden consultarse en los
textos de estadstica matemtica referenciados al final del tema.
TENDENCIA CENTRAL
5.3 ESTIMACIN POR INTERVALO
dencia central informan acerca de cul es el valor ms representativo
Como ya se ha comentado previamente, las estimaciones puntuales obtenidas a partir de una muestra
diferirn
variable o, dicho del equivalente,
de forma parmetro poblacional y, en consecuencia,
estos estimadores indican quedar un margen de incertidumbre que se
expresa en trminos del error estndar del estimador. As, resulta natural la pretensin de disponer de
unadatos
or se agrupan los medida
5.3.1 del parmetro
observados.
Distribucin Las poblacional
t demedidas que incorpore tanto la estimacin puntual como su error
Studentde tendencia
estndar. Esta medida es el intervalo de confianza, que facilita un rango de valores dentro del cual se
encontrar
a sirven tanto para resumir
5.3.1
El mtodoellos
verdadero tvalor
resultados
Distribucin
ms del
paraparmetro
deobservados
extendido Student comopoblacional
el clculo para conde
de intervalos unconfianza
cierto grado
se de confianza.
basa en las En este
apartado se describe detenidamente el procedimiento para la construccin de un intervalo de
confianza
acerca de los parmetros
El para
mtodo
propiedades lade
msmedia
poblacionales poblacional.
extendido elLos
correspondientes.principios
para muestral
la distribucin Adel
clculo bsicos del
de estimador.
intervalos de
Porclculo e interpretacin
confianza
el teorema secentral
basa endeldelmite
las intervalos
de confianza para otros parmetros son similares y se discutirn en los siguientes temas.
criben los principales estimadores
propiedades
sabemos dedistribucin
que,depara
la la tendencia
cualquier centralaleatoria
muestral
variable dedeluna
estimador. Porelyteorema
con media varianzacentral
2, la del lmite
5.3.1Distribucin t de Student
sabemos que,depara
distribucin las cualquier variable aleatoria
medias muestrales con media y varianza
x es aproximadamente normal con 2,media
la y
El mtodo ms extendido para el clculo de intervalos de confianza se basa en las propiedades
tica de distribucin
la distribucin
varianza 2/n desimuestral
las
el medias
delmuestrales
tamao esxsuficientemente
estimador.
muestral es aproximadamente
Por grande;normal
el teorema central del
es lmite
decir, media que,
consabemos y para
cualquier variable aleatoria con media y varianza , la distribucin de las medias muestrales
2
2
, denotada por x es definecomo
, varianza
seaproximadamente
/n silaelsuma decon
normal
tamao cada uno es
media
muestral de los
ysuficientemente
varianza 2/n si elgrande;
tamaoesmuestral
decir, es suficientemente
grande; es decir,
~ N , 2

x
ividida por el nmero de observaciones realizadas. Si denotamos
n2
x ~ N ,
estral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, n

o, de forma equivalente, aplicando la estandarizacin de una distribucin normal
da por o, de forma equivalente, aplicando la estandarizacin de una distribucin normal
o, de forma equivalente, aplicando la estandarizacin de una distribucin normal
x ~
N (0, 1) .
1 n x1 + x 2 + ... + x n
x = xi = . x n ~
n i =1 n N (0, 1) .

n
Esta cantidad estandarizada depende de dos parmetros desconocidos: la media
edida de tendencia central ms utilizada y de ms fcil
Esta cantidad
62 Pastor-Barriuso
poblacional R.
,estandarizada depende
que es el parmetro de dos
objeto deparmetros
inferencia, desconocidos:
y la desviacinlatpica
media
esponde al centro de gravedad de los datos de la muestra. Su
poblacional
poblacional ,, que
que es
es el
unparmetro
parmetroobjeto denecesario
auxiliar inferencia, y laconocer
para desviacin tpica
el error estndar en
es que est muy influenciada por los valores extremos y, en este
s probabilidad en los extremos (Figura 5.1). Los grados de libertad de
la estimacin de . Parece entonces lgico sustituir en la expresin anterior el valor
Estimacin por intervalo
t de Student determinan su dispersin: al aumentar los grados de
desconocido de por la desviacin tpica muestral s. Sin embargo, como s es un
uye la variabilidad y la distribucint de Student se aproxima a una
Estaestimador de que conlleva
cantidad estandarizada depende a sude vezdosunparmetros
error de muestreo, el estadstico
desconocidos: la media resultante
poblacional ( x,-que
mal estandarizada. es elCuanto
parmetro menorobjetoseade el inferencia,
tamao muestral y la n, mayor ser
desviacin tpica poblacional , que es un parmetro
auxiliar
)/(s/necesario para conocer
n ) presentar una mayor el error estndar en
imprecisin. Puede la estimacin
probarse que de .
la Parece entonces
distribucin lgico
de este
t de
sustituir en la expresin anterior el valor desconocido de por la desviacin tpica muestral s.
Sinestadstico
embargo, ya como sLa
no ser esnormal,
un estimador
distribucin sino tquede que aproximadamente
deStudent
seguir conlleva a su vez una
es una distribucin un error dealrededor
distribucin
simtrica muestreo,deel0 y de aspecto
una mayo estadstico resultante (x )/(s/ n ) presentar una mayor imprecisin. Puede probarse que la
distribucin
conocida comode este deestadstico
tparecido
Student al deconya nno
una 1ser normal,
- distribucin
grados sino que
de libertad
normal seguir por
y denotada
estandarizada, aproximadamente
tn-1,
aunque una
menos apuntada en el
ral es grande,s distribucin
facilitar unconocida
estimacin como t de Student
precisa de con n 1 grados de libertad y denotada por tn1,
centro y con ms probabilidad x ~ en los extremos (Figura 5.1). Los grados de libertad de
icho estadstico ser aproximadamente normal. En la Tabla 5del t n 1 .
s
una distribucin t de Student n determinan su dispersin: al aumentar los grados de
entan los percentiles de la distribucint de Student para distintos
La distribucin tlibertad,
de Student es una distribucin
disminuye la variabilidad simtrica y la alrededor
distribucin det0dey de aspecto
Student separecido
aproxima a una
ad. al de una distribucin normal estandarizada, aunque menos apuntada en el centro y con ms
probabilidad en los distribucin
extremos (Figura normal 5.1).estandarizada.
Los grados de Cuanto libertad menor sea el tamao
de una distribucin t demuestral
Studentn, mayor ser
determinan su dispersin: al aumentar los grados de libertad, disminuye la variabilidad y la
[Figura 5.1 aproximadamente
distribucin t de Student se aproximaaqu] a una distribucin normal estandarizada. Cuanto menor8sea t de
el tamao muestral n, mayor ser el error de la desviacin tpica muestral s y, en consecuencia,
la distribucin t de StudentStudent otorgar
otorgar una mayo dispersin al estadstico (x )/(s/ n ). Por el
unamayor
contrario, si el tamao muestral
6 De la Tabla 5 del Apndice se obtiene que el percentil 97,5 es grande, s facilitar
en unauna estimacin precisa de , de tal forma
que la distribucinelde dichomuestral
tamao estadstico ser aproximadamente
es grande, normal. En
s facilitar un estimacin la Tabla
precisa de 5 del
Apndice se presentan los percentiles
n t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente de la distribucin t de Student para distintos grados de
libertad. distribucin de dicho estadstico ser aproximadamente normal. En la Tabla 5 del
303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de
Ejemplo 5.6Apndice De la Tabla 5 del Apndice
se presentan los percentiles se obtiene que el percentil
de la distribucin 97,5 en
t de Student paraunadistintos
nes simtricas en 0, eldistribucin
percentil 2,5 t decoincide
Studentcon 5, 10 y 30 grados de libertad es respectivamente t2;0,975 =
conel2,correspondiente
4,303, t5;0,975 grados
= 2,571, t
de libertad.
10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de distribuciones
7,5 con signo opuesto; simtricas
es decir, en 0, el=percentil
t2;0,025 2,5 coincide
-4,303, t5;0,025 = -2,571, con el correspondiente percentil 97,5 con signo
t10;0,025
opuesto; es decir, t2;0,025 = 4,303, t5;0,025 = 2,571, t10;0,025 = 2,228 y t30;0,025 = 2,042. Por
= -2,042. tanto, elel95% central dedelaladistribucin t [Figura
de Student 5.1 con
aproximadamente
2, 5, 10 y 30 grados aqu] de libertad
tdistribucin
30;0,025 simtricatanto,
Por alrededor 95% de central
0 y de aspectodistribucint de
est comprendido entre 4,303, 2,571, 2,228 y 2,042, respectivamente. As, puede
nl estandarizada,
2, 5, 10 y 30 grados
aunqueobservarse
demenos
libertad queest
apuntadala comprendido
dispersin
en el deentre 4,303, t de Student disminuye al aumentar los
la distribucin
grados de libertad, aproximndose a una distribucin normal estandarizada (95% de los
Ejemplo 5.6 De la Tabla 5 del Apndice se obtiene que el percentil 97,5 en una
228 y 2,042,
extremos (Figura 5.1).valores
respectivamente. entreAs,
Los grados de1,96,
puede Ejemplo
libertad de 3.11).
observarse que la
distribucin t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente
de
an lasudistribucin
dispersin: t
al de Student
aumentar disminuye
los grados
5.3.2 Intervalo de confianza al aumentar
de para una losmedia
gradospoblacional
de
t2;0,975 = 4,303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de
a distribucint de Student
A partir de se
losaproxima
resultadosa anteriores
una puede construirse un intervalo de confianza para la media
poblacional. En general, la distribucionespor
estimacin intervaloenlleva
simtricas 0, elasociada
percentiluna coincide conoelnivel
2,5probabilidad de
correspondiente
uanto menor sea el tamaodenotada
confianza, muestral n,enmayor
trminosser porcentuales por 100(1 )%, que indica la cobertura del
parmetro poblacional. Aunque percentil en97,5
la prctica
con signo se utilizan
opuesto; 9 casi exclusivamente
es decir, los intervalos
t2;0,025 = -4,303, t5;0,025 = de
-2,571, t10;0,025
confianza al 95% ( = 0,05), t de nos referiremos aqu de forma genrica al intervalo de confianza
al 100(1 )% para la media = -2,228
poblacional. = -2,042. la
y t30;0,025Utilizando Por tanto, el 95%
aproximacin t decentral
Studentdeallaestadstico
distribucin t de
(x )/(s/ n ), se sigue que hay una probabilidad 1 de que dicho estadstico est
Student con 2, 5, 10 y 30 grados de libertad est comprendido entre 4,303,
ar un estimacin precisa de
2,571, 2,228 y 2,042, respectivamente. As, puede observarse que la
aproximadamente normal. En la Tabla 5 del
dispersin de la distribucin t de Student disminuye al aumentar los grados de
de la distribucint de Student para distintos Pastor-Barriuso R. 63
libertad, aproximndose a una distribucin normal estandarizada (95% de los

valores
Inferencia estadstica entre 1,96, Ejemplo 3.11).

libertad, aproximndose a una distribucin normal estandarizada (95% de los


5.3.2 Intervalo de confianza para una media f(x) poblacional
valores entre 1,96, Ejemplo 3.11).
A partir de los resultados anteriores puede construirse un intervalo de confianza para la
N(0, 1)
t
media poblacional.
5.3.2 Intervalo En general,para
de confianza la estimacin
una mediapor intervalo lleva asociada una 30
poblacional t10
t5
probabilidad nivel de confianza
A partir de loso resultados , denotada
anteriores en trminos
puede construirse un porcentuales por 100(1
intervalo de confianza - )%,
t2 para la

que indica
media la cobertura
poblacional. del parmetro
En general, poblacional.
la estimacin Aunque lleva
por intervalo en la asociada
prctica se
unautilizan casi

exclusivamente
probabilidad los intervalos
o nivel de confianza
de confianza , denotadaalen
95% ( = 0,05),
trminos nos referiremos
porcentuales aqu
por 100(1 - de
)%,

forma
que genrica
indica al intervalo
la cobertura de confianza
del parmetro poblacional. )% para
al 100(1 - Aunque enlalamedia poblacional.
prctica se utilizan casi

exclusivamente
Utilizando los intervalos
la aproximacin deStudent
t de confianza al 95% ( (=x0,05),
al estadstico - )/(s/
nos nreferiremos
), se sigue aqu de
que hay

forma
una genrica al1intervalo
probabilidad de dicho
- de que confianza al 100(1
estadstico - comprendido
est )% para la media
entrepoblacional.
los percentiles

/2 y 1 - /2
Utilizando la de una distribucin
aproximacin t de Student
t de Student con n 1( xgrados
al estadstico - )/(s/
de libertad, denotados
n ), se sigue que hay
-3 -2 -1 0 1 2 3

respectivamente
una probabilidadpor y tn-1,1-
1 - tn-1,de/2que dicho /2;estadstico
esto es,x est comprendido entre los percentiles
Figura 5.1 Funcin de densidad
1.2 MEDIDAS de la distribucin t de Student con
DE TENDENCIA 2, 5, 10 y 30 grados de libertad,
CENTRAL Figuray 5.1
fun-
cin de densidad normal estandarizada.
/2 y 1 - /2 de una distribucin
t de Student con n 1 grados de libertad, denotados

x central informan
Las medidasP t 1/2 de tendencia
, / 2 y<1 /2 de< t una acerca de cul es el valor ms representativ
/ 2 = 1 .t de Student con n 1 grados
comprendido entre los
respectivamente tn-1,/2 y tnn-1,1-
porpercentiles ;
/2 s esto es, distribucin
n 1,1
por tn1,/2 ; esto es,
de libertad, denotados respectivamente
de una
determinada n y tn1,1/2
variable o, dicho de forma equivalente, estos estimadores indican
a distribucin simtrica alrededor de 0 y de aspecto

al estandarizada, aunque menos se
Este resultado apuntada en
representa el
alrededor de qu valor
grficamente x enselaagrupan los datos observados. Las medidas de tendencia
P t n 1, / 2 < < t n 1,1 / 2 5.2.
Figura =1 Por
.la simetra de la
s
extremos (Figuradistribucin
5.1). Los grados central de

de libertad
t de Student, la
tn-1,de
/2 =muestra
-t n
sirven
n-1,1-/2 y la tanto
expresin para resumirpuede
anterior los resultados observados como para
rescribirse
Estecomo
nan su dispersin: alresultado
aumentar selos
representa
realizar
grados grficamente
de inferenciasenacerca la Figura de los5.2.parmetros
Por la simetra de la distribucin
poblacionales t de
correspondientes. A
Este resultado se representa grficamente en la Figura
Student, tn1,/2 = tn1,1/2 y la expresin anterior puede rescribirse como 5.2. Por la simetra de la
la distribucint de Student se aproxima continuacin
a una se describen los principales estimadores de la tendencia central de una
distribucin t de Student, tn-1,/2 = -tn-1,1-/2 y la expresin anterior puede rescribirse
x
Cuanto menor sea el tamao muestral n, variable.
mayor P ser
t n 1,1 / 2 < < t n 1,1 / 2 = 1 .
como s

n
t de Media aritmtica
1.2.1 s s
P x t n 1,1 / 2 < < x + t n 1,1 / 2 =1 .

Para despejar la media poblacional, se nmultiplica cada trmino n de la desigualdad por el error
x muestral
(x Para
estndar despejar
)/(s/ n )y alacontinuacin
media
La poblacional,
P tse
media 1resta
se< multiplica
,1 / 2 la
naritmtica, media
denotada< t n cada trmino
1 / 2 x,,=
1,por de. lacomo
resultando
se
1 define desigualdad
que la sumapor de el
cada uno de los
s
As, elestndar
intervalo de confianza muestrales
(IC) al
y a continuacin s 100(1 n- )% para la media
s depoblacional
xobservaciones viene
precisa de s/ nPvalores
ar un estimacinerror x t n 1,1 / 2
sedividida
resta la por
media muestral
el nmero
< < x + t n 1,1 / 2
, resultando
= 1 .
que
realizadas. Si denotamos
n n
determinado pormedia ndel
por5poblacional,
el tamao se muestral y porcada xi eltrmino
valor observado para el sujeto i-simo, i = 1, ..., n,
aproximadamentePara despejar
normal. En la Tabla multiplica de la desigualdad por el10
As, el intervalo de confianza (IC) al 100(1 )% para la media poblacional viene determinado por
de la distribucinAs,
t de el intervalo dedistintos
confianzavendra (IC) al 100(1por - )% spara la media poblacional viene
error Student
estndarparas/ n lay media
a continuacindada se resta la media muestral x , resultando que
x t n 1,1 / 2 ,
determinado por n
1 n x + x 2 + ... + x n 10
x = xi = 1 .
que depende tanto de la estimacin puntual x (valor n i =1 del intervalo) n como de su
s central
64 Pastor-Barriuso R.

.1 aproximadamente aqu] x t n 1,1 / 2 ,


n
error estndar s/ n . La media es la medida de tendencia central ms utilizada y de ms fcil
Estimacin por intervalo

tn-1

1.2 MEDIDAS DE TENDENCIA CENTRAL

La distribucin tLas
de Student
medidasesdeuna distribucin
tendencia centralsimtrica
informanalrededor
acerca dedecul
0 y es
deelaspecto
valor ms representativo
1-
parecido al de una de
distribucin normal variable
una determinada estandarizada,
o, dichoaunque menos
de forma apuntadaestos
equivalente, en elestimadores indican
a distribucin simtrica alrededor de 0 y de aspecto
centro y con ms probabilidad
alrededor deen losvalor
qu extremos (Figura
se agrupan los5.1).
datosLos grados deLas
observados. libertad de de tendencia
medidas
al estandarizada, aunque menos apuntada en el
una distribucin t de Student
central de determinan
la muestra sirven su dispersin:
tanto para alresumir
aumentar loslos grados de
resultados observados como para
/2
extremos (Figura 5.1). Los grados de libertad de /2
libertad, disminuyerealizar la variabilidad y la distribucin t de Student se
inferencias acerca de los parmetros poblacionales correspondientes. A aproxima a una
nan su dispersin: al aumentar los tn-1,/2grados de 0 tn-1,1-/2
distribucin normalcontinuacin
estandarizada. Cuanto menor
se describen seax el
los principales tamao muestral
estimadores n,
de mayor
la ser central de una
tendencia
la distribucint de Student se aproxima a una s
variable. n t de
Figura 5.2
uanto menor sea el tamao muestral n, mayor ser
Student otorgar
Figura 5.2una mayo muestral del estadstico (x )/(s/ n ).
Distribucin
1.2.1 Media aritmtica
t de
el tamao que muestral
depende Laes media
grande,
tanto de facilitar
s la estimacin
aritmtica, un estimacin
denotada puntual por x ,precisa
(valor
se define decomo
central dellaintervalo)
suma de cada como unodedesulos
error
DIDAS DE TENDENCIA CENTRAL
(x )/(s/ n .)
estndar
distribucin1.2 de MEDIDAS
dicho DE TENDENCIA
estadstico ser aproximadamente CENTRALnormal. En la Tabla 5 del
Los lmitesvalores muestrales
del intervalo estndividida
determinados por el nmero
por datosdemuestrales
observaciones realizadas. Sieldenotamos
y, en consecuencia, intervalo
didas
ar undeestimacin
tendencia central
precisainforman
de acerca de cul es el valor ms representativo
ApndiceLasde confianza
se presentan variar en funcin de la muestra seleccionada. El principio fundamental de la estimacin
medidas por de nloseltendencia
percentiles
tamao muestral de la informan
central distribucin
y por xi el t de Student
acerca
valor de cul es
observado para distintos
elpara
valor el ms
sujeto representativo
i-simo, i = 1, ..., n,
por intervalo radica en que, de todas las posibles muestras del mismo tamao de la poblacin de
determinada
aproximadamentevariablenormal.
o, dichoEn delaforma equivalente, estos estimadores indican
grados dereferencia,
libertad. el 100(1 Tabla
)% de5 los delintervalos resultantes incluir el parmetro poblacional. As, aunque
de una determinada
la media vendra variable o, dicho
dada por de forma equivalente, estos estimadores indican
no es posible saber si efectivamente un intervalo concreto incluye o no el parmetro desconocido, se
ordedelaqu valor se agrupan
distribucin t deuna
Studentlos datos paradel observados.
distintos Las medidas de tendencia
l estudio EURAMIC. tendr En cadaconfianzaunavalor de las 100(1 )% en que el nico intervalo disponible est entre aquellos que
alrededor de qu se agrupan los datos observados. Las medidas de tendencia
contienen dicho parmetro. [Figura En
5.1 otras palabras,1el nivel
aproximadamente n
dexconfianza
aqu] 1 + x 2 + ...de x n intervalo hace referencia a
+ un
de la muestra sirven tanto para resumir los resultados observados x = x i como = para .
mo la frecuencia con la cual el mtodo producenintervalos certeros y no a la probabilidad de que el
n observados
central de la muestra sirven tanto para resumir i =1 los resultados como para
intervalo obtenido en una muestra concreta incluya el parmetro poblacional.
inferencias acerca de los parmetros poblacionales correspondientes. A
.1 realizarobtenidas
inferencias a partir acercade los de controles
los parmetros del estudio EURAMIC.
poblacionales En cada una de
correspondientes. A las
s aproximadamente
Ejemplo aqu]
5.6
s Ejemplo De La la5.7
Tabla
media 5es del
la
En la Figura Apndice
medida de se obtiene
tendencia que
centralel percentil
ms 97,5
utilizada eny una
de ms fcil
acin = xsedescriben
2,262 los, principales estimadores de 5.3 se presentan
la tendencia centrallos ICde unaal 95% para la media poblacional del
10 10 colesterol
muestras,
continuacin HDL
el IC
se describen en
al 100
95% muestras
se calcul
los5,principales aleatorias
como
estimadores de tamao n =
de laestendencia 10 obtenidas
central de a partir
una de los
distribucin de Student
tinterpretacin. conCorresponde
2, 10 y 30algrados centro dede libertad
gravedad respectivamente
de los datos de la muestra. Su
. controles del estudio EURAMIC. En cada una de las muestras, el IC al 95% se calcul como
Apndice
s medias ysedesviaciones
tobtiene que tpicas
variable. el percentil muestrales.97,5 en una = 2,228 sy t = 2,042.sPor tratarse de
2;0,975 = 4,303, t5;0,975
principal =limitacin
2,571, t10;0,975
es
x quet 9;0est
, 975
muy30;0,975
=influenciada
x 2,262 por, los valores extremos y, en este
edia aritmtica 10 10
5, 10 y 30 grados x 1.2.1de libertad es respectivamente
tra se obtuvodistribuciones
= 1,20 Media simtricas
y scaso,
= aritmtica
0,30,
puede de talen 0,
no serelunpercentil
fiel reflejo 2,5 decoincide con el central
la tendencia correspondiente
de la distribucin.
a aritmtica, denotada por x y, se
donde s sondefinelas correspondientes
como la suma de medias
cada yuno desviaciones
de los tpicas muestrales. As, por ejemplo,
= 2,228 y t30;0,975 = 2,042.
donde x y Por
s son tratarse
las de
correspondientes medias
a0;0,975 percentil
media poblacional La media 97,5
de con
colesterol
en la aritmtica, signo
primera muestra HDL opuesto;
denotada es
se obtuvo decir,
por x = , set
1,20 =
y s =como
define
2;0,025 0,30,desviaciones
y
-4,303, lat5;0,025
de tal
suma =de
forma tpicas
-2,571,
que
cada launo muestrales.
testimacin
de los puntual de la
10;0,025

muestrales dividida por el


media nmero Ejemplo
poblacional de 1.4 En esteHDL
observaciones
de colesterol yrealizadas.
enresult
los sucesivos
Si
ser denotamos
1,20 ejemplos
mmol/l y sobre
su IC al estimadores
95% muestrales, se
1,20 2,2620,30/
el percentil 2,5 coincide
= -2,228 As,
y10 con
por el
tmuestrales correspondiente
ejemplo,
= -2,042. enPor la primera
tanto, elmuestra
95% se
central obtuvo la xdistribucin
de puede 1,20 y tsde
=afirmarse = 0,30, de tal
% 1,20 2,2620,30/ valores = (0,99;
30;0,025 (0,99; 1,41);
dividida
1,41); es decir,
es por a partir
el nmero de esta
de muestra
observaciones realizadas. con Siuna confianza
denotamos del 95%
tamao muestral y quexilaelmedia
por valor utilizarn
poblacional
observado los valores
del colesterol
para el del
sujeto colesterol
HDL
i-simo, HDL
se encuentra
i = 1, obtenidos
entre
..., n, en los 10
0,99 y 1,41 mmol/l. primeros sujetos del
o; es decir, t2;0,025
Student = -4,303,
forma 2, t5,
que 10lay=estimacin
-2,571, t10;0,025
puntual de la media poblacional de colesterol
4,303, HDL
ncon 30 grados de libertad est comprendido entre
5;0,025
afirmarse con una porconfianza
el tamao 95% queylapor xi el valor observado para el sujeto i-simo, i = 1, ..., n,
del muestral
a tanto,
vendraeldada por estudio European Study on Antioxidants, Myocardial InfarctionPastor-Barriuso
and Cancer R. of65
95% central
2,571, de
0,99
2,228 la distribucin
2,042, t de
L se encuentra la media
entre resulty y1,41
vendraser 1,20 respectivamente.
dadammol/l
mmol/l. por y su IC al 95% As, puede
1,20 observarse
2,2620,30/que 10la= (0,99; 1,41); es
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
s de libertaddispersin de1la distribucin
est comprendido n
entre x1+4,303,
x 2t de + x n disminuye al aumentar los grados de
+ ...Student
Inferencia estadstica

En este ejemplo ilustrativo, donde se conoce el verdadero valor de la media poblacional


= 1,09 mmol/l, puede comprobarse empricamente el significado del nivel de confianza
al 95%: 94 de los 100 intervalos calculados contienen efectivamente la media poblacional,
mientras que los 6 restantes no la contienen. Un IC particular puede o no incluir el
parmetro y, por tanto, carece de sentido decir que hay una probabilidad del 95% de que
se encuentre dentro de un intervalo concreto.

La estimacin por intervalo facilita un rango de valores verosmiles o compatibles con la


media poblacional , cuya amplitud depende de:
yy El nivel de confianza 100(1 )%. Cuanto mayor sea la confianza deseada para un
intervalo, mayor ser la amplitud del mismo.

0,6 0,8 1 1,2 1,4 1,6


Nivel medio de colesterol HDL (mmol/l)
Figura 5.3

Figura 5.3 Estimaciones puntuales (crculos) e intervalos de confianza al 95% (lneas horizontales) para
la media poblacional del colesterol HDL en 100 muestras aleatorias de tamao n = 10 obtenidas a partir de
los controles del estudio EURAMIC. La lnea vertical en trazo discontinuo corresponde al verdadero nivel
medio = 1,09 mmol/l de colesterol HDL.

66 Pastor-Barriuso R.
El error estndar de la estimacin SE( x ) = s/ n . Cuanto mayor sea el error de la
esto es, la media
MEDIDAS DE TENDENCIA poblacional del colesterol HDL se encuentra entre 0,89 y 1,51
CENTRAL
se calculara como
estimacin,
mmol/l con unamayor confianza ser del la amplitud
99%. Notar del intervalo. Es decir,eslams
que este intervalo amplitud
amplio deque
un el
Contraste de hiptesis

medidas de tendenciaEjemplo 5.8 En la acerca


central informan primerademuestra cul s es del el valor
ejemplo 0,30 el IC al 99% ( = 0,01)
msanterior,
representativo
intervalo de confianza x t 9;0aporta, 995 una = 1medida
,20 3,250 de la precisin = (0,89;de la1,51);
estimacin.
correspondiente intervalo al 95% 10 (0,99; 1,41). 10
na determinada variable se o, dicho
calculara
Ejemplo de
5.8como forma equivalente, estos estimadores
En la primera muestra del ejemplo anterior, el IC al 99% ( = 0,01) se indican
calculara como
dedor de qu valor se agrupan Ejemplo
esto es,losla5.9
datosEn observados.
media una muestraLas
poblacional aleatoria
medidas de tamao
de tendencia n =encuentra
100 de los controles del
El error estndar de la estimacin s delSE( colesterol
x ) = s/ 0HDL n,30 se
. Cuanto mayor sea entreel 0,89
erroryde 1,51
la
x t 9;0,995 = 1,20 3,250 = (0,89; 1,51);
EURAMIC
ral de la muestra sirven mmol/l
tanto para resumir se obtuvo x =10del
los resultados 1,09 s = 0,31,que
yobservados 10
resultando
como paraun IC al es 95% para la que
media
estimacin,con una
mayor confianza
ser la amplitud 99%. del Notar
intervalo. Es estedecir,
intervalo
la amplitud ms deamplio
un el
esto es, la media poblacional del colesterol HDL se encuentra entre 0,89 y 1,51 mmol/l
izar inferencias acerca esto poblacional
decorrespondiente
los la
es, parmetros
media depoblacional
poblacionales
intervalo al
del 95% correspondientes.
(0,99;
colesterol 1,41).
HDL se esAms amplio
encuentra
con una
intervalo confianza
de confianzadel 99%.
aporta Notar
una que
medida este de intervalo
la precisin de la entre 0,89
que
estimacin. y 1,51
el correspondiente
intervalo al 95% (0,99; 1,41).
tinuacin se describenmmol/l los principales estimadores
con una confianza delde 99%.sla tendencia
Notar quecentral 3de1 una es ms amplio que el
este0,intervalo
El error latla 97x 1,09x ) 1=,9s/84 n =
SE( = (1,03; 1,15).
yy El error
Ejemplo 5.9estndar
estndar
En una dede muestra estimacin
99estimacin
;0, 5
100 de tamao n 10
aleatoria =. Cuanto
Cuanto
100 de losmayor
mayor seaseael del
controles error
el de la
error de la
able. estimacin,
correspondiente mayor ser la amplitud
intervalo al 95% (0,99; del intervalo.
1,41). Es decir, la amplitud de un intervalo de
confianza
EURAMIC aporta
estimacin, una medida
mayor
se obtuvo ser
x = la1,09 de la
y sprecisin
amplitud de la estimacin.
del intervalo.
= 0,31, resultando Esun decir,
IC alla95% amplitud
para la demedia
un
1 Media aritmtica As, a partir de esta muestra de mayor tamao, se concluye que la media
El intervalo
error
Ejemplo
poblacional deEn
estndar
5.9de confianza
de
una lamuestra aporta
estimacin una
SE(medida
aleatoria xde s/denla. nCuanto
) =tamao precisin
= 100 de de
mayorloslacontroles
estimacin.
sea el error
del de la
EURAMIC
media aritmtica, denotada poblacional
se obtuvo por x ,=se1,09 del colesterol
definey s =como HDL
0,31,laresultando se
suma de cada encuentra
un IC uno entre
al de
95% 1,03 y 1,15 mmol/l
lospara la media poblacional decon un
estimacin, mayor ser la amplitud del intervalo. Es decir, la amplitud de un
s Este 0,31 n = ms
ores muestrales dividida Ejemplonivelelde
por 5.9 En
confianza
nmero una
x de del muestra
95%.
t observaciones
99; 0 , 975
aleatoria
,intervalo
= 1realizadas. de tamao
09 1,984 es
Simucho
denotamos 100 de
= (1,03; los controles
preciso
1,15). que los del
intervalo de confianza aporta100 10
una medida de la precisin de la estimacin.
intervalos
EURAMIC representados
se
n el tamao muestral y por xi el valor observado para obtuvo x en
= laelFigura
1,09 y s = 5.3
sujeto 0,31, para
i-simo, muestras
resultando unde
i = 1, ..., n,IC al 95%n para
tamao = 10.la media
As, a partir de esta muestra de mayor tamao, se concluye que la media poblacional del
As, a partir
colesterol HDL de esta
se muestra de
encuentra mayor tamao, se concluye unque la media
media vendra dada porEjemplo poblacional
5.9 Ende una muestra entre aleatoria 1,03de y 1,15
tamao mmol/ln = 100con de nivel
los de confianza
controles del del 95%.
Este
Como intervalo
se ver es msmuchoadelante, ms precisoel clculo quedelos losintervalos
intervalosrepresentados
de confianzaen eslasimilar
Figurapara5.3 para
poblacional
muestras de del
tamaocolesterol
n = 10. HDL se encuentra entre 1,03 y 1,15 mmol/l con un
EURAMICn se obtuvo x = 1,09 ys s = 0,31, resultando 0,31unalIC100(1 al 95% para la media
1
todos los parmetros. x1xEn xt 99
+ general,
2 ;+ ... + elx nintervalo
= 1 , 09 de confianza
1,984 = (1,03; - )% para un
1,15).
Como nivel x de
se ver
= confianzax i = del 95%. Este intervalo
n i =1ms
0 , 975
100
. es mucho 10 ms preciso que los
poblacional de adelante,nel clculo de los intervalos de confianza es similar para todos
los determinado
parmetros. parmetro
En general, poblacional
el intervalo se construye
de confianza como al 100(1 )% para un determinado
parmetrointervalos representados
poblacional seesta
construye en la Figura
como 5.3 para muestras de tamao n = 10.
As, a partir de
La media es la medida de tendencia central ms utilizada muestra s de mayor tamao,
y de ms fcil 0,31 se concluye que la media
x t 99;0,975 estimador = 1,09 1,984
puntual x1/2 SE, = (1,03; 1,15).
poblacional del colesterol 100
HDL se encuentra 10
entrede 1,03 y 1,15 mmol/l conpara
un
Como se ver ms adelante,
rpretacin. Corresponde al centro de gravedad de los datos el clculo de losdeintervalos
la muestra. confianza
Su es similar
donde x1/2 denota el percentil 1 /2 de la distribucin muestral del estimador.
nivel de confianza delpor 95%. Este intervalo essemucho msque preciso que 13
cipal limitacintodos
es queAs,
losesta partir
parmetros.
muy de esta muestra
En general,
influenciada de
el mayor
losintervalo
valores tamao,
de confianza
extremos concluye
y, en al este
100(1 )%
- la paralos
media un
5.4 CONTRASTE DE HIPTESIS
o, puede no ser undeterminado intervalos
fielpoblacional
reflejo de ladel
parmetro representados
colesterol
poblacional
tendencia HDL
central en sela Figura
seconstruye
de encuentra
la 5.3como
para
distribucin. entremuestras
1,03 y 1,15 mmol/lncon
de tamao = 10.un
En ocasiones, el inters de la investigacin se centra no tanto en estimar un parmetro desconocido,
sino en niveldilucidar si dichodelparmetro
de confianza 95%. Esteesintervalo compatible con unms
es mucho valor predeterminado.
preciso que los A partir de
Como
conocimientos se ver
previos mso adelante,
mediante estimador
un el puntual
clculo
razonamiento de los x1- /2 SE,
lgico,
intervalos
se puedende confianza
elaborar es similar
hiptesis o para
conjeturas
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
sobre intervalos
el fenmeno o parmetroen
representados objetola Figurade estudio5.3 para (pormuestras
ejemplo,deestablecer
tamao nla= hiptesis
10. de que la
todos
media de los
una parmetros.
poblacin En
toma general,
un valor el intervalo
determinado).
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del de Laconfianza
validez al
de 100(1
estas - )%
hiptesis para un
poblacionales
13 ha
de ser contrastada estadsticamente a partir de la informacin disponible en la muestra. Las tcnicas
queComo
estudio European permiten
determinado
Study onevaluar
se ver parmetro el grado
ms adelante,
Antioxidants, poblacionaleldeclculo
Myocardial compatibilidad
se de construye
Infarction de
como
los intervalos
and losCancer
datos
de muestrales
confianza
of con una
es similar parahiptesis
predeterminada se conocen genricamente con el nombre de tests (pruebas o contrastes) de hiptesis.
todos los parmetros.
the Breast (EURAMIC), un estudio Enmulticntrico
general,estimador el intervalo
de casos dey confianza
puntual controles
x al 100(1 - )% para un
realizado
SE,
1-/2
5.4.1 Formulacin de hiptesis
entre 1991 y determinado
1992 en ochoparmetro poblacional
pases Europeos se para
e Israel construye como
evaluar el efecto de los
Los tests de hiptesis parten del planteamiento de una hiptesis nula, denotada por H013 , que
representa el valor preestablecido del parmetro poblacional.
estimador puntual x1-/2 SE, Esta hiptesis nula se aceptar si
5
los datos muestrales no aportan suficiente evidencia en contra de la misma. Por el contrario, si
se cuenta con pruebas suficientes para contradecir la hiptesis nula, sta se rechazar en favor
de una hiptesis alternativa, denotada por H1, que corresponde generalmente a la negacin 13 de la

Pastor-Barriuso R. 67
tratamiento;
Ejemplo 5.10esEn
decir, la presin
un estudio paraarterial medialade
determinar la poblacin
eficacia tratada con el
de un frmaco
Inferencia estadstica

frmaco T es igual
antihipertensivo, a la medialade
se compara la poblacin
presin arterial no
de tratada P.deLapacientes
un grupo hiptesistratados

alternativa
hiptesis
con nula.
dichoEnsera,
estepor
frmaco el la
punto,
con contrario,
cabe que las
de unincidir
grupo presiones
en pacientes
de arteriales
que el trmino
tratados medias
aceptar
con ladehiptesis
placebo. ambas
La nula no
implica que dicha hiptesis sea efectivamente cierta, sino que se carece de evidencia suficiente
poblaciones
para rechazarla. son
Como
hiptesis nula msdistintas.
se ver As,
natural, ms eladelante,
en estecontraste de
caso, eslas hiptesis de
la hiptesis quedara
nunca formulado
pueden
no efecto como
del ser corroboradas
completamente, quedando siempre un margen o probabilidad de error.
tratamiento; es decir, la presin arterial H0: media
T = P,
de la poblacin tratada con el
Ejemplo 5.10 En un estudio para determinar la eficacia de un frmaco antihipertensivo,
se compara
frmaco la presin
T es igual a laarterial
mediadedeunlaH grupo de pacientes
poblacin tratados
no tratada P. Lacon dicho frmaco con la
hiptesis
1: T P.
de un grupo de pacientes tratados con placebo. La hiptesis nula ms natural, en este caso,
es la hiptesis
alternativa sera,depornoelefecto del que
contrario, tratamiento; es decir,
las presiones la presin
arteriales mediasarterial media de la
de ambas
La hiptesis nula se aceptar a no ser que los resultados del ensayo clnico
poblacin tratada con el frmaco T es igual a la media de la poblacin no tratada P. La
hiptesis alternativa
poblaciones sera, As,
son distintas. por el contrario,
contraste de quehiptesis
las presiones arteriales
quedara medias
formulado de ambas
como
muestren una gran diferencia entre los grupos que resulte poco compatible
poblaciones son distintas. As, el contraste de hiptesis quedara formulado como con

una ausencia de efecto del tratamiento. H0 : T = P ,


H1 : T P .
Supongamos hipotticamente que el grupo control del estudio EURAMIC
La hiptesis nula se aceptar a no ser que los resultados del ensayo clnico muestren una
sentidos.
granEndiferencia
algunas
constituye lanulacircunstancias,
entre losa grupos
poblacin donde
estudio. que
Para lascontrastar
desviaciones
resulte poco si la de la hiptesis
compatible
media con unanula en de efecto
ausencia
poblacional del
La hiptesis
del tratamiento. se aceptar a no ser que los resultados del ensayo clnico
algn sentido carecen de importancia o son simplemente inconcebibles, es posible
colesterol
Supongamos
muestren HDL
una esdiferencia
gran igual a unentre
hipotticamente determinado
que ellosgrupo
grupos valor,
control pongamospocopor
del estudio
que resulte ejemplo 1con
EURAMIC
compatible constituye la
poblacin a estudio. Para contrastar si la media poblacional del colesterol HDL es igual
formular un contraste unilateral, aceptando como evidencia contra H0 nicamente las
mmol/l,
una el testdedeefecto
a un ausencia
determinado hiptesis
valor, se formulara
pongamos
del por ejemplo
tratamiento. como1 mmol/l, el test de hiptesis se formulara
como
diferencias en un sentido.
Supongamos hipotticamente que el H grupo control del estudio EURAMIC
0 : = 1,
H1 : 1.
constituye
Ejemplo 5.11la poblacin
En el estudio a estudio. Para contrastar
de la eficacia si la antihipertensivo,
del frmaco media poblacionalsedel formul
La eleccin entre ambas hiptesis depender de los resultados obtenidos en una muestra
colesterol
de los
una HDL
controles
hiptesis delesestudio
igualbilateral
alternativa a EURAMIC.
un determinado
H1: T Pvalor, pongamos
. En este caso, sepor ejemplo
admite que 1la
La eleccin entre ambas hiptesis depender de los resultados obtenidos en una
En mmol/l,
evidenciaelen
testcontra
los ejemplos de hiptesis
de la se
anteriores, se
haformulara
hiptesis como
nula puede
planteado provenir alternativa
una hiptesis tanto por unbilateral;
efecto nocivo
es decir, se
muestra de los controles del estudio EURAMIC.
aceptan como evidencia contra la hiptesis nula las diferencias en ambos sentidos. En algunas
circunstancias, donde(las
del tratamiento T> desviaciones
P) como por la de la hiptesis
Heficacia
0: = 1,
T <algn
nula (en
del mismo P). Sisentido
en fasescarecen de
importancia o son anteriores,
En los ejemplos simplemente inconcebibles,
se ha planteado una eshiptesis
posible formular
alternativaunbilateral
contraste; esunilateral,
aceptando como
previas del evidencia
ensayo clnico contraseHha
0 nicamente
H : las
comprobado 1.ladiferencias
ausencia deenefectos
un sentido.
secundarios
1
decir, se aceptan como evidencia contra la hiptesis nula las diferencias en ambos
del tratamiento,
Ejemplo la posibilidad
5.11 En el estudio de delaque la presin
eficacia arterial media
del frmaco de los tratados
antihipertensivo, sea
se formul una
La eleccin entre ambas hiptesis depender de los resultados obtenidos en
hiptesis alternativa bilateral H1: T P. En este caso, se admite que la evidencia en una
superior
contra dea la media de los
hiptesis nulanopuede
tratados (T > tanto
provenir P) carecera
por unde sentido
efecto y slodel
nocivo podra
tratamiento
muestra de los controles del estudio EURAMIC. 15
(T>P) como por la eficacia del mismo (T < P). Si en fases previas del ensayo clnico
explicarse por variabilidad
se ha comprobado la ausenciaaleatoria. En talsecundarios
de efectos caso, cabradel plantearse el siguiente
tratamiento, la posibilidad de
que la presin arterial media de los tratados sea superior a la media de los no tratados
En contraste
los ejemplos anteriores,
de hiptesis se ha planteado una hiptesis alternativa bilateral; es
(T> P) carecera de unilateral
sentido y slo podra explicarse por variabilidad aleatoria. En tal
caso, cabra plantearse el siguiente contraste de hiptesis unilateral
decir, se aceptan como evidencia contra la hiptesis nula las diferencias en ambos
H0 : T = P ,
H1 : T < P ,
15
donde slo se considera como alternativa a H0 la posibilidad de que el tratamiento
antihipertensivo sea eficaz.
donde slo se considera como alternativa a H0 la posibilidad de que el tratamiento

68 antihipertensivo
Pastor-Barriuso R. sea eficaz.

Los contrates bilaterales son ms conservadores que sus correspondientes contrates


Contraste de hiptesis
1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cul es el va


Los contrastes bilateralesDE
1.2 MEDIDAS sonTENDENCIA
ms conservadoresCENTRAL que sus correspondientes contrastes
unilaterales, dado que aquellos contemplan desviaciones de H0 en cualquier sentido. En la
de una determinada variable o, dicho de forma equivalente, estos
mayor parte de las aplicaciones 1.2 prcticas seDE
MEDIDAS utilizan hiptesis CENTRAL
TENDENCIA alternativas bilaterales, ya que
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
resulta imposible excluir con absoluta certeza diferencias en alguno de los dos sentidos. As,
alrededor de qu valor se agrupan los datos observados. Las medi
todos los contrastes de hiptesis planteados a lo largo de este texto estn basados en hiptesis
de una determinada variablede
Las medidas o, tendencia
dicho de forma
centralequivalente, estos de
informan acerca estimadores
cul es el indican
valor ms represen
alternativas bilaterales.
central de la muestra sirven tanto para resumir los resultados obse
alrededor de qu de valor se agrupan los
una determinada datos o,
variable observados. Las medidas
dicho de forma de tendencia
equivalente, estos estimadores indi
realizar
5.4.2 Contraste estadstico para la media de una poblacin inferencias acerca de los parmetros poblacionales corres
central de la muestra sirven
alrededor tantovalor
de qu paraseresumir
agrupan loslos
resultados observados
datos observados. Lascomo para de tendencia
medidas
En este apartado se discuten los conceptos continuacin
bsicos para se la describen
realizacinlose principales
interpretacin de un de la tenden
estimadores
contraste de hiptesis bilateral
realizar inferencias sobredelalamedia
acerca
central de los de
muestra una poblacin.
parmetros
sirven Esto
poblacionales
tanto para es, correspondientes.
resumirselos
pretende contrastar
resultados A
observados como pa
la hiptesis nula H0: = 0 frente a la hiptesis alternativa bilateral H1: 0, donde 0 es un
variable.
valor predeterminado de laserealizar
continuacin media poblacional.
describen El contraste
los principales
inferencias acerca de otros
estimadores
de de parmetros,
los parmetros la tendencia as como
central
poblacionales delauna
correspondientes. A
comparacin de parmetros entre distintas poblaciones, se presentar en temas posteriores.
1.2.1 Media aritmtica
La eleccinvariable. continuacin
entre las hiptesis se describen
nula y alternativa los principales
depender estimadores
de los resultados de la tendencia
obtenidos en la central de u
muestra o, ms concretamente, de la compatibilidad La media aritmtica, de la media muestral
denotada por x ,con el valor
se define como la suma de
predeterminado 1.2.10Media variable.
. Comoaritmtica
la media muestral es un estimador sujeto a error, el objetivo es
determinar si laCENTRAL
EDIDAS DE TENDENCIA variabilidad inherente al muestreo valoresconstituye
muestralesuna dividida por el probable
explicacin nmero de paraobservaciones
la realiz
diferencia observada
La mediaentre la media
aritmtica,
1.2.1 muestral
denotada
Media por x ,yseeldefine
aritmtica valorcomo predeterminado
la suma de cada 0 deuno la de medialos
poblacional. Para ello, se calcula la probabilidad por n el de tamao
que bajomuestral y por xi el
la hiptesis valor
nula, unaobservado
media para el sujeto
edidas de tendencia
muestralcentral
inferior oinforman
igual
valores
difiera que
tanto acerca
o ms
se La
muestrales de
rechazacul laes
0 que
dividida
demedia el valor
hiptesis
elpor
aritmtica, ms
nula
el nmero
valor representativo
o, de observaciones
observado
denotada forma
de x .,equivalente,
por Esta
se define se afirma
realizadas.
probabilidad
como que
Si conoce
se
la suma denotamos
de cada uno de los
como valor P del contraste de hiptesis y determina la media vendra el grado dada por
de compatibilidad de los datos
determinada variable
muestrales o, dicho
porde
los resultados
con nson
la forma
el tamao
hiptesisequivalente,
estadsticamente
muestral
valores Si yestos
nula. muestrales por estimadores
significativos;
este xvalor
i el valor
divididaP en
es indican
caso
observado
por el contrario,
elevado,nmero para
los el
desi P es
sujeto
datos superior
i-simo,
observaciones
muestrales 1, ..., n, Si denotam
arealizadas.
i sern
=
compatibles con el valor 0 de la media poblacional, careciendo as de evidencia 1 n para rechazar
x1 + x 2 + ... + x n
dor de qu valorlasehiptesis
seagrupan loshiptesis
aceptanula.
la datos
media observados.
vendra
nula,
por dada
n Las
por
concluyendo
el tamaomedidas que de
los
muestral tendencia
Por el contrario, si el valor P es pequeo,i la media muestralresultar
resultados
y por x eldelvalortest no x
son
observado= x i =el sujeto
para pocoi-simo, i. = 1, .
n i =1 n
compatible con el valor preestablecido 0, concluyendo entonces que los datos aportan suficiente
l de la muestra sirven tanto para
estadsticamente resumir los resultados
significativos.
la media observados
vendra Endada como para
evidencia para rechazar dicha hiptesis. n por cuanto menor sea el valor P, menos
1general, x + x + ... + x n
compatibles sern los datos con la hiptesis x =nula.La x i = 1es la 2medida de
media .tendencia central ms utilizada y de
r inferencias acerca de losconocer
Para parmetros poblacionales
el valor P del contraste es npor
correspondientes. A
i =1tanto necesario n calcular la probabilidad
La decisin de rechazar la hiptesis nula se basa en la definicin 1 n de un x umbral
+ x 2 + ... + xn
preestablecido
o nivel
uacin se describen losde significacin
principales , tradicionalmente
estimadores de la tendencia
interpretacin.
= central
x
0,05. Sideeluna
=
valor
n

Corresponde x i = 1 al centro
P es inferiorno igual
.
de gravedad
que se de los datos
de que las mediasLa media de todaslalas posibles muestras de tamao inutilizada
=1 difieran tanto o ms de 0
rechaza la hiptesis nula o, es de formamedida de tendencia
equivalente, se afirmacentralquemslos resultados yson
de estadsticamente
ms fcil
significativos; en caso contrario, si P es superior principal a limitacin
se acepta la eshiptesis
que est muy nula,influenciada
concluyendopor los valores e
le.
que el valor observado deCorresponde
interpretacin. xLa, asumiendo
media al
es
que los resultados del test no son estadsticamente significativos.
que
centro
la la media
medida de de poblacional
gravedad
tendencia de los
central
es datos. Bajo
0ms de la muestra.
utilizada y de Su ms fcil
caso, puede no ser un fiel reflejo de la tendencia central de la dist
Media aritmtica Para conocer
hiptesis nula elHvalor
principal 0 : =P del
limitacin
0
contraste
es que
interpretacin.
, las medias es
est por
muy tanto
Corresponde
muestrales senecesario
influenciada
al centro
distribuirn calcular
por los la probabilidad
valores
de gravedad
alrededor deextremos
de lostal
0, de
de
y, en
datos queestela muestra. Su
de
las medias de todas las posibles muestras de tamao n difieran tanto o ms de 0 que el valor
observado
dia aritmtica, denotada
forma porque xsus
decaso,
,,asumiendo
sedesviaciones
definenocomo
puede que lalamedia
principal suma
serestandarizadas
un fiel poblacional
de cada
reflejo
limitacin deesla Ejemplo
uno es los
deest
tendencia
que 1.4
0. Bajo
muy En la
central este dey la
hiptesis
influenciada endistribucin.
los
nulasucesivos
por Hlos
0: = ejemplos
valores 0, las
extremossobre
y, estim
en e
medias muestrales se distribuirn alrededor de 0, de tal forma que sus desviaciones estandarizadas
s muestrales dividida por el nmero de observaciones caso, puederealizadas.no ser un fiel utilizarn
reflejolos
Si denotamos de valores
la tendencia del colesterol
central deHDL obtenidos en los 1
la distribucin.
Ejemplo 1.4 En este y en x sucesivos
los 0 ejemplos sobre estimadores muestrales, se
t=
el tamao muestral y por xi el valor observado para el sujeto i-simo, s estudioi = 1,European
..., n, Study on Antioxidants, Myocardial Infar
utilizarn los valores Ejemplo del1.4colesterol
En esten HDL y en los obtenidos
sucesivos en ejemplos
los 10 primeros sujetos del muestra
sobre estimadores
ia vendra dadaseguirn
por the Breast (EURAMIC), un estudio multicntrico de casos
aproximadamente una distribucin t de Student con n 1 grados de libertad (Apartado
seguirn
5.3.1). estudio
aproximadamente
Una vez European
calculado el valor Study
utilizarn
una distribucin on
los
de este estadstico Antioxidants,
valores
t de Student tdel Myocardial
colesterol
con
a partir 1 HDL
nde- los grados Infarction
datos obtenidos
de and
libertad
observados en los Cancer
en10 of
la primeros sujet
entre 1991 y 1992 en ocho pases Europeos e Israel para eva
1 n P delx1contraste
muestra, el valor + x 2 + ...vendr
+ x n determinado por el rea bajo la curva de la distribucin
=
parax aquellos
tn1 (Apartado
the Breast
x i = Una vez calculado
5.3.1). (EURAMIC),
estudio un
European
. el valor de esteestudio Studymulticntrico
on Antioxidants,
estadstico de casos
t a partir y controles
Myocardial
de los realizadoand Cance
datos Infarction
n i =1 valores tanto n o ms distantes de 0 que el valor observado de t (esto es,
desviaciones de 0 mayores o iguales que la observada en cualquiera de los dos sentidos). En la
observados
Figura en laentre
5.4 se representa
1991 el
muestra, y 1992
grficamentevalor en
the Breastocho
Peldel pases Europeos
(EURAMIC),
contraste
clculo del valorvendr un eestudio
Israel para
determinado
P para este contraste
evaluar
multicntrico
por elderea elde
efecto
bajo
hiptesis.
casosde los
y controles real
media es la medida de tendencia central ms utilizada y de ms fcil
la curva de la distribucin tn-1 para entreaquellos
1991 y 1992 valores en tanto
ocho opases Europeosde
ms distantes e Israel
0 que parael evaluar el efecto de
Pastor-Barriuso R. 69 5
etacin. Corresponde al centro de gravedad de los datos de la muestra. Su
valor observado de t (esto es, desviaciones de 0 mayores o iguales que la observada en
pal limitacin es que est muy influenciada por los valores extremos y, en este
Inferencia estadstica

x 0
Distribuci n de t = bajo H 0 : = 0
s
n
tn-1

1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan


P/2 acerca de cul es el valor ms representativo
P/2

de una determinada variable o, dicho de forma equivalente, estos estimadores indican


-t 0 t
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia (valor observado)
MEDIDAS DE TENDENCIA CENTRAL Figura 5.4

central de la muestra
Figura sirven tanto
5.4 Valor para elresumir
P para losbilateral
contraste resultados
de la observados
media de unacomo para
poblacin.
medidas de tendencia central informan acerca de cul es el valor ms representativo
realizar inferencias acerca de los parmetros poblacionales : = 1,
H0correspondientes. A
Ejemplo 5.12 Supongamos que se pretende contrastar si la media poblacional del
na determinada variable o, dicho de forma equivalente, estos estimadores indican
colesterol
continuacin se describen HDL en los
los principales controles del
estimadores de laHEURAMIC es igualdea una
: 1. central
1tendencia 1 mmol/l mediante el test de
hiptesis bilateral
edor de qu valor se agrupan los datos observados. Las medidas de tendencia
variable.
Para ello, se obtiene una muestra de H 0 : = 1,
tamao n = 10 donde la media y desviacin
al de la muestra sirven tanto para resumir los resultados observados H1 : 1. como para
1.2.1 Media aritmtica tpica resultaron ser x = 1,20 y s = 0,30 mmol/l. A partir de estos datos se calcula
zar inferencias acercaPara
de los parmetros
ello, se obtiene poblacionales
una muestracorrespondientes.
de tamao n = 10Adonde la media y desviacin tpica
La media aritmtica, resultaron
denotada
el estadstico por x ,=contraste
ser del se1,20 ys=
define 0,30lammol/l.
como suma de A cada
partiruno
de estos
de losdatos se calcula el estadstico
Para
nuacin se describen del ello, se obtiene
los contraste
principales una muestra
estimadores de tamaocentral
de la tendencia n = 10 de donde
una la media y desviacin
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
ble. tpica resultaron ser x = 1,20 xy ,20 1 A partir de estos datos se calcula
s = 00,301mmol/l.
t= = = 2,11,
por n el tamao muestral y por xi el valor observado para s 0,30 i-simo, i = 1, ..., n,
el sujeto
el estadstico del contraste n 10
Media aritmtica
la media vendra dadaque pordetermina la diferencia estandarizada (dividida por el error estndar) entre la media
que determina
por x ,yse
muestral ella diferencia
valor predeterminadox 0 cada
estandariza 1 de
1,20 uno
(dividida porlos
el error estndar) entre la
edia aritmtica, denotada define como t =la suma de =0. La distribucin
= 2,11,muestral de este estadstico bajo
la hiptesis 1nula n H : = 1 seguir s 0,30
0 x1 + x 2 + ... + xaproximadamente una t de Student con 9 grados de
n1 n n
es muestrales dividida media
por el (n
libertad x =
muestral
nmero x
= dex
10 y=el valor
i observaciones predeterminado
1 = 9). nAs, sirealizadas..
la hiptesis 10
Si. La distribucin
fuera ciertamuestral
denotamos
0 nula (esto es, de este
si la verdadera
i =1
media poblacional fuera 1 mmol/l), la probabilidad de obtener una muestra de 10 sujetos
el tamao muestral ycon poruna
que xi elmedia
estadstico
determinavalor
bajola deobservado
hiptesispara
ladiferencia
colesterol nulaelHsujeto
superior 0: o
estandariza igual
i-simo,
a 1,20ipor
=(dividida
1 seguir =mmol/l
1,el..., n,
aproximadamente
(mayor
error una
o igual
estndar) tdesviacin
entredela que
La media es la medida de tendencia
la observada por lacentral
derecha)msoutilizada
inferior oy de msa fcil
igual 0,80 mmol/l (mayor o igual desviacin
edia vendra dada porquemedia la observada
Student con 9 grados
muestral xpor
y ella izquierda)
devalor
libertad (nsera
- 1 = 10 - 10.=La
predeterminado 9).distribucin
As, si la hiptesis
muestral nula fuera
de este
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
cierta (esto es, sixla +verdadera + media
x n H0: poblacional
1 n bajo
estadstico x 2 + ... nula
la1 hiptesis = 1 seguirfuera 1 mmol/l), la probabilidad
aproximadamente una t de
principal limitacin es que x =est
n
muy
x i = influenciada
n
por los
. valores extremos y, en este
de obtener una muestra de 10 sujetos con una media de colesterol superior o igual
70 Pastor-Barriuso R. i =1

caso, puede no ser unStudent con de


fiel reflejo 9 grados de libertad
la tendencia central(n de- 1la= distribucin.
10 - 1 = 9). As, si la hiptesis nula fuera

a media es la medida ade 1,20


cierta
mmol/l (mayorms
tendencia
(esto es,central
o igual
si la verdadera
desviacin
utilizada
media y de quefcil
ms
poblacional
la observada por la derecha) o
fuera 1 mmol/l), la probabilidad
a 1,20 mmol/l (mayor o igual desviacin que la observada por la derecha) o

inferior o igual a 0,80 mmol/l (mayor o igual desviacin que la observada por la
Contraste de hiptesis

izquierda) sera

P = P( x 1,20 | H0 ) + P( x 0,80 | H0 )

x 0 1,20 0 x 0 0,80 0
= P H 0 + P H0
s s s s
n n n n

P(t9 2,11) + P(t9 2,11) = 2P(t9 2,11) = 0,064,


que corresponde al rea bajo la curva de la distribucin t9 para valores superiores a 2,11
(valor observado del estadstico) o inferiores a 2,11. Notar que el valor exacto de P se
que corresponde
ha obtenido por alordenador.
rea bajo laNocurva de la distribucin
obstante, utilizando lat9 para
Tablavalores
5 del superiores
Apndice, puede
S DE TENDENCIAcomprobarse
CENTRAL que el estadstico t = 2,11 est comprendido entre los percentiles t9;0,95 =
a1,833
2,11 y(valor
t9;0,975 observado
= 2,262, dedel estadstico)
lo cual se deduceo inferiores a -2,11.
la desigualdad Notar
0,025 queel2,11)
< P(t valor< 0,05, que
9
equivaleacerca
e tendencia central informan a un valor P bilateral
de cul comprendido
es el valor entre 0,05 < P < 0,10.
ms representativo
exacto de P se ha obtenido por ordenador. No obstante, utilizando la Tabla 5 del
Si se adopta el nivel de significacin = 0,05 como regla de decisin, los resultados de
inada variable o, dicho demuestra
esta forma equivalente,
no aportan estos estimadores
1.2 MEDIDAS
suficiente DE indican
TENDENCIA
evidencia CENTRAL
para rechazar la hiptesis nula (P = 0,064 >
0,05), concluyendo que la verdadera media poblacional del colesterol HDL no19resulta
u valor se agrupan los datos observados.
significativamente Las medidas
distinta de tendencia
de 1demmol/l.
Las medidas tendencia central informan acerca de cul es el valor ms representativ
muestra sirven tantoElpara resumir
valor los resultados
P determina observados
la significacin como para
estadstica deo,losdicho
resultados de un contraste de hiptesis,
de una determinada variable de forma equivalente, estos estimadores indican
y depende tanto de la magnitud de la diferencia entre el verdadero valor del parmetro y su
ncias acerca de valor
los parmetros poblacionales
predeterminado bajo H0,correspondientes.
como delvalor
tamao Amuestral. As, una pequea diferencia puede
alrededor de qu se agrupan los datos observados. Las medidas de tendencia
resultar estadsticamente significativa si el tamao muestral es suficientemente grande y, por el
e describen loscontrario,
principales estimadores
Supongamosgranque sedeplantea
la tendencia nocentral de una :
si laHmuestra
una diferencia
central laelmuestra
puede
de mismo contraste
alcanzar bilateral
sirvenlatanto de laestadstica
significacin
para resumirhiptesis nula
los resultados es como para
0observados
insuficiente. En consecuencia, el valor P no debe interpretarse como una medida de la magnitud
de la diferencia
= 1 a partiro de
asociacin
unarealizarobjeto
muestra de de estudio.
tamao
inferencias n = 100
acerca de con media x = poblacionales
los parmetros 1,09 mmol/l y correspondientes. A

ritmtica Ejemplo 5.13


desviacin tpicaEns =el0,31
ejemplo
continuacin mmol/l.anterior
se se observ
El estadstico
describen del una diferencia
contraste
los principales es en eldecolesterol
estimadores la tendenciaHDL central de una
Supongamos
de0,20 mmol/l que se plantea
entre el valoreldeterminado
mismo contraste bajo labilateral
hiptesis denula
la hiptesis nula Hy0:la media
0 = 1 mmol/l
x ,=se1,20
mtica, denotada por Supongamos mmol/l
define como en una
sumamuestra
laplantea
que variable. x de
deelcada unotamao
de losn1bilateral
= 10. Los dexresultados
la hiptesisdel testH no fueron
se mismo 0 contraste
1,09 nula 0:
= 1 a partir de una muestra tde
= tamao n
= = 100 con= media
2,90 = 1,09
estadsticamente significativos (P = 0,064) pero la magnitud de la diferencia podra ser mmol/l y
s 0,31
rales dividida por el nmero de observaciones
clnicamente importante de realizadas.
confirmarsenSi denotamos
en estudios con mayor tamao muestral.
= 1 a partir tpica
desviacin de una1.2.1
s muestra
Media
= 0,31 de aritmtica
tamao
mmol/l. n = 10010con
El estadstico delmedia
contrastex = es1,09 mmol/l y
Supongamos que se plantea el mismo contraste bilateral de la hiptesis nula H0: = 1 a
o muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
partir
y, por de
desviacin una
tanto,tpica s =media
elmuestra
La
valor de
P0,31 tamao
mmol/l. n El
aritmtica,
vendra = 100 con media
estadstico
determinadodenotada x ,=se1,09
del contraste
por mmol/l
es comoy la
define desviacin
suma de cadatpicauno de los
s=0,31 mmol/l. El estadstico del 0 1,09por
x contraste 1
es
ra dada por t= = = 2,90
valores muestrales s dividida 0,31por el nmero de observaciones realizadas. Si denotamos
x 0 1,09 =12P(t 2,90) = 0,005.
P = P(t99 2,90) t =+ P(t99n =-2,90) 10 = 2,90
99
x + x 2 + ... s
+ xnnel tamao muestral 0,31
1 por 10 xi el valor observado para el sujeto i-simo, i = 1, ..., n,
y por
n
x = xi = 1 . n
y,
=1 por tanto,
n iUtilizando nvalor P vendra
laelaproximacin determinado
normal por
a la distribucin t de Student con 99 grados de
y, por tanto, el valor P vendra
la media determinado
vendra dada por por
y, por tanto, el valor P vendra determinado por
libertad, el valor
P = P(tP tambin puede
P(t99aproximarse
2,90) =a2P(tpartirde2,90)la Tabla 3 del Apndice
s la medida de tendencia central ms 99 2,90)
utilizada y de+ms fcil 99 = 0,005.
1 n
x1 + x 2 + ... + x n
como
Utilizando laPaproximacin
Corresponde al centro de gravedad
= P(t99 2,90)
de los datos
normal
+ P(t99
de la
a la -2,90) =x 2P(t
distribucin
muestra. Su n

= t 99 x2,90)
i =
deStudent =con 99 grados. de libertad,
0,005.
n 99 grados de
Utilizando
el la aproximacin
valor P tambin normal a laa distribucin
puede aproximarse t de Student
i
partir de la Tabla
=1 con
3 del Apndice como
acin es que est muyUtilizando
influenciada
libertad, el la Ptambin
porPlos =valores
aproximacin
valor extremos
puede 2,90)
2P(t99normal 2{1
a la y, (2,90)}
en este
distribucin t de=deStudent
0,004. con del
99 grados de
La media es laaproximarse a partir
medida de tendencia la Tabla
central ms3 utilizada
Apndice
y de ms fcil
o ser un fiel reflejo deEn este caso,central
la tendencia
libertad,
como
aunquedelaladiferencia
el valor P tambin
entre el valor predeterminado y la media muestral
distribucin.
puede aproximarse a partir de la Tabla 3 del Apndice
En este caso,
result aunque la diferencia
interpretacin.
ser sensiblemente menor entre el valor
Corresponde
(0,09 predeterminado
al centro
mmol/l), y la media
de gravedad
los resultados dedel
los test
datosfueron
de la muestra. Su
como
1.4 En este y en los muestral
sucesivosresult ser
ejemplos sensiblemente
principal
Psobre
= 2P(t menor
limitacin (0,09
es 2{1
que mmol/l),
-est
99 2,90) muestrales,
estimadores muy = los resultados
se influenciada
(2,90)} 0,004. del Pastor-Barriuso
por los test
valores extremos
R. 71 y, en este

fueronHDL
n los valores del colesterol estadsticamente
P =en
caso,
obtenidos significativos
2P(t
puede no
los9910 ser un(P
2,90)
primeros =
2{1
fiel 0,005),
reflejo
sujetos aportando
- (2,90)}
de
del suficiente
la=tendencia
0,004. centralevidencia
de la distribucin.
En este caso, aunque la diferencia entre el valor predeterminado y la media
Inferencia estadstica

estadsticamente significativos (P = 0,005), aportando suficiente evidencia para rechazar


la hiptesis nula.

La realizacin de una prueba de hiptesis presenta la misma estructura bsica para todos los
parmetros. En general, se calcula primero un estadstico del contraste, cuyo numerador
corresponde a la diferencia entre el valor observado en la muestra y el valor esperado bajo la
hiptesis nula, y cuyo denominador representa la variabilidad o error estndar de la estimacin.
El valor P se obtiene entonces como la probabilidad de obtener un valor del estadstico tanto o
ms extremo que el observado en el estudio, asumiendo que la hiptesis nula es cierta.
El contraste de hiptesis para un determinado parmetro est relacionado con su
correspondiente intervalo de confianza. Si se contrasta la hiptesis nula H0: = 0 frente a
la hiptesis alternativa bilateral H1: 0, el resultado ser estadsticamente significativo
para un nivel = 0,05 si el IC al 95% para no incluye el valor 0. Por el contrario, este
contraste no resultar estadsticamente significativo si el IC al 95% para contiene al valor
0. No obstante, ambos mtodos facilitan 1.2 MEDIDAS
informacin DEcomplementaria.
TENDENCIA CENTRAL El intervalo de
confianza aporta una medida de la magnitud y precisin en la estimacin del parmetro,
aunque no facilita el valor exacto de P Las o elmedidas
grado dedecompatibilidad
tendencia centralconinforman
una hiptesis
acercanula
de cul es el valor
de inters. El valor P s determina la compatibilidad de los datos con una determinada
hiptesis, pero no facilita una medida de de la
unamagnitud del parmetro
determinada variable o, odicho
asociacin
de formaobjeto de
equivalente, estos esti
estudio. En general, el uso de los contrastes de hiptesis como forma exclusiva de presentar
los resultados de un estudio est siendo ampliamente
alrededor cuestionado
de qu valor se agrupan enlosla datos
actualidad. La Las medidas
observados.
presentacin de los resultados de un estudio ha de consistir fundamentalmente en el
estimador puntual y el intervalo de confianza,
central dequela pueden
muestra completarse con el
sirven tanto para P deresultados
valor los
resumir la observa
hiptesis correspondiente.
realizar inferencias acerca de los parmetros poblacionales correspon
Ejemplo 5.14 En la primera muestra de tamao n = 10 del Ejemplo 5.7 se obtuvo una
media de 1,20 mmol/l y una desviacin tpica de
continuacin se0,30 mmol/l,
describen losde tal formaestimadores
principales que el IC alde la tendencia
95% para la media poblacional del colesterol HDL result ser (0,99; 1,41). Estos mismos
datos muestrales se emplearon en elvariable.
Ejemplo 5.12 para el contraste bilateral de la hiptesis
nula H0: = 1, obteniendo un valor P de 0,064. Ambos resultados son consistentes dado
que el IC al 95% incluye el valor preestablecido de 1 mmol/l para la hiptesis nula y, por
1.2.1 Media aritmtica
tanto, el contraste no resulta estadsticamente significativo para un nivel = 0,05.
En el Ejemplo 5.9, a partir de unaLamuestra
media aritmtica, n = 100 con
de tamao denotada por x ,=se1,09 mmol/l
define comoyla suma de cada
s=0,31 mmol/l, se obtuvo un IC al 95% para la media poblacional del colesterol HDL de
valores muestrales
(1,03; 1,15). El correspondiente contraste de H0: = 1dividida
frente apor
H1:elnmero de observaciones
1 se realiz en el realizada
Ejemplo 5.13, resultando un valor P de 0,005. En este caso, el valor 1 mmol/l queda fuera
de los lmites de confianza al 95%por ny,elen
tamao muestral ylos
consecuencia, xi el valor observado
porresultados para el sujeto i-
del test son
estadsticamente significativos.
la media vendra dada por
5.4.3 Errores y potencia de un contraste de hiptesis
1 n x + x 2 + ... + x n
x = xi = 1 .
Como se coment anteriormente, las hiptesis nunca pueden ser corroboradas n i =1 completamente,
n
quedando siempre un margen o probabilidad de error. La eleccin entre las hiptesis nula y
alternativa conlleva a alguna de las situaciones presentadas en la Tabla 5.1. Si se acepta la
hiptesis nula cuando sta es cierta, o si seLarechaza
media la
es hiptesis
la medidanula
de tendencia
cuando lacentral ms utilizada
alternativa es y de ms
cierta, se habr tomado una decisin correcta. Sin embargo, es posible cometer alguno de los
siguientes tipos de error en un contraste interpretacin.
de hiptesis: Corresponde al centro de gravedad de los datos de l

principal limitacin es que est muy influenciada por los valores extr
72 Pastor-Barriuso R.
caso, puede no ser un fiel reflejo de la tendencia central de la distribu
Contraste de hiptesis
P(error de tipo I) = P(rechazar H0 | H0 cierta)
P(error de tipo I) = P(rechazar H0 | H0 cierta)
= P(t tn-1,1-
Tabla 5.1 Resultados /2 | H0 en
posibles cierta) + P(t tn-1,
un contraste /2 | H0 cierta)
dehiptesis.
==P(t n-1,1-/2 | H0 cierta)
P(t t t +t P(t ) t=n-1,/2
) + P(t Realidad /2 | H0 cierta)
+ /2 = ,
n-1 n-1,1-/2 n-1 n-1,/2
Decisin H0 cierta H1 cierta
Aceptar H0 = P(tn-1 tn-1,1-Correcto /2) =detipo
/2) + P(tn-1 tn-1,Error /2 +II /2 = ,
es decir, la probabilidad
Rechazar H0
de cometer un error de
Error de tipo I
tipo I viene determinada
Correcto
de

esantemano
decir, la probabilidad
por el nivel dedesignificacin
cometer un error . As,depor tipo I vienepara
ejemplo, determinada
un test condeun
yy El error de tipo I consiste en rechazar la hiptesis nula cuando sta es, en realidad, cierta.
Como
antemano
nivel de se significacin
coment
por el nivel anteriormente,
de
=significacin . As,
0,05, laelprobabilidad
nivel por incurrir enpara
de significacin
de ejemplo, seunutiliza
un test
error para
de con
tipoclasificar
un
I los
resultados obtenidos en un test como significativos si el valor P , en cuyo caso se
rechaza
nivel
serde la0,05;
hiptesis
delsignificacin esto es,nula, ohiptesis
si=la0,05, como nonula
significativos
la probabilidad es cierta, de stasi Pse>rechazar
incurrir ,
en enun cuyo
error caso
de tipose acepta
errneamente I la
hiptesis nula. Con esta regla de decisin, puede comprobarse a partir de la Figura 5.4 que
en un
ser del 5%
0,05; de esto
los contrastes de hiptesis realizados
es cierta, sobre todas las posibles
P(error de tipoes, I) =si P(rechazar
la hiptesis nula
H 0 | H 0 cierta)
sta se rechazar errneamente
= P(t tn 1,1 /2 | H 0 cierta) + P(t tn 1 , /2 | H 0 cierta)
enmuestras
un 5% de dellos mismo tamao.
contrastes de hiptesis realizados sobre todas las posibles
EDIDAS DE TENDENCIA CENTRAL = P(tn 1 tn 1,1 /2 ) + P(t n 1 t n 1 , /2 ) = /2 + /2 = ;
muestras
es decir, la delprobabilidad
mismo tamao. delos cometer un error de tipo I viene determinada
Ejemplo 5.15 A partir de controles del EURAMIC se obtienen 1000de antemano por
muestras
didas de tendencia central informan acerca de cul es el valor ms representativo
el nivel de significacin . As, por ejemplo, para un test con un nivel de significacin
aleatorias
= 0,05, la deprobabilidad
tamao nde= los
10 dey,incurrir
en cadaen una undeerror
ellas,desetipo I ser
realiza del 0,05;deesto es, si la
el contraste
esEjemplo
determinada variable o, dicho
decir,
hiptesis la5.15
de A
forma
probabilidad
nula
partir
equivalente,
es cierta, de
sta
controles
se estos
cometer un
rechazar
del
errorEURAMIC
estimadores de tipoindican
errneamente I se obtienen
viene 1000 muestras
en undeterminada de
5% de los contrastes de
hiptesis
hiptesisrealizados
bilateral para sobre la todas
medialas posibles muestras
poblacional del mismo
del colesterol HDL tamao.
aleatorias
or de qu valor se agrupan losde tamao
datos n = 10 y,
observados. Las enmedidas
cada una dede ellas, se realiza el contraste de
tendencia
antemano por el nivel de significacin . As, por ejemplo, para un test con un
Ejemplo 5.15 A partir de los controles del EURAMIC se obtienen 1000 muestras
de la muestra sirvenhiptesis
tanto para
aleatorias bilateral
resumir
de tamao para la=media
los nresultados
10 y, en H0: una
poblacional
observados
cada = 1,09,
delellas,
como
de colesterol
para HDLel contraste de hiptesis
se realiza
nivel de significacin = 0,05,
bilateral para la media poblacional del colesterol HDL la probabilidad de incurrir en un error de tipo I
inferencias acerca de los parmetros poblacionales correspondientes. H1: 1,09, A
H0 : = 1,09,
ser del 0,05; esto es, si la hiptesis nula es cierta, sta se rechazar errneamente
acin se describen los principales estimadores de la tendencia H1 : central
1,09, de una
mediante el estadstico
en En
un este
5% de
mediante
ejemplo
ellos
ilustrativo,de
contrastes
estadstico
la hiptesis
hiptesis nula es ciertasobre
realizados ya que la media
todas poblacional
las posibles
e.
del colesterol HDL tamao.
en el grupo control x 1,09 es efectivamente = 1,09
mediante
muestras delel estadstico
mismo t = del EURAMIC ,
Media aritmtica s
mmol/l. Por lo tanto, se tom la decisin correcta 10 de aceptar H0 en el 94,4% de las
x 1,09
donde
ia aritmtica, denotada
Ejemplo por 5.15x ,yses A son
definelascomo
partir correspondientes
de los la suma
controlesde medias
t =cadadeluno yde,desviaciones
EURAMIC los tpicas muestrales.
se obtienen 1000 muestras En cada
muestras
donde x se
muestra, yy se rechazo
scalcula
son P como elHmedias
errneamente
laselcorrespondientes
valor reas bajo
0 (error ydedesviaciones
latipo
curvaI) en
de el restante
latpicas 5,6%, t9 que
muestrales.
distribucin para valores
10
muestrales dividida por
tanto
aleatoriasel onmero
ms
de de observaciones
distantes
tamao n de
= 0 que
10 y, enelrealizadas.
valor una
cada Si
observado denotamos
de se
designificacin
ellas, t, yrealiza
se decide rechazar ladehiptesis
el contraste
concuerda
En cada
nula casi
si Pmuestra, 0,05. perfectamente
se calcula
As, elcon
la hiptesis valor elnula
nivel
P se de
como el reaenbajo
acept la curva
un 94,4% = 0,05
dedelas
la muestras (944 de
tamao muestral ydonde
por
1000)xi elxyvalor observado
ysesrechaz
son las en unpara
5,6%
correspondientes el (56
sujeto i-simo,
1000). yi desviaciones
de medias = 1, ..., n, tpicas muestrales.
hiptesis bilateral
preestablecido parael la media
contraste. poblacional del colesterol HDL
distribucin t9 para valores tanto o ms distantes de 0 que el valor observado de t,
En este ejemplo ilustrativo, la hiptesis nula es cierta ya que la media poblacional del
a vendra dada por En cada muestra, se calcula el valor P como el rea bajo la curva de la
colesterol HDL en el grupo control del EURAMIC es efectivamente = 1,09 mmol/l. Por
y se decide rechazar la hiptesis nula H0:si P 1,09,
0,05. As, la hiptesis nula se acept
Ello error
tanto, de se tipo
tomIIlaconsiste
decisinencorrecta
aceptar de=
la aceptar H
hiptesis 0 encuando,
nula el 94,4% de las muestras
en realidad, es y se
distribucin
1 n
rechaz errneamentet 9 para
x + valores
x + ... + tanto
x
H0 (error o ms distantes de 0 que el valor
de tipo I) en el restante 5,6%, que concuerda casiobservado de t,
en
x =un 94,4%
perfectamente
x i =de1 las muestras
con el
2

ciertan lai =1hiptesis alternativa. nivel


n de
n
. de 1000) y se rechaz en un 5,6% (56 de 1000).
(944 H1: 1,09,
significacin
La probabilidad =de0,05 preestablecido
cometer un error de para
tipoelIIcontraste.
se
y se decide rechazar la hiptesis nula si P 0,05. As, la hiptesis nula se acept
yy El errorpor
denota detipo, II consiste en aceptar la hiptesis nula cuando, en realidad, es cierta la
media es la medidamediante
de
en tendencia
un 94,4% el estadstico
central
de las ms muestrasutilizada (944y de de ms
1000) fcil
y se rechaz
hiptesis alternativa. La probabilidad de cometer un error en un 5,6%
de tipo II se (56 de 1000).
denota por ,
24
etacin. Corresponde al centro de gravedad P(error de tipo los datos
II) = de P(aceptar
la muestra.H0 | Su H1 cierta) = .
x 1,09
t= ,
al limitacin es que est muy influenciada por los valores extremos s y, en este
Si la hiptesis alternativa es cierta, la probabilidad 10 de tomar la decisin correcta y, R.
Pastor-Barriuso 73
24
uede no ser un fiel reflejo de la tendencia central de la distribucin.
por tanto, rechazar la hiptesis nula se conoce como potencia del test,
donde x y s son las correspondientes medias y desviaciones tpicas muestrales.
1.2 MEDIDAS DE TENDENCIA CENTRAL
P(error de tipo II) = P(aceptar 1.2 . TENDENCIA CENTRAL
| H1 cierta) =DE
H0 MEDIDAS
Inferencia estadstica
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
Si la hiptesis alternativa es cierta, la probabilidad de tomar de
Las medidas la decisin
tendenciacorrecta
central y, informan acerca de cu
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
Sipor
la tanto,
hiptesis alternativa
rechazar es cierta,
la hiptesis nulalaseprobabilidad
conoce como de una depotencia
tomar ladeldecisin
determinada test,
variable correcta
o, dicho y, de
porforma equivalen
tanto, rechazar la hiptesis nula se conoce como
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia potencia del test,
Potencia = P(rechazar H0 |alrededor H1 cierta)de qu valor se agrupan los datos observados.
central de la muestra sirven tanto para resumir los resultados observados como para
= 1 P(error de tipo II) =de1
central .
lamuestra sirven tanto para resumir los resulta
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
La probabilidad de error de tipo II y la potencia de un contraste 1 no estn
realizar inferencias acerca de los parmetros poblacional
predeterminadas de antemano y, como se comprobar a continuacin, 1dependen
- de de distintos
continuacin se describen los 2principales estimadores dede
La probabilidad de error de tipo II y la potencia la un contraste
tendencia central no una
estn
factores, como el N(
aproximadamente 0, de
nivel /n) si H0 es cierta
significacin , lao,desviacin del verdadero
en caso contrario, 2/n)del
N(1,valor si H
parmetro
1 es
continuacin se describen los principales estimadores de
respecto al valor nulo
predeterminadas de 2 0, la dispersin
antemano y, como se de los datos aycontinuacin,
comprobar el tamao muestral dependen n.
variable.
aproximadamente N(0muestral
, /n) side H0 xesbajo cierta 2
N(1, se/n)representa
si H1 es
cierta. La distribucin laso,hiptesis
en caso contrario,
nula y alternativa
Supongamos, para simplificar la exposicin, que una variable aleatoria tiene media variable.
de distintos factores, como el nivel de significacin , la desviacin del verdadero
cierta.
desconocida
1.2.1
enMedia La aritmtica
la Figura distribucin
y5.5.
varianza
Para unmuestral
conocida
nivel de de , xy bajo
2significacin
que se laspretende
hiptesis nula y alternativa
contrastar
, el contraste delahiptesis
hiptesis senorepresenta
nula H0: = 0
resultar
frente a la hiptesis alternativa H1: = 1, donde 1
1.2.1 . Por el teorema
0 Media aritmtica central del lmite, se
valor del parmetro respecto al valor nulo - 0, la dispersin de los datos y el
La en
sabe la Figura
que
media 5.5.
(P >Para
laaritmtica,
significativodistribucin unelnivel
)muestral
denotada
si pordedex significacin
estadstico en
, semuestras
define como detamao
, ellacontraste
suma de de
n ser hiptesis
uno de no
aproximadamente
cada losresultar
N(0, 2/n)
si H0 es cierta o, en caso contrario, N(1, 2/n) si H1 esLa cierta.
media Laaritmtica,
distribucin muestralpor
denotada de x ,bajo
se define como la
tamao muestral n.
las significativo
valores muestrales
hiptesis ) si elpor
nula(Pydividida
>alternativa estadstico
seelrepresenta
nmero deen observaciones
la Figura 5.5.realizadas.Para un nivel Si denotamos
de significacin ,
x (P 0 valores si elmuestrales
estadsticodividida por el nmero de observacio
el contraste de hiptesis no resultar-zsignificativo
Supongamos, para simplificar la exposicin, 1-/2 < que <> z)
una 1-variable
/2 aleatoria tiene media
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
x n0
z12 /2 < <porz1n/2el tamao muestral y por xi el valor observado para
desconocida
la media vendra y varianza
dada por conocida , y quese pretende contrastar la hiptesis nula H0:
n
la media vendra dada por
=deo,forma
o,
de forma equivalente, si
0 frente a la hiptesis alternativa H1: = 1, donde 1 0. Por el teorema central
equivalente, si 1 n x + x 2 + ... + x n
o, de forma equivalente, six = x i = 1 .
; tamao n serx = 1 x = x1 + x 2 + ... +
n
del lmite, se sabe que la distribucin 0 z1n i/2=1muestral
/ n < xde< nx 0 en + zmuestras
1 /2 / nde
i
n i =1 n
0 - z1-/2/ n < x < 0 + z1-/2/ n ;
La media la
es decir, eshipotes
la medida nuladesetendencia
Distribuci n de x bajo
aceptar central
enHtodas
1 ms utilizada
Distribuci
aquellas nyde
muestras dex msconHfcil
bajo una
0 media x 25
N(1, /n)2 La media
N(0, /n)2 es la medida de tendencia central ms utiliz
es decir, la hipotes
interpretacin. nula se
Corresponde al aceptar
centro en
de todas
gravedad aquellas de muestras
los datos con
de la una mediaSux
muestra.
comprendida en la regin 0 z1-/2/ n , que se denomina comnmente como regin
interpretacin. Corresponde al centro de gravedad de l
principal
comprendidalimitacin en laesregin
que est 0 muy z1-influenciada
/ n , que por
se los valorescomnmente
denomina extremos y, como en esteregin
de aceptacin. As, la probabilidad/2 de un error de tipo I est determinada por el rea
principal limitacin es que est muy influenciada por los
caso,
de puede no
aceptacin. ser un fiel reflejo
As,Hla probabilidad de la de un error de tipodeI
tendencia central la est
distribucin.
determinada por el rea
bajo la curva para 0 situada fuera de la regin de aceptacin (rea en gris oscuro de la
caso, puede no ser un fiel reflejo de la tendencia central
bajo
Figura la curva ypara
5.5),1.4 laEn H0 situada fuera
probabilidad de laderegin IIde aceptacin (realaencurvagris oscuro
para H1de la
Ejemplo este y en losdesucesivoserror tipo
ejemplos por
sobre el rea bajo
estimadores muestrales, se
Ejemplo 1.4 En este y en los sucesivos ejemplos so
Figura
situada 5.5),
dentroy ladeprobabilidad
la regin de error de tipo IIen porgrisel reade bajo Figura
la curva5.5).para H1
utilizarn los valores del de aceptacin
colesterol HDL (rea
obtenidos claro
en los 10laprimeros sujetos del
en gris claro utilizarn los valores del colesterol HDL obtenidos
situada dentro de la regin de aceptacin (rea de la Figura 5.5).
estudio European Study on Antioxidants, /2
Myocardial Infarction and Cancer /2
of
[Figura 5.5 aproximadamente aqu]
estudio European Study on Antioxidants, Myocar
the Breast (EURAMIC),[Figura un
1
estudio 5.5 aproximadamentecasos
multicntrico de aqu]
y controles realizado
the Breast (EURAMIC), un estudio multicntrico
0

El balance
entre 1991 yentre1992lasenprobabilidades
ocho pases de un error
Europeos e de tipo
Israel para I yevaluar
tipo II el puede
efecto observarse
los en
0 z1 / 2 / n 0 + z1de
/ 2 / n

El balance entre 1991IIypuede 1992 observarse


en ocho pases Europeos e Israe
la Figura 5.5. entre
Si se las probabilidades
reduce la probabilidad de undeerror errordedetipo tipoI Iytipo (esto es, se aumenta la en
Regin de aceptacin de H0
5
la Figura 5.5. Si se reduce la probabilidad de error de tipo I (esto es, se aumenta
regin de aceptacin), aumenta la probabilidad de error de tipo II , mientras que si la
Figura 5.5 Errores de tipo I y II para el contraste bilateral de la hiptesis nula H0: = 0 frenteFigura
regin de aceptacin),
tesisaumenta,
alternativadisminuye .aumenta
H1: = 1 en
la probabilidad
En distribucin
una la prctica, de error
la estrategia
con
de tipo
habitual
varianza conocida.
II ,mientras
es fijar que sia
en el nivel
la5.5hip-

aumenta, disminuye
predeterminado . En la prctica,
(tpicamente = 0,05)laeestrategia
intentar minimizar o, deforma
habitual es fijar en el nivel
equivalente,
74 Pastor-Barriuso R.

predeterminado (tpicamente
maximizar la potencia =contraste.
1 - del 0,05) e intentar
Para minimizar o, dedeforma
fijo, la potencia equivalente,
1 - depende de la
TENDENCIA CENTRAL

0 -de
dencia central informan acerca /2/es n
z1-cul 0 +
< x <ms
el valor z1-variable.
/2/ n ;
representativo Contraste de hiptesis

1.2.1 Media aritmtica


variable o, dicho de forma equivalente, estos estimadores indican
es decir, la hipotes nula se aceptar en todas aquellas muestras con una media x
es decir,
or se agrupan los la hipotesis nula
datos observados. se aceptar
Las medidas de en todas
tendenciaLaaquellas muestras con
media aritmtica, por x ,comprendida
una media
denotada se define como la suma de
regin 0 z1 /2/ n , que se denomina comnmente como regin de aceptacin. As, la
comprendida en la regin
probabilidad
a sirven tanto para resumir losderesultados
un error de tipo I est
observados como valores muestrales
determinada
para dividida
por el rea bajo lapor para H0 de
el nmero
curva observaciones realiz
situada
de aceptacin.fuera
As, de
la la regin de aceptacin
probabilidad (rea
de un error deen grisI oscuro
tipo est de la Figura 5.5),
determinada poryellarea
probabilidad de error
por el rea bajo
de tipo II poblacionales
acerca de los parmetros por n el tamao muestral y por xi el valor observado
la curva para HA1 situada dentro de la regin de aceptacin
correspondientes. (rea en para el sujeto
gris claro de la Figura 5.5).
bajo la curva para H0 situada fuera de la regin de aceptacin (rea en gris oscuro de la
la media vendra dada por
criben los principales estimadores
El balance entredelasla probabilidades
tendencia centralde de
ununa
error de tipo I y tipo II puede observarse en la
Figura 5.5), y Figura 5.5. Si se de
la probabilidad reduce
errorladeprobabilidad deelerror
tipo II por reade (estopara
tipolaI curva
bajo es, se
H1aumenta la regin de
aceptacin), aumenta la probabilidad de error de tipo II ; mientras que si aumenta,
n
x + x.
1 disminuye 2 + ... + x n
x = xi = 1 .
situada dentroEndelalaprctica,
regin dela estrategia
aceptacin habitual
(rea en gris claro
es fijar en undenivel predeterminado
la Figura 5.5). (tpicamente
n i =1 = 0,05)n
tica e intentar minimizar o, de forma equivalente, maximizar la potencia 1 del contraste. Para
fijo, la potencia 1 depende de la superposicin de las distribuciones nula y alternativa de
, denotada por x ,, que est a como
se define su[Figura
vezladeterminada
suma
5.5 de poruno
cada losde
aproximadamente los La
siguientes media
aqu]
es la medida de tendencia central ms utilizada y de
factores:
yy La diferencia subyacente 1 0. La potencia para detectar
interpretacin. una hiptesis
Corresponde alternativa
al centro cierta de los datos
de gravedad
ividida por el nmero de observaciones realizadas. Si denotamos
ser tanto mayor cuanto mayor sea la diferencia entre el verdadero valor del parmetro 1 y
El balance entreellas probabilidades
valor de un error
nulo 0. Esta situacin de tipo
se ilustra enIlayFigura
tipo II5.6(a),
puededonde
observarse en un incremento
se observa
estral y por xi el valor observado para el sujeto i-simo, i = 1,principal
..., n, limitacin es que est muy influenciada por los valores
de la potencia como consecuencia de una mayor diferencia entre 1 y 0.
la por
da Figura 5.5. Si se reduce la probabilidad de error de tipo I puede
caso, (estono
es,ser
se un
aumenta la de la tendencia central de la dist
fiel reflejo
~ N ( , 2 / n)
H1 : x ~ N ( , 2 / n)
H0 : x
1 0

regin de aceptacin), aumenta la probabilidad de error de tipo II , mientras que si


1 n
x + x 2 + ... + x n Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estim
x=
n i =1
xi = 1 .
aumenta, disminuye . En lan prctica, la estrategia habitual esutilizarn
fijar en
loselvalores
nivel del colesterol HDL obtenidos en los 1

predeterminado
edida de tendencia(tpicamente = 0,05)y edeintentar
central ms utilizada minimizar estudio
ms fcil o, de forma equivalente,
European Study on Antioxidants, Myocardial Infar

esponde al centro
maximizar de gravedad
la potencia 1 - deldecontraste.
los datos Para
de la
muestra.
fijo, laSu
potencia de 1 -
the Breast (EURAMIC),
depende de un
la estudio multicntrico de casos
/2 /2
es que est muy influenciada por los valores extremos y, en este entre 1991 y 1992 en ocho pases Europeos e Israel para ev
0 z1 / n 0 + z
1 / 2 / n 0 1 / 2

n fiel reflejo de la tendencia central de la distribucin. (a)

~ N ( , 2 / n)
H1 : x ~ N ( , 2 / n)
H0 : x 26
n este y en los sucesivos ejemplos sobre estimadores muestrales, se
1 0

valores del colesterol HDL obtenidos en los 10 primeros sujetos del

pean Study on Antioxidants, Myocardial Infarction and Cancer of

URAMIC), un estudio multicntrico de casos y controles realizado

992 en ocho pases Europeos e Israel para evaluar el efecto de los



/2 /2

1 0 z1 / 2 / n5 0 0 + z1 / 2 / n

(b)

Figura 5.6 Errores de tipo I y II para una mayor diferencia 0 1 (a) y para un mayor tamao muestral n (b).
Figura 5.6

Pastor-Barriuso R. 75
S DE TENDENCIA CENTRAL

Inferencia estadstica
superposicin
e tendencia central informan de las distribuciones
acerca nula yms
de cul es el valor alternativa de x , que est a su vez
representativo

nada variable determinada por los


o, dicho de forma siguientes factores:
equivalente, estos estimadores indican
Tabla 5.2 Porcentaje de muestras de tamao n = 10, 25 y 100 con
u valor se agrupan datosresultados
La diferencia
los
significativos
Las medidas
subyacente
observados. (P
1 - 0. La
tendencia
0,05) para
depotencia el contraste
para detectar bilateral de
una hiptesis
las hiptesis nulas H0: = 1 y 1,05 mmol/l sobre la media poblacional
uestra sirven tanto para del
alternativa colesterol
resumircierta HDLobservados
los resultados
ser tanto en los cuando
mayor controles
como del estudio
para
mayor EURAMIC.
sea la diferencia entre el
Hiptesis nula H0: = 0
ncias acerca de los parmetros
verdadero poblacionales correspondientes.
valor del parmetro 1 y el valorAnulo 0. Esta situacin se ilustra en la
Tamao muestral (n) 0 = 1 0 = 1,05
la
10 tendencia central de una
e describen los principales
Figura estimadores
5.6(a), dondedese observa un incremento11,2 5,0
de la potencia como consecuencia
25 26,9 8,0
100 85,7 23,0
de una mayor diferencia entre 1 y 0.

ritmtica yyEl
Elerror
error estndar
estndar / n . Al Al aumentar
aumentareleltamao muestraln,n,disminuye
tamaomuestral disminuye el el
error estndar de la
error
media muestral y, en consecuencia, la variabilidad de las distribuciones nula y alternativa de
x .,As,
mtica, denotada por estndar para
de laun
se define comonivellamuestral
media de significacin
suma de y,
cada predeterminado,
uno de los
en consecuencia, la potencia
la variabilidad de del
las contraste aumenta
conforme aumenta el tamao de la muestra (Figura 5.6(b)). Esta relacin puede utilizarse
ales dividida por el nmero
tanto para de observaciones
distribuciones calcular realizadas.
nula ylaalternativa
potencia de
deun xSi denotamos
.contraste
As, parauna vez determinado
un nivel el tamao
de significacin muestral,
como para estimar a priori el tamao muestral necesario para una determinada potencia.
o muestral y por xi elpredeterminado,
valorltimo
Este observado
puntolapara
se el sujeto
discutir
potencia i-simo,
delcon mayoridetalle
contraste = 1, ...,enn,conforme
aumenta el Tema 9 aumenta
de determinacin
el tamaodel tamao
muestral.
a dada por de la muestra (Figura 5.6(b)). Esta relacin puede utilizarse tanto para calcular la
Ejemplo 5.16 A partir de los controles del EURAMIC se obtienen 1000 muestras
potencia
1 aleatorias
n
xde+de
un contraste
+ ... + x nn una
x 2 tamao = 10,vez25determinado
y 100 y, enelcada tamao unamuestral,
de ellas, como para el contraste
se realiza
x = xi = 1 .
n i =bilateral
1
de lasn hiptesis nulas H0: = 1 y 1,05 mmol/l para la media poblacional del
estimar a priori
colesterol HDL. el Para
tamao cada muestral
muestranecesario paraeluna
y contraste, determinada
valor potencia.
P se calcula segn Este
los mtodos
del Apartado 5.4.2 y la hiptesis nula se rechaza si P 0,05. En la Tabla 5.2 se presenta
ltimo
la medida de tendencia puntoms
central
el porcentaje se discutir
utilizada
de muestras con
y demayor detalle en significativos
ms resultados
con fcil el Tema 9 de determinacin del tamaos
para los distintos
muestrales e hiptesis nulas.
tamao
Corresponde al centro muestral. de los datos de la muestra. Su
de gravedad
En este caso, ambas hiptesis nulas son falsas dado que la verdadera media del colesterol
acin es que est muyHDL en los controles
influenciada del estudio
por los valores EURAMIC
extremos es 1,09 mmol/l. As, los porcentajes de la
y, en este
Tabla 5.2 representan [Figuravalores empricos de la potenciaaqu]
5.6 aproximadamente de cada contraste. Para una desviacin
subyacente de = 1,09
ser un fiel reflejo de la tendencia central0 de la distribucin. 1 = 0,09 mmol/l entre el verdadero nivel medio de colesterol
HDL y el valor nulo, la potencia result ser del 11,2% para n = 10, 26,9% para n = 25 y
85,7% para n = 100. Para una desviacin de 0 = 1,09 1,05 = 0,04 mmol/l, la potencia
Ejemplo
se redujo5.16
1.4 En este y en los sucesivos A 5,0%
ejemplos
a un partir de los
sobre
para controles
estimadores
n= 10, 8,0% del EURAMIC
muestrales,
para n = 25 se yse obtienen
23,0% para1000 muestras
n = 100. Como puede
apreciarse, slo se alcanza una potencia aceptable para detectar una diferencia de 0,09
aleatorias
n los valores del colesterol
mmol/l HDL de obtenidos
con tamao
un tamao n en
= muestral
10,los25
10yprimeros
100100,
de y, enmientras
cada una
sujetos del desera
que ellas,necesaria
se realizaunael muestra mayor
para poder detectar una diferencia de 0,04 mmol/l.
contraste
European Study on Antioxidants, bilateral de las hiptesis
Myocardial Infarction nulas 0: = 1of
andHCancer y 1,05 mmol/l para la media

5.5 REFERENCIAS
st (EURAMIC), unpoblacional del colesterol
estudio multicntrico HDL.yPara
de casos realizadoy contraste, el valor P se
cada muestra
controles
1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
calcula
91 y 1992 en ocho pases segn los
Europeos
Englewood
mtodos
e Israel
Cliffs, paradel Apartado
evaluar
NJ: Prentice
5.4.2de
Hall,el1977.
efecto loshiptesis nula se rechaza si P
y la

2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole,
2001. 5
3. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
27

76 Pastor-Barriuso R.
Referencias

4. Lehmann EL. Testing Statistical Hypotheses, Second Edition. New York: Springer Verlag,
1997.
5. Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer
Verlag, 1998.
6. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
7. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.
8. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
9. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.

Pastor-Barriuso R. 77
TEMA 6

INFERENCIA SOBRE MEDIAS

6.1INTRODUCCIN

En el presente tema se revisan las tcnicas bsicas de inferencia a partir de datos de carcter
cuantitativo. En la mayor parte de las ocasiones, la inferencia sobre variables cuantitativas se
centra en el estudio de parmetros subyacentes tales como la media y la varianza poblacional.
A partir de los datos obtenidos en muestras aleatorias y utilizando los principios de inferencia
descritos en el tema anterior, se pretende dar respuesta a los siguientes tipos de problemas:
yy La estimacin de la media y la varianza de una poblacin.

Ejemplo 6.1 Supongamos que los controles del estudio EURAMIC constituyen una
muestra representativa de la poblacin de referencia del estudio. A partir de los valores de
colesterol HDL obtenidos en los controles, cul es la estimacin y el intervalo de
confianza al 95% para la media y la varianza del colesterol HDL en la poblacin de
referencia? Son estos datos muestrales compatibles con una verdadera media poblacional
de 1 mmol/l?

yy La comparacin de medias y varianzas poblacionales a partir de dos muestras


independientes.

Ejemplo 6.2 En el estudio EURAMIC se comparan dos muestras independientes: una


muestra de casos de infarto de miocardio, recogida de las unidades de cuidados intensivos,
y una muestra independiente de controles, representativos de la poblacin de la que
proceden los casos. Cul es entonces la estimacin y el intervalo de confianza al 95%
para la diferencia en los niveles medios de colesterol HDL entre los casos de infarto y los
sujetos libres de la enfermedad? Es esta diferencia estadsticamente significativa?
En un ensayo clnico para evaluar la eficacia antihipertensiva de un nuevo medicamento,
se asignaron aleatoriamente 100 pacientes hipertensos a uno de los dos grupos de
tratamiento: un grupo que toma la medicacin a estudio y otro que toma un placebo.
Despus de 4 semanas de tratamiento, se compararon las medias de presin arterial
sistlica entre ambos grupos como medida de la eficacia de dicho medicamento. Cul es
la estimacin puntual y el intervalo de confianza al 95% para la reduccin en el nivel
medio de presin arterial sistlica? Cmo se determina si esta reduccin es efecto del
tratamiento o se debe a simple variabilidad aleatoria?

yy La comparacin de medias poblacionales a partir de dos muestras dependientes.

Ejemplo 6.3 En un estudio de casos y controles sobre el efecto del colesterol HDL en
el riesgo de desarrollar infarto de miocardio, cada caso se emparej por grupo de edad y
sexo a un control libre de la enfermedad. En este caso, las medias de colesterol HDL de
los casos y de los controles no pueden analizarse como medidas procedentes de muestras
independientes, ya que es esperable un cierto grado de correlacin entre los valores de

Pastor-Barriuso R. 79
Inferencia sobre medias

colesterol HDL en cada pareja caso-control. Cmo contrastar entonces si existe una
asociacin significativa entre el nivel de colesterol HDL y la ocurrencia de un infarto de
miocardio?
Para evaluar la eficacia de un frmaco antihipertensivo, se seleccionaron 50 pacientes
hipertensos y se administr a todos ellos dicho frmaco durante 4 semanas. La presin
arterial sistlica de cada paciente se determin tanto al comienzo del estudio como
despus de las 4 semanas de tratamiento. En tal caso, los valores medios de presin arterial
antes y despus del tratamiento no son independientes, ya que los datos recogidos en un
mismo paciente estn correlacionados. En estas circunstancias, cmo estimar la reduccin
media de presin arterial sistlica al administrar dicho tratamiento?
1.2 MEDIDAS DE TENDENCIA CENTRAL
Para cada uno de estos problemas, se facilitan las tcnicas de inferencia apropiadas para
Las medidas
obtener estimaciones puntuales y por intervalo de tendencia
del parmetro central objeto
poblacional informan acerca deascul es el valor
de estudio,
como para el contraste de hiptesis preestablecidas. Estos procedimientos van a permitir inferir
de una determinada
los resultados del estudio al mbito poblacional variable
de forma clara o, dicho de forma equivalente, estos estim
y sucinta.

alrededor de qu valor se agrupan los datos observados. Las medidas


6.2 INFERENCIA SOBRE UNA MEDIA Y VARIANZA POBLACIONAL
central de la muestra sirven tanto para resumir los resultados observad
La media y la varianza poblacional son parmetros que representan la tendencia central y
dispersin de la distribucin subyacente de una
realizar variableacerca
inferencias aleatoria.
de losEstos parmetros
parmetros son
poblacionales correspon
tpicamente desconocidos y, en consecuencia, han de ser estimados a partir de los valores
observados de dicha variable en una muestra. En esta
continuacin seccin, selospresentan
se describen losestimadores
principales mtodos dede la tendencia
estimacin y contraste para la media y la varianza de una distribucin poblacional.
variable.
6.2.1 Inferencia sobre la media de una poblacin
1.2.1 Media aritmtica
La estimacin e inferencia de una media poblacional se discuti en el tema anterior. Para
Utilizando
cualquier lasaleatoria,
variable propiedadesse de
ha lacomprobado
distribucin muestral
La media aritmtica,
que de la muestral
media,
denotada
la media poresxposible
,es
se un obtener
define como la suma de cada
estimador
insesgado y consistente de y que, en el caso de distribuciones normales, es el estimador con
un intervalo
menor de confianza
error estndar. 100(1 - valores
Estas alcaractersticas
)% para hacen la media poblacional
de la media
muestrales porelcomo
muestral
dividida un buendeestimador
nmero observaciones realizada
Utilizando las propiedades de la distribucin muestral de la media, es posible obtener
puntual de la media poblacional.
Utilizando por n el tamao s muestral y por xiesel posible
valor observado para el sujeto i-s
un intervalolas
de propiedades
confianza al de la distribucin
100(1 - x)%
t npara muestral
la
1,1 / 2
media de la media,
. poblacional como obtener un
intervalo de confianza al 100(1 )% para la media poblacional n como
la media vendra dada por
s
x t n 1,1 / 2 .
A su vez, el contraste de la hiptesis nula H0: = n 0 frente a la hiptesis alternativa
1 n x + x 2 + ... + x n
x = xi = 1 .
A su vez, el contraste de la hiptesis nula
bilateral H1: 0 puede realizarse medianteH 0 : = frente a la
el0 estadstico hiptesis n
alternativa
i =1 bilateralnH 1:
A0supuede realizarse
vez, el contrastemediante el estadstico
de la hiptesis nula H0: = 0 frente a la hiptesis alternativa
Laxmedia es la medida de tendencia central ms utilizada y de ms
el0 estadstico
bilateral H1: 0 puede realizarse mediante t= .
s
interpretacin.
n Corresponde al centro de gravedad de los datos de la
x 0
Bajo la hiptesis nula, este estadstico seguir t = aproximadamente
principal . una distribucin t de Student
s limitacin es que est muy influenciada por los valores extre
Bajo la hiptesis nula, este estadstico seguir aproximadamente
con n 1 grados de libertad y, en consecuencia, elnvalor P del contraste una puede
distribucin t de como
calcularse
el rea bajo la curva de esta distribucincaso, para aquellos
puede novalores tanto
ser un fiel o msdedistantes
reflejo de 0 que
la tendencia el de la distribu
central
Student con n - 1 grados de libertad y, en consecuencia, el valor P del contraste
valor observado de t. En general, el planteamiento de una determinada hiptesis nula puede puede
Bajo lade
proceder hiptesis
estudiosnula, este estadstico
previos seguir
o de hiptesis aproximadamente
biolgicas respecto al distribucin t dede las
unacomportamiento
calcularse como el rea bajo la curva de esta distribucin
Ejemplo 1.4 Enpara
esteaquellos
y en losvalores tanto
sucesivos o
ejemplos sobre estimado
80 Student con
Pastor-Barriuso R. n - 1 grados de libertad y, en consecuencia, el valor P del contraste puede
ms distantes de 0 que el valor observado de t. En general,
utilizarn el planteamiento
los valores del colesteroldeHDL
una obtenidos en los 10 pr
calcularse como el rea bajo la curva de esta distribucin para aquellos valores tanto o
determinada hiptesis nula puede proceder estudio de estudios anteriores
European o de
Study onhiptesis
Antioxidants, Myocardial Infarctio
n 539
media poblacional los contrastes de hiptesis pueden resultar un tanto artificiales.
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
Inferencia sobre una media y varianza poblacional
cuya distribucin bajo la hiptesis nula ser t538 o, de forma equivalente, normal
continuacin se describen los principales estimadores de la tendencia central de un
Ejemplo 6.4 Entre los n = 539 controles del estudio EURAMIC con
estandarizada. De la Tabla 3 del Apndice se desprende que la probabilidad de
variables, aunque en el casovariable.
de una nica media poblacional los contrastes de hiptesis pueden
determinaciones
resultar un tanto del colesterol HDL, la media y desviacin tpica fueron x = 1,09
artificiales.
obtener valores superiores a 7,21 en una distribucin normal estandarizada es
1.2.1 Media aritmtica
y s = 0,29 mmol/l. As, el IC al 95% para la media de colesterol HDL en la
Ejemplo 6.4 Entre
virtualmente pornlo=que
nula, los 539elcontroles del estudio
valor P bilateral serEURAMIC con determinaciones
inferior a 0,001. En
del colesterol HDL, laLamedia mediay aritmtica,
desviacindenotada por x ,=se1,09
tpica fueron ys=
define como
0,29lammol/l.
suma de cada uno de los
As,
poblacin de referencia result ser
el IC al 95% para
conclusin, la media
el nivel mediodedecolesterol
colesterolHDL
HDLenenlaesta
poblacin
poblacinde difiere
referencia result ser
valores muestrales dividida por el nmero de observaciones realizadas. Si denotam
significativamente 0,29 (P < 0,001). De hecho, la media poblacional de
1,09 t 538de 1 mmol/l
; 0 , 975 = 1,09 1,960,012 = (1,07; 1,11).
por n el 539 tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..
colesterol HDL se estim en 1,09 mmol/l, con un intervalo de confianza al 95%
Estos datos muestrales tambin
la media se emplearon
vendra dada porpara el contraste bilateral de la hiptesis
Estos
nula Hdatos
0: =muestrales
comprendido 1. Para ello,
entre tambin
1,07 se mmol/l.
seycalcul
1,11 emplearon paradel
el estadstico el contraste bilateral de la

hiptesis nula H0: = 1. Para x 0 1,09 1 x = 1


n
x1 + x 2 + ... + x n
t = ello, se=calcul el estadstico
= 7,21, xdel
i =
contraste .
s 0,29 n i =1 n
6.2.2 Inferencia sobre la varianza de n una poblacin
539
En cuya distribucin
el intersbajo la media
La hiptesis
es lanula noser
medida ttendencia
dela o, dedecentral
forma equivalente,
ms utilizada normal
ocasiones, se centra en estimar slo 538media una variable aleatoria4y de ms fcil
cuya distribucin
estandarizada. De bajo la hiptesis
la Tabla nula serset538desprende
3 del Apndice o, de forma queequivalente,
la probabilidadnormal
de obtener
valoressino
continua, superiores
tambina su 7,21 en unapoblacional.
interpretacin.
varianza distribucin
Corresponde normal
Como al se estandarizada
centro
mostrdeen el es virtualmente
gravedad
Apartado de los delnula,
5.2datos de la muestra. Su
estandarizada. De la Tabla 3 del Apndice se desprende que la
por lo que el valor P bilateral ser inferior a 0,001. En conclusin, el nivel medio de probabilidad de
tema anterior,HDL
colesterol la varianza
en esta principal
muestral
poblacin s2difiere
limitacin es que estinsesgado
es un estimador muy influenciada
significativamente por
dey 1consistente
mmol/l (Plos
de valoresDe
la
< 0,001). extremos y, en es
obtener valores superiores a 7,21 en una distribucin normal estandarizada
hecho, la media poblacional de colesterol HDL se estim en 1,09 mmol/l, con un intervalo es
varianza poblacional
de confianza al 95% 2comprendido
caso, puede novariable
de cualquier ser un
entre 1,07fiel
y reflejo
aleatoria, de la tendencia
siendo
1,11 mmol/l. adems elcentral
estimadorde la distribucin.
virtualmente nula, por lo que el valor P bilateral ser inferior a 0,001. En
insesgado con menor error estndar para distribuciones normales.
6.2.2 conclusin,
Inferenciaelsobrenivellamedio
varianza de una
Ejemplo 1.4 poblacin
de colesterol En
HDL esteenyesta
en los sucesivos
poblacin ejemplos sobre estimadores muestral
difiere
Al igual que ocurra en el caso de una media, los intervalos de confianza y las
En ocasiones, el inters sedecentra
significativamente 1 mmol/len estimar
utilizarn no valores
los
(P < 0,001). sloDela media de
la una
del colesterol
hecho, mediavariable
HDL aleatoria
obtenidos
poblacional continua,
deen los 10 primeros sujeto
sino tambin su varianza poblacional. Como se mostr en 2 el Apartado 5.2 del tema anterior, la
pruebas de hiptesis sobre la varianza poblacional se basan en la distribucin
varianza muestral
colesterol HDLs2 esseun estimador
estim insesgado
estudio
en 1,09 European
mmol/l, ycon
consistente
Study
un intervalode la
devarianza
on Antioxidants, poblacional
Myocardial
confianza 2 de
al 95% Infarction and Cance
cualquier variable aleatoria, siendo adems el estimador insesgado con menor error estndar
muestral de s2. Si la distribucin subyacente de la variable es normal, puede probarse
para distribuciones
comprendido normales.
entre 1,07 y 1,11 the Breast
mmol/l.(EURAMIC), un estudio multicntrico de casos y controles reali
Al igual
que que ocurra(nen el1)s
el estadstico caso
2 de una media,
/ 2 sigue los intervalos
una distribucin de confianza
denominada y las pruebas de
chi-cuadrado con hiptesis
n-
sobre la varianza poblacional 2 entre 1991en
se basan y 1992 en ocho pases
la distribucin Europeos
muestral de s2. eSiIsrael para evaluar el efecto de
la distribucin
subyacente
6.2.2
1 grados de
de la
Inferencia variable
sobre
libertad es normal,
yladenotada
varianza depuede
por una probarse que el estadstico (n 1)s2/2 sigue una
2 poblacin
n 1 ,
distribucin denominada chi-cuadrado con n 1 grados de libertad y denotada por 2n1,
En ocasiones, el inters se centra en estimar no slo la media de una variable aleatoria
(n 1) s 2 2
~ n 1 .
continua, sino tambin su varianza poblacional. 2 Como se mostr en el Apartado 5.2 del
Como
tema puede
anterior, la apreciarse en la Figura
varianza muestral 6.1,
s2 es un la distribucin
estimador chi-cuadrado
insesgado slo
y consistente de toma
la valores
positivos y est sesgada a la derecha. Los grados de libertad de una distribucin chi-cuadrado
determinan su tendencia
varianza poblacional central,
2 de dispersin
cualquier variableyaleatoria,
asimetra:siendo
al aumentar
adems los grados de libertad,
el estimador
aumenta la media y la varianza de la distribucin y disminuye su sesgo a la derecha. En la Tabla5 6
del Apndice se presentan los percentiles de la distribucin chi-cuadrado para distintos grados
insesgado con menor error estndar para distribuciones normales.
de libertad.
Al igual que ocurra en el caso de una media, los intervalos de confianza y las

pruebas de hiptesis sobre la varianza poblacional 2 se basan en la distribucin

muestral de s2. Si la distribucin subyacente de la variable es normal, puede probarse


Pastor-Barriuso R. 81

que el estadstico (n 1)s2/ 2 sigue una distribucin denominada chi-cuadrado con n -


Como
Inferencia puede
sobre medias apreciarse en la Figura 6.1, la distribucin chi-cuadrado slo toma
Como puede apreciarse en la Figura 6.1, la distribucin chi-cuadrado slo toma
valores positivos y est sesgada a la derecha. Los grados de libertad de una distribucin
valores
Comopositivos
puede y est sesgada
apreciarse en la aFigura
la derecha.
6.1, laLos grados dechi-cuadrado
distribucin libertad de una
slodistribucin
toma
chi-cuadrado
0,6 determinan su tendencia central, dispersin y asimetra: al 21aumentar los
2
chi-cuadrado
valores determinan
positivos su tendencia central,Los
dispersin y asimetra: aluna
aumentar los
libertad,y aumenta
est sesgada a la derecha. grados de libertad de distribucin
2

grados de la media y la varianza de la distribucin ydisminuye


2 su
0,5 3

2
grados de libertad,
chi-cuadrado aumenta
determinan su la media ycentral,
tendencia la varianza de la distribucin yaldisminuye su
6 del Apndicedispersin y asimetra: aumentar
de la los
5

sesgo a la derecha. En la Tabla se presentan los percentiles


0,4
sesgo
grados ade
la libertad,
derecha. aumenta
En la Tabla 6 del Apndice
la media y lagrados se presentan
varianza los percentiles
de la distribucin de la su
y disminuye
distribucin chi-cuadrado para distintos de libertad.
distribucin
f(x)a la 0,3
sesgo chi-cuadrado
derecha. para distintos
En la Tabla grados se
6 del Apndice de presentan
libertad. los percentiles de la
[Figura 6.1 aproximadamente aqu]
distribucin 0,2
chi-cuadrado para distintos grados de libertad.
[Figura 6.1 aproximadamente aqu]
A partir de la distribucin n21 del estadstico (n 1)s2/ 2 resulta sencillo calcular
0,1 [Figura 6.1 aproximadamente aqu]
A partir de la distribucin n21 del estadstico (n 1)s2/ 2 resulta sencillo calcular
un intervalo de confianza para la varianza poblacional. El 100(1 - )% de la
un A partir 0dedelaconfianza
intervalo paralan 1varianza
distribucin 2
del estadstico (n 1)s
poblacional.
2
/ 2 resulta
El 100(1 - )%sencillo
de la calcular
distribucin muestral de este estadstico est comprendido entre los percentiles /2 y 1 -
0 2 4 6 8 10 12
un intervalo muestral
distribucin de confianza paraestadstico
de este la varianza poblacional.
est El 100(1
comprendido - )%
entre los de la /2
percentiles y1-
/2 de la distribucin chi-cuadrado con n - 1 gradosx de libertad, denotados por n 1, / 2
2

distribucin muestral de este estadstico est comprendido entre los percentiles /2


/2 6.1
Figura de laFuncin
distribucin chi-cuadrado
de densidad con n - 1chi-cuadrado
de la distribucin grados de libertad,
con 1, 2, 3denotados n 1, / 2
porlibertad.
y 5 grados de
y1-
2 Figura 6.1

y n 1,1 / 2 ,
2
1.2 MEDIDAS DE TENDENCIA CENTRAL
y /2 2de la distribucin chi-cuadrado con n - 1 grados 2de2 libertad, denotados por n21, / 2
A partir de
n 1,1 / 2 ,
la distribucin 2
n1 del estadstico (n 1)s / resulta sencillo calcular un intervalo
de confianza para la varianza Las medidas
poblacional. (n 1El de tendencia
) s 100(1
2 )% central
de lainforman
distribucin acerca de culdeeseste
muestral el valor ms repre
y 2
, P 2
< < 2
= 1 .
estadstico
n 1,1est
/ 2 comprendido entre los percentiles 12)2s 2 /2 y 1 /2 de la distribucin chi-cuadrado
n 1, / 2 n 1 ,1 / 2

con n 1 grados de libertad, denotados


2de una determinada(npor variable
y 22 o,, dicho de forma equivalente, estos estimadores i
P n 1, / 2 < < n 1,n1,1/2
n1,/2 1 / 2 =1 .
2 2

Manipulado esta desigualdad 2alrededor
para ( n de
despejar 1 )
qus lavalor 2 se agrupan los datos observados. Las medidas de tenden
P n 1, / 2 < 2
< n 1,1 / 2 = 1 . se obtiene que
varianza poblacional,

Manipulado esta desigualdad para despejar
central de la muestra la varianza
sirvenpoblacional,
tanto para resumir se obtiene que
los resultados observados como
Manipulando esta desigualdad (para n 1) s despejar
2 la varianza
(n 1) s 2poblacional,
se obtiene que
Manipulado esta desigualdad P para < 2 <la varianza
despejar =1 ;
realizar inferencias acerca poblacional,
2 de los parmetros se obtiene que
poblacionales correspondientes. A
(nn 1,11)s/22
2 2
2 ( n
n 1
1 ,) s/ 2
=1 ;
P 2 < < 2

continuacin
n 1 ,1 / 2
2 se describen
n 1, / 2 2 los
principales estimadores de la tendencia central d
( n 1)
para la varianzas ( n 1 ) s 2
=21 viene
es decir, el IC al 100(1 - P)% < < poblacional
2
; determinado por
es decir, el IC al 100(1 )% para
2 la varianza poblacional
2 viene determinado por
variable.
n 1,1 / 2 n 1, / 2
es decir, el IC al 100(1 - )% para la varianza poblacional 2 viene determinado por
2 2 2
intervalos de confianza para [(n 1)s no/ son n 1,1simtricos
2
/ 2 , (n 1)s
2
alrededor/ n21, de/ 2 ],s , particularmente
es decir, el IC al 100(1 - )% 1.2.1
para2Media la varianza aritmtica poblacional 2
2
viene determinado por
cuyos lmites pueden [(n a1)s
calcularse partir/ n2de / 2 ,datos
1,1los (n 1)s observados / n21, / 2en ], la muestra. A diferencia de
cuando el tamao muestral es reducido.
cuyos lmites pueden
los intervalos de confianza paraLa calcularse , que
mediaa partir
estn de
aritmtica, los datos
centradosdenotada observados
alrededor de x ,en
por selaintervalos
,los muestra.
define como A confianza
de la suma de cada uno de l
2 2
para Deno sonforma,
simtricos [(n
alrededor 1)s / 2
2 / 2 , (n 1)s / n 1, / 2 ],
sde, particularmente
de determinada
2
cuando
nulaenHla0el: muestra.
tamao
= 0 Amuestral
frente a es
2 2 2
cuyos igual
lmites pueden el calcularse
contraste de una
a partir n 1,1
los datoshiptesis observados
diferencia de los intervalos de
reducido. confianza
valores muestrales para dividida
, que estn porcentrados
el nmeroalrededor de x , losrealizadas. Si deno
de observaciones
cuyos lmites
diferencia
Dehiptesis
la igual forma,pueden
dealternativa
los calcularse
elintervalos
contraste de una
bilateral Ha 1partir
confianza 2 delos
determinada
: tamao ,hiptesis
2 datos observados en2 la muestra.
para
0 puedeque realizarse
estnnula
centrados
0: =alrededor
Hmediante 02 el
frente Ala xhiptesis
ade
estadstico, los
por n el muestral y por x i el valor observado para el sujeto i-simo, i =
alternativa bilateral H1: 0 puede realizarse mediante el estadstico
2 2

diferencia de los intervalos de confianza para , que estn centrados alrededor de x , los
la media vendra
2 (n dada
1) s 2por
=
2
, 6
0
1 n x + x 2 + ... + x n 6
x = xi = 1 .
que bajo H sigue una distribucin chi-cuadrado con n - 1 n i =1 de libertad. As,
grados n el
82 Pastor-Barriuso R. 0 6

valor P del test se obtiene como


Laelmedia
doblees
dellarea a la de
medida izquierda de este
tendencia estadstico
central bajo y de ms fcil
ms utilizada
s2 > 02 . Eslaimportante
distribucin notar
n21que,
, si ssi2 la distribucin
2 subyacente dista mucho de ser
0 , o como el doble del rea a la derecha del estadstico, si
menos fiables que para la media, en cuyo caso conviene proceder con cautela.
normal, los 2intervalos de confianza y los contrastes para la varianza poblacional
Comparacin de medias sonen dos muestras independientes
s > 02 . Es importante notar que, si la distribucin subyacente dista mucho de ser
menos fiables que para la media, en cuyoEjemplo caso conviene 6.5 Utilizando
procederlacon cautela. tpica s = 0,29 mmol/l del colesterol HDL
desviacin
normal, los intervalos de confianza y los contrastes para la varianza poblacional son
que bajo H0 sigue una distribucin chi-cuadrado con n 1 grados de libertad. As, el valor P del
en los n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacio
test se obtiene como el doble del rea a la izquierda de este estadstico bajo la distribucin 2n1,
Ejemplomenos fiables que paradesviacin
la media, tpica en cuyo=caso 0,29conviene proceder con cautela.
si s2 6.5
0Utilizando
2
, o como elladoble del rea a la sderecha mmol/l del
del estadstico, colesterol
si s2 >HDL 02 . Es importante notar
viene determinado por
que, si la distribucin subyacente dista mucho de ser normal, los intervalos de confianza y los
n = 539 controles
en loscontrastes para6.5 del EURAMIC,
la Utilizando
varianza poblacional el ICson al 95% menosparafiables
la varianza que parapoblacional
la media, HDL en cuyo caso
Ejemplo la desviacin tpica s =2 0,29 mmol/l del colesterol
2
conviene proceder con cautela. (5380,29 / 2
538; 0 , 975 , 5380,29 / 2
538; 0 , 025 )
viene determinado por
en los n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacional
Ejemplo 6.5 Utilizando la desviacin tpica s==(45,25/604,16; 0,29 mmol/l del 45,25/475,62)
colesterol HDL = (0,075;
en los0,095),
2 2
n(5380,29
= 539
viene / 538;0,975por
2
controles
determinado , 5380,29
del EURAMIC, / 538;0el
2
) al 95% para la varianza poblacional viene
, 025IC
determinado por ya que los percentiles 2,5 y 97,5 de la distribucin chi-cuadrado con 538 grado
= (45,25/604,16; 2 2 45,25/475,62) 2 =2(0,075; 0,095),
(5380,29 / 538;0,975 , 5380,29 / 538;0,025 )
de libertad son respectivamente 538 2
; 0 , 025 = 475,62 y 538; 0 , 975 = 604,16. As, el
2

= (45,25/604,16; 45,25/475,62) = (0,075; 0,095),


ya que los percentiles 2,5 y 97,5 de la distribucin chi-cuadrado con 538 grados
ya que los percentiles 2,5aly 97,5 95% de para la desviacinchi-cuadrado
la distribucin tpica del colesterol con 538 gradosHDL endelalibertad
poblacin de referenc
de libertad son son respectivamente 538 2
; 0 , 025 = 475,62 y 2
538; 0 , 975 = 604,16. As, el
el ICIC al 95% para la
ya que los percentiles 2,5esy 97,5 de la distribucin chi-cuadrado con 538 grados
desviacin tpica del colesterol HDL en la poblacin de referencia es
al 95% para Para determinartpica
la desviacin si los del niveles
colesterol de colesterol
2 HDL enHDL en los2controles
la poblacin de referencia del EURAMIC
de libertad son respectivamente 538 025 = 475,62 y 538; 0 , 975 = 604,16. As, el IC
( 0,075 ; 0;0,,095 ) = (0,27; 0,31).
es son compatibles con una desviacin tpica poblacional de 0,30 mmol/l, se
Para
al 95% determinar si los niveles
para la desviacin tpicade delcolesterol
colesterolHDL HDLen enlos controles de
la poblacin delreferencia
EURAMIC son
compatibles con una desviacin tpica poblacional 2 2 de 0,30 mmol/l, se contrast
( 0,075 ; contrast (0,27; 0,31). la hiptesis nula H0: = 0,30 mediante el estadstico
0,095 ) =bilateralmente
bilateralmente la hiptesis nula H0: 2 = 0,302 mediante el estadstico
es

( 0,075 ; 0,095 ) = (0,27; (n 1) s 2 538 0,29 2


2 = 0,31). = = 502,73.
02 0,30 2
1.2 MEDIDAS
1.2 MEDIDAS DE TENDENCIA
DE TENDENCIA CENTRAL
CENTRAL 7
Como s < 0, el valor P corresponde a 2P( 2
1.2538 502,73)
MEDIDAS
1.2 MEDIDAS =DE 20,140 = 0,280; es
TENDENCIA
DE TENDENCIA decir,
CENTRAL el
CENTRAL
contraste
Como 0result
s <no , Las estadsticamente
el valor P
medidas corresponde
Las medidas
de tendencia a 2P(
de tendencia
significativo,
central
2

central
538 careciendo
502,73)
informan
informan= entonces
20,140
acerca acerca = de evidencia
0,280;
de cul
de cul es
es el es
valor para
el valor
ms ms
representativo
representat
rechazar la hiptesis nula. La conclusin de este contraste es consistente con el intervalo 7
de confianza para , Las medidas
Las medidas
de
detendencia
de tendencia
central
central
informan
informan
acerca
acerca
de cul
de cu
es
decir, el contraste dedado
de una
no queestadsticamente
result stevariable
determinada
una determinada incluye el
o, valor
variable dicho nulo
o, dicho 0 =
de forma
significativo, 0,30
forma mmol/l.
equivalente,
equivalente,
careciendo estosestos
entonces estimadores
estimadores
indican
indican
de unade determinada
una determinadavariable
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
equivalene
alrededor
de evidencia para alrededor
de qu
rechazar lade valor
qu valor
senula.
hiptesis agrupan
se agrupanlos datos
los datos
La conclusin observados.
observados.
de este Las medidas
contraste Las
es medidas
de tendencia
de tendencia
6.3 COMPARACIN DE MEDIAS EN DOS MUESTRAS
alrededor
alrededor deINDEPENDIENTES
de qu valor
qu valor
se agrupan
se agrupanlos datos
los datos
observados.
observados.
Las mL
consistente concentral
central
de lade
el intervalo muestra
delaconfianza
muestra
sirven
sirven
tantotanto
para ,para
dadopara
resumir
queresumir
losincluye
ste resultados
los resultados
observados
el valor observados
comocomo
para para
Hasta ahora se han revisado las tcnicas estadsticas para realizar inferencias sobre el valor de
central
central
de lademuestra
la muestra
sirven
sirven
tantotanto
parapara
resumir
resumir
los resultados
los resulta
un parmetro
nulo 0 en unarealizar
= 0,30 poblacin.
realizar
mmol/l. Sin embargo,
inferencias
inferencias
acercauna
acercasituacin
de los muchopoblacionales
deparmetros
los parmetros mspoblacionales
frecuente en correspondientes.
la prctica A A
correspondientes.
es la comparacin de un determinado parmetro entre dos poblaciones distintas. En este apartado
realizar
realizar
inferencias
inferencias
acercaacerca
de losdeparmetros
los parmetros
poblacionales
poblacionale
co
se presentan los mtodos para comparar
continuacin
continuacin la media
se describen
se describen poblacional
los principales
los principalesdeestimadores
una variable
estimadores de lade cuantitativa
tendencia
la tendencia acentral
central de una
de una
partir de dos muestras independientes, donde las observaciones de una muestra no estn
continuacin
continuacin
se describen
se describen
los principales
los principales
estimadores
estimadores
de ladete
6.3 COMPARACIN
relacionadas DE
o emparejadas
variable. MEDIAS EN DOS MUESTRAS
con las observaciones
variable. INDEPENDIENTES
de la otra muestra.
En adelante, la media y la varianza de la variable aleatoria
variable.en la primera poblacin se denotan
variable.
Hasta
por 1 ahora
y 12, yseenhan revisado
1.2.11.2.1
la segunda lasMedia
Media tcnicasporestadsticas
aritmtica
poblacin 2 y 22. Elpara
aritmtica realizar
objetivo inferencias
se centra sobrelaeldiferencia
en estimar
entre ambas medias poblacionales 1 2 a partir de dos muestras independientes de dichas
1.2.11.2.1
Media Media
aritmtica
aritmtica2
valor de un parmetro
poblaciones Laen
de tamaos una
media
nLa poblacin.
media
aritmtica, Sin
aritmtica, embargo,
denotada por una
denotada xpor situacin
, sexdefine mucho
, se define
como la ms
como
1 y n2 con medias respectivas 1 y 2 y varianzas s1 y s2 .
suma
la 2suma
de cada
de cada
uno de
unolos
de los
Como cabra esperar, el estimador puntual es laLa media
La media
diferencia aritmtica,
aritmtica,
de las denotada
medias denotada
muestrales x 1,sex 2define
por por , se
quedefine
comocomo la suma
la s
frecuente en la prctica es
valores lamuestrales
comparacin
valores muestrales dedividida
divididaunpor
determinado
elpor
nmero parmetro
el nmero entre dosrealizadas.
de observaciones
de observaciones realizadas.
Si denotamos
Si denotamos
representa adems un estimador insesgado y consistente de la diferencia subyacente 1 2 en la
poblacin. Para realizar inferencias sobre esta valores
valores
diferencia muestrales
muestrales
de medias dividida
dividida
por el
poblacionales, por
nmero
es elnecesario
nmero de observaciones
de observacion r
poblaciones distintas.
porEnnpor
este
n apartado
el tamao
el tamaosemuestral
presentan
muestral los
i el mtodos
y poryxpor xvalor
i el valorpara
observadocomparar
observado el la
para para media
sujeto
el i-simo,
sujeto i-simo,
i = 1,i ...,
= 1,n,..., n
por npor
el ntamao
el tamao
muestral y pory xpor
muestral el xvalor
i el valor
observado
observado
parapara
el su
poblacional de una variable
la media cuantitativa
la media
vendra
vendra a dada
dada partir de dos muestras independientes, idonde
por por
Pastor-Barriuso R. 83
la media
la media
vendra
vendra
dadadada
por por
las observaciones de una muestra no estn relacionadas no emparejadas con las
1 1 n
x1 + x12 ++ x...2 ++ x...n + x n
x = x= x i
= xi = . .
distribuciones
centraltamaos
del lmite),normales N(1, muestrales
las medias n12 /n continuacin
1) y N(x
continuacin
, x222 /n se describenseaproximadamente
2), respectivamente.
describen
los principales
los
As, principales
allas estimadores
tratarse estimadores
de la tendenc
de la ten
ambos muestrales n y son 1 2y
suficientemente seguirn grandes (recurdese el la
teorema
de muestras independientes (vase Apartado 3.4), la distribucin
variable.
variable. 1 2 muestral de
de muestras independientes variable. variable.
N((vase Apartado x12y,3.4), la2),distribucin muestral de la
Inferencia sobre medias
distribuciones
central
diferencia del de normales
lmite),
medias lastambin
medias 12 /n
1,muestrales
ser 1) y N(
aproximadamente x 222 /n
seguirn respectivamente.
normal con media As, allastratarse
aproximadamente
1.2.11.2.1
Media Media aritmtica
aritmtica
diferencia de medias tambin(vase
de muestras independientes ser aproximadamente
1.2.1 Media 1.2.1 2 Media normal
laaritmtica con media
aritmtica
distribuciones normales N(E( 1x, -12 x/nApartado
) = E( x )
3.4),
- E( x )
distribucin
1) y N(2, 2 /n2), respectivamente. As, al tratarse
= -
muestral de la
Laconocer
media
La media aritmtica,
la aritmtica,
distribucin denotada
denotada
muestral por x 1,se
de1por 2x define
,2. Si
se ambos
define1como comola2suma
tamaos lamuestrales
suma
1de cada 2de cadauno
n1 y nuno
de losde los
2 son suficientemente
grandes
diferencia(recurdese el
deindependientes teorema
medias tambin central
x1ser
E((vase La
del
- x 2aproximadamente media
) = E( x1 )3.4), La
lmite), media
- E(2laaritmtica,
las aritmtica,
medias
)normal
= 1 - con
x 2 distribucin denotada media depor
denotada
muestrales por x , se xdefine
1 y
, se define
como como
2 seguirn
la suma la suma
de ca
de
valores muestras
valoresmuestrales
muestrales dividida
divididapor elpornmero Apartado
elnormales
nmero de observaciones
de observaciones realizadas.
2 2 muestral
realizadas. Si denotamos
Si denotamosla
aproximadamente
y varianza las distribuciones N( 1, 1 /n1) y N(2, 2 /n2), respectivamente. As, al
valores
tratarse de muestras independientes (vase Apartado 3.4), la distribucin muestral valores
muestrales muestrales dividida dividida
por el por
nmero el nmero
de la de observaciones
de observaciones
diferencia realizadre
diferencia de medias tambinE( xser- x aproximadamente
) = E( x ) - E( x normal
) = - con
media
denpor
por mediasntamao
yelvarianza
el tambin
tamaomuestral
muestral y pory xpori elxvalor
ser aproximadamente 1
i el valor
2 observado
normal observado
1
con para para
media
2 el sujetoel sujeto
1 i-simo,
2 i-simo,i = 1,i =...,1,n,..., n,
var( x1 - x 2 ) = var( xpor 1 ) + n var(
por
el xn
tamao
2 )
el =
tamao 2
/n
muestral
1 1 +
muestral
y2
2 /n
por . x
2 i por
y el valorxi el valor
observado
observado
para elparasujeto
el sui
la media
lay mediavendra
varianza vendradadadada por por E( x1 x 2 ) = E( x1 ) E( x 2 ) = 2 1 2 2
var( x1 - x 2 ) = var( x1 ) + var( x 2 ) = 1 /n1 + 2 /n2.
la media la media
vendra vendra
dada por dada por
En
y varianza consecuencia, se tiene que
yEn varianza x1x2 )
n
1 n xx1 )++xx1var( 2++x... 2x +)...x n+ x2n/n + 2 /n .
consecuencia, se var( x1x=
tiene que
== xvar(
i = xi =
n i =1n i =1
1
n n 2
2 = . 1 .1 2 2
1 n 1 n x1 + xx2 1++...x 2+ +x n... + x n
En consecuencia, se tiene que x1 x 2 ~ N , 1 + 2 2
x = x=x i = xi = . .
1 2
n i =1 n i =1 n n
2 1 n/n 2 + 2 /n2.
2 2
En consecuencia, var( se tienex1 - que
x 2 ) = var( x1 ) + var( x 2 )n=
~ 11 22 1
La media
La media es laesmedida
la medida dextendencia
1 x 2 central
de tendencia N
central
ms 1 ms 2 , utilizada
utilizada + y deyms de ms
fcilfcil
La media n
La media es
1
la nmedida
2
es la medida
de tendencia
de tendencia centralcentral
ms utilizada
ms utilizada
y de my
En
o, consecuencia,
aplicando la se tiene que de una
estandarizacin ~
distribucin 2
normal, 2

interpretacin.
o, interpretacin.
aplicando laCorresponde Corresponde al centro
xal centro
x 2de gravedad
de gravedad de los 1de+datos
los datos
2
de lademuestra.
la muestra. Su Su
estandarizacin 1 una
de N 1 interpretacin.
distribucin normal,
interpretacin.
2,
n n
Corresponde Corresponde al centro
al centro
de gravedad
de gravedad
de losde datos
los da
de
o, aplicando la estandarizacin de una distribucin normal,
1 2
principal
principal limitacin
limitacin es que es que
est est
muy x1 muy
influenciada
x ~influenciada
( 1 por los
por valores
2 ) ~ 1
2
losvalores
2 extremos
2
extremos y, eny,este en este
x1 x 2 2 1 principal
Nprincipal
2limitacin
, N (+limitacin
0, 1)es . queesest que muy
est influenciada
muy influenciada
por losporvalores
los valoex
o, aplicando la estandarizacin x de
xuna
2
( 1 22 2 ) ~nnormal,
distribucin
1 n2
caso,caso,
puede puedeno serno un serfiel
un reflejo
fiel reflejo
de ladetendencia
1 2 la tendencia
1
+ central central
de N (la 0de
, distribucin.
1)la. distribucin.
n
1 2
1 2 caso, n 22 puede
caso, puede
no ser no
unser fielunreflejo
fiel reflejo
de la tendencia
de la tendenciacentralcentral
de la distrib
de la
o, aplicando la estandarizacin x1 de xuna +
distribucin
( 1n 2para normal,
2 )la~comparacin
Esta distribucin muestral constituye 2n la
1 base sobreN (sobre de dos medias poblacionales
1) . estimadores
0,estimadores
Ejemplo Ejemplo 1.4 En 1.4esteEn estey enylos en sucesivos
los sucesivos ejemplos ejemplos muestrales,
muestrales, se se
a partir de muestras
Esta distribucin independientes.
muestral constituye No 1obstante,
2
la
2base
2 parapara hacer
la1.4 uso de este de
comparacin resultado,
dos es necesario
medias
+ Ejemplo Ejemplo En 1.4este En y este
en los
y ensucesivos
los sucesivos
ejemplos
ejemplos
sobre sobre
estimae
estimar previamente las varianzas x 1 x 2n ( 1n
desconocidas 2 1) y de ambas poblaciones. La estimacin
2 2
utilizarn
Esta utilizarnlos valores
distribucin los valores del colesterol
muestral delconstituye
colesterol 1HDL HDL
la 2obtenidos
baseobtenidos~
para
No Nen
2
la ,losen
1) .10
comparacin
(0obstante, losprimeros
10 primeros sujetos
de 2dos sujetos
mediasdel del
poblacionales
se simplifica a partir desimuestras
notablemente se asumeindependientes. para delhacer = uso
colesterol deHDL esteHDL
1que las22 dos varianzas losson iguales 2 , en cuyo caso obtenidos
2
2
utilizarn utilizarn valoreslos valores 1 del colesterol obtenidos en losen 10lo
es posible obtener una estimacin combinada + de la varianza comn para ambas poblaciones.
estudio estudio
poblacionales Europeana partirStudy
European de2 Study
on Antioxidants,
muestras on Antioxidants,
independientes.
n1 poblacional Myocardial
nla2 base Myocardial Infarction
Nolaobstante, Infarction
paraand and
Cancer
hacer Cancer
2 uso
of
de
2 este
of
elEsta
Porresultado, distribucin
contrario si 12 muestral
es necesario , cadaconstituye
2estimar varianza
previamente las para
varianzas
estudio estudio
comparacin
deber
European estimarse
desconocidas
European
depor
Study Study
on dos medias
separado,
yon 2 de siendo
Antioxidants,
1Antioxidants, Myocardial
MyocardialInfarctI
entonces ms
the Breast impreciso
the Breast (EURAMIC), el
(EURAMIC), proceso
un estudiode inferencia.
un estudio multicntrico Parece
multicntrico razonable
de casos de casos pensar
y controles
y controlesque la comparacin
resultado,
poblacionales
de ambas
medias es es
ms necesario
acomplicada
partir estimar
de muestras previamente
enconstituye independientes.
distribuciones las
convarianzasNo obstante,
distinta desconocidas
variabilidad para hacer
querealizado
2
y realizado
1 uso de
enmedias
2
2 de este
distribuciones
Estapoblaciones.
distribucin La estimacin
muestral se simplificala base the notablemente
para thelaBreast
Breast comparacin
(EURAMIC), si se asume
(EURAMIC),de dosque
un estudio
un lasestudio
dos
multicntrico
multicntrico
de casosde ca
y
con entre
una entre
misma
1991 1991varianza.
y 1992 y 1992en La igualdad de varianzas no es una asuncin puramente terica, sino
ambas
resultado, poblaciones.
es necesario La ochoen ochopases
estimacin pases
Europeos
se Europeos
simplifica e Israel e Israelparapara
notablemente evaluar evaluar
si seelasume
efecto
el efecto

de los
2que de
las
los
2 dos
quepoblacionales
tiene implicaciones deestimar
a partirprcticas muestras previamente
como puede
independientes. las
entre varianzas
apreciarse No en
1991
entre desconocidas
el
obstante,
y1991
1992 siguiente
y enpara
1992 ejemplo.
hacer
ochoen y pases
1 uso
pases
ocho 2 de
de este
Europeos Europeos
e Israele Israel
para evalu
para
9
ambas
Ejemplo
resultado, poblaciones.
es6.6
necesarioEnLa estimacin
elestimar
ensayo previamente
clnicose simplifica
del Ejemplo notablemente
las varianzas 6.2 sedesconocidas
pretende si se asume 12 que
comparar las
y las de5 5 de
2 dos
2 medias
presin arterial sistlica entre el grupo placebo y el grupo bajo tratamiento antihipertensivo. 9
ambas Si este tratamiento
poblaciones. Laprodujera
estimacin unasereduccin
simplificadel nivel de presin
notablemente si searterial
asume aproximadamente
que las dos
igual en todos los pacientes, cabra esperar que la distribucin de la presin arterial en9los
tratados presentara un nivel medio inferior que en el grupo placebo manteniendo
inalterable la variabilidad. En tal caso, estaramos ante una comparacin de medias 9 en
distribuciones con igual varianza (Figura 6.2(a)). En caso contrario, si el tratamiento
produjera una disminucin de la presin arterial sistlica proporcional al nivel basal de
cada paciente (esto es, mayor reduccin en los sujetos con niveles ms altos), la presin
arterial en el grupo tratado tendra menor nivel medio y dispersin que en el grupo placebo.
Bajo esta circunstancia, nos encontraramos con una comparacin de medias en
distribuciones con distinta varianza (Figura 6.2(b)).

84 Pastor-Barriuso R.
Comparacin de medias en dos muestras independientes

Tratamiento Placebo

trat plac
(a) Efecto constante

Tratamiento Placebo
6.3.1 Comparacin de medias en distribuciones con igual varianza

Si se asume que las varianzas poblaciones son iguales 12 = 22 , resulta natural estimar

una nica varianza combinada a partir de la informacin disponible en ambas muestras.


trat plac
As, se obtendr un estimador ms estable de la varianza poblacional, lo que redundar
(b) Efecto proporcional
en una mayor precisin de la estimacin de la diferencia de medias y en una mayor
Figura 6.1
Figura 6.2 Distribucin de la presin arterial sistlica en los grupos placebo y tratamiento de un hipottico
ensayo clnico asumiendo un efecto constante (a) o proporcional (b) del tratamiento antihipertensivo.
potencia del contraste.

6.3.1 LaComparacin de mediasmuestrales


media de las varianzas en distribuciones
s12 y s 22 con igual
podra varianza
utilizarse como estimador
Si se asume que las varianzas poblacionales son iguales 12 = 22, resulta natural estimar una
combinado
nica varianzade la varianza.
combinada Esta media
a partir de la es, sin embargo,
informacin ineficiente
disponible en ya que otorga
ambas el As, se
muestras.
obtendr un estimador ms estable de la varianza poblacional, lo que redundar en una mayor
mismo peso a ambas varianzas muestrales, aun cuando la varianza estimada a partir de
precisin de la estimacin de la diferencia de medias y en una mayor potencia del contraste.
La
unamedia de las
muestra varianzas
mayor muestrales
sea ms fiable. Para s22 podra
s12 ydar utilizarse
ms peso como estimador
a los resultados combinado
obtenidos con de
la varianza. Esta media es, sin embargo, ineficiente ya que otorga el mismo peso a ambas
varianzas muestrales,
mayor tamao aun cuando
muestral, la varianza
la estimacin estimada
combinada dealapartir de una
varianza muestracomo
se obtiene mayorlasea ms
fiable. Para dar ms peso a los resultados obtenidos con mayor tamao muestral, la estimacin
combinada
media dedesla
2 varianza
2 se obtiene como la media de s12 y s2grados
1 y s 2 ponderada por sus correspondientes
2
ponderada por sus correspondientes
de libertad
grados de libertad

(n1 1) s12 + (n 2 1) s 22
s2 =
n1 + n 2 2
n1 n2

( xi x1 ) 2 + ( x j x 2 ) 2
i =1 j =1
= .
n1 + n 2 2
El numerador de s2 es simplemente la suma de las desviaciones al cuadrado respecto de la
El numerador
media de s2 yeselsimplemente
de cada grupo, la corresponde
denominador suma de las desviaciones
al nmero dealgrados
cuadrado respectopara
de libertad de el
clculo de este estimador: n1 1 grados de libertad en la primera muestra y n2 1 en la segunda,
(n1 la media
1) + (n2de cada
1) = ngrupo, y el denominador corresponde al nmero de grados de libertad
1 + n2 2.

para el clculo de este estimador: n1 1 grados de libertad en la primera muestra y n2


Pastor-Barriuso R. 85
1 en la segunda, (n1 1) + (n2 1) = n1 + n2 2.

En la distribucin muestral de la diferencia de medias, las varianzas desconocidas


A partir
de la diferencia de esteyaresultado,
de medias y siguiendo
no ser normal, un procedimiento
sino que anlogo al utilizado
seguir aproximadamente una para una
Inferencia sobre medias
distribucin media
t de la(Apartado
deStudent con n5.3.2),
diferencia n2 puede
+ medias
1de yaderivarse
2 grados un intervalo
de libertad,
no ser normal, de confianza
sino que al 100(1 - )% para
seguir aproximadamente una

la diferencia
distribucin detmedias
En la distribucin dex1 Student
poblacionales
x 2 ( con
muestral 1 den1la + n~ 2 1 -2grados
2 ) diferencia
2 comode libertad,
de medias, las varianzas desconocidas 12 y 22
t n1 + n2 2 .
pueden entonces sustituirse
de la diferencia de medias 1 por ya 1 la noestimacin
ser normal, combinada
sino quede la varianza
seguir s2. Sin embargo,
aproximadamente unacomo
s
esta estimacin s est sujeta al error + del muestreo, la~1distribucin de la diferencia de medias ya
n1 x1n2 xx12 xt 2n1 +n2(2,11 /2 2s)
2
1
nodistribucin
ser normal,t de sinoStudent
que seguir t n1 + n2 2, .
+ t de Student con n1 + n2 2
conMEDIDAS
1.2 naproximadamente
1 + n2 1 2 DE grados
1 TENDENCIA una
de distribucin
n1libertad, n 2 CENTRAL
grados de libertad,
1.2 MEDIDAS DE TENDENCIAn1CENTRAL s +
n2
A partir de este resultado, y siguiendo un procedimiento anlogo al1.2
1.2 MEDIDAS utilizado
MEDIDAS para una
DE TENDENCIA
DE TENDENCIA
que est centrado alrededorLas de medidas x 2 de( tendencia
lax1diferencia 1de 2 ) ~central
medias muestrales informan y cuyaacerca amplitudde cul CENTRALes el CENTRAL
valor ms represen
Las medidas de tendencia central informan t n1 + n2 2 .
media (Apartado 5.3.2),
A partir depuede derivarse
este resultado, un intervalo
y siguiendo 1 un 1 acercaalde100(1
de confianza
procedimiento
cul es
anlogo - el )% valor ms representativo
al para
utilizado para una
de una determinada s + variable o, dicho detendencia
forma equivalente, estos estimadores indic
depende de su error estndar SE( x1 - xn2 1) = sn 2 1 / n1 + 1 / n 2 . Notar que este central Las medidas
Las medidas de de tendencia intervalocentral
informan
es informan acerca acerca
de cul de es
c
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
la diferencia demedia
medias poblacionales
(Apartado 5.3.2),alrededor1 - 2 como
puede derivarse
de un un
quprocedimiento
valor intervalo
se unaagrupan de confianza
los datos 100(1 - )%
alobservados. Las para medidas de tendencia
A partir de este resultado, y siguiendo de dedeterminada
una
anlogo determinadaal variable
utilizado variable
o,
paradichoo,
una dicho
de forma
media de forma
equivalente,
equivale
una generalizacin
alrededor de puedebastante
qu valor natural
se agrupan del intervalo
los datos para la media de una poblacional.
(Apartado
Alapartir 5.3.2),
de este deresultado, derivarsey siguiendo un intervalo un deobservados.
procedimiento confianzaanlogo alLas100(1medidas )%depara
al utilizado tendencia
la diferencia
para una
diferencia medias poblacionales
central de la 1 - 2 como
muestra sirven
alrededor tanto
alrededor de paraqu deresumir
valor
qu valor
se los resultados
agrupan
se agrupanlos datosobservados
los datos como Las
observados.
observados par
de medias poblacionales 1 2 como 1 1
x 1 x 2 t
central de la muestra sirven tanto paran + n 2 ,1 / 2 s + resumir , los resultados observados como para
del - )% para
1 2
media (Apartado
Ejemplo 6.7 En 5.3.2),el estudiopuedeEURAMIC, derivarse n1 un nla2intervalo
media y la dedesviacin
confianza tpica al 100(1
realizar inferencias acerca central de 1los
central
de la parmetros
1demuestra
la muestra poblacionales
sirven sirven
tantotanto paracorrespondientes.
resumir
para resumir los A
los resultadosresul
realizar inferencias acercax1de los x 2 parmetros
t n1 + n2 2,1 / poblacionales
2 s + , correspondientes. A
colesterol HDL
la diferencia los nca = 462 casos
entrepoblacionales - 2decomo infarto 1 de n
ncuya miocardio fueron x ca =
que est centrado alrededorde demedias
la diferencia continuacin de medias se1muestrales
describen realizarlos principales
yrealizar amplitud
2
inferenciasinferencias estimadores
acerca de losdeparmetros
acerca la
lostendencia
parmetros central
poblacionales de unc
poblacion
continuacin se describen los principales
que est centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de estimadores de la tendencia central de una
0,98 y sca = 0,25 mmol/l, y entre los nco = 539 controles fueron seyxdescriben
co = 1,09 y sco =
que est
depende de su error centrado
estndar x1 xvariable.
SE(alrededor 2 ) =de s la1 /diferencia
n1 + 1 / n 2 de continuacin
medias
. Notar continuacin
1 muestrales
que este1 se describen
intervalo cuya es unalos principales
amplitudlos principales
generalizacin estimadores
estimadores de la dt
variable.
bastante natural del intervalo para x 1 x
la2media t n1 + nde 2 2 ,una s
1 / 2poblacin. + ,
0,29 mmol/l. De estos datos se deduce que la n1 n 2 puntual de la diferencia
estimacin
una generalizacindepende de sunatural
bastante error estndar
del1.2.1 intervalo SE(
Media xpara xla
1 - aritmtica = s variable.
2 ) media / n1una
1 de variable. n 2 . Notar que este intervalo es
+ 1 /poblacional.
Ejemplo
1.2.1
en el Media
nivel 6.7 En el
aritmtica
medio deestudio
colesterol EURAMIC, HDL es la x camedia
- x co y=la0,98 desviacin
- 1,09 =tpica -0,11del colesterol
mmol/l. Si HDL
que est
entre centrado
los n
una generalizacin ca = alrededor
462 casosLa de
media
de la diferencia
infarto
bastante natural del intervalo aritmtica,
de de
miocardio medias
denotada
1.2.1
para fueron
1.2.1
Media muestrales
por Media
la media x , se
=
aritmtica
ca de 0,98 y
define cuya
aritmtica y s
como
una poblacional.
ca
amplitud
= la
0,25 suma
mmol/l, de cada y uno de los
Ejemplo 6.7La En el
media
entre estudio
los naritmtica, EURAMIC,
= 539 controles denotada la
fueronmedia
por x co, se y la
= 1,09 desviacin
define y scomo = 0,29 tpica
la suma del
mmol/l. de De cada unodatos
estos de los se deduce
asumimoscouna misma variabilidad del colesterolco HDL en casos y controles, la
que ladeestimacin
depende su error estndar valores
puntual de muestrales
SE(laxdiferencia
1 - x 2 ) = en dividida
s La el nmedia
1 /nivel por
1 La
+ 1medio el
media nmero
/ aritmtica,
n 2 . de aritmtica,
Notar de
colesterol
que observaciones
denotada denotada
esteHDL pores xpor
intervalo realizadas.
ca, se
esxdefine
, se
co = defineSi denotam
como como
la sum l
colesterol HDL
valores
0,98
es entre
Ejemplo
1,09
decir, los
la = n
6.7
muestrales 0,11=
desviacin 462
caEndividida
elmmol/l.casos
estudio
tpica por de
Si infarto
EURAMIC,
el nmeroesde
asumimos
combinada de miocardio
la
una
s media
=observaciones
misma
0 , 074 fueron
y lavariabilidad
=desviacin
0,272 x =
realizadas.
cammol/l, tpica
del Si del
cuyodenotamos
colesterol HDL en
varianza combinada de ambas muestras vendra determinado por
una casos y controles,
generalizacin la varianza
bastante n el combinada
por natural tamao muestral
del intervalo de ambas y por
valores
para valores ximedia
muestras
la el muestrales
muestrales valor deobservado
vendradividida dividida
unadeterminado porpara
poblacional. elpor elpor
nmerosujeto
el nmero dei-simo, i = 1, ..
observaciones
de observaci
0,98 y sca =por
0,25 n mmol/l,
colesterol
valorelest
tamaoms y entre
HDL muestral
prxima los nalos
entre ycolapor =ndesviacin
539
ca controles
x=i el462 valor casos fueron
de
observado
tpica infarto
observada xpara
code =enel
1,09
miocardio
sujeto
los y scoi-simo,
controles =fueron quei enx=ca1,=..., n,
la media vendra
2
(n ca 1) s ca + (n co 1) s conpor dada por 2
n el tamao
el tamao muestral muestral y poryxpor xi el valor
i el valor observado
observadopara elpa
s2 =
0,29 mmol/l. la De
media
los estos
0,98 yvendra
casos ca
Ejemplo s datos
=
(mayor 0,25 dada
se
6.7 En tamao deduce por
mmol/l,
el estudio quey
muestral la
entre
n ca + de
EURAMIC, estimacin
los
n colos n
co = puntual
539
2primeros).
la media As, controlesde la diferencia
fueron
el error estndar
y la desviacin x = 1,09
tpicadedel
co y
la co s =
es decir, la desviacin tpica combinada es sla=media la
0,074 media
vendra
12 = n vendra
0,272 dada dada
por
mmol/l, por
cuyo
x + x 2 + ... + x n

2
(462 ca1se )-0x,deduce
25 +0,98(539 1estimacin
) 0x=,= 29 xpuntual
= 1 Si
en el nivel medio demmol/l.
diferencia
0,29
colesterolcolesterol
de
HDL medias HDL
Deentre estos
=puede es
losdatos nxcalcularse
ca 1 = 462 n =
co como
casos que - 1,09 -0,11
x1 + x 2 + ... +n xi==n1 0,074; de
de lainfarto de mmol/l.
miocardio
i x ca .=
la diferencia
fueron
n
valor est ms prxima a la desviacin x = 462 +xi539 = 2
n i =1 tpica observada n en.los controles que 1enn 1 n x1 + xx21 + ... x 2++x...
n +
asumimos una0,98 misma
en variabilidad
ely nivel medio de del colesterol
colesterol HDL HDL es en
x cacasos
- x co y=controles,
0,98 - 1,09 la = -0,11 = x
xmmol/l. = xSi i = xi = .
es decir,sla
es decir, = 0,25 mmol/l,
ca desviacin
la desviacin
SE( xtamao
tpica
tpica ycombinada
entre 1 los1nco
combinada es=s 539 = controles
0 , 1 =10,272
074 fueron x co = cuyo
mmol/l, 1,09 sn =
n yivalor
=1 co i =est n n
ca - x co La)muestral
=medias es +lalos medida = 0,272 de tendencia + el error = 0,017.
central ms utilizada
de la y de ms fcil 1
los casos (mayor de primeros). As, estndar
ms
varianza combinada prximo
de ambas a la desviacin
muestras tpica
n ca observadan en los
462 controles
539 que en los casos (mayor
La media
asumimos esuna la medida
misma de vendra
tendencia
variabilidad determinado
central
co
del colesterolmspor utilizada
HDL en ycasos de ms fcil
y controles, la
0,29 est
tamao
valor mmol/l.
muestral
ms De deestos
prxima los a datos
primeros).
la se deduce
desviacin As, eltpicaque observada
error laestndar
estimacin de en puntual
lalosdiferencia
controles de de laque
diferencia
mediasen 12 puede
interpretacin.
diferencia de medias puede calcularse como La media Corresponde al centro
La media de
es la es gravedad
medidala medida de
de tendencia los
de tendenciadatoscentral decentral
lams
muestra.
utilizada
ms util Su
calcularse
interpretacin. como Corresponde al centro de gravedad deerror
los datos de la muestra. Su
Avarianza
partir decombinada 2 de ambas muestras vendra determinado por
encasos
los els nivel (nlamedio
2 (mayor
diferencia
) sde
ca 1tamao ca + (de
colesterol
medias
nmuestral
co 1) sHDL
2 muestrales
code los es x
y de su
ca - x co As,
primeros). = 0,98 el
estndar,
- 1,09
error =
y teniendo
estndar-0,11 mmol/l. Si extremos
= principal limitacin es que est
interpretacin. muy
interpretacin. influenciada
CorrespondeCorresponde al de
por losal lavalores
centro centro
de gravedad
de gravedad y,
deen loses
ded
en cuenta
principal que
limitacin la n caes +
distribucinn
que co
est 2 t de
muy1 Student 1
influenciada con n +
por n 1 los 2 =1
valores999 grados
extremos de y, en este
SE( x ca x co ) = (n cascalcularse ) s+ca2ser
n1cano +cocomo = 0,272
ncolesterol
(un
ca
1reflejo2
) sprincipal
co + = 0,017.
asumimosdeuna
diferencia medias misma s 2 variabilidad
puede
caso, = 2 puede ndel 2fiel
co
principal co 462 HDL de
limitacin en
539
la casos
tendencia
limitacin es que y es controles,
central
est
que muy de la
est la
muy distribucin.
influenciada
influenciadapor los porval
lo
(462 1) 0,25 + (539 1) 0,29
libertad
caso, puede =es novirtualmente
ser un fielidntica reflejo de n acauna + n 2
distribucin
la tendencia
co = 0,074 centralnormal
; de estandarizada,
la distribucin.el IC al
Avarianza
partir de combinada
la diferencia 462 de de
+ambas medias
539 muestrales
2muestras y de su
vendra error estndar,
determinado por y teniendo en cuenta
1) muestrales 1 caso,caso, puede 1 puede
no2 ser1 nounser fielunreflejo
fiel reflejo
de la de tendencia
la tendenciacentral centra
de l
A
que partir
la de la
distribucin diferencia t de de
Student ( medias
462 con 0n , 25 + 2
n+ (
539 y
2 de
= su
999
1 ) 0 error
, grados
29 estndar,
de libertad y teniendo
es virtualmente
95% para SE( ca - xcoca viene
- x co=)dado =Ejemplo
s por +1.4 ca En= coeste
0,272 y en los +sucesivos = 0 , ejemplos
= 0,017.
074 ; sobre estimadores muestral
idntica a una distribucin
Ejemplo 1.4 En este ynormal en los n caestandarizada,
462 n co+ 539ejemplos
sucesivos 2el2 IC 462 alsobre
95% para ca comuestrales,
539estimadores viene dado se por
2
en cuenta que la distribucin 2 ( n t de 1 ) s
Student
utilizarn los valores del
ca ca + ( n con
co 1
n )
cas +
co n
colesterol
Ejemplo co 2
Ejemplo = 999
1.4 HDL En grados
1.4este En de
obtenidos
yeste y enen
en los lossucesivos
sucesivos
los 10 primeros
ejemplos sujeto
ejemplos
sobre
x ca s x=co t999;0,975 n +SEn( x ca 2 x co ) 12
utilizarn
A partiresdevirtualmente los valores
la diferenciaidntica de = delmediascolesterol
ca co HDL obtenidos en los 10 primeros sujetos del
muestrales y =de(normal
su error estndar, y teniendo
libertad estudio 0,11a unaEuropean distribucin
1,960,017 Study 0,14; estandarizada,
onutilizarn
utilizarn 0,08).
Antioxidants, delelcolesterol
Myocardial IC al Infarction andobtenid
Cancer
2 2 los valores los valores del colesterol HDLHDL obtenidos en
estudio European (
Study 462
on 1 ) 0 , 25
Antioxidants, + ( 539 1 )
Myocardial 0 , 29 Infarction and Cancer 12
of
en cuenta = t de Student con nca + nco 2 == 999 0,074 ;
95% para que la distribucin
ca - co viene dado the por Breast + 539 2estudio
462(EURAMIC), un estudio
estudio
European
grados
multicntrico
European
de
StudyStudy on de on casos
Antioxidants, y controles
Antioxidants, Myocardialreali
Myoca
De lostheresultados
libertad Breast
es virtualmente(EURAMIC),
del estudio idntica una estudio
EURAMIC una distribucin multicntrico
puede entonces normal de casos
concluirse y que
estandarizada, controles
el nivel
el IC realizado
al
86 Pastor-Barriuso R.
entre 1991
x ca - x co t999;0,975 SE( x ca - x co )the Breasty 1992 en ocho pases
the Breast Europeos
(EURAMIC),(EURAMIC),e Israelun para un evaluar
estudio estudio el efecto de
multicntrico
multicntric
medio de 1991 colesterol HDL en los pases
casos de infarto es inferiorpara en 0,11 mmol/l al de los
95% entre
para ca - yco1992 vieneendado ocho por Europeos e Israel evaluar el efecto
= -0,11 1,960,017 =entre (-0,14;entre
1991 1991
y 1992
-0,08). y 1992en ocho en ocho
pasespases 12 Europeos
Europeos e Israel e Isra
pa
medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al
Comparacin de medias en dos muestras independientes
nivel medio de los sujetos libres de la enfermedad, estando esta diferencia
que sigue aproximadamente una distribucin t de Student con n1 + n2 - 2 grados de
comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%.
De los resultados del estudio EURAMIC puede entonces concluirse que el nivel medio de
libertad si la hiptesis nula H0: 1 = 2 es cierta. Por tanto, el valor P se obtiene como el
colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al nivel medio de los
En el caso
sujetos de la
libres decomparacin
la enfermedad, de medias
estandoentre
esta dos poblaciones,
diferencia la hiptesis
comprendida entrenula
0,08ms
y 0,14
rea bajo la distribucin t n1 +n2 2 para valores ms extremos que el valor observado de t.
mmol/l con una confianza del 95%.
natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta
Esta prueba de hiptesis se conoce genricamente como el test de la t de Student para
En el caso de la comparacin de medias entre dos poblaciones, la hiptesis nula ms natural
hiptesis nula H0: 1 = 2 frente a la hiptesis alternativa bilateral H1: 1 2 a partir de
es la igualdad
muestras de ambas medias
independientes con igualpoblacionales.
varianza. Para realizar el contraste de esta hiptesis nula
H0: 1 = 2 frente a la hiptesis alternativa bilateral H1: 1 2 a partir de dos muestras
dos muestras independientes de igual varianza, se emplea el siguiente test estadstico
independientes de igual varianza, se emplea el siguiente test estadstico
Ejemplo 6.8 Un nivel medio de colesterol HDL significativamente ms bajo en
x1 x 2 x1 x 2
t= = ,
los casos de infarto que en losSE ( x1 libres
sujetos x 2 ) de enfermedad
1 1 sera compatible con
que sigue aproximadamente una distribucin t de Student con ns 1 + n+ - 2 grados de
n1 2 n 2
la hiptesis de que el colesterol HDL es un factor protector en el infarto de
libertad si laque
hiptesis nula H0: 1 = 2 esuna
sigue aproximadamente cierta. Por tanto,t de
distribucin el valor P secon
Student obtiene
n1 + ncomo el
2 2 grados de libertad si
la hiptesis
miocardio. H0:este
nula En 1 =ejemplo,
2 es cierta. Por tanto,
se pretende el valor
contrastar estaP hiptesis
se obtiene comode
a partir el los
rea bajo la
rea bajo la distribucin t n1 +n2 2 para valores
valores ms msextremos
extremosque queelelvalor
valor observado
observado t. t. Esta prueba de
de de
niveles
hiptesis de colesterol
se conoce HDL observados
genricamente la tcasos
como el testendelos de Student para muestras
y controles del estudio 13
independientes
Esta prueba con igual varianza.
de hiptesis se conoce genricamente como el test de la t de Student para
EURAMIC. El resultado de este contraste, junto con la estimacin puntual y por
muestras independientes
Ejemplo con 6.8igual varianza.
Un nivel medio de colesterol HDL significativamente ms bajo en los
intervalo
casos de infarto que enellos
obtenida en ejemplo
sujetosanterior,
libres depermiten evaluar
enfermedad seranocompatible
slo la con la hiptesis
de que el colesterol HDL es un factor protector para el infarto de miocardio. En este
Ejemplo 6.8significacin
Un nivelse
ejemplo, medio de colesterol
estadstica
pretende contrastar HDL
estasignificativamente
sino tambin la relevancia
hiptesis mslos
clnica
a partir de y bajo en pblica
deniveles
salud del HDL
de colesterol
observados en los casos y controles del estudio EURAMIC. El resultado de este contraste,
los casos dehallazgo.
infarto
junto que
con la en los sujetos
estimacin libresyde
puntual enfermedad
por sera compatible
intervalo obtenidas con anterior, permiten
en el ejemplo
evaluar no slo la significacin estadstica sino tambin la relevancia clnica y de salud
la hiptesis Asumiendo
de que eldel
pblica colesterol
igualdadHDL
hallazgo. es un factor
de varianzas protector enelelcontraste
poblacionales, infarto debilateral de la
Asumiendo
miocardio. En igualdad
este ejemplo,H0se de varianzas
: pretende poblacionales,
contrastar elelestadstico
contraste
esta hiptesis a partir bilateral
de los de la hiptesis nula
hiptesis nula ca = co se realiza mediante
H0: ca = co se realiza mediante el estadstico
niveles de colesterol HDL observados en los casos y controles del estudio
x ca x co 0,11
t= = = 6,35.
SE (junto
EURAMIC. El resultado de este contraste, x ca con
x co ) la estimacin
0,017 puntual y por
Si ambas medias poblacionales fueran iguales, la distribucin de este estadstico sera t999 o
intervalo obtenida
Si ambasen medias
el ejemplo anterior, permiten
poblacionales fueran El evaluar la
iguales, nodistribucin
slo la de este estadstico
aproximadamente normal estandarizada. valor P bilateral se obtiene entonces como el doble
de la probabilidad a la izquierda de 6,35 en la distribucin normal estandarizada, que corresponde
significacinsera
estadstica sino tambin la relevancia clnica y de salud pblica del se obtiene
a P < t0,001.
999 o aproximadamente normal
As, puede concluirse estandarizada.
que existen El muy
diferencias valor P bilateral
significativas en el nivel medio
de colesterol HDL entre los infartados y los sujetos libres de enfermedad. Esta diferencia
hallazgo. entonces como el doble de la probabilidad a la izquierda de -6,35 en la
significativa es perfectamente consistente con el intervalo de confianza calculado en el ejemplo
anterior,
igualdadpuesto
Asumiendo distribucin que stepoblacionales,
de varianzas no contena al cero (valor nulo
el corresponde
contraste para la de
bilateral diferencia
la As,depuede
medias).
normal estandarizada, que a P < 0,001.
hiptesis Los
nulamtodos
H0: ca descritos en este apartado
co existen
=que se realiza mediantepueden extenderse a la comparacin de tres o ms medias
el estadstico
poblacionales. Las tcnicas para comparar medias en mltiplesen
concluirse diferencias muy significativas el nivelindependientes
muestras medio de se conocen
con el nombre de anlisis de la varianza de una va y pueden consultarse en los libros referenciados
colesterol
al final HDL
del tema. entre los
x coinfartados
x ca estos y los sujetos
- 0,11 no selibres
tratandeexplcitamente
enfermedad. Esta
t Aunque
= procedimientos
= = -6,35. en este texto, la
comparacin de mltiplesSE (medias
x ca xacopartir de datos independientes tambin puede abordarse mediante
) 0,017
los modelos de regresin lineal que se presentarn ms adelante (Temas 10 y 11).
14
Si ambas medias poblacionales fueran iguales, la distribucin de este estadstico
Pastor-Barriuso R. 87
sera t999 o aproximadamente normal estandarizada. El valor P bilateral se obtiene

entonces como el doble de la probabilidad a la izquierda de -6,35 en la


para contrastar estadsticamente la hiptesis de homogeneidad de varianzas en dos
Inferencia sobre medias
muestras independientes.

El test para la igualdad de varianzas poblacionales se basa en la comparacin de las


6.3.2 Contraste para la igualdad de varianzas
varianzas muestrales s12 y s 22 . Como se apunt anteriormente (Apartado 6.2.2), si la
La comparacin de medias presentada en el apartado anterior se fundamenta en la asuncin de
igualdad de varianzas. Esta asuncin es determinante para poder calcular una estimacin
distribucin
combinada de subyacente
la varianza.de En la variable es normalseenpresentan
este apartado ambas poblaciones,
los mtodos los estadsticos
para contrastar
estadsticamente la hiptesis de homogeneidad de varianzas en dos muestras independientes.
(n1 1) s12 / 12 y (n2 1) s 22 / 22 se distribuyen como una chi-cuadrado con n1 - 1 y n2 -
El test para la igualdad de varianzas poblacionales se basa en la comparacin de las varianzas
muestrales 2
s22. Como
1 gradoss1deylibertad, se apunt anteriormente
respectivamente. (Apartado
Combinando 6.2.2), si ladedistribucin
la distribucin estos subyacente
estadsticos
de la variable es normal en ambas poblaciones, los estadsticos (n1 1)s1 /1 y (n2 1)s22/22 se
2 2

distribuyen
en ambascomomuestrasuna independientes,
chi-cuadrado con se nobtiene n2 1 grados de libertad, respectivamente.
1 1 yque
Combinando
A la derechala distribucin de estosseestadsticos
de esta expresin en ambas
tiene el cociente de muestras independientes,
dos variables se obtiene
independientes chi- que
A la derecha de estacuadrado
expresin se tiene por
divididas el cociente des12 dos
sus respectivos / 12variables
n2 1de
grados /(independientes
nlibertad,
1 1) que sechi-conoce como la
2 2
~ 2
1 .
s 2 / 2 n2 1 /(n 2 1)
uadrado divididas distribucin
por sus respectivos grados de libertad,
F de Fisher con n1 - 1 grados que dese libertad
conoce como la
en el numerador y n2 - 1 en el
A la derecha de esta expresin se tiene el cociente de dos variables independientes chi-
istribucin F decuadrado
Fisher con n1 - 1 grados
divididas susderespectivos
pordenota libertad en el numerador y n2 que- 1 en2 el
denominador, y se por Fn1 1, n2grados de libertad, se conoce 2como
1 . As, la razn entre s1 / 1 y s 2 / 2 sigue una
2 2 la distribucin
15
F de Fisher con n1 1 grados de libertad en el numerador y n2 1 en el denominador, y
enominador, y se por Fn1 1, n2 1 . As, la razn entre ss112/
denota por
sedenota
2
/ 1212y ys22s/22 2/2sigue
2
2 sigue unauna
distribucin F con n1 1 y
distribucin F con n1 - 1 y n2 - 1 grados de libertad,
n2 1 grados de libertad,
istribucin F con n1 - 1 y n2 - 1 grados de libertad,
s12 / 12
2 2
~ Fn1 1, n2 1 .
s1 / 1
2 2 s 2 / 2
~ Fn1 1, n2 1 .
La distribucin F
2
s 2 de/ Fisher
2
2 toma slo valores positivos y est sesgada positivamente con un
valor La
msdistribucin
frecuente (moda)F de Fisher
menor toma de 1slo valores
y una media positivos
mayor ydeest sesgada
1. Al positivamente
aumentar los grados de
libertad del numerador y denominador, tanto la media como la moda se aproximan al valor 1
La distribucin Fcon
de Fisher toma slo valores positivos y est
deF1sesgada positivamente
(Figuraun valor
6.3). Losms frecuente
percentiles de(moda) menor
la distribucin dey Fisher
una media paramayor de grados
distintos 1. Al aumentar
de libertad del
numerador y denominador se presentan en la Tabla 7 del Apndice.
on un valor ms frecuente
los grados(moda) menordel
de libertad de numerador
1 y una media mayor de 1. Al
y denominador, aumentar
tanto la media como la moda se
os grados de libertad del0,8
numerador
aproximan al valory 1denominador,
(Figura 6.3). tanto la media como
Los percentiles
F 0,8lala
de moda se F de Fisher para F
distribucin
5,5 5,5
F5,10 F10,5
proximan al valor distintos
1 (Figuragrados
6.3). Los percentiles de la distribucin
F F de Fisher para F30,5
de libertad del numerador5,30y denominador se presentan en la Tabla 7 del
0,6 0,6
istintos grados de libertad
Apndice.del numerador y denominador se presentan en la Tabla 7 del
f(x) 0,4 0,4
Apndice.
0,2 [Figura 6.3 aproximadamente
0,2 aqu]
[Figura 6.3 aproximadamente aqu]
0 0
Ejemplo 6.9 Utilizando la Tabla 7 del Apndice, el percentil 97,5 de una
0 1 2 3 0 1 2 3
Ejemplo 6.9 Utilizando la TablaF7de
distribucin delFisher
Apndice,
con 5elgrados
percentil 97,5 de en
de libertad unael numerador y denominador
x x
distribucin F de Fisher
es F con 5 =
grados
7,15, de libertad
y (a)
para en el numerador
30 grados de libertadyendenominador
ambos es F (b) = 2,07.
5;5;0,975 30;30;0,975

es F5;5;0,975Figura
= 7,15,6.3 Funcin
yAunque
para de densidad
30esta
grados
tabladeno
libertad ambos Fesdeinferiores,
de la distribucin
facilitaenpercentiles FFisher al aumentar los grados de libertad del de-
30;30;0,975 = 2,07.
puede comprobarse que el
nominador (a) y del numerador (b). Figura 6.1

Aunque esta tabla no facilita percentiles inferiores, puede comprobarse que el


percentil en una distribucin F con d1 y d2 grados de libertad es igual al inverso
88 Pastor-Barriuso R.
percentil en una distribucin F con d1 y d2 grados de libertad es igual al inverso
del percentil 1 - en una distribucin F con d2 y d1 grados de libertad, Fd1 , d 2 , =
del percentil 1 - en una distribucin F con d2 y d1 grados de libertad, Fd1 , d 2 , =
or y denominador, la distribucin F distribucin F de Fisher con 5 grados de libertad en el numerador y d

rica alrededor del valor 1. es F5;5;0,975 = 7,15, y parade30


Comparacin grados
medias en dosde libertad
muestras en ambos es F30;30;0,975
independientes

distribucin F30,30 entre 0,48 y 2,07.


AunquePuede
estaentonces
tabla no observarse que, al aumentar
facilita percentiles inferiores, puede comprobar
cociente entre s12 / 12Ejemplo
y s 22 / 26.9
2
, F
el nmero deUtilizandogrados delalibertad
Tabla 7del delnumerador
Apndice, yeldenominador, percentil 97,5ladedistribucin
en una ydistribucin F con
una distribucin F
de Fisher con 5 grados de libertadpercentil en el numerador denominador es Fd5;5;0,975
1 y d2 = grados
7,15, dey libertad es igu
para
de30
ara la razn de dos varianzas grados
Fisher de libertad
se hace en ambosy ms
menos dispersa es F30;30;0,975 simtrica = alrededor
2,07. Aunque esta 1.
del valor tabla no facilita
del percentil
percentiles inferiores, puede comprobarse que el percentil en una distribucin 1 - en una distribucin F con dF d1 grados
2 ycon d1 de libertad
y d2 grados de libertad es igual al inverso del percentil 1 en una distribucin F con d2
utilidad prctica, nos centraremos
y dpartir
A 1 grados
distribucinde ladeFdistribucin d1 , d 2 , = 1/F
libertad, Fmuestral Fnd1 2 1,d, n12,11entonces
. As,
del el percentil
entre 2,5
elobservarse
cocientepercentil 2 en
s2,5 en2las
1 / 1al y
lasdistribuciones
s 22distribuciones
/ 22 , anteriores es F5;
30,30 entre 0,48 y 2,07. Puede que, aumentar
anteriores es F
traste bilateral de la hiptesis nula 5;5;0,025 = 1/F 5;5;0,975 = 1/7,15 = 0,14 y F 30;30;0,025 = 1/F 30;30;0,975 = 1/2,07 = 0,48.
Por tanto,
el nmero
resulta sencillo el 95%
decalcular central
grados de de
un libertad la
intervalodel distribucin
1/F
denumerador
confianza
5;5;0,975 5,5 para F = est
1/7,15 comprendido
= 0,14
y denominador, y
la razn de la F dosentre 0,14
= 1/F
distribucin
varianzas
30;30;0,025 y 30;30;0,975
7,15,
F y de
= 1/2,07 = 0,48.
e basa en la razn de la varianzas F30,30 entre 0,48 y 2,07. Puede entonces observarse que, al aumentar el
lasdistribucin
de Fisherdesegrados
nmero hace 2 de libertad
menos dispersa del ynumerador
95%
mscentral simtrica y de
denominador,
la distribucin
alrededor del F5,5 est
la valor
distribucin F de Fisherentre 0,14 y 7,15
1. comprendido
1 / 2 . No obstante, por su mayor utilidad prctica, nos centraremos
2
poblacionales
se hace menos dispersa y ms simtrica alrededor del valor 1.
aqu en el test para la igualdad de varianzas. El contraste bilateral de la hiptesis nula
A partir de la
la distribucin muestral Fn1 1, n2 1 del
distribucin muestral del cociente entre ss121/
cociente entre /1 y1 sy2/s 22,/
2 2 2 2 22 2
2 ,
resulta sencillo
calcular
H0: un2 intervalo de confianza para la razn2 de dos2 varianzas poblacionales 1/2 . No obstante,
2 2
1 = 2 frente a la alternativa H1: 1 2 se basa en la razn de las varianzas
2

por su mayor utilidad


resulta sencillo calcular prctica, nos centraremos
un intervalo de confianza aqu en la
para el razn
test para
de dosla igualdad
varianzas de varianzas. El
contraste bilateral de la hiptesis nula H0: 1 = 2 frente a la alternativa H1: 1 22 se basa en la
2 2 2
muestrales 2 2
razn de las varianzas
1 / 2 muestrales
22 es cierta, lapoblacionales
razn . No obstante, por su mayor utilidad prctica, nos centraremos

aqu en el test para la igualdad de varianzas.F El s12


contraste bilateral de la hiptesis nula
que este estadstico se distribuir = 2.
s2
H0: 12 = 22 frente a la alternativa H1: 12 2 22 se basa en la razn de las varianzas
en el numerador Siylan2hiptesis
- 1 en elnula de igualdad de varianzas 1 = 22 es cierta, la razn (s12/12)/(s22 /22 ) se reduce
a s12Si
/s22la
, de tal forma
hiptesis nulaque deeste estadstico
igualdad se distribuir
de varianzas 12 = segn 2
una F de
2 es cierta, Fisher con n1 1 grados
la razn
tonces como el de muestrales
doble de la
libertad en el numerador y n2 1 en el denominador. El valor P del contraste se calcula
entonces
( s12 / 1como
2
)/( 2s 22el/ doble
2 de la probabilidad
2 2 a la izquierda de este estadstico bajo la distribucin
2 ) se reduce a s1 / s 2 , de tal forma que este estadstico se distribuir
2 2
la distribucin Fn1 1, n2 1, si ss1 1
2
s2, so2 como
, el doble del rea a sla12 derecha del estadstico, si s12 > s22.
F= .
segn una F de Fisher con n1 - 1 grados des 22libertad en el numerador y n2 - 1 en el 2 2
o, si s12 > s 22 . Ejemplo 6.10 En los Ejemplos 6.7 y 6.8 se compar la media del colesterol HDL entre s ca 0,25
F= 2 =
los casos y El
denominador. controles
valor Pdel delEURAMIC
contraste sebajo la asuncin
calcula entonces decomo
homogeneidad
el doble dede la varianzas. La s co 0,29 2
Si la hiptesis
validez de nulaestos deresultados
igualdad de varianzasdel cumplimiento
depender 1 = 2 es cierta,
2 2
la razn
de dicha hiptesis. Para contrastar
ompar la media del bilateralmente
colesterol HDL la hiptesis
probabilidad a la izquierda de este estadstico nula H 0: 2
ca = 2
, se calcula el test estadstico
cobajo la distribucin Fn1 1, n2 1 , si s1 s 2 ,
2 2

( s1 / 1 )/( s 2 / 2 ) se reduce a s1 / s 2 , de tal forma que este estadstico se distribuir


2 2 2 2 2 2 que sigue una distribucin F con nca 1 = 461
jo la asuncin de homogeneidad de s ca2 0,25 2
o como el doble del rea a la derecha F = del = estadstico, si s12 > bajo
= 0,74, s 22 . H0. Como sca < sco, el valor P es igual a 2
segn una F de Fisher con n1 - 1 grados sde 2 libertad
co 0,29 2 en el numerador y n2 - 1 en el
ender del cumplimiento de dicha
que sigueEluna
denominador. valordistribucin
P del F conse
contraste ncacalcula
1 = 461 y nco como
entonces 1 = 5380,001.
el grados
doble Notar laque
de este valor
libertad
decolesterol bajo HP0.sera idntico si
Ejemplo 6.10 En los Ejemplos
el valor P esFigual 6.7
con naca2P(F y 6.8, se compar la media
nco =1 20,0005 del HDL
ptesis nula H0: ca =que
2 Como 2
, sse
cosigue ca <una sco,distribucin 1= 461y0,74)
461,538 = 538 grados = 0,001. de libertad
2
Notar que este
2
valor P sera idntico si se hubiera utilizado el estadstico inverso
Fnde F = s co /2 s ca =2 1,35. En tal caso, el val
probabilidad entre alosla izquierda
casos y de este estadstico
controles del EURAMIC bajo la bajodistribucin
la asuncin 2 1 , si s1 s 2 ,de
homogeneidad
1 1, n
bajocaso,
tal H0. Como
el valorscaP<sesco , el valoraPpartir
obtendra es igual de la a 2P(F 461,538 F
distribucin 0,74)
538,461=como 20,0005 2P(F=538,461 1,35)
= 20,0005 = 0,001. distribucin F538,461 como 2P(F538,461 1,35)
o como elvarianzas.
0,001. dobleNotar
La
delquerea validez
estea lavalorde estosdel
derechaP sera
resultados
estadstico,
idntico
depender
si s12 > del
sihubiera
se .cumplimiento
s 22utilizado de dicha
el estadstico
La variabilidad del colesterol HDL resulta significativamente menor entre los casos de
infarto que entre los individuos libres de la enfermedad, con Lalovariabilidad
cual2no puede 2delaceptarse
colesterollaHDL resulta sig
hiptesis. Para
2 2contrastar bilateralmente la hiptesis nula H0: ca = co , se
inverso
hiptesis 6.10F = s
de igualdad / s = 1,35. En
de varianzas. tal caso, el valor P se obtendra a partir de la
Ejemplo co
En los
17
ca
Ejemplos 6.7 yEn6.8, consecuencia,
se compar los procedimientos
la media del colesterol utilizados
HDL en los
Ejemplos casos de infarto que entreHDL
los individuos libre
calcula 6.7 y 6.8
el test son inadecuados para comparar los niveles medios de colesterol
estadstico
distribucin
entre
entre casos
los casos yFcontroles. como 2P(F
y controles
538,461 538,461 1,35)
del EURAMIC bajo= 20,0005
la asuncin = 0,001.
de homogeneidad de
puede aceptarse la hiptesis de igualdad de va
La variabilidad
varianzas. del colesterol estos HDL resultadepender
significativamente menor entre los
Existen otrasLatcnicasvalidez deestadsticasresultadospara la comparacin del cumplimiento
de varianzas
procedimientos
de dicha en muestras
utilizados en los Ejemplos 6.7
independientes,
casos de infarto tales como el test de Bartlett
que entre bilateralmente
los individuos la o la
libresprueba de
de la nula Levene
enfermedad, . En general,
2 con lo
estas tcnicas
17
hiptesis. Para contrastar hiptesis H 0: ca = los
comparar ,cual
se nomedios
co2 niveles de colesterol HD
puede aceptarse la hiptesis de igualdad de varianzas. En consecuencia, losPastor-Barriuso R. 89
calcula el test estadstico
procedimientos utilizados en los Ejemplos 6.7 y 6.8 sonExisten inadecuados otras tcnicas
para estadsticas para la compa
As, sustituyendo 12 por s12 y 22 por s 22 en la distribucin muestral de la
Inferencia sobre medias

diferencia de medias, se obtiene el estadstico

permiten comparar varianzas entre dosx1 ox 2ms


( grupos y, en el caso del test de Levene, la
1 2 )
comparacin no requiere que la distribucin subyacente de . la variable sea normal. Los lectores
2 2
s
interesados pueden consultar estos procedimientos s
+ en las referencias incluidas al final del tema.
1 2

n1 n 2
6.3.3 As,
Comparacin
sustituyendode 1medias
2
por s12eny distribuciones
22 por s 22 en lacon distinta varianza
distribucin muestral de la
Aunque resulta complicado derivar la distribucin exacta de este estadstico, existen
Cuando las varianzas poblacionales son distintas, carece de sentido calcular una estimacin
diferencia de medias, se obtiene el estadstico
combinada
diversas de la varianza, yaque
aproximaciones quefuncionan
sta infraestimar
bien en la o sobreestimar la variabilidad
prctica. El mtodo especfica
ms utilizado es de
cada poblacin. En este caso, aun perdiendo algo de precisin, es preferible estimar porseparado las
121y por y x1 22sus
2
As,poblacionales
varianzas sustituyendo
la aproximacin de Welch, s12 permite
22que
mediante por s(22en
xaproximar1 la la2distribucin
2 correspondientes muestral
)distribucin
varianzas este de la s12 y s22 .
demuestrales
estadstico
.
2
s 22
As, sustituyendo 12 por s12 y 22 por s22 en sla1 distribucin muestral de la diferencia de medias,
diferenciauna
mediante de medias, se obtiene
t de Student con loselsiguientes +
estadsticogrados de libertad
se obtiene el estadstico n1 n 2

x1 (s 2x 2/ n (+ s1 2/n2 )) 2
Aunque resulta complicado 2 .
d = derivar la distribucin
1
2
1 2
2 2
exacta de este estadstico,
. existen
2 2 s1 s
( s1 / n1 ) /(n1 1)++ ( s 2 / n 2 ) 2 /(n 2 1)
2

diversas aproximaciones que funcionan bien n1 enn 2la prctica. El mtodo ms utilizado es
Aunque
Puederesulta complicado
comprobarse que dderivar
es siempre la distribucin
inferior o igualexacta a nde1 +este
n2 estadstico,
2; es decir, existen
esta diversas
la aproximacin de Welch, que permite aproximar la distribucin de este estadstico
Aunque resulta
aproximaciones complicado
que funcionan derivar
bien en la la distribucin exacta de
prctica. El mtodo ms este estadstico,
utilizado es laexisten
aproximacin
de distribucin t de Student
Welch, que permite ser ms
aproximar dispersa quede
la distribucin la este
empleada en el mediante
estadstico caso de igualdad
una t dedeStudent
mediante una t de Student con los siguientes grados de libertad
diversas aproximaciones que
con los siguientes grados de libertad funcionan bien en la prctica. El mtodo ms utilizado es
varianzas. Esto es lo que cabra esperar ya que, al estimar por separado las varianzas, la
la aproximacin de Welch, que permite ( s12 aproximar
/ n1 + s 22 / nla2 )distribucin
2
de este estadstico
d
distribucin resultante ha de= .
( s12reflejar
/ n1 ) 2 /(mayor
n1 1)incertidumbre.
+ ( s 22 / n 2 ) 2 /(nEsto
2 1)
conllevar una
mediante una t de Student con los siguientes grados de libertad
disminucin
Puede comprobarsetantoque
en la precisin
d es siempredeinferior los intervalos
o igual de a nconfianza
1 + n2 2; como en la
es decir, potencia
esta de t
distribucin
de Puede
Studentcomprobarse que d que
ser ms dispersa es siempre
la empleada inferioren o
el igual
caso a
de n + n
igualdad
1 2 2;
de es decir,
varianzas.esta
Esto es lo que
( s12 / n1 + s 22 / n 2 ) 2
los contrastes.
cabra esperar ya que, al destimar
= 2 por 2separado las varianzas, la distribucin
. resultante ha de
reflejar mayor tincertidumbre.
distribucin de Student ser( sEsto
1 ms/ n1 conllevar
/(n1 1que
)dispersa ) +una s 22disminucin
(la / n 2 ) 2 /(n 2en tanto
empleada 1) casoendelaigualdad
el precisinde de los
En eldecaso
intervalos de distribuciones
confianza como en lacon distinta
potencia devarianza,
los contrastes.el intervalo de confianza al 100(1 -
varianzas. Esto es lo que cabra esperar ya que, al estimar por separado las varianzas, la
Puede comprobarse
En el caso que d es con
de distribuciones siempredistintainferior o igual
varianza, n1 + n2 de2;confianza
el aintervalo es decir, esta
al 100(1 )%
)% para la diferencia de medias poblacionales 1 - 2 vendr determinado por
para la diferencia
distribucin de medias
resultante ha poblacionales
de reflejar mayor 2 vendr determinado
1 incertidumbre. por
Esto conllevar una
distribucin t de Student ser ms dispersa que la empleada en el caso de igualdad de
2 2
disminucin tanto en la precisin de los intervaloss1de confianza s2 como en la potencia de
varianzas. Esto es lo que cabrax1esperar x 2 ya
t d ,1que, +
/ 2 al estimar ,por separado las varianzas, la
n1 n 2
los contrastes.
distribucin
donde d son losresultante
grados dehalibertad
de reflejar mayor incertidumbre.
calculados segn la frmula Esto conllevar
anterior. una forma, para
De igual
donde
contrastar
En el dlason los
degrados
hiptesis
caso nulade H0libertad
distribuciones 2calculados
: 1 =con frente
distintaa la segn laelfrmula
alternativa
varianza, H1: 1 anterior.
intervalo de De de
2 aconfianza
partir igual
dosforma,
muestras
al 100(1 -
disminucin tanto en la precisin de los intervalos
independientes con distinta varianza, se emplea el estadstico de confianza como en la potencia de
para
contrastar
)%contrastes. la hiptesis
para la diferencia de medias 0: 1 = 2 frente
nula Hpoblacionales 1 a- la
2alternativa H1: 1 por
vendr determinado 2 a partir de
los x1 x 2
t= ,
dos muestras independientes con distinta varianza, s12 s 22 2se emplea el estadstico
En el caso de distribuciones con distinta varianza, + s1 els 22intervalo de confianza al 100(1 -
x1 x 2 t d ,1n1 / 2 n 2 + ,
n1 n 2
quebajo
)% para la diferencia
la hiptesis nula,de se medias
distribuyepoblacionales
aproximadamente 1 - 2 vendr
segn unadeterminado
t de Student porcon d grados
19
de que bajo As,
libertad. la hiptesis P viene
el valor nula, se distribuye
dado por laaproximadamente
probabilidad de obtener segn una t de ms
valores Student con d que
extremos
el valor d son los de
dondeobservado grados
t bajodelalibertad calculados
distribucin td. Estesegn la frmula
contraste anterior.
se conoce con elDe igual forma,
nombre de test de
s12 s 22
grados de libertad. As, el valor
la t de Student para muestras independientes P viene dado
x1 x 2 t d ,1 / con
por
2 la probabilidad
+ ,
distinta varianza. de obtener valores ms
para contrastar la hiptesis nula H0: 1 = 2 frentena1 la nalternativa 2 H1: 1 2 a partir de
90 extremos R.que el valor observado de t bajo la distribucin td. Este contraste se conoce
Pastor-Barriuso
dos
donde muestras
d son losindependientes con distinta
grados de libertad calculadosvarianza,segnselaemplea
frmulaelanterior.
estadstico
De igual forma,
con el nombre de test de la t de Student para muestras independientes con distinta
Ejemplo 6.11 En el Ejemplo 6.10 se contrast que
HDL difiere significativamente entre los casos de infarto y los sujetos libres de la
independientes con distinta varianza. La estimacin puntual de la significativamente
HDL difiere diferencia de entre los casos de i
enfermedad. Por ello, la comparacin del nivel medio de colesterol
Comparacin de medias en HDL entreindependientes
dos muestras
medias es x ca - x co = 0,98 - 1,09 = -0,11 mmol/l, cuyo error estndar
enfermedad. se estima
Por ello, la comparacin del nivel med
casos y controles ha de realizarse mediante la prueba t de Student para muestras
directamente
Ejemplo 6.11porcon
En el Ejemplo 6.10 seLacontrast casos
quepuntual y controlesdel
la variabilidad ha colesterol
de realizarse
HDL mediante la prue
independientes distinta varianza. estimacin de la diferencia de
difiere significativamente entre los casos de infarto y los sujetos libres de la enfermedad.
Por ello, la comparacin del nivel2 medio2 de colesterol 2 independientes
HDL2 entre casosconydistinta
controlesvarianza.
ha de La estimacin
medias es x ca - x co = 0,98 - 1,09 s ca= -0,11
s co mmol/l,
0,25 cuyo 0,error
29 estndar se estima
realizarse mediante
SE( x ca la
- xprueba
co ) = t de + Student= para muestras
+ independientes
= 0,017. con distinta
varianza. La estimacin puntualn cade landiferencia
co 462de medias
539 es x ca x co == 0,98 - 1,09
1,09 ==-0,11 mmol/l, c
directamente por
0,11 mmol/l, cuyo error estndar se estima directamente por
En el caso de varianzas heterogneas, los grados de libertad directamente
para lapor
distribucin
2 2 2 2
s ca s co 0,25 0,29
SE( x ca x co ) = + = + = 0,017.
de la diferencia de medias vienen n cadeterminados
n co por la aproximacin
462 539 de Welch, a
s ca2 s co2 0,25 2
SE( x ca - x co ) = + =
En el caso de varianzas heterogneas, los grados de libertad para la distribucin de
saber n cala n co 462
En el caso de
diferencia de medias
varianzas heterogneas,
vienen determinados los grados de libertad para
por la aproximacin delaWelch
distribucin

( s ca2vienen s co2 / n co ) 2 por la


/ n ca +determinados En el caso de varianzas heterogneas, los grados de
de la diferencia de medias aproximacin de Welch, a
d =
Notar que, en(este
s ca / n ca ) (n ca 1) + ( s co / n co ) (n co 1) iguales a los obtenidos
2 ejemplo,
2 los grados 2 de libertad 2 son casi
de la diferencia de medias vienen determinados po
saber
bajo
Notarlaque,
asuncin
en de igualdad (0,25 de grados
2
/varianzas
462 + de 0,29 (nca/ +
2 ncoson
539 ) 2casi
2 = 999). A partir de estos
= este ejemplo, los libertad
saber
iguales= a los,97
998 obtenidos
.
(0,25 2 / 462( s) 22 /(462 n + s1)2 +/ n(0,29 )
2
2 / 539)
2
(539 1)
resultados, co para ca - co como
d es
= posible calcular deunvarianzas
ca ca IC co al 95%
bajo la asuncin de igualdad (nca2 + nco 2 = 999). A partir de estos
Notar que, en (este
s ca / n ca ) (n ca 1) + ( s co / nlibertad
2
ejemplo,
2
los grados 2
de co ) son 1casi
(n co ) iguales a los obtenidos ( s ca2 / bajo
n ca +las co2 / n co ) 2
asuncin + ncopara d = de estos resultados es
resultados,deesigualdad
posible de varianzas
x ca - calcular
x co(0,25
(nca 95%
2un IC alSE
t998,97;0,975 (29
2 = 999).
x ca2 /-539
x co)ca
A partir
)2 - co como ( s ca2 / n ca ) 2 (n ca 1) + ( s co2 / n co ) 2 (n co
posible calcular / 462 + 0 ,
para ca co como
= un 2IC al 95% = 998,97.
(0,25 / 462) (462 1) + (0,29 2 / 539) 2 (539 1)
2
(0,25 20 2 / 462 + 0,29 2 / 539)
x ca x co = -0,11 1,960,017
t998,97;0,975 SE ( x ca x co =)(-0,14; -0,08),=
(0,25 2 / 462) 2 (462 1) + (0,29 2 / 539
= 0,11 1,960,017 = (0,14; 0,08),
y contrastar la hiptesis nula H0: ca = co mediante el estadstico
y contrastar la hiptesis nula H0: ca = co mediante el estadstico
20
y contrastar la hiptesis nula Hx0ca: cax=co co mediante 0,11 el estadstico
t= = = 6,44,
SE ( x ca x co ) 0,017
que bajo la distribucint t=998,97 xocanormal x co estandarizada,
=
- 0,11 corresponde a un valor P menor
= -6,44,
que bajo
0,001. As, se pone de SE ( x
manifiesto x que) los
la distribucin t998,97 o normal estandarizada, corresponde
ca co 0,017
casos de infarto presentan un nivel
a un valor P medio
de colesterol HDL significativamente inferior que los sujetos libres de la enfermedad
(P
que<bajo
menor 0,001),
que con una
la 0,001. As,diferencia
distribucin set poneode estimada
manifiesto
normal en 0,11que los
estandarizada, mmol/l
casos (IC
de al 95%
infarto
corresponde 0,08-0,14
presentan
a un valor Pun mmol/l).
998,97
En este caso, los resultados obtenidos asumiendo homogeneidad o heterogeneidad de
varianzas
nivel queson
menormedio devirtualmente
0,001.colesterol
As, se poneHDL idnticos debido, que
significativamente
de manifiesto en parte, a que
inferior
los casos de ambos
que tamaos
los sujetos
infarto muestrales
libres
presentan un
no difieren sustancialmente.
de la enfermedad
nivel (P < 0,001),
medio de colesterol HDLcon una diferencia estimada
significativamente inferior queen 0,11 mmol/llibres
los sujetos (IC al
En resumen, la comparacin de medias en muestras independientes requiere contrastar en
primer95% la 0,080,14
delugarenfermedad mmol/l).
la igualdad (Pde En este
< 0,001), concaso,
varianzas, una los
para resultados
diferencia
despus obtenidos
estimada
utilizar asumiendo
en 0,11
segn mmol/l
proceda (IC de
el test al la t de
Student con igual o distinta varianza. Esta distincin no es meramente acadmica: si la
homogeneidad
variabilidad
95% 0,080,14 ommol/l).
heterogeneidad
difiere entre ambas este de varianzas
Enpoblaciones,
caso, loslos son virtualmente
obtenidosdeidnticos
procedimientos
resultados debido,
estimacin
asumiendo y contraste
asumiendo igualdad de varianzas pueden ser muy engaosos, particularmente en muestras
en parte, a que ambos
cuyostamaos
tamaosmuestrales
nde no difieren
n2 difieran sustancialmente.
pequeas o moderadas
homogeneidad o heterogeneidad 1 yvarianzas sustancialmente.
son virtualmente idnticos debido,

en parte, a que ambos tamaos muestrales no difieren sustancialmente.


En resumen, la comparacin de medias en muestras independientes requiere

contrastar en primer
En resumen, lugar la igualdad
la comparacin de varianzas,
de medias paraindependientes
en muestras despus utilizar segn proceda
requiere
el test de laent de
contrastar Student
primer con
lugar la igual o distinta
igualdad varianza.
de varianzas, Esta
para distincin
despus no es
utilizar meramente
segn proceda
Pastor-Barriuso R. 91

acadmica:
el test de la si la Student
t de variabilidad difiere
con igual entre ambas
o distinta poblaciones,
varianza. los procedimientos
Esta distincin de
no es meramente
Inferencia sobre medias

6.4 COMPARACIN DE MEDIAS EN DOS MUESTRAS DEPENDIENTES

Los datos dependientes surgen cuando las observaciones recogidas en el estudio estn
correlacionadas entre s. A continuacin se presentan algunos mecanismos y diseos
epidemiolgicos que generan datos dependientes:
yy La obtencin de dos o ms determinaciones de la misma variable en un mismo sujeto da
lugar a datos dependientes, que pueden presentarse como:
Diferentes medidas de la misma variable en un momento determinado, habitualmente
para aumentar la fiabilidad del instrumento de medida.
Determinaciones de la misma variable en diferentes localizaciones anatmicas.
Medidas repetidas en el mismo sujeto a lo largo del tiempo, bien sea en comparaciones
antes y despus de un tratamiento, en ensayos clnicos cruzados o en estudios de medidas
repetidas con visitas sucesivas.
yy La seleccin de los participantes en un estudio emparejndolos por determinadas
caractersticas pronsticas genera datos dependientes entre los sujetos emparejados. El
ejemplo ms habitual es el emparejamiento en el diseo de los estudios de casos y controles.
yy Los datos de estudios procedentes de sujetos de una misma familia o de animales
pertenecientes a la misma camada suelen ser tambin dependientes.
En todos estos casos, la correlacin se limita a los grupos especficos donde se genera la
dependencia, que suelen ser habitualmente parejas. As, en un estudio de casos y controles
emparejados, los datos de cada pareja son dependientes, pero los datos de las distintas parejas
son independientes entre s. Igualmente, en un estudio de medidas repetidas, los datos de un
mismo individuo son dependientes, mientras que los resultados en diferentes individuos son
independientes entre s.
Las muestras dependientes estn constituidas por observaciones en los mismos sujetos o en
distintos sujetos emparejados segn ciertas caractersticas pronsticas de inters. De esta forma,
la distribucin de dichas caractersticas ser similar en ambas muestras, eliminando as la
posibilidad de que estos factores influyan en la comparacin objeto de estudio. En general, el
emparejamiento es una tcnica frecuentemente utilizada en el diseo de estudios clnicos o
epidemiolgicos con el propsito de controlar por determinados factores de confusin (ver
textos de mtodo epidemiolgico referenciados al final del tema). Estos diseos requieren de
tcnicas especficas de anlisis que preserven el emparejamiento. En este apartado se revisan
los mtodos estadsticos para el tratamiento de un caso especfico de dependencia, en el que se
dispone de dos determinaciones de una variable continua para cada pareja de datos dependientes.

Ejemplo 6.12Supongamos que en el estudio EURAMIC se seleccionan


aleatoriamente50casos de infarto de miocardio. Como la edad es un importante factor
pronstico de enfermedades coronarias, cada uno de estos casos se emparej por grupos
quinquenales de edad a un control libre de la enfermedad. As, por ejemplo, para un caso
de 62 aos de edad se seleccion aleatoriamente un control entre todos los controles
disponibles con edades comprendidas entre 60 y 64 aos. La muestra resultante de aplicar
este procedimiento constituira un estudio de casos y controles emparejados. En este
estudio, cabra esperar un cierto grado de correlacin en la informacin recogida para
cada pareja, dado que tanto el caso como el control se encuentran en el mismo rango de
edad. En la Tabla 6.1 se presentan los niveles de colesterol HDL en las 50 parejas de casos
y controles.

92 Pastor-Barriuso R.
Comparacin de medias en dos muestras dependientes

Tabla 6.1 Colesterol HDL en 50 casos y controles del estudio EURAMIC emparejados
segn grupos quinquenales de edad.
Colesterol HDL (mmol/l) Colesterol HDL (mmol/l)
Pareja Caso Control d* Pareja Caso Control d*
1 0,81 0,63 0,18 26 0,96 1,29 0,33
2 0,91 0,91 0,00 27 1,33 0,72 0,61
3 0,98 0,76 0,22 28 0,93 1,04 0,11
4 0,91 1,19 0,28 29 0,32 1,54 1,22
5 0,55 0,99 0,44 30 0,86 1,08 0,22
6 0,62 1,14 0,52 31 0,93 1,12 0,19
7 0,79 0,73 0,06 32 1,40 1,75 0,35
8 0,89 1,08 0,19 33 1,50 1,29 0,21
9 1,24 0,87 0,37 34 0,92 1,17 0,25
10 1,76 1,04 0,72 35 0,88 0,93 0,05
11 1,35 1,03 0,32 36 0,82 0,88 0,06
12 0,72 1,09 0,37 37 1,52 0,74 0,78
13 0,94 1,12 0,18 38 1,68 1,45 0,23
14 1,01 1,20 0,19 39 0,81 1,02 0,21
15 0,98 1,62 0,64 40 0,60 1,15 0,55
16 0,92 1,25 0,33 41 1,16 1,49 0,33
17 0,68 1,31 0,63 42 0,75 0,98 0,23
18 1,48 1,00 0,48 43 0,96 1,31 0,35
etar el problema, supongamos
19 que
1,23se dispone de
0,78 n pares de
0,45 observaciones
44 1,46 1,15 0,31
20 0,83 0,95 0,12 45 0,76 1,51 0,75
e aleatoria continua. 21
En cada pareja
0,92
de datos1,13
dependientes,
0,21
una 46 0,76 1,01 0,25
22 0,82 0,97 0,15 47 1,12 1,26 0,14
corresponde a la primera muestra y la otra observacin x2 a la segunda
23 1,21 0,74 0,47 48 1,01 0,91 0,10
24 0,78 0,88 0,10 49 0,99 1,63 0,64
jetivo se centra en comparar las medias poblacionales 1 y 2 a partir de
25 0,88 1,14 0,26 50 0,75 1,45 0,70
* Diferencia de colesterol HDL entre caso y control.
stras dependientes.

imientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta


Para concretar el problema supongamos que se dispone de n pares de observaciones de una
ue las medias de ambasaleatoria
variable muestrascontinua. En cada pareja de
no son independientes pordatos dependientes,
provenir de una observacin x1 corresponde
a la primera muestra y la otra observacin x2 a la segunda muestra. El objetivo se centra en
comparar
correlacionadas. las medias
Sin embargo, poblacionales
la comparacin 1 y 2 a partir
se simplifica de estas dos muestras dependientes.
notablemente
Los procedimientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta situacin, ya
las diferencias dque
= x1las
- x2medias
en cadadeuna n observaciones
de lasmuestras
ambas no son emparejadas.
independientes por provenir de observaciones
correlacionadas. Sin embargo, la comparacin se simplifica notablemente si se calculan las
omo las distintas parejas nodestn
diferencias = x1 relacionadas entre
x2 en cada una des,lasestas diferencias emparejadas. Por un lado, como las
n observaciones
distintas parejas no estn relacionadas entre s, estas diferencias son independientes. Por otro
lado, la
entes. Por otro lado, la media
media de
de las diferencias d coincide
las diferencias coincide con con la
la diferencia de medias muestrales,

medias muestrales,

1 n 1 n
d= n
n i =1
d i =
i =1
( x i1 x i 2 )
Pastor-Barriuso R. 93

1 n
1 n
=
n i =1
x i1 xi 2 = x1 x 2
n i =1
n i =1 n i =1

son independientes.
6.3 no puedenPor a 1esta
otro lado, la media1den las diferencias d coincide con la
n
rrollados en el Apartado aplicarse
Inferencia sobre medias
=
n i =1
x i1 xi 2 = x1 x 2
n i =1
de ambas muestras diferencia de medias muestrales,
no son independientes por provenir de
donde sd es la desviacin tpica de las diferencias observadas. De igual forma, la
das. Sin embargo, y, la en consecuencia,
comparacin d es un estimador
se simplifica notablemente insesgado de la diferencia de medias
1 n 1 n
= d i = H: (x i1=x i 2puede
hiptesis de igualdad de mediasdpoblacionales ) contrastarse frente a la
s d = x - x en cada una de las n observaciones
poblacionales n i =1 de la
1 - 2. As, el problema
emparejadas. n comparacin
0
i =1
1 2
de medias en dos muestras
1 2

1 n el estadstico
hiptesis alternativa H1: 1 2 mediante 1 n
dependientes
tas parejas no estn relacionadasqueda
entrereducido a=una simple
s, estas diferencias xi 2 = sobre
x i1 inferencia x1 xla
2 media de una nica
n i =1 n i =1
o lado, la mediay,deen muestra
las de n diferencias
diferencias
consecuencia, d escoincide independientes.
un estimador con la insesgado d de la diferencia de medias poblacionales 1 2.
t= .
As,y,elenproblema
consecuencia, de la comparacin
d es un estimador de medias s d en dosde
insesgado muestras dependientes
la diferencia de medias queda reducido a
rales, una simple Los mtodos
inferencia delsobre
Apartado la media 6.2.1de paraunalanica media
n muestrade unade muestra pueden independientes.
n diferencias entonces
poblacionales
Los mtodos 1 -Apartado
2. As, el6.2.1 problema demedia
la comparacin de medias en dos muestras
utilizarse paradel calcular un intervalo parade la confianza deal una
100(1 muestra
- )% para pueden entonces
1 - 2 como
utilizarse
1 n
1Bajo la hiptesis
para calcular
n nula, las de
un intervalo diferencias
confianzaobservadas al 100(1 se )% distribuiran
para aleatoriamente
2 como
d = di = ( x i1 x i 2 ) queda reducido a una simple inferencia sobre1 la media
dependientes de una nica
n i =1 n i =donde
alrededor sdel d esvalor
la desviacin tpica de quelas diferenciassobservadas. Dedistribucin
igual forma,t de la
1
0, de tal forma deste
testadstico
d seguira una
,
nmuestra de n diferencias independientes.
n 1,1 / 2
1 n
1 n
= x i1 Student xi 2 con
hiptesis = x1de n x12 grados de
- igualdad de medias
liberad. poblacionales
El valor P H0: 1 = 2 puede
corresponder, contrastarse
por tanto, a la frente a la
n i =1 n i =1
donde sd esmtodos
Los la desviacin tpica de
del Apartado las para
6.2.1 diferencias
la media observadas.
de una muestra De igual puedenforma, la hiptesis de
entonces
igualdad
hiptesis
probabilidad de medias
alternativa H1: 1 t2H
bajo lapoblacionales
distribucin 1 =valores
0:para
mediante
n-1
2 el puede contrastarse
estadstico
ms extremos que frenteel avalor
la hiptesis
observado alternativa
n estimador insesgado H :
1 utilizarse mediante
para calcular
1 de 2la diferencia el estadstico
un intervalo de confianza al 100(1 - )% para 1 - 2 como
de medias
de t. Esta prueba se denomina habitualmente como el test de la t de Student para 24
d
el problema de la comparacin de medias en dos muestrast = .s d
muestras dependientes. d t s d
n 1,1 / 2 ,
n n
o a una simple inferencia sobre la media de una nica
Bajo la hiptesis nula, las diferencias observadas se distribuiran aleatoriamente alrededor del
dependientes. valor Bajo Ejemplo
0, la
dehiptesis 6.13 nula,
tal forma Para
que estepreservar
las diferencias
estadstico el emparejamiento
observadas
seguira unase entre los casos
distribuiran
distribucin t de yStudent
controles
aleatoriamenteconden la1 grados
ar el problema,de libertad. Elque
supongamos valor se P corresponder,
dispone de n parespor detanto, a la probabilidad bajo la distribucin tn1 para
observaciones
do 6.2.1 para la valores
media dems Tabla
alrededor 6.1,
del
unaextremos se calcula
valor 0,
muestra pueden de latal diferencia
que el entonces valor observado de t. HDL
forma que de colesterol
este estadstico d = xca una
Estaseguira
prueba -sexcodenomina
en cada pareja.
distribucin t de 24
habitualmente
aleatoria continua. comoEn test de
el cada la t de
pareja de Student
datos dependientes,para muestras una dependientes.
Student Como conpuede
n
ntervalo de confianza al 100(1 - )% para 1 - 2 como - 1apreciarse,
grados de predominan
liberad. El las
valor parejas donde el caso
P corresponder, porpresenta
tanto, a laun nivel
corresponde a la primera Ejemplo muestra6.13y laPara otrapreservar
observacin el emparejamiento
x2 a la segundaentre los casos y controles de la Tabla 6.1,
inferior debajo
probabilidad colesterol HDL quetn-1
la distribucin supara
correspondiente
valores control (diferencias negativas).
se
sd calcula la diferencia de colesterol HDL d = xca ms extremos
xco en que el
cada pareja. valor
Como observado
puede apreciarse,
d
etivo se centrat n 1en
,1 comparar ,
/ 2 predominan las parejas
las medias donde el caso
poblacionales 1 y presenta
2 a partir undenivel inferior de colesterol HDL que su
de tDe hecho,
nEsta
.correspondiente
prueba la media
secontrolde estashabitualmente
denomina diferencias
(diferencias negativas). De como el hecho, t de Student
test delalamedia de estas para
diferencias
tras dependientes.
muestras dependientes. 1 50 0,18 + 0,00 + ... 0,70
mientos desarrollados en el Apartado 6.3 no50
d=
pueden i =1
di =
aplicarse a esta 50
= 0,12

Ejemplo 6.13 Para 24


ue las medias de ambas es muestras
una estimacin
no sonde lapreservar
diferencia
independientes
el en
emparejamiento
porelprovenir
nivel medio entre los casos y controles de la
de de colesterol HDL entre los casos de
es una estimacin
infarto y los sujetos2delibres la1diferencia en el nivelLa
de la enfermedad.
50 medio
varianzade colesterol HDL entre
de las diferencias losdada por
viene
Tabla 6.1, se calcula s d = la (d i d ) 2de colesterol HDL d = xca - xco en cada pareja.
diferencia
correlacionadas. Sin embargo, la comparacin 49 ise =1 simplifica notablemente
casos de infarto y los 1 50 libres de2 la enfermedad. La varianza de las
sujetos
Como puede apreciarse,
2
sd =
(n49 (d i d2 ) las parejas donde2 el caso presenta un nivel
predominan
i =1+ 0,12) + ...
0observaciones
,18 + (0,70 + 0,12)
as diferencias d = x1 - x2 en cada una de las = emparejadas. = 0,16,
diferencias viene dada por 49
inferior de colesterol (0HDL
,18 + 0que ,12)su +correspondiente
2
... + (0,70 + 0,12 control
) 2
(diferencias negativas).
mo las distintas parejas no estn relacionadas = entre s, estas diferencias = 0,16,
49
luegoDe el hecho,
error la media de estas
estndar d es diferencias
ntes. Por otro lado, laluego mediaelde error
las estndar
diferencias de d es coincide con la
luego el error estndar de d es
medias muestrales, 1 50 s0d,18 +0,040 ,00 + ... 0,70
d = SE (dd)i == = = 0,057 . = 0,12
50 i =1 n 50 50
sd 0,40
1 n 1 n SE (d ) = = = 0,057 . 25
d = d i = ( x i1 x i 2 ) n 50
n i =As,
94 Pastor-Barriuso1
es una estimacin de la diferencia en el nivel
nICi =1al 95% para la diferencia de medias poblacionales ca - co se obtiene
elR. medio de colesterol HDL entre los

1 ncomo
As, el 1ICde
casos n
alinfarto
95% paray loslasujetos
diferencia dede
libres medias poblacionales
la enfermedad. ca - co de
La varianza se las
obtiene
=
n i =1
x i1
n i =1
xi 2 = x1 x 2
SE (d ) =
= = 0,057 .
n 50
As, el IC al 95% para la diferencia de medias poblacionales ca - co se obtiene
Referencias
As, el IC al 95% para la diferencia de medias poblacionales ca - co se obtiene
como

como
As, el IC al 95% para
d la
t diferencia ) medias poblacionales ca co se obtiene como
SE( d de
49;0,975

d t49;0,975 SE( d) 2,010,057 = (-0,23; -0,01),


= -0,12
= 0,12 2,010,057 = ( 0,23; 0,01),
y la hiptesis nula H0: ca = co se contrasta mediante el test estadstico
y la hiptesis nula H0: ca = co se contrasta mediante el test estadstico
y la hiptesis nula H0: ca = co se contrasta mediante el test estadstico
d 0,12
t= = = 2,13,
SE (d ) 0,057
d 0,12
t= = = -2,13,
cuyo valor P asociado en la distribucin
SE (d ) t049,057es P = 2P(t49 2,13) = 20,019 = 0,038. De
este valor Pdeasociado
cuyoestudio casos y en la distribucin
controles emparejadost49 espuede
P = 2P(t 49 -2,13)
entonces = 20,019
concluirse que =la media del
colesterol HDL en los casos de infarto es inferior en 0,12 mmol/l al nivel medio de
cuyo
0,038.
los valor P asociado
controles (IC al 95% en la0,01-0,23
distribucin t49 es Psiendo
mmol/l), = 2P(t49 -2,13)
esta = 20,019
diferencia =
estadsticamente
significativa (P = 0,038). Esta conclusin es consistente con la obtenida en el Ejemplo
0,038.
De
6.11 este
paraestudio de casos
las muestras y controles
completas emparejados, de
e independientes puede
casosentonces concluirse
y controles. que cabe
No obstante,
destacar las siguientes particularidades. Por un lado, esta estimacin est sujeta a mayor
laDemedia
este estudio
variabilidad de casos
del aleatoria
colesterol y controles
yaHDL
que en los
tan emparejados,
slocasos de50
utiliza infarto puede
es de
parejas entonces
inferior
casos en concluirse
0,12 Porque
mmol/l
y controles. al
otro lado,
el diseo emparejado permite comparar casos con controles de similar edad y, en
la media
nivel mediodeldecolesterol HDL(IC
losestimacin
controles en los casos0,010,23
de infartommol/l),
es inferior en 0,12
estammol/l al
consecuencia, la seral menos
95% propensa a posibles siendo
sesgos diferencia
derivados de la
diferencia de edad entre casos y controles.
nivel medio de los
estadsticamente controles (IC
significativa (P =al0,038).
95% 0,010,23 mmol/l),essiendo
Esta conclusin esta diferencia
consistente con la
Los procedimientos presentados en este apartado se limitan a la comparacin de una variable
estadsticamente
obtenida significativa (P las
= 0,038). Esta conclusin es consistente con
de la de dos
continua a partirendeeldos
Ejemplo 6.11emparejadas
muestras para muestras
sujeto acompletas
sujeto. Eleanlisis
independientes
de la varianza
vas permite extender esta comparacin a casos ms generales de dependencia, tales como el
obtenida en el Ejemplo 6.11 para lasdestacar
muestraslascompletas e independientes dePor
diseocasos y controles.
de parejas con msNo deobstante,
un sujetocabe
por muestra (por siguientes
ejemplo, unparticularidades.
estudio de casos y controles
donde cada caso se empareja con 2 controles) o la comparacin de tres o ms muestras
casos
un y controles.
lado, estaejemplo, No obstante,
estimacin cabe destacar las siguientes particularidades. Por
dependientes (por un est sujeta
ensayo a mayor
clnico donde variabilidad aleatoria
cada paciente recibeya que tantratamientos
diversos solo
alternativos). Los mtodos de anlisis de la varianza de dos vas pueden consultarse en los
un lado,
50esta estimacin est sujeta a mayor variabilidad aleatoria ya que tan solo
textosutiliza
estadsticosparejas de acasos
citados y controles.
continuacin. Por otro lado, el diseo emparejado

utiliza 50 parejas de casos y controles. Por otro lado, el diseo emparejado


6.5REFERENCIAS 26

1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, 26


Fourth
Edition. Oxford: Blackwell Science, 2001.
2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
4. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole,
2001.
5. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
6. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley &
Sons, 1986.

Pastor-Barriuso R. 95
Inferencia sobre medias

7. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research: Principles and


Quantitative Methods. New York: John Wiley & Sons, 1982.
8. Kleinbaum DG, Kupper LL, Muller KE, Nizam A. Applied Regression Analysis and Other
Multivariable Methods, Third Edition. Belmont, CA: Duxbury Press, 1998.
9. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press,
1999.
10. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
12. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.

96 Pastor-Barriuso R.
7.1 INTRODUCCIN

En el anlisis de datos epidemiolgicos es frecuente el estudio de variables dicotmicas,

que reflejan la presencia o ausencia deTEMA 7 caracterstica en los miembros


una determinada

de una poblacin. El inters radica fundamentalmente en estimar la proporcin de


INFERENCIA SOBRE PROPORCIONES
individuos o elementos de la poblacin que presentan dicha caracterstica.

Esta proporcin poblacional es un parmetro desconocido que se estima mediante


7.1 INTRODUCCIN
la proporcin muestral p = k/n, donde k es el nmero observado de individuos que
En el anlisis de datos epidemiolgicos es frecuente el estudio de variables dicotmicas, que
reflejan la presencia
presentan o ausencia
la caracterstica de unaendeterminada
de inters una muestra caracterstica en losn.miembros
aleatoria de tamao La de una
poblacin. El inters radica fundamentalmente en estimar la proporcin de individuos o
elementos de lamuestral
distribucin poblacindeque
unapresentan
proporcindicha caracterstica.
ya se discuti en el Apartado 4.3.4.
Esta proporcin
partir de muestraspoblacional
dependientes eesindependientes.
un parmetro Para desconocido que sedeestima
cada problema mediante la
inferencia
Brevemente,
proporcin
de muestras dependientes recordamos
emuestral p = k/n,que
independientes. una
donde
Para cadakproporcin
esproblema
el nmeromuestral p tiende
de observado
inferencia de aindividuos
distribuirse quedepresentan
forma la
sobre proporciones se presentar un estimador puntual del parmetro
caracterstica de inters en una muestra aleatoria de tamao n. La distribucin muestral de una poblacional objeto
normal con
proporciones seproporcin
presentar unmedia
ya se y varianza
discuti
estimador (1parmetro
en el Apartado
puntual del - )/n,
4.3.4. poblacional
Brevemente,objeto recordamos que una proporcin
de estudio, un intervalo de confianza y una prueba de significacin.
muestral p tiende a distribuirse de forma normal con media y varianza (1 )/n,
partir de muestras dependientes e independientes. Para cada problema de inferencia
udio, un intervalo de confianza y una prueba de significacin.
p ~ N , (1 ) ,
sobre proporciones se presentar un
estimador puntual del parmetro poblacional objeto
7.2 INFERENCIA SOBRE UNA PROPORCIN n POBLACIONAL

NFERENCIA SOBRE cuando UNA
el tamao
de estudio, PROPORCIN
un muestral
intervalo de es POBLACIONAL
suficientemente
confianza y una pruebagrande y la proporcin poblacional no es
de significacin.
Con frecuencia
cuando
excesivamente el tamao se muestral
extrema,desea conocer
de tal la
queproporcin
es suficientemente
forma lade
se cumplagrande individuos n(1que
y la proporcin
condicin )poseen unaaproximacin
poblacional
5. Esta cierta
no es
se utilizar
recuencia se desea conocerrepetidamente
la proporcin alo delargo de esteque
individuos tema de inferencia
poseen una cierta sobre datos de carcter binario o
caracterstica
7.2 INFERENCIA
dicotmico.
excesivamente enextrema,
la poblacin.
SOBRE Como
de talUNA
forma ya
queseseapunt
PROPORCIN cumpla enlaPOBLACIONAL
elcondicin
Apartado n5.2, (1 la- proporcin
) 5. Esta
erstica en la poblacin.
Al igualComoque ya en se
el apunt
tema deeninferencia
el Apartado 5.2,medias,
sobre la proporcin
este captulo aborda la estimacin de
muestral p es un
aproximacin se buen estimador
utilizar puntual adelolalargo
repetidamente proporcin
de poblacional,
estaproporciones
tema que
de inferencia p es el
ya quesobre
unaCon proporcin
frecuencia poblacional, as como
se desea conocer la comparacin
la proporcin de
de individuos poseena partir
una de muestras
cierta
ral p es un buendependientes
estimador puntual de la proporcin
e independientes. Parapoblacional,
cada problema ya quede p es el
inferencia sobre proporciones se
estimador
datos
presentar deun insesgado
carcter ypuntual
binario
estimador consistente
o dicotmico.
del de con menor
parmetro error estndar.
poblacional objeto de estudio, un intervalo de
caracterstica en la poblacin. Como ya se apunt en el Apartado 5.2, la proporcin
ador insesgado confianza
y consistentey una con menor
de prueba error estndar.
de significacin.
Al igual quelaen
Utilizando el tema de inferencia
aproximacin normal a la sobre medias, este
distribucin captulo
muestral de p,aborda
se tienela la
muestral p es un buen estimador puntual de la proporcin poblacional, ya que p es el
lizando la aproximacin normal a la distribucin
7.2estimacin
INFERENCIA SOBRE UNA muestral de p, se tiene
PROPORCIN la
de una proporcin
siguiente relacin poblacional, as comoPOBLACIONAL
la comparacin de proporciones a
estimador insesgado y consistente de con menor error estndar.
nte relacin Con frecuencia se desea conocer la proporcin de individuos que poseen una cierta caracterstica
en la poblacin. Como ya se apunt en el Apartado 5.2, la proporcin muestral p es un buen
Utilizando la aproximacin normal apladistribucin
ya que p esmuestral
de p, se tiene la
estimador puntual de la proporcinP z1 / 2poblacional,
z1 / elestimador insesgado y consistente
2 1 , 1
de con menor error
p estndar. (1 ) / n

Psiguiente
z relacin
z1 / 2 1 ,
1 / 2
(1 ) / n normala la distribucin muestral de p, se tiene la siguiente relacin
Utilizando
la aproximacin
1 - /2 de la distribucin
donde z1-/2 es el percentil p normal estandarizada. El mtodo
P z1 / 2 z
/2 1 ,
z1-/2 es el percentil 1 - /2 de la distribucin
normal estandarizada. El1mtodo

ms sencillo para obtener (1 ) / n
un intervalo de confianza consiste en sustituir el error
encillo para obtener
dondeunz1/2
intervalo
es el de confianza
percentil 1 consiste
/2 de la en distribucin
sustituir el error
normal estandarizada. El mtodo ms
estndar
sencillo
dondepara de p por
z1-/2obtener su estimacin
un intervalo
es el percentil 1 - de p (1 p
/2 confianza ) / n y despejar
consistenormal
de la distribucin la estandarizada.
proporcin
en sustituir el error poblacional
estndar de p por su
El mtodo
dar de p por su estimacin
estimacin p (1 p ) / n yy despejar
despejar la la proporcin
proporcin poblacional
poblacional
ms sencillo para obtener un intervalo de confianza consiste en sustituir el error
p(1 p) p (1 p)
P p z1 / 2 p z1 / 2 1 .

p (1 p
p ) n
p (
p1 p )
p n n
P p z1estndar
/2
de por
su
estimacin
p z 1 / 2
(1 )


/
1 y
despejar
. la proporcin poblacional
n n
As, el intervalode confianza al 100(1 - )% para la proporcin poblacional Pastor-Barriuso
viene R. 97
p(1 p) p (1 p)
poblacional
l intervalo de confianza al 100(1P- p)% zpara
1 / 2la proporcin
n
p z1 / 2 viene
n 1 .
dado por
zn , n
0 (1 0 )
n
As, el intervalo de confianza al 100(1 - )% para la proporcin poblacional viene
Inferencia sobre proporciones

cuya distribucin
dado por ser aproximadamente N(0, 1) si la hiptesis nula H0: = 0 es cierta.
As, el intervalo de confianza al 100(1 )% para la proporcin poblacional viene dado por
El valor P del test corresponde entonces a la probabilidad bajo la distribucin normal
p(1 p )
p z1 / 2 .
estandarizada para valores ms alejados de 0 que el nvalor observado de z.
Para realizar el contraste de la hiptesis nula H0: = 0 frente a la alternativa bilateral H1: 0,
puedeEjemplo
emplearse
Para el A
realizar
7.1 estadstico
el contraste
partir de controles
de los la hiptesisdelnula H0:
estudio = 0 frente se
EURAMIC, a la alternativa
pretende estimar
p 0
bilateral H1: z el estadstico ,
la proporcin de0, individuos
puede emplearse
en la poblacin
0 (1 de
0referencia
) de dicho estudio que
n
presentan niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles 2
cuya distribucin ser aproximadamente N(0, 1) si la hiptesis nula H0: = 0 es cierta. El
P
bajos
cuya
valor segn el National
distribucin
del test Cholesterol
ser aproximadamente
corresponde entonces Education
a la probabilidad Program).
N(0, 1) si bajo
la hiptesis nula
la distribucin =de
En kH=0normal
:158 0estandarizada
los n=
es cierta.
para valores ms alejados de 0 que el valor observado de z.
539 controles
El valor P del testsecorresponde
observaron entonces
valores inferiores o igualesbajo
a la probabilidad a este
la umbral,
distribucin normal
Ejemplo 7.1 A partir de los controles del estudio EURAMIC, se pretende estimar la
obtenindose
estandarizada deuna
proporcin para proporcin
valores
individuos ms muestral
enalejados de 0 que
la poblacin el valor observado
de referencia de dichode z.
estudio que presentan
niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles bajos segn el
National Cholesterol Education p = k/nProgram).
= 158/539 =En k = 158 de los n = 539 controles se
0,293.
Ejemplo 7.1 A partir de los controles del
observaron valores inferiores o iguales a este umbral, estudio EURAMIC, se pretende
obtenindose una estimar
proporcin
muestral
Dado que np(1 - p)
la proporcin de =individuos
111,7 5,enpuede emplearse
la poblacin de la aproximacin
referencia normal
de dicho paraque
estudio
p = k/n = 158/539 = 0,293.
presentan
calcular
Dado que ICniveles
unnp(1 p) =depara
al 95% colesterol
111,7 HDL inferiores
laproporcin
5, puede olaiguales
poblacional
emplearse como a 0,90 mmol/l
aproximacin normal(niveles
para calcular
un IC al 95% para la proporcin poblacional como
bajos segn el National Cholesterol Education Program). En k = 158 de los n =
0,293(1 0,293)
0,293 z 0,975
539 controles se observaron valores539 inferiores o iguales a este umbral,
= 0,293 1,960,020 = (0,255; 0,332);
obtenindose una proporcin muestral
es decir, la proporcin poblacional de sujetos con niveles bajos de colesterol HDL est
comprendida entre el 25,5 y el 33,2% p = k/ncon=una confianza
158/539 del 95%. Asimismo, para determinar
es decir, la proporcin poblacional de sujetos con=niveles
0,293. bajos de colesterol HDL
si los datos muestrales son compatibles con una proporcin subyacente del 30%, se
contrast la hiptesis H0: = 0,30 versus H1: 0,30 mediante el estadstico
estDado
comprendida
que np(1 entre
- p) =el111,7
25,5 y 5, el puede
33,2% emplearse
con una confianza del 95%.normal
la aproximacin Asimismo,
para
p 0 0,293 0,30
z= = 0,35,
para determinar
calcular un ICsiallos
95%datos muestrales
para
0 (1
son
laproporcin
0)
compatibles
0,30 (1 0,30) con
poblacional una proporcin
como
n 539
subyacente del 30%, se contrast la hiptesis H0: = 0,30 versus H1: 0,30
que corresponde a un valor P = 2P(Z 0,35)
0,293 = 2{1
(1 0,293 ) (0,35)} = 0,726 en las tablas de
la distribucin normal0, 293 z
estandarizada
P = 2P(Z (Tabla
que corresponde a un valor 5393 del
-0,35) Apndice).
= 2{1 - (0,35)}Por= tanto,
0,726 puede
en las concluirse
0 , 975
mediante el estadstico
que la prevalencia poblacional de niveles bajos de colesterol HDL no es significativamente
distintadedel
tablas la 30%.
distribucin normal=estandarizada (Tabla=3(0,255;
del Apndice).
0,293 1,960,020 0,332); Por tanto,
Lospuede concluirse que
procedimientos de la prevalencia
inferencia poblacional
presentados en de niveles
este bajosasumen
apartado de colesterol
que el tamao
es decir, la proporcin poblacional de sujetos con niveles bajos
muestral es suficientemente grande para aplicar la aproximacin normal; es decir,de colesterol HDL
3 ha de
HDLelnorequerimiento
cumplirse es significativamente
mnimo de distinta del 30%.
que n(1 ) 5. No obstante, en el Apndice de este
tema (Apartado 7.8) se facilitan correcciones de con
est comprendida entre el 25,5 y el 33,2% unamtodos
estos confianza
quedelpermiten
95%. Asimismo,
aumentar la
cobertura de los intervalos de confianza y reducir la probabilidad de un error de tipo I en los
para
contrastes, determinardesiinferencia
Los procedimientos
particularmente los datoselmuestrales
cuando presentados son
en compatibles
tamao muestral este
es apartado
moderado con
o una
asumen proporcin
que el
pequeo. tamao
Esta correccin

muestral subyacente
es suficientemente
del 30%,grande para aplicar
se contrast H0: = 0,30
la aproximacin
la hiptesis normal; 1: ha
versusesHdecir, de
0,30
98 Pastor-Barriuso R.

cumplirsemediante mnimo de que n(1 - ) 5. No obstante, en el Apndice de


el estadstico
el requerimiento
Comparacin de proporciones en dos muestras independientes

de la aproximacin normal se conoce como correccin por continuidad y es aplicable a la


mayora de los procedimientos estadsticos descritos en este tema. En adelante, se tratarn los
mtodos de inferencia sin correccin por continuidad. Las correspondientes versiones con
correccin se presentan en el Apndice al final del tema.

7.3COMPARACIN DE PROPORCIONES EN DOS MUESTRAS INDEPENDIENTES

Supongamos ahora que el inters radica en comparar la proporcin de sujetos con una
determinada caracterstica en dos muestras independientes. Este planteamiento general es
aplicable a las comparaciones realizadas en cualquiera de los siguientes diseos de un estudio:
yy Un estudio prospectivo es aquel en el que n1 individuos expuestos a una intervencin
(ensayo clnico) o a un potencial factor de riesgo (estudio de cohortes) y n2 individuos no
expuestos son seguidos a lo largo de un periodo de tiempo para determinar cuntos
desarrollan la enfermedad. Los tamaos muestrales de ambos grupos n1 y n2 estn fijados
de antemano y, en el caso de un ensayo clnico, la intervencin se asigna de forma aleatoria
a cada sujeto. El objetivo se centra en comparar la proporcin de sujetos que desarrollan
la enfermedad entre los expuestos y los no expuestos.
yy Un estudio retrospectivo (estudio de casos y controles) es aquel en el que m1 sujetos con
la enfermedad (casos) y m2 sujetos libres de ella (controles) son examinados para determinar
cuntos han estado previamente expuestos al potencial factor de riesgo. Bajo este diseo,
el nmero de casos y controles est predeterminado y, en consecuencia, ha de compararse
la proporcin de expuestos entre los sujetos con y sin la enfermedad.
yy Un estudio transversal es aquel en el que se selecciona un total de n individuos en un
instante determinado para establecer en cada sujeto la presencia o ausencia de la exposicin
y la enfermedad. A diferencia de los estudios prospectivos, donde se compara la incidencia
de nuevos casos de la enfermedad, los estudios transversales comparan la prevalencia de
la enfermedad en un instante determinado entre expuestos y no expuestos.

Ejemplo 7.2 En el Second National Health and Nutrition Examination Survey


(NHANES II), una encuesta llevada a cabo entre 1976 y 1980 en Estados Unidos, se
recogieron datos del nivel de colesterol srico total en una muestra representativa
de 7.712 sujetos entre 30 y 74 aos de edad sin diagnstico previo de enfermedad
cardiovascular o cncer. Tras un seguimiento medio de 15 aos, se determin el estatus
vital de cada sujeto y, en su caso, la causa de muerte. As, en este estudio de cohortes
prospectivo se registraron 254 muertes por enfermedad cardiovascular entre los 2.713
participantes con niveles de colesterol total superiores o iguales a 6,20 mmol/l (niveles
altos segn el National Cholesterol Education Program) y 309 muertes por enfermedad
cardiovascular entre los 4.999 participantes con niveles de colesterol total inferiores
a 6,20 mmol/l.

Ejemplo 7.3 En el estudio de casos y controles EURAMIC, se clasific a los sujetos


segn tuvieran valores superiores o inferiores al umbral de 0,90 mmol/l de colesterol HDL.
De los 462 casos de infarto de miocardio con datos disponibles, 193 tuvieron valores de
colesterol HDL inferiores o iguales a 0,90 mmol/l; mientras que de los 539 controles
libres de la enfermedad, 158 presentaron valores de colesterol HDL inferiores a dicho
umbral.

Pastor-Barriuso R. 99
valores de colesterol HDL
valores
inferiores
de colesterol
a dicho HDL
umbral.
inferiores a dicho umbral.

Inferencia sobre proporciones


n general, los resultados
Ende
general,
la comparacin
los resultados
de una
devariable
la comparacin
dicotmica
de una
en dos
variable dicotmica en dos

tras independientesmuestras
suelen organizarse
independientes en una
suelen
tablaorganizarse
22 (Tabla en 7.1).
unaEntabla
este22 (Tabla 7.1). En este
Tabla 7.1Tabla 22 genrica de la
2(1 - 2)/n2). Adems, como ambas muestras son
asociacin entre exposicin y enfermedad.
ado suponemos queapartado
se analizan
suponemos
datos deque
un estudio
se analizan
prospectivo,
datos de un
en el
estudio
que seprospectivo, en el que se
4), se tiene que Enfermedad
1, en ~ N( , (1 - )/n ). Adems, como ambas muestras son
N(
nde estimar la diferencia
pretende la- proporcin
1(1estimar
1)/n1la p2 de
) ydiferencia
enfermos
en
2 la2 proporcin
Exposicin entreS
2 expuestos
2 de No
enfermos
y no Total
entre expuestos y no
1 (1 1 ) 2 (1 2 ) S a b n1
estos.
1 Estos
2, mtodos independientes
expuestos. Estos . mtodos
pueden aplicarse
(vase Apartado
igualmente a3.4),
No pueden se tiene
estudios
aplicarse que d a estudios
c retrospectivos,
igualmente peron retrospectivos, pero
n1 n2 2
Total m1 m2 n
arando la proporcin comparando
de expuestos la proporcin
entre casosdey expuestos controles (ver entre
1Ejemplo
(1casos
1 )y 7.5).
controles
2 (1 (ver Ejemplo 7.5).
~ 2)
p1 - p2 es un estimador puntuallos
En general, insesgadop1 de
resultados p 2de 1 2 ,
lalaN comparacin de .
n1 una variable n 2 dicotmica

en dos muestras
independientes
N(1,[Tabla
1(1 - 7.1suelen ~
organizarse en
2, aqu] una tabla 22 (Tabla
2)/n2). Adems, como 7.1). En este apartado suponemos
1)/n 1) y p2 N(
aproximadamente [Tabla 2(1
7.1- aproximadamente aqu] ambas muestras son
1 - 2 entre expuestos y no expuestos, E(p - p ) = -
que se analizan datos de un estudio prospectivo, en el que se pretende estimar la diferencia en
1 2 1
De este resultado
la independientes
proporcin se desprende
de enfermos que p1 - p2 yesno
entre expuestos unexpuestos.
estimador puntual insesgado
Estos mtodos de la aplicarse
pueden
(vase Apartado 3.4), se tiene que
0(1 - )% para igualmente
- se obtiene siguiendo el mismo
1
proporcin de enfermos 2
ena laestudios retrospectivos, pero comparando la proporcin
La proporcin muestra de de enfermos
sujetosen expuestos
la muestra vienede sujetos
dada por p1 =
expuestos de expuestos entre= casos
viene dada por p1
diferencia(ver
y controles de Ejemplo
riesgos subyacente
7.5). 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 -
roporcin como 1 (1 1 ) 2 (1 2 )
y en la muestra de N( a/n
La proporcin
1,yen
sujetos 1no muestra
(1la-expuestos ) ypde
1por
p2sujetos
de 1enfermos
1)/n =~ la
p~p22en
N(
,2.expuestos
Nno
c/n2muestra2Sin-1 de
1(1 nsujetos
y22,)/n
2 2por
son psuficientemente
= c/n2como n1ambas
. Siviene
2expuestos
). Adems, y ndada
2. son a/n1 y en la
p1 = son
suficientemente
por
muestras
. El intervalo de confianza al 100(1
- )% paran 1 1 - 2 se obtiene
muestra de sujetos no expuestos por p2 = c/n2. Si n1 y n2 son suficientemente grandes, estas
2 n 2 siguiendo el mismo
des, estas proporciones grandes, ~ N(
pp11 ~ N( ,
1)/n1) ypp12
p 2 (1muestrales
proporciones pestas
p1 (1 p1 ) independientes ) proporciones
tendern
2muestrales
(vase tendern a distribuirse
Apartado muestrales
3.4), sede
a distribuirse tendern
de
tieneforma quenormal,
forma anormal,
distribuirse de forma
1, 1(1 normal,
/ 2 procedimiento , utilizado para unamuestras
proporcin como
2

n1 (1
2 De este )/n ). Adems, como ambas son independientes
2n 2 2resultado se desprende que p1 - p2 es un estimador puntual insesgado de la (vase Apartado 3.4), se tiene que
~ , 1 (1 1 ) 2 (1 2 ) .
diferencia de riesgospsubyacente1 p 2 N -1 entre 2p1 (1 expuestos
p1 ) p 2y(1no p2 )
expuestos, E(p1 - p2) = 1 -
erencia de proporciones muestrales con una p 2 z11 / 22
p1 amplitud n1 n2 6 , 6
n1 n2
Deeste
2. Elresultado
intervalosededesprende
confianzaque p1 p2- es
al 100(1 )% un para 1 - puntual
estimador 2 se obtiene insesgado de laeldiferencia
siguiendo mismo de
macin de su error estndar.
De este
riesgos resultadose
subyacente 1 desprende que p1 - py2 no
2 entre expuestos es un estimador
expuestos, E(p puntual
1 p2) = insesgado deintervalo
1 2. El la de
que es simtrico
confianza alrededor
)% para
al 100(1utilizado
procedimiento paradeuna
ladiferencia
se obtiene
proporcin decomo proporciones
siguiendo el muestrales
mismo con una amplitud
procedimiento utilizado
encias en la probabilidad subyacente de desarrollar 1 la2
para una proporcin
diferencia de riesgoscomo subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 -
directamente proporcional a la estimacin de su error estndar.
stos y no expuestos, se contrasta la hiptesis nula H0: p1 (1 p1 ) p 2 (1 p 2 )
2. El intervalo de confianza p1 pal 2 z1 / 2- )% para 1- 2 se obtiene
100(1 , siguiendo el mismo
Para determinar si existen diferencias en lan1probabilidadn 2subyacente de desarrollar la
tiva bilateral H1: 1 2. Bajo la hiptesis nula de
queprocedimiento
es simtrico
enfermedad
utilizado
alrededor
entre los sujetos
para una
de expuestosproporcindecomo
la diferencia y no expuestos,proporciones muestrales
se contrasta con una
la hiptesis amplitud
nula H0:
directamente
2 = , se cumple que que es proporcional
simtrico alrededor a ladeestimacin
la diferencia de su
de error estndar.
proporciones muestrales con una amplitud
Para
1 = determinar
2 frente a la si hiptesis
existenalternativa
diferenciasbilateral pen1 (1la H 11): 1 p2 (12.Bajo
pprobabilidad 2 ) la hiptesis
psubyacente de nula de
desarrollar la
directamente proporcional p1 a pla2 estimacin
z1 / 2 de su error estndar. ,
enfermedad 1 entre los sujetos expuestos y no expuestos, n1 se contrasta
n2 la hiptesis nula H0: 1 = 2
~ N 0, (1 ) 1igualdad
,
de proporciones H : = = , se cumple que
frente
a la hiptesis alternativa 0 bilateral
1 2 H1: 1 2. Bajo la hiptesis nula de igualdad de
n1 Paran 2 determinar
proporciones H : = si existen= , se
diferencias en
cumple que
la probabilidad subyacente de desarrollar la
0 1 2
que es simtrico alrededor de la diferencia de proporciones muestrales con una amplitud
enfermedad entre los sujetos expuestos ~ N y0no expuestos, 1 se1contrasta
la hiptesis nula H0:
dad de enfermar comn para expuestos y no p1 p 2 , (1
de su error ) ,
directamente proporcional a la estimacin n 2
n1estndar.
1 = 2 frente a la hiptesis alternativa bilateral H1: 1 2. Bajo la hiptesis nula de
ad es desconocida, su
dondePara valor puedea estimarse
corresponde
determinar lasiprobabilidad de enfermar
existen diferencias en la comn para expuestos
probabilidad subyacentey no expuestos. Aunque
de desarrollar la esta
probabilidad
donde es desconocida,
corresponde a la su valor
probabilidadpuede
igualdad de proporciones H0: 1 = 2 = , se cumple que estimarse
de enfermar mediante
comn la proporcin
para combinada
expuestos y no de enfermos
de enfermos enenambas ambas muestras
muestras
enfermedad p =los
entre =(a(asujetos
c)/(1nexpuestos
++c)/(n +1 +n2) = m1/n. y As, el estadstico
no expuestos, se propuesto
contrasta para este test nula
la hiptesis es H0:
expuestos. Aunque esta probabilidad es desconocida, p 1 p 2 su valor puede estimarse
z ~ 1 ,1
uesto para este testes 1 = 2 frente a la hiptesis p1alternativa
p 2 N bilateral
0, (11 H)1: 11
2. Bajo , la hiptesis nula de
mediante la proporcin combinada depenfermos (1 p ) enambas n1 n muestras
2 p = (a + c)/(n1 +
n1 n 2
igualdad de proporciones H0: 1 = 2 = , se cumple que
) = mH1/0corresponde
quen2bajo
donde n.sigue aproximadamente
As, el estadstico propuesto
a la probabilidad
una distribucin
depara este test
enfermar
normal
es para
comn
estandarizada, lo que permitir
expuestos y no
determinar
que bajo la H0significacin estadstica deuna
sigue aproximadamente la distribucin
diferencia entre normalproporciones.
estandarizada, lo que
p1 p 2 ~ N 0, (1 ) 1 1 ,
expuestos. Aunque esta probabilidad es desconocida, puede estimarse
sun valor
permitir determinar la significacin estadstica delan1diferencia
2 entre proporciones.
100 Pastor-Barriuso R. 7
mediante la proporcin combinada de enfermos en ambas muestras p = (a + c)/(n1 +
corresponde
dondeEjemplo 7.4 EnalalaTabla
probabilidad de enfermar
7.2 se presenta comn
el nmero depara expuestos
muertes y no
por enfermedad
n ) = m /n. As, el estadstico propuesto para este test es 7
permitir determinar la significacin estadstica de la diferencia entre proporciones.
p2 es un estimador puntual insesgado de la
que bajo H0 sigue aproximadamente una distribucin normal estandarizada, lo que
Comparacin de proporciones en dos muestras independientes
entre expuestos y no Ejemplo 7.4E(p
expuestos, En1 la 2) = 17.2
- pTabla - se presenta el nmero de muertes por enfermedad
permitir determinar la significacin estadstica de la diferencia entre proporciones.
)% para 1 - 2 se obtiene siguiendoobservadas
cardiovascular el mismo durante el seguimiento del estudio NHANES II entre
Tabla 7.2 Muertes por enfermedad cardiovascular
rcin como Ejemplo
los sujetos En(ECV)
7.4con niveles durante
la Tablaaltos el seguimiento
7.2 ysemoderados-bajos
presenta el nmero
de de del estudio
muertes
colesterol por enfermedad
srico total (Ejemplo
NHANES II segn niveles del colesterol srico total.
cardiovascular observadas
7.2). La proporcin durante
de muertes
Colesterol porelenfermedad
seguimiento
Mortalidad del
ECVestudio NHANES
cardiovascular
por II entre
es p1 = 254/2.713
p1 (1 p1 ) p 2 (1 p 2 )
, total (mmol/l) S No Total
n1 n 2 los sujetos
= 0,094 en con niveles altos ycon
los participantes moderados-bajos de colesterol
niveles de colesterol srico total
total superiores (Ejemplo
a 6,20
6,20 254 2.459 2.713
< 6,20 309 4.690 4.999
cia de proporciones 7.2).
mmol/lLa yproporcin
muestrales pcon
2 = una de muertes
309/4.999 porenenfermedad
= 0,062
amplitud aquellos cardiovascular
con es p1a=6,20
niveles inferiores 254/2.713
mmol/l.
Total 563 7.149 7.712

n de su error estndar.=Por0,094
tanto,enlalosestimacin
participantes con niveles
puntual de colesterol
de la diferencia total superiores
de riesgos subyacentea es6,20
p - p2 =
Ejemplo 7.4 En la Tabla 7.2 se presenta el nmero de muertes por1 enfermedad
cardiovascular
mmol/l observadas=durante
p2 = =309/4.999 el aquellos
seguimiento con del estudio NHANES II entre los sujetos
0,094 - y0,062
s en la probabilidad subyacente 0,032 y su 0,062 en
la intervalode de confianza niveles
al 95% inferiores a 6,20 mmol/l.
con nivelesde desarrollar
altos y moderados-bajos colesterol srico total (Ejemplo 7.2). La proporcin
de muertes
Por tanto, lapor enfermedad
estimacin cardiovascular
puntual de la diferencia es p1 de
= 254/2.713 = 0,094 eneslos
riesgos subyacente p1 participantes
- p2 =
y no expuestos, se contrasta
con nivelesla hiptesis
de colesterol H0:0,superiores
nula total 094(1 0,094 0,062(1yp02 ,=062
) mmol/l
a 6,20 )
309/4.999 = 0,062 en aquellos
0,032 z 0,975
con niveles
0,094 - 0,062inferiores
= 0,032 ya su 6,20 mmol/l.
2.713
intervalo dePor tanto, laalestimacin
confianza 495%
.999 puntual de la diferencia de
bilateral H1: 1 2. Bajo
riesgosla hiptesis
subyacente nulaes de
p1 p2 = 0,094 0,062 = 0,032 y su intervalo de confianza al 95%
cardiovascular en los sujetos con=niveles 0,032 altos de colesterol
1,960,007 = (0,019;total0,045).
excedi en 32
, se cumple que 0,094(1 0,094) 0,062(1 0,062)
0,032 z 0,975
casos por 1.000 a la de los participantes 2.713 con niveles4ms .999bajos (IC al 95% entre 19
Para el contraste bilateral de la hiptesis nula de igualdad de proporciones
1 1 = diferencia
0,032 1,960,007 = (0,019;(0,045).
0, (1 ) y ,45 casos por 1.000), siendo esta muy significativa P < 0,001).
n
1 n 2 poblacionales
Para el contraste 1 = 2 de
H0:bilateral se emplea el estadstico
la hiptesis nula de igualdad de proporciones poblacionales
H0: el
Para 2 se emplea
1 =contraste el estadstico
bilateral de la hiptesis nula de igualdad de proporciones
de enfermar comn para expuestos y no 0,032
z = [Tabla 7.2 aproximadamente aqu]= 5,13,
poblacionales H0: 1 = 2 se emplea el estadstico 1 1
es desconocida, su valor puede estimarse 0,073(1 0,073)
2.713 4.999
Ejemplo
donde p 7.5 La
a +Tabla
cz)/(=n17.3
= (563/7.712 += muestra
0,073 eslos 0la,032
casos de infarto
proporcin de miocardio
global y lospor enfermedad
nfermos en ambas muestras = de muertes
5,13,
donde p = 563/7.712
cardiovascular en todos= los 0,073 es la proporcin
participantes del1 NHANES 1 de
global II.muertes
El valorporP enfermedad
del test se obtiene
controles del EURAMIC 0,073
con (1valores
0,073de ) colesterol
HDL superiores o inferiores a
para este test es como 2P(Z 5,13) = 2{1 (5,13)} < 0,001.
2.713 4.999 En resumen, despus de 15 aos de
seguimiento,
cardiovascularlaen incidencia
todos losacumulada
participantes de del
muertes
NHANESpor enfermedad
II. El valor cardiovascular
P del test se en los
0,90
sujetosmmol/l. A partiraltos
con niveles de esta tabla 22, total
de colesterol se pretende
excedicomparar
en 32 casosla proporcin
por 1.000dea la de los
obtienepcomo
donde
participantes = 563/7.712
con
2P(niveles = 0,073
Z 5,13) ms es la- (IC
= bajos
2{1 proporcin global
al 95%< entre
(5,13)} 0,001. de
19En muertes
y 45 casos por
resumen, por enfermedad
1.000),desiendo
despus 15 esta
sujetos
diferencia conmuyniveles bajos de colesterol
significativa (P < 0,001). HDL ( 0,90 mmol/l) entre casos p1 = c/m1
cardiovascular en todos los participantes
aos de seguimiento, la incidencia acumulada del NHANES
de muertes II. por
El valor P del test se
enfermedad
= 193/4627.5
Ejemplo = 0,418 y controles
La Tabla p2 = dlos
7.3 muestra /m2 casos
= 158/539 = 0,293.
de infarto La diferencia
de miocardio y losdecontroles del
obtiene como 2 P ( Z 5,13) 7= 2{1 - (5,13)} < 0,001. En resumen, despus de 15
EURAMIC con valores de colesterol HDL superiores o inferiores a 0,90 mmol/l. A8 partir
proporciones
de esta tabla muestrales
22, se pretendees p1 - comparar
p2 = 0,418la- 0,293 = 0,125
proporcin deysujetos
el IC alcon para bajos
95%niveles 1- de
aos de seguimiento, la incidencia acumulada de muertes por
colesterol HDL ( 0,90 mmol/l) entre casos p1 = c/m1 = 193/462 = 0,418 y controles p2 = enfermedad
d/m dado por= 0,293. La diferencia de proporciones muestrales es p1 p2 = 0,418
2 = 158/539
2 viene
0,293 = 0,125 y el IC al 95% para 1 2 viene dado por 8

p1 (1 p1 ) p 2 (1 p 2 )
p1 p 2 z 0,975
m1 m2
0,418(1 0,418) 0,293(1 0,293)
= 0,125 1,96
462 539
= 0,125 1,960,030 = (0,065; 0,184).

Pastor-Barriuso R. 101

El estadstico para el contraste bilateral de la hiptesis nula H0: 1 = 2 se calcula


viene dado por
p1 (1 p1 ) p 2 (1 p 22 )
,
n1 n 2 sobre proporciones
Inferencia
p1 (1 p1 ) p 2 (1 p 2 )
donde p p=1 n2/pn2=351/1.001
z 0,975 = 0,351 es la proporcin total de sujetos con niveles
ia de proporciones muestrales con una amplitud m1 m2
Tabla 7.3 Colesterol HDL en los casos de infarto
bajos de colesterol
agudo de HDL. La significacin
miocardio y (los estadstica del
del(contrate es por tanto P =
n de su error estndar. 0,418 1 0controles
,418) 0,293 1estudio
0,293)
= 0,125 1,96
EURAMIC.
2{1 - (4,12)} < 0,001. As, los casos 462 539 son
de infarto de miocardio
en la probabilidad subyacente de desarrollar
Colesterol la Infarto de miocardio
HDL
significativamente= (mmol/l)
0,125 1,960,030
ms propensos Caso = (0,065;
a presentar 0,184).bajosTotal
Control
niveles de colesterol HDL que
y no expuestos, se contrasta la hiptesis nula H0:
> 0,90 269 381 650
los sujetos para
libreselde
0,90 la enfermedad (Pde< la
193 0,001), con nula
158 una diferencia
: 1 = de
H0351
El estadstico
ilateral H1: 1 2. Bajo la hiptesis nula contraste
de bilateral hiptesis 2 se calcula
Total 462 539 1.001
proporciones del 12,5% (IC al 95% 6,518,4%).
como
, se cumple que
El estadstico para el contraste bilateral de la hiptesis nula H0: 1 = 2 se calcula como
p1 p 2
1 1 z [Tabla 7.3 aproximadamente aqu]
0, (1 ) , 1 1
n1 n 2 p (1 p )
m1 m 2

e enfermar comn 7.4


paraASOCIACIN
expuestos y no ESTADSTICA EN 0,125
UNA TABLA DE
4CONTINGENCIA
,12,
1 1
s desconocida, su valor puede estimarse 0,351(1 0,351)
462 539 estadstica para evaluar de
En este apartado se presenta una prueba de significacin
donde p == n(a/n+ =c)/(
fermos en ambas muestras n1 +
351/1.001 = 0,351 es la proporcin total de sujetos con niveles bajos de
forma genrica 2la presencia o ausencia de asociacin entre las variables dicotmicas
colesterol HDL. La significacin estadstica del contraste es por tanto P = 2{1 (4,12)} <
9
0,001. As, los casos de infarto de miocardio son significativamente ms propensos a presentar
para este test es
representadas en una tabla 22. Este procedimiento no facilita estimaciones de efecto,
niveles bajos de colesterol HDL que los sujetos libres de la enfermedad (P < 0,001), con
una diferencia de proporciones del 12,5% (IC al 95% 6,5-18,4%).
sino nicamente valores P, y es aplicable a estudios prospectivos (marginales n1 y n2

7.4fijos), retrospectivos
ASOCIACIN (marginales m1 EN
ESTADSTICA y m2UNA
fijos)TABLA
y transversales (tamao muestral n fijo).
DE CONTINGENCIA

En este Paraapartado se presenta


contrastar una
7 prueba
si las variables de unadetablasignificacin estadstica para
22 son independientes, se evaluar
comparan de las
forma
genrica la presencia o ausencia de asociacin entre las variables dicotmicas representadas en
unafrecuencias
tabla 22. observadas
Este procedimiento
Oij en cadano celda
facilita(i,estimaciones
j) de la tabla deconefecto, sino nicamente
sus frecuencias valores
esperadas
P, y es aplicable a estudios prospectivos (marginales n1 y n2 fijos), retrospectivos (marginales
y ijmbajo
m1 E 2 fijos) y transversales
la hiptesis nula de(tamao muestraldonde
independencia, n fijo).i = 1, 2 denota la fila y j = 1, 2 la
Para contrastar si las variables de una tabla 22 son independientes, se comparan las
columna.observadas
frecuencias Estas frecuencias esperadas
Oij en cada Eij j)sede
celda (i, calculan
la tablacomo el producto
con sus de esperadas
frecuencias sus Eij bajo
la hiptesis nula de independencia, donde i = 1, 2 denota la fila y j = 1, 2 la columna. Estas
correspondientes
frecuencias esperadasmarginales ni y mcomo
Eij se calculan j, dividido por el tamao
el producto muestral total n, marginales n
de sus correspondientes i
y mj, dividido por el tamao muestral total n,
nm
Eij = i j .
n
As, por ejemplo, si en un estudio prospectivo no hubiera asociacin entre exposicin y
As, por ejemplo,
enfermedad, si en un
la frecuencia estudiode
esperada prospectivo
expuestos no
quehubiera asociacin
desarrollan entre exposicin
la enfermedad y al
sera igual
producto del nmero de expuestos n1 por la proporcin combinada de enfermos m1/n, E11 =
n1menfermedad, la frecuencia esperada de expuestos que desarrollan la enfermedad sera
1/n. Igualmente, en un estudio retrospectivo la frecuencia esperada de casos que han estado
expuestos al factor de riesgo correspondera al producto del nmero de casos m1 por la proporcin
igual al producto
combinada del nmero
de expuestos n1/n, E11de=expuestos n1 por la proporcin
m1n1/n. Asimismo, combinada
en un estudio de enfermos
transversal la frecuencia
esperada de sujetos a la vez expuestos y enfermos sera igual al producto del nmero total de
10

102 Pastor-Barriuso R.
Ejemplo 7.6 La Tabla 7.2 muestra los valores observados de la asociacin entre la

mortalidad por enfermedad cardiovascular y el colesterol total en el estudio


Asociacin estadstica en una tabla de contingencia

prospectivo NHANES II. Si ambas variables fueran independientes, la


n por las proporciones
sujetosprobabilidad de morir por de n1/n y de enfermos
expuestoscardiovascular
enfermedad m1/n,enElos
sera igual n(n1/n)(m1/n) =
11 =sujetos
n1m1/n. Notar, por tanto, que los valores esperados bajo la hiptesis nula de independencia
coinciden en los distintos
con niveles tipos de
altos y bajos de colesterol
diseo. total. Esta probabilidad podra entonces

Ejemplo
estimarse7.6 La Tabla
mediante 7.2 muestra
la proporcin los valores
combinada observados
de muertes de lamuestras
en ambas asociacin entre la
mortalidad por enfermedad cardiovascular y el colesterol total en el estudio prospectivo
NHANES
563/7.712 =II.0,073.
Si ambas variables
As, entre fueran
los 2.713 independientes,
participantes la probabilidad
con niveles altos de de morir por
enfermedad cardiovascular sera igual en los sujetos con niveles altos y bajos de
colesterol total,
total.cabra
Esta probabilidad podra =entonces
esperar 2.7130,073 estimarse
198,1 muertes mediante la proporcin
por enfermedad
combinada de muertes en ambas muestras 563/7.712 = 0,073. As, entre los 2.713
participantes
cardiovascularcon bajoniveles altos de
la hiptesis nulacolesterol total, cabra
de independencia. esperar este
Aplicando 2.7130,073
mismo = 198,1
muertes por enfermedad cardiovascular bajo la hiptesis nula de independencia.
Aplicando
razonamiento,estelosmismo
valoresrazonamiento, los valores
esperados en cada esperados
celda vendran en por
dados cada celda vendran
dados por

Estos valores esperados se 2.713 563


E11representan
= en la=Tabla
198,1,7.4. Notar que los marginales
7.712
de la tabla de frecuencias observadas
2.713 7(Tabla
.149 7.2) y esperadas (Tabla 7.4)
E12 = = 2.514,9,
7 .712
coinciden. De hecho, una vez calculado el valor esperado en una cualquiera de las
4.999 563
E21esperados
celdas, los restantes valores = = 364,9,
7.712de la tabla 22 quedan determinados por

dichos marginales. 4.999 7.149


E22 = = 4.634,1.
7.712

Estos valores esperados se representan en la Tabla 7.4. Notar que los marginales de la
[Tabla
tabla de frecuencias observadas 7.4 aproximadamente
(Tabla aqu] 7.4) coinciden. De hecho,
7.2) y esperadas (Tabla
una vez calculado el valor esperado en una cualquiera de las celdas, los restantes11
valores
esperados de la tabla 22 quedan determinados por dichos marginales.
Para evaluar la independencia de las variables de una tabla 22, se comparan las

Para evaluarobservadas
frecuencias la independencia de las mediante
y esperadas variables el
deestadstico
una tabla 22, se comparan las frecuencias
observadas y esperadas mediante el estadstico
2 2
(Oij E ij ) 2
2 = Eij .
i 1 j 1

Cuanto mayor seaTabla


la diferencia entre los valores
7.4 Frecuencias observados
esperadas bajo layhiptesis
esperados, mayor ser la
de independencia entre la mortalidad por
magnitud del estadstico y, en consecuencia,
enfermedad cardiovascular se tendr
(ECV)mayor evidencia en contra de la
y el colesterol
total en el estudio NHANES II.
hiptesis nula de independencia. En particular, puede probarse que si las variables de la
Colesterol Mortalidad por ECV
total (mmol/l) S No Total una distribucin
tabla 22 son independientes, este estadstico sigue aproximadamente
6,20 198,1 2.514,9 2.713
chi-cuadrado con 1 < 6,20 de
grado libertad 364,9
(slo una 4.634,1
frecuencia 4.999de
esperada la tabla 22 es
Total 563 7.149 7.712
independiente). El valor P del contraste corresponde entonces a la probabilidad a la

derecha del estadstico 2 bajo la distribucin 12 . Esta prueba se conoce conPastor-Barriuso


el nombre R. 103

de test chi-cuadrado de independencia o asociacin de Pearson, y puede aplicarse


Inferencia sobre proporciones

Cuanto mayor sea la diferencia entre los valores observados y esperados, mayor ser la magnitud
del estadstico y, en consecuencia, se tendr mayor evidencia en contra de la hiptesis nula de
independencia. En particular, puede probarse que si las variables de la tabla 22 son
independientes, este estadstico sigue aproximadamente una distribucin chi-cuadrado con 1
grado de libertad (slo una frecuencia esperada de la tabla 22 es independiente). El valor P del
contraste corresponde entonces a la probabilidad a la derecha del estadstico 2 bajo la
distribucin 21. Esta prueba se conoce con el nombre de test chi-cuadrado de independencia
o asociacin de Pearson, y puede aplicarse siempre que los marginales de la tabla sean
suficientemente grandes, de tal forma que todas las frecuencias esperadas sean superiores o
iguales a 5.

Ejemplo 7.7 A partir de los valores observados y esperados bajo la hiptesis de


independencia entre la mortalidad por enfermedad cardiovascular y el colesterol srico
total, se obtiene el test estadstico

2 (254 198,1) 2 (2.459 2.514,9) 2


=
198,1 2.514,9
(309 364,9) 2 (4.690 4.634,1) 2

364,9 4.634,1

= 15,80 + 1,24 + 8,58 + 0,68 = 26,30.

Como las frecuencias esperadas son claramente superiores a 5, este estadstico se


Como las frecuencias
distribuir esperadas
aproximadamente son claramente
como superiores
una chi-cuadrado cona15,grado
este estadstico
de libertadse bajo la
hiptesis nula de independencia. Utilizando la Tabla 6 del Apndice, puede comprobarse
distribuir
que el valoraproximadamente como una
calculado del estadstico chi-cuadrado
es muy superior con 1 gradode
al percentil 2 libertad bajo
1;0,995 = 7,88, de lo cual
se deduce que P = P( 1 26,30) < 0,005. As, los niveles altos de colesterol total estn
2

la hiptesis nula deasociados


significativamente independencia.
con laUtilizando
mortalidadlapor
Tabla 6 del Apndice,
enfermedad puede
cardiovascular.

comprobarse que el valor calculado del estadstico es muy superior al percentil


La hiptesis nula de independencia entre las variables de una tabla 22 equivale a la
igualdad
12;0de dos proporciones poblacionales. De hecho,2 puede probarse que el estadstico 2 de
, 995 = 7,88, de lo cual se deduce que P = P( 1 26,30) < 0,005. As, los
Pearson es igual al cuadrado del estadstico z de la comparacin de proporciones en muestras
independientes, de tal forma que los valores P resultantes de ambos procedimientos son
niveles altos de colesterol total estn significativamente asociados con la
idnticos (la distribucin chi-cuadrado con 1 grado de libertad es, por definicin, igual al
cuadrado de una distribucin normal estandarizada). Cabra preguntarse entonces cul es la
mortalidad por enfermedad cardiovascular.
aportacin del test de independencia de Pearson. En primer lugar, los clculos de este test no
dependen del diseo utilizado para generar los datos. En segundo lugar, esta prueba puede
generalizarse de forma sencilla a la comparacin de mltiples proporciones en una tabla con r
La hiptesis nula de independencia entre las variables de una tabla 22 equivale a la
filas y c columnas.
igualdad de dos proporciones
Para contrastar poblacionales.
la independencia De hecho,
de dos variables puede probarse
categricas en una que
tablaelrc, se calcula el
estadstico
estadstico 2 de Pearson es igual al cuadrado del estadstico z de la comparacin de
r c
(Oij E ij ) 2
2 = ,
proporciones en muestras independientes, E ij que los valores P resultantes de
de tal forma
i 1 j 1

ambos procedimientos son idnticos (la distribucin chi-cuadrado con 1 grado de


donde las frecuencias esperadas Eij = nimj/n se calculan de la misma forma que en una
libertad es, por definicin, igual al cuadrado de una distribucin normal estandarizada).
104 tabla 22.R.Bajo la hiptesis nula de independencia, dicho estadstico se distribuye
Pastor-Barriuso
Cabra preguntarse entonces cul es la aportacin del test de independencia de Pearson.
aproximadamente segn una chi-cuadrado con (r - 1)(c - 1) grados de libertad. Los
En primer lugar, los clculos de este test no dependen del diseo utilizado para generar
celdas tengan valores esperados inferiores a 5.
Asociacin estadstica en una tabla de contingencia

Ejemplo 7.8 La Tabla 7.5 muestra las muertes por enfermedad cardiovascular

donde las frecuencias


entre los esperadas
participantesEij =del
nimestudio
j/n se calculan
NHANES de laIImisma
con unforma que en
colesterol una tabla
srico total 22.
Bajo la hiptesis nula de independencia, dicho estadstico se distribuye aproximadamente segn
una chi-cuadrado cona(r5,20
inferior 1)(c 1) (nivel
mmol/l gradosdeseable),
de libertad. Los5,20
entre grados de libertad
y 6,19 corresponden
mmol/l (nivel limtrofeal
nmero de frecuencias esperadas independientes para el clculo del estadstico, una vez
determinadosalto)
los marginales
y superior de la tabla
o igual rc.mmol/l
a 6,20 La aproximacin chi-cuadradoPara
(hipercolesterolemia). a la determinar
distribucinsidel
la
estadstico ser vlida si el tamao muestral es suficientemente grande. En concreto, el criterio
ms aceptadoincidencia
para aplicar
de este test es
muertes porque ningn valor
enfermedad esperado sea
cardiovascular inferior
difiere a 1los
entre y que
tres no ms
grupos,
del 20% de las celdas tengan valores esperados inferiores a 5.
se calculan en primer lugar las frecuencias esperadas mediante el producto de sus
Ejemplo 7.8 La Tabla 7.5 muestra las muertes por enfermedad cardiovascular entre los
participantes del estudio NHANES
correspondientes marginalesIIdividido
con un colesterol srico
por el tamao total inferior
muestral a 5,20 mmol/l
total. Estas
(nivel deseable), entre 5,20 y 6,19 mmol/l (nivel limtrofe alto) y superior o igual a 6,20
mmol/lfrecuencias
(hipercolesterolemia).
esperadas se Para determinar
presentan entresiparntesis
la incidencia
en de muertes
la Tabla por
7.5. Aenfermedad
cardiovascular difiere entre los tres grupos, se calculan en primer lugar las frecuencias
esperadas mediante el
continuacin, producto de
se comparan los sus correspondientes
valores marginales
observados y esperados divididoel por el
mediante
tamao muestral total. Estas frecuencias esperadas se presentan entre parntesis en la
Tabla 7.5. A continuacin, se comparan los valores observados y esperados mediante el
estadstico
estadstico
(254 198,1) 2 (2.459 2.514,9) 2
2 =
198,1 2.514,9
(174 175,8) 2 (2.234 2.232,2) 2

175,8 2.232,2
(135 189,1) 2 (2.456 2.401,9) 2

189,1 2.401,9 14
= 15,80 + 1,24 + 0,02 + 0,00 + 15,50 + 1,22 = 33,79.

Dado que las frecuencias esperadas son superiores a 5, puede utilizarse la distribucin
chi-cuadrado
Dado queconlas
(3frecuencias
1)(2 1)esperadas
= 2 grados
son de libertad a(Tabla
superiores 6 del
5, puede Apndice)
utilizarse la para
obtener un valor P = P( 2 33,79) < 0,005. Esto es, la incidencia de muertes por
2

enfermedad cardiovascular
distribucin difierecon
chi-cuadrado significativamente
(3 - 1)(2 - 1) = 2entre
gradoslosde
tres grupos,
libertad obtenindose
(Tabla 6 del
una incidencia acumulada en los 15 aos de seguimiento de 52, 72 y 94 muertes por
cada 1.000 participantes
Apndice) con niveles
para obtener un valordeseables,
P = P( 22 limtrofes
33,79) <altos
0,005.y Esto
altoses,
delacolesterol
total, respectivamente.
incidencia de muertes por enfermedad cardiovascular difiere significativamente
Tabla 7.5Frecuencias observadas (esperadas) de
entre los tres por
muertes grupos, obtenindose
enfermedad una incidencia
cardiovascular acumulada
(ECV) entre en
loslos 15 aos de
participantes del NHANES II con niveles de colesterol
seguimiento de 52,
total < 5,20, 72 y 94ymuertes
5,20-6,19 por cada 1.000 participantes con niveles
6,20 mmol/l.
Colesterol Mortalidad por ECV
deseables, limtrofes altos y altos de colesterol total, respectivamente.
total (mmol/l) S No Total
6,20 254 (198,1) 2.459 (2.514,9) 2.713
5,20-6,19 174 (175,8) 2.234 (2.232,2) 2.408
< 5,20 [Tabla 7.5
135 (189,1) aproximadamente
2.456 (2.401,9) aqu]
2.591
Total 563 7.149 7.712

7.5 TEST DE TENDENCIA EN UNA TABLA r2


Pastor-Barriuso R. 105

A partir de una tabla r2, el test chi-cuadrado de Pearson permite contrastar la hiptesis
De este Deresultado
este resultado p1se p1 )que pp21que
(1 desprende
se desprende (-1 p2ppes
1 2-)un
p2 estimador
es un estimador
puntual
puntual
insesgado
insesgado
de la de la
p1 p 2 z1 / 2 ,
Inferencia sobre proporciones n1 n 2
diferencia
diferencia
de riesgos
de riesgos
subyacente 1 - 2entre
subyacente 1 - 2 expuestos
entre expuestos
y no expuestos,
y no expuestos, p2)1=- p12)- = 1 -
E(p1 -E(p
e es simtrico alrededor de la diferencia de proporciones muestrales con una amplitud
. El intervalo
2. El intervalo
de confianza
de confianza
al 100(1 - )%-para
al 100(1 )%para 1 - 2se 2 se obtiene
1 - obtiene siguiendo
siguiendo
el mismo
el mismo
7.52 TEST DE TENDENCIA EN UNA TABLA r2
ectamente proporcional a la estimacin de su error estndar.
Aprocedimiento
partirprocedimiento
utilizado
de una tabla utilizado
r2, para
el testuna
paraproporcin
una proporcin
chi-cuadrado como
de comopermite contrastar la hiptesis nula de
Pearson
Para determinarigualdad
si existende diferencias
proporciones en H 1 = 2 = ... =subyacente
la0:probabilidad r frente a de la hiptesis
desarrollar alternativa
la H1: i j, donde
i y j son 2 muestras cualesquiera. Un resultado p1 (1 ppsignificativo
) pp12)(1 ppde ) esta
p 2 prueba indicara que al
1 1(1 2 2(1 )
menos 2 de las r p1 pp2poblacionales
proporciones 1 zp
fermedad entre los sujetos expuestos y no expuestos, se contrasta / 2 z1 / 2son heterogneas.
12
lanhiptesis En
nula ,el
H0:caso, de que los grupos o
simplemente tomar los valores 1, 2, ..., r indicando el orden de n1los grupos.
1 An
muestras estn intrnsecamente ordenados, cabra preguntarse adems si estas proporciones
2 n 2

= 2 frente a la siguen
hiptesisalguna tendencia
alternativa determinada
bilateral H1: 1 alo largo la dehiptesis
los grupos. nulaEndeeste apartado se presenta un
continuacin, setest
relacionan las proporciones observadas 2.pBajo con sus correspondientes
que especfico
esquesimtrico
simplemente para
es simtrico
tomar detectar
alrededorlos delalaexistencia
alrededor
valores diferencia
de2,la...,
1, r de
i
diferencia deun gradiente
proporciones
indicando de omuestrales
proporciones
el orden componente conlineal
muestrales
de los grupos. una (creciente
Aconamplitud o
una amplitud
decreciente) entre las proporciones de los sucesivos grupos.
ualdad de proporciones
puntuaciones si mediante H0el: estadstico
1 = 2 = , se cumple que
directamente
directamente
continuacin,
En primer proporcional
proporcional
se relacionan
lugar, se asigna a lalasestimacin
una a puntuacin
la estimacin
proporciones de su error
de su estndar.
sobservadas errorpiestndar.
con sus correspondientes
i a cada una de las muestras ordenadas. Esta
puntuacin puede representar un atributo numrico del grupo (ver Ejemplo 7.9), o simplemente
Para
lospdeterminar
Para determinar
puntuaciones r ...,
si
s~i1,medianteexisten si el 1 diferencias
existen
diferencias
estadstico 1 en2
la probabilidad
en la probabilidad subyacente
subyacente
de desarrollar
de desarrollar
la la
tomar valores
1 p 2 N
2, 0n, (r(p1indicando
p))( s els )orden
, de los grupos. A continuacin, se relacionan las
proporciones observadas


i pi i con sus

n1i correspondientes
n2

puntuaciones si mediante el estadstico
enfermedad
enfermedad entre
2
= los
entre
i 1
sujetos
los sujetos
expuestosexpuestosy no , expuestos,
y no expuestos,
se contrasta
2 se contrasta
la hiptesis nula Hnula
la hiptesis 0: H0:
r
r 2
p (1 p ) ni ( s i s ) ni ( p i p )( s i s )
nde corresponde 1 a=la2probabilidad
= 2 frente
1frente
de
a laenfermar
a la hiptesis hiptesis comn
ialternativa
1 2 alternativa
para expuestos
i 1bilateral H1: 1Hy1:no
bilateral 2.1 Bajo
2. la
Bajo
hiptesis
la hiptesis
nula de
nula de
= r
,
puestos. Aunque igualdad
esta probabilidad
igualdad
de proporciones es desconocida,
de proporciones H0: 1H=0:2su p (1valor
1==

,2sep=)cumple
puede
, ni (cumple
se sestimarse
i s)
que
2
que
donde ni es el tamao de cada muestra, n = ni, p = nipi/n esi la 1 proporcin

diante la proporcin ni es el tamao


dondecombinada de cadaenmuestra,
de enfermos n = ni, p == n
ambas muestras (a + ipic/n)/(es n1 la+ proporcin combinada en

~puntuacin 1 1 1 1 si las
combinada en todas
todas las
lasmuestras
donde muestras yy s ==n
ni es el tamao deispiiscada
n i/nes
/n esla
1 pp
lapuntuacin
muestra,
21 pN20~n, =N(1n 0,media.
media.
i
Notar
Notar
, )(p1 = ) ipque
n /nque
i

si las
,es la ,proporciones observadas
proporcin
tienden a aumentar o disminuir
= m1/n. As, el estadstico propuesto para este test es con las puntuaciones, 1 21 2 estadstico ser grande.
el
n numerador
nn n del
Si, por el tienden
proporciones observadas contrario, las proporciones
a aumentar o disminuir no varan en funcin de laelpuntuacin de cada grupo, el
combinada en todas las muestras y s =con nilas si/npuntuaciones,
es la puntuacin media. Notar que si las
numerador estar prximo a 0. Bajo la hiptesis nula de ausencia de una componente lineal en
ladonde corresponde
donde
tendencia,
numerador del estadstico grande.
serel correspondeaSi,
estadstico la por
probabilidad
a la
el probabilidad
anterior de enfermar
seguir
contrario, las de enfermar
aproximadamente
proporcionescomncomn para
no varan expuestos
unapara expuestos
y no chi-cuadrado
distribucin
en y no
proporciones observadas tienden a aumentar
con 1 grado de libertad. Esta prueba se conoce genricamente como test chi-cuadradoo disminuir con las puntuaciones, el de
expuestos.
tendenciaexpuestos.
Aunque
y, a Aunque
esta
diferencia probabilidad
esta
del test de
uncin de la puntuacin de cada grupo, el numerador estar prximo a 0. Bajo la
probabilidad es
desconocida,
independencia es desconocida,
o su valor
asociacin, su puede
valor puede
estimarse
puede estimarse
aplicarse incluso
numerador
cuando algunas
135/2.591 del=muestras
estadstico
0,052, p2tengan =ser grande.
un tamao
174/2.408 =Si,0,072porreducido,
el
y pcontrario, bastalascon proporciones
que lademuestrano varan totalensea
3 = 254/2.713 = 0,094 las
hiptesis nula desuficientemente
mediante
mediante
ausencia la unagrande
deproporcin
lacomponenteycombinada
proporcin la proporcin
combinada
linealde encombinada
enfermos
la de enfermos
tendencia, ennoambasmuy
el en extrema,
ambas
muestras
estadstico n7p(1=(ap)+=
muestras c)/(
(a nFinalmente,
5. +1 c+)/(n1 +
funcin
cabe resear
sucesivasde la puntuacin
quecategoras
el test de(Figura de cada
tendencia grupo,
7.1).noPara el
permite numerador
contrastar
contrastar estar
si esta prximo
la tendencia
idoneidadcrecientea 0. Bajo la
de la relacin
es lineal;
este test
n2) = m nicamente
n21)/n=. As,
anterior seguir aproximadamente m1/n.elAs,una determina
distribucin
estadstico
el estadstico la existencia
chi-cuadrado
propuestopropuesto
para este para de
con
test una
1es
este grado componente
test esde lineal significativa,
hiptesis
independientementenula
significativa, deseausencia
deasignan
cul sea delasuna componente
lapuntuaciones
relacin s1lineal
subyacente. = 4,65, ensla=tendencia,
5,72 y s3 =el6,90 estadstico
2
ibertad. Esta prueba se conoce genricamente como test chi-cuadrado de tendencia y,
anterior seguir aproximadamente
correspondientes unacolesterol
distribucin totalchi-cuadrado con 1 grado de
Ejemplo 7.9 Enaellaejemplo medianaanterior del se detectaron dediferencias
cada categora. Aunque
significativas en el riesgo
a diferencia del test dedeindependencia
muerte por enfermedad o asociacin, cardiovascular
puede aplicarse entre los participantes
incluso cuando del NHANES II con
libertad.
podran
niveles Esta
de prueba
asignarse
colesterol se conoce
las total < genricamente
puntuaciones 1, 2 y 3, como
5,20, 5,20-6,19 test chi-cuadrado
esy preferible
6,20 mmol/l.utilizarDe una de tendencia
medida
hecho, se deobserva y, un
algunas muestras tengan claro unincremento
tamao reducido, en las incidencias
basta con que acumuladas
la muestra p1total
= 135/2.591
sea = 0,052, p2 = 174/2.408 =
a diferencia
tendencia del
0,072 y p3 central test de
= 254/2.713 independencia
de cada categora
= 0,094 de laso asociacin,
(media
sucesivas o mediana) puede
categoras aplicarse
para(Figura
preservar incluso cuando
7.1).laPara
distancia
contrastar7 si7
suficientemente grande esta
y la tendencia
proporcin creciente
combinada es significativa,
no muy se asignan
extrema, p (1las
n con - puntuaciones
p la) muestra
5. s1 = 4,65, s2 = 5,72
algunas
y s3 =las
entre muestras
6,90mismas. tengan
correspondientes un tamao
As, el numerador reducido,
a la mediana basta
del colesterol
del estadstico que
del test total
de de total sea
cada categora.
tendencia vendra Aunque
podran asignarse las puntuaciones 1, 2 y 3, es preferible utilizar una medida de tendencia
Finalmente, cabe resear que el testgrande
suficientemente de tendencia
y la proporcinno permite contrastarnolamuy
combinada idoneidadextrema, de n p (1 - p ) 5.
central
dado por de cada categora (media o mediana) para preservar la distancia entre las mismas.
As, el numerador del estadstico del test de tendencia vendra dado por
a relacin lineal; este test nicamente determina la existencia de una componente lineal
Finalmente, cabe resear que el test de tendencia no permite contrastar la idoneidad de
N = {2.591(0,052 0,073)(4,65 5,78)
significativa, independientemente de cul sea la relacin subyacente. 5,78)
0,073)(5,72
la relacin lineal; este+test 2.408(0,072
nicamente determina la existencia de una componente lineal
+ 2.713(0,094 0,073)(6,90 5,78)}2 = 15.364,56
significativa, independientemente
Ejemplo 7.9 En el ejemplo anterior se detectaron de diferencias
cul sea la relacin significativas subyacente. en el

riesgo de muerte por enfermedad cardiovascular entre los participantes del


y elEjemplo 7.9 Enpor
denominador
106 Pastor-Barriuso R.
el ejemplo anterior se detectaron diferencias significativas en el
NHANES II con niveles
riesgo de
de colesterol
muerte portotal < 5,20, 5,206,19
enfermedad y 6,20
cardiovascular mmol/l.
entre De
los participantes del
D = 0,073(1 - 0,073){2.591(4,65 - 5,78)2
n1 n2

p2 es un estimador puntual insesgado de la Medidas de efecto en una tabla de contingencia

entre expuestos y no expuestos, E(p1 - p2) = 1 -


0,1 = 0,052, p = 174/2.408 = 0,072 y p3 = 254/2.713 = 0,094 de las
135/2.591 2
)% para 1 - 2 se obtiene siguiendo el mismo
sucesivas categoras (Figura 7.1). Para contrastar si esta tendencia creciente es
Incidencia acumulada de muertes por ECV
rcin como
0,08
significativa, se asignan las puntuaciones s1 = 4,65, s2 = 5,72 y s3 = 6,90
p1 (1 p1 ) p 2 (1 p 2 )
, 0,06
n1 n 2 correspondientes a la mediana del colesterol total de cada categora. Aunque

podran asignarse las puntuaciones 1, 2 y 3, es preferible utilizar una medida de


cia de proporciones muestrales 0,04con una amplitud
tendencia central de cada categora (media o mediana) para preservar la distancia
n de su error estndar.
entre las
0,02mismas. As, el numerador del estadstico del test de tendencia vendra
s en la probabilidad subyacente de desarrollar la
dado por
y no expuestos, se contrasta la 0hiptesis nula H0:
simplemente tomar los valores 1, 2, ..., r indicando el orden de los grupos. A
N = {2.591(0,052 - 0,073)(4,65 - 5,78)
bilateral H1: 1 2. Bajo la hiptesis4,5
nula de continuacin,
5 se5,5
relacionan las 6 proporciones 7 pi con sus correspondie
6,5 observadas
+ 2.408(0,072 - 0,073)(5,72 - 5,78)
, se cumple que puntuaciones sColesterol total (mmol/l)
i mediante el estadstico
2 Figura 7.1
+ 2.713(0,094
Figura 7.1 Incidencia acumulada - 0,073)(6,90
de muertes = 15.364,56(ECV) en 15 aos de
- 5,78)}cardiovascular
por enfermedad
seguimiento del estudio NHANES II segn niveles de colesterol total < 5,20, 5,20-6,19 y 6,20 mmol/l.
1 1 r
2
0, (1 ) , ni ( p i p )( s i s )
n1 n 2 y el denominador por
y el denominador por 2 = i 1 r
,
2 p (1 p ) ni ( s i s ) 2
de enfermar comn para expuestos y D no= 0,073(1 0,073){2.591(4,65 5,78) i 1
+ 2.408(5,72 5,78)2
es desconocida, su valor puede estimarse + 2.713(6,90 5,78)2} = 454,78,
donde ni es el tamao de cada muestra, n = ni, p = nipi/n es la proporcin
donde p = (563/7.712
nfermos en ambas muestras a + c)/(n1 += 0,073 es la proporcin global de muertes por enfermedad
cardiovascular en todos combinada en todas
los participantes del las muestras
NHANES nisi/n es la+puntuacin
II yy s == (2.5914,65 2.4085,72 media. Notar q
para este test es donde p = 563/7.712 = 0,073 es la proporcin global de muertes por enfermedad
+ 2.7136,90)/7.712 = 5,78 es la puntuacin media. El estadstico resulta entonces 2 =
N/D = 33,78, que corresponde
proporciones
a un valor P = P(21 tienden
observadas 33,78)a<aumentar
0,005 en oladisminuir conchi-
distribucin las puntuaciones,
cuadrado con 1 en
cardiovascular grado delos
todos libertad (Tabla 6del
participantes delNHANES
Apndice).II Estey s resultado
= (2.5914,65 confirma
+ que el
riesgo de mortalidad por numerador del estadstico
enfermedad ser grande.
cardiovascular aumenta Si, por el contrario, las al
significativamente proporciones no
aumentar
2.4085,72el+nivel de colesterol total.
2.7136,90)/7.712 = 5,78 es la puntuacin media. El estadstico
funcin de la puntuacin de cada grupo, el numerador estar prximo a 0. Bajo
resulta entonces 2 = N/D7= 33,78, que corresponde a un valor P = P( 12 33,78)
7.6 MEDIDAS DE EFECTO hiptesis
EN UNA nulaTABLA
de ausencia de una componente lineal en la tendencia, el estadst
DE CONTINGENCIA
< 0,005 en la
En epidemiologa distribucin
y en chi-cuadrado
otras aplicaciones
anterior con
del anlisis
seguir 1 grado de en
de datos
aproximadamente libertad
salud (Tabla
pblica,6 no
una distribucindelchi-cuadrado
slo interesa con 1 grado d
determinar el grado de significacin estadstica sino tambin obtener estimadores de efecto o
medidasApndice). Este resultado
de la magnitud confirma
de la libertad.
asociacin. que
A
Esta el riesgo
partir
prueba de
seunadetabla
conocemortalidad por enfermedad
22 pueden
genricamente obtenerse
como testdistintas
chi-cuadrado de tend
medidas de efecto, tales como la diferencia de riesgos, el riesgo relativo y el odds ratio. La
cardiovascular
diferencia de riesgosaumenta asignificativamente
o proporciones, que ya
diferencia delsetest al
deaumentar
discuti el nivel
en el Apartado
independencia de colesterol
7.3, total.
permitepuede
o asociacin, determinar
aplicarse incluso cua
la diferencia en la tasa de incidencia o prevalencia de la enfermedad entre los sujetos expuestos
y no expuestos en un estudio algunas
prospectivo o transversal,
muestras tengan unrespectivamente.
tamao reducido,Enbastaestecon
apartado
que lasemuestra total sea
revisan los mtodos de inferencia sobre el riesgo relativo y el odds ratio, as como sus respectivos
[Figura 7.1 aproximadamente aqu]
mbitos de aplicacin. suficientemente grande y la proporcin combinada no muy extrema, n p (1 - p
17 R. 107
Pastor-Barriuso
Finalmente, cabe resear que el test de tendencia no permite contrastar la idone

la relacin lineal; este test nicamente determina la existencia de una componen


7.6.1 > 1 indica
Riesgo una mayor probabilidad de desarrollar la enfermedad en expuestos
relativo
Inferencia sobre proporciones
El riesgo
querelativo o razn dePor
en no expuestos. riesgos es lasimedida
ejemplo, de efecto
= 1,25, ms utilizada
los sujetos expuestosentienen
estudios
1,25

prospectivos
7.6.1 parariesgo
veces ms
Riesgo comparar
relativo o sonlaun
incidencia
25% msdepropensos
la enfermedad entre expuestos
a desarrollar y no que los
la enfermedad

expuestos,
El riesgo no y seodefine
relativo razn
expuestos como
de
(100( riesgos
- 1) =es100(1,25
la medida- 1)de =
efecto
25%).ms utilizada en estudios prospectivos
para comparar la incidencia de la enfermedad entre expuestos y no expuestos, y se define como
< 1 indica una menor probabilidad 1 deP(contraer
D | E ) la enfermedad en expuestos que
= ,
2 P( D | E c )
en no expuestos. Por ejemplo, si = 0,80, los sujetos expuestos son un 20%
donde 1 = P(D|E) y 2 = P(D|Ec) representan la probabilidad de desarrollar la enfermedad D
entre los sujetos
donde 1 = P(D|E)
menos y 2 E=a ydesarrollar
expuestos
propensos no expuestos
P(D|E c Ec, respectivamente.
) representan la probabilidad
la enfermedad As,
que los no de el riesgo (100(0,80
relativo
desarrollar
expuestos la determina
- 1)
cuntas veces es ms frecuente la enfermedad en expuestos que en no expuestos. Se trata, por
tanto, de =una
enfermedad medida
D entredelos
-20%). efecto
sujetosmultiplicativa
expuestos Eque y nopuede tomarEcualquier
expuestos c valor no negativo,
, respectivamente. As, el de
tal forma que:
riesgo relativo
yy =Un
1 indica la
valordetermina
de y su cuntas
misma inverso 1/ representan
veces
probabilidad es ms
de frecuente
enfermar la enfermedad
el mismo nivel de
en expuestos en expuestos
asociacin,
y no expuestospero en =
P(D|E)
P(D|Ec); es decir, la exposicin y la enfermedad son independientes. Cuanto ms alejado
queest
ensentido
nodeexpuestos.
opuesto.
1 en SePor
cualquiertrata, por tanto,
ejemplo,
sentido, si de
mayor una
=ser
4, lamedida
los sujetosdeexpuestos
magnitud efecto multiplicativa
son 4 veces
de la asociacin que
entrems
exposicin
y enfermedad.
puede propensos
tomar cualquier valor nolanegativo,
a desarrollar enfermedad de tal
queforma
los noque:
expuestos, o equivalentemente
yy > 1 indica una mayor probabilidad de desarrollar la enfermedad en expuestos que en no
expuestos.

Por ejemplo, = 1,25, losdesujetos
siprobabilidad expuestos tienen 1,25
y no veces ms riesgo o
los= no
1 indica la misma
expuestos son un 75% menos propensosenfermar aen expuestos
contraer expuestos
la enfermedad que los
son un 25% ms propensos a desarrollar la enfermedad que los no expuestos (100( 1)
= 100(1,25
P(D|E) = P(D|E
1) = 25%).
c
);es- decir, la exposicin
expuestos (100(1/ 1) = 100(0,25 - 1) =y-75%).
la enfermedad son independientes.
yy < 1 indica una menor probabilidad de contraer la enfermedad en expuestos que en no
expuestos.
Esta medida Pordeejemplo, si = 0,80,
efecto tambin puedelosaplicarse
sujetos expuestos
a estudiosson un 20% menos
transversales propensos a
en trminos
desarrollar la enfermedad que los no expuestos (100(0,80 1) = 20%). 18
yde la razn
y Un valor dede prevalencias.
y su inversoSin 1/embargo,
representany aleligual quenivel
mismo ocurrade con la diferencia
asociacin, de sentido
pero en
opuesto. Por ejemplo, si = 4, los sujetos expuestos son 4 veces ms propensos a
riesgos, el riesgo
desarrollar relativo no que
la enfermedad es directamente
los no expuestos,estimable a partir de estudios
o equivalentemente los no expuestos son
un 75% menos propensos a contraer la enfermedad que los expuestos (100(1/ 1) =
retrospectivos
100(0,25 1)ya=que la proporcin de casos est predeterminada por el propio diseo
75%).
Esta medida de efecto tambin puede aplicarse a estudios transversales en trminos de la
del estudio.
razn de prevalencias. Sin embargo, y al igual que ocurra con la diferencia de riesgos, el riesgo
relativo
A no es directamente
partir estimable a en
de los datos observados partir
unade estudios
tabla retrospectivos
22 (Tabla 7.1), un ya que la proporcin
estimador puntual de
casos est predeterminada por el propio diseo del estudio.
delpartir
A riesgoderelativo viene
los datos determinado
observados por tabla 22 (Tabla 7.1), un estimador puntual del
en una
riesgo relativo viene determinado por
p1 a / n1
RR = ,
p 2 c / n2
que corresponde al cociente entre la proporcin de enfermos en la muestra de sujetos expuestos
p1 = a/n1 y no expuestos p2 = c/n2.
19
Ejemplo 7.10 De la Tabla 7.2 se desprende que la proporcin de muertes por enfermedad
cardiovascular es p1 = 254/2.713 = 0,094 en los participantes del estudio NHANES II con
niveles de colesterol total superiores a 6,20 mmol/l y p2 = 309/4.999 = 0,062 en aquellos
con niveles inferiores a 6,20 mmol/l. As, la estimacin puntual del riesgo relativo es
RR = 0,094/0,062 = 1,51;

108 Pastor-Barriuso R.
El clculo de un intervalo de confianza y un test de hiptesis para no resulta
Medidas de efecto en una tabla de contingencia
sencillo ya que la distribucin muestral de su estimador RR es muy asimtrica,

particularmente cuando el riesgo relativo subyacente dista mucho del valor nulo 1. Para
es decir, la incidencia acumulada de muertes por enfermedad cardiovascular en 15 aos
de seguimiento
solventar es un de
este problema 51% superior en
inferencia, los sujetostrabajar
es preferible con niveles altos
con el de colesterol
logaritmo naturaltotal
del que
en quienes tienen niveles ms bajos.
riesgo relativo, cuya distribucin presenta una mayor simetra. De hecho, puede
El clculo de un intervalo de confianza y un test de hiptesis para no resulta sencillo ya
queprobarse
la distribucin muestral
que si los tamaos dedesu ambas
estimador RR esson
muestras muy asimtrica, particularmente
suficientemente grandes n11(1cuando
- 1) el
riesgo relativo subyacente dista mucho del valor nulo 1. Para solventar este problema de
inferencia,
5 y n2es preferible
2(1 - 2) 5,trabajar
el log(RR)contiende
el logaritmo naturalde
a distribuirse delforma
riesgo relativo,
normal concuya distribucin
media log()
presenta una mayor simetra. De hecho, puede probarse que si los tamaos de ambas muestras
sonysuficientemente 1/an-11/n
grandes
varianza aproximada + 1/c
1(11 1) - 5 y 2n, 22(1 2) 5, el log(RR) tiende a distribuirse
1/n
de forma normal con media log() y varianza aproximada 1/a 1/n1 + 1/c 1/n2,

~ N log( ), 1 1 1 1 .
log( RR)
a n1 c n 2

Ejemplo 7.11 En las Figuras 7.2(a) y (b) se presentan las distribuciones muestrales
RR y del7.11
delEjemplo log(RR) deFiguras
En las mortalidad poryenfermedad
7.2(a) cardiovascular
(b) se presentan entre los sujetos con
las distribuciones
un colesterol total 6,20 y < 6,20 mmol/l obtenidos a partir de 1000 muestras aleatorias
simples de tamao
muestrales del RR 500
y deldel estudio
log(RR) NHANES por
de mortalidad II. enfermedad
Como puede observarse, ambas
cardiovascular
distribuciones estn centradas alrededor de los parmetros subyacentes 1,51 y log(1,51)
= 0,42 en todos los participantes del estudio. Sin embargo, la distribucin muestral del
20
RR presenta una clara asimetra, mientras que el log(RR) se distribuye de forma
aproximadamente normal.

25 25

20 20

15 15
Frecuencia relativa (%) en muestras de tamao 500

10 10

5 5

0 0

0 1 2 3 4 -1 0 1 2

(a) RR (b) log(RR)

25 25

20 20

15 15

10 10

5 5

0 0

0 1 2 3 4 -1 0 1 2

(c) OR (d) log(OR)


Figura 7.2
Figura 7.2 Distribucin muestral del RR (a), log(RR) (b), OR (c) y log(OR) (d) de mortalidad por enfermedad
cardiovascular entre los sujetos con un colesterol total 6,20 y < 6,20 mmol/l en 1000 muestras aleatorias
simples de tamao n = 500 obtenidas a partir del estudio NHANES II. Las lneas verticales en trazo discontinuo
corresponden a los parmetros subyacentes = 1,51, log() = 0,42, = 1,57 y log() = 0,45.

Pastor-Barriuso R. 109
1 / 2
En base a la distribucin aproximadamente a normal
n1 cdel log(RR),
n2
[Figura 7.2 aproximadamente aqu] puede obtenerse un

intervalo
Inferencia de confianza
sobre proporciones - )% para el
al 100(1 logartmica
Deshaciendo la transformacin enlog( ) como
ambos lmites de este intervalo, el IC al
En base a la distribucin aproximadamente normal del log(RR), puede obtenerse un
bajo -H0 )%
que100(1 siguepara el riesgo relativouna
aproximadamente subyacente 1 queda
distribucin 1 entonces
1normal determinado
estandarizada.
1 por
Conviene
intervalo
En base ade - ) )%
confianza alaproximadamente
la distribucin 100(1
log( RR zpara del
el log(
1 / 2 normal )como
log(RR),
. puede obtenerse un intervalo
de confianza
destacar que estaal 100(1 )%nula
hiptesis paraHel:
log()
= 1 comoa con
coincide
n1 c n 2
la hiptesis H : = 2 de la
0
1 1 1 1 0 1
explog( RR) z1 / 2 1 1 1 1 .
Deshaciendo
comparacin de la log(
transformacin
proporciones RR z1 / 2 en
)muestras
logartmica
en dos aambos
n1 lmites
c nde
independientes, 2. este intervalo, el IC al
a n1 c n 2as como con la hiptesis
100(1
Deshaciendo- )% la para el del
riesgo
transformacin relativo subyacente queda entonces determinado por
unalogartmica enenambos lmites deEste
este intervalo, el IC unal 100(1
2
nula de independencia
Notar que por tratarse detest de Pearson
medida de efecto una tabla 22.
multiplicativa, test es, por
el intervalo detanto,
confianza
)%
Deshaciendo
para el la
riesgo transformacin
relativo subyacente
que bajo H0 sigue aproximadamente una distribucin normal estandarizada. Conviene al
logartmicaqueda en ambos
entonces lmites de
determinadoeste intervalo,
por el IC
procedimiento
no es simtrico alternativo
alrededor para
de contrastar
la estimacinla misma
puntual hiptesis
RR. nula,quelaarroja resultados
100(1 - )% para el riesgo relativo subyacente 1 Asimismo,
1 queda 1entonces hiptesis
1 determinado nula de
destacar que esta hiptesisexp nula H0: RR
log( =) 1 zcoincide
1 / 2 lahiptesis
con H . 0: 1 = 2 depor la
muy similares cuando el tamao muestral es grande.a No n1 obstante,
c n 2 si la muestra es
no efecto H0: = 1 puede contrastarse frente a la hiptesis alternativa bilateral H1:
comparacin
Notar que pordetratarseproporciones
de una en dos muestras
medida de efectoindependientes,
1 1 1 as
multiplicativa, el como condela confianza
1 intervalo hiptesis no es
moderada
1Notar o
mediante
simtrico que pequea, el
el estadstico
alrededor
por valor
de la de
tratarse exp P de
log(
estimacin
una este
medida test
RRpuntual puede
) dez1efecto
RR.
/2 resultar algo impreciso,
la hiptesis
Asimismo,
multiplicativa, .intervalo
el en cuyo
nulade nocaso
efecto H0:
deconfianza
2 a n c n
nula
= 1de independencia
puede contrastarsedel test ala de
frente Pearson
hiptesis en una tabla
alternativa
1
22. H
bilateral
2
Este test es, por tanto, 2un
1: 1 mediante el estadstico
es preferible utilizar los contrates basados en la diferencia de proporciones o el test
no es simtrico alrededor de la estimacinlog( RR) RR. Asimismo, la hiptesis nula de
puntual
procedimiento
Notar que por alternativo
tratarse de para z delaefecto
unacontrastar
medida mismamultiplicativa,
hiptesis, nula,elque arroja resultados
intervalo de confianza
de no
Pearson.
efecto H0: = 1 puede contrastarse frente 1 1 1 1
a la hiptesis alternativa bilateral H1:

muy nosimilares
es simtrico cuando el tamao
alrededor de lamuestral aes grande.
estimacin npuntual
1 c No n 2obstante,
RR. Asimismo, si lalamuestra esnula de
hiptesis
que1 bajo
mediante
H0 sigue
Ejemplo
el estadstico
7.12 aproximadamente
Retomando una distribucin
de este
nuevo delnormal estandarizada. Conviene la destacar
moderada
no efectoo pequea,
H : = 1elpuede P de
valor contrastarse testlos
frente
datosresultar
puede a la
NHANES
hiptesis
II presentados
algoalternativa
impreciso, en cuyo
bilateral
encaso
H 1: de
que esta hiptesis nula H : = 1 coincide con la hiptesis H : = de la comparacin
0
0 0 1 2
proporciones en dos
Tabla 7.2, muestras
el IClos independientes,
al contrates
95% para el log(en asRR
log(
) resultacomo
) con la hiptesis nula de independencia
ser 2
es preferible
1 mediante utilizar
el estadstico basados
z la diferencia ,de proporciones o el test
del test de Pearson en una tabla 22. Este
2
test
1 1 1 1 es, por tanto, un procedimiento alternativo para
contrastar la misma hiptesis nula, que arroja resultados
muy similares cuando el tamao 21
de Pearson. a 1n1 c 1 n 2 1
1 muestra
muestral es grande. No obstante, si la
log(1,51) z 0,975 z log(es moderada
RR
) o pequea, el valor P de este test
puede resultar algo impreciso, en cuyo 254 caso 2.713
es 309 4,utilizar
preferible .999 los contrastes basados en la
1 1 1 1
diferencia de proporciones o el test
2 de Pearson.
Ejemplo 7.12 Retomando de nuevo alos datos
n cdel nNHANES II presentados en la
= 0,415 1 1,960,081 2
= (0,256; 0,574).
Ejemplo
Tabla 7.2,7.12 Retomando
el IC al 95% para eldelog( nuevo los datos
) resulta ser del NHANES II presentados en la
Tabla 7.2, el IC al 95% para el log() resulta
Aplicando la exponencial a ambos lmites del intervalo, ser el IC al 95% para 21

1 1 1 1
por1,51) z 0,975
vendra dadolog(
254 2.713 309 4.999 21
= 0,415
(exp{0,256}, 1,960,081
exp{0,574}) = (0,256;
= (1,29; 1,78), 0,574).
Aplicando la exponencial a ambos lmites del intervalo, el IC al 95% para vendra dado por
que es ligeramente
Aplicando asimtrico
la exponencial respecto
a ambos
(exp{0,256},
a ladel
lmites estimacin
exp{0,574}) intervalo, el IC alRR
puntual
= (1,29; 1,78),
= 1,51.
95% para El

que es ligeramente asimtrico respecto a la estimacin puntual RR = 1,51. El estadstico


estadstico
vendra porel contraste de la hiptesis de no efecto H0: = 1 es
para
dado
para el contraste de la hiptesis de no efecto H0: = 1 es
log(1,51)
z(exp{0,256},
= exp{0,574}) = (1,29; =1,78),
5,11,
1 1 1 1

que es ligeramente asimtrico 254 respecto
2.713 a la309 4.999 puntual RR = 1,51. El
estimacin
que corresponde a un valor P bilateral 2P(Z 5,11) = 2{1 (5,11)} < 0,001. Como caba
estadstico
esperar, estepara
test el
que corresponde a contraste
arroja Pdebilateral
la hiptesis
un resultado
un valor 2P(Zde no
significativo efecto
dado
5,11) que
= H :-
el0valor
2{1 = nulo
1 es <=0,001.
(5,11)} 1 queda fuera de
los lmites del intervalo de confianza. As, se concluye que los sujetos con niveles de colesterol
total
Como superiores a 6,20este
caba esperar, mmol/l
test presentanun1un
arrojalog( ,5151%
resultado
) (IC al 95% 29-78%;
significativo dadoPque< 0,001) ms riesgo
el valor
z = = 5,11,
de morir por enfermedad cardiovascular que quienes tienen niveles inferiores a este umbral.
1 1 1 1
22
254 2.713 309 4.999
110 Pastor-Barriuso R.

que corresponde a un valor P bilateral 2P(Z 5,11) = 2{1 - (5,11)} < 0,001.
,
medirse
7.6.2 Odds ratio la probabilidad P(D|E)
mediante P( D c de
| Eque
) un sujeto de la poblacin expuesta
vendra dada por
presente o desarrolle
La frecuencia de una dicha enfermedad.
enfermedad D en una Otrapoblacin
medida de frecuencia
expuesta
Medidas adeun de la
factor
efecto en enfermedad
unaEtabla
suele
de contingencia
que se conoce como el odds de estar enfermo P( D | E ) entre los expuestos y puede estimarse
vendra ,
medirse dada
mediantepor la probabilidad P(D|E) P( D c de | Eque ) un sujeto de la poblacin expuesta
mediante
7.6.2 Odds ratio
presente o desarrolle dicha enfermedad.POtra ( D | medida
E) de frecuencia de la enfermedad
que se conoce como el odds
La frecuencia de una enfermedad D ena /unade estar enfermo entre
n1( Dpoblacin
ca
,
los expuestos
expuesta ya puede un factor estimarse
E suele medirse
P | .E )
vendra dada por
mediante la probabilidad P(D|E) de quebun / nsujeto
1 b de la poblacin expuesta presente o desarrolle
mediante
dicha enfermedad. Otra medida de frecuencia de la enfermedad vendra dada por
que se conoce como el odds de estar enfermo P( D | Eentre ) los expuestos y puede estimarse
a / n1 por ca
,
Ejemplo 7.13 La proporcin de muertes P ( D | .E enfermedad
) cardiovascular entre los
mediante b / n1 b
que se conoce como el odds de estar enfermo entre los expuestos y puede estimarse mediante
participantes del NHANES II con niveles de colesterol total 6,20 mmol/l es
que se conoce como el odds de estar enfermo a / n1 entre a los expuestos y puede estimarse
.
Ejemplo 7.13porLa proporcin deconmuertesb / n1poraltos b de colesterol
medianteesto es, cada 10 sujetos a niveles 254 enfermedad cardiovascular
que no fallezcan entre los
por
0,094 ;
Ejemplo n1de muertes
2.713 por enfermedad cardiovascular entre los
esto es,7.13
participantes
enfermedad pordel La
NHANESproporcin
cardiovascular,
cada 10 sujetosII con habr
con niveles de
aproximadamente
niveles altos colesterol
de colesterol total
1 muerteque 6,20no
por mmol/l
dicha es
fallezcan causa
por a
participantes del NHANES II con a
niveles/ n 1 deacolesterol total 6,20 mmol/l es
Ejemplo 7.13 La proporcin de muertespor. enfermedad cardiovascular entre los
es decir,
los 15aproximadamente 1 dehabr
cada 11 1sujetos b con niveles altosambas de colesterol
enfermedadaos de seguimiento.
cardiovascular, a baproximadamente
Aunque / nla
254 interpretacin 1difiere,
muerte por medidas
dicha causade a
participantes del NHANES IIn con niveles 0de ,094 ;
colesterol total 6,20 mmol/l es
fallecer 2.713
es,por
porenfermedad cardiovascular laa interpretacin
los 15deaos dedifiere,
seguimiento. Por otraporde
1
frecuencia
esto
los 15 aos facilitan
cada
de 10 la
seguimiento. misma
sujetos con informacin.
Aunqueniveles altos colesterol queambasno fallezcan
medidas
es decir,
Ejemplo aproximadamente
7.13 La proporcin 1 dede cada 11 sujetos
muertes con nivelescardiovascular
por enfermedad altos de colesterol entrefallecer
los
parte,
por el odds
enfermedad de morir por
cardiovascular enfermedad
a a
los 15 254
cardiovascular
aos de entre
seguimiento. estos Por sujetos
otra es
parte, el odds
es decir, aproximadamente
enfermedad
frecuencia cardiovascular,
facilitan la misma1 dehabr
cada 11
sujetos
aproximadamente
informacin. 0con ,094niveles
; 1 muerte altos por de colesterol
dicha causa a de
Departicipantes
morirforma equivalente,
por enfermedad el odds II
cardiovasculardecon n
estar
1 entre 2 . 713
enfermo estos entre
sujetos loses no expuestos se define
del NHANES niveles de colesterol total 6,20 mmol/l es
fallecer
los 15 por
aosenfermedad
de seguimiento. cardiovascular
Aunque
a 254 laa los 15
interpretacin aos de seguimiento.
difiere, ambas Por otra
medidas de
como
Dees forma equivalente, el odds de enfermo
estar 0,103 ; los no expuestos se define
entre
decir, aproximadamente 1 bde cada 11 sujetos con niveles altos de colesterol
parte, el odds facilitan
de morir la por enfermedad a2.459 254
cardiovascular
frecuencia misma informacin.
0,094 ; entre estos sujetos es
comoestofallecer
es, por cada 10 sujetos con
por enfermedad cardiovascular niveles
n altos
2 . 713 de colesterol que no fallezcan por enfermedad
1
P( D | Ea )los 15 aos de seguimiento. Por otra
c 23
cardiovascular, habr aproximadamente 1 muerte , por dicha causa a los 15 aos de
a P254 c
| E 0c ,)103
seguimiento.
De parte, Aunque
formaelequivalente,
odds de lael interpretacin
morir odds
por ( Denfermo
de estar
enfermedad difiere, ambas ; los
entre medidas
no de frecuencia
expuestos esfacilitan la
se define
es decir, aproximadamente 1 bde cada
misma informacin. P
2.(459D11 | Ecardiovascular
sujetos
c
) con nivelesentre estos
altos sujetos
de colesterol
,
como P( D c | E c )
y el odds ratio opor
fallecer razn de odds entre
enfermedad expuestos
cardiovascular 254ayentre no15
los expuestos
aos de queda seguimiento. entonces Por otra 23
De forma equivalente, el odds de estaraenfermo 0,103 ; los no expuestos se define como
b 2.459c
ydeterminado
el odds
parte, elpor
ratio o razn
odds de demorirodds porentre expuestos
enfermedad y) no expuestos
P( D | Ecardiovascular queda
entre estosentonces
sujetos es
,
P( D | E )c c
23
determinado por c c c
P( D | E ) / P( D
y el odds ratio o raznde= odds entre expuestos a | E254 ) P( D | E ) Pqueda (D | E )
yc no expuestos
0,103 ; entonces
, determinado por
P ( D | E
y el odds ratio o razn de odds entre expuestos
c
) / P ( b
D c
| 2
E . 459
) P ( D c
| E
y no expuestos cqueda ) P ( D | E c
) entonces
P( D | E ) / P( D c | E ) P( D | E ) P( D | E c )
= c c c
c c
, 23
determinado
cuya estimacin por puntualP( D | E ) / P ( D | E ) P( D | E ) P( D | E )
cuya estimacin puntual
cuya estimacin puntual P( D | E ) / P ( D c
(a / |nE1 )( ) d / nP2()D | ad E ) P( D c | E c )
= OR = c c c ,
P( D | E c ) / P( D | E )
(b / n1 )(c / n 2 ) bc P ( D | E ) P ( D | E c
)
(a / n1 )(d / n 2 ) ad
coincide con la razn del productoOR =
cruzado de las celdas de una tabla 22.
cuya estimacin puntual (b / n1 )(c / n 2 ) bc
coincide
Al conellariesgo
igual que razn relativo,
del producto el odds cruzado
ratio es deuna las celdas
medidadedeuna efecto tabla 22.
multiplicativa que toma
valores no negativos. Si = 1, las probabilidades de enfermar en expuestos y no expuestos
Al igual
coincide
coinciden conque
P(D|E) elP(D|E
la=razn riesgo c relativo,
del), producto
indicando elcruzado
odds
(a / nratio
1 )(ded las/esn 2una) medida
celdas ad de una detablaefecto 22. multiplicativa
OR = independencia entre exposicin y enfermedad. Si por el
contrario > 1, la probabilidad de contraer (b / nla1 )(enfermedad
c / n 2 ) bcser mayor en expuestos que en no
queAltoma
expuestos; igual valores
que elque
mientras no negativos.
riesgo < 1, Si
si relativo, la el odds
= 1, las
probabilidad ratio probabilidades
esdeuna medidadede
desarrollar laenfermar en expuestos
efecto multiplicativa
enfermedad ser menor y en
expuestos que en no expuestos. Resulta sencillo probar que el odds ratio estar siempre ms
c
coincide
tomacon
no expuestos
que lacoinciden
valores razn delP(D|E)
producto
no negativos. cruzado
= P(D|E
Si de
= 1, ),lasindicando las celdas
probabilidades de de
unaenfermar
independencia tablaentre22. enexposicin
expuestos yy

no Al igual que
enfermedad.
expuestos Si el
porriesgo relativo,
el contrario
coinciden P(D|E) el odds
=P(D|E
> 1, lac),probabilidad
ratio es unaindependencia
indicando medida de efecto
de contraer multiplicativa
laentre
enfermedad sery R.
exposicin
Pastor-Barriuso 111

que toma
en valores
enfermedad.
mayor noelque
Si por
expuestos negativos.
contrario > 1,
Si = la
1, probabilidad
en no expuestos; las probabilidades
mientras de enfermar
quedesicontraer
< 1, en expuestos
lalaprobabilidad
enfermedad ser y
de
254 4.690
OR = = 1,57.
Inferencia sobre proporciones 2.459 309
y no expuestos, de tal forma que P(Dc|E) y P(Dc|Ec) estn prximas a 1, el odds ratio
Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57%
ser entonces
alejado del valor aproximadamente igualrelativo.
nulo 1 que el riesgo al riesgo relativo.si la probabilidad de enfermar es baja en
Adems,
los sujetos superior
expuestosen los sujetos
y no con niveles
expuestos, de colesterol
de tal forma que P(Dtotal
c
|E) ysuperiores a 6,20prximas
P(Dc|Ec) estn mmol/l que
a 1, el
odds ratio ser entonces
Ejemplo 7.14 Acon aproximadamente
partir de datos igual alenriesgo
observados relativo.
el estudio
en aquellos niveles inferiores a 6,20 mmol/l. Este NHANES
odds ratio II
es(Tabla 7.2),
ligeramente
Ejemplo 7.14 A partir
la estimacin deodds
los datos observados en el estudio NHANES II (Tabla 7.2), la
mayor que puntual
el riesgodel
relativo ratio
RR =es1,51 estimado en el Ejemplo 7.10, aunque la
estimacin puntual del odds ratio es
diferencia no es muy grande porque 254 la4.incidencia
690 acumulada es relativamente baja
OR = = 1,57.
2.459 309
tanto en expuestos 254/2.713 = 0,094 como en no expuestos 309/4.999 = 0,062.
Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57% superior en los
sujetos conelniveles
Por tanto, odds dedemortalidad
colesterol total superiores a cardiovascular
por enfermedad 6,20 mmol/l queesen unaquellos
57% con niveles
inferiores
De la propia a 6,20 mmol/l.
definicin de Este odds obvio
, resulta ratio esqueligeramente
el odds ratiomayor
puedeque el riesgo
estimarse relativo
a partir
RR
superior
= 1,51enestimado
los sujetos
en con niveles 7.10,
el Ejemplo de colesterol
aunque la total superiores
diferencia a 6,20
no es muymmol/l
grande que
porque la
de estudios prospectivos y transversales, ya que ambos diseos facilitan estimaciones como
incidencia acumulada es relativamente baja tanto en expuestos 254/2.713 = 0,094 de
aquellos
en no con niveles
expuestos 309/4.999inferiores
= 0,062.a 6,20 mmol/l. Este odds ratio es ligeramente
las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definicin de
Demayor que definicin
la propia el riesgo relativo RR = 1,51
de , resulta obvioestimado
que el en el Ejemplo
odds 7.10,estimarse
ratio puede aunque laa partir de
estudios prospectivos
probabilidad y transversales,
condicional (ver Tema 2), ya elque
odds ambos diseosexpresarse
ratio puede facilitan aestimaciones
su vez en de las
diferencia de
probabilidades no es muy grande
enfermar porque
P(D|E) la incidencia
y P(D|E c acumulada
). Aplicando es relativamente
la definicin baja
de probabilidad
condicional
trminos (ver
de laTema 2), el odds
probabilidad de ratio
estarpuede expresarse
expuesto a su vez
en enfermos enenfermos
y no trminos de la probabilidad
como
tanto
de estar en expuestos
expuesto 254/2.713
en enfermos y no = 0,094 como
enfermos comoen no expuestos 309/4.999 = 0,062.
P( D | E ) P( D c | E c ) P( D E ) P( D c E c )

De la propia definicin Pde( Dc, |resulta
E ) P ( Dobvio
| E c )quePel
( Dodds
c
Eratio
) P(puede
D Eestimarse
c
) a partir

( E | D) P( E c ya
de estudios prospectivos yPtransversales,
c
| D que) ambos diseos facilitan estimaciones de
,
P( E | D c ) P( E c | D)
las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definicin de
de donde se desprende
estimacin queodds
puntual del el odds ratio
ratio en es tambin
estudios estimable a partir
retrospectivos de estudios
coincide retrospectivos,
con la razn del
aundecuando
dondeestos
probabilidad se diseos (ver
desprende
condicional no
quefacilitan
el odds2),
Tema informacin
ratio es tambin
el odds alguna
ratio sobre
estimable
puede las probabilidades
a partir
expresarse devez
a su en absolutas de
estudios
enfermar en cruzado
producto expuestos y no expuestos. Por supuesto, la estimacin puntual del odds ratio en
estudios
trminos retrospectivos
retrospectivos, coincide
aun cuando
de la probabilidad condiseos
deestos
estar la raznnodel
expuesto producto
enfacilitan
enfermos cruzado
informacin alguna
y no enfermos sobre las
como

probabilidades absolutas de enfermar (a / mexpuestos


1 )( d / m 2 )y no ad
OR =c en c expuestos.
. Por supuesto, la
P( D | E ) P( D | E ( b )m 2 P
/ )( (cD/ m (D c E c )
1 )E ) Pbc

P( D c | E ) P( D | E c ) P( D c E ) P( D E c )
Los estudios retrospectivos suelen conducirse en enfermedades de baja incidencia, para las
cualesLos
la obtencin de un
P( Enmero
estudios retrospectivos suficiente
| D) Psuelen
(E c
) de casos
| Dconducirse
c en requerira
enfermedadesde estudios incidencia, 25con
de baja prospectivos
gran tamao muestral y amplio c seguimiento.
c
, En tales circunstancias, si la incidencia de la
enfermedad P ( E
es bajalayobtencin| D
el diseo de ) P
delun( E
estudio| D ) retrospectivo
para las cuales nmero suficientes es de adecuado (esto es,
casos requerira decasos incidentes
estudios
y controles representativos del nivel de exposicin en la poblacin libre de enfermedad), el
odds ratioseconstituye
de prospectivos
donde con gran
desprende una
que buena
tamao aproximacin
el oddsmuestral
ratio es ytambin
amplioal riesgo relativo
seguimiento.
estimable subyacente.
En
a partirtales En adelante,
circunstancias,
de estudios si el
odds ratio se utilizar e interpretar como estimacin del riesgo relativo, asumiendo que se
cumplen las condiciones
la incidencia
retrospectivos, de la
aun cuandocitadas
estos anteriormente.
enfermedad es baja no
diseos y elfacilitan
diseo informacin
del estudio retrospectivo
alguna sobrees lasadecuado

(esto es, casos


probabilidades
Ejemplo incidentes
absolutas
7.15 En de y controles
enfermar
el estudio enrepresentativos
expuestos
EURAMIC y no del
se obtuvo nivel
expuestos.
una dePor
exposicin
muestra de casosenincidentes
supuesto, lala de
infarto de miocardio procedentes de las unidades de cuidados intensivos y una muestra
poblacin
aleatorialibre de enfermedad),
de controles el oddsaratio
seleccionados constituye
partir una buena
de la poblacin aproximacin
de referencia. al
El nmero de
casos y controles con valores de colesterol HDL superiores o inferiores a 0,90 mmol/l 25 se
riesgo relativo
presenta subyacente.
en la En adelante,
Tabla 7.3. Aunque el odds
el diseo ratio se utilizar
retrospectivo e interpretar
del estudio no permitecomoconocer la

112 estimacin
Pastor-Barriuso R. del riesgo relativo, asumiendo que se cumplen las condiciones citadas

anteriormente.
retrospectivo
poblacin dedelhombres
estudio no permite
adultos, esteconocer la incidencia
odds ratio de infartoscomo
puede interpretarse entreunlosriesgo
con un colesterol HDL inferior a 0,90 mmol/l (100(0,58 - 1) = -42%).
sujetos
Como con
layvalores
relativo altos
concluir
incidencia deylos
que bajos
infarto de
sujetoscolesterol
agudo HDL, ses
condeunmiocardio
colesterol es
HDLposible
Medidas obtener
superior
de efecto
relativamente enauna
0,90
bajaunammol/l
tabla
en de contingencia
la
El odds
medida
presentanratio un
poblacin es
relativade una
de
42% lamedida
hombresasociacin
menos de efecto
riesgo
adultos, de multiplicativa
entre
este el colesterol
padecer
odds un puede
ratio cuya
HDL
infarto ydedistribucin
elmiocardio
riesgo de
interpretarse muestral
infarto
que
como dees
aquellos
un riesgo
incidencia de infartos entre los sujetos con valores altos y bajos de colesterol HDL, s es
notablemente
miocardio
con
posible un
relativo asimtrica
mediante
colesterol
obtener el(Figura
HDLodds
una medida
y concluir que los 7.2(c)),
ratio
inferior a 0,90
relativa
sujetos demientras
con lammol/l que
asociacin
un suentre
colesterol transformacin
(100(0,58HDLel - superior
1)colesterol
= -42%).alogartmica
HDLmmol/l
0,90 y el riesgo
de infarto de miocardio mediante el odds ratio
log(OR) tiende aun
presentan distribuirse
42% menos normalmente
riesgo de (Figuraun
padecer 7.2(d))
infartocon deuna varianza
miocardio que aquellos
269 158
El odds ratio es una medida deOR efecto
= multiplicativa = 0,58.cuya distribucin muestral es
aproximadamente igual HDL
a la suma de los 381 193 de las frecuencias de una tabla 22
inversos
con un colesterol inferior a 0,90 mmol/l (100(0,58 - 1) = -42%).
notablemente asimtricade(Figura
Como la incidencia infarto7.2(c)),
agudo de mientras
miocardio que essu relativamente
transformacinbaja logartmica
en la poblacin
de hombres adultos, este odds ratio puede interpretarse 1 1 1 1 como un riesgo relativo y concluir
log(OR)
que tiende
los
El odds ratioaes
sujetos distribuirse
con
una un normalmente
var{log(OR)}
colesterol
medida (Figura
HDLmultiplicativa
de efecto superior 7.2(d))

a 0,90cuyacon
mmol/l unapresentan
varianza
. distribucin un 42%
muestral esmenos
riesgo de padecer un infarto de miocardioa queb aquellos c d con un colesterol HDL26 inferior
aproximadamente
a 0,90 mmol/l
notablemente igual a(Figura
(100(0,58
asimtrica la suma de los inversos
1) =7.2(c)),
42%). mientrasde quelassufrecuencias
transformacin de una tabla 22
logartmica
Utilizando esta aproximacin normal a la distribucin muestral del log(OR) y
log(OR)
El odds tiende
ratio aesdistribuirse
una medida normalmente
de efecto(Figura 1 1 7.2(d)) 1 1con
multiplicativa cuya unadistribucin
varianza muestral es
deshaciendoasimtrica
notablemente a continuacin
(Figura var{log(OR)}
la 7.2(c)),
transformacin
mientraslogartmica, .
se obtiene ellogartmica
que su transformacin intervalo delog(OR)
a b c d
aproximadamente igual a la suma de los inversos de las
tiende a distribuirse normalmente (Figura 7.2(d)) con una varianza aproximadamente frecuencias de una tabla 22igual a la
confianza
suma al 100(1de
de los inversos - las
)%frecuencias
para el oddsderatio tabla 22
una subyacente
Utilizando esta aproximacin normal a la distribucin muestral del log(OR) y
1 1 1 1
var{log(OR)} .
deshaciendo a continuacin transformacinalogartmica, 1 b 1 c 1 dse1 obtiene
explalog( OR) z1 / 2 , el intervalo de
Utilizando esta aproximacin normal a la distribucin a bmuestral c d del log(OR) y deshaciendo a
confianza
Utilizandoal
continuacin 100(1
laesta - )% para
transformacin
aproximacin el odds aratio
logartmica,
normal subyacente
lasedistribucin
obtiene el intervalo
muestral de log(OR) yal 100(1 )%
delconfianza
para el odds ratio subyacente
que no es simtrico alrededor de la estimacin puntual OR. De forma anloga, la
deshaciendo a continuacin la transformacin logartmica, se obtiene el intervalo de
Ejemplo 7.16 Continuando con el ejemplo anterior, 1 1 el1 IC 1al95% para el odds
significacin estadstica exp log(OR) bilateral
del contraste z1 / 2 de la nula , H0: = 1 se obtiene
confianza al 100(1 - )% para el odds ratio subyacente a bhiptesisc d
ratio de infarto agudo de miocardio entre los sujetos con niveles altos y bajos de
quea no es simtrico
partir alrededor de la estimacin puntual OR. De forma anloga, la significacin
del estadstico
quecolesterol
no es
estadstica delsimtrico
contraste
HDL es alrededor estimacin
bilateral de la hiptesis nula1 H0:1OR.
puntual =11 seDe forma anloga,
1 obtiene a partir del la estadstico
explog(OR) z1 / 2 ,
log(ORa) b c d
significacin estadstica del contraste z bilateral de la hiptesis , nula H0: = 1 se obtiene
11 1 1 1 11 1
exp log(0,58) z 0,975
aqueEjemplo
partir
no es 7.16 Continuando
delsimtrico
estadstico con el 269 a b381
ejemplo c 193 d OR.
anterior, el158
ICDe al 95% para el odds
alrededor de la estimacin puntual forma anloga, la
que bajo H0 sigue aproximadamente una distribucin normal estandarizada.
ratio de infarto
significacin agudodel
estadstica de miocardio
contraste entre losdesujetos
bilateral con niveles Haltos
: =y 1bajos de
se obtiene
que bajo H0 sigue aproximadamente una distribucin
= exp(-0,55log(OR ) la hiptesis nula
normal=estandarizada.
1,960,134) (0,44; 00,75).
z ,
Ejemplo
colesterol 7.16
HDL Continuando
es con el 1ejemplo 1 1anterior,1 el IC al 95% para el odds ratio de
a partir
infartodel estadstico
agudo de miocardio entreuna
losconfianza
sujetos
Por tanto, puede afirmarse con a b con cdelniveles
d95% que altoslos y bajos decon
sujetos colesterol
nivelesHDL es
1 log( 1OR) 56% 1 riesgo de padecer un
1 menos
altos de colesterol
log(HDL
0,58)tienen
z 0,975zentre
expaproximadamente unaun 25 y un

, estandarizada.
que bajo H0 sigue 269 distribucin normal 27
1 1381 1 193 1 158

infarto de miocardio que quienes tienen
= exp( niveles
a0,55 ms
d bajos=(100(0,75
b c1,960,134) - 1) = -25% y
(0,44; 0,75).

100(0,44
Por tanto, -puede
1) = -56%). Asimismo,
afirmarse con una el contrastedelbilateral
confianza 95% que delos
la hiptesis de niveles
sujetos con no altos de
que bajo H0 sigue aproximadamente una distribucin normal estandarizada.
colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un infarto de miocardio
Por tanto,
efecto H0: puede afirmarse el
tienen
= 1 mediante con una confianza del 95% que los sujetos con niveles 27
estadstico
que quienes niveles ms bajos (100(0,75 1) = 25% y 100(0,44 1) = 56%).
Asimismo, el contraste bilateral de la hiptesis de no efecto H0: = 1 mediante el estadstico
altos de colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un
log(0,58)
z= = 4,10
infarto de miocardio que quienes1 tienen1 niveles
1 ms
1 bajos (100(0,75 - 1) = -25% y 27

269 381 193 158
100(0,44 - 1) = -56%). Asimismo, el contraste bilateral de la hiptesis de no

arroja
efecto un
H0:resultado muy significativo
= 1 mediante P = 2P(Z -4,10) = 2{1 - (4,10)} <Pastor-Barriuso
el estadstico 0,001. R. 113

Notar que este test es equivalente al contraste de hiptesis realizado en el Ejemplo


log(0,58)
Inferencia sobre proporciones

arroja un resultado muy significativo P = 2P(Z 4,10) = 2{1 (4,10)} < 0,001. Notar
que este test es equivalente al contraste de hiptesis realizado en el Ejemplo 7.5 sobre la
igualdad en la proporcin de sujetos con niveles bajos de colesterol HDL entre los casos
de infarto y los sujetos libres de la enfermedad, de tal forma que los valores P resultantes
de ambos procedimientos son virtualmente idnticos.

7.7 COMPARACIN DE PROPORCIONES EN DOS MUESTRAS DEPENDIENTES

Hasta este punto se han presentado distintos mtodos para la comparacin de proporciones a
partir de muestras independientes. Con cierta frecuencia, sin embargo, suelen emplearse
muestras dependientes, que surgen tanto de observaciones tomadas en los mismos sujetos como
en distintos sujetos emparejados de acuerdo a determinados factores pronsticos. En el Apartado
6.4 del tema anterior, se presentaron diversos diseos o mecanismos de generacin de datos
dependientes. En general, el propsito de los diseos emparejados es aumentar la precisin de
las comparaciones y, en mayor medida, mejorar la validez de las inferencias al controlar por
posibles factores de confusin. En este apartado se aborda el tratamiento estadstico de datos
binarios o dicotmicos procedentes de parejas dependientes.
La muestra consiste en n parejas dependientes o correlacionadas, donde cada pareja est
compuesta por dos observaciones de una variable dicotmica procedentes de distintas poblaciones.
As, por ejemplo, en comparaciones antes y despus de un tratamiento, cada pareja de datos est
constituida por la respuesta en un mismo sujeto antes y despus de dicho tratamiento. Igualmente,
en un estudio de casos y controles emparejados, cada pareja de observaciones est formada por
la presencia o ausencia de exposicin en cada caso y su correspondiente control. Para simplificar
la presentacin, nos centraremos en adelante en un estudio de casos y controles emparejados.
Para preservar el emparejamiento muestral, la unidad de anlisis ser cada pareja y no cada
individuo. As, la organizacin de los datos por individuo mediante la Tabla 7.1 no resulta adecuada
ya que se pierde la informacin relativa al emparejamiento. La forma apropiada de presentar los
datos se muestra en la Tabla 7.6. Cada unidad de esta tabla representa una pareja, de tal forma que
hay a parejas donde ambos caso y control estn expuestos al factor de riesgo, b parejas donde el
caso est expuesto y el control no, c parejas donde el control est expuesto y el caso no, y d parejas
donde ninguno est expuesto. Las a + d parejas donde ambos o ninguno de los miembros estn
expuestos se denominan parejas concordantes, mientras las restantes b + c parejas son discordantes.

Ejemplo 7.17 En el Ejemplo 6.12 se seleccionaron 50 casos de infarto de miocardio y 50


controles del estudio EURAMIC emparejados por grupos quinquenales de edad. A partir de sus
valores del colesterol HDL (Tabla 6.1), se desprende que hay 23 parejas donde el caso de infarto
y su correspondiente control presentan niveles altos de colesterol HDL (superior a 0,90 mmol/l),
6 parejas donde el caso tiene un nivel alto y el control bajo, 17 parejas donde el caso tiene un
nivel bajo y el control alto, y 4 parejas donde ambos presentan niveles bajos de colesterol HDL.
Los datos de este estudio de casos y controles emparejados se resumen en la Tabla 7.7.

Tabla 7.6 Tabla de contingencia en un estudio de casos


y controles emparejados.
Controles
Casos Expuestos No expuestos Total
Expuestos a b a+b
No expuestos c d c+d
Total a+c b+d n

114 Pastor-Barriuso R.
[Tabla 7.7 aproximadamente
Comparacin deaqu]
proporciones en dos muestras dependientes

Con objeto de evaluar la asociacin entre exposicin y enfermedad controlando por


Tabla 7.7 Colesterol HDL en 50 casos de infarto de miocardio y 50
controles del estudio EURAMIC emparejados por grupos quinquenales
aquellos factores de confusin utilizados en el emparejamiento, cada caso ha de ser
de edad.
comparado con su correspondiente control; esControles
decir, las comparaciones deben estar
donde la ltima igualdad refleja su relacin con el odds ratio subyacente . Despejando
Casos HDL > 0,90 mmol/l HDL 0,90 mmol/l Total
condicionadas
HDL
a cada pareja. Por ello,23los pares concordantes,6donde ambos miembros
> 0,90 mmol/l 29
de esta expresin, se tiene que
HDL 0,90 mmol/l 17 4 21
estn o Total
no expuestos, no aportan informacin
40 sobre la asociacin
10 a estudio y,50
en

consecuencia, el anlisis estadstico se limita a las. parejas discordantes. La probabilidad
1
Con objeto de evaluar la asociacin entre exposicin y enfermedad controlando por aquellos
factores de confusin
de observar utilizados
una pareja en elexpuesto
con el caso emparejamiento,
y el control cadanocaso ha de viene
expuesto ser comparado
dada por con su
Como la probabilidad
correspondiente control; es puede
decir, estimarse mediante deben
las comparaciones la proporcin observada b/(b
estar condicionadas + c) pareja.
a cada de
c c
PorP(E|D)P(E
ello, los pares concordantes,
|D ), mientras que ladonde ambos de
probabilidad miembros
obtener una estn o nocon
pareja expuestos,
el controlno aportan
parejas discordantes
informacin donde el acaso
sobre la asociacin est y,
estudio expuesto, la estimacin
en consecuencia, puntualestadstico
el anlisis del odds ratio de a
se limita
c c
lasexpuesto
parejas discordantes. La probabilidad
y el caso no expuesto es P(E|Dde )P(Eobservar
|D). As, unadado
pareja
que con
una el casoesexpuesto y el
pareja
dondenolaexpuesto
enfermar
control ltima igualdad
entre expuestos
viene dadarefleja
y nopor suP(E|D)P(E
relacin
expuestos es con
c
|Dcel
), odds ratioque
mientras subyacente . Despejando
la probabilidad de obtener
unadiscordante,
pareja con la el probabilidad
control expuestode quey el el caso
casoest expuesto es P(E|D )P(E |D). As, dado que
no expuesto c c

de esta expresin, se tiene que


una pareja es discordante, la probabilidad b /(b de c) quebel/(bcaso c)estb expuesto es
OR = ,
donde la ltima igualdad refleja Psu
1(Erelacin
b| D
/(b) P )c | D
(cEcon cel/(codds
)b cratio
) c subyacente . Despejando
,
P( E | D) P( E | D ) P ( E | D
c c
. ) P( E | D) 1
c c

1

que
donde delaesta
coincideexpresin,
ltima con
igualdad se refleja
la razntiene que
entre
suambos
relacin tipos
condeelpares
oddsdiscordantes.
ratio subyacente Si el.
nmero de
Despejando de
esta expresin, se tiene que
parejas probabilidadb con
Como ladiscordantes puede estimarse
el caso expuestomediante la proporcin
es superior de parejasb/(b + c) de
al nmeroobservada
.
parejas discordantes 1
discordantes c con eldonde
controlelexpuesto,
caso est el
expuesto,
odds ratio la estimacin
ser mayor puntual
de 1 y ladel odds ratio de
exposicin
Como la probabilidad puede estimarse mediante la proporcin observada b/(b + c) de parejas 30
enfermar
discordantes
Como
estar entre
dondeexpuestos
el caso
la probabilidad
directamente y no
est
puede
asociada conexpuestos
expuesto,
estimarse es
la estimacin
mediante
la enfermedad; lapuntual delsiodds
proporcin
mientras que es ratio
bobservada deb/(b
inferior enfermar
a c,+elc) deentre
expuestos y no expuestos es
odds ratio
parejas ser menordonde
discordantes de 1 yellacaso
exposicin
best c)estarb inversamente
expuesto,
/(b c) b asociada
labestimacin
/( conodds
puntual del la ratio de
OR = ,
1 b /(b c) c /(b c) c
enfermedad.
enfermar entre expuestos y no expuestos es
que coincide con la razn entre ambos tipos de pares discordantes. Si el nmero de parejas
queAlcoincide
igualbque
discordantes conenel
con lamuestras
caso independientes,
raznexpuesto
entre ambos tipos el log(OR)
c) de al
bes/(bsuperior pares tambin se Si
b discordantes.
b /(nmeroc) deb parejas
distribuye
el nmerode de
discordantes forma
c con el
control expuesto, el odds ratioOR ser= mayor de 1 y la exposicinestar
1 b /(dependientes,
b c) c /(b con c) media
c
, directamente asociada con
aproximadamente
parejas discordantes
la enfermedad; mientrasnormal conen
bque sielbmuestras
caso expuesto
es inferior eselsuperior
a c, odds ratioal nmero deparejas
ser log(
menor ) ydevarianza
1 y la exposicin
estar inversamente asociada con la enfermedad.
discordantes
aproximada
que ccon
coincide1/b con elrazn
+la1/c. control expuesto,
El intervalo
entre ambos el odds
de confianza
tipos de ratio ser
al 100(1
pares mayor
discordantes.de Si
- )% para 1 el
yella exposicin
odds ratiode
nmero
Al igual que en muestras independientes, el log(OR) tambin se distribuye de forma
estar directamente
aproximadamente
subyacente
parejas normal
resulta
discordantes asociada
en el con
casolaexpuesto
conmuestras
bentonces enfermedad;
dependientes, mientras
con
es superiormedia que si byde
log()
al nmero esvarianza
parejas a c, el
inferioraproximada 1/b
+ 1/c. El intervalo de confianza al 100(1 )% para el odds ratio subyacente resulta entonces
odds ratio ser
discordantes menor
c con de 1 y la
el control exposicin
expuesto, estar
el odds inversamente
ratio ser mayorasociada
de 1 y la con la
exposicin
1 1
explog(OR) z1 / 2 .
enfermedad.
estar directamente asociada conla enfermedad; mientras b c que si b es inferior a c, el

Alratio
odds igual quemenor
en muestrasy independientes, el log(OR) tambinasociada
se distribuye lade forma
Ejemploser
7.18 Endela 1Tabla
la exposicin estar
7.7 se tienen inversamente
6 parejas discordantes con slo
donde el caso de
infarto tiene7.18
Ejemplo un nivel
En la alto
Tabla de7.7
colesterol
se tienenHDL y 17discordantes
6 parejas parejas discordantes
donde slodonde slo el
el caso
aproximadamente
enfermedad. normal en muestras dependientes, con media log( ) y varianza
de infarto tiene un nivel alto de colesterol HDL y 17 parejas discordantes donde
aproximada 1/b en
Al igual que + 1/c. El intervalo
muestras de confianza
independientes, el log(OR) - )% para
al 100(1tambin el odds ratio
se distribuye de forma R.
Pastor-Barriuso 115

subyacente resulta
aproximadamente normal en muestras dependientes, con media log() y varianza
entonces
slo el control presenta un nivel alto, de lo cual se deduce que la estimacin
Inferencia sobre proporciones
slo el control
puntual del oddspresenta
ratio es un nivel alto, de lo cual se deduce que la estimacin

puntual del odds un


control presenta ratio es alto, de lo cual se deduce que la estimacin puntual del odds
nivel 6
ratio es OR = = 0,35,
17
6
OR = = 0,35,
17
y su IC al 95%
y su IC al 95%
y su IC al 95%
1 1
explog(0,35) z 0,975
6 17
1 1
z 0,975
explog(0,35=)exp( 1,04 1,960,475)
= (0,14; 0,90).
6 17
Por tanto, el riesgo de infarto agudo de miocardio es inferior en un 65% (IC al 95%
10-86%) = exp(-1,04 1,960,475) = > (0,14; 0,90). respecto a aquellos
Por tanto, en los sujetos
el riesgo con niveles
de infarto agudo de de colesterol
miocardioHDL 0,90enmmol/l
es inferior un 65% (IC al
con niveles 0,90 mmol/l. La conclusin de este estudio emparejado es consistente con
la obtenida
Por tanto, elenriesgo
los Ejemplos
infarto7.15 y 7.16 en la muestra completa eunindependiente
65% (IC al de casos
95% 1086%) en losdesujetos agudo
con de miocardio
niveles es inferior
de colesterol HDL >en 0,90 mmol/l
y controles del estudio EURAMIC. Aunque esta estimacin de efecto es ms imprecisa
por disponer
95% 1086%) nicamente
en los de 50 parejas, ser menos propensa a0,90
posibles sesgos derivados
respecto a aquellos consujetos
nivelescon niveles
0,90 de colesterol
mmol/l. HDL >de
La conclusin estemmol/l
estudio
de la diferencia de edad entre casos y controles.
2
respecto a aquellos con niveles 0,90 b c La conclusin de este estudio
mmol/l.
emparejado es consistente con la 2obtenida b en los Ejemplos 7.15 y 7.16 en la
El mtodo ms extendido 2 {bpara
Econtrastar
(b)} la hiptesis
2 nula (b de
cindependencia
)2 entre exposicin
y enfermedad en un
=
estudio emparejado
.
b de
emparejado
muestra es consistente
completa con
var(
e independiente deconsiste
b) la obtenida b en
casos en
los comparar
Ejemplos
yccontroles b del la
7.15frecuencia
c estudio y 7.16 enobservada
EURAMIC. la
pares discordantes donde el caso est expuesto4con su frecuencia esperada bajo la hiptesis
nula. Aunque
Si no hubiera
muestra completa
esta asociacin deentre
e independiente
estimacin efecto exposicin
esdems
casos yy enfermedad,
controles
imprecisa delesta frecuencia
estudio
por disponer EURAMIC.
nicamente esperada
de sera
simplemente la mitad del nmero total de parejas discordantes (b + c)/2, con lo cual el estadstico
Bajocontraste
del la
50 hiptesis
Aunque viene
parejas,estanula
ser de no efecto,
determinado
estimacin
menos depor este
efecto
propensa estadstico
es siguederivados
ms imprecisa
a posibles sesgos aproximadamente
por disponer una de
de la nicamente
diferencia de
2
distribucin chi-cuadrado conpropensa
1 grado adeposibles sesgos
libertad, b c permite obtener el valor P
50 parejas,
edad entre ser menos
casos y controles. 2 b lo que derivados de la diferencia de
2 {b E (b)} 2 (b c) 2
= . 2
como edad
la probabilidad
entre casosaylacontroles.
derechavar( delbestadstico
) b 2 en
c la distribucin
bc 1 . Este
El mtodo ms extendido para contrastar la hiptesis 4 nula de independencia entre
contraste
Bajo se conoce como el test de McNemar y se aplica cuando la varianzauna de bdistribucin
bajo
El la
exposicin
hiptesis
mtodo msnula
y enfermedad
de no
extendido
en un
efecto,
para este estadstico
contrastar
estudio la hiptesis
emparejado
sigue
consiste
aproximadamente
nula endecomparar
independencia entre
la frecuencia
chi-cuadrado con 1 grado
Bajo la hiptesis nula dedeno libertad,
efecto, loesteque permite obtener
estadstico el valor P como la
sigue aproximadamente unaprobabilidad
la hiptesis nula es var(b) = (b 2 + c)(1 - ) = (b + c)/4 2 5; es decir, cuando el nmero
a la derechay del
exposicin estadstico en la distribucin consiste 1 . Este contraste se conoce como el test
observada b deenfermedad en un
pares discordantes estudio
dondeemparejado
el caso est expuesto encon
comparar la frecuencia
su frecuencia
de distribucin
McNemar ychi-cuadrado
se aplica cuando
con 1 la varianza
grado de b bajo
de libertad, lo quela hiptesis nula eselvar(b)
permite obtener = (b + c)
valor P
de parejas discordantes
(1 ) = b(bde+pares
c)/4 es superior
5; es decir,donde o igual
cuando a 20.
el nmero de parejas
observada
esperada discordantes
bajo la hiptesis nula. Si no hubiera el caso est expuesto
asociacin con discordantes
su frecuencia
entre exposicin
es superior o
y enfermedad,
igual a 20. 2
como la probabilidad a la derecha del estadstico en la distribucin 1 . Este 2

esperada
esta bajo laesperada
frecuencia
Ejemplo hiptesis
7.19 nula.
sera Si del
no hubiera
simplemente
El estadstico test de asociacin
la McNemar
mitad enentre
del nmero exposicin
total7.7
la Tabla de toma y enfermedad,
parejas el valor
contraste
Ejemplo se 7.19
conoceElcomo el test del
estadstico de McNemar
test de McNemar y se aplica en lacuando
Tabla 7.7la varianza de b bajo
toma el valor
esta frecuencia
discordantes (b +esperada
c)/2, consera
lo cualsimplemente
el estadstico la mitad del nmero
del2 contraste vienetotal de parejas por
determinado
la hiptesis nula es var(b) = (b + c)2=(1(-6)17 = )(b += c)/45,26. 5; es decir, cuando el nmero
discordantes (b + c)/2, con lo cual el estadstico 6 17del contraste viene determinado por
de Aparejas
partir discordantes es superior
de la distribucin o igual acon
chi-cuadrado 20.1 grado de libertad (Tabla 6 del Apndice),
A partircomprobarse
puede de la distribucin que chi-cuadrado con 1est
este estadstico gradocomprendido
de libertad (Tabla
entre6 del
los percentiles
1 Ejemplo
2
;0,975 = 5,02 y El1 ;0,99
7.19
2
= 6,63, de
estadstico dello cual se tiene queen0,01 < P <7.7
0,025. As, el riesgo de
Apndice),
infarto puede
agudo comprobarse
de miocardio quetest
difiere este deestadstico
McNemar
significativamente
la Tabla
est entre
comprendido toma ellos
entre
los sujetos con
valor
niveles
32 de
colesterol HDL superiores e inferiores a 0,90 mmol/l.
percentiles 12;0,975 = 5,02 y 12;0,99 2= 6,63, (6 de
17lo) 2 cual se tiene que 0,01 < P < 32
= = 5,26.
6 17
0,025. As, el riesgo de infarto agudo de miocardio difiere significativamente
116 Pastor-Barriuso R.
A partir de la distribucin chi-cuadrado con 1 grado de libertad (Tabla 6 del
entre los sujetos con niveles de colesterol HDL superiores e inferiores a 0,90
Apndice), puede comprobarse que este estadstico est comprendido entre los
siguen
CE: CORRECCIN PORargumentos similares a los descritos en este apartado y pueden consultarse en los
CONTINUIDAD
libros de anlisis de datos categricos referenciados en este tema.Apndice: correccin por continuidad
ice se derivan las versiones con correccin
cada paciente que conformaporun
continuidad del intervalo
grupo de emparejamiento). Estas generalizaciones
7.8
y del test de hiptesis APNDICE:
para
siguen una proporcin
argumentos CORRECCINpoblacional
similares . Si kCONTINUIDAD
POR
a los descritos es
en el nmero
este apartado y pueden consultarse en los
La inferencia sobre proporciones puede extenderse a estudios donde se empareja ms de un
eventos en una sujeto
muestra
En
poraleatoria
libros
este
muestra de
deapndice
(por
anlisis se de
ejemplo,
datos n,
tamao
derivan
unintervalo
el estudio dedecasos
categricos
las versiones referenciados
con
y controles
confianza
correccin enaleste por
donde cada caso est emparejado
tema.
continuidad del intervalo
con mltiples controles, o un ensayo clnico donde cada paciente que recibe un nuevo tratamiento
est emparejado
para vendr determinado con
por aquellos varios pacientes
valores bajo
( inf, para tratamiento estndar), as como a estudios donde se
de confianza y del test de hiptesis sup) unaque proporcin
verifiquen poblacional . Si k es el nmero
comparan ms de dosCORRECCIN
7.8 APNDICE: muestras dependientes (por ejemplo, un ensayo clnico donde se asignan
POR CONTINUIDAD
aleatoriamente distintos tratamientos a cada paciente que conforma un grupo de emparejamiento).
observado
k | de= eventos
P(Xgeneralizaciones
Estas en
/2, unaargumentos
inf) = siguen muestra aleatoria similares de atamao n, el intervalo
los descritos en este de confianza
apartado al
y pueden
En este apndice
consultarse en los librosse derivan
de anlisislas versiones con correccin
de datos categricos por continuidad
referenciados en estedel intervalo
tema.
100(1 - )% para
P(X k | = sup) = /2, vendr determinado por aquellos valores ( inf , sup ) que verifiquen
de confianza y del test de hiptesis para una proporcin poblacional . Si k es el nmero
7.8 APNDICE: CORRECCIN POR CONTINUIDAD
a distribucin binomial de parmetros y una
n en . Como P(X k | = en
se discuti infel) = /2,
En observado
este apndicede eventos
se derivan lasmuestra
versiones aleatoria de tamao por
con correccin n, elcontinuidad
intervalo de del confianza al de
intervalo
confianza y del test de hiptesis para P(X una proporcin = sup)poblacional
k | aproximarse = /2, . Si k es el nmero observado
2, si n(1 - ) 5,100(1
estas probabilidades
- )% para binomiales
vendr pueden
determinado por aquellos valores ( infconfianza
, sup) quealverifiquen
de eventos en una muestra aleatoria de tamao n, el intervalo de 100(1 )%
para vendr determinado por aquellos valores (inf, sup) que verifiquen
istribucin normaldonde X es unaZdistribucin
estandarizada como binomial de parmetros n y . Como se discuti en el
P(X k | = inf) = /2,
Apartado 3.3.2,k si n/2(1-n) 5, P(X k | = sup) = /2,
1 estas probabilidades binomiales pueden aproximarse
P(X k | = inf) P Z = /2,
inf
donde X es una distribucin
n (1 binomial
) de parmetros n y . Como se discuti en el Apartado 3.3.2,
mediante la distribucin
inf inf
normal estandarizada Z como aproximarse mediante la distribucin
si n(1 ) 5, estas probabilidades binomiales pueden
donde X es una distribucin
normal estandarizada Z como binomial de parmetros n y . Como se discuti en el
k 1 / 2 n sup
3.3.2, n inf pueden aproximarse
P(X k | = Apartado
sup) P Z

siP(X n(1 -k|)=5,estas P Z k 1 / 2binomiales
= )/2.probabilidades = /2,
n sup (1 sup ) inf
n (1 )
inf inf
mediante la distribucin normal estandarizada Z como
k 1 / 2 n sup
rmino 1/2 de la correccin por continuidad P(X k | se =aade
sup)aambas P Z expresiones = /2.
n (1 )
sup sup
k 1 / 2 n inf
P(X k | = inf) P Z
incluir la probabilidad de observar exactamente k eventos. Para = /2,
Notar que el trmino 1/2 de la correccin k 1 / 2 por ncontinuidad
inf n inf (1 se ) a ambas expresiones con
infaade
= z1-/2,
objeto de incluir
s clculos, las desviaciones tpicasladeprobabilidad
estas distribuciones de observar
np (1normales
p ) exactamente
se k eventos. Para simplificar los
clculos, las desviaciones tpicas de estas distribuciones normalesaade
Notar que el trmino 1/2 de la correccin por continuidad se a ambaspor
se sustituyen expresiones
la estimacin
k 1 / 2 n sup
la estimacin np p) , dedeloincluir
(1 objeto cual k | = que
P(Xseladeduce ksup)1/de2P Z = /2.
con probabilidad n sup n=exactamente
observar
sup1-(
-z 1/2. sup )k eventos. Para

k np 1 / (21 np) inf = z
simplificar los clculos, las desviaciones 1/2,
np(1 tpicasp) de estas distribuciones normales se
Notar que el trmino 1/2 de la correccin por continuidad se aade a ambas expresiones
Finalmente,
sustituyen por despejando
la estimacin inf y npksup( 1se/p2obtiene
1, n lo
) , de supel intervalo
cual de confianza al 100(1 - )%
= zse deduce
1/2.
que
con objeto de incluir la probabilidadnpde(1observar p) exactamente k eventos. Para
para 34
Finalmente, despejando inf y sup, se obtiene el intervalo de distribuciones
simplificar los clculos, las desviaciones tpicas de estas confianza al 100(1 normales
)% separa
Finalmente, despejando inf y sup, se obtiene p(1 el
pintervalo
) 1 de confianza al 100(1 - )%
sustituyen por la estimacin pnp (1z1p/)2 , de lo cual se deduce . que
n 2n
para 34
Este intervalo de confianza difiere de la versin sin correccin presentada en el Apartado 7.2 en
que ambos lmites del
Este intervalo deintervalo
confianzasedifiere
amplan deen la una cantidad
versin 1/(2n) inversamente
sin correccin presentadaproporcional
en el al
tamao muestral. La utilizacin de esta p (1 p ) 1
p z1correccin se fundamenta
. en el hecho de aproximar una
lmites del 2n encontinua.
/ 2
distribucin
Apartado binomial
7.2 en quediscreta
ambosmediante una intervalo n se amplan
distribucin normal Cuanto
una cantidad menor sea el
1/(2n)
tamao muestral, ms imprecisa ser la aproximacin normal y, en consecuencia, la correccin 34por
inversamente proporcional al tamao muestral. La utilizacin de esta correccin se
Este intervalo de confianza difiere de la versin sin correccin presentada en el
fundamenta en el hecho de aproximar una distribucin binomial discreta mediante una R.
Pastor-Barriuso 117
Apartado 7.2 en que ambos lmites del intervalo se amplan en una cantidad 1/(2n)
distribucin normal continua. Cuanto menor sea el tamao muestral, ms imprecisa ser
inversamente proporcional al tamao muestral. La utilizacin de esta correccin se
la aproximacin normal y, en consecuencia, la correccin por continuidad 1/(2n) ha de

ser mayor. Por el contrario, si el tamao muestral es grande, la distribucin binomial


Inferencia sobre proporciones
k n 0 1 / 2
P = 2P(X k | H0) 2 P Z
estar muy prxima a la normal, por lo que la correccin 0 ) ser insignificante.
n 0 (1 1/(2n)

continuidad 1/(2n) ha de
P para el ser mayor. bilateral
Por el contrario, si el tamao
nulamuestral
H0: = es grande, la distribucin
El valor contraste de la hiptesis 0 puede obtenerse a
binomial estar muy prxima a la normal, por lo que la correccin
n 0 k 1 / 2 1/(2n) ser insignificante.
= 2 P Z ,
partir
El de Plapara
valor aproximacin
el contrastenormal a lade
bilateral la hiptesis
distribucin nbinomial
nula
0 (1 H ) = 0 puede obtenerse a partir
0:0como
de la aproximacin normal a la distribucin binomial como

si p 0. Combinando ambos k n 0 1 / 2
P = 2P(X resultados,
k | H0)setiene 2 P Zque el valor P corresponde , al doble de
k nn0 (011/ 02)
la probabilidad normal P = 2P(X k | aHla0) derecha
estandarizada 2 PZdel test estadstico
n 0 (1 0 )
si la proporcin observada p > 0, o alternativamente como
si la proporcin observada p > 0, o alternativamente como
1
P = 2P(X k | H 0) 2 P| p
Z nk0| 0nk0 11// 22
| k n 0 | 1 = / 22 P Z n 2(n1 ) ,
z 0 . 0
n 0 (1 0 ) 0 (1 n00()1 0 )
nn 0 k 1 / 2
= 2 P Z ,
si p 0. Combinando ambos resultados, se tiene quenel valor
(1 P )
corresponde al doble de
0 0
El test con correccin por continuidad incorpora el trmino -1/(2n) en el numerador
si plaprobabilidad
0. Combinando normal estandarizada
ambos resultados, a lasederecha
tiene que del eltest estadstico
valor P corresponde al doble de la
probabilidad
del siestadstico,normal estandarizada
de tal formaambos
p 0. Combinando a
que elresultados, la derecha
valor P ser del test
se ligeramente estadstico
tiene que el valor mayorPque el obtenido
corresponde al en el 35
doble de
1
correspondiente contraste sin correccin por | p 0(Apartado
continuidad | 7.2). Esta
la probabilidad normal estandarizada | k n 0 a| la1derecha
/2 del test estadstico
2n .
z
correccin ser tanto mayor cuantonms 0 (1reducido
0 ) seael0 (tamao 1 0 ) muestral.
1
| p n0 |
| k n 0 | 1 / 2 2n .
El Ejemplo
test con correccin por z continuidad
el trmino
incorpora 1/(2n) en EURAMIC
el numerador del
7.20 En el Ejemplo 7.1 n 0se(1utilizaron
incorpora
0)
los controles
0 (1 0 ) del estudio
estadstico, de tal forma que el valor P ser ligeramente mayor que el numerador
El test con correccin por continuidad el trmino -1/(2n) en el obtenido en el
correspondiente contraste sin correccin por continuidad n
(Apartado 7.2). Estaadultos
correccin ser
para realizar
delmayor
estadstico,
inferencias sobre la prevalencia
P ser
poblacional de hombres
tanto cuantodemstal forma
reducido quesea el valor
el tamao ligeramente mayor que el obtenido en el
muestral.
El test
con con correccin
niveles bajos por continuidad
de colesterol HDL ( incorpora
0,90 el trmino
mmol/l). A -1/(2n) ense
continuacin el calculan
numerador
correspondiente contraste sin correccin por continuidad
Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC para (Apartado 7.2). Esta
delrealizar
los inferencias
estadstico,
correspondientes sobre
de tal forma
intervalosla prevalencia
que elde valor
confianza poblacional
P ser ligeramente
y sea
test el de
detamao hombres
mayor
hiptesis que eladultos
utilizando la conenniveles
obtenido el
correccin ser tanto mayor cuanto ms reducido
bajos de colesterol HDL ( 0,90 mmol/l). A continuacin se calculan los correspondientes muestral.
intervalos
correccinde
correspondiente porconfianza
contraste
continuidad. ysintest EldeIChiptesis
correccin al 95% utilizando
porpara
continuidad
vendra la (Apartado
correccin
dado por7.2). por continuidad.
Esta El IC
al 95% para vendra dado por
Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC
correccin ser tanto mayor cuanto ms reducido sea el tamao muestral.
0,293(1 0,293) 1
para realizar inferencias
0,293 z 0,975 sobre la prevalencia poblacional de hombres adultos
539 2 539
Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC
con niveles bajos de colesterol HDL ( 0,90 mmol/l). A continuacin se calculan
= 0,293 (1,960,020 + 0,001) = (0,254; 0,333),
para realizar inferencias sobre la prevalencia poblacional de hombres adultos
y ellos correspondientes
estadstico corregidointervalos
para el contrastede confianzabilateraly testde de hiptesis nula
la hiptesis utilizando
H0: = la0,30 sera
y elcon niveles bajos
estadstico de colesterol
corregido para el HDL ( bilateral
1 contraste
0,90 mmol/l). A continuacin
de la1 hiptesis nula H0se : calculan
=
correccin por continuidad.
| p 0 | El IC al 95% para
| 0,293 0,30 | vendra dado por
2n de confianza y test2 de 539
0,30lossera
correspondientes
z= intervalos hiptesis
= 0,30,utilizando la
0 (1 0 ) 0,30(1 0,30)
0,293(1 0,293) 1
correccin por 0,293 z 0,n975 El IC al 95% para
continuidad. vendra
539 dado por
539 2 539
36
con un valor P asociado en las tablas de la distribucin normal estandarizada P = 2P(Z
0,30) 2{1 P(0,30)}
con un= valor asociado= en0,293
0,293 z=0,764.
las tablas
0Como
,293 (dela0,distribucin
1cabra
(1,960,020 293 )+ 0,001)
esperar,

1elnormal
intervalo confianzaPcorregido
estandarizada
=(0,254; de 0,333),
=
2 539
0 , 975
539
2P(Z 0,30) = 2{1 - (0,30)} = 0,764. Como cabra esperar, el intervalo de
118 Pastor-Barriuso R.
y el estadstico corregido para el contraste bilateral de la hiptesis nula H0: =
confianza corregido por continuidad = 0,293 (1,960,020 (IC al 95%+25,433,3%)
0,001) = (0,254; 0,333),
es ligeramente ms
0,30 sera
Tabla 7.8 Intervalos de confianza (IC) y tests de hiptesis con correccin por continuidad.
Tabla 7.8 Tabla 7.8 Intervalos
Intervalos de confianza
de confianza (IC) y tests(IC)
de hiptesis hiptesis
y tests decon con correccin
correccin por continuidad.
por continuidad.
IC al 100(1 )% Test estadstico
)%
IC al 100(1IC- al 100(1 - )% Test estadstico
Test estadstico

1 1
p(1 p ) 1 | p 00 | | p 00 |
muestra 2n 2 n
Una
Una muestra
muestra Una
Una muestra p(1zz11p// 22) 1
p z11 // 22pp z zz
n 2nnn 22nn 00 (1 00 ) 00 (1 00 )
n nn

1 1 11 1 1
| p11 p22 | | p11 p 22|
p(1 p ) p1 (p1 (1p1 )p ) p 2 (11 1p 2 ) 1 1 1 1 2 n n22
Dos
DosmuestrasDos
muestrasindependientes
Dos muestras
muestras independientes
independientes
independientesp11 p 22 ppz1111
p11 (zz111
//pp22 22 p11 ) p11 (p122(1p11 )p22 ) p22 (11 1p22 ) 1 1 1 1
// 22 n z 2 n11 n22 11
zz
n11 n11 n22 2nn22 n11 n22 22 nn11 nn22 1 1 1 1
p (1 p ) p (1 p)
n11 n 22 n11 n 22

2 22 2 2 2
2 2 2
22 22 (2| O 2 E
ijij
2 (||
ijij
O1ijij/ 2)E ijij | 1 / 2)
Test 2 de Pearson*
2 de2 Pearson*
Test deTest
Pearson*
2 2

ii 11
jj 11
ii 11 E E
jj 11 ijij
Eijij

2
( | b c2 | 1( )| 22b c | 1 ) 2
Test
Test de de Test de McNemar
McNemar
McNemar
22 ( | b c22 | 1()| b c | 1 )
bc bc bc
2
** La correccin
** La
La correccin correccin
por
correccin
Lapor por
continuidad
continuidad no
no se aplica no
por continuidad
continuidad
se aplica no
al se
test
se aplica
al testaplicade al
22 de al test
Pearson
test
Pearson de
en
2en Pearson
tablas de en
Pearson
detablas de en tablas
contingencia
tablas de
de contingencia
contingencia contingencia
mayores
mayores de mayores
22.
mayores de
de 22. de 22.
22.
* La correccin por continuidad no se aplica al test 2 de Pearson en tablas de contingencia mayores de 22.

Pastor-Barriuso R.
Apndice: correccin por continuidad

119
46 46
Inferencia sobre proporciones

por continuidad (IC al 95% 25,4-33,3%) es ligeramente ms amplio que su correspondiente


intervalo sin correccin (25,5-33,2%, Ejemplo 7.1), y el valor P aumenta al aplicar dicha
correccin (P = 0,764 versus 0,726, Ejemplo 7.1). No obstante, los resultados con y sin
correccin son muy similares dado que el tamao muestral utilizado en este ejemplo es
moderadamente grande.

La correccin por continuidad tambin se aplica a la comparacin de proporciones en muestras


independientes o dependientes y al test chi-cuadrado de asociacin en una tabla 22, ya que estos
mtodos de inferencia utilizan una distribucin continua (normal o chi-cuadrado) para representar
una distribucin de frecuencias discreta. Las versiones corregidas de estos procedimientos, cuya
derivacin es similar al caso de una proporcin, se presentan en la Tabla 7.8. En general, la
utilizacin de la correccin por continuidad da lugar a resultados ms conservadores; esto es,
intervalos de confianza ms amplios y mayores valores P de los contrastes. El principal objetivo
de esta correccin es aumentar la cobertura de los intervalos de confianza y reducir la probabilidad
de un error de tipo I en los contrastes, especialmente cuando el tamao muestral es reducido.

7.9REFERENCIAS

1. Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons,
2002.
2. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth
Edition. Oxford: Blackwell Science, 2001.
3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
4. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and
Analysis of Cohort Studies. Lyon: International Agency for Research on Cancer, 1987.
5. Collett D. Modelling Binary Data, Second Edition. London: Chapman & Hall, 2002.
6. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
7. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition.
New York: John Wiley & Sons, 2003.
8. Hennekens CH, Buring JE. Epidemiology in Medicine. Boston: Little, Brown and
Company, 1987.
9. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research: Principles and
Quantitative Methods. New York: John Wiley & Sons, 1982.
10. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press,
1999.
11. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.

120 Pastor-Barriuso R.
TEMA 8

MTODOS NO PARAMTRICOS

8.1 INTRODUCCIN

En los temas anteriores se han presentado distintos mtodos de inferencia para datos de carcter
continuo (Tema 6) y categrico (Tema 7). Estos procedimientos se conocen como mtodos
paramtricos y asumen que los datos proceden de una poblacin cuya distribucin de probabilidad
es conocida (normal o binomial), o que al menos la distribucin de los estadsticos empleados
puede aproximarse mediante el teorema central del lmite. As, las inferencias se fundamentaban
en la aproximacin normal a la distribucin de las medias y proporciones muestrales. Aunque en
la mayora de las ocasiones estas asunciones son razonables, pudiera ocurrir que no se cumplan
las condiciones necesarias para la realizacin de anlisis paramtricos, especialmente cuando los
tamaos muestrales son muy reducidos. En tales circunstancias, es posible utilizar mtodos
alternativos que realizan asunciones mnimas acerca de la distribucin de la variable a estudio, y
que reciben colectivamente el nombre de mtodos no paramtricos o de distribucin libre.
Antes de proceder a la descripcin de los mtodos no paramtricos ms utilizados, conviene apuntar
sus principales ventajas e inconvenientes. Entre las ventajas fundamentales cabe destacar que:
yy Los mtodos no paramtricos son muy robustos y, en consecuencia, pueden aplicarse a
situaciones donde la utilizacin de pruebas paramtricas es cuestionable. As, por ejemplo,
la comparacin de medias en dos muestras independientes requiere de tamaos muestrales
suficientemente grandes para aplicar el teorema central del lmite y de una varianza
homognea en ambas poblaciones, mientras que su equivalente no paramtrico permite
contrastar globalmente la igualdad de distribuciones bajo la nica asuncin de que ambas
distribuciones sean continuas.
yy Como se ver ms adelante, la propia naturaleza de las pruebas no paramtricas las hace
particularmente tiles para comparar variables cualitativas ordinales, cuyo tratamiento
mediante mtodos paramtricos clsicos entraa problemas conceptuales ya que estas variables
carecen de interpretacin numrica (ver definicin de tipos de variables en el Tema 1).
Sin embargo, los mtodos no paramtricos presentan una serie de limitaciones que impiden
su uso generalizado:
yy Los mtodos no paramtricos se emplean casi exclusivamente para determinar la
significacin estadstica de la comparacin entre grupos. Aunque existen procedimientos
no paramtricos para obtener estimadores de efecto e intervalos de confianza, stos
requieren de asunciones adicionales y su aplicacin es ms compleja.
yy Si se cumplen las condiciones de aplicacin de las pruebas paramtricas, el uso de mtodos no
paramtricos es un tanto ineficiente, lo que conlleva una leve prdida de potencia en el anlisis.
Estudios de simulacin bajo la asuncin de normalidad han mostrado una perdida de potencia
aproximada del 5% de las pruebas no paramtricas respecto a sus equivalentes paramtricos.
yy Los mtodos paramtricos pueden extenderse fcilmente al anlisis multivariante de
situaciones ms complejas. Aunque en la actualidad los mtodos no paramtricos han
experimentado un fuerte desarrollo, su utilizacin es an limitada por la mayor complejidad
y menor disponibilidad en los programas de anlisis estadstico de uso rutinario.

Pastor-Barriuso R. 121
Mtodos no paramtricos

En general, los mtodos no paramtricos se emplean como complemento o alternativa a las


pruebas paramtricas cuando no se cumplen las condiciones mnimas para la aplicacin de estas
ltimas. En este tema se revisan los mtodos no paramtricos de uso ms frecuente, tales como
el test de la suma de rangos de Wilcoxon, el test de los rangos con signo de Wilcoxon y el test
exacto de Fisher.
la variable (empates), se asigna a cada una de ellas la media de los rangos

correspondientes.
8.2 Finalmente,
TEST(empates),
DE LA SUMA DEseRANGOS
suman los DE
rangos de una cualquiera de las dos
WILCOXON
la variable se asigna a cada una de ellas la media de los rangos
muestras, seleccionemos
En el Apartado 6.3 se tratpor ejemplo la
el problema deprimera muestra,de variables continuas en dos muestras
la comparacin
correspondientes. Finalmente, se suman los rangos de una cualquiera de las dos
independientes. Si ambos tamaos muestrales n1 y n2 son suficientemente grandes para aplicar
el teorema central del lmite, el test de la t den1 Student permite realizar inferencias acerca de la
muestras, seleccionemos por ejemplo la primera muestra,
U = rSin
diferencia de medias entre ambas poblaciones. i . embargo, si la distribucin subyacente dista
mucho de ser normal y las muestras son muyi =pequeas,
1 las medias muestrales no se distribuirn
n1
de forma normal y la anterior prueba paramtrica no ser aplicable. Bajo estas circunstancias,
U = ri .
ha estadstico
El de utilizarse el equivalente
del test de Wilcoxonnose paramtrico
basa en al test de la t de Student para muestras
i =1 esta suma de rangos.
independientes, que se conoce como el test de la suma de rangos de Wilcoxon. Este procedimiento
permite contrastar globalmente la igualdad de distribuciones bajo la nica asuncin de que la
El estadstico
Ejemplo
variable del
8.1test
a estudio de una
tenga Wilcoxon
Supongamos queselabasa
distribucin en esta
subyacente
muestra suma de nrangos.
continua.
consiste en 1 = 10 casos de infarto de

Si no se asume nada sobre la forma de la distribucin, parece razonable basar el contraste en


miocardio
la variable y n2 = 10secontroles
de las(empates), asigna a seleccionados
cada yaleatoriamente
una deconsiste
ellas
nolaenmedia de del estudio
el orden
Ejemplo observaciones
8.1 Supongamos deque
ambas
la muestras
muestra en sus 10 los
n1 =verdaderosrangos
casos valores.
de infartoPara
de ello, se
combinan las dos muestras ordenando los valores de menor a mayor. A continuacin, se asigna
EURAMIC.
correspondientes.
el rango LaFinalmente,
ri o posicin Tabla
que 8.1 muestra
ocupa cada los los
niveles
se seleccionados
suman
observacinrangos -caroteno
de de
dentro una en tejido
cualquiera
de la muestra de adiposo
las dos para
combinada. Si existen
miocardio y n2 = 10 controles aleatoriamente del estudio
varias observaciones con el mismo valor de la variable (empates), se asigna a cada una de ellas
muestras,
estos
la media de20 seleccionemos
lossujetos.
rangos Al por ejemplo
menor valor delos
correspondientes. la primera
ambas
Finalmente, muestra,
muestras 0,04 g/g se le asigna
unael
EURAMIC. La Tabla 8.1 muestra niveles dese-caroteno
suman losenrangos
tejidodeadiposocualquiera
para de
las dos muestras, seleccionemos por ejemplo la primera muestra,
rango20
estos 1, sujetos.
al siguiente
Al menor valorg/g
valor 0,05 se le notorga
de ambas 1 el rango
muestras 2 y as
0,04 g/g se sucesivamente
le asigna el
U = ri.
i =1
hasta asignar el rangovalor
20 al0,05
mayor valorle0,57 g/g. rango
A los dos sujetos con idntico
rango 1, del
El estadstico al siguiente
test de Wilcoxon se g/g
basa seen estaotorga
sumaelde 2 y as
rangos. sucesivamente
El nivel
estadstico
0,13 del test
g/g de de Wilcoxon
-caroteno lessecorresponden
basa en esta suma de rangos.
las posiciones 7 y 8 y,con
en idntico
hasta
Ejemploasignar
8.1el Supongamos
rango 20 al mayor que la valor 0,57 g/g.
muestra A los
consiste endosn1 sujetos
= 10 casos de infarto de
miocardio y n = 10 controles seleccionados aleatoriamente
consecuencia, 2se asigna el rango medio (7 + 8)/2 = 7,5 a ambas observaciones.del estudio EURAMIC. La
nivel
Tabla 0,13 g/g
8.1 muestra
Ejemplo de -caroteno
los nivelesque
8.1 Supongamos les corresponden
de la
-caroteno las posiciones
en tejidoenadiposo
muestra consiste 7 y
n1 = 10para 8 y, en
casosestos 20 sujetos.
de infarto de Al
menor valor de ambas muestras 0,04
As, la suma de rangos en los casos de infarto esg/g se le asigna el rango 1, al siguiente valor 0,05
consecuencia,
g/g se
se le otorga
miocardio asigna
y n2el=rango el rango medio (7
2 y as sucesivamente
10 controles + 8)/2 = 7,5 a ambas observaciones.
hasta asignar eldel
seleccionados aleatoriamente rango 20 al mayor valor
estudio
0,57 g/g. A los dos sujetos con idntico nivel 0,13 g/g de -caroteno les corresponden
As, la suma de7La
las EURAMIC.
posiciones rangos
y 8Tabla en8.1
y, en los
10
casos de infarto
consecuencia, es el -caroteno
muestra
ri = 1 +los9 se asigna
+niveles
... + 19de rango medio
= 96,5 en(7tejido
+ 8)/2 = 7,5 apara
adiposo ambas
observaciones. As, la sumai =1de rangos en los casos de infarto es
estos 20 sujetos. Al menor 10 valor de ambas muestras 0,04 g/g se le asigna el

y en los controles
i =1
ri = 1 + 9 + ... + 19 = 96,5
rango 1, al siguiente valor 0,05 g/g se le otorga el rango 2 y as sucesivamente
y en los controles
y enhasta
los controles 10
asignar el rango 20 al
r j mayor
= 13 +valor + 6 g/g.
2 + ...0,57 A los dos sujetos con idntico
= 113,5.
j =1

nivel
Notar que la g/g
0,13 de -caroteno
eleccin entre una les
10 corresponden
u otra las posiciones
suma de rangos 7 y 8 y,
es arbitraria. Laensuma total de
rangos en ambas muestras es
r j = 13 + 2 + ... + 6 = 113,5.
(n + n
Notar que la eleccin entrej =1una1u otra )(n
2 suma
1 + n 2de rangos es irrelevante. Latal
+ 1)/2 = 2021/2 = 210, de forma que una
suma
vezconsecuencia, se asigna
calculada la suma el rango
de rangos 96,5medio
en la(7primera
+ 8)/2 =muestra,
7,5 a ambas observaciones.
la otra queda determinada
por 210 96,5 = 113,5.
total de rangos en ambas muestras es (n1 + n2)(n1 + n2 + 1)/2 = 2021/2 = 210, de
Notar
As,que la eleccin
la suma entreen
de rangos una
losucasos
otra suma de rangos
de infarto es es irrelevante. La suma
122 tal forma
Pastor-Barriuso que una vez calculada la suma de rangos 96,5 en la primera muestra, la
R.
total de rangos en ambas muestras
10 es (n1 + n2)(n1 + n2 + 1)/2 = 2021/2 = 210, de
otra queda determinada por 210 r = 1 + 9 + ... + 19 = 96,5
- i96,5 = 113,5.
tal forma que una vez calculada la suma de rangos 96,5 en la primera muestra, la
i =1
Test de la suma de rangos de Wilcoxon

Tabla 8.1 -caroteno


Tabla en tejidoenadiposo
8.1 -caroteno en 10 casos
tejido adiposo en 10decasos
infarto
de de miocardio
infarto y 10 y 10
de miocardio
Tabla 8.1 -caroteno en tejido adiposo en 10 casos de infarto de
controles seleccionados
controles yaleatoriamente
seleccionados
miocardio aleatoriamente
10 controles del
8.1estudio
[Tablaseleccionados EURAMIC.
aproximadamente
del estudio aqu] del estudio
EURAMIC.
aleatoriamente
EURAMIC.
Caso Caso ControlControl
El objetivo es contrastar Casosi las distribuciones F1 y F2 en Control ambas poblaciones son
[Tabla-caroteno (g/g) (g/g)aqu]
-caroteno
8.1 aproximadamente
-caroteno (g/g)
RangoRango (r i)
Rango (r ) -caroteno
(r ) i
(g/g) (g/g)
-caroteno
-caroteno (g/g)
Rango (r
Rango (rj) j
)
Rango (rj)
iguales H0: F1 = F2 frente a la hiptesisi alternativa bilateral H1: F1 F2. Bajo esta
0,04 1 0,25 13
0,04 0,04 1 1 0,25 0,25 13 13
s contrastar si las distribuciones
hiptesis nula,
0,14 0,14 F la y0,14
F
suma ende ambas
rangos9 9
poblaciones
esperada enson
la primera 0,05muestra
0,05 0,05 sera 2
igual 2 a la suma
1 2 9 2
0,20 0,20 0,20 11
11[Tabla118.1 aproximadamente 0,36
0,36 0,36 aqu] 17 17 17
total dealternativa
= F2 frente a la hiptesis rangos 0,08
0,08 porbilateral
la proporcin
0,08 H1:3F1 deFsujetos
323. Bajo en estadicha0,09muestra,
0,09 0,09 44 4
0,21 0,21 0,21 12[Tabla 128.1 aproximadamente
12 0,33 aqu]
0,33 0,33 1616 16
a suma de rangos esperadaEl objetivo es
en la primera contrastar
0,10 muestra si las distribuciones F1 y0,37F2 en ambas poblaciones son
0,10 0,10 (n1 + 5nsera 5igual
5 a la suma
2 )( n1 + n 2 + 1) n1 0,37n1 (0,37n1 + n 2 + 1) 1818 18
0,28 0,28 E(U)
0,28 = 14 14
14 0,13= 0,13
0,13 . 7,5
7,5 7,5
por la proporcin de El objetivo
iguales
sujetos H en : F es
dicha= contrastar
F frente
muestra, asi
la las 2
distribuciones
hiptesis n1F+1 nybilateral
alternativa 2F en ambas
H 2: F1poblaciones
F . Bajo son
esta
0,29 0,29
0 1 2
0,29 15 15
15 0,17
0,17 0,17
2 1 21010 10
0,13 0,13 0,13 [Tabla7,5
7,5 8.1 aproximadamente
7,5 0,57 aqu]
0,57 0,57 2020 20
iguales
hiptesis H :
nula,F =
la F
sumafrente
de a la
rangos hiptesis
esperada alternativa
en la bilateral
primera H
muestra : F F . Bajo
0,12 muestra,6 6el valorsuma
sera igual a esta
la
(n1 + n 2 )(Por n 2 0,48
n1 +tanto, ) u denota
+ 1si n0,48 0,48 la (n1 +19de
n1suma n 2 rangos ) observada en
19 0,12
la primera 6
0 1 2 1 1 2
1 + 119 0,12
E(U) = =10 .
2 Elde
total objetivo
hiptesis rangos
nula,n1 es
+la
porncontrastar si102las por
2 la proporcin
suma de rangos distribuciones
de sujetos
esperada Fprimera
enladicha
en F2 en
1 y muestra, ambas
muestra
10
sera
10
poblaciones
igual son
exacto de P vendra
determinado
ri = 96,5 r i = 96,5 la probabilidad bajo H 0 de una
obtener
r j = 113,5 r j asuma
=la113,5
suma
de
i =1 i =1 j =1 j =1
iguales
total de H0: Fo1ms
rangos =
porF2distante
lafrente a la muestra,
proporcin hiptesis
de que elalternativa
sujetos en dicha bilateralu;Hes : F1 F2. Bajo esta
rangos
enota la suma de rangos tanto
observada en la (n1 de
primera + nE(U) elvalor
2 )( n1 + n 2 + 1)
valor n1 muestra,
observado n1 (n1 1+ ndecir,
2 + 1)
E(U) = = .
hiptesis nula,es la suma 2 n + n 2
El objetivo bajo de
contrastar rangos
H(n0sidelas esperada
distribuciones en laFde primera
y F en muestra
ambassera igual a lason
poblaciones suma iguales
1 2
dra determinado por la probabilidad obtener
1 + n 2 )( n P 1=+unan 2 +suma
2P(U 1) u |n1H1 0), 2 n1 (n1 + n 2 + 1)
E(U)
H0: F1 = F2 frente a la hiptesis alternativa bilateral H1: F1 F2. Bajo esta hiptesis nula, la suma
= = .
ms distante de E(U) total
de rangos
Por deelesperada
tanto,
que rangos por
si u denota
valor observado proporcin
en la primera
la sumau; esmuestra
de de2 sujetos
rangos
decir, sera en ndicha
igual
observada 1 + n 2muestra, 2
a la
ensuma total de
la primera rangos el
muestra, porvalor
la proporcin
de si
sujetos
u > E(U),en dicha muestra,
o alternativamente
exacto P
Por tanto, si u denotadeterminado
de vendra la suma por
n1 +lanprobabilidad
(n1 + nde2 )(rangos observada
2 + 1) n1 enbajo H0 1de
la nprimera
1 (n + obtener
nmuestra,
2 + 1)
una suma de
el valor
P = 2P(U u | HE(U) 0), = = .
2 = 2P(U nu1 | +Hn0),2
P 2
rangos
exacto de tanto o ms distante
P vendra determinado de E(U) porque el valor observado
la probabilidad bajo Hu; 0 deesobtener
decir, una suma de
ternativamente Por tanto, si u denota la suma de rangos observada en la primera muestra, el valor exacto de P
Por
vendra
si utanto,
rangos determinado
E(U).
tanto uo denota
si Esta ms por lalasuma
probabilidad
distante dede
probabilidad
puede
E(U)rangos bajoobservada
calcularse
que H de
el valor teniendoen la primera
obtener
observado enuna suma
cuenta
u; es muestra,
debajo
que
decir, el la
rangos valor
tanto o ms
hiptesis
P = 2P(U 0 u | H0),
distante de E(U) que el valor observado u; es decir,
P = 2P(U
exacto u | H0), determinado por la probabilidad bajo H de obtener una suma de
P vendra
nula dede igualdad de distribuciones, cualquier combinacin de0 rangos en la primera
P = 2P(U u | H0),
si u > E(U), o alternativamente
a probabilidad puede rangos
si umuestra
E(U), tanto
> calcularse oteniendo
ms distante
eso igualmente
alternativamente probable.
en de E(U)
cuenta queque
As, como
bajo ellavalor
elhiptesis
nmero observado u; es decir, de los n1 + n2
de combinaciones
si u > E(U), o alternativamente
P = 2P(U u | H0),
de distribuciones, cualquier combinacin de rangos Pen=la2P(U n1 +n 2u| H0),
primera
si uposibles
E(U). rangos tomados depuede
Esta probabilidad n1 es
n1 en calcularse , la probabilidad
en cuenta quebajo bajoHla0 para
P = 2P(U nteniendo
1 u| H0),
hiptesis nula de
si u
igualdad E(U).
de Esta
distribuciones,probabilidad
cualquier
mente probable. As, como el nmero de combinaciones de los n1 + n2 puede calcularse
combinacin de teniendo
rangos en
en cuenta
la primera que bajo
muestra laeshiptesis
igualmente
si u > E(U),
probable. As, como o alternativamente
el nmero de combinaciones de los n1 + n2 posibles rangos tomados de n1
cualquier
si u de
nula E(U). combinacin
igualdadEsta de r1, ..., rpuede
probabilidad
distribuciones, n1 viene dada por
calcularse
cualquier teniendo endecuenta
combinacin rangos que
enbajo la hiptesis
la primera
n1 + n 2
tomados de n1 en n es
en n11 , la probabilidad bajo H para
bajo H00 para cualquier combinacin r1, ..., rn viene dada por
n1 P = 2P(U u | H0), 1

muestra es igualmente
nula de igualdad de distribuciones, probable. As, como1elcombinacin
cualquier nmero de combinacionesde rangos en ladeprimeralos n1 + n2
.
nacin r1, ..., rn1 viene n1 + n 2
si u dada
muestra E(U).espor Esta probabilidad
igualmente probable. puede
As, calcularse 2teniendo
n1 +elnnmero
como de en cuenta que bajo
combinaciones la hiptesis
de los n1 + n2
posibles rangos tomados de n1 en n1 es n1 , la probabilidad bajo H0 para
nula de igualdad de distribuciones, n1 combinacin
cualquier de rangos en la primera
El clculo 1
del valor exacto de P se ilustra en nel n2
1 +siguiente ejemplo.
posibles rangos. tomados de n1 en n1 es , la probabilidad bajo H0 para
El clculo

cualquier del
n 2 valor exacto
n1 +combinacin r , de
..., P
r se ilustra
viene
dadaen n el
1por siguiente
ejemplo.
muestra
es igualmente probable.
1 n1
As, como el nmero de combinaciones de los n1 + n2
n 1
cualquier combinacin r1, ..., rn1 viene dada 27 27
n1 1+porn2
posibles rangos tomados de n1 en n1 es ., la probabilidad bajo H0 para
alor exacto de P se ilustra en el siguiente ejemplo. n1 +n1n 2 5 R. 123
Pastor-Barriuso
1
n1 .
cualquier combinacin r1, ..., rn1 viene dada n1 + porn2

Ejemplo 8.2 Si la distribucin del -caroteno fuera igual en los casos de infarto y
10(10 + 10 + 1)
E(U) = = 105.
en los controles libres de enfermedad, la 2suma de rangos esperada en los 10 casos
Como el valor observado de esta suma de rangos u = 96,5 es inferior al esperado,
Mtodos no paramtricos
Ejemplo 8.2 Si la distribucin del -caroteno fuera igual en los casos de infarto y
de
Como infarto
el valor del
el Pvalor ejemplo
observado
se obtiene anterior sera
de esta
mediante sumaigual a
de rangos u = 96,5 es inferior al esperado,
en los controles libres de enfermedad, la suma de rangos esperada en los 10 casos
Ejemplo
el valor P8.2 Si la distribucin
se obtiene mediante del10b-caroteno fuera igual en los casos de infarto y en los
controles + 10
(10 de +961) esperada en los 10 casos de infarto del
de infartolibres de enfermedad,
del ejemplo anterior
P = 2PE(U) la suma
sera igual arangos
= | H0) = 2 P=(U105.
(U 96,5 = k | H0).
ejemplo anterior sera igual a 2 k =55
96
P = 2P(U 96,5
E(U) =
10| (H
100)+=102 + 1)P(U = k | H 0 ) .
Como el valor
Notar que observado
la suma arrancadeenesta sumamnimo
el valor de rangos
k = 55 u==105.
posible 96,5
1 + 2es+inferior
... + 10al= esperado,
55 y slo
2
Como
el valor
Notar elPvalor
que observado
se suma
la obtiene de
enesta
mediante
arranca sumamnimo
el valor de rangos u = 96,5
posible es
2 +inferior
1 + facilitar 10alclculos).
... + los =esperado, el valor
55 y sloLa
toma valores enteros (se excluyen posibles empates para
Como
P el valor
se obtiene observado de esta suma de rangos u = 96,5 es inferior al esperado,
mediante
toma valores enteros
probabilidad bajo H0(se excluyen
para posibles
cualquier empates
combinacin
96 depara facilitar
rangos en lalos clculos).
primera La
muestra
el valor P se obtiene = 2P(U 96,5 | H0) = 2 P(U = k | H 0 ) .
P mediante
k = 55
probabilidad
es bajo H0 para cualquier combinacin de rangos en la primera muestra
Notar que la suma arranca en el valor mnimo96posible 1 + 2 + ... + 10 = 55 y slo toma
Notar que
valores
es la suma
enteros P = 2P(en
(se arranca
excluyen Uposibles
el96,5 H 0) = 2
valor| empates
mnimo P(facilitar
U =1 k+| 2Hlos
posible
para +0 )...
. + 10 = 55
clculos). Layprobabilidad
slo
1 10! (20 10)!k =55 1
bajo H0 para cualquier combinacin = de rangos en = la primera , muestra es
20
toma valores enteros (se excluyen 20! empates 184para
.756 facilitar los clculos). La
1 10posibles
! (20 10)! 1
Notar que la suma arranca 10 en el= valor mnimo =posible 1 +, 2 + ... + 10 = 55 y slo
20
probabilidad bajo H0 para cualquier 20!
combinacin 184
de.756rangos en la primera muestra

toma valores enteros (se excluyen
10 posibles empates para facilitar los clculos). La
de
es lo cual se sigue que
de lo cual se sigue
probabilidad bajo Hque
0 para cualquier combinacin de rangos en la primera muestra
de lo cual se sigue que
P(U = 55 | H0) = P(1, 1 2,10 3,! 4,
(205,6,107, 1 | H0) = 1/184.756,
)! 8, 9, 10
es = = ,
P(U = 56 | H0) =P(1, 20 2, 3, 4,20 5,!6, 7, 8, 184
9, 11.756| H0) = 1/184.756,
P(U = 55 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 10 | H0) = 1/184.756,
P(U = 57 | H0) =P(1, 10 3, 4, 5, 6, 7, 8, 9, 12 | H )
1 2,10 ! (20 10)! 1 0
P(U = 56 | H0) =+P(1, =
2, 3, 4, 5, = ,
| H ) = 1/184.756,
P(1,
20 2, 3, 4,20 5,!6,
6,7,7,8,8,9,
10,11.11
184 756| 0H0) = 2/184.756

de lo cual se sigue que 10
y as sucesivamente. ComoP(1,
P(U = 57 | H 0 ) = puede 2, 3, 8, 9, 12 | H0) resulta muy laborioso incluso
4, 5, 6,el7,procedimiento
intuirse,
para estas pequeas muestras de tamao 10, ya que requiere determinar el nmero de
P(U = con
combinaciones H0) =
55 | igual P(1, 2,
+suma de3,rangos.
4, 5, 6, 7, 8, 9,
10,10 H|H
11|mltiples
0)0)==1/184.756,
2/184.756
de lo sucesivamente.
y as cual se sigue queComo puede intuirse,Despus de
el procedimiento clculos,
resulta se tiene que
muy laborioso
96

yincluso
P(U P = 256
as sucesivamente.
para
| HP0()U= =P(1,
Como kpuede| H2,0 3, =4,2(1
5, 6,
)intuirse, 17,+
+ el 8,29,+ 11 +| H
...ya
procedimiento 0) = 1/184.756,
4.397)/184.756
resulta muydeterminar
laborioso
P(Uestas
= 55k =pequeas
|55H0) = P(1, muestras
2, 3, 4, de tamao
5, 6, 10,10
7, 8, 9, |H que se requiere
0) = 1/184.756,
P(U = 57 | H0) = P(1, 2,= 3,
= 97.708/184.756 4, 5, 6, 7, 8, 9, 12 | H0)
0,529.
incluso paradeestas
el nmero pequeas muestras de tamao 10, ya que se requiere determinar
P(U =combinaciones
56 | H0) = P(1,con igual
2, 3, 4, 5,suma
6, 7,de8, rangos.
9, 11 | HDespus de mltiples
0) = 1/184.756,
Aunque los casos de infarto muestran
+ P(1, 2, 3, 4, niveles
5, 6, 7, 8, inferiores
10, 11 | de H0)b-caroteno
= 2/184.756 que los controles
el nmerose
clculos, detiene
combinaciones
que con igual suma de rangos. Despus de mltiples
(la suma P(U
de rangos
= 57 | H observada
0) = P(1, 2,en3,los casos
4, 5, 6, 7,es8,menor
9, 12 | queH0) la esperada), no se alcanzan
Aunque los casos
diferencias de infarto muestran
estadsticamente niveles inferiores
significativas. No obstante, de -caroteno
dado el que los
reducido tamao
se tiene que Como puede intuirse, el procedimiento resulta muy laborioso6
y as sucesivamente.
clculos,
muestral, cabe esperar que la potencia
+ P(1, 2, 3, 4, 5,de6,este7, 8,contraste
10, 11 | H sea
0) =muy pequea para detectar
2/184.756
controles
cualquier (la sumadiferencia
posible de rangos en observada
los niveles en los casos es menor
subyacentes que la esperada),
de b-caroteno entre los no
casos de
6
incluso para estas pequeas muestras de tamao 10, ya que se requiere determinar
infarto y los sujetos libres de la enfermedad.
y as
se sucesivamente.
alcanzan diferencias Como puede intuirse,
estadsticamente el procedimiento
significativas. resulta muy
No obstante, dadolaborioso
el
el nmero de combinaciones con igual suma de rangos. Despus de mltiples
Para simplificar
incluso
reducido para
tamao los clculos
estas pequeas
muestral, decabe
esteesperar
test, la
muestras Tabla
deque la8potencia
tamao del
10,Apndice
ya que sefacilita
de este losdeterminar
requiere
contraste percentiles
sea muy de la
distribucin de la suma de
clculos, se tiene que rangos de Wilcoxon bajo la hiptesis nula de igualdad de distribuciones,
cuando el la menor
nmero
pequea dede
para las doscualquier
combinaciones
detectar muestras es desuma
conposible
igual tamao inferior
de rangos.
diferencia o igualsubyacentes
en losDespus
niveles a mltiples
de 8. Para un de nivel de
significacin bilateral, la hiptesis nula se rechazar si la suma de rangos en la muestra 6 de
menorclculos,
tamao es
-caroteno inferior
seentre
tienelos
que al percentil
casos /2 oysuperior
de infarto los sujetosal percentil /2 de dicha tabla.
libres de1la enfermedad.
6
Para simplificar los clculos de este test, la Tabla 8 del Apndice facilita los

124 percentiles
Pastor-Barriusode
R. la distribucin de la suma de rangos de Wilcoxon bajo la hiptesis nula

de igualdad de distribuciones, cuando la menor de las dos muestras es de tamao


Ejemplo 8.3 En un estudio hipottico a partir de dos muestras independientes de
Test de la suma de rangos de Wilcoxon

tamaos n1 = 5 y n2 = 10, la suma de rangos en la muestra ms pequea es 23.

Ejemplo 8.3 En unbajo


Como la distribucin estudio
H0 dehipottico
la suma dea rangos
partir es
de simtrica
dos muestras independientes
alrededor de E(U) de
En el cason1de
tamaos 5 y nambos
= que 2 = 10, la suma
tamaos de rangos
muestrales en la
sean muestra
superioresms
a pequea
8, puede es 23. Como
emplearse el la
distribucin
= n1(n1 + n2 bajo H0=de5(5
+ 1)/2 la +
suma
10 +de1)/2
rangos esse
= 40, simtrica
tiene quealrededor de E(U) = n1(n1 + n2 + 1)/2
=En5(5
el +
siguiente caso
10 de que
+ 1)/2
mtodo =ambos
40, setamaos
aproximado. tiene
Comoquemuestrales
el contrastesean
parasuperiores
la igualdada de
8, puede emplearse
distribuciones se el
En el caso
siguiente de que ambos P =tamaos2P(U 23muestrales
H0) = 2P(U
el |contraste sean
parasuperiores | H ). a 8,
57igualdad depuede emplearse el
basa en el mtodo
rango o aproximado.
posicin de las Como observaciones, resulta la lcito0 sustituir distribuciones
los valores se
En el caso de
Utilizando
siguiente que
la Tabla ambos
8 del tamaos
Apndice muestrales
elcon n1 = 5sean n2 superiores
ypara =la10, puedea 8, depuede
comprobarse emplearse
que el seelvalor
basa en elmtodo
Utilizando
observados rango
x la
por oaproximado.
posicin
Tabla
sus 8 del de
Apndice
correspondientes
Como
las con
contraste
observaciones,
rangos n =r 5 resulta
y
en n
el =
igualdad
lcito
10, puede
estadstico sustituir
de
distribuciones
t los
comprobarse
la de valores
que
Student para
u = 57 esti comprendido entre los percentiles 1 i u0,975 2 56 y u0,99 = 58, de lo cual se deduce
siguiente
la en
basa mtodo
desigualdad
el rango aproximado.
o0,01 < P(U
posicin delas Como el contraste
| H0) < 0,025, que
57observaciones, para
resulta la igualdad
corresponde
lcito sustituir ade0,02
distribuciones
< 0,05.se
< Pvalores
observados
el valor
muestras ux=i por
57 sus
estcorrespondientes
independientes comprendido
con igual varianza entre rangos los(Apartado ri en
percentiles el estadstico
6.3.1), = 56dey la
u0,975 obtenindose tlos
u0,99 de Student
= 58, de lo para
basa en el rango
observados xi poro sus
posicin de las observaciones,
correspondientes rangos ri en resulta lcito sustituir
el estadstico de la tlosde valores
Student para
muestras
En el caso independientes
de que ambos con
tamaos
cual se deduce la desigualdad 0,01 < P(U igual varianza
muestrales (Apartado
sean 57 superiores
| H ) 6.3.1),
< a
0,025,8, obtenindose
puede
que emplearse
corresponde elasiguiente
mtodo aproximado. Como el contraste para la r1 igualdad
r2 0
de distribuciones
observados xi por sus correspondientes
muestras independientes con igual varianza z = rangos ri en el, estadstico
(Apartado de la t de Studentelpara
6.3.1), obtenindose
se basa en rango o
posicin
0,02de < Plas< 0,05.
observaciones, resulta lcito 1 1 los valores observados xi por sus
s r r1 sustituir +r2
correspondientes rangos ri encon
muestras independientes el estadstico
igual varianza z = de lan(Apartado t denStudent , paraobtenindose
6.3.1), muestras independientes con
r 11 r 12 7
igual varianza (Apartado 6.3.1), obtenindose s 1 + 2
z = r n1 n 2 ,
donde la diferencia de rangos medios ess r r1 1 r+2 1
z= n1 n 2 ,
1 1
donde la diferencia de rangos medios ess r +
1 n1
1 n2
n1 n 2
r
donde la diferencia de rangos
1 r2 =
n1 i =medios
r i
n 2esjn=21
r j

donde la diferencia de rangos medios 1 n11


es 1
donde la diferenciar1 de rrangos
2 =
n11 in=11
n
medios
1
ri es r j
n12 nj (=2 1n1 + n 2 )(n1 + n 2 + 1) n1
1 1
r1 r2 = n
=
r
rii n r j 2
ri
n11 in=11
1 i =n 1
1 n12 nj =2(1n1 + n 2 )(n1 + n 2 + 1) i =n11
2
1 1
r1 r2 = = r
rii n1 rj ri
nn1111 ii=n=111 1 nn122 j =(1n1 +n1n(2n)( 1 n+21 n+2 n+21+ ) 1) in=11
== + ri ri ri
nn111 n 2 ni2=n11 2
1 in=11 1 1 (n1 +nn1 (2n)(1 n2+1 n+2n+2 1+)1) in=11
== n+rin ri 2
ri

111i =1 12 n2in=11
n n1 (n1 + n 2 + 1)
2
i =1
y, si no hay empates, la varianza = + de los rangos ri en la muestra combinada es
n n 2
11 12 in=11 n1 (n1 + n 2 + 1)
y, si no hay empates, la = varianza
+ delos rangosri en la muestra combinada es
y, si no hay empates, la varianza 2 n1 de nlos 21rangos n1 + n2
en la muestra 2
combinada es

i =1
y, si no hay empates, la varianza s r = de los rangos (ri en rla) 2muestra combinada es
n1 + n 2 1 ni1=+1n2
1
y, si no hay empates, la varianza s 2
r = (ren i la
n1 + 1n 2 1 n1i+=n12 n1 + n 2 + 1combinada
de los rangos
n + n
2
r )muestra 2 es
1
1 2

s r2 == n + n 1 (rii r ) 2 2
n1 + 1n 2 1 n1i+=n12 n1 + n 2 + 1 2
1 2 n i =+1n
1
1 2

s r2 == (n + n )(n (r i r ) 2
n111++ nn222111n1ii=++=1n12n2i + 1) 2

2
= n 1 n1. + n 2 + 1
= 12 i
n(n1 1++nn2 2)(1nn11i+=+n12 n2 + 1) 2
n1 .+ n 2 + 1
2
= 1
= 12 i
Sustituyendo en la expresin=anterior, n(n1 1++nn2 2se )(1ntiene
1i =+ 1 n 2 + 1) 2
.
Sustituyendo en la expresin anterior, se tiene 12
Sustituyendo en la expresin= anterior, (n1 + n 2 )(sen1tiene + n 2 + 1)
.
n1
n1 (n12 1 + n 2 + 1)
Sustituyendo en la expresin ri se tiene
anterior, 2 U E (U )
z= i =n11
n1 (n1 + n 2 + 1) = ,
Sustituyendo en la expresin nri1 n2 (n1se+tiene
anterior, n 2 + 1)
2
SE (U )
U E (U )
z = in=11 n1 (12 n1 + n 2 + 1) = ,
rni 1n 2 (n1 + n 2 + 1)
2
SE (U )
U E (U )
z = in=11 n1 (n12 1 + n 2 + 1) = ,
rni 1n 2 (n1 + n 2 + 1)
2
SE (U )
U E (U )
z = i =1 12 = , Pastor-Barriuso R. 125
n1 n 2 (n1 + n 2 + 1) SE (U ) 8
12
8
Las medidas
Las medidas
de tendencia
de tendencia
central
central
informan
informan
acercaacerca
de cul
de es
cul
el valor
es el valor
ms representati
ms represe

Mtodos no paramtricos de una


dedeterminada
una determinada
variable
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
equivalente,
estos estos
estimadores
estimadores
indican
ind

alrededor
alrededor
de qu devalor
qu valor
se agrupan
se agrupan
los datos
los datos
observados.
observados.
Las medidas
Las medidas
de tendencia
de tendenc
que corresponde simplemente a la suma de rangos estandarizada; es decir, la diferencia entre la
suma de rangos observada central
central
de la de
y esperada muestra
enlalamuestra
sirvensirven
primera tanto tanto
muestrapara resumir
para resumir
dividida lossuresultados
por los resultados
error observados
estndar observados
bajo comocomo
para p
la hiptesis nula de igualdad de distribuciones. Bajo H0, este estadstico seguir aproximadamente
una distribucin normalrealizar realizar
inferencias
estandarizada inferencias
si n1,acercaacerca
n2 > 8. de losdeparmetros
Notar los en
que, parmetros
poblacionales
general, poblacionales
este tamaocorrespondientes.
correspondientes.
muestral A A
es muy inferior al que se requerira para aplicar la prueba paramtrica de la t de Student en dos
muestras independientes. continuacin
continuacin
se describen
se describen
los principales
los principales
estimadores
estimadores
de la de
tendencia
la tendencia
central
central
de unade

variable.
Ejemplo 8.4 A partir variable.
del estudio EURAMIC, se seleccionan 1000 muestras aleatorias
simples de n1 = 10 casos de infarto de miocardio y n2 = 10 controles. En cada una de estas
muestras, se calcula1.2.1
la diferencia
1.2.1
Media de niveles
Media
aritmtica medios de b-caroteno entre casos y controles, as
aritmtica
como la suma de rangos para los casos de infarto. Las Figuras 8.1(a) y (b) presentan las
La media
distribuciones muestrales Lademedia
aritmtica,
aritmtica,
la diferenciadenotada por xpor
dedenotada
medias se xdefine
1, 2, y
sede
define
como como
la suma
la suma delarangos
suma
de cada U,uno
de cadadeuno
losde los
respectivamente. Como la distribucin poblacional del b-caroteno es marcadamente asimtrica
(ver Figura 4.3) yvalores
las muestras
valores son muy
muestrales
muestrales pequeas,
dividida
dividida lanmero
por elpor diferencia
el nmero dedemedias
de observaciones muestrales
observaciones realizadas.se Si denotamos
realizadas. Si denota
distribuye de forma asimtrica alrededor de la diferencia subyacente 1 2 = 0,09 mg/g, de
tal forma que no sepor npor
cumple lan condicin
el tamao
el tamao
muestral
de y poryxipor
muestral
normalidad xi el valor
elnecesaria
valor observado
observado
para paraelel
aplicar para
testsujeto
el la
de i-simo,
t de i-simo,
sujeto i = 1,i...,
= 1,n
Student. Por el contrario, la suma de rangos s se distribuye de forma aproximadamente normal
en torno a su valorlaesperado
media
la media
vendra vendra
en esta dada dada
por E(U)
poblacin por = 96,9. As, aun cuando se disponga de
muestras tan reducidas, se podra aplicar la aproximacin normal al test de la suma de rangos
de Wilcoxon. 1 n 1 n x1 + xx21 ++ ... x 2++x...
n + xn
x = x = xi
= xi = . .
n i =1 n i =1 n n
30 30
La media
La media
es la medida
es la medida
de tendencia
de tendencia
central
central
ms utilizada
ms utilizada
y de ms
y defcil
ms fcil
Frecuencia relativa (%)

25 25
1.2 MEDIDAS
1.2 MEDIDASDE TENDENCIA
DE TENDENCIA CENTRALCENTRAL
20 interpretacin.
interpretacin.
Corresponde
Corresponde al centro
20 al centro
de gravedad
de gravedad de losdedatoslos datos
de la demuestra.
la muestra.
Su S
Las medidas
Las medidas
de tendencia
de tendencia
centralcentral
informan
informan
acercaacerca
de cul
dees
cul
el valor
es el valor
ms repres
ms
15 15
principal
principal
limitacin
limitacin
es quees est
quemuyest influenciada
muyvariable
de unadedeterminada
una determinada
influenciadapor
variable
o, dicho
los
porvalores
o, dicho
de forma
losequivalente,
valores
de forma
extremos
extremos
equivalente,
y, enestimado
estos estos
y,
este
estimadores
enin
10 10
caso, caso,
puedepuede
no sernounser
fielunalrededor
reflejo
fielalrededor
reflejo
de ladede
de qu tendencia
lavalor
valor
qu setendencia
secentral
agrupan los central
agrupan dedatos
datos
los la de
distribucin.
la distribucin.
observados.
observados.
Las medidas
Las medidas
de tenden
de te
5 5
centralcentral
de la muestra
de la muestra
sirvensirven
tanto tanto
para resumir
para resumir
los resultados
los resultados
observados
observados
como c
0 0
Ejemplo
Ejemplo
1.4 En
1.4este
Enrealizar
yeste
enrealizar
los
y ensucesivos
los sucesivos
inferencias
inferencias ejemplos
acercaacerca ejemplos
de losde los sobre
parmetros sobre
estimadores
parmetros estimadores
poblacionales muestrales,
poblacionales muestr
correspondientes.
correspondien
A
-0,9 -0,6 -0,3 0 0,3 0,6 50 70 90 110 130 150
continuacin
continuacin
se describen
se describen
los principales
los principales
estimadores
estimadores
de la tendencia
de la tendencia
centralcent
de
xutilizarn
1 x2
utilizarn
los valores
los valores
del colesterol
del colesterol
HDL HDL
obtenidos
U obtenidos
en losen10los
primeros
10 primeros
sujetos
suje
d
variable.
variable.
estudio
(a) estudio
European StudyStudy
European on Antioxidants,
on Antioxidants,
Myocardial
(b) Myocardial
Infarction
Infarction
and Cancer
and Canc
of
1.2.1 1.2.1
MediaMedia
aritmtica
aritmtica
the Breast
the Breast
(EURAMIC),
(EURAMIC),
un estudio
un estudio
multicntrico
multicntrico
de casos
de casos
y controles
y controles
realizad
rea
Figura 8.1 Distribucin muestral de la diferencia de niveles La medios
La media media de denotada
aritmtica, -caroteno
aritmtica, 1
por xpor
denotada 2 entre casos y
, se xdefine
, se define
como como
la suma
la suma
de cada
de uno
cadadeuno
lo
controles (a) y de la suma de rangos U en los casos de infarto (b) en 1000 muestras aleatorias Figura simples
8.1 de
entre
n1 = 10 casos de infarto de miocardio y nentre
1991 1991
y 1992
y 1992
en ocho
en
valores ocho
pases
valores pases
muestrales Europeos
muestrales Europeos
dividida e por
dividida
por el Israel
elenmero
nmero Israel
para evaluar
para evaluar
de observaciones
2 = 10 controles obtenidos a partir del estudio EURAMIC. Las lneas
de elrealizadas.
observacionesefecto
el efecto
de los
realizadas. Sid
Si deno
verticales en trazo discontinuo corresponden a los parmetros subyacentes 1 2 = 0,09 g/g y E(U) = 96,9.
por n por n el tamao
el tamao muestral y por yxi por
muestral xi el valor
el valor observado
observado
para elpara
sujeto i-simo,
el sujeto i-simo
i=1

la media
la media
vendra
vendra
dada por
dada por

1 n 1 n x1 + xx21 ++...x 2+ +x n... + x n


x = x= x i
= xi = . .
n i =1 n i =1 n n

La media
La media
es la medida
es la medida
de tendencia
de tendencia
centralcentral
ms utilizada
ms utilizada
y de ms
y defcil
ms fci

interpretacin.
interpretacin.
Corresponde
Corresponde
al centro
al centro
de gravedad
de gravedad
de losde
datos
los datos
de la muestra.
de la mu
126 Pastor-Barriuso R. principal
principal
limitacin
limitacin
es queesest
quemuy
estinfluenciada
muy influenciada
por los
por
valores
los valores
extremos
extremos
y, en

caso, caso,
puedepuede
no serno
unser
fielunreflejo
fiel reflejo
de la tendencia
de la tendencia
centralcentral
de la distribucin.
de la distribucin
Si se producen empates en la asignacin T
de rangos en la muestra combinada, la

varianza de la suma de rangos es



menor
t i (t i + 1)(t i 1)
que la obtenida en ausencia desuma
empates y el
Si se producen empates f = en la asignacin de rangos en la muestra
i = 1
,
Test de combinada,
la la
de rangos de Wilcoxon

(n1 + n 2 )(n1 + n 2 + 1)(n1 + n 2 1)


varianza de la suma de rangos de
estadstico del test de la suma es los
menor rangosque de Wilcoxonenresulta
la obtenida ausencia de empates y el
Sit se producendeempates
conestadstico enpara
la asignacin de rangos
i-simo laen la muestra combinada,
que, si nolahayvarianza de
i el nmero empates
del test de la suma el valor
de losn1 rangos de de variable.
Wilcoxon Notar
resulta
la suma de rangos es menor que la obtenida en ausencia de
n1 (n1 + n 2 + 1) empates y el estadstico del test de
la suma de
empates, f =los
0 yrangos de Wilcoxon
este estadstico
r
resulta al citado anteriormente.
se reduce
i
2 Finalmente, como la
z = in=11 n ( n + n + 1) ,
n1 nr2i (n1 +1 n 21 + 1)(2 1 f )
suma de rangos es un variable discreta que se aproxima mediante una distribucin
z = i =1 12 2 ,
n1 n 2 (n1 + n 2 + 1)(1 f )
normal continua, es frecuente aplicar la correccin por continuidad a estos estadsticos.
donde 12
La versin con correccin por continuidad del test de la suma de rangos de Wilcoxon
donde
donde T
(con o sin empates) se presenta en la Tabla i =1
t8.2.
i (t i + 1)(t i 1)

f = T ,
(n1 + n 2 )(nt1i (+t i n+2 1+)(1t)( n + n 1)

[Tabla 8.2 aproximadamente
i =1
i 1)
1 2
aqu]
con ti el nmero de empates fpara = el valor i-simo de la variable. Notar , que, si no hay empates,
f =con
0 y teste estadstico ( n
se reducepara1 + n 2 )( n1 + n 2 + 1)( n1 + n 2 1)
al citado anteriormente.
i el nmero de empates el valor i-simo de la Finalmente,
variable. Notarcomo la si
que, suma de rangos
no hay
es una variable discreta que se aproxima mediante una distribucin normal continua, es frecuente
aplicar
con tilael correccin
empates,
Ejemplo f = 8.5
nmero0 y Como
esteporlacontinuidad
estadstico
de empates paraseel
muestra a estos
dereduce
casos
valor al estadsticos.
citado
y controles
i-simo laLa
deanteriormente.
lade Tabla
variable. versin con
n1 =sicorreccin
Finalmente,
8.1
Notares
que, 10 la por
2como
nno =hay
continuidad del test de la suma de rangos de Wilcoxon (con o sin empates) se presenta en la
Tabla
suma>8.2.
empates,8,depuede
rangos y es unestadstico
variable
f = 0 aplicarse
este discreta
la aproximacin
se reduce que alsecitado
normal aproxima mediante
a laanteriormente.
suma de rangosunaUdistribucin
= 96,5 en
Finalmente, los la
como

normal
suma decontinua,
Ejemplo
casos 8.5eses
de infarto.
rangos Como
unfrecuente
Bajo
variable aplicar
lalamuestra
hiptesis
discreta lacasos
denula correccin
que deseyuna por continuidad
misma
controles
aproxima distribucin
de la Tabla
mediante a8.1
una estos
deles nestadsticos.
1 = n2 = 10 > 8,
-caroteno
distribucin
puede aplicarse la aproximacin normal a la suma de rangos U = 96,5 en los casos de
La en
versin
infarto.
normal con
Bajo
continua,
casos correccin
la el por
es hiptesis
frecuente
y controles, continuidad
10nula
aplicar
valor dela+una
esperado
10 (10 +del
correccin
10 de )(test
misma
1esta 0de
1 suma por lacontinuidad
,00075 suma
de ) dedel
distribucin
rangos rangos de estadsticos.
ab-caroteno
seraestos Wilcoxon
en casos y
var(U) =
controles, el valor esperado de esta suma = 174,87,
12de rangos sera
(con
La o sin empates)
versin se presenta
con correccin en la Tabladel
por continuidad 8.2.test de la suma de rangos de Wilcoxon
10(10 + 10 + 1)
E(U) = = 105
(condonde
o sin empates) se presenta en la Tabla 2
8.2.
10 10(10 + 10 + 1)(1 0,00075)
y su varianza var(U) = [Tabla 8.2 aproximadamente aqu] = 174,87,
12
y su varianza 102(10 (2 ++ 110
)(2+1)( 1)1 0,00075)
f = = 10
var(U) [Tabla 8.2 aproximadamente aqu] = 0,00075
(10 + 10)(10 + 10 +12 1)(10 + 10 1) = 174,87, 10
donde
Ejemplo 8.5 Como la muestra de casos y controles de la Tabla 8.1 es n1 = n2 = 10
donde
es el
donde
> 8,factor
puededeaplicarse
correccin de
lamuestrala 2varianza
aproximacin (2de+ casos debido
y1)controles
1)(2normal aa la
la presencia
suma de t1 =U2 = 96,5 en los
deTabla
rangos
Ejemplo 8.5 Comof= la = 0,00075 8.1 es n1 = n2 = 10
de la
(10 + 10)(10 + 10 + 1)(10 + 10 1)
observaciones
casos
> 8, puede
empatadas
de infarto. para 2el(2valor
Bajolalaaproximacin
aplicarse hiptesis )(20,13
+ 1nula de1)una
normal
g/g.misma
Por tanto, el estadstico
a la sumadistribucin
de rangos Udel de
= 96,5
la
-caroteno
en los
f =
es el factor de correccin de la varianza debido a la presencia de t1 = 2 observaciones = 0,00075
suma de rangos de (10 + 10)(con 10 +correccin
10 + 1)(10 por + 10continuidad
1)
empatadas
es casos
el factor
en casos para
de
y el Wilcoxon
valorel0,13
correccin
controles, de la
valor mg/g.
varianza Pordebido
esperado tanto,
de esta elsuma
a la estadstico
presencia esde tsera
de
dedistribucin
rangos 1la=suma de rangos de
2 -caroteno
de infarto. Bajo la hiptesis nula una misma del
Wilcoxon con correccin por continuidad es
observaciones
es el
enfactor
casos de empatadas
correccin
y controles, para
elde el valor
la| varianza
96 ,5 10 0,13
105 | +1esta
debido /g/g. laPor
2a+suma tanto, elde
presencia estadstico
t1 = 2 de la
zvalor
=E(U esperado
) = 174,87
(10de 10 =1)0,60,de rangos sera
= 105
suma de rangosempatadas
observaciones de Wilcoxon paracon correccin
el valor 0,13 2por
g/g.continuidad
Por tanto, elesestadstico de la
que corresponde a un valor PE(=U2P(Z 10(10 + 10 + 1)
) = 0,60) = 2{1=105 F(0,60)} = 0,549 a partir de la
suma sudevarianza
distribucin rangos
quey corresponde de
normal Wilcoxon
a un valor P con
estandarizada =| 962Pcorreccin
de
( Z la
Tabla
0,60) 2por
=3 2{1continuidad
del Apndice.
- (0,60)} esEste
= 0,549valor aproximado
a partir de de
,5 105 | 1 / 2
z = = 0,60,
P es muy similar al valor exacto calculado en el Ejemplo 8.2, no habiendo as suficiente
evidencia para rechazar la hiptesis 174 ,87 10
la distribucin
y su varianza normal estandarizada | 96,5 de de igualdad
105 1 / 2de
la| Tabla distribuciones
3 del Apndice. Este del nivel
valorde b-caroteno
en los casos de infarto de miocardio z= y los sujetos =libres 0,60,de la enfermedad.
aproximado de P aesunmuy similar 174 ,87 10
que corresponde valor P = 2al P(valor
Z 0,60)exacto = 2{1calculado en el=Ejemplo
- (0,60)} 0,549 a 8.2,
partirnode

habiendo
que as suficiente
la distribucin
corresponde normal evidencia
a un valor P = 2Ppara
estandarizada rechazar
(Z de la Tabla
0,60) la3 hiptesis
= 2{1 del de igualdad
- Apndice.
(0,60)} ade
Este valor
= 0,549 partir de
Pastor-Barriuso R. 127
distribuciones
aproximado
la dedel
distribucin nivel
P es
normalmuy -caroteno
desimilar deenlalos
al valor
estandarizada casos
exacto
Tabla de infarto
calculado
3 del en de miocardio
el Ejemplo
Apndice. y los
8.2,
Este valor no

sujetos
habiendolibres
aproximado dePlaesenfermedad.
asde
suficiente
muyevidencia
similar alpara rechazar
valor exacto la hiptesisendeeligualdad
calculado Ejemplode
8.2, no
128
Pastor-Barriuso R.
Mtodos no paramtricos

Tabla 8.2
Tabla
Tabla
Tabla Estadsticos
8.28.2
8.2 Estadsticos
Estadsticos
Estadsticos para
para
para
para el
el test test
de
eleltest
test de
la la
suma
dedela suma
sumasuma
la de de
rangos
deyrangos
de rangosde
rangos los
yy de de
rangos
de los
los los
y rangos rangos
concon
rangos signo
signo
con de
decon
signo Wilcoxon
signo con
de Wilcoxon
Wilcoxon Wilcoxon
decon
correccin
con con
correccin
por
correccin correccin
por continuidad.
continuidad.
por continuidad.por continuidad.
Tabla
Tabla 8.28.2 Estadsticos
Estadsticos para
para el test
el test de de la suma
la suma de de rangos
rangos y de
y de loslos rangos
rangos concon signo
signo de de Wilcoxon
Wilcoxon concon correccin
correccin porpor continuidad.
continuidad.
SinSin
Sin empates
empates
empates Con
Con Con empates
empates
empates
Con empates
SinSin empates
empates Con
Con empates
empates
n1 nn11 n1 nn11
n1 (n11(+n1n1 +2 +n212)+ 1) 1 1 1
n (n11(+n1n1 +2 +n212)+ 1) 1 1
n1 n1 n1 n1
i i
+ n +1) 1 + n +1) 1
ii 1
rrrn(nn ((+nnn+ 1 1 2
+n 1)+ 1) 1 12 ii 1
rrrn(nn ((+nnn+ 1 1 2
+n 1)+ 1) 1 1 2
r r 2 22
i =1 ii=i=11 i 2 22 r r 2 22
i =1 ii=i=11 i 2 22
deTest
TestTest
Test de
ladesuma
la la
desuma rangos
de de
ladesuma
suma rangos
de rangos
rangos =
z =zz = i =1 i =1 2 2 2 2 =
z =zz = i =1 i =1 2 2 2 2
Test
Test de de la suma
la suma de de rangos
rangos z =z = 1
n nn2n(11nn212(+
(nn1n+2++nn21)++11)) 1 2 11 212
z =z =n nnn(nn (+
(nn1n+2++nn21)(
++111)(
)(11f) ff ))
1
n nn2 1(n21 (+n11n+2 +n221)+ 1) 1 2 1 21
n nn(n (+n11n+2 +n221)( +11)(1f) f )
12 12 12 12 12 12
12 12 12 12
T TT
T T

t i iii
(ttt (+(tt1)( ii i ii
++t11)()(tt1)11))
ii i i
t (tt (+t 1)(
i =1 ii=i=11
i+ t1)(t 1) 1)
concon
con
f =ff == i =1 i =1
conconf =f(n=1((+nn n++)( 2 n
11 2 221
nnn)()(+nn11n++ +n221)(
++n11)(
1)(+ 2 n
nn11n++ n21)11))
(n1(+ n n+ )(
n n)(+ 1 2 21
n1n+2 n+21)( 1 +
+ n1)( n1n+2 n221) 1)
m mm m mm
m m
n(nnn+((n1n)++11))1 11 m
n(nn+(n1)+ 11))1 11
i
r (nn+(n1)+1) 1 1 r mr n( n +
i rriin riin(nn+(n1)+ 1) 1 1
=1
i ir
=i=11ri 4 4
i 4 2 22 =1 iri=i=11ri 4 4 4 2 22
Test
Test de de
Test los
de los
los rangos
rangos concon
rangos con signo
signo
signo i =1 i =1
z =zz == 4 4 2 2 i =1 i =1
z =zz ==i 4 4 2 2
TestTestlos
deTest de
derangos
losloscon
rangossigno
rangos
concon signo
signo z =z = n(nnn+((n1n)( ++211)(
n)(2+2n1n)++11)) z =z =n(nnn+((nn1)( ++211)(
n)(2+2nn1)++11))f ff
n(nn+(n1)( + 21)(
n 2+n1)+ 1) n(nn+(n1)( + 21)(
n 2+n1)+1)f f
24 24 24 24 24 24
24 24 24 24
T TT
T T

t i (tttiii(+(tti1i )(
++t11i)()(tti1i )11))
=1
i t
ii=i=11(ttii (+t i1)(+ t1i)(t i1) 1)
concon
con
f =ff ==1 i =1
i=
conconf =f = 2 22
2 2

28 28
28
28 28
Test de los rangos con signo de Wilcoxon

El test de la suma de rangos de Wilcoxon es tambin conocido como el test de Mann-


Whitney. Aunque este ltimo se deriva siguiendo un procedimiento distinto, ambas pruebas de
hiptesis son completamente equivalentes, obtenindose el mismo valor P con cualquiera de
ellas. La comparacin no paramtrica de distribuciones continuas en ms de dos muestras
independientes se conoce como el test de Kruskal-Wallis. Este procedimiento es una
generalizacin del test de la suma de rangos de Wilcoxon y puede consultarse en los textos
sobre mtodos no paramtricos referenciados en este tema.

8.3 TEST DE LOS RANGOS CON SIGNO DE WILCOXON

En este apartado se describe el procedimiento de contraste no paramtrico equivalente al test de


la t de Student para muestras dependientes. Como se discuti en el Apartado 6.4, la prueba t
para datos emparejados permite comparar dos medias poblacionales a partir de las diferencias
observadas en cada pareja de datos dependientes. Esta prueba paramtrica requiere que el
nmero de parejas sea suficientemente grande para asegurar que la media de las diferencias se
distribuya de forma normal. En aquellas circunstancias donde se produzcan violaciones claras
de este supuesto de normalidad (particularmente cuando el nmero de parejas sea muy reducido),
resulta ms apropiado utilizar el test no paramtrico de los rangos con signo de Wilcoxon. Bajo
la asuncin de que la variable a estudio sea continua, este procedimiento permite contrastar si
las diferencias se distribuyen simtricamente alrededor de 0. La hiptesis nula establece, por
tanto, que las diferencias de cualquier magnitud a favor de los sujetos de una poblacin son
igualmente probables que a favor de los sujetos de la otra poblacin.
Con objeto de preservar el emparejamiento, se calculan las diferencias di en cada pareja de
datos dependientes. La asignacin de rangos a estas diferencias se realiza mediante el siguiente
procedimiento. En primer lugar, se excluyen las parejas donde di = 0 y se asignan rangos ri a las
restantes n diferencias no nulas, comenzando en 1 para la diferencia con menor valor absoluto
hasta n para aquella con mayor valor absoluto. Si existen diferencias con el mismo valor
absoluto (empates), se asigna a cada una de ellas la media de los rangos correspondientes.
Finalmente, a cada rango se le otorga el signo correspondiente a su diferencia. Estos rangos
con signo constituyen as una representacin estandarizada de las diferencias, que preserva
tanto el orden de magnitud como el signo de las mismas. El test de los rangos con signo de
Wilcoxon se basa en la suma de los rangos positivos (o, equivalentemente, de los rangos
negativos)
m
W= r,
i =1
i

donde m denota el nmero de rangos positivos.


donde m denota el nmero de rangos positivos.
Ejemplo 8.6 A partir del estudio EURAMIC, se seleccionan aleatoriamente 20 casos
de infarto de miocardio y 20 controles emparejados por grupos quinquenales de edad.
LosEjemplo
niveles 8.6 A partir delpara
de b-caroteno estudio EURAMIC,
estas 20 parejas se
deseleccionan aleatoriamente
casos y controles 20 en la
se presentan
Tabla 8.3. Una vez excluida la pareja con di = 0, el nmero efectivo de parejas es n = 19.
casosde
A partir deestas
infarto de miocardio
parejas y 20 controles
con diferencias no nulas, emparejados por grupos
se asignan rangos del 1 al 19 comenzando
en la menor diferencia absoluta 0,01 mg/g hasta la mayor diferencia absoluta 1,00 mg/g. A las
dosquinquenales de edad. Los
parejas con diferencia niveles
absoluta -caroteno
0,27demg/g para estas
se les otorga 20 parejas
el rango medio (9de+casos
10)/2 y= 9,5,
y a otras dos parejas con diferencia absoluta 0,38 mg/g se les asigna su rango medio
(12controles
+ 13)/2 =se12,5.
presentan en la Tabla
Finalmente, 8.3. un
se otorga Una vez positivo
signo excluidaalalos
pareja di = 0, el
concorrespondientes
rangos

nmero efectivo de parejas es n = 19. A partir de estas parejas con diferencias no

nulas, se asignan rangos del 1 al 19 comenzando en la menor diferencia Pastor-Barriuso


absoluta R. 129

0,01 g/g hasta la mayor diferencia absoluta 1,00 g/g. A las dos parejas con
otras dos parejas con diferencia absoluta 0,38 g/g se les asigna su rango medio
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos
correspondientes
Mtodos no paramtricos a diferencias positivas y un signo negativo a los rangos
correspondientes
correspondientes aa diferencias
diferenciasnegativas.
positivas La
y un signo
suma de negativo a los rangos
rangos positivos resulta

correspondientes a diferencias
a diferencias positivas y un
9
negativas.
signo La asuma
negativo de rangos
los rangos positivos resulta
correspondientes a diferencias
negativas. La suma de rangos positivos resulta
ri = 17 + 12,5 + ... + 3 = 91
i =91

r i =1
i = 17 + 12,5 + ... + 3 = 91
y la suma de rangos negativos
y la suma de rangos negativos
y la suma de rangos negativos
10

r
j =1
j = ( 4) + ( 14) + ... + ( 9,5) = 99.
10

En este ejemplo la suma r j = de


total (-4)los
+ (-14)
rangos+ absolutos
... + (-9,5)es= n(n
-99.+ 1)/2 = 1920/2 = 190. As,
En vez
una este determinada
ejemplo la sumaj =1
la sumatotal de
delos rangos
rangos absolutos91,
positivos n(nsuma
es la + 1)/2
de=rangos
1920/2negativos
= viene
dada por 91 190 = 99.
190. As, una vez determinada la suma de rangos positivos 91, la suma de rangos
En este ejemplo la suma total de los rangos absolutos es n(n + 1)/2 = 1920/2 =
negativos
Tabla 8.3viene dada por 91
-caroteno -tejido
190 = -99.
Tabla 8.3As,
190. -caroteno
una vezen tejidoen
adiposo
determinada
adiposo
en
la suma
eny20
20decasos
rangos
casos y controles
controles
positivos del
91,estudio
del estudio
la sumaEURAMIC
de rangos
EURAMIC
emparejados segnemparejados segn grupos
grupos quinquenales de edad.quinquenales de edad.
negativos viene dada por 91 - 190 = (g/g)
-caroteno -99.
-caroteno (g/g)
Diferencia Diferencia Rango Rango con
13
Pareja Caso Control (di) absoluta absoluto signo (ri)
Diferencia Diferencia Rango Rango con
Pareja 1 Caso0,47 0,55
Control 0,08
(di) 0,08
absoluta 4
absoluto 4 (ri)
signo
1 2 0,470,75 0,55
0,09 -0,08
0,66 0,08
0,66 17 4 17-4 13
2 3 0,750,78 0,09
0,40 0,66
0,38 0,66
0,38 17
12,5 17
12,5
3 4 0,780,66 0,40
0,13 0,38
0,53 0,38
0,53 1512,5 1512,5
4 5 0,660,09 0,13
0,49 0,53
0,40 0,53
0,40 1415 1415
5 6 0,090,20 0,49
0,31 -0,40
0,11 0,40
0,11 514 -14
5
6 7 0,200,08 0,31
0,28 -0,11
0,20 0,11
0,20 75 7-5
7 0,08 0,28 -0,20 0,20 7 -7
8 0,08 0,46 0,38 0,38 12,5 12,5
8 0,08 0,46 -0,38 0,38 12,5 -12,5
9
9 0,310,31 0,16
0,16 0,15
0,15 0,15
0,15 6
6 6
6
10
10 0,300,30 0,87
0,87 0,57
-0,57 0,57
0,57 16
16 16
-16
11 11 0,160,16 1,16
1,16 1,00
-1,00 1,00
1,00 1919 19
-19
12 12 0,130,13 0,13
0,13 00 00
13 13 0,060,06 0,37
0,37 0,31
-0,31 0,31
0,31 1111 11
-11
14 14 0,250,25 0,04
0,04 0,21
0,21 0,21
0,21 88 88
15 15 0,390,39 0,37
0,37 0,02
0,02 0,02
0,02 22 22
16 16 0,950,95 0,14
0,14 0,81
0,81 0,81
0,81 1818 1818
17 17 0,330,33 0,06
0,06 0,27
0,27 0,27
0,27 9,59,5 9,59,5
18 18 0,530,53 0,50
0,50 0,03
0,03 0,03
0,03 3 3 33
19 19 0,160,16 0,17
0,17 -0,01
0,01 0,01
0,01 11 1-1
20 20
0,230,23 0,50
0,50
-0,27
0,27
0,27
0,27 9,5
9,5 -9,5
9,5
99

SumaSuma
de rangos positivos rrii ==9191
positivos
de rangos
ii ==11

10
10

SumaSuma
de rangos negativos rrjj= =
negativos
de rangos -99
99
jj =
=1
1

130 Pastor-Barriuso R.
de 0, se esperara la misma suma de rangos
[Tabla 8.3 positivos que negativos
aqu] y, por consiguiente,
2 aproximadamente
2 4
la suma esperada de rangos positivos sera 1 n(nla+ mitad
1) n(de n +la1suma
) Testtotal de rangos absolutos
Bajon la
donde indica el nmero
hiptesis nula de E(W)
deque las =diferencias
diferencias no nulas.se= Al igual ,que
distribuyen endeel
losapartado
simtricamente anterior,
rangos con signo de Wilcoxon
alrededor
2 2 4
1 n(n + 1) n(n + 1)
el
devalor
0, se exacto
esperara P misma
de la para el suma
contraste bilateral
E(W)de=rangos vendr
= que
positivos dadonegativos
,por la probabilidad bajo H0
y, por consiguiente,
donde n indica el nmero de diferencias2 no 2nulas. Al 4
igual que en el apartado
Bajo la hiptesis nula de que las diferencias se distribuyen simtricamente alrededor de 0, se anterior,
de obtener
la suma
esperara una suma
laesperada
misma suma de
de rangos
de rangos positivos
positivos
rangos tanto
sera o msdedistante
la negativos
que mitad la
y, suma E(W)
detotal deque
por consiguiente, susuma
rangos
la valor
absolutos
esperada
el valor
de rangos exacto
donde npositivos de P
indica elserapara el
la mitad
nmero contraste bilateral
de la sumanototal
de diferencias vendr
de Al
nulas. dado
rangos por la
igualabsolutos probabilidad bajo
que en el apartado anterior, H0
observado w; esto es, si w > E(W),
1 n(n + 1) n(n + 1)
devalor
el obtener una de
exacto suma de rangos
P para positivos
E(W) tanto vendr
= bilateral
el contraste dado, pordelaE(W)
o=ms distante que su valor
probabilidad bajo H0
2 2 4
P = 2P(W w | H0)
de
donde n indicaw;
observado
obtener elesto
una suma es,de
nmero w diferencias
> E(W),
siderangos positivos tanto oAlms
no nulas. que endeelE(W)
distante
igual apartadoque anterior,
su valor el valor
donde n
exacto de P para el contraste bilateral vendr dado por la probabilidad bajo H0 deanterior,
indica el nmero de diferencias no nulas. Al igual que en el apartado obtener una
y,
suma sidew rangos
observado E(W),
w; esto es, si w
positivos > E(W),
tanto o ms distante de E(W) que su valor observado w; esto es,
P = 2P(W w | H0)
el valor exacto
preestablecido,
si w > E(W), de P para el contraste bilateral vendr dado por la probabilidad
la hiptesis nula se rechazar si la suma de rangos positivos es inferior bajo H0
PP == 2P(W
2P(W ww || H H00).)
de
al w E(W),
y, percentil
si
obtener una
/2 suma de rangos
o superior positivos
al percentil /2. o ms distante de E(W) que su valor
1 - tanto
y, si w E(W),
Bajo dicha
observado
y, si w hiptesis
w;
E(W), esto es,nula,
si w cualquier
> E(W), combinacin de un nmero arbitrario de rangos
P = 2P(W w | H0).
Ejemplo 8.7 Como ilustracin, supongamos que la suma de rangos positivos es w
Bajopositivos r1, ..., rm nula,
dicha hiptesis es igualmente
cualquierprobable
combinacin y su probabilidad
de un nmeroviene determinada
arbitrario porpositivos
de rangos
Bajo dicha hiptesis nula, cualquierP= 2P(W w | de
combinacin
)
H00).
un nmero arbitrario de rangos
r1, ..., rm =
es25
igualmente
a partir deprobable y su probabilidad
n = 12 parejas viene determinada
de datos dependientes por
con diferencias no nulas. La
1
positivos
y,
Bajosi wdicha , ..., rm bajo
r1hiptesis
E(W),
distribucin es nula,
igualmente
H0 de probable
cualquier
la suma y nsu, probabilidad
combinacin
de rangos viene
de un nmero
positivos determinada
arbitrario
es simtrica por
de rangos
alrededor de
2
preestablecido, la hiptesis nula se rechazar si la suma de rangos positivos es inferior
donde 2nE(W)
positivos es el
r1,=nmero
n(nrm+es1)/4
..., deigualmente
subconjuntos
= 12(12 +probable de=cualquier
1)/4 y1su
39, lo tamao
deprobabilidad que
cual se deduce pueden
viene obtenersepor
determinada
que a partir de
npercentil
lasaldonde
parejasn
2 es /2
con el odiferencias
superiordealsubconjuntos
nmero percentil
no P = 2P(W
- de
nulas. 1Haciendo w
/2.cualquier
uso | H
, de tamao 0 ).
este resultado,
que pueden la Tabla 9 del Apndice
obtenerse a
n
2
facilita los percentiles de la distribucin de la suma de rangos positivos bajo la hiptesis nula de
w0,05 = n(n + 1)/21 - w0,95 = 78 60 = 18,
quepartir
las diferencias
Bajo dicha n parejas
de lashiptesisse distribuyen simtricamente
con diferencias
nula, cualquier no nulas.
combinacin alrededor de unde
, Haciendo 0, cuando
uso
nmero esteelresultado,
de arbitrarionmero deladiferencias
de rangos Tabla
Ejemplo
n
dondees2 nes
no nulas 16.8.7 Como
Para unde
el nmero ilustracin,
nivel supongamos
de significacin
subconjuntos 2 n
que la suma
preestablecido,
de cualquier tamao quede rangos
la pueden positivos
hiptesis es w
nula se rechazar
obtenerse a
9positivos
si la del
suma donde
Apndice w
derrangos
, ...,
0,95r = 60
facilita se
los
positivos
es obtiene
igualmentees de
percentiles
inferior la
probable Tabla
de
al la 9
percentil
y su del
distribucin Apndice
/2
probabilidad o de la
superiorpara
suma
viene aln =
de 12. Como
rangos
percentil
determinada 1 la suma
positivos
/2.
por
= 25n a1partir mde n = 12 parejas de datos dependientes con diferencias no nulas. La
partir de
donde 2 las
es eln parejas
nmerocon diferencias nodenulas.
de subconjuntos cualquierHaciendo tamao usoque de pueden
este resultado,
obtenerse la Tabla
a
bajoEjemplo
laobservada
hiptesis w
8.7 bajonula
=
Como25de > w
que las=
ilustracin,diferencias
18, se sigue se que P(W
distribuyen 25 | H
simtricamente
) > 0,05. alrededor
As, el es de
w = 25
distribucin H0 de la suma desupongamos
0,05
rangos1 positivos que la es suma
simtricade rangos
0
alrededor positivos
de
9 del
partir Apndice
a partir =facilita
de lasdennparejas losdiferencias
con
12 parejas percentiles de nulas.
no la distribucin
de datos dependientes n
, Haciendo
con de la
uso
diferencias suma
de este
node rangos
resultado,
nulas. Lapositivos
la Tabla
distribucin
0, cuando P >de20,10. ncual
16. Para unque niveldedeE(W)significacin =
bajo
E(W) H0el
contraste
=de nmero
n(n 1)/4de=de
labilateral
+suma diferencias
arroja
rangos
12(12 +un1)/4 no
valor nulas
positivos
= 39, es
eslo simtrica se deducealrededor = n(n + 1)/4
9bajo
del laApndice
12(12 hiptesis =nula
+ 1)/4 facilita39, dedelosque
lo las se
diferencias
percentiles
cual de laque
deduce se distribuyen
distribucin desimtricamente
la suma de rangos alrededor
positivosde
n
donde 2 es el nmero de subconjuntos de cualquier tamao que pueden obtenerse a
Enlaaquellas muestras w0,05 = el
donde n(n + 1)/2 dewdiferencias
nmero 0,95 = 78 60 no=simtricamente
18, sea superior a 16,
nulas
0, cuando
bajo el nmero
hiptesis nulade dediferencias no nulasse
que las diferencias es n 16. Para
distribuyen un nivel de significacin
alrededor de
partir
donde w0,95n =parejas
de las con diferencias
60 se obtiene de la Tabla no9nulas. Haciendo
del Apndice para uson =de12. este
Comoresultado,
la sumalaobservada
Tabla
puede =utilizarse
w donde
0, cuando >w0,95
25 el nmero
w =la=60
siguiente
se
de
18, obtiene aproximacin
diferencias
se sigue deque
la no
Tabla
P(Wnulas
9normal.
del
25es | H Dado
Apndice
n )16.
> Para
0,05.queAs,
paraun los=elrangos
n nivel
12. Como
de conlasigno
suma
significacin
contraste bilateral arroja
0,05 0 14
9 del
un Apndice
valor P > facilita
0,10. los percentiles de la distribucin de la suma de rangos positivos
constituyen
observada unawrepresentacin
= 25 > w0,05 = 18, estandarizada
se sigue quede P(W lasdiferencias
25 | H0) > 0,05. observadas
As, el en cada
bajo la hiptesis nula de que las diferencias se distribuyen simtricamente alrededor de14
pareja contraste
de datos
En aquellas bilateral
muestras arroja
dondeunpodra
dependientes, elvalor
nmeroP > 0,10.
construirse un estadstico
de diferencias no nulas sustituyendo
sea superior las a 16, puede
utilizarse
0, cuando la siguiente
el nmeroaproximacin
de diferenciasnormal. no nulas Dado
es n que 16.los Pararangos
un nivel con de signo constituyen
significacin una
diferencias no
representacin nulas di porde
estandarizada loslasrangos con signo
diferencias ri en el en
observadas testcada
de la t de Student
pareja de datospara 14
dependientes,
En aquellas muestras donde el nmero de diferencias no nulas sea superior a 16,
podra construirse un estadstico sustituyendo las diferencias no nulas di por los rangos con
muestras
signo r en eldependientes (Apartado
test de la t de Student para6.4). As, eldependientes
muestras estadstico resulta (Apartado 6.4). As, el estadstico
puedei utilizarse la siguiente aproximacin normal. Dado que los rangos con signo
resulta
constituyen una representacin estandarizada de rlas diferencias observadas en cada 14
z= ,
sr
pareja de datos dependientes, podra construirse unnestadstico sustituyendo las

diferencias no nulas di por los rangos con signo ri en el test de la t de Student para
donde la media de los m rangos positivos y n - m rangos negativos es
muestras dependientes (Apartado 6.4). As, el estadstico resulta
Pastor-Barriuso R. 131

r
z= ,
sr
Mtodos no paramtricos
1 n 1 m nm
r = 1 n ri =
1 i =1m ri + nm r j

r =n i =1 ri = n ri +

j =1 r j

n i =1 y n im
donde la media de los m rangos positivos =1 rangos j =1 negativos
es
1 n m mm nn(nm + 1)
= 11
m ri +1 m ri
n(n + 1)
r== n i =1riri=+ i =1 riri + 2r j
n
nn i =i1=1

i =i1=1 j =12


2 m n(n + 1)
= 21 m ri
(mn4+ 1) n(n + 1)
+ n
m
= n i =1 rii ri
n ii==11 i =14 2
y, en el caso de que no haya empates,
2 m la varianza H0 de los rangos con signo se
n(n + 1)bajo
= rla i
y, en el caso de que no haya empates,
n i =1 4 H0 de los rangos con signo se
varianza bajo
estima mediante
estima
y, Para
en mediante
elconcretar
caso el problema,
de que supongamos
no haya empates, la varianza bajo H0deden los
que se dispone pares de observaciones
rangos con signo se estima
y, en el caso de que no haya empates,
mediante la varianza bajo H 0 de los rangos con signo se
1 n 2 1 n 2 (n + 1)(2n + 1)
sr = 1
de una variable aleatoria continua.
2
Enn rcada
1
i = pareja n i de
= (datos dependientes, una
n + 1)(62n + 1) .
estima mediante 2 n
s r = ri = i =
i =1 2 n i =1 2
.
n i =1 muestra
observacin x1 corresponde a la primera n i =1 y la otra observacin
6 x2 a la segunda
Aplicando ambas resultados, se
1 tienen el 1estadstico
n
(n + 1)(2n + 1)
Aplicando ambas resultados, se
Aplicando ambos resultados,
2 se tiene el 2 estadstico
muestra. El objetivo se centra s r en= comparar r = las
tiene el estadstico
i i 2 = poblacionales. 1 y 2 a partir de
medias
n i =1 n i =1 6
estas dos muestras dependientes. m ri n(n + 1)
m

n(n4+ 1) W E (W )
Aplicando ambas resultados, z= se i =tiene
1 ri el estadstico
= W E (W ) ,
Los procedimientos desarrolladosin=1(en el Apartado
n + 1)(2n + 1) = SE4 6.3 no(pueden
W ) , aplicarse a esta
z=
nm (n + 124 )(2n + 1) SE (W )
situacin, ya que las medias de ambas rmuestras n(n +no 1) son independientes por provenir de
que representa la diferencia entrey,elen
i =valor
i 24
observado4 yW E (W )de la suma de rangos positivos,
esperado
distribucin asimtrica z= 1 consecuencia,
=la utilizacin, de la prueba de la t de
dividida por sucorrelacionadas.
que representa
observaciones error estndar bajo
la diferencia SinHembargo,
entre n0.(elnSivalor
+el1)(nmero
2observado
la 1)de parejas
n +comparacin (Wcon
y esperado
SE se diferencias
de la suma
) simplifica node
nulas es n > 16,
rangos
notablemente
que representa
este estadstico
Studentsigue la diferencia
para aproximadamente entre
muestras dependientes el valor observado
una distribucin y esperado de la suma de rangos
normal estandarizada bajo la hiptesis
24 resulta cuestionable. Sin embargo, a pesar de
sepositivos,
sinula de simetra
calculan dividida
las de las por
diferencias su derror
diferencias estndar
= x1alrededor
- x2 en cada bajo
de 0. H0.de
una Si las el nmero de parejasemparejadas.
n observaciones con diferencias
positivos, dividida por su error estndar
contar nicamente con 20 parejas, la distribucin bajo H 0 . Si el nmero de parejas
de la suma de rangos con positivos
diferencias
Pornoque representa
unnulas
lado,
Ejemplo es
como > la
n8.8 16,
lasA diferencia
este
distintas entre
partirestadstico
delparejas
estudio elsigue
no valor
estn
EURAMIC, observado
aproximadamente
relacionadas y esperado
se seleccionan deestas
una1000
entre la suma
distribucin
s, de rangos de 20
normal
diferencias
muestras aleatorias
no parejas
nulas es
presenta n > 16, este
un aspecto
de casos estadstico
y controlesmucho sigue
ms normal,
agrupados aproximadamente
segn permitiendo
quinquenios de una distribucin
asedad.
el usoLadeFigura normal
la aproximacin
8.2 presenta la
positivos,
estandarizada dividida
bajo
distribucin muestral
son independientes. por
la
Por otro su error
hiptesis
delado, estndar
nula
la diferencia
la mediamedia de bajo
simetra H .
de
de lasdediferencias
0 Si lasel nmero
diferencias
b-caroteno d entre de parejas
alrededor
casoscon
coincide con
la diferencias
de 0. as como
y controles,
estandarizada bajo
normal al test
la distribucin la hiptesis
de los de
muestral rangos nula
la suma conde de simetra
signo
rangos de
de Wilcoxon. las diferencias alrededor
positivos W (esto es, la suma de rangos de 0. en las
no nulas
diferencia es n
de medias
parejas > 16,
donde el este estadstico
muestrales, sigue aproximadamente
caso presenta un nivel superior de b-caroteno que el control). Debido al una distribucin normal
Ejemplo
reducido 8.8 Adepartir
nmero parejas, dellaestudio
media de EURAMIC,
las diferencias se seleccionan
de b-caroteno1000 muestras
presenta una distribucin
Ejemplo
estandarizada 8.8
bajo Ala partir
hiptesis del estudio
nula de EURAMIC,
simetra de se
las seleccionan
diferencias 1000
alrededormuestras
de 0. muestras
asimtrica y, en consecuencia,n la utilizacin de la prueba de la t de Student para
aleatorias de 20 parejas1[Figura de casos8.2 y1 controles
n
aproximadamente agrupadosaqu] segn quinquenios de
d = d i Sin
casos ny
dependientes resulta cuestionable. = embargo, ( x i1 axpesari2 ) de contar nicamente con 20 parejas,
aleatorias de 20 parejas de controles agrupados segn quinquenios de
la distribucin de la suman de i =1 rangos ipositivos
=1 presenta un aspecto mucho ms normal,
Ejemplo
edad. 8.8 A partir
La Figura del estudio
8.2depresenta EURAMIC,muestral
la distribucin se seleccionan 1000 muestras
de la diferencia media de -
permitiendo as el uso la aproximacin n normal al test de los rangos con signo de Wilcoxon.
En edad.
el caso de existir
La Figura 8.2 presenta 1
diferencias n
con 1el mismo valor absoluto,
de la diferencia medialade -
ha de utilizarse
= xla i1
distribucin
xi 2 = xmuestral
1 x2
aleatoriasddeentre
caroteno 20 parejas
casosnydei controles,
=1
casos yn controles i =as
agrupados segn quinquenios de
1 como la distribucin muestral de la suma
siguiente versin
En el caroteno
caso de existir corregida
d entre diferenciasdel estadstico
casos y controles, con el mismo del
as comotest
valorlalos
de rangos ha
absoluto,
distribucin conde signo
utilizarse
muestral de lalasuma
siguiente
de rangos positivos W (esto es, la suma de rangos en las parejas donde el caso -
edad.
versin corregida La Figura
del 8.2
estadstico presenta
del la
test distribucin
de los rangos muestral
con signo de la diferencia media de
y, en consecuencia, d es un estimador
de rangos positivos W (esto es,insesgado lamsuma nde derangos
la diferencia de medias
(n + 1) en las parejas donde el caso
caroteno un
presenta d nivel
entre superior
casos y controles,de -caroteno rias comoque 4 ellacontrol).
distribucin
Debidomuestral de la suma
al reducido
poblacionales - . As, el problema z = de ila
=1 comparacin
presenta un nivel superior de -caroteno que el control). Debido al reducido
1 2 de ,medias en dos muestras
nla
(nsuma+ 1)(2de n +rangos
1) f en las parejas donde el caso
de rangos
nmero parejas, laWmedia
depositivos (esto es, de las diferencias de -caroteno presenta una
dependientes nmeroqueda dereducido
parejas, la a una
media simple de lasinferencia 24 sobre
diferencias de la-caroteno
media depresenta
una nica una
presenta un nivel superior de -caroteno que el control). Debido al reducido 16
muestra de n diferencias independientes. 16
cuya varianza incluye el trmino de correccin por empates
nmero de parejas, la media de las diferencias de -caroteno presenta una
Los mtodos
132 Pastor-Barriuso R. del Apartado 6.2.1 para la media de una muestra pueden entonces
T
16
utilizarse para calcular un intervalo de confianza t i (t i +al1)(100(1 t i 1)- )% para - como
1 2
f = i =1 ,
distribucin asimtrica y, en consecuencia, la utilizacin de la prueba de la t de

Student para muestras dependientes resulta cuestionable.


TestSin embargo,
de los rangos conasigno
pesar de
de Wilcoxon

contar nicamente con 20 parejas, la distribucin de la suma de rangos positivos


Para concretar el problema, supongamos que se dispone de n pares de observaciones
presenta
25 un aspecto mucho ms normal, permitiendo 25 as el uso de la aproximacin
Frecuencia relativa (%) de una variable aleatoria continua. En cada pareja de datos dependientes, una
20 20
normal al test de
observacin los rangosacon
x1 corresponde signomuestra
la primera de Wilcoxon.
y la otra observacin x2 a la segunda
15 15
muestra. El objetivo se centra en comparar las medias poblacionales 1 y 2 a partir de

10 estas dos muestras dependientes. 10


[Figura 8.2 aproximadamente aqu]
5 5 6.3 no pueden aplicarse a esta
Los procedimientos desarrollados en el Apartado

En el0caso de existir
situacin, ya quediferencias
las medias decon el muestras
ambas mismo valor
0 son absoluto,
no ha de
independientes porutilizarse
provenir dela

observaciones
siguiente versin
-0,6 correlacionadas.
corregida
-0,3 0 Sin embargo,
del estadstico la comparacin
del test
0,3 de los 30se simplifica
0 rangos con 90notablemente
60 signo 120 150 180

d
si se calculan las diferencias W emparejadas.
d = x1 - x2 en cada una de las n observaciones
m
n(n + 1)

(a)distintas parejasrinoestn relacionadas entre s, estas
Por un lado, como las
i =1 4
(b)diferencias
z= ,
Figura 8.2 Distribucin muestralPor
son independientes. deotro
la diferencia
lado, + media
n(lan media n de
1)(2de las1-caroteno
+ )diferencias
f d entre casos
coincide cony la
controles (a) y de la
suma de rangos positivos W (b) en 1000 muestras aleatorias de n = 20 parejas de casos y controles agrupados
segn quinquenios de edad
diferencia a partir
de medias muestrales, 24
del estudio EURAMIC. Las lneas verticales en trazo discontinuo
Figura 8.2
corresponden a los parmetros subyacentes 1 2 = 0,09 g/g y E(W) = 80,3.

cuya varianza incluye el trmino ded =correccin


1 n 1 npor empates
Ejemploincluye
8.9 En el
la trmino
Tabla 8.3desecorreccin
di =
obtuvieron
n i =1 n ni =1=
( x i1 x i 2 )
19 > 16 parejas de casos y
cuya varianza por empates
1T n
1 n

controles con diferencias no nulas x(i1t i+n1


)(txii 2=y,1x)1en xconsecuencia,
n t i-caroteno
= de
i =1 i =1
2 puede
i =1
f = ,
utilizarse la aproximacin normal a la suma 2 de rangos positivos W = 91. Bajo la
Ejemplo y, 8.9 En la Tablad 8.3
en consecuencia, es un
seestimador
obtuvieron insesgado
n = 19 de >
la 16
diferencia
parejasdede
medias
casos y
donde ti es el nmero de empates para la i-sima diferencia absoluta. Esta correccin conlleva
hiptesis
unadonde
reduccin nula
elde de simetra
la varianza
ti espoblacionales
nmero y deefecto
su
1 -empates las diferencias
sobre deel alrededor
lanestadstico
la i-sima de 0, apreciable
ser el valor esperado
cuando de
el la
nmero
Ejemplo
controles 8.9
conEn la de
Tabla
diferencias
2. 8.3
As, el
separa
no nulas
problema
obtuvieron
de -caroteno =diferencia
comparacin
19y,> en deabsoluta.
medias
16consecuencia,
parejas de Esta
en casos
dos correccin
muestras
y
puede
de empates sea elevado (tal es el caso de las variables cualitativas ordinales). Dado el carcter
suma
discreto de
la rangos
dependientes
de una suma positivos
de rangos es
queda reducido a una simple inferencia sobre la media de una nica
y nulas
el reducido tamao
conlleva
controles
utilizarse
reduccin
con
la
de la no
diferencias
aproximacin
varianza
normal
y su
de
a la
efecto
-caroteno
suma de y,muestral
sobre
rangos
inherente
enelconsecuencia,
estadstico
positivos W
ser
=
aapreciable
puede
91.
las pruebas no
Bajo la
paramtricas, la aproximacin normal a estos estadsticos suele incorporar adems la correccin
muestra de n diferencias independientes.
porcuando
continuidad ladeaproximacin
el nmero
utilizarse la de
Tabla 8.2 para
empates sea reducir
normalelevado la
a =la19 (probabilidad
(tal
suma19es +de1el)rangos
caso de de incurrir
las en=un
variables
positivos W error
Bajodelatipo
cualitativas
91. I.
hiptesis nula de simetra
Los mtodos de
del ApartadoE(W)
las diferencias
6.2.1 para la mediaalrededor
de=una de 0, elpueden
95 muestra valor esperado
entonces de la
4
ordinales).
Ejemplo Dado
8.9 el
En carcter
la Tabladiscreto
8.3 se de la sumaalrededor
obtuvieron nde=alrangos
19 > 16 y 0,
el reducido tamao
hiptesis nula
suma deutilizarse de
rangospara simetra
positivos de
calcular es las diferencias
un intervalo de confianza 100(1 - parejas
de )% el de
valor
para casos y controles
esperado
1 - 2 como
de la con
diferencias no nulas de b-caroteno y, en consecuencia, puede utilizarse la aproximacin
y la varianza
muestral inherente apositivos
las
suma de
normal arangos
la suma de pruebas
rangos no paramtricas,
es positivos W = 91.la aproximacin
sBajo la hiptesisnormal
nula de a estos
simetra de las
19 (n19 + / 21)
d
diferencias alrededor de 0, el E(W) d
valor esperadot de la ,
n= suma
95 de rangos positivos es
1,1
=
estadsticos suele incorporar adems 19(19la+correccin
1)(2 419 + 1por ) 6continuidad de la Tabla 8.2 para
var(W) = 19(19 + 1) = 617,25,
E(W) = 24 = 95
reducir la probabilidad de incurrir en un error4de tipo I.
y la varianza
ydonde
la varianza
el trmino de correccin de la varianza por los t1 = 2 empates con 24
y la varianza
19(19 + 1)(2 19 + 1) 6
diferencia absoluta var( 0,27Wg/g
) = y los t2 = 2 empates con=diferencia 617,25, absoluta 0,38
24
19(19 + 1)(2 19 + 1) 6
var(W) = = 617,25,
donde
g/g es el trmino de correccin de la varianza
24 por los t1 = 2 empates con diferencia 17
donde el 0,27
absoluta trminomg/gdey correccin de la varianza
los t2 = 2 empates con diferenciapor los tabsoluta
1 = 2 empates con es
0,38 mg/g
donde el trmino de0,27 2(2 + 1de
correccin )(2lavarianza
1) + 2(2 +por 2 t11)= 2 empates
1)(los con 0,38
diferencia absoluta f =g/g y los t2 = 2 empates con diferencia
= 6. absoluta
2
diferencia absoluta 0,27 g/g y los t2 = 2 empates con diferencia absoluta 0,38
g/g es
Pastor-Barriuso R. 133
Aplicando la correccin por continuidad, el test estadstico de los rangos con
g/g es
2(2 + 1)(2 1) + 2(2 + 1)(2 1)
f = entonces
signo de Wilcoxon resulta = 6.
2
2(2 + 1)(2 1) + 2(2 + 1)(2 1)
f= = 6.
2
Mtodos no paramtricos

Aplicando la correccin por continuidad, el test estadstico de los rangos con

signo de Wilcoxon
Aplicando resultapor
la correccin entonces
continuidad, el test estadstico de los rangos con signo de
Wilcoxon resulta entonces
| 91 95 | 1 / 2
z= = 0,14,
617,25
con un valor P = 2P(Z 0,14) = 2{1 F(0,14)} = 0,889. Notar que el resultado del test
sera
con unidntico
valor Pde= utilizar
2P(Z la suma
0,14) de rangos
= 2{1 negativos
- (0,14)} W =Notar
= 0,889. 99, que
ya que su valor esperado
el resultado
es E(W) = 95 y su varianza coincide con var(W) = 617,25. As, una vez controladas las
diferencias
del test seradeidntico
edad, las
dediferencias de b-caroteno
utilizar la suma de rangosanegativos
favor de W
los=casos deque
-99, ya infarto
su no son
significativamente distintas de las diferencias a favor de los sujetos libres de la enfermedad.
valor esperado es E(W) = -95 y su varianza coincide con var(W) = 617,25. As,
La comparacin no paramtrica de una variable continua en ms de dos muestras dependientes
puedeuna vez controladas
realizarse mediante las diferencias
el test de edad,Bajo
de Friedman. las diferencias
la asuncin -caroteno
dede a favorsigue la
que la variable
misma distribucin continua excepto posibles diferencias de localizacin (traslaciones), esta
prueba permite contrastar la hiptesis nula de una misma localizacin de la variable en cada una
de las poblaciones. Este procedimiento tambin se fundamenta en la definicin de rangos y
puede consultarse en los libros especficos de mtodos no paramtricos.
18

8.4 TEST EXACTO DE FISHER

En el Apartado 7.4 se present el test 2 de Pearson como un procedimiento general para evaluar
la asociacin estadstica entre las variables de una tabla 22. Esta prueba se basa en la asuncin
de que el tamao muestral es suficientemente grande para justificar la aproximacin chi-
cuadrado a la distribucin nula del estadstico 2 de Pearson. En concreto, si los marginales de
la tabla son pequeos, de tal forma que la frecuencia esperada en alguna de las celdas sea
inferior a 5, esta aproximacin puede resultar imprecisa. En tales circunstancias, es preferible
utilizar mtodos alternativos basados en la distribucin exacta de las frecuencias de las celdas
de una tabla 22. En este apartado se describe el ms conocido de estos procedimientos, el test
exacto de Fisher.

Ejemplo 8.10 La Tabla 8.4 presenta el nmero de sujetos con niveles de b-caroteno
Ejemplo
superiores8.1. Bajo la hiptesis
e inferiores de independencia
a 0,30 mg/g entre los 10 entre
casoseldenivel de -caroteno
infarto y el
y los 10 controles del
estudio EURAMIC seleccionados de forma independiente en el Ejemplo 8.1. Bajo la
riesgo de de
hiptesis infarto de miocardio,
independencia entrelaelfrecuencia esperada en
nivel de b-caroteno y elcada celda
riesgo sera de miocardio,
de infarto
la frecuencia esperada en cada celda sera
510
E11 = E12 = = 2,5,
20
15 10
E21 = E22 = = 7,5.
20
Como los valores esperados en dos de las cuatro celdas son inferiores a 5, la prueba 2 de
Pearsonlosnovalores
Como ser aplicable a esta
esperados tablade22
en dos lasycuatro
la asociacin ha de
celdas son contrastarse
inferiores mediante otro
a 5, la
procedimiento.
prueba 2 de Pearson no ser aplicable a esta tabla 22 y la asociacin ha de

contrastarse mediante otro procedimiento.

134 Pastor-Barriuso R.
[Tabla 8.4 aproximadamente aqu]
Test exacto de Fisher

Tabla 8.4 -caroteno en tejido adiposo en


10 casos de infarto de miocardio y 10 controles
seleccionados aleatoriamente del estudio
EURAMIC.
-caroteno Infarto de miocardio
(g/g) Caso Control Total
> 0,30 1 4 5
0,30 9 6 15
Total 10 10 20

El test exacto de Fisher se basa en determinar la probabilidad exacta de observar una tabla
cualquiera con frecuencias a, b, c y d, bajo la hiptesis nula de independencia y asumiendo que
todos los marginales n1, n2, m1 y m2 son fijos (Tabla 7.1). La condicin de marginales fijos se
impone por conveniencia matemtica, ya que los clculos se simplifican notablemente y los
marginales contienen poca informacin sobre la asociacin a estudio. Bajo H0, la probabilidad
de enfermar es comn en los sujetos expuestos y los no expuestos. As, el nmero de enfermos
entre los expuestos sigue una distribucin n1 binomial de parmetros n1 y , mientras que entre los
a n1 a n 2
P(a, b, c, d | H ) =
no expuestos sigue una distribucin binomial
0 a (1 )
de parmetros c
c n2 y .
(1 )Como
n2 c
las muestras de

expuestos y no expuestos son independientes,
la probabilidad de obtener una tabla con
frecuencias a, b, c y d es el producto de las probabilidades binomiales de observar a sujetos
enfermos entre los expuestos y c entre losn1 n 2 m1
= no expuestos, (1 ) m2 .
na1 m1 a n2
P(a, b, c, d | H0) = a (1 ) n1 a c (1 ) n2 c
a c
Para marginales n1, n2, m1 y m2 fijos, el rango de valores posibles k para el nmero de
n1 n 2 m1
=
casos expuestos vara entre k1 = max(0, m - n ) y k = ) m,2 m
(1min(n . ). Por tanto, la
a
m
1 1
2 a 2 1 1

Para
probabilidad n1,obtener
marginales de n2, m1 yuna
m2tabla
fijos,con
el rango de valores
frecuencias a, b, cposibles k para ela unos
y d condiciona nmero de casos
expuestos vara entre k = max(0, m
Para marginales n1, n1 2, m1 y m2 fijos,
1 n ) y k = min(n
el2 rango2 de valores , m ).
1 posibles
1 Por tanto, la probabilidad
k para el nmero de de
obtener una tabla
marginales n1, con 1 y m2 fijosa,viene
frecuencias
n2, m b, c ydada
d condicionada
por a unos marginales n1, n2, m1 y m2 fijos
viene dada por
casos expuestos vara entre k = max(0, m - n ) y k = min(n , m ). Por tanto, la
1 1 2 2 1 1

n1 n 2 m1
probabilidad de obtener una tabla con frecuencias a, b, c y d condiciona
(1 ) m2 a unos
a
1 m a
P(a, b, c, d | n1, n2, m1, m2; H0) = k
marginales n1, n2, m1 y m2 fijos viene dada por n1 n 2 m1 (1 ) m2
2


k = k1 k m1 k

nn1 nn2 m1 n m2 n
1 2 (1 1 )
2

aa m 1 a
P(a, b, c, d | n1, n2, m1, m2; H0) == m1 a a m1 a
k2 n
k2
n1 nn2 =m1 n + mn2 ,

k= k1
1
2
k m k

(1
1 ) 2

1
k = k1 k m1 k
m1

n1 de
donde el denominador de la ltima igualdad se obtiene n1 nde
n 2 las propiedades coeficientes
2 los

binomiales. Esta distribucin
donde el denominador de ladeltima
probabilidades entre
igualdad se a todas
obtiene m1 delas posibles
alas a tablas
propiedades m1 deacon
loslos mismos
=
marginales se conoce como distribucin hipergeomtrica y =
determina la ,
distribucin bajo H0
k2
n1 n 2 n1 + n 2
coeficientes binomiales. Esta distribucin de
probabilidades entre todas
lasposibles
k = k1 k m1 k m1
tablas con los mismos marginales se conoce como distribucin hipergeomtrica y
Pastor-Barriuso R. 135

donde el denominador de la ltima igualdad se obtiene de las propiedades de los


determina la distribucin bajo H0 del nmero de casos expuestos y no expuestos en una
Mtodos no paramtricos

del nmero de casos expuestos y no expuestos en una muestra de m1 casos obtenidos a partir de
un total de n1 sujetos expuestos y n2 sujetos m no expuestos. Notar que esta probabilidad depende
1 m 2 n1 n 2
nicamente del nmero a de casos expuestos, dado
que una vez conocido a las frecuencias de
las restantes celdas quedan determinadas a los
por nmarginales
1 a a la
de mtabla.
1 a
Cabe destacar tambin
P(a | n1, n2, m1, m2; H0) = =
que aunque los clculos se han derivado de mun m2
1 + estudio n1 + n 2 se obtendra el mismo
prospectivo,

resultado a partir de un estudio retrospectivoen trminos del nmero de sujetos expuestos entre
n1 m1
casos y controles,
n1 !nm2 !1 m
1 ! mm2 2! n1 n 2
= ,
n! aa! b! c!nd1! a a m1 a
P(a | n1, n2, m1, m2; H0) = =
m1 + m 2 n1 + n 2

lo cual confirma que la probabilidad condicional n1 a una determinada
asociada m1 tabla no

vara en funcin del diseo prospectivo o retrospectivo del


n1 ! n 2 ! m1 ! m 2 ! estudio.
=,
n! a! b! c! d!
lo cualEjemplo
confirma queBajo
8.11 la probabilidad
la hiptesis condicional asociada a una
nula de independencia entredeterminada
el nivel de tabla no vara en
-caroteno
funcin del diseo prospectivo o retrospectivo del estudio.
lo cual confirma que la probabilidad condicional asociada a una determinada tabla no
y el riesgo de infarto agudo de miocardio, la probabilidad exacta de obtener la
Ejemplo
vara 8.11delBajo
en funcin la hiptesis
diseo nulaode
prospectivo independencia
retrospectivo entre el nivel de b-caroteno y el
del estudio.
riesgo 8.4
Tabla de manteniendo
infarto agudolosdemarginales
miocardio,fijosla probabilidad
es exacta de obtener la Tabla 8.4
manteniendo los marginales fijos es
Ejemplo 8.11 Bajo la hiptesis nula de independencia entre el nivel de -caroteno
10 10

1 4 5!15!10!10!exacta de obtener la
y el riesgo de| infarto
P(1 agudo
5, 15, 10, 10; de = la probabilidad
H0)miocardio, = = 0,136,
20 20!1! 4! 9! 6!
Tabla 8.4 manteniendo los marginales fijos 5
es

que corresponde a la probabilidad de que, de los 5 sujetos observados con niveles de
10 y10
b-caroteno
que superiores
corresponde a 0,30 mg/g,de
a la probabilidad que,caso
1 sea de loslos 5 sujetos
restantes 4 sean controles.
observados Notar que
con niveles
1 4
la tabla se refiere por la frecuencia a = 1 observada 5en !15!la10primera
!10! celda, dado que las
P(1 | 5, 15, 10, 10; H0) = = = 0,136,
dems
de frecuencias
-caroteno b = 4, ac 0,30
superiores = 9 ydg/g,
= 61vienen
sea caso entonces
20 y los dadas
restantes por
20!1! 4! 9! 6!4 los
sean marginales.
controles.

5
Notar que la tabla se refiere por la frecuencia
Para contrastar la independencia entre las variables a =de1 una
observada
tabla 22,en la
el primera celda,
test exacto de Fisher
consiste en enumerar todas las posibles tablas con los mismos marginales que la tabla observada,
para adado queque las dems
corresponde
continuacin afrecuencias
calcular b = 4,de
lalaprobabilidad
probabilidad cexacta
=que,
9 yde d =los
6 vienen
asociada5 sujetos
a cadaentonces
una dedadas
observados por
con
estas losbajo la
niveles
tablas
hiptesis nula de independencia. El valor P bilateral del test exacto de Fisher corresponde
marginales.
entonces de -caroteno
a la suma de superiores
probabilidades g/g,
a 0,30para 1 seaaquellas
todas caso y los restantes
tablas 4 sean controles.
con probabilidad inferior o
igual a la de la tabla observada (esto es, la suma de probabilidades de las tablas tanto o menos
compatiblesNotarconque la tabla senula
la hiptesis refiere
quepor la frecuencia
la tabla observada). a = 1 observada en la primera celda,
Para contrastar la independencia entre las variables de una tabla 22, el test exacto
dado que
Ejemplo las La
8.12 dems
Tabla frecuencias
8.5 presentab =todas
4, c = y d = 6 vienen
las9 posibles entonces
tablas con dadas marginales
los mismos por los
de Fisher consiste en enumerar todas las posibles tablas con los mismos marginales que
n1 = 5, n2 = 15, m1 = 10 y m2 = 10 observados en la Tabla 8.4 para la asociacin entre el
marginales.
y el infarto de miocardio. Bajo la
b-caroteno
la tabla observada, para a continuacin calcular la hiptesis
probabilidad nulaexacta
de independencia entre ambas
asociada a cada
variables, la probabilidad exacta asociada a cada tabla viene dada por la distribucin
una dehipergeomtrica
estascontrastar
Para tablas bajo la hiptesis nula
la independencia de independencia.
entre las variables deEluna valor
tablaP bilateral delexacto
22, el test test

exacto de Fisher
de Fisher corresponde
consiste entonces
en enumerar todasa las
la suma de probabilidades
posibles para todas
tablas con los mismos aquellas que
marginales

la tabla observada, para a continuacin calcular la probabilidad exacta asociada a cada


136 Pastor-Barriuso R.
22
una de estas tablas bajo la hiptesis nula de independencia. El valor P bilateral del test
Test exacto de Fisher
tablas con probabilidad inferior o igual a la de la tabla observada (esto es, la suma de

probabilidades de las tablas tanto o menos compatibles con la hiptesis nula que la tabla
Tabla 8.5 Todas las posibles tablas con los mismos
observada). marginales que la Tabla 8.4, junto con sus probabilidades
tablas con probabilidad inferior
asociadas o igual
bajo a la de nula
la hiptesis la tabla observada (esto es, la suma de
de independencia.

probabilidades Tabla Probabilidad bajo Hcon Odds rationula que la tabla


Ejemplo de lasLa
8.12 tablas
Tablatanto o menos
8.5 presenta compatibles
todas las posibles
0 latablas
hiptesis
con los mismos
0 5
observada). 5, n2 = 15,5 m1 = 10 y m0,016
marginales n1 = 10 2 = 10 observados en
0 la Tabla 8.4 para la
1 4
9 -caroteno
asociacin entre el 6 0,136
y el infarto 0,17la hiptesis nula de
de miocardio. Bajo
Ejemplo 8.12 La Tabla 8.5 presenta todas las posibles tablas con los mismos
2 3
independencia 8
entre 7
variables, la0,348
ambas probabilidad exacta0,58
asociada a cada tabla
marginales n1 = 5, n2 = 15, m1 = 10 y m2 = 10 observados en la Tabla 8.4 para la
3 2
viene dada por 7 8
la distribucin 0,348
hipergeomtrica 1,71
asociacin entre el -caroteno y el infarto de miocardio. Bajo la hiptesis nula de
4 1
6 9 0,136 6
independencia entre ambas
P(0) variables, la5!probabilidad
15!10!10! exacta asociada a cada tabla
5 0 = P(5) = = 0,016,
5 10 200,016
! 0! 5!10! 5!
viene dada por la distribucin hipergeomtrica
5!15!10!10!
P(1) = P(4) = = 0,136,
520
!1!51!!140!!91!06!!
P(0) = P(5) = = 0,016,
20! 0! 5!10! 5!
5!15!10!10!
P(2) = P(3) = 5!15!10!10! = 0,348,
P(1) = P(4) = 20! 2! 3! 8! 7! = 0,136,
20!1! 4! 9! 6!
cuya suma de probabilidades 5!15!10!10! tablas con a = 0, 1, 4 y 5
P(2) =es igual
P(3) = a 1. Como las = 0,348,
20! 2! 3! 8! 7!
tienen asociadas probabilidades menores o iguales que la probabilidad P(1) =
cuya suma de probabilidades es igual a 1. Como las tablas con a = 0, 1, 4 y 5 tienen
asociadas
0,136 de laprobabilidades menores
tabla observada, o iguales
el valor quedel
P bilateral test exacto deP(1)
la probabilidad = 0,136
Fisher es de la tabla
cuya suma de probabilidades es igual a 1. Como las
observada, el valor P bilateral del test exacto de Fisher establas con a = 0, 1, 4 y5

P = P(0) + Pmenores
tienen asociadas probabilidades (1) + P(4)o +iguales
P(5) que la probabilidad P(1) =
= 0,016 + 0,136 + 0,136 + 0,016 = 0,304.
0,136 de la tabla observada, el valor P bilateral del test exacto de Fisher es
Notar que se obtendra el mismo valor P si se sumaran las probabilidades asociadas a
todas
Notaraquellas tablas con
que se obtendra un oddsvalor
ratio Ptanto osumaran
ms alejado del valor nulo 1 que el OR =
P = Pel(0)
mismo
+ P(1) + P(4)si+seP(5) las probabilidades
16/(49) = 0,17 de la tabla observada; es decir, las probabilidades de las tablas con OR 0,17
OR 1/0,17
oasociadas = 6. aquellas
a todas As,= a0,016
partir+de0,136
tablas esta muestra
con un odds tan
+ 0,136 reducida,
ratio
+ tanto
0,016 no puede
o ms
= 0,304. concluirse
alejado que exista
del valor
una asociacin significativa entre el nivel de b-caroteno y el riesgo de infarto de miocardio.
nulo 1 que el OR = 16/(49) = 0,17 de la tabla observada; es decir, las
Cuando elque
Notar se obtendra
tamao muestral el es
mismomuy valor P si el
pequeo, se nmero
sumarande lasposibles
probabilidades
tablas con los mismos
marginales muy reducido, de tal forma que el valor P
probabilidades de las tablas con OR 0,17 OR 1/0,17 = 6. As,dea partir
ser del test exacto Fisherde
podr
esta tomar
asociadas a todas aquellas tablas con un odds ratio tanto o ms alejado del
muy pocos valores, siendo as particularmente difcil obtener resultados significativos. Para un valor
nivel de significacin
muestra preestablecido,
tan reducida, el test exacto
no puede concluirse de Fisher
que exista tender a ser
una asociacin conservador con
significativa
nulo 1 que el OR = 1 6/(4 9) = 0,17 de la tabla observada; es decir,
una verdadera probabilidad de error de Tipo I menor que el valor nominal . Un contraste las
alternativo
entremenos
el nivelconservador
de -carotenoconsiste en calcular
y el riesgo el valor
de infarto mid-P bilateral, que se define como
de miocardio.
probabilidades de las tablas con OR 0,17 OR 1/0,17
la probabilidad de la tabla observada ms la probabilidad de las tablas = 6.menos
As, a verosmiles
partir de esta
bajo H0.
Este valor mid-P ser siempre inferior o igual al valor exacto de P, obtenindose resultados 23
muestra tan
muy similares si elreducida, no puedeesconcluirse
tamao muestral grande. que exista una asociacin significativa

entre el nivel de -caroteno y el riesgo de infarto de miocardio. Pastor-Barriuso R. 137

23
Mtodos no paramtricos

Ejemplo 8.13 De todas las posibles tablas enumeradas en la Tabla 8.5, slo las tablas
con a = 0 y 5 tienen probabilidades bajo H0 menores que la probabilidad P(1) = 0,136 de
la tabla observada, as que el valor mid-P bilateral se calcula como
mid-P = P(0) + P(1) + P(5) = 0,016 + 0,136 + 0,016 = 0,168,
que es considerablemente menor que el valor exacto de P = 0,304 calculado en el ejemplo
anterior. No obstante, ambos valores de P arrojan resultados no significativos para el
nivel de significacin estndar = 0,05.

El test exacto de Fisher puede generalizarse para evaluar la asociacin estadstica entre las
variables categricas de una tabla rc, cuando algunas frecuencias esperadas sean muy bajas y
no pueda aplicarse el test 2 de Pearson. Aunque el valor P del test exacto de Fisher para tablas
mayores de 22 se define igualmente como la suma de probabilidades para aquellas tablas tanto
o menos probables que la tabla observada, su clculo requiere de algoritmos de computacin
dado el elevado nmero de posibles tablas con los mismos marginales.

8.5 REFERENCIAS

1. Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons, 2002.
2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
4. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
5. Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley
& Sons, 1998.
6. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley &
Sons, 1986.
7. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition.
New York: John Wiley & Sons, 2003.
8. Hollander M, Wolfe DA. Nonparametric Statistical Methods, Second Edition. New York:
John Wiley & Sons, 1999.
9. Lehmann EL. Nonparametrics: Statistical Methods Based on Ranks. San Francisco:
Holden and Day, 1975.
10. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press,
1999.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.

138 Pastor-Barriuso R.
TEMA 9

DETERMINACIN DEL TAMAO MUESTRAL

9.1INTRODUCCIN

Las inferencias poblacionales derivadas a partir de una muestra conllevan indefectiblemente un


margen de error. As, en el diseo de un estudio epidemiolgico o clnico, es necesario plantearse
de antemano el nmero de sujetos que deben ser estudiados para responder a la pregunta de
investigacin con un grado razonable de certidumbre. La determinacin a priori del tamao
muestral es una parte importante del diseo de un estudio por distintos motivos:
yy Permite concretar la hiptesis de trabajo. El investigador ha de precisar la hiptesis
principal del estudio y, en funcin de su experiencia, investigaciones previas o estudios
piloto, especificar la magnitud de efecto clnica o biolgicamente relevante que se pretende
detectar.
yy Permite evaluar la factibilidad del estudio. Una de las limitaciones ms frecuentes en los
estudios epidemiolgicos es la imposibilidad de reclutar un nmero suficiente de pacientes,
bien sea por limitaciones en los recursos econmicos, en el nmero de pacientes disponibles
o en el tiempo de duracin del estudio.
yy Previene la obtencin de resultados no concluyentes. Como se describi en el Tema 5, la
precisin de una estimacin y la potencia estadstica de un contraste de hiptesis aumentan
conforme aumenta el tamao muestral, de tal forma que una muestra insuficiente dar
lugar a estimaciones imprecisas y contrastes de baja potencia.

Desde un punto de vista puramente terico, basta con aumentar el tamao muestral para
obtener estimaciones arbitrariamente precisas o para detectar como estadsticamente significativo
cualquier efecto por pequeo que sea. Aun cuando esto sea posible en la prctica, la utilizacin
de muestras excesivamente grandes es ineficiente, ya que la posible deteccin de efectos
trivialmente pequeos y de escasa utilidad prctica no justificara los recursos empleados. En
ltimo trmino, el objetivo de la determinacin a priori del tamao muestral consiste en estimar
la muestra mnima necesaria para asegurar estimaciones razonablemente precisas o para tener
una potencia suficiente en la deteccin de efectos clnicamente relevantes.
Con cierta frecuencia, el nmero de sujetos disponibles para un estudio viene dictado de
antemano por las limitaciones econmicas o temporales. En tales circunstancias, es importante
determinar qu magnitudes de efecto tendran una probabilidad razonable de ser detectadas con
la muestra disponible, para contar as con una idea aproximada de las posibilidades que ofrecera
la realizacin de dicho estudio.
Como se ver a continuacin, el clculo del tamao muestral requiere de informacin previa
a la realizacin del estudio. Estos datos suelen proceder de investigaciones previas relacionadas
y, en la medida de lo posible, han de ajustarse a unas hiptesis de trabajo verosmiles. En
cualquier caso, las asunciones realizadas en el clculo del tamao muestral pueden diferir de los
resultados posteriores del estudio y, en consecuencia, estas determinaciones deben servir como
gua orientativa ms que como norma rgida para la estimacin del tamao muestral. Conviene
apuntar tambin que la muestra resultante se refiere al nmero de sujetos necesarios para el

Pastor-Barriuso R. 139
acin de tamao esencialmente infinito. La correccin de las frmulas del tamao

tral para otros tipos de muestreo


Determinacin del tamaoymuestral
para poblaciones finitas puede consultarse en

bros sobre muestreos complejos citados al final del tema.


anlisis y no a los inicialmente incluidos. As, la muestra estimada ha de incrementarse en
previsin de las posibles prdidas de sujetos que pudieran ocurrir en el estudio.
TAMAO MUESTRAL PARA LA ESTIMACIN DE UN PARMETRO
En este tema se revisan las frmulas del tamao muestral ms frecuentemente utilizadas en
LACIONAL el diseo de estudios epidemiolgicos y clnicos, tanto para la estimacin de una media y una
proporcin en una nica muestra, como para la comparacin de medias y proporciones en muestras
dependientes e independientes. En adelante, se asume que las muestras se obtienen mediante un
1.2 MEDIDAS
sta seccin se presentan las frmulas para determinar el tamao muestral necesarioDE TENDENCIA CENTRAL
muestreo aleatorio simple a partir de una poblacin de tamao esencialmente infinito. La
correccin de las frmulas del tamao muestral para otros tipos de muestreo y para poblaciones
obtener estimaciones fiables de un parmetro poblacional (tpicamente la mediadedetendencia central informan acerca de cul e
Las medidas
finitas puede consultarse en los libros sobre muestreos complejos citados al final del tema.
variable continua o la proporcin de sujetos con una determinada caracterstica) a
de una determinada variable o, dicho de forma equivalente
9.2TAMAO MUESTRAL PARA LA ESTIMACIN DE UN PARMETRO
r de una nica muestra. Esta situacin concierne esencialmente a los estudiosde qu valor se agrupan los datos observados. La
alrededor
POBLACIONAL
iptivos o transversales. El objetivo
En esta seccin se centra las
se presentan en calcular
frmulaselpara
tamao muestral
determinar
central deellatamao
muestramuestral necesario
sirven tanto para los resultado
para resumir
obtener estimaciones fiables de un parmetro poblacional (tpicamente la media de una variable
mo necesario para estimar
continua o el
la parmetro
proporcinpoblacional con un
de sujetos con unadeterminado
realizargrado
determinada de
caracterstica)
inferencias a partir
acerca de parmetros
de los una nica poblacionales
muestra. Esta situacin concierne esencialmente a los estudios descriptivos o transversales. El
sin, que puedeobjetivo
cuantificarse mediante
se centra la amplitud
en calcular del intervalo
el tamao muestral de confianza.
mnimo necesario
continuacin para estimar
se describen el parmetro
los principales estimadores de la
poblacional con un determinado grado de precisin, que suele cuantificarse mediante la amplitud
del intervalo
Tamao muestral para la de confianza.de una media
estimacin variable.
tamao de una muestra precede a su seleccin y, en consecuencia, no se dispone de
rtir de la aproximacin normal N(, 2/n) a la distribucin de una1.2.1 mediaMedia
muestral
aritmtica
9.2.1 Tamao muestral para la estimacin de una media
tamao de una muestra precede a su seleccin y, en consecuencia,
informacin muestral. La precisin de la estimacin queda entonces no se dispone de por
determinada
uede construirseAun intervalo
partir de confianza al
de la aproximacin normal - )%
100(1N(, /n)
2 paraa la media
la distribucin de una media
La media aritmtica, por x ,, puede
muestral
denotada se define como la su
informacin
construirse
la amplitud muestral.
un del
intervalo La precisin
dede
intervalo confianza dealo,
confianza la100(1
estimacin
ms )% queda
para la
concretamente, entonces
media
por determinada
poblacional
la distancia por
como
del centro
acional como x z1 /2 / n . Notar que este intervalo incluye
incluye la valores
desviacin tpica poblacional en lugar dede observacione
muestrales
la desviacin dividida por el nmero
su la amplitud
lmitesdel
aestimacin
los delintervalo
muestral, ya de
intervalo queconfianza o, ms concretamente,
la determinacin del tamao de poruna
la distancia
muestradel centroa su
precede
a poblacional seleccin
en lugar dey, suenestimacin
consecuencia, no seyadispone
muestral, por n el
de informacin
que la determinacin tamao muestral y por x
del muestral. La precisini el valor
de observado
la para e
a los lmites
estimacin del intervalo
queda entonces determinada por la amplitud del intervalo de confianza o, ms
media vendra dada por
la
concretamente, por la distancia del centro =a los
z1lmites
/2 , del intervalo3
n

= z1 / 2 ,
n 1 n x1 + x 2 + ... + x n
de donde puede despejarse el tamao muestral n para obtener x =
n i =1
x i =
n
de donde puede despejarse el tamao muestral n para obtener
de donde puede despejarse el tamao muestral n para obtener
z 2 2 La media es la medida de tendencia central ms utilizad
n = 1 / 2 2
.
z2 2
n = 1 / 22 interpretacin.
. Corresponde al centro de gravedad de los
De esta expresin se desprende que el tamao muestral para la estimacin de una media
De estadepende
poblacional expresinde se desprende
tres elementos,queque
el tamao muestral
debenprincipal
ser para la estimacin
determinados de una
limitacindees antemano
que est muyparainfluenciada
poder por los v
aplicarDe la esta
frmula:
expresin se desprende
media poblacional depende de tres que el tamao
elementos, quemuestral
deben serpara la estimacin
determinados dede una
antemano
caso, puede no ser
yy El nivel de confianza 100(1 )%. Cuanto mayor sea este nivel de confianza, un fiel reflejo de lamayor
tendencia central de
media
ser
para poblacional
el tamao
poder depende
aplicarmuestral.
la frmula:de
En tres elementos,
la prctica, suelequeutilizarse
deben serpor
determinados
convenio una de confianza
antemano del
95% ( = 0,05), de tal forma que el percentil de la distribucin normal estandarizada es
para poder
z1/2 aplicar
z0,975 la frmula:100(1 - )%. Cuanto mayor Ejemplo 1.4 En este y en los sucesivos ejemplos sob
El=nivel = 1,96.
de confianza sea este nivel de confianza,
yy La varianza poblacional 2. Cuanto ms dispersa sea una variable,
utilizarn mayordel
los valores ser la muestra
colesterol HDL obtenidos e
El nivel de confianza 100(1 - )%. Cuanto mayor sea este nivel de confianza,
mayorpara
necesaria ser describirla
el tamao muestral. En la prctica,
aceptablemente. suelepor
Se requiere, utilizarse porunconvenio
tanto, de una
valor aproximado
mayor serdel
el tamao muestral. Entallaforma
prctica, estudio
suele European
utilizarse por Study on una
convenio Antioxidants, Myocardia
140
confianza
Pastor-Barriuso R.
95% ( = 0,05), de que el percentil de la distribucin
the Breast (EURAMIC), un estudio multicntrico de
confianza del 95% ( es
normal estandarizada = 0,05),
z1-/2 =dez0,975
tal forma
= 1,96.que el percentil de la distribucin
entre 1991 y 1992 en ocho pases Europeos e Israel p
Ejemplo 9.1 En un pequeo estudio piloto realizado en personas adultas de una
precisin de un kilogramo puede ser aceptable Tamaopara estimar
muestral el peso medio
para la estimacin en poblacional
de un parmetro
determinada poblacin, la media y la desviacin tpica de la presin arterial
personas adultas, pero resulta claramente insuficiente en recin nacidos.
desistlica resultaron
la varianza ser 130 ay estudio,
de la variable 20 mm Hg, que respectivamente.
suele obtenerse a Utilizando esta similares ya
partir de trabajos
realizados o de un estudio piloto.
informacin
Ejemplo preliminar,
9.1 En un pequeose planea
estudioobtener
piloto una muestra
realizado en aleatoria
personas simple
adultasde demayor
una
yy La precisin deseada . El tamao muestral ser tanto mayor cuanto mayor sea la precisin
exigida
tamaoapara
determinadala estimacin
estimar el(esto
poblacin, niveles,medio
la mediacuanto menor
y ladedesviacin
presin ).
seaarterial
El criterio
tpica sistlica para
conestablecer
de la presin una la precisin
precisin
arterial
de una estimacin ha de fundamentarse en el conocimiento previo sobre la magnitud
aproximada
de 2 mm
sistlica del Asumiendo
Hg. parmetro.
resultaron As,
ser 130 yun por de
20nivel
mm ejemplo,
Hg,confianzaunadel
precisin
respectivamente. de un
95% yUtilizando
una kilogramo
desviacin
esta tpicapuede ser
aceptable para estimar el peso medio en personas adultas, pero resulta claramente
insuficiente
similar a la en
informacin preliminar,
delrecin
estudionacidos.
se planea
piloto, obtener una muestra aleatoria simple de mayor
se tiene

Ejemplopara
tamao 9.1 En unel nivel
estimar pequeo estudio
medio piloto
de2presin
2
realizado
arterial en personas
sistlica adultas de una
con una precisin
determinada poblacin, la media 1,96 20
n = y la2 desviacin tpica de la presin arterial sistlica
= 384,16;
resultaron ser 130 y 20 mm Hg, 2
respectivamente. Utilizando
de 2 mm Hg. Asumiendo un nivel de confianza del 95% y una estadesviacin
informacin preliminar,
tpica
se planea obtener una muestra aleatoria simple de mayor tamao para estimar el nivel
medio
similar de presin
a la
es decir, se del arterial
estudio
requeriran sistlica
piloto, con una385
se tiene
aproximadamente precisin
sujetosde 2 estimar
para mm Hg.laAsumiendo
presin un nivel
de confianza del 95% y una desviacin tpica similar a la del estudio piloto, se tiene

1,96 2 20 2con una precisin de 2 mm Hg.


arterial sistlica media de esta poblacin
n= 2
= 384,16;
2
Obsrvese que el tamao muestral aumenta de forma cuadrtica con la precisin
es decir, se requeriran aproximadamente 385 sujetos para estimar la presin arterial
sistlica
es media
decir, se
deseada, de estaque
derequeriran
tal forma poblacin con una
aproximadamente
para el doble precisin
de385 de
= 12
sujetospara
precisin mm
Hg,Hg.
estimar
mm Obsrvese que el
laelpresin
tamao
tamao muestral aumenta de forma cuadrtica con la precisin deseada, de tal forma que
para el doble
arterial
muestral de precisin
sistlica
mnimo media deesta
necesario =sera
1 poblacin
mm Hg, elveces
cuatro tamao
con una muestral
precisinmnimo
mayor de 2 mmnecesario
Hg. sera cuatro
veces mayor
Obsrvese que el tamao muestral2 aumenta de forma cuadrtica con la precisin
1,96 20 2
n= 2
= 1.536,64 1.537.
deseada, de tal forma que para el1doble de precisin = 1 mm Hg, el tamao

muestral p mnimo necesario


) /lansera cuatro veces mayor
proporcin
mediante
9.2.2 Tamao 1-/2 (1para
zmuestral .estimacin
As, la precisin
de una en la estimacin de una proporcin
9.2.2 Tamao muestral para la estimacin de una proporcin
Siguiendo
mediante unpargumento
poblacional similar
(1 ) al
z1-/2 determinada
viene / ndel
1.,96
por apartado
As, anterior,
2 la2 precisin
20 enpuede utilizarse ladeaproximacin
la estimacin normal
una proporcin
Siguiendo un argumento similar
n
N(, (1 )/n) a la distribucin de una= al del apartado
= anterior,
1.536,64 puede
1.537. utilizarse la
proporcin muestral p para obtener un intervalo de
confianza al 100(1 )% para la proporcin12 poblacional mediante As, la precisin
mediante p z1/2 (1 ) / n . As,
poblacional viene determinada por
aproximacin normal N ( , (1 - )/ n
la precisin en la estimacin de una proporcin ) a la distribucin
(1 ) de una proporcin muestral p
= z1 / 2 poblacional , viene determinada por
n poblacional viene determinada por
9.2.2 Tamaounmuestral
para obtener intervalopara la estimacin
de confianza al 100(1de -una proporcin
(1)% ) la proporcin poblacional
para
= z1 / 2 ,
n
y el tamao
Siguiendo muestral mnimo
un argumento similar necesario
al del apartadopara alcanzar
anterior, dichapuedeprecisin
utilizarseesla (1
y el tamao muestral mnimo necesario para alcanzar dicha precisin es = z1 / 2
n
y el tamaonormal
aproximacin muestral N(mnimo
, (1 - necesario para
)/n) a lazdistribucin
2 alcanzardedicha una precisin esmuestral p
proporcin
(1 )
n = 1 / 2 2 .
y el
la tamao muestral mnimonecesario
5 para alcanza
para obtener un intervalo de confianza al 100(1 z1 / 2-(
2
1 )%
para
) proporcin poblacional
El clculo del tamao muestral para n =la estimacin de. una proporcin precisa, por tanto, de
los siguientes elementos: 2
El clculo del tamao muestral para la estimacin de una proporcin precisa, por z 2 (1
n = 1 / 2 2
yy El nivel de confianza 100(1 )%, que se establece habitualmente en el 95%.
tanto, de los siguientes
El clculo del tamaoelementos:
muestral para la estimacin de una proporcin precisa, por
yy La proporcin poblacional .
tanto, de nivel
El los siguientes
precisin
yy La dedeseada
confianza el error-
elementos:
o 100(1 )%, queque
absoluto se establece
se considereElhabitualmente
clculo del tamao
aceptable. en el 95%. 5 para la estimacin
muestral

La nivel
El de confianza
proporcin poblacional tanto,
100(1 - .)%, que se establece de los siguientes
habitualmente en elelementos:
95%.
Pastor-Barriuso R. 141
El nivel de confianza 100(1 - )%, que se est
La proporcin
precisin deseada o el error
poblacional . absoluto que se considere aceptable.

La precisin
El conocimiento deseada
previo o elaproximado
del valor error absoluto que
de la proporcin
La objeto
se considere
proporcin aceptable.poblacional
de estudio es .
Determinacin del tamao muestral

El conocimiento previo del valor aproximado de la proporcin objeto de estudio es necesario


no slo para sustituirlo explcitamente en la frmula, sino tambin para establecer la precisin
deseada en la estimacin. Por ejemplo, un error absoluto del 5% podra ser admisible en la
estimacin de una proporcin
informacin, se pretendeprxima
realizar al
un50%, mientras
estudio que este
transversal paramismo error
estimar la sera claramente
inaceptable para una proporcin pequea, pongamos del 5% (o equivalentemente para una
proporcin muy grande, ya que cuando se estima una proporcin tambin se est estimando su
prevalencia de hipertensin en esta poblacin con un error absoluto del 3%
complementario). As, para determinar de antemano qu error se considera admisible, ha de
contarse con alguna informacin sobre la magnitud de , bien sea a travs de investigaciones
previas(error
o, enrelativo
informacin, sedel 10%).
pretende
su defecto, Asumiendo
realizar
de un estudio el niveltransversal
un estudio
piloto. de confianza
paraestndar la 95%, =
estimar del

0,30 y = 0,03,
prevalencia se necesitara una
estamuestra mnima deerror absoluto del 3%
Ejemplo 9.2de En
hipertensin
el estudioenpiloto poblacin
del ejemplo conanterior,
un la proporcin de hipertensos
(presin arterial sistlica 140 mm Hg) fue del 30%. En base a esta informacin, se
(error relativo
pretende delun
realizar 10%).
estudio1,Asumiendo
0,30(1 el
96transversal
2 nivel
0,para
30 de confianza
) estimar estndar del
la prevalencia de 95%, =
hipertensin en
n =
esta poblacin con un error absoluto = 896,37 897.
0,03 2 del 3% (error relativo del 10%). Asumiendo el
0,30 yde =confianza
nivel 0,03, se necesitara
estndar del una95%,muestra
= mnima
0,30 y de= 0,03, se necesitara una muestra
mnima de
Si, por el contrario, el estudio 2se diseara para estimar la prevalencia de diabetes,
1,96 0,30(1 0,30)
n= = 896,37 897.
que se asume prxima al 5%, con0,un 03 2error absoluto del 1% (error relativo del
Si, por el contrario, el estudio se diseara para estimar la prevalencia de diabetes, que se
20%),
asume elsecontrario,
requerira
Si, por prxima elunestudio
al 5%, tamao
con un semuestral
error considerablemente
absoluto
diseara del 1%
para estimar mayor
(error relativo
la prevalencia del 20%), se
de diabetes,
requerira un tamao muestral considerablemente mayor
que se asume prxima al1,96 5%,2 con un error absoluto del 1% (error relativo del
0,05(1 0,05)
n= = 1.824,76 1.825.
0,012
20%), se requerira un tamao muestral considerablemente mayor
Como se desprende de este ejemplo, para estimar fiablemente una proporcin extrema
(muy
Comopequea
se desprendeo muy de grande) se necesitar
este ejemplo, una fiablemente
para estimar muestra mayor que para estimar una
una proporcin
1,96 2 0,05(1 0,05)
proporcin cercana nal=50%. = 1.824,76 1.825.
extrema (muy pequea o muy grande) 0,012 se necesitar una muestra mayor que para
La frmula del tamao muestral presentada en este apartado se basa en la aproximacin
normal a laseuna
estimar
Como distribucin demuestral
proporcin
desprende cercana
este alde50%.
ejemplo, una
para proporcin. Aunqueunaesta
estimar fiablemente aproximacin es
proporcin
razonable en la mayora de las circunstancias, existen frmulas alternativas, tales como
las basadas en (muy
extrema la aproximacin
pequea o muy normal con correccin
grande) poruna
se necesitar continuidad o en la
muestra mayor aproximacin
que para
La frmula del tamao muestral presentada en este apartado se
de Poisson, que pueden ser tiles cuando se prev trabajar con muestras de reducido basa en la
tamao o conuna
estimar proporciones
proporcinmuy extremas.
cercana al 50%.Una descripcin y comparacin ms detallada
de los distintos mtodos de clculo delmuestral
aproximacin normal a la distribucin de una proporcin.
tamao muestral Aunque esta
puede encontrarse en la bibliografa
de este tema.
aproximacin
La frmula es delrazonable en la mayora
tamao muestral presentadade lasencircunstancias,
este apartado existen
se basa frmulas
en la
alternativas,
9.3 TAMAO
aproximacin tales como lasdistribucin
MUESTRAL
normal a la basadas
PARAen muestral
la
LAaproximacin
COMPARACIN normal DE
conMEDIAS
de una proporcin. correccin
Aunque estapor
Muchos diseos
continuidad
aproximacin esepidemiolgicos,
o en la aproximacin
razonable bien
de sean
deobservacionales
Poisson,
en la mayora que
las pueden ser(estudios
tiles
circunstancias, defrmulas
cuando
existen cohortes o de casos y
se prev
controles) o experimentales (ensayos clnicos), se realizan con un afn comparativo, donde el
objetivo
trabajar no es
con
alternativas, tanto
muestras
tales estimar
comodelas la magnitud
reducido
basadas tamao de un determinado
o con proporciones
en la aproximacin parmetro
normalmuy
conextremas.poblacional,
correccin por sino ms
Una
bien comparar parmetros entre distintas poblaciones. En tales diseos, el problema radica en
determinar
continuidadelyotamao
descripcin muestral
comparacin msmnimo
en la aproximacin detalladanecesario
de los
de Poisson, en cada mtodos
distintos
que pueden grupo dedecomparacin,
ser tiles clculosedel
cuando de tal forma
tamao
prev
que el contraste de hiptesis que se pretende realizar tenga una potencia suficiente para detectar
posibles
muestral diferencias
puede
trabajar con clnica
encontrarse
muestras o epidemiolgicamente
en la bibliografa
de reducido tamao o con esterelevantes.
de proporciones
tema. muy En extremas.
este apartado
Una se presentan

descripcin y comparacin ms detallada de los distintos mtodos de clculo del tamao


142 Pastor-Barriuso R.
muestral puede encontrarse en la bibliografa de este tema.

7
determinada
minada variable
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
equivalente,
estosestos
estimadores
estimadores
indican
indican

orqu
de valor
qu valor independientes
se agrupan
se agrupan
los datos
los datos
observados.
observados.
Las medidas
Las medidas
de tendencia
de tendencia
Tamao muestral para la comparacin de medias

de
muestra
la muestra
sirven Supongamos
sirven
tantotanto
para para quelos
resumir se resultados
resumir pretende contrastar
los resultados la hiptesis
observados
observados
comocomo paraH0: 1 = 2 de igualdad de
paranula

rencias
inferencias
acerca
acerca
de medias
laslos
de frente
frmulas del apoblacionales
parmetros la hiptesis
tamao
los parmetros alternativa
muestral
poblacionales para contrastar
correspondientes.
correspondientes. 1 2 enendos
bilateralAHdiferencias
1: A losdistribuciones
niveles mediosconde una
variable cuantitativa a partir de dos muestras dependientes o independientes.
2
nacin
se describen
se describen
los principales
los principales
igual varianza estimadores
1 = 2de
estimadores
2 2
de
= la tendencia
la tendencia
. Segn central
los central
de una
resultados de
deluna
Apartado 6.3, la distribucin

. 9.3.1 Tamao muestral para la comparacin de medias en dos muestras independientes


muestral de la diferencia de medias x1 - x 2 en muestras independientes de tamao n1 y
Supongamos que se pretende contrastar la hiptesis nula H0: 1 = 2 de igualdad de medias
edia
aritmtica n2 ser
aritmticafrente a la aproximadamente
hiptesis alternativa normalbilateral con Hmedia 2- en
1: 1 1
2 dos
= 0 bajo H0 y 1 - con
distribuciones 2 igual H1, y 12
0 bajovarianza
= 22 = 2. Segn los resultados del Apartado 6.3, la distribucin muestral de la diferencia de
tmtica,
a aritmtica,
denotada
denotada
medias x 1, se
por por
varianza x define
21, en
2
se define
+como
22 /como
/n1muestras n2laindependientes
=suma la2(1/
suma
de
n1 cada
+de1/ncada
uno
de de
unolos
2) tamao
(Figura den9.1).
1los
y nPara
2 serasegurar
aproximadamente normal con
una probabilidad
media 1 2 = 0 bajo H0 y 1 2 0 bajo H1, y varianza 12/n1 + 22/n2 = 2(1/n1 + 1/n2) (Figura
strales
muestrales
dividida
dividida
porel
9.1). por
denmero
Para elasegurar
nmero
cometer deunobservaciones
de
una observaciones
de tipo realizadas.
probabilidad
error I, la realizadas.Si denotamos
de cometer
hiptesis Si
undenotamos
nula error de tipo I,slo
se rechazar la hiptesis nula se rechazar
si el estadstico
slo si el estadstico
ao
tamao
muestral y pory xpor
muestral i el x
valor
i el valor
observado
observadopara para el sujeto i-simo,
el sujeto i-simo,
i = 1,i =
...,1,n,..., n,
x1 x 2 x1 x 2
z1 /2 z1 /2
adra
vendra
dadadada
por por x1 - x 2 -z11-/ n /21 + 11/ n/ n2 + 1 / n x1 -1x/ 2n1+z11- / /2n 2 1 / n + 1 / n .
1 2 1 2

o, equivalentemente, si la diferencia de medias


1 n 1 n x1 + x12 ++ si x...2 ++ x...n + x n
= x
o, = x i
equivalentemente,
x As, bajo la
= xxhiptesis la diferencia
= x alternativa, . de medias
.la potencia del test para detectar una diferencia
2 n z1
n /2 1 / n1 + 1 / n 2 x1 x 2 z1 /2 1 / n1 + 1 / n 2 .
i
n i =1 n i =1 1
As,subyacente 1 - 2 vendr
bajo la hiptesis dada la
alternativa, porpotencia del test para detectar una diferencia subyacente
edia
es laes
medida
la medida de2tendencia
de1tendencia
As, vendrladada
bajocentral por ms
hiptesis
central
ms alternativa,
utilizada y delayms
utilizada potencia
de ms del test para detectar una diferencia
fcilfcil
8
tacin.
n. Corresponde al subyacente
Corresponde centro
al centrode 2 vendr
1 de los
1 - gravedad
de gravedad P(
=dada
de x1por
datos
los x 2 la
datos
de de zla
muestra.
1 muestra.
/2 Su + 1 / n 2 | H1 )
1 / n1Su

mitacin
l limitacin
es que
es est
que est
muymuy
influenciada
influenciada
por los los x1 extremos
por+valores x 2 extremos
P( valores z1 y, + 1 / n 2 | H1 ).
n1 este
1este
/2 eny,/en
1 - = P( x1 - x 2 -z1- /2 1 / n1 + 1 / n 2 | H1 )
no
edeser
noun
serfiel
un reflejo
fiel reflejo
de lade
tendencia
la tendencia
central
central
de lade
distribucin.
la distribucin.
Asumiendo sin prdida de generalidad que 1 < 2 (Figura 9.1), la segunda probabilidad
+ P( x1 - x 2 z1- /2 1 / n1 + 1 / n 2 | H1 ).
H1: 1 2 H0: 1 = 2
lo
emplo
1.4 En
1.4este y ende
En este lasucesivos
ylos
en expresin
los sucesivosanterior,
ejemplos
~ejemplos
que representa
sobre sobre
estimadores el evento
estimadores de que
muestrales,
muestrales,~se
x1 se
sea apreciablemente mayor
x1 x2 N ( 1 2 , 2 (1 / n1 + 1 / n2 )) x1 x2 N (0, 2 (1 / n1 + 1 / n2 ))
Asumiendo sin prdida de generalidad que 1 < 2 (Figura 9.1), la segunda probabilidad
rn
ilizarn
los valores
los valores
delque
colesterol
del xcolesterol
HDL
2 , ser HDL
obtenidos
virtualmenteobtenidos en los
cero. en
La10 losprimeros
10 primeros
potencia sesujetos
reduce sujetos
del del a
entonces
de la expresin anterior, que representa el evento de que x1 sea apreciablemente mayor
otudio
European
EuropeanStudyStudy
on Antioxidants,
on Antioxidants, Myocardial
Myocardial Infarction
Infarctionand Cancer
and Cancer of of
1 - = P( x1 - x 2 -z1- /2 1 / n1 + 1 / n 2 | H1 )
que x 2 , ser virtualmente cero. La potencia se reduce entonces a
east
e Breast
(EURAMIC),
(EURAMIC), un estudio
un estudio
multicntrico
multicntrico de casos
de casos y controles
y controles
realizado
realizado
x x 2 ( 1 2 ) z1 / 2 1 / n1 + 1 / n 2 ( 1 2 )
tre
9911991
y 1992
y 1992
en ocho
en ocho
pasespases P x1e1 -Israel
P(
- =Europeos
1 Europeos x1e2- Israel
para
-z1- para
evaluar
/2 / nel

1evaluar + 1 / n
efecto
el |
efecto
de H los
1 )
de los H
1/ n + 1/ n 1 2
1 / n1 + 1 / n 2
1

1 2
x x 2 ( 1 2 ) z1 / 2 1 / n1 +5 1 / n52 ( 1 2 )
= P 1 | |
H1
= z11/ 2/ n+1 + 1 / n12 /2 2 , 1 / n1 + 1 / n 2

/2
1 / n1 + 1 / n 2

1 - 2 0
z | 1 2 |
=
donde la ltima igualdad + ,
de la distribucin normal de x1 - x 2 bajo la hiptesis
1 / 2se deriva
1z / n1+ 11//nn+2 1/ n
1 / 2 1 2 z1 / 2 1 / n1 + 1 / n2

alternativa.
Figura Notar que sedealcanzara
9.1 Representacin la potenciaeldel
mismo resultado
contraste si de1 >medias
bilateral 2. Esta expresin
a partir de dos muestras
Figura 9.1
donde la ltima igualdad se deriva de la distribucin normal de x1 - x 2 bajo la hiptesis
independientes.
permite determinar a posteriori la potencia de un contraste para detectar una diferencia
alternativa. Notar que se alcanzara el mismo resultado si 1 > 2. Esta expresin
Pastor-Barriuso R. 143
de medias subyacente 1 - 2 a partir de dos muestras independientes de tamaos n1 y
permite determinar a posteriori la potencia de un contraste para detectar una diferencia
n2.
continuacin sexdescriben
+ P( 1 - x 2 z1- /2 1 / n1 + 1 / n 2 | H1 ).
los principalescontinuacin
estimadores se describen
de la tendencia
los principales
central deestimadores
una

variable. Las medidas


Las medidas de tendencia
de tendencia central
variable. central
informan informan acercaacerca de cul dees culel valor
es el valor
ms rem
Asumiendo sin prdida de generalidad que 1 < 2 (Figura
Determinacin del tamao muestral
9.1), la segunda probabilidad
de unadedeterminada
una determinada variable variable
o, dicho o, dicho
de forma de forma equivalente,
equivalente, estos estos
estimadore
estim
1.2.1 Media
de la expresin anterior, aritmticael evento de que
que representa 1.2.1x1Media aritmtica
sea apreciablemente mayor
Asumiendo sin prdida de generalidad alrededor que de
alrededor 1 < qude (Figura
2 valor
qu valor 9.1),
se agrupan se la segunda
agrupan
los datos losprobabilidad
datos
observados.observados. de
Laslamedidas
Las medidasde tend
expresin anterior, La
que media
representaaritmtica,el denotada
evento
que x 2 , ser virtualmente cero. La potencia se reduce1 entonces a de por
que x La
, se
seamedia
define aritmtica,
como
apreciablemente la denotada
suma de
mayor cadapor
que unox 2, de
se los
define como
ser virtualmente cero. La potencia se reduce
central de laentonces
central de
muestrala muestraa
sirven sirven
tanto tanto
para resumirpara resumir los resultados
los resultados observados
observad co
valores muestrales dividida por el nmero valores demuestrales
observaciones dividida realizadas.
por el nmero
Si denotamos de observa
1 = P( x1 x 2 z1realizar n1 + 1inferencias
1 /inferencias
/2 realizar H1 ) acerca
/ n 2 |acerca de losdeparmetros
los parmetros poblacionales
poblacionales correspondientes
correspond
por n el tamao muestral y por xi el valor por nobservado
el tamaopara muestral el sujeto xi el valor
y pori-simo, i = observado
1, ..., n, p
x x 2 ( 1 2 ) z1 / 2 1 / n1 + 1 / n 2 ( 1 2 )
aleatoriamente= P 501 pacientes hipertensos
continuacin
continuacin
al
segrupo
describende monoterapia
se describen los principales estndar
los principales Hyestimadores
estimadores otros de la de tendencia
la tendencia
centrac
la media
1
1 /vendran1 + 1 / ndada
2 por la
1 / n
media
1 + 1 / n
vendra
2 dada por
50 pacientes de similares caractersticas variable. variable.al grupo de tratamiento combinado con el
| 1 2 |
= z + , 1 n x1 + x 2 + ... + x n 1 n x + x2 + .
nuevo frmaco. Despus de

1 / 2
4 1semanas
/ n
1.2.1 1.2.1 +
Media
1 1 / de
n
Media
x
=
2aritmtica

tratamiento,
aritmtica
n i =1
x i = la media y
n
la desviacin
. x =
n i =1
xi = 1
n
tpica de la presin
aleatoriamente arterial sistlica
50 pacientes hipertensos fueron 155 y de
al grupo 22 monoterapia
mm Hg en elestndar grupo dey otros
donde la ltima igualdad se deriva La media
deLalamedia aritmtica,
aritmtica,
distribucin denotada
normal denotadapor xpor
de 1, se xdefine
2, bajo
se definecomo como
la suma
la hiptesis la suma
de cada de uno
cadad
La media es la medida de tendencia central La media msesutilizada
la medida y de de ms
tendencia
fcil central ms ut
alternativa.
50 Notar que
monoterapia,
pacientes dey 150 se yalcanzara
similares 18 mm Hgelenmismo
caractersticas el grupoal resultado
de tratamiento
grupo si 1 > combinado.
de tratamiento 2. combinado
Esta expresin Como con el permite
determinar a posteriori la potencia de un contraste para detectar una diferencia de mediasrealizadas.
donde la ltima igualdad se valores
deriva valores
de muestrales
la muestrales
distribucin dividida dividida
normal por deel por
xnmero
1 -el x nmero
2 de
bajo observaciones
lade observaciones
hiptesis realizadas
Si d
interpretacin. Corresponde al centro interpretacin.
de gravedadCorresponde de los datos de al centro
la muestra. de gravedad
Su
subyacente 1 2 a
frmaco.
paso previo
nuevo a la partir de dos
comparacin
Despus demuestras
4 de medias,
semanas independientes
contrastade
desetratamiento, media ynde
lalatamaos
igualdad n2.
1laydesviacin
varianzas
por n por
el n
tamaoel tamaomuestral
alternativa. Notar que se alcanzara el mismo resultado si 1 > 2. Esta expresin muestraly por yx ipor
el x
valor
i el valor
observado observado para el parasujeto i-simo,
el sujeto i-si
principal limitacin es que est muy influenciada principal limitacin por los es valores
que est extremos
muy influenciada
y, en este por
mediante
tpica
Ejemplo laelpresin
de 9.3 estadstico
En unarterial
ensayosistlica fueron 155 yla22eficaciamm Hgantihipertensiva
en el grupo de de un nuevo
permite determinar a posteriori laclnico
lamedia
potencia
para
la mediavendra evaluar
de vendra
un dada por
dada por
contraste para detectar una
frmaco en combinacin
caso, puede no conserununtratamiento
fiel reflejo estndar,de lacaso,
tendencia se asignaron
puede central
no ser un de ladiferencia
aleatoriamente
fiel reflejo de50
distribucin. la tendencia cent
monoterapia, y 150 y 18 mm
pacientes hipertensos al grupo de monoterapia Hg en s el
2 grupo 2
22muestrasde tratamiento combinado.
estndar y otros 50 pacientes de similares Como
de caractersticas
medias subyacente 1 - de
al grupo 2 atratamiento
partir
F = de12 dos =combinado = 1,49, independientes
con el nuevo 1den tamaos
1 n frmaco. xx21 ++n...
x1 + Despus 1x y x...
2++de n 4 +x
paso previo a la Ejemplo
comparacin 1.4de En s este
medias, 18
y en
se
semanas de tratamiento, la media y la desviacin tpica de nlai =presin
2
2
los sucesivos
contrasta la
x =
Ejemplo
igualdad
x
ejemplos
= x
1.4
de
1 n i =1
i = x
sobre
En
varianzas
=
esteestimadores
arterial
i
y en los
n sistlica
n
. n.
sucesivos
muestrales, ejemplo
se
n2.fueron 155 y 22 mm Hg en el grupo de monoterapia, y 150 y 18 mm Hg en el grupo de
mediante
que bajo laeldistribucin
tratamiento estadstico
combinado. utilizarn de los
Como
F valores
paso
Fisher previo
con ndel acolesterol
la comparacin HDLutilizarn
1 1 = 49 y n2 1 = 49 grados de
obtenidos los valores
de medias, en se loscontrasta
10
delprimeros
colesterol
la sujetosHDL obten
del
igualdad de varianzas mediante el estadstico La media
La media
es la medida
es la medida
de tendencia
de tendencia central central
ms utilizada
ms utilizada
y de ms
y de fcil
ms
estudio [Figura
European 9.1 aproximadamente
Study on Antioxidants, aqu]
estudio Myocardial
EuropeanInfarction Study on and Antioxidants,
Cancer ofMyo
libertad, corresponde a un valor P bilateral 22P(F
s12 22Corresponde 49,49 1,49) = 20,082 = 0,164.
interpretacin.
interpretacin.
F = 2 = 2 = 1,49, Corresponde al centro
al centrode gravedad
de gravedad de los dedatos
los datos
de la demuesla
s 2 18 un estudio the
As, la comparacinthe delBreast
nivel (EURAMIC),
medio
principal principalde presin
limitacin
limitacin arterial
es queesest quemuy
Breast
multicntrico
sistlica entre
est influenciada
(EURAMIC),
de casos y controles
ambos
muy influenciada por los
un estudio
porvalores
realizado
los valores
multicntr
extremosextrey
queEjemplo 9.3 En un ensayo
bajo la distribucin F de clnico
Fisher con paranevaluar la eficacia antihipertensiva de un
1 1 = 49 y n2 1 = 49 grados de libertad,
entremediante
1991 y 1992 en ocho pases Europeos
entre muestras
1991
e Israel y 1992 paraenevaluarocho pasesel efecto Europeos
de los e Is
grupos
que bajopuede
corresponde a realizarse
un valor PF
la distribucin decaso,
Fisher
bilateral la con
2P(F
caso,
puede prueba
puede
no
49,49
t1,49)
n1ser deun
1no=Student
49
ser= un
fiel20,082 2 para
nfiel
y reflejo 1reflejo
==de0,164.
49la grados
de As,
tendencia de
la comparacin
la tendencia central central
de la de distribucin.
la distribuc
del nuevo frmaco
nivel medio en combinacin
de presin con un tratamiento
arterial sistlica entre ambosestndar, grupos puede se asignaronrealizarse mediante
independientes
libertad,
la pruebacorresponde asumiendo
t de Student a para igualdad
un valormuestras deindependientes
P bilateral varianzas,
2P(F49,49 cuyo estadstico
asumiendo
1,49) = 20,082 resulta
igualdad = 0,164. de varianzas, 5
cuyo estadstico resulta Ejemplo Ejemplo1.4 En1.4 esteEnyeste en losy ensucesivos
los sucesivos ejemplos ejemplossobresobreestimadores
estimado m
As, la comparacin del nivel medio
x1 x 2 de presin
155 150 arterial sistlica entre ambos 9
t= = utilizarn
utilizarn los valores
los valores =del 1,24,
colesterol
del colesterol HDL HDL obtenidosobtenidos
en losen10los primeros
10 prim
grupos puede realizarse mediante 1 1
la prueba t 1
de 1
Student para muestras
s + 20,1 +
n1 nestudio 2 estudio 50European
European 50StudyStudy on Antioxidants,
on Antioxidants, Myocardial
Myocardial Infarction
Infarction
and
independientes asumiendo igualdad de varianzas, cuyo estadstico resulta
donde la varianza combinada es s2 = {(50 1)222 + (50 1)182}/(50 + 50 2) = 404.
the Breastthe Breast (EURAMIC),
2 (EURAMIC), un2 estudio
undeestudio multicntrico
multicntrico de casos de casos
y controle
y co
Utilizando la distribucin
donde la varianza combinada t de es s2 = {(50
Student con 1 + n2 +
-n1)22 (50
2 = -98 grados
1)18 }/(50 50 - 2) =el valor P
+libertad,
bilateral es 2P(t98 1,24) = 20,108 x1 x 2 = 0,216; 155 esdecir,
150 los resultados del estudio no aportan
t= entre = entre
1991 1991
y 1992 en=ocho
y 1992 1,24,
en ocho
pasespases Europeos Europeos e Israel e Israel
para evaluar
para evaluar
el efe
suficiente
404. Utilizandoevidencia para afirmar
la distribucin 1 t de 1 que
Studentel tratamiento
con1 n1 + 1 n2combinado
2 = 98 grados es msde eficaz que la
monoterapia. s + 20,1 +
n1 n 2 50 50
libertad,
A partir de estosPresultados
el valor bilateral escabra 1,24) = 20,108
2P(t98preguntarse = 0,216; ambos
si en realidad es decir, los
tratamientos son
igualmente eficaces o si, por el contrario,
2
el estudio
2
carece de2
potencia suficiente para
resultados
donde la del estudio
varianza no
combinadaaportan
es s suficiente
= {(50 - evidencia
1)22 + para
(50 - afirmar
1)18 }/(50
detectar una diferencia que, aun siendo moderada o pequea, sea importante que el - 2)en= trminos
+ 50
clnicos. Si se considera clnicamente relevante una diferencia absoluta de |1 2| = 5
tratamiento
404.
mm Hg en lacombinado
Utilizando
presin es mssistlica
la distribucin
arterial eficaz que
t de Student lacon
media, monoterapia.
n 1 + n2 2 =
y asumiendo un98 grados
nivel de
de significacin =
A partir de
libertad, estos P
el valor resultados
bilateral cabra
es 2P(tpreguntarse
98 1,24) = si en realidad
20,108 ambos
= 0,216; tratamientos
es decir, los
144 Pastor-Barriuso R.

son igualmente
resultados eficaces
del estudio nooaportan
si, por el contrario,
suficiente el estudio
evidencia carece
para de potencia
afirmar que el
1 2
Por tanto, no
detectaran es sorprendente
como que elsignificativa
estadsticamente estudio anterior arrojara unreal
una diferencia resultado
de 5 mmnoHg.
asumiendo un nivel
significativo, de significacin
aunsorprendente
cuando exista =diferencia
0,05 y una desviacindetpica magnitud
= 20 mm
Por tanto, no es queuna
el estudio subyacente
anterior arrojara
Tamao
dicha
un
muestral resultado
para no de medias
la comparacin

Hgentre
en ambos
ambosgrupos, la potencia para detectar dicha diferencia en un estudio con
tratamientos.
significativo, aun cuando exista una diferencia subyacente de dicha magnitud
n1 = ny2una
0,05 = 50desviacin
sera tpica = 20 mm Hg en ambos grupos, la potencia para detectar
entre ambos tratamientos.
dicha diferencia en un estudio
Como ilustra el ejemplo anterior, n2 = 50de
conenn1el= diseo sera
un estudio es importante determinar
5
a priori
Comoqu tamao
ilustra = anterior,
1el ejemplo
muestral 96 +necesario
1,ser de un
en cada
en el diseo (de
=estudio
grupo 0,71)
es =importante
0,239. para
comparacin evitar la
determinar
20 1 / 50 + 1 / 50
aobtencin
priori qudetamao
Es decir, resultados
nicamente no 23,9%
muestral
un concluyentes poren
ser necesario falta
cada
de los estudios degrupo
con potencia. Supongamos,
de comparacin
este tamao en el
para casocomo
evitar
muestral detectaran la
estadsticamente significativa
Es decir, nicamente un 23,9% unadediferencia realcon
los estudios de 5este
mmtamao
Hg. Pormuestral
tanto, no es sorprendente
msque el estudio anterior arrojara un resultado no significativo, aunncuando
general,
obtencin de que se pretende
resultados no asignar
concluyentesdistinto
por tamao
falta de a ambas
potencia. muestras
Supongamos,2 = kn
en1,eldonde
caso una
exista
diferencia
detectaransubyacente de dicha magnitud
como estadsticamente entre ambos
significativa tratamientos.
una diferencia real de 5 mm Hg.
k es un
ms nmero
general, quepositivo prefijado.
se pretende A partir
asignar detamao
distinto la frmula de la muestras
a ambas 2 =n
potencia ncon 1, kn
2=
kn 1, y
donde
Como Porilustra
tanto, el
noejemplo anterior, que
es sorprendente en eleldiseo
estudio deanterior
un estudio es importante
arrojara determinar
un resultado no a priori
recordando
k es un que
nmero (z
positivo ) = 1 - ,
prefijado. se sigue
A partirque de la frmula
qu tamao muestral ser necesario en cada grupo de comparacin para evitar la2 obtencin
1- de la potencia con n = kn 1 y
, de
resultados no concluyentes
significativo, aun cuandopor falta
existadeuna potencia.
diferencia Supongamos,
subyacenteendeeldicha caso magnitud
ms general, que se
recordando
pretende asignarque
distinto ) = 1 - aambas
(z1-tamao , se sigue que n2|=kn1, donde
muestras k es un nmero positivo prefijado.
2 |
A partir de laambos
entre frmula de la potencia
tratamientos. z1 con
= zn12=/ 2kn+1, y recordando
1
, que (z1) = 1 , se sigue que
1 1
| + |
z1 = z1 / 2 + n1 1 kn 2
1 ,
Como ilustra el ejemplo anterior, en el diseode un 1 estudio 1 es importante determinar
+
n1 kn1
de donde
a priori puede despejarse
qu tamao muestral sern1 para obteneren cada grupo
necesario de comparacin para evitar la
de donde puede despejarse n1 para obtener
de dondedepuede
obtencin despejarse
resultados n1 para obtener
no concluyentes
que corresponde al tamao necesario 1por
(k + en z1falta
)( la primera
de potencia.
/ 2 + z 1muestra
)
2 2 Supongamos, en el caso
y n2 = kn1 al de la segunda
n1 = 2
,
msmuestra.
general,En que k ( tamao
1 2 )a ambas 2 muestras n2 = kn1, donde
el se pretende
caso asignar
particular de que distinto
(k + 1)( z1 / 2 + z1 ) 2 tamao
se desee un mismo muestral en ambos
que corresponde al tamao necesario n 1 = en la primera muestra ,
y n = kn1 al de la segunda muestra.
k esgrupos kde( la 2 ) 2 de la 2potencia
1 frmula 2 = kn1k
con ngrupos
En eluncaso
nmero
= 1,positivo
kparticular prefijado.
de que
ste vendr se desee A partir
determinado un mismo
por tamao muestral en ambos , y= 1, ste
vendr determinado por 11
recordando que (z1-) = 1 - , se sigue que
2( z1 / 2 + z1 ) 2 2 11
n1 = n 2 = 2
.
( | 1 2 ) |
z1 = z1 / 2 + 1 2
,
La asignacin de igual tamao a ambas muestras 1 es,1 en general, ms eficiente ya que da
lugar aLaunasignacin
menor tamao totaltamao
de igual del estudio.
a ambas No obstante,
muestras
n1 kn
+ es, hayensituaciones
general, ms prcticas en ya
eficiente lasque
que es
1
preferible seleccionar muestras de distinto tamao, aun cuando ello conlleve un aumento de la
muestra totalapara
da lugar alcanzar
un menor la misma
tamao totalpotencia;
del estudio. tal esNo el caso
obstante,de loshay estudios donde la
situaciones disponibilidad
prcticas en
de sujetos
de donde puede despejarse
o los costes difierenn1 entre
para obtener
los grupos, o cuando se requieren estimaciones ms precisas
en uno de los
las que grupos. Adems
es preferible de estas
seleccionar consideraciones,
muestras de distinto en el clculo
tamao, del tamao
aun cuando ellomuestral
conlleve para
la comparacin de medias es necesario determinar previamente los siguientes elementos:
(k + 1)( z1 / 2 + z1 ) 2 2
un aumento de la muestra
yy El nivel de significacin total para alcanzar
n1 = del contraste bilateral, la misma potencia;
,
que tal es ellacaso
representa de los
probabilidad de
k ( ) 2
rechazar errneamente la hiptesis nula1 y se2establece usualmente en = 0,05.
estudios donde la disponibilidad de sujetos o los costes difieren entre los grupos, o
yy La potencia 1 del contraste, que determina la probabilidad de detectar hiptesis
alternativas
cuando ciertasestimaciones
se requieren y se fija habitualmente
ms precisas en en 1 uno =de 0,80 losgrupos.
0,90. Adems de estas 11
yy La varianza poblacional . En la determinacin del tamao muestral suele asumirse que
2

consideraciones, en el clculo
la varianza es comn para ambosdel tamao
grupos, muestral
ya que para la comparacin
generalmente de medias
se carece es
de informacin
previa suficiente para determinar una varianza especfica en cada uno de los grupos.
necesario determinar previamente los siguientes elementos:
yy La diferencia mnima detectable |1 2|. El tamao muestral ser tanto mayor cuanto
menor sea la diferencia que se pretende detectar. La magnitud de esta diferencia debe ser
El nivel de significacin del contraste bilateral, que representa la probabilidad

de rechazar errneamente la hiptesis nula y se establece usualmente en = 0,05.


Pastor-Barriuso R. 145

La potencia 1 - del contraste, que determina la probabilidad de detectar


= 0,80 para detectar posibles diferencias de dicha magnitud. Asumiendo que se
potencia suficiente para detectar una diferencia subyacente de 5 mm Hg en la
pretende
Determinacin asignar
del tamao el mismo
muestral nmero de pacientes a ambos brazos del ensayo
presin arterial sistlica media de los hipertensos bajo monoterapia y tratamiento
clnico, un nivel de significacin = 0,05 y una desviacin tpica = 20 mm Hg
combinado, se planea realizar un nuevo ensayo clnico que tenga una potencia 1 -
un valor plausible basado en conocimientos previos, o bien relevante desde el punto de
similar
vista a la del
clnico estudio anterior, el tamao muestral necesario en cada uno de los
= 0,80 parao detectar
epidemiolgico.
posibles diferencias de dicha magnitud. Asumiendo que se
grupos
Ejemplo sera
9.4 Dado que elnmero estudiodedescrito en aelambosejemplo anterior careca de potencia
pretende asignar el mismo pacientes brazos del ensayo
suficiente para detectar una diferencia subyacente de 5 mm Hg en la presin arterial
sistlica
clnico, unmedianiveldede2(los hipertensos
zsignificacin
0 , 975 + z 0 ,80 )
2
bajo
2
= 0,05 2monoterapia
(1,y96una ,84)y2 20
+ 0desviacin tratamiento
2
tpica combinado,
= 20 mm Hg se planea
n
realizar un = n
1 nuevo 2 = =
ensayo clnico2 que tenga una potencia 2 1 ==250,88
0,80 para 251,
detectar posibles
( 1 2 ) 5
diferencias
similar a la de deldicha
estudio magnitud.
anterior,Asumiendo
el tamao muestral que se pretende
necesario asignar
en cadael uno
mismo nmero de
de los
pacientes a ambos brazos del ensayo clnico, un nivel de significacin = 0,05 y una
desviacin
para
gruposunasera
muestra = de
tpica total 20 251mm+Hg 251similar= 502 apacientes.
la del estudio Supongamos, anterior,porel el
tamao muestral
necesario en cada uno de los grupos sera
contrario, que el tratamiento combinado con el nuevo 2frmaco es muy costoso y
2( z 0,975 Para ) 2 2 2el(1problema,
+ z 0,80concretar ,96 + 0,84)supongamos 20 2 que se dispone de n pares de observac
n1 = n2 = 2
= = 250,88 251,
que se decide estudiar( la1 mitad 2 ) de sujetos bajo tratamiento 52 combinado que bajo
de una variable aleatoria continua. En cada pareja de datos dependientes, una
9.3.2 Tamao muestral para la comparacin de medias en dos muestras
para una muestra
monoterapia total esto
estndar; de 251 es, +n2251 = 0,5n = 5021. En pacientes.
tal caso, Supongamos,
el tamao muestral por el contrario, que
para
el una muestra
tratamiento totalobservacin
combinado de 251 con +el251 x1=corresponde
nuevo 502
frmacopacientes.esamuy
laSupongamos,
primera
costosomuestra porse
y que yella otra observacin
decide estudiar x2 a la segu
dependientes
la mitad de
necesario ensujetos
el grupo bajo de tratamiento
monoterapiacombinado sera que bajo monoterapia estndar; esto es,
9.3.2 Tamao
ncontrario,
= 0,5n . muestral
que
En el
tal caso, para
tratamiento
muestra.
el lacombinado
tamaocomparacin
El muestral
objetivo con se de medias
elcentra
nuevo
necesario enen en
el dos
frmaco
comparar
grupo muestras
es muy
las
de costoso
medias
monoterapia y sera
poblacionales 1 y 2 a par
Supongamos
2 1
que se planea seleccionar n parejas de datos dependientes procedentes de
dependientes
que se decide estudiarestas la 5 +dos
(0,mitad 1)(1de
,96sujetos
muestras ) 2 20tratamiento
+ 0,84dependientes.
bajo 2
combinado que bajo
n =
dos poblaciones para contrastar la hiptesis
1 2 nula H :=376,32
= 377a la hiptesis
frente
0,5 5 0 1 2
Supongamos
monoterapia queestndar;
se planeaesto seleccionar
Los n2 = 0,5n
es,procedimientosn parejas de caso,
datos el
1. En desarrollados
tal dependientes
tamao procedentes
en el muestral
Apartado 6.3 nodepueden aplicarse a est
y en el grupo de tratamiento
alternativa bilateral H1: 1 2. Como se discuti combinado n 2 = 0,5376,32
en el Apartado 6.4, la media de las total
= 188,16 189. El nmero
de pacientes
dosynecesario
en el grupo
poblaciones en elnecesarios
degrupo
para tratamiento
contrastar
de para el estudio
combinado
la hiptesis
monoterapia
situacin, ya quesera lassera
nnula entonces
= 0,5376,32
2 mediasH0: de 2=377
1 =ambas + 189
188,16
frente a la
muestras = no
189.566;sonesindependientes
El
hiptesis decir, 64 por proven
pacientes ms de los requeridos en el caso
diferencias en cada pareja d se distribuir de forma aproximadamente normal N(0, de igual tamao muestral para alcanzar una
misma potencia.
nmero
alternativa total de pacientes
bilateral H1: observaciones
1 necesarios
2. Como se para el2 estudio
correlacionadas.
discuti en sera
Sin entonces
2 el Apartado embargo, 377
6.4, la + 189
lamedia de=las se simplifica notabl
comparacin
( 0,5 + 1 )(1 ,96 + 0 , 84 ) 20
d2 /n) bajo H0 y N(1n1- =2, d2 /n) bajo 0 ,5
H12, donde d2= es
5
376,32 377 de las diferencias.
la varianza
566;
diferenciases decir, 64
en muestral pacientes
cada pareja si se
d se ms de
calculan loslas requeridos
diferencias
distribuir de forma end el
= caso
x - x
aproximadamente de
2 enigual tamao
cadanormal las n observaciones empar
unadependientes
deN(0,
9.3.2 Tamao para la comparacin de medias en1 dos muestras
Para un nivelpara
muestral de significacin
alcanzarPor unaun preestablecido,
misma
lado, potencia. el contraste arrojar un resultado
Supongamos
d2 y/n)enbajo que
H0 yseN(
el grupo deplanea
1 - 2,seleccionar
tratamiento
d2 /n) bajocomo
combinado nlas
nHparejas
1, donde
distintas
de datos
2 parejas
d es la varianza
2 = 0,5376,32
no estn
dependientes
= 188,16 de relacionadas
procedentes
las
189. diferencias.
El deentre
dos s, estas diferen
poblaciones para contrastar la hiptesis nula H0: 1 = 2 frente a la hiptesis alternativa bilateral
H1significativo
: 1 nmero
. Como cuando
total
la media
se discuti son deApartado
las diferencias
en independientes.
el 6.4, el
la estudio
Pormedia de
otro lado, lasladiferencias
media de377 en+diferencias
las cada
189pareja
= 13 d se coincide con la
Para un2 nivel de de pacientes
significacin necesarios para
preestablecido, sera
el contraste entonces
arrojar un resultado
distribuir de forma aproximadamente normal N(0, d /n) bajo H0 y N(1 2, d /n) bajo H1,
2 2

donde d2 esesladecir,
566;
significativo varianza
cuando ddiferencia
lademedia
las
64 pacientes diferencias.
-z
ms
de /2de
1-las de /medias
dlos Para dmuestrales,
un
nrequeridos
diferencias nivel
z1-en dcaso
/2de
el significacin
/ n de preestablecido, el
. igual tamao
contraste arrojar un resultado significativo cuando la media de las diferencias
muestral para alcanzar una misma potencia. 1 n , la potencia
1 n
Por tanto, asumiendo como d en zel apartado anterior que
1/2 d / n d z1d/2 =d1 /< n2d. i = ( x i1para x i 2detectar
)
n i =1 n i =1
Por tanto, asumiendo como en anterior que 1 igual < 2n, ala potencia 13 una
una diferencia de medias 1 -el
2apartado
ser aproximadamente para detectar
Por tanto, 1
quea=1 < 2,xla 1 n
diferencia deasumiendo
medias 1 como enaproximadamente
2 ser el apartado anterior igual i1 potencia
xi 2para= x1detectar
x2
n i =1 n i =1
una diferencia1de = P( d 1 -
medias z12ser / n | H1 )
/2 d aproximadamente igual a
dy,en( consecuencia,
1 2 ) z1d / es n ( 1 insesgado
d / estimador
2 un 2) de la diferencia de medias
= P H1
1 - = P(d -zd 1-//2 n d / n | H1) d / n

poblacionales 1 - 2. As, el problema de la comparacin de medias en dos mues
| |
= d z1(/ 12 + 2 )1 2z1 ./ 2 d / n ( 1 2 )
= P dependientes
/ n reducido
queda a una simple H1
inferencia sobre la media de una nica
/ n d d / n
d
muestra de n diferencias independientes.
146 Pastor-Barriuso R. | 1 2 |
= z1Los +
/ 2 mtodos del Apartado . 6.2.1 para la media de una muestra pueden entonces
/ n que
Como por definicin (z 1-) = 1 - ,sed sigue
utilizarse para calcular un intervalo de confianza al 100(1 - )% para 1 - 2 com
| 2 |
= z1 / 2 + 1 .
d / n
Tamao muestral para la comparacin de medias
( z1 / 2 + z1 ) 2 d2
n= .
Como por definicin (z1-) = 1 - , se sigue 2) 2
( 1 que
Como por definicin (z1) = 1 , se (sigue + z1 ) 2 d2
z1 / 2que
n= .
En la prctica, resulta difcil determinar 2) 2
( 1 directamente
| 2 | la varianza de las diferencias
z1 = z1 / 2 + 1 ,
d / n
dEnyalaque
2
los datos
prctica, de una
resulta misma
difcil pareja estn
determinar correlacionados.
directamente Asumiendo
la varianza igual
de las diferencias
de donde puede despejarse n para obtener el nmero mnimo de parejas que sern necesarias
parade2 donde puede
detectar
varianza una
2 despejarse
endiferencia nmisma
para obtener
subyacente y un el nmero
estn
1 coeficiente
mnimo
2 concorrelacionados.
unadepotencia de
1 parejas
, entreque lossern
d ya que los datos
ambas depoblaciones
una pareja correlacin Asumiendo igual
valores de
2 2
( z1 / 2 + z1 ) d
necesarias
una misma 2para detectar
pareja, la una diferencia
varianza de n =
las subyacente
diferencias 1 -determinada
viene . 2 con una potencia
segn los ,
1 -resultados
varianza en ambas poblaciones y un ( ) 2 de correlacin entre los valores de
coeficiente
1 2

dellaApartado
En
una prctica,
misma 3.4
pareja,por
resulta difcil determinar
la varianza directamente
de las diferencias vieneladeterminada
varianza de segn
las diferencias d2 ya que
los resultados
En la
los datos deprctica,
una mismaresulta difcil
pareja determinar
estn directamente
correlacionados. la varianza
Asumiendo igualdevarianza
las diferencias
en ambas
2

poblaciones
del Apartadoy un3.4
coeficiente
por de correlacin
2 2 entre los valores de una misma pareja, la varianza
2 2 2 14
d = + - 2 = 2 (1 - ).
de las
d2 diferencias viene de
ya que los datos determinada
una mismasegnparejalos resultados
estn del Apartado
correlacionados. 3.4 por igual
Asumiendo
2 2 2 2 2
d = + 2 = 2 (1 ).
As, el nmero
2 de parejas necesarias tambin puede
varianza en ambas poblaciones y un coeficiente de correlacin expresarse como
entre los valores de
As, el nmero de parejas necesarias tambin puede expresarse como
As, misma
una el nmero de parejas
pareja, necesarias
la varianza de 2las tambin
( z1diferencias puede
viene
2 2expresarse
determinada como
segn los resultados
/ 2 + z1 ) (1 )
n=
( 1 2 ) 2
del Apartado 3.4 por
2( z1 / 2 + z1 ) 2 2 (1 )
que, adems de los parmetros n=
descritos en de la correlacin
ensayo
que, ademsclnico
de emparejado
los parmetros donde, enel apartado
(lugar de ) 2anterior,
2 asignar depende
distintos pacientes a ambos entre
2 =descritos
2 + no
cada pareja de datos. Si el emparejamiento d
2 en1 el 2apartado
- es
2efectivo,
= 2 de 2 anterior, depende de la
(1tal
- forma
). que est prximo a 0, el
nmero de parejas
grupos, cada necesarias
paciente espara un estudio
sometido a laSiemparejado
monoterapiaser aproximadamente
estndar durante igual al nmero
un primer
correlacin
que, adems
de sujetos entre
de
por grupo cada
lospara unpareja
parmetros
estudio de datos.
descritos
con enelelemparejamiento
muestras apartado anterior,
independientes no es efectivo,
depende
(notar =de0,tal
que side la la frmula
As,
anterior el nmero
se reduce de parejas necesarias tambin puede expresarse como
periodo de 4a semanas
la obtenida y alentratamiento
el caso de muestras
combinado independientes
con el nuevodel mismodurante
frmaco tamao). Si, por
forma queel entre
correlacin
el contrario, est prximo
cada pareja
emparejamiento a 0,es elefectivo,
de nmero
datos. Sideel parejas
los necesarias
emparejamiento
datos de cada parejanopara un estudio
es efectivo,
estarn de tal
correlacionados
positivamente
un segundo y, enperiodo
consecuencia,
de igualelduracin.
2nmero
( z1 / 2 de
+Sezparejas
asume ser
(1 substancialmente
que la )desviacin tpica inferior
de la al nmero
1 ) de
2 2
emparejado
de forma
sujetos que ser
requeridos aproximadamente
en cadaagrupo
est prximo 0,n el deigual
= nmero al nmero
un estudio
de sujetos bajo
independiente
parejas necesarias por
para grupo
las
un para un
mismas
estudio estudio
condiciones.
(1 2 ) 2
presin arterial sistlica bajo ambos tratamientos es 20 mm Hg, y que el
conEjemplo
muestrasser
emparejado independientes
9.5 Con objeto (notar
aproximadamente que sialla
igual
de asegurar =comparabilidad
0, la de
nmero frmula
sujetos anterior
por sepacientes
grupo
de los reduce
para un a hipertensos
la
estudio
que,bajo monoterapia
coeficiente
adems dedelos y tratamiento
correlacin
parmetros entre combinado, en el se
las determinaciones
descritos decide disear
apartado tomadas
anterior, undepende
ensayo
en clnico
un mismo emparejado
de lasujeto
obtenida
condonde, en
muestras el caso
en lugar de muestras
de asignar (notar
independientes independientes
distintos del
si = 0, alaambos
quepacientes mimo
frmula tamao).
grupos,
anterior Si,
cada por el
se paciente contrario,
reduce aes la sometido
a la monoterapia
con un intervalo
correlacin entre cada estndar
de 4pareja
semanas durante un primer
es aproximadamente
de datos. periodo
Si el emparejamiento de
0,50. Para 4 semanas
no esdetectar y al
unade tal
efectivo, tratamiento
el emparejamiento
combinado
obtenida casoeles
en el con efectivo,
denuevo
muestrasfrmacolos datos
durante
independientesde cada pareja
un segundo
del mimo estarn
periodo
tamao). correlacionados
de igual
Si, porduracin.
el contrario,Se asume
que
forma la desviacin
diferencia subyacente
que est tpica
prximode de la
5 mm
a 0, presin
Hg en de
el nmero arterial
la presinsistlica
parejas arterial bajo
necesarias ambos
sistlica
para un tratamientos
media al final de20 mm
estudio es
positivamente y, en
Hg, y que el coeficiente
el emparejamiento consecuencia,
es efectivo, el
de correlacin nmero
los datos deentre de
cada lasparejas ser substancialmente
determinaciones
pareja tomadas en
estarn correlacionados inferior
un mismo
sujeto con un
ambos tratamientos
emparejado intervalo de 4
con una potencia
ser aproximadamente semanas
igual de es aproximadamente
0,80 y undenivel
al nmero sujetos 0,50.
de significacin
por grupo paraPara
deun detectar
estudiouna
0,05,
al nmero de sujetos
diferencia subyacente
positivamente requeridos
de 5 mm Hg
y, en consecuencia, en cada grupo
en la presin
el nmero de un
de parejas estudio
arterial independiente
sersistlica bajo
media al final
substancialmente las
de ambos
inferior
con tratamientos
elmuestras
nmero de con una potencia
sujetos necesarios
independientes (notarende 0,80
que este y un nivel
si estudio de
= 0, laemparejadosignificacin
frmula anterior de 0,05,
sera se reduce a lael nmero de
mismas
al nmero condiciones.
parejas necesarias sera
de sujetos requeridos en cada grupo de un estudio independiente bajo las
obtenida en el caso de muestras
2(1,96 + independientes
0,84) 2 20 2 (1 0del
,50)mimo tamao). Si, por el contrario,
mismas condiciones. n = = 125,44de los
126;pacientes
Ejemplo 9.5 Con objeto de asegurar 52 la comparabilidad
el emparejamiento es efectivo, los datos de cada pareja estarn correlacionados
es decir, la mitad
hipertensos
Ejemplo 9.5bajo
Condemonoterapia
los sujetos
objeto que seran
y tratamiento
de asegurar necesarios en de
combinado,
la comparabilidad cada
selosuno
decidededisear
los grupos
pacientes un de un
es decir,nolaemparejado
positivamente
diseo mitad de los(Ejemplo
sujetos el
y, en consecuencia, que seran de
nmero
9.4). necesarios en cada
parejas ser uno de los grupos
substancialmente de
inferior
hipertensos bajo monoterapia y tratamiento combinado, se decide disear un
al un diseo
Lanmero de no
determinacin emparejado
sujetos tamao (Ejemplo
del requeridos
muestral 9.4).
en cada grupo
para de un estudio
la comparacin de independiente
medias en ms bajo lasmuestras
de dos 15
dependientes o independientes sigue argumentos similares a los descritos en este apartado. No
mismas condiciones.
La determinacin del tamao muestral para la comparacin de medias en ms de dos 15 Pastor-Barriuso R. 147

muestrasEjemplo
dependientes o independientes
9.5 Con siguelaargumentos
objeto de asegurar similares
comparabilidad a los
de los descritos en
pacientes
aproximacin
en el Apartadonormal
9.2.2, alas
la frmulas
distribucin muestral
descritas de una proporcin
a continuacin y, en consecuencia,
se fundamentan en la

sern vlidas
aproximacin
Determinacin siempre
del tamao muestralque
normal (1 - ) 5 muestral
a landistribucin en ambosdegrupos de comparacin.
una proporcin En las
y, en consecuencia,

referencias de siempre
sern vlidas este temaque
pueden
n(1 -consultarse otros mtodos
) 5 en ambos alternativos
grupos de de clculo
comparacin. En las del
obstante, para preservar la incertidumbre global del proceso de inferencia, es necesario utilizar
tamao muestral
referencias particularmente
de este tema pueden tiles para laotros
consultarse comparacin
mtodos de proporciones muy del
tcnicas de correccin por las mltiples comparaciones que se alternativos de clculo
pretendan realizar en el anlisis
(por ejemplo, un ensayo clnico en el que se comparan varios tratamientos frente a placebo). Estos
extremas
tamao en muestras
muestral reducidas. tiles para la comparacin de proporciones muy
particularmente
mtodos pueden consultarse en los libros de tamao muestral referenciados al final del tema.
extremas
9.4.1 en muestras
Tamao muestral reducidas.
para la comparacin de proporciones en dos muestras
9.4 TAMAO MUESTRAL PARA LA COMPARACIN DE PROPORCIONES
independientes
9.4.1 Tamao muestral para la comparacin de proporciones en dos muestras
En esta seccin se aborda el problema de la determinacin del tamao muestral en estudios
observacionales
El o ensayos
propsito se
independientes centra enclnicos donde
contrastar se pretende
la hiptesis nulacontrastar diferencias
de igualdad entre proporciones
de proporciones
a partir de dos muestras dependientes o independientes. Al igual que en el Apartado 9.2.2, las
frmulas descritas
poblacionales
El propsito Ha0centra
se : continuacin
1 = en
2 frentesea fundamentan
contrastarla la
hiptesis
hiptesis en la aproximacin
alternativa
nula Hnormal
bilateral de
de igualdad : 1 a2laa partir
1proporciones distribucin
de
muestral de una proporcin y, en consecuencia, sern vlidas siempre que n(1 ) 5 en
ambos
dos grupos deindependientes
muestras
poblacionales comparacin. En
delas
H0: 1 = 2 frente a referencias
tamaos n1 y nde
la hiptesis este tema bilateral
pueden
2. Del Apartado
alternativa 7.3consultarse
1 2otros
se1:desprende
H quemtodos
lade
a partir
alternativos de clculo del tamao muestral particularmente tiles para la comparacin de
proporciones
diferencia muy
de
dos muestras extremas enmuestrales
proporciones
independientes muestras
de tamaos reducidas.
p1 -np12yseguir
n2. Delaproximadamente una distribucin
Apartado 7.3 se desprende que la

normal N(0,demuestral
diferencia
9.4.1 Tamao (1 - )(1/npara
proporciones 1 + 1/n
la2)) bajo H
muestrales
comparacin p10 -ypN( 1 -proporciones
2, aproximadamente
2 seguir
de 1(1 - 1)/n en1 + 2(1
dos - distribucin
una 2)/n2) bajo
muestras
independientes
Hnormal
1, donde =(n
N(0, (11-1)(1/n
+ n212+ 1/n
)/(n 1+ 2) es H
2))nbajo y N(1 - 2,combinada
la0proporcin 1(1 - 1)/nque 2(1
1 + se - 2)/n
asume 2) bajo
comn a
El propsito se centra en contrastar la hiptesis nula de igualdad de proporciones poblacionales
H11, =
H0:ambos =bajo
grupos
donde
2 frente (na1la
H1+ nEl2contraste+ n2resultar
2)/(n1 alternativa
0.hiptesis ) es la proporcin Hcombinada
significativo
bilateral 1: para
1 un que
2 anivelseasume
partir cuando
de doscomn a
lamuestras
independientes de tamaos n1 y n2. Del Apartado 7.3 se desprende que la diferencia de
proporciones
diferencia
ambos grupos de bajo Hp0.1 El
muestrales
proporciones pcontraste
2 seguir aproximadamente
muestrales resultar significativo una distribucin
para un nivelnormal N(0,la(1 )
cuando
(1/n1 + 1/n2)) bajo H0 y N(1 2, 1(1 1)/n1 + 2(1 2)/n2) bajo H1, donde = (n11 + n22)/
n2) es la proporcin
(n1 +diferencia de proporcionescombinada que se asume comn a ambos grupos bajo H0. El contraste
muestrales
p - p
resultar significativo para un nivel cuando
1 2 -z 1- /2 (la )(1 / n1 +de
1 diferencia n2 )
1 /proporciones muestrales

p1 p2 z1 /2 (1 )(1 / n1 + 1 / n 2 )
o
o
o
p1 p2 z1 /2 (1 )(1 / n1 + 1 / n 2 ) .

As, asumiendo sin prdida de


p1generalidad (11 <
- p2 z1-/2 que 21, /lan1potencia
)( + 1 / n 2 ) para
. detectar una diferencia
As, asumiendo sin prdida de generalidad que
de proporciones subyacente 1 2 vendr determinada por
1 < 2 , la potencia para detectar una

As, asumiendo
diferencia1de = sin
P( pprdida
proporciones de generalidad
subyacente 1 - que 1 < determinada
2 vendr 2, la potenciapor
para detectar una
1 p2 z1 /2 (1 )(1 / n1 + 1 / n 2 ) | H1 )


diferencia de proporciones psubyacente
1 p 2 (
1 1-22 )vendr determinada por
= P
(1 ) / n + (1 ) / n
1 1 1 2 2 2

17
z1 / 2 (1 )(1 / n1 + 1 / n 2 ) ( 1 2 )
H1
/ 2

1 (1 1 ) / n1 + 2 (1 2 ) / n 2 17

| 2 | z1 / 2 (1 )(1 / n1 + 1 / n 2 )
= 1 .
1 (1 1 ) / n1 + 2 (1 2 ) / n 2

148 Si las limitaciones


Pastor-Barriuso R. prcticas determinan de antemano el tamao muestral disponible

para un estudio o si el estudio ya ha sido llevado a cabo, la frmula anterior permitir


Tamao muestral para la comparacin de proporciones

Si las limitaciones prcticas determinan de antemano el tamao muestral disponible para un


estudio o si el estudio ya ha sido llevado a cabo, la frmula anterior permitir calcular la potencia
estadstica que tendra dicho estudio con la muestra disponible para detectar diferencias de una
determinada magnitud.

Ejemplo 9.6 Se planea realizar un estudio de cohortes para evaluar la asociacin entre
el =
uso de anticonceptivos
0,00750. Aplicando laorales
regla ydeellariesgo de cncer
probabilidad de (vase
total mama Apartado
en mujeres2.4),
entre la 40 y 49
aos. Para ello, se dispone de una cohorte de 6.000 mujeres en este rango de edad sin
evidencia
relacinbasal
entrede cncer
esta de mama,combinada
probabilidad que sern seguidas
de cncerdurante
de mamaun en
periodo decohorte
toda la 5 aos para
determinar casos incidentes de la enfermedad. Se estima que un 40% de estas mujeres han
utilizado regularmente especficas
y las probabilidades anticonceptivos oralesdeyexposicin
por grupo que la tasavendr
de incidencia
dada porde cncer de
mama en este grupo de edad es de I = 150 casos por 100.000 personas-ao. Para un nivel
de significacin = 0,05, cul sera la potenciacde este estudioc
para detectar un hipottico
= P(D) = P(E)P(D|E) + P(E )P(D|E )
aumento del riesgo de cncer de mama del 50% entre las usuarias de anticonceptivos
orales?
= 0,40 1 + 0,60 2 = 0,401,50 2 + 0,60 2 = 1,20 2 ,
Asumiendo una tasa delaincidencia
= 0,00750. Aplicando regla de laconstante
probabilidaden los 5 aos
total (vasedeApartado
seguimiento,
2.4),lalaincidencia
acumulada o probabilidad de desarrollar un cncer de mama en esta cohorte durante los
ya queentre
prximos
relacin se
5 estima
aos que aproximadamente
estasera un 40% de
probabilidad las mujeres
combinada de son
= IA usuarias
5 = 0,001505
cncer de mama de anticonceptivos
=
en0,00750. Aplicando la
toda la cohorte
regla de la probabilidad total (vase Apartado 2.4), la relacin entre esta probabilidad
orales
combinada
y las y que
de cncer
probabilidades de mama1por
la probabilidad
especficas endetoda
padecer
grupo ladeun cncer
cohorte y las
exposicin devendr
mama dada
entrepor
probabilidadeslasespecficas
usuarias es por
grupo de exposicin vendr dada por
un 50% superior a la probabilidad 2 entre clas no usuarias.c
As, la probabilidad de
= P(D) = P(E)P(D|E) + P(E )P(D|E )
desarrollar un cncer
= 0,40de mama en los 5 aos de seguimiento sera 2 = /1,20 =
1 + 0,60 2 = 0,401,50 2 + 0,60 2 = 1,20 2 ,

ya0,00750/1,20
que se estima=que un 40%
0,00625 de las mujeres
entre sonyusuarias
no usuarias deanticonceptivos
1 = 1,50 2 = 1,500,00625orales
= y que
la que se estima1que
yaprobabilidad de padecer
un 40% un de cncer de mama
las mujeres entre lasde
son usuarias usuarias es un 50% superior a
anticonceptivos
la 0,00938
probabilidad
entre las
2 entre
usuarias de anticonceptivos orales. Como se espera que un
las no usuarias. As, la probabilidad de desarrollar n1 =cncer de
mama
orales en los la
y que 5 aos de seguimiento
probabilidad sera un
1 de padecer /1,20 de
2 = cncer = 0,00750/1,20
mama entre las = 0,00625
usuariasentre
es las
usuarias y =12.400
no0,406.000 = 1,50 = 1,500,00625
mujeres
2 = 0,00938 entre las usuarias de anticonceptivos
de la muestra sean usuarias de estos anticonceptivos y
orales. Como se espera que n1 = 0,406.000 = 2.400 mujeres de la muestra sean usuarias
un 50% superior a la probabilidad 2 entre las no usuarias. As, la probabilidad de
delas
estos anticonceptivos
restantes y las restantes
n2 = 0,606.000 = 3.600 non2 usuarias,
= 0,606.000 = 3.600denoeste
la potencia usuarias,
estudiolasera
potencia
de este estudio sera
desarrollar un cncer de mama en los 5 aos de seguimiento sera 2 = /1,20 =
| 0,00938 0,00625 | 1,96 0,00750(1 0,00750)(1 / 2.400 + 1 / 3.600)
1 = = 0,00625 entre las no usuarias y 1 = 1,502 = 1,500,00625 =
0,00750/1,20
0,00938 (1 0, 00938 ) / 2 .400 + 0, 00625(1 0, 00625) / 3. 600

0,00938 entre las usuarias de anticonceptivos orales. Como se espera que n1 =
0,00313 1,96 0,00227
= = ( 0,56) = 0,287;
0,00237
0,406.000 = 2.400 mujeres de la muestra sean usuarias de estos anticonceptivos y
es decir, la probabilidad de detectar un hipottico incremento del riesgo de cncer de
las restantes n = 0,606.000 = 3.600 no usuarias, la potencia de este estudio sera
mama del 50%2 entre las usuarias y no usuarias de anticonceptivos orales sera nicamente
es decir, la probabilidad de detectar un hipottico incremento del riesgo de cncer
del 28,7% a partir de una cohorte de 6.000 mujeres seguidas durante 5 aos.
| 0,00938 0,00625 | 1,96 0,00750(1 0,00750)(1 / 2.400 + 1 / 3.600)
1de- mama
= del 50% entre las usuarias y no usuarias de anticonceptivos orales sera

La expresin anterior de,00938
0 la potencia
(1 0, permite
00938 ) / asimismo
2 .400 + 0, determinar
00625 (1 0, a priori) /la3.muestra
00625 600
mnima

que sernicamente
necesaria endelcada uno de
28,7% los grupos
a partir de unapara alcanzar
cohorte una potencia
de 6.000 mujeres preestablecida
seguidas durante 1 5 en
la deteccin de una diferencia subyacente de proporciones 1 2. En general, si se prev asignar
0,00313 1,96 0,00227 sigue a partir de la frmula de la potencia que
distinto aos.
tamao= aambas muestras n2 = kn1, se = (-0,56) = 0,287;
0,00237

La expresin anterior de la potencia permite asimismo determinar a priori laPastor-Barriuso


muestra R. 149
es decir, la probabilidad de detectar un hipottico incremento del riesgo de cncer
mnima que ser necesaria en cada uno de los grupos para alcanzar una potencia
de mama del 50% entre las usuarias y no usuarias de anticonceptivos orales sera
2 | 1 2 | z1 / 2 (1 ) + 2 1
n1 kn1
2. Endegeneral, z1- = asignar distinto tamao a ambas muestras n = kn , se sigue a
si sedeprev
partir la frmula la potencia que 1 (1 1 ) 2 (1 2 ) 2 1
Determinacin del tamao muestral +
n kn1
partir de la frmula de la potencia que 1
1 1
| 1 2 | z1 / 2 (1 ) +
(k + 1) (1n1 ) kn1
z1- = | 1 2 | z1 / 2 1 1
| 1 2|1(1z
1 /12) (12 (kn
1)1 2 ) +
= + n1 kn , 1
z1 = k 1 (1 n1 1 ) + 2 (1 kn 12 )
1 (1 kn 1) 2 (1 2 )
1 +
n1 kn
(k + 1) (11 )
| 1 2 | z1 / 2
de tal forma que el tamao muestral requerido ser
= | | z (k + 1kn
)1(1 ) ,
1
k 1 (1 1 ) + 2 (1 kn
2 1 / 2
21 )
= ,
( z1 / 2 (k + 1) (1k1(1) +z1kn 1 k(11
1) + (1
) 1 ) + 2 (1 2 ) )
2

n1 = 2 2

k ( 1kn1 2 ) 2
de tal forma que el tamao muestral requerido ser
de en
tal la
forma que muestra
el tamao y nmuestral requerido ser
primera 2 = kn1 en la segunda muestra, donde la proporcin combinada
de tal forma que el tamao muestral requerido ser
( z1 / 2 (k + 1) (1 ) + z1 k 1 (1 1 ) + 2 (1 2 ) ) 2
en ambas muestrasn1 = viene dada por = (n11 + n22)/(n + n2) = (1 + k2)/(1 + k). En el
k ( 1 2 ) 2 1
( z1 / 2 (k + 1) (1 ) + z1 k 1 (1 1 ) + 2 (1 2 ) ) 2
en caso de asignar
la primera n1 =
igualytamao
muestra n2 = kna1 ambos grupos de
en la segunda comparacin k = 1, el tamao muestral
k ( 1 muestra,
2 ) 2 donde la proporcin combinada en
ambas muestras viene dada por
en la primera muestra y n2 = kn1 en la = (n + n
1 1segunda )/(n
2 2 muestra,1 + n2) donde= (1 +lak 2)/(1 + k). combinada
proporcin En el caso de
en cada
asignar una
igual de las amuestras
tamao ambos grupos se reduce a
de comparacin k = 1, el tamao muestral en cada una de
las en
muestras
enambas se
la primera reduce
muestra
muestras a
viene 2 = kn
y ndada 1 en
por la
= segunda
(n11 + nmuestra,
22)/(n1 +donde n2) = la(1proporcin
+ k2)/(1 +combinada
k). En el
( z1 / 2 2 (1 ) + z1 1 (1 1 ) + 2 (1 2 ) ) 2
en ambas
caso muestras
de asignar n 2 viene
n1 =igual =tamao dada por =grupos
a ambos (n11 +den2comparacin
2)/(n1 + n2) =k =(1, 2)/(1
1 +elktamao k). En el
, + muestral
( 1 2 ) 2
caso
en cadade una
asignar
de lasigual tamaoseareduce
muestras ambosagrupos de comparacin k = 1, el tamao muestral
donde la proporcin combinada es = (1 + 2)/2. Como se coment anteriormente, la asignacin
de donde
igual tamao a las dos
la proporcin muestras
combinada es es
=ms
( + eficiente
2)/2. Como al requerir un menor
se coment tamao total
anteriormente, la del
en cada una de las muestras se reduce a 1
estudio para alcanzar una (misma z1 / 2 potencia.
2 (1 )Sin
+ zembargo,
1 1 (1 en
el1 )diseo
+ 2 (1de
determinados
2) )
2 estudios
(verasignacin
ejemplos de n1igual
= n 2 tamao
= la aseleccin
posteriores), de muestras
las dos muestras es ms de2 eficiente
distinto altamao
requerir un, menor
puede resultar ms
factible en trminos de coste 1 2)
( pacientes.
( z1odisponibilidad de En cualquier caso, 2la determinacin
/ 2 2 (1 ) + z1 1 (1 1 ) + 2 (1 2 ) )
deltamao
tamaototal n1 =estudio
muestral
del npara
2 = lapara
comparacin
alcanzar unade proporciones
misma potencia. en muestras
Sin embargo, en ,el diseoprecisa
independientes
( 1 2 ) 2
de los
dondesiguientes elementos:
la proporcin combinada es = (1 + 2)/2. Como se coment anteriormente, la
de determinados estudios
yy El nivel de significacin (ver ejemplos
del posteriores),
contraste bilateral, que la seleccin de muestras
suele establecerse pordeconvenio en
donde
asignacinla proporcin
= 0,05. combinada
de igual tamao dos muestras
a las es = (1 + es 2)/2.
ms Como se coment
eficiente anteriormente,
al requerir un menor la
distinto tamao puede resultar ms factible en trminos de coste o disponibilidad de
yy La potencia 1 para detectar hiptesis alternativas ciertas. La mayora de los estudios
asignacin
tamao totalde
deligual tamao
estudio paraaalcanzar
las dos muestras
una misma es potencia.
ms eficiente al requerirenunelmenor
Sin embargo, diseo
se disean con una potencia 1 = 0,80 0,90.
ydey Las
tamao proporciones poblacionales
total del estudios
determinados estudio para 1 una
(ver alcanzar
ejemplos 2misma
yposteriores),
. A diferencia de Sin
potencia. la comparacin
la seleccin embargo, en de
de muestras medias, no
eldediseo
es suficiente con determinar la diferencia de proporciones que se pretende detectar, sino
deque
distinto estamao
necesario
determinados especificar
estudios
puede (verla
resultar magnitud
ejemplos
ms aproximada
posteriores),
factible lade
en trminos esta
costeproporcin
seleccin
de o de en cada
muestras
disponibilidad grupo
de de 20 de
comparacin, para contar as con un valor aproximado de las varianzas poblacionales
1) y 2(1
1(1 tamao
distinto 2).resultar ms factible en trminos de coste o disponibilidad de
puede

Ejemplo 9.7 Como se vio en el ejemplo anterior, una cohorte de 6.000 mujeres carece
de potencia suficiente para detectar un hipottico incremento del 50% en la incidencia
20
acumulada de cncer de mama en 5 aos entre las mujeres usuarias y no usuarias de
anticonceptivos orales. Segn los clculos del ejemplo anterior, la incidencia acumulada
20
en este periodo en una cohorte de mujeres entre 40 y 49 aos ser aproximadamente
= 0,00750, siendo 1 = 0,00938 y 2 = 0,00625 las respectivas incidencias acumuladas

150 Pastor-Barriuso R.
aos ser aproximadamente = 0,00750, siendo 1 = 0,00938 y 2 = 0,00625 las
mujeres usuarias de estos anticonceptivos y n2 = 1,510.202,55 = 15.303,82
respectivas incidencias acumuladas en usuarias y no usuarias. Como se prev que
Tamao muestral para la comparacin de proporciones
15.304 no usuarias. As, para detectar un aumento subyacente del riesgo de cncer
la cohorte est compuesta de un 40% de mujeres usuarias de anticonceptivos
de mama del 50% entre las usuarias de anticonceptivos orales con una potencia de
en usuarias
orales y no de
y un 60% usuarias. Comosesetiene
no usuarias, prev que
que n2 la cohorte
= 1,5n est compuesta
1. Asumiendo de de
un nivel un 40% de
0,80, se precisara de una cohorte inicial de 25.507 mujeres seguidas durante untiene que
mujeres usuarias de anticonceptivos orales y un 60% de no usuarias, se
nsignificacin
2 = 1,5n1. Asumiendo
= 0,05 un nivel
y una de significacin
potencia =se0,05
1 - = 0,80, y una potencia 1 = 0,80, se
necesitaran
necesitaran
periodo de 5 aos.
(1,96 2,5 0,00744 + 0,84 1,5 0,00929 + 0,00621 ) 2
n1 =
El tamao necesario de la cohorte se reducira si el seguimiento del estudio se
1,5(0,00938 0,00625) 2
extendiera, por ejemplo, hasta
= 10.202,55 los 10 aos, ya que el nmero esperado de eventos
10.203
mujeres usuarias de estos anticonceptivos y n2 = 1,510.202,55 = 15.303,82 15.304 no
aumentara considerablemente.
usuarias. As, Siguiendo
para detectar un aumento argumentos
subyacente similares
del riesgo a los del
de cncer deejemplo
mama del 50%
entre las usuarias de anticonceptivos orales con una potencia de 0,80, se precisara21de una
anterior, la incidencia
cohorte inicial acumulada
de 25.507 mujeresen toda ladurante
seguidas cohorteun
durante 10 de
periodo aos sera =
5 aos.
El tamaoy necesario
0,01500, de la cohorte
las incidencias se reducira
acumuladas si elentre
especficas seguimiento del estudio
las usuarias se extendiera,
y no usuarias
por ejemplo, hasta los 10 aos, ya que el nmero esperado de eventos aumentara
considerablemente.
de Siguiendo
anticonceptivos orales argumentos
seran similares
1 = 0,01875 y 2 =a 0,01250,
los del ejemplo anterior, la incidencia
respectivamente. La
acumulada en toda la cohorte durante 10 aos sera = 0,01500, y las incidencias
acumuladas
cohorte especficas
necesaria entreentonces
consistira las usuarias
en y no usuarias de anticonceptivos orales seran
1 = 0,01875 y 2 = 0,01250, respectivamente. La cohorte necesaria consistira entonces en

(1,96 2,5 0,01478 + 0,84 1,5 0,01840 + 0,01234 ) 2


n1 =
1,5(0,01875 0,01250) 2

= 5.061,27 5.062
usuarias de anticonceptivos orales y n2 = 1,55.061,27 = 7.591,90 7.592 no usuarias; es
decir, 12.654 mujeres seguidas a lo largo de 10 aos.
usuarias de anticonceptivos orales y n2 = 1,55.061,27 = 7.591,90 7.592 no
de la poblacin de referencia, la proporcin de utilizacin de anticonceptivos
Ejemplo es
usuarias; 9.8decir,
Dado que la
12.654 realizacin
mujeres seguidasde una loestudio
largo de prospectivo
10 aos. requerira de una gran
cantidad de personas-ao de seguimiento para obtener un nmero2suficiente
orales entre las mujeres del grupo control ser aproximadamente = 0,40. Ade casos de
de la poblacin
cncer de mama,deresultar
referencia,
mslaviable
proporcin
llevar adecaboutilizacin
un estudio de anticonceptivos
de casos y controles. En tal
partir de la expresin del odds ratio en estudios de casos
caso, el propsito se centrar en seleccionar un nmero suficiente de y controles (vase
casos y controles
Ejemplo
para 9.8 las
oralesdetectar
entre Dado queratio
unmujeres
odds ladel
realizacin
grupo
de de
deun
control
cncer estudio
ser
mama =prospectivo
aproximadamente
1,50 entre las requerira
usuarias
2 = deyAuna
0,40. no usuarias
Apartado 7.6.2), se tiene que
de anticonceptivos orales con una potencia 1 = 0,80. Si los controles seleccionados
gran
partircantidad
constituyen de personas-ao
una muestra
de la expresin de seguimiento
representativa
del odds ratio para
de la poblacin
en estudios obtener
de casos un nmero
ydecontroles
referencia, suficiente
la proporcin de
(vase
utilizacin de anticonceptivos P( E | Dorales
) P( E c | entre
D c ) las 1 (1mujeres
2 ) del grupo control ser
de casos de cncer
aproximadamente de =mama,

Apartado 7.6.2), se 2tiene que =
0,40. resultar
A partir dems
la viable=
expresin llevar
del aodds , ratio
cabo un estudio de de casos y
en estudios
P( E | D c ) P( E c | D) 2 (1 1 )
controles (vase Apartado 7.6.2), se tiene que
casos y controles. En tal caso, el propsito se centrar en seleccionar un nmero
P( E | D) P( E c | D c ) 1 (1 2 ) ,
de donde puede despejarse = la proporcin =
1 de mujeres que han usado
suficiente de casos y controles | D c detectar
P( Epara ) P( E c | Dun) odds 1 1de
2 (ratio ) cncer de mama =
anticonceptivos
de donde puede orales entre la
despejarse losproporcin
casos de cncer
1 de de mamaque
mujeres comohan usado anticonceptivos
1,50 entre las usuarias y no usuarias de anticonceptivos orales con una potencia 1
orales entre
de donde los casos
puede de cncer
despejarse de mama como
la proporcin 1 de mujeres que han usado

- = 0,80. Si los controles 2


seleccionados 1,50 0,40 una muestra representativa
constituyen
1 =entre
anticonceptivos orales = cncer = 0,50.
1 + ( 1) 2 1 + 0,50de
los casos de 0,mama
40 como
22
2 1,50 0,40
1 =
Para un nivel de significacin estndar = = 0,05 y asumiendo
= 0,50.la seleccin del
1 + ( 1) 2 1 + 0,50 0,40
mismo nmero de casos que controles, de tal forma que la proporcin combinada
Para un nivel de significacin estndar = 0,05 y asumiendo la seleccin del
Pastor-Barriuso R. 151
= (1 + 2)/2 = (0,50 + 0,40)/2 = 0,45, el nmero necesario de casos y controles
mismo nmero de casos que controles, de tal forma que la proporcin combinada
Para un nivel de significacin estndar = 0,05 y asumiendo la seleccin del

mismo
Determinacin del nmero de casos
tamao muestral que controles, de tal forma que la proporcin combinada

= (1 + 2)/2 = (0,50 + 0,40)/2 = 0,45, el nmero necesario de casos y controles


Para un nivel de significacin estndar = 0,05 y asumiendo la seleccin del mismo
nmero de casos que controles, de tal forma que la proporcin combinada = (1 + 2)/2
sera
= (0,50 + 0,40)/2 = 0,45, el nmero necesario de casos y controles sera
(1,96 2 0,45(1 0,45) + 0,84 0,50(1 0,50) + 0,40(1 0,40) ) 2
n1 = n2 =
(0,50 0,40) 2
= 386,90 387,
para una muestra total de 774 mujeres.
Supongamos
para que,total
una muestra dadadela774
bajamujeres.
incidencia de cncer de mama, la disponibilidad de casos
incidentes de esta enfermedad en la poblacin es limitada y, por tanto, se decide reclutar el
doble de controles
Supongamos que de
que, dada lacasos. As, n2 = 2n
baja incidencia de1 ycncer
la proporcin combinada
de mama, ser = (
la disponibilidad de1 + k2)/
(1 + k) = (0,50 + 20,40)/3 = 0,43. La muestra necesaria estara entonces compuesta por
casos incidentes de esta enfermedad en la poblacin es limitada y, por tanto, 2se
(1,96 3 0,43(1 0,43) + 0,84 2 0,50(1 0,50) + 0,40(1 0,40) )
n1 = 2
decide reclutar el doble de controles 2que de casos.
(0,50 0,40)As, n2 = 2n1 y la proporcin
= 289,17 290
combinada ser = (1 + k2)/(1 + k) = (0,50 + 20,40)/3 = 0,43. La muestra
casos de cncer de mama y n2 = 2289,17 = 578,33 579 controles libres de la enfermedad.
necesaria
El tamao estara entonces
total sera compuesta
290 y+ pores decir, 95 mujeres ms de las requeridas en un
casos de cncer de mama n579 = 869;
2 = 2289,17 = 578,33 579 controles libres de la
estudio con el mismo nmero de casos que controles.
enfermedad. El tamao total sera 290 + 579 = 869; es decir, 95 mujeres ms de
9.4.2Tamao muestral para la comparacin de proporciones en dos muestras dependientes
las requeridas en un estudio con el mismo nmero de casos que controles. 23
Supongamos que se pretende contrastar la hiptesis nula H0: 1 = 2 frente a la hiptesis alternativa
bilateral H1: 1 2 a partir var( pde n parejas de datos dependientes. Para simplificar la exposicin,
b - pc ) = var( pb ) + var( pc) - 2 cov( pb , pc )
supondremos adems que se trata de un estudio de casos y controles emparejados uno a uno,
9.4.2 Tamao
donde muestrallas
1 y 2 representan para la comparacin
respectivas de proporciones enexpuestos
dos muestras
proporciones
b (1 b ) poblacionales
c (1 c ) 2de
b c a un determinado
factor antecedente entre casos y controles. = Como+las parejas concordantes + reflejan una misma
dependientes
exposicin en caso y control, la hiptesis nulan de igualdad de n proporciones n en un diseo emparejado
es equivalente a H0: b = c, donde b es la proporcin de parejas discordantes con el caso expuesto
Supongamos que se pretende contrastar
y c es la proporcin de parejas discordantes ( bla+ hiptesis
) ( nula
H )
con el control expuesto.
c b c 0
2
: 1= 2 frente
Segn la anotacin
la hiptesis
de la Tabla
= ,
7.6, las proporciones muestrales de ambos tipos de n pares discordantes sern pb = b/n y pc = c/n.
alternativa
Estas proporciones H1: 1 obviamente
bilateralestarn 2 a partir correlacionadas,
de n parejas de datos de taldependientes.
forma que el valor Para esperado de la
diferencia ser E(pb pc)negativa
= b centre
y su varianza (vase Apartado 3.4) , p ) = - /n. As, la
donde la
simplificar lacovarianza
exposicin, supondremospbadems y pc viene que dada pordecov(p
se trata b
un estudioc
de bcasos
c
y
var( pb pc ) = var( pb ) + var( pc) 2cov( pb , pc )
diferencia en la proporcin muestral de parejas discordantes pb - pc seguir
controles emparejados uno a uno, donde b(11
y 2 )representan
b c (1 c las
) respectivas
2
= + + b c
n (b +nc)/n) nH y N( - , {( +
aproximadamente
proporciones una distribucin
poblacionales de expuestos a un N(0,
normal determinado factor
2
bajo
antecedente
0 b entre
c b
( + c ) ( b c )
2 = b ,
) - ( -
casosc y controles.
b c) }/n) bajo H .
Como las 1parejas concordantesnreflejan una misma exposicin en
dondeParala covarianza
un nivel negativa
de entre pby, pelc viene
significacin dadaarrojar
contraste por cov(pun , pc) = bsignificativo
/n. As, la diferencia
caso y control, la hiptesis nula de igualdad de proporciones enb resultado
un diseo cemparejado
en la proporcin muestral de parejas discordantes pb pc seguir aproximadamente una
donde la covarianza N(0, ( negativa
+ c)/n)entre pbHy pyc viene
N(b dada por cov(p
c, {( b, pc) = -b2c/n. As, la
distribucin
cuando normal bajo b + c) (b c) }/n) bajo H1.
es equivalente a H0: b = cb, donde b es la proporcin
0
de parejas discordantes con el
Para un nivelen
diferencia delasignificacin , el contraste
proporcin muestral arrojar
de parejas un resultado
discordantes pb - psignificativo
c seguir
cuando
caso expuesto y pbc espla proporcin ( bde+ parejas
c ) / n discordantes
pb pc z1con el
( control expuesto.
c z1 /2 /2 b + c)/n .
aproximadamente una distribucin normal N(0, (b + c)/n) bajo H0 y N(b - c, {(b +
Segn la notacin de la Tabla 7.6, las proporciones muestrales de ambos tipos de pares
152 Asumiendo
Pastor-Barriuso c)2prdida
c) - (R.b - sin }/n) bajodeHgeneralidad
1. que b < c, la probabilidad del segundo evento
discordantes sern pb = b/n y pc = c/n. Estas proporciones estarn obviamente
Para un nivelbajo
ser despreciable la hiptesis
de significacin , el contraste
alternativa y laarrojar
potencia unpodr
resultado significativo
entonces aproximarse
correlacionadas, de tal forma que el valor esperado de la diferencia ser E(p - p ) = -
Asumiendo sin prdida de generalidad que b < c, la probabilidad del segundo evento
Tamao muestral para la comparacin de proporciones

ser despreciable bajo la hiptesis alternativa y la potencia podr entonces aproximarse

mediante sin prdida de generalidad que b < c, la probabilidad del segundo evento ser
Asumiendo
despreciable bajo la hiptesis alternativa y la potencia podr entonces aproximarse mediante

1 = P( pb pc z1 / 2 ( b + c ) / n | H1)

p b p c ( b c ) z1 / 2 ( b + c ) / n ( b c )
= P H1
{( + ) ( ) 2 } / n {( b + c ) ( b c ) 2 } / n
b c b c

| b c | z1 / 2 ( b + c ) / n
= .
{( + ) ( ) 2 } / n
b c b c

A partir de esta expresin, se sigue que el nmero total de parejas necesarias para alcanzar una
potencia 1 es
A partir de esta expresin, se sigue que el nmero total de parejas necesarias para
( z1 / 2 b + c + z1 ( b + c ) ( b c ) 2 ) 2
n =
alcanzar una potencia 1 - es ,
( ) 2
b c

para cuyo clculo se precisa de una idea aproximada de las probabilidades de obtener ambos
paradecuyo
tipos clculo
parejas se precisa de
discordantes b una
y cidea aproximada
. Aunque losprobabilidades
de las
son pocos de obtener
diseos emparejados donde se
cuenta con informacin a priori de estas probabilidades, las siguientes consideraciones generales
pueden
ambos resultar tiles
tipos de parejas prctica. Si elbemparejamiento
en ladiscordantes y c. Aunque sonnopocos fueralos
efectivo,
diseospongamos por
ejemplo un estudio de casos y controles donde las variables de emparejamiento no estuvieran 25
asociadas
emparejadoscon la exposicin
donde se cuenta principal, el nivel ade
con informacin exposicin
priori de estas sera entonces virtualmente
probabilidades, las
independiente entre caso y control, de tal forma que la proporcin esperada de parejas con el
caso expuestoconsideraciones
siguientes y el control no expuesto
generalessera
pueden 1(1 tiles
b =resultar 2) y con
en laelprctica.
control expuesto
Si el y el caso
no expuesto c = 2(1 1), para una proporcin total de pares discordantes b + c = 1(1 2)
+ emparejamiento
2(1 1). En tal no caso,
fuera puede
efectivo,probarse
pongamosquepor el ejemplo
nmero un necesario
estudio de casos
parejasy coincidira
aproximadamente con el nmero de sujetos por grupo en un estudio de casos y controles
independientes;
controles donde resultado esperable
las variables siempre que seno
de emparejamiento empareje
estuvieranporasociadas
caractersticas
con lairrelevantes.
Por el contrario, si el emparejamiento fuera efectivo, esto es, si los factores pronsticos
empleados
exposicin en principal,
el emparejamiento
el nivel deestuvieran
exposicinasociados con la exposicin
sera entonces virtualmentea independiente
estudio, los casos y
controles se asemejaran en su nivel de exposicin, induciendo as una correlacin positiva en
entre caso ydecontrol,
la exposicin de taldeforma
cada pareja caso que la proporcin
y control. Las parejasesperada de parejas
discordantes con entonces
seran el caso menos
probables b + c < 1(1 2) + 2(1 1) y, en consecuencia, para obtener un nmero suficiente
de expuesto
pares discordantes para
y el control noelexpuesto
anlisis, sera b = total
el nmero 2parejas
1(1 -de ) y con habra de ser
el control superiory al
expuesto el nmero
de sujetos por grupo en un estudio independiente. En general, la comparacin de proporciones
en caso
muestras emparejadas
no expuesto c = tiene menor
2(1 - potencia
1), para que la comparacin
una proporcin total de pares cruda de proporciones
discordantes b + c en
muestras independientes, pero mayor validez interna al controlar los posibles sesgos derivados
de =los1factores
(1 - 2) +deconfusin utilizados en el emparejamiento.
2(1 - 1). En tal caso, puede probarse que el nmero necesario de parejas

Ejemploaproximadamente
coincidira 9.9 En el estudiocondeel casos
nmero y de
controles
sujetos independientes
por grupo en undel ejemplo
estudio anterior,
de casos
cabra esperar que la edad media de los casos sea superior a la de los controles ya que la
incidencia
y controles de cncer de mama
independientes; aumenta
resultado con la edad.
esperable Adems,
siempre como
que se la edadpor
empareje est inversamente
relacionada con el uso de anticonceptivos orales, esta variable podra provocar una
confusin negativa
caractersticas en la asociacin
irrelevantes. a estudio,
Por el contrario, si elde tal forma que elfuera
emparejamiento oddsefectivo,
ratio obtenido de la
esto es,
comparacin cruda de casos y controles independientes tendera a infraestimar el potencial
efecto
si los nocivo
factores del uso deempleados
pronsticos anticonceptivos orales en el riesgo
en el emparejamiento de cncerasociados
estuvieran de mama.con la

exposicin a estudio, los casos y controles se asemejaran en su nivel de exposicin,


Pastor-Barriuso R. 153
induciendo as una correlacin positiva en la exposicin de cada pareja de caso y

control. Las parejas discordantes seran entonces menos probables b + c < 1(1 - 2) +
Determinacin del tamao muestral

Para evitar esta posible confusin, se decide disear un estudio de casos y controles
emparejados, donde cada caso de cncer de mama se empareja aleatoriamente con un
control de su misma edad. Como consecuencia de este emparejamiento por edad, se
inducira un cierto grado de correlacin positiva en la utilizacin de anticonceptivos de
cada pareja. As, la proporcin esperada de pares discordantes sera inferior a 1(1 2) +
2(1 1) = 0,50(1 0,40) + 0,40(1 0,50) = 0,50, donde 1 = 0,50 y 2 = 0,40 son las
proporciones poblacionales de usuarias de anticonceptivos orales entre casos y controles
obtenidas del ejemplo anterior. Asumiendo una correlacin moderada, podra establecerse
a priori una proporcin aproximada de parejas discordantes b + c = 0,40. Para un
hipottico odds ratio de cncer de mama = b/c = 1,50, se esperara entonces una
proporcin de parejas
necesarias para condicho
detectar el control
efectousuario depotencia
con una 1 - = 0,80
anticonceptivos orales y elnivel
y un caso de
no usuario
c = (b + c)/( + 1) = 0,40/2,50 = 0,16, y con el caso usuario y el control no usuario
b = c = 1,500,16
significacin = 0,24.
= 0,05 sera As, el nmero total de parejas necesarias para detectar dicho
efecto con una potencia 1 = 0,80 y un nivel de significacin = 0,05 sera

(1,96 0,24 + 0,16 + 0,84 (0,24 + 0,16) (0,24 0,16) 2 ) 2


n=
(0,24 0,16) 2
= 487,64 488,
con lo que se tendran aproximadamente 0,40488 = 195 pares discordantes para el anlisis.
Notar que el nmero de parejas requeridas para este estudio sera mayor que los 387 casos
yconcontroles
lo que senecesarios en el correspondiente
tendran aproximadamente estudio
0,40488 independiente
= 195 (Ejemplo
pares discordantes para9.8). No
obstante, el anlisis emparejado de casos y controles de igual edad eliminara la posibilidad
de sesgos por
el anlisis. diferencias
Notar de edadde
que el nmero entre casos
parejas y controles.
requeridas para este estudio sera

El clculo del tamao


mayor que los 387 muestral puede extenderse
casos y controles a laen
necesarios comparacin de tres oestudio
el correspondiente ms proporciones
en muestras dependientes o independientes. Aunque las frmulas se derivan siguiendo
procedimientos similares
independiente a los 9.8).
(Ejemplo aqu descritos, suelen
No obstante, emplearse
el anlisis mtodos de
emparejado de casos
correccin
y del nivel
de significacin para preservar la probabilidad global de obtener un resultado significativo
entre las mltiples
controles comparaciones
de igual que selapretendan
edad eliminara realizar
posibilidad (ver referencias
de sesgos bibliogrficas).
por diferencias de edad

9.5REFERENCIAS
entre casos y controles.
1. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and
ElAnalysis
clculo of
delCohort
tamaoStudies.
muestralLyon: International
puede extenderse Agency for Research
a la comparacin on Cancer,
de tres o ms 1987.
2. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977.
proporciones
3. Desu MM, enRaghavarao
muestras dependientes o independientes.
D. Sample Size Methodology. Aunque
Boston: las frmulas
Academic se 1990.
Press,
4. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley &
derivan siguiendo procedimientos similares a los aqu descritos, suelen emplearse
Sons, 1986.
5. FleissdeJL,
mtodos Levin B, del
correccin MC.deStatistical
Paiknivel Methods
significacin forpreservar
para Rates andlaProportions,
probabilidadThird Edition.
global
New York: John Wiley & Sons, 2003.
6. Lemeshow
de obtener S, Hosmer
un resultado DW, Klar J,entre
significativo Lwanga SK. Adequacy
las mltiples of Sampleque
comparaciones Sizese
in Health Studies.
New York: John Wiley & Sons, 1990.
pretendan
7. realizar
Levy PS, (ver referencias
Lemeshow S. Samplingbibliogrficas).
of Populations: Methods and Applications, Third Edition.
New York: John Wiley & Sons, 1999.
8. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
9.5 REFERENCIAS
9. Silva LC. Diseo Razonado de Muestras y Captacin de Datos para la Investigacin
Sanitaria. Madrid: Daz de Santos, 2000.
1. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The
154 Pastor-Barriuso R.
Design and Analysis of Cohort Studies. Lyon: International Agency for Research

on Cancer, 1987.
TEMA 10

CORRELACIN Y
REGRESIN LINEAL SIMPLE

10.1INTRODUCCIN

En el Tema 6 se discutieron las tcnicas estadsticas adecuadas para comparar los niveles medios
de una variable continua en dos grupos de sujetos definidos segn la presencia o ausencia de
una determinada caracterstica dicotmica; esto es, la dependencia entre una variable continua
y otra dicotmica. Asimismo, en el Tema 7 se presentaron distintos procedimientos para
determinar la existencia o no de asociacin entre dos variables dicotmicas. Queda pendiente,
por tanto, describir los mtodos necesarios para evaluar la relacin entre dos variables continuas.
En este tema se presentan el coeficiente de correlacin y la regresin lineal simple como las
dos tcnicas estadsticas ms utilizadas para investigar la relacin entre dos variables continuas
X e Y. Como veremos ms adelante, ambos procedimientos estn estrechamente relacionados,
aunque obedecen a estrategias de anlisis un tanto diferentes. Por un lado, el coeficiente de
correlacin determina el grado de asociacin lineal entre X e Y, sin establecer a priori ninguna
direccionalidad en la relacin entre ambas variables. Por el contrario, la regresin lineal simple
permite cuantificar el cambio en el nivel medio de la variable Y conforme cambia la variable X,
10.2 COEFICIENTE
asumiendo implcitamenteDE X es la variable explicativa o independiente e Y es la variable
queCORRELACIN
respuesta o dependiente.
Como ya se anticip en el Apartado 3.4, el parmetro ms utilizado para medir la
10.2 COEFICIENTE DE CORRELACIN
asociacin lineal entre dos variables aleatorias X e Y es el coeficiente de correlacin
Como ya se anticip en el Apartado 3.4, el parmetro ms utilizado para medir la asociacin
poblacional
lineal xy, que sealeatorias
entre dos variables define como
X e Y es el coeficiente de correlacin poblacional xy, que
se define como
cov( X , Y ) E{( X x )(Y y )}
xy = = ,
x y x y

donde x y y son las respectivas medias poblacionales de X e Y y x y y son sus correspondientes


desviaciones
donde x ytpicas
y son poblacionales. El numerador
las respectivas medias del coeficiente
poblacionales de X e Y de
y correlacin
x y y son sus cov(X, Y) =
E{(X x)(Y y)} es la covarianza poblacional entre ambas variables y se define como la
esperanza del producto
correspondientes de las desviaciones
desviaciones de cada variable
tpicas poblacionales. respecto de del
El numerador su media. As, sidevalores
coeficiente
altos (o bajos) de X tienden a asociarse con valores altos (o bajos) de Y, el producto de las
desviaciones
correlacin(xcov(X, =y)E{(X
x)(yY) tender
- xa)(Y
ser-positivo
y)} es lay la covarianzapoblacional
covarianza ser positiva. Por ambas
entre el contrario,
si valores altos de una variable se relacionan con valores bajos de la otra variable, el producto
de variables
las desviaciones tender
y se define comoa laseresperanza
negativo dely laproducto
covarianza serdesviaciones
de las negativa. Nodeobstante,
cada resulta
complicado determinar el grado de asociacin lineal entre dos variables a partir de la magnitud
de variable
la covarianza, ya que
respecto de susta depende
media. As, de las unidades
si valores de bajos)
altos (o medidadedeX las variables.
tienden a asociarse
Al dividir la covarianza por el producto de las desviaciones tpicas de X e Y, el coeficiente de
con valores
correlacin poblacional carecededeY,unidades
altos (o bajos) el producto de las desviaciones
y permanece - x)(y
inalterable(xante - y) tender
cambios a o
de origen
escala en cualquiera de las dos variables. Puede comprobarse, adems, que la covarianza entre
X eser positivo
Y es y lavalor
menor en covarianza
absolutoserquepositiva. Por de
el producto el contrario, si valores
sus desviaciones altosy,de
tpicas en una
consecuencia,

variable se relacionan con valores bajos de la otra variable, el producto de las


Pastor-Barriuso R. 155

desviaciones tender a ser negativo y la covarianza ser negativa. No obstante, resulta


comprendido entre -1 y 1. En el caso extremo de que xy = 1, las variables
Correlacin y regresin lineal simple
estandarizadas Zx = (X - x)/x y Zy = (Y - y)/y verifican que (vase Apartado 3.4)
comprendido entre -1 y 1. En el caso extremo de que xy = 1, las variables
el coeficiente de var(Z x - Zy) =
correlacin var(Zx)est
siempre + var(Z y) - 2cov(Z
comprendido x, Zy)1
entre = 2(1 xyel) =caso
y 1. -En 0; extremo de que
xy estandarizadas
= 1, las variables (X - x)/x y ZyZ=x =
Zx =estandarizadas (Y(X- y)/xy)/
verifican que (vase Apartado 3.4)
x y Zy = (Y y)/y verifican que (vase
Apartado 3.4)
es decir, Zx - Zy es una variable aleatoria degenerada (constante) en su valor esperado, Zx
var(Zx Zy ) = var(Zx ) + var(Zy ) 2cov(Zx , Zy ) = 2(1 xy ) = 0;
- Zy = E(Zx - Zy) = 0, lo que implica que las variables X e Y presentan una relacin lineal
es decir, Zx Zy es una variable aleatoria degenerada (constante) en su valor esperado, Zx Zy =
es
x Zy) =
E(Zpositiva Z0, Zy que
x - lo
decir, perfecta, esYuna variable
=implica quealeatoria degenerada
las variables X e Y (constante)
presentan una en su valor esperado,
relacin Zx
lineal positiva
y + y/x(X - x). De igual forma, si xy = -1, se cumple que
perfecta, Y = y + y/x(X x). De igual forma, si xy = 1, se cumple que
- Zy = E(Zx - Zy) = 0, lo que implica que las variables X e Y presentan una relacin lineal
var(Zx + Zy ) = var(Zx ) + var(Zy ) + 2cov(Zx , Zy ) = 2(1 + xy ) = 0
positiva
y, por Z + Z esY una
tanto,perfecta, = yvariable
+ y/x(X - x). De
aleatoria igual forma,
constante igual si xyvalor
a su = -1,esperado,
se cumpleZque + Z = E(Z
x y x y x
+ Zy, por tanto, Zx + Zsey es
y) = 0, de donde
una variable
deduce que lasaleatoria
variablesconstante igual a su
X e Y presentan unavalor linealZxnegativa
esperado,
relacin + Zy
y/
perfecta, Y = y var(Z (XZy) =xvar(Z
x x+ ). Cuando xy =y) 0,
x) + var(Z se dicex, que
+ 2cov(Z Zy) =las2(1
variables
+ xy) = estn
0 linealmente
= E(Zx + Zy) = 0, ya
incorrelacionadas de que
donde noseexiste
deduce que laslineal
relacin entreXambas
variables e Y presentan unaNotar
variables. relacin
que si dos
variables son estadsticamente independientes, en el sentido de que el conocimiento del valor
y,toma
por negativa
tanto, + Zyno
Zx perfecta,
esaporta
una
Y =variable
ninguna aleatoria
(X - x).constante igual a sudevalor esperado, Zentonces
x + Zy
quelineal una variable y - y/xinformacin sobre
Cuando el = 0,
xy valorse dice que
la otra las variables
variable,
estn incorrelacionadas; pero que la incorrelacin no implica necesariamente independencia, ya
E(Zvariables
=las
queestn x + Zy) = 0, de donde se deduce que las variables X e Y presentan una relacin
incorrelacionadas
podran
linealmente presentar una dependencia no lineal
ya que no existe aun cuando
relacin xy =ambas
lineal entre 0.
El coeficiente
lineal negativa de correlacin
perfecta, ypermite,
- y/son
Y =variables por
- tanto, cuantificar = 0,elsegrado
x). Cuando xy independientes,
x(X estadsticamente
de asociacin
dice que lineal
laselvariables
variables. Notar que si dos
entre dos variables, de tal forma que cuanto ms prximo est el coeficiente de correlacin a 1 en sentido
1,
estnmayor ser la dependencia
linealmente incorrelacionadaslineal positiva
ya queunanoovariable
negativa
existe entre lineal
relacin las variables. Este hecho se
entre informacin
ambas
de que el conocimiento del valor que toma no aporta ninguna
ilustra en los diagramas de dispersin de la Figura 10.1, donde se representan los valores de
la variable
variables. X en el eje
Notar quehorizontal
si dos y los correspondientes
variables son estadsticamente de Y en el eje vertical.
valoresindependientes, en la A medida
el sentido
sobre el valor de la otra variable, entonces estn incorrelacionadas; pero
que los puntos del diagrama de dispersin se desvan de una lnea recta perfecta con pendiente que
positiva
de queo elnegativa, el coeficiente
conocimiento de que
correlacin sevariable
aleja de no 1 aporta
1. Aunque la interpretacin de
incorrelacin no implicadel valor
necesariamente toma una
independencia, ya que lasninguna
variablesinformacin
podran
la magnitud del coeficiente de correlacin depende del contexto particular de aplicacin, en
trminos
sobre el generales
valor deselaconsidera que una
otra variable, correlacin
entonces estn es baja por debajo depero
incorrelacionadas; 0,30que
en valor
la absoluto,
presentar una dependencia no lineal aun
moderada entre 0,30 y 0,50, y alta por encima de 0,50. cuando xy = 0.
incorrelacin
Notar, no implica
por ltimo,
El coeficiente deque ennecesariamente
permite, independencia,
la interpretacin
correlacin pordel coeficiente
tanto, ya que las variables
de elcorrelacin
cuantificar grado podran
hay dos errores
de asociacin
frecuentes que deben ser evitados:
presentar una dependencia notal
lineal aunque
cuando xyms= 0.prximo est el coeficiente de
ylineal entre dos
y El coeficiente variables, de
de correlacin forma
entre cuanto
X e Y no es una medida de la magnitud de la pendiente
de la recta de regresin entre ambas variables. El coeficiente de correlacin determina el
El coeficiente
correlacin de correlacin permite, por tanto, cuantificar oelnegativa
grado deentre
asociacin
grado de aaproximacin
1 -1, mayor de serlos
la dependencia lineal
puntos del diagrama positiva
de dispersin a una laslnea recta,
independientemente de cul sea la magnitud de la pendiente de dicha recta. Como se
lineal entreEste
dos variables, de tal formadiagramas
que cuanto ms prximo est laelFigura
coeficiente de
variables.
ilustra en los hecho
panelesseailustra Figura 10.2, el de
y b deenlalos dispersin
coeficiente de decorrelacin 10.1,
es mayor en el
panel a, a pesar de que la pendiente de la recta de regresin es mayor en el panel b. La
correlacin
donde a 1 -1, mayor
se representan ser ladedependencia
losdevalores la Xlineal positiva o negativa
y losentre las
pendiente de la recta regresin novariable
se determina en el eje horizontal
mediante el coeficiente de correlacin,
sino mediante las tcnicas de regresin lineal simple que se discutirn en la segunda parte
variables. Este hecho se ilustra en los diagramas de dispersin de la Figura 10.1,
de este tema. valores de Y en el eje vertical. A medida que los puntos del diagrama
correspondientes
y El
yde
donde coeficiente de correlacin
se representan
dispersin los de
se desvan valores no la
de
una lnea esrecta
unaperfecta
medida
variable deeje
X en con
el la idoneidad
horizontal
pendiente ydel
losmodelo
positiva lineal.
o negativa, el El
coeficiente de correlacin slo determina la existencia de una componente lineal en la
relacin entre
correspondientes
coeficiente dos variables,
valores
de correlacinde independientemente
seYaleja
en eldeeje1 vertical. delalainterpretacin
A medida
-1. Aunque forma
que subyacente
los puntos demagnitud
del
de la dicha relacin.
diagrama
As, por ejemplo, el coeficiente de correlacin es mayor en el panel d que en el panel c de
deladispersin
Figura 10.2, aun cuando
se desvan de una la relacin
lnea subyacente
recta perfecta entre las variables
con pendiente positiva o del d es
panel el
negativa, 3
claramente no lineal (en este caso, cuadrtica). Por ello, antes de analizar el grado de
asociacindelineal
coeficiente entre se
correlacin dosaleja
variables,
de 1 -1.es Aunque
aconsejable inspeccionardelalanaturaleza
la interpretacin magnitud de la
relacin mediante un diagrama de dispersin.
3
156 Pastor-Barriuso R.
Coeficiente de correlacin

(a) xy = 0,70 (b) xy = 0,50 (c) xy = 0,30

x x x
(d) xy = -0,70 (e) xy = -0,50 (f) xy = -0,30

Figura 10.1
Figura 10.1 Diagramas de dispersin entre dos variables aleatorias X e Y con coeficientes de correlacin
positivos xy = 0,70 (a), 0,50 (b) y 0,30 (c), as como con coeficientes de correlacin negativos xy = 0,70 (d),
0,50 (e) y 0,30 (f).

(a) xy = 0,70 (b) xy = 0,50

x x
(c) xy = -0,70 (d) xy = -0,80
Figura 10.2

Figura 10.2 Diagramas de dispersin, coeficientes de correlacin y rectas de regresin entre dos variables
aleatorias X e Y con distintas pendientes de la recta de regresin (paneles a y b) y distintas formas de la
relacin subyacente (paneles c y d).

Pastor-Barriuso R. 157
Una vez descritas las propiedades e interpretacin del coeficiente de correlacin

poblacional, en este apartado se presentan los mtodos para estimar el coeficiente de


Correlacin y regresin lineal simple
AS DE TENDENCIA CENTRAL
correlacin entre dos variables X e Y a partir de los valores observados de ambas
de tendencia central informan acerca de cul es el valor ms representativo
variables
10.2.1 (xi, yi) ende
Coeficiente una n sujetos de
muestra demuestral
correlacin Pearson independientes, i = 1, ..., n.
mutuamente
minada variableUnao, dicho
vez de forma las
descritas equivalente,
propiedades estos estimadores indican
e interpretacin del coeficiente de correlacin
El estimador muestral ms utilizado para evaluar la dependencia lineal entrepoblacional,
dos
en este apartado se presentan los mtodos para estimar el coeficiente de correlacin entre dos
qu valor se agrupan
variables los Xdatos
eXYeaobservados. losLas medidas de tendenciaambas variables (x , y ) en una muestra de
variables Ypartir
es el de valores
coeficiente de observados
correlacin de muestral de Pearson, que i i se denota por
n sujetos mutuamente independientes, i = 1, ..., n.
muestra sirven tanto para resumir los resultados observados como para
rEl
xy,estimador
o simplemente
muestral r, y se
por ms define para
utilizado comoevaluar
la covarianza muestrallineal
la dependencia X e Ydos
entreentre dividida
variables X
Y esparmetros
encias acerca dee los el coeficiente de correlacin
poblacionales muestral de Pearson,
correspondientes. A que se denota por rxy, o simplemente
porpor r, yel se
producto
define de sus la
como desviaciones
covarianzatpicas muestrales,
muestral entre X e Y dividida por el producto de sus
se describen losdesviaciones
principales tpicas muestrales,
estimadores de la tendencia central de una
1 n n

i
n 1 i =1
( x x )( y i y ) ( x i x )( y i y )
r= = i =1
,
sx s y n n

aritmtica ( xi x ) 2 ( y i y ) 2
i =1 i =1

mtica, denotada por x ,ysesxdefine


donde son lacomo
mediala ysuma de cada uno
la desviacin muestral de X y y y sy son la media y la
de los
tpica
donde xtpica
desviacin y sx son la media
muestral y la
de Y. desviacin
As, tpicademuestral
el coeficiente de Xmuestral
correlacin y y y syde
son la media
Pearson y
se define
trales dividida por el nmero
de forma anlogade observaciones
al coeficiente realizadas. Si denotamos
de correlacin poblacional, reemplazando la covarianza y las
desviaciones
la desviacin tpicas poblacionales
tpica muestral de Ypor suselcorrespondientes
. As, estimadores
coeficiente de correlacin muestrales.
muestral de Al igual
quexielelcoeficiente
o muestral y por valor observado de correlacin
para el sujeto i-simo, iel= coeficiente
poblacional, 1, ..., n, de correlacin muestral siempre
toma valores
Pearson se entre 1 yforma
definede 1, de anloga
tal formaal que cuanto ms
coeficiente se aproxime
de correlacin a 1 1, mayor ser la
poblacional,
dra dada por dependencia lineal positiva o negativa entre las variables.
reemplazando la covarianza y las desviaciones tpicas poblacionales por sus
Ejemplo 10.1 En la Figura 10.3 se presenta el diagrama de dispersin entre el ndice de
1 n x + x 2 + ... + x n

masa x i corporal,
x =correspondientes
n i =1
= 1 medida de. obesidad
estimadores
n
queAl
muestrales. se igual
obtienequedeeldividir el peso
coeficiente deencorrelacin
kilogramos por la

poblacional, el coeficiente de correlacin muestral siempre toma valores entre -1 y 1, de


es la medida de tendencia central
2,25 ms utilizada y de ms fcil
tal forma que cuanto ms se aproxime a 1 -1, mayor ser la dependencia lineal
n. Corresponde al centro de gravedad
2 de los datos de la muestra. Su
positiva o negativa entre las variables.
itacin es que est muy influenciada por los valores extremos y, en este
Colesterol HDL (mmol/l)

no ser un fiel reflejo de laEjemplo


1,5 10.1
tendencia En lade
central Figura 10.3 se presenta el diagrama de dispersin entre el
la distribucin.

ndice de masa corporal, medida de obesidad que se obtiene de dividir el peso en


o 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
1

n los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 5

European Study on Antioxidants,


0,5 Myocardial Infarction and Cancer of

ast (EURAMIC), un estudio


0,25multicntrico de casos y controles realizado

991 y 1992 en ocho pases Europeos e20Israel para evaluar


24 el efecto de
28 los 32 36

Indice de masa corporal (kg/m)


5
Figura 10.3 Diagrama de dispersin entre el ndice de masa corporal y el colesterol HDL en el grupo con-
Figura 10.3
trol del estudio EURAMIC.

158 Pastor-Barriuso R.
que indica una asociacin lineal negativa moderada entre el ndice de masa
controles del estudio EURAMIC con valores para ambas variables. A simple
corporal y el colesterol HDL.
vista, se aprecia un cierto grado de dependencia lineal negativa entre ambas
Coeficiente de correlacin

variables; esto es, el colesterol HDL tiende a decrecer conforme aumenta el ndice
altura en metros al cuadrado,
[Figura y10.3
el colesterol HDL enaqu]
aproximadamente los 533 controles del estudio
de masa corporal.
EURAMIC Esta apreciacin
con valores para ambasvisual se confirma
variables. A simple mediante
vista, seelaprecia
clculoundelcierto grado
de dependencia lineal negativa entre ambas variables; esto es, el colesterol HDL tiende a
coeficiente
decrecer de de
El coeficiente correlacin
conforme aumentamuestral
correlacin elrndicede
dePearson,
masa
de Pearson corporal.
tiene Esta apreciacin
una distribucin visual
muestral tantose confirma
ms
mediante el clculo del coeficiente de correlacin muestral de Pearson,
1 533 est la correlacin subyacente del valor 0. Cuando
asimtrica cuanto ms distante
( xi x )( y i y ) 0,285
532 i =1
est relativamenterprximo
= a 1 -1, las estimaciones
= muestrales del coeficiente de
= 0,276,
sx s y 3,50 0,295
correlacin
que indicatendern por fuerza
una asociacin a desviarse
lineal negativams moderada entre el ndice
del parmetro en la de
cola que corporal
masa no est y el
que indicaHDL.
colesterol una asociacin lineal negativa moderada entre el ndice de masa
limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribucin con
El coeficiente
corporal y eldecolesterol
correlacin r de Pearson tiene una distribucin muestral tanto ms asimtrica
HDL.
un marcado
cuanto sesgoest
ms distante negativo o positivo.
la correlacin Por ello, el
subyacente clculo
del valorde0.unCuando
intervalo de confianza
est relativamente
prximo a 1 1, las estimaciones muestrales del coeficiente de correlacin tendern por fuerza
y un test ms
a desviarse de hiptesis para no
del parmetro ensuele
la cola realizarse
que no est a partir de la por
limitada distribucin
el rango muestral r,
[1, 1] dedevalores
posibles de r, resultando en[Figura 10.3 aproximadamente
una distribucin con un marcado aqu]sesgo negativo o positivo. Por
ello,sino mediante
el clculo delauntransformacin
intervalo de confianzaz de Fishery un test de hiptesis para no suele realizarse a
partir de la distribucin muestral de r, sino mediante la transformacin z de Fisher
El coeficiente de correlacin r de Pearson tiene una distribucin muestral tanto ms
1 1 + r
z = log ,
asimtrica cuanto
del modelo msydistante
normal el tamao estmuestral 2no es
la correlacin r pequeo,
1muy
subyacente del n > 50, la
valor 0. Cuando
tpicamente
cuya distribucin muestral presenta una mayor simetra para cualquier valor de . Puede
esttransformacin
relativamente
que si laszprximo
de Fishera 1sedistribuye
-1,poblacionales
las estimaciones muestrales del
X coeficiente de mucho del
probarse
cuya distribucin distribuciones
muestral presenta una de forma
mayor de aproximadamente
las
simetra variables e Ynormal
para cualquier no con
de media
distan
valor . Puede
modelo normal y el tamao muestral no es muy pequeo, tpicamente n > 50, la transformacin
zcorrelacin
delog{(1 tendern
que
Fisher+se
probarse )/(1
distribuyeporde
)}/2
si- las yfuerza
forma a desviarse
varianza
distribuciones 1/(n - 3),ms del
aproximadamente
poblaciones
parmetro
normal
de las con media
variables
en la cola que+no
X e Y log{(1
no distan
est )}/2 y
)/(1
mucho
varianza 1/(n 3),
limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribucin con 6
z ~ N 1 log 1 + , 1 .
un marcado sesgo negativo o positivo. Por 2 ello,

1el n de
clculo 3 un intervalo de confianza

Notar quedelahiptesis
y un test de z es
varianza para inversamente
no proporcional
suele realizarse al la
a partir de tamao muestral
distribucin e independiente
muestral de r, de
Notar que lasubyacente
la correlacin varianza de. z es inversamente proporcional al tamao muestral e
sino mediante la transformacin z de Fisher
independiente
Ejemplo 10.2 de laLas
correlacin y (b).muestran las distribuciones del coeficiente de
subyacente
Figuras 10.4(a)
correlacin r de Pearson y de la transformacin z de Fisher entre el ndice de masa corporal
y el colesterol HDL en 1000 muestras 1 1 + r simples de tamao 50 obtenidas a partir
z = logaleatorias ,
muestran
de Ejemplo 10.2 del
los controles Lasestudio
FigurasEURAMIC.
10.4(a)
2 y (b) 1 La las distribuciones
r distribucin
muestral de rdel coeficiente
presenta un leve
sesgo positivo ya que el percentil 75 (0,18) est ligeramente ms alejado de la mediana
de correlacin
(0,28) r de Pearson
que el percentil y de la
25 (0,36). Para corregir esta zleve
transformacin de Fisher entrelaeltransformacin
asimetra, ndice de z
de Fisher aumenta la dispersin de los valores de r ms distantes de 0 (cola.inferior
cuya distribucin muestral presenta una mayor simetra para cualquier valor de Puede de la
masa corporal
distribucin) y el colesterol
y mantiene HDL constantes
virtualmente en 1000 muestras aleatorias
los valores simples
prximos de tamao
a 0 (cola superior),
probarse que si las distribuciones poblaciones de las variables
dando lugar as a una distribucin sensiblemente ms simtrica. X e Y no distan mucho
50 obtenidas a partir de los controles del estudio EURAMIC. La distribucin
En este ejemplo, la distribucin muestral del coeficiente de correlacin r de Pearson 6
presenta unade
muestral leve asimetraunyaleve
r presenta quesesgo
la correlacin
positivo subyacente 0,276 en
ya que el percentil 75 todos losest
(-0,18) controles
del estudio EURAMIC es moderadamente baja. En otras situaciones donde la correlacin
subyacente
ligeramente seamsalta, la distribucin
alejado de la medianamuestral r ser
(-0,28)deque notablemente
el percentil asimtrica
25 (-0,36). Para y, en
consecuencia, el efecto normalizador de la transformacin z de Fisher ser mucho ms
marcado.
corregir esta leve asimetra, la transformacin z de Fisher aumenta la dispersin

de los valores de r ms distantes de 0 (cola inferior de la distribucin) y Pastor-Barriuso


mantiene R. 159

virtualmente constantes los valores prximos a 0 (cola superior), dando lugar as a


Correlacin y regresin lineal simple

20 20
Frecuencia relativa (%)

15 [Figura 10.4 aproximadamente


15 aqu]

10 10
En base a la distribucin muestral de la transformacin z de Fisher, el intervalo de
5 5
confianza al 100(1 - )% para el parmetro log{(1 + )/(1 - )}/2 viene dado por
0 [Figura 10.4 aproximadamente0 aqu]
1
-0,8 -0,6 -0,4 (z1, z2)0= z 0,2z1 / 2 -0,8 , -0,6 -0,4 -0,2
-0,2 0 0,2
n 3
En base a la distribucin muestral de la transformacin z de Fisher, 1 elintervalo
1+ r de
(a) r (b ) z = log
2 1 r
confianza
donde z1-/2ales
100(1 - )% para
el percentil 1 - el/2parmetro
de la distribucin )/(1 - estandarizada.
log{(1 +normal )}/2 viene dado
As,por
el
Figura 10.4 Distribucin muestral del coeficiente
[Figura de correlacin r deaqu]
10.4 aproximadamente Pearson (a) y de la transformacin
z deintervalo
Fisher (b)de
entre el ndice de masa corporal y el colesterol
confianza al 100(1 - )% para el coeficiente HDL en 1000 muestraspoblacional
aleatorias simples
de
tamao 50 obtenidas a partir de los controles del estudio 1 deLas
EURAMIC.
correlacin
lneas verticales en trazo discon-
(z1, z2) = z z1 / 2 ,
tinuo representan los parmetros subyacentes = 0,276 y log{(1
n3 + )/(1 )}/2 = 0,284.
se obtiene
En basedea aplicar el inverso
la distribucin de la transformacin
muestral de la transformacin z dea Fisher,
de Fisher ambos ellmites del Figura
intervalo de 10.4

intervalo,
confianza
donde
En base z1-a/2al 100(1
laes - )%muestral
el percentil
distribucin para
1 - el/2parmetro
de
de la log{(1 +normal
la distribucin
transformacin )/(1 )}/2 viene
z de- estandarizada.
Fisher, dado
As,por
el intervalo el confianza
de
al 100(1 )% para el parmetro log{(1 + )/(1 )}/2 viene dado por
intervalo de confianza al 100(1 exp(- )%
2 z1para
) 1 elexp( 2 z )1 1 de correlacin poblacional
coeficiente
(z1 , z2 ) = z ,z1 / 2 2 , .
exp( 2 z ) +
se obtiene de aplicar el inverso de la transformacin de Fisher
1 1 exp( 2 z 2 n) + 3
1 a ambos lmites del
donde z1/2 es el percentil 1 /2 de la distribucin normal estandarizada. As, el intervalo de
intervalo,
confianza
donde
Este zal
1-100(1
intervalo/2 es para )%
elpercentil
espara 1el- ms
tanto coeficiente
/2 de de correlacin
la distribucin
asimtrico alrededor normaldepoblacional sepuntual
laestandarizada.
estimacin obtiene
As, elr de aplicar
el inverso de la transformacin de Fisher a ambos lmites del intervalo,
intervalo
cuanto de confianza
mayor al 100(1
sea r en valor absoluto- )%
exp( 2 zy1para 1 elexp(
)menor coeficiente
sea2el ) 1 de correlacin
z 2 tamao poblacional
muestral. Asimismo, el
, .
se obtienededelaaplicar
contraste el inverso
hiptesis nula H de la2 ztransformacin
exp( 1 ) + 1 exp( 2 z 2 ) de+ Fisher
1 a ambos lmites del
0: = 0 frente a la hiptesis alternativa bilateral H1:
Este intervalo para es tanto ms asimtrico alrededor de la estimacin puntual r cuanto mayor
sea intervalo,
r0 en
Este valor absoluto
se intervalo
realiza para yesmenor
mediante eltanto sea
mselasimtrico
estadstico tamao muestral.alrededor Asimismo, el contraste
de la estimacin de la
puntual r hiptesis
nula H0: = 0 frente a la hiptesis alternativa bilateral H1: 0 se realiza mediante el estadstico
cuanto mayor sea r en valor absoluto exp(2 zy1 )menor sea el tamao muestral. Asimismo, el
1 + 20z 2 ) 1 .
1 1 ,exp(
exp(z2z1 2) +log1 exp(
1 2 z 2 ) + 1
contraste de la hiptesis nula H0: = 0 frente a la0hiptesis
alternativa bilateral H1:
,
1
Este
0 se intervalo para eseltanto
realiza mediante estadstico
ms asimtrico n alrededor
3 de la estimacin puntual r
que bajo H0 sigue aproximadamente una distribucin normal estandarizada. El valor P del
cuanto mayor sea r en valor absoluto y menor sea el tamao muestral. Asimismo, el
contraste
que bajo se Hcalcula,
0 sigue por tanto, como el una
aproximadamente rea 1 +lacurva
bajo
1 distribucin 0 normalnormal estandarizadaElpara
estandarizada. valoraquellos
P
z log
valores tanto o ms distantes de 0 que el valor observado del estadstico.
0hiptesis
contraste de la hiptesis nula H0: = 20 frente 1 a la alternativa bilateral H :
del contraste se calcula, por tanto, como el rea bajo la , curva normal estandarizada1 para
1
Ejemplo 10.3 A partir de 533 controles del estudio EURAMIC, la estimacin puntual del
0 se realiza
aquellos valores
mediante el estadstico
tanto o msentre
distantes nque
de 0de masa
3 el corporal
valor observado del estadstico.
coeficiente de correlacin el ndice y el colesterol HDL fue r = 0,276.
La transformacin z de Fisher de esta correlacin es z = log{(1 0,276)/(1 + 0,276)}/2 = 0,284.
quePara
bajoobtener
H0 sigueuna estimacin por una
aproximadamente intervalo 1 +dela
1 distribucin correlacin subyacente entre ambas
0 normal estandarizada. El valor P
Ejemplo 10.3 A partir de 533zcontroles log del estudio EURAMIC, la estimacin
2 1 0
del contraste se calcula, por tanto, como el rea bajo la , curva normal estandarizada para
160 puntual
Pastor-Barriuso R. del coeficiente de correlacin1entre el ndice de masa corporal y el
aquellos valores tanto o ms distantes de 0nque 3 el valor observado del estadstico.
8
referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el
1
0,284 z 0,975 = -0,284 1,960,043 = (-0,369; -0,199)
intervalo de la correlacin533
subyacente
3 entre ambas variables en la poblacin de
parmetro log{(1 + )/(1 - )}/2 como Coeficiente de correlacin

referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el


y, a continuacin, se aplica el 1 inverso de la transformacin de Fisher a ambos
0,284 z 0,975 = -0,284 1,960,043 = (-0,369; -0,199)
parmetro
variables en log{(1 + )/(1 de
la poblacin )}/2
-533 como del estudio EURAMIC, se calcula en primer lugar
referencia
3
lmites
el IC al del95%intervalo
para el parmetro log{(1 + )/(1 )}/2 como
asociacin lineal subyacente entre ambas variables. Adems, las inferencias basadas en
y, a continuacin, 1 inverso de la transformacin de Fisher a ambos
0,284exp{ 2(zse
0 ,0
aplica el
,
975369 )} 1 exp{ = 0,284
2(de 0,199 1,96
)} 0,043 = ( 0,369; 0,199)
1 muestral
la transformacin de Fisher del 533coeficiente
,3 correlacin asumen que las
= (-0,353; -0,196).
exp{
lmites del intervalo 2 ( 0 , 369 )} + 1 exp{ 2 ( 0 ,199 )} + 1
y, a continuacin, se aplica el inverso de la transformacin de Fisher a ambos lmites del
variables se distribuyen de forma aproximadamente normal y que el tamao muestral es
intervalo
y, a continuacin, se aplica el inverso de la transformacin de Fisher a ambos
Notar que elexp{
suficientemente intervalo
2(0,En
grande. resultante
369 )} 1 exp{
aquellas es ligeramente
2(0,199)} asimtrico
1 respecto aevidencia
la
lmites delintervalo , situaciones dondeexista una
= ( 0,353; clara
0,196). en
exp{2(0,369)} + 1 exp{2(0,199)} + 1
puntual
estimacin
contra de la normalidad, r =o-0,276.
bien cuando Para contrastar
la muestralasea hiptesis
muy pequea,de ausencia estasde inferencias
Notar que el intervalo resultante es ligeramente asimtrico respecto a la estimacin
asociacin
puntual
Notar
pueden que r =ellineal
resultar
exp{
0,276.
intervalo
engaosas
(0Para
2entre ,369ambas
resultante
y es
1variables
)}contrastarexp{2la(H
preferible
0,199
hiptesis
, es ligeramente
utilizar
de
)}0,
0: =mtodos
1se ausencia
calcula
asimtrico elde
respecto
= (-0,353; estadstico
no paramtricos.asociacin
a la En este
-0,196). lineal entre
exp{ 2 ( 0 ,369 )} + 1 exp{ 2 ( 0 ,199 )} + 1
ambas variables H0: = 0, se calcula el estadstico
apartado se presenta elrcoeficiente
estimacin puntual = -0,276. Para contrastar la
de correlacin
0,284 533 3 =de
hiptesis
los rangos
6,53,
dede ausencia
Spearman de como un
Notar que el intervalo resultante es ligeramente asimtrico respecto a la
asociacin
que corresponde
procedimiento lineal aentre
no paramtricoun valorambas P variables
parabilateral
detectar Hla
bajo0: la=distribucin
0, se calcula
existencia de una elrelacin
normalestadstico
estandarizada
montona 2P(Z
que corresponde a un valor P bilateral bajo la distribucin
estimacin puntual r = -0,276. Para contrastar la hiptesis de ausencia de moderada pero
6,53) = 2F(6,53) < 0,001. En conclusin, existe una normal
asociacin estandarizada
lineal
significativa
(creciente entre el ndice
o decreciente, aunquede nomasa corporal y ellineal)
necesariamente colesterol HDL con un coeficiente de
-0,284 533 3 = -6,53, entre dos variables
correlacin
-6,53) de =0,28
2 (IC al 95%
asociacin lineal entre ambas variables H0: = 0, seexiste
2P(Z (-6,53) < 0,001.0,35
En a 0,20;
conclusin, P < 0,001).
calculaunaelasociacin
estadsticolineal
cualesquiera, que pueden ser variables continuas con distribuciones subyacentes no
moderada
10.2.2que corresponde
Coeficiente pero de un valor Pentre
significativa
a correlacin el ndice
bilateral
de los bajo de
rangos masa
la de corporal
distribucin
Spearman y el colesterol
normal estandarizada HDL
normales o incluso variables cualitativas -0,284 533 3 = -6,53,
ordinales.
Al igual
conqueun la media
coeficiente y la dedesviacin
correlacin
2P(Z -6,53) = 2(-6,53) < 0,001. En conclusin, tpica
de muestral,
-0,28 (IC alel 95%
coeficiente
existe -0,35
una ade-0,20;
correlacin
asociacin de Pearson es
P < 0,001).
lineal
sensible a la presencia de valores extremos en alguna
Si se desea determinar el grado en que dos variables se relacionan de forma de las variables, que podran distorsionar la
que
estimacin corresponde
resultante, a un valor
no siendo entonces P bilateral bajo la distribucin normal estandarizada
moderada pero significativa entre elunndice
buen reflejo
de masa decorporal
la asociacin lineal subyacente
y el colesterol HDL entre
ambas variables.
montona Adems,
sin realizar las inferencias
ninguna asuncin basadas
sobre la en la transformacin de Fisher del coeficiente
10.2.2 Coeficiente
2P(Z -6,53) de
= 2correlacin
(-6,53) < de los En
0,001. rangos dedistribucin
conclusin, Spearman
existe
poblacional de ambas
una asociacin lineal
de correlacin muestral asumen
con un coeficiente de correlacin que lasdevariables
-0,28 (ICseal distribuyen
95% -0,35 ade forma
-0,20; P <aproximadamente
0,001).
normal y que
variables, el tamao
basta con muestral
utilizar el es suficientemente
orden de las grande.
observaciones En aquellas
de cada situaciones
variable en donde
lugar exista
Al igual que la media
moderada pero y la desviacin
significativa entre tpica
el muestral,
ndice de el coeficiente
masa corporal y de
el correlacin
colesterol de de
HDL
una clara evidencia en contra de la normalidad, o bien cuando la muestra sea muy pequea, estas
inferencias puedenvalores. resultar As, engaosas ysujeto
es preferible utilizar losmtodos
rangos noyparamtricos. En este
sus verdaderos
Pearson
10.2.2 conesunsensible
Coeficiente
coeficiente a lacorrelacin
de presencia
de
a cada
correlacindede valores
los
de
se
rangos
-0,28
le de
extremos
(IC
asignanen alguna
Spearman
al 95% -0,35 de
a lasri variables,
-0,20;
si en funcin
P < que de
0,001).
apartado se presenta el coeficiente de correlacin de los rangos de Spearman como un procedimiento
no la
paramtrico
posicin para
que detectar
ocupan suslarespectivos
existencia valoresde una observados
relacin montona xi eunyi de (creciente
dentro de la omuestra
decreciente,
podran
Al igual distorsionar
que la media layestimacin
la desviacin resultante,
tpica no siendo
muestral, el entonces
coeficiente buen reflejo
correlacin dedela
aunque no necesariamente lineal) entre dos variables cualesquiera, que pueden ser variables
continuas
10.2.2 conascendentemente
Coeficiente
ordenada distribuciones
de correlacin subyacentes
por de Y. no
Xdeevalores
los normales
rangos
En dede
elextremos
caso o que
incluso
Spearman variables
existan cualitativas ordinales.
Pearson es sensible a la presencia en alguna devarias observaciones
las variables, que
Si se desea determinar el grado en que dos variables se relacionan de forma montona 9 sin
Al igual
con que
el mismola
realizar distorsionar media
ninguna asuncin valor y de la desviacin
una variable
sobre la tpica muestral,
(empates),
distribucin se el
asignacoeficiente
poblacional a cada
deun de
una
ambas correlacin
de ellas la de
media de con
podran la estimacin resultante, no siendo entonces buen variables,
reflejo de la basta
utilizar el orden de las observaciones de cada variable en lugar de sus verdaderos valores. As,
Pearson
a cada es sensible
los rangos
sujeto se a la presencia
correspondientes.
le asignan los rangos Elde valores
ri y si enextremos
coeficiente enlaalguna
de correlacin
funcin de rs dedeSpearman
posicin las variables,
que ocupan se sus que
calcula
respectivos
valores observados xi e yi dentro de la muestra ordenada ascendentemente por X e Y. En 9el caso
podran distorsionar
de simplemente
que existan como
varias laobservaciones
estimacin
el coeficiente resultante,
de correlacin
con el mismono siendo entonces
de Pearson
valor un buen(empates),
de unareemplazando
variable reflejo
los de la asigna a
valores
se
cada una de ellas la media de los rangos correspondientes. El coeficiente de correlacin rs de
observados
Spearman (xi, yi)simplemente
se calcula por sus correspondientescomo el coeficiente rangos (r si),
dei, correlacin de Pearson reemplazando
9
los valores observados (xi, yi) por sus correspondientes rangos (ri, si),
n

(r
i =1
i r )( s i s )
rs = ,
n n

(r
i =1
i r)2 (s
i =1
i s)2

Pastor-Barriuso R. 161

10
montona creciente
yi < yj; es que
verifican decir,
xi <losxde perfecta.
j,valores
De igual forma,
observados si rs de
de valores = -1,
las variables Xlose rangos verifican
Y presentan que si =orden
una relacin
Y preservan n+
clculo
lculo del coeficientedel
decoeficiente
correlacin desus correspondientes
correlacin
Spearman desimplifica
se Spearman la variable
se simplifica
notablemente notablemente
ya que la yadicho
que la
- ri,j;yde
1ymontona
i<y
donde se
creciente deduce que
perfecta. losigual
De valores
dede
laslas
forma, si variables eXYrangos
rs = -1, Xlos Y presentan
e presentan unauna
verifican relacin
que si = n +
Correlacin
varianza de losvarianza
rangos de es
es losdecir,
regresin loses
lineal
rangos valores
simple observados variables relacin

montona
1 - ri, de donde
montona decreciente
creciente se deduce perfecta.
perfecta. queDe losCuando
valores
igual rsde
forma, = 0, silos
las rangos X
rvariables
s = -1, los
estne Y incorrelacionados
rangos presentan
verificanunaque si y=no
relacin n+
1 21 1 21
n n n n
donde (ri r montona
losrelacin
rangos = (son
)medios r 2
(rs)i ==sentre)= (n si s )Elde
+ (valores
1)/2. 2
coeficiente de correlacin de Spearman
1existe
montona
- ri,1de
n decreciente
donde se
n deduce
1 n 1
i alguna
perfecta.
que los Cuando
valores
n 1 los rsde = 0, laslos rangos
variables ambas evariables.
estn
X incorrelacionados
Y presentan una relacin y no
siempre toma valores entre 1 y 1. Si rs = 1, los rangos son necesariamente idnticos si = ri, de
i =1 i =1 i =1 i =1
2 n 2
tal existe
forma
En el que
caso si dedos que observaciones
1perfecta.
no haya
n
valores +cualesquiera
nentre 1 idnticos (n0,+n1los
nvalores +de
) 1de
(empates)la ambasvariable
n(ennestn 1) Xincorrelacionados
+variables.
ninguna verifican
de las que xi < xel
variables, , sus
montona relacin
correspondientes valores
montona
decreciente =
n de
alguna
1 i =la1
i
variable
Cuando
=
los
= r s
2n 1Yi =preservan
=
i
1 12 2
rangos
=
dicho orden 12 yi < yj; es decir, los valores
y noj
observados
clculo
En el
existe de
del
caso
relacin las variables
coeficienteque nodehaya
demontona X e Y
alguna presentan
correlacin
valores de una
losSpearman
entreidnticos relacin
valores montona
deseambas
(empates) simplifica
envariables.
ninguna creciente
notablemente
de lasperfecta.ya que
variables, De el
igual
la
forma, si rs = 1, los rangos verifican que si = n + 1 ri, de donde se deduce que los valores de
y su
y su covarianza es covarianza deXes Yrangos
las variables
varianza
clculo
En eldel caso ede
los presentan
que noes
coeficiente dehaya unavalores
correlacin relacin demontona
idnticosSpearman (empates) decreciente
se simplificaen ninguna perfecta. Cuando
notablemente
de las yarque
variables, s = 0,
la los
el
rangos estn incorrelacionados y no existe relacin montona alguna entre los valores de ambas
1 nvariables.varianza
clculo 1 del den coeficiente
los rangos 1 1es den correlacin 1 2 de n
Spearman se simplifica notablemente ya que la
i i i ( ri r ) = ( s1{(
n n
( r r )( s s )( r
= r )( s s ){(= r r ) + i ri s)(2rs)2(+rsi )( 2s is
2 2
i ) s}) (ri s i ) 2 }
i
n 1 i =1 En elncaso 1 i =de1 que 2(non nhaya
1) 1i =1valores 2(n
i
2

1) i =n1 1 (empates) en ninguna de las variables, el clculo
idnticos i

delvarianza de los rangos es i =nde 1 i =1


coeficiente de correlacin
n(n + 11) 1n(n +2n1) se
Spearman 1 simplifica
1nn 2 n notablemente ya que la varianza de los
i ) i
2 2 2
rangos es = =( r r ) = ( r
1
s ) (
.
s n s
( r+) 1 s ) n. ( n + 1)
12n 1 i =21(n 112 = i (1n
i =1 n 2
i
i
i
i i=
=11) i =1
1 n n 1
1 i =n1 n 2 2 12
n 1 i =1
i ( r r ) 2
=
= n 1
1 i n +1( s
i =1 i
s ) 2

=
n(n + 1)
Aplicando
Aplicando ambos resultados, ambos resultados, el
el coeficiente decoeficiente
correlacinde nde correlacin
1Spearman
i =1 2sedereduce
Spearman a se reduce a
12
y su covarianza es 1 n n +1
2
n(n + 1)
= i 2 = 12
n 1n i =1
y su covarianza 6 n
6
rs1= 1nes 2 rs = 1 (ri 2s i )12 , n(ri s i ) 2 ,2
y su covarianza es ni(n 1)i i =1 s )n=(n 1) i =
( r r )( s {( ri r ) + ( s i s ) 2 (ri s i ) 2 }
n 1 i =1 2(n 1) 1i =1
y su covarianzanes
1 1 n

= n(n + 1) {( r1i r ) 2 +(r( si


n
(ri r )( s i s ) = s) 2).2 (ri s i ) 2 }
frmula
rmula que slo puedeque slo
n puede
emplearse 1 i =cuando
1 emplearse
no haycuando empates.2(n12 no 1hay
) i =1empates.
n 2( n 1) i =1
i i s
1 n 1
(ri r )( s i s ) = n(n + 1) {( r1i r ) 2n + ( s i s )2 2 (ri s i ) 2 }
1 i =1 En la Tabla 10.1= se
n 10.4 1)
2(npresentan (ri si ) .
Ejemplo 12 i =1 2(los 1) i =1 de -tocoferol y -
n niveles
Aplicando ambos resultados, el coeficiente n(n + 1) de correlacin
1 n de Spearman se reduce a
Aplicando Ejemplo
caroteno ambos 10.4
en resultados,
En laadiposo
tejido Tabla en =una
el coeficiente
10.1 se 12 de correlacin
presentan
muestra los
aleatoria
niveles
2(n 1) i =1
de
de (r10de controles
iSpearman
2
s-tocoferol
i ) . 11sedel reduce
- a 11
yestudio
Aplicando ambos resultados, el coeficiente 6 de correlacin
n de Spearman se reduce a
EURAMIC,
caroteno en tejido junto con adiposo r
los rangos
s = 1
en unacorrespondientes
nmuestra
(n 2 1)aleatoria
( r i s
ade )
ilos
2
10,valores
controles de ambas
del estudio
Aplicando ambos resultados, el coeficiente de correlacin i =1
de Spearman se reduce a
6 n
hay
2
frmula que sloApuede
variables.
EURAMIC, junto emplearse
partir de estos
con los rrangos 1 correspondientes
=cuando
srangos, elno coeficiente (ri de
empates. ascorrelacin
) ,valores de Spearman
ilos ambas se
n(n 2 1) i =1
frmula que slo puede emplearse cuando 6 no hay n empates.
calcula
variables. como A partir de
Ejemplo 10.4 En la Tabla 10.1 se presentanestos r s = 1
rangos, el 2coeficiente
n(n 1) i =1
(ri de
los
2
scorrelacin
niveles
i ) , de a-tocoferol de Spearman se
y b-caroteno en
tejidoque
frmula adiposo
slo en una emplearse
puede muestra aleatoria cuando de no10 haycontroles
empates.del estudio EURAMIC, junto con
calcula
los rangos como correspondientes a los valores de ambas variables. A partir de estos rangos, el
1 10
coeficiente
frmula que slo de correlacin
puede emplearse rSpearman
9 i =1
de ( r )( s i no
i cuando s ) calcula
se hay empates. como
5,06 11
rs = 1 10 = = 0,552,
1 10 (ri 2 r )( 1 s10i s ) 3,03 3,03
rs = 9 i =1 i =1
i 9( r r ) i
9 i =1
( s s ) 2

=
5,06
= 0,552,
11
1 10 1 10 3,03 3,03

9 i =1
( ri r ) 2

9 i =1
(si s ) 2 11
o de forma equivalente mediante la frmula simplificada en ausencia de empates
o de forma equivalente mediante la frmula simplificada en ausencia de empates
o de forma equivalente 6 mediante la frmula simplificada en6 ausencia 74 de empates
2 2
rs = 1 {( 7 3 ) + ... + ( 6 6 ) } = 1 = 0,552,
10(10 2 1) 10(10 2 1)
6 6 74
que refleja rs = 1una fuerte {(7 3) 2 + ... + (6 6) 2 } = 1
2 relacin montonamente creciente entre2 los niveles de a-tocoferol
= 0,552,
10(10 1) 10(10 1)
yque refleja unaCabe
b-caroteno. fuerte destacar
relacin quemontonamente
esta estimacincreciente no esta influenciada entre los niveles por elde valor
- extremo
1,46 mg/g de b-caroteno ya que el rango de esta observacin continuara siendo 10 para
cualquier
que reflejayvalor
tocoferol una arbitrariamente
fuerte relacin
-caroteno. Cabe destacar mayor que
montonamente que esta los dems.creciente entre
estimacin no esta niveles de -por
los influenciada

162 tocoferol
el valor
Pastor-Barriuso y -caroteno.
R. extremo Cabe
1,46 g/g dedestacar queya
-caroteno esta
queestimacin noesta
el rango de estaobservacin
influenciada por

el valor extremo
continuara siendo 10 g/g
1,46 de -caroteno
para cualquier valorya que el rango de
arbitrariamente esta observacin
mayor que los dems.
Coeficiente de correlacin

Tabla 10.1 -tocoferol y -caroteno en tejido adiposo en una muestra aleatoria


de 10 controles del estudio EURAMIC.
-tocoferol -caroteno
Control Valor (g/g) Rango (ri) Valor (g/g) Rango (si)
rs
1 163,8 t= 7 0,14 3
2 331,9 rs2
110 0,45 8
3 125,1 n 4 2 0,07 1
4 42,9 1 0,44 7
5 211,0 8 1,46 10
sigue aproximadamente
6 distribucin t de Student
una115,9 2 con n - 2 grados
0,18 de libertad,4
7 128,6 5 0,37 5
siempre que el 271,0 sea n > 10. As,
8 tamao muestral 9 el valor P bilateral
0,66 del contraste puede
9
9 118,8 3 0,11 2
10 128,7 6 0,40
aproximarse mediante el rea bajo la distribucin t para valores tanto o ms alejados6
n-2

de Al
0 queigual que otros
el valor procedimientos
observado del estadstico no t.
paramtricos,
Aparte del mnimo el coeficiente de correlacin
requerimiento muestral,de los
rangos de Spearman permite contrastar la hiptesis nula de ausencia de asociacin montona
entre dos variables.
este contraste tiene Bajo esta hiptesis
la ventaja adicionalnula, se ha aplicarse
de poder comprobado que el coeficiente
a cualquier distribucin de correlacin
rs de Spearman tiende a distribuirse de forma normal o, ms concretamente, que el estadstico
subyacente de las variables X e Y, a diferencia del rs contraste paramtrico basado en el
t=
1 rs2
coeficiente de correlacin de Pearson que requiere de distribuciones poblacionales
n2
sigue aproximadamente
aproximadamente una distribucin t de Student con n 2 grados de libertad, siempre que
normales.
el tamao muestral
sigue aproximadamentesea n > 10.
unaAs, el valor P bilateral
distribucin t de Studentdel contraste
con n - 2 puede
gradosaproximarse
de libertad, mediante
el rea bajo la distribucin tn2 para valores tanto o ms alejados de 0 que el valor observado del
estadstico t.que
Ejemplo
siempre Aparte
10.5 del
Como
el tamao mnimo requerimiento
las distribuciones
muestral sea n > 10. muestral,
subyacentes
As, el valor este
delPcontraste
bilateraltiene
-tocoferol la
el ventaja
-
delycontraste adicional
puede
de poder aplicarse a cualquier distribucin subyacente de las variables X e Y, a diferencia del
contraste paramtrico
caroteno
aproximarse (Figura
mediante basado
4.3) reaen
el son el coeficiente
marcadamente
bajo de tcorrelacin
asimtricas
la distribucin de Pearson
en los controles delque requiere de
estudio
n-2 para valores tanto o ms alejados
distribuciones poblacionales aproximadamente normales.
de EURAMIC,
0 que el valorelobservado
contraste bilateral de la hiptesis
del estadstico t. Apartede delnomnimo
asociacin entre ambas
requerimiento muestral,
Ejemplo 10.5 Como las distribuciones subyacentes del a-tocoferol y el b-caroteno
variables
este(Figura a tiene
4.3)
contraste partir deventaja
son la los 10 controles
marcadamente de
de la
asimtricas
adicional Tabla
poder 10.1
enaplicarse
los haade
controles realizarse mediante
del estudio
cualquier el
EURAMIC,
distribucin el
contraste bilateral de la hiptesis de no asociacin entre ambas variables a partir de los 10
estadstico
controles
subyacente debasado
de la Tabla
las en10.1
la correlacin
variables Xhae de de losmediante
Y, realizarse
a diferencia rangos deelSpearman
del contraste estadstico basado
paramtrico en la correlacin
basado en el
de los rangos de Spearman
coeficiente de correlacin de Pearson rs que requiere0,552 de distribuciones poblacionales
t= = = 1,87,
2 2
aproximadamente normales. 1 rs 1 0 ,552
n2 8
que bajo la distribucin t de Student con 8 grados de libertad corresponde a un valor
Ejemplo 10.5
aproximado de PComo= 2P(tlas distribuciones
1,87) = 0,098. subyacentes
As, aunque el -tocoferol
del coeficiente -
ydeelcorrelacin de
que bajo la distribucin t8de Student con 8 grados de libertad corresponde a un
Spearman rs = 0,55 estima una fuerte relacin montonamente creciente entre los valores
caroteno de
observados (Figura 4.3) sony marcadamente
a-tocoferol b-caroteno, estaasimtricas
asociacinennolosllega
controles del estudio
a ser estadsticamente
valor aproximado de P = 2P(t 8 1,87) = 0,098. As, aunque el coeficiente de
significativa, probablemente debido a la escasa potencia del test para detectar cualquier
EURAMIC, el contraste
asociacin bilateral de la hiptesis de no asociacin entre ambas
correlacinsubyacente
de Spearman conr tan
s
reducido
= 0,55 estimatamao muestral.
una fuerte relacin montonamente
variables a partir de los 10inferior
controles de laaTabla
10, la10.1 ha de realizarse mediante el
Cuando el tamao
creciente muestral
entre los valoresesobservados o de
igual
-tocoferol y -caroteno,t de
distribucin estaStudent no es una
buena aproximacin a la distribucin muestral del estadstico t y, en consecuencia, el contraste
estadstico basado en la correlacin de los rangos de Spearman
asociacin no llega a ser estadsticamente significativa, probablemente debido a la
Pastor-Barriuso R. 163
rs 0,552
t= = = 1,87,
1 rs2 1 0,552 2
dada por 1/n!. Haciendo uso de este resultado, es posible derivar la distribucin bajo la

hiptesisynula
Correlacin dellineal
regresin coeficiente
de correlacin de Spearman, cuyos percentiles en
simple
10.3 REGRESIN LINEAL SIMPLE
muestras de tamao n 10 se presentan en la Tabla 10 del Apndice. Para un contraste
Lasbasarse
debe tcnicasendelaregresin evalan
distribucin la relacin
exacta entre dosde
del coeficiente variables siguiendo
correlacin una
de Spearman bajo la
bilateral con
hiptesis nula.unSinivel de significacin
no existe preestablecido,
ninguna relacin la hiptesis
montona entre de no asociacin
las variables, y los rangos seri de la
estrategia
X se de anlisis distinta a cualquier
la correlacin. Mientrass ,que el coeficiente de correlacin
variable asumen constantes, permutacin 1 ..., sn de los rangos de la variable Y
rechazar
es si elprobable
igualmente coeficiente
y su correlacin rviene
deprobabilidad s de Spearman
dada por es inferior
1/n!. uso de
al percentil
Haciendo /2 oresultado,
este
determina el grado de asociacin lineal entre X e Y tratando ambas variables
es posible derivar la distribucin bajo la hiptesis nula del coeficiente de correlacin de forma de
Spearman, 1 - /2 deendicha
cuyos percentiles
superior al percentil tabla. de tamao n 10 se presentan en la Tabla 10 del
muestras
Apndice. Para un contraste bilateral conlaun
simtrica,
10.3 la
REGRESIN regresin lineal
LINEAL estudia
SIMPLE variacin
nivel deen el nivel medio
significacin de la variablela hiptesis
preestablecido,
de no asociacin se rechazar si el coeficiente de correlacin rs de Spearman es inferior al
percentil /2 Yo asuperior
respuesta
LasEjemplo
tcnicas
medida
10.6 alque
El valor
de regresin
cambia
percentil
evalan
la variable
laP/2
exacto 1de para
de el
relacin
explicativa
contraste
dicha tabla.
entre
X, estableciendo
bilateral
dos variables de as una
la hiptesis
siguiendo una de no
direccionalidad en laelrelacin entreydichas
-tocoferol variables. Aunque en ocasiones la eleccin
asociacin
estrategia
Ejemplo entre
de10.6
anlisis
Eldistinta de-caroteno
el
a la correlacin.
valor exacto el viene
P paraMientras dadoel
que
contraste por
coeficiente
bilateral de ladehiptesis
correlacin
de no
asociacin entre el a-tocoferol y el b-caroteno viene dado por
entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la
determina el grado de asociacin
P = P(r 0,552|H )lineal
+ P(rentre X e Y tratando
0,552|H ) = 2P(rambas variables
0,552|H ), de forma
s 0 s 0 s 0

asociacin
ya que laentre
simtrica, el -tocoferol
distribucin
regresin H
bajoestudia
lineal -caroteno),
y eldel variacinlaen
lacoeficiente direccionalidad
de nivel mediodesuele
elcorrelacin establecerse
deSpearman
la variable de
es simtrica
0
ya que la distribucin
alrededor de 0. Utilizando bajo laH0Tabla
del coeficiente
10 del Apndicede correlacin
para n = de10,Spearman
se tiene quees el percentil
forma natural
rs;0,95 = Y0,552,por el propio
de loque diseo
cualcambia
se deduce del estudio o la naturaleza
que P =explicativa
2P(rs 0,552|H de las variables (porEste valor
respuesta a medida la variable 0) 20,05 as
X, estableciendo = 0,10.
una
simtrica
exacto de alrededor
P es similar de 0.al Utilizando la Tabla mediante
valor aproximado 10 del Apndice para n =t 10,
la distribucin de se tiene en el
Student
ejemplo, los cambios
ejemplo anterior.
direccionalidad medios en el colesterol HDL conforme aumenta
en la relacin entre dichas variables. Aunque en ocasiones la eleccin el ndice de masa
que el percentil rs;0,95 = 0,552, de lo cual se deduce que P = 2P(rs 0,552|H0)
corporal).
entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la
10.3 20,05
REGRESIN = 0,10. Este LINEAL SIMPLE
valor exacto de P es similar al valor aproximado mediante la
El modelo
asociacin entrede regresin linealy asume
el -tocoferol que la media
el -caroteno), de la variable suele
la direccionalidad respuesta Y cambiade
establecerse
Las tcnicas de regresin
distribucin evalan
t de Student en ellaejemplo
relacinanterior.
entre dos variables siguiendo una estrategia de
linealmente
anlisis con lacorrelacin.
variable explicativa X; esto es, para un de valor fijo x de la variable el grado
forma natural por el propio diseo del estudio coeficiente
distinta a la Mientras que el o la naturaleza correlacin determina
de las variables (por
de asociacin lineal entre X e Y tratando ambas variables de forma simtrica, la regresin lineal
explicativa,
estudia el valor
la variacin en elesperado de la variable
nivel medio respuesta es Y a medida que cambia la variable
ejemplo, los cambios medios en elde la variable
colesterol HDLrespuesta
conforme aumenta el ndice de masa
explicativa X, estableciendo as una direccionalidad en la relacin entre dichas variables.
Aunque en ocasiones la eleccin entreE(Y|x)
corporal). la variable
= 0 +respuesta
1x, y explicativa es un tanto arbitraria
14
(por ejemplo, en la asociacin entre el a-tocoferol y el b-caroteno), la direccionalidad suele
establecerse
El modelo de forma natural lineal
de regresin por elasume
propioque diseo del estudio
la media o la naturaleza
de la variable respuestadeYlas variables
cambia
donde
(por ejemplo, 0 y
los son la constante y la pendiente de la recta de regresin
1 cambios medios en el colesterol HDL conforme aumenta el ndice de masa , respectivamente.
corporal).
linealmente con la variable explicativa X; esto es, para un valor fijo x de la variable
La constante 0 determina la media de Y cuando X = 0, E(Y|0) = 0 + 10 = 0, y la
El modelo de regresin lineal asume que la media de la variable respuesta Y cambia
explicativa,
linealmente conellavalor esperado
variable de la variable
explicativa X; esto es,respuesta
para un es valor fijo x de la variable explicativa,
pendiente corresponde al cambio
el valor esperado de la variable respuesta es
1 en el valor medio de Y por cada aumento de una

unidad en X, E(Y|x + 1) - E(Y|x) = E(Y|x) = 0 + 1 x,


0 + 1(x + 1) - (0 + 1x) = 1. La especificacin del
donde 0 y 1 son la constante y la pendiente de la recta de regresin, respectivamente. La
modelo
donde se
constante completa
1 son la asumiendo
determina
00 y la media de
constante yque
la los valores
Y pendiente
cuando = individuales
X de 0,la E(Y|0) de la variable
= regresin
recta de 0 + 10 =,
respuesta se
0, y la pendiente 1
respectivamente.
corresponde al cambio en el valor medio de Y por cada aumento de una unidad en X, E(Y|x + 1)
distribuyen
E(Y|x) = 0 + de
La constante forma
1(x + 1) normal
(0 +laalrededor
0 determina 1x) = de
media delcuando
1. La
Y valor esperado
especificacin definido
del
X = 0, E(Y|0) = 0 por
modelo la0 recta
= 0, de
+se1completa y asumiendo
la
que los valores individuales de la variable respuesta se distribuyen de forma normal alrededor
delregresin. As,
valor esperado
pendiente ladefinido
estructura
porgeneral
la rectadel
demodelo
regresin.de regresin lineal esgeneral del modelo de
As, la estructura
1 corresponde al cambio en el valor medio de Y por cada aumento de una
regresin lineal es
unidad en X, E(Y|x + 1) - E(Y|x) = 0Y+=10(x++ 1) - (,0 + 1x) = 1. La especificacin del
1x +

donde el trmino de error aleatorio , que representa la desviacin de cada respuesta individual
modelo se completa asumiendo que los valores individuales de la variable respuesta se
Y respecto de la recta de regresin 0 + 1x, se distribuye de forma normal con media150 y
distribuyen de forma normal alrededor del valor esperado definido por la recta de
164 Pastor-Barriuso R.
regresin. As, la estructura general del modelo de regresin lineal es

Y = + x + ,
individual Y respecto de la recta de regresin 0 + 1x, se distribuye de forma normal

con media 0 y varianza 2. Por tanto, la regresin lineal establece que para Regresin
un valor fijosimple
lineal

x de la variable explicativa, la variable respuesta Y sigue una distribucin normal con


varianza 2. Por tanto, la regresin lineal establece que para un valor fijo x de la variable
2
media E(Y|x)
explicativa, = 0 + respuesta
la variable 1x + E()Y=sigue
0 + una
1x distribucin
y varianza var(Y|x)
normal=con
var( ) = E(Y|x)
media , = 0 + 1x +
E() = 0 + 1x y varianza var(Y|x) = var() = ,2

Y|x ~ N( 0 + 1 x, 2 ),
de donde se derivan las siguientes asunciones:
de donde se derivan las siguientes asunciones:
yy Linealidad: El valor esperado de la variable respuesta Y es una funcin lineal de la variable
explicativa X, de tal forma que cambios de magnitud constante a distintos niveles de X se
Linealidad: El valor esperado de la variable respuesta Y es una funcin lineal de
asocian con un mismo cambio en el valor medio de Y.
yy Homogeneidad de la varianza:
la variable explicativa Laforma
X, de tal varianza
que de la variable
cambios respuesta
de magnitud Y es la misma
constante a para
cualquier valor de la variable explicativa X; es decir, a diferencia de la media, la varianza
de Ydistintos
no est relacionada
niveles de Xcon X.
se asocian con un mismo cambio en el valor medio de Y.
yy Normalidad: Para un valor fijo de la variable explicativa X, la variable respuesta Y sigue
Homogeneidad
una de la varianza: La varianza de la variable respuesta Y es la
distribucin normal.
Las asunciones subyacentes
misma para cualquieralvalor
modelo
de ladevariable
regresin lineal se X;
explicativa representan
es decir, agrficamente
diferencia de en
la la
Figura 10.5. Estas asunciones facilitan el proceso de inferencia sobre la recta de regresin y su
idoneidadmedia,
debe ser evaluadade
la varianza utilizando
Y no esttcnicas diagnsticas,
relacionada con X. algunas de las cuales se presentan
al final de este tema.
Normalidad
En regresin lineal: simple
Para unsevalor fijo la
estudia dedistribucin condicionalX,de
la variable explicativa la una
variable respuesta
variable respuesta
continua en funcin de una nica variable explicativa. Esta variable explicativa puede ser tanto
continua Ycomo
siguecategrica
una distribucin
ya que normal.
el modelo de regresin lineal no establece ninguna asuncin
respecto a su distribucin. La extensin de estos modelos al anlisis de regresin lineal mltiple,
Lasse
donde asunciones
consideransubyacentes al modelo
simultneamente dos odems
regresin lineal
variables se representan
explicativas, grficamente
se tratar en el Tema 11.

en la Figura 10.5. Estas asunciones facilitan el proceso de inferencia sobre la recta de

regresin y su idoneidad debe ser evaluada utilizando tcnicas diagnsticas, algunas de

las cuales se presentan al final de este tema.


Recta de regresin:
E(Y|x) = 0 + 1x
0 + 1x4
[Figura 10.5
0 +aproximadamente
1x3 aqu]
0 + 1x2
Y Enregresin
0 + 1x1 lineal simple se estudia la distribucin condicional de una variable

respuesta continua en funcin de una nica variable explicativa. Esta variable

explicativa puede ser tanto continua como categrica ya que el modelo de regresin

16

x1 x2 x3 x4
X
Figura 10.5
Figura 10.5 Asunciones estadsticas subyacentes al modelo de regresin lineal simple.

Pastor-Barriuso R. 165
mutuamente independientes. Intuitivamente, se tratara de identificar la lnea recta que

ms se
Correlacin aproxime
y regresin linealal conjunto
simple de todos los puntos del diagrama de dispersin entre

ambas variables. Para formalizar esta idea, es preciso calcular la distancia de cada punto
10.3.1 Estimacin de la recta de regresin
observado (xi, yi) respecto al punto correspondiente (xi, y i ) = (xi, b0 + b1xi) sobre la
El primer objetivo de la regresin lineal es obtener estimaciones puntuales b0 y b1 de la constante
0 yrecta
la pendiente 1 deestimada
de regresin la recta de
enregresin que mejor
xi. Esta distancia, se se
que ajuste a los valores
representa 10.6, (xi, yi)
observados
en la Figura
de las variables explicativa y respuesta en una muestra de n sujetos mutuamente independientes.
Intuitivamente,
viene dada por se tratara
el errordedeidentificar
estimacinlaen lnea recta que
la variable ms se aproxime
respuesta ei = yi - yali =conjunto
yi - b0 - de
b1xtodos
i.
los puntos del diagrama de dispersin entre ambas variables. Para formalizar esta idea, es
preciso
As, calcular
la recta dela distancia
regresinde cada determinada
vendr punto observado (xi, yi) respecto
por aquellos valoresalb0punto
y b1 que correspondiente
hagan
(xi, y i) = (xi, b0 + b1xi) sobre la recta de regresin estimada en xi. Esta distancia, que se representa
en laeste
Figura
error10.6, viene
lo ms dada por
pequeo el error
posible de estimacin
para en la variable o,
todas las observaciones respuesta ei = yi y i =que
equivalentemente, yi b0
b1xi. As, la recta de regresin vendr determinada por aquellos valores b0 y b1 que hagan este
error lo ms pequeo
minimicen la sumaposible para todas
de cuadrados laserror
del observaciones o, equivalentemente, que minimicen
la suma de cuadrados del error
n n n
SSE = e
i =1
2
i = ( y i y i ) 2 = ( y i b0 b1 x i ) 2,
i =1 i =1

tambin llamada suma de cuadrados residual. Notar que los errores se elevan al cuadrado
paratambin
evitar llamada
que se compensen los errores
suma de cuadrados positivos
residual. Notaryque
negativos. Este
los errores procedimiento
se elevan al para
estimar los parmetros de la recta de regresin se conoce como el mtodo de mnimos
cuadrados.
cuadrado para evitar que se compensen los errores positivos y negativos. Este

procedimiento para estimar los parmetros de la recta de regresin se conoce como el

mtodo de mnimos cuadrados.

[Figura 10.6 aproximadamente aqu] (xi, yi)

ei = yi y i

17
y ( xi , y i ) = ( xi , b0 + b1 xi )

Recta de regresin estimada:


y = b0 + b1 x

Figura 10.6 Error o desviacin del valor observado de la variable respuesta respecto a su valor estimado
Figura 10.6
por la recta de regresin.

166 Pastor-Barriuso R.
Para obtener los valores
1
b0 yi =b11 que minimizan
i =1
la suma de cuadrados del error, se

calculan
cuya las derivadas parciales de SSE respecto a b y b1 y se igualan a cero,
solucin resultando
Para obtenereslos valores b0 y b1 que minimizan la0suma de cuadrados delRegresin
error, selineal simple

el sistema de ecuaciones lineales


calculan las derivadas parciales denSSE respecto a b0 y b1 y se igualan a cero, resultando
Para obtener los valores b0 y b1 que i n=1
x i x )( y i
(minimizan la ysuma ) de
s y cuadrados del error, se calculan
las el sistema de
derivadas ecuaciones
parciales deSSE brespecto
lineales 1= an b0 y bn 1 y se igualan =r ,a cero, resultando el sistema de
= 2 ei = 2 ( y2 i b0 sbx1 x i ) = 0,
i =1
ecuaciones lineales b0 ( x i i =1x )
i =1
antioxidantes en 1.2elMEDIDAS
riesgo
SSEde desarrollar DE TENDENCIA
n
un primern CENTRAL
infarto agudo de miocardio en
1.2 MEDIDAS
antioxidantes en SSE elb0riesgo
=
DE 2
TENDENCIA
n de e = 2
desarrollar un primer
i n ( y
CENTRAL
i b0 binfarto 1 x i ) = 0, agudo de miocardio en
hombres adultos. Los
Las medidas valores =
b1 de tendencia
2 i =1 b0 = yi =1- b1 x .
obtenidos
i =1
x e
i i = 2
fueron
centrali =1
x (
i0,89,y i b
1,58,0
informan acerca de cul
b0,79,
1 x i ) 1,29,
= 0, 1,42, 0,84,
es el valor ms representativo
hombres adultos.
SSE
Las medidas de= tendenciaLos valores n obtenidos n fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84,
central informan
1,06, 0,87, 1,96 2 Laxvariable
i e i = 2 y i b0acerca
x i (niveles x ide
b1colesterol) =cul 0, es el valor ms representativo
La pendiente deyuna
estimada 1,53 bb1mmol/l.
1 de la recta
determinada i =1
media
de de
regresino,
i =1
losdicho es igual
de del
formaal producto
equivalente, HDL
del en estimadores
coeficiente
estos de indican
cuya solucin
1,06,de es
0,87, 1,96 y 1,53 mmol/l. La media
una determinada variable o, dicho de forma equivalente, estos estimadores indicande los niveles del colesterol HDL en
cuya estos 10 participantes
correlacin
solucin r dealrededor
es Pearson esde porqu el cociente
valor se entre agrupan las los desviaciones
datos observados. tpicas muestrales
Las medidas de Ydeytendencia
estos
cuya solucin 10 participantes
alrededor
es es
de qu valor nse agrupan los datos observados. Las medidas de tendencia
X. As, aunque central los signos
1 de 10 la b10,y89rcoinciden,
demuestra ( x i xtanto )( y para
1,58 + ... +lai 1,magnitud
+sirven
y)
53 resumir de la pendiente b no slo
s y los resultados 1observados como para
x =
central de la
10
x
muestra =
1i b101 = sirven
i =1
n 0,n89
tanto
10 + 1,58 para =
+=1,53
+ ...resumir
1,223
r los , mmol/l.
resultados observados como para
depende del coeficiente realizarxinferencias
i = 1

=de correlacin
10 i =1 (
x i =acerca r, sino
de
x i (xxi )( los
yx10 tambin
2parmetros
i) y )
de s x =poblacionales
las 1,223 mmol/l.correspondientes.
desviaciones tpicas sy y sx A
realizar inferencias s
b1 =acerca i =1 i =1de los parmetros poblacionales correspondientes. A y
=r ,
de las variables.continuacin
Una vez estimada se describen la pendiente,
n
los principales la constante estimadores
s b0 = y -de b1lax tendencia
corresponde central de una
La media aritmtica presenta las siguientes
continuacin se describeni =los b 0 (=xpropiedades:
yxb) 1 x . 2 x
principales estimadores de la tendencia central de una
i
La media aritmtica presenta las siguientes 1
propiedades:
La simplemente
pendiente al valor
variable.
estimada que
b de fuerza
la a
recta la recta
de de regresin
regresin es igual a atravesaral producto el punto ( xcoeficiente
deldatos , y) de
Cambio de origen (traslacin). 1 Si se suma una constante a cada uno de los
correlacin variable.
r de Pearson por el de Ydatos
y X.
Cambio
La pendiente de origen
estimada decociente
b1(traslacin).
la recta de entre
bSi =seylassuma
0 regresin - desviaciones
b1 xuna es. igual constante altpicas a cada
producto muestrales
unocoeficiente
del de los deAs,
correspondiente a la media
bMedia muestral de ambas variables. Si la relacin subyacente entre
aunque
de unalosmuestra,
signos1.2.1 de 1 y r de
la media coinciden,
aritmtica
la muestra la resultante
magnitud es deigual la pendiente
a la media b1inicial
no slo ms depende
la del
coeficiente de
correlacin de correlacin
una 1.2.1 Media
muestra,
r de Pearson r,
la sino
aritmtica
media tambin
de la de
muestra las desviaciones
resultante es tpicas
igual s
a y
la s de
media las variables.
inicial
xmuestrales de Y y ms Una
la
La pendiente estimada b por de la el recta
cociente entre las desviaciones
de regresin es igual tpicas
alestimadores
producto y
del coeficiente dede
vezlas variables
estimada
constante laespendiente,
La
utilizada;lineal
mediasi(asuncin
yi1aritmtica,
la xconstante
= de linealidad),
i + c, entonces b0 = y por
denotada =bb0x1yx+b,corresponde
c1se.sondefine
Un cambio como simplemente insesgados
delaorigen
suma que dealcada
valor la que
uno de los
fuerza a laconstante
recta
X. As, aunque La de utilizada;
media
regresin aritmtica,asi y =
atravesar x
b1i cociente +
denotada
y ri coinciden,c
el , entonces
punto por ( x ,, yse ) = definex +
correspondiente c .
comoUn cambio
la suma
a la de de
media origen
cada
b1 no slo que
uno
muestral de los
de
correlacin
constante rydelalos signospor
Pearson
pendiente
de el
de la recta entre
de
la magnitud
las
regresin. desviaciones de latpicaspendiente muestrales de Y y
ambasse variables. 0 valores
Si la relacinmuestrales
essubyacente
1 dividida de por
entre la las elvariables
nmero quede observaciones
esconsiste
lineal (asuncin realizadas. Si denotamos
ade linealidad),
querealiza
facilitacon unafrecuencia
estimacin el centrado
del valor esperado variable,
o predicho de la variable en restarrespuesta para
b0 yX.b1As,
sonse
depende del valores
estimadores
coeficiente
realiza con muestrales
insesgados
dedecorrelacin
frecuencia dividida
der el la centrado por
constante
r, sino la el nmero
demagnitud
tambin y variable, de
la pendiente observaciones
de las consiste realizadas.
1 de la recta
desviaciones tpicas Si
de regresin.
syay sxdenotamos
aunque
La valor
recta de la los signos
regresin estimada b1 yes coinciden,
viene entonces
0la
determinada de que lapor
pendiente ben restar
1 no slo
cada de n el tamao
pormuestra su muestral
media. La y por de
media xi el una valor variable observado centrada paraser, el sujeto
por i-simo, i = 1, ..., n,
cada
La valor
recta de fijo de la variable
regresin estimada explicativa.
viene Paradeterminadacompletar lapor estimacin de los
de las variables.
cada por nUna
delvalor
el
detamao
lavez muestral
deestimada
muestra su media.la entonces
ypendiente,
porLa
r, sino
xi media
el valor deobservado
la constante unalas b0 =para
variable -elb1sujeto
y centrada x tpicas i-simo,
corresponde
ser, spor
i = 1, ..., n,
depende coeficiente correlacin tambin de desviaciones y y sx
tanto, igual del a 0.la media vendra dada por + b1 (x la
parmetros modelo lineal,y ha = b0 +estimarse
de b1 x = y tambin x ),varianza 2 de la variable
tanto,
simplemente la media
igual
al valora vendra
0. que fuerza dada a por
la recta de regresin a atravesar (x, y)
que defacilita
las variables. Una vez del
una estimacin estimadavalor la pendiente,
esperado o predicho la constante de lab0variable= yel-punto b1respuesta
x corresponde para cada
Cambio de escala (unidades). Si se multiplica cadan uno de los datos de una
respuesta
valor fijo alrededor de dicha
de la variable explicativa. Para completar recta. A partir de 1
la suma de x +
cuadrados
la=estimacin x + ...de+
del x error,
los. de esta
parmetros
n x una entre del
n
Cambio de escala (unidades). Si se multiplica
correspondiente a la media muestral delaambas x =variables. cada +uno
Si
1
la2 +
2
de...los
relacin datos
subyacente
simplemente al devalor que fuerza a la recta de 1regresin n 2 i xa1 atravesar xvariable n +elxrespuesta
punto ( x ,alrededor
y)
modelo lineal, ha estimarse
muestra por una constante, la media de lax muestra tambin varianza
= x iresultante i
= 1 = de la n
es igual a .la media de
varianza
dicha recta. residual
A partir puede
deunala suma estimarse
de cuadrados mediante n esta varianza n residual
muestra
las variables esporlineal constante,
(asuncin mediadel
delalinealidad), deerror, laib=10muestra
y b1 son resultante
estimadores es igual puede
insesgadosa la mediaestimarse
18
de la
correspondiente
mediante
inicial por la constante a la media muestral
utilizada; si yde = ambas
cx , variables.
entonces y =Si c lax relacin
. subyacente entre
La media es la medida i dei tendencia central ms utilizada y de ms fcil
inicial por
La la constante
media es la utilizada;
SSE
medida si
1 yi regresin.
=
n
cxi, entonces y = c x . y de ms fcil
constante
las variables 0 yeslalineal
pendiente
(asuncin
2
s = 1 dedelalinealidad),= tendencia
recta de de (by0i ycentral
bb10 son
ms
x i ) 2.utilizadainsesgados
b1estimadores de la
Cambio simultneo interpretacin.
de origenCorresponde ny escala.
2 n Si 2se ali =1multiplica
centro decada gravedad uno dede loslosdatos datos dede la muestra. Su
La Cambio
recta interpretacin.
de simultneo
regresin Corresponde
de
estimada origen y escala. al centro Si se de gravedad
multiplica cada de unolos datos
de losdedatos la muestra.
de Su
Cabeconstante
destacar 0quey la lapendiente
suma de 1 de laviene
cuadrados rectadel entonces
de
error regresin.
se determinada
divide por n por
2 ya que, una vez estimadas
una muestra por principal
una constante limitacin y alesresultado que estse muy le suma influenciada otra constante, por los la valores
mediaextremos y, en este
la constante unay muestra
Cabe destacar la pendiente
que la
principal por suma de la
limitacin
una de recta
cuadrados
constante es que deyregresin,
aldel
est muy error
resultado lossesendivide
influenciada errores
le suma porpor ndesviaciones
ootra - constante,
los 2 valores
ya que, extremos de
una lavez
la media variable
y, en este
La
respuesta recta
respectode regresin
de la recta estimada
contienen
y = viene
b n+ b entonces
2 x grados
= y + determinada
deb libertad
(x - x ), por
(conocidos b , b y n 2 errores,
caso, puede
de la muestra resultante es no igualser aun la fiel
0 media 1 reflejo inicial de la portendencia
1 la primera central
constante,de la distribucin.
0 1 ms la
los 2estimadas
erroresde restantes
lalacaso,
constante
muestra seresultante
puede derivan
ynolaser automticamente).
pendiente
un fiel reflejo
es igual dea lala media
rectade la Asumiendo
deinicial
regresin,
tendencia por2que lalos
central sencumplen
primera errores
de olas hiptesis
laconstante,
distribucin. ms lade
linealidad y homogeneidad
constante; si2yi de = cla varianza, + bla varianza residual s es un estimador insesgado del
segunda 1xyi +=c2b,0entonces 1x = yy +=bc11(xx - +xc),2.
desviaciones
parmetro poblacionalde
segunda constante;la
variable
.
Ejemplo respuesta
si yi1.4 = cEn 1 xi +
respecto
este c2,yentonces
en los de la yrecta
sucesivos = c1contienen + c2. n sobre
xejemplos - 2 grados de
estimadores muestrales, se
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
libertad
Ejemplo
Ejemplo (conocidos
1.510.7 En butilizarn
, bestudio
0el
Para transformar 1 y n -los
los2deerrores,
valores
la relacin
valores los
del2colesterol
del errores
entre
colesterol el ndice restantes
HDL
HDLdeobtenidos semmol/l
demasa derivan en
corporal losy10
a mg/dl else 18 sujetos del
primeros
colesterol
HDL, resulta1.5
Ejemplo utilizarn
natural
Paraconsiderar los valores
transformar el los del
ndice colesterol
valores de masa HDL obtenidos
corporal
del colesterol como
HDLvariable deenmmol/l
los 10 primeros
explicativa
a mg/dl se ysujetos
el del
automticamente).
colesterol
multiplica por HDL Asumiendo
como
el factor estudio devariable
conversinque
European se
respuesta. cumplen
Study
38,8. El
As, on las
objetivo hiptesis
Antioxidants,
utilizando es, por de linealidad
Myocardial
tanto,
la propiedad estimar y
delInfarction
los cambios andenCancer of
18
estudio European
multiplica por el factor de conversin 38,8. As, Study on Antioxidants, Myocardial
2 utilizando la propiedad del
Infarction and Cancer of
homogeneidad
cambio de escala, lathe de la varianza,
media Breast la varianza
(EURAMIC),
del colesterol residual
HDLun enestudios
mg/dl sees un estimador
multicntrico insesgado del
calculara de casos y controles realizado
the
cambio de escala, la Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
2 media del colesterol HDL en mg/dl se calculara
parmetro poblacional
directamente a partirentre
de su1991 . media y 1992 en mmol/l en ocho como pases 1,223 Europeos
38,8 = 47,45 e Israelmg/dl. para evaluar el efecto
Pastor-Barriuso R. 167de los

directamente entre
a partir1991de y 1992
su media en ocho en mmol/l pases como Europeos 1,223 e Israel
38,8 =para 47,45 evaluar
mg/dl.el efecto de los
Ejemplo 10.7 En el estudio de la relacin entre el ndice de masa corporal y6el 5
central de la muestra sirven tanto para resumir los resultados observados como para
1 10 0,89 + 1,58 + ...A +partir
1,53 de estos datos, las estimaciones de la pendiente y
x =
variables
realizar inferencias =de r =de-0,276.
x iacerca
10 yi =regresin
Correlacin 1
los parmetros
lineal simple10
= 1,223 mmol/l.
poblacionales correspondientes. A

continuacinlaseconstante
describen delos
la recta de regresin
principales por elde
estimadores mtodo de mnimos
la tendencia cuadrados
central de una son
La media aritmtica presenta las siguientes propiedades:
variable. el nivel medio del colesterol HDL s y conforme 0aumenta
,295 el ndice de masa corporal utilizando
un modelo de regresinblineal
1 = r simple.
= 0,276 = -0,023
En este caso, tanto la variable respuesta como la
sx
Cambio de origen (traslacin). Si se suma una constante a cada3uno
,50 de los datos
variable explicativa son continuas.
1.2.1 MediaEjemplo 10.1 se obtuvo
aritmtica un coeficiente de correlacin de Pearson entre ambas
En
de una muestra, la ymedia n =de
Ejemplo 533lacontroles
10.1muestra
se obtuvo del un estudio
resultante esEURAMIC,
coeficiente igual de la media
a lacorrelacin
media inicial y laPearson
de desviacin
ms la entretpica ambas del ndice de
variables
masa
La media aritmtica, de r =fueron
corporal
denotada -0,276.
por xA,=se partir
26,0
define de
y sestos
como = datos,
3,50la kg/m
suma lasde 2estimaciones de la pendiente y
, y
cada los correspondientes
uno de los valores del
x
si yi = xi de
constante utilizada;colesterol
variables cr, entonces
+HDL fueron
= -0,276. b0 =deAy y= xb1+xde
-1,09
partir s1,09
cy=. estos
Un y =cambio
0,295
datos,
+mtodo
0,023 mmol/l.
de
las origen =Adems,
que deenlaelpendiente
estimaciones
26,0 1,69. Ejemplo y10.1 se
la constante
obtuvo
valores muestrales de la
un coeficiente
dividida porrecta regresin
de correlacin
el nmero por
de observaciones de elPearson de mnimos
entre
realizadas. ambas cuadrados
Si variables
denotamos desonr = 0,276. A
partir
se realiza con frecuencia de
es estos
la constante dedatos,
el centradola recta las
de de estimaciones
la variable,
regresinque de consiste
por la
elpendiente
mtodo ende y mnimos
la constante
restar a de la recta
cuadrados sonde regresin
La
por n el tamao el mtodoby0de
porconstante
muestral = mnimos
por 1,69
xi elmmol/l
valor es
cuadrados una
observado
sy estimacin
son para el
0,295 del
sujeto valor esperado
i-simo, i = 1, de...,colesterol
n,
cada valor de la muestra su media. La media b1 de= runa variable= 0,276centrada=ser, -0,023 por
s xy 3 ,50
0,295 igual a 0 kg/m2, extrapolacin
HDL dada
la media vendra para porun sujeto con bun=ndice r de
= 0,276masa corporal = 0,023
1
tanto, igual a 0. sx 3,50
y carece de sentido biolgico. La pendiente b1 = -0,023 estima que, por cada
que
y 1 n x + x + ... + x n
Cambio de escala (unidades).
y x = x icada
Si se multiplica = 1 uno 2de los datos . de una
incremento de 1 kg/mbn20 ien =1 y
= elndice
b1 x =de1,09 nmasa + 0,023
corporal, 26,0el=nivel1,69.medio de colesterol
muestra por una constante, la media de la b0 muestray - b1resultante
=mmol/l x una = 1,09 +es0,023
igual26,0 a la media
= 1,69.
La constante
HDL disminuye b0 =en1,69 0,023 mmol/l. es En estimacin
general, la del valor
pendiente esperado
puede de colesterol
utilizarse para HDL
La mediapara
es la medida
La constante de
b =tendencia
1,69 mmol/lcentral es ms
una utilizada
estimacin
un sujeto con un ndice de masa corporal igual a 0 kg/m , extrapolacin que carece
0 y de
del ms
valor fcil
esperado
2 de colesterol
inicial por la constante utilizada; si yi = cxi, entonces y = c x .
de sentido
La Corresponde
constante
calcular biolgico.
el efectob0 =alasociado
1,69 Lammol/l
pendiente es una
a incrementos b1 =estimacin
0,023
delos estima
cualquier del valorque,esperado
magnitudpor cada 2 de
c en incremento
variable de 1 kg/
la colesterol
interpretacin.
HDL para un sujeto centro
con un de gravedad
ndice de masa de datos
corporal
m en el ndice de masa corporal, el nivel medio de colesterol HDL disminuye en 0,023
2 de
igual la amuestra.
0 kg/m Su
, extrapolacin
Cambio simultneommol/l.
de origen Enuny general,
escala. Silasependiente multiplicapuede cada uno de los datos
utilizarse de
para acalcular 2el efecto asociado a
HDL para
explicativa,
principal limitacin es que sujeto
est con influenciada
muy un ndice de masa
por los corporal
valores igual
extremos 0 kg/my, en , este
extrapolacin
que carece de sentido biolgico. La
incrementos de cualquier magnitud c en la variable explicativa, pendiente b 1 = -0,023 estima que, por cada
una muestra por una constante y al resultado se le suma otra constante, la media
queser carece de reflejo
sentidode biolgico. La pendiente b = -0,023 estima que, por cada
caso, puede incremento
no un fiel de 1 ykg/m (xy +=2 c)lael
en
1,69tendencia
y-ndice
(x) = bde
0,023x, 0central
b1 (x de
+masa + c)la1distribucin.
corporal, (b0 + el bnivel
1 x) = medio
cb1 . de colesterol
de la muestra resultante es igual a la media 2 inicial por la primera constante, ms la
incremento
As, de 1 kg/m en el ndice de masa corporal, el nivel
c= medio de colesterol
HDLpor ejemplo, enincrementos de una desviacin tpica 3,50 kg/m enpara
el ndice de
2
disminuye 0,023 mmol/l. y En= 1,69 general, la pendiente
- 0,023x, puede utilizarse
2
que se muestra
EjemploAs,
segunda constante;masa en1.4por
la En ejemplo,
Figura
si yi =corporaleste y10.7.
en incrementos
c1xi + c2,seentonces Esta
los recta
sucesivos
asocian ycon de
= cuna una
regresin
ejemplos desviacin
disminucin puede
sobre tpica c
utilizarse
estimadores = 3,50
para kg/m
muestrales,
media en el colesterol HDL de cb1 = en el
se ndice
1x + c2 .
HDL disminuye
3,50(0,023) = en 0,023
0,081 mmol/l.
mmol/l. Notar Enque, general,
como laconsecuencia
pendiente puede de lac utilizarse
hiptesis para
de linealidad,
calcular el efecto asociado a incrementos de cualquier magnitud en la variable
de
que
estimarutilizarn
o predecir masa
se
losel corporal
muestra
valor
valores en
esperado
del sela asocian
Figura
del
colesterol con
10.7.
colesterol
HDL una
Esta disminucin
recta
HDL
obtenidos ende funcin
en
esta disminucin se asume constante a lo largo de todo el rango observado del ndice de losmedia
regresin10 del en el
puede
ndice
primeros colesterol
utilizarse
de
sujetos HDL
para
del de
calcular el efecto asociado a incrementos de cualquier magnitud c en la variable
masa
Ejemplo 1.5 Para transformar corporal;
explicativa, esto es,del
los valores el colesterol
modelo deHDL regresin
de mmol/l lineal estima
a mg/dl seuna misma reduccin de
estudiocb 1 = 3,50(-0,023) = -0,081 mmol/l. Notar que, como consecuencia de masa
laofhiptesis
2
masa corporal. estimar
Por
European o predecir
ejemplo, para
Study el
onunvalor
ndiceesperado
Antioxidants, de masa
0,081 mmol/l en el colesterol HDL entre 25 y 28,5 kg/m del ndice del colesterol
corporal
Myocardial de HDL
25
Infarction 2en and
kg/m funcin
, el Cancerdel
de ndice de
corporal que
explicativa,
multiplica por el factor
entrede conversin
28,5 y 32 kg/m yde(x38,8.
2
+. c) As, utilizando
- ypara
(x) b0de + bla propiedad
+dec) del b1x) =de cbtodo
modelotheestimade
masa
un
Breastlinealidad,
corporal.
nivel medio
(EURAMIC), esta
Por disminucin
ejemplo,
colesterol
un estudio se=un
HDL asume
multicntrico ndice (x
y1constante
de
(25) masa - (b
=casos
1,69 -+
acorporal
0lo largo
y0,023
controles 25 25. kg/m
=1realizado
2
el rango
, el
La recta de regresin estimada del colesterol HDL sobre el ndice de masa corporal es
cambio de escala, la media del colesterol y (x + HDL c) - yen (x)mg/dl= b0 +sebcalculara
1(x + c) - (b0 + b1x) = cb1.
entre observado
modelo
1991 y 1992 del
estima en ndice
un
ocho nivelde masa
medio
pases corporal;
de
Europeos colesterol
e esto
Israel es,
HDL
para el modelo
de y (25)
evaluar de=efecto
regresin
1,69 de-de0,023lineal
25ndice
=
1,11 mmol/l. As,
Por supuesto,
por ejemplo, los valores
incrementos observados
dey una = 1,69 del colesterol
desviacin
0,023x, HDL
tpica =el3,50
c difieren kg/m 2 los
en el
directamente a partir de su media en mmol/l como 1,22338,8 = 47,45 mg/dl. 2
As,
estima
que por
se unaejemplo,
misma
muestra en incrementos
reduccin dede una
0,081 desviacin
mmol/l tpica
enregresin
el c =puede
colesterol 3,50 kg/m
HDL en25
entre el yndice
1,11
los valores medios
de masammol/l.
predichos Por
corporal selala
por Figura
supuesto,
recta los
asocian 10.7.
de Esta
valores
conregresin.
una recta
La de
observados
disminucin varianzadel
media colesterol
residual utilizarse
delHDL
en el colesterol HDL para
difieren
5
estimar o
de
de
que se muestra en la Figura 10.7. Esta recta
predecir el2 valor esperado del colesterol HDL en funcin del ndice de regresin puede utilizarse para
de masa corporal. Por
2
de
28,5masa
ejemplo,kg/m
los1respecto
valores corporal
del
para un
medios se
ndice asocian
ndice de masa
de con
masa una
corporal disminucin
corporal que deentre
25 media
28,5
kg/m 2 y 32
, elen el
kg/m
modelocolesterol
6 . estima HDL
undel de medio
nivel
colesterol HDL cb a la recta
= 3,50(-0,023) =predichos
de regresin
-0,081 por laesrecta
mmol/l. Notardeque, regresin. La varianza residual
como consecuencia de la hiptesis
estimar o predecir
de colesterol HDLeldevalor (25)esperado
= 1,69 del colesterol
0,02325 HDLmmol/l.
= 1,11 en funcin
Por del ndice los
supuesto, de valores
cb
La =
recta3,50(-0,023)
observados de regresin
del533 = -0,081
estimada
colesterol aHDLmmol/l.
del Notar
colesterol
difieren de que,
HDLcomo sobre
los valores consecuencia
es a lo medios el ndice dede la
masa hiptesis
colesterol
de 1
linealidad, HDL estarespecto
disminucin la rectase de regresin
asume constante largo depredichos
todo el rango por la recta de
SSE
masa 1
corporal. Por ejemplo, para un ndice 42,63
de masa corporal de 25 kg/m 2
, el
s2 regresin. = La varianza { y i (residual
1,69 0,del 023colesterol
x i )} = HDL=respecto 0,080. a la recta de regresin es
es531
2
=
de 531
linealidad,
corporal esta disminucin se asume constante
531 a lo largo de todo el rango
observado del ndicei =1
SSE de medio 1masa533 corporal; esto es, el modelo de regresin lineal
42,63
modelo estima 2y (25) - 0,02325 =
s2 = un nivel = {dey i colesterol
(1,69 0HDL ,023xdei )} =
= 1,69
= 0,080.
observado del ndice 531 de masa
531 i =1 corporal; esto es, el modelo de regresin
531 HDL entre lineal
estimaque
Notar, por ltimo, unadebido
misma a reduccin
la hiptesisdede0,081 mmol/l en de
homogeneidad el colesterol
la varianza, la 25 y 20
1,11 mmol/l. Por supuesto, los valores observados del colesterol HDL difieren de
Notar,
estima poruna2ltimo,
misma que debido de
reduccin a la0,081
hiptesis
mmol/l de homogeneidad
en el colesteroldeHDL la2 varianza,
entre 25lay desviacin
28,5
Notar, kg/m
por del
ltimo,ndiceque de masa
debido acorporal
la hiptesisque entre
de 28,5
homogeneidad y 32 kg/m .
tpica
desviacin tpica residualdel
residual delcolesterol
colesterolHDL HDLss== 0,080 ==0,283 mmol/lseseasumevarianza,
0,283mmol/l de la constantelaalrededor
los valores2 medios predichos por la recta de regresin. La varianza 2 residual del
de
28,5cualquier
kg/m del punto
ndice de de
la recta
masade regresin.
corporal que entre 28,5 y 32 kg/m .
La recta de tpica
regresin estimada del colesterol HDL= sobre
0,080el=ndice0,283de masa se
asume constantedesviacin
alrededor
colesterol HDL
residual
derespecto
cualquiera la del
puntocolesterol
rectadedelaregresin
HDL
recta desregresin.
es
mmol/l
La recta de regresin estimada del colesterol HDL sobre el ndice de masa
corporal es
asume constante alrededor de cualquier punto de la recta de regresin.
corporal ess2 = SSE = 1 42,63
168 Pastor-Barriuso R. 533

[Figura 531
10.7 aproximadamente
531 i =1
{ y i (1,69 0,023x i )}2 =
aqu] 531
= 0,080.
20
Regresin lineal simple

2,25

Colesterol HDL (mmol/l) 2

1,5

0,5

0,25

20 24 28 32 36
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en
Indice de masa corporal (kg/m)

hombres adultos. Los


Figura
sentidovalores
10.7 obtenidos
deRecta facilitafueron
de regresin
queantioxidantes
no del el0,89,
ninguna 1,58,
encolesterol
riesgo de 0,79,
HDL sobre1,29,
desarrollar
informacin sobre la1,42,
el ndice de 0,84,corporal
masa
unidoneidad
primer infarto en el grupo
agudo
del modelo control10.7del
de miocardio
Figura
lineal en
estudio EURAMIC.
1,06, 0,87, 1,96 para
y 1,53 mmol/l.
describir laLa media
hombres de losLos
adultos.
relacin niveles
subyacente dellas
valores
entre colesterol
obtenidos HDL en0,89, 1,58,
fueron
variables explicativa 0,79, 1,29, 1,42, 0,84,
y respuesta.
sentido
10.3.2 de que nodel
Contraste facilita
modeloninguna informacin sobre la idoneidad del modelo lineal
estos 10 participantes es 1,06,del
La realizacin 0,87, 1,96 de
contrasteyderegresin
1,53 mmol/l.
regresin
lineal
seLa
simple
media
basa en eldeanlisis
los niveles
de ladel colesterol
varianza de laHDL en
En para
general, el contraste
describir de regresin
la relacin subyacente lineal permite
entre evaluar explicativa
las variables si el modeloyen su conjunto explica
respuesta.
unavariable
parte
1 estos
respuesta.
10significativa 10
Unadeparticipantes
vez
la estimada
variabilidad
0,89 + 1,58 + ... + 1,53 es la recta
de la de regresin,
variable respuesta.la desviacin
En el de cada
caso valor de la
particular
x =
regresin x
lineal
La realizacin
10
i = simple, dellacontraste
hiptesisdenula
10
= 1,223 mmol/l.
del contraste
regresin se basaesensimplemente
el anlisis deque la pendiente
la varianza de la1 de la
recta de iregresin
observado =1
yi respecto a la media
subyacente es 0,muestral
1ya 10que en y puede
tal caso separarse
la variable
0,89 + 1,58 + ... + 1,53 en dos componentes:
respuesta no se el
relacionar
linealmente con la nica
variable respuesta. Unavariable x =
vez estimada lai recta
explicativa x = y, ende consecuencia,
regresin, la desviacin
10 i =1de la variable respuesta. 10
= 1,223
el modelode mmol/l.
lineal
cadano aportar
valor
explicacin
a media aritmticaerror alguna
o desviacin
presenta sobre la
del valor
las siguientes variabilidad
observado yi respecto a su valor estimado por la recta deque este
propiedades: Es importante resaltar
contraste
observado de regresin
yi respectoasume linealidad
a la media muestral y, por tanto, separarse
y puede no debe interpretarse
en dos componentes: como uneltest de
bondad del
regresin ajuste,
yLa en
bSi0 +
i =media
el sentido
sebsuma
1xi, y una
de que
la distancia no facilita ninguna informacin sobre
datos y i y la media la idoneidad del
Cambio de origen (traslacin). aritmtica presentaentre
constante dicho
a cada
las unovalor
siguientes estimado
depropiedades:
los
modelo
errorlineal para describir
o desviacin del valor la relacin
observado subyacente
yi respecto entre
a sulas valorvariables
estimadoexplicativa
por la recta y respuesta.
de
Lamedia
de una muestra,muestral
la realizacin
y; la
de deles,contraste
muestra
esto
Cambio de regresin
deresultante
origen es igual se
(traslacin). a labasase en
Simediasumael anlisis
inicialuna ms de
la la varianza
constante a cada uno de la
devariable
los datos
regresin
respuesta. Unay i vez
= b0estimada
+ b1xi, y la distancia entre dicholavalor
recta de regresin, estimado
desviacin de ycada
i y la media
valor observado yi
respecto
constante utilizada; si yai la
= xmedia c, una
i +de muestral
entonces
muestra, =la xmedia
y puede c. Un
+separarsede la en dos
cambio
muestra de componentes:
origen quees igual
resultante el errora la omedia
desviacin
inicialdel
ms la
valor observado y respecto a su yi - y estimado
valor = y i - y por + yi la
- yrecta
i. de regresin = b + b x , y la
muestral y ; esto i es, i 0 1 i
se realiza condistancia
frecuencia entre
es eldicho valorde
constante
centrado estimado
utilizada; sii yyi la
la variable, xmedia
=que i+ c, entonces
consistemuestral
en restar ax es,
y ; =esto + c. Un cambio de origen que
Elevando al cuadrado estas desviaciones y sumando sobre todas las observaciones, se
cada valor de la muestra su media. La media yi variable
de una y = y i centrada
y + y ser, y i . por
se realiza con frecuencia es el centradoi de la variable, que consiste en restar a
tiene que
Elevando al la suma deestas
cuadrado cuadrados
desviaciones total yessumando sobre todas las observaciones, se tiene que
tanto, igual a la
0. suma
Elevandode cuadrados cada valor
al cuadrado total deesladesviaciones
estas muestra su media. y sumando La media
sobrede unalas
todas variable centrada ser,
observaciones, se por
n n n n
Cambio de escalatiene
(unidades). se( yde
Si
tanto,
SSTla=suma
que multiplica
igual
y )a2 0.
i cuadrados (total
= cadayuno
i y
de
es +
) 2 los
i =1
datos
i =1
i ) + 2 ( y i y )( y i y i )
( y i deyuna2

i =1

i =1
muestra por una constante,la Cambio
media dedelaescala
muestra resultanteSiesnseigual
n(unidades). a la media
multiplica cadan uno de los datos de una
n
SST = ( y i y ) = i
2 = n
(
y y ) 2
2
+
( y i y ) +i
i
n
( y y i ) 2 2 = SSR + SSE,
( y i y i ) + 2 ( y i y )( y i y i )
i

i =1si yi =
inicial por la constante utilizada; cxiuna
, entonces y =lac media
x . i =1 de la muestrai =resultante
=1 =1
muestra por constante,
i =1 1 es igual a la media
Pastor-Barriuso R. 169
Cambio simultneo de origen inicial porSilaseconstante
y escala. multiplica
n utilizada;
cada unosi yi =los
n de cxdatos de y = c x .
i, entonces
ya que ambas componentes estn = incorrelacionadas
( y i y ) 2 + ( y i y i ) 2 = SSR + SSE,
i =1 i =1
una muestra por una constante y al resultado
Cambio se le de
simultneo suma otrayconstante,
origen escala. Si la
semedia
multiplica cada uno de los datos de
n n
= ( y i y ) 2 + ( y i y i ) 2 = SSR + SSE,
i =1 i =1
Correlacin y regresin lineal simple

ya que ambas
es en el riesgo de desarrollar componentes
un primer infarto estn
agudoincorrelacionadas
antioxidantesde miocardio 1.2 en
en el riesgo MEDIDAS DE TENDENCIA
de desarrollar un primer infarto CENTRAL
agudo de miocardio e
ya que ambas componentes estn incorrelacionadas
ultos. Los valores obtenidos fueron n 0,89, 1,58, hombres
0,79, 1,29,adultos.
n 1,42, Los0,84,
Las valores
medidas n obtenidos fueron
de tendencian 0,89, 1,58,
central 0,79,acerca
informan 1,29, 1,42, 0,84
de cul es
(
y i y )( y i
y i ) = b 1 ( x i x ) e i = b 1 i i x e b1 i
x e = 0
1,96 y 1,53 mmol/l. La media de i =1 los niveles del 1,06,colesterol
0,87,i =1,96
1 HDL y 1,53
en una
de mmol/l.
i =1 La mediai =de
determinada
1 los niveles del colesterol HDL en
variable o, dicho de forma equivalente, e
segn las ecuaciones de regresin derivadas del mtodo de mnimos cuadrados. As, la suma
rticipantes es de cuadrados total SST sededescompone
segn las ecuaciones estos 10derivadas
regresin participantes
en dos trminos
del es independientes:
mtodo
alrededor de qu
de mnimos sesuma
la
valor cuadrados.
agrupande As,
cuadrados
la observados. Las
los datos
de la regresin SSR, que representa la variabilidad de la variable respuesta explicada por la
1 10 nica 0,89variable
suma +de
1,58 +independiente
cuadrados
... + 1,53 total SST delsemodelo
descomponede regresin,
en dos
1central
10 y 0la,89
trminos
de suma1,58de cuadrados
+independientes:
muestra sirven
+ ... delresumir
suma
,53 lapara
+ 1tanto error los resultados
x = x iSSE,= que corresponde a la=variabilidad 1,223 mmol/l. residual de lavariable
x = x i = respuesta que queda=sin 1,223 mmol/l.
explicar.
10 i =1 10 10 i =1 10
Conviene recordar
de cuadrados de que la recta SSR,
la regresin de regresin
que representa estimada
realizar por el procedimiento
la inferencias
variabilidad acerca de los de
de la variable mnimospoblacionales c
parmetros
cuadrados minimiza la suma de cuadrados del error, maximizando entonces la capacidad
predictiva o explicada
explicativa pordel modelo de regresin. La Figurase
continuacin 10.8 ilustra
describen grficamente
los y la esta
principales estimadores de la t
mtica presenta lasrespuesta
siguientes propiedades: la nica
La mediavariable
aritmtica independiente
presenta lasdel modelo
siguientes de regresin,
propiedades:
descomposicin.
variable.a la variabilidad
origen (traslacin).suma sede cuadrados
LaSidescomposicin
suma una constante della
de error
variabilidad
Cambio
a cada SSE, deque
uno de corresponde
de la
origenlosvariable
datos respuesta
(traslacin). Si se suele residual
suma representarse
una de la
constante mediante
a cada uno de los datos
la denominada tabla del anlisis de la varianza (Tabla 10.2). En primer lugar, esta tabla
stra, la media de lavariable
presenta lasrespuesta
muestra sumas deque
resultante es queda
deasin
cuadrados
igual una explicar.
junto
la media susConviene
con inicial
muestra, 1.2.1 recordar
Media
lacorrespondientes
media
ms la de que la
aritmtica
grados
la muestra recta de es
regresin
de libertad.
resultante La suma
igual de
a la media inicial ms
cuadrados de la regresin contiene nicamente 1 grado de libertad ya que, una vez conocida la
tilizada; si yi = media muestral y , =losx valores
xi + c, entonces + c. Un estimados
cambio utilizada;
constante depor
origen ymedia
la recta
sique
La i=dexiregresin
+aritmtica,i =
c, entonces y += bx1(xpor
denotada +i c. Un
x ), quedan
cambio
se definede
22 origen
como que
la sum
completamente determinados por su pendiente; mientras que, como se vio en el apartado
on frecuencia esanterior, la suma
el centrado de la de cuadrados
variable, que del error
se realiza
consiste entiene
con nvalores
a 2 grados
frecuencia
restar de libertad.
esmuestrales
el centrado de la A
dividida continuacin,
por el nmero
variable, los
de observaciones
que consiste en restar a
trminos de la varianza se obtienen de dividir las sumas de cuadrados por sus grados de libertad.
de la muestra suFinalmente, la razn
media. La media de de
unavarianzas
cada se
variable define
centrada
valor como
de la
ser, el cociente
por
muestra n su
el tamao
media.entre lamedia
varianza
muestral
La ydeporexplicada
unaxivariable
el valor por la
observado
centrada parapor
ser, el s
regresin y la varianza residual, que constituye el estadstico del contraste de regresin.
a 0. tanto, igual a 0. la media vendra dada por

escala (unidades). Si se multiplica cada uno


de
Cambio
los datos
de escala
de una(unidades). Si se multiplica cada uno
1 nde los xdatos
+ x 2de+una
... + x n
x = xi = 1 .
r una constante, la media de la muestra resultante
muestra
es igual
por una
a laconstante,
media n n
la media de la muestra resultante es igual a la media
i =1

(xi, yi)
a constante utilizada; si yi = cxi, entonces y inicial
= c x . por la constanteLa
utilizada; yi medida
media essi la = cxi, entonces y = ccentral
de tendencia x. ms utilizada

multneo de origen y escala. Si se multiplica


cada
Cambio
unosimultneo interpretacin.
de los datosdedeorigen ei = yi y i
Corresponde al centro de gravedad de los d
( x , y )y escala. Si se multiplica cada uno de los datos de
i i
yi y
a por una constante y al resultado se le suma una
otra( xmuestra
constante,
, y) principal
porlauna
media limitacin
constante es queseest
y al resultado
y y
muy otra
le suma influenciada porlalos
constante, val
media
y i

ra resultante es igual a la media inicial por lade


primera
la muestra
constante, caso,
resultante
ms es puede
la igualno sermedia
a la un fiel reflejo
inicial pordelalaprimera
tendencia central de
constante, msla

nstante; si yi = c1xi + c2, entonces y = c1 x +segunda


c2 . constante; si yi = c1xi + c2, entonces y = c1 x + c2.
Recta de regresin estimada: Ejemplo 1.4 En este y en los sucesivos ejemplos sobre
y = b0 + b1 x = y + b1 ( x x )

5 Para transformar los valores del colesterol HDL


Ejemplo utilizarn
1.5 Paraa transformar
de mmol/l mg/dl se los valores
los valores del colesterol
del colesterol HDLHDL obtenidos
de mmol/l en
a mg/dl

por el factor de conversin 38,8. As, utilizando


multiplica
la propiedad factor deestudio
por eldel European
conversin Study
38,8. As, on Antioxidants,
utilizando Myocardial
la propiedad del

escala, la media del colesterol HDL en mg/dlcambio


se calculara thedel
de escala, la media Breast (EURAMIC),
colesterol un estudio
HDL en mg/dl multicntrico de c
se calculara
x
partir de suentre
38,8 = 47,45amg/dl.
te a partir de su media en mmol/l como 1,223directamente 1991
media en ymmol/l
1992 en ocho1,223
como pases Europeos
Figura
38,8 = 47,45emg/dl.
10.8 Israel par
Figura 10.8 Descomposicin de la variabilidad de la variable respuesta en la parte explicada y no explica-
da por la regresin.
6
170 Pastor-Barriuso R.
libertad ya que, una vez conocida la media muestral y , los valores estimados por la
Regresin lineal simple
recta de regresin y i = y + b1(xi - x ) quedan completamente determinados por su

pendiente; mientras
Tabla que,
10.2Tabla
Tabla 10.2 Tabla como se viodel
genrica
genrica
enanlisis
del anlisis
el apartado anterior,
de laen
de la varianza varianza laensuma de cuadrados del
regresin
regresin lineal simple.* lineal
varianzasimple.*
var(b1). As, bajo la hiptesis nula H0: 1 = 0, el cociente SSR/ 2 es el
error tiene n - 2 grados de libertad.
Suma de A continuacin, Gradoslos
de trminos de la varianza
Razn dese
Suma de
cuadrados Grados de
libertad Varianza Razn de
varianzas
cuadrado de una distribucin normal estandarizada,
cuadrados libertadque corresponde por definicin a
varianzas
obtienen de dividir las sumas nde cuadrados por sus gradosVarianza
de libertad. Finalmente, la
SSR
una distribucin SSR = con
Regresin chi-cuadrado ( y i 1ygrado
) 1 2
de libertad. F = con
SSRparte, basta
Por otra 2 que se
razn de varianzas se define como
i =1
el cociente entre la varianza explicada porsla
cumplan las asunciones subyacentes
n n
al modelo lineal para que la varianza residual s2
SSE
regresin y la varianza
Error ei = que
SSE =residual,
2
( y i constituye
i =1
y i ) 2
el
n estadstico
i =1
2 s =del contraste de regresin.
2
n2
sea un estimador insesgado de 2 y el cociente
n
Total ( y i 10.2
SST =[Tabla
i =1
y) 2 aproximadamenten 1 aqu]
2
varianza var(b1). As, bajo la hiptesis (n H
nula 2) s: = 0, el cociente SSR/ 2 es el
2 0 1
* Coeficiente de determinacin R = SSR/SST.
* Coeficiente de determinacin R = SSR/SST. 2
2
Para realizar el contraste de regresin, es preciso conocer la distribucin de la razn
cuadrado de una distribucin normal estandarizada, que corresponde por definicin a
de
siga
Paravarianzas
una
realizar bajo
distribucinla hiptesis
el contraste de nula
chi-cuadrado H 0: n1es
con
regresin, -=20. Por unde
grados
preciso lado, selatiene
libertad.
conocer que
Combinando
distribucin ambos
de la razn de
una distribucin chi-cuadrado con 1 grado de libertad. Por otra parte, basta con que se
varianzas bajo la hiptesis nula H0: 1 = 0. Por un lado, se tiene que
resultados,
varianza sebtiene quen bajolalahiptesis
hiptesis n HH
nula : 1 =0,0ella
0: 01 =
razn entre las
2varianzas
cumplan var( 1). As,1 bajo bal12nula b12cociente 2 SSR/ es el s2
SSR
las asunciones subyacentes modelo lineal 2 para n 1la
(que ) s varianzab12 residual
2 2
= (
y i y ) 2
= ( x i x ) = x
= ,
explicada 2
y residual i =1 i =1 2
var( b )
cuadrado de
sea un estimadoruna distribucin
insesgado denormal 2 y elestandarizada,
cociente que corresponde por definicin a 1

donde var(b1) = 2/{(n 1)s2x} es la varianza de la pendiente estimada. Como se comprobar en


una distribucin
donde var(b
el siguiente apartado, chi-cuadrado
2
1) = /{(n si se- cumplen con
1) s x2 }SSR
eslas1 grado
la SSR /de
varianza
asunciones 2libertad.
de la Por
dependiente 2 otra parte, basta con que se
la regresin estimada. Como se
lineal simple, la pendiente
estimada b1 seguir una distribucin F = = ( n 2 ) s~2 1

cumplan las asunciones subyacentess 2 normalal


2
/ con
smodelo 2 media /(n1 que
n2 2para y2varianza
) la varianza var(b1). As, 2bajo la
residual s normal
22 lineal
hiptesis nula en
comprobar H0:elsiguiente
1 = 0, el apartado,
cociente siSSR/
se cumplen es ellas cuadrado
asunciones de de unaladistribucin
regresin lineal
estandarizada, que corresponde por 2definicin a una distribucin chi-cuadrado con 1 grado de
seadistribuye
se unPor
estimador
otracomo insesgado
elestimada
cociente dos
de de yseelchi-cuadrado
cociente las asunciones independientes divididas
libertad.
simple,
siga una parte,
ladistribucin
pendiente basta con
chi-cuadrado bque concumplan
1 seguir nuna - 2 distribucin
grados de libertad. normal con mediaalpor
subyacentes
Combinando y sus lineal
modelo
1ambos
para que la varianza residual s sea un estimador insesgado de y el cociente
2 2

respectivos grados de libertad, que es una distribucin F de Fisher con 1 grado de 23


resultados, se tiene que bajo la hiptesis(nnula 2)Hs 02: 1 = 0 la razn entre las varianzas
2
libertad en el numerador y n - 2 grados de libertad en el denominador. El valor P del
explicada y residual
siga una distribucin chi-cuadrado con n 2 grados de libertad. Combinando ambos resultados,
se tiene que distribucin
contraste
siga una bajo la hiptesis
de regresin de lanula H0: con
hiptesis
chi-cuadrado = n0 -laH
1 nula 2razn
: 1 =entre
0grados las varianzas
0defrente explicada
a la Combinando
libertad. hiptesis y residual
alternativa
ambos
SSR SSR / 2 12
: tiene
H1se F = = ~
bilateral
resultados, 1 0 se
quecalcula
bajo laentonces scomo
hiptesis
s2 2nula2 la
/ H0probabilidad
: 1 2= 0/(la 2a) la entre
n razn derecha
las del estadstico
varianzas
n2

se distribuye
F como el cociente
bajo la distribucin
explicada y residual F1,n-2.de dos chi-cuadrado independientes divididas por sus respectivos
grados de libertad,
se distribuye comoqueelescociente
una distribucin F de Fisher con
de dos chi-cuadrado 1 grado de libertad
independientes enpor
divididas el numerador
sus
y n 2La
grados de libertad en el denominador. El valor
tabla del anlisis de la varianza suele ir 2acompaada P del contraste de regresin
del coeficiente de de la hiptesis
H0: 1 = 0 grados SSR SSR / 2
nularespectivos frente adelalibertad,
hiptesis
F = que alternativa
es
= una ~ 2 H1F:1de
bilateral
distribucin 1 Fisher
0 se calcula entonces
con 1 grado de como la
probabilidad a la derecha
2 del estadstico
s 2
determinacin R , que se define como la proporcin Fs bajo
2
/ la
2

distribucin /( n F2) .
n 2de la variabilidad
1,n2 de la variable
libertad en el numerador y n - 2 grados de libertad en el denominador. El valor P del
La tabla del anlisis de la varianza suele ir acompaada del coeficiente de determinacin R2,
querespuesta
se defineque
sedistribuye
comose explica
como la el por el modelo
proporcin
cociente de dos de regresin,
la variabilidad
chi-cuadrado de la variable respuesta que por
se explica por
contraste de regresin de la hiptesis nula H0: 1 = 0independientes divididas
frente a la hiptesis sus
alternativa
el modelo de regresin,
respectivos grados de libertad,n que es una 2 distribucin
n
F de Fisher con 1 grado de
bilateral H1: 1 0 se calcula entonces
( y i y )como b12laprobabilidad
( x i x ) 2 a la derecha
2
del estadstico
2 SSR i =1 i =1 2 sx 2
R =
libertad en el numerador y =n -n2 grados de =libertad n
= b1 2 = rEl. valor P del
en el denominador.
F bajo la distribucinSST F1,n-2. sy
( yi y) 2
( yi y) 2

contraste de regresin de la hiptesis


i =1
nula H0:i =1 1 = 0 frente a la hiptesis alternativa
La tabla del anlisis de la varianza suele ir acompaada del coeficiente de
bilateral H1: 1 02 se calcula entonces como la probabilidad a la derecha del estadstico
Pastor-Barriuso R. 171
determinacin R , que se define como la proporcin de la variabilidad de la variable 24
F bajo la distribucin
respuesta F1,n-2
que se explica por. el modelo de regresin,
el cuadrado del coeficiente
observados de correlacin
del colesterol HDL respecto r de aPearson
la media entre las variables
muestral explicativa
y = 1,09 mmol/l esy
lineal del10colesterol HDL sobre el ndice de masa corporal en 533 controles del
Ejemplo 1 10.8 La0,Tabla 89 + 1,10.3
58 + ... + 1,53 el anlisis de la varianza de la regresin
presenta
respuesta.
Correlacin
estudio

x y=regresin xlineal
10 EURAMIC.
i = simple
La suma
533
10 de cuadrados
= 1,223 mmol/l.
de)las desviaciones de los valores
sobre= elndice
2
i =1
lineal del colesterol HDL SST ( y i de
1,09
masa=corporal
46,15, en 533 controles del
i =1
Ejemplo
observados 10.8 delLacolesterol
Tabla 10.3 HDL presenta
respecto el anlisis
a la media de la varianzay de
muestral la regresin
= 1,09 mmol/l es
En el estudio
casopresenta
La media aritmtica deEURAMIC.
la regresin lineal
La
las siguientes suma simple,
de cuadrados
propiedades: el coeficiente de determinacin
de las desviaciones de los R 2
coincide con el
valores
que del
cuadrado sedel
lineal descompone
colesteroldeen
coeficiente la suma
sobre de
correlacin
HDL cuadrados
elrndice
de Pearson
de masadeentre
lascorporal
desviaciones
en 533del
las variables colesterol
explicativa
controles y respuesta.
del
533
observados
Cambio de origen del colesterol
(traslacin). Si se suma HDL una=respecto
( y i a1,09
constante la media
a cada
) 2 =unomuestral y = 1,09 mmol/l es
de los datos
HDL
estudio respecto
EjemploEURAMIC. a la
10.8 La Tabla recta
SST
de
10.3de
La suma

regresin
presenta y
cuadrados
i =1 el = 1,69
i anlisis -
de las de
46,15,
0,023 x
la varianza
desviaciones
i delos
de la regresin
valores lineal del
de una muestra,colesterol
la mediaHDL de lasobre
muestrael ndice de533
resultante masa corporal
es igual a la en 533 inicial
media controles
msdel laestudio EURAMIC.
La suma de del
observados
que se
cuadrados
descompone
colesterol
en
deSST
la
las
HDL
suma
533desviaciones
respecto
=de lademedia
( y i a1,09
cuadrados )los
de
2 valores
las
muestral
= 46,15,
desviaciones
y = 1,09del
observados colesterol
mmol/l
del colesterol
es HDL
respecto
constante utilizada; si yai la
= xmedia
i + c , SSE = { y i (1,69 0,023x i )} = 42,63
muestral
entonces y =
= 1,09
i =x
1 + mmol/l
c . Un es
cambio de2
origen que
i =1
HDL respecto a la recta de regresin 533
y = 1,692 - 0,023xi
se realiza con que se descompone en la suma decuadrados
frecuencia es el centrado de
SST la=variable,
( y i ique
1,09consiste
) las
de en restar a del colesterol
= 46,15,
desviaciones
y la suma de cuadrados de las distancias entre los valores estimados por la recta
i =1

cada valor de que


la muestra
HDL su media.
serespecto La de
a la recta
descompone en media
la 533 de una variable centrada ser, por
regresin
suma y i = 1,69 -de0,023
de cuadrados las xdesviaciones del colesterol HDL
de
que regresin
se y la
descompone
SSE
media
en la
=
suma
respecto a la recta de regresin
{ y i (1,69
muestral de cuadrados
0,023x i )}2 =i 42,63
i =1 i = 1,69 0,023xi
de las desviaciones del colesterol
tanto, igual a 0.
533
HDL respecto a la recta de 533{ y (1,y
regresin i = 1,69 - x0,023 x=i 42,63
y la suma
Cambio de escala (unidades). Si seSSE
de cuadrados de
= las
SSR = i
multiplicadistancias
cada
i 69
uno de
0,los
023
entre los )}22 de
ivalores
datos
=1 (1,69 0,023 x i 1,09)
estimados por la recta
= una
3,53.
i =1
muestra por unaydelaconstante,
suma deylacuadrados
regresin lamedia de533
mediademuestral
la las distancias
muestra resultanteentre los2 valores
es igual estimados por la recta de
a la media
regresin SSE
y la suma ydelacuadrados =
media muestral
de las { y (1
distancias
i , 69 0 , 023 x )} = 42,63
entre los ivalores estimados por la recta
As, la proporcin de la variabilidad
i =1 del colesterol HDL que se explica
inicial por la constante utilizada; si yi = cx533 i, entonces y = c x .
de regresin y la media muestral
SSR =de (1,69corporal 09) 2 por
x i 1,dada
0,023viene = 3,53.
nicamente
y la suma con el ndice
de cuadrados masa el coeficiente de
Cambio simultneo de origen y escala.deSilasi =1 distancias entre los valores estimados por la recta
se multiplica cada uno de los datos de
As, la proporcin de la variabilidad
determinacin
533
del colesterol HDL 2 que se explica nicamente con el
una muestra porde regresin
una
ndice y la
constante
As, la de
media
y al
masa corporal
proporcin SSR
resultado
viene
muestral
=
de la variabilidad
i =1
(1
se, 69
le
dada por 0
suma , 023 x
otra
delelcolesterol 1, 09) de=que
constante,
coeficiente
i HDL 3,53.
la media
determinacin
se explica
2
de la muestra nicamente
resultante escon igual el andice
la media
de533 Rinicial
masa = 3,53/46,15
por la primera
corporal viene= 0,076, constante,
dada ms la
2 por el coeficiente de
As, coincide
que la proporcin
parte significativa con elde
SSR
decuadrado= (
la variabilidad
la variabilidad
i =1
1 , 69 0 , 023 x
del colesterol
del coeficiente
total del
i 1 , 09 ) = 3,53.
HDL que se
de correlacin
colesterol
explica
HDL,muestral
se realizaentre
el el ndice de
segunda constante; si y
determinacin
que coincide = c x
con +elc , entonces
cuadrado dely = c x
coeficiente + c
masa corporal y el colesterol HDL r = (0,276) = 0,076. Para determinar
i 1 i 2 1 2 2 .de correlacin
2 muestral entre el si esta
nicamente
variabilidad con el
explicada ndice porde masa
el ndicecorporal
de viene
masa dada
corporal por
es el coeficiente
una parte de
contraste
As, la de regresin
proporcin de devariabilidad
la la hiptesisdel nula H0: 21 =HDL
colesterol 0 mediante
2 se la
que razn entre las de la
explica
significativa
ndice de masa corporal
variabilidad total del colesterol y el colesterol
R HDL,
2 HDL
se realiza
= 3,53/46,15 r = (-0,276) = 0,076.
el contraste de regresin
= 0,076, Para de la hiptesis
determinacin
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se
nula H0: explicada
varianzas 1 = 0 mediante SSR = la razn entre las 2 varianzas explicada SSR = 3,53 y residual
sviene
nicamente
determinar con
si esta de3,53
el variabilidad
ndice masa y corporal
residual
explicada por
= 42,63/531
dada de
el ndice
=el0,080,
pormasa coeficiente
corporal es deuna
s = 42,63/531 = 0,080,
2
multiplica porque coincide
el factor con el cuadrado
de conversin 38,8.Rdel 2 coeficiente
As, utilizando de
= 3,53/46,15 la correlacindel
propiedad
= 0,076, muestral entre el
determinacin F = 3,53/0,080 = 43,93. 25
2 2
ndice
cambio de escala, la de
media masa delcorporal
colesterol y elHDLcolesterol
en mg/dl HDL sercalculara
= (-0,276) = 0,076. Para
Bajo la hiptesis
que coincide con nula, este estadstico
el cuadrado del sigue una distribucin F de Fisher con 1 grado de
2 coeficiente de correlacin muestral entre el
Bajo la hiptesis R =grados
nula, estey estadstico 3,53/46,15
sigue = 0,076,
una distribucin F de Fisherluego
con 1
directamente alibertad
determinar
partir deensusi elmedia
numerador
esta variabilidad
en mmol/l 531 explicada
como 1,223 de libertad
por38,8el2 ndice en de
= 47,45 elmg/dl.
masa corporal es una el valor P
denominador,
bilateral
ndice dedel masa corporalesyP(F
contraste 1,531 43,93)
el colesterol HDL< r0,001. 2
En conclusin,
= (-0,276) las diferencias en el
= 0,076. Para
grado
ndice
que de libertad
de masa
coincide en
concorporal el numerador
el cuadrado explican y 531 grados de
el 7,6% dedelacorrelacin
del coeficiente libertad
variabilidad en el denominador,
del colesterol
muestral entre el HDL25 en la
poblacin
determinarde si referencia
esta variabilidad del estudio EURAMIC
explicada (R2 = 0,076,
por el ndice de masa 6 es una
P <corporal
0,001).
luego el valor P bilateral del contraste
ndice de masa corporal y el colesterol HDL r1,531 es P ( F 2
= (-0,276) = 0,076. En
43,93) 2 < 0,001. Paraconclusin,
25
Tabladeterminar
10.3
las Tabla
diferencias si estadel
en el anlisis
ndice de
variabilidad demasa la varianza
corporal
explicada porde la regresin
explican
el ndice el masalineal
de7,6% de del es
colesterol
la variabilidad
corporal una HDL
sobre el ndice de masa corporal en el grupo control del estudio EURAMIC.*
del colesterol HDLSuma en ladepoblacin de referencia
Grados de del estudio EURAMIC (RRazn 2
= 25de
cuadrados libertad Varianza varianzas
0,076, P < 0,001).
Regresin 3,53 1 3,53 43,93
Error 42,63 531 0,080
Total 46,15 532
* Coeficiente de determinacin[Tabla 10.3 aproximadamente
R2 = 3,53/46,15 = 0,076. aqu]

172 Pastor-Barriuso R.

10.3.3 Inferencia sobre los parmetros de la recta de regresin


0 1
1.2 MEDIDAS DE TENDENCIA CENTRAL
pendiente de la recta de regresin utilizando el mtodo de mnimos cuadrados. A partir
Regresin lineal simple
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
de las distribuciones muestrales de b0 y b1, se derivan a continuacin los intervalos de
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
donde los coeficientes
confianza
10.3.3 y tests sobre
Inferencia clos
de hiptesis xi para
- x )/{(
i = (parmetros 1) slax2 }recta
losnparmetros
- de dependen
subyacentesnicamente
de regresin 0 y 1de
dellos valores
modelo dede
alrededor de qu valor
En el Apartado se agrupan
10.3.1 los datos
se obtuvieron los observados.
estimadores Las b0 y medidas de tendencia
b1 de la constante y la pendiente de la
regresin lineal simple.que se asumen constantes. Bajo
recta de regresin utilizando el mtodo de mnimos cuadrados. A partirde
la variable explicativa las asunciones delinealidad y
las distribuciones
central de la muestra
muestrales de b0 ysirven
b1, setanto paraa resumir
derivan continuacin los resultados
los intervalosobservados como para
de confianza y tests de hiptesis
El estimador
homogeneidad dedelamnimos
varianza,cuadrados de la pendiente
el valor esperado de b1 esde la recta de regresin puede
para los parmetros subyacentes 0 y 1 del modelo de regresin lineal simple.
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
El estimadorcomo
reescribirse de mnimos cuadrados
una combinacin n
de la pendiente
lineal de los n
de la recta
valores n
de lade regresin
variable puede reescribirse
respuesta
como unasecombinacin
continuacin describen los E b1) =de
lineal loscivalores
(principales Eestimadores 0lavariable
( y i ) =de 1 respuesta
c i la+ tendencia
de = 1 de una
c i x i central
n i =1 i =n1 i =1
2
donde los coeficientes ci = ((xxi - xx)/{( )( y in- 1)y ) s x }dependen
( x i x ) ynicamente de los valores de
variable. i i n

y,
donde b1 = cii ==1 y(ixnson
comoloslascoeficientes
observaciones - x independientes
)/{( n - 1) =2 }i =n1dependen
s (vase Apartado= c3.4),
i y i ,de
su varianza
valoreses
la variable explicativa que se asumen constantes.
i x Bajo las2nicamente
asunciones de los
linealidad yde
1.2.1 Media aritmtica ( x i
i =1
x ) 2
( x
i =1
i x ) i =1

la variable explicativa
homogeneidad que se asumen
de la varianza, eln valor constantes.
esperado 2deBajo n
b1 2eslas asunciones
2 de linealidad y
, 2y ) =
la
2
La media
dondearitmtica,
los coeficientes var(
ci = (x
denotada b
por1 ) =
i x )/{(n
c
se define var(
i 1)sx }como
dependen
i suma c =
i de cada uno
nicamente .
de los de valores
los de la variable
i =1 i =1 (n 1) s x2
explicativa
homogeneidadque se de asumen constantes.
la varianza, el
n
valor Bajo las
esperado asunciones
n
de b 1 es den
linealidad y homogeneidad de la
valores muestrales
varianza, el valor dividida por
esperado
E(bdeel nmero
b es de observaciones realizadas. Si denotamos
1) = 1 c i E ( y i ) = 0 c i + 1 c i x i = 1 26
Es decir, b1 es un estimador insesgado i=n1 de 1 que i=n1 ser tanto i=n1 ms preciso cuanto menor
por n el tamao muestral y por E(bx1i)el
= valor ( yi ) = 0
observado
ci E para 1 ci-simo,
c i el+ sujeto i xi = 1
i = 1, ..., n,
sea la varianza
y, como de la variable
las observaciones respuesta
i =1
yi son alrededor (vase
independientes
i =1
de la recta i =1
Apartadode regresin
3.4), suyvarianza
mayoreses
la media vendra dada por
y, como las observaciones yi son independientes (vase Apartado 3.4), su varianza es
sean
y, comoel tamao muestral y la
las observaciones yi dispersin
sonn independientes de la variable (vase explicativa.
Apartado Adems,
3.4), si el tamao
su varianza es
n 2

1 = x=c i 1var( y2 i ) =
2x + x + ... +2 x
n 2
muestral n es suficientemente x =b1 )
var(
grande,
i1 puede aplicarse
n ci =
. una(generalizacin
n 1 ) s 2
.
del teorema
n i =1 i =
n n i =
n1
2 x
var(b1) = c i var( y i ) = c i =
2 2 2
.
decir, bdel
Es central 1 es un
lmiteestimador
(ver su insesgado
versin i =1ms de
simple1 queen ser
el i tanto
Apartado
=1 (ms
n preciso
4.3.3)
1 ) s 2
x para cuanto menor
demostrar quesea la
Es
varianzadecir,
de b
la es un estimador
variable respuesta insesgado
alrededor dede
La media es la medida de tendencia central ms utilizada y de ms fcil
1 1 que
la rectaser de tanto ms
regresin preciso
y mayorescuantoseanmenor
el tamao
b1 se distribuye
muestral de formadeaproximadamente
y la dispersin la variable explicativa. normal con Adems,la media si yelvarianza
tamao descritas
muestral n es
Es
sea decir,
la
suficientemente
interpretacin. b
varianza es un
de estimador
la variable
grande, al
Corresponde
1 puede
centroinsesgado
respuesta
aplicarse de
alrededorque
una generalizacin
de gravedad 1 ser
de la
de los datosdel tanto
recta ms
de preciso
regresin
de teorema
la muestra. cuanto
Su delmenor
y
centralmayores lmite (ver
su anteriormente,
versin ms simple en el Apartado 4.3.3) para demostrar que b1 se distribuye de forma
sea
sean
principal laelvarianza
tamao
limitacin
aproximadamente es de
quelaest
normalvariable
muestral muy
con respuesta
y laladispersin
influenciada
media y varianza alrededor
de por
la variable
los de laexplicativa.
valores
descritas recta de regresin
extremos
anteriormente, Adems, y mayores
y, en estesi el tamao

sean el tamao muestral b1 puede


de
1 la~aplicarse
muestral
caso, puede no n es
ser fiel reflejoyde
unsuficientementela la
dispersin
grande,
tendencia variable
N (de
central 1)explicativa.
0, la .una Adems,del
generalizacin
distribucin. si teorema
el tamao

muestral
central deln es suficientemente
lmite (ver su versingrande,
ms npuede
s x simple 1 aplicarse una generalizacin
en el Apartado del teorema
4.3.3) para demostrar que
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
Paracentral
b1hacer del
usolmite de(ver
de este
se distribuye su versin
resultado,
forma ms simple
el parmetro
aproximadamente en el Apartado
desconocido
normal con laha 4.3.3)y para demostrar
de sustituirse
media varianzapor que
la desviacin
descritas
Pararesidual
tpica hacer
utilizarn losuso de este
s,valores
que delresultado,
conlleva elHDL
un error
colesterol parmetro
adicional en los 10La
desconocido
de muestreo.
obtenidos hadistribucin
de sustituirse
primeros por la de b1
sujetosresultante
del
b se distribuye de forma aproximadamente normal con la media
1entonces ms dispersa que la normal, siguiendo aproximadamente una distribucin t de
seranteriormente, y varianza descritas
desviacin
Student
estudiocon lostpica
European n 2residual
grados
Study on s,Antioxidants,
de que conlleva
libertad un error adicional
correspondientes
Myocardial de muestreo.
aInfarction
la estimacin de laLa
and Cancer varianza
of residual,
anteriormente,
distribucin resultante deun b1 estudio b1b1 1ms
ser entonces 1 ~ ~dispersa que la normal, siguiendo
the Breast (EURAMIC), Nt(n0de
multicntrico .casos
,2 1) . y controles realizado
s
b 1 ~
aproximadamente
entre 1991 y 1992 en una distribucin
ocho stxs1de
pases Europeos x n Student
n 1e1
Ncon
(0para
Israel 1) . nevaluar
, los - 2 grados de libertad
el efecto de los

Cabe destacar que este resultado se hade
sderivado 1 con residual,
independencia de la asuncin de normalidad
correspondientes a la estimacin x la n
varianza
y, en consecuencia,
Cabe
Para destacar
hacer deeseste
usoque vlido
este para cualquier
resultado
resultado, se
el ha distribucin
derivado
parmetro subyacente
ha dede
con independencia
desconocido de la variable5 respuesta,
asuncin
sustituirse por de
la
siempre que el tamao muestral sea suficientemente grande.
normalidad
Para y, en
hacer uso
desviacin deconsecuencia,
tpica s, quees
este resultado,
residual elvlido para
parmetro
conlleva cualquier
desconocido
un error adicional dehamuestreo.
distribucin subyacente
La pordelala
de sustituirse

variable respuesta,
desviacin
distribucintpica siempre
resultante de bs,1que
residual serelconlleva
que tamao un
entonces muestral
error
ms sea suficientemente
adicional
dispersa que de muestreo.
la normal, grande.
La
siguiendo
27
A partir deresultante
distribucin
aproximadamente la distribucin muestral
de b1 ser
una distribucinentonces b1ms
t dedeStudent
, el intervalo
dispersa de
- 2confianza
con los nque la normal,
grados 100(1 - )%
dealsiguiendo
libertad
Pastor-Barriuso R. 173

aproximadamente
para auna distribucin
la pendiente subyacente
correspondientes t la
1 dedela
la estimacin de Student
recta con los nviene
de regresin
varianza residual, - 2 grados de libertad
dado por
A partir de la distribucin muestral b1 t nde b , el intervalo. de confianza al 100(1 - )%
2 ,11 / 2
variable respuesta, siempre que el tamao muestral s x n sea
1 suficientemente grande.
para la pendiente subyacente 1 de la recta de regresin viene dado por
Correlacin y regresin lineal simple
DeAigual
partir de la el
forma, distribucin muestraldedelabhiptesis
contraste bilateral 1, el intervalo de confianza
de ausencia - )%
al 100(1 lineal
de asociacin
s
para
entrelalaspendiente
variablessubyacente
explicativa b1
de la trecta
y1 respuesta de
n 2 ,1H regresin
/ 2: .realiza
viene dado por el estadstico
A partir de la distribucin muestral de b1, el intervalo 0 s x n0se
1 = 1de mediante
confianza al 100(1 )% para la
pendiente subyacente 1 de la recta de regresin viene dado por
b s
b1 ttde
De igual forma, el contraste bilateral n= 2la
,1hiptesis
/2 1 .
, de ausencia de asociacin lineal
ss x n 1
Deentre
iguallas variables
forma, explicativa
el contraste y respuesta
bilateral sHx 0:n
de la hiptesis11=de
0 se realiza de
ausencia mediante el estadstico
asociacin lineal entre las
De igual forma,
variables explicativa
1.2 el contraste bilateral
y respuesta H0: un de la
1 =primer
hiptesis
0 se realiza de ausencia
mediante estadsticoen lineal
de asociacin
el miocardio
antioxidantes en elMEDIDAS
riesgo DE TENDENCIA
de desarrollar CENTRAL
infarto agudo de
s en el riesgo de desarrollar
quePara un primer
se distribuye
completar la infarto
aproximadamente
exposicin, agudosedepresentan comomiocardio una b el t deen Studentde
intervalo con n - 2 grados
confianza de libertad
y el test de
entre las variables explicativa y respuesta t = H0: 1 1 = ,0 se realiza mediante el estadstico
hombres adultos. Los valores obtenidos fueron 0,89, s
Las medidas de tendencia central informan acerca de cul es el valor ms representativo 1,58, 0,79, 1,29, 1,42, 0,84,
ultos. Los valores obtenidos
si laPara
hiptesisfueron nula 0,89, 1,58,de0,79,
esexposicin,
cierta. Este 1,29,es
test de1,42, 0,84, aunque
equivalente
hiptesis para
completar la constante
la la recta
se presentan regresin,
s x nel intervalo1 al contraste deestas de regresin
inferencias
confianza lineal
suelen
y el test de tener
1,06, 0,87, 1,96 y 1,53 mmol/l.
de una determinada variable o, La media de los niveles
b del colesterol HDL en
,96 y 1,53 mmol/l. La
simple
queescasa
se media
distribuye de los
presentado niveles
en
aproximadamenteel del
apartado colesterol
anterior.
como t =dicho
HDL
una De t
1de forma equivalente, estos estimadores indican
en hecho,
de , el estadstico
Student con n en 2Fla del
grados contraste
de de
libertad si la
importancia porque
hiptesis para la constante de la recta de regresin, la relacin en x = 0
s carece aunquede sentido estas inferencias mayora de las
suelen tener
estos 10
queparticipantes
hiptesis senuladistribuye
es es
cierta. aproximadamente
Este test es como
equivalente una
al t de
contraste Student de con
regresin n - 2 grados
lineal de
simple libertad
presentado
ticipantes es en el Para alrededor
completarde la qu valor se se
exposicin, agrupan
presentan s xlosntdatosel intervalo
1este observados. de confianza Las medidas y el test dede tendencia
regresin
apartado
aplicaciones. es igual
anterior.
El al
estimador cuadrado
De hecho, del
el estadstico
estadstico
mnimo-cuadrtico
escasa importancia porque la relacin en x = 0 carece de sentido0 en la mayora F de
del
de contraste
la contraste,
constante de regresin
b = y - bes
1 xigual
es al
una cuadrado
de las
delsi la hiptesis
estadstico t nula
de este es cierta.
contraste, Este test es equivalente al contraste de regresin lineal
Para central
hiptesis para1lade
completar 10 la muestra sirven tanto para resumir los resultados observados como para
constante 0,89de+la
la exposicin, 1,58 se+presentan
recta ...de+ 1regresin,
,53 el intervalo aunquedeestas inferencias
confianza y el testsuelen
de tener
1 10 que se
0combinacin
aplicaciones. x
,89 + 1,58 + ...10 =
distribuye
lineal 53xde
El+ 1estimador i =dos estimadores
,aproximadamente mnimo-cuadrtico
SSR como 2 =
una
independientes
b ( n t
de
1,223
de 1la
) s 2 mmol/l.
Student
constantey y con
b b n
que =- 2 y grados
tienden- b xa de
es libertad
una
distribuirse
x = x i = simple presentado realizar i =1 en el = 1,223
apartado F =10
mmol/l.
anterior. De
1
=parmetros hecho, x
el=estadstico
2
tsentido
,
1 0 1
F del contraste de A
10 i =1 hiptesis para lainferencias
escasa importancia
10 porque de
constante laacerca
relacin
la recta de2los
s en
de x = 0
regresin, scarece
2 poblacionales
aunquede en correspondientes.
estas inferencias la mayora de las
suelen tener
si laforma
hiptesis
combinacin
de normal nulaconforme
lineal es
decierta. Este testelestamao
dos estimadores
aumenta equivalente
independientes muestral, al contraste
ydey lo b1 cual
que detienden
seregresin
deduce lineal
a distribuirse
que la
de regresin es igual al cuadrado del estadstico t de este contraste,
tal
La mediaescasa
forma
aplicaciones.
aritmtica
que
continuacin
importancia ambos
El
presenta estimador procedimientos
se describen
porque losfacilitan
mnimo-cuadrtico
la relacin
las siguientes en x = 0siempre
principales
propiedades: de
careceestimadores
la constantelossentido
de mismos =lavalores
bde0 en b1 xP es
ytendencia
la -mayora (lacentral
distribucin
una
de las de una
F simple
de
de Fisher
tal presentado
con
forma
distribucin 1
quegrado
muestral en
ambos deel apartado
libertad
procedimientos
de b0 aumenta en
tambin seranterior.
el numerador De
facilitan hecho,
aproximadamente y n
siempre el
2 estadstico
gradoslos de
mismos F
libertad del contraste
valoresen elP de
denominador
(la
tica presenta las siguientes
de forma normal propiedades: conforme el tamao muestral, de normal lo cual con se deducemedia que la
Cambio
es, aplicaciones.
por definicin,
combinacin variable. El elestimador
lineal
de origen (traslacin).
cuadrado de la distribucin
mnimo-cuadrtico
de dosSiestimadores
se suma SSR b12 (ntde
unaindependientes
constante
de
1la )Student
2
saxconstante
cada y 2unoyconb1 bden0 = 2tienden
que grados
losy datos- b1 xade es libertad).
una
distribuirse
regresin
distribucin es igual
F de al
Fishercuadradocon 1 Fdel= estadstico
grado de =libertad t de en esteel = t
contraste,
numerador , y n - 2 grados de
origen (traslacin).Para Si secompletar
suma una constante
la de b)0a=tambin
exposicin, cada uno de los el datos
distribucin muestral E(sey presentan
) -sser
E(b1aproximadamente intervalo de normal
confianza conymedia el test de hiptesis
2 2
E(b 0 ) x = s 0 + 1 x - 1 x = 0
de para laforma
unacombinacin
demuestra, 1.2.1
constante normal Media
de
la media
lineal dearitmtica
laconforme
recta lademuestra
dos regresin,
estimadores
aumenta aunque
resultante
el tamao estas
es
independientes igualinferencias
muestral, a laymedia dey blosuelen inicial
que
1 cual tener
tienden
se ms escasa
deduce importancia
aladistribuirse
que la
tra, la media deporque libertad
la muestra en el denominador
resultante es, por definicin, el cuadrado de la distribucin t de Student
la relacin en xes=igual 0 carece a la mediadeSSR sentido inicial b1en
2
(nms la )la
1mayora
sx 2
de las aplicaciones. El estimador
de tal forma que ambos ) = E(
E(bprocedimientos F =yb ) =- E(b 1) x = 0siempre
=facilitan + 1 = x t-2los ,1 de = 0 valores P (la
xmismos
mnimo-cuadrtico
constante
de utilizada;
ydistribucin
varianza
forma Lanormal
media si yde
muestral =laxide + 0bc,0 entonces
constante
iaritmtica,
conforme denotada
tambin
aumenta 0 sser
2y por
el = bx1 x +,esse c
aproximadamente
tamao s 2.una
Un
define
muestral, combinacin
cambio como lo la
de normal origen
cualsumalineal de
condeduce
se decada
que
media dosqueestimadores
uno lade los
+ con
ilizada; si yi = xindependientes
c , n -
entonces 2 grados y de x libertad).
c
y b1 que tienden a distribuirse de forma normal conforme aumenta el tamao
= + . Un cambio de origen que
i
distribucin
muestral, de lo F deseFisher
cual deduce conque 1 grado de libertad
la distribucin en el numerador
muestral de b0normal tambin y n -ser 2 grados de
aproximadamente
y varianza
se realiza valores
con frecuencia
distribucin muestrales
muestral es de b)0 dividida
el centradotambin depor elaproximadamente
la variable,
ser nmero que deconsiste
observaciones en2restar conrealizadas.
amedia Si denotamos
de
normal talconformamedia que ambos E(b = E(
procedimientos
0 y ) - E(b ) x
facilitan
1 = +
2 0siempre x
21 1 los - x x=
1 mismos
0 valores P (la
n frecuencia es el centrado de la variable, var(b0que ) = es, consiste
var( + en
y )definicin,
var(b restar
1) xel a= + . 28
libertad en el denominador por cuadrado n de ( n la 1distribucin
) s 2 t de Student
por n el tamao
cada valor de la muestra su media. La media de muestral y por x el valor
i una variable observado centrada 2ser,para elx por i-simo, i = 1, ..., n,
sujeto
e la muestra su media. distribucin
La media
y varianza
F de unaE(b
de Fisher 0) = 1
con
variable E(grado
y ) E(b
centrada
0) = var( y ) + var(b1) x =
de ser, 1) x =
libertad por 0 + el
2 en x1 1 x x= y 0n - 2 grados de
21numerador

con n - 2 grados devar(b libertad). + (n 1) s 2 .
tanto, igual a 0.
y varianza la media vendra dada 2por 2 n x
a 0.
Reemplazando
libertad el parmetroes,
en el denominador por pordefinicin,
su estimacin s , el intervalo
el cuadrado de confianza
de la distribucin t deal Student
100(1 -
y varianza
Cambio de escala (unidades). Si se multiplica cada 1 datos de x una
2

1 1)n xuno= de x21,2los


+ xintervalo .
2
var(b 0) = var( 2 y ) + var(b +

con)% n -
para
Reemplazando 2 grados
la constante
el de libertad).
poblacional
parmetro por su es estimacin s el 2 + ... + xde al 100(128-
escala (unidades). Si se multiplica cada uno de los datosxde 0 = una xi = n (n 1)ns x2. confianza

muestra por una constante, la media de la muestra n i =1resultante 21 es+igual n xa2 la media
2 .
2
var(b ) = 2var( y ) + var(b1) x =

Reemplazando
)% para la el parmetro
constante
una constante, la media de la muestra resultante es
poblacional
0 por su
igual estimacin
es
0 a la media s , el intervalo
2n ( n de1 ) confianza
s 2 al 100(1 )%
1 x
2 2
de confianza al 100(128-
x
paraReemplazando
inicial la constante
por la constante poblacional
La media
el utilizada;
parmetro
es la medida
si0 es por
by0i = cxt n su
de
estimacin
1 / 2 s
i,2tendencia
,entonces +y =
central
s ,cel xms .intervalo
2 utilizada y de ms fcil
a constante utilizada; si yi = cxi, entonces y = c x . n (n 1) s x
)% para
Reemplazando 2
b por 1 s2, xel2 intervalo de confianza al 100(1 -
Cambio simultneo deelorigen
la constante
interpretacin. parmetro
poblacional
Corresponde
y escala. 0 Sit su
0ales
se estimacin
centro s
multiplica
n 2 ,1 / 2 + cada
de gravedad uno 2 de delos losdatosdatosdede la muestra. Su
ultneo de origen yy escala. Si se multiplica cadadeuno de los datos n ( n 1 ) s
el estadstico del contraste la hiptesis nuladeH0: 0 = 0 es x
)% para
unay muestra launa
principalconstante poblacional
limitacin es que est
0 esse muy influenciada por los valores la mediaextremos y, en este
el estadstico del contraste de la hiptesis nulasuma
por constante y al resultado le H otra constante,
1 0: 0 =x02 es
por una constanteyyelalestadstico
resultado se dellecontraste
suma otrade bconstante,
0 la t n 2,1 /la2 smedia
hiptesis nula +H : = 20 es
0ntendencia
la(nprimera
bpor 0 01) s
de la muestra caso, resultantepuedeesno ser aunlafiel
igual media reflejo
t= inicialde la ,2 central
x constante, de la distribucin.
ms la
a resultante es igual a la media inicial por la primera 1 x
b0 tconstante,
n 2 ,11/ 2 s
ms+x la
2

segunda constante; si y = c x + c , entonces s y =+ b


c n x +(nc22. 1) s x2
i 1 i
y el estadstico del contraste de lat hiptesis 2
= n nula (n H
1 0
1)0s:x0, = 0 es
stante; si yi = c1xi + c2, entoncesEjemplo y = c1 x1.4 + cEn 2. este y en los sucesivos
1 x2
ejemplos sobre estimadores muestrales, se
queybajo H0 seguirdel
el estadstico aproximadamente
contraste unas distribucin
de la hiptesis
+
H)0s:tx2 de = Student
0 es con n 2 grados de libertad.
utilizarn los valores del n nula
colesterol b(n0 1HDL
Ejemplo que1.5 bajo Para
H0 transformar
seguir aproximadamente los valores deluna colesterol
distribucin HDL0 obtenidos
tdedemmol/lStudent ena conlos 10
mg/dl n -seprimeros
2 grados sujetos
de del
Para transformar los valores del colesterol HDL de mmol/l a mg/dl2 se t = ,
1 x
multiplica
libertad.
que por el
bajo H factorestudio
seguir European38,8.
de aproximadamente
conversin Study sAs,
unaon +Antioxidants,
b0
utilizando
distribucin Myocardial
2 la tpropiedad
de Studentdel Infarction
con and Cancer
n - 2 grados de of
174 Pastor-Barriuso R. 0
or el factor de conversin 38,8. As, utilizando la propiedad del t = n ( n 1 ) s x
,
the Breast (EURAMIC), 1 estudio
un x 2 multicntrico de casos y controles realizado
cambio de escala, la media del colesterol HDL
libertad. s en + mg/dl se2 calculara
scala, la media delque Ejemplo
colesterol HDL 10.9 en mg/dl
Las se calculara
estimaciones n (n obtenidas
puntuales 1) s x
bajo H seguir aproximadamente una distribucin
0 t deenStudentel Ejemplo con n10.7 para losde
- 2 grados
constante es 2 s 0,283 2
fueron b0 =SE(b
1,69, b SE(b
= 1
-0,023
1 ) = y x s = 0,283.= El 1 estndar
error 26,0de
= 0,0035. la estimacin de lalineal simple
0 ) = 1 s + = 0
s n 1 3,50 532, 283 + = 0,092Regresin
n (n x1) s x2 533 532 3,50 2
constante es 1 x2 1 26,0 2
fueron b0 =SE(b 0) b
1,69, =1 s= -0,023+ y s = 0,283. = 0,283 +
El error estndar de la = 0,092
2 estimacin de la
Los ICs al 95% para lanconstante
(n 1) syx2la pendiente 533de la532 3,de
recta 50regresin
Ejemplo 10.9 Las estimaciones puntuales obtenidas en el Ejemplo 10.7 para los
y de la pendiente
constante
parmetrosesde la regresin 1 delx colesterol
2 HDL 1sobre el26,0 ndice
2 de masa corporal fueron
poblacional son0)entonces
SE(b = s + = 0 , 283 + = 0,092
by0de
= 1,69, b1 = 0,023 y s = 0,283. 2El error estndar de la estimacin
la pendiente de la constante es
n (n 1) ssx 533 532 3,50 2
0,283
SE(b1) = 2 = = 0,0035. 2
b t 1 SE(b xs x0) = n 1,69
1 3,50 1532 =26,0
1,960,092 (1,51; 1,87)
SE(b0 ) = s
0 +
531;0,975
s2 = 0,2830,283 + = 0,092
y de la pendiente SE(b1) = n ( n 1 ) s x = 533 532 3
= 0,0035.,50 2

yy de ICs
la pendiente s x n 1 3,50 532
Los al 95% para la constante y la pendiente de la recta de regresin
y de la pendiente s 0,283
poblacional son
Los ICs al b95% SE(b
entonces 1) = = de la==recta
0,0035.
t para laSE(b
1
constante
531;0,975 1
yn la
) =s -0,023 x 1pendiente
3,50 532
1,960,0035 de regresin
(-0,030; -0,016).
s 0,283
poblacional
Los son
ICs al 95% entonces
b0para la constante
tSE(b 1) = y la pendiente
= de la= recta
0,0035.de regresin poblacional son
531;0,975SE(b0) = 1,69 1,960,092 = (1,51; 1,87)
Del
Los intervalo
ICs al 95%
entonces para la pendiente
para s xpuede
la constante yn la
1pendiente
3,50 532
concluirse con
de la una
rectaconfianza del 95% que
de regresin

ypoblacional
el nivel medio t531;0,975 SE(b
b0 colesterol 0 ) = 1,69 1,960,092 = (1,51; 1,87)
sonde entonces HDL en la poblacin de referencia del estudio
Los ICs al 95% para la constante y la pendiente de la recta de regresin
y significativa ya que el contraste de la hiptesis nula H0: 1 = 0 mediante el
EURAMIC
y disminuye entre)0,016 y 0,030 mmol/l por cada incremento de 1
poblacionalb1son bt531;0,975
0entonces SE(b
t531;0,975 1 = 0)0,023
SE(b = 1,69 1,960,0035
1,960,092==((1,51; 0,030; 0,016).
1,87)
estadstico
2
kg/mintervalo
Del en el ndice para la dependiente
masa corporal. puedeEn general, con
concluirse el intervalo
una confianza de confianza del 95% paraqueelel nivel
Del intervalo b1 para t531;0,975
la SE(b1) = puede
pendiente 1,960,0035
-0,023concluirse con = (-0,030;
una confianza -0,016).
del 95% que
y
medio de colesterol b 0 t SE(b
HDL en la poblacin
531;0,975 0 ) = 1,69 1,960,092 = (1,51;
de referencia del estudio EURAMIC disminuye 1,87)
efecto0,016
entre y 0,030c
subyacente 1 asociado
mmol/l port =cada bincremento
a cualquier1 incremento
0,023
de 1=kg/m c en 2 la variable explicativa
en el ndice de masa corporal.
el nivel medio de colesterol HDL en la =
poblacin -6,63
Del intervalo
yEn general,b1elintervalo
para la pendiente
t531;0,975SE(b de confianza puede
SE (bpara concluirse
) el0,0035 efecto subyacente del
de
con referencia
una confianza c1 estudio
del 95% que
asociado a cualquier
1) = -0,0231 1,960,0035 = (-0,030; -0,016).
incremento c en la variable
se obtiene multiplicando losexplicativa
lmites del se obtienepara
intervalo 1 por dicho
multiplicando losincremento,
lmites del intervalo
EURAMIC
el nivel
para 1 por medio disminuye
dicho de incremento,
colesterol entre HDL 0,016en y 0,030
la poblacin mmol/lde porreferencia
cada incremento del estudio de 1
resulta
Del intervalo en un
b1 para valor
t531;0,975 P bilateral
SE(b1) = puede
la pendiente 2P(t
-0,023531 -6,63)
1,960,0035
concluirse 2(-6,63)
con = una (-0,030; <
confianza 0,001.
-0,016). Notar
del 95% que que este
kg/m
EURAMIC
2
en el ndice
disminuye cb
de1 masa t n 2,1corporal.
entre 0,016
/2 SE(cb En )
y 0,030
1 = c{b
general,
mmol/l
1 t nel intervalo
por
2,1 SE(b )}.
1de confianza
/2cada incremento depara
1 el
test arroja
el1.2
nivel medioelde mismo
colesterol valorHDL P queenellacontraste poblacin dede regresin
referencia deldel ejemplo
estudio anterior ya
antioxidantes en elDel As, por deejemplo,
2MEDIDAS
intervalo
riesgo paraDE
desarrollar con un primer
TENDENCIA
la pendiente
un nivel de puedeconfianza
infarto CENTRAL
concluirse
agudo delde95%,
con los confianza
una
miocardio incrementos
envariable delde 95%unaque desviacin
efecto
kg/m
As, por subyacente
en el ndice
ejemplo, c
de
con asociado
masa corporal.a cualquier
En incremento
general,
2 un nivel de confianza del 95%, los incrementos de una
1 el intervaloc en lade confianza explicativa
para el media
tpica c = 3,50yakg/m
significativa que elencontraste
el ndice dela
de masa 2 corporal
hiptesis nulaseHasocian 0 : 1 = 0 con una disminucin
mediante el
EURAMIC disminuye
el-6,63) entre
= P( HDL t0,016
2
531
yentre
0,030 mmol/l
P(F 1,531 por cada yincremento de 1
hombres adultos. Los el que 2P(t
poblacional
nivel
Lasvalores medio
medidas en
531
de
obtenidos
de colesterolfueronHDL
colesterol
tendencia 0,89,
central de6,63
en
2 1,58,
)= 3,500,016
la poblacin
informan 0,79, 1,29,
acerca de1,42,
43,93).
=de 0,057
referencia
cul0,84, es 3,500,030
delvalor
el estudioms= 0,105 mmol/l.
representativo
se obtiene
efecto
desviacin
Por multiplicando
subyacente
tpica c c
= 3,50 los
asociado kg/m lmites a en del
cualquier
el intervalo
ndice incremento
de
supuesto, esta disminucin es estadsticamente significativa ya que el contraste de la
estadstico 1 masa para c por dicho
1 en la variable
corporal se incremento,
asocian explicativa
con una
kg/m2 en el ndice de masa corporal. En general, el intervalo de confianza para el
EURAMIC
1,06, 0,87, 1,96 y 1,53hiptesismmol/l. disminuye
nula La H0media 0entre
: 1 =variable los0,016
demediante niveles y 0,030
el estadstico mmol/l
deldecolesterol por
HDL cada en incremento de 1
sedeobtiene
una determinada
disminucin multiplicando
media poblacional
cb1 tn-2,1- los o,en
lmites dicho
el del forma
intervalo
colesterol HDLequivalente,
para de por
1entre
estos
dicho estimadores
3,500,016 = 0,057indican
incremento,
10.3.4 Bandas de confianza y /2SE(cb
prediccin ) = c{b
para
la t
recta de SE(b )}.
regresin
2 subyacente c1 asociado abcualquier
1 0,incremento
023
1 n-2,1- /2 1
efecto
kg/m c en la variable explicativa
estos 10 participantes es en el de
alrededor ndicequ de valor masa setcorporal.
=
agrupan
1
En
los general,
= datos =elintervalo
observados. 6,63 Lasdemedidas confianza de para el
tendencia
y 3,500,030 = 0,105 mmol/l. SE (supuesto,
Por b1 ) 0,0035 esta disminucin es estadsticamente
Adems de ejemplo,
realizar inferencias
cb1 un tn-2,1- sobre SE(cb los1parmetros
) = c{bdel 0 ylos
tn-2,1- 1,incrementos
es a)}. menudodeinteresante
As,
efecto
por
se obtiene multiplicando
subyacente
con
c nivel
asociado
/2de
los lmites a
confianza
del intervalo
cualquier
1 95%,
incremento para /2c1SE(b
porla1dicho
en variable
una
incremento,
explicativa
resulta
1central
10 en deun la valor
muestra P 1 bilateral
0,89 + 1,58 + ... + 1,53sirven 2P(t
tanto para 6,63)
resumir 2F(6,63)
los resultados < 0,001.
observados Notar que este
como paratest

531
xcalcular
= arroja xelen =un valor
intervalos
mismo de
valor confianza
P que elpara 2 =la
contraste 1,223
propia mmol/l.
de recta
regresin de regresin
del ejemplo + x.
anterior Ms 30
resulta
desviacin
As, i
por ejemplo,
10obtiene tpica ccon P
=10 bilateral
3,50
un2 los 2P(t
kg/mdeenconfianza
nivel 531 -6,63)
el ndicedel 2(-6,63)
de masa
95%, corporal
los < 0,001.
se asocian
incrementos0 Notar
1
de unacon una 2P(t531
ya
que que
este
se i =1
realizar multiplicando
6,63) =inferencias
P(t 531 6,63cb
1acercat = P(F
)n-2,1- lmites
de/2losSE(cb del )
parmetrosintervalo
= c{b tpara
1 poblacionales por
SE(b dicho
)}. incremento,
1correspondientes. A
1,531 43,93).
2 1 n-2,1-/2 1
concretamente,
test arroja eltpica
disminucin
desviacin dado
mismo
media un determinado
3,50 P
valor
c =poblacional kg/mqueen 2 el
enelvalor
contraste x
elcolesterol
ndice de
0 de la variable
de regresin
HDL
masa de explicativa,
del ejemplo
entre
corporal 3,500,016
se asocian se pretende
anterior
=con ya
0,057
una
continuacin se describen
cb1 untn-2,1- los principales
SE(cb estimadores
= c{bdel tn-2,1-de de la tendencia de una de una
central
La media aritmtica
10.3.4 As,
presenta porlas
Bandas ejemplo,
siguientes
de con
confianza ynivel
propiedades: /2de
prediccin 1) para
confianza 1 recta
la 95%, /2SE(b
los 1)}.
incrementos
regresin
obtener un intervalo de confianza 2 para 2el valor esperado + x de la variable
yque 2P(t531 media
3,500,030
disminucin =-6,63) P( t 531 Por
=mmol/l.
0,105poblacional 6,63
ensupuesto, = P(F1,531
el) colesterol estaHDLdisminucin
43,93).de0 entre 1 es estadsticamente
03,500,016 = 0,057
Adems variable.
de realizar
desviacin tpicainferencias
csuma
= 3,50 sobre
kg/m 2
los
en parmetros
el andice de masa y , es
corporal a menudo
se asocianinteresante
con unacalcular
Cambio de origen (traslacin).
As, porEl Si
ejemplo, se conpuntual una constante
un niveldedeeste confianza cada uno
del 95%, 0 de los datos
losy incrementos
1
de yuna
respuesta.
intervalos de estimador
confianza para la propia
y 3,500,030 = 0,105 mmol/l. Por supuesto, esta disminucin recta valor
de esperado
regresin es + x.= b
Ms + b x =
concretamente,
es estadsticamente
0 1 0 + b1(xdado
0- un
0 01
30
determinado
de una muestra, disminucin
1.2.1 de
la desviacin
media valor
Media x0aritmtica
media
latpica
muestradec la variable
=poblacional
resultante kg/mexplicativa,
en
2es elelpara
enigual a lase
colesterol pretende
HDL de obtener
entre unasocian
intervalo
3,500,016 deuna
= 0,057 confianza
10.3.4 Bandas de confianza 3,50y prediccin ndice lamedia
recta
de masa inicial
decorporal ms la
regresin se con
parax el valor
) que, esperadoun0razonamiento
siguiendo + 1x0 de la anlogo variable al respuesta.
del apartado El estimador
anterior, presentapuntual una de este
30 valor
esperado
constante utilizada; y La
si yes =
3,500,030
media x =+ bc ,
= + b
aritmtica,
entonces
0,105 x =denotada
y
mmol/l. += bx (x
Por +porc
. x
Un
supuesto,), que,
se
cambio
colesterolHDL siguiendo
define
esta de como
origen
disminucin un
la razonamiento
suma
que es de cada = 0,057 al del
uno
estadsticamente anlogo
de los
dei realizar 0 y 1de
Adems disminucin 0i 0 inferencias
media 1 poblacional
0 sobre1 los en0 el parmetros , esentre a menudo
3,500,016 interesante
distribucin
apartado anterior, aproximadamente
presenta unanormal en muestras
distribucin suficientemente grandes,
aproximadamente normal con en media
muestras
se realiza concalcular
frecuenciavalores
suficientemente muestrales
grandes,
es el centrado condividida
de media
la para por
variable, el nmero
que consiste de observaciones
en realizadas.
restar a es+ estadsticamente Si denotamos
30
intervalos
y 3,500,030 =de0,105
confianza mmol/l. Por la supuesto,
propia rectaesta dedisminucin
regresin 0 1x. Ms
E( y 0 ) = E( y ) + E(b1 )(x0 x ) = 0 + 1 x + 1 (x0 x ) = 0 + 1 x0
por nsuelmedia.
cada valor deconcretamente,
la muestra tamaoLa muestral
media de y poruna xvariable
i el valorcentrada observado ser, para porel sujeto i-simo, i = 1, ..., n,
dado un determinado valor x0 de la variable explicativa, se pretende 30
la media vendra dada por
tanto, igual a 0. y varianza Pastor-Barriuso R. 175
obtener un intervalo de confianza para el valor esperado 0 + 1x0 de la variable
Cambio de escala (unidades). Si se multiplica cada uno
1 de
n los datos de una
x + x + ... + x
respuesta. El estimador puntual de este valor x i = 1 2 es2 y2 0 1= b0n(+x.0b
esperado 1x0x )= y + b1(x0 -
2
x =
explicativa. Esta banda de1.2
confianza
MEDIDASest DE
delimitada por las ramas
TENDENCIA de una hiprbola y su
CENTRAL

amplitud es mnima E( y 0 )en= E(x0 =y )x+, E(b 1)(x0 - x )a=medida


aumentando 10 + (1xque x +Las xx0)1se
medidas
2(x - x )de
0aleja =de su0tendencia
1x0 central informan acerca de
+media
Correlacin y regresin lineal simple Las
b0 +medidas b1 x 0 t nde tendencia+central informan
2 ,1 / 2 s
0
. acerca de cul es el valor ms representa
n (n de 1) suna 2
x determinada variable o, dicho de forma equiv
muestral x , lo que confirma de una la intuicin
determinada de que el valor
variable o, esperado
dicho de forma de la variable equivalente, estos estimadores indica
y varianza
alrededor de qu valor se agrupan los datos observad
y varianza
La bandapuede
respuesta de confianza
estimarse paraconlamayor recta de regresin no es ms que la representacin
alrededor de precisin
qu valoren se valores
agrupancentrados los datos que en valores
observados. Las medidas de tendencia
2 1
central x ) 2 sirven tanto para resumir los re
( x 0lamuestra
de
grfica dede
extremos estos var( y 0explicativa.
intervalos
la variable ) =a var(lo largo y ) +devar(b todo1 )(x el 0rango
2
= +de la variable
x ) observado 2
.
central de la muestra sirven tanto para n resumir (n 1) slos x resultados observados como para
realizar2 inferencias acerca de los parmetros poblaci
explicativa.
Por tanto, utilizando Esta banda la de confianzatest
distribucin delimitada
resultante de por las ramas
sustituir por de la unaestimacin
hiprbola sy2,su se tiene
realizar inferencias acerca de los parmetros
n2 poblacionales correspondientes. A
Ejemplo 10.10 Para cada valor
al 100(1 tn-2 fijo x
)% del ndice de masa corporal,
2
por el modelo
describen
1x
de 2
quePorel intervalo
tanto, utilizandode confianzala distribucin para el valor
0resultante de sustituiresperado
continuacin 0 + sela 0 es
estimacin loss principales
, se estimadore
amplitud es mnima en x0 = x , aumentando a medida que x0 se aleja de su media
continuacin se describen los principales estimadores de la tendencia central de una
regresin
tiene lineal estima
que el intervalo un IC al 95%
de confianza al1.2 para- el valor
1 para x 0el valor
(esperado x ) 2 del colesterol 0 +HDL 1x0 de
b0 + b1 x 0 t100(1
n 2MEDIDAS s )% + DE variable.
TENDENCIA . esperado CENTRAL es
muestral x , lo que confirma la intuicin de que el valor ,1 / 2
esperado
n (n 1) s x 2 de la variable
variable.
2
1 estendencia x 0 que
(centradosMedia
26central
,0)que
La bandapuede
respuesta de confianza
estimarse1,69para 0,la
con recta
mayor
023 de
x 0 precisin
1Las,96regresin
medidas
0,283 no
en valoresde +1.2.1
ms la aritmtica
representacin
. en valoresacerca
informan grfica dede cul es el valor m
estos banda de aconfianza
La intervalos lo largo1.2.1 depara todo la el
Media recta
rango de observado
aritmtica regresin533 nodees la ms variable
532 que
3,50la representacin
explicativa.
2
Esta banda de
confianzade
extremos est la delimitada por las ramasdedeuna
variable explicativa. hiprbolaLayvariable
unadeterminada media
su amplitud aritmtica,
o, dicho dedenotada
es mnima forma xpor
0 =
enequivalente, x ,, se define com
estos estim
aumentando
grfica de aestos medida que Lax0media
intervalos aseloaleja
largo dedesutodo
aritmtica, media muestral
el rango
denotada observado
por x ,, lo se que de confirma
define como lalasuma
la variable intuicinde31cada de uno de los
que elEl reaesperado
valor en gris oscuro de la Figura
de la variable respuesta 10.9 representa
alrededor puede de qu
lavalores
estimarse banda
valor se con demayorconfianza
muestrales
agrupan precisin
los
al 95%
dividida enpor
datos observados.valores
el nmero Las de observd
medidas
centradosEjemplo
explicativa. que en valores
10.10
Esta banda extremos
de confianza
Paravalores
cada valor defijo
muestralesla estvariable
x0 del explicativa.
delimitada
ndice
dividida pordepor masa
el las ramas
nmero corporal, dede una
el modelo
observaciones hiprbola y su
derealizadas. Si denotamo
para toda la recta de regresin del colesterol HDL sobre por sirven nelelndice
tamao demuestral
masa y por xi el valor observado
central de la muestra tanto para resumir los resultados observad
amplitud
regresin es mnima
lineal en
estima x
por =
nun x
el ,
IC aumentando
al
tamao
Ejemplo 10.10 Para0cada valor fijo x0 del ndice de masa 95% para
muestral a medida
el valor
y por que
esperado
x i el x
valor se aleja
del de
colesterol
observado
0corporal, el modelo su media
paraHDL de
el sujeto
de regresin i-simo, i = 1, ...,
corporal, que se obtiene de calcular estos intervaloslaenmedia sucesivos vendra valores dada dentro
lineal estima un IC al 95% 1,69 para elrealizar
- 0,02332 valor esperado
inferencias
1,960,024 del=acercacolesterol
(0,90; de 1,00). HDL
los de por poblacionales correspond
parmetros
muestral x , lo que confirma la media la vendra
intuicindada de que porel valor esperado de la variable
del rango observado del ndice de masa corporal. 1 Los( xlmites 26los ,de 2
esta banda de
0)principales
1,69 0,023 x 0 1continuacin ,96 0,283 se describen + 0 . estimadores 1 nde la tendencia
x + x2 +
respuesta puede estimarse con mayor precisin en533
confianza tienen forma1,69 de hiprbola y su amplitud
valores
1
532ncentrados
3 ,50 2
que en
x1 + x 2 + ... + x n
valores x = xi = 1
- 0,02332
[Figura variable.
10.9 1,960,024
aproximadamente x =aumenta
= (0,90; x i =gradualmente
aqu] 1,00). . n i =1 n
El rea en gris oscuro
extremos de la variable explicativa. de la Figura 10.9 representa la banda
n i =1
de confianza n al 95% para toda
la recta
El rea en
conforme dexgris
regresin
0 se oscuro
aleja de deldelacolesterol
lamedia
Figurax 10.9 HDL
= 26,0 kg/mel2 ndice
sobre
representa del la ndice
banda de masa de masa corporal,
confianza corporal. alque
95% se obtiene
As,
de calcular estos intervalos en sucesivos 1.2.1 Media valoresaritmtica La media
dentro del rango observado del ndice es la medida de tendencia de central ms u
La recta de regresin puede La media utilizarse
es la no slode
medida para estimarcentral
tendencia la media ms poblacional
utilizada ydedelams fcil
masa
para
por corporal.
toda
ejemplo,
Ejemplo la 10.10
recta Los
el IC deallmites
Para regresin
95% cada de
para
[Figuravaloresta
del
el 10.9valorbanda
colesterol
fijo xmedio deHDL
aproximadamente confianzasobre
del colesterol
0 del ndice interpretacin.
de masa tienen
el
aqu] ndice
HDL forma
corporal, de
entre eldelos
masa hiprbola
sujetos
modelo y su
decentro
amplitud aumenta gradualmente La conformemedia aritmtica,
x0 se alejadenotada de la media Corresponde
por x ,=se26,0 define al
kg/m como 2 de gravedad
della suma de cada
variable respuesta entre los sujetos con
interpretacin. un determinado
Corresponde 2 al centro valorde x0 gravedad
de la variable de los datos de la muestra. Su
corporal,
con
ndice unde
regresin que
ndice
masa se
linealobtiene
decorporal.
masaestima de
corporal
As, calcular
un IC porde 25
alejemplo,estos
95% kg/m intervalos
parael, IC al 95%
el valor en sucesivos
para el valor
esperado del valoresmedio del
colesterol dentro colesterol
HDL de
La recta de regresin valores muestrales principal
dividida limitacin
por 2el nmero es que deest de muyla influenciada
observaciones po
realizadas
HDL
explicativa, entre los
sino sujetospuede
tambin con
paraun utilizarse
ndice
predecir lano
de masaslocorporal
respuesta para estimar
individual de 25laykg/m media , poblacional
principal limitacin es que est muy influenciada0 de un nuevo por lossujeto
valores extremos y, en este
del rango observado del ndice de masa corporal. Los lmites de esta banda de
1,69 0,02325 1,960,013 = (1,09; 1,14), no ser
variable
dado su valor respuesta entre la
x0. Segn losestructura
sujetos con porun
del
n eldeterminado
modelo
tamao muestral
de 1caso,
regresin valor ( xpuede
0xy0 por
26,la
de
lineal,
0x)i variable
el
2
el valor
valor
un fiel reflejo depara
observado
subyacente
la tendencia cen
el sujeto i-s
confianza tienen ms 1
forma , 69
caso, 0 ,
puede 023
de hiprbola x
no 1
ser ,96un 0 ,
fiel
yaquellos 283
su amplitud reflejo de
aumenta+ la tendencia
gradualmente .
central de la distribucin.
es sensiblemente preciso que entre
0 con533 un ndice 532de 3masa
,50 2 corporal de 32 kg/m ,
2

es sensiblemente
explicativa, sino tambin ms precisopara quelaentre
predecir media vendra
aquellos con dada por y0 de
un ndice de un masa corporal
de la variable respuesta 1,69para 0,02332
un determinado la1,960,024
respuesta
sujeto =
individual
con (0,90; 1,00).
x = xEjemplo viene dado
nuevo
1.4 En poreste
sujeto
y =y en +los sucesivos ejempl
conforme x0 se aleja de la media x = 26,0 kg/m2 del ndice0 de masa corporal.0 As,0
El valor
rea 2 gris oscuro Ejemplo 1.4 En este y en loslasucesivos deejemplos sobre estimadores muestrales
dadode su 32 kg/men x,0. Segn la estructura de la Figura del 10.9modelo representa
de regresin banda lineal, confianza
el valor al 95%
subyacente
1xpor
La 0recta 0, de
+ ejemplo, cuyoregresin
estimador puede insesgado utilizarsedenonuevo slo para y 0 =colesterol0 + butilizarn
bestimar 1x0la yaxmedia
n
valores1 delx 2colesterol
1los poblacional x + + ...la+ x n HDL obten
de
el IC al 95% para el es valor medio del HDL que
= entre xlos
i = sujetos .
variable respuesta
para todarespuestaentre los
la recta de sujetos utilizarn
regresin con un
del los valores
determinado
colesterol del colesterol
valor x de HDL
la variableobtenidos
n en
explicativa, los
32 10
n primeros
sino sujetos
de la variable para
[Figura un determinado
10.9 aproximadamente sujetoHDL con aqu] xsobre
= xestudio
0 el ndice
0 viene Europeandado depor
i =1 masa = 0 +on Antioxidants, Myo
y0Study
tambin para predecir la respuesta individual y0 de 2 un nuevo sujeto dado su valor x0. Segn la
con un ndice de E(ymasa - ycorporal +de
= 0lineal, 25 kg/m E(0,)Study - 0 - on 1xAntioxidants, E(la0variable
estructuracorporal,
del modelo de 0 regresin0 )estudio 1x0el+valor
European subyacente 0 =de ) = 0.Myocardial respuesta Infarction
para un and Cancer o
x + , cuyo que se obtiene
estimador insesgado de calcular es de
La estos
nuevo
media intervalos
y
es la= b
medida + enb1sucesivos
xde ya que
tendencia valores dentro
central ms
determinado sujeto con x = x0 viene dado por y0 = 0 + 1x0 + the
1 0 0 0 0 , cuyo
0 Breast estimador (EURAMIC), insesgado unutilizada
estudio ymulticnt
es de ms
La recta de regresin puede utilizarse no slo para estimar la0 media poblacional de la
de nuevodel
Asimismo,
b x ya1,69
b0 + observado
0 =rango quedel
como 1el0 valor estimado
-the
0,02325
Breast
ndice depor 1,960,013
(EURAMIC),
masa
yinterpretacin. corporal.
la recta
= (1,09;
de
un Los
regresin
Corresponde
estudio 1,14),multicntrico
lmites en
al de
x es
centro esta banda
independiente
de
dede casos y controles realiza
gravedad de losEuropeos
datos deelaI
0 entre 1991 y 1992 en ocho pases
0
variable respuesta entre E(ylos0 sujetos
y 0 ) = 0con + un + E( 0 ) 0 valor
1 x0determinado 1 x0 x=0 E( dela 0 ) variable
= 0.
confianza tienen forma entre 1991 y 1992
de hiprbola en ocho pases Europeos e Israel para evaluar el efecto de lo
es sensiblemente ms preciso entre yaquellos
queprincipal sulimitacin
amplitud con un aumenta
ndice gradualmente
de masainfluenciada
corporal
de la nueva observacin
Asimismo, como el valor estimado y 0 , se sigue0 por la recta de regresin en x0 es independiente por
que es que est muy de lalos valores extre
explicativa, sino tambin para predecir la respuesta individual y 0 de un nuevo sujeto
nueva observacin 2 y0el, sealeja
sigue
Asimismo,
de conforme
32 kg/m como , x0 sevalor deque
estimadola media y 0 xpor= la
caso, puede 26,0 recta kg/m de 2regresin
no ser del un fiel ndice endex0masa
reflejo
es independiente
de lacorporal.
tendenciaAs, central de la distribuc
2 ) subyacente
2
dado su valor x0. Segn la estructura del modelo de regresin 1lineal, ( x 0 el xvalor
por ejemplo, var(yel0 ICyal 0y ),95%= var( 0) +
para elvar(valory 0medio
) = del 1 +colesterol + HDL ;
2 entre los sujetos 32
de la nueva observacin 0 se sigue que n ( n 1 ) s
x
de la variable respuesta para un determinado sujeto Ejemplo con1.4 x =Enx0este viene y en dado lospor y0 = 0 ejemplos
sucesivos + sobre estimado
con un ndice de masa corporal de 25 kg/m2,
2 1 la (recta x 0 xde) 2regresin
1xes
0 + decir,
0 , cuyola prediccin
var(y
estimador 0 - dey una
)
insesgado
0 = nueva
var(
es 0 ) observacin
de + var(
nuevo utilizarn
y 0 0)y= a
= partir
b
los
0 1+ + bde
valores
1 0x + ya del
quecolesterol 2
; HDL obtenidos en los 10 pri
n (n 1) s x
176 Pastor-Barriuso R. 1,69 - 0,02325 1,960,013 = (1,09; 1,14),
estimada est sujeta a dos fuentes de error:estudio la varianza European inherente Study de on cada respuesta Myocardial Infarction
Antioxidants,
E(y0 - y 0 ) = 0 + 1x0 + E(0) - 0 - 1x0 = E(0) = 0.
es decir,
individual larespecto
prediccin
es sensiblemente a ladems una
recta nueva
preciso
de que
regresinobservacin
entre a partir
aquellos
subyacente con eldeerror
unla ndice
recta
en lade de regresin
masa corporal
the Breast y(EURAMIC), unestimacin
estudio de
multicntrico de casos y co
explicativa, sino tambin para predecir la respuesta individual y0 de un nuevo sujeto
Regresin lineal simple
dado su valor x0. Segn la estructura del modelo de regresin lineal, el valor subyacente

de la variable respuesta para un determinado sujeto con x = x0 viene dado por y0 = 0 +


2,25

1x0 + 0, cuyo
2
estimador insesgado es de nuevo y 0 = b0 + b1x0 ya que

E(y0 - y 0 ) = 0 + 1x0 + E(0) - 0 - 1x0 = E(0) = 0.


Colesterol HDL (mmol/l)

1,5

Asimismo, como el valor estimado y 0 por la recta de regresin en x0 es independiente

de la nueva1observacin y0, se sigue que

1 ( x0 x ) 2

var(y0 - y 0 ) = var(0) + var( y 0 ) = 1 + +
2
;
n (n 1) s x2
0,5
0,25
es decir, la prediccin de una nueva observacin a partir de la recta de regresin
20 24 28 32 36
estimada est sujeta a dos fuentes de error: la varianza inherente de cada respuesta
Indice de masa corporal (kg/m)
individual respecto a la recta de regresin subyacente y el error en la estimacin deFigura 10.9
Figura 10.9 Bandas de confianza (rea en gris oscuro) y prediccin (rea en gris claro) al 95% para la recta
de regresin del colesterol
dicha recta. Adems,HDLsi elsobre el ndice
trmino de masa
de error corporal
0 se en el grupo
distribuye control
de forma del estudio
normal EURAMIC.
(asuncin

de normalidad),
es decir, la diferencia
la prediccin de una nueva y 0 tambin seguir
y0 - observacin a partir una
de ladistribucin normal,estimada
recta de regresin de tal est
sujeta a dos fuentes de error: la varianza inherente de cada respuesta individual respecto a la
recta de regresin
forma subyacente
que el intervalo y el error al
de prediccin en100(1
la estimacin
- )% parade una
dicha recta.observacin
nueva Adems, si el trmino
de error 0 se distribuye de forma normal (asuncin de normalidad), la diferencia y0 0 tambin
seguir una distribucin
individual y0 es normal, de tal forma que el intervalo de prediccin al 100(1 )% para
una nueva observacin individual y0 es
2
1 ( x0 x )
b0 + b1 x 0 t n 2,1 / 2 s 1 + + .
n (n 1) s x2

La banda de prediccin viene entonces determinada por estos intervalos de prediccin en los
33
distintos valores observados x0 de la variable explicativa. En general, la banda de prediccin
ser substancialmente ms amplia que la banda de confianza, particularmente cuando el tamao
muestral es grande, lo que refleja el hecho de que existe mucha ms incertidumbre en la
prediccin de la respuesta individual de un nico sujeto que en la estimacin del valor medio de
la variable respuesta para todos los sujetos con un mismo valor de la variable explicativa.
Cabe destacar, por ltimo, que los intervalos de confianza para el valor esperado de la
variable respuesta se basan nicamente en las asunciones de linealidad y homogeneidad de la
varianza, mientras que los intervalos de prediccin para una nueva observacin requieren
adems de la hiptesis de normalidad, siendo estos ltimos incorrectos si la distribucin
subyacente de la variable respuesta no es normal.
Ejemplo 10.11 A partir del modelo de regresin lineal del colesterol HDL sobre el
ndice de masa corporal se tiene que el intervalo de prediccin al 95% para el nivel de
colesterol HDL de un sujeto con un ndice de masa corporal x0 es

Pastor-Barriuso R. 177
Ejemplo 10.11 A partir del modelo de regresin lineal del colesterol HDL sobre el

ndice de masa corporal se tiene que el intervalo de prediccin al 95% para el


Correlacin y regresin lineal simple

nivel de colesterol HDL de un sujeto con un ndice de masa corporal x0 es

1 ( x 26,0) 2
1,69 0,023 x 0 1,96 0,283 1 + + 0 .
533 532 3,50 2
El clculo de estos intervalos en distintos valores x0 del ndice de masa corporal da lugar
a laclculo
El banda de prediccin en grisenclaro
estos intervalos de la valores
distintos Figura 10.9.
x0 delAlndice
igual de
quemasa
la banda de confianza,
corporal
la banda de prediccin est centrada alrededor de la recta de regresin estimada, pero su
amplitud
da lugar aeslanotablemente mayor alenincorporar
banda de prediccin gris claro la
devariabilidad de cada
la Figura 10.9. respuesta
Al igual que laindividual
respecto a su valor esperado. Por ejemplo, el intervalo de prediccin al 95% para el nivel
de colesterol
banda HDL delaun
de confianza, sujeto
banda decon 25 kg/mest
prediccin 2
de centrada
ndice dealrededor
masa corporal vienede
de la recta dado por
1,69 0,02325 1,960,284 = (0,56; 1,67),
regresin estimada, pero su amplitud es notablemente mayor al incorporar la
que es mucho ms impreciso que el intervalo de confianza calculado en el ejemplo anterior
que
paraes
el mucho
valorde
variabilidad ms
cadaimpreciso
medio del que
colesterol
respuesta el
HDLintervalo
individual de los
enrespecto
todos confianza
valorcalculado
sujetos
a su con dichoen
esperado. el del ndice de
valor
Por
masa corporal (IC al 95% 1,09-1,14 mmol/l).
ejemplo anterior
ejemplo, parade
el intervalo el prediccin
valor medioaldel
95%colesterol HDLde
para el nivel encolesterol
todos los HDL
sujetos
decon
un
10.3.5 Evaluacin de las 2 asunciones del modelo de regresin lineal simple
dicho valor
sujeto con 25del ndice
kg/m dede masade
ndice corporal (IC al 95%
masa corporal viene 1,091,14
dado pormmol/l).
Los procedimientos de estimacin e inferencia derivados en los apartados anteriores se basan
en las asunciones de linealidad, homogeneidad de la varianza y normalidad. La violacin de
estas asunciones
10.3.5 Evaluacin puede
de las darasunciones
lugar a conclusiones
del modelo errneas del modelo
de regresin lineallineal,
simple 34
siendo as necesario
evaluar su idoneidad en cada aplicacin prctica. Aunque existen diversos tests para contrastar
curvilneas y con similar dispersin a lo largo de toda la recta. Tal parece ser el caso del
estadsticamente
Los procedimientos cada
de una de las hiptesis
estimacin e inferencia delderivados
modelo lineal
en los (vase
apartados referencias
anterioresalsefinal del
tema), en este apartado se presentan algunas tcnicas diagnsticas basadas en el anlisis grfico
diagrama de dispersin entre el ndice de masa corporal y el colesterol HDL de la
de los en
basan residuos, proponindose
las asunciones asimismo
de linealidad, extensiones bsicas
homogeneidad del modelo
de la varianza y transformaciones
y normalidad. La de
los datos para acomodar posibles desviaciones de estas asunciones. En particular, se presta
Figura 10.7, donde no se aprecian desviaciones obvias de estas asunciones. En la Figura
especial atencin
violacin a las hiptesis
de estas asunciones puede dedarlinealidad y homogeneidad
lugar a conclusiones de la
errneas delvarianza,
modelo ya que las
principales inferencias relativas a la pendiente de la recta de regresin y al valor esperado de la
10.2(d), sin embargo, se muestra un claro ejemplo de violacin de la asuncin de
variable
lineal, respuesta
siendo son aproximadamente
as necesario evaluar su idoneidad vlidas en encada
muestras moderadamente
aplicacin prctica. Aunque grandes aunque
la distribucin subyacente de la variable respuesta no sea normal.
linealidad, ya que la relacin subyacente es visiblemente cuadrtica. No obstante, el
existen diversos
El grfico mstests
simplepara contrastar
para evaluar estadsticamente
el grado de cumplimiento cada unade delas
lasasunciones
hiptesis del de la regresin
grfico
lineal simplems esutilizado
el diagrama parade chequear
dispersin las entre
asunciones de la regresin
las variables explicativalineal es el diagrama
y respuesta, junto con
modelo lineal
la recta de (vase estimada.
regresin referenciasSialsefinalcumplen del tema), en este apartado
las hiptesis se presentan
de linealidad y homogeneidadalgunas de la
de dispersin
varianza, los puntosde los diagramaei de
delresiduos = ydispersin
i - y i frente hana los valores predichos
de distribuirse y i = b0 +alrededor
aleatoriamente b1xi por de
tcnicas
la recta dediagnsticas
regresin sin basadas en elde
evidencia anlisis grfico
relaciones de los residuos,
curvilneas proponindose
y con similar dispersin a lo largo
de la
toda la de
recta recta. Tal parece
regresin. Este ser el caso
grfico del diagrama
es equivalente de dispersin
al diagrama entre elentre
de dispersin ndicexi ede
yi masa
asimismo
corporal yextensiones
el colesterolbsicas
HDL de dellamodelo
Figuray10.7, transformaciones
donde no se de los datos
aprecian para
desviaciones obvias de
estas
enasunciones.
regresin linealEn lasimple,
Figurapero10.2(d),
tienesin embargo,
la ventaja de se
sermuestra un claro
directamente ejemplo deaviolacin
generalizable la
acomodar
de la asuncinposiblesde desviaciones
linealidad, yadeque estasla asunciones. En particular,
relacin subyacente se presta especial
es visiblemente cuadrtica. No
obstante,
presenciael grfico
de ms de msuna utilizado
variablepara chequear
explicativa en las asunciones
regresin lineal de la regresin lineal es el
mltiple.
atencin
diagramaade lasdispersin
hiptesis de de los
linealidad
residuosy ehomogeneidad
= y frente de
a la varianza,
los valores ya que las = b + b x por
predichos
i i i i 0 1 i
la recta de regresin.
Antes de proceder Este grfico grfico
al anlisis es equivalente al diagrama
de los residuos, de dispersin
es importante describirentre xi e yi en
algunas
principales
regresin linealinferencias
simple,relativas
pero tiene a la
la pendiente
ventaja de de serladirectamente
recta de regresin y al valor
generalizable a la presencia de
msdedesusunapropiedades.
variable explicativa en regresin
Bajo las hiptesis lineal mltiple.
de linealidad y homogeneidad de la varianza, los
esperado de la variable respuesta son aproximadamente vlidas en muestras
Antes de proceder al anlisis grfico de los residuos, es importante describir algunas de
sus residuos
propiedades.ei = yiBajo
- y i las
tienen un valor
hiptesis de esperado
linealidadsubyacente
y homogeneidad de la varianza,
moderadamente grandes aunque la distribucin de la variable respuestalos noresiduos
ei = yi i tienen un valor esperado
sea normal. E(ei) = E( yi) E( y i ) = 0

El grfico ms simple para evaluar el grado de cumplimiento de las asunciones de la


178
y una varianza
Pastor-Barriuso R.
regresin lineal simple es el diagrama de dispersin entre las variables explicativa y
2 1 ( xi x ) 2
coni)la= recta
var(e var(yide var( y i ) - estimada.
) +regresin 2cov(yi, ySi
i ) se

= cumplen .
respuesta, junto 1 las
hiptesis
2 de
realizar
realizarelresiduos
eldiagnstico
diagnstico
residuos sean sean del modelo
comparablesmodelomediante
delcomparables mediante
a distintos
a distintos los residuos
losnivelesresiduos
niveles deestandarizados
la
deestandarizados
variable
la variable explicativa,
explicativa, es preferible
es preferible
valor se agrupan los datos observados. Las medidas de tendencia
E(ei) = E(yi) - E( y i ) = 0
Regresin lineal simple
realizar
realizar
residuos el diagnstico
elsean diagnstico
comparables deldel modelo modelo
e
a e mediante
distintos mediante niveles los los e residuos
ede residuos
la estandarizados
variable estandarizados
explicativa, es preferible
stra sirven tanto para resumir losrirresultados =i=
observados
i i como
== para i i
,,
y una varianza 11 ( x( ix ix x) ) s s 11hhi i 22
realizar el poblacionales
as acerca de losy parmetros diagnstico s s 11del modelo mediante
e e los residuos e eestandarizados
una varianza ri correspondientes.
n=rni =(n(n1)1s) xs2 ix2 i A = = i i , ,
1 1( x i (x ix) 2x )CENTRAL 2
s 1s 1hi hi
describen los principales estimadores
1.2 MEDIDASsDE
de la tendencia 1 s TENDENCIA
1
central de una 1 ( xi x ) 2
var(ei) = var(yi) + var( ny i )n(n2cov(y ei(n1)s12i,) sy2i ) = ei 1 2
2
.
que
queseseobtienen
obtienendededividir dividirlos residuoseiepor
losresiduos r = x = n, ( n 1 ) s
i poruna unaestimacin dedesusu s desviacin
h tpica. El xEl
i x
estimacin 1desviacin tpica.
Las medidas de tendencia 1 central (residuos
x i informan x ) 2 sean comparables
acerca i
de cul a distintos
es el valor niveles de la variable expli
ms representativo
As, aun cuando se cumpla la asuncin s 1 de homogeneidad de la varianza, los residuos ei
trminohtendrn
trmino hi se
que i se
que conoce
se conoce
obtienen
se como
obtienen como de de leverage
eldividir
el leverage
dividir los dederesiduos
residuos
los unauna en por
observacin
observacin
e nuna
(por una 1)estimacin2
ys yxes es unauna
estimacin medida
medida
de su
de desviacin
su desviacin tpica.
tpica.El El
diferente varianza
As, aun cuando se cumpla la asuncin derealizar alrededor de los distintos
homogeneidad puntos de la recta
varianza, de regresin
losmediante estimada.
residuos elos i residuos estanda
de una determinada variable o, dicho el dediagnstico del modelo
i i
forma equivalente, estos estimadores indican
mtica Ms concretamente, los residuos tendern a ser mayores en valores centrados que en valores
estandarizada
estandarizada dedela ladistancia
hdistancia entre
entre cada
cada elvalor
leverage valor xixde dees la variable
ladebido
variable a explicativa
explicativa yysu (xmedia
su media x x x muy distante
trminotrmino
extremos
tendrn
que sehide se conoce
ila
diferente
obtienen sevariable
conoce
alrededor
como
devarianza como
dividir el los
explicativa.
de qu
alrededor leverageEsto
residuos
valor
idede
se agrupan euna
de
los
i por
una observacin
distintos
una observacin
losestimacin
que los
puntos y puntos
datos observados.
esyde una
es
de lasumedida
una
recta medida
i, yi)de
desviacin con
Las medidas
regresin
i tpica. El
de x ,tienen mucha influencia encada la estimacin ede tendencia ei
ica, denotada por se define como la suma de uno de losde la pendiente, de tal ri =forma que lai recta de = ,
que
quesesetratar
tratar
estandarizadaen
residuos enel
estandarizada
regresin el
estimada.hi Ms apartado
apartado
sean
resultante de la
de siguiente.
siguiente.
distancia
comparables
la distancia
tender
concretamente, a No
entre
a No obstante,
obstante,
cada
distintos
entre
aproximarse cada
los residuos valor si
niveles si
valor
a el
x el
estos tamao
de
tendern xtamao
de la
la
de
puntos muestral
variablemuestral
variable
la variable
que
a ser mayores es es
explicativa grande
explicativa, grande
explicativa
presentarn y ysu
es yy media
preferible
entoncessu media x
pequeos
( x x x ) 2
s 1 h
trmino secentral
conoce decomolaobjeto
muestra el leverage sirven detantouna i observacin
para
i
resumir los unaen
y esresultados valores 1centrados
medida i
el nmeroei.de
es dividida por residuos Por ello, y con
observaciones realizadas. de que Silosdenotamos
residuos sean comparables s observados
a distintos 1 niveles i como de la para
nonohay
hayvalores n (n 1) s x 2
valores
variable
que semuy
querealizar
que muy
tratar
se
en
estandarizada
extremos
el
tratarextremos
explicativa,
valores en el
diagnstico
en
de el de
es
extremos
la
de
apartado la la
apartado variable
del variable
preferible
distancia de siguiente.
modelo explicativa
lasiguiente. explicativa
realizar
variable
entre Noexplicativa.
mediante
cada Noobstante, (observaciones
los
el obstante,
valor
(observaciones
diagnstico
x residuos
de sila elsivariable
Esto tamao
eldel
es tamao con
con
estandarizados
modelo
debido alto
alto
muestral
muestral
a que
explicativa eslos
mediante y grande
essu losyresiduos
grande
puntos
media (xyix,
realizar inferencias acerca de los parmetros
i poblacionales correspondientes. A
muestral y por xestandarizados
i el valor observado para el sujeto i-simo, i = 1, ..., n,
leverage),
leverage),noambos
ambos
hay residuos
residuos
valores muy emuy
iey yrirextremos
se
i se
iextremos comportan
comportan
xdesiguiente.la lade
devariable deforma forma anloga.
explicativa anloga.
yno
que hay
i) conse xvalores
i muyen
tratar distante
continuacinel apartadode
se
tienen
describen
variable
mucha ei que
No
los
explicativa
influencia
obstante,
principales
se obtienen si(observaciones
enel(observaciones
la deestimacin
etamao
estimadores
i
dividir muestral con
los alto
con
deresiduos
de la tendencia
alto
laespendiente,
grandeei por y unadeestimacin
central una
de su
dada por r i = = ,
EnEndeterminados casos el grfico de elos rresiduos estandarizados r1anloga.
sanloga. hi como
frente a alos elvalores
determinados casos el grfico de ilos i residuos estandarizados airiaproximarse
frente los valores
2
leverage),
leverage),
de tal
no hayforma ambos
valores ambos que residuos
muy laresiduos
recta
extremose de
i y riregresin
ysede comportan
se
la 1 resultante
comportan
variable x i de
(trmino xforma
explicativade )tender
hforma
i se conoce
(observaciones aleverage
estos
con altopuntosde una observacin y es u
variable. s 1
n (n 1) s x 2

predichos 1yEn n
no x1 + xapreciar
permite + ... xclaramente
+casos las posibles
predichos
x= y no
En permite
determinados
determinados
quex ipresentarn
leverage),
i i = ambosentonces 2apreciarcasos
residuos
nclaramente
el grfico
el
. pequeos grfico de
ei y ri se comportan las los
de posibles
residuos residuos
los edesviaciones
residuos
estandarizada i.de
desviaciones
Por estandarizados
forma estandarizados
ello, de y la
anloga.
dede
con las rasunciones
las
distancia
objeto asunciones
i frente
ri frente
deentrea los
que alos valores
los
cada valores
valor xi de la variable exp
n
que se obtienen 1.2.1
i = 1 n
de dividir Media residuos ei por una estimacin de su desviacin tpica. El trmino hi
losaritmtica
se
dedelinealidad
linealidad que
predichos
predichos
conoceyyEn se obtienen
y
como
homogeneidad
homogeneidad
determinados
i no
y iel no de
permite dividir
permite
leverage de casos los
de apreciar
la lade apreciar
una
varianza.
varianza.
el residuos
claramente
observacin
grfico ParaParadeeobtener
claramente por
las
yresiduos
iobtener
los que esuna
posibles
las
se una estimacin
posibles
una
tratar medida desviaciones
en desviaciones
representacin
representacin
estandarizados de su desviacin
elestandarizada
apartado ms de
rms las
dedelas
clara
i frenteclara
siguiente. tpica.
asunciones
asunciones
laa distancia
los No Elentre si el tamao
obstante,
valores 36
cada valor x de La
a medida de tendencia central ms utilizada y de ms fcil
i la variable
media explicativa
aritmtica, y
denotada su media por x ,quese se
define tratar como en el
la apartado
suma de siguiente.
cada uno deNo los
enentales trmino
talescircunstancias,
circunstancias,
obstante,
de predichos
linealidad
de linealidad h sees conoce
es aconsejable
si elyy ihomogeneidad
i tamaoaconsejable
ynohomogeneidad como
muestral el
dividir
de la leverage
dividir loslos
es varianza.
de grande
la n n
varianza. de una
residuos
residuos
yPara
no no
hay observacin
Para r
hay r en
valores
obtener en K K grupos
valores
iobtener grupos
muy
una y es
muy una
dede
extremos
representacin
una medida
tamao
tamao
extremos
representacin de las n n
lams de
kvariable
msla clara
clara variable
explicativa (observac
permite apreciar claramente las posibles
i desviaciones de k asunciones
explicativa valores
(observaciones
orresponde al centro de gravedad de los datos de la muestra. Su muestrales
con alto dividida
leverage), por el
ambos nmero de
residuos observaciones
e i y r i se realizadas.
comportan de Si denotamos
forma
ordenados
ordenados estandarizada
porpor
anloga. valores
valores de
crecientes
crecientes la distancia
de de y y (por entre
(por cada
ejemplo,
ejemplo, valordeciles)
deciles)
leverage), x de
n residuos y la
y variable
calcular
calcular
ambosri residuos la explicativa
la
ri K media
media ei y rde y
i se
su media
decomportan x
k nkde forma anloga.
en de tales circunstancias,
en linealidad
tales circunstancias, es aconsejable
es iaconsejable de la dividir dividir losPara los nobtener
residuos en en grupos
K grupos tamao ms nclara
tamao
i
y homogeneidad i varianza. una representacin
por n
n es que est muy influenciada por los valores extremos y, en este el tamao muestral y por x i el valor observado para el sujeto i-simo, i = 1, ..., n,
En
que determinados
se tratar en el casos
apartado el grfico
siguiente. de Nolos residuos
obstante,
En determinados estandarizados
si el tamao casos muestral r
el la frente
grfico es a
grande
de los valores
y
los residuos
ordenados tales por
ordenados valores
por valores crecientes
crecientes de de ykin (por
y idividir
(por ejemplo, ejemplo, n deciles) deciles) yrcalcular
y calcular media
la media nk de estandarizado
i
en
predichos circunstancias, es aconsejable 11 npor laslos residuos i en K grupos de lasdeasunciones
tamao
i nolapermite media apreciar
vendra dadaclaramente posibles desviaciones
k

er un fiel reflejo de la tendencia central de lardistribucin.


linealidad
no hay valores y homogeneidad muy extremos dekrla
=
k = dennk la

varianza. riri
variable Para obtenery una
explicativa
predichos representacin
(observaciones con ms altoclara en las tales
i no permite apreciar claramente posibles desviac
ordenados por es valores crecientes dividirdelosy ni (por nkejemplo, nk r en deciles) y decalcular la nmedia
k i =i1=1
circunstancias, aconsejable residuos
1 1 n i K grupos tamao ordenados por
rk = 1
k
i sobre ei y ri sedeciles) rcomportan
k = rde i rforma laxmedia + x 2 + ... + x n
1 i =
leverage),
valores crecientes ambos deresiduos (por ejemplo, n xkdeny=i =klinealidad
calcular xse 1anloga.
i = y homogeneidad .de la varianza. Para obtener una re
i
4 En este y en los sucesivos ejemplos estimadores muestrales,
yylalavarianza
varianza n i =1 1
n
1 nk
os valores del colesterol En determinados
HDL obtenidos casosen los el grfico10 primeros derklos residuos
=sujetos
enn ktales rdel estandarizados ri frente a los valores
circunstancias,
i
es aconsejable dividir los n residuos ri en
y layvarianzala varianza La media es la medida 11 nknk i =1
de tendencia central ms utilizada y de ms fcil
uropean Study on varianza y i Myocardial
predichos
y laAntioxidants, no permite apreciar
22
sInfarction
ks k== rir2i 2 Cancer
claramente
nnk k i =i1=1 and ordenados
las posibles of por valores desviaciones de las asunciones
crecientes de y i (por ejemplo, deciles) y c
y la varianzainterpretacin. Corresponde 1 al centro
nk nk
1 de gravedad de los datos de la muestra. Su
(EURAMIC), un de linealidad
estudio multicntrico y homogeneidad de casosde y controles
2
s k2 =
las kvarianza.
= realizado
rPara 2 2
i ri obtener una representacin ms clara
n k ni =k1 i =1
dedelos
losresiduos
residuosenencada cadauno unodedelos
principal los grupos.
grupos.La
limitacin Laespresencia
presencia
que est muy dede curvatura
nk curvatura
influenciada enenelelpor grfico
grfico dedelos
los valores los extremos 1 y, nk
en este
y 1992 en ochodepases en tales
los residuos circunstancias,
Europeos en cadae Israel unopara es
deaconsejable
evaluar
los grupos. dividir
elsefecto
La
k
2
=
1
presencia delos los
r n
i
2 residuos r en K grupos de tamao
de curvatura i en el grfico de los
r k = n
residuos
n k i =1
k
ri
residuosmedios
residuos de los
de los
medios residuosfrente
rkrresiduos enacada
caso, en los
los puede
cadavalores
unouno
valores no
k frente a los valores predichos medios y
deser predichos
los
de
predichos grupos.
un
los fiel
grupos. La nLa
reflejo
medios presencia
k de y=1kla
ipresencia
k
en en de
tendencia
los distintos
loscurvatura
dedistintos
distintos central
curvatura en grupos
grupos el
de
gruposenla grficoindicar
eldistribucin.
grfico de losdefalta
los de
ordenados por valores crecientes
linealidad en la relacin, mientras que la existencia de tendencia de y i (por ejemplo, deciles) y calcular la
en el grfico de las desviacionesmedia
y la varianza 5
indicar tpicas
residuos
falta
indicar falta residuos
de losde residuales
medios
linealidad
de linealidadmedios
residuos kkenkcada rsen frente
r la frente a
relacin,
la relacin, los a
uno de los valores
los valores
mientras
mientras predichos
grupos. predichos
queque la
Lalapresencia medios
medios
existencia medios
existenciade y de
k de
de
en
y cada
los
en los
tendencia
k tendencia
curvatura grupo
distintos
distintos
enenen aportar
elel grupos
el grupos
grfico evidencia
de los
de heterogeneidad enEjemplo la varianza. 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
nk
1
indicar
indicar
residuos falta falta
medios de linealidad
de linealidad
rutilizarn
frente en a la
en los relacin,
la relacin,
valores rkmientras
= mientras
predichos rimedios
que quela existencia
la existencia
yobtenidos de tendencia
k en los distintos
de tendencia en2 el
grupos en 1el nk sujetos
k
Ejemplo 10.12 En la Figura 10.10(a)
los valores delncolesterol k i = 1 HDL
se representa el grfico de los
en los 373710 sprimeros
k = ri2 del
residuos
n k i =1
indicarestandarizados
falta de linealidad ri frente European
estudio aen loslavalores
relacin, predichos
Study mientras
on Antioxidants, i quede lalaregresin existencia
Myocardial lineal del
de tendencia colesterol
Infarction en37 el37
and HDLCancer of
y lasobre varianza el ndice de masa corporal. Este grfico, al igual que el diagrama de dispersin entre
el ndice de masa de los residuos en cada10.7, uno parece de los grupos. La presencia de curvat
thecorporal
Breast y(EURAMIC), el colesterol HDL
un estudio de la multicntrico
Figura de casos compatible
y controles con realizado
las asunciones de linealidad y homogeneidad de la varianza. Para realizar una evaluacin 37
1 nklas2medios r s
ms detallada, en la Tabla 10.4 se presentan ri Europeos medias y desviaciones tpicas de de los y k en l
losmedios
2 residuos frente a los valores predichos
entre 1991 y 1992 en s k ocho= pases k e Israel para evaluar elk efecto
n k i =1
indicar falta de linealidad en la relacin, mientras
Pastor-Barriuso que la existen
R. 179
5
de los residuos en cada uno de los grupos. La presencia de curvatura en el grfico de los
modelos pueden considerarse como casos particulares nk nk de la regresin lineal
2 2 11
s ks k= = ri ri 2 2

mltiple cuyas variables explicativas kn ki =1i =1


sonndistintas potencias de una misma
Correlacin y regresin lineal simple

variable
dedeloslosresiduos bsica.
residuos enencadacadauno unodedelos losgrupos.
grupos.LaLapresencia
presenciadedecurvatura
curvaturaenenelelgrficogrficodedeloslos
residuos estandarizados por deciles de los valores predichos. La Figura 10.10(b) de los
residuos
residuos
residuos mediosrkrkfrente
medios
medios frenteaaalos
frente losvalores
los valorespredichos
valores predichosmedios
predichos mediosy kyde
medios kenen losdistintos
los
cada distintos
decil grupos
grupos
muestra indicios
1.2 MEDIDAS DEde TENDENCIA CENTRAL
antioxidantes en el riesgo de desarrollar
una posible relacin cuadrtica
[Figura 10.10 entre el ndice de masa
aproximadamente aqu] corporal y el colesteroldeHDL,
un primer infarto agudo miocardio en
ya quefalta
indicar
indicar los
faltaresiduos del modelo
dedelinealidad
linealidad lineal
enenlalarelacin,
relacin, tienden a serque
mientras
mientras positivos
que para valores
lalaexistencia
existencia predichos
dedetendencia
tendencia enenelaltos
el
Las medidas de tendencia y bajos central
del colesterol hombres
informan HDL adultos.
y negativos
acerca Los
de cul paravalores obtenidos
es elvalores
valor ms fueron
predichos 0,89, 1,58, 0,79,
intermedios. Por otra
representativo 1,29, 1,42, 0,84,
parte,
en la Figura 10.10(c) no [Tabla 10.4 aproximadamente
se aprecian desviaciones deaqu] la asuncin de homogeneidad de la
de una determinadavarianza, variable o, dadodicho 1,06,
quedelas 0,87, 1,96
desviaciones
forma y 1,53
equivalente, mmol/l.
tpicas La
estosresiduales media
estimadores sk de
son lossimilares
indican niveles del en colesterol
los distintosHDL en
3737
deciles de los valores predichos.
alrededor de qu valor se agrupanms estos
los datos 10 observados.
participantesLas es
La alternativa
Ejemplo 10.13 Lossimple nivelespara acomodar medidas
de -tocoferol una de tendencia
relacin
y -caroteno cuadrtica entre el ndice de masa
en tejido adiposo
corporal y el colesterol HDL es extender el modelo lineal a un modelo polinomial de segundo
central de la muestra sirven tanto = para resumirx2los resultados
1 10 elobservados 1,como
58 + ...para
0,89 +cuadrtico +x21adems
,53
orden
presentan E(Y|x) 0 + 1x + asimtricas
distribuciones 2 , que incluye
x = enlos
trmino
x i 700
= controles del estudio=EURAMIC,
del trmino lineal
1,223 mmol/l.
x del ndice de masa corporal. La relacin 10 i =1 resultante entre 10 ambas variables ya no ser una
realizar inferenciaslnea acercarecta de los sinoparmetros
una poblacionales
parbola, cuya correspondientes.
curvatura vendr A
determinada porLaelmedia
coeficiente 2
con un marcado sesgo positivo en el caso del -caroteno (Figura 4.3). y
asociado
residuos sean comparables al trmino
a distintos niveles cuadrtico. El ajusteesdepreferible
de la variable explicativa, los modelos polinomiales se tratar en el Tema
continuacin se describen 11 ya que losestos
principales
modelos estimadores
pueden considerarsede la tendencia como centralparticulares
casos de una de la regresin lineal
la del
desviacin La media
tpicalosdel aritmtica
-tocoferol presenta
son x = 146,1las siguientes
y sx = propiedades:
87,6 g/g y del -
realizar el diagnstico modelo mediante residuos estandarizados
mltiple cuyas variables explicativas son distintas potencias de una misma variable bsica.
variable.
Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos
caroteno y = 0,37ei ys = = 0,40
ei g/g, y el coeficiente de correlacin de Pearson
Ejemplo 10.13 Los 2yniveles
r i =
s 1
de, a-tocoferol y b-caroteno en tejido adiposo presentan
hi
1 ( xi x )
1.2.1 Media aritmtica distribuciones de una muestra,
s 1 asimtricas
n (n 1) s x2
en losla700 media de la muestra
controles resultante
del estudio EURAMIC, es igual cona la
unmedia
marcado inicial ms la
entre ambas variables es r = 0,45. A partir de estos datos
sesgo positivo en el caso del b-caroteno (Figura 4.3). La media y la desviacin tpica del se estima que la recta de
La media aritmtica, denotada por
a-tocoferol son xconstante
,=se define
146,1
que se obtienen de dividir los residuos ei por una estimacin
scomo
yutilizada;
x= 87,6 lasimg/g
suma
yi = yxde +cada
idel
de su desviacin tpica. El
uno de los
cb-caroteno
, entonces y == 0,37x + yc.syUn cambio
= 0,40 mg/g,deyorigen
el que
regresin del -caroteno sobre el -tocoferol es
coeficiente de correlacin de Pearson entre ambas variables es r = 0,45. A partir de estos
valores muestrales
trmino datos
hi se conocedividida
como el seleverage
estima
por el de que
nmero la
unarealiza
se recta
de con
observacin deyfrecuencia
regresin
es una medidadel
observaciones b-caroteno
realizadas.
es el centrado sobre
Si denotamos el a-tocoferol
de la variable, es
que consiste en restar a
estandarizada de la distancia entre cada valor xi de la variableyexplicativa = 0,072y +su 0,0021x,
media x
por n el tamao muestral y por xi el cada valorvalorobservado
de la para el sujeto
muestra su i-simo,
media. i = 1,de
La media n, variable centrada ser, por
...,una
con una desviacin tpica residual de los niveles de b-caroteno alrededor de dicha recta de
que se tratar en el apartado siguiente. No obstante, si el tamao muestral es grande y
s = 0,36 mg/g. El error estndar de la constante es SE(b0) = 0,026 y de la pendiente SE(b1) =
la media vendra dada conporuna desviacin tpica
tanto, igualresidual
a 0. de de los niveles de -caroteno alrededor de dicha
no hay valores muy0,00015.
extremos deAs, se tiene
la variable que
explicativaincrementos
(observaciones una
con altodesviacin tpica (87,6 mg/g) en el a-tocoferol
se asocian con un aumento deanloga.
87,60,0021 = 0,18 mg/g en el nivel medio de b-caroteno, con
recta ede i y rsi se
= comportan g/g.
0,36Cambio El es SE(b0) = uno 0,026 deylosde datos
la
x1deerror
x 2 +estndar
+ x n de laconstante
leverage), ambos residuos de forma escala
un IC al 95% comprendido 1 n +entre ...(unidades).
87,6(0,0021 Si se multiplica
1,96 0,00015) =cada (0,15; 0,21). de una
x
En determinados casos el grfico denlos
= =1residuos
x i =
n sertiene
estandarizados
.
i frente a los valores
pendiente SE(b1i)muestra = 0,00015. por unaAs, constante,que la incrementos
media de la 0,5 de una desviacin
muestra resultante es igual a la media
4
predichos y i no permite apreciar claramente las posibles desviaciones de las asunciones

Lademedia esyla tpica (87,6


medida g/g)
dedetendenciainicial -tocoferol
encentral
el por la
ms se asocian
constante consiun
utilizada; yi aumento
=r cxi, 0entonces y = c x .=
de 87,60,0021
linealidad homogeneidad la varianza. Para obtener unautilizada y de
representacin msms
clarafcil k
2
interpretacin. 0,18
en tales circunstancias, es g/g
Corresponde alencentro
el
aconsejable nivel demedio
Cambio
dividir los deri-caroteno,
ngravedad
simultneo
residuos ende decon
losorigen
datos
K grupos
de yun
de nkIC
la al Si
95%
muestra.
escala.
tamao comprendido
se Su
-0,5 multiplica cadaentre
uno de los datos de
ordenados por valoresr crecientes de y i (por ejemplo, deciles) y calcular la media 0,9 1 1,1 1,2
principal limitacin87,6(0,0021
esi que est muy influenciada
una =por
muestra por
1,960,00015) losconstante
una
(0,15; valores extremos
0,21). y, en este
y al resultado se le suma
(b)otra constante, la media
0
1 nk 1,5
caso, puede no ser un
Unafiel reflejo
simple rde la
k =de
inspeccin
n
muestra
tendencia
la ri central
del diagrama de dispersin
resultante
de la
esdistribucin.
igual a la media
entre los inicial
nivelespor
de la primera constante, ms la
-tocoferol
k i =1
sk 1
-2
y la varianza y -caroteno de segunda
la Figuraconstante; si yi = c1xuna
10.11(a) evidencia i + cclara
2, entonces y =de
violacin c1la
x hiptesis
+ c2 . de
Ejemplo 1.4 En este
-3 y en los sucesivos ejemplos sobre estimadores muestrales,
0,5
se
homogeneidad 0,8 2 de1la
s k = 0,9
n
varianza,
k
1 ya que
1,1 hay 1,2mayor variabilidad
1,3 de
0,9 los puntos
1 1,1 1,2
utilizarn los valores del colesterol
Ejemplo ri 2
n k i =1 HDL 1.5obtenidos
Para en los 10los
transformar primeros
valores sujetos del
del colesterol HDL de mmol/l a mg/dl se
yi yk
39
(a) (c)
deestudio
los residuos en cada uno Study
European on Antioxidants,
de los grupos. multiplica de Myocardial
La presencia por el factor
curvatura en eldeInfarction
de los and
conversin
grfico Cancer
38,8. As, of
utilizando la propiedad del
Figura 10.10 Grfico de los residuos estandarizados ri frente a los valores predichos i (a), as como de las me-
the Breast
residuos dias r(EURAMIC),
medios k (b) y desviaciones
frente unpredichos
a los valores estudio
tpicas
cambio multicntrico
smedios
k (c)
dede ylos residuos
k en
escala, los deestandarizados
casos
ladistintos
media del ycolesterol
grupos controles realizado
por deciles
HDL de
enlos valores
mg/dl se predichos
10.10 de la
calculara
Figura
regresin lineal del colesterol HDL sobre el ndice de masa corporal en el grupo control del estudio EURAMIC.
indicar falta de linealidad en la relacin, mientras que la existencia de tendencia en el
entre 1991 y 1992 en ocho pases Europeosaepartir
directamente Israelde
para evaluarenelmmol/l
su media efecto de los 1,22338,8 = 47,45 mg/dl.
como
180 Pastor-Barriuso R. 37
5 6
1 k1 2nk 2
=s1k2 =s k2i r1,1
1 r1,1
0,8 0,8 0,9 0,9 1,2 1,2 1,3 que
1,3 se tratar
0,9 0,9 1en el
1 1,1apartado
1,11,2 1,2 siguiente. No obstante, si
n n
i
n
i =1
1 nk1 nk k yi k yi =i1 yk yk 1 k1 nk
rk = rk = ri ri rk = rk = ri ri
n k i =n1k i =1 (a) (a) no hay valores muy (c) (c)extremos
nRegresin de la variable explicativ
k i =n1 k i =1lineal simple
de los residuos en cada uno de los grupos. La presencia de curvatura en el grfico
de los residuos en cada uno de los grupos. La presencia de curvatura en el grfico de losde los

y la yvarianza leverage), ambos


i frente a los valores predichos
rvarianza
y la yvarianza
laen i residuos
Figura 10.10 Grfico de los residuos estandarizados r frente a los valores predichos (a), as como de las
Figura 10.10 Grfico de los residuos estandarizados (a), Figura
as como i ylasri
10.10e10.10
de se comportan de form
la varianza
residuos medios
medias
residuos rk (b)
medios
medias frente
rky (b) ay los
frente avalores
desviaciones predichos
los tpicas
valores
desviaciones sk (c)sde medios
los
predichos
tpicas residuos
medios
i
y kestandarizados
los
endistintos
por grupos
y kestandarizados deciles
los distintos
i
de losdevalores
por grupos
Figura
predichos
k (c) de los residuos deciles los valores predichos
deTabla
lade 10.4
regresin
la regresin Media
lineallineal y desviacin
del colesterol HDLHDL
del colesterol sobresobretpica
el ndice dede los
de masa
el ndice residuos
corporal
masa en elen
corporal estandarizados
grupo control
el grupo del estudio
control r
del estudio
EURAMIC.
EURAMIC. En determinados casosnk elnkigrfico
1 1 2 2 de los residuos es
indicar faltapor
indicar falta deciles
de linealidad de
en
de linealidad 2 lalos
en
2 la valores
1relacin, nk
2 predichos
2 mientras
1relacin, n
que que
mientras lai de
la existencia la regresin
de tendencia
existencia lineal
de tendencia dels k2 colesterol
en elen el
deilosi
s k y=
k
= r
n k i =n1ky
2
Tabla 10.410.4 s
Media= r
desviacin ri tpica de los
de residuos estandarizados ri por
ri deciless = r
HDL Tabla
sobre
k
el Media
ndice
i desviacin
i =de masa tpica
corporal los residuos
enHDLelHDL estandarizados
grupo control del nk kdei =n1los
por deciles
estudio k i =1
valores predichos
valores predichosi de la regresin
de la regresin
1 lineal del
lineal colesterol
del colesterol sobre el
sobrendice
el de
ndice masa
predichos y i no permite corporal
de corporal
masa apreciar claramente las posib
EURAMIC.
i
en elengrupo control
el grupo del estudio
control del estudio EURAMIC.
EURAMIC. 37 37
de los
deresiduos en cada
los residuos uno uno
en cada de los
de grupos.
los La
grupos. presencia
La presencia de de los
curvatura
de de
en
curvatura residuos
los
el grfico
en el endecada
residuos
grficoen
los
de uno
cada
los de los
uno degrupos.
los grupos. La presencia
La presenciade curvatura en elengrfico
de curvatura el gr
Valores
Valores predichos
predichos
Valores (mmol/l)
predichos(mmol/l)
(mmol/l) Residuos
Residuos estandarizados
estandarizados
Residuos estandarizados
de linealidad y homogeneidad de la varianza. Para ob
DecilDecil
(k) (k) Desviacin tpica
Desviacin (sk) (smedios
tpica
residuos medios
residuos rk frente
medios a Decillos(k)
losavalores
rk frente predichos
valores Media
Media
medios
predichos (( y k )) en
Media
medios )residuos
( y los Media
residuos
distintos ( r ) frente
Media
medios Media
medios
grupos
k en los distintos grupos
k
( r ) frente
k
Desviacin
a los
avalores
los valorestpica
predichos (skk)) medios
predichos y k en
y klos
endistintos grupg
los distintos
< 0,98 0,930,93 0,120,12 en tales circunstancias,
0,950,95
0,95 es aconsejable dividir los n re
< 0,98
< 0,98 0,93 0,12
0,981,03 1,00 indicar falta
-0,03
indicar de
faltalinealidad
de en
linealidad la
1,00
enrelacin,
la mientras que la existencia de tendencia
relacin,
indicar falta de linealidad en
indicar falta de linealidad la relacin,
0,981,03 mientras que
1,00
en la relacin, mientras
0,98-1,03 la existencia de tendencia
que la existencia de tendencia
1,00 -0,03 en el
0,03 en el 1,001,00 mientras que la existencia de tenden
1,031,05
1,031,05
1,03-1,05 1,041,04
1,04 0,05 0,05 ordenados
0,05 1,05 1,051,05 crecientes de y (por ejemplo,
por valores i
1,051,07
1,05-1,07
1,051,07 1,061,06
1,06 0,080,08 0,08 0,900,900,90
37 37
1,07-1,10 1,09 0,05 1,04
1,10-1,12 1,11 0,21 0,99
1 nk
26 26 1,12-1,13
residuos sean comparables
1,12
1,13-1,16a distintos niveles de la variable explicativa,0,09
1,14
0,12
es preferible
1,02
1,15
r k =
n k i =1
ri
1,16-1,19 1,17 0,15 0,85
realizar el diagnstico del modelo mediante1,22
1,19 los residuos estandarizados 0,20 1,01
y la varianza
ei ei
Una simple inspeccin
ri = del diagrama= de dispersin
, entre los niveles de a-tocoferol y
1 ( xi x ) 2 s 1 hi
b-caroteno de la Figura s 1 10.11(a) evidencia una clara violacin de la hiptesis de homogeneidad 1 nk 2
n (n 1) s x2
de la varianza, ya que hay mayor variabilidad de los puntos alrededor de la recta de regresins k2 = ri
n k i =1
para valores altos del a-tocoferol que para valores bajos. Esta heterogeneidad se hace an
que se obtienen de dividiren
ms evidente los la
residuos
Figuraei por una estimacin
10.11(c), dondedesesuobserva
desviacin tpica.laEldesviacin tpica s de los
cmo k
residuos estandarizados aumenta linealmente con
trmino hi se conoce como el leverage de una observacin y es una medida
los
dedeciles
los de los
residuos valores
en cada predichos.
uno de los grupos. La presenc
Por otro lado, la Figura 10.11(b) no muestra una curvatura clara en la relacin, pero s se
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x
aprecia una cierta tendencia lineal negativa de los residuos residuos medios rk conforme aumenta
frente a los valores predichos med
el valor
que se tratar en el predicho. Esto podra
apartado siguiente. deberse
No obstante, si el atamao
que algunas observaciones
muestral es grande y con valores extremos
de a-tocoferol y b-caroteno tienen excesiva influencia en la estimacin
indicar falta de linealidad de laen
pendiente,
la relacin, mientras qu
no hay valores muy extremos de la variable explicativa (observaciones con alto
produciendo una sobreestimacin de la misma que da lugar a residuos positivos para
valores predichos bajos y residuos negativos para valores predichos altos. La identificacin
leverage), ambos residuos ei y ri se comportan de forma anloga.
de observaciones influyentes se abordar en mayor detalle en el siguiente apartado.
En determinados casos el grfico de los residuos estandarizados ri frente a los valores
1,6 0,5
predichos y i no permite apreciar claramente las posibles desviaciones de las asunciones

k r 0
de linealidad y homogeneidad de la varianza. Para obtener una representacin ms clara
1,2
-caroteno (g/g)

en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamao


-0,5nk
0,1 0,3 0,5 0,7
por valores crecientes de y i (por ejemplo, deciles) y calcular la media
ordenados 0,8
(b)
nk
1 2
0,4
rk =
nk
r
i =1
i

sk 1
y la varianza
0 0
0 100 1 nk 2
s k2 = 200 ri 300 400 0,1 0,3 0,5 0,7
n k i =1
-tocoferol (g/g) yk
(a) (c)
de los residuos en cada uno de los grupos. La presencia de curvatura en el grfico de los
Figura 10.11 Regresin lineal del -caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC (a), junto
con las medios
residuos medias rk (b) y desviaciones
frente a los valorestpicas sk (c)medios
predichos de los residuos
y k en losestandarizados por deciles de los valoresFigura
distintos grupos predichos.
10.11

indicar falta de linealidad en la relacin, mientras que la existencia de tendencia en el Pastor-Barriuso R. 181

37
El segundo procedimiento para tratar con varianzas heterogneas es encontrar una
Correlacin y regresin lineal simple

transformacin de la variable respuesta que estabilice la varianza y ajustar el modelo

lineal
En a esta variable
presencia transformada.
de heterogeneidad de La seleccinlos
la varianza, de estimadores
la transformacin adecuada
puntuales b0 y bsuele
1, as como
la propia recta de regresin estimada = b0 + b1x, continan siendo insesgados, pero la varianza
basarse
residual en lasesgada
s2 est relacinyaexistente entre la varianza
que infraestima residual
la variabilidad deylaelvariable
valor esperado
respuesta dealrededor
la de
unos puntos de la recta de regresin y la sobreestima en otros. En consecuencia, los errores
variable
estndar de respuesta. En el caso
los estimadores no sonms frecuente
correctos de que
y sus la desviacin tpica
correspondientes residual
intervalos tienda a y
de confianza
tests de hiptesis dejan de ser vlidos. En general, existen dos procedimientos alternativos para
aumentar
tratar linealmente
con varianzas con el valor
heterogneas. El predicho (tal como
primer mtodo ocurre
consiste enenrealizar
la regresin del - lineal
una regresin
ponderada, que es una extensin del modelo lineal ordinario donde cada observacin de la
caroteno
variable sobre el
respuesta -tocoferol),
recibe la heterogeneidad
un peso inversamente de la varianza
proporcional se resuelve
a su varianza utilizando
estimada la
alrededor
de la recta de regresin. As, cuanto ms precisa sea una observacin, mayor ser su peso en la
transformacin
estimacin de la rectalogartmica
de regresin.
, dadoEnque
el ejemplo anterior,
el logaritmo de la la regresin
respuesta linealentonces
tendr ponderada unadel
b-caroteno sobre el a-tocoferol otorgara ms peso a los puntos con valores bajos del a-tocoferol
quevarianza
a aquellos con valores altos,
aproximadamente ya que los
constante. Estaprimeros presentan
transformacin menor variabilidad
logartmica produce elen el nivel
de b-caroteno. Las tcnicas de regresin lineal ponderada pueden consultarse en los textos
mismo efecto
especficos en cualquier
de regresin base
citados en yeste
slo puede aplicarse a variables respuestas positivas.
tema.
El segundo procedimiento para tratar con varianzas heterogneas es encontrar una
Adems de homogeneizar la varianza, la transformacin logartmica tambin suele
transformacin de la variable respuesta que estabilice la varianza y ajustar el modelo lineal a
esta variable transformada. La seleccin de la transformacin adecuada suele basarse en la
emplearse para normalizar variables respuestas sesgadas positivamente, as como para
relacin existente entre la varianza residual y el valor esperado de la variable respuesta. En el
caso ms frecuente de que la desviacin tpica residual tienda a aumentar linealmente con el
linealizar relaciones con pendiente montonamente creciente.
valor predicho (tal como ocurre en la regresin del b-caroteno sobre el a-tocoferol), la
heterogeneidad
Para volver ade la
la el varianza
escala se resuelve
original, se tomautilizando la transformacin
la exponencial logartmica, dado que
Aun cuando uso de una respuesta logartmica est en ambos lados
plenamente de esta igualdad,
justificado en
el logaritmo de la respuesta tendr entonces una varianza aproximadamente constante. Esta
transformacin
resultando logartmica
que la media produce el mismo efecto en cualquier base y slo
comopuede
la aplicarse a
trminos estadsticos, losgeomtrica
resultados de
dellamodelo
variable respuesta
transformado (definida
han de interpretarse en la
variables respuestas positivas. Adems de homogeneizar la varianza, la transformacin
logartmica
exponencial tambin
de de suelede los
la media emplearse paravase
logaritmos; normalizar
Apartado variables respuestas
funcinquesesgadas
escala original la variable respuesta. El modelo en escala1.2.3) es una
logartmica asume el
positivamente, as como para linealizar relaciones con pendiente montonamente creciente.
exponencial
Aun
valorcuando
esperado de la
el delvariable
uso de unaexplicativa,
logaritmo respuesta logartmica
de la variable est
respuesta plenamente
Y cambia justificado
linealmente con en
la trminos
estadsticos,
Para volverlosa resultados del modelo
la escala original, transformado
se toma han de
la exponencial eninterpretarse
ambos ladosen de la escala
esta original
igualdad,
de variable
la variable respuesta. El modelo en escala logartmica asume
explicativa X, EG(Y|x) = exp{E(logY|x)} = exp(0 + 1x). que el valor esperado del
logaritmo de laque
resultando variable respuesta
la media Y cambia
geomtrica de lalinealmente con la variable
variable respuesta como la X,
(definidaexplicativa

As, el modelo E(logY|x) = 0 + 1 x.


trminos
exponencial deenla la escala
media deoriginal se interpreta
los logaritmos; vase en
Apartado de la es
1.2.3) media geomtrica de
una funcin
41
Para volver a la escala original, se toma la exponencial en ambos lados de esta igualdad, resultando
quela
lavariable
exponencial respuesta, quelavara
de la variable
media geomtrica de exponencialmente
explicativa,
variable concomo
respuesta (definida la variable explicativa.
la exponencial de laElmedia de los
logaritmos; vase Apartado 1.2.3) es una funcin exponencial de la variable explicativa,
coeficiente 1 asociado a la variable explicativa tiene entonces una interpretacin
EG(Y|x) = exp{E(logY|x)} = exp( 0 + 1 x).
As,distinta de la en
el modelo habitual ya que
la escala su exponencial
original corresponde
se interpreta en trminosa lade
razn de medias
la media geomtrica de la
As, elrespuesta,
variable modelo enquela escala original se interpreta
vara exponencialmente conenlatrminos
variable de la media geomtrica
explicativa. de 1
El coeficiente
geomtricas
asociado de Y cuando
a la variable X aumenta
explicativa una unidad,
tiene entonces una interpretacin distinta de la habitual ya que
la variable respuesta,
su exponencial corresponde quea vara exponencialmente
la razn con la de
de medias geomtricas variable explicativa.
Y cuando X aumenta Eluna unidad,
E G (Y | x + 1)
coeficiente 1 asociado a la variable
= exp{explicativa tiene
0 + 1 (x + 1) ( entonces
0 + 1 x)} una interpretacin
= exp( 1 );
E G (Y | x)
distinta de la habitual ya que su exponencial corresponde a la razn de medias
es decir, 100{exp( 1) 1} representa el cambio porcentual en la media geomtrica de Y por
cadaes incremento de una
decir, 100{exp( 1)unidad en X. Esteelcambio
- 1} representa cambiorelativo se asume
porcentual en la constante a lo largodedeYtodo
media geomtrica
geomtricas
el rango de Y cuando
de la variable X aumenta una unidad,
explicativa.
por cada incremento de una unidad en X. Este cambio relativo se asume constante a lo
E G (Y | x + 1)
182 Pastor-Barriuso R.
largo de todo el rango = exp{0 + 1(x + 1) - (0 + 1x)} = exp(1);
E G (Yde| x)la variable explicativa.
tocoferolLa
respuesta. delrazn
ejemplo
de anterior se observ unasociada
medias geomtricas aumentoalineal de la desviacin
un aumento tpica
de c unidades
Regresin lineal simple
enresidual conforme
la variable aumentaba
explicativa vieneeldada
valorpor
predicho, lo que sugiere la utilizacin de

una transformacin logartmica de la variable respuesta. La Figura 10.12(a)


Ejemplo 10.14 y G (En
x +elc)anlisis de regresin lineal del b-caroteno sobre el a-tocoferol del
= exp{b 0 + b1(x + c) - (b0 + b1x)} = exp(cb1).
ejemplo
muestraanterior
la recta se
de observ
regresin
y G ( x) unestimada
aumento lineal
entre de la desviacin
el logaritmo tpica residual
del -caroteno y el - conforme
donde el error
aumentaba el estndar de la constante
valor predicho, SE(b0) =la0,055
lo queessugiere y de la pendiente
utilizacin SE(b1)
de una transformacin
logartmica
tocoferol, de la variable respuesta. La Figura 10.12(a) muestra la recta de regresin
=As, por ejemplo,
0,00032.
estimada Aunque
entre porel cada
ajusteincremento
el logaritmo se ha
del de una
realizado
b-caroteno yeneldesviacin
escala tpica c =el87,6
logartmica,
a-tocoferol, g/gtiene
modelo en el
Glog y = 1,91 + 0,0040x,
una
nivelinterpretacin directa
de -tocoferol, en trminos
la media de lademedia
geomtrica geomtrica
-caroteno de la
aumenta unvariable
donde el error estndar de la constante es SE(b0) = 0,055 y de la pendiente SE(b1) =
0,00032. Aunque
respuesta. La razneldeajuste
100{exp(87,60,0040) 1} =se100(1,42
-medias ha realizado
geomtricas en escala
asociada
- 1) = 42%. logartmica,
a un
Este elcmodelo
aumento deporcentual
incremento unidadestiene una
en
interpretacin directa en trminos de la media geomtrica de la variable respuesta. La
razn
en
la de medias
la variable
media geomtricas
explicativa
geomtrica asociada
viene
de -caroteno a un aumento
dadapermanece
por de c unidades
constante a travsen
delatodo
variable explicativa
el rango
42
viene dada por
observado dely-tocoferol.
G ( x + c)
Como consecuencia, la tendencia resultante en la
= exp{b0 + b1 (x + c) (b0 + b1 x)} = exp(cb1 ).
y G ( x)
escala original del -caroteno es exponencial, tal como se muestra en la Figura
As, por ejemplo, por cada incremento de una desviacin tpica c = 87,6 mg/g en el nivel de
a-tocoferol,
As, la media
por ejemplo,
10.12(b). por geomtrica de b-caroteno
cada incremento aumenta un
de una desviacin 100{exp(87,6
tpica en el 1} =
0,0040)
c = 87,6 g/g
100(1,42 1) = 42%. Este incremento porcentual en la media geomtrica de b-caroteno
permanece
nivel
El 95%constante
al -tocoferol,
ICde la amedia
para la razn travs de todo
geomtrica
de medias el -caroteno
de rangoasociada
geomtricas observado
aumenta del
a un aumento de 87,6 Como
un a-tocoferol.
consecuencia, la tendencia resultante en la escala original del b-caroteno es exponencial,
tal como
g/g en else-tocoferol
muestra en-se
100{exp(87,60,0040) la Figura
1}calcula 10.12(b).
multiplicando
= 100(1,42 - 1) = 42%.primero los lmites del
Este incremento intervaloen
porcentual
El IC al 95% para la razn de medias geomtricas asociada a un aumento de 87,6 mg/g en
para
la 1 por
el media
a-tocoferoldicho
geomtrica incremento
de -caroteno
se calcula y despus
multiplicando exponenciando,
permanece
primero constante
los lmitesa travs de todopara
del intervalo el rango
1 por dicho
incremento y despus exponenciando,
del -tocoferol.
observadoexp[c{b t Como consecuencia,
SE(b )}] la tendencia
= exp{87,6(0,0040 resultante en la
1,960,00032)}
1 698;0,975 1
= (1,34; 1,50),
escala original del -caroteno es exponencial, tal como se muestra en la Figura
de donde se concluye con una confianza del 95% que la media geomtrica de b-caroteno
10.12(b).
aumenta entre un 34 y un 50% por cada incremento de 87,6 mg/g en el nivel de a-tocoferol.
de
Estedonde
cambiose concluye
relativo es conmuyunasignificativo
confianza deldado 95%que queellacontraste
media geomtrica
bilateral dedela-hiptesis
El ICHal0:95%
nula 1 = para la raznelde
0 mediante medias geomtricas asociada a un aumento de 87,6
estadstico
caroteno aumenta entre un 34 y un 50% por cada incremento de 87,6 g/g en el
g/g en el -tocoferol se calcula bmultiplicando
0,0040 primero los lmites del intervalo
t= 1
= = 12,44
nivel de -tocoferol. Este cambio SE (brelativo
1) 0,00032
es muy significativo dado que el
arroja1un
para por dicho
valor P =incremento y despus
2P(t698 12,44) 2{1 exponenciando,
F(12,44)} < 0,001.
contraste bilateral de la hiptesis nula H0: 1 = 0 mediante el estadstico
arroja un
Como valor
caba P = 2P(t
esperar, la 698 12,44)dehomogeneidad
hiptesis 2{1 - (12,44)}de<la0,001. varianza se hace mucho ms
exp[c{b
plausible utilizando1 t
la698;0,975 SE(b )}]
escala logartmica
1 = (paneles a y c dela1,960,00032)}
exp{87,6(0,0040 Figura 10.13). Sin embargo,
Como caba esperar, la hiptesis de homogeneidad de
la curvatura de los residuos de la Figura 10.13(b) sugiere que el efecto la varianza se hace
del mucho
a-tocoferol no
= (1,34; 1,50),
es lineal en el logaritmo del b-caroteno o, dicho de forma equivalente, la 43 relacin
ms plausible utilizando la escala logartmica (paneles a y c de la Figura
subyacente entre el a-tocoferol y el b-caroteno no parece responder fielmente a un modelo 10.13).
exponencial.
de As, la con
donde se concluye transformacin
una confianza logartmica
del 95% que delalamedia
variable respuesta
geomtrica de -elimina la
Sin embargo, la curvatura de los residuos de la Figura 10.13(b) sugiere
heterogeneidad de la varianza pero introduce una desviacin de la asuncin de linealidad. que el
Como veremos
caroteno aumenta msentreadelante, yeste
unes34lineal
un en problema
50% por cadapodra paliarsedetransformando
incremento 87,6 g/g de
en eltambin la
efecto del -tocoferol no el logaritmo del -caroteno o, dicho
variable explicativa para restaurar la linealidad en la relacin. Alternativamente, se podra
haber ajustado un modelo de regresin lineal ponderado entre el a-tocoferol y el
nivel -tocoferol.laEste
formadeequivalente, cambio
relacin relativo es
subyacente muy
entre el significativo
-tocoferol ydado que el no
el -caroteno
b-caroteno, que permite trabajar directamente con varianzas heterogneas sin necesidad
de transformar los datos ni modificar la estructura lineal del modelo.
contraste bilateralfielmente
parece responder de la hiptesis
a un modelo : 1 = 0 mediante
nula H0exponencial. As, el
la estadstico
transformacin

logartmica de la variable respuesta elimina la heterogeneidad de la varianza pero


Pastor-Barriuso R. 183

introduce una desviacin de la asuncin de linealidad. Como veremos ms 43


residuos sean comparables
Correlacin a lineal
y regresin distintos
simpleniveles de la variable explicativa, es preferible

realizar el diagnstico del modelo mediante los residuos estandarizados

0,5 ei ei 1,6
0 ri = = ,
1 ( xi x ) 2 s 1 hi

-caroteno (g/g)
s 1 1,2
log(-caroteno)

n (n 1) s x2
-1
0,8
que se obtienen de dividir los residuos ei por una estimacin de su desviacin tpica. El
-2 0,4
trmino hi se conoce como el leverage de una observacin y es una medida
-3 0
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x
0 100 200 300 400 0 100 200 300 400
que se tratar en el apartado siguiente. No obstante,
-tocoferol (g/g) si el tamao muestral es grande y-tocoferol (g/g)

no hay valores muy extremos de la variable (a)explicativa (observaciones con alto (b)
Figura 10.12 Recta de regresin del logaritmo del -caroteno sobre el -tocoferol en el grupo control del
leverage),estudio
ambos EURAMIC ri se
residuos ei y(a) comportanexponencial
y tendencia de forma anloga.
resultante en la escala original del -caroteno (b).

En determinados casos el grfico de los residuos estandarizados ri frente a los valores


Figura 10.12
0,5
predichos y i no permite
3 apreciar claramente las posibles desviaciones de las asunciones

2
de linealidad y homogeneidad rk clara
de la varianza. Para obtener una representacin ms 0

en tales circunstancias,
1 es aconsejable dividir los n residuos ri en K grupos de tamao nk
-0,5
-2 -1,5 -1 -0,5
ordenados por
ri valores
0 crecientes de y i (por ejemplo, deciles) y calcular la media
(b)
-1 nk 1,5
1
rk =
nk
r
i =1
i
-2 sk 1

y la varianza -3
0,5
-2 -1,5 -1 nk -0,5 0 0,5 -2 -1,5 -1 -0,5
1
s k2 =
nk
yrii2
i =1
yk
(a) (c)
de los residuos
Figuraen10.13
cada uno de los
Grfico degrupos. La presencia
los residuos de curvatura
estandarizados en aellos
ri frente grfico depredichos
valores los i de la regresin lineal
del logaritmo del -caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC (a), junto Figuracon
10.13las
medias rk (b)
residuos medios frente a los valorestpicas
y desviaciones predichos
sk (c)medios y k en los
de los residuos distintos grupos
estandarizados por deciles de los valores predichos.

indicar falta de linealidad


10.3.6 en la relacin,
Observaciones mientras
atpicas que la existencia de tendencia en el
e influyentes

En el diagnstico de un modelo de regresin lineal, tan importante como


37 evaluar las asunciones
de linealidad y homogeneidad de la varianza es examinar la contribucin o influencia de cada
observacin en el modelo estimado. En general, es deseable que el modelo estimado responda
al patrn global de los datos; esto es, las estimaciones de los parmetros del modelo deben
basarse en el conjunto de todas las observaciones y no nicamente en un reducido nmero de
observaciones muy influyentes. De esta forma, se tendr un mayor grado de confianza a la hora
de inferir los resultados del modelo a toda la poblacin.
La forma ms natural de medir la influencia de una observacin en un modelo de regresin
lineal simple es comparar las estimaciones de la constante y la pendiente obtenidas en la muestra

184 Pastor-Barriuso R.
obtenidas en la muestra completa con sus correspondientes estimaciones tras excluir
Regresin lineal simple
dicha observacin. Una medida estandarizada del cambio global que se produce en las

estimaciones b0 y b1 al eliminar la i-sima observacin es la distancia de Cook Di, que


completa con sus correspondientes estimaciones tras excluir dicha observacin. Una medida
en su formadel
estandarizada ms simpleglobal
cambio puedeque
expresarse como
se produce en las estimaciones b0 y b1 al eliminar la i-sima
observacin es la distancia de Cook Di, que en su forma ms simple puede expresarse como
ri 2 hi
Di = .
2(1 hi )
De esta frmula se desprende que la influencia de una observacin en las estimaciones b0 y b1
depende
De estatanto de su se
frmula residuo estandarizado
desprende ri como de
que la influencia desuunaleverage hi. Losen
observacin residuos estandarizados
las estimaciones
ri determinan la desviacin del valor observado de la variable respuesta respecto al valor
b0 y b1 por
predicho la recta
depende tantodederegresin,
su residuodeestandarizado
tal forma que ri como
valores altos
de su de ri heni. Los
leverage valor absoluto
corresponden a observaciones pobremente ajustadas, que se conocen como observaciones
atpicas o outliers.
residuos estandarizados ri determinan
Estos outliers provocan una disminucin
la desviacin de la
del valor calidad global
observado del ajuste, lo
de la variable
que redunda en un aumento de la varianza residual s2 y del error estndar de las estimaciones b0
y brespuesta
1. Sin embargo, los al
respecto outliers no son necesariamente
valor predicho por la recta deinfluyentes
regresin, deen tal
las forma
estimaciones puntuales
que valores
b0 y b1, ya que su influencia tambin depende del leverage. El leverage hi de una observacin
es una de ri enestandarizada
altosmedida valor absoluto decorresponden a observaciones
la distancia entre el valor de lapobremente ajustadas,y que
variable explicativa se
su media,
que se define como 1 ( xi x ) 2

conocen como observaciones atpicas hi =o outliers


+ . Estos outliers provocan una
1n ( x(ni x1)s2 x2
hi = +
disminucin de la calidad global del ajuste, n lo (nque 2
1) sredunda
x en un aumento de la
y tomay toma valores
valores entreentre
1/n1/n
y y1 1con
conuna media de h = 2/n.
una media 2/n. AAdiferencia
diferenciadedeloslos outliers queque
outliers
varianza residual s2 y del error estndar de las estimaciones b0 y b1. Sin embargo, los
corresponden a observaciones
y toma valores entre 1/n y 1con convalores
una mediaatpicos
de h de= la variable
2/n. respuesta,
A diferencia de loslasoutliers
observaciones
que
corresponden a observaciones con valores atpicos de la variable respuesta,
con alto leverage son aquellas con valores extremos de la variable explicativa. El leverage juega las
outliers no son necesariamente influyentes en las estimaciones puntuales b0 y b1, ya que
un corresponden
papel determinante en la distincin
a observaciones entreatpicos
con valores outliersdey laobservaciones influyentes.
variable respuesta, las As, por
observaciones con alto leverage son aquellas con valores extremos de la
ejemplo, el punto A de la Figura 10.14(a) es un outlier extremo (residuo muy elevado) que tiene variable
su influencia tambin depende del leverage. El leverage hi de una observacin es una
poca influencia encon
observaciones la recta
alto de regresin
leverage sonestimada
aquellas ya
conque sta no
valores vara sensiblemente
extremos de la variabletras excluir
explicativa. El leverage juega un papel determinante en
dicho punto. Esto se debe a que la observacin A presenta un valor centradola distincin entre outliers y
de la variable
medida estandarizada de la distancia entre el valor de la variable explicativa y su media,
explicativa (leverage
explicativa. muy bajo)
El leverage juegaque
un mitiga en gran medida
papel determinante en su
la influencia
distincin sobre las estimaciones
entre outliers y
observaciones influyentes. As, por ejemplo, el punto A de la Figura 10.14(a)
b0 y b1 (distancia de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es es un
que se define como
un outlier tan marcado
observaciones pero tiene
influyentes. una
As, porinfluencia
ejemplo,mucho mayor
el punto A de en la la recta10.14(a)
Figura de regresin
es unestimada,
outlier extremo (residuo muy elevado) que tiene poca influencia en la
particularmente en la pendiente b1, debido a que este punto presenta un valor muy extremo de recta de regresin
la variable explicativa.
outlier extremo (residuo muy elevado) que tiene poca influencia en la recta de regresin
estimada ya que sta no vara sensiblemente tras excluir dicho punto. Esto se debe a que
estimada ya que staAno vara sensiblemente tras excluir dicho punto. Esto se debe aB que 45
la observacin A presenta un valor centrado de la variable explicativa (leverage muy
la observacin A presenta un valor centrado de la variable explicativa (leverage muy
bajo) que mitiga en gran medida su influencia sobre las estimaciones b0 y b1 (distancia
bajo)
y
que mitiga en gran medida su influencia sobre las estimaciones b0 y b1 (distancia
de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es un outlier
de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es un outlier
tan marcado pero tiene una influencia mucho mayor en la recta de regresin estimada,
tan marcado pero tiene una influencia mucho mayor en la recta de regresin estimada,
particularmente en la pendiente b1, debido a que este punto presenta un valor muy
particularmente en la pendiente b1, debido a que este punto presenta un valor muy
extremo de la variable explicativa.
x x
extremo de la variable explicativa.
(a) (b)

[Figura 10.14
Figura 10.14 Rectas de regresin resultantes aproximadamente
de incluir aqu] (lnea fina) los puntos A y B
(lnea gruesa) y excluir
del ajuste del modelo lineal. [Figura 10.14 aproximadamente aqu]

Una observacin ser tanto ms influyente en las estimaciones b0 y b1 de la recta de


Figura 10.14
Pastor-Barriuso R. 185
Una observacin ser tanto ms influyente en las estimaciones b0 y b1 de la recta de
regresin cuanto mayor sea su distancia de Cook Di. En general, se recomienda
regresin cuanto mayor sea su distancia de Cook Di. En general, se recomienda
Correlacin y regresin lineal simple

Una observacin ser tanto ms influyente en las estimaciones b0 y b1 de la recta de regresin


cuanto mayor sea su distancia de Cook Di. En general, se recomienda examinar detenidamente
aquellas observaciones con una distancia de Cook superior a 4/(n 2), que corresponde, por
ejemplo, a un punto con un leverage medio hi = 2/n y un residuo estandarizado alto ri = 2. No
obstante, la seleccin de un valor crtico para Di es un tanto arbitraria y es preferible evaluar la
influencia relativa de cada observacin en comparacin con las restantes observaciones. Un
grfico til es el diagrama de dispersin de los residuos estandarizados ri frente a los leverages
hi, donde cada observacin se representa mediante un crculo de rea proporcional a su distancia
de Cook Di. En este grfico, el tamao de los crculos identificar claramente las observaciones
ms influyentes, mientras que la posicin permitir discernir la contribucin de los residuos y
leverages a la influencia de dichas observaciones.
1 ( xi x ) 2
Ejemplo 10.15 La Figura 10.15 muestra los residuos h i = + ri frente a los
n (estandarizados
n 1) s x2
leverages hi de la regresin lineal del colesterol HDL sobre el ndice de masa corporal,
donde se incluyen lneas de referencia horizontales en ri = 2, 0 y 2 y verticales en el
doble hi = 0,0075
y toma triple hentre
y elvalores i = 0,0113
1/n y 1del
conleverage
una mediamedio de h == 2/533
2/n. A=diferencia
0,0038. Elderea
los outliers que
de los crculos es proporcional a la distancia de Cook Di e indica la influencia relativa de
cada observacin. Por supuesto,
corresponden la influencia
a observaciones conde las observaciones
valores atpicos de la aumenta conforme las
variable respuesta,
aumentan sus residuos estandarizados en valor absoluto (direccin vertical del grfico) y
sus leveragesobservaciones
(direccin horizontal). Sin embargo,
con alto leverage son aquellas noconse valores
aprecian observaciones
extremos de la variable
marcadamente influyentes que pudieran conducir los resultados globales del modelo. La
observacin ms influyente
explicativa. ElDleverage
i = 0,043juega
se presenta
un papelen determinante
el cuadrante superior izquierdaentre
en la distincin de laoutliers y
Figura 10.15, que corresponde a un outlier con un residuo muy alto ri = 4,28 y un leverage
moderado hi =observaciones
0,0047. Las estimaciones
influyentes.deAs,
la constante y la pendiente
por ejemplo, el punto de la recta
A de de regresin
la Figura 10.14(a) es un
excluyendo este outlier son b0(i) = 1,71 y b1(i) = 0,024 que, comparadas con las estimaciones
(error estndar) b0 = 1,69
outlier extremo(0,092) y b1 =muy
(residuo 0,023 (0,0035)
elevado) queobtenidas
tiene pocaeninfluencia
la muestraencompleta
la recta de regresin
(Ejemplo 10.9), suponen un cambio estandarizado de (b0(i) b0)/SE(b0) = (1,71 1,69)/0,092
= 0,20 en la constante
estimaday ya b1sta
(b1(i)que )/SE(b
no1)vara
= (0,024 + 0,023)/0,0035
sensiblemente = 0,23
tras excluir en la
dicho pendiente.
punto. Esto se debe a que
As, a pesar de que este outlier est muy mal ajustado, no afecta substancialmente a la recta
de regresin estimada.
la observacin A presenta un valor centrado de la variable explicativa (leverage muy

Ejemplo 10.16 bajo)Enque


la Figura
mitiga10.16 se representan
en gran los residuossobre
medida su influencia estandarizados ri frenteba0 ylosb1 (distancia
las estimaciones
leverages hi de la regresin lineal del logaritmo del b-caroteno sobre el a-tocoferol. En una
primera inspeccin
de Cook visual se distinguen
moderada). al menos el3punto
Por el contrario, observaciones con una
B de la Figura influencia
10.14(b) no es un outlier
sensiblemente mayor que las dems, que corresponden a los crculos de mayor tamao situados
a la derecha deltan
grfico. Los valores
marcado observados,
pero tiene predichos
una influencia y las medidas
mucho mayor endiagnsticas
la recta deasociadas
regresin estimada,
a dichas observaciones se presentan en la Tabla 10.5. A diferencia del ejemplo anterior, donde
la observacinparticularmente
ms influyenteen corresponda
la pendientea bun outlier, aestas
1, debido 3 observaciones
que este punto presenta presentan
un valor muy
leverages muy altos hi = 0,044, 0,038 y 0,022 debidos a valores muy elevados del a-tocoferol,
y slo una de ellas est pobremente
extremo de la variableajustada con ri = 3,11. Para evaluar la influencia conjunta
explicativa.
de dichas observaciones en la recta de regresin estimada, se calcularon los coeficientes del
modelo excluyendo simultneamente las 3 observaciones, que resultaron ser b0(i) = 1,93 y b1(i) =
0,0042. En comparacin con las estimaciones [Figura
(error10.14 aproximadamente
estndar) aqu]
b0 = 1,91 (0,055) y b1 = 0,0040
(0,00032) obtenidas en la muestra completa (Ejemplo 10.14), la eliminacin de estas 3
observaciones provoca un cambio estandarizado en la constante de (1,93 + 1,91)/0,055 =
Una observacin
0,36 y en la pendiente de (0,0042 ser tanto ms influyente
0,0040)/0,00032 = 0,50. Estoen las la exclusin deb0dichas
es, estimaciones y b1 de la recta de
observaciones conlleva una disminucin en la constante de aproximadamente un tercio de su
error estndar regresin cuanto
y un aumento en lamayor sea su
pendiente dedistancia
la mitad delde error Di. En general,
Cookestndar. se recomienda
As, aunque estas 3
observaciones no son extremadamente influyentes por s mismas, el modelo s parece ser
examinardedetenidamente
sensible a la presencia observaciones con aquellas observaciones
alto leverage (Figura con una distancia de Cook superior a
10.16).

186 Pastor-Barriuso R.
4/(n - 2), que corresponde, por ejemplo, a un punto con un leverage medio hi = 2/n y un

residuo estandarizado alto ri = 2. No obstante, la seleccin de un valor crtico para Di


Regresin lineal simple

ri
0

-2

-3

0,002 0,005 0,01 0,02 0,03


hi
1 ( xi x ) 2 1 ( xi x ) 2
Figura 10.15 Grfico dehlos i = +
residuos hi = +
) s x2 n (n 1) srx2i frente a los leverages hi de la regresin
n (n 1estandarizados lineal del
Figura 10.15
colesterol HDL sobre el ndice de masa corporal en el grupo control del estudio EURAMIC. El rea de los
crculos es proporcional a la distancia de Cook Di. Las lneas de referencia horizontales corresponden a
y tomarivalores
= 2, 0entre
yytoma
2,1/n
y valores
las
y 1verticales
conentre
una 1/n a yh1i =
media de2h una
con == 0,0075
2/n. y 3h == 0,0113.
A diferencia
media de de A
2/n. El eje horizontal
losdiferencia
outliers que estque
de los outliers en escala logartmica
para mejorar la representacin grfica.
corresponden a corresponden
observacionesacon valores atpicos
observaciones de la variable
con valores atpicosrespuesta, las respuesta, las
de la variable

observaciones con alto


3 leverage
observaciones sonalto
con aquellas conson
leverage valores extremos
aquellas de la variable
con valores extremos de la variable

explicativa. El leverage juega


explicativa. Elun papel determinante
leverage endeterminante
juega un papel la distincin en
entre outliers y entre outliers y
la distincin
2
observaciones influyentes. As,influyentes.
observaciones por ejemplo, el punto
As, A de laelFigura
por ejemplo, A de la Figura
punto10.14(a) es un 10.14(a) es un

outlier extremo outlier


(residuo muy elevado)
extremo (residuoque
muytiene poca influencia
elevado) en la influencia
que tiene poca recta de regresin
en la recta de regresin
1
estimada ya queestimada
sta no vara sensiblemente
ya que sta no varatras excluir dicho
sensiblemente punto.
tras Esto
excluir se debe
dicho a que
punto. Esto se debe a que

la observacinrAilapresenta
0 A presenta
un valor
observacin centrado
unde la variable
valor centradoexplicativa (leverage
de la variable muy (leverage muy
explicativa

bajo) que mitigabajo)


en gran
quemedida su gran
mitiga en influencia
medidasobre las estimaciones
su influencia sobre las y b1 (distanciab0 y b1 (distancia
b0 estimaciones
-1
de Cook moderada). Por moderada).
de Cook el contrario,Por
el punto B de laelFigura
el contrario, B de la Figura
punto10.14(b) no es un outlier no es un outlier
10.14(b)

tan marcado pero


tantiene
-2 una influencia
marcado pero tienemucho mayor enmucho
una influencia la recta de regresin
mayor estimada,
en la recta de regresin estimada,

particularmenteparticularmente b1, la
en la pendiente en debido a quebeste
pendiente puntoapresenta
1, debido que este un valor
punto muy un valor muy
presenta
-3
extremo de la variable
extremoexplicativa.
de la variable explicativa.

0,0015 0,003 10.14 0,005


[Figura 10.14 aproximadamente
[Figura aqu]
aproximadamente0,01
aqu] 0,02 0,04
hi
1 ( xi x ) 2 1 ( xi x ) 2
h = + h = +
UnaFigura 10.16
observacin i
Una Grfico
ser tanto de
1) slos
nobservacin
(n ms
i2
x nresiduos
influyente
ser tanto )estandarizados
1en
(n ms 2 influyente
s las
x
enrlas
estimaciones ib frente a los
y b1 de leverages
b0 de
la recta
0 estimaciones hi laderecta
y b1 de la regresin
de lineal del lo-
Figura 10.16
garitmo del -caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC. El rea de los crculos
es proporcional
regresin mayor asea
cuantoregresin la su
distancia
cuanto mayorde
distancia deCook
sea Cook DDi.i.Las
su distancia En delneas
Cookde
general, Dreferencia
se i.recomienda
En general, horizontales
se recomiendacorresponden a ri = 2, 0 y 2,
ma valores yentre yvalores
toma1/n las
y 1 verticales
con una1/n
entre ayh1i =
media de2huna
con == 0,0057
2/n.
media y 3h == 0,0086.
A diferencia
de deAlos
2/n. El eje horizontal
outliers
diferencia que est en
de los outliers queescala logartmica.
examinar detenidamente
examinar aquellas observaciones
detenidamente aquellascon una distancia
observaciones condeunaCook superior
distancia deaCook superior a
esponden acorresponden
observacionesa con valores atpicos
observaciones de la variable
con valores atpicosrespuesta, las respuesta, las
de la variable
Pastor-Barriuso R. 187
4/(n - 2), que corresponde,
4/(n - 2), que porcorresponde,
ejemplo, a un porpunto
ejemplo, con un
a unleverage
punto conmedio hi = 2/n ymedio
un leverage un hi = 2/n y un
ervaciones con alto leverage
observaciones conson
altoaquellas
leverage con
sonvalores
aquellas extremos de la extremos
con valores variable de la variable
residuo estandarizado
residuoalto ri = 2. No alto
estandarizado ri = 2.
obstante, la seleccin
No obstante, de un valor crtico
la seleccin para
de un Di crtico para Di
valor
licativa. El leverage juega
explicativa. El un papel juega
leverage determinante
un papelendeterminante
la distincinen entre outliers y entre outliers y
la distincin
deben limitarse exclusivamente al rango de valores observados en el resto de la muestra.

No obstante, el tratamiento de observaciones influyentes no pasa necesariamente por su


Correlacin y regresin lineal simple

exclusin del ajuste del modelo. Un procedimiento alternativo de uso generalizado

consiste10.5
Tabla en encontrar una transformacin
Observaciones de la variable
ms influyentes en la explicativa
regresin olineal
respuesta
del que
logaritmo del
-caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC.
permita reducir la influencia de dichas observaciones. Por un lado, las transformaciones
Valores observados Valor predicho Medidas diagnsticas Estimaciones*

de laxvariable yi
afectani al residuo estandarizado
ri hi
pero no alDleverage deb0una b1(i)
(i)
i
respuesta i

626,8 1,74 0,60 1,57 0,044 0,057 1,90 0,0039


586,6 0,87
observacin, por lo que slo 0,44
son 1,79
potencialmente tiles0,038
para 0,062
atenuar la 1,92 de
influencia 0,0041
475,1 2,30 0,01 3,11 0,022 0,107 1,93 0,0041
outliers.
* Por eldecontrario,
Estimaciones la constantelas
y latransformaciones
pendiente de la rectade
de la variable
regresin trasexplicativa influyencorrespondiente.
excluir la observacin tanto
Las estimaciones (y su error estndar) en la muestra completa de 700 controles fueron b0 = 1,91 (0,055)
b1 =residuos
enylos 0,0040 (0,00032).
como en los leverages, de tal forma que estas transformaciones tambin
En ocasiones
pueden utilizarseresulta lcito la
para mitigar eliminar
influencialas observaciones
de observaciones marcadamente
extremas en influyentes,
la variable bien por
tratarse de valores atpicos de la variable respuesta o bien por presentar valores extremos de la
variable explicativa. En tal caso, las inferencias derivadas del modelo deben limitarse
explicativa.
exclusivamente al rango de valores observados en el resto de la muestra. No obstante, el tratamiento
de observaciones influyentes no pasa necesariamente por su exclusin del ajuste del modelo. Un
con errores
procedimiento estndar de SE(b 0) = 0,19 y SE(b1) = 0,039. Al exponenciar ambos lados
Ejemplo alternativo
10.17 Con objeto uso degeneralizado consiste en
reducir la influencia deencontrar una transformacin
las observaciones con de la
variable explicativa o respuesta que permita reducir la influencia de dichas observaciones. Por un
de la igualdad, se tiene que la media geomtrica de la variable respuesta es una
lado, las transformaciones
valores muy elevadosdedel la -tocoferol
variable respuesta afectan en
(alto leverage) al residuo
el modeloestandarizado
de regresinpero no al
leverage de una observacin, por lo que slo son potencialmente tiles para atenuar la influencia
funcin potencial de la variable explicativa (panel b de la Figura 10.17),
de outliers. Por el contrario, las transformaciones de la variable explicativa influyen tanto en los
lineal del logaritmo del -caroteno sobre el -tocoferol, se podra aplicar a su vez
residuos como en los leverages, de tal forma que estas transformaciones tambin pueden utilizarse
para mitigar la influencia dey Gobservaciones
= exp(-3,76 +extremas
0,51 logenx)la=variable0,023x0,51 explicativa.
.
una transformacin logartmica a la variable explicativa. En la Figura 10.17(a) se
con errores estndar SE(b0) = 0,19 y SE(b1) = 0,039. Al exponenciar ambos lados
Ejemplo 10.17 Con objeto de reducir la influencia de las observaciones con valores
muestra
Este
muy
de la recta
la modelo
elevados
igualdad, sede
tiene
del regresin
entonces
a-tocoferol
tiene que launaestimada
(alto
media entreen
interpretacin
leverage)
geomtrica el simple
logaritmo
el la en
modelo
de la
de
variable -caroteno
delescala original
regresin
respuesta yesel
lineal de
del logaritmo
una
del b-caroteno sobre el a-tocoferol, se podra aplicar a su vez una transformacin
logaritmo
ambas
logartmica
funcin a la-tocoferol,
del
variables
potencial yadeque,
variable al aumentar
explicativa.
la variable c veces
En
explicativa la variable
la Figura
(panel 10.17(a)
b de la explicativa,
se muestra
Figura lalarazn
10.17), recta de regresin
estimada
con entre
errores el logaritmo
estndar SE(b0) = del0,19 y SE(b1)y=el0,039.
b-caroteno logaritmo del a-tocoferol,
Al exponenciar ambos lados
medias geomtricas es constante e igual a
y G que log y G = +3,76
= exp(-3,76 0,51+log 0,51 x)delog
= la x, 0,51.
0,023x
de la igualdad, se tiene la media geomtrica variable respuesta es una
con errores estndar SE(b0) = 0,19 y SE(b1) =0,51 0,039. Al exponenciar ambos lados de la
y G (cx) 0,023(cx) 0,51
igualdad,
funcin
Este se tiene
tieneque
potencial
modelo de la variable
la media
entonces una geomtrica
explicativa
=
interpretacinde(panel
la variable=b cde respuesta
; Figura es
la una funcin potencial
10.17),
0 , 51simple en la escala original de
y ( x ) 0 , 023 x 49
de la variable explicativa (panel G b de la Figura 10.17),
ambas variables ya que, y G =alexp( 3,76 +c veces
aumentar la variable
0,51 log x) = 0,023x explicativa,
0,51
. la razn de
es decir, a incrementos relativos en la variable explicativa les corresponde un
Este modelo
medias tiene entonces
geomtricas es constanteunaeinterpretacin
igual a simple en la escala original de ambas
variables
Este
mismomodeloya que,
cambio tienealentonces
aumentar
relativo cvariable
en launa veces larespuesta.
variable explicativa,
interpretacin simple en lalaescala
Por ejemplo, razn de medias
original
incrementos degeomtricas
del
es constante e igual a
ambas variables ya que, al yaumentar
G (cx) 0c,023
veces ) 0,51
(cxla variable
0,51 explicativa, la razn de
50% (c = 1,50) en el nivel de -tocoferol = se asocian = ccon ;un aumento del
y G ( x) 0,023x 0 , 51

medias
es decir,geomtricas
100(1,50 0,51 esrelativos
constante
- 1) = 100(1,23
a incrementos - 1)en=ela
igual
23% a la explicativa
en
variable media geomtrica de -caroteno.
les corresponde El cambio
un mismo
relativo
es decir,en la variable respuesta.
a incrementos relativosPor en ejemplo, incrementos
la variable explicativadel les50% (c = 1,50)un
corresponde en el nivel de
IC al 95% para
a-tocoferol la razn
se asocian condeunmedias
aumento geomtricas
del
y G (cx) 0,023(cx) 100(1,50 viene
0 , 51 0,51 dado por
1)
0,51
= 100(1,23 1) = 23% en la media
geomtrica de b-caroteno.
relativo enElla = = c ;
mismo cambio yIC ( xal) 95%0respuesta.
variable
G
para
,023xla0,razn
51 Porde medias geomtricas
ejemplo, incrementosviene
del dado por
b t SE ( b )
c 1 698; 0 , 975 1 = 1,500,511,960, 039 = (1,19; 1,27),
50% (c = 1,50) en el nivel de -tocoferol se asocian con un aumento del
de decir,
es dondeaseincrementos
concluye con una confianza
relativos del 95%
en la variable que la media
explicativa geomtrica un
les corresponde de b-caroteno
aumenta
de donde entre
100(1,50 0,51
- 1)un=19
se concluye ycon
un 27%
100(1,23 una- 1) por cadaen
confianza
= 23% incremento
della95%media quedel
la 50%
media
geomtrica engeomtrica
el -caroteno.
de nivel de de
a-tocoferol.
-
El
mismo cambio relativo en la variable respuesta. Por ejemplo, incrementos del
188 caroteno
IC al 95%
Pastor-Barriuso R. aumenta entre un
para la razn de 19 y un geomtricas
medias 27% por cada incremento
viene dado pordel 50% en el nivel
50% (c = 1,50) en el nivel de -tocoferol se asocian con un aumento del
de -tocoferol. b t SE ( b ) 511, 96 0 , 039
100(1,500,51 - 1) = 100(1,23 ,500,en
c 1 698; 0 , 975 - 1)1 == 123% la media = (1,19; 1,27),de -caroteno. El
geomtrica
Regresin lineal simple

La utilizacin de una transformacin logartmica para el a-tocoferol ha producido un


doble efecto beneficioso en el ajuste del modelo. Por un lado, aunque persisten las
observaciones con alto leverage (debidas, en este caso, a valores muy bajos del a-tocoferol),
su influencia es ahora sensiblemente menor, como indica el tamao de los crculos de la
Figura 10.18(a). Por otro lado, la relacin subyacente entre el a-tocoferol y el b-caroteno
parece responder mejor al modelo potencial de la Figura 10.17(b), obtenido mediante
transformaciones logartmicas de ambas variables, que al modelo exponencial de la
Figura 10.12(b), resultante de transformar nicamente el b-caroteno. Esta apreciacin se
fundamenta en que la curvatura de los residuos de la regresin lineal del logaritmo del
b-caroteno sobre el a-tocoferol (panel b de la Figura 10.13) desapareceresiduosalsean
transformar
comparables a distintos nive
tambin el a-tocoferol (panel b de la Figura 10.18).
realizar el diagnstico del modelo mediant

0,5 1,6
ei
0 ri =
1 (x

-caroteno (g/g)
1,2
log(-caroteno)

s 1
n (n
-1
0,8
que se obtienen de dividir los residuos ei p
-2 0,4
trmino hi se conoce como el leverage de
-3 0
estandarizada de la distancia entre cada va
2,5 3 4 5 6 0 100 200 300 400
log(-tocoferol) que(g/g)
-tocoferol se tratar en el apartado siguiente. No
(a) (b)
no hay valores muy extremos de la variabl
Figura 10.17 Recta de regresin del logaritmo del -caroteno sobre el logaritmo del -tocoferol en el grupo
control del estudio EURAMIC (a) y tendencia potencial resultante en la escala originalleverage),
de ambasambos (b). ei y ri se compo
residuos
variables

En determinados casos el grfico de los


0,5 Figura 10.17
3 predichos y i no permite apreciar claramen

2 rk 0 de linealidad y homogeneidad de la varian

1 -0,5
en tales circunstancias, es aconsejable divi

ri -2 ordenados
-1,5 -1 valores
por -0,5 crecientes de y (po
0 i
(b)
-1 1,5
rk =
-2 sk 1

-3 y la varianza
0,5
0,0015 0,003 0,005 0,01 0,02 0,04 -2 -1,5 -1 -0,5
s k2 =
hi yk
(a) ( c)
Figura 10.18 Grfico de los residuos estandarizados ri frente a los leverages hi dedelalos residuos lineal
regresin en cada deluno de los grupos.
logaritmo del -caroteno sobre el logaritmo del -tocoferol en el grupo control del estudio EURAMIC (a),
Figura 10.18
donde el rea de los crculos es proporcional a la distancia de Cook Di, y grficoresiduos
de las medias
medios rk (b) y a los valores pre
frente
desviaciones tpicas sk (c) de los residuos estandarizados por deciles de los valores predichos.
indicar falta de linealidad en la relacin,
Pastor-Barriuso R. 189
Correlacin y regresin lineal simple

en los restantes n2 = n - n1 sujetos del segundo grupo. Bajo esta codificacin, la


10.3.7 Variable explicativa dicotmica
interpretacin
en los restantesdel n2 modelo
= n - n1 de regresin
sujetos del segundolineal degrupo. la variable
Bajo esta respuesta Y sobre la
codificacin, la variable
Hasta el momento se han considerado nicamente modelos de regresin lineal con variables
explicativas
indicadora
interpretacin continuas.
X esdel modeloNo obstante,
particularmente de regresin las variables
sencilla, dadode
lineal explicativas
que la estimacin
la variable pueden
respuesta deser laYtanto
pendiente
sobre continuas
se como
la variable
categricas ya que la regresin lineal no establece ninguna asuncin respecto a su distribucin.
En reduce este apartado
indicadora a X esseparticularmente
revisa el ajuste sencilla, e interpretacin dado que delamodelos
estimacin de regresin
de la pendiente lineal simple
se con
una nica variable explicativa dicotmica, que clasifica a los sujetos en dos grupos o categoras
segn en la presencia
los
reduce restantes
a no2n =ausencia
n - n1 sujetos de unadel determinada
segundo grupo. caracterstica. El tratamientolade variables
Bajo esta codificacin,
nesgo
el riesgo
de desarrollar explicativas
de desarrollar un primer politmicas
un primerinfarto (
infartox
agudoi
con
x tres
)(
agudo y
de miocardioo y ms
)
i de miocardio
categoras
n
en n1 en se abordar
n
en el Tema 11 ya que estas
variables requieren nde mltiples variables indicadoras para = las estadistintas y ) =categoras.
Yysobre
interpretacin
en los restantes b1 =del i modelo de regresin
n2 = nn - n1 sujetos del
= 1 lineal
= segundo
n n
de y ilavariable
( grupo. y )Bajo
n
respuesta
( y1 codificacin, 1 y 2 la
la variable
ss.valores
Los valoresobtenidos obtenidos
Las fueron
indicadora
fueron
variables
X es

0,89, explicativas
0,89,
1,58, 1,58,
(0,79,
x i (x ix0,79,
particularmente
1,29,
)( 1,29,
yx i) 1,42,
dicotmicas
2
y ) 1,42,
sencilla,
0,84, 0,84,
1se2 introducen
n dado
i =
n1
1
que la
en los
n
estimacin
2 modelos de regresin mediante
deuna laYpendiente se
unainterpretacin
nica variable b1 =del modelo
indicadora
i = 1 i =1 deX,regresin
que toma = lineal
distintos de
( y ilavalores
variable
y ) = xi en respuesta
( ycada sobre
de
1 y ) = y1 y 2
la variable
las dos categoras
653y mmol/l.
1,53 mmol/l. La media La media
de los deniveles
los
de la variable. Aunque la (eleccinniveles
del n
colesterol
del colesterolHDL HDL
enn n en n
x i x ) de estos1 valores
2 2 i =1 es arbitraria, 2 la codificacin ms frecuente
es xreduce
indicadora
= 1 en a losXnessujetos
yi la constante1 a
particularmente
i =1 pertenecientes sencilla, al dado
primer que
grupo la estimacin
y 0 en los de la pendiente
restantes n2 = n sen1 sujetos
spantes
es es del segundo grupo. Bajo esta codificacin, la interpretacin del modelo de regresin lineal de
reduce arespuestan Y sobre la variable indicadora X es particularmente sencilla, dado que la
la variable
y la constante a ( x i se x )(reduce
y y) n
10
1 10 0,89 +0estimacin ,58++1...
1,89 ,58++1de 53la
,... + 1pendiente
,53 b0 =i y ab1 x =n y n1 1 ( y1 y 2 ) n= y 2 ,
x = xi = xi = b1 = 1,223 n = n1,223
i =1
mmol/l. mmol/l. = n( y i y ) = n ( y1 y ) = y1 y 2
0 i =110 i =1 10 10 n1 n 2 i =1
i ( xi b0x=i) y b1 x =n y n1 n1 ( y1 y 2 ) n=2 y 2 ,
( x x )( y 2 y )

donde y1 yb1y=2 son las


i =1 i =1
n medias muestrales de
= n( y i y ) = n ( y1 yen) =lay1primera
n1 n 2 i =1la variable respuesta
y2 y
propiedades: ( x i x )
2 2
ca senta
presenta
las siguientes
las siguientes propiedades:
ysegunda
la constante
donde y y 2a sondelaslamedias
y1categora
i =1
variablemuestralesexplicativa, de respectivamente.
la variable respuesta As,en la la
constante
primera y
aslacin).
en (traslacin).Si seysuma Silase suma
una
constante aconstante
una constante a cada a uno
cada de uno los de datos
los datos
ysegunda
la constante
corresponde categora a de la variable
simplemente a la media de la variable
explicativa, respuesta enAs,
nrespectivamente. el segundo
la constante grupo (xi =
abla y b x y y y y
1
,edia
la media
de la muestra
de la muestra resultante
resultante
es igual es iguala la media 0 =media
inicial =
inicial
1 ms la
ms (
la 1 2 ) = 2 ,
n
0) y la pendiente a la diferencia
corresponde simplemente a la media de la variable de medias entre n1 el primer
respuestai en( x = 1)elysegundo
el segundo grupo (xi =(xi
grupo
i yi =sixiy+
ada; i =c x
, c
donde
entonces
i + , entonces y 1 = y xy 2 +
= c
son x
. Un +las c medias
cambio
. Un cambio
de muestrales
origen
de origen
que de quela
b0 = y b1 x = y ( y1 y 2 ) = y 2 , variable respuesta en la primera y segunda
categora
donde de
y1 lay variable
y 2 son explicativa,
las medias respectivamente.
muestrales de n As, ladado
la variable constante
respuesta corresponde
primerasimplemente
=0)0).
y laAsimismo,
pendiente el
a laerror estndar
diferencia dedemedias la constante
entre elviene
primer (xi por= 1) yenellasegundo y
grupo ( xi
ncia
recuencia
es el centrado a la
es el centrado media de
de la variable, la variable
de la variable, que consiste respuesta
que consiste en
en restar el segundo
en restar
a a grupo (x i = 0) y la pendiente a la diferencia de
medias segunda entre yel yprimer
y1categora =variable
(xlai medias1) y el segundo de grupo (xi = 0).respuesta
Asimismo, la el error estndar de la
donde
= 0). Asimismo, 2 son elde las
error estndar explicativa,
muestrales
de la constante 2
respectivamente.
la variable
viene dado n porAs,en constante
la primera y
astra
muestra
su media. su media. constante
La media La media viene dado
de unadevariable por
una variable 1 x 1 s
SEcentrada
(b0) centrada
= s ser,+ por ser, por = s + 1
=
corresponde simplemente
segunda categora de la variable explicativa, a la media n (n la
de
2
n n 2 n enAs,
) s xrespectivamente.
1variable respuesta eln 2segundo
la constante grupo (xi =
1 x 2
1 n1 s
SE(b0 ) = s + =s + =
0) y la pendiente a
corresponde simplemente a la media la diferencia den demedias(n la entre
)s x
1variable 2 el n n 2 n i en elny2segundo
primer
respuesta ( x = 1) el segundo grupo (xi =(xi
grupo
ala
nidades).
(unidades).Si se multiplica y el
Si se multiplica error estndar
cada uno cadade de
uno losde la pendiente
datos
los datos por
de unade una
y el=error estndar de la pendiente por la constante viene dado por
0) y la pendiente a la diferencia dedemedias
0). Asimismo, el error estndar entre el primer (xi = 1) y el segundo grupo (xi
stante,
a constante,
la media la mediadeylaelmuestra
deerror estndar
la muestra resultante de la
resultante espendiente
igual a la por
es igual media
as la media n 1 1
= 0). Asimismo, el error SEestndar
(b1 ) = de la constante =s viene = s dado+por ,
onstante
te utilizada; si yi =sicxyi, =entonces
utilizada; cxi, entonces y = cySE x .=(bc0)x =. s s1x +n 1x
2 n1 n 2 1 nn11 n 2s
n que s (n 1) s 2 ns n + n 1n = 1
=
donde la varianza residualSE b1)es= ms
s2 (no sx
la=2combinacin = s de2 las n,2
+ varianzas s12 y s22 de la variable
de
neo origen
de origeny escala.yrespuesta
escala.
Si se multiplica
Siense multiplicacada uno
cada sdatos
1x los n de 1x de 1 2 1 n n n n 2s
(b0)de suno
2 losde
ambos grupos, + datos
2 2
donde la varianza residual = no s es ms que la combinacin + 1 de = las varianzas s1 y s 2 de
1
SE =s
n (n 1) s x 2
n n2 n n2
y el error estndar de1la n
pendiente por
rconstante
una constante y al resultado
y al la resultado
se
variable
donde
le suma
se le
2 sumaotra
s = en ambos
respuesta
la varianza (2yi esb0 ms
constante,
otra constante,
n 2 i =1 s nogrupos,
residual
la media la
b1 xi ) media
2
que la combinacin de las varianzas s12 y s 22 de
esultante
nte es igual es igual
a la media aylaelmedia
error
inicialestndar
inicial
por lapor de
primera
n1 la laprimera
pendiente
constante, por
constante,
n2 ms la
s ms lan 1 1
la variable respuesta en yambos
(SE i (
2
+ ( y j = sy 2 ) 2
b1y) 1=) grupos, =s
n s 2+
n
, 2
i =1 s j =n1 1 n n ( 1
n) +n ( 2 1) s 2
yi =sic1yxi i=+cc12x,i entonces
inte; + c2, entonces y = cy1 x=+=c1cx2. + c2. x 1
= 2 1 1 1 2
.
n 2 s n 1 n 12
SE(b1) = =s =s + ,
2 sx n 1 n1 n 2 n1 n 2
donde la varianza residual s no es ms que la combinacin de las varianzas s12 y s 22 de52
nsformar
ra transformar los valores
los valores del colesterol
del colesterol HDL HDL de mmol/l de mmol/l a mg/dl a mg/dl
se se
190 Pastor-Barriuso De estos R. resultados se desprende que la pendiente b1 y su error estndar SE(b1)
la
dondevariable respuesta
la varianza en ambos
residual s2 nogrupos,es ms que la combinacin de las varianzas s12 y s 22 de52
elorfactor
de conversin
de conversin 38,8. 38,8.As, utilizando
As, utilizando la propiedadla propiedad del del
coinciden exactamente con la estimacin puntual y el error estndar de diferencia de
la,
mediala media
del colesterol la variable
del colesterol HDL HDL en respuesta
mg/dl
en mg/dl ense
se calculara ambos
calculara grupos,
comparacin de medias mediante el test de la t de Student para muestras
Referencias
independientes con igual varianza.

DeEjemplo
estos resultados
10.18 Para se comparar
desprendelos queniveles mediosbde
la pendiente 1 ycolesterol
su error estndar
HDL entre SE(b
los1) coinciden
exactamente con la estimacin puntual y el error estndar de la diferencia de medias en
distribuciones con igual
casos de infarto de varianza
miocardio(vase y los Apartado
controles libres 6.3.1).dePuede concluirse,sepor
la enfermedad, tanto, que las
podra
inferencias relativas a la pendiente de un modelo de regresin lineal con una nica variable
explicativa
ajustardicotmica
un modeloson de algebraicamente
regresin lineal simple equivalentes a la comparacin
del colesterol HDL sobredelamedias variablemediante
el test de la t de Student para muestras independientes con igual varianza.
indicadora del estatus caso/control (xi = 1 en los casos y 0 en los controles) en la
Ejemplo 10.18 Para comparar los niveles medios de colesterol HDL entre los casos de
muestra
infarto decompleta
valor esperadomiocardiodelde yn1los
= 462
colesterol casosen
controles
HDL delosinfarto
libres controlesn2 =libres
de layenfermedad,
539 controles
de la del ajustar
se enfermedad,
podra estudio un modelo
cuyo
de regresin lineal simple del colesterol HDL sobre la variable indicadora del estatus
EURAMIC
IC al 95% escon
caso/control (xi =valores
1 en los delcasos
colesterol
y 0 enHDL. La recta de
los controles) en regresin
la muestraestimada
completaentre de n1 = 462
casos de infarto y n2 = 539 controles del estudio EURAMIC con valores del colesterol
el valor
HDL. esperado
colesterol
La recta HDLdedely colesterol
la variable
regresin HDL enentre
indicadora
estimada los controles
del estatus libres
el colesterol de lay enfermedad,
caso/control
HDL es
la variable cuyo
indicadora del
b0 t999;0,975SE(b0) = 1,09 1,960,012 = (1,06; 1,11).
estatus caso/control es
IC al 95% es
y = 1,09 0,11x,
Por otra parte, la pendiente b1 = -0,11 mmol/l determina el cambio en el nivel
con una desviacin b0 tpica
t999;0,975 SE(b0) del
residual = 1,09 1,960,012
colesterol HDL de s = 0,27
= (1,06; 1,11).mmol/l que, debido a la
con
mediounadedesviacin
hiptesis de tpica
HDL residual
homogeneidad
colesterol pordecada del colesterol
la varianza,
incremento deHDL
se asume de s = 0,27
una constante
unidad en enlammol/l
casos que,
variable y controles. El
valor
error esperado
estndar del
de colesterol
la constante HDL
Por otra parte, la pendiente b1 = -0,11 mmol/les SE(b
en los0 ) controles
= 0,012 ylibres
de lade la enfermedad,
pendiente
determina el cambio en el nivel SE(b 1)cuyo
= 0,017. La
debido
constantea lab0hiptesis
indicadora, lo= que de homogeneidad
1,09equivale
mmol/l estima la media
a la diferencia de la de varianza,
del colesterol
medias se asume
entre HDL
casosenconstante
(xlos 1) y en con valor 0
i = sujetos
ICmedio
de al variable
la 95% es indicadora; esto es, el valor esperado
de colesterol HDL por cada incremento de una unidad en la variable del colesterol HDL en los controles
casos
libres ydecontroles.
controles i = 0). El error
la(xenfermedad, IC al estndar
cuyo
95%ICpara al de laladiferencia
95% constantede
es SE(b0) subyacente
esmedias = 0,012 y deviene la
indicadora, lob0que equivale
t999;0,975 SEa(bla0 )diferencia de medias entre
= 1,09 1,960,012 casos
= (1,06; (xi = 1) y
1,11).
dado por SE(b1) = 0,017. La constante b0 = 1,09 mmol/l estima la media del
pendiente
Por otra parte,
controles (xi =la0).pendiente
El IC al 95%b1 = 0,11
para lammol/l
diferencia determina
de medias el cambio
subyacente en elviene
nivel medio de
Por otra parte,
colesterol HDL HDL en la pendiente
porloscada b = -0,11
incremento
sujetos 1 con valorde mmol/l
0 de determina
unala unidad el cambio
variableenindicadora; en
la variableesto el nivel
indicadora,
es, el lo que
b1 t999;0,975SE(b1) = -0,11 1,960,017 = (-0,14; -0,08)
equivale
dado por a la diferencia de medias entre casos (xi = 1) y controles (x i = 0). El IC al 95%
medio de colesterol HDL por cada incremento
para la diferencia de medias subyacente viene dado por de una unidad en la variable 53
y el contraste bilateral de la hiptesis de igualdad de medias H : = 0 mediante
indicadora, lobque 1 tequivale
999;0,975 SEa(b = 0,11 1,960,017
la1 )diferencia de medias =entre ( 0,14;
casos0 0,08)
1
(xi = 1) y
yel el
estadstico
contraste bilateral de la hiptesis de igualdad de medias H0: 1 = 0 mediante el
controles
y (xi = 0).
el contraste
estadstico El IC de
bilateral al 95% para la de
la hiptesis diferencia
igualdadde
demedias
mediassubyacente viene
H0: 1 = 0 mediante

dado por
el estadstico b1 0,11
t= = = 6,35
SE (b1 ) 0,017
b1 t999;0,975
resulta en un valor P = 2P(tSE(b1) 6,35)
= b-0,11 2F(6,35)
1,960,017
0,11 <= 0,001.
(-0,14;As,
-0,08)
los casos de infarto de
t=
999 1
= = -6,35
miocardio
resulta en unpresentan
valor Pun = 2nivel
P(t999medio
SE (bde
-6,35) colesterol
1) 0 ,017 HDL
2(-6,35) significativamente
< 0,001. As, los casos inferior
de que los
sujetos libres de la enfermedad (P < 0,001), con una diferencia
y el contraste bilateral de la hiptesis de igualdad de medias H0: 1 = 0 mediante estimada en 0,11 mmol/l
(IC al 95%
infarto 0,08-0,14presentan
de miocardio mmol/l). un Notar,
nivelpormedioltimo, que estos HDL
de colesterol resultados son exactamente
resultaaen
iguales los valor P =mediante
unobtenidos 2P(t999 -6,35)
el test de2(-6,35)
la t de < 0,001.
Student As,muestras
para los casosindependientes
de
el estadstico
con igual varianza (Ejemplos
significativamente inferior que6.7 losy sujetos
6.8). libres de la enfermedad (P < 0,001),
infarto de miocardio presentan un nivel medio de colesterol HDL
b1 0,11
con una diferencia estimadat =en 0,11 mmol/l
= libres (IC=al-6,35
95% 0,080,14 mmol/l). Notar,
significativamente inferior queSE los(bsujetos
) 0 ,017 de la enfermedad (P < 0,001),
10.4REFERENCIAS 1

por ltimo, que


con una diferencia estos resultados
estimada son
en 0,11 exactamente (IC aliguales a los obtenidos mediante
1. Armitage P, Berry G, Matthews JNS.mmol/l
Statistical 95% 0,080,14
Methods in Medicalmmol/l). Notar, Fourth
Research,
resulta
Edition. en un valor P = 2P ( t -6,35) 2(-6,35) < 0,001. As, los casos de
deOxford: Blackwell paraScience, 2002.
999
elpor la t que
testltimo, de Student
estos resultados muestras independientes
son exactamente cona los
iguales igual varianzamediante
obtenidos
2. Bickel PJ,miocardio
infarto de KA. Mathematical
Doksum presentan un nivel medio Statistics: Basic HDL
de colesterol Ideas and Selected Topics.
Englewood
(Ejemplos Cliffs,
6.7 y NJ:
6.8). Prentice Hall, 1977.
el test de la t de Student para muestras independientes con igual varianza
significativamente inferior que los sujetos libres de la enfermedad (P < 0,001),
(Ejemplos 6.7 y 6.8). Pastor-Barriuso R. 191

con una diferencia estimada en 0,11 mmol/l (IC al 95% 0,080,14 mmol/l). Notar,
10.4 REFERENCIAS
Correlacin y regresin lineal simple

3. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury
Press, 2002.
4. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
5. Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley
& Sons, 1999.
6. Draper NR, Smith H. Applied Regression Analysis, Third Edition. New York: John Wiley
& Sons, 1998.
7. Kleinbaum DG, Kupper LL, Nizam A, Muller KE. Applied Regression Analysis and
Other Multivariable Methods, Fourth Edition. Belmont, CA: Duxbury Press, 2008.
8. Pea D. Estadstica: Modelos y Mtodos, Volumen 2, Modelos Lineales y Series
Temporales. Madrid: Alianza Editorial, 1987.
9. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.
10. Seber GAF, Lee AJ. Linear Regression Analysis, Second Edition. New York: John Wiley
& Sons, 2003.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
12. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
13. Weisberg S. Applied Linear Regression, Third Edition. New York: John Wiley & Sons,
2005.

192 Pastor-Barriuso R.
TEMA 11

REGRESIN LINEAL MLTIPLE

11.1INTRODUCCIN

En el Tema 10 se present la regresin lineal simple como una herramienta para analizar la
relacin lineal entre una variable respuesta continua y una nica variable explicativa. En la
prctica, sin embargo, suele contarse con ms de una variable explicativa y el inters se centra
en estudiar la relacin de cada una de las variables explicativas con la variable respuesta,
teniendo en cuenta a su vez las restantes variables explicativas. De este tipo de problemas se
ocupa la regresin lineal mltiple.
En presencia de mltiples variables explicativas asociadas con la variable respuesta, la
utilizacin de distintos modelos de regresin lineal simple para cada variable explicativa da
lugar a estimaciones imprecisas y a menudo sesgadas de las asociaciones subyacentes con la
variable respuesta. Para ilustrar este hecho, la Figura 11.1 presenta los diagramas de dispersin
entre una variable respuesta Y y una variable explicativa X1, diferenciando mediante puntos y
crculos los valores de otra variable explicativa dicotmica X2. En la Figura 11.1(a), la variable
explicativa X2 est asociada con la variable respuesta Y (los valores de Y tienden a ser mayores
en uno que en otro grupo de X2), pero no con la variable explicativa X1 (los valores de X1 se
distribuyen por igual en ambas categoras de X2). Si se ignora la variable X2 y se ajusta un
modelo de regresin lineal simple entre X1 e Y a toda la nube de puntos (lnea gruesa), se
obtiene la misma pendiente que al ajustar distintas rectas para cada valor de X2 (lneas finas)
y, en consecuencia, la asociacin entre X1 e Y no estar confundida por X2. No obstante, la
varianza residual alrededor de la recta de regresin es mayor al ignorar la variable explicativa
X2, lo que ocasionar un mayor error estndar en la estimacin de la pendiente. Por el contrario,
en la Figura 11.1(b), la variable explicativa X2 est asociada de forma independiente con la
variable respuesta Y y con la variable explicativa X1 (para valores fijos de X1 o Y, los valores
de la otra variable difieren segn categoras de X2). La pendiente de la recta de regresin
simple entre X1 e Y (lnea gruesa) sobreestima el efecto independiente de X1 sobre Y cuando X2
permanece constante (lneas finas). Esto es debido a que las variables explicativas X1 y X2
estn correlacionadas y la regresin lineal simple estimar los efectos confundidos de ambas
variables al no poder discernir entre el efecto independiente de X1 y el efecto inducido por su
asociacin con X2.
La principal conclusin del ejemplo anterior es que, si las variables explicativas estn
relacionadas entre s, lo que sucede con cierta frecuencia, la regresin lineal simple puede
proporcionar estimaciones sesgadas de las asociaciones subyacentes de cada variable
explicativa con la variable respuesta. Por ello, los efectos de distintas variables explicativas
deben estudiarse conjuntamente mediante modelos de regresin lineal mltiple. Estos modelos
son una extensin de la regresin lineal simple a la presencia de dos o ms variables explicativas,
que pueden ser tanto continuas como categricas. Como veremos a continuacin, la regresin
lineal mltiple permite estimar el efecto independiente de cada variable explicativa,
manteniendo constantes las restantes variables incluidas en el modelo. Su utilidad en los
anlisis epidemiolgicos es, por tanto, directa ya que facilita estimaciones ajustadas del efecto
de cada variable explicativa.

Pastor-Barriuso R. 193
11.2 lineal
Regresin ESTRUCTURA
mltiple DE LA REGRESIN LINEAL MLTIPLE

El modelo de regresin lineal mltiple asume que la media de la variable respuesta Y

puede expresarse como una combinacin lineal de las variables explicativas X1, ..., Xp;

es decir, para valores fijos x1, ..., xp de estas variables explicativas, el valor esperado de

y
la variable respuesta es

11.2 ESTRUCTURA DE LA REGRESIN LINEAL MLTIPLE p


E(Y|x1 , ..., xp) = 0 + 1 x1 + + p xp = 0 + j x j .
j =1

El modelo de regresin lineal mltiple asume que la media de la variable respuesta Y


x1 x1
La constante
puede 0 corresponde
expresarse como una al valor esperado de Y cuando todas las(b)variablesX , ..., X ;
(a) combinacin lineal de las variables explicativas 1 p
11.2 ESTRUCTURA DE LA REGRESIN LINEAL MLTIPLE
Figura 11.1 Diagramas de dispersin de la variable respuesta Y frente a la variable explicativa X1 para
explicativas
es decir,
distintos para
valores son 0, yE(Y|0,
valores
(puntos fijos,
crculos) = xpvariable
0)otra
xde
1, ...,
+ estas
0de + p0dicotmica
10 explicativa
+ variables = 0; mientras
explicativas, elque cada
valor
X asociada conesperado
Y pero no de
con X
2 1
(panel a) y asociada
El modelo tanto con Ylineal
de regresin con X1 (panel
comomltiple b). Las
asume quelneas gruesas
la media derepresentan
la variablelas rectas de Y
respuesta regresin
simple entre X1 ede
coeficiente Y ignorando
regresin lavariable X
determina y las
el lneas
cambio finas corresponden
esperado en Y a
porlas rectas
cada de regresin
incremento de para
la variable respuesta es j
cada valor de X2.
2

puede expresarse como una combinacin lineal de las variables explicativas X1, ..., Figura Xp; 11.1
una unidad en Xj, manteniendo constantes el resto de variables explicativas, p
11.2 ESTRUCTURA DE LA REGRESIN LINEAL MLTIPLE
es decir, para valores E(Y|xfijos x1x, p...,
1 , ..., ) =xp 0de
+ estas
1 x1 +variables p = 0 + elj x
+ p xexplicativas, valor
j .
esperado de
El modelo de regresin
E(Y|x1 , ...,lineal
xj-1, xjmltiple
+ 1, xj+1,asume..., xp ) -que , ..., xp )de la variable respuesta Y puede
la 1media
E(Y|x j =1

la variable
expresarse respuesta
como es
una combinacin lineal de las variables explicativas X1, ..., Xp; es decir, para
valores fijos x1, ...,0xpcorresponde
La constante =deestas
0 + 1variables
x1 +al +explicativas,
valor j-1 deel
xj-1 + j(x
esperado Yvalor
j + 1) + esperado
cuando xj+1 +de
j+1todas lavariables
las +variable
p xp respuesta es
p
E(Y|x ...,x1 xp)1 =+
(10, +
explicativas son 0,- E(Y|0, , 0) =0 +0 +
+ 1pxx1p )+= j+ j x j que
10 + . + pxpp0==00;+mientras .
j =1
cada

La As,
constante
coeficiente 0decorresponde
los coeficientesregresin alj determina
de regresin valor esperado
asociados a de
el cambio cada Yesperado
cuando en
variable todas lascada
Y por
explicativavariables explicativas
noincremento
pueden de
estar
son0, E(Y|0, , 0) =
La constante 0 corresponde 0 + 1 0 + + 0 =
al valor pesperado 0 ; mientras que cada coeficiente
de Y cuando todas las variables de regresin j
determina
una unidad
confundidos el cambio
porXlas
en esperado
j, manteniendo
dems variables en Y porexplicativas,
cadaelincremento
constantes restoyadeque destas
variables unidad en Xconstantes.
unapermanecen
explicativas, j, manteniendo
constantes el resto de variables explicativas,
explicativas son 0, E(Y|0, , 0) = 0 + 10 + + p0 = 0; mientras que cada
En este sentido, E(Y|xy 1a, diferencia
..., xj 1, xj +de1,laxjregresin
+1, ..., xp ) simple,
E(Y|x1 ,los..., coeficientes
xp ) de regresin lineal
coeficiente de regresin j determina el cambio esperado en Y por cada incremento de
= 0 + 1 x1 + + j 1 xj 1 + j(xj + 1) + j+1 xj+1 + + p xp
mltiple facilitan el efecto independiente de cada variable explicativa sobre la variable
una unidad en Xj, manteniendo ( 0 + 1 x1 constantes
+ + p xpel) =resto j. de variables explicativas,
respuesta ajustando o controlando por posibles diferencias en la distribucin de las
As, los coeficientes de regresin asociados a cada variable explicativa no pueden estar
confundidos por E(Y|x , ..., xj-1variables
las 1dems , xj + 1, xexplicativas,
j+1, ..., xp) - E(Y|x 1, ...,
ya que xp) permanecen constantes. En este
stas
restantes variables explicativas incluidas en el modelo.
sentido, y a diferencia de la regresin simple, los coeficientes de regresin lineal mltiple
As, los coeficientes de regresin asociados a cada variable explicativa no pueden estar
= 0 + 1 x1 +
facilitan el efecto independiente j-1xj-1variable
de+ cada + j(xj +explicativa
1) + j+1xj+1sobre
+ +lavariable
p xp respuesta
Para completar la estructura general de la regresin lineal mltiple, se asume que los
ajustando o controlando por posibles diferencias en la distribucin de las restantes variables
confundidos por las dems variables explicativas, ya que stas permanecen constantes.
explicativas incluidas-en (el+modelo.
1x1 + respuesta
+ p x p ) = j.
valores individuales de0 la variable se distribuyen normalmente alrededor del
Para completar
En este sentido,layestructura
a diferencia general
de lade la regresin
regresin simple,lineal
losmltiple, se asume
coeficientes que loslineal
de regresin valores
individuales
valorlos
As, de la definido
esperado variable
coeficientes respuesta
por
de regresin se distribuyen
la ecuacin
asociados a cadanormalmente
de regresin, alrededornodel
variable explicativa valor estar
pueden esperado
mltiple
definido la ecuacin
por facilitan de regresin,
el efecto independiente de cada variable explicativa sobre la variable
confundidos por las dems variables explicativas, ya que stas permanecen constantes.
Y|x1 , ..., xp ~ N( 0 + 1 x1 + + p xp , 2),
orespuesta ajustando o controlando por posibles diferencias en la distribucin de las
equivalentemente
o equivalentementey a diferencia de la regresin simple, los coeficientes de regresin lineal3
En este sentido,
restantes variables explicativas incluidas en el modelo.
mltiple facilitan el efecto independiente Y = 0 + 1 xde1 + + p xp + ,
cada variable explicativa sobre la variable
Para completar la estructura general de la regresin lineal mltiple, se asume que los
194 respuesta
donde el error
Pastor-Barriuso ajustando
R. o controlando
aleatorio en la variable por posibles
respuesta diferencias
sigue unaendistribucin
la distribucin
normal de las
con
valores individuales de la variable respuesta se distribuyen normalmente alrededor del
restantes
media 0 yvariables
varianzaexplicativas
2 para cualquier incluidas
valoren de el modelo.
las variables explicativas. De esta
valor esperado definido por la ecuacin de regresin,
Estructura de la regresin lineal mltiple

donde el error aleatorio en la variable respuesta sigue una distribucin normal con media 0 y
varianza 2 para cualquier valor de las variables explicativas. De esta especificacin del modelo
de regresin lineal mltiple, se desprenden las siguientes asunciones:
yy Linealidad: El valor esperado de la variable respuesta Y cambia linealmente con cada
variable explicativa Xj, de tal forma que para valores fijos de las dems variables
explicativas, cambios de magnitud constante a distintos niveles de Xj se asocian con un
mismo cambio en la media de Y.
yy Aditividad: El efecto conjunto de varias variables explicativas sobre la variable respuesta
es la suma de sus efectos independientes.
yy Homogeneidad de la varianza: La varianza de la variable respuesta permanece constante
para cualquier valor de las variables explicativas.
yy Normalidad: Dados unos valores fijos de las variables explicativas, la variable respuesta
se distribuye de forma normal.
En el caso de dos variables explicativas, estas asunciones pueden representarse mediante el
grfico tridimensional de la Figura 11.2. Debido a las hiptesis de linealidad y aditividad, los
valores esperados de Y para cualquier combinacin de X1 y X2 se sitan en el plano definido por
la ecuacin de regresin 0 + 1x1 + 2x2. Asimismo, por las asunciones de homogeneidad de la
varianza y normalidad, los valores individuales de Y para cualquier combinacin de X1 y X2 se
distribuyen de forma normal y con la misma varianza alrededor de dicho plano de regresin.
Las hiptesis de linealidad y homogeneidad de la varianza se evaluarn utilizando procedimientos
de diagnstico grfico similares a los empleados en regresin lineal simple. Las desviaciones
de la asuncin de aditividad se explorarn, por su parte, mediante la inclusin de trminos de
interaccin entre las variables explicativas.

Plano de regresin:
Y E(Y|x1, x2) = 0 + 1x1 + 2x2
0 + 1xj1 + 2xj2

0 + 1xi1 + 2xi2

xi1 xj1

xj2 X1

xi2

X2

Figura 11.2 Asunciones subyacentes al modelo de regresin lineal mltiple con dos variables explicativas.

Pastor-Barriuso R. 195
individuales sobre
Independencia la variable
lineal respuesta explicativas:
de las variables seran indiscernibles.
Ninguna variable explicativa
Regresin lineal mltiple
es una combinacin lineal exacta de las dems ya que, en tal caso, sus efectos
Ejemplo 11.1 Supongamos que un modelo de regresin lineal mltiple incluye
individuales
A estas sobre la variable respuesta seran indiscernibles.
comoasunciones, anlogas a las
variables explicativas la utilizadas en regresin
presin arterial lineal
sistlica X1 ysimple, se aaden
la presin arterialdos nuevas
condiciones necesarias para poder estimar la ecuacin de regresin:
yy Independencia
Ejemplo X2, Supongamos
diastlica11.1 lineal de lasque
variables explicativas:
un modelo de regresinNinguna
lineal variable
mltipleexplicativa
incluye es una
combinacin lineal exacta de las dems ya que, en tal caso, sus efectos individuales sobre
lacomo
variable respuesta
variables seran indiscernibles.
explicativas laY presin sistlica X1 y la presin arterial
= 0 + arterial
1 x1 + 2 x2 + .

Ejemplo 11.1
diastlica X2, Supongamos que un modelo de regresin lineal mltiple incluye como
Si se aade adems la la
variables explicativas presin delarterial
presin pulso,sistlica
definidaXcomo la diferencia entre la
1 y la presin arterial diastlica X2,

Y = 0 +X3 1=x1X+1 - 2Xx22, +elmodelo


presin arterial sistlica y diastlica . resultante puede
Si se aade adems la presin del pulso, definida como la diferencia entre la presin
reescribirse
Si se aade
arterial como
adems
sistlica la presinX3del
y diastlica = Xpulso,
1 X2,definida
el modelo como la diferencia
resultante puede entre la
reescribirse como

presin arterial sistlica


Y=y diastlica X3=2 xX2 1+- X32x,3el+ modelo
0 + 1 x1 + resultante puede
= 0 + 1 x1 + 2 x2 + 3 (x1 x2 ) +
reescribirse como
= 0 + ( 1 + 3 )x1 + ( 2 3 )x2 + ,
que es algebraicamente 0 + 1x1 +almodelo
Y =equivalente 2x2 + 3anterior
x3 + con 1 = 1 + 3 y 2 = 2 3.
Existen, por tanto, infinitas combinaciones de los parmetros 1, 2 y 3 que dan lugar a
la misma ecuacin de regresin
= 0 + (para
1x1 + cualquier
2x2 + 3(x valor ) +3, basta tomar 1 = 1 3 y 2
1 - x2de
que es algebraicamente equivalente al modelo anterior con = + y 2 = 2
= 2 + 3 para obtener los mismos coeficientes de regresin 11 y 21). As,3 como la presin
del pulso es una combinacin
= 0 +lineal
(1 +exacta
3)x1 +de(la2 presin
- 3)x2 +arterial
, sistlica y diastlica, no
- posible
es 3. Existen, por tanto,
determinar infinitas
unvocamente combinaciones de los parmetros
los efectos independientes 1, una
de cada 2 y de
3 que
estas tres
variables explicativas.
que
dan es algebraicamente
lugar equivalente
a la misma ecuacin al modelo
de regresin anterior
(para con valor
cualquier 1 = de
1 +33, basta
y 2 = 2
yy El nmero de observaciones n debe ser superior o igual al nmero de coeficientes p + 1 de
la- ecuacin
3. Existen,
depor tanto, infinitas
regresin. combinaciones
Este requerimiento de los
resulta parmetros
obvio 1, de
en el caso 2 py =
32que
variables
explicativas (vase Figura 11.2), ya que para determinar el plano de regresin se necesitan
5
aldan lugarna=la3misma
menos puntosecuacin de regresin
u observaciones (para cualquier valor de 3, basta
no alineadas.
Cabe destacar que estas dos condiciones son requerimientos tericos mnimos para estimar
la ecuacin de regresin. En la prctica, sin embargo, el nmero de observaciones ha de ser muy
superior al nmero de coeficientes de regresin para poder obtener estimaciones precisas 5 de
estos coeficientes y no incurrir en problemas de sobreajuste (esto es, modelar el error aleatorio
en lugar de la relacin subyacente). Un criterio habitual es no incluir ms variables explicativas
que el nmero de observaciones dividido por 10. Asimismo, aunque las variables explicativas
no presenten una correlacin lineal perfecta, es importante evaluar su grado de colinealidad. Si
las variables explicativas son muy dependientes entre s, resulta muy difcil separar sus efectos
e identificar la contribucin individual de cada una de ellas, lo que provocar estimaciones
inestables de los coeficientes de regresin. Este problema se conoce como multicolinealidad y
se tratar ms adelante en el apartado de diagnstico del modelo de regresin lineal mltiple.

11.3 ESTIMACIN E INFERENCIA DE LA ECUACIN DE REGRESIN

En este apartado se presenta, en primer lugar, el procedimiento de estimacin de los coeficientes


de regresin lineal mltiple. A continuacin, se describen las propiedades de los estimadores y se
derivan intervalos de confianza y tests de hiptesis para los coeficientes de regresin. Finalmente,
se presentan intervalos de confianza para el valor esperado de la variable respuesta e intervalos de
prediccin para una nueva observacin en funcin de los valores de las variables explicativas.

196 Pastor-Barriuso R.
coeficientes de regresin 0, 1, , p se obtienen mediante el mtodo de mnimos
Estimacin e inferencia de la ecuacin de regresin
cuadrados a partir de una muestra de n observaciones (yi, xi1, , xip) mutuamente

independientes. En concreto, tal y como se muestra en la Figura 11.3 para dos variables
11.3.1 Estimacin de los coeficientes de regresin
explicativas, se trata de estimar los valores b0, b1, , bp que minimicen la suma de
Al igual que en regresin lineal simple, las estimaciones puntuales b0, b1, , bp de los coeficientes
de regresin 0, 1, , p se obtienen mediante el mtodo de mnimos cuadrados a partir de
una cuadrados
muestra de de los errores o residuos
n observaciones ei x= y) i mutuamente
(yi, xi1, , ip
- y i , que corresponden a las En
independientes. distancias
concreto, entre
tal y
como se muestra en la Figura 11.3 para dos variables explicativas, se trata de estimar los valores
b0, blos valores observados yi de la variable respuesta y los correspondientes valores
1, , bp que minimicen la suma de cuadrados de los errores o residuos ei = yi i, que
corresponden a las distancias entre los valores observados yi de la variable respuesta y los
estimados o predichos
correspondientes por la ecuacin
valores estimados de regresin
o predichos y i = b0 +debregresin
por la ecuacin 1xi1 + +ib=pxbip0, + b1xi1 +
+ bpxip,
n n n
SSE = ei2 = ( y i y i ) 2 = ( y i b0 b1 xi1 ... b p xip ) 2.
i =1 i =1 i =1

Para estimar los coeficientes de regresin que minimizan esta suma de cuadrados del error,
se calculan las derivadas parciales de SSE respecto a b0, b1, , bp y se igualan a cero, resultando
[Figura 11.3 aproximadamente aqu]
el sistema de p + 1 ecuaciones lineales
SSE n n
= 2 ei = 2 ( y i b0 b1 x i1 ... b p x ip ) = 0,
Para estimar los
b0 coeficientes
i =1
de regresin
i =1
que minimizan esta suma de cuadrados del
SSE n n
= 2las
error, se calculan i = 2 x ij ( y i b0 b1 x i1 ... b p xip ) 0= 0,
xij ederivadas parciales de SSE respecto a b , b1, , bpj = y se igualan
1, , p. a
b j i =1 i =1

cero, resultando el sistema de p + 1 ecuaciones lineales


En general, este sistema lineal se resuelve utilizando lgebra de matrices. En el Apndice al
final del tema se derivan las frmulas matriciales para calcular b0, b1, , bp que, bajo las
En general,
asunciones de este sistemaylineal
linealidad se resuelve
aditividad, son utilizando
estimadores lgebra de matrices.
insesgados de losEncoeficientes
el de

Apndice al final del tema se derivan las frmulas matriciales para calcular b0, b1, , bp
(xi1, xi2, yi) Plano de regresin estimado: 7
y y = b0 + b1 x1 + b2 x2
que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los

coeficientes de regresin 0,ei=1,y,


i yip. En el caso particular de dos variables

explicativas, puede comprobarse que estos estimadores vienen dados por


( xi1 , xi 2 , y i )
ryx1 ryx2 rx1 x2 s y
b1 = ,
1 rx21 x2 s x1

ryx2 ryx1 rx1 x2 s y


b2 = ,
1 rx21 x2 s x2
x1
b0 = y - b1 x1 - b2 x 2 .

De estasx2expresiones se deduce que, si las variables explicativas X1 y X2 estn

Figura 11.3 Error o desviacin


incorrelacionadas rx1 x2 = 0,del
lasvalor observado de
estimaciones de lalosvariable respuesta
coeficientes de respecto valorFigura
a sumltiple
regresin
11.3
estimado
se
por el plano de regresin.

reducen a b1 = ryx1 s y / s x1 y b2 = ryx2 s y / s x2 , que son iguales a las obtenidas en regresin


Pastor-Barriuso R. 197
simple (vase Apartado 10.3.1). Por tanto, cuando las variables explicativas estn

incorrelacionadas, sus coeficientes estimados por regresin mltiple coinciden con los
ficientes de regresin 0, 1, , p. En el caso particular de dos variables explicativas, puede comprobarse que es
s, puede comprobarse que estos estimadores vienen dados por
que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los
licativas, puedeRegresin comprobarse lineal mltiple que estos estimadores vienen dados por ry
r r r s b1 =
coeficientes yx de yx regresin
2 x1 x 2 y 0, 1, , p. En el caso particular de dos variables
b1 = 1 ,
1 rxr1 xyx2 1 rsyxx21rx1 x2 s y
2

explicativas,
regresin 0, b1,1 puede= .comprobarse
, p1 Enr 2el casos particular , estosdeestimadores
que dos variables vienen dados porpuede comprobarse
explicativas, ry
x1 x 2 x
e XX11eeYY rryxyx1 1(como
re (como
que ocurre ocurre
estos en
en regresin
ryxregresin
estimadores r r lineal
lineal
vienen s simple),
simple),
dados 1
porsino sinotambintambinde desus sus b2 =
yx1 x1 x 2 y
entre X1 e Y ryx11 (como b2 = ocurre 2
en2 regresin, lineal simple), r sino r rtambin s de sus
1 rxr1yxx22 rsyxx12rx1 x2 s y b1 = yx1 yx2 x1 x2 y ,
pectivas correlacionescon
ectivas correlaciones conlalavariablevariable
b2 = X X rr
22 yxyx2 2 y y r r .
x1xx1 2x2 ,. 1 rx1 x22
s x1
1 rx21 x2 s x2 b0 = y
respectivas correlaciones con la variable X2 ryx22 y rx11x22 .
b0 = y - b1 x1 - b2 x 2 . r 22
2yx r r s
b2 = de delalayxvariable
1 x1 x 2 y
Unavez
Una vezestimada
estimadalalaecuacin ecuacinde deregresin,
regresin,lalavarianza varianza variable respuesta
respuesta
,
b0 = y - b1 x1 - b2 x 2 . 2
1 rx21 x2 s x2 De estas expresiones se deduce que, si l
Una vez estimada la ecuacin de regresin, la varianza de la variable respuesta
xpresiones
ededor
dedor de se deduce
dedicha
dicha ecuacin
ecuacin que,se siestima
se las variables
estima mediante
mediante explicativas varianza
lalavarianza X1 residualX2 estn
yresidual
b0 = y b1 x1 b2 x 2 . incorrelacionadas rx1 x2 = 0, las estimaci
estas alrededor
expresiones de dicha ecuacin
se deduce que,sesiestima las variablesmediante la varianza
explicativas X1residual
y X2 estn
onadas rx1 x2 = 0, Delas estimaciones dese
estas los coeficientes que, si de lasregresin
variables mltiple se X y X estn incorrelacionadas
SSE expresiones
SSE 11 nndeduce explicativas
22
22 1 2
orrelacionadas s =
s = r = 0,, las =
= estimaciones ( y
( ydeii
los b
b00coeficientes b x ...
b11x i1i1 ... deb pregresin b x
px ipip) ,) , mltiple se reducen a b1 = ryx1 s y / s x1 y b2 = ryx2 s y /
n1n22 pp11SSE
x x nn pp11i =i1=11 n
b1 = ryx1 s y / s x1 y bs2De == estas / s x2 ,=,que
ryx2 s yexpresiones
n p 1
queson
n
son
p
seiguales


iguales
1
deduce ( yai alas las
que, bobtenidas
0 si blas 1 x ivariables
obtenidas 1 en...en b pexplicativas
regresin
regresin 2
x ip ) simple , (vase
X1 y XApartado
2 estn
10.3.1). Por
ucen a b1 = ryx1 stanto, cuando las variables explicativas estn incorrelacionadas, sus coeficientes estimados por10.3.1). Por tan
i = 1
y / s x1 y b2 = r yx2 s y / s x 2 , que son iguales a las obtenidas en regresin
simple (vase Apartado
nde
de la
la suma
suma
ase Apartado 10.3.1). de
de cuadrados
regresin
cuadrados del
mltiple
del
incorrelacionadas error
error
Por tanto, cuando SSE
coinciden
SSE sese
rx1 x2las divide
divide
= variables con por
por
0, las estimaciones los nn - - pp
obtenidos
-
explicativas -1 1 yaya que,
de
que,
de estn una
distintas
una vezvez regresiones
los coeficientes de regresin mltiple se simples para cada
donde variable
laApartado
suma de explicativa.
cuadrados del Por
errorcuandoel
SSE contrario,
selas divide cuando las
por nexplicativas
-lineal variables
p - 1 simple),
ya que, explicativas
una vez estn correlacionadas,
incorrelacionadas, sus coeficientes estim
ple
mados
mados (vase los
los pp + + 11
sus 10.3.1).
entre
coeficientes
efectos
coeficientes e de Y
X1 ajustados
Por
de rregresin,
yxtanto,
(como
regresin, mediante ocurre
loslos n n envariables
errores
regresin
errores regresino o desviaciones
mltiple
desviaciones pueden de de estn
lala sino
variable
diferir
variable tambin
notablemente de susde sus efectos
onadas, sus coeficientes estimados
a b1 = las
1
por regresin
ryx1restantes
s y / s x1 y variables mltiple
b2 = ryx2 sexplicativas. coinciden con los
crudos reducen ignorando y / s x 2 , que son As,iguales por ejemplo, a las obtenidas la relacin en de regresin
la variable
estimados
orrelacionadas, lossusp + 1 coeficientes
coeficientes estimadosde regresin,
por los
regresin n errores
mltiple o desviaciones
coinciden con de la
los obtenidos
variable de distintas regresiones simpl
puesta
deuesta respecto
respecto
distintas aa la
explicativa
la
regresiones ecuacin
ecuacin
respectivas
simples X 1dedecon regresin
la
regresin
correlaciones
para variable
cada contienen
contienen
con
variable respuesta
la n n -
variable -p
explicativa. p
Y -- 1 1
X grados
ajustando
grados
r
2 Por y dede
por
yx2 el x1 x2 r libertad.
la
libertad.
. variable Bajo
Bajo X 2 se estima mediante el
como ocurre encoeficiente regresin
simple lineal
(vase simple),
Apartado sino10.3.1). tambin Por detanto,sus cuando las variables explicativas estn
entre X e Y r
respuesta respecto de regresin
a la ecuacin mltiplecontienen
de regresin b1, que depende n - p - 1 no grados slo de delibertad.
la correlacin Bajo entre
contrario, cuando yx1 (comoexplicati
X11 las variables ocurre e
enidos
hiptesis de distintas
de linealidad, regresiones
aditividad simples para
yyhomogeneidad
homogeneidad cada variable
de explicativa. Por el
hiptesis
cuando lasde linealidad,
(comoexplicativas
variables Unaaditividad
ocurre vezenestimadaregresin
estn la lineal
correlacionadas,
ecuacin simple),dedelala susvarianza,
varianza,
sino
regresin, tambin
efectos lalala varianza
varianza
ajustados
varianzade susrespectivas 2
de la variable correlaciones
respuestacon la
laciones con la variable
las2hiptesis incorrelacionadas,
de linealidad, X2 ryx2aditividad sus coeficientes estimados
y rx1 x2 .. y homogeneidad de la varianza, la varianza mediante respectivas por regresin mltiple coinciden con los mltiple pueden dife
regresin
trario, 2cuando las variables explicativas estn correlacionadas, 2sus 2 efectos ajustados correlaciones con l
idual
dual
egresin ss es esmltiple
unestimador
un estimador
pueden
Una
alrededor
insesgado
insesgado
diferir
vez estimada del
del
notablemente
dichalaecuacin
de distintas
parmetro
parmetro
ecuacinsedeestima de poblacional
poblacional
sus efectos
regresin, mediante .
crudos .
la varianza la varianza de la
2
variable respuesta alrededor
residual
2 obtenidos de regresiones
2 simples para cada 2 variable explicativa. Por el
ignorando lasUna restantes variables explica
ada residual
la s
ecuacin es
de un
de estimador
regresin,
dicha ecuacin lainsesgado
varianza
se estima
diante regresin mltiple pueden diferir notablemente de sus efectos crudos
del parmetro
de
mediante la variablela poblacional
respuesta
varianza
residual . vez estimada la ecuaci
las restantes variables explicativas. As, por ejemplo, la relacin de la
Ejemplo11.2
Ejemplo 11.2En En contrario,
elelEjemplo
Ejemplo cuando 10.7
10.7 2 selas
seestudiSSE antioxidantes
variables
estudi explicativas
lalarelacin
relacin 1 del en
del el riesgo
n estn
ndice
ndice de demasa de
correlacionadas,
masa desarrollarsus unefectos
variable
primer ajustados
infarto agudo de miocardio e
explicativa X con la variable re
orando las restantes variables explicativas. As, por ejemplo,la relacin
a ecuacin se estima mediante la varianza residual 2
s = = ( y i b
0 de1 la b x i1 ... b x
p ip ) , alrededor de1dicha ecuacin se
plicativaEjemploX1 con la11.2 En elrespuesta
variable Ejemplo Y10.7 n ajustando
psehombres 1 npor
estudi la padultos.
la 1 i =1 Los
relacin
variable del ndice
X2valores
se estima de masa
obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84
corporalcon
corporal mediante
conelelcolesterol
colesterolHDL regresin
HDLutilizando mltiple
utilizando ununpuedenmodelodiferir
modelo deregresin
de notablemente
regresin linealsimple.
lineal de
simple.sus efectos crudos
Y ajustando mediante el coeficiente de regresin m
able SSE explicativadonde X11 con la la n variable
suma respuestadel
de cuadrados error SSE por la variable
se divide por n X2pse estima 1 ya que, una vez estimados los
l=coeficiente
nNo
No
corporal
de
p 1 npexisten
obstante,
obstante,
con
regresin
= +ignorando
existen
el colesterol
1coeficientes
pdonde otros
1otros
mltiple
la( ysuma
ilas
muchos
muchos 0de
HDL
b
brestantes 1 , que
cuadrados
utilizando
depende
b1 x i1 variables
regresin, ...1,06,
determinantes
determinantes
los
del
un
no
b p nxerror
0,87, modelo
2slo de la
) ,SSE
iperrores
explicativas.
dede los
los 1,96 o se
niveles
niveles
de regresin
correlacin
ydesviaciones
1,53
divide
As,
dede mmol/l.
por por
lineal
nde-La
ejemplo,
colesterol
colesterol plaHDL
HDL
simple.
-media
variable
1laya de respuesta
que,
relacin los unaniveles
de del colesterol
la respecto
vez as2 = HDL en=
SSE
diante el coeficiente la ecuacin
i =1
de regresin de regresin mltiple b1, que depende
contienen n p 1 no gradosslo de de libertad.
la correlacin 8 Bajo lasHDL hiptesis de linealidad, n p 1
No obstante, existen otros muchos determinantes de los niveles de colesterol
como,por
como, aditividad
porejemplo,
ejemplo, estimados
variable yexplicativa
elelconsumo homogeneidad
consumo los p de X
+de1alcohol.
1 con
alcohol. de estos
coeficientes laPara
Para varianza,
variable 10
de participantes
laelel
regresin,
obtener
obtener varianza
respuesta efecto
efecto losYes errores so2por
residual
najustando
independiente
independiente es un
desviaciones estimador
la variable X2la
de insesgado
estima del
sevariable
8
cuadrados del parmetro error SSE se divide porn.- p - 1 ya que, una vez
poblacional 2
donde la suma de cuadrados de
como, por ejemplo, el consumo de alcohol. Para obtener el efecto independiente
dedecada
cadauno unode mediante
deestosrespuesta
estos el
determinantes,
determinantes, coeficiente
respecto ase se de regresin
la podra
ecuacin
podra ajustar
ajustar mltiple
de regresinunmodelo
un modelo bcontienen
1
1 , que
dede depende
regresin
10 regresin n - p -no 1 slo
grados
0,89 + 1,58 + ... + 1,53 de dela correlacin
libertad. Bajo
1 coeficientes de regresin,
de cada uno Ejemplo
los n errores
11.2 En el Ejemplo
de estos determinantes,
o desviaciones
se podra 10.7ajustar de x
la
se estudi =
variable
un10
x
la relacin
modelo
i =1
i =
de regresindel ndice 10 de masa
= 1,223
corporallos
estimados
mmol/l.
con
8 p + 1 coeficiente
linealmltiple
lineal mltiplecon lasel
con elhiptesis
elcolesterol
colesterol
colesterol deHDL linealidad, comoaditividad
HDLutilizando
como variable
variable un modelo y homogeneidad
respuesta
respuesta de yregresin
yelelndice ndice delineal
dela
demasavarianza,
masa simple. la Novarianza
obstante, existen
o a la ecuacin de regresin otros contienen n - p - 1 grados de libertad. Bajo
lineal mltiple conmuchos determinantes de los
2el colesterol HDL como variable respuesta y el ndice de 2masa
niveles de colesterol HDL como, por ejemplo,
respuesta el a la ecuaci
respecto
corporalyyelelconsumo
corporal residual
consumo consumo desalcohol
de esde
alcohol un alcohol.
estimador
comovariables
como variables insesgado
Para obtener del
explicativas.
explicativas. parmetro
el efecto
La media aritmtica presenta las siguientes propiedades: poblacional
independiente .
de cada uno de estos
nealidad, aditividad ydeterminantes, homogeneidadsedepodra la varianza, ajustar launvarianza
modelo de regresin lineal mltiple con las el colesterol
hiptesis de linealidad, adit
corporal y el consumo de alcohol como variables explicativas.
EnEnnn==449 449controles
controles HDL delcomo
del estudio
estudio variable
EURAMIC
EURAMIC respuesta
Cambio
con
con y el
datos
datos ndice de
disponibles
disponibles masa de corporal
de estas
estas y el
de origen (traslacin). Si se suma una constante a cada uno de los dato consumo de alcohol como
estimadorEn insesgado del
n = 449 controles
Ejemplo
parmetro
variables del
11.2 En el Ejemplo
poblacional
explicativas.
estudio EURAMIC 2. 10.7 se estudi la relacin del ndice de masa
con datos disponibles de 2estas residual s2 es un estimador ins
2
variables,lalamedia
variables, mediaEn yylala desviacin
ndesviacin
= 449 controles tpicadel
tpica fueron
fueronde unaxx1muestra,
estudio 1= =26,226,2yylassmedia
EURAMIC ==3,61
x1x1 con 3,61de kg/m
datos kg/m
la muestra
disponiblespararesultante
para de estas esvariables,
igual a la la media inicial m
corporal con el colesterol HDL utilizando un modelo de regresin 22
lineal simple.
variables, la media yy la la tpica fueron x1 = 26,2 y s x11 == 3,61 3,61 kg/m kg/m para para el ndice de masa
1.2 En el Ejemplo 10.7media se estudidesviacin la relacin del ndice de masa
elelndice
ndicede demasa
masacorporal,corporal,xx22 ==16,5
corporal, 16,5yyy ssxx2 2===21,8
16,5 constante 21,8g/da
21,8 utilizada;
g/dapara
g/da parael
para si y
elelconsumo
consumo
consumoi = x +
i de c
dedealcohol y y == 1,08
, entonces x + yc.sEjemplo
Un 0,29511.2
= cambio deEn el Ejem
origen qu
No obstante, existen otros muchos fue fuer determinantes
r = -0,091
= -0,091 y de
las
y los
las niveles
correlaciones
correlaciones de colesterol
de de
estasestas
y HDL
variables
variables explicativas
explicativas co
n el colesterol el ndice HDL mmol/l
deutilizando
masa para
corporal, unelmodelo colesterol
x 2 = 16,5 HDL.
de regresin y s x22 El = 21,8coeficiente
lineal
x1 x2 x1 x2 de correlacin de Pearson entre el ndice de
g/da
simple. para el consumo de corporal con en el colestero
alcoholyy yy ==1,08
alcohol 1,08masa yysscomo, corporal
yy==0,2950,295 pormmol/l
y el consumo
mmol/l
ejemplo, para
para elseconsumo
elelrealiza de alcohol
colesterol
colesterol con HDL.
HDL.
de alcohol. fue El
frecuencia rEl == 0,091
es -0,091
el centrado
2coeficiente
1 xcoeficiente
xPara obtener
yde
ydeellas
lasde
efecto
correlaciones
correlaciones
variable, de
la independiente deestas
que estas variables
consiste explica
restar a
e, existenalcohol otros muchos variables
determinantes explicativas de mmol/l
los nivelescon el colesterol
colesterol
colesterol
deelcolesterol HDLHDL
HDL HDL fueron
fueron fueron r r
yx1 yx1 = 0,273
-0,273
= -0,273 y r
yy r =
yx2 yx2 0,232,
0,232,
= 0,232, respectivamente.
respectivament L
y y respectivamente.
= 1,08 y sy = 0,295 Las estimaciones para colesterol
losmuestra HDL.
coeficientes El coeficiente
de fueron
regresin de No obstante, existen otro
correlacinde
correlacin Pearsonde
dePearson cadaeleluno
entre
entre ndice
ndice de estos
dedemasa masacada
determinantes, valor deyyla
corporal
corporal elel podra su
colesterol
seconsumo
consumo ajustar
de
de media.
HDL un La
alcohol
alcohol modelo mediaryx1 mltiple
de=deregresin
-0,273 sey obtienen
una variable ryx2 =centrada ser, por
0,232, respectiva
ejemplo, el consumo de entonces
de Pearson
alcohol. entre como
Para obtener elde efecto estimaciones
estimaciones
independiente de de loslos coeficientes
coeficientes de de
regresin
regresin mltiple
mltiple se se
obtienen
obtienenento
e
correlacin el ndicetanto, masaigual corporal
a 0. y el consumo de alcohol como, por ejemplo, el co
lineal mltiple con el colesterol HDL como estimaciones variablederespuesta los coeficientes y el ndice de masa mltiple se obtie
de regresin
o de estos determinantes, se R.podra ajustar un modelo de regresin r r r rr r s s de cada uno
198 Pastor-Barriuso
Cambio de escala (unidades). yx yx Si yx2 se x1 x29y9 y 0
x12x2multiplica ,273
0,273+ 0+,2320,232 0,091
0datos0,de
,091 295 estos
0de,295 dete
= = cada uno de2 los una
yx
corporal y el consumo de alcohol comobvariables 1b =1 = 1 1explicativas. = -0,02
= -0
ple con el colesterol HDL como variable respuesta y el ndice de masa 1 1rx1rxr2yxx1 x2 sryxx1 2srxx11x2 9s y 1 100,,091
2 2 2
0,091
273 + 0,232 3 0,61 ,3091
,61 0,295
b = = lineal mltiple con el col
En n = 449 controles muestra por EURAMIC
una constante, conladatos media de r 2la muestra resultante1 0es igual a la media
1
del estudio 1disponibles s de estas ,091 2
3,61
colesterolbHDL ryxfueron
ryx2 rrx1x2 =s y-0,273 0,y273
ryx2+ =0,0,232,
232 0,respectivamente.
091 0,295 Las
1=
1
yx1 = = -0,0207,
2
1 rx1x2 s x1 1 0,091 2
3,
Estimacin 61
e inferencia de la ecuacin de regresin

estimaciones de los coeficientes de regresin mltiple se obtienen entonces como


ryx ryx1 rx1x2 s y 0,232 0,273 0,091 0,295
b2 = 2 = = 0,0028,
ryx1 1 ryxr2xr1xx21x2 s sy x2 0,2731 + 0,232
2
0912 0,091 021 ,8
,295
b1 = = = 0,0207,
1 rx21x2 s x1 1 0,0912 3,61
b0 = y - b1 x1 - b2 x 2 = 1,08 + 0,020726,2 - 0,002816,5 = 1,58,
ryx ryx1 rx1x2 s y 0,232 0,273 0,091 0,295
b2 = 2 = = 0,0028,
1 rx1x22
s x2 1 0,0912 21,8
de donde resulta la ecuacin de regresin
b0 = y b1 x1 b2 x 2 = 1,08 + 0,020726,2 0,002816,5 = 1,58,
y = 1,58 - 0,0207x1 + 0,0028x2,
de donde resulta la ecuacin de regresin
= 1,58 0,0207x1 + 0,0028x2,
condonde
de una varianza
resulta laresidual delde
ecuacin colesterol
regresinHDL respecto a dicha ecuacin
con una varianza residual del colesterol HDL respecto a dicha ecuacin
SSE 1 449 y = 1,58 - 0,0207x1 + 0,0028x2, 2 34,33
s2 = = { y i (1,58 0,0207 xi1 + 0,0028 xi 2 )} = 446 = 0,077.
446 446 i =1
con una
Estas varianza residual
estimaciones pueden del colesterol
obtenerse HDL respecto
directamente a dicha
de ajustar unaecuacin
regresin lineal mltiple
Estas
del estimaciones
colesterol pueden
HDL sobre obtenerse
el ndice directamente
de masa corporal y eldeconsumo
ajustar una regresin
de alcohol lineal
en los programas
estadsticos
SSEconvencionales,
1 449 cuyos resultados completos se muestran en
34,33 la Tabla 11.1.
s2 = del colesterol
mltiple
La ecuacin
=
446de regresin
{ y i sobre
HDL ,0207 xde
(1,58 el0ndice i1 +masa
0,0028 x i 2 )}2 y= el consumo
corporal
446 i =1 puede utilizarse para estimar el valor esperado 446
= 0,077.
de colesterol
del
HDL en funcin del ndice de masa corporal y el consumo de alcohol. As, por ejemplo,
alcohol
para en los programas
un ndice estadsticos
de masa corporal de 25convencionales, cuyos resultados
kg/m2 y un consumo de alcoholcompletos
de 20 g/da, el
Estas estimaciones pueden obtenerse directamente de ajustar una
modelo estima un nivel medio de colesterol HDL de (25, 20) = 1,58 0,020725 regresin lineal +
se muestran= en
0,002820 la mmol/l.
1,12 Tabla 11.1.
mltiple del colesterol HDL sobre el ndice de masa corporal y el consumo de
Las estimaciones b1 y b2 determinan el efecto independiente de cada variable explicativa sobre
la variable
alcohol enrespuesta, una vez
los programas [Tablacontroladas las posibles diferencias
11.1 aproximadamente
estadsticos convencionales, cuyosen
aqu] la otra variable
resultados explicativa.
completos

se muestran en la Tabla 11.1.


La ecuacin
Tabla de regresinde
11.1 Resultados puede utilizarselineal
la regresin para mltiple
estimar eldel
valor esperado
colesterol del sobre
HDL
el ndice de masa corporal (IMC) y la ingesta de alcohol en los controles del
colesterol
estudio HDL en funcin
EURAMIC. del11.1
[Tabla ndice de masa corporalaqu]
aproximadamente y el consumo de alcohol.
Anlisis de la varianza*
As, por ejemplo, para un ndice de masa corporal de 25 kg/m2 y un consumo de
La ecuacin de regresinSuma puede
de Gradospara
utilizarse de estimar el valor esperado
Razn
del de
cuadrados libertad Varianza varianzas
alcohol de 20 g/da, el modelo estima un nivel medio de colesterol HDL de y (25,
Regresin
colesterol HDL en funcin 4,58 del ndice de masa
2 corporal y2,29
el consumo de29,72
alcohol.
20) = 1,58 - 0,02072534,33
Error + 0,002820 = 1,12 446 mmol/l. 0,077
As, por ejemplo, para un ndice de masa corporal de 25 kg/m2 y un consumo de
Total 38,91 448
10
* Coeficiente
alcohol de 20deg/da,
determinacin R2 =estima
el modelo 4,58/38,91
un =nivel
0,118.
medio de colesterol HDL de y (25,
Coeficientes de regresin
20) = 1,58 - 0,020725 + 0,002820 = 1,12 mmol/l.
Test H0: j = 0
Estimacin Error estndar IC al 95% t Valor P 10
Constante 1,58 0,098 (1,39; 1,77) 16,14 < 0,001
IMC 0,0207 0,0036 (0,0278; 0,0135) 5,68 < 0,001
Alcohol 0,0028 0,0006 (0,0016; 0,0040) 4,68 < 0,001

Pastor-Barriuso R. 199
explicativa sobre la variable respuesta, una vez controladas las posibles
g/da (aproximadamente una desviacin tpica) en la ingesta de alcoholPor se asocian
otro lado, para un mismo nd
corporal se asocia con una disminucin media en el colesterol HDL de
diferencias en la otra variable explicativa. Por un lado, manteniendo constante el
con
Regresin unmltiple
lineal aumento medio en el colesterol HDL de g/da (aproximadamente una des
consumo y (xde1 +alcohol,
c1, x2) -cada
y (xincremento
1, x2) = b0 +de b1c(x1 1=+3,50
c1) +kg/mb2x22 -en
(bel b1x1 +deb2masa
0 +ndice x2 )
y (x1, x2 + c2) - y (x1, x2) = b0 + b1x1 + b2(x2 + c2) - (b0 + b1x1 + bcon 2x2)un aumento medio en el cole
Por un lado,
corporal se manteniendo
asocia con una constante
disminucin b1 =media
=elc1consumo
3,50(-0,0207)
deen
alcohol, = -0,072.
cada
el colesterol HDL de de c1 = 3,50 kg/m2
incremento
en el ndice de masa corporal se asocia con una disminucin media en el colesterol HDL de
= c2b2 = 200,0028 = 0,056. y (x1, x2 + c2) - y (x1, x2)
Por otroy lado,
(x1 + para
c1, x2un
) mismo
y (x1, xndice
2 ) = b 0 de
+ masa
b (x
1 1 corporal,
+ c 1 ) + b xincrementos
2 2 (b0 + b x
1 1de
+ c
b 2x=
2 2 ) 20
Para 1b1 = 3,50(
= cinducido 0,0207) = 0,072.
g/daevaluar el grado de confusin
(aproximadamente una desviacin por
tpica) el la
en consumo
ingesta dede alcohol
alcohol en la
se asocian
Porcruda
otro (una
lado,pequea
para unparte
mismo ndice
de la de masa
reduccin corporal, incrementos
del colesterol HDL entre los c2 = 20
desujetos cong/da
asociacin entre el ndice de
el masa corporal y deel colesterol HDL, basta comparar el el grado de confusi
con un aumento
(aproximadamente medio
una en colesterol
desviacin HDLen
tpica) la ingesta de alcohol sePara evaluar
asocian con un
Por otro
aumento lado,
medio para un mismo ndice de masa corporal, incrementos de c 2 = 20
sobrepeso no en
se el colesterol
debe a su mayorHDLndice
de de masa corporal sino a un consumo de
coeficiente ajustado mediante regresin mltiple b1 = -0,0207 con el coeficiente asociacin entre el ndice de mas
y (x1, x2 + c2) y (x
g/da (aproximadamente 1, xdesviacin
una 2) = b0 + btpica)
1x1 + b2en c2) (b0de+ alcohol
(x2la+ingesta b1x1 + bse 2x2asocian
)
alcohol ligeramente menor). No obstante, los efectos crudo y ajustado no difieren
crudo obtenido de una regresin =simple c2b2 =en 20la 0,0028
misma =muestra
0,056. de 449 controles
coeficiente ajustado mediante reg
con
Para un aumento
evaluar medio
elpequea
gradopor en el
departe colesterol
confusin HDL
inducidode de
por el consumo de alcohol ensujetos
la asociacin
substancialmente, lo que el reduccin
consumo alcohol no parece ser unlosfactor de con
b1 cruda
= rel
entre
(una
yx1 sndice
y / s x1 =
de la
masa0,295/3,61
de-0,273 corporal y=el-0,0222.
del
colesterolLacolesterol
razn
HDL,entre
HDL entre
bastaloscomparar
coeficientes
crudo el obtenido de una regresin
coeficiente
ajustado
Para y mediante
(x1, xel
evaluar
confusin
sobrepeso +sec2regresin
2 grado ) -dey para
importante
no debe a(x mltiple
1, x
confusin
su la
mayor +b1b1=x10,0207
= binducido
2) asociacin
0ndice bmasa
+por
entre
de 2(x con
c2)el- de
+corporal
el2 consumo
ndice coeficiente
(b + crudo
+ alcohol
0de
masa
sino 1un 2x2)layobtenido
b1axcorporal
ben
consumo el de de
crudo y ajustadosimple en la misma muestra de 449 controles b1 = ryx1 s y / s x1 == -0,2730,295/3
una regresin
asociacin
colesterolentre
0,2730,295/3,61
HDL el en
alcohol ligeramente ndice
los de masa
= 0,0222. La
controles
menor). No corporal
= crazn
del 20y0,0028
= entre
2b2 estudio
obstante, ellos
los colesterol
EURAMIC.= 0,056.
efectos HDL,
coeficientes
crudo bastay comparar
crudo ajustado
y ajustado el
no difieren
b1 0,0222 crudo y ajustado
coeficiente ajustado mediante
substancialmente, por lo queregresinel=consumo mltiple b1 = -0,0207
de=alcohol
1,08 no parece conser
el un
coeficiente
factor de
Para evaluar el grado de confusin b1 inducido
0,0207por el consumo de alcohol en la
11.3.2 Inferencia sobre los coeficientes de regresin
crudo
indica obtenido nodeseuna
que, si importante
confusin regresin
ajusta simple ende
porlaelasociacin
para consumo la misma
alcohol,
entre muestra de 449corporal
se sobreestima
el ndice de masa controles
un 100(1,08y el 1) = b1
asociacin entre el ndice de masa corporal y el colesterol HDL, basta comparar el
8%
En indica la que,
asociacin
el Apndice seinversa
sialnofinal del tema
ajusta delse
por elndice de masa
demuestra
consumo deque, corporal se con
bajo las
alcohol, el colesterol
asunciones
sobreestima de HDL. Esto es
unlinealidad,
100(1,08 b1
b1 colesterol
debido= ryxa1 sque / s el
HDL = -0,273
consumo
en los 0,295/3,61
de alcohol
controles = -0,0222.
presenta
del estudio una La razn
leve
EURAMIC. entre
correlacinlos coeficientes
negativa con el ndice
coeficiente y
ajustado
x1
mediante regresin mltiple b1 = -0,0207 con el coeficiente
de
aditividad masa y corporal,
homogeneidad
- 1) = 8% la asociacin lo queinversa
deinduce unndice
la varianza,
del pequeo sesgocorporal
losdeestimadores
masa en ladeestimacin
mnimos cruda (una
cuadrados
con el colesterol bpequea
indicaHDL. j
que, si no se ajusta por el
parte de ajustadode una regresin simple en la misma muestra de 449 controles debe a su
la
crudo yobtenido reduccin del colesterol HDL entre los sujetos con sobrepeso no se
mayor es ndice
debidode masa corporal sino ade unregresin
consumo de
unaalcohol ligeramente
j y correlacin 2
v=jj menor). No
siguen
Esto
11.3.2 aproximadamente
Inferencia asobre
que una
ellos distribucin
consumo
coeficientes de alcoholnormal con media
presenta leve varianza -1)negativa
en
8% la asociacin inversa d
obstante, los efectos crudo y ajustado no difieren substancialmente, por lo que el consumo
b1 = ryx1 s y / s x1 = -0,2730,295/3,61 b = 0-0,0222.
,0222 unLapequeo razn entre los coeficientes
Enconde
muestras alcohol no
el suficientemente
ndice al
el Apndice parece
definal
masadel ser un
corporal, factor
tema selodemuestra
grandes, 1 de confusin
=que induce que, importante
bajo
= 1,08 sesgopara
las asunciones en la
ladeasociacin
estimacin
linealidad, entre el
Esto es debido a que el consumo
ndice de masa corporal y el colesterol b1 0HDL ,0207en los controles del estudio EURAMIC.
crudo y ajustado 11
aditividad y homogeneidadb de la varianza, los estimadores de mnimos cuadrados con el bj de masa corporal, l
ndice
j j ~
11.3.2indica Inferencia
que, si no sobre los coeficientes
se ajusta por N de (0, regresin
1)de j = 0, 1, ,
, alcohol, p,
siguen aproximadamente una v jj b consumo
el
distribucin 0 ,normal
0222 con
se sobreestima
media
un 100(1,08
j y varianza 2vjj en
1
En el Apndice = = 1,08 asunciones de linealidad, aditividad
- 1) = 8% al la final del tema
asociacin se demuestra
inversa bdel
1 0,0207
ndice que,
de bajo
masalas corporal con el colesterol HDL.
y homogeneidad de la varianza,
muestras suficientemente los estimadores de mnimos cuadrados bj siguen aproximadamente
grandes,
donde vjj es un valor conocido que depende del 2tamao muestral y de las varianzas y
una distribucin
Esto es debido normal conelmedia
a que consumo j y de alcohol presenta
varianza vjj en muestras
una leve suficientemente
correlacin negativa grandes,
indica que, si no se ajusta por el consumo de alcohol, se sobreestima un 100(1,08
covarianzas entre las variables b j explicativas.
j ~ Si se reemplaza el parmetro desconocido
con el ndice de masa corporal, lo que N (0induce
, 1) , jun = 0, 1, , p,
pequeo sesgo en la estimacin
- 1) = 8% la asociacin inversa v jj del ndice de masa corporal con el colesterol HDL.
por la desviacin tpica residual s, puede probarse que los estadsticos resultantes siguen 11
dondeEsto vjj es es
undebido
valor conocido que depende del tamao muestral
a que el consumo de alcohol presenta una leve correlacin negativay de las varianzas y covarianzas
aproximadamente
donde
entre vjj es un valor
las variables unaconocido
distribucin
explicativas. Sique t de Student
depende
se reemplaza del con
el tamao los nmuestral
parmetro - pdesconocido
- 1 grados
y de lasde libertad
varianzas
por y
la desviacin
tpica conresidual s, puede probarse que los estadsticos resultantes
el ndice de masa corporal, lo que induce un pequeo sesgo en la estimacin siguen aproximadamente una
correspondientes
distribucin
covarianzas t deentre
Studenta la estimacin de
con los nexplicativas.
las variables la desviacin
p 1 grados tpica
de reemplaza
Si se residual,
libertad correspondientes a la estimacin
el parmetro desconocido
de la desviacin tpica residual, 11
por la desviacin tpica residual b j s,j puede~ t
probarse que los estadsticos resultantes siguen
n p 1 , j = 0, 1, , p.
aproximadamente una distribucin s v jj t de Student con los n - p - 1 grados de libertad
Notar que estas distribuciones de los estimadores bj en muestras suficientemente grandes no
correspondientes
requieren de estas
la asuncin a la estimacin
de normalidad de la y,desviacin
por tanto, tpica residual,
Notar que distribuciones de los estimadores bj son vlidas para
en muestras cualquier distribucin
suficientemente
subyacente de la variable respuesta.
grandes no requieren de la basuncin j j ~de normalidad y, por tanto, son vlidas para
200 Pastor-Barriuso R. t n p 1 , j = 0, 1, , p.
s v jj
cualquier distribucin subyacente de la variable respuesta.
Utilizando estos resultados, los intervalosjj de confianza al 100(1 - )% para los
los contrastes bilaterales de las hiptesis
variable explicativa H : de
= 0ausencia de efecto
se realizan medianteindependiente de cada
los estadsticos
0 j
coeficientes de regresin j vienen dados por
que H
ariable explicativa bajo dichas hiptesis nulas se distribuyen aproximadamente
0: j = 0 se realizan mediante los estadsticos
como
Estimacin una de
e inferencia t de Studentde regresin
la ecuacin
Utilizando estos resultados, los intervalos bj de confianza al 100(1 - )% para los
con n - p - 1 grados de libertad. t = ,
s v jj /2 s v jj
bj tn-p-1,1-
coeficientes de regresin bj j vienen dados por
Utilizando estos resultados,
t= , intervalos de confianza al 100(1 )% para los coeficientes
los
de regresin j vienen dados s vporjj
Ejemplo
quey bajo
los dichas11.3
contrastes Los programas
bilaterales
hiptesis nulasdeselas estadsticos deconvencionales
hiptesis aproximadamente
distribuyen ausencia de efectofacilitan
como unadirectamente
independiente
t de Studentde cada
bj tn p 1,1 /2 s v jj
ue bajo dichas hiptesis
ycon las
- pestimaciones
variable
los nulas
- 1explicativa
ncontrastes grados depuntuales
sebilaterales
distribuyenH0:de
libertad. = 0de
las selos
j aproximadamente coeficientes
realizan
hiptesis de mediante como
ausencia deunaregresin
los
de t de Student
estadsticos
efecto lineal mltipledey cada
independiente sus variable
explicativa H0: j =bilaterales
y los contrastes 0 se realizan de mediante
las hiptesis los de estadsticos
ausencia de efecto independiente de cada
on n - p - 1 grados deerrores
libertad. estndar. Segn la Tabla 11.1, los errores estndar de los coeficientes
Ejemplo 11.3 Los programas estadsticos bj
variable explicativa H t = convencionales
0: j = 0 se realizan mediante los estadsticos
, facilitan directamente
estimados para el ndice de masa corporal y
s v jj el consumo de alcohol son
Ejemplo 11.3 Loslasprogramas
estimaciones estadsticos
puntualesconvencionales
de los coeficientes facilitan directamente
de regresin lineal mltiple y sus
que bajo dichas hiptesis nulas se
respectivamente SE(b1) = s v11 = 0,0036byj SE(b2) = s v 22 =distribuyen aproximadamente como0,0006. unaPor t detanto,
Student con
n que
las estimaciones p puntuales
1 grados
bajo
errores dichas de hiptesis
estndar.
de libertad.
los Segnnulas
coeficientes la Tabla sededistribuyen
11.1, t
regresin = los errores
lineal,
aproximadamente
estndar ydesus
mltiple loscomo una t de Student
coeficientes
s v jj
los ICs al 95% para estos coeficientes de regresin son
errores estndar. estimados
n - p -la1 Tabla
conEjemplo
Segn para el
grados
11.3 dendice
11.1,
Los losde
libertad.
programas masa estndar
errores corporal de
estadsticos y ellosconsumo
coeficientes
convencionales de alcohol son directamente las
facilitan
queestimaciones
bajo dichas hiptesis puntualesnulas de los coeficientesaproximadamente
se distribuyen de regresin lineal como mltiple
una t dey Student
sus errores
estimados para elestndar.
ndice de b1Segn
respectivamente t446;0,975
masa la (SE
b1)(=
corporal
SETabla b111.1,
ys) el
=v-0,0207
consumo
11 los= 0,0036
errores 1,970,0036
de y alcohol
SE (
estndar b2 ) son
= =
des (-0,0278;
v
los 22 = -0,0135),
0,0006.
coeficientes Por tanto,
estimados para el
Ejemplo 11.3 Los programas estadsticos convencionales facilitan directamente
conndice - 1degrados
n - ppuede
As, masa
afirmarse corporal
de libertad.
con una confianza y el consumo del 95% que deel nivel
alcohol medio son respectivamente
de colesterol
respectivamente SE ( b
los ICs ) = s
1 al 95%b 2
v t = 0,0036SE ( b
11 para estos coeficientes
446;0,975 y 2 )
SE = (0,0028
b 2 ) = s v1,970,0006
=
de regresin
22 0,0006. son = (0,0016;
Por
Por tanto,
tanto, 0,0040),
los ICs al 95% para
las
estos estimaciones puntuales de son del estudio EURAMIC disminuye entre y sus
los coeficientes de regresin lineal mltiple
HDL coeficientes
en la poblacin de regresin
de referencia
los ICs al 95% para Ejemplo
estos 11.3 Los programas deestadsticos convencionales facilitan directamente
queerrores
tambin bcoeficientes
set446;0,975
1estndar.
incluyen SE de(bdentro
Segn regresin
1 ) la= Tabla
0,0207 son
los 11.1,resultados
1,97 0,0036
los errores de la= Tabla
( 0,0278;
estndar 11.1.
de los Encoeficientes
general,
0,0135), el
3,500,0135 = 0,047 y 3,500,0278 = 0,097 mmol/l por cada incremento de c1 =
b2 t446;0,975puntuales
las estimaciones SE(b2 ) = de 0,0028 1,97 0,0006
los subyacente
coeficientes = (0,0016;lineal 0,0040),
intervalo
SE(b1de
estimados
b1 t446;0,975 )2 =confianza
para el ndice
-0,0207 para el
deefecto
1,970,0036 masa =corporal (-0,0278; cde
y el-0,0135),
regresin
j asociado
jconsumo deaalcohol
mltipledeycsus
un aumento son j
que kg/m enseelincluyen
3,50tambin ndice de dentromasade corporal
los resultados entre sujetos
de la Tabla con la11.1. misma En ingesta
general,de el intervalo
errores
unidades enestndar.
la variable Segn lasubyacente
explicativa TablaX11.1, cjlos errores estndar de los coeficientes
de respectivamente
confianza para elSEefecto j se calcula como
j asociado a=un aumento de cj unidades
b2 t446;0,975 SE
que tambin ( b ) = 0,0028
2 se incluyen dentro ( b1,970,0006
1 ) = s v == (0,0016;
0,0036 y 0,0040),
SE
de los resultados de la2 Tabla 11.1. ( b ) s v 22 =En 0,0006. Poreltanto,en la
general,
alcohol, explicativa
variable y que la media calcula 11
Xj sepoblacional como del colesterol HDL aumenta entre 200,0016
estimados para el ndice de masa corporal y el consumo de alcohol son
intervalo
que tambin se incluyen los ICsde
= 0,032 dentro
95%
y 200,0040 decjlos
al confianza bj resultados
para tpara
estos
n p 1,1
= 0,080 mmol/l
/2 SE(cjsubyacente
de labpor
elcoeficientes
efecto
Tabla cj{11.1.
j ) = de
cada
bj ctj
regresin En1,1
incremento
/2 SE(abun
n jpasociado
son
general, de cel
j )}. aumento de cj
2 = 20 g/da en el
As,respectivamente
puedeenafirmarse SEcon (b1una) = sconfianza v11 = 0,0036 del 95% y SEque (b2el s vmedio
) =nivel 22 = 0,0006. Por tanto,
de colesterol HDL en
unidades
intervalo de confianza para el la variable
efecto explicativa
subyacente c X se
asociado
j calcula a como
un aumento de c
consumo
la poblacin debalcohol
1de t446;0,975
referenciaentre SEsujetosb1) estudio
(del = -0,0207
j con el
j 1,970,0036
mismo
EURAMIC ndice de
disminuye= masa
(-0,0278; -0,0135),
corporal.
entre
j Estos = 0,047
3,500,0135
los ICs al 95% para estos coeficientes
y3,500,0278 = 0,097 mmol/l por cada incremento de c1 = 3,50 kg/m en el ndice dede regresin son 2

unidades en la variable
efectos
masa explicativa
independientes
corporal b2entre X setdel
ctj446;0,975
bj sujetos
calcula
SEndice
n-p-1,1- (con como
b2/2)SElade
= cmisma
jbmasa
(0,0028 j) = c bj tn-p-1,1-
{1,970,0006
jcorporal
ingesta deyalcohol,
de/2= SE(0,0016;
la (bjy)}.quede
ingesta la alcohol
0,0040),
media poblacional
13
del colesterol HDL aumenta entre 200,0016
b1 t446;0,975SE(b1) = -0,0207 1,970,0036 = (-0,0278; -0,0135), = 0,032 y 200,0040 = 0,080 mmol/l por
sobre
cada
cjbque el colesterol
incremento
j tn-p-1,1- /2SE de HDLc = son
20 muy
g/da significativos,
en el consumo ya de que sus
alcohol correspondientes
entre sujetos contest
el mismo
tambin se(cincluyen
jbj)2 cj{dentro
bj tn-p-1,1- de los /2SE (bj)}. de la Tabla 11.1. En general, el
resultados
ndice de masa corporal. Estos efectos
b2 t446;0,975SE(b2) = 0,0028 1,970,0006 independientes del=ndice
(0,0016; de 0,0040),
masa corporal y de la
estadsticos
ingesta de alcohol sobre el colesterol HDL son muy significativos, ya que sus
intervalo de confianza para el efecto subyacente cjj asociado a un aumento 13 de cj
correspondientes test estadsticos
que tambin se incluyen dentro de los resultados de la Tabla 11.1. En general, el
b1 0,0207 como
unidades en la variablet explicativa = =Xj se calcula = 5,68, 13
intervalo de confianza para el efecto SE ( b 1 ) 0 , 0036
subyacente cjj asociado a un aumento de cj
cjbj tn-p-1,1-b/22SE(cjb0j),0028 = cj{bj tn-p-1,1-/2SE(bj)}.
unidades en la variable explicativa t= X=j se calcula = 4,68,
como
SE (b2 ) 0,0006
arrojan valores P bilaterales 2P(t446
cjbj tn-p-1,1- 5,68) 2F(5,68) < 0,001 y 2P(t446 4,68)
/2SE(cjbj) = cj{bj tn-p-1,1-/2SE(bj)}.
2{1 F(4,68)} < 0,001, tal como muestra la Tabla 11.1.
arrojan valores P bilaterales 2P(t446 -5,68) 2(-5,68) < 0,001 y 2P(t446 4,68) 13

11.3.3 2{1
Inferencia sobre
- (4,68)} la ecuacin
< 0,001, de muestra
tal como regresin
la Tabla 11.1.
13
La ecuacin de regresin puede utilizarse para estimar el valor esperado de la variable respuesta
en funcin de los valores de las variables explicativas. Dados unos determinados valores x01, ,
11.3.3 Inferencia sobre la ecuacin de regresin
Pastor-Barriuso R. 201
La ecuacin de regresin puede utilizarse para estimar el valor esperado de la variable

respuesta en funcin de los valores de las variables explicativas. Dados unos


aproximadamente normal con media 0de+ una 1x01determinada
de+ una px0pvariable
+determinada y varianza variable
o, dicho 2ho, 0 de
endicho
formadeequivalente,
forma equivalente, estos es
respuesta en funcin de los valores de las variables explicativas. Dados unos
muestras
Regresin suficientemente grandes,
lineal mltiple alrededor alrededor
de qu valor de qu sevaloragrupan se agrupan
los datoslosobservados. datos observados. Las medida Las
determinados valores x01, , x0p de las variables explicativas, el estimador insesgado
~ N( + central central
de la muestrade la muestra sirven tanto sirven para tanto para resumir
resumir los resultadoslos resultados
observ
AS DE TENDENCIA
TENDENCIA CENTRAL CENTRAL y 0 0 1 x01 + + p x0p , 2 h0 ),
que,
x0p del de valorcomo
las se muestra
esperado
variables de la envariable
explicativas, el Apndice elrespuesta de este
estimador es tema,
insesgado se distribuye
del valor deesperado
forma de la variable
realizar realizar inferencias inferencias
acerca de acerca de los parmetros
los parmetros poblacionales poblacionales
correspoc
sdencia
de tendencia respuesta
central central
informan informanes
acerca acerca de
es cul esmediaelms valor ms representativo
donde h0 es elde
aproximadamente cul
leveragenormal el valor
delcon punto (x representativo
, , + x10p x ) que+ puede + pxinterpretarse
y varianza como 2h0 en una
y 0 = b010 0+continuacin
b1 x01 01+continuacin
+sebpdescribenx0p 0p se describen los principales los principales estimadores estimadores de la t
de la tendenci
minada
variablevariable
o, dichoo,de dichoforma de equivalente,
forma equivalente, estos estimadoresestos estimadores indicanindican
que, muestras
medida sesuficientemente
como estandarizada muestra ende el su grandes,
distancia
Apndice
1.2 1.2
MEDIDAS MEDIDASderespecto
este DE tema,
DE al centro
TENDENCIAse distribuye
TENDENCIA de lasCENTRAL medias
de forma
CENTRAL muestrales
aproximadamente ( x1 ,
normal con media 0 + 1x01 + + px0p y varianza h0 en muestras suficientemente grandes, variable. variable.
2
qusevalor
alor se agrupan
agrupan los datos losobservados.
datos observados. Las medidas Las medidas de tendencia de tendencia
, x p ) de las variables explicativas. yLas ~ N( +Apartir de
la+ distribucin 2
),tn-p-1 resultante de
0 Las
medidas medidas
0 de 1 xtendencia
01 +
de tendencia p x0p
centralcentral h0informan
, informan acerca acerca de culde cul es elesvalor
el valormsms represe
repr
1.2.1 Media 1.2.1 aritmtica
Media aritmtica
ramuestra sirvenpara
sirven tanto tanto para resumir
resumir los resultados los resultados observados observados como para como para
donde h0 es el leverage del punto (x01, , x0p) que puede interpretarse como una medida
sustituir 2 porysuestimacin de una
de s2huna
, determinada
se=sigue
determinada que el intervalo
variablevariable o,,de
o,aritmtica,
dicho dichoconfianza
de=forma de forma 100(1 - )%
al1,15).
equivalente,
estandarizada
donde h es de
el t
su0 distancia
leverage del
446;0,975 s
respecto
punto 0 (x01 1,12
al, La
,
centro x 1,97
media ) La
de
que 0puede
las,077
media
aritmtica,medias 0interpretarse
0025
denotada
muestrales (1,09;
denotada
por
como( x 1,equivalente,
por
se
,define
una x p,) se estos
14
decomoestos
define
las estimadores
estimadores
lacomo
sumaladesum ind
ca
rencias
acerca de acerca de los parmetros
los parmetros poblacionales
0 poblacionales correspondientes.correspondientes. A 0p A
variables explicativas. A partir de la distribucin tnp1 resultante de sustituir por su estimacin 2

s2, para el valor esperado


intervalo 0 de confianza
+alrededor x01 +
1alrededor
alp100(1
de +valores
qu
de xvalor
qu0p es valorse)%agrupan
se muestrales
agrupan losvalor los
datos datos observados.
el observados.
porel Las Las
medidasmedidas de tendenci
de tende
ncriben
se describen los
se sigue
medida
principales
los principales estimadores
que el
estandarizada
estimadores
Por el contrario, de
de la tendencia
el desu
valorladistancia
tendencia
central de
esperado respecto
central
del una
valores
muestrales
al
decentro
colesterol una HDL
para el
dedividida
lasentremedias los
esperado
dividida
por nmero
muestrales
sujetos con 0 +nmero
(de
un x11xobservaciones
,01 + de observaciones
realizad
+ px0p es y 0 t446;0,975 s h0 = 1,12 1,97 0,077 0,0025 = (1,09; 1,15).
central central de la demuestra
la muestra sirven sirven
eltanto tantoparamuestral
pararesumirresumir los los
resultados
xi resultados
valorobservados observados como
paracom elpa
, x pndice ) de las devariables
masa corporal explicativas. de 32 Atpor
y 0 kg/m npartir
n el
p2 1,1
y unde
por slanhdistribucin
tamao
/2 consumo 0 .
tamao
muestral
de alcohol tyn-p-1
por xi yel
resultante
de
por
valor
40 g/dade
el
observado
se
observado
para el sujeto i-

Como cabra Por elesperar,contrario, la estimacin realizar


el valor realizar inferencias
esperadodelinferencias
ladel
valor media acerca
colesterol
esperado acerca
lavendra
media deHDL los
dede lalos
vendra
dada parmetros
entreparmetros
variable
por dada los por poblacionales
sujetos poblacionales
respuesta conenunel correspondientes.
puntocorrespondientes. A
aritmtica (x01Como
tica sustituir estima
, , x0pcabra 2 en 1,58 - 0,020732
por
) ser esperar, su estimacin
tanto mslaimprecisa s 2 + 0,002840 = 1,03 mmol/l, cuyo IC al 95%
, se sigue
cuanto msque el
extremo intervalo de confianza al 100(1 - )%
estimacin del valor 2 esperadosea de dicho
la variable puntorespuestao, ms concretamente,
en el
ndice de masa corporal continuacin
continuacin
cuanto mayor sea su distancia estandarizada h0 respecto al centro de las de 32 kg/m se describen
se
y describen
un consumo los los
principales
de principales
alcohol estimadores
de estimadores
40 g/da de
medias se la
detendencia
muestrales la tendencia central
central
de ud
tanto cada +0uno 1 n n
x
1 x1 + x 2 +1... + 2x n + x + ... + x
itmtica,
a, denotada para
por ( x 1,punto
denotada por
se el
,define valor
x(p,x).
01 ,esperado
se, como
define x0pla)como
suma
ser la +1,03
0 de suma x01
1ms
de +unocada de
imprecisa
1,97 px0p
,los
077 es
de 0,los
cuanto 0113 ms = extremo
(0,97; 1,09) seax dicho= punto x x=i = o, ms xi = . n
.
variable.
variable.
estima en 1,58 - 0,020732 + 0,002840 = 1,03 mmol/l, cuyo IC aln95% i =1 n i =1 n n
strales dividida
dividida por
por el nmero elEjemplo
nmero
concretamente, de observaciones
de observaciones
11.4 Paramayor
cuanto realizadas.
un ndice realizadas.
sea de Simasa
su denotamos
distancia Si denotamos
corporal de x = 25hkg/m
estandarizada 0 respecto
2
y un consumo
al centro de alcohol las
y 0 tn-p-1,1-/2 s h0 01 .
de es x02sensiblemente
= 20 g/da, el modelo ms 1.2.1impreciso,
1.2.1
de Media
1,03 1,97 0,077 Media
regresin ya que
aritmtica
La media el
aritmtica
mltiple punto
0,0113 estima
Laesmedia lade estimacin
un
medida
= (0,97; nivel
es la1,09) medio
medida (32,
de tendencia 40)
de est
colesterol
de tendenciacentral ms HDL
central ms utilizada
utilizada y de m
ao
estral y por xiyelpor
muestral valor x
medias
i el valor
observado
de 0muestrales observadopara
= 1,58 0,020725 el para
sujeto el i-simo,
sujeto i-simo,
i = 1, i
..., =n, 1, ...,
( x1 , , x+p ).0,002820 = 1,12 mmol/l. El punto de estimacin (x01, x02) = n,
Como (25,distante
20) est
cabra delprximo
centro deal las
LacentroLamedias
media mediade lasmuestrales
aritmtica,
aritmtica,
medias
interpretacin. (26,2;
denotada
denotada
muestrales
interpretacin. 16,5)
depor la por
Corresponde y xpresenta
xCorresponde
1, se
(variable 2,)define
se define
=respuesta
al (26,2;
centroun
como leverage
como
al16,5) lagravedad
centro
deen suma
dela ambas
suma
de de cada
de
de cada
gravedad losuno uno
de
datosdelos
los
de
ded
ndrapor
ada dada por yesperar, la estimacin del valor
0 t446;0,975 s h0 = 1,12 1,97 0,077 0,0025 = (1,09; 1,15).
esperado el
variables explicativas
es sensiblemente ms y, en consecuencia,
impreciso, ya que su leverage
el punto de hestimacin
0 = 0,0025(32, es bajo.
40) est As, el IC al
punto 95% alto
Ejemplo
(x01 ,de
para ,0,0113.
elx11.4
valorPara esperado
unvalores
ndice delmuestrales
valores colesterol
de muestrales
masa
principal HDL
dividida
corporal dividida
principal entre
de
limitacin por los
por
xlimitacin
01 es
sujetos
el=nmero
el
25que nmero
kg/mest con
esde que
muy un
2 observaciones
ydeunest ndice
observaciones
consumo de masa
realizadas.
de
muyo,influenciada
influenciada realizadas.
por Si denota
por
los valores Si den
los val
ext
0p) ser tanto ms imprecisa cuanto ms extremo sea dicho punto ms
1 n corporal
Por ndistante
el de
contrario,
1 x1 + x 2 x+1 ... 25
del kg/m
centro
el
2
valor
+ +x 2x+n ... + x n yde un las consumo
esperadomedias del de alcohol
muestrales
colesterol de
(26,2;
HDL 20 g/da
16,5)
entre es
ylos presenta
sujetos uncon leverage
un
x= x=i =
xconcretamente, x i = decuanto . mayor porpor .nsea eln1,12
el tamao
el distancia
tamao muestral
muestral ypuede
por xun
ymltiple
por elxhfiel
ivalor
elrespecto
valor
unobservado
fielobservado para para
laellas
sujeto
elcentral i-simo,
sujeto i-simo, i =dei1,=
alcohol yn0 xt02 n=y20 g/da, modelo depuede
regresin
caso, estima un nivel medio
su caso, no
estandarizada ser i no 0ser reflejo reflejo
de
al de
la tendencia
centro de tendencia central
de la distrib l
n i =1 El n i =valor predicho s
es h
un =
estimador 1,97
insesgado 0 , 077 no 0 ,
slo0025 de =
la (1,09;
esperanza 1,15). o media
ndicealto de
1
de masa0,0113. 446;0,975
corporal 0 0 2
de 32 kg/m y un consumo de alcohol de 40 g/da se
medias Pordeel colesterol
contrario,(HDL
muestrales xel1 ,valor
, dela xmedia
yla media
= 1,58
esperado vendravendra
-del dada
0,020725 dada
colesterol por+por 0,002820
HDL entre = 1,12 mmol/l.con
los sujetos El punto
un ndice
p0 ).
es la medida
medida de tendencia poblacional
de tendenciacentral
de masa
estima
Por ms de
central
el contrario, la variable
ms
utilizada
en corporal
1,58 - 0,020732 utilizada
el valor y derespuesta
de 32esperadoms y
kg/m de
+ 0,002840 entre
2ms
fcil ydel fcil
un colesterolEjemplo
aquellos
consumo
= 1,03 mmol/l, Ejemplo
sujetos1.4
de alcohol
HDL Encon
cuyo los
entre 1.4
este losIC En
y
dealmismos
eneste
40
95%los
sujetos y
g/da valores
en
sucesivos los
conseunestima deejemplos
sucesivoslas en ejemplossobre estimasobre
El
1,58 valor predicho y es un estimador insesgado no slo de la esperanza o media
deestimacin
0,020732(x+0100,002840 , x02) = (25,= 20) 1,03est mmol/l,prximo cuyoalIC centroal
1 95% n
1den lasxmedias 1 +x1x 2+ + xmuestrales
2...++... x+ xn
n. Corresponde
responde al centroalvariables
centro
de gravedad
ndiceEjemplo explicativas,
de gravedad
de masa de los
11.4corporal sino
de
datos
Para unde los tambin
de datos
la
32 kg/m
ndice dede
muestra.
de masa 2lamuestra.
la respuesta
Su utilizarn
y uncorporalconsumo Su x
individual
de de =
utilizarn
los x
x01alcohol
= =
valores25
n 1,09)
i =n
dex
los i un
kg/m x inuevo
=de
valores
del 2=
40 y del
colesterol
g/da
un sujetose
consumo
n n
y0n =.de
colesterol
HDL .
HDL
obtenidos obtenidos
en los 10 enp
poblacional 1,03 1,97 0 , 077 0 , 0113 = (0,97;
( x1 , x de la variable respuesta entre aquellos sujetos con los mismos valores de las 1 i =1
2 ) = (26,2; 16,5) de ambas variables explicativas y, en consecuencia, su
0muy +essensiblemente
x + de+losx02 xvalores +losimpreciso,
0.valores
En el estudio estudio
European EuropeanStudy on Study onmedio
Antioxidants, Antioxidants, Myocardial Myocardial
Infarct
mitacin es que
n es que est muy estinfluenciada
estima influenciada
alcohol
1 01 por
en 1,58 por
=ms
0p20
-p0,020732 g/da, +el0,002840
extremos Apndice
extremos
yay,que
modelo ende =elde
estey, esteeste
en
regresin
punto
1,03 tema
de mltiple
mmol/l, se demuestra
cuyo estima
estimacin IC(32, al 95% que,
un
40)nivel bajo
est las
distante del
variables explicativas, sino tambin La media La media de la la respuesta individual decentral
un central
nuevo sujeto y0 = y dey ms
centro
es de lash0medias
sensiblemente msmuestrales
impreciso, yaes
(26,2; esel
el16,5)
que medida
lapunto
medida
al y95%
de
presenta
de tendencia
de tendencia
unvalor
estimacin leverage (32,alto ms
40) ms
de utilizada
utilizada
del0,0113.
est de ms fcilfcil
unno fiel
ser reflejo
un fiel reflejo de leverage
de laasunciones
tendenciala tendencia
central
de la =central
0,0025
de
regresin la deeslabajo.
distribucin.
lineal As,
distribucin.
mltiple
de colesterol HDL de y 0 = 1,58 - 0,020725 + 0,002820 = 1,12 mmol/l. El punto
ICthe
(linealidad, Breast para
the el
Breast
(EURAMIC),
aditividad, esperado
(EURAMIC),
homogeneidadun estudio undeestudio
multicntrico
la multicntrico
de casosdey
El0 +valor1x01predicho
distante +del + pxes
centro 0p 1,03
+ las
deun interpretacin.
0. En 1,97el Apndice
interpretacin.
estimador
medias 0insesgado
,077
muestrales 0Corresponde
de,0113
Corresponde esteslo
no
(26,2; =
tema (0,97; se
aldecentro 1,09)
demuestra
allaycentro
esperanza de gravedad
de un que,
gravedad
o media bajo las
depoblacional
los
2de los datos datosde la demuestra.
la muestrS
colesterol HDL 0 entre los sujetos con unentre ndice 1991 de16,5)
entre masa
y 1991
1992 presenta
corporal
y
en 1992
ocho de
en leverage
25
ocho
pases kg/m pases
Europeos y un Europeos
e Israel e Israel
para pa
evalu
varianza
de la variable y normalidad),
respuesta la diferencia y - y sigue la distribucin normal
(x01entre x02) =aquellos 0sujetos con los mismos valores demuestrales
las variables
0
plo
En 1.4esteEn
y eneste
losysucesivos
enasunciones deejemplos
los sucesivos estimacin ejemplos
sobre , sobre
estimadores (25, 20)
estimadores estmuestrales,
muestrales, prximo se al secentro de las medias
explicativas,
altosensiblemente de latambin
sino
de 0,0113.
consumo
regresin
de alcohol deprincipal
la principal
lineal
de respuesta
20
limitacin
mltiple
g/dayaesque
limitacin es que
(linealidad,
individual esdeque est
un est
muymuy
aditividad,
nuevo influenciada
influenciada
y = por
homogeneidad
sujeto por
losdelos
0 + 1x01 + +
valores
la valores extremos
extremos y, eny, e
es ms impreciso, el punto de estimacin (32,040) est
px0p + 0(. xEn, xel )Apndice de este ytema se~variables
demuestra que, )),bajo las asunciones de la su regresin
2 = (26,2; 16,5) de ambas explicativas y, en consecuencia,
2
rn los valores
valores delvarianza
del colesterol colesterol
HDL1 yobtenidosHDL
normalidad), obtenidos
en los la encaso,
10
caso, los
diferencia 0 10
primeros
puede y0primeros
-puede no
y Nser
no
- (0,
sujetos y ser
unsigue (1
sujetos
del
fiel
un +
fiel hdistribucin
del
reflejo
la 0reflejo de la
de tendencia
la tendencia
normal centralcentral de la
dedistribucin.
la distribucin.
lineal mltiple (linealidad, aditividad, homogeneidad 0 0 de la varianza y normalidad), la diferencia
distante del centro de las medias muestrales (26,2; 16,5) y presenta un leverage
0 Ely0valor siguepredichola distribucin normal
y 0 esInfarction
un estimador insesgado no slo
opean Study on
o European Study on Antioxidants,
Antioxidants, leverage h0 =Myocardial
Myocardial 0,0025 es bajo. Infarction
andAs,Cancer eland IC Cancer
alof95% para of deellavalor esperanza o media
esperado del 15
de alto tal forma de 0,0113.que el intervalo de prediccin
y0 Ejemplo
y0 ~ N al
(0,1.4 100(1
2
(1 + -
yhen )% para una nueva observacin
Ejemplo 1.4 En En este este 0 )),
y losen los sucesivossucesivos ejemplosejemplos sobre sobreestimadores
estimadores muestra
mue
east (EURAMIC),
EURAMIC), unpoblacional
estudio un estudio de lamulticntrico
multicntrico
colesterol variable
HDL deentre respuesta
casos de
los ycasos entre
controles
sujetos aquellos
y controles
con realizado
un ndice sujetos
realizado de conmasalos mismosdevalores
corporal 25 kg/m de2 las y un
de individual
tal forma yque 0 viene el intervalo
dado por deutilizarn prediccin
utilizarn los losal
valores100(1
valores del del )%
colesterol para HDL
colesterol unaHDL nueva
obtenidos observacin
obtenidos en los en los10 primeros
10 primeros sujes
1991
1992 yen1992 individual
variables
ochoenpases
ochode tal
pases
El Europeos
valor formay viene
explicativas,que
0Europeos
predicho
consumo e Israeldado
el sino
ye0para
de alcohol por
intervalo
Israel
es un tambin
depara
evaluar de
estimador
20 g/da de
evaluar la
prediccin
el efecto respuesta
el de
insesgado
es al
efectolos no individual
100(1 deslo
los de la esperanza o media0 =
- )% de
para un nuevo
una nueva sujeto y
observacin
estudio
y 0 estudio
tn European European
p 1,1 /2 s 1 + h0 .
Study Study on Antioxidants,
on Antioxidants, Myocardial
Myocardial Infarction
Infarction andand Canc C
0+ 1x01 +
individual y +
vienepx0pdado + 0.por
poblacional de la variable respuesta entre aquellos sujetos En el Apndice de este tema se condemuestra que, bajo las
5 los mismos valores de las
0
5
the the Breast Breast (EURAMIC),
(EURAMIC), un estudio
un estudio multicntrico
multicntrico de casos
de casos
15 y controles
y controles rea
asunciones
Este intervalo
202 variables
Pastor-Barriuso de la
explicativas,
R. regresin
de prediccin lineal
sino tambin mltiple
parayla derespuesta (linealidad,
latn-p-1,1-
respuesta individual aditividad,
individual de un homogeneidad
de nico
un nuevo sujeto sujeto de
ser y0 = la
0 /2 s 1 + h0 .
entre entre1991 1991 y 1992 y 1992 en ocho en ocho pases pases Europeos
Europeos e Israel
e Israel parapara evaluar
evaluar el efecto
el efect d
varianza y
0 +substancialmente normalidad),
1x01 + + pxms la diferencia y - y sigue la
amplio que el 0intervalo de confianza para la respuesta media de distribucin normal
0p + 0. En el Apndice de este tema se demuestra que, bajo las
0
prediccin incorpora la varianza residual de cada respuesta individual alrededor de
Contrastes de hiptesis en regresin lineal mltiple
dicha ecuacin de regresin. Notar, adems, que los intervalos de prediccin para una

nueva observacin requieren de la hiptesis de normalidad, mientras que los intervalos


Este intervalo de prediccin para la respuesta individual de un nico sujeto ser substancialmente
de
msconfianza paraelelintervalo
amplio que valor esperado tiendenpara
de confianza a serlacorrectos
respuestaenmedia
muestras suficientemente
de todos los sujetos con un
mismo patrn de variables explicativas ya que, adems del error en la estimacin del valor
grandes,
predicho independientemente de la distribucin
por la ecuacin de regresin, subyacente
el intervalo de la incorpora
de prediccin variable respuesta.
la varianza residual
de cada respuesta individual alrededor de dicha ecuacin de regresin. Notar, adems, que los
intervalos de prediccin para una nueva observacin requieren de la hiptesis de normalidad,
Ejemplo
mientras 11.5intervalos
que los El valor predicho del colesterol
de confianza HDL esperado
para el valor para un nuevo sujeto
tienden concorrectos
a ser un en
muestras suficientemente grandes, independientemente de la distribucin subyacente de la
ndice
variable de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/da es de
respuesta.

nuevo
Ejemplo y 011.5
= 1,58El- 0,020725 + 0,002820
valor predicho = 1,12HDL
del colesterol mmol/l.
paraSin
un embargo, el con un ndice
nuevo sujeto
de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/da es de nuevo 0 = 1,58
0,020725
intervalo + 0,002820
de prediccin = 1,12
al 95% mmol/l.
para Sin embargo,
esta nueva el intervalo de prediccin al 95%
observacin
para esta nueva observacin
y 0 t446;0,975 s 1 + h0 = 1,12 1,97 0,077(1 + 0,0025) = (0,57; 1,67)
es notablemente ms impreciso que el intervalo de confianza calculado en el ejemplo
anterior
es para el valor
notablemente medio delque
ms impreciso colesterol HDLde
el intervalo enconfianza
todos los calculado
sujetos con
en dichos
el valores
del ndice de masa corporal y del consumo de alcohol (IC al 95% 1,09-1,15 mmol/l).
ejemplo anterior para el valor medio del colesterol HDL en todos los sujetos con

11.4 dichos
CONTRASTES
valores del DE HIPTESIS
ndice EN REGRESIN
de masa corporal LINEAL
y del consumo MLTIPLE
del alcohol (IC al 95%

Como1,091,15
se vio en mmol/l).
el Apartado 10.3.2 del tema anterior, el contraste de un modelo de regresin
lineal simple se reduce a evaluar si el coeficiente 1 asociado a la nica variable explicativa es 0,
en cuyo caso el modelo no aportar explicacin alguna sobre la variabilidad de la variable
respuesta. En regresin lineal mltiple, sin embargo, la presencia de mltiples variables
explicativas
11.4 permite realizar
CONTRASTES distintos contrastes
DE HIPTESIS de hiptesis,
EN REGRESIN que danMLTIPLE
LINEAL respuesta a diferentes
preguntas de investigacin. En general, los contrastes de hiptesis en regresin lineal mltiple
pueden clasificarse en tres grandes grupos, a saber:
Como se vio en el Apartado 10.3.2 del tema anterior, el contraste de un modelo de
yy El contraste global determina si el modelo en su conjunto explica una parte significativa
de lalineal
regresin variabilidad de reduce
simple se la variable respuesta.
a evaluar si el coeficiente 1 asociado a la nica
yy Los contrastes parciales individuales evalan la contribucin independiente de cada
variable explicativa
variable es 0, en
explicativa unacuyo caso el modelo
vez controlados no aportar
los efectos de lasexplicacin alguna sobre
restantes variables explicativas.
yy Los contrastes
la variabilidad parcialesrespuesta.
de la variable mltiplesEnvaloran si un
regresin determinado
lineal subgrupo
mltiple, sin embargo,delados o ms
variables explicativas contribuye significativamente a explicar la variabilidad residual de
la variable
presencia respuesta
de mltiples que noexplicativas
variables se explica por las otras
permite variables
realizar incluidas
distintos en el de
contrastes modelo.
En los siguientes apartados se describen los procedimientos estadsticos necesarios para realizar
hiptesis, que danConviene
dichos contrastes. respuestaresaltar
a diferentes preguntas
que estos de de
contrastes investigacin. En general,
hiptesis asumen losy aditividad
linealidad
en los efectos de las variables explicativas y, en consecuencia, no deben interpretarse como pruebas
contrastes
de bondad dedelhiptesis
ajuste, yaen
queregresin lineal
no facilitan mltiple
ninguna pueden clasificarse
informacin en tres del
sobre la idoneidad grandes
modelo lineal
aditivo para describir la relacin subyacente de las variables explicativas con la variable respuesta.
grupos, a saber:
11.4.1 Contraste global del modelo de regresin lineal mltiple 17
La hiptesis nula del contraste global de un modelo de regresin lineal mltiple establece que ninguna
de las variables explicativas se asocia linealmente con la variable respuesta, que puede formularse

Pastor-Barriuso R. 203
Regresin lineal mltiple
Al igual
antioxidantes en el riesgo que en regresin
de desarrollar lineal
un primer simple,
infarto este de
agudo contraste global
miocardio en se realiza

como descomponiendo
Hvalores = la
: 1 = 2obtenidos = variabilidad de 1,58,
la variable respuesta. Una devez estimada la ecuacin
hombres adultos. Los p= 0. Bajo
fueron esta
0,89, hiptesis 0,79, nula, la ecuacin regresin se reduce al trmino
Al0 igual que en regresin lineal simple, este1,29, contraste 1,42, global 0,84, se realiza
constante 0 y el modelo no aportar entonces ninguna explicacin sobre la variabilidad de la variable
1,06, 0,87, 1,96respuesta.y de1,53 regresin
El propsito
mmol/l. yLa=media b0es,+ por
bde1x1tanto, +
los + bpxpdel
contrastar
niveles suma
, lacolesterol
la hiptesis de cuadrados
HDLnula en H0: 1total= 2 =SST = dela=variable
0 frente a la
descomponiendo la variabilidad de la variable respuesta. Una vez estimada lap ecuacin
hiptesis alternativa bilateral de que al menos una de las variables explicativas se relaciona linealmente
estos 10 participantes conrespuesta es puede
la respuesta, quedescomponerse
corresponde a Hcomo : 0 para algn j = 1, , p.
de regresin y = b0 + b1x1 + 1+ bjpxp, la suma de cuadrados total SST de la variable
Al igual que en regresin lineal simple, este contraste global se realiza descomponiendo la
variabilidad
1 10
respuesta de 0la
puede ,89variable
+ 1,58=+respuesta.
descomponerse
n
...(+y1,53ycomo 2Una vez estimada la ecuacin
n
de regresin = b0 + b1x1
x+ = + x = SST
b x i, la suma de cuadrados i ) = =
1,223 ( ymmol/l.
y + yi y i ) 2
totali =1SST de la variable respuesta puede descomponerse
i
10 p p 10 i =1
como i =1 n n n
n n
SST = ( yii y ) =
( yii yi + yi
y i )(2y i y )( yi y i )
2 2
= ( y y ) 2 + ( y y ) + 2
i =1 en antioxidantes en el riesgo de desarrollar un primer infarto agu
riesgo aritmtica
media de desarrollar presenta un primer infarto agudo
las siguientes i =1 de miocardio
i =1
propiedades:
i =1 i =1
n n
DAS DE TENDENCIA 1.2 MEDIDASCENTRAL DE TENDENCIA n CENTRAL n n

Los valores
=
=
(( yyi yy )) 22 ++ (( yyi
1 cadahombres
yyi ))22 + = 2SSR( +y SSE,
adultos. i yLos y i ) obtenidos fueron 0,89, 1,58, 0,7
)( yi valores
Cambio de obtenidos fueron 0,89,
origen (traslacin). Si se 1,58,suma 0,79, =1 1,29,
i una
i =1
i
constante 1,42,i =0,84,
i =a1
i i
uno de los i =1 datos
s de tendencia Las medidas
central informande tendencia acerca centralde cul informan
n es el valor acerca n ms de representativo
cul 2es el valor ms representativo
1,53 mmol/l.
de una muestra, layaLa mediamedia de los
de laniveles
muestra del =
colesterol
resultante ( y y
es
que las desviaciones i =y1i - y y yi - iy=1i estn incorrelacionadas
i
HDL
) 2
+
igual ena( ylai media 1,06,
y i ) =0,87, SSR1,96
inicial +msSSE,y la1,53 mmol/l. La media de los niveles del co
rminada variable de una determinada
o, dicho de forma variable o, dicho deestos
equivalente, forma equivalente,
estimadores indicanestos estimadores indican
tes es
constante ya que
utilizada; si las
yi =desviaciones
xi + c, entonces i y y=yxi +icestn . Un cambio estos
incorrelacionadas de10 participantes
origen que es
e qu valor alrededor
se agrupan deque
ya qu
loslas valor
datos se nagrupan los datos observados.
observados.
desviaciones y i Las
- y medidas y yi - yni de estntendencia Lasn medidas de tendencia
incorrelacionadas
se
1 realiza
10 con
0,89frecuencia
+ 1,58 + ...es + 1el,53
centrado
(
y y )(
i de la variable,y i
y i ) =
que y e
consiste
i i y ei
en restar a 1 10 0,89 + 1,58 + ... + 1,53
a10 i =1
x i =
muestracentralsirven de tanto la10muestra
para resumir =i =1
1,223
sirvenlostanto
n
mmol/l.
resultadospara resumir observados
i =1
los nresultados
n
comoppara
i =1

n
observados
n
x = como
10n i =1
xpara
i =
10
= 1,223 m
= b0
ii
cada valor de la muestra su media. La
( ymedia de una variable y i eecentrada
+ y b ejser, ei y ei = 0
xijpor
i y )( y i y i ) = i
rencias acercarealizar deinferencias
los parmetros acerca i =1de los parmetros
poblacionales poblacionales
correspondientes. i =1 i =1 Aj =i1=correspondientes.
1 i =1 i =1 A

tanto, igual a 0.
resenta las siguientes de acuerdo propiedades:
a las ecuaciones lineales derivadas del n
La media mtodoaritmtica
p
de mnimos
n
presenta
cuadrados
n
las siguientes
(vase Apartado propiedades:
n se describen continuacin
los se
principales
11.3.1).
de acuerdo
describenestimadores
En consecuencia, los
a las ecuaciones
principales
de
la suma la tendencia
lineales
=
estimadores b
de derivadas
0 central
cuadrados
e +
i de de
del
la
total
b
una j ij i central
tendencia
j =1 mtodo
SST
x e
se
y
de descompone
mnimos
ede
i =una 0
en dos(vase
cuadrados trminos
Cambio de escala
(traslacin). (unidades).
Si independientes:
se suma Silase
una constante multiplica
a cada uno cada de unolos de
datos los
i =1
suma de cuadrados de la regresin SSR, que representa la variabilidad de

datos
Cambio de una
i =1
de origen
i =1
(traslacin). Si se suma unala constante a cad
variable. es cierta. Por otro lado, comopor elsemodelo vio la ensuma el regresin,
Apartado 11.3.1, la suma de
variable
Apartado respuesta11.3.1). explicada
En consecuencia, de de cuadrados y la suma total deSST se cuadrados
cuadrados descompone del errordelenSSE,
muestradepor
media unaque
la muestra constante,
derepresenta
acuerdo
resultante la amedia
es igual de la
a la muestra
media resultante
la variabilidad residual que permanece sin explicar. Por un lado,(vase
las ecuaciones lineales inicial derivadas
ms esla igual
de deluna a la
mtodo
muestra, media de mnimos
la media cuadrados
de la muestra laresultante
suma es igual a la
a aritmtica 1.2.1 Media erroraritmtica
decuadrados
dos SSE contiene
trminos deindependientes: n - p - 1 SSR
la regresin grados de libertad.
contiene
la suma p grados
de cuadrados Adems, dedelibertad bajo
la lasya
regresin asunciones
que,SSR, conocida
quedel modelo la media
;inicial
si yi =por xi +lac,constante
entoncesApartado utilizada;
y = 11.3.1).
x + si
c . yEn
Un
i = cx
cambioi , entonces
consecuencia, de origen yla = c
suma
que x .
muestral , los valores estimados por la ecuacin de regresin i = b0 + ib1xi1i + bpxipen= y += x + c. Un cam de cuadrados
constante total
utilizada; SSTsi y se
= descompone
x + c , entonces
2
itmtica,La media
denotada de regresin
b1(xrepresenta
aritmtica,
por
i1 x 1,) se
+ la lineal
+ bcomo
denotada
define
variabilidad mltiple,
p(xip por lade xsuma
p,)la
sese comprueba
quedan
define
de cada
variable como unoque
completamente
respuesta la
desuma elloscociente dedeterminados
explicada cada SSE/unoelde
por selos
distribuye
por
modelo losdepregresin,
coeficientes
Cambio simultneo
uencia es el centrado dos
asociados de origen
trminos
de laavariable, y escala.
independientes:
las variables Si se
explicativas.
que consiste multiplicala suma
en restar cada
de
De hecho, a uno
cuadradossepuedede
realiza los dedatos
probarse la de
regresin
con frecuencia SSR,
que el cociente que
es el centrado SSR/ de 2
sigue
la variable, que con
valoresuna
strales dividida conforme
distribucin
muestrales
por el nmero a una
dividida
de chi-cuadrado
chi-cuadradopor
observaciones el nmerocon con
p den
grados
realizadas.
y la suma de cuadrados del error SSE, que representa la variabilidad residual - p - 1
de
observaciones Sigrados
libertad
denotamos de libertad
cuando
realizadas. la con independencia
hiptesis
Si denotamos nula H : de
0 que 1 = la
2 =
una muestra
uestra su media.=La por una
p media constante
representa
= 0 es de la
cierta. y
una Por al resultado
variabilidad
variable otro centrada de se
lado, como la le suma
variable
ser, otra
se por respuesta
vio encada constante, el Apartado la
explicada media
valor de 11.3.1, por
la muestrael modelo
la suma
su media. de regresin,
de cuadrados
La mediadel de una variable c
ao muestral por nyel error
por hiptesis
x
tamao SSE
permanece
i el nula.
contiene
muestral
valor Combinando
observado y n
por p x
parael 1 valor
el las
grados distribuciones
de
observado
sujeto libertad.
i-simo,
sin explicar. Por un lado, la suma de cuadrados de la regresin SSR contiene
i para i muestrales
Adems,
= el1, sujeto
..., n, bajode ambas
las
i-simo, =sumas
asunciones
i 1, ..., de
n, del modelo de
de la muestra resultante y la suma
regresin es igual
lineal a la media
de mltiple,
cuadrados se del inicial
comprueba errorporSSE, laque primeraque constante,
representa
el cociente
tanto, igual SSE/ a ms
la 2 la
variabilidad
0. se distribuye residual que a una
conforme
ndra dada la por
media chi-cuadrado
pcuadrados,
vendra
gradosdada deconse n p que
tiene
por
libertad 1 grados
ya bajoconocida
que, ladehiptesis
libertad la con nulaindependencia
media 0: 1 = 2 y=,de
Hmuestral p = 0 estimados
losla=valores
hiptesis lanula.
raznCombinando
entrepor la
segunda constante;
(unidades). Si selasmultiplica si y
permanece =
distribuciones
i c x +
sin
cada uno
1 i c , entonces
explicar.
muestrales
2 de los datos Por y
de ambasun = c
lado,
de una
1 x +la c suma.
sumas deCambio
2 de cuadrados
cuadrados, de escala de
se tienela regresin
que bajo Si
(unidades). SSR contiene
la hiptesis
se multiplica nulacada uno de los
2
1 = n2 = explicada
H0:ecuacin
varianza = = 0 la
por razn
la regresin entre la varianza
SSR/ p y la explicada
varianza por
residualla regresin
s = SSE/( SSR/pn - y
p la
- 1) varianza
1 2 de x1 +p x 2 +ya...yque,
de regresin 1i+=nx nbconocida0 + bx11xi1 + +lax 2 + ...+ b+pxipn = y + b1(xi1 - x1 ) + + bp(xip - x p )
onstante, la media residual
Ejemplo 1.5 Para transformar
xde la
p=grados muestra
n i =1
= libertad
s =x i SSE/(n px = 1)es
resultante
los valores
igual x.i =a la
n ndeli =1colesterol HDL
media media muestramuestral
n de mmol/l a mg/dl se
. por yuna , losconstante,
valores estimados la media de porlalamuestra resultante e

quedan completamente determinados SSR por los p coeficientes asociados a las variables
ante utilizada; si yiecuacin = cxi, entonces de regresin y = c xy i. = b0 + b1xi12 + + inicial bpxip = por y +labconstante + + bp(sixipyi- =xcx
(x - x ) utilizada; p )i, entonces y = c x
multiplica por el factor de conversin 38,8. SSR As, utilizando p la propiedad p2 del / p 1 i1 1
a es la medida Lade media
tendencia es la medida
explicativas. central DeFhecho,de= tendencia
ms utilizada
puede= central y de ms
probarse ms fcil
que utilizada
~el cociente y deSSR/ ms fcil 2 = Fp,n p 1
sigue una distribucin
ps 2
SSE n2 p 1 /(n
Cambio
simultneo p 1 ) de origen
o de origen y escala.
cambio de escala, quedan
Si se multiplica
la mediacompletamente
del colesterol HDL
cada uno
determinados de
en
los
mg/dl
datos porse
de los p coeficientes asociados

2 calculara
a las yvariables
escala. Si se multiplica cada u
n. Corresponde interpretacin.
al centro Corresponde
de gravedad de los(ndatos
al centro p de1)la
de gravedad muestra. de los Su datos de la muestra. Su
chi-cuadrado con p grados de libertad cuando la hiptesis nula2H0: 1 = 2 = = p = 0
na constante y al resultado explicativas. se le suma
Deen hecho,otra constante,
puede probarse la media que el una muestra
cociente SSR/ porunasigue constante y al resultado se le suma otra c
una distribucin
directamente a se distribuye
partir de su media como el cociente
mmol/l de dos
como 1,223distribuciones
38,8 = 47,45 chi-cuadrado
mg/dl. independientes divididas por
mitacin es principal
que estlimitacin
muy influenciada es que est pormuy los valoresinfluenciada extremos por los y, en valoreseste extremos y, en este
sussecorrespondientes
distribuye comogrados el cociente de libertad, de dos distribuciones
que equivale chi-cuadrado a una distribucin F de Fisher con p
independientes
tante es igual a la chi-cuadrado
media inicial por la primeradeconstante, ms ladelalahiptesis muestranula resultante 1es = igual
entre a la= media
p =19 0 inicial por la prim
grados de libertadcon en pelgrados numerador libertad
y n pcuando 1 en el denominador. H
La0: razn 2 = las varianzas
no ser uncaso, puede no
fiel reflejo de ser un fiel reflejo
la tendencia central de de la la tendencia
distribucin. central de la distribucin. 6 a una distribucin F
divididas por sus correspondientes grados de libertad, que equivale
; si yi = c1xi + c2, entonces y = c1 x + c2. segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2.
R.con p grados de libertad en el numerador y n - p - 1 en el denominador. La 19
y endelos
Fisher
204 Pastor-Barriuso
plo 1.4 En este Ejemplo 1.4 En
sucesivos este y en lossobre
ejemplos sucesivos ejemplos
estimadores sobre estimadores
muestrales, se muestrales, se
ransformar los valores del colesterol HDL de mmol/l a mg/dl seEjemplo 1.5 Para transformar los valores del colesterol HDL
delrazn
arn los valoresutilizarn entre las varianzas
los valores
colesterol HDL explicada
del colesterol
obtenidos 10y primeros
HDL
en los residual constituye,
obtenidos 10 por
en los del
sujetos tanto, sujetos
primeros el estadstico
del para el
Contrastes de hiptesis en regresin lineal mltiple

Tabla 11.2 Tabla genrica del anlisis de la varianza en regresin


Tabla 11.2 Tabla genrica del anlisis de la varianza en regresin lineal mltiple.*
lineal mltiple.*
Suma de Grados de Razn de
Suma de
cuadrados Grados de
libertad Varianza Razn de
varianzas
cuadrados libertad Varianza varianzas
n
SSR SSR
Regresin SSR = ( y
i =1
i y) 2 p
p
F=
ps 2

n n
SSE
Error SSE = ei2 = ( y i y i ) 2
i =1 i =1
n p 1 s2 =
n p 1

n
Total SST = (y
i =1
i y) 2 n 1

* Coeficiente
* Coeficiente de determinacin
de determinacin R2 = SSR/SST.
R2 = SSR/SST.

explicada y residual constituye, por tanto, el estadstico para el contraste global del modelo de
regresin lineal mltiple. La descomposicin de la variabilidad de la variable respuesta, junto
con la razn de varianzas resultante, suele resumirse en la tabla del anlisis de la varianza
(Tabla 11.2).
Como complemento al contraste global del modelo, suele calcularse el coeficiente de
determinacin R2 = SSR/SST, que es una medida cuantitativa de la proporcin de la variabilidad
equivale al cuadrado del coeficiente de correlacin r y entre los valores observados yi
de la variable respuesta explicada por el modelo de yregresin mltiple. El coeficiente de
determinacin R2 vara entre 0 y 1 y aumenta siempre que se incluyen nuevas variables
de la variable
explicativas en elrespuesta
modelo, yaunque
los valores incrementoy i puede
este predichos por la no
ecuacin de regresin,
ser significativo que
(ver se
apartado
siguiente). Otra de sus principales propiedades es que equivale al cuadrado del coeficiente de
coeficiente de correlacin
correlacin ryy entre
conoce como entre losvalores
los valores
coeficiente observadosyyimltiple
de observados
correlacin ide la variable
, respuesta y los valores predichos i
por la ecuacin de regresin, que se conoce como coeficiente de correlacin mltiple,
y los valores predichos y i por la ecuacin de regresin, que se 2
n
n 2
( y y )
SSR i =1 i
2


i =1
(
y i y )

de correlacin mltiple, 2
R = = n = n n
SST
( y i y ) 2 ( y i y ) 2 ( y i y ) 2
i =1 i =1 i =1
2
n
n
( y ( y i y ) 2
2 2
y) n n

i =1
i
i =1 ( y i y )( y i y ) ( y i y i )( y i y )
= n = n i =1 i =1
2 =
n

( y y ) 2
( y y ) 2
(
y y ) n n

( y i y ) 2 ( y i y ) 2
i i i
i =1 i =1 i =1
2 i =1 i =1
n n

( y i y )( y i y ) ( y i y i )( y i y ) n
2

=
i =1 i =1 ( y i y )( y i y )
= n = 2
i =1
n n
ryy .
( y y ) 2
(
y y ) 2 n

( y i y ) ( y i y )
i i 2 2
i =1 i =1 64
2 i =1 i =1
n
( y i y )( y i y )
Notar quelas estimaciones de los coeficientes de regresin minimizan la suma de cuadrados del
= n Notar que las estimaciones de los coeficientes de regresin minimizan R la2 suma de
i =1 2
error
n
= r yy .
SSE y, en consecuencia, maximizan el coeficiente de determinacin del modelo. De la
( y i y ) 2
(
relacin
y i y )
entre
2
los coeficientes de determinacin y correlacin mltiple, se deriva
i =1 cuadrados del error SSE y, en consecuencia, maximizan el coeficiente de determinacin
entonces que
i =1
las estimaciones b0, b1, , bp maximizan la correlacin entre los valores observados yi y los
R2 del modelo. De la relacin entre los coeficientes de determinacin y correlacin
es de los coeficientes de regresin minimizan la suma de
Pastor-Barriuso R. 205
mltiple, se deriva entonces que las estimaciones b0, b1, , bp maximizan la correlacin
y, en consecuencia, maximizan el coeficiente de determinacin
entre los valores observados y y los valores predichos y = b + b x + + b x , de tal
estimada y = 1,58 - 0,0207x1 + 0,0028x2
correlacin con la variable respuesta.
Regresin lineal mltiple 449
SSR = (1,58 0,0207 x i1 + 0,0028 x i 2 1,08) 2 = 4,58
Ejemplo 11.6 En la primera
i =1
parte de la Tabla 11.1 se presenta el anlisis de la

valoresvarianza de lai =regresin


predichos b0 + b1xi1lineal
++ mltiple
bpxip, dedel
talcolesterol
forma queHDL sobreotra
cualquier el ndice de
combinacin lineal
y la suma de cuadrados residual
de las variables explicativas tendr menor correlacin con la variable respuesta.
semasa
descompone
corporal en y ellaconsumo
suma de decuadrados
alcohol.explicada
La suma deporcuadrados
la ecuacin de del
total regresin
colesterol
Ejemplo 11.6 En la449primera parte de la Tabla 11.1 se presenta el anlisis de la varianza
estimada
HDL y =SSE
1,58=- { y i 1(1+,58
0,0207x 0,0207
0,0028x x i1 + 0,0028 x i 2 )}2 = 34,33.
de la regresin lineal
se descompone en lai =suma
1
mltiple
de cuadrados explicada por la ecuacin de
del colesterol
2 HDL sobre el ndice de masa corporal y el
regresin
consumo de alcohol. La suma de cuadrados total del colesterol HDL
estimada y = 1,58
se en=la- 0,0207x
449 + 0,0028x
449
Pordescompone suma de 1 cuadrados
tanto, el SSR
coeficiente (1de
, SST
58 = (xyi1i +2explicada
determinacin
0, 0207
i =1
1,08 ) 2 x=i 2por
0se,0028
estima 1la
en ,08ecuacin
38,91
R 2 2
= 4,58de regresin
=) 4,58/38,91 = 0,118 y
i =1
estimada
se y = 1,58
descompone la- 0,0207x + 0,0028x2explicada por la ecuacin de regresin estimada
deencorrelacin
suma de1mltiple
cuadrados
449
el coeficiente en r = 0,118 = 0,343. Es decir, la 21
= 1,58 SSR
0,0207x =
1 + (1,58
0,0028x
y la suma de cuadrados residual

i =1
2
0,0207 x i1 +yy0,0028 x i 2 1,08) 2 = 4,58
449
combinacin lineal del ndice de masa corporal y el consumo2 de alcohol presenta
SSR = (1,58 0,0207 x i1 + 0,0028 x i 2 1,08) = 4,58
y la suma de cuadrados 449 i =1
residual
una correlacin de
SSE = 0,343 { y i con
(1,el 0,0207 xHDL,
58colesterol i1 + 0,0028 x i 2 )}2 = as
consiguiendo 34,33.
explicar el
y la suma de cuadrados i =1 residual
y11,8%
la suma devariabilidad
de la cuadrados 449 residual
SSE = { ydel colesterol HDL en los controles2 del
i (1,58 0,0207 x i1 + 0,0028 x2i 2 )}
estudio
= 34,33.
Por tanto, el coeficiente i =1 de determinacin se estima en R = 4,58/38,91 = 0,118 y
EURAMIC. Esta variabilidad
449
Por tanto, el coeficiente de determinacin explicada por se el modelo
estima en de regresin lineal mltiple
R2 = 4,58/38,91 = 0,118 y el
SSE = { y i (1,58 0,0207 x i1 + 0,0028 x i 2 )}2 = 34,33.
elcoeficiente
coeficiente
Por tanto, el dede correlacin
correlacin
coeficiente mltiple
mltiple
de determinacin en r = 0 ,118 = 0,343.
2
yyse estima en R = 4,58/38,91 = 0,118 Es
Es decir,
decir, lala combinacin
ya y
i =1
representa una parte significativa de la variabilidad
lineal del ndice de masa corporal y el consumo de alcohol presenta una correlacintotal del colesterol HDL, de
0,343
combinacincon el colesterol
lineal del ndice HDL, consiguiendo
de masa corporal as explicar
yrazn el 11,8% de la variabilidad del
el coeficiente
Por tanto, deglobal
correlacin mltiple en ryse =la 0el,118
consumo
=R0,343.
2 devarianzas
alcohol
Es decir,=presenta
la0,118 y
que
incluidas en elel
el contraste
colesterol HDL coeficiente
modeloen los delde modelo
determinacin
controles
contribuyan demediante
del estudio
forma estima
y EURAMIC.
significativa enentre =las
4,58/38,91
Esta variabilidad
a explicar una parteexplicada
explicada
de la por
el
una modelo de regresin lineal mltiple representa una
correlacin de 0,343 con el colesterol HDL, consiguiendo as explicar el parte significativa de la variabilidad
ycombinacin
el residual
total de lalineal
coeficiente de
del colesterol
variabilidad del ndice
correlacin
HDL,
respuesta, ya quedeelmasa
mltiple
pudiendo en
contraste
haber runa
corporal
yy global y0,118
=o varias eldel
consumo
= 0,343.de
modelo
variables alcohol
Es decir,
mediante
que lapresenta
tenganlarazn
nula entre
o las
varianzas explicada y residual
11,8% de la variabilidad del colesterol HDL en los controles del estudio
una contribucin.
escasa correlacin
combinacin deEn
lineal 0,343
del este con
ndice el
de4colesterol
sentido, cabra
,masa
58 HDL,2,29yconsiguiendo
preguntarse
/ 2 corporal si es posible
el consumo asalcohol
de explicar
eliminar el
algunas
presenta
F= = = 29,72
EURAMIC. Esta variabilidad explicada 34,33 / 446por 0el,077 modelo de regresin lineal mltiple
11,8%
variables
una de la variabilidad
explicativas
correlacin del modelo
de 0,343 del
concolesterol
elsin HDL
afectar
colesterol en los
sensiblemente
HDL, controles
consiguiendo del
asestudio
a la capacidad
explicarpredictiva
el del
resulta en un valor P = P(F2,446 29,72) < 0,001 bajo la distribucin F de Fisher con 2
representa una parte significativa de la variabilidad total del colesterol HDL, ya
grados
EURAMIC.
resulta
mismo.
11,8% Losde libertad
Esta
encontrastes
de en
unvariabilidad
la el P(F
valorvariabilidad
Pparciales
= numerador
se
del2,446 y 446
explicada
ocupan
29,72)
colesterol <en0,001
por
de
HDL darel denominador.
enmodelo
losbajo
respuesta ladedistribucin
controles regresin
este delineal
tipoestudio
del mltiple
F de Fisher
preguntas,
que el contraste global del modelo mediante la razn entre las varianzas explicada
11.4.2representa
Contrastes
valorando
con
EURAMIC. una parte
Esta significativa
deparciales
la contribucin
2 grados libertad adicional
en el numerador
variabilidad deuna
de
explicada la variabilidad
opor
yms
446 en eltotal
el variables
modelo del colesterol
deexplicativas
denominador.
regresin HDL,
a lo
lineal ya ya
mltiple
y residual
Cuando queelelcontraste
explicado
representacontraste
por una global
global
las otras
parte de
del regresin
variables modelo
significativa presentes es variabilidad
demediante
la significativo,
en el la razntotal
modelo. el del
entre modelo
las en suHDL,
varianzas
colesterol conjunto
ya resulta
explicada
efectivo a la hora de explicar la variabilidad observada en la variable respuesta. No obstante,
11.4.2 Contrastes parciales
esto noLa
que implica
y residual
hiptesis
el contrastenecesariamente
nulaglobal
del contraste
del que4parcial
,todas
58 mediante
/ 2 las 2,29 que,explicativas
variables
establece una
entrevez incluidas
lasincluidas las en el modelo
variables
F =modelo = la razn = 29,72 varianzas explicada
contribuyan de forma significativa 34a,33explicar
/ 446 0una
,077parteel de la variabilidad de la respuesta,
Cuando el contraste global de regresin es significativo, modelo en su conjunto
pudiendo haber una o varias variables
y residualX1, ..., Xp-r, 1 r < p, las que tengan nula o escasa contribucin. En esteno sentido,
explicativas 4,58restantes
/2 2r ,variables
29 Xp-r+1 , ..., Xp del modelo se
cabra preguntarse si es posibleFeliminar = algunas = variables explicativas del modelo sin afectar
= 29,72
resulta efectivo a lavalor
horaPde = explicar
P(F2,44634 la,29,72)
33 variabilidad
/ 446 < 0,0010,077 observada
bajocontrastes en la variable
la distribucin F derespuesta.
resulta
sensiblemente en aun la capacidad
relacionan linealmente conpredictiva
la variabledel mismo.
respuesta. Los
Ms concretamente, parciales seFisher
ocupan de dar
se pretende
respuesta a este tipo de preguntas, 4 ,58 / 2 2 , 29
No obstante, esto no implica F = valorando que la=contribucin = 29,72 adicional de una o ms variables
con 2 grados
explicativas a lo ya libertad necesariamente
deexplicado en
por ellas
numerador
34 otras
,33 / y 446
variables
446 0
todas
, 077en las
presentes
variables explicativas
el denominador.
enhiptesis
el modelo.
resulta en
contrastar un valor P
la hiptesis = P(F
nula H0:2,446p-r+1 29,72)
= =<p0,001 bajo laa la
= 0 frente distribucin F de Fisher
alternativa
La hiptesis nula del contraste parcial establece que, una vez incluidas las variables 22
con 2 H
explicativas
bilateral
resulta grados
Xen un
11:, ...,
j de
0,,libertad
Xvalor
pr para p,enlas
1 Pr=algn
<P(F el
2,446
numerador
j =restantes
p -29,72)
r + 1, <y0,001
, 446
r variables p, en enbajo
Xelel denominador.
la, ...,
modelo
pr+1 Xpde
delregresin
distribucin modelo
F deno se relacionan
lineal
Fisher
11.4.2 Contrastes parciales
linealmente con la variable respuesta. Ms concretamente, se pretende contrastar la hiptesis
nula 0: 2
Hcon
mltiple grados
pr+1 = de p = 0 frente
= libertad a la hiptesis
en el numerador y 446 alternativa bilateral H 1: j 0, para algn
en el denominador.
Cuando
j11.4.2 rel+contraste
= p Contrastes global
1, , p, parciales
en de regresin
el modelo de regresin es significativo,
lineal mltiple el modelo en su conjunto

resulta efectivo a la Yhora 1 x1 +


0 +explicar
= de p r xp r + p observada
la+variabilidad r+1 xp r+1 + en
la p xp + . respuesta.
+ variable
CuandoContrastes
11.4.2 el contrasteparciales
global de regresin es significativo, el modelo en su conjunto
NoPastor-Barriuso
obstante,
Notar queR.
206 resulta
esto
esteno implica parcial
contraste necesariamente que todas
eslaequivalente a la las variables explicativas
comparacin de dos modelos: el
Cuandoefectivo a la
el contraste hora dede
global explicar
regresin variabilidad
es significativo, observada en laen
el modelo variable respuesta.
su conjunto
22
No anterior
obstante, modelo
esto no completo
implica que incorpora las
necesariamente que p todas
variableslas explicativas
variables y el modelo
explicativas
resulta efectivo a la hora de explicar la variabilidad observada en la variable respuesta.
Y = 0 + 1 x1 + + p-r xp-r + p-r+1 xp-r+1 + + p xp + .
explicativas sometidas al contraste, asegurndose de utilizar las mismas observaciones
Contrastes de hiptesis en regresin lineal mltiple
Notar que este contraste parcial es equivalente a la comparacin de dos modelos: el
en ambos modelos. Al incluir nuevas variables explicativas sobre la misma muestra de
anterior modelo completo que incorpora las p variables explicativas y el modelo
observaciones,
Notar la variabilidad
que este contraste parcial esde equivalente
la variable respuesta explicadade
a la comparacin pordosel modelo
modelos:completo
el anterior
modelo completo que incorpora las p variables explicativas y el modelo
reducido que resulta de excluir las r variables Xp-r+1, ..., Xp objeto del contraste,reducido que resulta
de SSR 1 ser
excluir las siempre mayor
r variables o,igual
Xpr+1 ..., Xpque la variabilidad
objeto explicada por el modelo reducido
del contraste,
Y = 0 +SSR
SSR0, de tal forma que la diferencia 1 x 1 + + p r x p r + ,
1 - SSR0 representa el incremento en la
dado que los coeficientes asociados a dichas variables son 0 bajo la hiptesis nula. As, los
variabilidad
dado que
contrastes losexplicada
parciales al incluir
coeficientes las variables
asociados
son particularmente atiles
dichas Xp-r+1
variables
para comparar Xp.el0Puede
, ..., son bajo probarse
ajuste que,
ladehiptesis si la
nula.
dos modelos As,
anidados,
lo que permite decantarse entre el modelo ms simple o el modelo extendido con variables
hiptesis
los nula
contrastes
adicionales en H0: p-r+1
parciales
funcin del son = pdel
= particularmente
resultado = 0contraste.
es cierta, el cociente
tiles para comparar (SSR1el- SSR
ajuste 2 dos
0)/de sigue una
El procedimiento
modelos anidados, ms sencillo
lo que permitepara realizar un contraste parcial
mses ajustar por separado el
distribucin chi-cuadrado con los rdecantarse
grados de entre el modelo
libertad simple
correspondientes alonmero
el modelode
modelo completo y el modelo reducido excluyendo las r variables explicativas sometidas al
contraste,
extendidoasegurndose
con variables deadicionales
utilizar lasenmismas
funcinobservaciones en
delambos modelos. Al incluir
variables explicativas a contrastar. Asimismo, ladel resultado
suma contraste.
de cuadrados del error del
nuevas variables explicativas sobre la misma muestra de observaciones, la variabilidad de la
variable respuesta explicada
El procedimiento ms por el modelo completo SSR1 ser siempre mayor poro igual que la
modelo completo SSE 1 essencillo para realizar
independiente un contraste
del incremento parcial
en la es ajustar
variabilidad explicada
variabilidad explicada por el modelo reducido SSR0, de tal forma que la diferencia SSR1 SSR0
representa elelincremento en la variabilidad explicada alexcluyendo
incluir las variables Xpr+1, ..., Xp. Puede
separado
SSR1 - SSR 0modelo completo
y el cociente SSEy1/el 2modelo reducido
se distribuye segn las r variables
una chi-cuadrado con n - p - 1
probarse que, si la hiptesis nula H0: pr+1 = = p = 0 es cierta, el cociente (SSR1 SSR0)/ 2
sigue una distribucin chi-cuadrado con los r grados de libertad correspondientes al nmero de
grados explicativas
variables de libertad. De estos resultados
a contrastar. se deriva
Asimismo, la suma de H
que, bajo 0: p-r+1 = del
cuadrados p = del
=error 0, lamodelo
23
completo SSE1 es independiente del incremento en la variabilidad explicada SSR1 SSR0 y el
razn SSE
cociente entre/el2 incremento
se distribuyedesegn
la varianza explicada por
una chi-cuadrado conambos
n p modelos
1 grados(SSR 1 - SSRDe
de libertad. 0)/restos
1
resultados se deriva que, bajo H0: pr+1 = = p 2= 0, la razn entre el incremento de la varianza
y la varianza
explicada por ambosresidual del modelo
modelos (SSRcompleto s = SSE1/(n - p - 1)
1 SSR0)/r1 y la varianza residual del modelo completo
s1 = SSE1/(n p 1)
2

SSR 1 SSR 0
2
SSR 1 SSR 0 r
2 r /r
F= = ~ 2 = Fr,n p 1
rs12 SSE1 n p 1 /( n p 1)
(n p 1) 2
sigue una distribucin F de Fisher con r y n p 1 grados de libertad al ser el cociente de dos
sigue una distribucin
distribuciones F de
chi-cuadrado Fisher con r ydivididas
independientes n - p - 1 grados
por susderespectivos
libertad al ser el cociente
grados de libertad.
Este anlisis de la varianza para el contraste parcial de un modelo de regresin lineal mltiple
de dos distribuciones
se representa chi-cuadrado
esquemticamente independientes
en la Tabla 11.3. divididas por sus respectivos grados

de libertad. Este anlisis de la varianza para el contraste parcial de un modelo de


Tabla11.3
11.3 Anlisis de la varianza para el en
contraste lineal
parcial en
regresinTabla Anlisis
lineal mltiple de la varianza
se representapara el contraste
esquemticamenteparcial
enregresin
la Tabla 11.3.mltiple.
regresin lineal mltiple.
Suma de Grados de Razn de
Suma de Grados
cuadrados libertadde Varianza Razn de
varianzas
cuadrados libertad Varianza
[Tabla 11.3 aproximadamente aqu] varianzas
Regresin SSR1 p

X1,..., Xp r SSR0 p r

SSR 1 SSR 0 SSR 1 SSR 0


Xp r+1,..., Xp|X1,..., Xp r SSR1 SSR0 r F=
r rs12
SSE 1
Error SSE1 n p 1 s12 = 24
n p 1
Total SST n1
Total SST n-1
Pastor-Barriuso R. 207
Regresin lineal mltiple

Ejemplo 11.7 La Tabla 11.4 muestra los resultados obtenidos en el grupo control del
estudio EURAMIC al ajustar un modelo de regresin lineal mltiple con el colesterol
HDL como variable respuesta, el ndice de masa corporal, el consumo de alcohol y la
edad en aos como variables explicativas continuas y el estatus socioeconmico como
variable explicativa dicotmica (xi4 = 1 en sujetos con bajo nivel socioeconmico y 0 en
sujetos con alto nivel socioeconmico). De la tabla del anlisis de la varianza se
desprende que el modelo en su conjunto explica el 11,9% de la variabilidad del colesterol
HDL, lo que representa una parte significativa de la variabilidad total de la respuesta ya
que la razn de varianzas del contraste global del modelo F = 14,85 resulta en un valor
P = P(F4,440 14,85) < 0,001 bajo la distribucin F de Fisher con 4 y 440 grados de
libertad. No obstante, una vez incluidos el ndice de masa corporal y la ingesta de alcohol,
ni la edad (t = b3/SE(b3) = 0,0002/0,0014 = 0,12, P = 2P(t440 0,12) 2{1 F(0,12)} =
0,90) ni el estatus socioeconmico (t = b4/SE(b4) = 0,021/0,027 = 0,80, P = 2P(t440 0,80)
2{1 F(0,80)} = 0,43) presentan efectos independientes significativos sobre los niveles
de colesterol HDL. De hecho, cada incremento de 10 aos en la edad se asocia con un
aumento despreciable de 100,0002 = 0,002 mmol/l en la media del colesterol HDL entre
sujetos con igual ndice de masa corporal, consumo de alcohol y nivel socioeconmico.
De igual forma, ajustando por diferencias en el ndice de masa corporal, la ingesta de
alcohol y la edad, la media del colesterol HDL difiere nicamente en 0,021 mmol/l entre
los sujetos con nivel socioeconmico bajo y alto.
A partir de estos resultados, sera razonable preguntarse si la edad y el estatus
socioeconmico contribuyen conjuntamente a explicar la variabilidad residual del
colesterol HDL que permanece sin explicar por el ndice de masa corporal y el consumo
de alcohol, lo que equivale a contrastar este modelo frente al modelo reducido de la
Tabla 11.1 que incluye nicamente el ndice de masa corporal y la ingesta de alcohol
como variables explicativas. No obstante, los resultados de ambos modelos no son

Tabla 11.4 Resultados de la regresin lineal mltiple del colesterol HDL sobre
el ndice de masa corporal (IMC), el consumo de alcohol, la edad y el estatus
socioeconmico (ESE) en el grupo control del estudio EURAMIC.
Anlisis de la varianza*
Suma de Grados de Razn de
cuadrados libertad Varianza varianzas
Regresin 4,58 4 1,14 14,85
Error 33,93 440 0,077
Total 38,51 444
* Coeficiente de determinacin R2 = 4,58/38,51 = 0,119.
Coeficientes de regresin
Test H0: j = 0
Estimacin Error estndar IC al 95% t Valor P
Constante 1,56 0,12 (1,33; 1,79) 13,24 < 0,001
IMC 0,021 0,0037 (0,028; 0,014) 5,66 < 0,001
Alcohol 0,0028 0,0006 (0,0016; 0,0040) 4,64 < 0,001
Edad 0,0002 0,0014 (0,0026; 0,0030) 0,12 0,90
ESE 0,021 0,027 (0,031; 0,074) 0,80 0,43

208 Pastor-Barriuso R.
consumo de alcohol, lo que equivale a contrastar este modelo frente al modelo
Contrastes de hiptesis en regresin lineal mltiple
reducido de la Tabla 11.1 que incluye nicamente el ndice de masa corporal y la

ingesta de alcohol como variables explicativas. No obstante, los resultados de


Tabla 11.5 Anlisis de la varianza para el contraste parcial mltiple de la
edad
ambosymodelos
el estatus socioeconmico
no son directamente (ESE) en la ya
comparables regresin lineal reducido
que el modelo del colesterol
HDL sobre el ndice de masa corporal (IMC), el consumo de alcohol, la edad y
el ESE en
emplea el grupo control
4 observaciones msdel
queestudio EURAMIC.
el modelo completo (449 versus 445). Esto es
Suma de Grados de Razn de
debido a que hay 4 sujetoscuadrados
con valores ausentes
libertadpara el estatus socioeconmico,
Varianza varianzas
Regresin 4,58 4
que
IMC,pueden
alcoholutilizarse en el ajuste
4,53 del modelo reducido,
2 pero no en el modelo
Edad, ESE|IMC, alcohol 0,053 2 0,026 0,34
completo
Error que incluye dicha variable.
33,93 Para comparar
440 ambos modelos,
0,077 es preciso
Total 38,51 444
ajustar el modelo reducido a la misma muestra de 445 controles del estudio

EURAMIC, de
directamente donde se obtiene
comparables ya queuna suma de
el modelo cuadrados
reducido explicada
emplea por el modelo
4 observaciones ms que el
modelo completo (449 versus 445). Esto es debido a que hay 4 sujetos con valores ausentes
reducido
para de SSR
el estatus 0 = 4,53. As, el que
socioeconmico, incremento en la variabilidad
pueden utilizarse explicada
en el ajuste al incluir
del modelo reducido,
pero no en el modelo completo que incluye dicha variable. Para comparar ambos modelos,
la edad
es y elajustar
preciso estatuselsocioeconmico
modelo reducido enaellamodelo
mismacompleto es SSR
muestra de - SSR0 = del
445 1controles 4,58estudio
EURAMIC, de donde se obtiene una suma de cuadrados explicada por el modelo reducido
- 4,53
de SSR=0 0,053.
= 4,53.LaAs,
razn
el entre el incremento
incremento de la varianza
en la variabilidad explicada
explicada y la varianza
al incluir la edad y el
estatus socioeconmico en el modelo completo es SSR1 SSR0 = 4,58 4,53 = 0,053. La
residual
razn del modelo
entre completo
el incremento de es
la entonces
varianza explicada y la varianza residual del modelo
completo es entonces
0,053 / 2 0,026
F= = = 0,34,
33,93 / 440 0,077
que corresponde a un valor P = P(F2,440 0,34) = 0,71 bajo la distribucin F de Fisher con
2que
y 440 grados dea libertad.
corresponde un valor Este contraste
P = P(F 2,440 parcial
0,34) =mltiple
0,71 bajoselarepresenta en la
distribucin Tabla 11.5.
F de
En conclusin, la edad y el estatus socioeconmico no contribuyen significativamente a
explicar la 2variabilidad
Fisher con y 440 gradosdeldecolesterol
libertad. HDL una vez tenidos
Este contraste parcial en cuentaseelrepresenta
mltiple ndice de masa
corporal y el consumo de alcohol, de tal forma que el modelo reducido a estas dos ltimas
variables explicativas
en la Tabla resulta igualmente
11.5. En conclusin, la edad yefectivo.
el estatus socioeconmico no

Loscontribuyen significativamente
contrastes parciales a explicar para
pueden emplearse la variabilidad
evaluar la del colesterol HDL
contribucin una de una
adicional
nica variable explicativa o de mltiples variables explicativas. El contraste parcial individual
vez tenidos
de la variable en cuenta
explicativa Xj el
se ndice
reducede masa corporal
a evaluar y el consumo
la hiptesis nula H0: de alcohol, de tal
j = 0 frente a la hiptesis
alternativa H1: j 0 y, en consecuencia, es equivalente al test para los coeficientes de regresin
presentado en el Apartado 11.3.2. De hecho, puede probarse que el estadstico F de la razn de
varianzas del contraste parcial individual es igual al cuadrado del estadstico t = bj/SE(bj) del
correspondiente coeficiente, de tal forma que los valores P resultantes de ambos procedimientos 26
son idnticos (la distribucin F de Fisher con 1 grado de libertad en el numerador y n p 1 en
el denominador es, por definicin, el cuadrado de la distribucin t de Student con n p 1
grados de libertad).

Ejemplo 11.8 Para evaluar si el estatus socioeconmico contribuye a explicar la


variabilidad del colesterol HDL que no se explica por las diferencias de ndice de masa
corporal, consumo de alcohol y edad, se podra comparar la variabilidad explicada por el
modelo completo con la variabilidad explicada por el modelo que excluye el estatus

Pastor-Barriuso R. 209
explicada por el modelo completo con la variabilidad explicada por el modelo que

excluye el estatus socioeconmico en la misma muestra de 445 controles,


Regresin lineal mltiple

obtenindose una diferencia SSR1 - SSR0 = 4,58 - 4,53 = 0,049. As, el estadstico

F del contraste parcial


socioeconmico individual
en la misma es de 445 controles, obtenindose una diferencia SSR1
muestra
SSR0 = 4,58 4,53 = 0,049. As, el estadstico F del contraste parcial individual es
0,049 0,049
F= = = 0,64,
33,93 / 440 0,077
que corresponde a un valor P = P(F1,440 0,64) = 0,43 bajo la distribucin F de Fisher
con1 y 440 grados de libertad. Notar que este contraste es equivalente al test del coeficiente
2 27
asociado al estatus socioeconmico en la Tabla 11.4 ya que 2P(t440 0,80) = P( t 440 0,802)
= P(F1,440 0,64).

11.5 VARIABLES EXPLICATIVAS POLITMICAS

La regresin lineal no establece ninguna asuncin respecto a la distribucin de las variables


explicativas, que pueden ser tanto continuas como categricas. En anteriores apartados, se ha
tratado con modelos de regresin lineal que incorporan variables explicativas continuas y
pero s a las estimaciones e interpretacin de los coeficientes asociados a las variables
dicotmicas. Queda pendiente de estudiar, por tanto, el ajuste e interpretacin de modelos de
regresin lineal mltiple con variables explicativas politmicas, que clasifican a los sujetos en
indicadoras. En este apartado se presenta la codificacin de la categora de referencia,
tres o ms categoras en funcin de sus distintas caractersticas. Estas variables politmicas
pueden ser nominales (nunca fumadores, ex fumadores o fumadores actuales), ordinales (nivel
que es el mtodo ms extendido para definir variables indicadoras, de fcil
socioeconmico bajo, medio o alto) o incluso variables continuas categorizadas (normopeso,
sobrepeso u obesidad para un ndice de masa corporal < 25, 25-30 30 kg/m2, respectivamente).
interpretacin y vlido para cualquier tipo de variable politmica. Para cada una de las k
En general, las variables explicativas politmicas no se introducen directamente en los
modelos
categoras j = 1, ,yak que
de regresin de lalos valorespolitmica,
variable asignados aseestas variables
define la variable sirven paraXdiscernir
slo indicadora j=1 u
ordenar las distintas categoras, pero no tienen interpretacin numrica. La forma adecuada de
incluir este
en los tipo de
sujetos variables explicativas
pertenecientes a la categora j y regresin
en una es mediante
0 en los restantes variables
sujetos, tal comoindicadoras
se
que identifiquen cada una de las categoras de la variable. Existen diversos mtodos para
codificar
indica adecuadamente
en la Tabla 11.6.variables indicadoras.
Estas variables La eleccin
indicadoras Xk no
X1, ,entre uno u otroincluirse
pueden procedimiento de
codificacin no afecta al ajuste del modelo (la tabla del anlisis de la varianza permanece
simultneamente
inalterable en un modelo
ante cualquier de regresin
codificacin que contenga
que permita el trmino
diferenciar constante,
todas las ya que
categoras de una
variable politmica), pero s a las estimaciones e interpretacin de los coeficientes asociados a
las su
variables + + Xk = 1Enpara
suma X1indicadoras. estetodos los sujetos
apartado la codificacin
y cualquier
se presenta de la categora
variable indicadora puede de
referencia, que es el mtodo ms extendido para definir variables indicadoras, de fcil
expresarse entonces
interpretacin y vlidocomo
para una combinacin
cualquier tipo delineal exacta
variable de la constante
politmica. y de las
Para cada unadems
de las k
categoras j = 1, , k de la variable politmica, se define la variable indicadora Xj = 1 en los
variables
sujetos indicadoras,
pertenecientes a lacon lo que jely modelo
categora 0 en losincurrira en un problema
restantes sujetos, tal comodesecolinealidad
indica en la Tabla
11.6. Estas variables indicadoras X1, , Xk no pueden incluirse simultneamente en un modelo
perfecta (vase
de regresin Ejemploel11.1).
que contenga trminoParaconstante,
solventarya este
queproblema,
su suma Xbasta
1 + con
+ Xexcluir unatodos los
k = 1 para
sujetos y cualquier variable indicadora puede expresarse entonces como una combinacin lineal
cualquiera
exacta de las variables
de la constante y de lasindicadoras,
dems variablesdigamos Xk, manteniendo
indicadoras, con lo que en el
el modelo
modelo incurrira
las otras en
un problema de colinealidad perfecta (vase Ejemplo 11.1). Para solventar este problema, basta
convariables indicadoras
excluir una cualquieraX1de lasXvariables
, , k-1, indicadoras, digamos Xk, manteniendo en el modelo
las otras variables indicadoras X1, , Xk1,
E(Y|x1 , ..., xk 1) = 0 + 1 x1 + + k 1 xk1,
donde por simplicidad se omiten otras posibles variables explicativas. En este modelo, la
donde por
constante simplicidad se
0 corresponde al omiten otras posibles
valor esperado de lavariables
respuestaexplicativas. En este
en la categora k demodelo,
la variable
politmica, que toma valores cero en todas las variables indicadoras incluidas en el modelo,
la 1constante
E(Y|x 0 =corresponde
= 0, ..., xk1 al valor cada
0) = 0. Asimismo, esperado de la respuesta
coeficiente en lacategora
de regresin k de
j determina la
el cambio en

variable politmica, que toma valores cero en todas las variables indicadoras incluidas
210 Pastor-Barriuso R.
en el modelo, E(Y|x1 = 0, ..., xk-1 = 0) = 0. Asimismo, cada coeficiente de regresin j

determina el cambio en el valor esperado de la respuesta en la categora j = 1, , k - 1


cualquiera de las variables indicadoras, digamos Xk, manteniendo en el modelo las otras

variables indicadoras X1, , Xk-1, Variables explicativas politmicas

E(Y|x1 , ..., xk-1 ) = 0 + 1 x1 + + k-1 xk-1,


Tabla 11.6 Variables indicadoras para las k categoras
de una se
donde por simplicidad variable
omitenpolitmica.
otras posibles variables explicativas. En este modelo,
Variable indicadora
la constante 0 corresponde al valor esperado de la respuesta en la categora k de la
Categora X1 X2 Xk
1 1 0 0
variable politmica, que toma valores cero en todas las variables indicadoras incluidas
2 0 1 0
en el modelo, E(Y|x1 = 0, ..., xk-1 = 0) = 0. Asimismo, cada coeficiente de regresin j


k 0 0 1
determina el cambio en el valor esperado de la respuesta en la categora j = 1, , k - 1

el valor esperado
respecto de la respuesta
a la categora en la categora
k de la variable j = 1, , k 1 respecto a la categora k de la
politmica,
variable politmica,
E(Y|x1 = 0, ..., xj1 = 0, xj = 1, xj+1 = 0, ..., xk 1 = 0)
E(Y|x1 = 0, ..., xk1 = 0) = 0 + j 0 = j.
Como puede apreciarse, la categora cuya variable indicadora se deja fuera del modelo acta
como grupo de referencia, de tal forma que los coeficientes asociados a las variables indicadoras
presentes en el modelo determinan los cambios medios en la respuesta respecto a dicha categora
de referencia. Aunque en principio la eleccin del grupo de referencia es arbitraria, en la prctica
suele utilizarse como categora de referencia aquella que representa la ausencia o el menor 29 nivel
de exposicin (nunca fumadores, nivel socioeconmico alto, normopeso), siempre y cuando su
tamao muestral sea lo suficientemente grande para obtener comparaciones precisas con el
resto de categoras de la variable politmica.
En general, la contribucin de las variables indicadoras a la capacidad predictiva del modelo
debe evaluarse conjuntamente, dado que estas variables no representan ms que las distintas
categoras de una misma variable politmica. En este sentido, los contrastes parciales presentados
en el apartado anterior pueden aplicarse al conjunto de todas las variables indicadoras para
contrastar la hiptesis nula H0: 1 = = k1 = 0, lo que equivale a un test de homogeneidad
del valor medio de la respuesta en las k categoras de la variable politmica. Notar que este test
de homogeneidad permanece inalterable ante cualquier codificacin de las variables indicadoras
o seleccin del grupo de referencia, ya que stas alteran los coeficientes de regresin, pero no
cambian la contribucin global de la variable politmica al ajuste del modelo.

Ejemplo 11.9 En la Tabla 11.7 se presentan los resultados de ajustar un modelo de


regresin lineal mltiple del colesterol HDL sobre el ndice de masa corporal, el consumo
de alcohol y el hbito tabquico en 448 controles del estudio EURAMIC con informacin
completa de estas variables. El hbito tabquico es una variable politmica con tres
categoras, que diferencia a los sujetos segn sean nunca fumadores (113 sujetos), ex
fumadores (163) o fumadores actuales (172). Se designa como categora de referencia a
los nunca fumadores y, en consecuencia, el modelo incluye dos variables indicadoras
para los ex fumadores (xi3 = 1 en ex fumadores y 0 en el resto) y los fumadores actuales
(xi4 = 1 en fumadores actuales y 0 en el resto).
Para evaluar si el nivel medio de colesterol HDL difiere en las tres categoras del hbito
tabquico una vez tenidas en cuenta las diferencias de ndice de masa corporal y consumo
de alcohol, se realiza el contraste parcial mltiple de las dos variables indicadoras del hbito
tabquico H0: 3 = 4 = 0. Para ello, se compara la variabilidad explicada SSR1 = 5,44 por el

Pastor-Barriuso R. 211
la variabilidad explicada SSR1 = 5,44 por el modelo completo de la Tabla 11.7

con
Regresin lamltiple
lineal variabilidad explicada SSR0 = 4,58 por el modelo que excluye ambas

variables indicadoras en la misma muestra de 448 controles, obtenindose un test


modelo completo de la Tabla 11.7 con la variabilidad explicada SSR0 = 4,58 por el modelo
estadstico
que excluye ambas variables indicadoras en la misma muestra de 448 controles, obtenindose
un test estadstico
(5,44 4,58) / 2 0,43
F= = = 5,69,
33,42 / 443 0,075
que corresponde a un valor P = P(F2,443 5,69) = 0,004 bajo la distribucin F de Fisher
con
que 2corresponde
y 443 grados a undevalor
libertad. As,2,443
P = P(F se detectan
5,69) =diferencias
0,004 bajosignificativas
la distribucinenFlas
de medias
ajustadas del colesterol HDL entre los nunca fumadores, ex fumadores y fumadores
actuales.
Fisher conLos2 y coeficientes
443 grados de asociados
libertad. aAs,
lassevariables
detectan indicadoras del hbito tabquico
diferencias significativas
permiten cuantificar estas diferencias de acuerdo a la codificacin elegida. Por un lado,
una vezmedias
en las controladas las diferencias
ajustadas del colesterolen HDL
el ndice
entredelos
masa corporal
nunca y la ingesta
fumadores, ex de alcohol,
la media del colesterol HDL presenta una diferencia insignificante de b3 = 0,009 mmol/l
entre los exy fumadores
fumadores fumadores actuales.
y los nunca fumadores. Sin
Los coeficientes embargo,
asociados a laslos fumadores actuales
variables
presentan una disminucin significativa en el nivel medio de colesterol HDL de b4 = 0,085
mmol/l en comparacin
indicadoras con los nunca
del hbito tabquico fumadores,
permiten incluso
cuantificar despus
estas de ajustar
diferencias por el ndice
de acuerdo
de masa corporal y el consumo de alcohol.
a la general,
En codificacin elegida. Por
las variables un lado, una
indicadoras vez tratarse
deben controladas las diferencias
conjuntamente paraenpreservar
el su
interpretacin. No obstante, en vista de que los niveles medios de colesterol HDL no
ndice deenmasa
difieren corporal
nunca y la ingesta
fumadores de alcohol,selapodra
y ex fumadores, mediaeliminar
del colesterol HDL la variable
del modelo
indicadora de los ex fumadores. En tal caso, el coeficiente asociado a la variable indicadora
presenta
de una diferencia
los fumadores insignificante
actuales cambiara de b3 = 0,009 mmol/l
deinterpretacin, entrealos
pasando ex fumadores
representar el cambio
medio en el colesterol HDL entre fumadores actuales y no fumadores actuales (nueva
y los nunca
categora defumadores. Sin embargo,
referencia donde los fumadores
se englobaran tanto losactuales presentan
nunca como una
los ex fumadores).

El test de homogeneidad permite contrastar si el nivel medio de la respuesta31difiere


significativamente en al menos 2 de las k categoras de una variable explicativa politmica. En
el caso de que las categoras estn intrnsecamente ordenadas, como ocurre con las variables

Tabla 11.7 Resultados de la regresin lineal mltiple del colesterol HDL sobre el
ndice de masa corporal (IMC), el consumo de alcohol y las variables indicadoras
de ex fumadores y fumadores actuales en el grupo control del estudio EURAMIC.
Anlisis de la varianza*
Suma de Grados de Razn de
cuadrados libertad Varianza varianzas
Regresin 5,44 4 1,36 18,03
Error 33,42 443 0,075
Total 38,86 447

* Coeficiente de determinacin R2 = 5,44/38,86 = 0,140.

Coeficientes de regresin
Test H0: j = 0
Estimacin Error estndar IC al 95% t Valor P
Constante 1,61 0,099 (1,42; 1,81) 16,31 < 0,001
IMC 0,021 0,0036 (0,028; 0,014) 5,79 < 0,001
Alcohol 0,0030 0,0006 (0,0018; 0,0042) 5,03 < 0,001
Ex fumador 0,009 0,034 (0,058; 0,075) 0,26 0,80
Fumador actual 0,085 0,034 (0,151; 0,019) 2,53 0,012

212 Pastor-Barriuso R.
Variables explicativas politmicas

ordinales y las variables continuas categorizadas, cabra preguntarse adems si los niveles
medios de la respuesta siguen algn patrn especfico a lo largo de las categoras. En particular,
sera relevante contar con un test de tendencia que permitiera detectar la existencia de una
componente lineal creciente o decreciente entre las respuestas medias de las sucesivas categoras.
Para ello, la variable explicativa politmica X debe tomar valores que preserven el orden de las
categoras. En el caso de variables ordinales, suelen asignarse los valores xi = 1, 2, ..., k segn
el sujeto pertenezca a la primera, segunda o sucesivas categoras. En el caso de variables
continuas categorizadas, es preferible utilizar valores xi que representen alguna medida de
tendencia central de cada categora (media o mediana) para preservar no slo el orden de las
categoras, sino tambin la distancia entre las mismas. La variable politmica as codificada se
incluye directamente en el modelo de regresin, de tal forma que el contraste de su coeficiente
determina la existencia de una tendencia lineal creciente o decreciente en el valor medio de la
respuesta al aumentar la categora de exposicin. Conviene resaltar que este test de tendencia
no permite evaluar la idoneidad de la relacin lineal, sino nicamente la existencia de una
componente lineal significativa a travs de las categoras, independientemente de cul sea la
relacin subyacente.

Ejemplo 11.10 Dado que en el ejemplo anterior los niveles medios de colesterol HDL
no diferan significativamente en nunca fumadores y ex fumadores, ambas categoras se
colapsaron en una nica categora de no fumadores actuales. Adems, como se dispone de
informacin sobre el nmero de cigarrillos al da en 154 de los 172 fumadores actuales, se
construy una nueva variable politmica que clasificaba a los sujetos en no fumadores
actuales (276 sujetos), fumadores actuales de 1-10 (50 sujetos), 11-20 (67 sujetos) y > 20
cigarrillos/da (37 sujetos). La Tabla 11.8 muestra los resultados obtenidos en los controles
del estudio EURAMIC al ajustar una regresin lineal mltiple del colesterol HDL sobre
el ndice de masa corporal, el consumo de alcohol y esta nueva variable explicativa
politmica, donde los no fumadores actuales constituyen la categora de referencia.

Tabla 11.8 Resultados de la regresin lineal mltiple del colesterol HDL sobre
el ndice de masa corporal (IMC), la ingesta de alcohol y las variables
indicadoras de fumadores actuales de 1-10, 11-20 y > 20 cigarrillos/da en los
controles del estudio EURAMIC.
Anlisis de la varianza*
Suma de Grados de Razn de
cuadrados libertad Varianza varianzas
Regresin 4,70 5 0,94 12,62
Error 31,59 424 0,075
Total 36,29 429
* Coeficiente de determinacin R2 = 4,70/36,29 = 0,130.
Coeficientes de regresin
Test H0: j = 0
Estimacin Error estndar IC al 95% t Valor P
Constante 1,59 0,10 (1,40; 1,79) 15,90 < 0,001
IMC 0,020 0,0037 (0,027; 0,013) 5,36 < 0,001
Alcohol 0,0028 0,0006 (0,0017; 0,0040) 4,70 < 0,001
Fumador 1-10 0,086 0,042 (0,168; 0,003) 2,04 0,042
Fumador 11-20 0,120 0,038 (0,193; 0,046) 3,19 0,002
Fumador > 20 0,055 0,048 (0,149; 0,040) 1,14 0,26

Pastor-Barriuso R. 213
Regresin lineal mltiple

0,2
Diferencia en la media del colesterol HDL (mmol/l)

0,1

-0,1

-0,2

-0,3

0 10 20 30 40

Nmero de cigarrillos/da
Figura11-20
Figura 11.4 Diferencia en la media ajustada del colesterol HDL de los fumadores actuales de 1-10, 11.4
y > 20 cigarrillos/da respecto a los no fumadores actuales del grupo control del estudio EURAMIC. Las
barras verticales representan los intervalos de confianza al 95% para estas diferencias.
cigarrillos/da, ya que la comparacin de la variabilidad explicada SSR1 = 4,70

porcontraste
El el modelo completo
parcial de lade
mltiple Tabla 11.8variables
las tres y la variabilidad explicada
indicadoras = 4 0==3,76
H0: 3 SSR 5 = 0 revela
que existen diferencias significativas en las medias ajustadas del colesterol HDL entre los
porfumadores
no el modelo actuales
que excluye
y loslasfumadores
tres variables indicadoras
de 1-10, 11-20 yen> la20misma muestra de
cigarrillos/da, ya que la
comparacin de la variabilidad explicada SSR1 = 4,70 por el modelo completo de la Tabla
430 controles
11.8 resulta explicada
y la variabilidad en un test SSR
estadstico
0 = 3,76 por el modelo que excluye las tres variables
indicadoras en la misma muestra de 430 controles resulta en un test estadstico
(4,70 3,76) / 3 0,31
F= = = 4,22,
31,59 / 424 0,075
que corresponde a un valor P = P(F3,424 4,22) = 0,006. En comparacin con los no
fumadores actuales
que corresponde de valor
a un igual ndice
P = P(F de3,424
masa corporal
4,22) y consumo
= 0,006. de alcohol, con
En comparacin los fumadores
los
de 1-10, 11-20 y > 20 cigarrillos/da presentan una disminucin en el nivel medio de
colesterol
no fumadores de b3 = de
HDLactuales igual bndice
0,086, 4 = 0,120 y b5corporal
de masa = 0,055 mmol/l, respectivamente.
y consumo de alcohol, los Esta
tendencia decreciente en la media ajustada del colesterol HDL se representa en la
Figura11.4,
fumadores dedonde
110,el1120
eje horizontal corresponde presentan
y > 20 cigarrillos/da al nmerouna medio de cigarrillos
disminucin en eldiarios
para cada categora (0 en el caso de no fumadores actuales).
nivel contrastar
Para medio de colesterol
si esta tendencia 3 = -0,086, b4es
HDL de bdecreciente = -0,120 y b5 = -0,055
significativa, se creammol/l,
una variable
politmica con valores xi = 0, 7,1, 18,3 y 34,3 correspondientes al nmero medio de
respectivamente.
cigarrillos diariosEsta tendencia
de los sujetosdecreciente
no fumadores en la ymedia ajustadadedel1-10,
fumadores colesterol
11-20 y > 20
cigarrillos/da, respectivamente. Esta variable politmica se incluye directamente en un
HDL sede
modelo representa
regresinen la Figura
mltiple 11.4,
junto condonde el eje
el ndice dehorizontal corresponde
masa corporal al de alcohol.
y la ingesta
El coeficiente asociado a la variable politmica y su error estndar se estiman en b3 =
nmero medio
0,0030 y SE(b3de
) = cigarrillos diariossepara
0,0012, de donde cadauncategora
obtiene (0 ten
estadstico = bel caso de no
3/SE(b3) = 0,0030/0,0012
= 2,46 y un valor P = 2P(t426 2,46) 2F(2,46) = 0,014 bajo la distribucin t de
fumadores actuales).
214 Pastor-Barriuso R.
Para contrastar si esta tendencia decreciente es significativa, se crea una variable

politmica con valores xi = 0, 7,1, 18,3 y 34,3 correspondientes al nmero medio


[Tabla 11.8 aproximadamente aqu]

Regresin polinomial
[Figura 11.4 aproximadamente aqu]

Student con n p 1 = 430 3 1 = 426 grados de libertad. As, puede concluirse que la
11.6 REGRESIN
media ajustada delPOLINOMIAL
colesterol HDL no slo difiere entre las categoras (P de homogeneidad
= 0,006), sino que tiende a decrecer significativamente conforme aumenta la categora de
La exposicin (P demltiple
regresin lineal tendencia = 0,014).
permite No obstante,
explorar la Figura
relaciones 11.4 entre
no lineales muestra que la relacin
las variables
subyacente podra no ser estrictamente lineal al presentar un leve repunte en la categora
de fumadores
explicativas de ms de
y la variable 20 cigarrillos/da.
respuesta. El modelo ms habitual para acomodar un efecto no

lineal
11.6 de una variable
REGRESIN explicativa continua X es la regresin polinomial de orden k, que
POLINOMIAL
polinomios de orden superior al cuadrtico tienden adems a producir curvas con puntos
k
La incorpora
regresinenlineal mltiple
el modelo permite polinomiales
los trminos X2, , Xno
explorar relaciones lineales
adems del entre
propiolas variables
trmino
de inflexin y otras formas extraas de difcil interpretacin en trminos
explicativas y la variable respuesta. El modelo ms habitual para acomodar un efecto no lineal
de lineal
una variable
X, explicativa continua X es la regresin polinomial de orden k, que incorpora en
epidemiolgicos.
el modelo los trminos Porpolinomiales
ello, esta presentacin se limitadel
X2, , Xk adems a los modelos
propio polinomiales
polinomios
trmino linealde de superior al cuadrtic
X, orden

segundo orden o cuadrticos Y = ,que 1 x + 2 x un


0 + incluyen
2
+ + k xklineal
trmino + , X ydeotro inflexin
cuadrtico y otras X2 de formas extraas de d
donde sin prdida de generalidad se omiten otras posibles variables explicativas. Estos modelos
la variable
donde
polinomiales explicativa.
sin prdida
pueden La tendencia
de generalidad
considerarse como resultante
se omiten otras
casos particularesdeposibles
estos de modelos
variables
la regresin epidemiolgicos.
cuadrticos
explicativas. ser Estos
lineal mltiple una Porcuyas
ello, esta presentac
variables explicativas son distintas potencias de una misma variable bsica y, en consecuencia,
parbola
losmodelos que, aunque
polinomiales
procedimientos no se amolda
pueden
de estimacin a cualquier
considerarse
e inferencia son forma
como casossubyacente
idnticos particulares
a los descritossegundo
dedela la ordenso cuadrticos
relacin,
regresin
anteriormente para , que inclu
el modelo general de regresin.
permite
lineal capturar
mltiple cuyaslas desviaciones ms frecuentes
variables explicativas del modelo
son distintas lineal,
potencias ladeincluyendo
variable
una misma explicativa. La tendencia resu
En teora, los modelos polinomiales de orden k elevado permiten aproximar cualquier tipo
1.2 MEDIDAS
de tendencias
relacin curvilnea. DENo 1.2 MEDIDAS
TENDENCIA
obstante, DE TENDENCIA
si elCENTRAL
nmero requerido deCENTRAL
trminos polinomiales es muy
variable bsica montonas cuya
y, en consecuencia, pendiente losaumenta
procedimientos o disminuye progresivamente,
de estimacin parbola que,as
e inferencia como
aunque
son no se amolda a cua
elevado, la regresin polinomial 1.2 MEDIDAS
puede ocasionar DE TENDENCIA
problemas deCENTRAL sobreajuste y dar lugar a
1.2 MEDIDAS
estimaciones DE
inestables TENDENCIA CENTRAL 1.2 MEDIDAS DE TENDENCIA alCENTRAL
Las
curvas
idnticos medidas
en aforma
los descritos Ude
dedetendenciaoLaslosUmedidas
de coeficientes
central
invertida
anteriormente decon
informan deun
para
regresin.
tendencia
elacerca
cambio
modelocentral
dedeLos
cul polinomios
informan
esde
direccin.
general acerca
el regresin.
valor
permite de
ms orden
de culsuperior
eslaseldesviaciones
representativo
capturar valor ms represent
ms fre
cuadrtico tienden adems a producir curvas con puntos de inflexin y otras
Las medidas de tendencia central informan acerca de cul es el valor ms repre formas extraas de
difcil
Lasde interpretacin
una determinada en trminos
de una
variable epidemiolgicos.
determinada
o, dicho variable
de acerca
forma Por o, ello, esesta
dicho de presentacin
forma equivalente,sedelimita estos a cuya
los
estimadores indic
Aunque
medidas los
de modelos
tendencia cuadrticos
En teora, los modelos polinomiales central se ajustan
informan orden mediante
de cul
elevado Las
kequivalente, los medidas
el estos
mtodos
valor
permiten de tendencia
estimadores
estndar
tendencias
ms central
indican
montonas
representativo
aproximar informan acerca
pendiente aud
modelos polinomiales de segundo orden o cuadrticos, que incluyen un
de una determinada variable o, dicho de forma equivalente, estos estimadores i trmino lineal X y
otro cuadrtico
alrededor de X 2
qu de lavariables
valor variable
alrededor
se agrupan Xdeexplicativa.
qu
los 2
valor
datos La
se tendencia
agrupan
aobservados. los resultante
datos detendencia
observados. estos Lasde modelos
medidas deinvertida
tendencia
regresin
decualquier
una mltiple,
determinada las
variable
tipo de relacin curvilnea. o, dicho XNo
y de estn
forma
obstante, menudosi el de
equivalente, muyuna
Las
estos
nmero determinada
medidas
correlacionadas
curvas
estimadores
requerido deendevariable
forma
indican
trminos o, Udicho
o de deU forma equi
co
cuadrticos ser una parbola alrededor que, aunque no se amolda a cualquier
de qu valor se agrupan los datos observados. Las forma subyacente demedidas
la de tenden
relacin, s depermite capturar las tanto
central desviaciones
deregresin
la para
muestra ms
sirven frecuentes
tanto para del modelo
resumir los lineal, se incluyendo
resultados
central
alrededor
(tpicamente,
polinomiales de qu
laes
rmuestra
valor
muy sesirven
> 0,95), agrupan
elevado, provocando
la los datos resumir
observados.
estimaciones
polinomial los alrededor
resultados
Las
inestables
puede medidas dedesus
ocasionar qu
observados
Aunque
de valor como
tendencia
coeficientes
problemas los de deobservados
agrupan
para
modelos los datoscomo
cuadrticos separa
observa aj
tendencias montonas xx 2 cuya pendiente aumenta o disminuye progresivamente,
central de la muestra sirven tanto para resumir los resultados as como curvas observados como
encentral
forma de la U o de U invertida coninferencias
unparmetros
cambio delosdireccin. X2 ere
realizar
de
sobreajuste
regresin. inferencias
muestra
y darmitigar
Para arealizar
acerca
sirven
lugar de
tanto los
estimaciones
este problemapara resumir acerca
inestables
de colinealidad, delos los
poblacionales
resultados
de parmetros
central decentrar
observados
coeficientes
conviene la poblacionales
muestra
correspondientes.
regresin
de como sirven
regresin.
primero AlaLos
mltiple,
para correspondientes.
tanto para resumir
las variables X yAlos
Aunque los modelos cuadrticos realizarseinferencias
ajustan mediante acerca delos losmtodos
parmetros poblacionales
estndar de regresin correspondientes. A
continuacin
realizar
mltiple,
variable inferencias
las seXdescriben
variables
original ycontinuacin
acerca los principales
Xdeestn
eXincluir
2
despus se describen
parmetros
a menudo
dicha estimadores los
poblacionales principales
muy correlacionadas
variable realizar
centrada su estimadores
inferencias
decorrespondientes.
laytendencia (tpicamente,
(tpicamente,
cuadrado enAde
acerca
central eldelade
rmodelo
xx 2
tendencia
una>>los
0,95),
0,95), centralpoblac
parmetros
provocandode unaes
continuacin se describen
provocando estimaciones inestables de sus coeficientes de regresin. Para mitigar este problema los principales estimadores de la
35 tendencia central d
devariable.
decontinuacin
regresin,seconviene
colinealidad, describen variable.
los principales
centrar primero laestimadores
variable original decontinuacin
la Xtendencia
e incluir se describen
central
despus
regresin. de una
dicha
Para losvariable
mitigar principales estimador
este problema de
variable.
centrada y su cuadrado en el modelo de regresin,
variable. variable. variable original X e incluir despus dich
1.2.1 Media aritmtica 1.2.1 Media aritmtica
Y = 0 + 1 (x x ) + 2 (x x )2 + .
1.2.1 Media aritmtica
Las desviaciones
1.2.1LaMedia respecto
media aritmtica deLa la
aritmtica, denotada pormedia
media x x y, se
aritmtica, denotada
susdefine
cuadrados comopor 1.2.1
(x x )Media
,2 se
la suma estarn
dedecada
define regresin,
aritmtica
como
menos la los
suma de cada uno de los
unocorrelacionadas
de
2
queLaslos desviaciones
valores x y x ,respecto
2
ya que los deLa lamedia
cuadrados xde x ydesviaciones
- las
mediaaritmtica, susdenotada
cuadrados (x (x x-),xse
por 2 ) define
estarn
sern elevados menos
como la suma
tanto parade cada uno de l
valores altos
La valores de X (desviaciones
muestralesdenotada
media aritmtica, valorespor
dividida x
muestrales
el positivas)
x ,nmero
se define como
dividida por
de observacionespara
la La valores
media
el nmero
suma bajos
aritmtica, (desviaciones
dedenotada
de observaciones
derealizadas.
cada uno Si denotamos
los x
por x , seSidefine
realizadas. denotamcom
2 Y = 0 + 1 (x -
correlacionadas
negativas). El centrado que los devalores
la valores x y xmuestrales
variable , ya que los
explicativa cuadrados
X
dividida no afecta
por el denmero
allasajuste
desviaciones
deglobal del
observaciones x )2 realizadas.
(x - modelo Si deno
cuadrtico
valores ni tamao
el a la tendencia
por nmuestrales muestral
divididapor ny el
parablica
por por resultante,
xi el
eltamao
nmero muestral
valor se ytrata
deobservado
observaciones xvalores
por nicamente
i el realizadas.
para valor dei-simo,
una
observado
muestrales
el sujeto reparametrizacin
i = 1,
para
dividida
Si denotamos el por n,
sujeto
..., i-simo,dei =observ
el nmero 1, ...
delsern
modelo elevados tanto para
que reduce valores
por n altos
la correlacin entre
el tamao de Xelmuestral
(desviaciones
trminoylineal Las observado
porxx-i yelxcuadrtico, desviaciones
positivas)
valor como para
produciendo
para respecto
el sujeto la mediai x= -
as dei-simo,
estimaciones
porlan media
el tamaoms estables
vendra
muestral dadalade
yporsus xcoeficientes
media
por i elvendra dada
valor observado y contrastes
por parapor ms n fcilmente
el tamao
el sujeto i-simo, interpretables.
muestral
i = 1, ...,y por n, xi el valor observado
valores bajos (desviaciones la x -media
x negativas).
vendra El centrado
dada por de la variable correlacionadas
explicativaque X no los valores x y x2, ya
Una vez ajustado el modelo cuadrtico, el primer paso es contrastar si el coeficiente 2
la mediaalvendra
asociado trminodada por
cuadrtico es 0. Si1 este coeficiente la media vendra dada por del valor
n
x1 + x 2 +no ... difiere
+1 xnn significativamente
x1 + x 2 + ... + x n
afecta al ajuste global del modelo
x =cuadrtico
n i =1
x i = ni a la tendencia
x =
n nx i==1 1
x
. i n sern elevados
parablica
= resultante, tanto
x1 +n x 2 + ... +. x n
se para valores altos de
1 n x + x 2 + ... + x n xi =
n i =1 valores
.
Pastor-Barriuso1R. n 215 x1 + x 2 +
trata nicamente de una reparametrizacin x = x i = 1del modelo que. reduce bajosn (desviaciones
la correlacin entre x =el xxi = - x negativ
n i =1 n n i =1 n
La media es la medidaLademedia tendencia es la central
medidams de tendencia
utilizada ycentral de ms ms fcilutilizada y de ms fcil
trmino lineal y cuadrtico, produciendo La media es aslaestimaciones
medida de tendencia ms estables afecta
centraldeal sus
ajusteutilizada
ms global del y demodelo cuadr
ms fcil
alrededor de qu valor se agrupan los datos observados. Las medi
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
Regresin lineal mltiple central de la muestra sirven tanto para resumir los resultados obse
central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parmetros poblacionales corres
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
nulo, la inclusin del trmino cuadrtico no mejorar significativamente la capacidad predictiva
del modelo, de tal forma que podr eliminarse continuacin
dicho trminose describen
cuadrtico los principales
y volver alestimadores
modelo de la tenden
continuacin se describen los principales estimadores de la tendencia central de una
lineal en la variable explicativa 1.2 MEDIDAS X. Por el DEcontrario,
TENDENCIA si el coeficiente
CENTRAL del trmino cuadrtico
resulta significativo, el modelo cuadrtico variable. presentar un mejor ajuste que el modelo lineal,
variable.
debiendo mantener ambos trminos lineal y cuadrtico en el modelo. La interpretacin del
modelo cuadrtico no esLas tanmedidas
sencillade tendencia
como la del
1.2.1 central
modelo
Media informan
lineal, ya
aritmtica acerca
que de la cul es el valor
pendiente de lams representat
1.2.1vara
relacin Media a loaritmtica
largo del rango de la variable explicativa. En un modelo cuadrtico con la
variable X centrada, la pendiente de una determinada variable o, dichopor de denotada
forma
1 + 2 equivalente, esestos
decir,estimadores
1 la suma indican
de la relacin La viene
media dada
aritmtica, 2(x
por x );, se define como de
La mediaa aritmtica,
corresponde la pendientedenotada
en la media por x ,de seladefine como
variable la suma de
explicativa cada
y 2 uno de los
2 representa el cambio
de pendiente por cada incremento alrededor dedequ unavalor se agrupan
unidad
valores en X. No
muestrales los obstante,
datos
divididaobservados.
el inters
por el nmero Las
no medidas
es
de tanto de tendencia
observaciones realiz
valoreslos
interpretar muestrales dividida
coeficientes por el nmero
individuales, sino de observaciones
representar realizadas.laSitendencia
grficamente denotamos global
resultante del modelo cuadrtico. central de la muestra porsirven tanto para
n el tamao resumir
muestral los xresultados
y por i el valor observados
observado como
para para
el sujeto
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
Ejemplo 11.11 Enrealizar la Figura inferencias
10.10(b)laacerca media
del temadevendra
los parmetros
anterior, dada porpoblacionales
el anlisis de los residuos correspondientes.
de la A
laregresin
media vendra linealdada por del colesterol HDL sobre el ndice de masa corporal en los
simple
controles del estudio EURAMICse
continuacin describen
mostr los principales
indicios de una posible estimadores de la tendencia
relacin1 cuadrtica
n entre
x1 +
central de una
x 2 + ... + x n
ambas variables. Para contrastar 1 formalmente
n
x1 + x 2esta
+ ... tendencia,
+ xn =
se xajust unx imodelo
= de .
variable. n n
regresin mltiple para el colesterol x = HDL
n i =1
x i = .
que inclua un trmino lineal y otro cuadrtico
n
i =1

del ndice de masa corporal, adems del consumo de alcohol y de la variable indicadora
de los fumadores actuales (Tablaaritmtica
1.2.1 Media 11.9). Como el ndice
La media es lademedida
masa corporal
de tendencia X1 y su cuadrado
central ms utilizada y de
X La
presentaban
2
1 una correlacin lineal casi perfecta
media es la medida de tendencia central ms utilizada y de ms fcil de 0,995, esta variable fue
previamente centrada alrededor
La media de su interpretacin.
aritmtica, media muestral
denotada x 1, =se26,2
por Corresponde kg/m
define como
al
2
antes
centro de
la suma deincluir
de cadaen uno
gravedad de deloslos
datos
el modelo los trminos lineal
interpretacin. Corresponde al centro X 1 26,2 y cuadrtico (X 26,2)
de gravedad de los1 datos de la muestra. Su2
, cuya correlacin era
nicamente de 0,297. valores muestrales principal dividida por el nmero
limitacin de observaciones
es que est muy influenciada realizadas. porSilosdenotamos
valores
principal
El contrastelimitacin
para laesnulidad
que est delmuy influenciada
coeficiente por los
asociado valores extremos
al trmino cuadrticoy,del en este
ndice de
por n el tamao muestral
caso, y por
puede x
noi elservalor
masa corporal resulta en un valor P = 0,021, lo que indica que el modelo cuadrtico un observado
fiel reflejo para
de la el sujeto
tendencia i-simo,
mejora central ide= la ..., n
1, dist
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
la media vendra dada por
Tabla 11.9 Resultados de la regresin mltiple Ejemplodel 1.4colesterol
En este y en HDL los sobre
sucesivos los ejemplos sobre estim
Ejemplo
trminos 1.4yEn
lineal este y en del
cuadrtico los ndice
sucesivos ejemplos
de masa sobre (IMC),
corporal estimadores muestrales,
el consumo de se
1 n x1 + x 2 + ... + x n
alcohol y la variable indicadora de fumadores =
x actuales
utilizarn en
losxvalores
i = el grupo
del control
colesterol . del
HDL obtenidos en los 1
estudioutilizarn
EURAMIC. n
los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
i =1 n
Anlisis de la varianza*
estudio European Study on Antioxidants, Myocardial Infar
estudio European LaStudy
Suma media
de
onesAntioxidants,
medidadedeMyocardial
la Grados tendencia central Infarction
ms and Cancer
utilizada
Razn
of
de y de ms fcil
cuadrados libertad the Breast (EURAMIC),
Varianza un estudio
varianzas multicntrico de casos
the Breast (EURAMIC),
interpretacin. un Corresponde
estudio multicntricoal centro dede casos y controleslosrealizado
Regresin 5,84 4 1,46 gravedad de 19,57 datos de la muestra. Su
entre 1991 y 1992 en ocho pases Europeos e Israel para eva
Error 33,02 443 0,075
entre 1991 y 1992 en ocho
principal pases Europeos
limitacin es que est e Israel para evaluarpor
muy influenciada el efecto de losextremos y, en este
los valores
Total 38,86 447
* Coeficiente de determinacin R = 5,84/38,86 = 0,150.
2
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
5
Coeficientes de regresin
Test H0: j = 0
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales
Estimacin Error estndar IC al 95% t Valor P
Constante 1,05 0,020 (1,01; 1,09) 52,62 < 0,001
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos d
IMC 26,2 0,024 0,0038 (0,031; 0,016) 6,25 < 0,001
(IMC 26,2)2 0,0016estudio 0,0007
European (0,0002;
Study on 0,0029) 2,32 Myocardial
Antioxidants, 0,021Infarction and Cancer o
Alcohol 0,0030 0,0006 (0,0018; 0,0042) 5,00 < 0,001
Fumador actual 0,098 the Breast
0,027(EURAMIC),
(0,150; un estudio multicntrico
0,045) 3,63 de casos y controles realiza
< 0,001

entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de lo
216 Pastor-Barriuso R.
Regresin polinomial

2,25

alrededor de su media muestral x1 = 26,2 kg/m2 antes de incluir en el modelo los


2

trminos lineal X1 - 26,2 y cuadrtico (X1 - 26,2)2, cuya correlacin era


Colesterol HDL (mmol/l)

nicamente
1,5
de 0,297.

El contraste para la nulidad del coeficiente asociado al trmino cuadrtico del


1.2 MEDIDAS DE TENDENCIA CENTRAL
ndice de1 masa corporal resulta en un valor P = 0,021, lo que indica que el modelo
Laselmedidas
cuadrtico mejora significativamente de tendencia
ajuste del central
modelo lineal. Eninforman acerca de cul es el valor m
consecuencia,

la pendiente
0,5 de la relacin entre elde una determinada
colesterol HDL y elvariable o, masa
ndice de dichocorporal
de forma equivalente, estos estim

vara segn alrededor


siendo b1de
= qu valor se agrupan de
losladatos observados. Las medidas d
EDIDAS DE 1.2
TENDENCIA
MEDIDAS DEelTENDENCIA
nivel de exposicin,
0,25 CENTRAL CENTRAL -0,024 la estimacin

pendiente en el20nivel medio x1 24 central


= 26,2 de2ladel
kg/m muestra
ndice sirven
de masa tanto para resumir
corporal y 2b2 = los resultados observad
28 32
edidas de tendencia
Las medidas
centraldeinforman
tendenciaacerca
central
de informan
cul es el acerca
valor msde cul
representativo
es el valor ms representativo36
realizar inferencias
Indice de masa corporalacerca
(kg/m)de los parmetros
2 poblacionales correspond
a determinada de una 20,0016
variable o, dicho= de
determinada 0,0032
formaelequivalente,
variable cambio
o, dichodedependiente
estos por
formaestimadores cada indican
equivalente, incremento de 1 kg/m
estos estimadores en el
indican Figura 11.5
Figura 11.5 Relacin lineal (lnea fina) y cuadrtica (curva gruesa) entre el ndice de masa corporal y el
colesterol HDL obtenidas de modelos de
continuacin
regresin mltiple
se describen
ajustados por
los principales
consumo de alcohol
estimadores
y hbito tab-
de la tendencia
dor de qu valor ndice
alrededor
se agrupan
de delosmasa
qu valor
datoscorporal.
se Nolos
observados.
agrupan obstante,
Las
datos es ms
medidas
observados.
de informativo
tendencia
Las representar
medidas de la tendencia
tendencia
quico actual en el grupo control del estudio EURAMIC.
variable.
sirvenglobal
l de la muestracentral de
tanto estimada
la muestra
para resumira partir
sirven los delpara
tanto modelo
resultados cuadrtico.
resumir
observados Para ello,
los resultados
como para se calculan
observados los para
como valores

significativamente el ajuste del modelo lineal.


1.2.1por
Media En consecuencia,
aritmtica la pendiente de la relacin
acerca medios
ar inferencias realizarde
entre
del colesterol
inferencias
loselparmetros deHDL predichos
acercapoblacionales
colesterol HDL losy parmetros
el ndice
el modelo
correspondientes.
depoblacionales
masa corporal Acuadrtico para
correspondientes. losAdistintos
vara segn el nivel de exposicin,
siendo bobservados
valores 1 = 0,024xla estimacin
1 del ndice de de
La la pendiente
media
masa en
aritmtica,
corporal, eldenotada
nivel medio
manteniendo por x 1, =se26,2
constantes el kg/m
define como
2
della suma de cada
uacin se describen
continuacin
los principales
se describen
estimadores
los principales
de la tendencia
estimadores
central
de la
de tendencia
una central
ndice de masa corporal y 2b2 = 20,0016 = 0,0032 el cambio de pendiente por cada de una
incremento
consumo de de
alcohol y la en
1 kg/m 2
el ndice
variable de masa
valores
indicadora decorporal.
muestrales Noactuales
dividida
fumadores obstante,
por elen essus
ms de
nmero informativo
observaciones realizadas
le. variable.representar la tendencia global estimada a partir del modelo cuadrtico. Para ello, se
calculan losmedias
valoresxmedios del colesterol HDL predichos
por n el tamao muestral por el xmodelo
y por cuadrtico
i el valor observadoparapara el sujeto i-s
respectivas 2 = 16,5 g/da y x 3 = 172/448 = 0,38 (proporcin de
Media aritmtica los distintos
1.2.1 Media aritmtica valores observados x 1 del ndice de masa corporal, manteniendo constantes
el consumo de alcohol y la variable indicadora
la media vendrade fumadores
dada por actuales en sus respectivas
fumadores actuales),
medias
dia aritmtica,Ladenotada = 16,5 g/da
por x 2, se denotada
media aritmtica, define como y =
por lax 3suma 172/448
, se define
de cada =
como 0,38 (proporcin
unoladesuma
los de fumadores
de cada uno de los actuales),
1 n 2 x + x 2 + ... + x n
s muestrales dividida
valores muestrales
por el nmeroy dividida
(x1 ; de
16,5; 0,38)
observaciones
por el nmero de
= 1,05realizadas.
0,024( x1 Si26,2)
observaciones denotamos 0,0016(xx1
+realizadas. =
Si26,2)
denotamos
n i =1
xi = 1
n
.
+ 0,003016,5 0,0980,38
por n yelpor
el tamao muestral xi el valor
tamao muestral y por xipara
observado el valor
el sujeto
observadoi-simo, para i =el1,sujeto
..., n, i-simo, i = 1, ..., n,
2
= 1,06 0,024( x 26,2)
La media es la medida
1 + 0,0016( de xtendencia
1 26,2) . central ms utilizada y de ms
dia vendra dada
la media
por vendra dada por
Notar que la eleccin de los valores fijos de las otras
interpretacin. variablesalexplicativas
Corresponde es arbitraria,
centro de gravedad de los datos de la
ya que slo afectan a la constante de la relacin cuadrtica. En la prctica, es habitual fijar
Notar 1 la eleccin
que
n
x + xde +los
... n
x n en sus
1 +valores xfijos xde
1 +medias
2 +las x n variables
+otras
...muestrales explicativas es absolutos
= x i variables
lasx restantes = 1 2 de
x = ajuste x i. =principal limitacin . es que para obtener
est valores
muy influenciada por los valores extre
n i =1 respuestanrepresentativos
de la variable n i =1 de lan poblacin a estudio. La tendencia cuadrtica
arbitraria,
estimada ya entrequeelslo afectan
ndice de amasala constante
corporal deylaelrelacin cuadrtica.
HDLdeseEn la
caso, puede no sercolesterol
un fiel reflejo la representa en la de la distribuc
tendencia central
media es la medida Figura
La media
de 11.5,
tendencia
es la junto
medida
centraldecon
ms la
tendenciarelacin
utilizada central lineal
y devariables
ms obtenida
msfcil
utilizada del mismo
y deenms modelo
fcil de la Tabla 11.9
prctica, es habitual fijar las restantes de ajuste
excluyendo el trmino cuadrtico del ndice de masa corporal. En comparacin con la sus medias muestrales
retacin. Corresponde tendencia
interpretacin.
al centro lineal,
Corresponde
de el modelo
gravedad de cuadrtico
al centro los estima
Ejemplo deunalos disminucin
1.4 En este mssucesivos
deylaenmuestra.
los pronunciada de lasobre estimado
ejemplos
para obtener valores absolutos dededatos
lagravedad
de
variablela muestra.
respuesta datos
Surepresentativos deSula
pal limitacinprincipal
es que est
limitacin
muy influenciada
es que estpor
muy utilizarn
losinfluenciada
valores extremos y,los
por los en valores
valores del colesterol
este extremos HDL obtenidos en los 10 pri
y, en este
Pastor-Barriuso R. 217
38
puede no ser un
caso,
fielpuede
reflejono
deser
la tendencia
un fiel reflejo
central
de la
detendenciaestudio
la distribucin. European Study on
central de la distribucin. Antioxidants, Myocardial Infarction
Regresin lineal mltiple

media del colesterol HDL dentro del rango de normopeso (< 25 kg/m2), que se atena
progresivamente al aumentar los niveles del ndice de masa corporal.

Aunque los modelos cuadrticos permiten detectar efectos no lineales de las variables
explicativas, la tendencia global resultante de estos modelos puede estar fuertemente influenciada
por una o muy pocas observaciones con valores extremos de la variable explicativa. En este
sentido, resulta especialmente importante evaluar los cambios que se producen en la tendencia
cuadrtica, o incluso la propia idoneidad del modelo cuadrtico, al excluir del anlisis las
observaciones ms influyentes (vase apartado de anlisis diagnstico).

11.7 CONFUSIN E INTERACCIN EN REGRESIN LINEAL

La regresin lineal mltiple puede utilizarse con dos propsitos claramente diferenciados. Por
un lado, los modelos de regresin pueden emplearse para predecir el valor de la variable
respuesta en funcin de los valores de las variables explicativas. En tal caso, el inters se centra
en identificar e incluir todas aquellas variables explicativas que se asocien de forma significativa
e independiente con la variable respuesta, de tal forma que el modelo resultante se ajuste bien a
los datos observados (elevado coeficiente de determinacin) y prediga con cierta precisin la
respuesta en nuevos sujetos. Los contrastes parciales descritos en el Apartado 11.4.2 son
particularmente tiles para este propsito, ya que permiten seleccionar las variables explicativas
que mejoran significativamente la capacidad predictiva del modelo. Por otro lado, los modelos
de regresin pueden utilizarse para estudiar la relacin de una o varias variables explicativas de
inters con la variable respuesta, controlando por otras variables explicativas o covariables que
pudieran afectar a dicha relacin. En este caso, no es necesario que el modelo incluya todos los
determinantes de la variable respuesta, sino nicamente aquellos que influyan en la asociacin
objeto de estudio; es decir, aquellas covariables cuya inclusin afecte a las estimaciones de los
coeficientes de regresin asociados a las variables explicativas de inters.
La confusin y la interaccin son dos conceptos epidemiolgicos estrechamente relacionados
con este segundo propsito. A continuacin se presenta una descripcin general de ambos
conceptos y su tratamiento dentro de los modelos de regresin lineal mltiple.

11.7.1 Control de la confusin en regresin lineal


La confusin se define como una distorsin en el efecto estimado de una variable explicativa sobre
la variable respuesta debido a la interposicin de otra covariable, denominada factor de confusin
o simplemente confusor, cuyo efecto se confunde o se mezcla con el verdadero efecto de la variable
explicativa de inters. La distorsin inducida por el factor de confusin puede ser grande y dar lugar
tanto a una sobreestimacin como a una infraestimacin del efecto subyacente, dependiendo de la
direccin de las asociaciones del factor de confusin con las variables explicativa y respuesta. El
factor de confusin puede producir incluso un cambio en la direccin del efecto observado.
Para que una covariable X2 pueda confundir la asociacin entre la variable explicativa de
inters X1 y la variable respuesta Y en un modelo de regresin lineal debe cumplir tres condiciones
necesarias:
yy El factor de confusin X2 debe estar linealmente relacionado con la variable explicativa X1.
Si las variables X1 y X2 estn incorrelacionadas, sus efectos sobre la variable respuesta Y
no podrn confundirse o mezclarse, de tal forma que la estimacin del coeficiente asociado
a la variable explicativa de inters X1 no se ver afectada por la inclusin de la covariable

218 Pastor-Barriuso R.
1

El factor de confusin X2 debe estar asociado con la variable respuesta Y


variables X1 y X2 estn correlacionadas, el efecto estimado de la variable
Confusin e interaccin en regresin lineal
independientemente de su asociacin con la variable explicativa X1. Aunque las
explicativa X1 slo podr estar confundido por la covariable X2 cuando sta tenga
variables X1 y X2 estn correlacionadas, el efecto estimado de la variable
Xun efecto independiente sobre la variable respuesta Y. Si la covariable X2 se
2 en el modelo. Este requisito ya se comprob formalmente en el Apartado 11.3.1 y se
ilustr grficamente en la X
explicativa Figura
slo11.1(a).
podr estar confundido por la covariable X2 cuando sta tenga
relaciona con la respuesta Y1 nicamente a travs de su asociacin con la variable
yy El factor de confusin X2 debe estar asociado con la variable respuesta Y independientemente
de su asociacin un efecto
con laindependiente sobre la variable
variable explicativa respuesta
X . Aunque Y. Si la covariable
las variables X2 se
X y X2 estn
explicativa X1, puede probarse que ryx2 = ryx1 rx1x2 ,1 de donde se deriva que las1
correlacionadas, el efecto estimado de la variable explicativa X1 slo podr estar confundido
por la covariablerelaciona con sta
X2 cuando tenga unYefecto
la respuesta nicamente a travs sobre
independiente de su la
asociacin con la variable
variable respuesta
Y.estimaciones de los
Si la covariable X2coeficientes
se relacionade conregresin mltiple
la respuesta asociadosaatravs
Y nicamente las variables X1
de su asociacin
explicativaXX11,,puede
con la variableexplicativa puede probarse
probarse que
que ryx2 = ryx1 rx1x2,,de
dedonde
dondese sederiva
derivaque
quelas
las
y X2 se reducen
estimaciones a. coeficientes de regresin mltiple
de los asociados a las variables X1 y X2 se
reducen a estimaciones de los coeficientes de regresin mltiple asociados a las variables X 1
ryx1 ryx2 rx1x2 s y ryx1 (1 rx21 x2 ) s y sy
b =
y X2 se reducen = = r ,
1 rx21a.
1 yx
x2 s x1 1 rx21 x2 s x1 1
s x1
ryx2 ryx1 rx1 x2 s y ryx1 rx1x2 ryx1 rx1x2 s y 2
b2 = ryx1 = ryx2 rx1x2 s2y ryx1 (1 =
rx 0.
x ) sy sy
1 rx21xb2 1 = s x2 2 1 rx1 x2
= sx 2 1 2 = ryx1 ,
1 rx1x2 s x1 1 2 rx1 x2 s x1 s x1
As, la covariable X2 no se relacionar con la respuesta al controlar por X1, mientras que el
ryx2 ryxX1 r1x1permanecer
efecto estimado para la variable explicativa x2 s y ryx1 rx1x2 saly ajustar por X2,
ryx1 rx1xinalterable
As, la covariable X no se relacionar
b = con
con lo que la covariable X2 no ser un factor la respuesta = al controlar
2
por X1, =entre
0. X e Y.
1 r 2de confusin para
1 rla2 asociacin
2 2
s
x1 x2 x2 x1 x2 s x2
1

yy El factor de
mientras queconfusin X2 no debe
el efecto estimado serlaun
para paso intermedio
variable explicativa enX1 la relacin de la variable
permanecer
explicativa X1 con la variable respuesta Y. A diferencia de las dos condiciones anteriores,
As, la covariable
este requisito epidemiolgico noXpuede
2 no secomprobarse
relacionar con
con la
losrespuesta al controlar
datos disponibles por X1,
y 41
requiere
de informacin externa o juicio experto sobre los mecanismos subyacentes que relacionan
mientras con
la variable explicativa que la
el efecto estimado
respuesta. para la variable
Por ejemplo, el ndiceexplicativa X1 permanecer
de masa corporal podra
considerarse a simple vista un potencial factor de confusin para la asociacin entre la
actividad fsica y el colesterol HDL, ya que se relaciona de forma independiente con 41
ambas variables. Sin embargo, el ndice de masa corporal no es un factor extrao que
distorsiona dicha asociacin, sino ms bien un factor intermedio, ya que la actividad fsica
reduce el ndice de masa corporal, que a su vez provoca un aumento del colesterol HDL.
En general, los modelos de regresin no deben incluir factores intermedios para la
asociacin objeto de estudio, a no ser que se pretenda estimar el efecto que no est mediado
por dichos factores.
La seleccin de los potenciales factores de confusin debe limitarse, por tanto, a las covariables
que satisfagan estas tres condiciones necesarias, a saber, aquellas covariables que se asocien de
forma independiente con las variables explicativa y respuesta y que no constituyan un paso
intermedio en la relacin entre ambas variables. No obstante, es posible que una covariable
cumpla los tres requisitos y no sea un factor de confusin, en el sentido de no introducir un sesgo
en la asociacin a estudio. Esto puede ocurrir, por ejemplo, cuando existen varios factores cuyos
potenciales sesgos de confusin se compensan al actuar en direcciones opuestas.
En la prctica, para determinar si una o varias covariables son en realidad factores de
confusin, se compara la estimacin cruda de la asociacin objeto de estudio con la estimacin
ajustada por los potenciales factores de confusin. Como se vio en el Apartado 11.2, estas
estimaciones ajustadas pueden obtenerse directamente a partir de modelos de regresin mltiple
que incorporen los potenciales factores de confusin adems de la variable explicativa de
inters. As, los factores de confusin vendrn determinados por aquellas covariables cuya
inclusin en el modelo produzca un cambio substancial en la estimacin del coeficiente de
regresin asociado a la variable explicativa de inters. La comparacin entre los coeficientes

Pastor-Barriuso R. 219
asociaran tambin con el ndice de masa corporal, verificaran los tres requisitos
Regresin lineal mltiple

para ser potenciales factores de confusin.

La Tabla
estimados con y11.10 muestra
sin ajuste porlaslos
estimaciones
potencialesdel coeficiente
factores asociadono
de confusin al ndice de mediante
se realiza
pruebas estadsticas, ya que la significacin estadstica no depende nicamente de la magnitud
masa corporal
del cambio, en distintos
sino tambin modelos
del tamao de regresin
muestral lineal, a saber,
(vase Apartado 5.4.2).un primerelmodelo
Aunque criterio vara
segn el mbito de aplicacin, en general se considera necesario controlar la confusin cuando
sin covariables
la estimacin de ajuste,
cruda difiere de laun segundo
ajustada enmodelo
ms delajustado
10%. por el consumo de alcohol,
asociaran tambin con el ndice de masa corporal, verificaran los tres requisitos
un tercer 11.12
Ejemplo modelo En ajustado por el hbito
los ejemplos tabquico
anteriores se hanactual y un ltimo
considerado otrosmodelo
determinantes del
para ser potenciales factores de confusin.
colesterol HDL distintos del ndice de masa corporal, pero no se ha prestado especial
ajustado apor
atencin la ambas
confusincovariables. Todos los modelos se obtuvieron a partir de la el ndice
La Tabla 11.10 muestraque podran
las estimaciones inducir delestos factores
coeficiente en la asociacin
asociado al ndiceentre
de
de masa corporal y el colesterol HDL. La edad y el estatus socioeconmico no mostraron
misma
un muestra
efecto de 448 controles
independiente sobre losdel estudio
niveles deEURAMIC
colesterol con informacin
masa corporal en distintos modelos de regresin lineal, aHDL
saber,(Tabla 11.4),modelo
un primer por lo que no
cumplen una de las condiciones necesarias para ser factores de confusin. Sin embargo,
completa
el consumo dedetodas las variables.
alcohol y elunhbito Tomando
tabquico como referencia el modelo
conajustado por
sin covariables de ajuste, segundo modeloactual s sepor
ajustado asociaron
el consumo el
decolesterol
alcohol, HDL
independientemente del ndice de masa corporal (Tablas 11.7, 11.8 y 11.9). Adems, el
ambas covariables,
alcohol el cambio relativo queque se no produce en el la
coeficientedelestimado
un tercery modelo
el tabacoajustado
son factores
por elexternos
hbito tabquico median
actualeny un relacin
ltimo modelo ndice de masa
corporal con el colesterol HDL. Si ambas covariables se asociaran tambin con el ndice
del masa
de ndice corporal,
de masa corporal al excluir
verificaran el consumo
los tres de alcoholser es potenciales factores de
ajustado por ambas covariables. Todos los requisitos
modelos separa obtuvieron a partir de la
confusin.
misma
La Tabla muestra
11.10demuestra
448 controles b1|3del estudio
las estimaciones 0,0225 EURAMIC
del coeficiente conasociado
informacin al ndice de masa
= = 1,08;
corporal en distintos modelos de regresin
b1|2,3 0,0209 lineal, a saber, un primer modelo sin covariables
completa
de ajuste,de untodas las variables.
segundo Tomandopor
modelo ajustado como referenciade
el consumo el modelo
alcohol,ajustado
un tercerpormodelo
ajustado por el hbito tabquico actual y un ltimo modelo ajustado por ambas covariables.
es decir,
ambas
Todos losuna vez tenido
covariables,
modelos se en cuenta
elobtuvieron
cambio el hbito
relativo
a partirquedeselatabquico
produce actual,
en
misma muestra las448
diferencias
el coeficiente
de endel
estimado
controles elestudio
EURAMIC con informacin completa de todas las variables. Tomando como referencia
consumo
del
el ndicede
modelo de alcohol provocan
masa corporal
ajustado por ambas una
al excluir sobreestimacin
el consumo
covariables, dedel
el cambio 100(1,08
alcohol es - que
relativo 1) = se
8%produce
en la en el
coeficiente estimado del ndice de masa corporal al excluir el consumo de alcohol es
asociacin inversa del ndice de masa corporal con el colesterol HDL. Como se
b1|3 0,0225
= = 1,08;
apunt en el Ejemplo 11.2, esto b1|2,es
3 0
debido , 0209
a que una pequea parte de la reduccin
es
deldecir, una vez
colesterol HDLtenido enlos
entre cuenta el hbito
sujetos tabquico
con mayor ndiceactual, las diferencias
de masa corporal seendebe el consumo
de decir,
es alcohol provocan
una unaen
vez tenido sobreestimacin
cuenta el hbito deltabquico
100(1,08actual,
1) = 8% en la asociacin
las diferencias en el inversa
del ndice dea su
en realidad masa corporal
menor con el
consumo decolesterol
alcohol. PorHDL. otraComo
parte,sesi apunt en ellaEjemplo 11.2,
se excluye
consumo de alcohol
esto es debido a queprovocan una sobreestimacin
una pequea parte de la reduccindel 100(1,08 - 1) = 8%HDL
del colesterol en laentre los
sujetos
variablecon mayor ndice
indicadora de los de masa corporal
fumadores se debe
actuales, en realidad
el cambio relativoa essu menor consumo de
asociacin
alcohol. Porinversa del ndice
otra parte, de masalacorporal
si se excluye variablecon el colesterol
indicadora de los HDL. Como se
fumadores actuales, el
cambio relativo es
el hbitoentabquico
apunt el Ejemplo no11.2,
se asocia
estob1|es
2con el
0ndice
debido ,0206
a quede una
masa corporal
pequea en eldegrupo
parte control
la reduccin
= = 0,99;
b1|2,3 0,0209 2
del
del estudio EURAMIC
colesterol HDL entre(lalos media
sujetosdelconndice de masa
mayor ndicecorporal
de masaescorporal
26,3 kg/m en los
se debe
esto es, una vez controladas las diferencias en la ingesta de alcohol, el hbito tabquico
2
no fumadores
estorealidad
actual
en es,no y 26,1
unaintroduce
avez
su menor kg/m
controladas enlaslos
virtualmente
consumo defumadores
diferencias
ningn en
alcohol. actuales).
Porla otra
sesgo ingestalaPor ltimo,
deasociacin
enparte, alcohol,
si sielse
se excluye excluyen
hbito
objeto
la de estudio
(infraestimacin del 100(0,99 1) = 1%). Esto es consecuencia de que el hbito tabquico
simultneamente
tabquico
no se asocia
variable actual
con el
indicadora ambas
nondice
de covariables
introduce
los de masa
fumadores del
virtualmente
corporalmodelo,
ningn
en
actuales, el cambio
sesgo
elelgrupo
cambio enrelativo
control la del
relativo en el EURAMIC
asociacin
estudio
es objeto (la
media del ndice de masa corporal es 26,3 kg/m2 en los no fumadores y 26,1 kg/m2 en los
coeficiente
fumadores estimado del
de estudio (infraestimacin
actuales). Porndice
ltimo, desimasa
del 100(0,99 corporal
- 1) = -1%).
se excluyen es Esto es consecuencia
simultneamente de que del
ambas covariables
b 0,0206
modelo, el cambio relativo en el1|2coeficiente
= estimado
= 0,99; del ndice de masa corporal es
b1|2,3 0,0209 44
b1 0,0222
= = 1,06.
b1|2,3 0,0209
esto es, una vez controladas las diferencias en la ingesta de alcohol, el hbito
Pastor-Barriuso R.
220
Notar que actual
tabquico esta sobreestimacin del 6% es resultado
no introduce virtualmente de la en
ningn sesgo combinacin de objeto
la asociacin los

sesgos inducidos
de estudio de forma independiente
(infraestimacin del 100(0,99 -por
1) =el-1%).
consumo
Estode
esalcohol y el hbito
consecuencia de que
Confusin e interaccin en regresin lineal

Tabla 11.10 Estimacin de la relacin del ndice de masa


corporal (IMC) con el colesterol HDL a partir de diferentes
modelos de regresin lineal mltiple ajustados por distintas
combinaciones del consumo de alcohol y el hbito tabquico
actual en el grupo control del estudio EURAMIC.
Coeficiente asociado al IMC
Covariable de ajuste Estimacin Error estndar IC al 95%
Ninguna 0,0222 0,0037 (0,0295; 0,0149)
Alcohol 0,0206 0,0036 (0,0278; 0,0135)
Fumador actual 0,0225 0,0037 (0,0297; 0,0152)
Alcohol, fumador actual 0,0209 0,0036 (0,0279; 0,0138)

Notar que esta sobreestimacin del 6% es resultado de la combinacin de los sesgos


inducidos de forma independiente por el consumo de alcohol y el hbito tabquico. Si se
adoptara el criterio estndar del 10%, se concluira que el consumo de alcohol y el hbito
tabquico no son factores de confusin importantes para la asociacin entre el ndice de
masa corporal y el colesterol HDL en los controles del estudio EURAMIC. No obstante,
a pesar de no cumplir este criterio cuantitativo, se podra decidir ajustar por ambas
covariables por razones de credibilidad, ya que el alcohol y el tabaco son determinantes
conocidos del colesterol HDL y cualquier estudio sobre este tpico generara desconfianza
si no incluyera estas variables en el anlisis.

La confusin es un sesgo introducido por un factor externo en la asociacin objeto de estudio


que debe prevenirse en el diseo o controlarse en el anlisis de los datos. En este sentido, la
regresin lineal mltiple es una herramienta til para controlar la confusin en el anlisis, ya
que facilita estimaciones ajustadas por las restantes variables explicativas incluidas en el
modelo. No obstante, la capacidad de ajuste de los modelos de regresin est condicionada por
los siguientes factores:
yy La disponibilidad de informacin sobre los potenciales factores de confusin. Obviamente,
no se podr controlar en el anlisis ningn factor de confusin que no se haya medido
previamente.
yy El efecto conjunto de la variable explicativa de inters y de los factores de confusin. La
regresin lineal mltiple asume que los efectos conjuntos son aditivos, de tal forma que si
esta asuncin no se cumple, la estimacin del coeficiente de regresin asociado a la
variable explicativa de inters puede estar sesgada.
yy Los errores de medida y la especificacin de los factores de confusin. Si los factores de
confusin estn medidos con un error considerable, o si su efecto sobre la variable respuesta
se modela de forma inadecuada (por ejemplo, usando trminos lineales para relaciones
subyacentes curvilneas), el ajuste no ser completo, pudiendo quedar una apreciable
confusin residual.

11.7.2 Evaluacin de la interaccin en regresin lineal

La interaccin o modificacin de efecto se refiere al cambio en la magnitud de la asociacin


entre la variable explicativa de inters y la variable respuesta a diferentes niveles de otra
variable, que se denomina modificador de efecto. A diferencia de la confusin, que es un sesgo

Pastor-Barriuso R. 221
la covariable y, en consecuencia, deben obtenerse estimaciones especficas para cada
Regresin lineal mltiple

nivel, que estn libres de confusin al referirse a sujetos con idntico valor de la

covariable.
a corregir Porestimacin
en la el contrario,
delcuando
efecto,nolaexiste interaccin,
interaccin el efecto
es una se asumeinherente
caracterstica igual en de la
asociacin a estudio, que debe describirse mediante estimaciones especficas del efecto de la
todosexplicativa
variable los niveles de
de inters
la covariable
en los ydistintos
basta entonces conmodificador
niveles del obtener una de
nica estimacin
efecto.
La confusin y la interaccin son fenmenos diferentes que pueden o no ocurrir
para todos los sujetos, que s podra estar confundida por diferencias en la distribucin
simultneamente. No obstante, cuando existe evidencia de interaccin con una determinada
covariable, la valoracin de la confusin inducida por dicha covariable es irrelevante. En
de la covariable. Por ello, en la prctica slo tiene sentido controlar la confusin cuando
presencia de interaccin, la magnitud del efecto vara segn el nivel de la covariable y, en
consecuencia, deben obtenerse estimaciones especficas para cada nivel, que estn libres de
se ha descartado previamente la presencia de interaccin.
confusin al referirse a sujetos con idntico valor de la covariable. Por el contrario, cuando no
existe interaccin, el efecto se asume igual en todos los niveles de la covariable y basta entonces
Los efectos independientes de una variable explicativa de inters X y otra covariable
con obtener una nica estimacin para todos los sujetos, que s podra 1estar confundida por
diferencias en la distribucin de la covariable. Por ello, en la prctica slo tiene sentido controlar
X2 sobre la variable respuesta Y se obtienen a partir del modelo de regresin lineal
la confusin cuando se ha descartado previamente la presencia de interaccin.
Los efectos independientes de una variable explicativa de inters X1 y otra covariable X2
mltiple
sobre la variable respuesta Y se obtienen a partir del modelo de regresin lineal mltiple
Y = 0 + 1 x1 + 2 x2 + ,
que incluye distintos trminos para cada variable explicativa. Bajo este modelo, la relacin entre
X1 eque incluye
Y para distintos trminos
un determinado para
valor fijo cada
c2 de variable explicativa.
la covariable X2 viene dada Bajopor
este modelo,
E(Y|x la
1, c2) = (0 + 2c2)
+ 1x1. As, este modelo asume que no existe interaccin entre X1 y X2 ya que el cambio esperado
en Yrelacin
por cadaentre X1 e Y para
incremento de una un unidad
determinado valor
en X1 es fijo cigual
siempre 2 de la
a covariable X2 viene dada
1, independientemente del nivel
de X2. De hecho, los cambios en el valor de la covariable X2 slo afectan a la constante de la recta
de regresin , c2Y) =sobre
por E(Y|x1de (0 +X1,2cpero 1xa1. su
2) + no As, este modelo
pendiente. Estaasume quede
ausencia nointeraccin
existe interaccin
se representa
grficamente en la Figura 11.6(a), donde las rectas de regresin de Y sobre X1 son lneas paralelas
de igual X1 y X2 yapara
entre pendiente quelos
el cambio
distintosesperado en Y pory cada
valores (puntos incremento
crculos) de una unidad
de una covariable en X1 X2.
dicotmica
En regresin lineal mltiple, la forma ms sencilla de modelar la interaccin entre la variable
es siempre igual a , independientemente del nivel de X2. De hecho, los cambios en el
explicativa de inters X11 y la covariable X2 consiste en aadir al modelo un nuevo trmino con
el producto de ambas variables,
valor de la covariable X2 slo afectan a la constante de la recta de regresin de Y sobre
Y = 0 + 1 x1 + 2 x2 + 3 x1 x2 + .
X1, pero no a su pendiente. Esta ausencia de interaccin se representa grficamente en la
Notar que el modelo ha de incluir el trmino producto X1X2 adems de los trminos
Figura 11.6(a), donde las rectas de regresin de Y sobre X1 son lneas paralelas de igual
principales para las variables X1 y X2. Bajo este modelo extendido con el trmino
pendiente para los distintos valores (puntos y crculos) de una covariable dicotmica X2.
producto,
y la recta de regresin de Y sobre X1 para un determinado valor fijo c2 de la
[Figura 11.6 aproximadamente aqu]
covariable X2 viene dada por E(Y|x1, c2) = (0 + 2c2) + (1 + 3c2)x1. As, el nuevo

modelo contempla
En regresin la posibilidad
lineal mltiple, ladeforma
interaccin entre Xde
ms sencilla X2 ya que
1 ymodelar el cambio esperado
la interaccin entre la

en Y por explicativa
variable cada incremento xde
de intersuna
X1 unidad en X1 es X
y la covariable igual a 1 +en
2 consiste 3aadir
c2, que depende
x1 al modelodel
un
1

nuevodetrmino
nivel con elque
X2 siempre el(a)coeficiente
producto de ambas3 del
variables, (b)
trmino producto sea distinto de 0. La
Figura 11.6 Rectas de regresin de la variable respuesta Y sobre la variable explicativa X1 para distintos
47
presencia
valores (puntosde interaccin
y crculos) se covariable
de una ilustra en dicotmica
la Figura 11.6(b),
X2 que nodonde las rectas
interacciona con Xde regresin de
1 (panel a) y que inte-
racciona con X1 (panel b).
Y sobre X1 presentan distintas pendientes para los dos valores (puntos y crculos) deFigura
una11.6

222 covariableR. dicotmica


Pastor-Barriuso X2.

A diferencia de la confusin, la interaccin s se evala estadsticamente mediante el


Confusin e interaccin en regresin lineal

Notar que el modelo ha de incluir el trmino producto X1X2 adems de los trminos principales
+ b3clas
para 2)x1variables
, de tal forma X2. elBajo
X1 yque cambio
este en el nivel
modelo medio decon
extendido Y por
el cada incremento
trmino delauna
producto, recta de
regresin de Y sobre X1 para un determinado valor fijo c2 de la covariable X2 viene dada por
E(Y|x
unidad c2) X=1 se
1, en (0estima ) + (1 +b1 3+c2b)x3c1.2.As,
+ 2c2mediante Estaelcombinacin
nuevo modeloconstituye un estimador
contempla la posibilidad de
interaccin entre X1 y X2 ya que el cambio esperado en Y por cada incremento de una unidad en
X
insesgado
1 es igualdea la1 pendiente
+ 3c2, queespecfica del nivel de X2 siempre que el coeficiente 3 del trmino
depende subyacente,
producto sea distinto de 0. La presencia de interaccin se ilustra en la Figura 11.6(b), donde las
rectas de regresin de Y sobre X1 presentan distintas pendientes para los dos valores (puntos y
E(b + b3 c2 ) = E(b1 ) + E(b3 )c2 = 1 + 3 c2 ,
crculos) de una covariable1dicotmica X2.
+ b c )x ,
A diferencia
3 2 1 de tal forma que el cambio
de la confusin, la interaccin en elsnivel de Y por cada incremento
medioestadsticamente
se evala mediante elde una
contraste
cuya varianza viene dada por (vase Apartado 3.4)
parcial del coeficiente 3 asociado al trmino producto. Si este coeficiente no difiere
unidad en X1 se estima
significativamente mediante
del valor nulo, elb1 + b3c2. de
efecto EstaX combinacin constituye
sobre la variable un estimador
respuesta Y no variar
1
significativamentevar(b en los
1 +distintos niveles
b3 c2 ) = var(b 1) +decX22 2var(b
. En ausencia de interaccin,
3 ) + 2c2 cov(b 1 , b3 ) ha de eliminarse el
insesgado de la pendiente especfica subyacente,
trmino producto y volver al modelo con los trminos principales de ambas variables, que
permite estimar el efecto global =de X2 (v 1 ajustado
2 por X . Por el contrario, si el coeficiente del
11 + c 2 v33 + 2c22 v13 ), 3
trmino producto resulta significativo,
E(b1 + b3 c2 ) el efecto
= E(b 1 ) +de X13 )c
E(b diferir
2 = 1 +significativamente
3 c2 , segn el nivel
de X+2 by, cen)xconsecuencia, se tendr una interaccin significativa entre ambas variables. Aunque
3 2 1, de tal forma que el cambio en el nivel medio de Y por cada incremento de una
queestimaciones
las depende de las de varianzas de b1 ydel
los coeficientes b3 ymodelo
tambincon de elsutrmino
covarianza ya que,nocomo
producto tienenseen general
cuya varianza viene dada por (vase Apartado 3.4)
una+unidad
interpretacin
b3c2)xen , de tal directa,
forma que pueden
el cambiocombinarse
en el nivel para
medioobtener
de
1 X se estima mediante b + b c . Esta combinacin constituye un estimador Y estimaciones
por cada especificas
incremento de la
de una
1 1 3 2
muestra en
relacin de elX1Apndice
con la variable tema, las Yestimaciones
de esterespuesta en los distintos de los de X2. Para
coeficientes
niveles de regresin
un determinado
valor fijo
unidad
insesgadocen
2 deX la
de secovariable
estima X ,
mediantela ecuacin
var(b1 + bespecfica
1 la pendiente b +
23 c2 ) = var(b b c de . regresin
Esta
2
estimada
combinacin es (x
constituye
31 ) 2+ c 2 var(b3 ) + 2c2 cov(b1 , b31) 2
1 subyacente, , c )
un= (b0 + b2c2) + (b1
estimador
+ b3c2)x1,estn
mltiple de talcorrelacionadas.
forma que el cambio As, elenintervalo
el nivel medio de Y poralcada
de confianza 100(1 - )% paradelauna unidad
incremento
en X se
insesgado
1 estima de mediante
la b
pendiente 1 + b c .
especficaEsta combinacin
2 subyacente, 2
3 2 = (v11 + c v33 + 2c2 v13 ), constituye un estimador insesgado de la
pendiente especfica
subyacentesubyacente, E(b +
1 + 3c12 de lab c ) = E(b ) +
2
E(b )c =
3 2relacin1 entre X3 e2Y en1 el valor
1
+ c ,
3 2 c de la covariable
2

E(b1 + b3 c2 ) = E(b1 ) + E(b3 )c2 = 1 + 3 c2 ,


X2 que
se depende
calcula
cuya deviene
como
varianza las varianzas
dada porde (vase b3 y tambin
b1 y Apartado 3.4)de su covarianza ya que, como se
cuya varianza viene dada por (vase Apartado 3.4)
cuya varianza
muestra viene dadadepor
en el Apndice este(vase
tema,Apartado 3.4)
las estimaciones de los coeficientes de regresin
2
b1 + 1b+3 cb2 3c2t)n -=p-1,1-
var(b var(b v11c +
/2 s1 ) + 2 var(b
c 2
v
2 333 )
+ +22c
c 2 v2 cov(b
13 . 1 , b3 )

mltiple estn correlacionadas. As,


var(b1 + b3c2) == var(b el(vintervalo
2
11) +
2
2c2 v13 ), al 100(1 - )% para la
c 2 v33de+ confianza
1 + c22 var(b3) + 2c2cov(b1, b3)

11.13 Para1evaluar 3cb21 una


quependiente
depende de las varianzas+de y bla 2yrelacin
tambin de suXcovarianza
1 e Y en el valor ya que, como
c2 ndice se muestra en
Ejemplosubyacente de
=
3posible
(v + c 2
entre
modificacin
v + 2c v del
), efecto del de la covariable
de
el Apndice de este tema, las estimaciones de los coeficientes de regresin mltiple estn
11 2 33 2 13

Xque sedepende
correlacionadas.
calcula
2 masa
de
As,
como laselvarianzas
intervalo de 1 y b3 y tambin
de bconfianza al 100(1 desu)% covarianza ya que, como
para la pendiente se
subyacente 1
corporal sobre el colesterol HDL en los estratos de fumadores actuales y no
3c2 de
+ que la relacin
depende entre X1 e Y de en bel1 valor
y blas ctambin
2 de la covariable X2 se calcula como
muestra en eldeApndice
las varianzas
de este tema, 3 y estimaciones de sudecovarianza ya que,
los coeficientes decomo se
regresin
fumadores actuales,bse+ ajust b3 c2 un tnpmodelo de regresin 2 lineal mltiple en los
1 1,1 /2 s v11 + c 2 v 33 + 2c 2 v13 .
muestra en el Apndice de este tema, las
mltiple estn correlacionadas. As, el intervalo de confianza estimaciones de los coeficientes
al 100(1 - de )%regresin
para la
controles del estudio EURAMIC que inclua los trminos principales del ndice de
Ejemplo
mltiple 11.13
estn Para evaluar
correlacionadas. As,unael posible
intervalomodificacin
de confianzadel efecto- del
al 100(1 )%ndice
para lade masa
pendiente subyacente 1 + 3c2 de la relacin entre X1 e Y en el valor c2 de la covariable
corporal
masa sobre
corporal
Ejemplo 11.13 el colesterol
X1, el consumo
Para HDL
evaluardeuna en los
alcohol
posible estratos de
X2modificacin fumadores
y la variable indicadora actuales
del efecto del X3 de y no fumadores
los
ndice de
actuales,subyacente
pendiente se ajust un1 +modelo
c de de
la regresin
relacin lineal
entre X mltiple
e Y en el en los
valor ccontroles
de la del
covariable estudio
X2 EURAMIC
se calcula como
que inclua los
3 2
trminos principales del
1
ndice de masa
2
corporal X , el consumo
fumadores actuales,
masa corporal as el
sobre como un trmino
colesterol HDLadicional
en los estratoscon elde producto
fumadores entre el 1ndice
actuales y no
de alcohol
X2 se calcula comoX 2 y la variable indicadora X 3 de los fumadores actuales, as como un trmino
adicional con
de fumadores
masa corporal el producto
y la entre
b1 variable el ndice
c2 indicadora de masa corporal y la variable indicadora de los
actuales, +seb3ajust /2 s de
un modelo vdelosregresin
fumadores actuales,
lineal mltiple en los
2
tn-p-1,1- 11 + c 2 v 33 + 2c 2 v13 .
fumadores actuales,
2
controles del estudio b1 + bEURAMIC
3c2 tn-p-1,1-que /2 sinclua
v + clos 2 v 33 + 2c 2 v13principales
trminos . del ndice de
Y = 0 + 1 x1 + 2 x2 + 11 3 x3 + 4 x1 x3 + .
Ejemplo
masa 11.13XPara
corporal evaluar una posible modificacin del efecto del ndice de
1, el consumo de alcohol X2 y la variable indicadora X3 de los

Ejemplo 11.13 sobre


masa corporal Para evaluar una posible
el colesterol HDL enmodificacin
los estratos del efecto del actuales
ndice dey no
fumadores actuales, as como un trmino adicional condeelfumadores
producto entre el ndice
Pastor-Barriuso R. 223
masa
de
corporal
fumadores sobre el
actuales,
masa corporal
colesterol
y lasevariable
ajust un HDL ende
modelo
indicadora
los estratos de
de regresin
fumadores
lineal
los fumadores actuales, en los y49no
mltipleactuales
fumadores actuales,
controles del estudioseEURAMIC
ajust un modelo de regresin
que inclua linealprincipales
los trminos mltiple en
dellosndice de
entre el ndice de masa corporal y el hbito tabquico actual en los controles del
especficos del ndice de masa corporal sobre el colesterol HDL dentro de cada
estudio EURAMIC. No obstante, este contraste podra tener escasa potencia
Regresin lineal mltiple
estrato, ya que el estudio cuenta nicamente con 276 no fumadores actuales y 172
estadstica para detectar cambios relevantes en la magnitud de los efectos
fumadores actuales. En este sentido, es aconsejable utilizar los resultados del
La Tabla 11.11 muestra las estimaciones de los coeficientes de este modelo y las
especficos del ndice de masa corporal sobre el colesterol HDL dentro de cada
correlaciones
modelo con elentre trmino los distintos
producto pares para estimarde coeficientes,
los efectos queespecficos
forman parte de los la
y valorar resultados
facilitados por los programas estadsticos convencionales. El contraste para la nulidad
estrato, ya que el estudio cuenta nicamente con 276 no fumadores actuales y 172
del coeficiente
relevancia del cambio. 4 asociado al trmino producto arroja un valor P = 0,16, lo que indica
que no existe una interaccin estadsticamente significativa entre el ndice de masa
fumadores actuales. En este sentido, es aconsejable utilizar los resultados del
corporal
Por un lado, y el en hbito tabquico
el estrato de los actual en los controles
no fumadores actuales, del la estudio
variable EURAMIC.
indicadoraNo X3obstante,
1.2 MEDIDAS DE TENDENCIA CENTRAL
este contraste podra tener escasa potencia estadstica para detectar cambios relevantes
modelo con el trmino producto para estimar los efectos especficos y valorar la
en
tomala magnitud
valor 0 y la deecuacin
los efectos de especficos
regresin estimada del ndice de masaa corporal sobre el colesterol
se reduce
Las medidas de tendenciaHDL dentro de cada estrato, ya que el estudio cuentarepresentativo
central informan acerca de cul es el valor ms nicamente con 276 no fumadores
relevancia del cambio.
actuales y 172 fumadores actuales. En este sentido, es aconsejable utilizar los resultados
de una determinada variable
del modelo o, dicho con de el forma
trmino y (x 1 , x2 , 0) =
equivalente,
producto b0 +estimar
estos
para b1 x1 + blos
estimadores 2 x2 .efectos
indicanespecficos y valorar la
Por un lado, en el estrato de los no fumadores actuales, la variable indicadora X3
relevancia del cambio.
y (x1 ; 16,5; 0) = 1,49 - 0,016x1 + 0,002916,5 = 1,54 - 0,016x1 .
alrededor de qu valorAs, se agrupan
una los datos observados.
vez0 controladas Las medidas de tendencia
Por un
toma lado,
valor estratolas
yenlaelecuacin dediferencias
de los no fumadores
regresin en el consumo
estimada actuales,
se reduce de la alcohol,
avariable cadaindicadora X3 toma
valor 0 y la ecuacin de regresin estimada se reduce a
central de la muestraPor sirven
otrotanto
incremento lado, para
de en 3,50elresumir
kg/m2los
estrato de resultados
en losndice
el fumadores deobservados
masa actuales,
corporal como depara
la variable fumadoresX3
los noindicadora
y (x1 , x2 , 0) = b0 + b1 x1 + b2 x2 .
realizar inferencias acerca
toma
actualesde los
valor se parmetros
1asocia
ycontroladas
la ecuacin
con 0) poblacionales
una de regresincorrespondientes.
disminucin estimada
media en viene A por
dada
el colesterol HDL de 3,50b
As, una vezy (x ; 16,5; = las
1,49 diferencias
- 0,016x en
+ el consumo
0,002916,5 = de1,54alcohol,
- 0,016xcada 1=
incremento de
1 1 1.
3,50 una
As, kg/m vezencontroladas
2
el ndice delasmasa corporalendeellos
diferencias no fumadores
consumo de alcohol, actuales
cadase asocia con una
continuacin se describen los principales
3,50(-0,016) = -0,057 estimadores
mmol/l, con deun la ICtendencia
al 95% central
comprendido de unaentre
disminucin media en el colesterol HDL de 3,50b
y (x1 , x2 , 1) = (b0 + b3 ) + (b1 +1b4 )x1 + b2 x2 . = 3,50(0,016) = 0,057 mmol/l, con
Por otro lado, en el estrato 2 de los fumadores actuales, la variable indicadora X
un IC al 95%
incremento decomprendido
3,50 kg/m enentre el ndice de masa corporal de los no fumadores 3
variable.
As, 3,50{b1 det443;0,975 SE(b )} = 3,50(de 0,016 1,970,0049) = ( 0,090; 0,023).
kg/m=2 en
tomadespus 1 y laajustar por disminucin
1la
actuales valorse asocia ecuacin
con una deingesta
regresin media alcohol,
estimada en los incrementos
viene
el dada por
colesterol HDL de de
3,503,50b 1
1.2.1 Media aritmtica La Figura y11.7 muestra
(x1 ; 16,5; en
0) = de trazo
1,49 fino
- fumadores la recta
0,016x1 + 0,002916,5 de regresin estimada
= 1,54 -con 0,016x del colesterol HDL
1.
elLandice
sobreFigura
el de 11.7
ndice masa
3,50(-0,016) = -0,057y (x de corporal
muestra
masa en
corporal
mmol/l, los
trazo fino
entre la recta
los noactuales
de regresin
fumadores
con un IC al 95% comprendido entre se asocian
estimada
actuales conuna
del uncolesterol
consumo medio
1 , x2 , 1) = (b0 + b3 ) + (b1 + b4 )x1 + b2 x2 .
de alcoholpor
La media aritmtica, denotada de x 2, =se16,5 define g/da,como la suma de cada uno de los
disminucin
HDLotro
Por sobre lado, elmediandice
en el en deelmasa
estrato colesterol
de corporal HDL
los fumadores de 3,50(b
entre los + bla4)variable
no1fumadores
actuales, = 3,50(-0,016
actuales - 0,010)
con
indicadora unX3 =
3,50{b y1 (x
; 16,5; SE(b
1t443;0,975 0) = 11,49 )} = 0,016x1 + 0,002916,5
3,50(-0,016 1,970,0049) = 1,54 = 0,016x-0,023).
(-0,090; 1.
As, despus
valores muestrales dividida por el nmero de ajustar depor la ingesta derealizadas.
observaciones alcohol, los denotamos de 3,50 kg/m2 en
Si incrementos
-0,092
consumo
Por
toma otro mmol/l.
valor medio
lado, 1 yen Para
la de
el obtenerde
alcohol
estrato
ecuacin deuna
de losx 2estimacin
= 16,5estimada
fumadores
regresin por intervalo
g/da,
actuales, viene del por
la variable
dada efecto especfico
indicadora en valor
X3 toma
por n el tamao muestral1elyndice
La
Por la ecuacin
y por
Figura
otro x11.7
de
lado, i masa
el en deelcorporal
valor
muestraregresin
observado
estrato deestimada
en trazo lospara
fino ellaviene
fumadores rectadada
sujeto i-simo,
actuales
de por se
regresin
actuales, ila=asocian
1, ..., n,con
estimada
variable unacolesterol
del
indicadora X3
este estrato, se calcula en primer lugar la varianza muestral de b1 + b4
y (x1 , x2 , 1) = (b0 + b3 ) + (b1 + b4 )x1 + b2 x2 . 50
la media vendra dadaHDL disminucin
sobre 1elmedia
por valor
toma yndice en
la ecuacindeelmasa colesterol
de corporal
regresin HDL de los
entre 3,50(b
estimada noviene + b4dada
1fumadores ) = 3,50(-0,016
actuales con
por - 0,010)
un =
As, var(b
despus de ajustar por la ingesta de alcohol, los incrementos de 3,50 kg/m2 en el
1 + b4 ) = var(b1 ) + var(b4 ) + 2cov(b1 , b4 )
-0,092
ndice
As, mmol/l.
de
despus masa Para
decorporal
ajustar obtenerde los
por launa
ingestaestimacin
fumadores de alcohol,por intervalo
actuales losse incrementos
asocian del conefecto kg/m2en
de especfico
una disminucin
3,50 enmedia
consumo medio 1 n de alcohol y x(x de
1 1+, 2x22, +1)x...=
2 +=(bx216,5 g/da,
0n + b3) + (b1 + b4)x1 + b2x2.
x = x=i SE(b
en el colesterol HDL de
= 1 ) + SE(b 3,50(b +
1 4) + b ) = 3,50(0,016
4. 2SE(b1 )SE(b4 ) rb b 0,010) = 0,092 mmol/l. Para
este
obtener
el estrato,
ndice una n
de masase i =1calcula
estimacin corporal enpor n
primer los lugar
deintervalo fumadores la varianza
del efecto
actuales muestral
especfico
se asocian
1 4
de beste
en con buna
1 + estrato,
4 se calcula en
50
primer lugar la varianza
As, despus de ajustar por2 la ingesta2 de muestral de b + b
1 alcohol,
4 los incrementos de 3,50 kg/m2 en
= 0,0049 + 0,0072HDL + 20,00490,0072(-0,679) = 0,000028,
La media es la medidadisminucin
de tendencia media en
central el colesterol y de
de 3,50(b 1 + b4) = 3,50(-0,016 - 0,010) =
var(b 1 + b4 ) = var(b 1ms utilizada
) + var(b 4 ) + 2cov(b ms1 , bfcil
4)
el ndice de masa corporal 2de los fumadores 2
actuales se asocian con una
-0,092
donde mmol/l.
la correlacin
interpretacin. Corresponde al centro de gravedad de Para= SE(b
obtener
entre 1 )b1+una
y SE(b
b 4 los datos de1 )SE(b
se4 )
estimacin+
obtiene 2SE(b por
de la 4 ) rb1b4 del
laintervalo
segunda
muestra. Su efecto
parte de laespecfico
Tabla 11.11. en
disminucin media en el colesterol HDL de 3,50(b1 + b4) = 3,50(-0,016 - 0,010) =
= 0,00492 + 0,00722 + 20,00490,0072( 0,679) = 0,000028,
este
El IC estrato,
al 95% separa calcula
el
principal limitacin es que est muy influenciada por los valores en
efecto primer
especfico lugar la varianza
del ndice
extremos demuestral
masa y, en de b1 +enb4los
corporal
este
donde la
-0,092 correlacin
mmol/l. entre b1una
Para obtener y b4estimacin
se obtiene por de laintervalo
segundadel parte de la
efecto Tabla 11.11.
especfico en El IC
al 95%
fumadores
caso, puede no ser undonde para
fiel reflejo el
actuales
debla efecto se especfico
calcula del
entonces ndice como de masa corporal en los fumadores actuales se
var(b 1+
la correlacin 4) tendencia
= var(b entre1) b+central
1 var(b
y b4 se 4de +la2cov(b
) obtiene distribucin.
de b4)segunda parte de la Tabla 11.11.
1, la
calcula
este entonces
estrato, se calcula como en primer lugar la varianza muestral de b1 + b4
2 2
3,50{b1 +=bSE(b 1) + SE(b
4 t443;0,975 SE(b4)1 ++ b2SE(b
4 )} 1)SE(b4) rb1b4
Ejemplo 1.4 EnEleste yalen
ICvar(b los
95% sucesivos
para
b el ejemplos
efecto sobre
especfico estimadores
del ndice muestrales,
de masa se en los
corporal
1 + 4 ) = var(b 1 ) + var(b 4 ) + 2cov(b 1, b4)
= 3,50( 0,0162 0,010 21,97 0,000028 ) = (0,129; 0,056).
utilizarn los valores del colesterol = 0,0049
HDL + 0,00722en+los
obtenidos 20,00490,0072(-0,679)
10 primeros sujetos del= 0,000028,
fumadores actuales se
= SE(bcalcula
2 entonces como
1) + SE(b4) + 2SE(b1)SE(b4) r b1b4

estudio European
En laStudy
donde Figuraon11.7
Antioxidants,
la correlacin
3,50{b 1+
se entre b2Myocardial
representa
= b0,0049
4 t443;0,975
b4 se
1 y en trazo
SE(b
+ 0,0072
Infarction
obtiene
2 gruesode la and Cancer
la recta
segunda parteofde laestimada
de regresin
1 ++b20,00490,0072(-0,679)
4)}
Tabla 11.11.
= 0,000028,del
224 Pastor-Barriuso R.
the Breast (EURAMIC),
El IC al 95%
colesterol unpara
HDL estudio
sobre multicntrico
el efecto
el especfico
ndice dedel
de masa casos y controles
ndice
corporal de masa
entre losrealizado
corporal
fumadores en actuales
los con
= 3,50(-0,016 - 0,010 1,97 0,000028
donde la correlacin entre b1 y b4 se obtiene de la segunda ) = (-0,129;
parte de -0,056).
la Tabla 11.11.
entre 1991 y 1992 en
fumadores
una ochoactuales
ingesta pases de
media Europeos
calculaede
sealcohol Israel
x =para
entonces evaluar
g/da, el efecto de los
como
16,5
= 3,50(-0,016 - 0,010 1,97 0,000028 ) = (-0,129; -0,056).
continuacin se describen los principales estimadores de la tendencia central de una
En la Figura 11.7 se representa en trazo grueso la recta de regresin estimada
Confusin e interaccin en del
regresin lineal
variable.
colesterol HDL sobre el ndice de masa corporal entre los fumadores actuales con
En la Figura 11.7 se representa en trazo grueso la recta de regresin estimada del colesterol
1.2.1 Media aritmtica
una
HDL ingesta media
sobre el ndice dede
alcohol de x 2 = 16,5
masa corporal entreg/da,
los fumadores actuales con una ingesta media
La media aritmtica, denotada de x 2, =se16,5
de alcoholpor g/da,
define como la suma de cada uno de los
y (x1 ; 16,5; 1) = (1,49 + 0,18) (0,016 + 0,010)x1 + 0,0029 16,5
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
= 1,72 0,026x1 .
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
En conclusin, a partir del modelo con la interaccin se tiene que un mismo incremento
de 3,50 kg/m2 en el ndice de masa corporal se asocia con distintas disminuciones en el
la media vendra dada por
nivel medio de colesterol HDL de 0,057 mmol/l en los no fumadores y 0,09251mmol/l
en los fumadores actuales. El cambio en la magnitud del efecto es notable pero, debido
al limitado1 tamao
n
xmuestral
+ x 2 + ...de
+ xambos estratos, las estimaciones especficas son
x = xi = 1 n
.
relativamente imprecisas
n i =1 y el
n test de interaccin no alcanza la significacin estadstica.
Por tanto, los resultados de este estudio no son concluyentes respecto a la posible accin
sinrgica del ndice de masa corporal y el tabaco en los niveles de colesterol HDL, y se
La media es la medida de tendencia
requerira de un central
estudiomsmsutilizada
potente ypara
de ms fcil un cambio subyacente de dicha
detectar
magnitud en los efectos especficos del ndice de masa corporal en fumadores y no
interpretacin. Corresponde al centro
fumadores de gravedad de los datos de la muestra. Su
actuales.

principal limitacin es que est muy influenciada por los valores extremos y, en este
Tabla 11.11 Resultados de la regresin lineal mltiple del colesterol HDL
caso, puede no ser unsobre
fiel reflejo de la de
el ndice tendencia central de(IMC),
masa corporal la distribucin.
el consumo de alcohol, la variable
indicadora de fumadores actuales y el producto entre IMC y fumador actual
en el grupo control del estudio EURAMIC.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
Coeficientes de regresin
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
Test H0: j = 0
Estimacin Error estndar IC al 95% t Valor P
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
Constante 1,49 0,13 (1,24; 1,75) 11,47 < 0,001
IMC 0,016 0,0049 (0,026; 0,007) 3,30 0,001
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
Alcohol 0,0029 0,0006 (0,0018; 0,0041) 4,88 < 0,001
Fumador
entre 1991 y 1992 0,18
en ocho pases Europeos 0,19para evaluar
e Israel (0,20; 0,55) de los0,91
el efecto 0,36
IMCFumador 0,010 0,0072 (0,024; 0,004) 1,40 0,16

Matriz de correlaciones de las estimaciones 5


IMC Alcohol Fumador IMCFumador
Constante 0,990 0,052 0,670 0,664
IMC 0,016 0,674 0,679
Alcohol 0,134 0,120
Fumador 0,990

Pastor-Barriuso R. 225
Regresin lineal mltiple

2,25

2
Colesterol HDL (mmol/l)

1,5

0,5

0,25

20 24 28 32 36

Indice de masa corporal (kg/m)


Figura 11.7
Figura 11.7 Rectas de regresin del colesterol HDL sobre el ndice de masa corporal en fumadores actuales
(puntos y lnea gruesa) y no fumadores actuales (crculos y lnea fina) obtenidas de un modelo con interac-
cin entre el ndice de masa corporal y el hbito tabquico actual en el grupo control del estudio EURAMIC.

En regresin lineal, la ausencia de interaccin entre dos variables explicativas X1 y X2 implica


que sus efectos sobre la variable respuesta son aditivos; es decir, el efecto conjunto de ambas
E(Y|x1 + 1, x2 + 1) - E(Y|x1 , x2 )
variables es la suma de sus efectos independientes. La presencia de interaccin puede
interpretarse, por tanto, como una desviacin de la aditividad, que puede deberse tanto a
= + 1 (x1 + 1) + 2 (x2 + 1) + 3 (x1 + 1)(x2 + 1)
como1 a+0 efectos
efectos subaditivosE(Y|x supraaditivos.
1, x2 + 1) - E(Y|x1 , x2 ) Ms concretamente, en un modelo de regresin
lineal con el trmino producto entre X1 y X2, el cambio esperado en Y al aumentar simultneamente
+ 1 x1 + 2 x2 + 3 x1 x2 ) = 1 + 2 + 3 (x1 + x2 + 1).
- ( 0 explicativas
una unidad ambas variables= 0 + 1 (x1 + 1) es+ 2 (x2 + 1) + 3 (x1 + 1)(x2 + 1)
E(Y|x1 + 1, x2 + 1) E(Y|x1 , x2 )
En el mismo modelo, los- (cambios esperados
0 + 1 x1 + 1 x2Y
2 x2 + 3 xen ) =alaumentar
1 + 2 + 3por
(x1 +separado
x2 + 1). una unidad
= 0 + 1 (x1 + 1) + 2 (x2 + 1) + 3 (x1 + 1)(x2 + 1)
cada variable explicativa +son
( 0los
En el mismo modelo, 1 x1 + 2esperados
cambios x2 + 3 x1 xen2) = + 2 + 3por
Y al1 aumentar x2 + 1).una unidad
(x1 +separado

En el mismo modelo,
cada variable
E(Y|x losx2cambios
1 explicativa
+ 1, ) - E(Y|x , x2 ) = 0 +en 1Y(x1al+aumentar
son 1esperados 1) + 2 x2 por + 3separado
(x1 + 1)x2una unidad cada
variable explicativa son
En el mismo modelo, los cambios esperados en Y al aumentar por separado una unidad
- (00 ++11(xx11 + 1)
E(Y|x1 + 1, x2 ) E(Y|x1 , x2 ) = 2 x+2 +2 x23+
x1x23)(x=1 + 11)x
+ 2 3 x2
cada variable explicativa son ( 0 + 1 x1 + 2 x2 + 3 x1 x2 ) = 1 + 3 x2
y
y
E(Y|x1 + 1, x2) - E(Y|x1, x2) = 0 + 1(x1 + 1) + 2x2 + 3(x1 + 1)x2
y
E(Y|x1 , x2 + 1) E(Y |x1 , x2 ) = 0 + 1 x1 + 2 (x2 + 1) + 3 x1 (x2 + 1)
-((0 ++1xx1 ++2xx2 ++3xx1xx2))==1 ++3xx2 .
E(Y|x1, x2 + 1) - E(Y|x1, x2) = 00+ 1x1 1 1+ 2(x 2 + 1) + 3x1(x2 + 1)
2 2 3 1 2 2 3 1

y - ( 0 + 1 x1 + 2 x2 + 3 x1 x2 ) = 2 + 3 x1 .
As, si existe interaccin entre X1 y X2, el coeficiente 3 asociado al trmino producto
226 x2 + 1) - E(Y|x
E(Y|x1,
Pastor-Barriuso R. ) =X2, 0el+coeficiente
1,Xx12y 1x1 + 2(x23 +asociado
1) + 3x1(xtrmino
2 + 1)
serAs, si existe
distinto de 0interaccin
y el efectoentre
conjunto de ambas variables diferir al
de la sumaproducto
de sus
(0ambas
ser distinto de 0 y el efecto conjunto- de + 1x1variables
+ 2x2 +diferir
3x1x2)de 2suma
= la + 3xde
1. sus
efectos independientes,
ser distinto de 0 y el efecto conjunto de ambas
- ( 0 +variables
1 x1 + 2diferir
x2 + 3 xde
1 x2 )la=suma
2 + de
3 xsus
1.

efectos independientes, Confusin e interaccin en regresin lineal


As, si existe interaccin entre X1 y X2, el coeficiente 3 asociado al trmino producto

E(Y |xde
ser distinto 1 +01, y xel2 + 1) - E(Y|x
efecto 1 , x2 )de ambas variables diferir de la suma de sus
conjunto
As, si existe interaccin entre X1 y X2, el coeficiente 3 asociado al trmino producto ser
distinto 0 y el- {E(Y|x
deindependientes,
efectos + 1, x2 ) - de
efecto 1 conjunto E(Y|x 1 , x2 ) +
ambas E(Y|x1 , xdiferir
variables 2 + 1) - E(Yde |x x2 )} de sus efectos
la1 , suma
independientes,
+ 2 +20;
= y1 (28,5; = x1,49
3 (x0)1 + 2 + 1) - ( 1 + 3 x2++0,002920
- 0,01628,5 2 + 3 x1 )==1,091,
3.
E(Y |x1 + 1, x2 + 1) E(Y|x1 , x2 )
y(28,5;
{E(Y|x20; 1 + 0)
1, =x21,49 - 0,01628,5
) E(Y|x + 0,002920
1 , x2 ) + E(Y|x 1 , x2 + 1)= 1,091,
E(Y |x1 , x2 )}
el de los fumadores actuales con un ndice de masa corporal de 25 kg/m2 y un
Ejemplo 11.14=A 1partir + 2 + delas (x estimaciones
+ x + 1) (del modelo con el trmino producto
1 + 3 x2 + 2 + 3 x1 ) = 3 .
y (28,5; 20; 0)3 = 11,492 - 0,01628,5 + 0,002920 = 1,091,
el de los fumadores
consumo de alcohol actuales de 20 g/da cones un ndice de masa corporal de 25 kg/m2 y un
de la Tabla 11.11, el nivel medio de colesterol HDL de los no fumadores con un
Ejemplo 11.14 A partir de las estimaciones del modelo con el trmino 2
producto de la
elconsumo
de los
Tabla 11.11, de alcohol
fumadores
el nivel de
medio20 g/da
actuales decon es
un 2ndice
colesterol HDLde masa
de los corporal
no de 25 kg/m
fumadores con un yndice
un de masa
ndice de y (25,
masa 20,corporal1) = 1,49 de -25 0,01625
kg/m y+un 0,002920
consumo+de 0,18 - 0,01025
alcohol de 20=g/da
1,070 es
corporal
Ejemplo de 25 y kg/m
11.14 (28,5; y20;
A partir
2
un0)consumo
de= las
1,49 -de alcohol del
estimaciones
0,01628,5 de
+ 20 g/da con
modelo
0,002920 es= 1,091,
el trmino producto
consumo de alcohol de 20 g/da es
y (25, 20, 1) = 1,49 - 0,01625 + 0,002920 + 0,18 - 0,01025 = 1,070
y elde delalos Tablafumadores y (25, el
11.11, 20,nivel
0) =medio
actuales 1,49
con un 0,016
deelevado 25 +ndice
colesterol 0,002920
HDL de demasa = 1,148,
los corporal de 28,5
no fumadores con un
2
el de los fumadores y (28,5; actuales
20; con un ndice de masa corporal de 25 kg/m y un
el de 2losy no (25, 20,
fumadores 1) = 1,49con0) un =elevado
1,49 - 0,01628,5
- 0,01625 +2 0,002920
ndice de masa++ 0,002920 =
de1,091,
0,18 - 0,01025
corporal 28,5=kg/m
1,070 2
y un consumo
y elndice
kg/m deylos unde fumadores
consumo
masa deactuales
corporal alcohol
de con
25 un
20 elevado
dekg/m g/da
y un ndice dedemasa
esconsumo corporal
alcohol de 20 deg/da
28,52 es
de
el alcohol
de los no de 20
fumadores
consumo de alcohol de 20 g/da es g/da es
con un elevado ndice de masa corporal de 28,5 kg/m y un
2los fumadores actuales con un ndice de masa corporal de 25 kg/m2 y un
yel eldede
kg/m ylos y (28,5; de
unfumadores
consumo 20; 0) = 1,49
alcohol
actuales con 200,01628,5
de un g/da es ndice
elevado + 0,002920
de masa=corporal1,091, de 28,5
y (28,5;
consumo de 20;alcohol 1) =y de
1,49
(25, - g/da
2020, 0,01628,5
0) =es1,49 +- 0,01625
0,002920+ +0,002920 0,18 - 0,01028,5
= 1,148, = 0,978.
el de 2los y (25, 20, 1) = 1,49 - 0,01625
fumadores + 0,002920 + 0,18 - 0,01025 = 1,070
consumo
kg/m y un alcohol actuales
deconsumo de
de 20 g/da
alcohol conde esun20ndice
g/da de es masa corporal de 25 kg/m2 y un consumo
2

eldede y los
(28,5;
alcohol de20;
fumadores 201)g/da =actuales
1,49es - 0,01628,5
con un ndice + 0,002920
de masa +corporal 0,18 - 0,01028,5
de 25 kg/m= 0,978.
y un 2
Tomandoel de los comono fumadoresreferencia con a losunsujetos
elevado nondice
fumadores de masa concorporal
un ndicedede28,5masa kg/m 53 y un
y el de los y (25,fumadores actuales con un elevado ndice de masa corporal de 28,5
consumo y (28,5; de 20; 20,1)1)==2de
alcohol 1,49
1,49 20-g/da0,016
0,01628,5es25 ++0,002920
0,002920++0,18 0,18-0,010 25 = 1,070
0,01028,5 = 0,978.
Tomando
corporal
consumo decomo 25
de referencia
kg/m
alcohol , losde no a los
20 sujetos
fumadores
g/da es no
confumadores
un elevadocon un ndice
ndice de masade masa
corporal
2
y el de
kg/m ylos
unfumadores
consumo de actuales
alcoholcon de un20elevado
g/da esndice de masa corporal de 28,5 kg/m2 y un
deconsumo
ycorporal
el28,5
Tomando de ylos de
(25,
de
kg/mcomo alcohol
fumadores
252
20, kg/m1) =2de
presentan
referencia 20
, 1,49
los no
unag/da
actuales con
a- 0,01625es un +elevado
fumadores
disminucin
los sujetos 0,002920
con
no en landice
un + 0,18
elevado
media
fumadores de masa
delndice
con un corporal
-colesterol
0,01025
de masa
ndice HDL
de de
= 1,070 28,5
corporal
masa de
53
y 2(28,5; 20; 1) = 21,49 0,01628,5 + 0,002920 + 0,18 0,01028,5 = 0,978.
kg/m
de 28,5y kg/m
corporal un
de consumo
2
25ypresentan
kg/m de alcohol
una fumadoresde 20 g/da
disminucin enesla elevado
media del colesterol HDL de
yTomando
el de loscomo fumadores (28,5;, actuales
los
20; no
0) - con y (25,
un 20, con
0) =un1,091
elevado ndice - de ndice
1,148
masa
de masa
= corporal
-0,057, corporal
de 28,5
referencia a los sujetos no fumadores con un ndice de masa corporal de
25
Tomando
de 28,5 kg/m 2
, los
como 2 no fumadores con un elevado ndice de masa corporal de 28,5 kg/m2
kg/m20;ypresentan referencia unaa0,01628,5
los sujetos+no
disminucin enfumadores con un ndice de = masa
kg/m y2(28,5;
y un consumo 1) = 1,49
(28,5; de 20; -0)
alcohol - yde(25,20 20,
g/da 0) =la1,091
0,002920
es
media del colesterol
+- 0,18
1,148 = -0,057,HDL
- 0,01028,5 0,978.
presentan
los fumadores una disminucin
actuales con en la media
el mismo del colesterol
ndice de masa corporal HDL de de 25 kg/m2 de
corporal de 25 kg/m2, los no fumadores con un elevado ndice de masa corporal
y (28,5; 20; 0) y (25, 20, 0) = 1,091 1,148 = 0,057, 2
Tomando
los fumadores
y (28,5; como
20;actuales referencia
1) = 1,49 con- a0,01628,5
ellos sujetos
mismo +no
ndice fumadores
de masa+ corporal
0,002920 con -un
0,18 ndice de =masa
de 25 kg/m
0,01028,5 de
0,978.
2 y (25, 20, 1) - y (25, 20, 0) = 1,070 - 1,148 = -0,078
delos28,5 kg/m presentan
fumadores actuales con unaeldisminucin
mismo ndice en dela media del colesterol
masa corporal de 25 HDL
kg/m2de de
corporal
los fumadores de 25 actuales kg/m2, los connoelfumadores
mismo con de
ndice un masa
elevado ndicede
corporal de25masa
kg/m 2
corporal
de
Tomando como y (25,
referencia20, 1)a
los y (25,
sujetos20, no0) = 1,070
fumadores 1,148
con =
un 0,078
ndice de masa
y los fumadores actuales con un elevado ndice de masa corporal de 28,5 kg/m2 de
2 y (28,5; 20; 0) - y (25, 20, 0) = 1,091 - 1,148 = -0,057,
de
y los28,5 kg/m presentan
fumadores actuales una
condisminucin
un elevado ndice en la media
de masa delcorporal
colesterol de HDL de 2 de
28,5 kg/m
corporal de 25 kg/m y (25,2 20, 1) - y (25, 20, 0) = 1,070 - 1,148 = -0,078
, los con
no fumadores
y los fumadores actuales un elevadocon un elevado
ndice de masandice corporal de de
masa corporal
28,5 kg/m2 de
y (28,5; 20; 1) y (25, 20, 0) = 0,978 1,148 = 0,170. 2
los fumadores2 yactuales (28,5; 20; con0)el-mismoy (25, ndice
20, 0) =de masa-corporal
1,091 1,148 = de 25 kg/m de
-0,057,
de
yAs, 28,5 kg/m
loslafumadores presentan
actuales una disminucin en la media del colesterol de HDL de 2 de
disminucin y (28,5; media20;condel-un
1) y elevado
colesterol
(25, 20, HDL ndice dede0,170
0) = 0,978 masa
- 1,148 corporal
mmol/l 28,5conjuntamente
debida
= -0,170. kg/m a
As,
fumar la ydisminucin
aumentar elmedia
y (25, 20, 1)del
ndice - ycolesterol
de masa corporal
(25, 20, HDL
0) esdemayor
= 1,070 -0,170
- 1,148enmmol/l
valor debida que la suma de
absoluto
= -0,078 2
los
las fumadores yyactuales conel0,078mismo ndice =de masa corporal decada factor de
25 kg/m
disminuciones (28,5;
0,057
(28,5; 20; 1) -- yy (25,
20; 0) (25, 20,
20, 0)
= 0,135 1,091
0,978 -- debidas
0) =mmol/l 1,148
1,148 = = a-0,057,
-0,170. por separado.
As,
En otrasla disminucin
conjuntamente palabras, losmedia
a fumar datos del estudio
y aumentar
del colesterol
el EURAMIC
ndiceHDL dede -0,170
masa
apuntan mmol/l
corporal es debida
mayor
a un posible en valor
efecto supraaditivo
2
yo los fumadores
sinrgico del yactuales
ndice
(25, de
20, con
masa
1) - uny elevado
corporal
(25, 20, y ndice
0)el= tabacode
1,070 masa
sobre
- 1,148 corporal
los= niveles
-0,078de 28,5
de kg/m
colesterol
2
deHDL.
los fumadores
conjuntamente
absoluto
As, que la asuma
la disminucin actuales
fumarmedia con
deylas el
aumentarmismo
disminuciones
del colesterol ndice
el ndice HDL de masa
dedemasa
-0,057 -0,170corporal
corporal
- 0,078 de 25 kg/m
esdebida
= -0,135
mmol/l mayor
mmol/l de
en debidas
valor
y (28,5; 20; 1) - y (25, 20, 0) = 0,978 - 1,148 = -0,170. 2
ayabsoluto
los fumadores
cada que por
factor
conjuntamente actuales
la aysuma de
separado.
fumar
(25, 20, con
ylas - un
1)En elevado
disminuciones
yotras
aumentar (25, ndice
elpalabras,
ndice
20, 0) = dedatos
-0,057
los
de -masa
masa
1,070 -0,078corporal
==
del deEURAMIC
-0,135
estudio
corporal
1,148 28,5enkg/m
mmol/l
es mayor
-0,078 valorde
debidas

As, la factor
a cada
apuntan
absoluto disminucin
aque por
un la
posible
y suma media
separado.
(28,5;efecto
de del
20;las
1)En colesterol
otras
supraaditivo20, HDL
(25,palabras,
disminuciones
-uny elevado de -0,170
los datos
o0)sinrgico
-0,057
= 0,978 -del
- 0,078mmol/l
del
ndice
1,148 dedebida
=estudio
-0,135
= EURAMIC
masa corporal
mmol/l
-0,170. debidas y
y los fumadores actuales con ndice de masa corporal de 28,5 kg/m2 de
conjuntamente
apuntan
ael tabaco
cada asobre
un por
factor alos
fumar
posible y aumentar
efecto
niveles
separado. deEn otraselpalabras,
supraaditivo
colesterolndice
HDL. delos
masa
o sinrgico corporal
del
datos ndice
del esdemayor
estudio masa en valor y
corporal
EURAMIC
As, la disminucin media del colesterol HDL de -0,170 mmol/l
y (28,5; 20; 1) - y (25, 20, 0) = 0,978 - 1,148 = -0,170. debida
absoluto
el tabacoaque
apuntan un la
sobre suma
posible de lasde
los niveles
efecto disminuciones
colesterol HDL.
supraaditivo -0,057 - 0,078
o sinrgico = -0,135
del ndice mmol/l
de masa debidas
corporal y
Pastor-Barriuso R. 227
conjuntamente a fumar y aumentar el ndice de masa corporal es mayor en valor
aAs,
elcadala factor
disminucin
tabaco porlos
sobre media del
separado.
niveles de colesterol
Encolesterol HDLlos
otras palabras,
HDL. de datos
-0,170delmmol/l
estudiodebida
EURAMIC
absoluto que la suma de las disminuciones -0,057 - 0,078 = -0,135 mmol/l debidas 54
MLTIPLE
Segn la estructura de la regresin lineal mltiple presentada en el Apartado 11.2, cada
media 0 y varianza constante 2. Estas n ecuaciones lineales pueden reescribirse en
11.8
una
Segn
Regresin deAPNDICE:
las
la
lineal estructura
mltiple
FORMULACIN
n observaciones
de la regresin independientes lineal MATRICIAL
(yi, xi1, ,
mltiple xDE
presentada LAenREGRESIN
ip) presenta el la LINEAL
relacin11.2,
Apartado lineal cada
forma matricial como
MLTIPLE
una de las n observaciones independientes (yi, xi1, , xip) presenta la relacin lineal
yi = 0 + 1 xi1 + + p xip + i, i = 1, , n,
11.8 APNDICE: FORMULACIN y
1 1 x MATRICIAL
11 x1p DE LA REGRESIN
1 LINEAL
SegnMLTIPLE yi = 0 + 1 xi1 + + p xip + i, i = 1,en
la estructura de la regresin lineal mltiple
presentada
0 ,el n,
Apartado 11.2, cada
donde los errores aleatorios i son independientes y estn distribuidos
normalmente con
= 1 +
una la
Segn las n observaciones
deestructura de la regresin independientes
lineal mltiple (yi, xpresentada
i1, , xip) presenta
en el Apartado la relacin11.2,lineal
cada una de
donde los errores aleatorios son 2
independientes yestn
distribuidos normalmente
las media 0 y varianza
n observaciones constante
independientes i .(yEstas
i i1 , x , n
, ecuaciones
x ip ) presenta
lineales
la pueden
relacin
reescribirse
lineal en con
p
yi = 0 y+n 1 x2i11+ x n1+ x i =1,n , n,
p xip +np i,
media 0 y varianza
forma matricial como constante . Estas n ecuaciones lineales pueden reescribirse en
donde los errores aleatorios i son independientes y estn distribuidos normalmente con media
0 ydonde
o,varianza
forma los constante
errorescomo
matricial
abreviadamente, 2. Estasi nson
aleatorios independientes
ecuaciones lineales y estn
pueden distribuidos
reescribirse normalmente con
en forma matricial
como y1 1 x11 x1 p 1
2 0
media 0 y varianza constante . Estas n ecuaciones pueden
y1 1 x11y = X +x1p , lineales1 1
reescribirse en
= 0 +
forma matricial como
donde y es un vector n 1 con
=los
valores de lavariable 1 respuesta,
X es una matriz de
y n 1 x n1 x np p + n

y1 columnas 1 x11sonlos xvalores 1p 1
dimensin n (p + 1) cuyas de cada variable explicativa ms
y n 1 x n1 x np 0p n
o, abreviadamente,

una primera columna de unos,
o, abreviadamente, =es un vector (p+1) 1 1 con + los coeficientes de

o, abreviadamente,
y = X + ,
regresin y es un vector n 1 con los errores aleatorios. p El nvector
de errores aleatorios
y n 1 x n1 x np
donde y es un vector n 1 con los valores de + , respuesta, X es una matriz de dimensin
y =laXvariable
(psigue
n donde+ 1)ycuyases uncolumnas
entonces una ndistribucin
vector son 1 con losnormal
los valores valoresde cada de la variable
multivariante
variable respuesta,
con
explicativa mediams 0Xy es una
matriz
una matriz
diagonal
primera de
columna
de unos,
o, es un vector (p + 1) 1 con los coeficientes de regresin y es un vector n 1 con
abreviadamente,
asuncin de homogeneidad 2de la varianza, todas las varianzas de la diagonal de la
los donde
errores
dimensin
de y aleatorios.
es nun vector
(p + El
varianzas-covarianzas 1)nvector
1con
cuyas de, los valores
errores
Icolumnas de
loslavalores
aleatorios
son variable
siguederespuesta,
entonces
cada X esexplicativa
una
variable una matrizms
distribucin de
normal
multivariante con media 0 y matriz diagonal de varianzas-covarianzas I,
2
matriz de varianzas-covarianzas son iguales y = Xa + 2 ,y que, por tratarse de observaciones
dimensin n (p + 1) cuyas columnas son
una primera columna de unos, es un vector (p 2+ 1) 1 con los coeficientes los valores de cada variable explicativa
de ms
~ N(0, I),
independientes, las covarianzas de fuera de la diagonal son iguales a cero.
donde
regresin y esy un
una 0primera
donde denota esvector
el vector
columna ndenulo
un vector unos,1ncon n 1los valores
1escon
con un todos
losvector de sus
errores laaleatorios.
(p variable
1) 1 respuesta,
+componentes conEl los Xdeeserrores
iguales
vector a una
coeficientes ceromatriz de la
I denota
ealeatorios
de
donde
matriz 0 denota
Aidentidad
partir denestaelnvector
con unos
formulacin nuloenn matricial
1diagonal
la con todos sus componentes
dely modelo
ceros fuera de ella.iguales
de regresin Notar amltiple,
linealque, cero I denota
pore la asuncin
resulta
de homogeneidad
dimensin
regresin
sigue entoncesynes(p de
un+lavector
una 1)varianza,
cuyas
distribucin 1todas
n columnas con lasson
los
normal varianzas
los valores
errores de ladecon
aleatorios.
multivariante diagonal
cada
Elmedia de0 de
variable
vector ylamatriz
matriz de
explicativa
errores varianzas-
ms
aleatorios
diagonal
covarianzas
la son iguales
identidad na n
2
y que, por tratarse de observaciones
sencillo calcular las estimaciones de los coeficientes de regresin por el mtodo de la
matriz con unos en la diagonal y ceros fuera independientes,
de ella. Notar las covarianzas
que, por
de fuera
una
sigue
de deentonces
primera la diagonal
columna
varianzas-covarianzas unason de iguales
distribucin 2I, aescero.
unos, un vector
normal (p + 1) 1con
multivariante conmedia los coeficientes
0 y matriz de diagonal
55
mnimos
A partir decuadrados.
esta formulacinEn el Apartado matricial11.3.1, del modelo se comprob
de regresin quelineal estas mltiple,
estimaciones vienen
resulta sencillo
regresin y es un vector
de varianzas-covarianzas
calcular las estimaciones de los
2
n Icoeficientes
,1 con los errores de regresinaleatorios. por el Elmtodo
vector de errores
mnimos aleatorios
cuadrados.
~ N( 0, 2I),
En dadas por la solucin
el Apartado 11.3.1, seal comprob
sistema de que p + 1estas ecuaciones
estimaciones lineales vienen dadas por la solucin al
sigue
sistema de entonces una distribucin
p + 1 ecuaciones lineales normal multivariante 2 con media 0 y matriz diagonal
~ N(0, I),
donde 0 denota el vectorn nulo n 1 con ntodos sus componentes n iguales a cero e I denota
de varianzas-covarianzas y i I=, nb0 + b1 xi1 + ... + b p xip ,
2

donde
la matriz 0 denota
identidad el vector
n n n con
i =1 nulounos n 1nencon =todos
la i diagonal
1
n
susycomponentes
ceros i =1 fuera de
n
iguales
ella. Notar e I denota
a ceroque, por la
xi1 y i = b0 1 xlai1 ~+diagonal
la matriz identidad n i=1 n con unosi =en
b10
N( , x2i1I),+ ... + b p x i1 x ip ,
i =1
2

y ceros fuera i =1 de ella. Notar que, por la 55



n n n n
55
donde 0 denota el vector xipnulo
i =1
y i =nb 0 x ip + b1 x i1 x ip + ... + b p x ip ,
1 con todos sus componentes iguales
i =1 i =1 i =1
2 a cero e I denota

la matriz identidad n n con unos en la diagonal y ceros fuera de ella. Notar que, por la
que puede representarse matricialmente como
55

y 1 x11 x1 p
1 1 1 1 1 b0
x x n1 x11
x n1 b
11R. 1
228 Pastor-Barriuso
=


x np x1 p
b
x1 p x np
y 1 x x p
i =1 i =1 i =1 i =1
n n n n

x
y i = b0 x ip + b1 x i1 x ip + ... + b p x ip2 ,
ip
que puede representarse
i =1 matricialmente
i =1 como i =1 Apndice: formulacin
i =1matricial de la regresin lineal mltiple

ecuacin anterior por la matriz inversa (XX)-1, se obtienen las estimaciones de los
que puede representarse matricialmente y1 como 1 x11 x1 p
1
quecoeficientes
puede representarse 1
matricialmente como
de regresin 1 1 b0
x
x n1 x11
x n1 b
11 y 1 x
11 x 1
1p
1 1 1 = 1 -1 1 b0
b = (XX) Xy.
x
x111p
xx np
xx111p
xx np bb
1p

ecuacin anterior por la matriz
n1
y =

ninversa -1 n1

(XX) , se obtienen 1las estimaciones
x x de los

n1 np

Deesta formula matricial se desprende que los estimadores
de mnimos cuadrados b
x x x x b
1 p anterior
coeficientes de regresin inversa
np
1 p(XX) , se obtienen
-1 las estimaciones de los
np
ecuacin
o,
por la matriz
y los
n 1 x n1 y, x p
sonabreviadamente,
combinaciones lineales de valores de la variable respuesta cuyosnpcoeficientes
o, abreviadamente,
coeficientes de regresin b = (XX)-1 Xy.
dependen de
o, abreviadamente, los valores de las variables = XXb, X que se asumen constantes. En
Xyexplicativas
-1
donde X' esta
De es laformula
consecuencia, matriz
si el traspuesta
matricialmuestral
tamao se X yb
dedesprendenbes XelXvector
que Xyestimadores
=es(suficientemente
) los .(p + 1) 1de
grande, con las estimaciones
mnimos
puede unade
cuadrados
aplicarse b los
donde X es
coeficientes. Comola matriz traspuesta
el modelo de X X
de regresin y es=X
y blineal Xb
elmltiple
, (pasume
vector + 1) que 1 conlas las estimaciones
variables explicativas
sonecuacin
linealmente
son Decombinaciones independientes
estaanterior
generalizacin formuladelpor lineales
la matriz
teorema
matricial seylos
de quevalores
inversa
central delel lmite
desprende (nmero
XX de
que)-1para dedemostrar
la,los
se observaciones
variable
obtienen
estimadores respuesta
lasque yn, estimadores
es
estimaciones
de los
mnimos superior
cuyos de losbo igual
coeficientes
cuadrados b al
nmero de coeficientes
de los coeficientes.
donde X es la matriz Comop + 1, la matriz
el modelo
traspuesta de Xde X tiene
y bregresin rango
es el vector lineal p + 1
(p mltiple y, en
+ 1) 1 asume consecuencia,
con lasque las
estimaciones la matriz
cuadrada
dependen
siguen X'X dees no
los
aproximadamente
coeficientes
son singular.
valores
de regresin
combinaciones linealesde Multiplicando
las
una variables
dedistribucin
los valores de ambos
explicativas
normal lados
la variable X deque
multivariante la ecuacin
se
respuesta asumen
con anterior
y, media por la
constantes.
cuyos coeficientes Enmatriz
variables
inversa
de los(X'X) explicativas
1
, se obtienen
coeficientes. Como sonlaslinealmente
modelo deindependientes
el estimaciones linealy mltiple
de los coeficientes
regresin que eldenmero asumede
regresin que observaciones
las
consecuencia, si
dependen de los valores el tamao de muestral
las variables n es suficientemente
explicativas X-1 que se asumen constantes.una
grande, puede aplicarse
n es superior o igual E(
al bnmero
) = E{(de XX -1
)b X = (yX
coeficientes } =X)E{(
1
pX+X .X)la X
y1, (X +Xtiene
matriz )} rango p + 1 En y, en
variables explicativas son linealmente independientes y que el nmero de observaciones
generalizacin
De esta formula
consecuencia, del teorema
matricial
si el tamao=se central del
desprende
muestral lmite
n)-1esXque para demostrar
los estimadores
suficientemente que
grande, los
de mnimos estimadores
puede aplicarse b
cuadradosuna b son
+ (XXX X E( ) los
= estimadores
singular.
n es superior o igual al nmero de coeficientes p + 1, la matriz X tiene rango p + 1 y,laen
consecuencia,
De esta
combinaciones la
formula matriz
lineales de cuadrada
matricial
los se
valoresdesprende
de es
la noque
variable Multiplicando
respuesta y, de
cuyos ambos
mnimos lados
cuadrados
coeficientes de b
dependen
siguen
de los aproximadamente
valores de las
generalizacin delvariables una distribucin
teorema explicativas
central del lmite normal
X quepara multivariante
se asumen
demostrar constantes.con media
En consecuencia,
que los estimadores b si el
son
tamao
y combinaciones
muestral
matriz de n es lineales
suficientemente
varianzas-covarianzas de los valores
grande, de la
puede variable
aplicarse
consecuencia, la matriz cuadrada XX es no singular. Multiplicando ambos lados de la respuesta
una y , cuyos
generalizacin coeficientes
del teorema
central
siguendel aproximadamente
lmite para demostrar
E(b) una que
= E{( Xlos
X)estimadores
distribucin
-1
Xy}normal = E{(bXsiguen
X)-1 Xaproximadamente
multivariante (X + con )} media
una distribucin
56
dependen
normal de los valores
multivariante con media de las variables explicativas-1 X que se asumen constantes. En
var(b) = E{(b - )(b - )} = E{(XX) X X(XX)-1 }
-1
+X (XXX)n)1X X E(
} = )E{( = XX)1 X(X + )}
consecuencia, si el tamao E(b) =muestral
E{( es ysuficientemente
-1 grande, puede aplicarse una 56
= (XX)-1 XE( )X ( X X ) -1
= ( X X ) X (
2
I ) X ( X X) -1
= + (XX) 1 XE( ) =
generalizacin del teorema
y matriz de varianzas-covarianzas central del lmite para demostrar que los estimadores b
y matriz de varianzas-covarianzas= 2 (XX)-1 ,
siguen
y matrizaproximadamente una distribucin normal multivariante con media
de varianzas-covarianzas
var(b) = E{(b )(b 2)} = E{(XX)1 X X(XX)1 }
ya que E() = 0 y E() = var( ) = I por las asunciones de linealidad, aditividad,
= (XX)1 XE(-1)X(XX)1 = (X X 1 2
-1) X( I)X (XX)1
var(b) E( b) =b E{(
= E{( XbX-))}
- )( Xy=} E{(
= E{( X)XX
XX -1 ) X(X+X))}}
X(X -1
homogeneidad de la varianza
= 2 (XXe)independencia.
1
, Cada estimador de mnimos cuadrados bj
= (X= X)-1+ X))-1XX(E(
(X
X2E( XX ))-1= = (XX)-1X( 2I)X(XX)-1
ya que E() = 0 y E(') = var() = I por las
es entonces un estimador insesgado de su correspondienteasunciones de linealidad,
coeficienteaditividad, homogeneidad
de regresin j y
de la varianza e independencia. Cada 2estimador de mnimos cuadrados b es entonces un
ysigue E( = ) 2= var(-1
(XX) ),= I coeficiente
correspondiente por las asunciones de linealidad, aditividad, j
yamatriz
estimador E(de
) varianzas-covarianzas
insesgado
= 0 y de su
queaproximadamente la distribucin normal de regresin j y sigue aproximadamente
la distribucin normal
homogeneidad
ya 0de
que E() = var(
yb la)
E( =varianza
) = bvar(~e)(independencia.
)b=-2)} Cada-1 estimador
I por las asunciones de-1mnimos
de(Xlinealidad,
, cuadrados bj
aditividad,
E{( bj - N( j, 2 v=jj ),E{(XjX=) 0,X1, X p,X) }
es entonces
homogeneidad
donde un estimador
vjj es el elemento insesgado
de la =varianza
(Xj)-simo
(j, de
E(de )laXsu
X)-1eXindependencia. (Xcorrespondiente
matriz Cada
X)-1(X'X)
1 -1 coeficiente
= (XestimadorX( 2Ide
X.-1)Adems, de)-1regresin
mnimos
los
)X bjyj ybbkj de
cuadrados
(Xestimadores
X
distintos vjj es el elemento
dondecoeficientes (j, j)-simo
de regresin estnde la matriz (XX)con
correlacionados . Adems, cov(bj, bkb) j=y 2vjk.
los estimadores
una covarianza
sigue
Cabe
es aproximadamente
destacar
entonces que
un estimador 2la(insesgado
Xdistribucin
estas=distribuciones
X)-1, muestrales
de su normal no requierencoeficiente
correspondiente de la asuncin j y y
de normalidad
de regresin
sonbkvlidas
de distintos coeficientes
para cualquier de regresin
distribucin estn correlacionados
subyacente de la variable conrespuesta,
una covarianza
siempre que el
tamao muestral sea suficientemente
sigue aproximadamente labdistribucin ~ grande. normal j = 0, 1, , p,
2
j N(j,2 vjj),
ya
cov(b bk))==02vyjkE(
quej, E( ) =destacar
. Cabe var( ) =que
Iestas por las asunciones muestrales
distribuciones de linealidad,no aditividad,
requieren de la
~ N( , 2v ),
homogeneidad
donde vjj es el elemento (j,bj)-simo
de la varianza j e independencia.
jde la matriz
jj j(X
Cada=X -1 , p,
0,estimador
)1, de mnimos
. Adems, cuadrados
los estimadores bj y57bj

es
bk entonces
donde vjj es un
de distintos estimador(j,insesgado
coeficientes
el elemento de
de su
de regresin
j)-simo correspondiente
laestn coeficiente
correlacionados
matriz con los
(XX)-1. Adems, de regresin bj jyy
unaestimadores
covarianza
Pastor-Barriuso R. 229

2
sigue
bcov(b aproximadamente
k de distintos vjk. Cabeladestacar
j, bk) = coeficientes distribucin
de regresinnormal
que estas distribuciones
estn muestrales
correlacionados con unanocovarianza
requieren de la
E( y 0 ) = x0 E(b) = x0
y 0 = b0 + bde
Una vez estimados los coeficientes 1 x01regresin,
+ + bpel = x0 esperado
x0pvalor b de la variable
Regresin lineal mltiple
y varianzaY dados unos valores fijos x0 = (1, x01, , x0p) de las variables explicativas
respuesta
que, al ser una combinacin lineal de b, tambin se distribuye de forma
puede estimarse
Una vez como
estimados ylos coeficientes
0 E{( b - de)(b
regresin,
- )}x0 =elvalor
2
(esperado demedia
XX)-1xcon
x0grandes, 0=
la2hvariable respuesta Y
aproximadamentevar( 0 ) = xen
normal muestras suficientemente 0;
dados unos valores fijos x0 = (1, x01, , x0p)' de las variables explicativas puede estimarse como

es decir,
y 0 = bE(
0+ y 0b)1x=01x+0 E( 0 = x0 b
bpxx0p
b+) =
que, al ser una combinacin lineal de b, tambin se distribuye de forma aproximadamente
normal
que, enser
al muestras
y varianza
suficientemente
una combinacin linealgrandes,
yde b~, tambin
con media
se2 distribuye de forma
0 N( x0 , h0 ),

aproximadamente normal en muestras E( == x00 E(b) = xx00 grandes, con media


E( yy00 ))suficientemente
2
donde el var(hy0 0=) =
leverage x 0 E{(
x(X X ) bx-0es
-1 )(buna - medida
)}x0 = x0 (XX)-1x0de= la
estandarizada 2desviacin
h0; de x0
y varianza 0

E(xy00E{() = bx-0 E( 220


)(b0b)=-=x)}
var( y=0xx-E{(b
yE{(b
0 ) = xx0x0(XX)
+ var(
1 0 )
1
respecto var(
var( y y ) )
= )(b
)(b
)}x 0(XX) xxEl
00== 2h2h0;predicho
0; y 0 es
es decir, de las medias muestrales de las variables explicativas.
0 0 0 0
Regresin lineal mltiple
valor
Regresin lineales
ydecir, x0 (XX)-1 Y
2
os coeficientes mltiple
de varianza el valor esperado de la= variable
regresin, {1 + respuesta x0 } = 2 (1 + h0 ).
un estimador insesgado no slo de la esperanza ~ N( x , 2 h ), poblacional de la variable
o media
s x0 = (1, x01, , x0p)' de las variables explicativas puede y 0 estimarse 0 como0
var(
Una vez 0estimados y - y 0 ) = x E{( b
0los coeficientes - )( b - de )}xregresin,
0 + var( 0el) valor esperado de la variable respuesta
+ brespuesta
y 0 = b0 donde 1x01
Si el+leverage
adems +xel 0bperror
x,var(
hsino
0p 0= b=lax0nueva
=yx0tambin
)(X'X)
0 0de E{(
1
x0 bla
de )(bmedida
esobservacin
una
-respuesta - )} xse 2 x0de(Xun
estandarizada
0 =distribuye
individual X de )-1forma
de
nuevo normal
xla0 =desviacin
sujeto 2
=dexx0 0respecto
h0; y0 (asuncin + 0
Una vezdeestimados los muestralesdados
coeficientesdedelas unos valores
regresin, fijos x = (1,
el0 explicativas.
valor esperado x , , x 0pde)' de las
la variable variables respuesta explicativas puede estimarse com
Y estimador
las
donde mediasel leverage h = x ( X X variables
) -1
x es
2 una medida estandarizada
01 El valor predicho
de la es
desviacin un de x
nacin dados unos
lineal de valores
b, tambin
insesgado fijos
no xse
slo de(1,lax01esperanza
0 =distribuye
0 , ,de 0 x0p)'forma de=
o medialas0 variables
aproximadamente+ xy0 (Xexplicativas
{1poblacional = Xb)de -1
+ = puede
x0bla} xvariable +
2
(1
estimarse
hb0 ).x = xcomo
++respuesta
0
b
, sino
0
tambin
ficientemente grandes, de que
ya normalidad),
con media la diferencia y 0 - y0 tambin seguir la distribucin normal 0 0 1 01 p 0p 0
de es la decir,
respuesta individual y 0 = b0de+ un b1xnuevo 01 + sujeto + bpx0p y == x0b + 0 ya que
respecto de lasque, medias var(
al ser muestrales
y 0una ) = xde0 E{(
- y0combinacin las bvariables )(b - explicativas.
- 0lineal de)}b, + var(El
x0 tambin 0 )sevalor distribuyepredichodeyforma 0 es aproximadamen
E( y )
Si = x
ademsc0 E(b)el= error x
normalc E de la nueva observacin se distribuye de forma normal (asuncin
que, al ser una combinacin
0 0
E( y 0 en
lineal0 de ymuestras
0 ) b,= E{ yx0y0suficientemente
tambin -(0by ~se )N(0,
0 ~ N(
distribuye
x 0 }= 2 xgrandes,
(120+E( de
hb con
forma
0 )).
) E( media
aproximadamente
0 ) = 0.
0 , -1h0),
normal en muestras suficientemente
un estimador insesgado no slo = grandes, con
dela{1 2 media
esperanza
+ x0 (XoXE( )media x0 } =poblacional
(1 + h=0 ).xde
2 la variable
Como el valor predicho
de normalidad), 0 no depende
la diferencia y 0 -de y0 la nueva
tambin seguiry 0la) =distribucin
observacin yx0,c0laE(b) varianza c0 Ede esta diferencia es
normal
E(1 y ) =2 xc E(b) = xc E
Como el 0valor = xyx0yde ylos
2 predicho no X0 )hdepende de 0la nueva observacin
( y 0 ) = xc0 E{(b E)(b donde EnE)c}x
respuesta el x=0Vy,particular
elleverage
caso c0 (XcX)
xsino h0var(
varianza tambin 000
0(X V
=una yde 00;x respuesta
nica
la
-1
= 0xes 0 E{( variable
una b )(explicativa,
individual
medida )}xde
b estandarizada 0 + un todos
var(nuevo
0de)0, la
laresultados
sujeto varianzay0 = xde0de
desviacin esta
+x00
y varianza Si adems el error 0 de la nueva observacin se 2 distribuye de forma normal (asuncin
y=0var( - y{1
2
0 ~+N(0,
=xx0 c0(X
y 0 )regresin
X (1 +1 xEh0)(b
E{(b)lineal }0 )).
=simple
E)c}x
2
=hV0 ).2 xc0Apartados
(1 0+(vase (XcX) 1x0 = V 2h0;

anteriores
diferencia
ya que se
es reducen a los obtenidos en
ySi ~
respecto
N( xvar( de
0 el las2 medias muestrales de las variables
= V 2 xc0 (XcX) explicativas.
1 2 El valor predicho y 0 es
0 0 )h=0 ),
, yerror
de normalidad),
adems la E{(b E)(b y 0E)c}x
xc0 diferencia - y00 tambin seguir x0 la = Vdistribucin
h0de ; forma normal
es 0 de la nueva
decir,
observacin se distribuye normal (asuncin de
10.3.1,
normalidad), En el10.3.3 la
caso yparticular
diferencia 10.3.4). As, de y
una setambin
tiene que
nica seguir
variable la distribucin
explicativa, todos normallos resultados
x0'(X'X) 1
es decir, x0 es unaunmedida estimador estandarizada
insesgado E( y 0 -de y0)laslo
no 0
=desviacin
0
E{de x0 la - de
(besperanza ) -x00respecto} =o media xy00E( ~b poblacional
-N()x-0 E( ,0) h =de ),la variable
0 0.
2
Si adems
les de las variables explicativas. El valor el error 0 de la nueva
predicho
~ observacin
es
y 0x0 0y,0 ~ N(0, 2un se
estimador2 distribuye
(1 + h0 )).
de forma normal (asuncin58
anteriores se reducen a ylos
0 obtenidosN( en h0 ),1
regresin lineal simple (vase Apartados
esperanza o mediarespuesta poblacional de donde la variable elbleverage respuesta = x'
h0 respuesta ,xsino
x00'(X'X) 1
x0
tambin es yunade medida estandarizada
sujeto y0 =dexla desviacin de x0 respect
En el caso
x0 , sino
particular
tambin
de 0
una
de nla
nica
ydepende

variable i individual
explicativa, i un nuevo
todos los resultados 0 + 0 se
anteriores
ual dedonde un nuevo sujeto
el leverage de normalidad),
Como hy0 el de
xx'00'(X'X)
= valor la
+predicho b xdiferencia
las
0 ya
=0medias
que
es una y 0= nomedida 0 - y0estandarizada
muestrales tambinde2 la seguir
lasnueva variables la
deobservacin
la distribucin
explicativas.
desviacin y0,de lanormal
xEl0 respecto
varianza de esta 0 es un estimado
valor predicho
1

de las medias reducen10.3.1,


Enael10.3.3
muestrales los caso obtenidos
de y las 10.3.4).
particular
insesgado enb1 de
variables As,
no se
regresin
una
slo x i lineal
tiene
nica
de
explicativas. que
la esperanza
x isimple
variable
El valor x i y i Apartados
(vase
explicativa,
o media predicho todos
poblacional 0 eslos10.3.1,
de
unresultados 10.3.3respuesta
laestimador
variable y 10.3.4).x' , sino tambi
0
0 ) = E{ x0 no
y 0 yinsesgado As, ya
seque
(b slo ) de
tiene
0la} esperanza
=que x0de E(la b respuesta
) E( ) = 0.
diferencia es
anteriores se de reducen
o media
a lossujeto
0 individual
poblacional
=obtenidos y 0 1- yen
de
de
N(0,
0 ~regresin
un
la
x2i (1
nuevo
variable 2 sujeto
respuesta
+yhi 0)).
lineal
0xi 00xi y i ,0
y = x'
x' ,
simple (vaseApartados
sino
+ ya
tambin
que
de la respuesta individual un nuevo y = x' 2+0 ya que
1

x0 (i by
n
=
0 no depende de la nueva observacin y0,bla0 varianza n n E( (de
0
x esta 0 0
x )xdiferencia xx0xes
y ib y i ) x i }= yxi E( b ) E( 0 ) = 0.
E( b y=0 - y0)==E{ - y)2i0-)=0}E{ 0(i E( b - ) -0 E(0) 0= 0.
var( y 0 y0 ) = x0 E{( bEn
10.3.1, E( y 0 yy)}
el)(bcaso
10.3.3
Como
=x0E{
0 )10.3.4).
particular + var(xb01 (As,
el valor deb 0)se
una ) tiene
predicho
xi0 } =
nica que xx0 E(
0variable
noi depende b ) xi E(
explicativa,
y 0 ) = 0.
de ila nueva todos los resultados
observacin y0, la varianza 58de esta diferencia es
ynueva i0 i i 0,i la)}
Como el= valor
2
{1 + x0 todos
donde
predicho (XX )
no
1
los x sumatorios
}
depende
0 =
2
(1
de +la son
h ).
nueva
0 sobre observacin
1 var(de i = 1, , xy n.
2
, laPor y tanto,
varianza xla
de estimacin
estax y
diferencia de la
es
Como el valor 0 predicho y no depende 0 la
yregresin 0 ) = xobservacin 0 E{(b )(by
i varianza de esta
x0 + var( 0 )
anteriores se reducen a los0=obtenidos en 2 1 lineal simple (vase ,Apartados
de la nueva observacin pendiente se
var( esdistribuye
y 0 by=0 ) =de b
0 x0forma E{(
n n (
b normal x
i)(b (asuncin
x x
) i)} x0 +n = var(x y i 2 i 0 ) i i 1
de y
i {1
x y
+ x0 (XX) x0 } = (1 + h0 ).
2
b normal 2= x 2
{1 x0 }n.=
cia 0 y0 tambindiferencia seguir la distribucin
donde 10.3.1,todos 10.3.3 es sumatorios
los y 10.3.4). = 1As,
son se
+ xtiene
sobre 0i (iX= X1,)x i,
que 1
x(1
Por
2 y i+ h ).
i tanto, 0 la estimacin de la pendiente es
2 Si adems el error 0 de la nueva2 observacin se distribuye de forma normal (asuncin d
y 0 y0 donde ~ N(0, (1 los
el error todos
+ hsumatorios
0 )).
normalidad), son sobre 1nse idistribuye= 1, , i
n.de
y xtambin Por yformatanto,
i seguir normalxlai estimacin
laxdistribucin
i y(asuncin
de lanormal
Si adems 0 de la nueva observacin=la diferencia ( xi 20 x )(1 0y i y )
i
, de
ar denormalidad),
una nica variable
pendiente es 0 b0= b0 = b
la diferencia explicativa, y todos tambin losnseguir n( xii=1la
resultados
1=
n
xdistribucin
)xanteriores
i x normal
se
y 0 yi iyi=
y
0 ~ r N(0,i
s y x 2 y i
(1 + h0 )). 58
s en regresin lineal simple (vase Apartados 10.3.1, 210.3.3
2 y 10.3.4).
xi (1 x(+ixh 0)).x
n
s
y b
En el0 caso 1 y0 ~ N(0,
particular de una i ) 2 x i yvariable
nica i x
explicativa, todos los resultados anteriores s
donde todos los sumatorios son sobre n ii=1= 1, , n. 2 Por tanto, la estimacin de la
En el caso particular
n a losobtenidos
b0 reducen
1
x i enyAs,
dereducen una nica

a los
=
obtenidos
variable

1 en regresin
explicativa,
( x

x


)( y i ylos
xtodos
y
lineal
) simple
i resultados x i (vase i
Apartados
x i yanteriores
,y 10.3.4).
se 10.3.1, 10.3.3 y 10.3.4
= = iregresin se tiene linealque simple (vase Apartados
nb= ( xi =i1 x ) n x i y=i r y x i y i
i 2 i 10.3.1,
s 10.3.3
pendiente es
b1 As,
se tiene
xi que x i2 estimacin
y la x y de
la constante 1 es n
xsix y i
1

i i
b0(x x )n2
x i2 n x i x i xyii bn=
1
i=b
1 yi
i=

1 donde todos b0los y i sumatorios son sobre i = 1, , n.x iPor tanto,
x i2 laestimacin x i y i de la
= b = =
bx y xx y y( xx 2 x
n , 1 n

n ( x i x ) 2 n 1 i i ii i ii i =)1
2( x x )( y y )
ixxi y i ( xi i x )( y i sy )
1 = r y x i y i x i x i y i
2
i =1 b =
ypendiente
230 Pastor-Barriuso
la estimacin R. es debla =constante es i =1
= y b x.
y=i n ,
1
orios son sobre i = 1, , n. Por tanto, 0la estimacin de xnlai2n pendiente xxi
es xxi)sy2xi n x1 y x
=
1
2 (
( xi x i x) x2) 2 (
i , i i i yi
n
n ( x i n x ) n i = n x y i i n. Por tanto, la estimacin de la pendiente es
x y
( xi x )( y i ydonde ) todos los sumatorios 2
1i =1 i n i
son sobre i = 1, ,
b1 = =r
n
sx
(x
i =1
i x) 2

Apndice: formulacin matricial de la regresin lineal mltiple

y la estimacin de la constante es 1

y la estimacin b) la
var(de
var(b0 )
= constante es
cov(b0 , b1 )
= 2
n xi

cov( b0 n, b1 ) var(b1 ) n xi x i2 1
(=xi 2 x)( y2i y
var(b0 ) cov(b , b1 ) n x
var(b) = y ( xi x ) 2 0 x ) 2i 2
cov(b , b ) var(b1 )i =1=
x i
x xi xi
b0 = i0=1 1 =
i b x .
y ,
n
n2 ( xi 2 x ) 2 x2i 1
n
( xi x )
=
xi xi
,
2
cov(b0 , b1 ) n2 ) xi x i
i =1 1
var(b0 ) (nxi x n
Adems, var(
la matriz
de donde b) de
se sigue= que
varianzas-covarianzas de estimadores2es
=estos
cov(b0 , b1 ) var(b1 ) xestimadores xi 1 es
Adems, la matriz de varianzas-covarianzas de estos i

de donde se sigue que var(b0 ) cov(b0 , b1 ) n 2 x i x 2 x


var(b) = n
2 = = 22 i
2
i ,
cov(b0 , b1 ) var( ( x i b1x) ) + nx xi
n ( xi 2 x1) 2 x i
x x i n
2
var(b0 ) = 2 i =n1 n +
= n (n x1)i2s 2 , x i
n i ( xi x=)
2
( x x ) 2
+ n x 2
x
2 i =1 x 2x n ,
2
2 12 59
de donde se sigue que 0var(b ) = i =n1 n i n (n 1)is 2 ,
(
= x x ) +
n ( x i x ) 2 x
de donde se sigue que 2 2
n
i =1
de donde se sigue que var(b1)(= 2 =
x i n x ) + nx 2 (n 1) s 2 , 2
2

( xi 2 x ) = 2 12 +x x
= n 2(n, 1) s 2 ,
2 i =1
var(b0 ) = var(b
n 1) = n i =1
n( )nx)22 (n 1) s x x
n 2
x i (
i =1
xxi )(2x x+
i 1 x 2

var(b0) = 2 i =1 n i =1 2 2 x = 2 2+2 x ,
cov(b0, b1) = n 2 = n (n2 . 1) s x2
var(b1)n= ( x i x ) 2 =2 (n 1)2s,x
i =1 i x2
n ( x x ) (n 1)s 2 x
cov(b0, b1) = i =(n1x i x ) = x .
(n 1) s x2
i =1
(x x)
2 i2
2
2 2
Por ltimo, para un valorcov(b var(b
fijo x0, de ) = i =1

la nvariable explicativa, x = x,
=(n 1) slax2 varianza del valor predicho
1
0 b1) = n .

( x x ) 2
(i x i explicativa,
x) 2
(n 1) s x 2

yPor
0 =ltimo,
b 0 + b para
x
1 0 es un valor fijo x 0 de la i =1variable
i =1
la varianza del valor predicho
1.2 MEDIDAS DE TENDENCIA CENTRAL
Por ltimo,
y 0 = b0 +para es valor fijo x0 de la variable
b1x0un 2 explicativa,
x 2 lax varianza del valor predicho
0 = b0 + b1x0 es cov(b0, b1) = n 1 = .
var( y ) = [1 x ] Las
2
n xi 2 1(n 1) s x2
( x i medidas
2x) de tendencia central informan acerca de cul es el val
Por ltimo, para un0 valor fijo x00de xii=1 xexplicativa,
la variable 1 x la varianza del valor predicho
n xi i 10
var( y 0 ) = [1 2x 0 ]
2
x 2 x
i x xi 1
xidex una determinada
2 variable
o, dicho de forma equivalente, estos e
y 0 = b0 + b1x0 es =

Por ltimo, para un valor fijo x0 de la2 variable [1 ] i 0
0 explicativa, la varianza del valor predicho
n ( xi 2 x ) dex2i qu valor n x0
alrededor xi xise agrupan
1 los datos observados. Las medid
y 0 = b0 + b1x0 es = n [1 x 0 ] 1 2
n( x(ix x )x n) + n ( x 0xi x ) x1i n x 0 2
2 2

var( y 0 ) = 22 [1i =n1 x 0i] central de


la muestra 21
sirven
( x 0 tanto
x ) para resumir los resultados obser
= n x2i x i2 2x=0 + ,

( xi x ) + n( x20 x1) n (n 1) s x2 2
nn( xi realizar x ) xi inferencias 2 acerca
1x ( x10de los
x ) parmetros poblacionales corresp
== 2 [1 x 0 ] i =n1 [1 x ]
var( y 0 ) =
2 i =1 2 x i2 1= + ,
i
2
n ( xi xn) 2 (xxi continuacin

0 x
i x )
2i
2
n
n (xnlos
xix 0se describen 1) s x
0 principales estimadores de la tenden

x0 x2i xi 1
i =1 2
donde se observa que el leverage n 2 del valor
donde se observa que el leverage
=
n ( x
(1xi del

i xvalor
)
x2 )[1
2
+
0
x
n ( ]x
xvariable.
0
xi
0 x )
21

n (xx0 0 x ) 2
donde se observa que= el leverage del
2 i=
valor x0 = + ,
n n
1 ( x2 0 x2) 2 n (n 1) s x2
( xi nhx0 )(=xi+1.2.1
2 n+x( x) 0Media
x ) aritmtica
i = 1 n (n 1) s x2 2 2 1 ( x 0 x ) 2
= 2 i =1
nh =
1 ( x 0 x ) = + ,
2
es una medida estandarizada de su desviacin 0 La +media
respecto aritmtica, n denotada
2de la media (nmuestral
1) spor
x x ,dese la
define como la suma de c
variable
n ( xi n x ) (n 1) s x 2
donde
explicativa. se observa que el leverage del
i =1 valor x 0
valores muestrales dividida por el nmero de observaciones realiz
60
donde se observa que el leverage del valor 1 x(0x 0 x ) 2
h0 = por + n el tamao muestral y por xi el valor observado
Pastor-Barriuso para el sujeto
n (n 1) s x2 60R. 231
1la media( x vendra x) 2 dada por
h0 = + 0
n (n 1) s 2
Regresin lineal mltiple

11.9REFERENCIAS

1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth


Edition. Oxford: Blackwell Science, 2002.
2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
3. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury
Press, 2002.
4. Draper NR, Smith H. Applied Regression Analysis, Third Edition. New York: John Wiley
& Sons, 1998.
5. Kleinbaum DG, Kupper LL, Nizam A, Muller KE. Applied Regression Analysis and
Other Multivariable Methods, Fourth Edition. Belmont, CA: Duxbury Press, 2008.
6. McCullagh P, Nelder JA. Generalized Linear Models, Second Edition. London: Chapman
& Hall, 1989.
7. Pea D. Estadstica: Modelos y Mtodos, Volumen 2, Modelos Lineales y Series
Temporales. Madrid: Alianza Editorial, 1987.
8. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.
9. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.
10. Seber GAF, Lee AJ. Linear Regression Analysis, Second Edition. New York: John Wiley
& Sons, 2003.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
12. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
13. Weisberg S. Applied Linear Regression, Third Edition. New York: John Wiley & Sons,
2005.

232 Pastor-Barriuso R.
APNDICE

TABLAS ESTADSTICAS

Pastor-Barriuso R. 233
Tablas estadsticas

n
Tabla
Tabla Probabilidades P(X = k) = k (1 ) n k para
1 1Probabilidades para laladistribucin
distribucin binomial
binomial X con
X con
k
parmetros n = 2, 3, ..., 20 y = 0,05, 0,10, ..., 0,50.*
parmetros n = 2, 3, ..., 20 y = 0,05, 0,10, ..., 0,50.*

n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
2 0 0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
1 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000
2 02 0,0025
0,9025 0,0100 0,0225 0,6400
0,8100 0,7225 0,0400 0,5625
0,0625 0,4900
0,0900 0,4225
0,1225 0,3600
0,1600 0,3025
0,2025 0,2500
0,2500
1 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000
3 0 0,8574 0,7290 0,6141 0,5120 0,4219 0,3430 0,2746 0,2160 0,1664 0,1250
2 0,00250,0100 0,0225 0,0400 0,0625 0,0900 0,1225 0,1600 0,2025 0,2500
1 0,1354 0,2430 0,3251 0,3840 0,4219 0,4410 0,4436 0,4320 0,4084 0,3750
3 02 0,0071
0,8574 0,0270
0,7290 0,0574 0,0960 0,4219
0,6141 0,5120 0,1406 0,3430
0,1890 0,2746
0,2389 0,2160
0,2880 0,1664
0,3341 0,1250
0,3750
13 0,0001
0,1354 0,0010
0,2430 0,0034 0,3840
0,3251 0,0080 0,4219
0,0156 0,4410
0,0270 0,4436
0,0429 0,4320
0,0640 0,4084
0,0911 0,3750
0,1250
2 0,0071 0,0270 0,0574 0,0960 0,1406 0,1890 0,2389 0,2880 0,3341 0,3750
4
30 0,8145
0,00010,6561 0,5220 0,4096 0,3164 0,2401 0,1785 0,1296 0,0915 0,0625
0,0010 0,0034 0,0080 0,0156 0,0270 0,0429 0,0640 0,0911 0,1250
1 0,1715 0,2916 0,3685 0,4096 0,4219 0,4116 0,3845 0,3456 0,2995 0,2500
4 02 0,0135
0,8145 0,0486
0,6561 0,0975 0,1536 0,3164
0,5220 0,4096 0,2109 0,2401
0,2646 0,1785
0,3105 0,1296
0,3456 0,0915
0,3675 0,0625
0,3750
13 0,1715
0,0005 0,2916
0,0036 0,3685
0,0115 0,4096
0,0256 0,4219
0,0469 0,4116
0,0756 0,3845
0,1115 0,3456
0,1536 0,2995
0,2005 0,2500
0,2500
24 0,0135
0,0000 0,0486
0,0001 0,0975
0,0005 0,1536
0,0016 0,2109
0,0039 0,2646
0,0081 0,3105
0,0150 0,3456
0,0256 0,3675
0,0410 0,3750
0,0625
3 0,0005 0,0036 0,0115 0,0256 0,0469 0,0756 0,1115 0,1536 0,2005 0,2500
5 40 0,7738
0,00000,5905 0,4437 0,0016
0,0001 0,0005 0,3277 0,0039
0,2373 0,0081
0,1681 0,0150
0,1160 0,0256
0,0778 0,0410
0,0503 0,0625
0,0313
1 0,2036 0,3281 0,3915 0,4096 0,3955 0,3602 0,3124 0,2592 0,2059 0,1563
5 02 0,7738
0,0214 0,5905
0,4437
0,0729
0,1382 0,3277
0,2048 0,2373
0,2637 0,1681
0,3087 0,1160
0,3364 0,0778
0,3456 0,0503
0,3369 0,0313
0,3125
13 0,2036
0,0011 0,3281
0,3915
0,0081
0,0244 0,4096
0,0512 0,3955
0,0879 0,3602
0,1323 0,3124
0,1811 0,2592
0,2304 0,2059 0,1563
0,2757 0,3125
24 0,0214
0,0000 0,0729
0,1382
0,0005
0,0022 0,2048
0,0064 0,2637
0,0146 0,3087
0,0284 0,3364
0,0488 0,3456
0,0768 0,3369
0,1128 0,3125
0,1563
3 0,0011 0,0081
0,0244 0,0512 0,0879 0,1323 0,1811 0,2304 0,2757 0,3125
5 0,0000 0,0000
0,0001 0,0003 0,0010 0,0024 0,0053 0,0102 0,0185 0,0313
4 0,0000 0,0005 0,0022 0,0064 0,0146 0,0284 0,0488 0,0768 0,1128 0,1563
6 50 0,0000 0,5314
0,7351 0,0000 0,0001
0,3771 0,0003
0,2621 0,0010
0,1780 0,0024
0,1176 0,0053
0,0754 0,0102
0,0467 0,0185
0,0277 0,0313
0,0156
1 0,2321 0,3543 0,3993 0,3932 0,3560 0,3025 0,2437 0,1866 0,1359 0,0938
6 0 0,7351 0,5314
0,3771 0,2621 0,1780 0,1176 0,0754 0,0467 0,0277 0,0156
2 0,0305 0,0984
0,1762 0,2458 0,2966 0,3241 0,3280 0,3110 0,2780 0,2344
1 0,2321 0,3543
0,3993 0,3932 0,3560 0,3025 0,2437 0,1866 0,1359 0,0938
3 0,0021 0,0146
0,0415 0,0819 0,1318 0,1852 0,2355 0,2765 0,3032 0,3125
2 0,0305 0,0984
0,1762 0,2458 0,2966 0,3241 0,3280 0,3110 0,2780 0,2344
34 0,0001
0,0021 0,0012
0,0055
0,0146
0,0415 0,0154
0,0819 0,0330
0,1318 0,0595
0,1852 0,0951
0,2355 0,1382
0,2765 0,1861 0,3125
0,3032 0,2344
45 0,0000
0,0001 0,0001
0,0004
0,0012
0,0055 0,0015
0,0154 0,0044
0,0330 0,0102
0,0595 0,0205
0,0951 0,0369
0,1382 0,0609 0,2344
0,1861 0,0938
56 0,0000
0,0000 0,0001
0,0004
0,0000
0,0000 0,0015
0,0001 0,0044
0,0002 0,0102
0,0007 0,0205
0,0018 0,0369
0,0041 0,0609
0,0083 0,0938
0,0156
6 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0018 0,0041 0,0083 0,0156
7 0 0,6983 0,4783 0,3206 0,2097 0,1335 0,0824 0,0490 0,0280 0,0152 0,0078
7 01 0,2573
0,6983 0,3720
0,4783 0,3960
0,3206 0,3670
0,2097 0,3115
0,1335 0,2471
0,0824 0,1848
0,0490 0,1306
0,0280 0,0872 0,0078
0,0152 0,0547
12 0,2573
0,0406 0,3720
0,1240 0,3960
0,2097 0,3670
0,2753 0,3115
0,3115 0,2471
0,3177 0,1848
0,2985 0,1306
0,2613 0,0872
0,2140 0,0547
0,1641
23 0,0406
0,0036 0,1240
0,0230 0,2097
0,0617 0,2753
0,1147 0,3115
0,1730 0,3177
0,2269 0,2985
0,2679 0,2613
0,2903 0,2140
0,2918 0,1641
0,2734
34 0,0036
0,0002 0,0230
0,0026 0,0617
0,0109 0,1147
0,0287 0,1730
0,0577 0,2269
0,0972 0,2679
0,1442 0,2903
0,1935 0,2918 0,2734
0,2388 0,2734
45 0,0002
0,0000 0,0026
0,0002 0,0109
0,0012 0,0287
0,0043 0,0577
0,0115 0,0972
0,0250 0,1442
0,0466 0,1935
0,0774 0,2388
0,1172 0,2734
0,1641
5 0,0000 0,0002 0,0012 0,0043 0,0115 0,0250 0,0466 0,0774 0,1172 0,1641
6 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0084 0,0172 0,0320 0,0547
6 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0084 0,0172 0,0320 0,0547
77 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0001
0,0001 0,0002
0,0002 0,0006
0,0006 0,0016
0,0016 0,0037 0,0078
0,0037 0,0078

8 0 0,6634 0,4305 0,2725 0,1678 0,1001 0,0576 0,0319 0,0168 0,0084 0,0039
8 0 0,6634 0,4305 0,2725 0,1678 0,1001 0,0576 0,0319 0,0168 0,0084 0,0039
1 0,2793 0,3826 0,3847 0,3355 0,2670 0,1977 0,1373 0,0896 0,0548 0,0313
1 0,2793 0,3826 0,3847 0,3355 0,2670 0,1977 0,1373 0,0896 0,0548 0,0313
22 0,0515
0,0515 0,1488
0,1488 0,2376
0,2376 0,2936
0,2936 0,3115
0,3115 0,2965
0,2965 0,2587
0,2587 0,2090
0,2090 0,1569 0,1094
0,1569 0,1094
33 0,0054
0,0054 0,0331
0,0331 0,0839
0,0839 0,1468
0,1468 0,2076
0,2076 0,2541
0,2541 0,2786
0,2786 0,2787
0,2787 0,2568 0,2188
0,2568 0,2188
4 0,0004
0,0004 0,0046
0,0046 0,0185
0,0185 0,0459
0,0459 0,0865
0,0865 0,1361
0,1361 0,1875
0,1875 0,2322
0,2322 0,2627 0,2734
0,2627 0,2734
5 0,0000
0,0000 0,0004
0,0004 0,0026
0,0026 0,0092
0,0092 0,0231
0,0231 0,0467
0,0467 0,0808
0,0808 0,1239
0,1239 0,1719
0,1719 0,2188
0,2188
66 0,0000
0,0000 0,0000
0,0000 0,0002
0,0002 0,0011
0,0011 0,0038
0,0038 0,0100
0,0100 0,0217
0,0217 0,0413
0,0413 0,0703
0,0703 0,1094
0,1094
77 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0001
0,0001 0,0004
0,0004 0,0012
0,0012 0,0033
0,0033 0,0079
0,0079 0,0164 0,0313
0,0164 0,0313
8 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0017 0,0039

234 Pastor-Barriuso R.
2
Tablas estadsticas

Tabla 1 (Continuacin)

n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
9 0 0,6302 0,3874 0,2316 0,1342 0,0751 0,0404 0,0207 0,0101 0,0046 0,0020
1 0,2985 0,3874 0,3679 0,3020 0,2253 0,1556 0,1004 0,0605 0,0339 0,0176
2 0,0629 0,1722 0,2597 0,3020 0,3003 0,2668 0,2162 0,1612 0,1110 0,0703
3 0,0077 0,0446 0,1069 0,1762 0,2336 0,2668 0,2716 0,2508 0,2119 0,1641
4 0,0006 0,0074 0,0283 0,0661 0,1168 0,1715 0,2194 0,2508 0,2600 0,2461
5 0,0000 0,0008 0,0050 0,0165 0,0389 0,0735 0,1181 0,1672 0,2128 0,2461
6 0,0000 0,0001 0,0006 0,0028 0,0087 0,0210 0,0424 0,0743 0,1160 0,1641
7 0,0000 0,0000 0,0000 0,0003 0,0012 0,0039 0,0098 0,0212 0,0407 0,0703
8 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0013 0,0035 0,0083 0,0176
9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0008 0,0020

10 0 0,5987 0,3487 0,1969 0,1074 0,0563 0,0282 0,0135 0,0060 0,0025 0,0010
1 0,3151 0,3874 0,3474 0,2684 0,1877 0,1211 0,0725 0,0403 0,0207 0,0098
2 0,0746 0,1937 0,2759 0,3020 0,2816 0,2335 0,1757 0,1209 0,0763 0,0439
3 0,0105 0,0574 0,1298 0,2013 0,2503 0,2668 0,2522 0,2150 0,1665 0,1172
4 0,0010 0,0112 0,0401 0,0881 0,1460 0,2001 0,2377 0,2508 0,2384 0,2051
5 0,0001 0,0015 0,0085 0,0264 0,0584 0,1029 0,1536 0,2007 0,2340 0,2461
6 0,0000 0,0001 0,0012 0,0055 0,0162 0,0368 0,0689 0,1115 0,1596 0,2051
7 0,0000 0,0000 0,0001 0,0008 0,0031 0,0090 0,0212 0,0425 0,0746 0,1172
8 0,0000 0,0000 0,0000 0,0001 0,0004 0,0014 0,0043 0,0106 0,0229 0,0439
9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0016 0,0042 0,0098
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010

11 0 0,5688 0,3138 0,1673 0,0859 0,0422 0,0198 0,0088 0,0036 0,0014 0,0005
1 0,3293 0,3835 0,3248 0,2362 0,1549 0,0932 0,0518 0,0266 0,0125 0,0054
2 0,0867 0,2131 0,2866 0,2953 0,2581 0,1998 0,1395 0,0887 0,0513 0,0269
3 0,0137 0,0710 0,1517 0,2215 0,2581 0,2568 0,2254 0,1774 0,1259 0,0806
4 0,0014 0,0158 0,0536 0,1107 0,1721 0,2201 0,2428 0,2365 0,2060 0,1611
5 0,0001 0,0025 0,0132 0,0388 0,0803 0,1321 0,1830 0,2207 0,2360 0,2256
6 0,0000 0,0003 0,0023 0,0097 0,0268 0,0566 0,0985 0,1471 0,1931 0,2256
7 0,0000 0,0000 0,0003 0,0017 0,0064 0,0173 0,0379 0,0701 0,1128 0,1611
8 0,0000 0,0000 0,0000 0,0002 0,0011 0,0037 0,0102 0,0234 0,0462 0,0806
9 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018 0,0052 0,0126 0,0269
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0007 0,0021 0,0054
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0005

12 0 0,5404 0,2824 0,1422 0,0687 0,0317 0,0138 0,0057 0,0022 0,0008 0,0002
1 0,3413 0,3766 0,3012 0,2062 0,1267 0,0712 0,0368 0,0174 0,0075 0,0029
2 0,0988 0,2301 0,2924 0,2835 0,2323 0,1678 0,1088 0,0639 0,0339 0,0161
3 0,0173 0,0852 0,1720 0,2362 0,2581 0,2397 0,1954 0,1419 0,0923 0,0537
4 0,0021 0,0213 0,0683 0,1329 0,1936 0,2311 0,2367 0,2128 0,1700 0,1208
5 0,0002 0,0038 0,0193 0,0532 0,1032 0,1585 0,2039 0,2270 0,2225 0,1934
6 0,0000 0,0005 0,0040 0,0155 0,0401 0,0792 0,1281 0,1766 0,2124 0,2256
7 0,0000 0,0000 0,0006 0,0033 0,0115 0,0291 0,0591 0,1009 0,1489 0,1934
8 0,0000 0,0000 0,0001 0,0005 0,0024 0,0078 0,0199 0,0420 0,0762 0,1208
9 0,0000 0,0000 0,0000 0,0001 0,0004 0,0015 0,0048 0,0125 0,0277 0,0537
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0008 0,0025 0,0068 0,0161
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0029
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002

Pastor-Barriuso R. 235
Tablas estadsticas

Tabla 1 (Continuacin)

n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
13 0 0,5133 0,2542 0,1209 0,0550 0,0238 0,0097 0,0037 0,0013 0,0004 0,0001
1 0,3512 0,3672 0,2774 0,1787 0,1029 0,0540 0,0259 0,0113 0,0045 0,0016
2 0,1109 0,2448 0,2937 0,2680 0,2059 0,1388 0,0836 0,0453 0,0220 0,0095
3 0,0214 0,0997 0,1900 0,2457 0,2517 0,2181 0,1651 0,1107 0,0660 0,0349
4 0,0028 0,0277 0,0838 0,1535 0,2097 0,2337 0,2222 0,1845 0,1350 0,0873
5 0,0003 0,0055 0,0266 0,0691 0,1258 0,1803 0,2154 0,2214 0,1989 0,1571
6 0,0000 0,0008 0,0063 0,0230 0,0559 0,1030 0,1546 0,1968 0,2169 0,2095
7 0,0000 0,0001 0,0011 0,0058 0,0186 0,0442 0,0833 0,1312 0,1775 0,2095
8 0,0000 0,0000 0,0001 0,0011 0,0047 0,0142 0,0336 0,0656 0,1089 0,1571
9 0,0000 0,0000 0,0000 0,0001 0,0009 0,0034 0,0101 0,0243 0,0495 0,0873
10 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0022 0,0065 0,0162 0,0349
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0012 0,0036 0,0095
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0016
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001

14 0 0,4877 0,2288 0,1028 0,0440 0,0178 0,0068 0,0024 0,0008 0,0002 0,0001
1 0,3593 0,3559 0,2539 0,1539 0,0832 0,0407 0,0181 0,0073 0,0027 0,0009
2 0,1229 0,2570 0,2912 0,2501 0,1802 0,1134 0,0634 0,0317 0,0141 0,0056
3 0,0259 0,1142 0,2056 0,2501 0,2402 0,1943 0,1366 0,0845 0,0462 0,0222
4 0,0037 0,0349 0,0998 0,1720 0,2202 0,2290 0,2022 0,1549 0,1040 0,0611
5 0,0004 0,0078 0,0352 0,0860 0,1468 0,1963 0,2178 0,2066 0,1701 0,1222
6 0,0000 0,0013 0,0093 0,0322 0,0734 0,1262 0,1759 0,2066 0,2088 0,1833
7 0,0000 0,0002 0,0019 0,0092 0,0280 0,0618 0,1082 0,1574 0,1952 0,2095
8 0,0000 0,0000 0,0003 0,0020 0,0082 0,0232 0,0510 0,0918 0,1398 0,1833
9 0,0000 0,0000 0,0000 0,0003 0,0018 0,0066 0,0183 0,0408 0,0762 0,1222
10 0,0000 0,0000 0,0000 0,0000 0,0003 0,0014 0,0049 0,0136 0,0312 0,0611
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0010 0,0033 0,0093 0,0222
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0019 0,0056
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0009
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001

15 0 0,4633 0,2059 0,0874 0,0352 0,0134 0,0047 0,0016 0,0005 0,0001 0,0000
1 0,3658 0,3432 0,2312 0,1319 0,0668 0,0305 0,0126 0,0047 0,0016 0,0005
2 0,1348 0,2669 0,2856 0,2309 0,1559 0,0916 0,0476 0,0219 0,0090 0,0032
3 0,0307 0,1285 0,2184 0,2501 0,2252 0,1700 0,1110 0,0634 0,0318 0,0139
4 0,0049 0,0428 0,1156 0,1876 0,2252 0,2186 0,1792 0,1268 0,0780 0,0417
5 0,0006 0,0105 0,0449 0,1032 0,1651 0,2061 0,2123 0,1859 0,1404 0,0916
6 0,0000 0,0019 0,0132 0,0430 0,0917 0,1472 0,1906 0,2066 0,1914 0,1527
7 0,0000 0,0003 0,0030 0,0138 0,0393 0,0811 0,1319 0,1771 0,2013 0,1964
8 0,0000 0,0000 0,0005 0,0035 0,0131 0,0348 0,0710 0,1181 0,1647 0,1964
9 0,0000 0,0000 0,0001 0,0007 0,0034 0,0116 0,0298 0,0612 0,1048 0,1527
10 0,0000 0,0000 0,0000 0,0001 0,0007 0,0030 0,0096 0,0245 0,0515 0,0916
11 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0074 0,0191 0,0417
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0016 0,0052 0,0139
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0032
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

16 0 0,4401 0,1853 0,0743 0,0281 0,0100 0,0033 0,0010 0,0003 0,0001 0,0000
1 0,3706 0,3294 0,2097 0,1126 0,0535 0,0228 0,0087 0,0030 0,0009 0,0002
2 0,1463 0,2745 0,2775 0,2111 0,1336 0,0732 0,0353 0,0150 0,0056 0,0018
3 0,0359 0,1423 0,2285 0,2463 0,2079 0,1465 0,0888 0,0468 0,0215 0,0085

236 Pastor-Barriuso R.
Tablas estadsticas

Tabla 1 (Continuacin)

n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
4 0,0061 0,0514 0,1311 0,2001 0,2252 0,2040 0,1553 0,1014 0,0572 0,0278
5 0,0008 0,0137 0,0555 0,1201 0,1802 0,2099 0,2008 0,1623 0,1123 0,0667
6 0,0001 0,0028 0,0180 0,0550 0,1101 0,1649 0,1982 0,1983 0,1684 0,1222
7 0,0000 0,0004 0,0045 0,0197 0,0524 0,1010 0,1524 0,1889 0,1969 0,1746
8 0,0000 0,0001 0,0009 0,0055 0,0197 0,0487 0,0923 0,1417 0,1812 0,1964
9 0,0000 0,0000 0,0001 0,0012 0,0058 0,0185 0,0442 0,0840 0,1318 0,1746
10 0,0000 0,0000 0,0000 0,0002 0,0014 0,0056 0,0167 0,0392 0,0755 0,1222
11 0,0000 0,0000 0,0000 0,0000 0,0002 0,0013 0,0049 0,0142 0,0337 0,0667
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011 0,0040 0,0115 0,0278
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0008 0,0029 0,0085
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

17 0 0,4181 0,1668 0,0631 0,0225 0,0075 0,0023 0,0007 0,0002 0,0000 0,0000
1 0,3741 0,3150 0,1893 0,0957 0,0426 0,0169 0,0060 0,0019 0,0005 0,0001
2 0,1575 0,2800 0,2673 0,1914 0,1136 0,0581 0,0260 0,0102 0,0035 0,0010
3 0,0415 0,1556 0,2359 0,2393 0,1893 0,1245 0,0701 0,0341 0,0144 0,0052
4 0,0076 0,0605 0,1457 0,2093 0,2209 0,1868 0,1320 0,0796 0,0411 0,0182
5 0,0010 0,0175 0,0668 0,1361 0,1914 0,2081 0,1849 0,1379 0,0875 0,0472
6 0,0001 0,0039 0,0236 0,0680 0,1276 0,1784 0,1991 0,1839 0,1432 0,0944
7 0,0000 0,0007 0,0065 0,0267 0,0668 0,1201 0,1685 0,1927 0,1841 0,1484
8 0,0000 0,0001 0,0014 0,0084 0,0279 0,0644 0,1134 0,1606 0,1883 0,1855
9 0,0000 0,0000 0,0003 0,0021 0,0093 0,0276 0,0611 0,1070 0,1540 0,1855
10 0,0000 0,0000 0,0000 0,0004 0,0025 0,0095 0,0263 0,0571 0,1008 0,1484
11 0,0000 0,0000 0,0000 0,0001 0,0005 0,0026 0,0090 0,0242 0,0525 0,0944
12 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0081 0,0215 0,0472
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0021 0,0068 0,0182
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0016 0,0052
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

18 0 0,3972 0,1501 0,0536 0,0180 0,0056 0,0016 0,0004 0,0001 0,0000 0,0000
1 0,3763 0,3002 0,1704 0,0811 0,0338 0,0126 0,0042 0,0012 0,0003 0,0001
2 0,1683 0,2835 0,2556 0,1723 0,0958 0,0458 0,0190 0,0069 0,0022 0,0006
3 0,0473 0,1680 0,2406 0,2297 0,1704 0,1046 0,0547 0,0246 0,0095 0,0031
4 0,0093 0,0700 0,1592 0,2153 0,2130 0,1681 0,1104 0,0614 0,0291 0,0117
5 0,0014 0,0218 0,0787 0,1507 0,1988 0,2017 0,1664 0,1146 0,0666 0,0327
6 0,0002 0,0052 0,0301 0,0816 0,1436 0,1873 0,1941 0,1655 0,1181 0,0708
7 0,0000 0,0010 0,0091 0,0350 0,0820 0,1376 0,1792 0,1892 0,1657 0,1214
8 0,0000 0,0002 0,0022 0,0120 0,0376 0,0811 0,1327 0,1734 0,1864 0,1669
9 0,0000 0,0000 0,0004 0,0033 0,0139 0,0386 0,0794 0,1284 0,1694 0,1855
10 0,0000 0,0000 0,0001 0,0008 0,0042 0,0149 0,0385 0,0771 0,1248 0,1669
11 0,0000 0,0000 0,0000 0,0001 0,0010 0,0046 0,0151 0,0374 0,0742 0,1214
12 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0047 0,0145 0,0354 0,0708
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0045 0,0134 0,0327
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011 0,0039 0,0117
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0009 0,0031
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006

Pastor-Barriuso R. 237
Tablas estadsticas

Tabla 1 (Continuacin)

n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

19 0 0,3774 0,1351 0,0456 0,0144 0,0042 0,0011 0,0003 0,0001 0,0000 0,0000
1 0,3774 0,2852 0,1529 0,0685 0,0268 0,0093 0,0029 0,0008 0,0002 0,0000
2 0,1787 0,2852 0,2428 0,1540 0,0803 0,0358 0,0138 0,0046 0,0013 0,0003
3 0,0533 0,1796 0,2428 0,2182 0,1517 0,0869 0,0422 0,0175 0,0062 0,0018
4 0,0112 0,0798 0,1714 0,2182 0,2023 0,1491 0,0909 0,0467 0,0203 0,0074
5 0,0018 0,0266 0,0907 0,1636 0,2023 0,1916 0,1468 0,0933 0,0497 0,0222
6 0,0002 0,0069 0,0374 0,0955 0,1574 0,1916 0,1844 0,1451 0,0949 0,0518
7 0,0000 0,0014 0,0122 0,0443 0,0974 0,1525 0,1844 0,1797 0,1443 0,0961
8 0,0000 0,0002 0,0032 0,0166 0,0487 0,0981 0,1489 0,1797 0,1771 0,1442
9 0,0000 0,0000 0,0007 0,0051 0,0198 0,0514 0,0980 0,1464 0,1771 0,1762
10 0,0000 0,0000 0,0001 0,0013 0,0066 0,0220 0,0528 0,0976 0,1449 0,1762
11 0,0000 0,0000 0,0000 0,0003 0,0018 0,0077 0,0233 0,0532 0,0970 0,1442
12 0,0000 0,0000 0,0000 0,0000 0,0004 0,0022 0,0083 0,0237 0,0529 0,0961
13 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0024 0,0085 0,0233 0,0518
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0082 0,0222
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0022 0,0074
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
19 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

20 0 0,3585 0,1216 0,0388 0,0115 0,0032 0,0008 0,0002 0,0000 0,0000 0,0000
1 0,3774 0,2702 0,1368 0,0576 0,0211 0,0068 0,0020 0,0005 0,0001 0,0000
2 0,1887 0,2852 0,2293 0,1369 0,0669 0,0278 0,0100 0,0031 0,0008 0,0002
3 0,0596 0,1901 0,2428 0,2054 0,1339 0,0716 0,0323 0,0123 0,0040 0,0011
4 0,0133 0,0898 0,1821 0,2182 0,1897 0,1304 0,0738 0,0350 0,0139 0,0046
5 0,0022 0,0319 0,1028 0,1746 0,2023 0,1789 0,1272 0,0746 0,0365 0,0148
6 0,0003 0,0089 0,0454 0,1091 0,1686 0,1916 0,1712 0,1244 0,0746 0,0370
7 0,0000 0,0020 0,0160 0,0545 0,1124 0,1643 0,1844 0,1659 0,1221 0,0739
8 0,0000 0,0004 0,0046 0,0222 0,0609 0,1144 0,1614 0,1797 0,1623 0,1201
9 0,0000 0,0001 0,0011 0,0074 0,0271 0,0654 0,1158 0,1597 0,1771 0,1602
10 0,0000 0,0000 0,0002 0,0020 0,0099 0,0308 0,0686 0,1171 0,1593 0,1762
11 0,0000 0,0000 0,0000 0,0005 0,0030 0,0120 0,0336 0,0710 0,1185 0,1602
12 0,0000 0,0000 0,0000 0,0001 0,0008 0,0039 0,0136 0,0355 0,0727 0,1201
13 0,0000 0,0000 0,0000 0,0000 0,0002 0,0010 0,0045 0,0146 0,0366 0,0739
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0049 0,0150 0,0370
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0013 0,0049 0,0148
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0013 0,0046
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002
19 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
20 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
*Para = 0,55, 0,60, ..., 0,95, P(X = k) = P(Y = n k) donde Y es la distribucin binomial con parmetros n y
1 .

238 Pastor-Barriuso R.
Tablas estadsticas

e k
TablaTabla
2 Probabilidades
2 Probabilidades P(X = k) = parala la
para distribucin
distribucin X con X con
de Poisson
de Poisson
k!
parmetro de 0,5 a 20 en intervalos de 0,5.
parmetro de 0,5 a 20 en intervalos de 0,5.
k 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
0 0,6065 0,3679 0,2231 0,1353 0,0821 0,0498 0,0302 0,0183 0,0111 0,0067
1 0,3033 0,3679 0,3347 0,2707 0,2052 0,1494 0,1057 0,0733 0,0500 0,0337
k 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
2 0,0758 0,1839 0,2510 0,2707 0,2565 0,2240 0,1850 0,1465 0,1125 0,0842
30 0,0126
0,6065 0,0613
0,3679 0,1255
0,2231 0,1804
0,1353 0,2138
0,0821 0,2240
0,0498 0,2158
0,0302 0,1954
0,0183 0,1687
0,0111 0,1404
0,0067
41 0,3033 0,0153
0,0016 0,3679 0,0471
0,3347 0,0902
0,2707 0,2052
0,1336 0,1494
0,1680 0,1057
0,1888 0,0733
0,1954 0,0500
0,1898 0,0337
0,1755
52 0,0758 0,0031
0,0002 0,1839 0,0141
0,2510 0,0361
0,2707 0,2565
0,0668 0,2240
0,1008 0,1850
0,1322 0,1465
0,1563 0,1125
0,1708 0,0842
0,1755
63 0,0126
0,0000 0,0613
0,0005 0,1255
0,0035 0,1804
0,0120 0,2138
0,0278 0,2240
0,0504 0,2158
0,0771 0,1954
0,1042 0,1687
0,1281 0,1404
0,1462
4 0,0016 0,0153 0,0471 0,0902 0,1336 0,1680 0,1888 0,1954 0,1898 0,1755
7 0,0000 0,0001 0,0008 0,0034 0,0099 0,0216 0,0385 0,0595 0,0824 0,1044
5 0,0002 0,0031 0,0141 0,0361 0,0668 0,1008 0,1322 0,1563 0,1708 0,1755
86 0,0000
0,0000 0,0000
0,0005 0,0001
0,0035 0,0009
0,0120 0,0031
0,0278 0,0081
0,0504 0,0169
0,0771 0,0298
0,1042 0,0463
0,1281 0,0653
0,1462
97 0,0000
0,0000 0,0000
0,0001 0,0000
0,0008 0,0002
0,0034 0,0009
0,0099 0,0027
0,0216 0,0066
0,0385 0,0132
0,0595 0,0232
0,0824 0,0363
0,1044
108 0,0000
0,0000 0,0000
0,0000 0,0001
0,0000 0,0009
0,0000 0,0031
0,0002 0,0081
0,0008 0,0169
0,0023 0,0298
0,0053 0,0463
0,0104 0,0653
0,0181
119 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0002
0,0000 0,0009
0,0000 0,0027
0,0002 0,0066
0,0007 0,0132
0,0019 0,0232
0,0043 0,0363
0,0082
10
12 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0002
0,0000 0,0008
0,0001 0,0023
0,0002 0,0053
0,0006 0,0104
0,0016 0,0181
0,0034
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0007 0,0019 0,0043 0,0082
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0013
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0016 0,0034
14
13 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0001
0,0002 0,0002
0,0006 0,0005
0,0013
15
14 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0001
0,0002 0,0002
0,0005
15
16 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0001
0,0000 0,0002
0,0000
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
5,5 6,0 6,5 7,0 7,5 8,0 8,5 9,0 9,5 10,0
0
5,5
0,0041
6,0
0,0025
6,5
0,0015
7,0
0,0009
7,5
0,0006
8,0
0,0003
8,5
0,0002
9,0
0,0001
9,5
0,0001
10,0
0,0000
1 0,0225
0 0,0041 0,0149
0,0025 0,0098
0,0015 0,0064
0,0009 0,0041
0,0006 0,0027
0,0003 0,0017
0,0002 0,0011
0,0001 0,0007
0,0001 0,0005
0,0000
21 0,0618
0,0225 0,0446
0,0149 0,0318
0,0098 0,0223
0,0064 0,0156
0,0041 0,0107
0,0027 0,0074
0,0017 0,0050
0,0011 0,0034
0,0007 0,0023
0,0005
32 0,1133
0,0618 0,0892
0,0446 0,0688
0,0318 0,0521
0,0223 0,0389
0,0156 0,0286
0,0107 0,0208
0,0074 0,0150
0,0050 0,0107
0,0034 0,0076
0,0023
43 0,1133 0,1339
0,1558 0,0892 0,1118
0,0688 0,0912
0,0521 0,0389
0,0729 0,0286
0,0573 0,0208
0,0443 0,0150
0,0337 0,0107
0,0254 0,0076
0,0189
54 0,1558 0,1606
0,1714 0,1339 0,1454
0,1118 0,1277
0,0912 0,0729
0,1094 0,0573
0,0916 0,0443
0,0752 0,0337
0,0607 0,0254
0,0483 0,0189
0,0378
6
5 0,1714
0,1571
0,1606
0,1606
0,1454
0,1575
0,1277
0,1490
0,1094
0,1367
0,0916
0,1221
0,0752
0,1066
0,0607
0,0911
0,0483
0,0764
0,0378
0,0631
6 0,1571 0,1606 0,1575 0,1490 0,1367 0,1221 0,1066 0,0911 0,0764 0,0631
7 0,1234 0,1377 0,1462 0,1490 0,1465 0,1396 0,1294 0,1171 0,1037 0,0901
7 0,1234 0,1377 0,1462 0,1490 0,1465 0,1396 0,1294 0,1171 0,1037 0,0901
88 0,0849 0,1033 0,1188 0,1304
0,0849 0,1033 0,1188 0,1304 0,1373
0,1373 0,1396
0,1396 0,1375
0,1375 0,1318
0,1318 0,1232
0,1232 0,1126
0,1126
99 0,0519
0,0519 0,0688
0,0688 0,0858
0,0858 0,1014
0,1014 0,1144
0,1144 0,1241
0,1241 0,1299
0,1299 0,1318
0,1318 0,1300
0,1300 0,1251
0,1251
10
10 0,0285 0,0413
0,0285 0,0413 0,0558
0,0558 0,0710
0,0710 0,0858
0,0858 0,0993
0,0993 0,1104
0,1104 0,1186
0,1186 0,1235
0,1235 0,1251
0,1251
11
11 0,0143
0,0143 0,0225
0,0225 0,0330
0,0330 0,0452
0,0452 0,0585
0,0585 0,0722
0,0722 0,0853
0,0853 0,0970
0,0970 0,1067
0,1067 0,1137
0,1137
12
12 0,0065
0,0065 0,0113
0,0113 0,0179
0,0179 0,0263
0,0263 0,0366
0,0366 0,0481
0,0481 0,0604
0,0604 0,0728
0,0728 0,0844
0,0844 0,0948
0,0948
13 0,0028 0,0052 0,0089 0,0142 0,0211 0,0296 0,0395 0,0504 0,0617 0,0729
13 0,0028 0,0052 0,0089 0,0142 0,0211 0,0296 0,0395 0,0504 0,0617 0,0729
14 0,0011 0,0022 0,0041 0,0071 0,0113 0,0169 0,0240 0,0324 0,0419 0,0521
14
15 0,0011
0,0004 0,0022
0,0009 0,0041
0,0018 0,0071
0,0033 0,0113
0,0057 0,0169
0,0090 0,0240
0,0136 0,0324
0,0194 0,0419
0,0265 0,0521
0,0347
15
16 0,0004
0,0001 0,0003 0,0007 0,0033
0,0009 0,0018 0,0014 0,0057
0,0026 0,0090
0,0045 0,0136
0,0072 0,0194
0,0109 0,0265
0,0157 0,0347
0,0217
17
16 0,0000 0,0003
0,0001 0,0001 0,0007
0,0003 0,0014
0,0006 0,0012
0,0026 0,0021
0,0045 0,0036
0,0072 0,0058
0,0109 0,0088
0,0157 0,0128
0,0217
18
17 0,0000 0,0001
0,0000 0,0000 0,0003
0,0001 0,0006
0,0002 0,0005
0,0012 0,0009
0,0021 0,0017
0,0036 0,0029
0,0058 0,0046
0,0088 0,0071
0,0128
19
18 0,0000 0,0000
0,0000 0,0000 0,0001
0,0000 0,0002
0,0001 0,0002
0,0005 0,0004
0,0009 0,0008
0,0017 0,0014
0,0029 0,0023
0,0046 0,0037
0,0071
20 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0003 0,0006 0,0011 0,0019
19 0,0000 0,0000 0,0000 0,0001 0,0002 0,0004 0,0008 0,0014 0,0023 0,0037
21 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0003 0,0005 0,0009
20
22 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0001
0,0000 0,0002
0,0000 0,0003
0,0001 0,0006
0,0001 0,0011
0,0002 0,0019
0,0004
21
23 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0001
0,0000 0,0001
0,0000 0,0003
0,0000 0,0005
0,0001 0,0009
0,0002
24
22 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0000
0,0001 0,0000
0,0002 0,0001
0,0004
25
23 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0000
0,0002
24 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
25 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

Pastor-Barriuso R.
7 239
Tablas estadsticas

Tabla 2 (Continuacin)

k 10,5 11,0 11,5 12,0 12,5 13,0 13,5 14,0 14,5 15,0
0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
1 0,0003 0,0002 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
2 0,0015 0,0010 0,0007 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000
3 0,0053 0,0037 0,0026 0,0018 0,0012 0,0008 0,0006 0,0004 0,0003 0,0002
4 0,0139 0,0102 0,0074 0,0053 0,0038 0,0027 0,0019 0,0013 0,0009 0,0006
5 0,0293 0,0224 0,0170 0,0127 0,0095 0,0070 0,0051 0,0037 0,0027 0,0019
6 0,0513 0,0411 0,0325 0,0255 0,0197 0,0152 0,0115 0,0087 0,0065 0,0048
7 0,0769 0,0646 0,0535 0,0437 0,0353 0,0281 0,0222 0,0174 0,0135 0,0104
8 0,1009 0,0888 0,0769 0,0655 0,0551 0,0457 0,0375 0,0304 0,0244 0,0194
9 0,1177 0,1085 0,0982 0,0874 0,0765 0,0661 0,0563 0,0473 0,0394 0,0324
10 0,1236 0,1194 0,1129 0,1048 0,0956 0,0859 0,0760 0,0663 0,0571 0,0486
11 0,1180 0,1194 0,1181 0,1144 0,1087 0,1015 0,0932 0,0844 0,0753 0,0663
12 0,1032 0,1094 0,1131 0,1144 0,1132 0,1099 0,1049 0,0984 0,0910 0,0829
13 0,0834 0,0926 0,1001 0,1056 0,1089 0,1099 0,1089 0,1060 0,1014 0,0956
14 0,0625 0,0728 0,0822 0,0905 0,0972 0,1021 0,1050 0,1060 0,1051 0,1024
15 0,0438 0,0534 0,0630 0,0724 0,0810 0,0885 0,0945 0,0989 0,1016 0,1024
16 0,0287 0,0367 0,0453 0,0543 0,0633 0,0719 0,0798 0,0866 0,0920 0,0960
17 0,0177 0,0237 0,0306 0,0383 0,0465 0,0550 0,0633 0,0713 0,0785 0,0847
18 0,0104 0,0145 0,0196 0,0255 0,0323 0,0397 0,0475 0,0554 0,0632 0,0706
19 0,0057 0,0084 0,0119 0,0161 0,0213 0,0272 0,0337 0,0409 0,0483 0,0557
20 0,0030 0,0046 0,0068 0,0097 0,0133 0,0177 0,0228 0,0286 0,0350 0,0418
21 0,0015 0,0024 0,0037 0,0055 0,0079 0,0109 0,0146 0,0191 0,0242 0,0299
22 0,0007 0,0012 0,0020 0,0030 0,0045 0,0065 0,0090 0,0121 0,0159 0,0204
23 0,0003 0,0006 0,0010 0,0016 0,0024 0,0037 0,0053 0,0074 0,0100 0,0133
24 0,0001 0,0003 0,0005 0,0008 0,0013 0,0020 0,0030 0,0043 0,0061 0,0083
25 0,0001 0,0001 0,0002 0,0004 0,0006 0,0010 0,0016 0,0024 0,0035 0,0050
26 0,0000 0,0000 0,0001 0,0002 0,0003 0,0005 0,0008 0,0013 0,0020 0,0029
27 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0004 0,0007 0,0011 0,0016
28 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0005 0,0009
29 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0004
30 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002
31 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001
32 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
33 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

15,5 16,0 16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0
0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
1 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
2 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
3 0,0001 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
4 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000
5 0,0014 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0001
6 0,0036 0,0026 0,0019 0,0014 0,0010 0,0007 0,0005 0,0004 0,0003 0,0002
7 0,0079 0,0060 0,0045 0,0034 0,0025 0,0019 0,0014 0,0010 0,0007 0,0005
8 0,0153 0,0120 0,0093 0,0072 0,0055 0,0042 0,0031 0,0024 0,0018 0,0013
9 0,0264 0,0213 0,0171 0,0135 0,0107 0,0083 0,0065 0,0050 0,0038 0,0029
10 0,0409 0,0341 0,0281 0,0230 0,0186 0,0150 0,0120 0,0095 0,0074 0,0058
11 0,0577 0,0496 0,0422 0,0355 0,0297 0,0245 0,0201 0,0164 0,0132 0,0106
12 0,0745 0,0661 0,0580 0,0504 0,0432 0,0368 0,0310 0,0259 0,0214 0,0176

240 Pastor-Barriuso R.
Tablas estadsticas

Tabla 2 (Continuacin)

k 15,5 16,0 16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0
13 0,0888 0,0814 0,0736 0,0658 0,0582 0,0509 0,0441 0,0378 0,0322 0,0271
14 0,0983 0,0930 0,0868 0,0800 0,0728 0,0655 0,0583 0,0514 0,0448 0,0387
15 0,1016 0,0992 0,0955 0,0906 0,0849 0,0786 0,0719 0,0650 0,0582 0,0516
16 0,0984 0,0992 0,0985 0,0963 0,0929 0,0884 0,0831 0,0772 0,0710 0,0646
17 0,0897 0,0934 0,0956 0,0963 0,0956 0,0936 0,0904 0,0863 0,0814 0,0760
18 0,0773 0,0830 0,0876 0,0909 0,0929 0,0936 0,0930 0,0911 0,0882 0,0844
19 0,0630 0,0699 0,0761 0,0814 0,0856 0,0887 0,0905 0,0911 0,0905 0,0888
20 0,0489 0,0559 0,0628 0,0692 0,0749 0,0798 0,0837 0,0866 0,0883 0,0888
21 0,0361 0,0426 0,0493 0,0560 0,0624 0,0684 0,0738 0,0783 0,0820 0,0846
22 0,0254 0,0310 0,0370 0,0433 0,0496 0,0560 0,0620 0,0676 0,0727 0,0769
23 0,0171 0,0216 0,0265 0,0320 0,0378 0,0438 0,0499 0,0559 0,0616 0,0669
24 0,0111 0,0144 0,0182 0,0226 0,0275 0,0328 0,0385 0,0442 0,0500 0,0557
25 0,0069 0,0092 0,0120 0,0154 0,0193 0,0237 0,0285 0,0336 0,0390 0,0446
26 0,0041 0,0057 0,0076 0,0101 0,0130 0,0164 0,0202 0,0246 0,0293 0,0343
27 0,0023 0,0034 0,0047 0,0063 0,0084 0,0109 0,0139 0,0173 0,0211 0,0254
28 0,0013 0,0019 0,0028 0,0038 0,0053 0,0070 0,0092 0,0117 0,0147 0,0181
29 0,0007 0,0011 0,0016 0,0023 0,0032 0,0044 0,0058 0,0077 0,0099 0,0125
30 0,0004 0,0006 0,0009 0,0013 0,0019 0,0026 0,0036 0,0049 0,0064 0,0083
31 0,0002 0,0003 0,0005 0,0007 0,0010 0,0015 0,0022 0,0030 0,0040 0,0054
32 0,0001 0,0001 0,0002 0,0004 0,0006 0,0009 0,0012 0,0018 0,0025 0,0034
33 0,0000 0,0001 0,0001 0,0002 0,0003 0,0005 0,0007 0,0010 0,0015 0,0020
34 0,0000 0,0000 0,0001 0,0001 0,0002 0,0002 0,0004 0,0006 0,0008 0,0012
35 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0005 0,0007
36 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0004
37 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0001 0,0002
38 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001
39 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
40 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

Pastor-Barriuso R. 241
Tablas estadsticas

Tabla 3 Funcin de distribucin normal estandarizada (z) = P(Z z) para valores z


de 0 a 3,99 en intervalos de 0,01.*
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,00 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,10 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,20 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,30 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,40 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,50 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,60 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,70 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,80 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,90 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389

1,00 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,10 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,20 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,30 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,40 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,50 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,60 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,70 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,80 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,90 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767

2,00 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,10 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,20 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,30 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,40 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,50 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,60 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,70 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,80 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,90 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986

3,00 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,10 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,20 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,30 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,40 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,50 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,60 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,70 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,80 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,90 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
* Para valores z negativos, (z) = P(Z z) = P(Z z) = 1 P(Z z) = 1 (z).

242 Pastor-Barriuso R.
Tablas estadsticas

Tabla 4 Tabla de 1000 dgitos aleatorios.


15 610 1115 1620 2125 2630 3135 3640 4145 4650
1 28068 97497 24717 94945 71584 46975 80676 37564 85194 26562
2 77798 61589 36980 18859 78471 07605 41910 98737 97310 76984
3 33911 76198 97068 89844 07886 96716 18354 66921 85958 59963
4 45302 20953 65158 70637 42792 85207 32911 93401 90088 88104
5 31759 68429 61028 00200 02062 92555 82037 69832 74185 76010

6 81262 04831 92203 25447 65875 71086 12676 42753 79223 63135
7 27510 88900 41437 07409 87437 79309 83499 50721 40752 82801
8 84888 90443 23200 86340 07731 64171 76935 02931 66982 30842
9 92551 42420 29984 87522 19370 30357 33530 58101 59423 91700
10 48644 97274 33475 71381 27387 50740 03176 96910 94049 65052

11 71226 14223 27559 00943 46943 40680 96829 09265 94401 98461
12 59902 65129 28077 80487 79160 56426 47978 08556 20753 10206
13 24973 51863 86605 16991 58423 33341 70147 06005 81833 00868
14 27005 74018 05569 70982 80438 76901 80061 11144 91733 07228
15 25651 65765 98249 24231 32819 26680 17613 29917 47814 92539

16 34255 68331 66861 37285 34606 68167 55636 70101 51328 57528
17 74791 18769 92325 19959 90031 27008 25857 68520 41469 45100
18 63485 89564 62107 80055 08094 85412 33589 71900 05892 63260
19 99762 44503 91645 15352 25957 73662 71146 26161 98418 10195
20 85157 99008 25927 31118 65466 48706 20302 26133 04751 34701

Pastor-Barriuso R. 243
Tablas estadsticas

Tabla 5 Percentiles de la distribucin t de Student para distintos grados de libertad.

Grados de Percentil
libertad 0,75 0,80 0,85 0,90 0,95 0,975 0,99 0,995 0,9995
1 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657 636,619
2 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 31,599
3 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841 12,924
4 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 8,610
5 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 6,869

6 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 5,959


7 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499 5,408
8 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 5,041
9 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 4,781
10 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 4,587

11 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 4,437


12 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 4,318
13 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 4,221
14 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 4,140
15 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 4,073

16 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921 4,015


17 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,965
18 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,922
19 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,883
20 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,850

21 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,819


22 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,792
23 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,768
24 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,745
25 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,725

26 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,707


27 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,690
28 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,674
29 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,659
30 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,646

40 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 3,551


60 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660 3,460
120 0,677 0,845 1,041 1,289 1,658 1,980 2,358 2,617 3,373
0,674 0,842 1,036 1,282 1,645 1,960 2,326 2,576 3,291

244 Pastor-Barriuso R.
Tablas estadsticas

Tabla 6 Percentiles de la distribucin chi-cuadrado para distintos grados de libertad d.

Percentil
d 0,005 0,01 0,025 0,05 0,10 0,25 0,50 0,75 0,90 0,95 0,975 0,99 0,995
1 0,000 0,0002 0,001 0,004 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,63 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,81 9,35 11,34 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,75

6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,55
7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,28
8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,95
9 1,73 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23,59
10 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25,19

11 2,60 3,05 3,82 4,57 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26,76
12 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28,30
13 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29,82
14 4,07 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31,32
15 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32,80

16 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34,27
17 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35,72
18 6,26 7,01 8,23 9,39 10,86 13,68 17,34 21,60 25,99 28,87 31,53 34,81 37,16
19 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38,58
20 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40,00

21 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,93 29,62 32,67 35,48 38,93 41,40
22 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42,80
23 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44,18
24 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45,56
25 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46,93

26 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48,29
27 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49,64
28 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50,99
29 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52,34
30 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53,67

35 17,19 18,51 20,57 22,47 24,80 29,05 34,34 40,22 46,06 49,80 53,20 57,34 60,27
40 20,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66,77
45 24,31 25,90 28,37 30,61 33,35 38,29 44,34 50,98 57,51 61,66 65,41 69,96 73,17
50 27,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79,49

60 35,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91,95
70 43,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,43 104,21
80 51,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,88 106,63 112,33 116,32
90 59,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,57 113,15 118,14 124,12 128,30
100 67,33 70,06 74,22 77,93 82,36 90,13 99,33 109,14 118,50 124,34 129,56 135,81 140,17

Pastor-Barriuso R. 245
Tablas estadsticas

Tabla 7 Percentiles de la distribucin F de Fisher para distintos grados de libertad del


numerador d1 y del denominador d2.*
d1
d2 Percentil 1 2 3 4 5 6 8 10 15 20 30
1 0,90 39,86 49,50 53,59 55,83 57,24 58,20 59,44 60,19 61,22 61,74 62,26 63,33
0,95 161,45 199,50 215,71 224,58 230,16 233,99 238,88 241,88 245,95 248,01 250,10 254,31
0,975 647,79 799,50 864,16 899,58 921,85 937,11 956,66 968,63 984,87 993,10 1001,4 1018,3
0,99 4052,2 4999,5 5403,4 5624,6 5763,7 5859,0 5981,1 6055,9 6157,3 6208,7 6260,7 6365,9
0,995 16211 20000 21615 22500 23056 23437 23925 24224 24630 24836 25044 25464
2 0,90 8,53 9,00 9,16 9,24 9,29 9,33 9,37 9,39 9,42 9,44 9,46 9,49
0,95 18,51 19,00 19,16 19,25 19,30 19,33 19,37 19,40 19,43 19,45 19,46 19,50
0,975 38,51 39,00 39,17 39,25 39,30 39,33 39,37 39,40 39,43 39,45 39,46 39,50
0,99 98,50 99,00 99,17 99,25 99,30 99,33 99,37 99,40 99,43 99,45 99,47 99,50
0,995 198,50 199,00 199,17 199,25 199,30 199,33 199,37 199,40 199,43 199,45 199,47 199,50
3 0,90 5,54 5,46 5,39 5,34 5,31 5,28 5,25 5,23 5,20 5,18 5,17 5,13
0,95 10,13 9,55 9,28 9,12 9,01 8,94 8,85 8,79 8,70 8,66 8,62 8,53
0,975 17,44 16,04 15,44 15,10 14,88 14,73 14,54 14,42 14,25 14,17 14,08 13,90
0,99 34,12 30,82 29,46 28,71 28,24 27,91 27,49 27,23 26,87 26,69 26,50 26,13
0,995 55,55 49,80 47,47 46,19 45,39 44,84 44,13 43,69 43,08 42,78 42,47 41,83
4 0,90 4,54 4,32 4,19 4,11 4,05 4,01 3,95 3,92 3,87 3,84 3,82 3,76
0,95 7,71 6,94 6,59 6,39 6,26 6,16 6,04 5,96 5,86 5,80 5,75 5,63
0,975 12,22 10,65 9,98 9,60 9,36 9,20 8,98 8,84 8,66 8,56 8,46 8,26
0,99 21,20 18,00 16,69 15,98 15,52 15,21 14,80 14,55 14,20 14,02 13,84 13,46
0,995 31,33 26,28 24,26 23,15 22,46 21,97 21,35 20,97 20,44 20,17 19,89 19,32
5 0,90 4,06 3,78 3,62 3,52 3,45 3,40 3,34 3,30 3,24 3,21 3,17 3,10
0,95 6,61 5,79 5,41 5,19 5,05 4,95 4,82 4,74 4,62 4,56 4,50 4,36
0,975 10,01 8,43 7,76 7,39 7,15 6,98 6,76 6,62 6,43 6,33 6,23 6,02
0,99 16,26 13,27 12,06 11,39 10,97 10,67 10,29 10,05 9,72 9,55 9,38 9,02
0,995 22,78 18,31 16,53 15,56 14,94 14,51 13,96 13,62 13,15 12,90 12,66 12,14
6 0,90 3,78 3,46 3,29 3,18 3,11 3,05 2,98 2,94 2,87 2,84 2,80 2,72
0,95 5,99 5,14 4,76 4,53 4,39 4,28 4,15 4,06 3,94 3,87 3,81 3,67
0,975 8,81 7,26 6,60 6,23 5,99 5,82 5,60 5,46 5,27 5,17 5,07 4,85
0,99 13,75 10,92 9,78 9,15 8,75 8,47 8,10 7,87 7,56 7,40 7,23 6,88
0,995 18,63 14,54 12,92 12,03 11,46 11,07 10,57 10,25 9,81 9,59 9,36 8,88
7 0,90 3,59 3,26 3,07 2,96 2,88 2,83 2,75 2,70 2,63 2,59 2,56 2,47
0,95 5,59 4,74 4,35 4,12 3,97 3,87 3,73 3,64 3,51 3,44 3,38 3,23
0,975 8,07 6,54 5,89 5,52 5,29 5,12 4,90 4,76 4,57 4,47 4,36 4,14
0,99 12,25 9,55 8,45 7,85 7,46 7,19 6,84 6,62 6,31 6,16 5,99 5,65
0,995 16,24 12,40 10,88 10,05 9,52 9,16 8,68 8,38 7,97 7,75 7,53 7,08
8 0,90 3,46 3,11 2,92 2,81 2,73 2,67 2,59 2,54 2,46 2,42 2,38 2,29
0,95 5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,35 3,22 3,15 3,08 2,93
0,975 7,57 6,06 5,42 5,05 4,82 4,65 4,43 4,30 4,10 4,00 3,89 3,67
0,99 11,26 8,65 7,59 7,01 6,63 6,37 6,03 5,81 5,52 5,36 5,20 4,86
0,995 14,69 11,04 9,60 8,81 8,30 7,95 7,50 7,21 6,81 6,61 6,40 5,95
9 0,90 3,36 3,01 2,81 2,69 2,61 2,55 2,47 2,42 2,34 2,30 2,25 2,16
0,95 5,12 4,26 3,86 3,63 3,48 3,37 3,23 3,14 3,01 2,94 2,86 2,71
0,975 7,21 5,71 5,08 4,72 4,48 4,32 4,10 3,96 3,77 3,67 3,56 3,33
0,99 10,56 8,02 6,99 6,42 6,06 5,80 5,47 5,26 4,96 4,81 4,65 4,31
0,995 13,61 10,11 8,72 7,96 7,47 7,13 6,69 6,42 6,03 5,83 5,62 5,19
10 0,90 3,29 2,92 2,73 2,61 2,52 2,46 2,38 2,32 2,24 2,20 2,16 2,06
0,95 4,96 4,10 3,71 3,48 3,33 3,22 3,07 2,98 2,85 2,77 2,70 2,54
0,975 6,94 5,46 4,83 4,47 4,24 4,07 3,85 3,72 3,52 3,42 3,31 3,08
0,99 10,04 7,56 6,55 5,99 5,64 5,39 5,06 4,85 4,56 4,41 4,25 3,91
0,995 12,83 9,43 8,08 7,34 6,87 6,54 6,12 5,85 5,47 5,27 5,07 4,64

12 0,90 3,18 2,81 2,61 2,48 2,39 2,33 2,24 2,19 2,10 2,06 2,01 1,90
0,95 4,75 3,89 3,49 3,26 3,11 3,00 2,85 2,75 2,62 2,54 2,47 2,30
0,975 6,55 5,10 4,47 4,12 3,89 3,73 3,51 3,37 3,18 3,07 2,96 2,72

246 Pastor-Barriuso R.
Tablas estadsticas

Tabla 7 (Continuacin)
d1
d2 Percentil 1 2 3 4 5 6 8 10 15 20 30
0,99 9,33 6,93 5,95 5,41 5,06 4,82 4,50 4,30 4,01 3,86 3,70 3,36
0,995 11,75 8,51 7,23 6,52 6,07 5,76 5,35 5,09 4,72 4,53 4,33 3,90
14 0,90 3,10 2,73 2,52 2,39 2,31 2,24 2,15 2,10 2,01 1,96 1,91 1,80
0,95 4,60 3,74 3,34 3,11 2,96 2,85 2,70 2,60 2,46 2,39 2,31 2,13
0,975 6,30 4,86 4,24 3,89 3,66 3,50 3,29 3,15 2,95 2,84 2,73 2,49
0,99 8,86 6,51 5,56 5,04 4,69 4,46 4,14 3,94 3,66 3,51 3,35 3,00
0,995 11,06 7,92 6,68 6,00 5,56 5,26 4,86 4,60 4,25 4,06 3,86 3,44
16 0,90 3,05 2,67 2,46 2,33 2,24 2,18 2,09 2,03 1,94 1,89 1,84 1,72
0,95 4,49 3,63 3,24 3,01 2,85 2,74 2,59 2,49 2,35 2,28 2,19 2,01
0,975 6,12 4,69 4,08 3,73 3,50 3,34 3,12 2,99 2,79 2,68 2,57 2,32
0,99 8,53 6,23 5,29 4,77 4,44 4,20 3,89 3,69 3,41 3,26 3,10 2,75
0,995 10,58 7,51 6,30 5,64 5,21 4,91 4,52 4,27 3,92 3,73 3,54 3,11
18 0,90 3,01 2,62 2,42 2,29 2,20 2,13 2,04 1,98 1,89 1,84 1,78 1,66
0,95 4,41 3,55 3,16 2,93 2,77 2,66 2,51 2,41 2,27 2,19 2,11 1,92
0,975 5,98 4,56 3,95 3,61 3,38 3,22 3,01 2,87 2,67 2,56 2,44 2,19
0,99 8,29 6,01 5,09 4,58 4,25 4,01 3,71 3,51 3,23 3,08 2,92 2,57
0,995 10,22 7,21 6,03 5,37 4,96 4,66 4,28 4,03 3,68 3,50 3,30 2,87
20 0,90 2,97 2,59 2,38 2,25 2,16 2,09 2,00 1,94 1,84 1,79 1,74 1,61
0,95 4,35 3,49 3,10 2,87 2,71 2,60 2,45 2,35 2,20 2,12 2,04 1,84
0,975 5,87 4,46 3,86 3,51 3,29 3,13 2,91 2,77 2,57 2,46 2,35 2,09
0,99 8,10 5,85 4,94 4,43 4,10 3,87 3,56 3,37 3,09 2,94 2,78 2,42
0,995 9,94 6,99 5,82 5,17 4,76 4,47 4,09 3,85 3,50 3,32 3,12 2,69
25 0,90 2,92 2,53 2,32 2,18 2,09 2,02 1,93 1,87 1,77 1,72 1,66 1,52
0,95 4,24 3,39 2,99 2,76 2,60 2,49 2,34 2,24 2,09 2,01 1,92 1,71
0,975 5,69 4,29 3,69 3,35 3,13 2,97 2,75 2,61 2,41 2,30 2,18 1,91
0,99 7,77 5,57 4,68 4,18 3,85 3,63 3,32 3,13 2,85 2,70 2,54 2,17
0,995 9,48 6,60 5,46 4,84 4,43 4,15 3,78 3,54 3,20 3,01 2,82 2,38
30 0,90 2,88 2,49 2,28 2,14 2,05 1,98 1,88 1,82 1,72 1,67 1,61 1,46
0,95 4,17 3,32 2,92 2,69 2,53 2,42 2,27 2,16 2,01 1,93 1,84 1,62
0,975 5,57 4,18 3,59 3,25 3,03 2,87 2,65 2,51 2,31 2,20 2,07 1,79
0,99 7,56 5,39 4,51 4,02 3,70 3,47 3,17 2,98 2,70 2,55 2,39 2,01
0,995 9,18 6,35 5,24 4,62 4,23 3,95 3,58 3,34 3,01 2,82 2,63 2,18
35 0,90 2,85 2,46 2,25 2,11 2,02 1,95 1,85 1,79 1,69 1,63 1,57 1,41
0,95 4,12 3,27 2,87 2,64 2,49 2,37 2,22 2,11 1,96 1,88 1,79 1,56
0,975 5,48 4,11 3,52 3,18 2,96 2,80 2,58 2,44 2,23 2,12 2,00 1,70
0,99 7,42 5,27 4,40 3,91 3,59 3,37 3,07 2,88 2,60 2,44 2,28 1,89
0,995 8,98 6,19 5,09 4,48 4,09 3,81 3,45 3,21 2,88 2,69 2,50 2,04
40 0,90 2,84 2,44 2,23 2,09 2,00 1,93 1,83 1,76 1,66 1,61 1,54 1,38
0,95 4,08 3,23 2,84 2,61 2,45 2,34 2,18 2,08 1,92 1,84 1,74 1,51
0,975 5,42 4,05 3,46 3,13 2,90 2,74 2,53 2,39 2,18 2,07 1,94 1,64
0,99 7,31 5,18 4,31 3,83 3,51 3,29 2,99 2,80 2,52 2,37 2,20 1,80
0,995 8,83 6,07 4,98 4,37 3,99 3,71 3,35 3,12 2,78 2,60 2,40 1,93
60 0,90 2,79 2,39 2,18 2,04 1,95 1,87 1,77 1,71 1,60 1,54 1,48 1,29
0,95 4,00 3,15 2,76 2,53 2,37 2,25 2,10 1,99 1,84 1,75 1,65 1,39
0,975 5,29 3,93 3,34 3,01 2,79 2,63 2,41 2,27 2,06 1,94 1,82 1,48
0,99 7,08 4,98 4,13 3,65 3,34 3,12 2,82 2,63 2,35 2,20 2,03 1,60
0,995 8,49 5,79 4,73 4,14 3,76 3,49 3,13 2,90 2,57 2,39 2,19 1,69

120 0,90 2,75 2,35 2,13 1,99 1,90 1,82 1,72 1,65 1,55 1,48 1,41 1,19
0,95 3,92 3,07 2,68 2,45 2,29 2,18 2,02 1,91 1,75 1,66 1,55 1,25
0,975 5,15 3,80 3,23 2,89 2,67 2,52 2,30 2,16 1,94 1,82 1,69 1,31
0,99 6,85 4,79 3,95 3,48 3,17 2,96 2,66 2,47 2,19 2,03 1,86 1,38
0,995 8,18 5,54 4,50 3,92 3,55 3,28 2,93 2,71 2,37 2,19 1,98 1,43

Pastor-Barriuso R. 247
Tablas estadsticas

Tabla 7 (Continuacin)
d1
d2 Percentil 1 2 3 4 5 6 8 10 15 20 30
0,90 2,71 2,30 2,08 1,94 1,85 1,77 1,67 1,60 1,49 1,42 1,34 1,00
0,95 3,84 3,00 2,60 2,37 2,21 2,10 1,94 1,83 1,67 1,57 1,46 1,00
0,975 5,02 3,69 3,12 2,79 2,57 2,41 2,19 2,05 1,83 1,71 1,57 1,00
0,99 6,63 4,61 3,78 3,32 3,02 2,80 2,51 2,32 2,04 1,88 1,70 1,00
0,995 7,88 5,30 4,28 3,72 3,35 3,09 2,74 2,52 2,19 2,00 1,79 1,00

* Para percentiles inferiores = 0,005, 0,01, 0,025, 0,05 y 0,10, Fd1,d2, = 1/ Fd2,d1,1.

248 Pastor-Barriuso R.
Tablas estadsticas

Tabla 8 Percentiles de

n1

Tabla 8 Percentiles de la distribucin bajo H0 de la suma de rangos de Wilcoxon U = ri en


en la muestra de
i =1
la muestra de menor tamao n1 n2 para n1 = 3, 4, ..., 8.*
P
Percentil 0,95 Percentil 0,975
n1 n1
n2 3 4 5 6 7 8 3 4 5 6 7 n2 8 3 4
3 14 15
4 17 24 18 25 3 14
4 17 24
5 19 27 35 20 28 37
6 21 30 39 49 22 31 41 51 5 19 27
7 24 33 43 54 65 25 34 44 56 68 6 21 30
7 24 33
8 26 36 46 58 70 84 27 37 48 60 73 86
8 26 36
9 28 39 50 62 75 89 30 41 52 64 78 9 92 28 39
10 31 42 53 66 80 95 32 44 56 69 83 98
10 31 42
11 33 45 57 70 85 100 35 47 60 73 88 11104 33 45
12 36 48 61 75 90 105 37 50 63 78 93 12109 36 48
13 38 51 64 79 94 111 40 53 67 82 98 13115 38 51
14 40 54 68 83 99 116 42 56 71 87 103 14121 40 54

15 43 57 71 87 104 122 45 59 75 91 108 15126 43 57


16 45 59 75 91 109 127 47 62 79 95 113 16132 45 59
17 47 62 79 96 113 132 50 66 82 100 118 17137 47 62
18 50 65 82 100 118 138 52 69 86 104 123 18143 50 65
19 52 68
19 52 68 86 104 123 143 55 72 90 109 128 149
20 54 71 89 108 128 148 57 75 94 113 133 20154 54 71
21 57 74
21 57 74 93 112 133 154 60 78 97 117 138 160
22 59 77
22 59 77 96 116 137 159 62 81 101 122 143 23166 61 80 1
23 61 80 100 121 142 165 65 84 105 126 148 24171 64 83 1
24 64 83 104 125 147 170 67 88 109 131 153 177
25 66 86 1
25 66 86 107 129 152 175 70 91 112 135 158 26182 68 89 1
26 68 89 111 133 156 181 72 94 116 139 163 27188 71 92 1
27 71 92 114 137 161 186 75 97 120 144 168 28194 73 95 1
28 73 95 118 142 166 191 77 100 124 148 173 29199 75 98 1
29 75 98 121 146 171 197 79 103 127 152 178 205
30 78 101 1
30 78 101 125 150 176 202 82 106 131 157 183 31210 80 104 1
31 80 104 129 154 180 207 84 109 135 161 188 32216 82 107 1
33 85 110 1
32 82 107 132 158 185 213 87 113 139 166 193 222
34 87 113 1
33 85 110 136 162 190 218 89 116 142 170 198 227
34 87 113 139 167 195 223 92 119 146 174 203 35233 89 116 1
36 92 119 1
35 89 116 143 171 199 229 94 122 150 179 208 37238 94 122 1
36 92 119 146 175 204 234 97 125 154 183 213 38244 96 125 1
37 94 122 150 179 209 240 99 128 158 187 218 39250 99 127 1
38 96 125 154 183 214 245 102 131 161 192 223 255
39 99 127 157 187 218 250 104 134 165 196 228 40261 101 130 1
41 103 133 1
40 101 130 161 192 223 256 107 138 169 201 233 42266 106 136 1
41 103 133 164 196 228 261 109 141 173 205 238 43272 108 139 1
42 106 136 168 200 233 266 112 144 176 209 243 44278 110 142 1
43 108 139 171 204 237 272 114 147 180 214 248 45
283 113 145 1
44 110 142 175 208 242 277 117 150 184 218 253 46289 115 148 1
47 117 151 1
45 113 145 179 212 247 282 119 153 188 223 258 48
294 119 154 1
46 115 148 182 217 252 288 121 156 191 227 263 49300 122 157 1
47 117 151 186 221 257 293 124 159 195 231 268 306
48 119 154 189 225 261 298 126 162 199 236 273 311
49 122 157 193 229 266 304 129 166 203 240 278 317

Pastor-Barriuso R. 249
Tablas estadsticas

Tabla 8 (Continuacin)
Percentil 0,99 Percentil 0,995
n1 n1
n2 3 4 5 6 7 8 3 4 5 6 7 8
3 15 15
4 18 26 18 26
5 21 29 38 21 30 39
6 24 32 42 53 24 33 43 54
7 26 36 46 58 70 27 37 48 59 72
8 29 39 50 62 76 90 30 40 52 64 77 92
9 31 42 54 67 81 96 32 44 56 69 83 98
10 34 46 58 72 86 102 35 47 60 74 88 104
11 37 49 62 77 92 108 38 51 64 79 94 110
12 39 52 66 81 97 114 40 54 68 83 99 116
13 42 56 70 86 102 119 43 58 72 88 105 122
14 45 59 74 91 108 125 46 61 77 93 110 129
15 47 62 78 95 113 131 48 64 81 98 116 135
16 50 66 82 100 118 137 51 68 85 103 121 141
17 52 69 86 104 123 143 54 71 89 107 127 147
18 55 72 90 109 129 149 57 75 93 112 132 153
19 58 76 94 114 134 155 59 78 97 117 138 159
20 60 79 98 118 139 161 62 81 101 122 143 165
21 63 82 102 123 144 167 65 85 105 127 149 171
22 66 86 106 128 150 173 67 88 110 131 154 177
23 68 89 110 132 155 179 70 92 114 136 159 184
24 71 92 114 137 160 185 73 95 118 141 165 190
25 73 96 118 141 166 190 75 99 122 146 170 196
26 76 99 122 146 171 196 78 102 126 151 176 202
27 79 102 126 151 176 202 81 105 130 155 181 208
28 81 105 130 155 181 208 84 109 134 160 187 214
29 84 109 134 160 187 214 86 112 138 165 192 220
30 86 112 138 165 192 220 89 116 142 170 197 226
31 89 115 142 169 197 226 92 119 147 174 203 232
32 92 119 146 174 202 232 94 123 151 179 208 238
33 94 122 150 178 208 238 97 126 155 184 214 244
34 97 125 154 183 213 243 100 129 159 189 219 250
35 99 129 158 188 218 249 102 133 163 193 225 256
36 102 132 162 192 223 255 105 136 167 198 230 263
37 105 135 166 197 229 261 108 140 171 203 235 269
38 107 139 170 202 234 267 110 143 175 208 241 275
39 110 142 174 206 239 273 113 146 179 213 246 281
40 112 145 178 211 244 279 116 150 183 217 252 287
41 115 148 182 215 250 285 119 153 188 222 257 293
42 118 152 186 220 255 290 121 157 192 227 263 299
43 120 155 190 225 260 296 124 160 196 232 268 305
44 123 158 194 229 265 302 127 164 200 236 273 311
45 126 162 198 234 271 308 129 167 204 241 279 317
46 128 165 202 238 276 314 132 170 208 246 284 323
47 131 168 205 243 281 320 135 174 212 251 290 329
48 133 172 209 248 286 326 137 177 216 255 295 335
49 136 175 213 252 292 332 140 181 220 260 301 341

* Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, u = n1(n1 + n2 + 1) u1.

250 Pastor-Barriuso R.
Tablas estadsticas

Tabla 9 Percentiles de la distribucin bajo H0 de la suma de rangos positivos de


Tabla 9 Percentiles de la distribucin bajo H0 de la suma de rangos positivos de Wilcoxon
m

W == ri para
Wilcoxon W para un nmero
nmerode
deparejas
parejascon
condiferencias nono
diferencias nulas n n16.*
nulas 16.*
i =1

Percentil
Percentil
n 0,95 0,975 0,99 0,995
n 5 0,95 14 0,975 15 0,99 15 0,995 15
6 18 20 21 21
5 7 14 24 15 25 15 27 15 28
6 18 20 21 21
8 30 32 34 35
7 24 25 27 28
8 9 30 36 32 39 34 41 35 43
9 10 36 44 39 46 41 49 43 51
10 11 44 52 46 55 49 58 51 60
11 12 52 60 55 64 58 68 60 70
12 60 64 68 70
13 69 73 78 81
13 14 69 79 73 83 78 89 81 92
14 15 79 89 83 94 89 100 92 104
15 89 94 100 104
16 100 106 112 116
16 100 106 112 116
* Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, w = n(n + 1)/2 w1.
* Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, w = n(n + 1)/2 - w1-.

Tabla 10 Percentiles de la distribucin bajo H0 del coeficiente de correlacin rs de


Spearman en muestras de tamao n 10.*
Percentil
n 0,95 0,975 0,99 0,995
4 0,800 1,000 1,000 1,000
5 0,800 0,900 0,900 1,000
6 0,771 0,829 0,886 0,943
7 0,679 0,750 0,857 0,893
8 0,619 0,714 0,810 0,857
9 0,583 0,683 0,767 0,817
10 0,552 0,636 0,733 0,782
* Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, rs, = rs,1.

19
Pastor-Barriuso R. 251

Você também pode gostar