Escolar Documentos
Profissional Documentos
Cultura Documentos
ParaAntroplogosFsicos
JosLuisCastrejnyDianaTroncoso
[Seleccionarfecha]
NotasparaelcursodeBioestadsticaimpartidoenelsegundosemestredelalicenciaturaen
AntropologaFsicadelaEscuelaNacionaldeAntropologaeHistoria.Versinpreliminar.
UNIDAD I
Introduccin
Como su nombre lo dice, el objetivo principal de la ESTADSTICA INFERENCIAL es
inferir los PARMETROS POBLACIONALES; es decir, a partir de una muestra
aleatoria, establecer con la mayor probabilidad posible los valores desconocidos de la
poblacin estudiada; por ejemplo; la media , proporcin p o varianza 2 .
Generalmente, el investigador puede plantear hiptesis sobre los parmetros; por
ejemplo:
HIPTESIS LITERAL
DEL INVESTIGADOR
La proporcin de personas en la ENAH que usan
lentes es menor a 0.2
La proporcin de personas que acostumbran
consumir comida rpida es de 0.60.
La proporcin de personas con obesidad en la
delegacin Benito Jurez es mayor que en la
delegacin Milpa Alta.
La media de la estatura en las mujeres estudiantes de
la ENAH es menor a 165 cm.
La media del nmero de minutos diarios que se usa
el automvil en la Ciudad de Mxico es mayor que
en la ciudad de Mrida.
HIPTESIS ESTADSTICA
DEL INVESTIGADOR
ESTIMACIN PUNTUAL
Sea la letra con la que se denota un parmetro poblacional. Si se toma una muestra
aleatoria de tamao n ( X 1 , X 2 , X 3 ,..., X n ) , es una funcin de los valores de la
dL
, igualarla a cero y despejar . Veamos, algunos ejemplos de esto:
d
A.1.1) Estimador del parmetro
Sean X 1 , X 2 , X 3 ,..., X n los datos de una muestra aleatoria que se obtuvo de cierta
poblacin donde la variable X tiene distribucin poisson con parmetro [X~P( )].
Cul es el mejor estimador de ste parmetro?
P(x ) =
e x1 P ( x ) = e
,
P(x1 ) =
2
x2!
x1!
x2
e x 3
e x n
,, P ( xn ) =
x3!
xn!
e x1 e x 2 e x3 e x n
x1!
x2!
x3!
xn !
L=
, P ( x3 ) =
L( X 1 , X 2 , X 3 ,..., X n ) =
e x
x!
e n x1 + x2 + x3 +...+ xn
x1 x 2 x3 ... x n !
xi
L=
e n i =1
xi !
n
Porque
X 1 + X 2 + X 3 + ... + X n = xi
i =1
X 1 X 2 X 3 ... X n = xi
Ahora hay que maximizar la funcin. Si sta es una funcin cualquiera, los
puntos crticos de f ( x ) son los mismos que los valores crticos del logaritmo
natural f ( x ) :
d ln f ( x )
=0
dx
xi
n
i =1
e
ln L = ln
xi !
a
ln = ln a ln b
b
n
xi
ln L = ln e n i =1 ln ( xi !)
ln (a b ) = ln a + ln b :
n
Como:
Como:
ln L = ln (e
xi
) + ln i =1
ln ( xi !)
ln x y = y ln x
ln e x = x
Como:
ln L = n + xi ln ln ( xi !)
i =1
Y obtener la derivada:
d ln L
d n
d ln d ln ( xi !)
= n
+ xi
d
d i =1
d
d
dcf ( x ) cdf ( x )
d ln x 1
=
=
dx
dx
dx
x
n
dL
1
= n + xi 0
d
i =1
Como:
dc
=0
dx
n+
n
xi
i =1
x
i =1
=0
n
=n
x
i =1
= n
x
i =1
x =
Y as sabemos que al tener una variable aleatoria con distribucin poisson [X~P( )],
el estimador de mxima verosimilitud del parmetro es la media muestral x .
P(x ) = p x (1 p )
1 x
1 x1
, P(x 2 ) = p
x2
1 x1
, P ( x3 ) = p
P( x 2 ) = p x2 (1 p )
x3
(1 p )1 x
, P( x n ) = p
P( x3 ) = p x3 (1 p )
1 x2
L= p
(1 p )1 x
xn
(1 p )1 x
L = P(x1 ) = p x1 (1 p )
; x = 0,1
P( x1 ) = p x1 (1 p )
parmetro p
1 x3
(1 p )1 x +1 x +1 x +...+1 x
x1+ x2 + x3 +...+ xn
P( x n ) = p xn (1 p )
1 xn
L= p
xi
i =1
(1 p )
xi
i =1
Porque
X 1 + X 2 + X 3 + ... + X n = xi
X 1 X 2 X 3 ... X n = xi
i =1
Ahora hay que maximizar la funcin. Si sta es una funcin cualquiera, los
puntos crticos de f ( x ) son los mismos que los valores crticos del logaritmo
natural f ( x ) :
d ln f ( x )
=0
dx
n
xi
n xi
ln L = ln p i =1 (1 p )
i =1
ln (a b ) = ln a + ln b
n
Como:
ln L = ln p
xi
i =1
+ ln (1 p )
xi
i =1
ln x = y ln x
y
Como:
n
n
ln L = xi ln p + n xi ln(1 p )
i =1
i =1
Y obtener la derivada:
n
n
1
1
d ln L
= xi + n x i
dp
p
i =1
i =1
(1 p )
xi
xi
d ln L i =1
i =1
=
+
(1 p )
dp
p
n
n xi
d ln L i =1
i =1
(1 p )
dp
p
n
xi
n
xi
xi
i =1
=0
i =1
(1 p )
p
n
n
n
xi
xi
i =1
i =1
=
(1 p )
p
n
n
(1 p ) xi = p n xi
i =1
i =1
x
i =1
x
i =1
i =1
n
i =1
p xi = p n p xi
= p n
i =1
= p
x = p
()
()
()
de como Sesgo = E .
b) SUFICIENCIA
Se dice que un estimador de es suficiente cuando su clculo involucra toda la
informacin de una muestra.
c) MNIMA VARIANZA
Se dice que 1 es un estimador de mnima varianza de si para cualquier otro
estimador 2 se cumple que la varianza del primero es menor que la del segundo:
d) EFICIENCIA
Siendo 1 y 3 dos estimadores insesgados de , se dice que 1 es ms eficiente
( )
( )
Lim P(
n N
< E = 1.
X
i =1
1 =
x1 + x 2 + x3
2
2 =
x1 + x n
2
3 =
x1 + x 2 + x3 + ... + x n
n
ESTIMADOR 1
1
x + x 2 + x3
E ( 1 ) = E 1
= E ( x1 + x 2 + x3 )
2
2
INSESGAMIENTO
1
1
= [E ( x1 ) + E ( x 2 ) + E ( x3 )] = [ + + ]
E ( ) =
2
2
1
3 3
= [3 ] =
=
2
2
2
Como podemos ver, el estimador 1 no es insesgado, puesto que su esperanza es
3
igual a E ( 1 ) = . El sesgo de este estimador es:
2
3
3
2
1
ESTIMADOR 2
1
x + xn
E ( 2 ) = E 1
= E ( x1 + x n ) =
INSESGAMIENTO
2
2
E ( ) =
1
[E (x1 ) + E (x n )] = 1 [ + ] = 1 [2 ] = 2 =
2
2
2
2
2 es un estimador insesgado de porque su esperanza es E ( 2 ) = .
SUFICIENCIA
x +x
2 = 1 n
( X 1 + X 2 + X 3 + ... + X )n
2
2 no es un estimador suficiente, pues su clculo slo echa mano de slo 2 datos de
la muestra aleatoria y no del resto de la informacin obtenida.
ESTIMADOR 3
PROPIEDAD
x + x 2 + x3 + ... + x n
E ( 3 ) = E 1
1
= E ( x1 + x 2 + x3 + ... + x n )
n
INSESGAMIENTO
1
= [E ( x1 ) + E (x 2 ) + E ( x3 ) + ... + E ( x n )]
E ( ) =
n
1
= [ + + + ... + ]
n
1
n
= [n ] =
=
n
n
3 es un estimador insesgado de pues su esperanza es E ( 3 ) = .
SUFICIENCIA
( X 1 + X 2 + X 3 + ... + X )n
3 =
X 1 + X 2 + X 3 + ... + X n
n
PROPIEDAD
MNIMA VARIANZA
VARIANZA DE ESTIMADORES
Siendo los dos insesgados, la varianza del estimador 1 es menor que la del
estimador 3 , razn por la cual 1 cumple con las propiedades de mnima varianza y
eficiencia.
C. ESTIMADORES APROPIADOS MS COMUNES
Aunque es recomendable encontrar el estimador adecuado a travs de un mtodo y
comprobar que cumpla con todas las propiedades, la teora estadstica afirma que los
mejores estimadores para los siguientes parmetros son:
PARMETRO
ESTIMADOR
N
MEDIA
POBLACIONAL
2 =
MEDIA
MUESTRAL
i =1
x=
VARIANZA
POBLACIONAL
Xi
(x
i =1
p=M
VARIANZA
MUESTRAL
s2 =
i =1
(x
i =1
PROPORCIN
MUESTRAL
x)
n 1
n
s2 =
Pues este
estimador es
sesgado:
PROPORCIN
POBLACIONAL
(x
i =1
x)
n
p = m
n
( )
B. CONTRASTE DE HIPTESIS
Sin duda alguna, sta es una de las metodologas que ms utiliza la estadstica para
contrastar cualquier hiptesis que el investigador haya planteado sobre los parmetros
de una o ms poblaciones, o bien, sobre relaciones entre variables.
B.1) FUNDAMENTOS
Habiendo planteado el valor hipottico 0 en la hiptesis del investigador H inv , se
plantean dos hiptesis ms: la HIPTESIS ALTERNATIVA H a y la HIPTESIS
HIPTESIS NULA
HIPTESIS
ALTERNATIVA
H inv : 0
H 0 : = 0
H inv : < 0
H 0 : 0
H a : < 0
H inv : > 0
H 0 : 0
H a : > 0
H a : 0
VERDADERA
ERROR TIPO I
9
FALSA
9
ERROR TIPO II
= P (error tipo I)
= P (rechazar H 0 dado que H 0 es verdadera )
= P (rechazar H 0 | H 0 es verdadera )
En general, la significancia es desconocida, as que el investigador la fija. Como de
ella depende la probabilidad de cometer el error tipo I, se busca que sea pequea; de
ah que los valores ms comunes para la significancia sean:
VALOR DE
= 0.001
= 0.01
= 0.05
= 0 .1
PROBABILIDAD DE
ERROR TIPO I
0 .1 %
1 .0 %
5 .0 %
10.0%
10
Z=
~ N (0,1)
n
De acuerdo a esta frmula, el intervalo estara entre dos valores: Z y Z , rodeados
por un rea, denotada por , que delimita la confianza del intervalo.
Si 1 es el rea debajo de la curva, entonces el intervalo de confianza puede
especificarse como 1 y el de cada cola es igual a .
11
1-
/2
/2
Partiendo de esto tenemos que la probabilidad del valor del parmetro estandarizado
Z est entre Z 1 y Z 1 :
2
P Z 1 < Z < Z 1 = 1
2
2
P Z 1 <
< Z 1 = 1
2
2
QUE
IMPLICA
xi
P Z 1 <
< Z 1
2
2
P Z 1
< xi < Z 1
2
2
n
n
< < xi + Z 1
P xi Z 1
2
2
n
n
> > xi Z 1
P xi + Z 1
2
2
n
n
< < xi + Z 1
P xi Z 1
2
2
n
n
P xi Z 1
2
n
Se abrevia la expresin.
xi Z 1
12
(x
i =1
(x
s=
i =1
x)
n 1
Pero ese simple detalle, cuando la poblacin es pequea (n < 30 ) , implica tambin un
cambio en la distribucin, que deja de ser normal y se convierte en t de student con
n 1 grados de libertad (g.l.):
t=
x (n-1)
~t
s
n
xi t1(n1)
se tiene una muestra grande (n > 30 ) , de acuerdo al Teorema Central de Lmite puede
asumirse que la variable tiene una distribucin aproximadamente normal. Debido a
ello, la expresin para calcular el intervalo al (1 ) por ciento de confianza para
cuando se tiene una muestra grande de una poblacin con distribucin desconocida
es:
EXPRESIN PARA ENCONTRAR UN INTERVALO AL
(1 ) POR CIENTO DE CONFIANZA PARA CUANDO
LA POBLACIN TIENE DISTRIBUCIN DESCONOCIDA
PERO n > 30
xi Z 1
13
con 1
tamao de la muestra.
A.3) EJEMPLOS DE ESTIMACIN
1.
Supongamos que la variable estatura de las mujeres estudiantes de la ENAH
sigue una distribucin aproximadamente normal. Los siguientes datos (en centmetros)
corresponden a una muestra aleatoria de la poblacin:
160.5
152
181
160
158
153
152
157
170
155
164
155
160
156
167
170
160
158
n = 18
X~N(,)
x = 160.47
s = 7.52
HIPTESIS
2 = 0.025
= 0.05
EXPRESIN
PARA
INTERVALO
VALOR DE t1(n1)
2
xi t1(n1)
160.47 2.1098
APLICACIN
1 2 = 0.975
n
t1(n1) = t .17975 = 2.1098
2
7.52
= (156.73,164.21)
18
COMPARACIN
(156.73,164.21) vs. H inv : < 165
CON LA
HIPTESIS
, De acuerdo a la muestra obtenida y con un nivel de confianza del 95% se puede
afirmar que la estatura promedio de las mujeres estudiantes de la ENAH est entre
156.73 y 164.21 centmetros. Por lo tanto, se tiene evidencia estadstica que indica,
con un error del 5%, que la media de la estatura en esta poblacin es menor a 165
cm.
2.
Un investigador considera que la media del tiempo de recorrido de los
estudiantes de la ENAH a casa es mayor a 60 minutos. Supongamos que los
siguientes valores son datos de una muestra aleatoria de esta poblacin:
120
15
30
75
60
80
75
15
120
20
11
80
30
40
80
75
14
n = 16
X~N(,)
x = 63.44
s = 34.96
HIPTESIS
H inv : > 60
CONFIABILIDAD Y SIGNIFICANCIA
2 = 0.025
= 0.05
EXPRESIN
PARA
INTERVALO
VALOR DE t1(n1)
2
xi t1(n1)
2
n
t1(n1) = t .15975 = 2.1315
APLICACIN
1 2 = 0.975
34.96
= (44.81,82.07 )
16
COMPARACIN
(44.81,82.07 ) vs. H inv : > 60
CON LA
HIPTESIS
a) , Con un 95% de confianza se puede afirmar que la media del tiempo de
recorrido de los estudiantes de la ENAH a casa se halla entre los 44.81 y los 82.07
minutos.
b) , Como este intervalo contiene valores menores a los 60 minutos, de acuerdo a la
muestra no hay evidencia estadstica que permita inferir, con un 5% de error, que la
hiptesis del investigador sea verdadera.
3.
Los siguientes datos corresponden a la circunferencia craneal en centmetros
de 15 nios recin nacidos:
33.38
34.45
34.34
34.10
33.46
32.15
33.95
34.13
34.23
34.19
33.97
33.99
32.73
33.85
34.05
Suponiendo que la poblacin tiene una distribucin normal, es posible afirmar que la
media sea menor a 35 cm? Comprobar esta hiptesis construyendo un intervalo al
90% de confianza.
DATOS GENERALES
n = 15
X~N(,)
x = 33.80
s = 0.63
HIPTESIS
H inv : < 35
CONFIABILIDAD Y SIGNIFICANCIA
= 0.10
EXPRESIN
PARA
INTERVALO
VALOR DE t1(n1)
2
2 = 0.05
xi t1(n1)
1 2 = 0.95
n
t1(n1) = t.1495 = 1.7613
2
15
33.80 1.7613
APLICACIN
0.63
= (33.51,34.09)
15
COMPARACIN
(33.51,34.09 ) vs. H inv : < 35
CON LA
HIPTESIS
, Se puede afirmar, con un 90% de confianza, que la media de la circunferencia
craneal de los nios de esta poblacin est entre los 33.51 y los 34.09 centmetros;
motivo por el cual se acepta, con un 10% de error, que la media de esta variable es
menor a 35 cm.
B. CONTRASTE DE HIPTESIS
B.1) HIPTESIS NULAS Y SU REGIN DE RECHAZO
Cuando se quiere estimar el valor de la media poblacional se pueden plantear las
siguientes hiptesis:
HIPTESIS DEL
INVESTIGADOR
HIPTESIS NULA
HIPTESIS
ALTERNATIVA
H inv : 0
H 0 : = 0
H inv : < 0
H 0 : 0
H a : < 0
H inv : > 0
H 0 : 0
H a : > 0
H a : 0
HIPTESIS
H inv : 0
PRUEBA
BILATERAL O
DE DOS
COLAS
REGIN DE
RECHAZO DE
H 0 : = 0
1-
/2
H0
/2
t / Z1
H inv : < 0
PRUEBA
UNILATERAL
O DE UNA
COLA
H a : 0
REGIN DE
RECHAZO DE
t / Z1
H 0 : 0
H a : < 0
1-
H0
t / Z1
H inv : > 0
H 0 : 0
H a : > 0
16
REGIN DE
RECHAZO DE
1-
H0
t / Z1
Pero saber dnde se encuentra la regin de rechazo no basta; es necesario conocer el
valor de donde parte. Este dato se obtiene reconociendo el tipo de distribucin
probabilstica de la poblacin y hallando en sus tablas el valor que comprenda tal
confiabilidad.
Para una poblacin con distribucin normal, el valor de la regin de rechazo se busca
en las tablas para la distribucin t mediante la expresin t1(n1) si la prueba es bilateral
2
( n 1)
1
este caso hay que acudir a las tablas de distribucin normal y buscar el valor de Z
que tenga la probabilidad que indica la confianza de la prueba y agregar un signo
negativo si la regin de rechazo est en la seccin inferior del eje de las X .
B.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPTESIS
1. Teniendo la hiptesis del investigador H inv , plantear la hiptesis nula H 0 y la
hiptesis alternativa H a .
2. Reconocer la distribucin probabilstica de la variable de inters.
3. Determinar el ESTADSTICO DE PRUEBA y su distribucin probabilstica. Es
decir, encontrar la expresin que contiene la comparacin del estadstico
muestral o estimador del parmetro con el valor hipottico y la variabilidad
muestral.
EXPRESIN PARA EL ESTADSTICO
DE PRUEBA t c EN POBLACIONES
CON DISTRIBUCIN NORMAL
EXPRESIN PARA EL ESTADSTICO
DE PRUEBA Z c EN POBLACIONES
CON DISTRIBUCIN DESCONOCIDA
PERO n > 30
x 0
s
n
x 0
Zc =
s
n
tc =
17
75
60
75
60
5
100
120
30
45
70
5
85
90
60
40
180
45
100
H inv : < 90
HIPTESIS
H 0 : 90
H a : < 90
t=
x (n-1)
~t
s
n
APLICACIN
x 0
s
n
65.71 90
tc =
= 2.73
40.75
21
tc =
Ya con ese dato, falta encontrar la regin de rechazo de la hiptesis nula H 0 para
contrastarlos:
18
REGIN DE RECHAZO DE H 0 : 90
= 0.05
1 = 0.95
Por ltimo, hay que ubicar el estadstico de prueba t c con respecto a esta regin de
rechazo y concluir:
UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
a) , Como podemos ver, el estadstico de prueba t c = 2.73 se encuentra dentro de
la regin de rechazo. Por ende, la hiptesis nula H 0 : 90 se rechaza y puede
afirmarse que existe evidencia estadstica que indica que la media del tiempo que
hacen los estudiantes de su casa a la ENAH es significativamente ( p < 0.05) menor a
90 minutos, segn lo afirmaba la hiptesis del investigador.
Ahora bien, resta establecer el intervalo de confianza para la media de esta variable y
confirmar el resultado:
DATOS GENERALES
n = 21
X~N(,)
x = 65.71
s = 40.75
HIPTESIS
H inv : < 90
H 0 : 90
H a : < 90
CONFIABILIDAD Y SIGNIFICANCIA
= 0.025
2
= 0.05
EXPRESIN
PARA
INTERVALO
VALOR DE t1(n1)
2
APLICACIN
xi t1(n1)
65.71 2.0860
= 0.975
n
t1(n1) = t .20
975 = 2.0860
2
40.75
= (47.16,84.26)
21
COMPARACIN
(47.16,84.26 ) vs. H inv : < 90
CON LA
HIPTESIS
b) , Con un 95% de confianza se puede inferir que la media del tiempo que hacen
los estudiantes de su casa a la ENAH est entre los 47.16 y los 84.26 minutos, lo cual
confirma, como seal el investigador y la prueba de hiptesis, que la media de esta
19
50
20
35
75
40
30
60
12
25
50
20
35
15
40
30
30
n = 18
DATOS GENERALES
x = 40.94
s = 23.13
HIPTESIS
H inv : > 70
H 0 : 70
H a : > 70
REGIN DE RECHAZO DE H 0
= 0.05
)
t1(n1) = t1(180.051) = t 0(17
.95 = 1.7396
1 = 0.95
xi 0
s
n
40.94 70
tc =
= 5.33
23.13
18
tc =
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA t c
CLCULO DEL
ESTADSTICO DE PRUEBA t c
UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
X~N(,)
H inv : > 70
n = 18
x = 40.94
HIPTESIS
H 0 : 70
s = 23.13
H a : > 70
20
CONFIABILIDAD Y SIGNIFICANCIA
= 0.025
2
= 0.05
EXPRESIN
PARA
INTERVALO
VALOR DE t1(n1)
2
APLICACIN
40.94 2.1098
= 0.975
xi t1(n1)
1)
)
t1(n1) = t1(180.025
= t 0(17
.975 = 2.1098
2
23.13
= (29.44,52.44)
18
COMPARACIN
(29.44,52.44 ) vs. H inv : > 70
CON LA
HIPTESIS
b) , Con un 95% de confianza se puede inferir que la media del gasto diario de la
poblacin de la ENAH se encuentra entre los 29.44 y 52.44 pesos. Debido a ello, con
un 5% de error, puede afirmarse que la hiptesis del investigador era incorrecta al
decir que el promedio de este gasto era superior a los $70.00.
PRUEBA DE NORMALIDAD
A fin de comprobar si la poblacin estudiada de la cual se ha obtenido una muestra
tiene distribucin normal, existen varios mtodos para contrastar las siguientes
hiptesis:
X (1) , X (2 ) , X (3 ) ,..., X (n )
A.1) TEORA
Teniendo una muestra de tamao n con datos X 1 , X 2 , X 3 ,..., X n , lo primero que debe
hacerse es ordenarlos en forma ascendente para ubicar los estadsticos de prueba
X (1) , X (2 ) , X (3 ) ,..., X (n ) .
Realizado esto, se obtienen los siguientes datos:
DATOS
s2
Varianza de la muestra.
21
Si n es un nmero par: h =
n
2
Si n es un nmero non: h =
n 1
2
1
Wc =
a (X (n j +1) X ( j ) )
2 j , n
(n 1)s j =1
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA
Wc
Donde
H o SE RECHAZA SI:
Wc < Wn
A.2) EJEMPLO
Dados los siguientes datos encontrados:
X 1 = 95.6
X 4 = 65.2
X 7 = 75.5
X 2 = 29.1
X 5 = 75.9
X 8 = 72.0
22
X 3 = 28.5
X 6 = 98.5
X 9 = 42.4
X (1) = 28.5
X (4 ) = 65.2
X (7 ) = 75.9
X (2 ) = 29.1
X (5 ) = 72.0
X (8 ) = 95.6
X (3 ) = 42.4
X (6 ) = 75.5
X (9 ) = 98.5
DATOS
n=9
(impar)
h=
s 2 = 683.30 / 683.49
9 1 8
= =4
2
2
1 4
Wc =
a (X (10 j ) X ( j ) )
2 j , n
(8)s j =1
Wc =
1
[a1,9 (X (9 ) X (1) ) + a2,9 (X (8) X (2 ) ) + a3,9 (X (7 ) X (3) ) + a4,9 (X (6 ) X (4 ) )]2
2
(8)s
{[
}
]}
Wc =
1
2
0.5888(X (9 ) X (1) ) + 0.3244(X (8 ) X (2 ) ) + 0.1976(X (7 ) X (3 ) ) + 0.0947(X (6 ) X (4 ) )
2
(8)s
Wc =
1
[0.5888(98.5 28.5) + 0.3244(95.6 29.1) + 0.1976(75.9 42.4) + 0.0947(75.5 65.2)]2
2
(8)s
Wc =
1
{4953.85}
(8)s 2
Wc =
Wc =
4953.85
= 0.906
5466.40
4953.85
(8)s 2
Wc =
4953.85
= 0.906
5467.92
CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS H o
H o : La muestra procede de una poblacin con
23
distribucin normal.
EXPRESIN PARA
CONTRASTE DE
HIPTESIS
VALORES FINALES A
CONTRASTAR
Wc < Wn
Wc = 0.906
W09.05 = 0.829
, Como el valor del estadstico de prueba Wc = 0.83 no es menor a W09.05 = 0.829 sino
mayor, la hiptesis nula H o : La muestra procede de una poblacin con distribucin
normal no se rechaza y se puede asumir que la poblacin de la que fue tomada esta
muestra tiene una distribucin normal.
Xi
X1
X2
di = (X i 0 )
d1 = ( X 1 0 )
d 2 = (X 2 0 )
X3
d3 = (X 3 0 )
Xn
dn
(...)
(...)
= (X n 0 )
Hecho esto, y descontando los d i cuyo valor fue cero, hay que distinguir los d i que
salieron con valor negativo de los que tuvieron valor positivo para obtener los
siguientes datos:
DATOS
n+
Suma de n + y n .
24
H o : = 0
H o : 0
H o : 0
p=
2 n C i
i = n
2 n
p=
n Ci
i=n+
2n
p=
i=n
Ci
2n
H o : = 0
H o SE RECHAZA SI:
( p < ),
la hiptesis nula H o se
H o : 0
(p < )
H o : 0
A.2) EJEMPLO
1.
Una compaa surte botellas de refresco que se etiquetan con 12 onzas.
Cuando la Procuradura Federal del Consumidor (PROFECO) prueba una muestra
aleatoria de botellas, obtiene las siguientes cantidades:
X 1 = 11.4
X 4 = 12.2
X 7 = 12.5
X 10 = 11.9
X 13 = 11.5
X 2 = 11.8
X 5 = 11.9
X 8 = 12.0
X 11 = 10.9
X 14 = 11.5
X 3 = 11.7
X 6 = 11.0
X 9 = 12.1
X 12 = 12.3
X 15 = 12.6
H inv : < 12
Xi
X 1 = 11.4
X 2 = 11.8
X 3 = 11.7
X 4 = 12.2
X 5 = 11.9
X 6 = 11.0
X 7 = 12.5
X 8 = 12.0
X 9 = 12.1
X 10 = 11.9
H o : 12
di = (X i 0 )
d1 = (11.4 12 ) = 0.6
d 2 = (11.8 12 ) = 0.2
d 3 = (11.7 12 ) = 0.3
d 4 = (12.2 12 ) = 0.2
d 5 = (11.9 12 ) = 0.1
H a : < 12
n+
9
9
9
9
9
d 7 = (12.5 12 ) = 0.5
d 9 = (12.1 12 ) = 0.1
d 8 = (12.0 12 ) = 0
25
X 11 = 10.9
X 12 = 12.3
X 13 = 11.5
9
9
9
X 14 = 11.5
X 15 = 12.6
9
9
5
TOTALES
DATOS
+
n =5
n =9
n {5,9} = 9
n = 5 + 9 = 14
CONTRASTE DE HIPTESIS
TIPO DE
HIPTESIS H o
H o : 12
EXPRESIN
PARA CALCULAR
EL ESTADSTICO
DE PRUEBA p
p=
i=n
Ci
2n
14
CLCULO DE p
EXPRESIN
PARA
CONTRASTE DE
HIPTESIS
VALORES
FINALES A
CONTRASTAR
p=
i =9
14
Ci
214
C+ C + C + C + C + C
3473
p = 14 9 14 10 14 11 14 12 14 13 14 14 =
= 0.21
16384
16384
(p < )
p = 0.21
= 0.05
= 0.05 ; por ende, la hiptesis nula H o : 12 no se rechaza. Ello quiere decir que
el contenido promedio envasado por la embotelladora no es significativamente
( p > 0.05) menor a 12 onzas, as que las demandas interpuestas ante la PROFECO
no tienen sustento.
B. PRUEBA DE RANGOS DE WILCOXON
Prueba no paramtrica cuyo contraste de hiptesis es ms potente que la del signo, ya
que no slo toma en cuenta las diferencias del valor de cada dato de la muestra con el
valor hipottico, sino tambin considera los rangos asignados al valor absoluto de tales
diferencias.
B.1) TEORA
Al igual que en la prueba del signo, teniendo una muestra de tamao n con datos
X 1 , X 2 , X 3 ,..., X n , lo primero que debe hacerse aqu es calcular las diferencias d i de
26
di = (X i 0 )
Xi
d i signo
d1 = ( X 1 0 )
X1
d 2 = (X 2 0 )
X2
X3
d3 = (X 3 0 )
Xn
dn
(...)
(...)
= (X n 0 )
di
1+
3+
30
423+
2+
d i ordenados
ascendentemente
Lugar
Valor
de
rango
1
2
3
4
5
6
7
1
2.5
2.5
5
5
5
7
0
1+
22+
3+
33+
4-
Rangos de d i
Rangos de d i
que provienen de
d i positivo
que provienen de
d i negativo
1
2.5
2.5
5
5
5
7
que provienen de d i positivo o
T+
DATOS
Suma de los valores de los rangos de d i que provienen de d i positivo
H o : = 0
n
T DE TABLAS
CORRESPONDIENTE PARA
ESTADSTICO DE PRUEBA
H o : 0
H o : 0
Tn
Tn
27
o 2 es el valor de la significancia
En todos los casos, si la T de los datos es menor o igual a la T de tablas, la hiptesis
nula H o se rechaza. En otras palabras:
TIPO DE HIPTESIS H o
H o SE RECHAZA SI:
H o : = 0
T Tn
H o : 0
T T
H o : 0
T + Tn
B.2) EJEMPLO
1.
Una compaa surte botellas de refresco que se etiquetan con 12 onzas.
Cuando la Procuradura Federal del Consumidor (PROFECO) prueba una muestra
aleatoria de botellas, obtiene las siguientes cantidades:
X 1 = 11.4
X 4 = 12.2
X 7 = 12.5
X 10 = 11.9
X 13 = 11.5
X 2 = 11.8
X 5 = 11.9
X 8 = 12.0
X 11 = 10.9
X 14 = 11.5
X 3 = 11.7
X 6 = 11.0
X 9 = 12.1
X 12 = 12.3
X 15 = 12.6
H inv : < 12
Xi
X 1 = 11.4
X 2 = 11.8
X 3 = 11.7
X 4 = 12.2
X 5 = 11.9
X 6 = 11.0
X 7 = 12.5
X 8 = 12.0
X 9 = 12.1
X 10 = 11.9
X 11 = 10.9
X 12 = 12.3
HIPTESIS
H o : 12
H a : < 12
di = (X i 0 )
d i signo
d1 = (11.4 12 ) = 0.6
d 2 = (11.8 12 ) = 0.2
d 3 = (11.7 12 ) = 0.3
d 4 = (12.2 12 ) = 0.2
d 5 = (11.9 12 ) = 0.1
d 9 = (12.1 12 ) = 0.1
28
X 13 = 11.5
X 14 = 11.5
X 15 = 12.6
di
d i ordenados
ascendentemente
0
0.1 0.1 +
0.1 0.2 0.2 +
0.3 0.3 +
0.5 +
0.5 0.5 0.6 0.6 +
1.0 1.1 -
0.5 -
Lugar
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Valor
de
rango
0.5 0.6 +
Rangos de d i
Rangos de d i
que provienen de
d i positivo
que provienen de
d i negativo
2.0
2.0
2.0
2.0
4.5
4.5
4.5
6.5
6.5
6.5
9
9.0
9
9
11.5
11.5
11.5
13
14
13
14
DATOS
+
T = 33.5
T = 71.50
T {33.5,71.50} = 33.5
n = 14
CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS
H o : 12
Ho
T DE TABLAS
CORRESPONDIENTE
PARA ESTADSTICO
DE PRUEBA
EXPRESIN PARA
CONTRASTE DE
HIPTESIS
VALORES FINALES
A CONTRASTAR
Tn
T + Tn
T + = 33.5
Tn = T014.05 = 26
29
2. n(1 p ) = n m > 5
3. n > 30
p p Z 1
2
p (1 p )
D. CONTRASTE DE HIPTESIS
D.1) HIPTESIS NULAS Y SU REGIN DE RECHAZO
Cuando se quiere estimar el valor de la proporcin poblacional p se pueden plantear
las siguientes hiptesis:
HIPTESIS DEL
INVESTIGADOR
HIPTESIS NULA
HIPTESIS
ALTERNATIVA
H inv : p p 0
H 0 : p = p0
H a : p p0
H inv : p < p 0
H 0 : p p0
H a : p < p0
H inv : p > p 0
H 0 : p p0
H a : p > p0
30
HIPTESIS
H inv : p p 0
PRUEBA
BILATERAL O
DE DOS
COLAS
REGIN DE
RECHAZO DE
H 0 : p = p0
1-
/2
H0
Z1
H inv : p < p 0
REGIN DE
RECHAZO DE
/2
Z1
H 0 : p p0
H a : p < p0
1-
H0
PRUEBA
UNILATERAL
O DE UNA
COLA
H a : p p0
Z1
H inv : p > p 0
REGIN DE
RECHAZO DE
H 0 : p p0
H a : p > p0
1-
H0
Z1
Cabe mencionar que, al igual que en el contraste de hiptesis sobre , en esta
prueba es necesario encontrar el valor donde inicia la regin de rechazo. Al depender
del Teorema Central de Lmite, los valores para esta prueba dependen de una
distribucin aproximadamente normal estndar y se encontrarn en su respectiva tabla
mediante las expresiones Z 1 o Z 1 , segn sea la prueba (bilateral o unilateral).
2
Esto es, hay que buscar el valor de Z que tenga la probabilidad que indica la
confianza de la prueba y agregar un signo negativo si la regin de rechazo est en la
seccin inferior del eje de las X .
D.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPTESIS
7. Comprobar los supuestos de la muestra para verificar la factibilidad de la
prueba.
8. Si tales condiciones se cumplen, explicitar la hiptesis del investigador H inv , la
hiptesis nula H 0 y la hiptesis alternativa H a .
9. Calcular el estadstico de prueba que compara el estimador con el valor
hipottico y su variabilidad:
31
Zc =
p p0
p 0 (1 p 0 )
n
PROBABILIDAD
DE P-VALOR
< Zc <
P( Z < Z c < Z )
De a Z c
P (Z < Z c )
De Z c a
P (Z > Z c )
BSQUEDA DE
P-VALOR
P(Z < Z c )
P (Z > Z c ) P (Z < Z c )
E. EJEMPLOS DE ESTIMACIN
1.
En una muestra de 591 pacientes internados en un hospital psiquitrico, 204
admitieron que consumieron marihuana al menos una vez durante su vida. Es posible
inferir que la proporcin de individuos que consumieron marihuana en la poblacin de
estudio es mayor de 0.30?
c) Realizar una prueba de hiptesis con un nivel de significancia = 0.05
d) Encontrar el p-valor o significancia de la prueba.
e) Construir un intervalo al 95% de confianza para la proporcin poblacional.
DATOS GENERALES
n = 591
m = 204
p = 204
= 0.35
591
1 p = 1 0.35 = 0.65
32
2. n(1 p ) > 5
1. np > 5
(591)(0.35) = 206.85
3. n > 30
591(0.65) = 384.15
384.15 > 5
206.85 > 5
n = 591
591 > 30
H a : > 0.30
H 0 : p 0.30
Zc =
APLICACIN
Zc =
p p0
p 0 (1 p 0 )
n
0.35 0.30
0.35 0.30
= Zc =
= 2.65
0.30(1 0.30 )
0.30(0.70 )
591
591
= 0.05
1 = 0.95
Z 1 = Z 0.95 = 1.645
UBICACIN DE ESTADSTICO DE
PRUEBA Z c CON RESPECTO A
REGIN DE RECHAZO DE H 0
a) , El estadstico de prueba Z c = 2.65 cae dentro de la regin de rechazo, razn
por la cual la hiptesis nula H 0 : p 0.30 se rechaza y se infiere que la proporcin
33
REA DEL
P-VALOR
De
PROBABILIDAD
DE P-VALOR
BSQUEDA DE
P-VALOR
Z c = 2.65
a
p valor = 0.0040
VALORES A COMPARAR
= 0.05
b) , El p valor = 0.0040 es menor a la significancia = 0.05 , motivo por el cual la
hiptesis nula H 0 : p 0.30 se vuelve a rechazar.
Por ltimo, hay que construir el intervalo de confianza para la proporcin poblacional:
CONFIABILIDAD Y SIGNIFICANCIA
1 = 0.95
EXPRESIN
PARA
INTERVALO
VALOR DE Z 1
2 = 0.025
= 0.05
p (1 p )
p p Z 1
2
n
APLICACIN
1 2 = 0.975
0.35(0.65)
= p (0.31,0.39 )
p 0.35 1.96
591
COMPARACIN
p (0.31,0.39 ) vs. H inv : p > 0.30
CON LA
HIPTESIS
c) , Con un 95% de confiabilidad es posible inferir que la proporcin poblacional de
personas internadas que alguna vez fumaron marihuana est entre 0.31 y 0.39. Tal
intervalo da sustento estadstico a la hiptesis del investigador, que la estima en un
valor mayor a 0.30.
(n 1)s 2 , (n 1)s 2
2 ( n 1)
1
2
2(n 1)
2
34
(n 1)s 2 , (n 1)s 2
12(n 1)
2
2(n 1)
Ntese que en estas expresiones los valores mnimo y mximo del intervalo no se
encuentran simplemente restando o sumando el valor que se halla en tablas, sino que
hay que buscar cada uno.
C. CONTRASTE DE HIPTESIS
C.1) HIPTESIS NULAS Y SU REGIN DE RECHAZO
Igual que en las estimaciones anteriores, las hiptesis posibles para contrastar el valor
de la varianza poblacional 2 son:
HIPTESIS DEL
INVESTIGADOR
HIPTESIS NULA
HIPTESIS
ALTERNATIVA
H inv : 2 02
H 0 : 2 = 02
H a : 2 02
H inv : 2 < 02
H 0 : 2 02
H a : 2 < 02
H inv : 2 > 02
H 0 : 2 02
H a : 2 > 02
H inv :
2
PRUEBA
BILATERAL O
DE DOS
COLAS
2
0
H a : 2 02
REGIN DE
RECHAZO DE
H0
/2
1-/2
2 ( n 1)
H inv : 2 < 02
PRUEBA
UNILATERAL
O DE UNA
COLA
H 0 : 2 = 02
2 ( n 1)
1
2
H 0 : 2 02
H a : 2 < 02
H 0 : 2 02
H a : 2 > 02
REGIN DE
RECHAZO DE
H0
2(n 1)
H inv : 2 > 02
35
REGIN DE
RECHAZO DE
H0
1-
12(n 1)
Puede verse aqu, al igual que en una parte de la expresin para el intervalo de
confianza de la varianza 2 , que las reas de la significancia no son iguales. Ello se
debe, como se ver en el siguiente punto, a que el estadstico de prueba tiene una
distribucin ji-cuadrada 2 , cuya grfica no tiene una curva simtrica. Por tal motivo,
es necesario consultar en esas tablas los valores de 2 (n 1) y 12(n 1) si la prueba es
2 ( n 1)
2 ( n 1)
1
bilateral y
o
si es unilateral. Como en otras ocasiones, esto implica
buscar los grados de libertad e intersectar este rengln con la columna de la
significancia o confiabilidad requerida.
C.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPTESIS
12. Comprobar que la variable tenga una distribucin normal.
13. Dado el caso, hacer explcitas la hiptesis del investigador H inv , la hiptesis
nula H 0 y la hiptesis alternativa H a .
14. Calcular el estadstico de prueba que compara el estimador con el valor
hipottico y su variabilidad:
EXPRESIN PARA CALCULAR EL ESTADSTICO DE
PRUEBA c2 EN POBLACIONES CON DISTRIBUCIN
NORMAL
(
n 1)s 2
=
2
2
c
36
X~N(,)
n = 27
x = 80.5
s = 4 .6
Sabiendo que la poblacin cumple con una distribucin normal, planteemos las
hiptesis a contrastar:
HIPTESIS
H inv : < 27
H 0 : 2 27
H a : 2 < 27
c2 =
c2 =
APLICACIN
(27 1)4.6 2
27
(n 1)s 2
02
= 20.38
Una vez obtenido este valor, falta el de la regin de rechazo de la hiptesis nula H 0 :
REGIN DE RECHAZO DE H 0 : 2 27
= 0.05
UBICACIN DE ESTADSTICO DE
PRUEBA c2 CON RESPECTO A
REGIN DE RECHAZO DE H 0
a) , El estadstico de prueba c2 = 20.38 no se encuentra dentro de la regin de
rechazo de la hiptesis nula H 0 : 2 27 , por lo cual puede inferirse que la varianza
de esta poblacin de conductores no es significativamente
aos2.
( p > 0.05)
menor a 27
1 = 0.95
EXPRESIN
PARA
INTERVALO
2 = 0.025
= 0.05
(n 1)s 2 (n 1)s 2
2(n 1) , 2(n 1)
1
2
2
1 2 = 0.975
37
VALORES DE
2(n 1) y 12(n 1)
2
2 ( n 1)
27 1)
26 )
= 02.(025
= 02.(025
= 13.844
APLICACIN
= 2 (13.12,39.70 )
COMPARACIN
2 (13.12,39.70) vs. H inv : 2 < 27
CON LA
HIPTESIS
b) , Con un 95% de confianza es posible afirmar que la varianza de esta poblacin
de conductores se encuentra en el intervalo demarcado por los valores 13.12 y 39.70.
Como tal intervalo contiene valores mayores a 27, no hay evidencia estadstica que
sustente la hiptesis del investigador, pero tampoco la hiptesis nula.
2.
Utilice un nivel de significancia = 0.05 para probar la aseveracin de que la
estatura de mujeres supermodelos vara menos que la estatura de las mujeres en
general, sabiendo que ambas poblaciones tienen distribucin normal y que la
desviacin estndar de la estatura de la segunda poblacin es de 2.5 pulgadas.
71
70
71
69
70
69.5
Estaturas de supermodelos
69
69.5
70.5
69
70
70
71
66.5
72
70
70
71
DATOS GENERALES
n = 18
X~N(,)
s = 1.19
2 = (2.5)2
H 0 : 2 6.25
s 2 = 1.41
= 6.25
H a : 2 < 6.25
= 0.05
EXPRESIN PARA
ESTADSTICO DE PRUEBA c2
CLCULO DEL
ESTADSTICO DE PRUEBA c2
c2 =
c2 =
(n 1)s 2
02
UBICACIN DE ESTADSTICO DE
PRUEBA c2 CON RESPECTO A
REGIN DE RECHAZO DE H 0
38
n = 18
s = 1.19
s 2 = 1.41
HIPTESIS
H 0 : 2 6.25
CONFIABILIDAD Y SIGNIFICANCIA
1 = 0.95
VALORES DE
2(n 1) y 12(n 1)
2 ( n 1)
APLICACIN
1 2 = 0.975
2
2
(n 1)s (n 1)s
2(n 1) , 2(n 1)
2
2
2 ( n 1)
2 (181)
2 (17 )
1 = 10.025 = 0.975 = 30.191
EXPRESIN
PARA
INTERVALO
2 = 0.025
= 0.05
H a : 2 < 6.25
181)
17 )
= 02.(025
= 02.(025
= 7.564
COMPARACIN
2 (0.79,3.17 ) vs. H inv : 2 < 6.25
CON LA
HIPTESIS
, La estatura de las mujeres supermodelos tiene una varianza entre 0.79 y 3.17, as
que, con un 95% de confianza, puede sustentarse la afirmacin del investigador de
que esta variabilidad es menor a la varianza de 6.25 de la poblacin femenina
general.
39
H 0 : = 0
vs.
H 0 : 0
vs.
H 0 : 0
vs.
H a : 0
H a : < 0
H a : > 0
xi t1(n1)
La poblacin
tiene
distribucin
normal?
tc =
x 0
s
n
xi Z 1
La muestra es
mayor a 30?
(TCL)
Zc =
x 0
s
n
PRUEBAS NO
PARAMTRICAS
a) Signo b) Wilcoxon
40
PARA PROPORCIONES
d = x
d = p p
=Z
concluir que:
> Z 1
n
Por ende, para saber el tamao de la muestra, de ello es necesario despejar n :
d
Si tenemos
Aplicamos la ley
de los extremos
Dejamos sola a n
Y para despejarla
la elevamos al
cuadrado
A ello debemos la siguiente expresin:
> Z 1
n
n d
n>
n>
> Z 1
Z 1
Z 12 2
2
d2
41
n>
Z 12 2
2
d2
La cual nos indica que para conocer el tamao n de la muestra requerida necesitamos
fijar una confiabilidad 1 de estimacin y encontrar el valor de Z que le
corresponde; adems, establecer una magnitud de error de estimacin d 2 y conocer
el valor de 2 , que puede estimarse con ayuda de investigaciones previas o mediante
muestras piloto. Claro est que, por su relacin, a mayor confianza 1 , una mayor
muestra se necesitar; mientras que a mayor error de estimacin d 2 , menor ser la
muestra requerida.
A.2) POBLACIONES CUYO TAMAO TOTAL N ES CONOCIDO
A diferencia de la expresin anterior, si el tamao total N de la poblacin es conocido,
la expresin para calcular el tamao de muestra requerido es:
EXPRESIN PARA CALCULAR EL
TAMAO DE MUESTRA PARA
ESTIMAR MEDIAS DE POBLACIONES
CUYO TAMAO SE CONOCE
N Z 12 2
n>
d (N 1) + Z 12 2
2
n>
Z 12 p(1 p )
2
d2
n>
N Z 12 p(1 p )
2
d (N 1) + Z 12 p(1 p )
2
42
C. EJEMPLO DE APLICACIN
1.
Jayr desea hacer una encuesta sobre las preferencias que existen en la
escuela para las prximas elecciones de director de la ENAH y ha planeado realizar su
estimacin con un 95% de confianza y un 5% de error. Sabiendo que p (1 p ) es
mximo cuando p = 0.5 y hay tres candidatos, supone una proporcin de p = 0.33 .
DATOS GENERALES
1 = 0.95
= 0.05
= 0.025
2
Z 1 = 1.96
d = 0.05
p = 0.33
1 = 0.975
2
1 p = 0.67
n>
Z 12 p(1 p )
2
d2
2
(
1.96 ) (0.33 0.67 )
n>
= 339.75
(0.05)2
APLICACIN
n>
N Z 12 p(1 p )
2
d (N 1) + Z 12 p(1 p )
2
APLICACIN
n>
= 290.54
11. Qu es p ?
Qu es p ?
3. Error tipo I
6. Regin de rechazo
9. Qu es x ? qu es
?
12. Potencia de la prueba
43
Herrera Bautista, Rebeca y Lpez Alonso Sergio (1995) Distribucin de talla y peso en poblacin
infantil de la regin de la sierra norte de Puebla, Mxico Estudios de antropologa bilolgica V Coloquio
de Antropologa Fsica Juan Comas, Mxico, IIA, UNAM.
2
VILLANUEVA MARA, SANZ MA. ELENA Y SERRANO CARLOS. (1982) Crecimiento y
desarrollo en escolares de la Villa de las Margaritas, Chiapas Mxico. En II Coloquo de Antropologa
Fsica Juan Comas, IIA, UNAM. pp. 427-452
44
45
46
UNIDAD II
COMPARACIN DE DOS MEDIAS POBLACIONALES
Cuando lo que se desea es comparar dos poblaciones a travs de su media, lo
primero que debe reconocerse es si la variable a comparar tiene o no distribucin
normal aplicando la prueba de Shapiro-Wilks.
A. COMPARACIN EN POBLACIONES CON DISTRIBUCIN NORMAL
Si bien es posible suponer distribucin normal en la variable de ambas poblaciones,
las expresiones para construir intervalos de confianza y comparar las medias
dependen an de otro requisito: si puede asumirse que sus varianzas son iguales o
no, lo cual se verifica a travs de la prueba de Leveane.
1) PRUEBA DE LEVEANE
Se trata de una prueba para comparar las varianzas 12 y 22 de una variable con
distribucin normal en dos poblaciones de tamao N 1 y N 2 , con medias 1 y 2 .
a) Hiptesis nula y regin de rechazo
Como el fin es simplemente inferir si las varianzas de ambas poblaciones son
estadsticamente iguales o no, las hiptesis de esta prueba son:
HIPTESIS NULA
HIPTESIS ALTERNATIVA
H0 : =
H a : 12 22
2
1
2
2
REGIN DE RECHAZO
F1(n1 1, n2 1)
47
Fc =
s12
s 22
VARIANZAS DIFERENTES
12 = 22
12 22
1
1
+
1 2 x1 x 2 t1(n1 + n2 2 ) Sp
2
n1 n2
s12 s 22
( n1 + n2 2 )
+
1 2 x1 x 2 t1
2
n1 n2
INTERPRETACIN
1 < 2
1 > 2
1 = 2
3) PRUEBA t
Cubiertos los anteriores requisitos, es est la prueba que debe utilizarse para
comparar dos poblaciones a travs de sus medias:
a) Hiptesis nula y regin de rechazo
La comparacin de medias poblacionales que esta prueba realiza permite no
slo establecer si son diferentes, sino tambin si alguna es mayor que otra,
motivo por el cual las hiptesis que pueden plantearse son:
48
HIPTESIS DEL
INVESTIGADOR
HIPTESIS NULA
HIPTESIS
ALTERNATIVA
H inv : 1 2
H 0 : 1= 2
H inv : 1< 2
H 0 : 1 2
H a : 1< 2
H inv : 1> 2
H 0 : 1 2
H a : 1> 2
H a : 1 2
H inv : 1 2
PRUEBA
BILATERAL O
DE DOS
COLAS
REGIN DE
RECHAZO DE
H0
H 0 : 1= 2
1-
/2
/2
t1(n1 + n2 2)
t1(n1 + n2 2 )
H inv : 1< 2
REGIN DE
RECHAZO DE
H 0 : 1 2
H a : 1< 2
1-
H0
PRUEBA
UNILATERAL
O DE UNA
COLA
H a : 1 2
t1(n1 + n2 2)
H inv : 1> 2
REGIN DE
RECHAZO DE
H0
H 0 : 1 2
H a : 1> 2
1-
t1(n1 + n2 2 )
El valor en donde inicia la regin de rechazo se obtiene mediante las expresiones
t1(n1 + n2 2 ) si es bilateral o t1(n1 + n2 2 ) si es unilateral. Para encontrarlo, se busca en
2
Como puede verse, los grados de libertad es igual a la suma de los dos tamaos de muestra menos dos.
49
=
2
1
tc =
VARIANZAS DIFERENTES
12 22
2
2
x1 x 2
1
1
+
Sp
n1 n2
tc =
Sp =
x1 x 2
s12 s 22
+
n1 n2
181
153
158
170
173
182
165
MUJERES
152
160
152
160
HOMBRES
165
176
160
170
163
170
173
180
155
158
50
n = 16
n=7
MUJERES
HOMBRES
DATOS GENERALES
x = 160.94
x = 173.43
s = 8.05
s = 6.65
, Poblacin 1
, Poblacin 2
HIPTESIS
H inv :
2
1
H 0 : 12 = 22
2
2
H a : 12 22
REGIN DE RECHAZO DE H 0 : 12 = 22
,6)
F1(n1 1,n2 1) = F1(160.051, 7 1) = F0(.15
= 3.94
95
= 0.05
s12
Fc = 2
s2
EXPRESIN PARA
ESTADSTICO DE PRUEBA Fc
CLCULO DEL
ESTADSTICO DE PRUEBA Fc
Fc =
(8.05)2
(6.65)2
= 1.47
UBICACIN DE ESTADSTICO DE
PRUEBA Fc CON RESPECTO A
REGIN DE RECHAZO DE H 0
a) , Como el estadstico de prueba Fc = 1.47 est fuera de la regin de rechazo que
,6)
2
2
inicia en F0(.15
975 = 5.27 , la hiptesis nula H 0 : 1 = 2 no se rechaza y puede inferirse
que la varianza de la estatura en estas dos poblaciones no es significativamente
( p > 0.05) diferente.
H inv : 1< 2
HIPTESIS
H 0 : 1 2
H a : 1< 2
REGIN DE RECHAZO DE H 0 : 1 2
= 0.05
1 = 0.95
51
H 0 : 12 = 22
RESULTADO P. LEVEANE
tc =
EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
Sp =
CLCULO DE Sp
Sp =
CLCULO DEL
ESTADSTICO DE PRUEBA t c
x1 x 2
1
1
+
Sp
n1 n2
= 7.68
UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
b) , Como el estadstico de prueba t c = 3.59 cae en la regin de rechazo que parte
)
de t 0(.21
95 = 1.7207 , la hiptesis nula H 0 : 1 2 se rechaza y puede inferirse que
t1(n1 + n2 2 )
H 0 : 12 = 22
1 = 0.95
= 0.975
1 2 x1 x 2 t1(n+ n 2 ) Sp
1
1
+
n1 n2
APLICACIN
7 2)
t1(n1 + n2 2 ) = t1(160.+025
= t 0(.21975) = 2.0796
EXPRESIN
PARA INTERVALO
DE CONFIANZA
= 0.025
2
= 0.05
1 2 [ 19.79,5.19]
1 1
+
16 7
1 < 2
Valores negativos
INTERPRETACIN
c) , Con un 95% de confianza es posible inferir que la media de la poblacin 1 es
menor que la de la poblacin 2; por lo cual se puede afirmar que la estatura media
femenina es menor que la masculina en las poblaciones de estudiantes de la ENAH.
52
2.
Los siguientes datos pertenecen a dos muestras aleatorias de personas
mayores, fumadores y no fumadores, e indican el ndice de destruccin de pulmn que
presentaron al morir (el cual es ms grande a mayor deterioro pulmonar).
18.1
16.6
18.6
6.0
10.8
13.9
12.0
11.3
24.1
NO FUMADORES
11.0
7.7
17.9
FUMADORES
26.5
17.4
16.5
21.8
8.5
13.0
15.3
16.3
15.8
23.4
18.9
12.3
18.8
n=9
x = 12.43
s = 4.85
, Poblacin 1
n = 16
x = 17.54
s = 4.48
, Poblacin 2
HIPTESIS
H inv :
2
1
H 0 : 12 = 22
2
2
H a : 12 22
REGIN DE RECHAZO DE H 0 : 12 = 22
= 0.05
1,16 1)
F1(n1 1,n2 1) = F1(90.05
= F0(.895,15) = 2.64
EXPRESIN PARA
ESTADSTICO DE PRUEBA Fc
CLCULO DEL
ESTADSTICO DE PRUEBA Fc
Fc =
Fc =
s12
s 22
(4.85)2
(4.48)2
= 1.17
UBICACIN DE ESTADSTICO DE
PRUEBA Fc CON RESPECTO A
REGIN DE RECHAZO DE H 0
a) , Como el estadstico de prueba Fc = 1.17 est fuera de la regin de rechazo que
,15 )
inicia en F0(.8975
= 3.20 , la hiptesis nula H 0 : 12 = 22 no se rechaza y puede inferirse
que la varianza de la estatura en estas dos poblaciones no es significativamente
( p > 0.05) diferente.
53
HIPTESIS
H inv : 1< 2
H 0 : 1 2
H a : 1< 2
REGIN DE RECHAZO DE H 0 : 1 2
= 0.05
1 = 0.95
H 0 : 12 = 22
RESULTADO P. LEVEANE
tc =
EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
Sp =
CLCULO DE Sp
Sp =
CLCULO DEL
ESTADSTICO DE PRUEBA t c
x1 x 2
1
1
Sp
+
n1 n2
= 4.61
UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
b) , Como el estadstico de prueba t c = 2.66 cae en la regin de rechazo que parte
)
de t 0(.23
95 = 1.7139 , la hiptesis nula H 0 : 1 2 se rechaza y puede inferirse que la
RESULTADO P.
LEVEANE
CONFIABILIDAD
VALOR DE
t1(n1 + n2 2 )
2
EXPRESIN
PARA INTERVALO
DE CONFIANZA
H 0 : 12 = 22
1 = 0.95
= 0.025
2
= 0.05
= 0.975
1 2 x1 x 2 t1(n+ n 2 ) Sp
1
1
+
n1 n2
54
APLICACIN
= 1 2 [ 9.08,1.14]
1 1
+
9 16
1 < 2
Valores negativos
INTERPRETACIN
c) , Con un 95% de confianza es posible inferir que la media de la poblacin 1 es
menor que la de la poblacin 2; por lo cual se puede afirmar que la destruccin
pulmonar es ms grande en personas mayores fumadoras.
3.
Los siguientes de datos de permetro craneal (mm.) en neonatos (0-24 horas)
fueron obtenidos durante una investigacin (1968-1970) en el Valle de Cholula:
351
350
365
356
331
340
330
317
332
320
HOMBRES
339
330
350
322
MUJERES
330
321
320
345
335
331
354
335
327
329
335
Con una significancia de = 0.05 , es posible inferir que existen diferencias por sexo
en el permetro craneal de estas poblaciones?
HIPTESIS
H inv : 1 2
H 0 : 1= 2
H a : 1 2
X (1) = 322
X (2 ) = 330
X (3) = 331
X (4 ) = 335
X (5 ) = 339
X (7 ) = 350
X (8 ) = 351
X (9 ) = 354
X (10 ) = 356
X (11) = 365
DATOS
x = 343.91
s = 13.27
s 2 = 176.09
EXPRESIN PARA EL
ESTADSTICO DE
PRUEBA Wc
n = 11
(impar)
1
(10)s 2
Wc =
h=
1
Wc =
a (X (n j +1) X ( j ) )
2 j , n
(n 1)s j =1
1 5
Wc =
a (X (11 j ) X ( j ) )
2 j , n
(10)s j =1
Wc =
X (6 ) = 350
Wc =
1
[1677.08]
(10)176.09
11 1
=5
2
1677.08
= 0.952
1760.93
55
TIPO DE HIPTESIS H o
CONTRASTE DE HIPTESIS
H o : La muestra procede de una poblacin con
distribucin normal.
EXPRESIN PARA
Wc < Wn
CONTRASTE DE
HIPTESIS
VALORES FINALES A
Wc = 0.952
W011.05 = 0.850
CONTRASTAR
, El estadstico de prueba Wc = 0.948 no es menor a W011.05 = 0.850 . Por tal motivo, la
hiptesis nula no se rechaza y se infiere que, en la poblacin masculina de la cual
procede esta muestra, la variable anchura biacromial tiene una distribucin normal.
MUJERES: ESTADSTICOS DE ORDEN.
X (1) = 317
X (2 ) = 320
X (3 ) = 320
X (4 ) = 321
X (5 ) = 327
X (6 ) = 329
X (7 ) = 330
X (8 ) = 330
X (9 ) = 331
X (10 ) = 332
X (11) = 335
X (12 ) = 335
X (13 ) = 340
X (14 ) = 345
DATOS
x = 329.42
s = 8.02
EXPRESIN PARA EL
ESTADSTICO DE
PRUEBA Wc
n = 14
s 2 = 64.32
(par)
h=
1
(
)
Wc =
a
X
X
j
n
(
n
j
+
)
(
j
)
,
1
(n 1)s 2 j =1
1 7
(
)
Wc =
a
X
X
(
)
(
)
j
n
j
j
,
14
(13)s 2 j =1
1
[801.85]
(13)64.32
TIPO DE HIPTESIS H o
Wc =
+ 0.0240(330 330 )
Wc =
14
=7
2
801.85
= 0.959
813.17
CONTRASTE DE HIPTESIS
H o : La muestra procede de una poblacin con
distribucin normal.
EXPRESIN PARA
Wc < Wn
CONTRASTE DE
HIPTESIS
VALORES FINALES A
Wc = 0.959
W014.05 = 0.874
CONTRASTAR
, El estadstico de prueba Wc = 0.961 no es menor a W014.05 = 0.874 . Por tal motivo, la
hiptesis nula no se rechaza y se infiere que, en la poblacin femenina de la cual
procede esta muestra, la variable permetro craneal tiene una distribucin normal.
56
Comprobado que ambas poblaciones tienen distribucin normal para esta variable,
hacemos la prueba de Leveane:
DATOS GENERALES
n = 11
n = 14
HOMBRES
MUJERES
x = 343.91
x = 329.42
s = 13.27
s = 8.01
, Poblacin 1
, Poblacin 2
HIPTESIS
H inv :
2
1
H 0 : 12 = 22
2
2
H a : 12 22
REGIN DE RECHAZO DE H 0 : 12 = 22
,13)
F1(n1 1,n2 1) = F1(110.051,141) = F0(.10
= 2.67
95
= 0.05
EXPRESIN PARA
ESTADSTICO DE PRUEBA Fc
Fc =
CLCULO DEL
ESTADSTICO DE PRUEBA Fc
Fc
s12
s 22
2
(
13.27 )
=
(8.01)2
= 2.74
UBICACIN DE ESTADSTICO DE
PRUEBA Fc CON RESPECTO A
REGIN DE RECHAZO DE H 0
, Como el estadstico de prueba Fc = 2.74 cae en la regin de rechazo que inicia en
,13)
F0(.10
= 2.67 . Por tal motivo, la hiptesis nula H 0 : 12 = 22 se rechaza y puede
95
H inv : 1 2
H 0 : 1= 2
H a : 1 2
REGIN DE RECHAZO DE H 0 : 1= 2
= 0.05
= 0.975
14 2 )
t1(n1 + n2 2) = t1(110+.025
= t 0( .23975) = 2.0687
2
57
H a : 12 22
RESULTADO P. LEVEANE
tc =
EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
tc =
CLCULO DEL
ESTADSTICO DE PRUEBA t c
x1 x 2
s12 s 22
+
n1 n2
343.91 329.42
13.27 2 8.012
+
11
14
= 3.19
UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
b) , Como el estadstico de prueba t c = 3.19 cae en la regin de rechazo que parte
)
de t 0(.23
975 = 2.0687 , la hiptesis nula H 0 : 1= 2 se rechaza y puede inferirse que
t1(n1 + n2 2 )
H a : 12 22
1 = 0.95
= 0.05
= 0.975
1 2 x1 x 2 t1(n+ n 2 )
1
APLICACIN
14 2 )
t1(n1 + n2 2) = t1(110+.025
= t 0(.23975) = 2.0687
EXPRESIN
PARA INTERVALO
DE CONFIANZA
= 0.025
2
= 1 2 [5.10,23.88]
s12 s 22
+
n1 n2
13.27 2 8.012
+
11
14
1 > 2
Valores positivos
INTERPRETACIN
c) , Con un 95% de confianza es posible inferir que la media de la poblacin 1 es
menor que la de la poblacin 2; por lo cual se puede afirmar que el permetro craneal
de hombres es mayor que el de mujeres entre los neonatos de esa localidad.
B. COMPARACIN EN POBLACIONES CON DISTRIBUCIN DESCONOCIDA
B.1) UTILIZANDO DOS MUESTRAS GRANDES
Si de acuerdo a la prueba de Shapiro Wilks no es posible suponer distribucin normal
en al menos una de las dos poblaciones, pero las muestras obtenidas de ellas son
mayores a 20 (n1 > 20, n2 > 20 ) , gracias al Teorema Central de Lmite pueden
utilizarse las siguientes expresiones para construir intervalos de confianza y comparar
sus medias:
58
DE CONFIANZA PARA 1 2
CUANDO LA POBLACIN TIENE
DISTRIBUCIN DESCONOCIDA PERO
1 2 x1 x 2 Z 1
s12 s 22
+
n1 n2
Zc =
x1 x 2
s12 s 22
+
n1 n2
Como es posible ver, el estadstico de prueba es una Z c , el cual tiene una distribucin
normal estndar. Debido a ello es que se recurre, una vez ms, a las tablas de
distribucin normal para obtener los valores correspondientes a la significancia y
confiabilidad de la prueba.
B.2) UTILIZANDO DOS MUESTRAS PEQUEAS
En caso de que al menos una de las muestras no sea suficientemente grande
(n < 20) para aplicar el Teorema Central de Lmite, la ltima alternativa es utilizar la
prueba no paramtrica U DE MANN-WHITNEY. Aunque el nico requisito para
emplearla es que la variable involucrada sea al menos ordinal, esta prueba no slo es
menos potente, sino que adems es sobre las medianas de las poblaciones y no sobre
sus medias.
a) Hiptesis nula y regin de rechazo
Como en otras ocasiones, existen 3 hiptesis nulas posibles para comparar las
medianas de dos poblaciones:
HIPTESIS DEL
HIPTESIS
HIPTESIS NULA
INVESTIGADOR
ALTERNATIVA
H inv :M 1 M 2
H 0 :M 1= M 2
H a :M 1 M 2
H inv :M 1< M 2
H 0 :M 1 M 2
H a :M 1< M 2
H inv :M 1> M 2
H 0 :M 1 M 2
H a :M 1> M 2
H inv :M 1 M 2
PRUEBA
BILATERAL O
DE DOS
COLAS
H 0 :M 1= M 2
REGIN DE
RECHAZO DE
H0
/2
1-/2
U (n1 ,n2 )
U 1(n1 ,n2 )
PRUEBA
H a :M 1 M 2
H inv :M 1< M 2
H 0 :M 1 M 2
H a :M 1< M 2
59
UNILATERAL
O DE UNA
COLA
REGIN DE
RECHAZO DE
H0
U (n1 ,n2 )
H inv :M 1> M 2
H 0 :M 1 M 2
H a :M 1> M 2
REGIN DE
RECHAZO DE
H0
1-
U 1(n1 ,n2 )
Debe dejarse en claro que la forma de la grfica de esta distribucin no es
especficamente tal y acercarse de ella slo puede afirmarse que no es simtrica.
Los valores que delimitan tales regiones, empero, pueden encontrarse utilizando
(n ,n )
las tablas para la prueba de Mann-Whitney mediante las expresiones U 1 2 y
( n1 , n2 )
U 1
( n1 ,n2 )
( n1 , n2 )
o U 1
si la prueba es
unilateral. Los valores que tienen una alfa directa se encuentran buscando en los
renglones de n el valor de n1 , posteriormente la significancia de la prueba y por
ltimo intersectar ello con la columna de m, que es el valor de n 2 .
Empero, los que implican encontrar la regin de rechazo a la derecha
frmula:
EXPRESIN PARA HALLAR EL VALOR DE INICIO DE REGIONES DE RECHAZO
EN EL EJE SUPERIOR DE LAS X
PRUEBAS BILATERALES
( n1 , n2 )
PRUEBAS UNILATERALES
U 1
( n1 , n2 )
= n1 n2 U
DATOS
60
Tamao de la muestra 1.
n1
n2
R1
R2
Tamao de la muestra 2.
Suma de los rangos de la muestra 1.
Suma de los rangos de la muestra 2.
U c = R1
n1 (n1 + 1)
2
135
142
129
R1
RANGO
12
8
15
14
9.5
16
7
9.5
13
104
CRNEOS FEMENINOS
131
129
133
127
123
138
129
R2
RANGO
5
3.5
6
2
1
11
3.5
32
n2 = 7
n1 = 9
HIPTESIS
61
H inv :M 1> M 2
H 0 :M 1 M 2
H a :M 1> M 2
REGIN DE RECHAZO DE H 0 :M 1 M 2
= 0.05
= U 0(9.05,7 ) = 16
( n1 , n2 )
( n1 , n2 )
U 1
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA U c EN
POBLACIONES CON
DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS
CLCULO DEL
ESTADSTICO DE PRUEBA t c
1 = 0.95
= U 0(9.95,7 ) = 9 7 16 = 47
U c = R1
U c = 104
n1 (n1 + 1)
2
9(9 + 1)
= 59
2
UBICACIN DE ESTADSTICO DE
PRUEBA U c CON RESPECTO A
REGIN DE RECHAZO DE H 0
, El estadstico de prueba U c = 59 cae en la regin de rechazo que parte de
51
CRNEOS MASCULINOS
55
51
52
55
53
54.5
RANGO
16.5
9.5
11
16.5
12.5
15
CRNEOS FEMENINOS
48.5
42
46.5
49
47
50
47
54
51
RANGO
6
1
2
7
3.5
8
62
53
48
47
54
R1
12.5
5
3.5
14
116
51
R2
9.5
37
n2 = 7
n1 = 10
HIPTESIS
H inv :M 1> M 2
H 0 :M 1 M 2
H a :M 1> M 2
REGIN DE RECHAZO DE H 0 :M 1 M 2
= 0.05
,7 )
= U 0(10
= 18
.05
( n1 , n2 )
( n1 , n2 )
U 1
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA U c EN
POBLACIONES CON
DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS
CLCULO DEL
ESTADSTICO DE PRUEBA t c
1 = 0.95
,7 )
= U 0(10
= 10 7 18 = 52
.95
U c = R1
U c = 116
n1 (n1 + 1)
2
10(10 + 1)
= 61
2
UBICACIN DE ESTADSTICO DE
PRUEBA U c CON RESPECTO A
REGIN DE RECHAZO DE H 0
, El estadstico de prueba U c = 61 cae en la regin de rechazo que parte de
,7 )
U 0(10
= 52 . Por ende, la hiptesis nula H 0 :M 1 M 2 se rechaza y puede inferirse que
.95
la altura de la nariz es significativamente ( p < 0.05) menor en los crneos femeninos.
3.
Los siguientes de datos de anchura biacromial en neonatos (0-24 horas) fueron
obtenidos durante una investigacin (1968-1970) en el Valle de Cholula.
102
122
117
100
111
109
105
105
111
115
110
109
HOMBRES
104
121
105
120
MUJERES
103
110
93
110
100
114
115
112
116
105
105
90
112
105
63
Con una significancia de = 0.05 , es posible inferir que existen diferencias por sexo
en la anchura biacromial de estas poblaciones?
HIPTESIS
H inv : 1 2
H 0 : 1= 2
H a : 1 2
Pero como no sabemos si hay distribucin normal en ambas poblaciones, las hiptesis
tambin podran ser:
H inv :M 1 M 2
H 0 :M 1= M 2
H a :M 1 M 2
Por ende, primero hay que comprobar eso con ayuda de la prueba de Shapiro-Wilks
para saber qu prueba aplicar:
HOMBRES: ESTADSTICOS DE ORDEN.
X (1) = 100
X (2 ) = 100
X (3 ) = 102
X (4 ) = 104
X (5 ) = 105
X (6 ) = 109
X (7 ) = 111
X (8 ) = 112
X (9 ) = 114
X (10 ) = 115
X (11) = 117
X (12 ) = 120
X (13 ) = 121
X (14 ) = 122
DATOS
x = 110.86
s = 7.72
EXPRESIN PARA EL
ESTADSTICO DE
PRUEBA Wc
n = 14
s 2 = 59.60
(par)
h=
1
Wc =
a (X (n j +1) X ( j ) )
2 j , n
(n 1)s j =1
1 7
Wc =
a (X (14 j ) X ( j ) )
2 j , n
(13)s j =1
1
[724.58]
(13)59.60
TIPO DE HIPTESIS H o
EXPRESIN PARA
CONTRASTE DE
HIPTESIS
VALORES FINALES A
CONTRASTAR
Wc =
+ 0.0240(112 111)
Wc =
14
=7
2
724.58
= 0.935
774.80
CONTRASTE DE HIPTESIS
H o : La muestra procede de una poblacin con
distribucin normal.
Wc < Wn
Wc = 0.935
W014.05 = 0.874
64
X (1) = 90
X (2 ) = 93
X (3) = 103
X (4 ) = 105
X (5 ) = 105
X (6 ) = 105
X (7 ) = 105
X (8 ) = 105
X (9 ) = 109
X (10 ) = 110
X (11) = 110
X (12 ) = 110
X (13 ) = 111
X (14 ) = 112
X (15 ) = 115
X (16 ) = 116
DATOS
x = 106.5
s=7
EXPRESIN PARA EL
ESTADSTICO DE
PRUEBA Wc
n = 16
s 2 = 49
(par)
h=
1
(
)
Wc =
a
X
X
j
n
(
n
j
+
)
(
j
)
,
1
(n 1)s 2 j =1
1 8
(
)
Wc =
a
X
X
,
16
(
)
(
)
j
n
j
j
(15)s 2 j =1
1
[646.01]
(15)49
TIPO DE HIPTESIS H o
Wc =
1
Wc =
+ 0.1939(111 105) + 0.1447(110 105) + 0.1005(110 105)
2
(15)s
Wc =
16
=8
2
646.01
= 0.879
735
CONTRASTE DE HIPTESIS
H o : La muestra procede de una poblacin con
distribucin normal.
EXPRESIN PARA
Wc < Wn
CONTRASTE DE
HIPTESIS
VALORES FINALES A
Wc = 0.879
W016.05 = 0.887
CONTRASTAR
, El estadstico de prueba Wc = 0.879 es menor a W016.05 = 0.887 . Por tal motivo, la
hiptesis nula se rechaza y se infiere que, en la poblacin fenemina de la cual
procede esta muestra, la variable anchura biacromial no tiene una distribucin normal.
Como una de las poblaciones no cumple con el requisito de distribucin normal, la
opcin para compararlas es la prueba U de Mann-Whitney.
65
CRNEOS MASCULINOS
CRNEOS FEMENINOS
X (1) = 100
RANGO
3.5
X (1) = 90
RANGO
1
X (2 ) = 100
3.5
X (2 ) = 93
X (3 ) = 102
X (3) = 103
X (4 ) = 104
X (4 ) = 105
10.5
X (5 ) = 105
10.5
X (5 ) = 105
10.5
X (6 ) = 109
14.5
X (6 ) = 105
10.5
X (7 ) = 111
19.5
X (7 ) = 105
10.5
X (8 ) = 112
21.5
X (8 ) = 105
10.5
X (9 ) = 114
23
X (9 ) = 109
14.5
X (10 ) = 115
24.5
X (10 ) = 110
17
X (11) = 117
27
X (11) = 110
17
X (12 ) = 120
28
X (12 ) = 110
17
X (13 ) = 121
29
X (13 ) = 111
19.5
X (14 ) = 122
30
X (14 ) = 112
21.5
R1
246.5
X (15 ) = 115
24.5
X (16 ) = 116
26
R2
218.5
n1 = 14
n 2 = 16
HIPTESIS
H inv :M 1 M 2
H 0 :M 1= M 2
H a :M 1 M 2
REGIN DE RECHAZO DE H 0 :M 1= M 2
= 0.05
,16 )
= U 0(14
.025 = 65
( n1 , n2 )
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA U c EN
POBLACIONES CON
DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS
CLCULO DEL
ESTADSTICO DE PRUEBA t c
( n1 , n2 )
U 1
1 = 0.95
= U 0.975 = 14 16 65 = 159
(14 ,16 )
U c = R1
U c = 246.5
n1 (n1 + 1)
2
14(14 + 1)
= 141.5
2
66
UBICACIN DE ESTADSTICO DE
PRUEBA U c CON RESPECTO A
REGIN DE RECHAZO DE H 0
,16 )
, El estadstico de prueba U c = 141.5 no es menor a U 0(14
.025 = 65 , ni mayor a
,16 )
U 0(14
.975 = 159 . Por ende, est fuera de las regiones de rechazo y la hiptesis nula
H 0 :M 1= M 2 no se rechaza. De esta forma puede inferirse que no existe diferencia
sexual significativa ( p > 0.05) entre la anchura biacromial de neonatos del Valle de
Cholula.
67
1 2 x1 x 2 t1(n+ n 2 ) Sp
La poblacin
tiene distribucin
normal?
PRUEBA
DE
LEVEANE
1
1
+
n1 n2
H0 : = ?
2
1
2
2
tc =
1 2 x1 x 2 t1(n+ n 2 )
1
tc =
x1 x2
1 1
Sp
+
n1 n2
s12 s 22
+
n1 n 2
x1 x 2
s12 s 22
+
n1 n2
1 2 x1 x 2 Z 1
Ambas muestras
son mayores
a 20?
Zc =
x1 x 2
s12 s 22
+
n1 n2
PRUEBA NO PARAMTRICA
U de Mann-Whitney
68
s12 s 22
+
n1 n2
x y d t1(n1)
Sd
INTERPRETACIN
Valores positivos
Valores negativos y positivos
(que incluyen al cero)
x > y
x < y
x = y
HIPTESIS NULA
HIPTESIS
ALTERNATIVA
H inv : x y
H 0 : x = y
H inv : x < y
H 0 : x y
H a : x < y
H inv : x > y
H 0 : x y
H a : x > y
H a : x y
Debe observarse que el tamao n de ambas muestras tiene que ser igual.
69
HIPTESIS
H inv : 1 2
PRUEBA
BILATERAL O
DE DOS
COLAS
REGIN DE
RECHAZO DE
H0
H 0 : 1= 2
1-
/2
/2
t1(n1)
t1(n1)
H inv : 1< 2
REGIN DE
RECHAZO DE
H 0 : 1 2
H a : 1< 2
1-
H0
PRUEBA
UNILATERAL
O DE UNA
COLA
H a : 1 2
t1(n1)
H inv : 1> 2
H 0 : 1 2
REGIN DE
RECHAZO DE
H0
H a : 1> 2
1-
t1(n1)
Como en otras poblaciones con distribucin normal, el valor en donde inicia la
regin de rechazo se obtiene en las tablas para la distribucin t mediante las
expresiones t1(n1) o t1(n1) , de acuerdo al tipo de prueba, la significancia y seccin
2
[(d1 = x1 y1 ), (d 2 = x2 y 2 ), (d 3 = x3 y3 ),..., (d n = xn y n )]
d
EXPRESIN DEL ESTADSTICO DE PRUEBA t c PARA LA
tc =
Sd
DIFERENCIA DE MUESTRAS PAREADAS DE UNA
POBLACIN CON DISTRIBUCIN NORMAL.
n
que tiene una distribucin t de student con n 1 grados de libertad.
70
1648
1597
1614
1640
1614
1680
1591
1644
H inv : x < y
H 0 : x y
DERECHO X i
IZQUIERDO Yi
X 1 = 1648
X 2 = 1614
X 3 = 1657
Y1 = 1614
Y2 = 1646
Y3 = 1719
X 4 = 1616
X 5 = 1618
Y4 = 1655
Y5 = 1657
X 6 = 1616
Y6 = 1704
X 7 = 1597
Y7 = 1659
X 8 = 1591
Y8 = 1644
X 9 = 1597
Y9 = 1680
X 10 = 1640
Y10 = 1655
X 11 = 1595
X 12 = 1580
X 13 = 1603
Y11 = 1635
Y12 = 1621
Y13 = 1599
X 14 = 1646
X 15 = 1700
Y14 = 1593
Y15 = 1657
DATOS
d = 30
H a : x < y
DIFERENCIA d i = X i Yi
d1 = (1648 1614 ) = 34
d 2 = (1614 1646) = 62
d 3 = (1657 1719) = 62
d 4 = (1616 1655) = 39
d 5 = (1618 1657 ) = 39
d 6 = (1616 1704 ) = 88
d 7 = (1597 1659) = 62
d 8 = (1591 1644 ) = 53
d 9 = (1597 1680) = 83
Sd = 44.60
n = 15
71
REGIN DE RECHAZO DE H 0 : x y
)
t1(n1) = t1(150.051) = t 0(14
.95 = 1.7613
= 0.05
tc =
EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
tc =
CLCULO DEL
ESTADSTICO DE PRUEBA t c
d
Sd
n
30
= 2.61
44.60
15
UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
a) , Como el estadstico de prueba t c = 2.61 cae en la regin de rechazo que inicia
)
en t 0(14
.95 = 1.7613 , la hiptesis nula H 0 : x y se rechaza y puede inferirse que la
CONFIABILIDAD
1 = 0.95
= 0.025
2
= 0.05
EXPRESIN
PARA INTERVALO
( n 1)
VALOR DE t1
APLICACIN
x y d t1(n1)
x y 30 2.1448
= 0.975
Sd
44.60
= ( 54.70,5.30)
15
x < y
Valores negativos
INTERPRETACIN
b) , Con un 95% de confianza es posible inferir que la media de la estatura estimada
a partir del fmur izquierdo es mayor que la media de la estatura estimada con el
derecho.
2.
Los siguientes datos corresponden tambin a la estatura estimada a partir de la
longitud del fmur izquierdo y derecho, pero es de restos seos femeninos de la
Cueva de La Candelaria.
72
1538
1573
1565
1573
1510
1559
H inv : x y
H 0 : x = y
DERECHO X i
IZQUIERDO Yi
X 1 = 1538
X 2 = 1569
X 3 = 1557
Y1 = 1565
Y2 = 1553
Y3 = 1559
X 4 = 1504
X 5 = 1580
Y4 = 1540
Y5 = 1534
X 6 = 1510
Y6 = 1559
X 7 = 1573
Y7 = 1573
X 8 = 1617
Y8 = 1586
X 9 = 1510
Y9 = 1559
X 10 = 1563
Y10 = 1516
X 11 = 1549
Y11 = 1506
d = 1.82
DATOS
H a : x y
DIFERENCIA d i = X i Yi
d1 = (1538 1565) = 27
d 2 = (1569 1553) = 16
d 3 = (1557 1559) = 2
d 4 = (1504 1540 ) = 36
d 5 = (1580 1534 ) = 46
d 6 = (1510 1559) = 49
d 7 = (1573 1573) = 0
d 8 = (1617 1586) = 31
d 9 = (1510 1559) = 49
d10 = (1563 1516) = 47
Sd = 37.66
n = 11
REGIN DE RECHAZO DE H 0 : x = y
= 0.05
1)
)
t1(n1) = t1(110.025
= t 0(10
.975 = 2.2281
2
tc =
EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
CLCULO DEL
ESTADSTICO DE PRUEBA t c
tc =
d
Sd
n
1.82
= 0.16
37.66
11
73
UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
a) , Como el estadstico de prueba t c = 0.16 est fuera de las dos regiones de
rechazo, la hiptesis nula H 0 : x = y no se rechaza y puede inferirse que, sin
importar qu fmur se ocupe (a diferencia de los hombres), la estatura estimada es
significativamente ( p > 0.05) igual en las mujeres.
CONFIABILIDAD
1 = 0.95
= 0.025
2
= 0.05
EXPRESIN
PARA INTERVALO
VALOR DE t1(n1)
2
APLICACIN
x y d t1(n1)
= 0.975
Sd
3766
= ( 23.48,27.12)
11
Xi
Yi
X1
X2
Y1
Y2
d i = ( X i Yi )
d1 = ( X 1 X 1 )
d 2 = (X 2 X 2 )
d i signo
74
(...)
Y3
(...)
d3 = (X 3 X 3 )
Xn
Yn
d n = (X n X n )
X3
(...)
Como en la prueba normal de Wilcoxon, son esas diferencias en valor absoluto a las
que se asigna un rango:
di
d i ordenados
ascendentemente
Valor
de
rango
Lugar
Rangos de d i
Rangos de d i
que provienen de
d i positivo
que provienen de
d i negativo
Dependiendo si el d i del que provienen era positivo o negativo, los rangos de cada
T+
DATOS
Suma de los valores de los rangos de d i que provienen de d i positivo
Ahora bien, De acuerdo al tipo de hiptesis nula H o es que se utilizar una de estas
H 0 : x = y
n
T DE TABLAS
CORRESPONDIENTE PARA
ESTADSTICO DE PRUEBA
H 0 : x y
H 0 : x y
Tn
Tn
o 2 es el valor de la significancia
H o SE RECHAZA SI:
H 0 : x = y
T Tn
H 0 : x y
T T
H 0 : x y
T + Tn
75
obtuvo por medicin. Suponiendo que esta poblacin no tiene distribucin normal y
con una significancia de = 0.05 , es posible afirmar que existen diferencias entre la
estatura reportada y la medida?
HIPTESIS
H inv : x y
H 0 : x = y
Reportadas X i
Medidas Yi
X 1 = 68
X 2 = 71
X 3 = 63
Y1 = 67.9
Y2 = 69.9
Y3 = 64.9
X 4 = 70
X 5 = 71
Y4 = 68.3
Y5 = 70.3
X 6 = 60
Y6 = 60.6
X 7 = 65
Y7 = 64.5
X 8 = 64
Y8 = 67
X 9 = 54
Y9 = 55.6
X 10 = 63
Y10 = 74.2
X 11 = 66
X 12 = 72
Y11 = 65
Y12 = 70.8
di
d i ordenados
ascendentemente
0.1+
1.1+
1.91.7+
0.7+
0.60.5+
3.01.611.21+
1.2+
0.1+
0.5+
0.60.7+
1+
1.1+
1.2+
1.61.7+
1.93.011.2-
d i = ( X i Yi )
Lugar
Valor
de
rango
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
DATOS
T = 34
H a : x y
T = 44
d i signo
0.1+
1.1+
1.91.7+
0.7+
0.60.5+
3.01.611.21+
1.2+
Rangos de d i
Rangos de d i
que provienen de
d i positivo
que provienen de
d i negativo
1
2
3
4
5
6
7
8
9
10
11
12
T {34,44} = 34
n = 12
CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS
Ho
H 0 : x = y
76
T DE TABLAS
CORRESPONDIENTE
PARA ESTADSTICO
DE PRUEBA
EXPRESIN PARA
CONTRASTE DE
HIPTESIS
VALORES FINALES
A CONTRASTAR
Tn
T Tn
Tn = T012.025 = 14
T = 34
X 31
X 11
X 21
X k1
DATO
X 12
X 22
X 32
X k2
Xj
X 13
X 23
X 33
X k3
X 1k
X 2k
X 3k
X knk
Ti
T1 = X 1 j
T2 = X 2 j
T3 = X 3 j
Tk = X kj
TAMAO
MUESTRA
n1
n2
n3
TOTALES
i =1
i =1
i =1
i =1
n nk
n = n1 + n2 + n3 + ... + nk
77
Como podemos ver, n es aqu igual al nmero total de elementos de todas las
muestras y cada total Ti es igual a la suma de los datos de cada muestra.
Si bien obtener estos datos es relativamente sencillo, faltan an dos datos que se
necesitarn para el estadstico de prueba:
ij
2
ij
DATOS GENERALES
Valor que es igual al de la suma de los totales de cada muestra
Ti y que puede obtenerse ingresando en el modo estadstico
( )
x.
HIPTESIS NULA
HIPTESIS ALTERNATIVA
H 0 : 1 = 2 = 3 = ... = k
Fuente de
variabilidad
Entre
muestras
Dentro de
muestras
Total
(k 1)
T 2 ( X ij )
SCt = i
n
i =1 ni
CM e =
(k 1)
(n k )
SC d = SC t SC e
CM d =
(n k )
(n 1)
SCt = X ij
( X )
Estadstico
de prueba
SC e
SCd
Fc =
CM e
CM d
ij
Ti 2
i =1 ni
k
Ti 2 ( X ij )
SCt =
n
i =1 ni
k
78
( x )2
.
total:
n
Si bien esta dato puede obtenerse en la calculadora
x 2 el valor de
x , elevado al
restando al valor de
SCt = X ij
( X )
ij
(
x)
2
,
cuadrado y dividido entre la n total: x
n
SCe
CM e =
(k 1)
Fc =
CM e
CM d
Este estadstico de prueba tiene una distribucin F de Fisher, por lo cual el valor
de inicio de la regin de rechazo para la hiptesis nula se encuentra mediante la
expresin F1(k1,n k ) , donde los grados de libertad son (k 1) en el numerador y
(n k ) en el denominador.
F1(k1,n k )
Porque s =
2
SC
79
HIPTESIS ALTERNATIVA
H 0 : i = j
H a : i j
HIPTESIS ALTERNATIVA
H 0 : 1 = 3
H 0 : 1 3
H 0 : 1 = k
H 0 : 1 k
H 0 : 1 = 2
H a : 1 2
DVS c = q ,k ,n k
CM d
n*
})
Si el valor del DVS c es mayor a la diferencia absoluta de las medias de las dos
muestras comparadas, la hiptesis nula se rechaza. Es decir:
H 0 : i = j
Se rechaza si
X i X j > DVS c
H 0 : i = j
HIPTESIS
H 0 : i = j
Xi X j
n*
(n* = mnimo{n , n })
i
Xi X j
DVS c
q , k , n k
CM d
= DVS c
n*
se rechaza si
X i X j > DVS c
</>
80
3) EJEMPLOS DE APLICACIN
1.
Los siguientes datos corresponden, en una escala del 0 al 10, a la
autopercepcin de discriminacin en 3 grupos de personas de edad mayor.
Suponiendo distribucin normal en todas las poblaciones y con una significancia de
= 0.05 , es posible afirmar que la percepcin de discriminacin es diferente segn
el grupo de edad?
7
5
10
60-64 AOS
5
1
70-74 AOS
5
80-84 AOS
6
10
HIPTESIS NULA
2
4
10
8
5
7
HIPTESIS ALTERNATIVA
H 0 : 1 = 2 = 3
k =3
DATO
Xj
TOTALES
Ti
TAMAO
MUESTRA
1. 60-64 AOS
7
2
1
8
5
5
1
8
5
3
5
2. 70-74 AOS
9
9
5
5
2
10
7
3. 80-84 AOS
6
6
10
5
6
10
4
8
1
8
T1 = 50
T2 = 47
T3 = 64
n1 = 11
n2 = 7
n3 = 10
n = 11 + 7 + 10 = 28
DATOS GENERALES
ij
= 161
2
ij
= 1135
s = 2.78
81
Fuente de
variabilida
d
50 2 47 2 64 2
+
+
11
7
10
2
161
= 26.69
28
SC e =
(3 1) = 2
Entre
muestras
Dentro de
muestras
(27 2) = 25
Total
(28 1) = 27
26.69
2
CM e =
= 13.35
SC d = 208.67 26.69
CM d =
= 181.98
= 7.28
Estadstico
de prueba
13.35
7.28
= 1.83
Fc =
181.98
25
SC t = (28 1)2.78 2
= 208.67
REGIN DE RECHAZO DE H 0 : 1 = 2 = 3
= 0.05
)
( 2 , 25 )
F1( 20,.25
= 3.39
05 = F0.95
131
129
128
4000 a.C.
138
125
129
132
135
1850 a.C.
134
136
137
137
129
136
138
150 d.C.
138
136
139
141
142
145
HIPTESIS NULA
H 0 : 1 = 2 = 3
132
134
137
HIPTESIS ALTERNATIVA
H a : Al menos una i es diferente
MUESTRA X i
k =3
DATO
1. 4000 a.C.
131
2. 1850 a.C.
129
3. 150 d.C.
128
82
Xj
TOTALES
Ti
TAMAO
MUESTRA
X
Fuente de
variabilida
d
Entre
muestras
Dentro de
muestras
Total
138
125
129
132
135
132
134
136
137
137
129
136
138
134
138
136
139
141
142
145
137
T1 = 922
T2 = 1210
T3 = 1106
n1 = 7
n2 = 9
n3 = 8
n = 7 + 9 + 8 = 24
DATOS GENERALES
ij
= 3238
2
ij
= 437396
s = 4.83
Estadstico
de prueba
= 162.68
81.34
24
Fc =
17.80
373.88 = 4.57
CM d =
536
.
56
162
.
68
SC
=
(23 2) = 21
d
25
= 373.88
= 17.80
(24 1) = 23
SC t = (24 1)4.83 2
= 536.56
REGIN DE RECHAZO DE H 0 : 1 = 2 = 3
= 0.05
)
( 2 , 21)
F1(20,.25
= 3.47
05 = F0.95
83
Por tal motivo, para distinguir qu medias son diferentes es necesario aplicar la prueba
de Tukey. Establezcamos primero los datos que obtuvimos de las muestras:
TOTAL
Ti
TAMAO DE
MUESTRA
1. 4000 a.C.
T1 = 922
n1 = 7
2. 1850 a.C.
T2 = 1210
n2 = 9
3. 150 d.C.
T3 = 1106
n3 = 8
MUESTRA
k =3
MEDIA MUESTRAL
X 1 = 922 = 131.71
7
X 2 = 1210 = 134.44
9
X 3 = 1106 = 138.25
8
n = 24
= 0.05 = 5%
k =3
(n k ) = (24 3) = 21
q ,k ,n k = q 0.05,3, 21 = 3.58
H 0 : i = j
HIPTESIS
n*
Xi X j
DVS c
17.80
= 5.71
7
17.80
3.58
= 5.71
7
17.80
3.58
= 5.34
8
H 0 : 1 = 2
n* = {7,9} = 7
H 0 : 1 = 3
n* = {7,8} = 7
H 0 : 2 = 3
n* = {9,8} = 8
3.58
se rechaza si
X i X j > DVS c
2.73 < 5.71
6.54 > 5.71
3.81 < 5.34
rechaza, por lo cual existe una diferencia significativa ( p < 0.05) entre las medias de la primera
y la tercera poblacin. Ello indica que no pueden percibirse cambios entre poblaciones
continuas, pero s entre la poblacin ms antigua y la ms reciente.
B. POBLACIONES SIN DISTRIBUCIN NORMAL
1) PRUEBA DE KRUSKAL-WALLIS
Cuando el supuesto de normalidad no se cumple en al menos una de las poblaciones,
sta es la alternativa a la prueba ANOVA.
a) Hiptesis nula, estadstico de prueba y regin de rechazo
Igual que en la prueba ANOVA, las hiptesis a contrastar son:
HIPTESIS NULA
H 0 : 1 = 2 = 3 = ... = k
HIPTESIS ALTERNATIVA
H a : Al menos una i es diferente
84
Rk2
12 R12 R22 R32
3(n + 1)
Hc =
+
+
+ ... +
n(n + 1) n1 n 2 n3
n k
12(k 1)
Dado el caso que la hiptesis nula se rechace en esta prueba y haya que distinguir
qu medias difieren, la prueba para comparar medias poblacionales por parejas es la
U de Mann-Whitney.
2) PRUEBA U DE MANN-WHITNEY
Si bien la prueba U de Mann-Whitney se aplica exactamente igual a como lo vimos en
el tema de Comparacin de 2 medias poblacionales, lo nico que es importante
mencionar es que las hiptesis son sobre medias y que los rangos deben asignarse
cada vez para que se compare una pareja de muestras. Veremos de cualquier forma
un ejemplo.
3) EJEMPLOS DE APLICACIN
1.
Los siguientes datos corresponden al grado de las heridas en la cabeza que se
registraron en 4 categoras de automviles:
Sub-compacto
Compacto
Mediano
Grande
681
643
469
384
428
655
727
656
917
442
525
514
454
602
898
525
259
687
Suponiendo que las poblaciones no tienen distribucin normal; con una significancia
= 0.05 es posible inferir diferencias en el grado de las heridas respecto al tipo de
automvil?
85
HIPTESIS NULA
HIPTESIS ALTERNATIVA
H a : Al menos una i es diferente
H 0 : 1 = 2 = 3 = 4
Saquemos entonces los datos necesarios:
Subcom.
681
428
917
898
Rango
14
3
18
17
Compacto
643
655
442
514
525
R1
n1
52
R2
n2
Rango
11
12
4
7
8.5
42.5
5
k=4
EXPRESIN PARA
CALCULAR EL
ESTADSTICO DE
PRUEBA H c EN
POBLACIONES SIN
DISTRIBUCIN
NORMAL
APLICACIN
Hc =
Mediano
469
727
525
454
259
R3
n3
Rango
6
16
8.5
5
1
36.5
Grande
384
656
602
687
Rango
2
13
10
15
40
R4
n4
5
n = 4 + 5 + 5 + 4 = 18
Rk2
12 R12 R22 R32
3(n + 1)
...
+
+
+
+
n(n + 1) n1 n 2 n3
n k
52 2 42.5 2 36.5 2 40 2
12
3(18 + 1) = 2.78
+
+
+
Hc =
18(18 + 1) 4
5
5
4
REGIN DE RECHAZO DE H 0 : 1 = 2 = 3 = 4
= 0.05
2.
En un grupo de hombres con lesiones cerebrales se hizo un estudio de
sntomas de fatiga, evaluando sus niveles con la escala de Zung (un instrumento para
medir depresin). Teniendo tres muestras: una muestra de hombres con fatiga, otra
sin fatiga y una de control (todos de la misma edad), se registraron los siguientes
resultados:
46
51
54
86
39
44
36
46
33
Suponiendo que las poblaciones no tienen distribucin normal; con una significancia
= 0.05 es posible afirmar que esta poblaciones muestran diferencias de acuerdo a
la escala de Zung?
HIPTESIS NULA
HIPTESIS ALTERNATIVA
H a : Al menos una i es diferente
H 0 : 1 = 2 = 3
LC c/fatiga
46
61
51
36
51
45
54
51
69
54
51
38
64
R1
n1
Rango
16.5
26
20.5
7.5
20.5
15
23.5
20.5
29
23.5
20.5
9
27
259
13
LC s/fatiga
39
44
58
29
40
48
65
41
46
Rango
10
14
25
2.5
11
18
28
12.5
16.5
Control
36
34
41
29
31
26
33
Rango
7.5
6
12.5
2.5
4
1
5
R2
n2
137.5
9
R3
n3
38.5
7
k =3
n = 13 + 9 + 7 = 29
EXPRESIN PARA
CALCULAR EL
ESTADSTICO DE
PRUEBA H c EN
POBLACIONES SIN
DISTRIBUCIN
NORMAL
Rk2
12 R12 R22 R32
3(n + 1)
Hc =
+
+
+ ... +
n(n + 1) n1 n 2 n3
n k
Hc =
APLICACIN
+
+
29(29 + 1) 13
9
7
3(29 + 1) = 13.07
REGIN DE RECHAZO DE H 0 : 1 = 2 = 3
= 0.05
87
inferirse que existen diferencias significativas ( p < 0.05) en los resultados de los
grupos de acuerdo a la escala de Zung.
H 0 : 1= 2
LC C/FATIGA
36
38
45
46
51
51
51
51
54
54
61
64
69
RANGO
2
3
8
9.5
13.5
13.5
13.5
13.5
16.5
16.5
19
20
22
170.5
13
R1
n1
H a : 1 2
LC S/FATIGA
29
39
40
41
44
46
48
58
65
R2
n2
RANGO
1
4
5
6
7
9.5
11
18
21
82.5
9
REGIN DE RECHAZO DE H 0 : 1= 2
= 0.05
,9 )
= U 0(13
.05 = 34
( n1 , n2 )
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA U c EN
POBLACIONES CON
DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS
CLCULO DEL
ESTADSTICO DE PRUEBA t c
( n1 , n2 )
U 1
1 = 0.95
,9 )
= U 0(13
.95 = 13 9 34 = 83
U c = R1
U c = 170.5
n1 (n1 + 1)
2
13(13 + 1)
= 79.5
2
88
UBICACIN DE ESTADSTICO DE
PRUEBA U c CON RESPECTO A
REGIN DE RECHAZO DE H 0
, El estadstico de prueba U c = 79.5 est fuera de la regin de rechazo. Por ende, la
hiptesis nula H 0 : 1= 2 no se rechaza y puede inferirse que no existen diferencias
significativas ( p > 0.05) entre las dos poblaciones con lesiones cerebrales.
HIPTESIS
H 0 : 1= 3
LC C/FATIGA
36
38
45
46
51
51
51
51
54
54
61
64
69
H a : 1 3
RANGO
6.5
8
10
11
13.5
13.5
13.5
13.5
16.5
16.5
18
19
20
179.5
13
R1
n1
CONTROL
26
29
31
33
34
36
41
R2
n2
RANGO
1
2
3
4
5
6.5
9
30.5
7
REGIN DE RECHAZO DE H 0 : 1= 3
= 0.05
,7 )
= U 0(13
.05 = 25
( n1 , n2 )
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA U c EN
POBLACIONES CON
DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS
CLCULO DEL
ESTADSTICO DE PRUEBA t c
( n1 , n2 )
U 1
1 = 0.95
,7 )
= U 0(13
.95 = 13 7 25 = 66
U c = R1
U c = 179.5
n1 (n1 + 1)
2
13(13 + 1)
= 88.5
2
89
UBICACIN DE ESTADSTICO DE
PRUEBA U c CON RESPECTO A
REGIN DE RECHAZO DE H 0
, El estadstico de prueba U c = 88.5 cae en la regin de rechazo. Por ende, la
hiptesis nula H 0 : 1= 3 se rechaza y puede inferirse que, segn la escala de Zung,
existen diferencias significativas ( p < 0.05) entre los hombres con lesin cerebral que
sufren fatiga y la muestra control.
HIPTESIS
H 0 : 2 = 3
LC S/FATIGA
29
39
40
41
44
44
58
65
68
RANGO
2.5
8
9
10.5
12.5
12.5
14
15
16
R1
n1
100
9
H a : 2 3
CONTROL
26
29
31
33
34
36
41
R2
n2
RANGO
1
2.5
4
5
6
7
10.5
36
7
REGIN DE RECHAZO DE H 0 : 2 = 3
= 0.05
= U 0(9.05,7 ) = 16
( n1 , n2 )
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA U c EN
POBLACIONES CON
DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS
CLCULO DEL
ESTADSTICO DE PRUEBA t c
( n1 , n2 )
U 1
1 = 0.95
= U 0(9.95,7 ) = 9 7 16 = 47
U c = R1
U c = 100
n1 (n1 + 1)
2
9(9 + 1)
= 55
2
90
UBICACIN DE ESTADSTICO DE
PRUEBA U c CON RESPECTO A
REGIN DE RECHAZO DE H 0
, El estadstico de prueba U c = 55 cae en la regin de rechazo. Por ende, la
hiptesis nula H 0 : 2 = 3 se rechaza y tambin puede inferirse que, segn la escala
de Zung, existen diferencias significativas ( p < 0.05) entre los hombres con lesin
cerebral que no tienen fatiga y la muestra control.
M1
N1
y p2 =
M2
N2
2. n1 p 1 = m1 > 5
4. n 2 > 20
5. n 2 p 2 = m2 > 5
3. n1 (1 p 1 ) = n1 m1 > 5
6. n 2 (1 p 2 ) = n 2 m2 > 5
p1 p 2 p 1 p 2 Z 1
2
p (1 p ) p (1 p )
+
n1
n2
91
TIENE DISTRIBUCIN
APROXIMADAMENTE
NORMAL ESTNDAR
p=
DONDE
n1 p1 + n 2 p 2 m1 + m2
=
n1 + n 2
n1 + n 2
INTERPRETACIN
p1 < p 2
p1 > p 2
Valores positivos
Valores negativos y positivos
(que incluyen al cero)
p1 = p 2
HIPTESIS NULA
HIPTESIS
ALTERNATIVA
H inv : p1 p 2
H 0 : p1 = p 2
H a : p1 p 2
H inv : p1 < p 2
H 0 : p1 p 2
H a : p1 < p 2
H inv : p1 > p 2
H 0 : p1 p 2
H a : p1 > p 2
H inv : p1 p 2
PRUEBA
BILATERAL O
DE DOS
COLAS
PRUEBA
REGIN DE
RECHAZO DE
H 0 : p1 = p 2
H a : p1 p 2
1-
/2
H0
Z1
H inv : p1 < p 2
/2
Z1
H 0 : p1 p 2
H a : p1 < p 2
92
UNILATERAL
O DE UNA
COLA
REGIN DE
RECHAZO DE
1-
H0
Z1
H inv : p1 > p 2
REGIN DE
RECHAZO DE
H0
H 0 : p1 p 2
H a : p1 > p 2
1-
Z1
Por tanto, no hace falta repetir cmo hallar el valor de inicio de la regin de
rechazo con base en las tablas de la distribucin normal estndar.
b) Procedimiento para el contraste de hiptesis
1. Comprobar los supuestos de la muestra para verificar la factibilidad de la
prueba.
2. Si tales condiciones se cumplen, explicitar la hiptesis del investigador H inv , la
hiptesis nula H 0 y la hiptesis alternativa H a .
3. Calcular el estadstico de prueba que compara el estimador con el valor
hipottico y su variabilidad:
EXPRESIN PARA CALCULAR EL
p 1 p 2
Zc =
ESTADSTICO DE PRUEBA Z c EN
p (1 p ) p (1 p )
+
POBLACIONES CON DISTRIBUCIN
n1
n2
APROXIMADAMENTE NORMAL
ESTNDAR
que tiene una distribucin aproximadamente normal estndar.
4. Determinar el nivel de significancia de la prueba, as como la ubicacin y el
valor de la regin de rechazo de la hiptesis nula H 0 .
5. Ubicar el estadstico de prueba con respecto a la regin de rechazo de la
hiptesis nula H 0 ; si est dentro de ella, rechazar la hiptesis nula H 0 . Si est
fuera, concluir con qu significancia o confiabilidad no se rechaza.
B. COMPARACIN DE DOS O MS PROPORCIONES POBLACIONALES:
ASOCIACIN DE VARIABLES CUALITATIVAS
Una forma de comparar dos o ms proporciones poblacionales es la prueba jicuadrada 2 ; basada en los resultados de tablas de contingencia (tambin llamadas
tablas de dos entradas).
93
VARIABLE CUALITATIVA ( j )
(Nmero de elementos)
C
S
(con la caracterstica)
(sin la caracterstica)
1
VARIABLE
CUALITATIVA
(i )
2
3
(i )
k
MARGINALES
MARGINALES
O11 = m1
O21 = m2
O31 = m3
O12 = n1 m1
O22 = n2 m2
O32 = n3 m3
n1
n2
n3
Oi1 = mi
Oi 2 = ni mi
ni
Ok 1 = m k
Ok 2 = n k m k
nk
n = n1 + n2 + n3 + ... + nK
n=C+S
n
Oij = C / S i
n
C/S
Oij = ni
n
Lo cual, por ejemplo, implicara lo siguiente:
DATOS ESPERADOS eij
VARIABLE CUALITATIVA ( j )
(Nmero de elementos)
C
S
(con la caracterstica)
(sin la caracterstica)
1
2
VARIABLE
CUALITATIVA
(i )
(i )
k
MARGINALES
C
e11 = n1
n
C
e21 = n2
n
C
e31 = n3
n
C
ei1 = ni
n
C
ekj = n K
n
S
e12 = n1
n
S
e22 = n2
n
S
e32 = n3
n
S
ei 2 = n i
n
S
ekj = nk
n
MARGINALES
n1
n2
n3
ni
nk
n = n1 + n2 + n3 + ... + nK
n=C+S
94
Y no est de ms volver a comprobar que la suma del contenido sea igual a los
marginales. Una vez construida la tabla de contingencia de datos esperados se
estipulan las hiptesis a contrastar y se calcula el estadstico de prueba:
HIPTESIS NULA
HIPTESIS ALTERNATIVA
H a : Existe asociacin
entre las variables.
H 0 : No hay asociacin
entre las variables.
EXPRESIN PARA CALCULAR EL
ESTADSTICO DE PRUEBA c2
=
2
c
(O
ij
eij )
eij
i =1 j =1
El cual simplemente consiste en sumar los resultados obtenidos de restar a cada valor
observado su respectivo valor esperado, elevarlo al cuadrado y dividirlo entre el valor
esperado.
Obviamente, tal estadstico de prueba tiene una distribucin ji cuadrada con un
nmero de grados de libertad igual al producto de los renglones de la tabla menos uno
por las columnas de la tabla menos uno: 12[(r 1)(c 1)] , que con una significancia de
1-
Vc =
c2
n(mnimo{r 1, c 1})
95
Vc 0
Vc 1
C. EJEMPLOS DE APLICACIN
1.
Se desea establecer si existen diferencias en la proporcin de agujeros
auditivos con forma elptica inclinada que presentan los restos seos masculinos y
femeninos de la Cueva de la Candelaria. Segn los datos del profesor Romano, 37 de
45 hombres presentaron esta caracterstica y 30 de 36 mujeres tambin. Con una
significancia de = 0.01 contrastar la hiptesis planteada y construir un intervalo de
confianza al 99% para la diferencia de proporciones.
DATOS GENERALES
n1 = 45
m1 = 37
p 1 = 37 = 0.82
45
1 p 1 = 1 0.82 = 0.18
n 2 = 36
m2 = 30
p 2 = 30 = 0.83
36
1 p 1 = 1 0.83 = 0.17
p=
m1 + m2 37 + 30
= 0.83
=
45 + 36
n1 + n2
1 p = 1 0.83 = 0.17
2. n1 p 1 = m1 > 5
45 > 20
4. n 2 > 20
36 > 20
37 > 5
5. n 2 p 2 = m2 > 5
30 > 5
3. n1 (1 p 1 ) = n1 m1 > 5
45 37 = 8 > 5
6. n 2 (1 p 2 ) = n 2 m2 > 5
36 30 = 6 > 5
H inv : p1 p 2
H 0 : p1 = p 2
H a : p1 p 2
APLICACIN
Zc =
Zc =
p 1 p 2
p (1 p ) p (1 p )
+
n1
n2
0.82 0.83
= 0.12
0.83(0.17 ) 0.83(0.17 )
+
45
36
96
REGIN DE RECHAZO DE H 0 : p1 = p 2
= 0.005
2
= 0.01
1 = 0.995
2
Z 1 = Z 0.995 = 2.575
2
UBICACIN DE ESTADSTICO DE
PRUEBA c2 CON RESPECTO A
REGIN DE RECHAZO DE H 0
CONFIABILIDAD Y SIGNIFICANCIA
1 = 0.99
EXPRESIN
PARA INTERVALO
VALOR DE Z 1
APLICACIN
= 0.01
2 = 0.005
1 2 = 0.995
p (1 p ) p (1 p )
+
p1 p 2 p 1 p 2 Z 1
2
n1
n2
Z 1 = Z 0.995 = 2.575
2
0.83(0.17 ) 0.83(0.17 )
= ( 0.23,0.21)
p1 p 2 0.82 0.83 2.575
+
45
36
97
O11 = 37
O21 = 30
POBLACIN
(i )
MARGINALES
C = 37 + 30 = 67
MARGINALES
O12 = 45 37 = 8
O22 = 36 30 = 6
S = 8 + 6 = 14
45
36
67 + 14 = 81 = 45 + 36
14
e12 = 45 = 7.78
81
45
67
e11 = 45 = 37.22
81
67
e21 = 36 = 29.78
81
14
e22 = 36 = 6.22
81
36
67 = 37.22 + 29.78
14 = 7.78 + 6.22
POBLACIN
(i )
MARGINALES
MARGINALES
= 37.22 + 7.78
= 29.78 + 6.22
81
HIPTESIS ALTERNATIVA
H a : Existe asociacin
entre las variables.
(37 37.22)
=
2
c
37.22
=
2
c
(O
ij
i =1 j =1
eij )
eij
APLICACIN
2
2
2
(
(
(
8 7.78)
30 29.78)
6 6.22)
+
+
+
7.78
29.78
6.22
= 0.02
98
= 0.01
1 = 0.99
UBICACIN DE ESTADSTICO DE
PRUEBA c2 CON RESPECTO A
REGIN DE RECHAZO DE H 0
Por ltimo, mediante el coeficiente de Cramer comprobamos que esta afirmacin sea
significativa:
EXPRESIN PARA CALCULAR EL
COEFICIENTE DE CRAMER Vc
Vc =
c2
n(mnimo{r 1, c 1})
Vc =
APLICACIN
0.02
= 0.02
81(1)
Vc 0
INTERPRETACIN
n1 = 93
m1 = 50
p 1 = 50 = 0.54
93
1 p 1 = 1 0.54 = 0.46
n 2 = 207
m2 = 63
p 2 = 63
= 0.30
207
1 p 1 = 1 0.30 = 0.70
p=
m1 + m2
50 + 63
= 0.38
=
93 + 207
n1 + n 2
1 p = 1 0.38 = 0.62
99
1. n1 > 20
2. n1 p 1 = m1 > 5
93 > 20
4. n 2 > 20
207 > 20
50 > 5
5. n 2 p 2 = m2 > 5
63 > 5
3. n1 (1 p 1 ) = n1 m1 > 5
43 > 5
6. n 2 (1 p 2 ) = n 2 m2 > 5
144 > 5
HIPTESIS
H inv : p1 p 2
H 0 : p1 = p 2
Zc =
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA Z c
APLICACIN
Zc =
H a : p1 p 2
p 1 p 2
p (1 p ) p (1 p )
+
n1
n2
0.54 0.30
= 3.96
0.38(0.62 ) 0.38(0.62 )
+
93
207
REGIN DE RECHAZO DE H 0 : p1 = p 2
= 0.01
= 0.005
2
1 = 0.995
2
Z 1 = Z 0.995 = 2.575
2
UBICACIN DE ESTADSTICO DE
PRUEBA c2 CON RESPECTO A
REGIN DE RECHAZO DE H 0
( p < 0.01) entre las proporciones de alcohlicos que cometieron delitos relacionados
1 = 0.99
= 0.01
2 = 0.005
1 2 = 0.995
100
p (1 p ) p (1 p )
+
p1 p 2 p 1 p 2 Z 1
2
n1
n2
Z 1 = Z 0.995 = 2.575
EXPRESIN PARA
INTERVALO
VALOR DE Z 1
0.38(0.62 ) 0.38(0.62 )
= (0.08,0.40 )
+
p1 p 2 0.54 0.30 2.575
93
207
p1 > p 2
Valores positivos
INTERPRETACIN
, Como el intervalo para la diferencia de proporciones slo contiene valores
positivos, es posible afirmar con un 99% de confiabilidad que la proporcin de
alcohlicos que cometi delitos relacionados con la piromana es mayor que la
proporcin de alcohlicos que cometi fraude.
DELITO ( j )
(Nmero de elementos)
PIROMANA
FRAUDE
ESTADO
(i )
O11 = 50
O21 = 43
Alcohlico
Abstemio
C = 50 + 43 = 93
MARGINALES
MARGINALES
O12 = 63
O22 = 144
S = 63 + 144 = 207
113
187
93 + 207 = 300 = 113 + 187
DELITO ( j )
(Nmero de elementos)
PIROMANA
FRAUDE
93
e11 = 113
300
= 35.03
93
e21 = 187
300
= 57.97
93 = 35.03 + 57.97
Alcohlico
ESTADO
(i )
Abstemio
MARGINALES
207
e12 = 113
300
= 77.97
207
e22 = 187
300
= 129.03
207 = 77.97 + 129.03
HIPTESIS NULA
H 0 : No hay asociacin
entre las variables.
(50 35.03)
=
35.03
113
= 35.03 + 77.97
187
= 57.97 + 129.03
300
HIPTESIS ALTERNATIVA
H a : Existe asociacin
entre las variables.
2
c
MARGINALES
=
2
c
(O
ij
i =1 j =1
eij )
eij
APLICACIN
2
2
2
(
(
(
63 77.97 )
43 57.97 )
144 129.03)
+
+
+
77.97
57.97
129.03
= 14.87
REGIN DE RECHAZO DE
= 0.01
1 = 0.99
UBICACIN DE ESTADSTICO DE
PRUEBA c2 CON RESPECTO A
REGIN DE RECHAZO DE H 0
hiptesis nula se rechaza ( p < 0.01) y se infiere que hay asociacin entre las
variables estado y delito cometido.
Vc =
c2
n(mnimo{r 1, c 1})
Vc =
14.87
= 0.22
300(1)
Vc 0
102
EJERCICIOS DE REPASO
Caso
Sexo
Longitud
mxima de
fmur
izquierdo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
.
390
398
428
425
405
405
404
390
.
428
402
436
462
.
415
420
438
423
410
450
408
412
373
403
419
388
394
.
432
403
376
420
406
401
382
397
Dimetro
transverso
a la 1/2 de
la difisis
del fmur
izquierdo
Longitud
mxima de
la tibia
izquierda
Longitud
mxima de
la tibia
derecha
Insercin
del
msculo
dorsal
ancho
26
25
27
25
27
24
24
26
23
23
22
25
27
26
23
25
27
28
25
25
26
29
25
23
24
25
24
22
26
22
23
23
21
25
23
26
26
.
346
340
360
.
.
362
347
314
.
354
349
377
377
345
354
.
388
348
339
378
341
343
.
339
346
.
330
.
.
338
311
346
.
340
.
328
.
339
339
360
.
352
360
345
.
.
.
353
381
377
348
.
366
387
.
335
375
.
342
299
.
341
314
330
.
367
333
312
344
334
340
342
328
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
103
38
39
40
41
42
43
44
45
46
47
48
49
50
51
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
415
387
387
.
413
398
.
390
411
.
.
.
378
385
25
25
21
21
25
26
25
27
25
23
22
25
22
24
.
324
320
361
.
.
.
.
.
.
.
.
323
308
324
327
315
.
343
.
.
331
339
.
310
.
321
312
Ausencia
Ausencia
Ausencia
Ausencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
104
25. Se desea conocer qu tan eficaz resulta una dieta para reducir el peso de las
personas para la cual se seleccion una muestra aleatoria de 16 personas
interesadas en bajar de peso, registrndose el peso de cada persona antes y
despus del tratamiento, presentndose los resultados en la tabla siguiente:
Persona
1
2
3
4
5
6
7
8
9
10
Antes
96.9 89.11 105.7
112
93.45 99.1 108.32 88.87 91.0 95.76
Despus 93.1 83.0 101.9 105.87 89.14 95.0 106.56 83.9 85.64 90.44
Persona
Antes
Despus
11
103.05
97.47
12
111.89
107.6
13
83.2
80.81
14
94.74
89.9
15
99.15
97.66
16
126.3
123.3
Con los datos obtenidos se puede afirmar que la dieta es adecuada? Sea =0.05
a) Resolver suponiendo distribucin normal.
b) Resolver suponiendo que no existe distribucin normal
26.Un equipo de antroplogos est estudiando el grado de integracin cultural de
dos comunidades indgenas, una al sur y otra del norte del pas. Uno de los
indicadores empleados en el estudio es la variable aleatoria nmero de distintas
palabras en espaol usadas por cada miembro de la comunidad; se selecciona
una muestra aleatoria en cada comunidad y se llega a:
Comunidad I (Sur)
Comunidad II (Norte)
n1 = 32 x1 = 325 s1 = 60
n2 = 35 x2 = 228 s2 = 30
Esta informacin proporciona evidencia suficiente para afirmar que si hay
elementos de integracin cultural en ambas comunidades?
a) Inferir mediante una prueba de hiptesis con =0.05.
b) Inferir mediante un intervalo al 95% de confianza.
27. Un estudio sobre planificacin familiar en una zona del Estado de Hidalgo
realizado por Castilleja y Zavala6 clasifico a una muestra de mujeres de acuerdo
a dos caractersticas: uso de anticonceptivos y escolaridad*. Los datos se
presentan en la siguiente tabla:
Escolaridad
Anticoncepcin Baja Alta
Usuarias
81
22
Total
114 30
* Escolaridad baja: escolaridad nula, saben leer y escribir y primaria
incompleta. Escolaridad alta: primaria completa y posprimaria.
Existe diferencia entre la proporcin de usuarias de anticonceptivos en las
poblaciones definidas por la escolaridad?
a) Resolver con prueba de hiptesis. Sea =0.091
b) Inferir mediante un intervalo al 93% de confianza.
28. Acaban de descubrir dos nuevas zonas arqueolgicas geogrficamente muy
cercanas entre s. Como no coinciden del todo las caractersticas y la antigedad
de los restos de ambas zonas, se va a corroborar si se trata de una sola o de dos
diferentes culturas precolombinas: se selecciona una muestra de 15 objetos de
una zona y una muestra de 18 objetos localizados en la segunda zona. Los
resultados del fechamiento en aos de los restos son:
6
105
Zona I
Zona II
s12
x1 = 570
= 1518
x2 = 682 s22 = 1625
Con estos datos muestrales puede concluirse que la cultura de la zona II es ms
antigua? Suponga distribucin normal. Sea =0.05
29. Una empresa editorial est haciendo un estudio de mercado para sacar el perfil
de los lectores de peridicos en un pas determinado; consideran que el grado de
escolaridad (entendido como el total de aos aprobados en su trayectoria
escolar) es un factor determinante en la caracterizacin de los lectores; la
empresa ha clasificado a los peridicos en cuatro categoras: los diarios que se
especializan o ponen nfasis en la nota roja (A); los orientados a la informacin
deportiva (B); los que enfatizan aspectos econmicos (C) y los que se centran en
aspectos polticos y sociales (D). Los resultados obtenidos de la variable de
inters son los siguientes:
A
B
C
D
9
6
10
6
17
12
11
20
6
6
6
4
12
21
15
12
3
5
9
5
19
16
9
12
9
6
6
9
17
6
6
6
12
9
12
19
12
9
12
5
6
17
12
1
14
6
7
16
6
4
6
17
2
26
17
15
15
9
20
12
9
2
9
17
17
Con estos datos hay evidencia suficiente para asegurar que la escolaridad de los
lectores es un factor de variacin entre los lectores de peridicos? Sea =0.05
a) Suponga distribucin normal en las poblaciones.
b) Suponga que no hay distribucin normal en las poblaciones.
30. La Secretara del Medio Ambiente quiere determinar si los cambios en la
temperatura del agua del Golfo de Mxico, causados por la planta de Laguna
Verde, tienen un efecto significativo sobre la fauna marina en la regin. Se
dividieron al azar cuatro grupos de especimenes recin nacidos de cierta especie
de peces. Se colocaron los grupos en medios ambientes separados que simulan el
ocano, completamente idnticos, con excepcin de la temperatura del agua.
Seis meses despus se pesaron los especimenes. Los resultados (en libras) se dan
en la tabla siguiente:
Pesos de los especimenes
38F 42F 46F 50F
22
15
14
17
24
21
28
18
16
26
21
13
18
16
19
20
19
25
24
21
17
23
106
Videocasete
78 80 65 57 89
Clase en aula
68 83 50 91 84 77 94 81 92
Existen diferencias entre los puntajes obtenidos en los diferentes mtodos? Sea
=0.05
33. La siguiente tabla se obtuvo de una investigacin en restos seos de la poca
colonial en una regin de Tlaxcala al cruzar dos patologas observadas:
Existe asociacin entre las dos variables? Sea =0.10
Criba Orbitara Hiperostosis Portica
Ausencia Presencia
Ausencia
15
11
Presencia
20
32
34. En cierta escuela un grupo de estudiantes ha planteado la posibilidad de que la
cafetera de la institucin este a cargo de la comunidad estudiantil. Un profesor
considera que existe asociacin en las posiciones de los alumnos respecto a la
licenciatura en la que estudian. Se toma una muestra y se observan los siguientes
resultados:
Licenciatura
Posicin respecto a la
propuesta
A favor
En contra
23
25
AF
17
19
AS
20
34
ARQ
32
15
ETH
24
30
ETN
12
16
LIN
30
14
HIS
Qu se puede decir al respecto? Sea =0.05
107
UNIDAD III
ANLISIS DE CORRELACIN Y REGRESIN LINEAL
ANLISIS DE CORRELACIN
Cuando se tienen dos variables, la forma ms sencilla para comprobar si existe una
relacin lineal entre ellas es construyendo un diagrama de dispersin con base en
coordenadas ( X , Y ) . Empero, como veremos a continuacin, la estadstica cuenta con
estimadores y pruebas ms precisas (acordes al tipo y la distribucin probabilstica de
las variables) para determinar si existe una asociacin significativa o no.
A. VARIABLES CUANTITATIVAS CON DISTRIBUCIN NORMAL
1) COEFICIENTE DE CORRELACIN DE PEARSON
Medida sobre la asociacin entre dos variables continuas ( X , Y ) , cuyas expresiones
para calcularlo en poblaciones y muestras son:
PARMETRO
ESTIMADOR
(xi x )(yi y )
N
r=
i =1
N x y
(x
i =1
x )( y i y )
(n 1) s x s y
No obstante, para reducir la labor que implica restar a cada dato su media
correspondiente, podemos simplificar la expresin del numerador de este estimador:
(x y
i
i =1
xi y x y i + x y )
Repartimos la sumatoria:
n
x y x y xy + xy
i
i =1
i =1
i =1
i =1
Donde las medias son constantes y por ello pueden multiplicar a las sumatorias y
multiplicarse por el tamao de la muestra:
n
i =1
i =1
i =1
xi yi y xi x yi + nx y
x y
i
i =1
y nx x ny + nx y
Porque:
x=
x
i =1
xi = x n
i =1
y=
y
i =1
yi = y n
i =1
108
x y
i =1
nx y
r=
x y
i =1
nx y
(n 1) s x s y
(r 1)
(r 0)
(r 1)
INTERPRETACIN
Existe asociacin lineal inversa entre las variables.
No existe asociacin entre las variables.
Existe asociacin lineal directa entre las variables.
H0 : = 0
HIPTESIS
Ha : 0
tc = r
n2
1 r2
Como podemos observar, este estadstico de prueba es del tipo t c ; es decir, tiene una
distribucin t de student pero ahora, por ser dos variables, con (n 2 ) grados de
Si bien esta es la forma ms sencilla para calcular manualmente el coeficiente de correlacin de Pearson,
cabe mencionar que muchas calculadoras cientficas lo pueden arrojar directamente al ingresar los datos
de ambas variables en el modo estadstico de regresin lineal; este dato tendr un valor muy parecido al
que se obtiene haciendo los clculos manualmente con 4 decimales.
109
libertad y se compara, como en toda prueba bilateral de esta distribucin, con las
regiones de rechazo de la hiptesis nula:
REGIN DE
RECHAZO DE
1-
/2
H0 : = 0
/2
t1(n 2)
t1(n 2 )
RANGO
VARIABLE
RANGO
Rxi
Ry i
Rx1 = 4
Rx 2 = 2.5
Rx3 = 1
Ry1 = 4
Ry 2 = 1
Ry 3 = 2
Rx n = 2.5
Ry n = 3
CASO
(i )
Habiendo asignado rangos a los datos de cada variable, debe obtenerse, para cada
caso, la diferencia d i = Rxi Ry i y elevarse al cuadrado:
VARIABLE
RANGO
VARIABLE
RANGO
Rxi
Ryi
Rx1 = 4
Rx 2 = 2.5
Rx3 = 1
CASO
(i )
Rx n = 2.5
1
2
d i = Rxi Ry i
d i2
Ry1 = 4
Ry 2 = 1
Ry 3 = 2
d1 = 4 4 = 0
d 2 = 2 .5 1 = 1 .5
d 3 = 1 2 = 1
Ry n = 3
d n = 2.5 3 = 0.5
2.25
1
0.25
110
rs = 1
6 d i2
i =1
n(n 2 1)
(r 1)
(r 0)
(r 1)
INTERPRETACIN
Existe asociacin lineal inversa entre las variables.
No existe asociacin entre las variables.
Existe asociacin lineal directa entre las variables.
2) PRUEBAS DE HIPTESIS
El coeficiente de correlacin de Spearman, al igual que el de Pearson, puede utilizarse
para realizar una prueba sobre la significancia de la asociacin con el mismo tipo de
hiptesis que lo igualan o diferencian de cero:
H0 : s = 0
HIPTESIS
H a : s 0
Zc =
rs
(n 1)
REGIN DE
RECHAZO DE
H0 : s = 0
1-
/2
/2
Z 1
Z 1
111
b) Muestras pequeas
Si el tamao de la muestra es pequeo (n 30 ) , en vez de un estadstico de
prueba, es el propio coeficiente de correlacin de Spearman el que se compara
con la regin de rechazo de la hiptesis nula, determinada por los valores
crticos rs para la prueba que lleva el mismo nombre (y que involucran el
tamao de la muestra n y la significancia )
REGIN DE
RECHAZO DE
H0 : s = 0
/2
/2
C. EJEMPLOS DE APLICACIN
1.
Los siguientes datos corresponden las longitudes de hmero y fmur de restos
seos masculinos de la Cueva de La Candelaria, Coahuila.
HMERO
329
311
297
323
323
290
297
287
333
336
313
322
321
315
309
304
300
FMUR
444
426
449
427
428
427
417
414
417
440
416
408
420
443
472
466
422
112
Fmur
450
440
430
420
410
400
280
290
300
310
320
330
340
Hmero
, En esta grfica podemos observar que no existe una linealidad clara entre las
variables.
Pero es necesario comprobar lo que los sentidos nos dicen con un poco de
estadstica. En este primer ejemplo desarrollaremos todos los datos necesarios para
calcular manualmente el coeficiente de correlacin; no obstante, el los prximos casos
recurriremos simplemente a los valores obtenidos con ayuda de una calculadora.
HMERO
329
311
297
323
323
290
297
287
333
336
313
322
321
315
309
304
300
FMUR
444
426
449
427
428
427
417
414
417
440
416
408
420
443
472
466
422
X i Yi
TOTAL
146076
132486
133353
137921
138244
123830
123849
118818
138861
147840
130208
131376
134820
139545
145848
141664
126600
2291339
DATOS GENERALES
n = 17
x = 312.3529
y = 431.5294
s x = 14.8195
s y = 18.2384
113
EXPRESIN DEL
COEFICIENTE DE
CORRELACIN
DE PEARSON
r=
CLCULO
MANUAL
r=
x y
i =1
nx y
(n 1) s x s y
VALOR EN
r = 0.0190
CALCULADORA
, El signo negativo indica que la asociacin entre la longitud del hmero y la del
fmur sera inversa, pero su cercano valor a cero nos da una segunda prueba para
afirmar que la asociacin entre estas variables es casi nula.
Finalmente nos resta comprobar que tal afirmacin sea significativa.
HIPTESIS
H0 : = 0
Ha : 0
REGIN DE RECHAZO DE H 0 : = 0
= 0.05
= 0.025
2
1 = 0.975
2
2)
)
t1(n 2 ) = t1(170.025
= t 0(15
.975 = 2.1315
EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
CLCULO DE t c
n2
1 r2
17 2
tc = r
t c = 0.0190
1 ( 0.0190)
= 0.0736
UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
, El estadstico de prueba t c = 0.0736 cae fuera de la regin de rechazo delimitada
)
por t 0(15
.975 = 2.1315 , razn por la cual la hiptesis nula H 0 : = 0 no se rechaza y
puede afirmarse que no existe asociacin significativa entre la longitud del hmero y la
del fmur en los restos seos de esta poblacin.
114
2.
Los siguientes datos corresponden a la poblacin juvenil masculina de Cholula,
Puebla (recopilados entre 1968-1970).
LONGITUD MIEMBRO SUPERIOR
771
740
743
775
745
722
764
711
756
721
728
727
756
768
735
ESTATURA
1715
1701
1652
1691
1611
1620
1701
1655
1734
1635
1598
1635
1684
1622
1674
Estatura
1680
1660
1640
1620
1600
1580
710
720
730
740
750
760
770
780
, Aunque existe dispersin en los datos, puede entre verse una linealidad entre estas
variables y, por ende, una posible asociacin.
115
n = 15
DATOS GENERALES
r = 0.5310
, El valor del coeficiente de correlacin de Pearson nos indica una asociacin lineal
directa considerable.
HIPTESIS
H0 : = 0
Ha : 0
REGIN DE RECHAZO DE H 0 : = 0
= 0.05
= 0.025
2
1 = 0.975
2
EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
CLCULO DE t c
2)
)
t1(n 2 ) = t1(150.025
= t 0(13
.975 = 2.1604
2
n2
1 r2
15 2
tc = r
t c = 0.5310
1 (0.5310)
= 2.2592
UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
, El estadstico de prueba t c = 2.2592 cae en la regin de rechazo delimitada por
)
t 0(13
.975 = 2.1604 , razn por la cual la hiptesis nula H 0 : = 0 se rechaza y puede
afirmarse que haba asociacin significativa entre la longitud del miembro superior y la
estatura en la poblacin juvenil masculina de Cholula, Puebla.
3.
Los siguientes fueron obtenidos tambin de los restos seos masculinos de la
Cueva de la Candelaria, pero esta vez son las longitudes de fmur y tibias derechos;
variables que no mostraron distribucin normal.
LONGITUD FMUR DERECHO
444
426
449
427
428
427
417
414
417
116
440
416
408
420
443
472
466
422
419
462
452
454
468
449
442
472
451
438
440
483
451
429
361
372
358
358
384
381
388
355
368
351
380
349
405
363
412
366
364
346
361
384
388
353
Con una significancia = 0.05 , es posible afirmar que existe relacin entre ellas?
440
420
400
380
360
340
400
420
440
460
480
500
, En este diagrama los puntos se ven muy dispersos, por lo que se duda exista una
relacin lineal entre las longitudes de estos huesos largos.
117
FMUR
444
426
449
427
428
427
417
414
417
440
416
408
420
443
472
466
422
419
462
452
454
468
449
442
472
451
438
440
483
451
429
RANGOS
10.5
4.5
2.0
4.5
15.5
3.0
1.0
7.0
18.0
29.5
27.0
8.0
6.0
26.0
24.0
25.0
28.0
20.5
17.0
29.5
22.5
14.0
15.5
31.0
22.5
13.0
10.5
4.5
2.0
4.5
15.5
TIBIA
401
358
417
375
424
392
391
388
394
361
372
358
358
384
381
388
355
368
351
380
349
405
363
412
366
364
346
361
384
388
353
RANGOS
25.0
24.0
22.0
26.0
9.5
15.0
7.0
7.0
19.5
18.0
22.0
5.0
14.0
3.0
17.0
2.0
28.0
11.0
29.0
13.0
12.0
1.0
9.5
19.5
22.0
4.0
25.0
24.0
22.0
26.0
9.5
d i2
di
-14.50
-19.50
-20.00
-21.50
6.00
-12.00
-6.00
.00
-1.50
11.50
5.00
3.00
-8.00
23.00
7.00
23.00
.00
9.50
-12.00
16.50
10.50
13.00
6.00
11.50
.50
9.00
-14.50
-19.50
-20.00
-21.50
6.00
TOTAL
210.25
380.25
400.00
462.25
36.00
144.00
36.00
.00
2.25
132.25
25.00
9.00
64.00
529.00
49.00
529.00
.00
90.25
144.00
272.25
110.25
169.00
36.00
132.25
.25
81.00
210.25
380.25
400.00
462.25
36.00
4593.00
DATOS GENERALES
n = 31
d
i =1
EXPRESIN DEL
COEFICIENTE DE CORRELACIN
DE SPEARMAN.
CLCULO
2
i
= 4593
n
rs = 1
6 d i2
i =1
2
n(n 1)
6(4593)
rs = 1
= 0.0740
31(312 1)
118
HIPTESIS
H0 : s = 0
H a : s 0
REGIN DE RECHAZO DE H 0 : = 0
= 0.05
= 0.025
2
1 = 0.975
2
EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
CLCULO DE t c
rs
(n 1)
0.0740
Zc =
= 0.0135
(31 1)
Zc =
UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
, El estadstico de prueba Z c = 0.0135 est fuera de la regin de rechazo delimitada
por Z 0.975 = 1.96 . Por tal motivo, la hiptesis nula H 0 : s = 0 no se rechaza y
puede afirmarse que no existe asociacin significativa entre la longitud del fmur y la
longitud de la tibia masculinas en la poblacin de la Cueva de Candelaria.
4.
Un investigador desea saber si existe relacin entre la migracin Mxico-EEUU
y el analfabetismo. Para averiguarlo obtiene de los reportes de la CONAPO los
siguientes datos sobre el porcentaje de personas (por entidad federativa algunas)
que emigraron hasta el ao 2005 y el porcentaje de personas alfabetas mayores de 15
aos:
ENTIDAD FEDERATIVA
Aguascalientes
Chiapas
Distrito Federal
Estado de Mxico
Guanajuato
Guerrero
Hidalgo
Jalisco
Michoacn
Oaxaca
Puebla
Quertaro
San Luis Potos
EMIGRANTES (%)
1.3
0.4
4.2
6.2
8.7
2.9
2.0
13.4
10.0
2.4
3.2
1.0
3.7
ALFABETAS (%)
95.2
77.1
97.1
93.6
88.0
78.4
85.1
93.5
86.1
78.5
85.4
90.2
88.7
119
Tabasco
Veracruz
Yucatn
0.1
2.9
0.5
90.3
85.1
87.7
Porcentaje de alfabetas
100
90
80
70
0
10
12
14
Porcentaje de emigrantes
, En el diagrama no se observa una relacin lineal entre las variables emigracinalfabetismo; de hecho hay una conglomeracin relativa de puntos en una zona.
ESTADO
EMIGRANTES
RANGO
ALFABETAS
RANGO
Aguascalientes
1.3
5.0
95.2
15.0
Chiapas
0.4
2.0
77.1
1.0
Distrito Federal
Estado de
Mxico
Guanajuato
4.2
12.0
97.1
16.0
6.2
13.0
93.6
14.0
8.7
14.0
88.0
9.0
Guerrero
2.9
8.5
78.4
2.0
Hidalgo
2.0
6.0
85.1
4.5
Jalisco
13.4
16.0
93.5
13.0
Michoacn
10.0
15.0
86.1
7.0
Oaxaca
2.4
7.0
78.5
3.0
Puebla
3.2
10.0
85.4
6.0
Quertaro
1.0
4.0
90.2
11.0
3.7
11.0
88.7
10.0
Tabasco
0.1
1.0
90.3
12.0
Veracruz
2.9
8.5
85.1
4.5
Yucatn
0.5
3.0
87.7
8.0
d i = Rxi Ry i
5 15 = 10
2 1 = 1
12 16 = 4
13 14 = 1
14 9 = 5
8 .5 2 = 6 .5
6 4.5 = 1.5
16 13 = 3
15 7 = 8
73 = 4
10 6 = 4
4 11 = 7
11 10 = 1
1 12 = 11
8 .5 4 .5 = 4
3 8 = 5
TOTAL
d i2
100.00
1.00
16.00
1.00
25.00
42.25
2.25
9.00
64.00
16.00
16.00
49.00
1.00
121.00
16.00
25.00
504.50
120
DATOS GENERALES
n
n = 16
i =1
2
i
= 504.50
n
EXPRESIN DEL
COEFICIENTE DE CORRELACIN
DE SPEARMAN.
rs = 1
6 d i2
i =1
2
n(n 1)
6(504.50 )
rs = 1
= 0.2581
16 16 2 1
CLCULO
H0 : s = 0
H a : s 0
= 0.025
2
= 0.05
rs = 0.2581
r016.025 = 0.5000
1
8
3
9
4
7
9
3
8
2
7
4
10
1
6
5
5
6
2
10
Compruebe si existe una relacin lineal entre la concentracin de fluoruro y los dientes
CFO en estas comunidades ( = 0.05) .
121
12
10
Dientes CFO
0
0
10
12
Concentracin de fluoruro
RANGOS CONCENTRACIN
FLUORURO
1
10
10
d i = Rxi Ry i
d i2
8 1 = 7
93= 6
74=3
3 9 = 6
2 8 = 6
4 7 = 3
1 10 = 9
5 6 = 1
65 =1
10 2 = 8
49
36
9
36
36
9
81
1
1
TOTAL
64
322
DATOS GENERALES
n = 10
d
i =1
EXPRESIN DEL
COEFICIENTE DE CORRELACIN
DE SPEARMAN.
CLCULO
2
i
= 322
n
rs = 1
6 d i2
i =1
n(n 2 1)
6(322)
rs = 1
= 0.9515
10 10 2 1
122
H0 : s = 0
HIPTESIS
H a : s 0
= 0.025
2
= 0.05
rs = 0.9515
r010.025 = 0.6364
A. FUNDAMENTOS
24
22
20
18
16
12
14
16
18
20
22
[(x1 , y1 ), (x 2 , y 2 )]
m=
y 2 y1
x 2 x1
y y1 = m( x x1 )
y y1 = mx mx1
123
y = y1 + mx mx1
y = y1 + m(0 ) mx1
b = y1 mx1
y = mx + b
y = a + bx
26
24
22
20
18
16
12
14
16
18
20
22
( )
124
(m, b 1 ) , sino tambin los adapta para manifestar el nivel de incertidumbre o error
(e ) presente en ellos:
MODELO TERICO DE REGRESIN
LINEAL SIMPLE EN ESTADSTICA
y = 0 + 1 x + e
y i = 0 + 1 x i + ei
ei = y i 0 1 x i
ei2 = ( y i 0 1 xi )
i =1
i =1
ei2 = ( yi 0 1 xi )
f ( 0 , 1 ) = ( y i 0 1 x i )
i =1
Por lo cual hay que encontrar la forma en que esta funcin sea mnima. El punto
es que, al haber dos variables, mantendremos a la vez una constante; esto es,
haremos derivadas parciales de la funcin.
Empecemos por derivar la funcin respecto a 0 :
n
f ( 0 , 1 ) = ( y i 0 1 x i )
i =1
n
df ( 0 , 1 )
= 2 ( y i 0 1 xi )( 1)
d 0
i =1
d [ f ( x )]
n 1
= n[ f ( x )] f ( x )
dx
n
Porque
2 ( y i 0 1 xi )( 1) = 0
n
i =1
125
2 ( y i 0 1 xi ) = 0
n
i =1
(y
n
i =1
0 1 xi ) = 0
0 =0
#
Como
(y
n
i =1
0 1 xi ) = 0
i =1
i =1
i =1
yi 0 1 xi = 0
ny n 0 1 nx = 0
n
Porque
y=
yi
i =1
y i = yn
x=
x
i =1
i =1
xi = x n
i =1
ny n 0 1 nx
=0
n
n
n
C = nC
y 0 1 x = 0
0 = y 1 x
Ahora bien, resta hacer lo mismo con 1 :
f ( 0 , 1 ) = ( y i 0 1 x i )
i =1
df ( 0 , 1 )
= 2 ( y i 0 1 xi )( xi )
d 1
i =1
n
d [ f ( x )]
n 1
= n[ f ( x )] f ( x )
dx
n
Porque
Igualamos a cero:
2 ( y i 0 1 xi )( xi ) = 0
n
i =1
126
(x y
0 xi 1 xi2 = 0
2 xi y i 0 xi 1 xi2 = 0
i =1
i =1
i =1
i =1
xi yi 0 xi 1 xi2 = 0
i =1
i =1
i =1
i =1
xi yi 0 xi 1 xi2 = 0
i =1
i =1
i =1
1 xi2 = xi y i 0 xi
1 xi2 = xi y i ( y 1 x )(nx )
n
i =1
i =1
Porque
0 = y 1 x
x=
x
i =1
xi = x n
i =1
i =1
i =1
1 xi2 = xi y i nx y + 1 nx 2
i =1
i =1
1 xi2 1 nx 2 = xi y i nx y
i =1
1 xi2 nx 2 = xi y i nx y
i =1
127
1 =
x y
i =1
n
x
i =1
2
i
nx y
nx 2
0 = y 1 x
n
1 =
x y
i =1
n
x
i =1
2
i
nx y
nx 2
Si bien ambos datos son fundamentales para construir el modelo de regresin lineal, el
valor de 0 slo indica el punto donde la recta corta el eje de las Y ; esto es, el valor
de Y cuando X = 0 . Mientras tanto, el valor de 1 resulta mucho ms significativo
para la interpretacin ya que, dependiendo de su signo y magnitud, indica el cambio
en la variable Y cuando X cambia una unidad. Por ejemplo:
Si X disminuye una unidad
y = 0 1 ( x 1)
y = 0 1 x + 1
y = 0 1 ( x + 1)
y = 0 1 x 1
y = 0 + 1 ( x 1)
y = 0 + 1 x 1
y = 0 + 1 x
y = 0 1 x
y = 0 + 1 ( x + 1)
y = 0 + 1 x + 1
Por tanto:
Si la pendiente es:
positiva 1
Y disminuye 1 unidades
Y aumenta 1 unidades
Y aumenta 1 unidades
Y disminuye 1 unidades
( )
negativa ( )
1
Igual que en el caso del coeficiente de correlacin de Pearson, el valor de la ordenada a la origen y la
pendiente de la recta pueden obtenerse sin hacer manualmente los clculos, pues son ya muchas las
calculadoras cientficas que arrojan sus valores (a,b) al ingresar los datos de la muestra en el modo
estadstico de regresin lineal.
128
debe verificar que el modelo cumpla con cuatro criterios para determinar que en
verdad sea adecuado al describir el fenmeno.
C.1) CRITERIO DEL COEFICIENTE DE CORRELACIN LINEAL
Consiste en verificar que exista una asociacin lineal significativa entre las dos
variables a travs de una prueba de hiptesis. En el caso de variables con distribucin
normal, la prueba que en el tema anterior vimos se aplica es la t , basada en el
coeficiente de correlacin de Pearson (r ) :
HIPTESIS
H0 : = 0
Ha : 0
tc = r
REGIN DE
RECHAZO DE
n2
1 r2
1-
H0 : = 0
/2
/2
t1(n 2)
t1(n 2 )
INTERPRETACIN
150
Media
140
V. estimado estatura
Altura de rodilla
V. real estatura
130
40
Altura de rodilla
42
44
46
48
50
129
La diferencia entre los valores reales y su media es conocida como desviacin total
de los valores con respecto a la media, la cual est compuesta por dos
desviaciones ms: 1) la que hay entre los valores estimados y la media de los
originales, debida al modelo de regresin, y 2) la que hay entre los valores reales y
los valores estimados, que no justifica el modelo de regresin y es considerada como
error de estimacin o residuo. Esto es:
y i y = y i y + y i y i
Desviacin total de valores
con respecto a la media
Desviacin debida al
modelo de regresin lineal.
Desviacin no explicada
por el modelo , Error o
residuo.
Como hemos venido diciendo, lo que se busca lograr con el modelo de regresin es
que el error al describir el fenmeno sea lo ms pequeo posible, motivo por el cual la
suma de residuos (al cuadrado, para evitar signos) debe ser mnima:
( y y ) = ( y y ) + ( y y )
i =1
Variabilidad total:
Suma de cuadrados
totales (SC t )
i =1
i =1
Variabilidad debida al
modelo de regresin
lineal:
Suma de cuadrados de la
regresin (SC r )
Variabilidad no explicada
por el modelo:
Suma de cuadrados de los
errores (SC e )
De ah partimos para decir que, si no hubiera diferencias entre los valores reales y los
estimados, el error de estimacin sera nulo y no existira una variabilidad inexplicada:
n
y i y i 0 ( y i y i ) 0
2
i =1
SC t = SC r ( y i y ) = ( y i y )
2
i =1
i =1
1=
( y y )
i =1
n
(y
i =1
y)
130
( )
COEFICIENTE DE
DETERMINACIN
R2 =
( y y )
i =1
n
(y
i =1
y)
R2 = r 2
2
Por ltimo: aunque lo ideal sera que, como vimos, el valor del coeficiente de
determinacin fuera o se acercara a 1 (100%), esto pocas veces sucede. Por ende, a
falta de criterios estrictos sobre el valor que debe tener R 2 para considerar al modelo
de regresin lineal adecuado, simplemente hemos de sugerir que rebase el 50%,
justificando que as la mayor parte de la variabilidad de Y se deber al modelo y no a
lo errores.
C.3) CRITERIOS SOBRE LOS PARMETROS DEL MODELO.
En los modelos de tipo y = 0 + 1 x + e la variable independiente X se asocia a 1 .
Debido a eso, si el valor de este parmetro fuera igual o muy parecido a cero ( 1 0 ) ,
1. Para poder estimar, los valores de la variable independiente deben ser fijos y
los de la dependiente aleatorios. Es decir, para cada dato de X que el
investigador recabe encontrar diversos valores de Y .
2. Los errores ei son independientes. Esto es, el valor de cada uno no depende
del valor de los otros.
Ello puede comprobarse mediante la prueba de Durbin-Watson:
n
DW =
(r
i=2
ri 1 )
r
i=2
INTERPRETACIN
131
DW 0
DW 2
DW 4
3. El valor esperado de cualquier error es cero: E (ei ) = 0 , por ende, basta con
comprobar que la media de los errores sea cero.
4. La varianza de cada error es Var (ei ) = 2 ; razn por la cual todos lo errores
tienen la misma varianza (fenmeno denominado homosedasticidad).
5. Los errores tienen distribucin normal, al igual que los valores de Y :
y i ~ N 0 , 1 xi , 2
El hecho de que los errores tengan una distribucin normal, sean independientes,
estn idnticamente distribuidos, tengan media cero y varianza 2 , puede resumirse
en unas cuantas siglas: ei ~ NIID 0, 2 .
H 0 : o = 1 = 0
H a : o 0, 1 0
Grados
de
libertad
SC r = ( y i y )
(n 2)
SC e = ( y i y i )
(n 1)
SC t = ( y i y )
i =1
( y y )
i =1
CM e =
i =1
y i )
CM t =
(y
i =1
y)
Fc =
CM r
CM e
= S y2 x
(n 2)
= SC r
(y
Estadstico
de prueba
i =1
Total
CM r =
i =1
Inexplicada
(por error)
Cuadrados medios
(varianza)
Suma de cuadrados
(n 1)
= S y2
REGIN DE RECHAZO DE H 0 : o = 1 = 0
132
F1(1, n 2 )
H 0 : 1 = 0
HIPTESIS
H a : 1 0
tc =
Sy x
(n 1) S x
S y2 x =
i =1
S y2 =
(n 2)
(y
i =1
y)
(n 1)
2
( yi y i ) = (n 2)S y2 x
i =1
2
( yi y i )
(y
i =1
y ) = (n 1)S y2
2
133
i =1
i =1
i =1
2
2
2
( yi y ) = ( y i y ) + ( yi y i )
( y y ) = ( y
2
i =1
i =1
y ) ( y i y i )
2
R2 = r 2 =
i =1
( y y )
i =1
n
(y
i =1
R2 = r 2 =
i =1
i =1
(y
y)
Que se simplifica a:
n
R2 = r 2 = 1
(y
y i )
(y
y)
i =1
n
i =1
a+c a c
= +
b
b b
Porque
Sustituyamos ahora sus componentes con las expresiones que dedujimos con el
nmero 1 y 2:
y)
2
2
( yi y ) ( yi y i )
i =1
Si las combinamos por medio de sus elementos comunes tenemos que otra
forma de calcular el coeficiente de determinacin es:
n
(n 2)S y2 x
= 1
(n 1)S y2
(n 2)S y2 x
(n 1)S y2
S y2 x =
Sy x =
= 1 r2
1 r2
(n 1)S y2
(n 2)
1 r 2 (n 1)
Sy
(n 2)
Sy x = Sy
1 r 2 (n 1)
(n 2)
134
Una vez que se obtenga el valor de S y x resta sustituir el resto de los elementos
de rechazo correspondiente:
REGIN DE
RECHAZO DE
H 0 : 1 = 0
1-
/2
/2
t1(n 2)
t1(n 2 )
y 0 = 0 + 1 x0
Es decir, el valor estimado para esta Y puede calcularse sustituyendo los valores de
0 , 1 y x0 .9
D.2) ESTIMACIN POR INTERVALOS
A diferencia de otras ocasiones, se llama INTERVALO DE PREDICCIN al rango en
el que, con cierto grado de confianza, se estima est el valor hipottico de y 0 cuando
1 (x0 x )
(n 2 )
+
y 0 y 0 t1 S y x
2
n (n 1) S x2
Aunque la operacin no es tan complicada, las calculadoras cientficas pueden obtener el valor estimado
con ms precisin, habiendo ingresado los datos de ambas variables en la funcin estadstica de regresin
lineal y aplicando la funcin ( y ) o ( y )
135
Como en todo intervalo, obtendremos dos valores lmites (mnimo y mximo del
rango). He aqu graficados, como ejemplo, dichos valores de Y respecto a los valores
de xi :
170
160
150
140
V. mx. estatura
Altura de rodilla
V. min. estatura
130
Altura de rodilla
V. real estatura
Altura de rodilla
120
40
42
44
46
48
50
160
150
Estatura
140
130
40
42
44
46
48
50
Altura de rodilla
Por otro lado, se conoce como INTERVALO DE CONFIANZA al rango en el que, con
cierto grado de error, puede encontrarse la media de las Y cuando X = x 0 ; es decir:
y x :
0
y x
1 (x0 x )
(n 2 )
y 0 t1 S y x 1 + +
2
n (n 1) S x2
Como puede verse, tal expresin no difiere ms que por un 1 con respecto a la
expresin para construir intervalos de prediccin. Sin embargo, ello es suficiente los
intervalos de y x0 :
136
160
160
150
Estatura
150
140
V. mx. media estat
140
Altura de rodilla
V. mn. media estat
Altura de rodilla
130
V. real estatura
130
40
40
42
44
46
48
50
48
50
Altura de rodilla
42
44
46
48
Altura de rodilla
50
160
160
150
V. mx. estatura
150
Altura de rodilla
V. mn. estatura
Altura de rodilla
140
140
130
Altura de rodilla
V. real estatura
120
40
Estatura
Altura de rodilla
130
40
42
44
46
Altura de rodilla
42
44
46
48
50
Altura de rodilla
E. EJEMPLOS DE APLICACIN
1.
Los siguientes datos de altura y peso en jvenes adultos son parte de la
muestra recolectada durante la investigacin en Cholula, Puebla (1968-1970).
ESTATURA
1649
1635
1611
1622
1583
1613
1636
1650
1579
1568
1522
1554
1627
1535
PESO
49.5
57.5
50.0
53.5
43.0
57.5
50.5
56.0
50.0
50.0
44.5
48.0
51.0
46.0
137
1565
49.5
54
52
50
48
46
44
42
1520
1540
1560
1580
1600
1620
1640
1660
COEFICIENTE DE PEARSON
r = 0.6786
a.2) , El valor del coeficiente de correlacin de Pearson nos indica una asociacin
lineal directa considerable entre la estatura y el peso de esta poblacin.
A continuacin saquemos los datos necesarios para calcular los estimadores 1 y 0
a fin de establecer el modelo de regresin.
DATOS GENERALES
n = 15
x = 1596.6000
x y
i =1
= 1209525.000
y = 50.4333
s x = 41.5379
n
x
i =1
2
i
s y = 4.3006
= 38261129.00
138
EXPRESIN PARA
CALCULAR
EL ESTIMADOR
1 EXPRESIN
PARA
1 =
x y
i =1
n
x
i =1
2
i
nx y
nx 2
1209525.000 15(1596.6000)(50.4333)
1 =
= 0.0703
2
38261129.00 15(1596.6000 )
1 = 0.0703
CLCULO
MANUAL
CALCULADORA
CALCULAR
EL ESTIMADOR 0
0 = y 1 x
0 = 50.4333 0.0703(1596.6000) = 61.8077
CLCULO
MANUAL
CALCULADORA
0 = 61.7390
y = 0 + 1 x + e
peso = 61.7390 + 0.0703estatura
MODELO TERICO
MODELO AJUSTADO
b) , Segn el modelo ajustado, por cada milmetro que cambia la estatura, el peso
cambia 0.0703 kilogramos.
Ahora bien, para comprobar que el modelo ajustado es adecuado hay que verificar si
cumple con los criterios y supuestos:
1. CRITERIO DEL COEFICIENTE DE CORRELACIN
HIPTESIS
H0 : = 0
Ha : 0
REGIN DE RECHAZO DE H 0 : = 0
= 0.05
= 0.025
2
1 = 0.975
2
EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
CLCULO DE t c
2)
)
t1(n 2 ) = t1(150.025
= t 0(13
.975 = 2.1604
2
n2
1 r2
15 2
tc = r
t c = 0.6786
1 (0.6786)
= 3.3310
139
UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
afirmarse que s existe una asociacin significativa entre la estatura y el peso de los
jvenes adultos de Cholula.
2. CRITERIO DEL COEFICIENTE DE DETERMINACIN
COEFICIENTE DE DETERMINACIN
R2 = r 2
CLCULO
R 2 = (0.6786) = 0.4605
c.2) , El valor del coeficiente de determinacin indica el modelo ajustado explica slo
el 46.05% de la variabilidad total del peso.
2
PESO
58.5
53.5
58.0
57.0
58.0
58.0
56.5
51.5
56.0
57.5
51.5
47.0
54.5
54.0
62.0
= 0.05
140
d) Si es posible, realice una estimacin puntual y por intervalos cuando la estatura del
adolescente es de 1700 mm.
64
62
Peso adolescentes
60
58
56
54
52
50
48
46
1500
1600
1700
1800
Estatura adolescentes
a.1) , Pese a la dispersin de algunos datos puede verse una asociacin lineal entre
la estatura y el peso, as como se define una pendiente bastante grande.
COEFICIENTE DE PEARSON
r = 0.8382
0 = 51.3759
1 = 0.0646
H0 : = 0
Ha : 0
REGIN DE RECHAZO DE H 0 : = 0
= 0.05
= 0.025
2
1 = 0.975
2
EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
CLCULO DE t c
2)
)
t1(n 2 ) = t1(150.025
= t 0(13
.975 = 2.1604
2
n2
1 r2
15 2
tc = r
t c = 0.8382
1 (0.8382)
= 5.5411
141
UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
que existe una asociacin significativa entre la estatura y el peso de los adolescentes
de Cholula.
2. CRITERIO DEL COEFICIENTE DE DETERMINACIN
COEFICIENTE DE DETERMINACIN
R2 = r 2
CLCULO
R 2 = (0.8382) = 0.7025
c.2) , Segn este coeficiente, el modelo ajustado explica el 70.25% de la variabilidad
total del peso; lo cual sugiere que slo un menor porcentaje se debe a los residuales.
2
Y antes de verificar los otros dos criterios es necesario revisar si se cumplen los
supuestos sobre los errores:
Errores independientes
SUPUESTOS
Tericamente sabemos que aunque dos personas
midan lo mismo, su peso puede diferir. En este caso
particular basta con sealar que existen dos
individuos con una estatura de 1672 milmetros, pero
mientras uno pesa 53.5 kilos, el otro pesa 56.5 kg.
Al aplicar la prueba de Durbin-Watson en el SPSS
obtenemos un valor de 1.922. Estando est tan cerca
del 2 (DW 2 ) , podemos afirmar que los errores son
independientes.
Segn el SPSS, la media de los residuales no
estandarizados es cero; por tanto E (ei ) = 0 .
Homosedasticidad
en los errores
Distribucin normal
en los errores
GRFICA DE PAPEL
Peso adolescentes
Errores esperados acumulados
1.00
.75
.50
.25
0.00
0.00
.25
.50
.75
1.00
142
Ahora s pueden verificarse los criterios sobre los parmetros. Si bien aqu se aplicar
tanto la prueba ANOVA (mediante SPSS) como la prueba sobre la pendiente; debido a
la complejidad de la primera, en los siguientes ejemplos y en la prctica ser suficiente
aplicar la segunda, ya que es en ella donde se comprueba si la variable independiente
es significativa para explicar la variabilidad de la dependiente.
H 0 : o = 1 = 0
Fuente de
variabilidad
Grados
de
libertad
Debida al
modelo de
regresin
Inexplicada
(por error)
Total
3. PRUEBA ANOVA
HIPTESIS
H a : o 0, 1 0
Suma de cuadrados
Cuadrados medios
(varianza)
Estadstico
de prueba
SC r = 132.734
CM r = 132.734
Fc = 30.704
13
SC e = 56.199
CM e = 4.323
14
SC t = 189.933
CM t = 13.4953
por F0(.195,13 ) = 4.67 . Debido a ello puede concluirse que ninguno de los dos parmetros
es igual a cero.
H 0 : 1 = 0
4. PRUEBA DE LA PENDIENTE
HIPTESIS
H a : 1 0
REGIN DE RECHAZO DE H 0 : 1 = 0
= 0.05
= 0.025
2
= 0.975
2)
)
t1(n 2 ) = t1(150.025
= t 0(13
.975 = 2.1604
2
Sy x = Sy
S y x = 3.6736
1 r 2 (n 1)
(n 2)
143
tc =
1
Sy x
(n 1) S x
CLCULO
tc =
0.0646
= 5.5411
2.0792
(15 1) 47.6302
Por ltimo resta hacer estimaciones, por ejemplo, para un individuo que pesa 1700
milmetros:
EXPRESIN PARA ESTIMAR
PUNTUALMENTE EL VALOR DE y 0
CLCULO MANUAL
y 0 = 0 + 1 x0
y 0 = 51.3759 + 0.0646(1700) = 58.5240
1700 = 58.5232
CALCULADORA
, A partir del modelo de regresin podemos estimar puntualmente que, en esta
poblacin, un individuo con una estatura de 1700 milmetros pesa 58.5232
kilogramos.
EXPRESIN PARA CONSTRUIR UN
INTERVALO DE PREDICCIN SOBRE
EL VALOR DE y 0
CLCULO
1 (x0 x )
+
y 0 y 0 + t1(n 2 ) S y x
2
n (n 1) S x2
1 (1700 1654.2667 )
y 0 58.5232 2.1614 2.0792
+
15
(15 1)(47.6302)2
y 0 [56.8880,60.1584]
, El peso de un individuo cuya estatura es de 1700 milmetros est entre los 56.9 y
los 60.2 kilogramos.
EXPRESIN PARA CONSTRUIR UN
INTERVALO DE CONFIANZA SOBRE
EL VALOR DE y x0
1 (x0 x )
(n 2 )
y x0 y 0 t1 S y x 1 + +
2
n (n 1) S x2
144
CLCULO
1 (1700 1654.2667 )
y 0 58.5232 2.1614 2.0792 1 + +
15
(15 1)(47.6302)2
y 0 [53.7429,63.3033]
Peso adolescentes
60
58
56
54
52
50
48
46
1500
1600
1700
1800
Estatura adolescentes
2.
A continuacin se presentan los datos de estatura sentado y estatura total de
un grupo de nios cuyas edades oscilan entre los 6.7 y 7.6 aos.
ESTATURA SENTADO
631
593
617
615
660
672
628
621
636
637
651
590
606
642
ESTATURA TOTAL
1100
1100
1133
1163
1213
1155
1130
1111
1155
1165
1197
1062
1144
1163
145
1220
1200
Estatura total
1180
1160
1140
1120
1100
1080
1060
580
600
620
640
660
680
Estatura sentado
a.1) , Aunque existe una dispersin considerable, puede entreverse una asociacin
lineal entre la estatura sentado y la estatura total de los nios.
COEFICIENTE DE PEARSON
r = 0.7344
0 = 362.0680
1 = 1.2413
H0 : = 0
Ha : 0
REGIN DE RECHAZO DE H 0 : = 0
= 0.05
= 0.025
2
1 = 0.975
2
EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
CLCULO DE t c
2)
)
t1(n 2 ) = t1(140.025
= t 0(12
.975 = 2.1788
2
n2
1 r2
14 2
tc = r
t c = 0.7344
1 (0.7344)
= 3.7484
146
UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
afirmarse que s hay una asociacin significativa entre la estatura sentado y la estatura
total.
2. CRITERIO DEL COEFICIENTE DE DETERMINACIN
COEFICIENTE DE DETERMINACIN
R2 = r 2
CLCULO
R 2 = (0.7344) = 0.5394
c.2) , De acuerdo al coeficiente, el modelo ajustado explica el 53.94% de la
variabilidad total de la estatura total. Dicho valor est muy prximo a la variabilidad
debida a los residuales, motivo por el cual ser importante verificar que el modelo
cumpla con otros criterios antes de utilizarlo para estimar.
2
SUPUESTOS
Valores fijos para X y
valores aleatorios para Y
Errores independientes
Homosedasticidad
en los errores
Distribucin normal
en los errores
GRFICA DE PAPEL
Estatura total
Errores esperados acumulados
1.00
.75
.50
.25
0.00
0.00
.25
.50
.75
1.00
147
H 0 : 1 = 0
H a : 1 0
REGIN DE RECHAZO DE H 0 : 1 = 0
= 0.05
= 0.025
2
= 0.975
2)
)
t1(n 2 ) = t1(140.025
= t 0(12
.975 = 2.1788
2
Sy x = Sy
S y x = 40.1271
1 r 2 (n 1)
(n 2)
1
Sy x
(n 1) S x
CLCULO
tc =
1.2413
= 3.7485
28.3466
(14 1) 23.7414
y 0 = 0 + 1 x0
CLCULO
630 = 1144.0762
, Gracias al modelo de regresin lineal podemos estimar que un nio con 630
milmetros de estatura sentado tendra una estatura total de 1144.0762 milmetros.
EXPRESIN PARA CONSTRUIR UN
INTERVALO DE PREDICCIN SOBRE
EL VALOR DE y 0
1 (x0 x )
+
y 0 y 0 + t1(n 2 ) S y x
2
n (n 1) S x2
148
CLCULO
1 (630 628.5000 )
y 0 1144.0762 2.1755 28.3466
+
14 (14 1)(23.7414 )2
y 0 [1127.5461,1160.6063]
y x y 0 t1(n2 ) S y x 1 +
0
2
1 (x0 x )
+
n (n 1) S x2
1 (630 628.5000 )
y 0 1144.0762 2.1755 28.3466 1 + +
14 (14 1)(23.7414 )2
y 0 [1080.1408,1208.0116]
, En esta poblacin, la estatura total promedio de nios con una estatura sentado de
630 milmetros estara entre los 1080.1408 y los 1208.0116 milmetros.
1220
1200
Estatura total
1180
1160
1140
1120
1100
1080
1060
580
600
620
640
660
680
Estatura sentado
149
EJERCICIOS DE REPASO
1. Uno de los principales problemas en la antropometra de ancianos es la
determinacin de la estatura total. Una manera indirecta es construir modelos de
regresin con otras medidas antropomtricas. Una de las ms usadas es la altura
de lo rodilla, pues se cree que existe una fuerte relacin lineal con la estatura. Los
siguientes datos corresponden a una muestra de ancianos del sexo femenino de
un asilo de ancianos de la ciudad de Mxico:
Altura
de
40.8 48.3 46.5 43.3 47.5 45.6 49.9 44.7 46.7 46.2 47.4 40.4 46.9 47.3
rodilla
Estatura 137.5 142.0 142.0 144.4 144.8 141.8 156.2 144.0 149.7 144.0 151.8 134.1 143.9 140.5
Altura de
42.5 43.2 50.0 48.0 49.3 44.9 45.7 50.4 46.0 45.0 43.4 37.5
rodilla
Estatura 145.0136.0 151.2 140.2 143.0 138.1 139.7 153.9 142.0 137.0 140.0 124.5
a) Dibujar en un diagrama de dispersin los datos.
b) Calcula la recta de regresin correspondiente y graficarla.
c) Determina si el modelo es adecuado, es decir calcular coeficiente de
correlacin, coeficiente de determinacin y realizar la prueba de hiptesis sobre
la pendiente de la recta.
d) Si es el caso, realizar una estimacin puntual y por intervalo para la estatura de
una anciana cuya altura de la rodilla sea de 45.8 cm, tanto del valor individual
como para el valor promedio.
2. Se desea saber si es posible encontrar un modelo de regresin lineal entre la
fuerza muscular medida en kilos con un dinammetro y la resistencia para
sostener un peso determinado al aire y con el brazo extendido, medida en minutos
y dcimas de minutos. Todo realizado con la mano derecha, en una muestra de
15 individuos adultos. Los valores obtenidos son los siguientes:
fuerza (kg.)
Resistencia
(min.)
23 25 26 28 23 25 26 29 24 25 27 26 24 26 28
0.8 0.9 2.0 2.7 1.2 1.5 2.4 3.0 0.8 1.9 2.0 1.7 1.2 1.1 1.5
39
50
25
36
18
31
27
150
Nios
30
41
14
27
10
26
15
Altura
Edad sinfisial
Padres 165.10 160.02 170.18 162.56 172.72 157.48 177.80 167.64 172.72 170.18 175.26 180.34
Hijos 172.72 167.64 172.72 165.10 175.26 167.64 172.72 165.10 180.34 170.18 172.72 177.80
a)
b)
c)
d)
151
56 42 72 36 63 47 55 49 38 42 68 60
147 125 160 118 149 128 150 145 115 140 152 155
a)
b)
c)
d)
3.2
4.6
7.5
8.4
6.3
2.4
7.2
3.9
4.7
9.1
5.656 7.238 10.515 11.532 9.159 4.752 10.176 6.447 7.351 12.323
a)
b)
c)
d)
152
70
77
76
410
389
302
160
153
139
153
Bioestadstica
Prctica 1: Pruebas de Hiptesis
Se trabaja con la base de datos contenida en el archivo antropometria.sav la cual
contiene informacin sobre algunas caractersticas somatolgicas de los alumnos de
Antropologa Fsica de primer semestre en el ciclo 2003-1. Se presentan ejemplos y
actividades para que realicen los alumnos.
I. Una muestra. Suponiendo que los datos representan una muestra representativa de
los estudiantes de la ENAH de primer semestre en ese ciclo, Es posible afirmar que la
edad promedio de los alumnos de este ciclo es menor de 21 aos?
La hiptesis a contrastar es: Hinv : < 21 , por lo tanto las hiptesis estadsticas son:
H o : 21 vs. H a : < 21 . En SPSS se deber seguir los siguientes pasos:
1. En el men Analyze,
seleccionar
Compare
Means y seleccionar OneSample T Test... como se
muestra en la figura.
2. En el cuadro de dilogo
introducir la variable edad y
el valor 21 como se muestra
en la figura y dar Ok.
154
para la diferencia 21 viendo que el intervalo contiene slo valores son positivos.
Por lo tanto se infiere que 21 > 0 > 21 . Por lo tanto, la hiptesis de
investigacin no es correcta, ya que la media estadsticamente (p=.000) es mayor a 21.
T-Test
One-Sample Statistics
N
Edad exacta
62
Mean
22.8446
Std. Deviation
3.70024
Std. Error
Mean
.46993
One-Sample Test
Test Value = 21
Edad exacta
t
3.925
df
61
Sig. (2-tailed)
.000
Mean
Difference
1.8446
95% Confidence
Interval of the
Difference
Lower
Upper
.9049
2.7843
II. Ejercicio Se puede inferir que los ingresos familiares promedio en la poblacin de
estudio es mayor a $10,000?
III. Dos muestras independientes. Es posible inferir que existen diferencias
significativas en las edades de los alumnos respecto al turno?. La hiptesis a contrastar
es:
H o : 1 = 2 vs.
H a : 1 2
1. En el men Analyze,
seleccionar
Compare
Means
y
seleccionar
Independent-Samples
T
Test...
2. En el cuadro de dilogo
introducir la variable edad
en el cuadro de variables a
contrastar. Se introduce la
variable turno en el cuadro
Grouping Variable. Dar
clic en botn Define
Como el grupo
Groups.
matutino esta codificado
como 5 y el vespertino
como 8, se introducen estos
valores
como
identificadores de los grupos
1 y respectivamente. Dar
clic en Continue y en Ok.
155
T-Test
Group Statistics
Edad exacta
Turno
Matutino
Vespertino
N
36
26
Mean
21.7368
24.3785
Std. Deviation
3.41613
3.58548
Std. Error
Mean
.56936
.70317
F
Edad exacta
Equal variances
assumed
Equal variances
not assumed
1.057
Sig.
.308
df
Sig. (2-tailed)
Mean
Difference
Std. Error
Difference
95% Confidence
Interval of the
Difference
Lower
Upper
-2.943
60
.005
-2.6417
.89763
-4.43727
-.84622
-2.920
52.429
.005
-2.6417
.90477
-4.45695
-.82654
156
2. En el cuadro de variables
seleccionar
las
dos
circunferencias del brazo e
introducirlas
al
cudro
Paired_Variables: en Ok.
T-Test
Paired Samples Statistics
Mean
Pair
1
Circunferencia del
brazo relajado
Circunferencia del
brazo contrado
Std. Deviation
Std. Error
Mean
274.188
64
34.6817
4.3352
286.063
64
37.9937
4.7492
157
Correlation
64
Sig.
.840
.000
Mean
Pair
1
-11.875
Std. Deviation
Std. Error
Mean
20.7865
2.5983
95% Confidence
Interval of the
Difference
Lower
Upper
-17.067
-6.683
df
-4.570
63
93
71
85
53
98
63
79
61
82
44
95
75
89
51
85
60
84
54
10
92
71
Sig. (2-tailed)
158
.000
112
Despus 93.1
83.0
Persona
11
12
13
Antes
103.05
111.89
Despus
97.47
107.6
91.0
95.76
83.9
85.64 90.44
14
15
16
83.2
94.74
99.15
126.3
80.81
89.9
97.66
123.3
VII. Prueba ANOVA: Se desea saber si entre las mujeres existen diferencias
significativas en la estatura total respecto a la variable que agrupa la edad. Como se
tienen tres niveles de agrupacin la hiptesis a probar es: H o : 1 = 2 = 3 . En primer
lugar en SPSS seleccionaremos las mujeres, grupo codificado con el nmero 1 en la
variable sexo. De la opcin Data damos click en la opcin Select Cases y activamos la
opcin If condition is satisfied, como se muestra en la pantalla siguiente:
159
En el cuadro Dependent
List: insertar la variable
estatura. En el cuadro
Factor: introducir la
variable grupo de edad.
Como resultado se
obtiene la tabla ANOVA, donde se observa que sig. = p = .231 > = .05 , por lo tanto
no se rechaza la hiptesis nula, es decir las medias de la estatura en los tres grupos de
edad no son estadsticamente diferentes.
Oneway
ANOVA
Estatura Total
Between Groups
Within Groups
Total
Sum of
Squares
6887.515
67096.000
73983.515
df
2
30
32
Mean Square
3443.758
2236.533
F
1.540
Sig.
.231
160
Si se hubiera rechazado la
hiptesis nula, tendramos
que repetir la prueba
ANOVA y agregar la
prueba de contrastes
mltiples, , dando click en
el botn Post Hoc...,
seleccionar la prueba de
Tukey, dar click en
Continue y Ok.
VIII.
Ejercicio
Resolver los problemas:
3. Una empresa editorial est haciendo un estudio de mercado para sacar el perfil
de los lectores de peridicos en un pas determinado; consideran que el grado de
escolaridad (entendido como el total de aos aprobados en su trayectoria
escolar) es un factor determinante en la caracterizacin de los lectores; la
empresa ha clasificado a los peridicos en cuatro categoras: los diarios que se
especializan o ponen nfasis en la nota roja (A); los orientados a la informacin
deportiva (B); los que enfatizan aspectos econmicos (C) y los que se centran en
aspectos polticos y sociales (D). Los resultados obtenidos de la variable de
inters son los siguientes:
A
B
C
D
9
6
10
6
17
12
11
20
6
6
6
4
12
21
15
12
3
5
9
5
19
16
9
12
9
6
6
9
17
6
6
6
12
9
12
19
12
9
12
5
6
17
12
1
14
6
7
16
6
4
6
17
2
26
17
15
15
9
20
12
9
2
9
17
17
Con estos datos hay evidencia suficiente para asegurar que la escolaridad de los
lectores es un factor de variacin entre los lectores de peridicos? Suponga
distribucin normal en las poblaciones. Sea =0.05
4. La Secretara del Medio Ambiente quiere determinar si los cambios en la
temperatura del agua del Golfo de Mxico, causados por la planta de
Laguna Verde, tienen un efecto significativo sobre la fauna marina en la
regin. Se dividieron al azar cuatro grupos de especimenes recin
nacidos de cierta especie de peces. Se colocaron los grupos en medios
ambientes separados que simulan el ocano, completamente idnticos,
con excepcin de la temperatura del agua. Seis meses despus se
pesaron los especimenes. Los resultados (en libras) se dan en la tabla
siguiente:
161
15
14
17
24
21
28
18
16
26
21
13
18
16
19
20
19
25
24
21
17
23
162
Bioestadstica
Prctica 2: Pruebas No paramtricas.
I.
Con los datos del archivo antropometria. sav, aplicar la prueba 2 para ver
si existe relacin entre el turno y el sexo de los estudiantes de primer ao de
la licenciatura en Antropologa Fsica.
1. En el men Analyze se
selecciona la opcin
Descrpitive Statistics,
escogiendo Crosstabs.
3. Se da clic en el botn
Statistics...
163
Crosstabs
Case Processing Summary
Cases
Missing
N
Percent
0
.0%
Valid
N
Sexo del Individuo * Turno
Percent
100.0%
64
Total
N
64
Percent
100.0%
Femenino
Masculino
Total
Turno
Matutino
Vespertino
24
9
12
19
36
28
Tabla de
contingencia o
cruzada
Total
33
31
64
Chi-Square Tests
Pearson Chi-Square
Continuity Correctiona
Likelihood Ratio
Fisher's Exact Test
Linear-by-Linear
Association
N of Valid Cases
Value
7.516b
6.198
7.667
df
1
1
1
7.399
Asymp. Sig.
(2-sided)
.006
.013
.006
Exact Sig.
(2-sided)
Exact Sig.
(1-sided)
.011
.006
.007
Valor de c2 y p.
p< = 0.05 , por
tanto se rechaza
H o : no existe
relacin entre sexo
y turno
64
Nominal by
Nominal
Phi
Cramer's V
N of Valid Cases
Value
.343
.343
64
Approx. Sig.
.006
.006
Aunque la prueba 2
indica asociacin entre las
variables , se puede inferir
que es dbil, por el valor
de V de Cramer
164
2
II. Prueba cuando se tienen los datos en una tabla de contingencia. En un estudio
sobre planificacin familiar en el Estado de Hidalgo se aplico una encuesta para analizar los
posibles factores que influyen en el uso de anticonceptivos. En la siguiente tabla se
presentan las frecuencias observadas de las mujeres encuestadas en relacin a su edad y si
usan algn mtodo anticonceptivo
Uso de anticonceptivos
Usuarias
No
Edad
(aos)
Usuarias
15-19
8
11
20-24
33
23
25-29
31
30
30-34
22
22
35-39
25
18
40-49
14
40
Existe relacin entre la edad y el uso de anticonceptivos?
165
III. Ejercicio: Existe relacin entre la edad de los alumnos (grupo de edad) y el turno
de estudio, de la base antropometra.sav.
IV. Prueba de Normalidad de
Kolmogorov-Smirnov. Se desea saber si
ingresos
familiares
la
variable
contenida en la base de datos
antropometra.sav tiene distribucin
normal. La hiptesis es: H o : La variable
ingresos familiares tiene distribucin
normal.
1. Del men Analyze seleccionar
Nonparametric Tests y escoger la opcin
1-Sample K-S...
2. Introducir la variable
Ingresos familiares en el
cuadro Test Variable List.
Verifica que este activada la
opcin Normal en Test
Distribution
Dar clic en OK.
NPar Tests
166
N
Normal Parameters a,b
Ingresos
Familiares
50
11065.0000
11139.030
.247
.247
-.218
1.743
.005
Mean
Std. Deviation
Absolute
Positive
Negative
Most Extreme
Differences
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
V. Ejercicio: Usando el comando Split File, verificar si la variable estatura total tiene
distribucin normal en hombres y mujeres por separado.
VI. Prueba del signo y Wilcoxon. . A 16 estudiantes se les aplic un examen sobre estadstica
elemental en un da caluroso. Ocho de ellos, seleccionados aleatoriamente, tomaron la prueba
en un saln sin aire acondicionado. Posteriormente, despus de un intermedio corto,
terminaron un examen en un saln con aire acondicionado. Con los otros ocho estudiantes se
invirti este procedimiento:
Estudiante 1
Sin aire
52
Con aire
49
2
90
94
3
63
60
4
74
78
5
87
93
6
77
77
7
92
93
8
72
74
9
77
78
10
94
93
11
67
78
12
86
89
13
78
92
14
84
83
15
57
49
16
55
68
Proporciona la muestra razn suficiente para concluir que la utilizacin del aire
acondicionado en un da caluroso influye sobre las calificaciones del examen?
1. Capturamos la informacin en dos variables de SPSS llamadas Sin Aire y Con Aire.
2. Del men Analyze
seleccionar
Nonparametric Test y
2 Related Samples.
NPar Tests
Wilcoxon Signed Ranks Test
Ranks
N
Sin Aire - Con Aire
Negative Ranks
Positive Ranks
Ties
Total
5a
10b
1c
16
Mean Rank
6.20
8.90
Sum of Ranks
31.00
89.00
Z
Asymp. Sig. (2-tailed)
Sign Test
168
Frequencies
Negative Differencesa
Positive Differencesb
Ties c
Total
N
5
10
1
16
Test Statisticsb
VI. Ejercicio: Se desea conocer qu tan eficaz resulta una dieta para reducir el peso de las
personas para la cual se seleccion una muestra aleatoria de 16 personas interesadas en bajar
de peso, registrndose el peso de cada persona antes y despus del tratamiento,
presentndose los resultados en la tabla siguiente:
Persona
1
2
3
4
5
6
7
8
9
10
Antes
96.9 89.11 105.7
112
93.45 99.1 108.32 88.87
91.0
95.76
Despus
93.1
83.0
101.9 105.87 89.14 95.0 106.56
83.9
85.64 90.44
Persona
Antes
Despus
11
103.05
97.47
12
111.89
107.6
13
83.2
80.81
14
94.74
89.9
15
99.15
97.66
16
126.3
123.3
Usar las pruebas del signo y de Wilcoxon para inferir si es que hubo una disminucin
significativa en el peso de las personas.
VII. Prueba U de Mann-Whitney para comparar dos muestras independientes:
Se desea saber si existe diferencia en el panculo del trceps entre hombres y
mujeres con base en la muestra de
alumnos de primer ao de la ENAH,
contenida
en
el
archivo
antropometria.sav, suponiendo que
las poblaciones no se distribuyen
normal. H 0 : 1 = 2 .
169
2. Introducir la variable
Panculo del Trceps en
el cuadro Test Variable
List. Introducir la
variable sexo al cuadro
Grouping Variable y dar
clic en Define
Groups...Escribir 1 y 2.
Verificar que este
activado la opcin
Mann-Whitney U
Dar clic en OK
Mann-Whitney Test
Ranks
Panculo del Trceps
N
32
31
63
Mean Rank
39.08
24.69
Sum of Ranks
1250.50
765.50
Test Statisticsa
Mann-Whitney U
Wilcoxon W
Z
Asymp. Sig. (2-tailed)
Panculo
del Trceps
269.500
765.500
-3.115
.002
170
1. Como queremos
realizar el anlisis en
cada sexo, usamos la
opcin Split del
men Data, e
introducimos la
variable sexo
activando la opcin
indicada.
2. Introducir la variable
Estatura total en el
cuadro Test Variable
List. Introducir la
variable gedad al cuadro
Grouping Variable y dar
clic en Define
Groups...Escribir 1 y 3.
Verificar que este
activado la opcin
Kruskal-Wallis H.
Dar clic en OK
171
Grupo de edad
[17,22)
[22,27)
[27,33)
Total
N
23
6
4
33
Mean Rank
15.52
22.00
18.00
Test Statisticsa,b,c
Chi-Square
df
Asymp. Sig.
Estatura Total
2.186
2
.335
Grupo de edad
[17,22)
[22,27)
[27,33)
Total
N
12
11
6
29
Mean Rank
11.50
16.45
19.33
Estatura Total
3.905
2
.142
172
3
1
5
5
1
0
5
4
0
0
3
3
4
4
173
Bioestadstica
Prctica 3: Anlisis de Regresin
2. Introducir la
sentencia sexo=1 en
el cuadro de dialogo
y dar clic en
Continue y luego
en Ok. Los casos de
hombres aparecen
tachados.
3. Investigaciones en
somatologa postulan
que existe asociacin
lineal entre estatura y
altura a la rodilla.
Ajustaremos
un
174
modelo con los datos de los alumnos de primer ao de antropologa fsica. Del men
Analyze seleccionar Regression y despus Linear.
4. Introducir la variable
Estatura Total en el
cuadro Dependent: y
Altura de Rodilla en
Independent
Regression
Variables Entered/Removedb
Model
1
Variables
Entered
Altura de
a
Rodilla
Variables
Removed
Method
.
Enter
Coeficiente de
Correlacin
Model Summary
Model
1
R
R Square
.883a
.781
Adjusted
R Square
.773
Std. Error of
the Estimate
22.5010
Coeficiente de
Determinacin
175
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
54009.207
15188.793
69198.000
df
1
30
31
Mean Square
54009.207
506.293
F
106.676
Probando la
hiptesis:
H 0 : 0 = 1 = 0
Sig.
.000a
Coefficientsa
Model
1
(Constant)
Altura de Rodilla
Unstandardized
Coefficients
B
Std. Error
687.316
87.997
1.833
.177
Standardized
Coefficients
Beta
.883
t
7.811
10.328
Sig.
.000
.000
Probando la hiptesis H 0 : 0 = 0
Correlations
176
Probando la
hiptesis
H 0 : 1 = 0
Correlations
Estatura Total
Altura de Rodilla
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Estatura Total
1
.
33
.883**
.000
32
Altura de
Rodilla
.883**
.000
32
1
.
32
Valor de r.
Probando la hiptesis
H0 : = 0
.75
.50
.25
0.00
0.00
.25
.50
.75
1.00
177
Scatterplot
Dependent Variable: Estatura Total
Regression Standardized Residual
-1
-2
1500
1600
1700
1800
Estatura Total
1. Con la misma base de datos y con las mujeres seleccionados ajustaremos un modelo
considerando como variable dependiente el peso y como independiente la estatura total,
el panculo del trceps, la circunferencia del brazo relajado y el permetro de la cintura.
2. En el men de
Linear Regresin
Linear introducir las
variables como se
muestra en el cuadro.
3. Seleccionar en
Method la opcin
Stepwise (paso a
paso) de seleccin de
variables.
4. En el men Plots...
seleccionar las
grficas como en el
caso del modelo de
regresin lineal
simple. Dar Ok.
178
Regression
Variables Entered/Removeda
Model
1
Variables
Entered
Variables
Removed
Permetro
de Cintura
Circunfere
ncia del
brazo
relajado
Estatura
Total
Method
Stepwise
(Criteria:
Probabilit
y-of-F-to-e
nter <=
.050,
Probabilit
y-of-F-to-r
emove >=
.100).
Stepwise
(Criteria:
Probabilit
y-of-F-to-e
nter <=
.050,
Probabilit
y-of-F-to-r
emove >=
.100).
Stepwise
(Criteria:
Probabilit
y-of-F-to-e
nter <=
.050,
Probabilit
y-of-F-to-r
emove >=
.100).
179
Model Summaryd
Model
1
2
3
R
R Square
.865a
.748
b
.911
.830
.935c
.874
Adjusted
R Square
.740
.818
.861
Std. Error of
the Estimate
5.56144
4.65262
4.06554
ANOVAd
Model
1
Regression
Residual
Total
Regression
Residual
Total
Regression
Residual
Total
Sum of
Squares
2756.042
927.888
3683.930
3056.169
627.760
3683.930
3221.128
462.802
3683.930
df
1
30
31
2
29
31
3
28
31
Mean Square
2756.042
30.930
F
89.107
Sig.
.000a
1528.085
21.647
70.591
.000b
1073.709
16.529
64.961
.000c
La prueba
de que
todos los
s son
cero.
H 0 : 0 = 1 = 2 = 3 = 0
Coefficientsa
Model
1
2
(Constant)
Permetro de Cintura
(Constant)
Permetro de Cintura
Circunferencia del
brazo relajado
(Constant)
Permetro de Cintura
Circunferencia del
brazo relajado
Estatura Total
Unstandardized
Coefficients
B
Std. Error
-18.969
8.339
.103
.011
-31.011
7.690
6.334E-02
.014
Standardized
Coefficients
Beta
.533
t
-2.275
9.440
-4.033
4.531
Sig.
.030
.000
.000
.000
.865
.161
.043
.438
3.724
.001
-107.149
5.158E-02
25.020
.013
.434
-4.283
4.039
.000
.000
.146
.038
.397
3.832
.001
5.586E-02
.018
.250
3.159
.004
Los
coeficientes
estimados
0 , 1, 2 , 3
180
Excluded Variablesd
Model
1
2
3
Estatura Total
Panculo del Trceps
Circunferencia del
brazo relajado
Estatura Total
Panculo del Trceps
Panculo del Trceps
Collinearity
Statistics
Tolerance
.729
.764
t
3.023
1.398
Sig.
.005
.173
Partial
Correlation
.490
.251
.438
3.724
.001
.569
.425
.250b
-.166b
-.128c
3.159
-1.370
-1.191
.004
.182
.244
.513
-.251
-.223
.718
.389
.384
Beta In
.288a
.144a
a
Variables
excluidas en
cada paso.
Residuals Statisticsa
Predicted Value
Residual
Std. Predicted Value
Std. Residual
Minimum
40.8726
-8.4559
-1.798
-2.080
Maximum
88.6271
8.0791
2.887
1.987
Mean
59.1669
.0300
-.004
.007
Std. Deviation
10.03511
3.80688
.984
.936
N
33
33
33
33
Charts
Normal P-P Plot of Regression Stand
Dependent Variable: Peso Corporal
1.00
.75
.50
.25
0.00
0.00
.25
.50
.75
1.00
181
Scatterplot
Dependent Variable: Peso Corporal
Regression Standardized Residual
3
2
1
0
-1
-2
-3
40
50
60
70
80
90
100
Peso Corporal
182
f)
g)
h)
i)
j)
155.7
22.40
44.75
159.0
23.00
46.00
163.3
23.70
47.00
166.0
24.30
47.90
169.0
24.92
48.95
172.0
25.50
49.90
174.5
25.80
50.30
176.1
26.01
50.90
176.5
26.15
50.85
179.0
26.30
51.10
Ajustar el modelo de regresin lineal mltiple
Realizar las pruebas de hiptesis sobre los coeficientes de las variables
independientes.
Calcular el coeficiente de determinacin y el coeficiente de correlacin mltiple.
Verificar supuestos sobre los errores.
El modelo estimado es correcto?
183