Você está na página 1de 183

BIOESTADSTICA

ParaAntroplogosFsicos

JosLuisCastrejnyDianaTroncoso
[Seleccionarfecha]

NotasparaelcursodeBioestadsticaimpartidoenelsegundosemestredelalicenciaturaen
AntropologaFsicadelaEscuelaNacionaldeAntropologaeHistoria.Versinpreliminar.

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

UNIDAD I
Introduccin
Como su nombre lo dice, el objetivo principal de la ESTADSTICA INFERENCIAL es
inferir los PARMETROS POBLACIONALES; es decir, a partir de una muestra
aleatoria, establecer con la mayor probabilidad posible los valores desconocidos de la
poblacin estudiada; por ejemplo; la media , proporcin p o varianza 2 .
Generalmente, el investigador puede plantear hiptesis sobre los parmetros; por
ejemplo:
HIPTESIS LITERAL
DEL INVESTIGADOR
La proporcin de personas en la ENAH que usan
lentes es menor a 0.2
La proporcin de personas que acostumbran
consumir comida rpida es de 0.60.
La proporcin de personas con obesidad en la
delegacin Benito Jurez es mayor que en la
delegacin Milpa Alta.
La media de la estatura en las mujeres estudiantes de
la ENAH es menor a 165 cm.
La media del nmero de minutos diarios que se usa
el automvil en la Ciudad de Mxico es mayor que
en la ciudad de Mrida.

HIPTESIS ESTADSTICA
DEL INVESTIGADOR

H inv : p < 0.20


H inv : p = 0.60
H inv : p BJ > p MA
H inv : < 165
H inv : DF > Mer

Empero, es tarea de la estadstica inferencial determinar si estas hiptesis son vlidas


o no, mediante alguna de las siguientes tcnicas:
1. ESTIMACIN:
a) Puntual: En la cual, a partir de los datos de una muestra y la distribucin
probabilstica de la variable, se estima un valor para el parmetro.
b) Por intervalos: A travs de la cual, partiendo de la informacin de la muestra y
la distribucin probabilstica de la variable, se define un rango de valores entre
los cuales probablemente se encuentra el del parmetro.
2. PRUEBAS O CONTRASTES DE HIPTESIS: Estrategia que, utilizando los datos
de la muestra y la distribucin probabilstica de la variable, define la probabilidad
de cometer un error en la estimacin y se determina una regin de rechazo para la
hiptesis.

ESTIMACIN PUNTUAL
Sea la letra con la que se denota un parmetro poblacional. Si se toma una muestra
aleatoria de tamao n ( X 1 , X 2 , X 3 ,..., X n ) , es una funcin de los valores de la

muestra: = f ( X 1 , X 2 , X 3 ,..., X n ) ; es decir, es un estimador puntual de .


A. MTODO PARA HALLAR ESTIMADORES PUNTUALES

Existen diversos procedimientos para encontrar estimadores puntuales de los


parmetros poblacionales ; por ejemplo: el mtodo de momentos, el de mnimos

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

cuadrados y el de funcin de verosimilitud. Por el momento, revisemos slo ste


ltimo:
A.1) MTODO DE FUNCIN DE VEROSIMILITUD
Si X 1 , X 2 , X 3 ,..., X n son los datos de una muestra aleatoria que se obtuvo de cierta

poblacin cuya funcin de probabilidad es P ( x ) , la funcin de verosimilitud de la

muestra es L( X 1 , X 2 , X 3 ,..., X n ) = P( X 1 )P( X 2 )P( X 3 )...P( X n ) . Por ello, este mtodo

de estimacin consiste en encontrar el valor del parmetro donde la funcin


L( X 1 , X 2 , X 3 ,..., X n ) alcance su mximo; es decir, hay que calcular la derivada de

dL
, igualarla a cero y despejar . Veamos, algunos ejemplos de esto:
d
A.1.1) Estimador del parmetro
Sean X 1 , X 2 , X 3 ,..., X n los datos de una muestra aleatoria que se obtuvo de cierta

poblacin donde la variable X tiene distribucin poisson con parmetro [X~P( )].
Cul es el mejor estimador de ste parmetro?

Sabemos que la distribucin de la variable X es:

P(x ) =

Por ende, cada X i tiene tal distribucin:

e x1 P ( x ) = e
,
P(x1 ) =
2
x2!
x1!

x2

e x 3
e x n
,, P ( xn ) =
x3!
xn!

e x1 e x 2 e x3 e x n

x1!
x2!
x3!
xn !

Lo cual puede abreviarse a:

L=

, P ( x3 ) =

Siguiendo la expresin L( X 1 , X 2 , X 3 ,..., X n ) = P ( X 1 )P( X 2 )P( X 3 )...P ( X n ) , la


funcin de verosimilitud de esta variable es:

L( X 1 , X 2 , X 3 ,..., X n ) =

e x
x!

e n x1 + x2 + x3 +...+ xn
x1 x 2 x3 ... x n !

Y ello reducirse en:


n

xi

L=

e n i =1
xi !
n

Porque

X 1 + X 2 + X 3 + ... + X n = xi
i =1

X 1 X 2 X 3 ... X n = xi

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Ahora hay que maximizar la funcin. Si sta es una funcin cualquiera, los
puntos crticos de f ( x ) son los mismos que los valores crticos del logaritmo
natural f ( x ) :

d ln f ( x )
=0
dx

xi
n

i =1
e

ln L = ln
xi !

a
ln = ln a ln b
b
n

xi

ln L = ln e n i =1 ln ( xi !)

ln (a b ) = ln a + ln b :
n

Como:

Como:

ln L = ln (e

xi
) + ln i =1

ln ( xi !)

ln x y = y ln x

ln e x = x

Como:

ln L = n + xi ln ln ( xi !)
i =1

Y obtener la derivada:

d ln L
d n
d ln d ln ( xi !)
= n
+ xi

d
d i =1
d
d
dcf ( x ) cdf ( x )
d ln x 1
=
=
dx
dx
dx
x
n
dL
1
= n + xi 0

d
i =1

Como:

dc
=0
dx

Igualando a cero, el parmetro se convierte en estimador y resta despejarlo:


n

n+
n

xi
i =1

x
i =1

=0
n

=n

x
i =1

= n

x
i =1

x =

Y as sabemos que al tener una variable aleatoria con distribucin poisson [X~P( )],
el estimador de mxima verosimilitud del parmetro es la media muestral x .

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

A.1.2) Estimador del parmetro p


Sean X 1 , X 2 , X 3 ,..., X n los datos de una muestra aleatoria que se obtuvo de cierta
poblacin, donde la variable X tiene distribucin bernoulli con
[X~Be( p )]. Cul es el mejor estimador de ste parmetro?

Sabemos que la distribucin de la variable X es:

P(x ) = p x (1 p )

1 x

1 x1

, P(x 2 ) = p

x2

1 x1

, P ( x3 ) = p

P( x 2 ) = p x2 (1 p )

x3

(1 p )1 x

, P( x n ) = p

P( x3 ) = p x3 (1 p )

1 x2

Lo cual puede abreviarse a:

L= p

(1 p )1 x

xn

(1 p )1 x

Siguiendo la expresin L( X 1 , X 2 , X 3 ,..., X n ) = P ( X 1 )P( X 2 )P( X 3 )...P ( X n ) , la


funcin de verosimilitud de esta variable es:

L = P(x1 ) = p x1 (1 p )

; x = 0,1

Por ende, cada X i tiene tal distribucin:

P( x1 ) = p x1 (1 p )

parmetro p

1 x3

(1 p )1 x +1 x +1 x +...+1 x

x1+ x2 + x3 +...+ xn

P( x n ) = p xn (1 p )

1 xn

Y ello reducirse en:


n

L= p

xi
i =1

(1 p )

xi
i =1

Porque

X 1 + X 2 + X 3 + ... + X n = xi

X 1 X 2 X 3 ... X n = xi

i =1

Ahora hay que maximizar la funcin. Si sta es una funcin cualquiera, los
puntos crticos de f ( x ) son los mismos que los valores crticos del logaritmo
natural f ( x ) :

d ln f ( x )
=0
dx

n
xi

n xi

ln L = ln p i =1 (1 p )
i =1

ln (a b ) = ln a + ln b
n

Como:

ln L = ln p

xi
i =1

+ ln (1 p )

xi
i =1

ln x = y ln x
y

Como:

n
n

ln L = xi ln p + n xi ln(1 p )
i =1
i =1

Y obtener la derivada:
n
n
1
1
d ln L

= xi + n x i
dp
p
i =1
i =1
(1 p )

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

xi
xi

d ln L i =1
i =1

=
+
(1 p )
dp
p
n

Y se multiplica por menos 1, por ende


n

n xi
d ln L i =1
i =1

(1 p )
dp
p
n

xi

Igualando a cero, el parmetro p se convierte en estimador p y resta despejarlo:


n

n
xi

xi

i =1
=0
i =1

(1 p )
p
n
n

n
xi

xi

i =1

i =1
=
(1 p )
p
n
n
(1 p ) xi = p n xi
i =1
i =1

x
i =1

x
i =1

i =1
n

i =1

p xi = p n p xi

= p n

i =1

= p

x = p

Y as tambin descubrimos que al tener una variable aleatoria con distribucin


bernoulli [X~Be( p )], el estimador de mxima verosimilitud del parmetro p es la
media muestral x .
B. PROPIEDADES PARA DETERMINAR EL MEJOR ESTIMADOR
B.1) PROPIEDADES GENERALES
a) INSESGAMIENTO
Si es un estimador del parmetro poblacional , se dice que es insegado si
E = . Por el contrario, si es un estimador sesgado de , se define el sesgo

()

()

()

de como Sesgo = E .
b) SUFICIENCIA
Se dice que un estimador de es suficiente cuando su clculo involucra toda la
informacin de una muestra.
c) MNIMA VARIANZA
Se dice que 1 es un estimador de mnima varianza de si para cualquier otro
estimador 2 se cumple que la varianza del primero es menor que la del segundo:

Var (1 ) < Var (2 ) .

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

d) EFICIENCIA
Siendo 1 y 3 dos estimadores insesgados de , se dice que 1 es ms eficiente

( )

( )

si su varianza es menor a la de 3 : Var 1 < Var 3 .


e) CONSISTENCIA
Se dice que un estimador de es consistente si, cuando n es grande
(n N ) , tender a , siendo su diferencia muy pequea. Esto debido

a que si E > 0 , E es muy pequeo y

Lim P(
n N

< E = 1.

B.2) COMPROBACIN DE LAS PROPIEDADES


Veamos entonces, mediante algunos ejemplos, cmo se comprueba si un estimador
cumple con estas propiedades y el porqu son tan importantes:
La media poblacional es un parmetro que se calcula con la siguiente expresin:
N

X
i =1

Si X 1 , X 2 , X 3 ,..., X n es una muestra aleatoria y E ( xi ) = , tres estimadores posibles


para aproximarse a su valor seran:

1 =

x1 + x 2 + x3
2

2 =

x1 + x n
2

3 =

x1 + x 2 + x3 + ... + x n
n

Cumplen estos tres estimadores con las propiedades antes mencionadas?


PROPIEDAD

ESTIMADOR 1

1
x + x 2 + x3
E ( 1 ) = E 1
= E ( x1 + x 2 + x3 )
2
2

INSESGAMIENTO
1
1
= [E ( x1 ) + E ( x 2 ) + E ( x3 )] = [ + + ]
E ( ) =
2
2
1
3 3
= [3 ] =
=
2
2
2
Como podemos ver, el estimador 1 no es insesgado, puesto que su esperanza es
3
igual a E ( 1 ) = . El sesgo de este estimador es:
2
3
3
2
1

SESGO Sesgo( ) = = Sesgo( ) = = Sesgo( ) = = Sesgo( ) =


2
2
2
2
2
PROPIEDAD

ESTIMADOR 2

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

1
x + xn
E ( 2 ) = E 1
= E ( x1 + x n ) =
INSESGAMIENTO
2
2
E ( ) =
1
[E (x1 ) + E (x n )] = 1 [ + ] = 1 [2 ] = 2 =
2
2
2
2
2 es un estimador insesgado de porque su esperanza es E ( 2 ) = .
SUFICIENCIA
x +x
2 = 1 n
( X 1 + X 2 + X 3 + ... + X )n
2
2 no es un estimador suficiente, pues su clculo slo echa mano de slo 2 datos de
la muestra aleatoria y no del resto de la informacin obtenida.
ESTIMADOR 3

PROPIEDAD

x + x 2 + x3 + ... + x n
E ( 3 ) = E 1

1
= E ( x1 + x 2 + x3 + ... + x n )
n
INSESGAMIENTO
1
= [E ( x1 ) + E (x 2 ) + E ( x3 ) + ... + E ( x n )]
E ( ) =
n
1
= [ + + + ... + ]
n
1
n
= [n ] =
=
n
n
3 es un estimador insesgado de pues su esperanza es E ( 3 ) = .
SUFICIENCIA

( X 1 + X 2 + X 3 + ... + X )n

3 =

X 1 + X 2 + X 3 + ... + X n
n

Asimismo, 3 es un estimador suficiente ya que utiliza todos los datos de la muestra


aleatoria.
Ahora bien, comparemos algunas varianzas de tres parmetros:
3

PROPIEDAD
MNIMA VARIANZA

VARIANZA DE ESTIMADORES

Var (1 ) < Var (2 )


La varianza del estimador 1 es menor que la del estimador 2 , razn por la cual 1
tiene una mnima varianza.
EFICIENCIA

Var (1 ) < Var (3 )

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Siendo los dos insesgados, la varianza del estimador 1 es menor que la del
estimador 3 , razn por la cual 1 cumple con las propiedades de mnima varianza y
eficiencia.
C. ESTIMADORES APROPIADOS MS COMUNES
Aunque es recomendable encontrar el estimador adecuado a travs de un mtodo y
comprobar que cumpla con todas las propiedades, la teora estadstica afirma que los
mejores estimadores para los siguientes parmetros son:
PARMETRO

ESTIMADOR
N

MEDIA
POBLACIONAL

2 =

MEDIA
MUESTRAL

i =1

x=

VARIANZA
POBLACIONAL

Xi

(x
i =1

p=M

VARIANZA
MUESTRAL

s2 =

i =1

(x
i =1

PROPORCIN
MUESTRAL

x)

n 1
n

s2 =

Pues este
estimador es
sesgado:
PROPORCIN
POBLACIONAL

(x
i =1

x)

n
p = m
n

INTERVALOS DE CONFIANZA y CONTRASTE DE HIPTESIS


A. INTERVALOS DE CONFIANZA
A comparacin de la estimacin puntual, la construccin de intervalos es una tcnica
que permite al investigador proponer un rango de valores entre los cuales puede
hallarse, con cierto grado de confianza (y por ende, de error) el del parmetro
poblacional .
Otra ventaja de esta metodologa es que, para calcular los valores L1 y L2 del intervalo
L1 < < L2 , la expresin para su construccin echa mano del tipo de distribucin que
tiene la variable en la poblacin y de algunos datos obtenidos de la muestra, como
son: su tamao (n ) , desviacin estndar (s ) o varianza s 2 y, segn el caso, su
media (x ) o proporcin ( p )

( )

B. CONTRASTE DE HIPTESIS
Sin duda alguna, sta es una de las metodologas que ms utiliza la estadstica para
contrastar cualquier hiptesis que el investigador haya planteado sobre los parmetros
de una o ms poblaciones, o bien, sobre relaciones entre variables.
B.1) FUNDAMENTOS
Habiendo planteado el valor hipottico 0 en la hiptesis del investigador H inv , se
plantean dos hiptesis ms: la HIPTESIS ALTERNATIVA H a y la HIPTESIS

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

NULA H 0 , que siempre incluye en su planteamiento algn signo de igualdad (=, , )


y que es casi siempre opuesta a lo que plantea la hiptesis del investigador H inv :
HIPTESIS DEL
INVESTIGADOR

HIPTESIS NULA

HIPTESIS
ALTERNATIVA

H inv : 0

H 0 : = 0

H inv : < 0

H 0 : 0

H a : < 0

H inv : > 0

H 0 : 0

H a : > 0

H a : 0

Si bien en los intervalos de confianza basta comparar el valor hipottico 0 propuesto


en la hiptesis del investigador H inv contra el intervalo de confianza obtenido con

(1 ) por ciento de confianza, la tcnica de contraste de hiptesis consiste, ya no en

confirmar o no la hiptesis del investigador H inv , sino en contrastar el resultado con la


hiptesis nula H 0 .
B.2) ERRORES POSIBLES Y SU CONTROL
Dada una hiptesis nula H 0 que puede ser verdadera o falsa (no lo sabemos), el
procedimiento de contraste de hiptesis nos lleva a rechazarla o no. Sin duda alguna,
como investigadores quisiramos rechazar una hiptesis nula H 0 falsa y no rechazar
una hiptesis nula H 0 verdadera, pero existen las posibilidades contrarias, a las
cuales se denominan errores:
HIPTESIS NULA H 0
SE RECHAZA
NO SE RECHAZA

VERDADERA
ERROR TIPO I
9

FALSA
9
ERROR TIPO II

La probabilidad de cometer el ERROR TIPO I es conocido como la SIGNIFICANCIA


de la prueba y se denota por . A partir de ello tenemos que:

= P (error tipo I)
= P (rechazar H 0 dado que H 0 es verdadera )
= P (rechazar H 0 | H 0 es verdadera )
En general, la significancia es desconocida, as que el investigador la fija. Como de
ella depende la probabilidad de cometer el error tipo I, se busca que sea pequea; de
ah que los valores ms comunes para la significancia sean:
VALOR DE

= 0.001
= 0.01
= 0.05
= 0 .1

PROBABILIDAD DE
ERROR TIPO I

RAMA DE USO MS COMN

0 .1 %
1 .0 %
5 .0 %
10.0%

Medicina y campo experimental.


Antropologa fsica.
Antropologa fsica.
Ciencias sociales.

10

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Ahora bien, se define al ERROR TIPO II como la POTENCIA de la prueba y se le


denota con la letra , segn lo cual:

= P (error tipo II)


= P (no rechazar H 0 dado que H 0 es falsa )

= P (no rechazar H 0 | H 0 es falsa )


A diferencia de , el valor de est fuera del control del investigador y slo puede
reducrsele aumentando el tamao de la muestra. Por ello es que, como veremos ms
adelante, se sabe que las pruebas no paramtricas son menos potentes que las
pruebas paramtricas, cuyo valor de es ms pequeo.
B.3) HIPTESIS NULAS Y SU REGIN DE RECHAZO
Con respecto a la significancia , cabe mencionar que su valor tambin determina la
regin de rechazo de la hiptesis nula H 0 . Si sta incluye una igualdad H 0 : = 0 ,
la regin de rechazo, como en los intervalos de confianza, se divide en dos, motivo por
el cual se le denomina prueba de dos colas o bilateral. Por el contrario, si la hiptesis
nula H 0 contiene los signos o , ( H 0 : 0 , H 0 : 0 ), la regin de rechazo
queda slo de un lado, contrario al que seala el signo de mayor o menor:

ESTIMACIN DE LA MEDIA POBLACIONAL


A. INTERVALO DE CONFIANZA
A.1) EN POBLACIONES CON DISTRIBUCIN NORMAL
Si la variable aleatoria tiene una distribucin normal con media y varianza 2 ,
sabemos que la expresin para estandarizarla es:

Z=

~ N (0,1)

n
De acuerdo a esta frmula, el intervalo estara entre dos valores: Z y Z , rodeados
por un rea, denotada por , que delimita la confianza del intervalo.
Si 1 es el rea debajo de la curva, entonces el intervalo de confianza puede
especificarse como 1 y el de cada cola es igual a .

11

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

1-
/2

/2

Partiendo de esto tenemos que la probabilidad del valor del parmetro estandarizado
Z est entre Z 1 y Z 1 :
2

P Z 1 < Z < Z 1 = 1
2
2

P Z 1 <
< Z 1 = 1

2
2

QUE
IMPLICA

Pero no olvidemos que el punto es encontrar un intervalo de confianza al (1 ) por


ciento de confianza para la media , por lo cual hay que despejar su valor de la
anterior expresin:

xi

P Z 1 <
< Z 1

2
2

P Z 1
< xi < Z 1

2
2
n
n

< < xi + Z 1
P xi Z 1

2
2
n
n

> > xi Z 1
P xi + Z 1

2
2
n
n

Expresin de probabilidad para el


intervalo de confianza.
Se deja sola a X y al pasar
multiplicando su divisor.
Se despeja al mover a X.
Se multiplica por -1 para hacer
positivo el valor de , lo cual
invierte la desigualdad a mayor
que.
Se invierten los valores de lmites
para recuperar una desigualdad
menor que.

< < xi + Z 1
P xi Z 1

2
2
n
n

P xi Z 1

2
n

Se abrevia la expresin.

De esta forma tenemos que, el intervalo al (1 ) por ciento de confianza para


cuando la poblacin tiene distribucin normal es:

xi Z 1

12

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

El problema de esta expresin para determinar el intervalo de es que supone


conocer ; valor cuyo clculo, por s mismo, requiere el dato de que estamos
estimando:
N

(x

i =1

Ante esta incoherencia, la opcin es sustituir por su estimador puntual s :


n

(x

s=

i =1

x)

n 1

Pero ese simple detalle, cuando la poblacin es pequea (n < 30 ) , implica tambin un
cambio en la distribucin, que deja de ser normal y se convierte en t de student con
n 1 grados de libertad (g.l.):

t=

x (n-1)
~t
s
n

Por tal motivo, la expresin para encontrar el intervalo al (1 ) por ciento de


confianza para cuando la poblacin tiene distribucin normal queda como:
EXPRESIN PARA ENCONTRAR UN INTERVALO AL
(1 ) POR CIENTO DE CONFIANZA PARA CUANDO
LA POBLACIN TIENE DISTRIBUCIN NORMAL.

xi t1(n1)

Donde x es la media muestral, t1(n1) es el valor en tablas de la t de student con

(1 2 ) por ciento de confianza y

n 1 grados de libertad (g.l.), s la desviacin

estndar de la muestra y n es el tamao de la muestra.


A.2) EN POBLACIONES CON DISTRIBUCIN DESCONOCIDA
Si se desconoce la distribucin de variable aleatoria con media y varianza 2 , pero

se tiene una muestra grande (n > 30 ) , de acuerdo al Teorema Central de Lmite puede
asumirse que la variable tiene una distribucin aproximadamente normal. Debido a
ello, la expresin para calcular el intervalo al (1 ) por ciento de confianza para
cuando se tiene una muestra grande de una poblacin con distribucin desconocida
es:
EXPRESIN PARA ENCONTRAR UN INTERVALO AL
(1 ) POR CIENTO DE CONFIANZA PARA CUANDO
LA POBLACIN TIENE DISTRIBUCIN DESCONOCIDA
PERO n > 30

xi Z 1

13

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Donde x es la media muestral, Z 1

con 1

es el valor en tablas de la distribucin normal

) por ciento de confianza, s la desviacin estndar de la muestra y n es el


2

tamao de la muestra.
A.3) EJEMPLOS DE ESTIMACIN
1.
Supongamos que la variable estatura de las mujeres estudiantes de la ENAH
sigue una distribucin aproximadamente normal. Los siguientes datos (en centmetros)
corresponden a una muestra aleatoria de la poblacin:
160.5
152

181
160

158
153

152
157

170
155

164
155

160
156

167
170

160
158

Es posible concluir que la media de la poblacin es menor a 165 cm? Construir un


intervalo de confianza para al 95%.
DATOS GENERALES

n = 18

X~N(,)

x = 160.47

s = 7.52

HIPTESIS

H inv : < 165


CONFIABILIDAD Y SIGNIFICANCIA

2 = 0.025

= 0.05
EXPRESIN
PARA
INTERVALO
VALOR DE t1(n1)
2

xi t1(n1)

(n 1)g.l. = (18 1) = 17 g.l.

160.47 2.1098

APLICACIN

1 2 = 0.975

n
t1(n1) = t .17975 = 2.1098
2

7.52
= (156.73,164.21)
18

COMPARACIN
(156.73,164.21) vs. H inv : < 165
CON LA
HIPTESIS
, De acuerdo a la muestra obtenida y con un nivel de confianza del 95% se puede
afirmar que la estatura promedio de las mujeres estudiantes de la ENAH est entre
156.73 y 164.21 centmetros. Por lo tanto, se tiene evidencia estadstica que indica,
con un error del 5%, que la media de la estatura en esta poblacin es menor a 165
cm.
2.
Un investigador considera que la media del tiempo de recorrido de los
estudiantes de la ENAH a casa es mayor a 60 minutos. Supongamos que los
siguientes valores son datos de una muestra aleatoria de esta poblacin:
120
15

30
75

60
80

75
15

120
20

11
80

30
40

80
75

Suponiendo que la poblacin tiene una distribucin normal:


a) Construir un intervalo al 95% de confianza para la media .

14

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

b) Contestar: Qu se puede concluir respecto a la hiptesis?


DATOS GENERALES

n = 16

X~N(,)

x = 63.44

s = 34.96

HIPTESIS

H inv : > 60
CONFIABILIDAD Y SIGNIFICANCIA

2 = 0.025

= 0.05
EXPRESIN
PARA
INTERVALO
VALOR DE t1(n1)
2

xi t1(n1)
2

n
t1(n1) = t .15975 = 2.1315

(n 1)g.l. = (16 1) = 15 g.l.


63.44 2.1315

APLICACIN

1 2 = 0.975

34.96
= (44.81,82.07 )
16

COMPARACIN
(44.81,82.07 ) vs. H inv : > 60
CON LA
HIPTESIS
a) , Con un 95% de confianza se puede afirmar que la media del tiempo de
recorrido de los estudiantes de la ENAH a casa se halla entre los 44.81 y los 82.07
minutos.
b) , Como este intervalo contiene valores menores a los 60 minutos, de acuerdo a la
muestra no hay evidencia estadstica que permita inferir, con un 5% de error, que la
hiptesis del investigador sea verdadera.
3.
Los siguientes datos corresponden a la circunferencia craneal en centmetros
de 15 nios recin nacidos:
33.38
34.45

34.34
34.10

33.46
32.15
33.95
34.13
34.23
34.19
33.97

33.99
32.73

33.85
34.05

Suponiendo que la poblacin tiene una distribucin normal, es posible afirmar que la
media sea menor a 35 cm? Comprobar esta hiptesis construyendo un intervalo al
90% de confianza.
DATOS GENERALES

n = 15

X~N(,)

x = 33.80

s = 0.63

HIPTESIS

H inv : < 35
CONFIABILIDAD Y SIGNIFICANCIA

= 0.10
EXPRESIN
PARA
INTERVALO
VALOR DE t1(n1)
2

2 = 0.05

xi t1(n1)

(n 1)g.l. = (15 1) = 14 g.l.

1 2 = 0.95

n
t1(n1) = t.1495 = 1.7613
2

15

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

33.80 1.7613

APLICACIN

0.63
= (33.51,34.09)
15

COMPARACIN
(33.51,34.09 ) vs. H inv : < 35
CON LA
HIPTESIS
, Se puede afirmar, con un 90% de confianza, que la media de la circunferencia
craneal de los nios de esta poblacin est entre los 33.51 y los 34.09 centmetros;
motivo por el cual se acepta, con un 10% de error, que la media de esta variable es
menor a 35 cm.
B. CONTRASTE DE HIPTESIS
B.1) HIPTESIS NULAS Y SU REGIN DE RECHAZO
Cuando se quiere estimar el valor de la media poblacional se pueden plantear las
siguientes hiptesis:
HIPTESIS DEL
INVESTIGADOR

HIPTESIS NULA

HIPTESIS
ALTERNATIVA

H inv : 0

H 0 : = 0

H inv : < 0

H 0 : 0

H a : < 0

H inv : > 0

H 0 : 0

H a : > 0

H a : 0

Segn sea el caso y de acuerdo a la significancia , la regin de rechazo para la


hiptesis nula H 0 ser:

HIPTESIS

H inv : 0
PRUEBA
BILATERAL O
DE DOS
COLAS

REGIN DE
RECHAZO DE

H 0 : = 0

1-
/2

H0

/2

t / Z1
H inv : < 0

PRUEBA
UNILATERAL
O DE UNA
COLA

H a : 0

REGIN DE
RECHAZO DE

t / Z1

H 0 : 0

H a : < 0

1-

H0

t / Z1
H inv : > 0

H 0 : 0

H a : > 0

16

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

REGIN DE
RECHAZO DE

1-

H0

t / Z1
Pero saber dnde se encuentra la regin de rechazo no basta; es necesario conocer el
valor de donde parte. Este dato se obtiene reconociendo el tipo de distribucin
probabilstica de la poblacin y hallando en sus tablas el valor que comprenda tal
confiabilidad.
Para una poblacin con distribucin normal, el valor de la regin de rechazo se busca
en las tablas para la distribucin t mediante la expresin t1(n1) si la prueba es bilateral
2

( n 1)
1

si es unilateral. Basta buscar en las tablas de la distribucin t los grados de


o t
libertad e intersectarlo con la confiabilidad, que depende del tipo de prueba.
Finalmente, se agrega un signo negativo si la regin de rechazo (o una parte) se
encuentra en la seccin inferior del eje de las X .
Mientras tanto, para poblaciones cuya distribucin es desconocida pero el tamao de
la muestra es grande (n > 30 ) , el valor donde inicia la regin de rechazo depende de
las expresiones Z 1 (pruebas bilaterales) o Z 1 (pruebas unilaterales). Por ende, en
2

este caso hay que acudir a las tablas de distribucin normal y buscar el valor de Z
que tenga la probabilidad que indica la confianza de la prueba y agregar un signo
negativo si la regin de rechazo est en la seccin inferior del eje de las X .
B.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPTESIS
1. Teniendo la hiptesis del investigador H inv , plantear la hiptesis nula H 0 y la
hiptesis alternativa H a .
2. Reconocer la distribucin probabilstica de la variable de inters.
3. Determinar el ESTADSTICO DE PRUEBA y su distribucin probabilstica. Es
decir, encontrar la expresin que contiene la comparacin del estadstico
muestral o estimador del parmetro con el valor hipottico y la variabilidad
muestral.
EXPRESIN PARA EL ESTADSTICO
DE PRUEBA t c EN POBLACIONES
CON DISTRIBUCIN NORMAL
EXPRESIN PARA EL ESTADSTICO
DE PRUEBA Z c EN POBLACIONES
CON DISTRIBUCIN DESCONOCIDA
PERO n > 30

x 0
s
n
x 0
Zc =
s
n
tc =

4. Calcular el estadstico de prueba.


5. Determinar el nivel de significancia de la prueba, as como la ubicacin y el
valor de la regin de rechazo de la hiptesis nula H 0 .

17

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

6. Ubicar el estadstico de prueba con respecto a la regin de rechazo de la


hiptesis nula H 0 ; si est dentro de ella, rechazar la hiptesis nula H 0 . Si est
fuera, concluir con qu significancia o confiabilidad no se rechaza.
B.3) EJEMPLOS DE CONTRASTE DE HIPTESIS
1.
En una investigacin sobre el rendimiento acadmico de los estudiantes de la
ENAH, una variable de inters fue el tiempo que tardan los alumnos para trasladarse
de su casa a la escuela, el cual se calcula menor a 90 minutos. Suponiendo que la
poblacin tiene una distribucin normal y a partir de los siguientes datos que se
tomaron de una muestra aleatoria:
40
80
15

75
60
75

60
5
100

120
30
45

70
5
85

90
60
40

180
45
100

a) Contrastar la hiptesis con un nivel de significancia de 0.05.


b) Construir un intervalo al 95% de confianza para la media de la poblacin.
Ante un problema as, lo primero que debemos hacer es hacer explcitas las hiptesis:

H inv : < 90

HIPTESIS

H 0 : 90

H a : < 90

Posteriormente, reconocemos la distribucin probabilstica de la poblacin y los datos


generales de la muestra:
DATOS GENERALES
X~N(,)
n = 21
x = 65.71
s = 40.75
Recordando cuando encontramos intervalos de confianza para , sabemos que una
expresin que relaciona los datos de la media poblacional, la media muestral, la
desviacin estndar de la muestra y que se aplica para poblaciones con distribucin
normal es:

t=

x (n-1)
~t
s
n

Donde la variable t tiene una distribucin t de student con n 1 grados de libertad


(g.l.). Por tal motivo, esta expresin nos servir para calcular nuestro estadstico de
prueba:
EXPRESIN PARA EL ESTADSTICO
DE PRUEBA t c

APLICACIN

x 0
s
n
65.71 90
tc =
= 2.73
40.75
21
tc =

Ya con ese dato, falta encontrar la regin de rechazo de la hiptesis nula H 0 para
contrastarlos:

18

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

REGIN DE RECHAZO DE H 0 : 90

= 0.05

t1(n1) = t1(210.051) = t 0(.2095) = 1.7247

1 = 0.95

Por ltimo, hay que ubicar el estadstico de prueba t c con respecto a esta regin de
rechazo y concluir:
UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
a) , Como podemos ver, el estadstico de prueba t c = 2.73 se encuentra dentro de
la regin de rechazo. Por ende, la hiptesis nula H 0 : 90 se rechaza y puede
afirmarse que existe evidencia estadstica que indica que la media del tiempo que
hacen los estudiantes de su casa a la ENAH es significativamente ( p < 0.05) menor a
90 minutos, segn lo afirmaba la hiptesis del investigador.

Ahora bien, resta establecer el intervalo de confianza para la media de esta variable y
confirmar el resultado:
DATOS GENERALES

n = 21

X~N(,)

x = 65.71

s = 40.75

HIPTESIS

H inv : < 90

H 0 : 90

H a : < 90

CONFIABILIDAD Y SIGNIFICANCIA

= 0.025
2

= 0.05
EXPRESIN
PARA
INTERVALO
VALOR DE t1(n1)
2

APLICACIN

xi t1(n1)

(n 1)g.l. = (21 1) = 20 g.l.

65.71 2.0860

= 0.975

n
t1(n1) = t .20
975 = 2.0860
2

40.75
= (47.16,84.26)
21

COMPARACIN
(47.16,84.26 ) vs. H inv : < 90
CON LA
HIPTESIS
b) , Con un 95% de confianza se puede inferir que la media del tiempo que hacen
los estudiantes de su casa a la ENAH est entre los 47.16 y los 84.26 minutos, lo cual
confirma, como seal el investigador y la prueba de hiptesis, que la media de esta

19

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

variable es menor a 90.


2.
Asumamos que la variable gasto diario en relacin a estudios de la poblacin
estudiantil de la ENAH es una variable que sigue una distribucin aproximadamente
normal. Si suponemos que los siguientes datos corresponden a una muestra aleatoria
de estudiantes del turno vespertino:
100
70

50
20

35
75

40
30

60
12

25
50

20
35

15
40

30
30

a) Es posible afirmar que el gasto diario es mayor de $70.00? Considrese una


significancia de 0.05.
b) Encuentre el intervalo al 95% de confianza para la media de la poblacin.
X~N(,)

n = 18

DATOS GENERALES

x = 40.94

s = 23.13

HIPTESIS

H inv : > 70

H 0 : 70

H a : > 70

REGIN DE RECHAZO DE H 0

= 0.05

)
t1(n1) = t1(180.051) = t 0(17
.95 = 1.7396

1 = 0.95

xi 0
s
n
40.94 70
tc =
= 5.33
23.13
18
tc =

EXPRESIN PARA EL
ESTADSTICO DE PRUEBA t c
CLCULO DEL
ESTADSTICO DE PRUEBA t c
UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0

a) , El estadstico de prueba t c = 5.33 se halla fuera de la regin de rechazo, motivo


por el cual la hiptesis nula H 0 : 70 no se rechaza. De esta forma, no se tiene
evidencia estadstica que soporte la afirmacin del investigador de que la media del
gasto diario estudiantil sea significativamente ( p > 0.05) mayor a $70.00.
DATOS GENERALES

X~N(,)

H inv : > 70

n = 18

x = 40.94

HIPTESIS

H 0 : 70

s = 23.13

H a : > 70

20

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

CONFIABILIDAD Y SIGNIFICANCIA

= 0.025
2

= 0.05
EXPRESIN
PARA
INTERVALO
VALOR DE t1(n1)
2

APLICACIN

40.94 2.1098

= 0.975

xi t1(n1)

(n 1)g.l. = (18 1) = 17 g.l.

1)
)
t1(n1) = t1(180.025
= t 0(17
.975 = 2.1098
2

23.13
= (29.44,52.44)
18

COMPARACIN
(29.44,52.44 ) vs. H inv : > 70
CON LA
HIPTESIS
b) , Con un 95% de confianza se puede inferir que la media del gasto diario de la
poblacin de la ENAH se encuentra entre los 29.44 y 52.44 pesos. Debido a ello, con
un 5% de error, puede afirmarse que la hiptesis del investigador era incorrecta al
decir que el promedio de este gasto era superior a los $70.00.

PRUEBA DE NORMALIDAD
A fin de comprobar si la poblacin estudiada de la cual se ha obtenido una muestra
tiene distribucin normal, existen varios mtodos para contrastar las siguientes
hiptesis:

H o : La muestra procede de una poblacin con distribucin normal.


H a : La muestra no procede de una poblacin con distribucin normal.
Dos de las ms utilizadas son la prueba de Kolmogorov-Smirnofv y la prueba de
Shapiro-Wilks, pero aqu slo revisaremos la segunda ya que es ms potente.
A. PRUEBA DE SHAPIRO-WILKS
El procedimiento de esta prueba consiste en obtener los estadsticos de orden

X (1) , X (2 ) , X (3 ) ,..., X (n )
A.1) TEORA
Teniendo una muestra de tamao n con datos X 1 , X 2 , X 3 ,..., X n , lo primero que debe
hacerse es ordenarlos en forma ascendente para ubicar los estadsticos de prueba
X (1) , X (2 ) , X (3 ) ,..., X (n ) .
Realizado esto, se obtienen los siguientes datos:
DATOS

Nmero total de datos de la


muestra.

Nmero total de sumandos que se harn en el estadstico de prueba Wc .


Datos que se calcula de la siguiente forma:

s2

Varianza de la muestra.

21

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Si n es un nmero par: h =

n
2

Si n es un nmero non: h =

n 1
2

Ahora bien, se calcula el estadstico de prueba Wc

1
Wc =
a (X (n j +1) X ( j ) )
2 j , n
(n 1)s j =1

EXPRESIN PARA EL
ESTADSTICO DE PRUEBA

Wc

Donde

a j ,n es un valor en tablas de Coeficiente a n i +1


y

X (n j +1) y X ( j ) son los estadsticos de orden.


Como puede verse en la expresin, la sumatoria empieza con el j = 1 , por lo cual el
primer X ( j ) corresponde al primer estadstico de orden, el segundo X ( j ) al segundo
estadstico de orden y as sucesivamente. Mientras tanto, el primer valor de
corresponde al ltimo estadstico de orden, el segundo al penltimo, etc. Por tal
2
motivo, lo que se hace en cada expresin X (n j +1) X ( j ) es restar los opuestos

estadsticos de orden y elevarlos al cuadrado.


Siguiendo la expresin, tales valores se multiplican despus por el a j ,n que se
encontrar intersectando la fila con el nmero de j que se utiliz en ese sumando
contra la columna que tiene el valor de la n muestral en las tablas de Coeficiente
a n i +1 .
Por ltimo, la suma de esos productos se divide entre producto de la varianza de la
muestra s 2 por (n 1) .
Si el estadstico de prueba Wc es menor a Wn que se encuentra intersectando el dato

de n contra la significancia en las tablas de Percentiles para W , la hiptesis nula


H o se rechaza. Esto es:
TIPO DE HIPTESIS H o

H o SE RECHAZA SI:

H o : La muestra procede de una

Wc < Wn

poblacin con distribucin normal.

A.2) EJEMPLO
Dados los siguientes datos encontrados:

X 1 = 95.6

X 4 = 65.2

X 7 = 75.5

X 2 = 29.1

X 5 = 75.9

X 8 = 72.0

22

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

X 3 = 28.5

X 6 = 98.5

X 9 = 42.4

Decir si la poblacin de donde proviene esta muestra tiene o no distribucin normal


con una significancia de 0.05.
HIPTESIS
H o : La muestra procede de una poblacin con distribucin normal.

H a : La muestra no procede de una poblacin con distribucin normal.


ESTADSTICOS DE ORDEN

X (1) = 28.5

X (4 ) = 65.2

X (7 ) = 75.9

X (2 ) = 29.1

X (5 ) = 72.0

X (8 ) = 95.6

X (3 ) = 42.4

X (6 ) = 75.5

X (9 ) = 98.5

DATOS

n=9
(impar)

h=

s 2 = 683.30 / 683.49

9 1 8
= =4
2
2

Clculo del estadstico de prueba Wc :

1 4
Wc =
a (X (10 j ) X ( j ) )
2 j , n
(8)s j =1

Wc =

1
[a1,9 (X (9 ) X (1) ) + a2,9 (X (8) X (2 ) ) + a3,9 (X (7 ) X (3) ) + a4,9 (X (6 ) X (4 ) )]2
2
(8)s

{[

}
]}

Wc =

1
2
0.5888(X (9 ) X (1) ) + 0.3244(X (8 ) X (2 ) ) + 0.1976(X (7 ) X (3 ) ) + 0.0947(X (6 ) X (4 ) )
2
(8)s

Wc =

1
[0.5888(98.5 28.5) + 0.3244(95.6 29.1) + 0.1976(75.9 42.4) + 0.0947(75.5 65.2)]2
2
(8)s

Wc =

1
{4953.85}
(8)s 2

Wc =

Wc =

4953.85
= 0.906
5466.40

4953.85
(8)s 2
Wc =

4953.85
= 0.906
5467.92

CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS H o
H o : La muestra procede de una poblacin con

23

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

distribucin normal.
EXPRESIN PARA
CONTRASTE DE
HIPTESIS
VALORES FINALES A
CONTRASTAR

Wc < Wn
Wc = 0.906

W09.05 = 0.829

, Como el valor del estadstico de prueba Wc = 0.83 no es menor a W09.05 = 0.829 sino
mayor, la hiptesis nula H o : La muestra procede de una poblacin con distribucin
normal no se rechaza y se puede asumir que la poblacin de la que fue tomada esta
muestra tiene una distribucin normal.

PRUEBAS NO PARAMTRICAS PARA LA MEDIA POBLACIONAL


Cuando la poblacin estudiada no tiene distribucin normal y la muestra que de ella
hemos obtenido es pequea (n < 30 ) , para contrastar hiptesis sobre su media (o
mediana) queda la opcin de echar mano de las PRUEBAS NO PARAMTRICAS.
Cabe decir, sin embargo, que al ser estas pruebas de libre distribucin menos
potentes, slo deben utilizarse como ltima alternativa.
A. PRUEBA DEL SIGNO
Prueba no paramtrica cuyo contraste de hiptesis se basa en los signos de las
diferencias del valor de cada dato de la muestra con el valor hipottico.
A.1) TEORA
Teniendo una muestra de tamao n con datos X 1 , X 2 , X 3 ,..., X n , lo primero que debe
hacerse es calcular sus diferencias d i con respecto al valor hipottico 0 mediante la
siguiente frmula: d i = ( X i 0 ) :

Xi
X1
X2

di = (X i 0 )

d1 = ( X 1 0 )

d 2 = (X 2 0 )

X3

d3 = (X 3 0 )

Xn

dn

(...)

(...)
= (X n 0 )

Hecho esto, y descontando los d i cuyo valor fue cero, hay que distinguir los d i que
salieron con valor negativo de los que tuvieron valor positivo para obtener los
siguientes datos:
DATOS

n+

Nmero total de d i positivos.

Valor mayor entre n + y n .

Nmero total de d i negativos.

Suma de n + y n .

24

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Teniendo eso, y de acuerdo al tipo de hiptesis nula H o planteada, se aplica la


siguiente frmula para calcular el estadstico de prueba:
TIPO DE HIPTESIS H o
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA

H o : = 0

H o : 0

H o : 0

p=

2 n C i
i = n

2 n

p=

n Ci

i=n+

2n

p=

i=n

Ci

2n

En todos los casos, si el valor resultante del estadstico de prueba p es menor a la


significancia determinada por el investigador
rechaza. Es decir:
TIPO DE HIPTESIS H o

H o : = 0

H o SE RECHAZA SI:

( p < ),

la hiptesis nula H o se

H o : 0

(p < )

H o : 0

A.2) EJEMPLO
1.
Una compaa surte botellas de refresco que se etiquetan con 12 onzas.
Cuando la Procuradura Federal del Consumidor (PROFECO) prueba una muestra
aleatoria de botellas, obtiene las siguientes cantidades:

X 1 = 11.4

X 4 = 12.2

X 7 = 12.5

X 10 = 11.9

X 13 = 11.5

X 2 = 11.8

X 5 = 11.9

X 8 = 12.0

X 11 = 10.9

X 14 = 11.5

X 3 = 11.7

X 6 = 11.0

X 9 = 12.1

X 12 = 12.3

X 15 = 12.6

Si utilizamos un nivel de significancia de 0.05, existe suficiente evidencia para


documentar la acusacin denunciada a la PROFECO de que la compaa
embotelladora est engaando a los consumidores dando cantidades menores de 12
onzas?
HIPTESIS

H inv : < 12
Xi
X 1 = 11.4
X 2 = 11.8
X 3 = 11.7
X 4 = 12.2
X 5 = 11.9

X 6 = 11.0
X 7 = 12.5
X 8 = 12.0
X 9 = 12.1
X 10 = 11.9

H o : 12

di = (X i 0 )

d1 = (11.4 12 ) = 0.6
d 2 = (11.8 12 ) = 0.2
d 3 = (11.7 12 ) = 0.3
d 4 = (12.2 12 ) = 0.2
d 5 = (11.9 12 ) = 0.1

H a : < 12
n+

9
9
9
9
9

d 6 = (11.0 12) = 1.0

d 7 = (12.5 12 ) = 0.5

d 9 = (12.1 12 ) = 0.1

d 8 = (12.0 12 ) = 0

d10 = (11.9 12) = 0.1

25

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

d11 = (10.9 12 ) = 1.1


d12 = (12.3 12 ) = 0.3
d13 = (11.5 12) = 0.5

X 11 = 10.9
X 12 = 12.3
X 13 = 11.5

9
9
9

d14 = (11.5 12 ) = 0.5


d15 = (12.6 12 ) = 0.6

X 14 = 11.5
X 15 = 12.6

9
9
5

TOTALES
DATOS
+

n =5

n =9

n {5,9} = 9

n = 5 + 9 = 14

CONTRASTE DE HIPTESIS
TIPO DE
HIPTESIS H o

H o : 12

EXPRESIN
PARA CALCULAR
EL ESTADSTICO
DE PRUEBA p

p=

i=n

Ci

2n

14

CLCULO DE p

EXPRESIN
PARA
CONTRASTE DE
HIPTESIS
VALORES
FINALES A
CONTRASTAR

p=

i =9

14

Ci

214
C+ C + C + C + C + C
3473
p = 14 9 14 10 14 11 14 12 14 13 14 14 =
= 0.21
16384
16384

(p < )
p = 0.21

= 0.05

, Como vemos, el estadstico de prueba p = 0.21 no es menor a la significancia

= 0.05 ; por ende, la hiptesis nula H o : 12 no se rechaza. Ello quiere decir que
el contenido promedio envasado por la embotelladora no es significativamente
( p > 0.05) menor a 12 onzas, as que las demandas interpuestas ante la PROFECO
no tienen sustento.
B. PRUEBA DE RANGOS DE WILCOXON
Prueba no paramtrica cuyo contraste de hiptesis es ms potente que la del signo, ya
que no slo toma en cuenta las diferencias del valor de cada dato de la muestra con el
valor hipottico, sino tambin considera los rangos asignados al valor absoluto de tales
diferencias.
B.1) TEORA
Al igual que en la prueba del signo, teniendo una muestra de tamao n con datos
X 1 , X 2 , X 3 ,..., X n , lo primero que debe hacerse aqu es calcular las diferencias d i de

estos datos con respecto al valor hipottico 0 a travs de la frmula d i = ( X i 0 ) .

26

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

De ello se obtiene el valor absoluto d i de cada d i , pero se marca si su origen fue


positivo o negativo.

di = (X i 0 )

Xi

d i signo

d1 = ( X 1 0 )

X1

d 2 = (X 2 0 )

X2

X3

d3 = (X 3 0 )

Xn

dn

(...)

(...)
= (X n 0 )

A continuacin, tales valores se ordenan de menor a mayor. Asimismo, descontando


los d i cuyo valor fue cero, se empieza a numerar el resto de los datos para
asignarles un lugar y un rango, el cual se deduce del lugar que tiene (si hay slo un
dato con tal valor) o promediando los lugares que ocupan los datos con igual valor.
EJEMPLO

di
1+
3+
30
423+
2+

d i ordenados
ascendentemente

Lugar

Valor
de
rango

1
2
3
4
5
6
7

1
2.5
2.5
5
5
5
7

0
1+
22+
3+
33+
4-

Rangos de d i

Rangos de d i

que provienen de
d i positivo

que provienen de
d i negativo

Posteriormente, se distinguen los rangos de d i

1
2.5
2.5
5
5
5
7
que provienen de d i positivo o

negativo a fin de poder obtener todos los siguientes datos:

T+

DATOS
Suma de los valores de los rangos de d i que provienen de d i positivo

Suma de los valores de los rangos de d i que provienen de d i negativo.

Valor menor entre T + y T .

De acuerdo al tipo de hiptesis nula H o es que se utilizar una de estas T y se le


comparar con una T de las tablas de Wilcoxon.
TIPO DE HIPTESIS H o

H o : = 0
n

T DE TABLAS
CORRESPONDIENTE PARA
ESTADSTICO DE PRUEBA

H o : 0

H o : 0

Tn

Tn

Donde n es el nmero total de d i 0


y

27

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

o 2 es el valor de la significancia
En todos los casos, si la T de los datos es menor o igual a la T de tablas, la hiptesis
nula H o se rechaza. En otras palabras:
TIPO DE HIPTESIS H o

H o SE RECHAZA SI:

H o : = 0

T Tn

H o : 0

T T

H o : 0

T + Tn

B.2) EJEMPLO
1.
Una compaa surte botellas de refresco que se etiquetan con 12 onzas.
Cuando la Procuradura Federal del Consumidor (PROFECO) prueba una muestra
aleatoria de botellas, obtiene las siguientes cantidades:

X 1 = 11.4

X 4 = 12.2

X 7 = 12.5

X 10 = 11.9

X 13 = 11.5

X 2 = 11.8

X 5 = 11.9

X 8 = 12.0

X 11 = 10.9

X 14 = 11.5

X 3 = 11.7

X 6 = 11.0

X 9 = 12.1

X 12 = 12.3

X 15 = 12.6

Si utilizamos un nivel de significancia de 0.05, existe suficiente evidencia para


documentar la acusacin denunciada a la PROFECO de que la compaa
embotelladora est engaando a los consumidores dando cantidades menores de 12
onzas?

H inv : < 12
Xi
X 1 = 11.4
X 2 = 11.8
X 3 = 11.7
X 4 = 12.2
X 5 = 11.9

X 6 = 11.0
X 7 = 12.5
X 8 = 12.0
X 9 = 12.1
X 10 = 11.9
X 11 = 10.9
X 12 = 12.3

HIPTESIS

H o : 12

H a : < 12

di = (X i 0 )

d i signo

d1 = (11.4 12 ) = 0.6
d 2 = (11.8 12 ) = 0.2
d 3 = (11.7 12 ) = 0.3
d 4 = (12.2 12 ) = 0.2
d 5 = (11.9 12 ) = 0.1

d 6 = (11.0 12) = 1.0


d 7 = (12.5 12 ) = 0.5
d 8 = (12.0 12 ) = 0

d 9 = (12.1 12 ) = 0.1

d10 = (11.9 12) = 0.1


d11 = (10.9 12 ) = 1.1
d12 = (12.3 12 ) = 0.3

0.6 0.2 0.3 0.2 +


0.1 1.0 0.5 +
0
0.1 +
0.1 1.1 0.3 +

28

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

d13 = (11.5 12) = 0.5

X 13 = 11.5

d14 = (11.5 12 ) = 0.5


d15 = (12.6 12 ) = 0.6

X 14 = 11.5
X 15 = 12.6

di

d i ordenados
ascendentemente

0.6 0.2 0.3 0.2 +


0.1 1.0 0.5 +
0
0.1 +
0.1 1.1 0.3 +
0.5 0.5 0.6 +

0
0.1 0.1 +
0.1 0.2 0.2 +
0.3 0.3 +
0.5 +
0.5 0.5 0.6 0.6 +
1.0 1.1 -

0.5 -

Lugar

1
2
3
4
5
6
7
8
9
10
11
12
13
14

Valor
de
rango

0.5 0.6 +

Rangos de d i

Rangos de d i

que provienen de
d i positivo

que provienen de
d i negativo
2.0

2.0

2.0

2.0
4.5

4.5

4.5
6.5

6.5

6.5
9

9.0

9
9
11.5

11.5

11.5

13
14

13
14

DATOS
+

T = 33.5

T = 71.50

T {33.5,71.50} = 33.5

n = 14

CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS

H o : 12

Ho
T DE TABLAS
CORRESPONDIENTE
PARA ESTADSTICO
DE PRUEBA
EXPRESIN PARA
CONTRASTE DE
HIPTESIS
VALORES FINALES
A CONTRASTAR

Tn
T + Tn
T + = 33.5

Tn = T014.05 = 26

, Para este caso, el valor de T + = 33.5 no es menor a la T de tablas T014.05 = 26 ,


motivo por el cual la hiptesis nula H o : 12 no se rechaza. Debido a ello
corroboramos la conclusin obtenida con la prueba del signo: no siendo el contenido
promedio envasado por la embotelladora significativamente ( p > 0.05) menor a 12
onzas, se puede afirmar que las demandas interpuestas ante la PROFECO no tienen
sustento.

29

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

ESTIMACIN DE LA PROPORCIN POBLACIONAL p


A. FUNDAMENTOS
Cuando se tiene una variable cualitativa que toma dos valores ( x = {0,1}) y que se
repite n veces en una poblacin de tamao N , M es el nmero de eventos que
presentan la caracterstica de inters (x = 1) . Por ende, dividiendo M entre N
obtenemos la proporcin poblacional: p = M

No obstante, la proporcin poblacional p , como el resto de los parmetros, es un


valor desconocido, razn por la cual a menudo es de inters estimar su valor mediante
un intervalo de confianza y una prueba de hiptesis contra un valor hipottico p 0 .
B. CONDICIONES PARA SU ESTIMACIN
Se puede aplicar una prueba de hiptesis sobre la proporcin muestral p siempre y
cuando acorde al Teorma Central de Lmite se tenga una muestra de tamao n
con una proporcin muestral p = m
1. np = m > 5

que cumpla con los siguientes tres supuestos:

2. n(1 p ) = n m > 5

3. n > 30

Cuando tales condiciones no se cumplen, es necesario tomar una muestra ms


grande.
C. INTERVALO DE CONFIANZA
La expresin para encontrar el intervalo de confianza para la proporcin poblacional
p es:
EXPRESIN PARA ENCONTRAR UN INTERVALO
AL (1 ) POR CIENTO DE CONFIANZA PARA
p CUANDO LA POBLACIN TIENE DISTRIBUCIN
APROXIMADAMENTE NORMAL ESTNDAR

p p Z 1
2

p (1 p )

D. CONTRASTE DE HIPTESIS
D.1) HIPTESIS NULAS Y SU REGIN DE RECHAZO
Cuando se quiere estimar el valor de la proporcin poblacional p se pueden plantear
las siguientes hiptesis:
HIPTESIS DEL
INVESTIGADOR

HIPTESIS NULA

HIPTESIS
ALTERNATIVA

H inv : p p 0

H 0 : p = p0

H a : p p0

H inv : p < p 0

H 0 : p p0

H a : p < p0

H inv : p > p 0

H 0 : p p0

H a : p > p0

Segn sea el caso y de acuerdo a la significancia , la regin de rechazo para la


hiptesis nula H 0 ser:

30

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

HIPTESIS

H inv : p p 0
PRUEBA
BILATERAL O
DE DOS
COLAS

REGIN DE
RECHAZO DE

H 0 : p = p0

1-
/2

H0

Z1
H inv : p < p 0

REGIN DE
RECHAZO DE

/2

Z1

H 0 : p p0

H a : p < p0

1-

H0
PRUEBA
UNILATERAL
O DE UNA
COLA

H a : p p0

Z1
H inv : p > p 0

REGIN DE
RECHAZO DE

H 0 : p p0

H a : p > p0

1-

H0

Z1
Cabe mencionar que, al igual que en el contraste de hiptesis sobre , en esta
prueba es necesario encontrar el valor donde inicia la regin de rechazo. Al depender
del Teorema Central de Lmite, los valores para esta prueba dependen de una
distribucin aproximadamente normal estndar y se encontrarn en su respectiva tabla
mediante las expresiones Z 1 o Z 1 , segn sea la prueba (bilateral o unilateral).
2

Esto es, hay que buscar el valor de Z que tenga la probabilidad que indica la
confianza de la prueba y agregar un signo negativo si la regin de rechazo est en la
seccin inferior del eje de las X .
D.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPTESIS
7. Comprobar los supuestos de la muestra para verificar la factibilidad de la
prueba.
8. Si tales condiciones se cumplen, explicitar la hiptesis del investigador H inv , la
hiptesis nula H 0 y la hiptesis alternativa H a .
9. Calcular el estadstico de prueba que compara el estimador con el valor
hipottico y su variabilidad:

31

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

EXPRESIN PARA CALCULAR EL ESTADSTICO DE


PRUEBA Z c EN POBLACIONES CON DISTRIBUCIN
APROXIMADAMENTE NORMAL ESTNDAR

Zc =

p p0
p 0 (1 p 0 )
n

10. Determinar el nivel de significancia de la prueba, as como la ubicacin y el


valor de la regin de rechazo de la hiptesis nula H 0 .
11. Ubicar el estadstico de prueba con respecto a la regin de rechazo de la
hiptesis nula H 0 ; si est dentro de ella, rechazar la hiptesis nula H 0 . Si est
fuera, concluir con qu significancia o confiabilidad no se rechaza.
D.3) P-VALOR
Calculado como significancia en el software estadstico, el P-VALOR es al rea bajo
la curva delimitada por el estadstico de prueba Z c con la misma direccin que la
regin de rechazo de la hiptesis nula H 0 . Esta rea o probabilidad se obtiene
tambin mediante los datos en tablas y si su valor es menor a la significancia de la
prueba de hiptesis, la hiptesis nula H 0 se rechaza.
He aqu la forma para encontrar su valor:
REA DEL
P-VALOR

PROBABILIDAD
DE P-VALOR

< Zc <

P( Z < Z c < Z )

De a Z c

P (Z < Z c )

De Z c a

P (Z > Z c )

BSQUEDA DE
P-VALOR

P( Z < Z c < Z ) P(Z > Z c ) + P( Z < Z c )

= P(Z < Z c ) + P( Z < Z c )

Se suman la probabilidad de los


valores de Z c y Z c .

P(Z < Z c )

Se busca la probabilidad del valor de Z c .

P (Z > Z c ) P (Z < Z c )

Se busca la probabilidad del valor de Z c

E. EJEMPLOS DE ESTIMACIN
1.
En una muestra de 591 pacientes internados en un hospital psiquitrico, 204
admitieron que consumieron marihuana al menos una vez durante su vida. Es posible
inferir que la proporcin de individuos que consumieron marihuana en la poblacin de
estudio es mayor de 0.30?
c) Realizar una prueba de hiptesis con un nivel de significancia = 0.05
d) Encontrar el p-valor o significancia de la prueba.
e) Construir un intervalo al 95% de confianza para la proporcin poblacional.
DATOS GENERALES

n = 591

m = 204

p = 204
= 0.35
591

1 p = 1 0.35 = 0.65

Segn el procedimiento para el contraste de hiptesis, lo primero que debemos hacer


es comprobar que los tres supuestos se cumplan:

32

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

2. n(1 p ) > 5

1. np > 5

(591)(0.35) = 206.85

3. n > 30

591(0.65) = 384.15
384.15 > 5

206.85 > 5

n = 591
591 > 30

Comprobado ello, podemos plantear las hiptesis para contrastar:


HIPTESIS

H inv : p > 0.30

H a : > 0.30

H 0 : p 0.30

Ahora bien, hay que calcular el estadstico de prueba:

Zc =

EXPRESIN PARA EL ESTADSTICO DE PRUEBA Z c

APLICACIN

Zc =

p p0
p 0 (1 p 0 )
n

0.35 0.30
0.35 0.30
= Zc =
= 2.65
0.30(1 0.30 )
0.30(0.70 )
591
591

Teniendo ese dato, falta reconocer la significancia , su valor en tablas y la regin de


rechazo que delimita:
REGIN DE RECHAZO DE H 0 : p 0.30

= 0.05

1 = 0.95

Z 1 = Z 0.95 = 1.645

Para concluir el contraste de hiptesis resta ubicar el estadstico de prueba Z c con


respecto a esta regin de rechazo y concluir:

UBICACIN DE ESTADSTICO DE
PRUEBA Z c CON RESPECTO A
REGIN DE RECHAZO DE H 0
a) , El estadstico de prueba Z c = 2.65 cae dentro de la regin de rechazo, razn
por la cual la hiptesis nula H 0 : p 0.30 se rechaza y se infiere que la proporcin

poblacional de internos que usaron marihuana es significativamente ( p < 0.05) mayor


a 0.30.
Calculemos ahora el p-valor para comprobar este resultado:

33

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

REA DEL
P-VALOR
De

PROBABILIDAD
DE P-VALOR

BSQUEDA DE
P-VALOR

P(Z c > 2.65)

P(Z c > 2.65) P(Z c < 2.65)


P(Z c < 2.65) = 0.0040

Z c = 2.65
a

p valor = 0.0040
VALORES A COMPARAR
= 0.05
b) , El p valor = 0.0040 es menor a la significancia = 0.05 , motivo por el cual la
hiptesis nula H 0 : p 0.30 se vuelve a rechazar.

Por ltimo, hay que construir el intervalo de confianza para la proporcin poblacional:
CONFIABILIDAD Y SIGNIFICANCIA

1 = 0.95
EXPRESIN
PARA
INTERVALO
VALOR DE Z 1

2 = 0.025

= 0.05

p (1 p )

p p Z 1

2
n

Z 1 = Z 10.025 = Z 0.975 = 1.96

APLICACIN

1 2 = 0.975

0.35(0.65)
= p (0.31,0.39 )
p 0.35 1.96

591

COMPARACIN
p (0.31,0.39 ) vs. H inv : p > 0.30
CON LA
HIPTESIS
c) , Con un 95% de confiabilidad es posible inferir que la proporcin poblacional de
personas internadas que alguna vez fumaron marihuana est entre 0.31 y 0.39. Tal
intervalo da sustento estadstico a la hiptesis del investigador, que la estima en un
valor mayor a 0.30.

ESTIMACIN DE LA VARIANZA POBLACIONAL 2


A. FUNDAMENTOS
Cuando en una poblacin se tiene una variable continua con distribucin normal y se
desea estimar su variabilidad, es posible tambin estimar un intervalo de confianza y
hacer un contraste de hiptesis sobre la varianza y la desviacin estndar.
B. INTERVALO DE CONFIANZA
A continuacin se presenta la expresin para encontrar el intervalo de confianza de la
varianza y la desviacin estndar de una poblacin:
EXPRESIN PARA ENCONTRAR UN INTERVALO
AL (1 ) POR CIENTO DE CONFIANZA PARA 2
CUANDO LA POBLACIN TIENE DISTRIBUCIN
NORMAL

(n 1)s 2 , (n 1)s 2

2 ( n 1)
1
2

2(n 1)
2

34

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

EXPRESIN PARA ENCONTRAR UN INTERVALO


AL (1 ) POR CIENTO DE CONFIANZA PARA
CUANDO LA POBLACIN TIENE DISTRIBUCIN
NORMAL

(n 1)s 2 , (n 1)s 2
12(n 1)
2

2(n 1)

Ntese que en estas expresiones los valores mnimo y mximo del intervalo no se
encuentran simplemente restando o sumando el valor que se halla en tablas, sino que
hay que buscar cada uno.
C. CONTRASTE DE HIPTESIS
C.1) HIPTESIS NULAS Y SU REGIN DE RECHAZO
Igual que en las estimaciones anteriores, las hiptesis posibles para contrastar el valor
de la varianza poblacional 2 son:
HIPTESIS DEL
INVESTIGADOR

HIPTESIS NULA

HIPTESIS
ALTERNATIVA

H inv : 2 02

H 0 : 2 = 02

H a : 2 02

H inv : 2 < 02

H 0 : 2 02

H a : 2 < 02

H inv : 2 > 02

H 0 : 2 02

H a : 2 > 02

Segn sea el caso y de acuerdo a la significancia , la regin de rechazo para la


hiptesis nula H 0 ser:
HIPTESIS

H inv :
2

PRUEBA
BILATERAL O
DE DOS
COLAS

2
0

H a : 2 02

REGIN DE
RECHAZO DE

H0

/2

1-/2
2 ( n 1)

H inv : 2 < 02

PRUEBA
UNILATERAL
O DE UNA
COLA

H 0 : 2 = 02

2 ( n 1)
1
2

H 0 : 2 02

H a : 2 < 02

H 0 : 2 02

H a : 2 > 02

REGIN DE
RECHAZO DE

H0

2(n 1)

H inv : 2 > 02

35

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

REGIN DE
RECHAZO DE

H0

1-
12(n 1)

Puede verse aqu, al igual que en una parte de la expresin para el intervalo de
confianza de la varianza 2 , que las reas de la significancia no son iguales. Ello se
debe, como se ver en el siguiente punto, a que el estadstico de prueba tiene una
distribucin ji-cuadrada 2 , cuya grfica no tiene una curva simtrica. Por tal motivo,
es necesario consultar en esas tablas los valores de 2 (n 1) y 12(n 1) si la prueba es
2 ( n 1)

2 ( n 1)
1

bilateral y
o
si es unilateral. Como en otras ocasiones, esto implica
buscar los grados de libertad e intersectar este rengln con la columna de la
significancia o confiabilidad requerida.
C.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPTESIS
12. Comprobar que la variable tenga una distribucin normal.
13. Dado el caso, hacer explcitas la hiptesis del investigador H inv , la hiptesis
nula H 0 y la hiptesis alternativa H a .
14. Calcular el estadstico de prueba que compara el estimador con el valor
hipottico y su variabilidad:
EXPRESIN PARA CALCULAR EL ESTADSTICO DE
PRUEBA c2 EN POBLACIONES CON DISTRIBUCIN
NORMAL

(
n 1)s 2
=
2
2
c

15. Determinar el nivel de significancia de la prueba, as como la ubicacin y el


valor de la regin de rechazo de la hiptesis nula H 0 .
16. Ubicar el estadstico de prueba con respecto a la regin de rechazo de la
hiptesis nula H 0 ; si est dentro de ella, rechazar la hiptesis nula H 0 . Si est
fuera, concluir con qu significancia o confiabilidad no se rechaza.
D. EJEMPLOS DE ESTIMACIN
1.
Los siguientes datos corresponden a las edades de conductores que ocupan el
carril para rebasar mientras conducen a 25 millas por hora con la luz intermitente
direccional izquierda funcionando. Suponga distribucin normal en esta poblacin.
f) Es posible inferir que la varianza de esta poblacin es menor a 27 aos2?
Realizar una prueba de hiptesis con una significancia = 0.05 .
g) Estimar el intervalo para la varianza con una confianza de 95%.
DATOS GENERALES

36

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

X~N(,)

n = 27

x = 80.5

s = 4 .6

Sabiendo que la poblacin cumple con una distribucin normal, planteemos las
hiptesis a contrastar:
HIPTESIS

H inv : < 27

H 0 : 2 27

H a : 2 < 27

Y calculemos el estadstico de prueba:

c2 =

EXPRESIN PARA EL ESTADSTICO DE PRUEBA c2

c2 =

APLICACIN

(27 1)4.6 2
27

(n 1)s 2
02

= 20.38

Una vez obtenido este valor, falta el de la regin de rechazo de la hiptesis nula H 0 :
REGIN DE RECHAZO DE H 0 : 2 27

= 0.05

02.(05n 1) = 02.(0527 1) = 02.(0526 ) = 15.379

Y comparar sus ubicaciones:

UBICACIN DE ESTADSTICO DE
PRUEBA c2 CON RESPECTO A
REGIN DE RECHAZO DE H 0
a) , El estadstico de prueba c2 = 20.38 no se encuentra dentro de la regin de
rechazo de la hiptesis nula H 0 : 2 27 , por lo cual puede inferirse que la varianza
de esta poblacin de conductores no es significativamente
aos2.

( p > 0.05)

menor a 27

Ahora bien, encontremos el intervalo de confianza para la varianza de esta poblacin:


CONFIABILIDAD Y SIGNIFICANCIA

1 = 0.95
EXPRESIN
PARA
INTERVALO

2 = 0.025

= 0.05

(n 1)s 2 (n 1)s 2
2(n 1) , 2(n 1)

1
2
2

1 2 = 0.975

37

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH


1)
26 )
12(n 1) = 12(027.025
= 02.(975
= 41.923

VALORES DE
2(n 1) y 12(n 1)
2

2 ( n 1)

27 1)
26 )
= 02.(025
= 02.(025
= 13.844

(27 1)4.6 2 (27 1)4.6 2


,
13.844
41.923

APLICACIN

= 2 (13.12,39.70 )

COMPARACIN
2 (13.12,39.70) vs. H inv : 2 < 27
CON LA
HIPTESIS
b) , Con un 95% de confianza es posible afirmar que la varianza de esta poblacin
de conductores se encuentra en el intervalo demarcado por los valores 13.12 y 39.70.
Como tal intervalo contiene valores mayores a 27, no hay evidencia estadstica que
sustente la hiptesis del investigador, pero tampoco la hiptesis nula.
2.
Utilice un nivel de significancia = 0.05 para probar la aseveracin de que la
estatura de mujeres supermodelos vara menos que la estatura de las mujeres en
general, sabiendo que ambas poblaciones tienen distribucin normal y que la
desviacin estndar de la estatura de la segunda poblacin es de 2.5 pulgadas.
71
70

71
69

70
69.5

Estaturas de supermodelos
69
69.5
70.5
69
70
70

71
66.5

72
70

70
71

DATOS GENERALES

n = 18

X~N(,)

s = 1.19

2 = (2.5)2

Varianza de poblacin femenina general


HIPTESIS

H inv : 2 < 6.25

H 0 : 2 6.25

s 2 = 1.41
= 6.25

H a : 2 < 6.25

REGIN DE RECHAZO DE H 0 : 2 6.25

= 0.05

EXPRESIN PARA
ESTADSTICO DE PRUEBA c2
CLCULO DEL
ESTADSTICO DE PRUEBA c2

02.(05n 1) = 02.(05181) = 02.(0517 ) = 8.672

c2 =

c2 =

(n 1)s 2
02

(18 1)1.41 = 3.84


6.25

UBICACIN DE ESTADSTICO DE
PRUEBA c2 CON RESPECTO A
REGIN DE RECHAZO DE H 0

38

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

, Como el estadstico de prueba c2 = 3.84 cae en la regin de rechazo de la


hiptesis nula H 0 : 2 6.25 , sta se rechaza y puede inferirse que la varianza de

las mujeres supermodelos es significativamente ( p < 0.05) menor a la de las mujeres


en general.
DATOS GENERALES
X~N(,)

n = 18

s = 1.19

s 2 = 1.41

HIPTESIS

H inv : < 6.25

H 0 : 2 6.25

CONFIABILIDAD Y SIGNIFICANCIA

1 = 0.95

VALORES DE
2(n 1) y 12(n 1)

2 ( n 1)

APLICACIN

1 2 = 0.975

2
2
(n 1)s (n 1)s
2(n 1) , 2(n 1)

2
2

2 ( n 1)
2 (181)
2 (17 )
1 = 10.025 = 0.975 = 30.191

EXPRESIN
PARA
INTERVALO

2 = 0.025

= 0.05

H a : 2 < 6.25

181)
17 )
= 02.(025
= 02.(025
= 7.564

(18 1)1.41 (18 1)1.41


2
,
= (0.79,3.17 )
7.564
30.191

COMPARACIN
2 (0.79,3.17 ) vs. H inv : 2 < 6.25
CON LA
HIPTESIS
, La estatura de las mujeres supermodelos tiene una varianza entre 0.79 y 3.17, as
que, con un 95% de confianza, puede sustentarse la afirmacin del investigador de
que esta variabilidad es menor a la varianza de 6.25 de la poblacin femenina
general.

39

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

ESQUEMA FINAL PARA REALIZAR INFERENCIAS SOBRE LA


MEDIA POBLACIONAL

H 0 : = 0

vs.

H 0 : 0

vs.

H 0 : 0

vs.

H a : 0

H a : < 0
H a : > 0

xi t1(n1)

La poblacin
tiene
distribucin
normal?

tc =

x 0
s
n

xi Z 1

La muestra es
mayor a 30?

(TCL)

Zc =

x 0
s
n

PRUEBAS NO
PARAMTRICAS
a) Signo b) Wilcoxon

40

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

TAMAO DE MUESTRA REQUERIDO PARA ESTIMACIN


Cuando deseamos contrastar hiptesis sobre un parmetro poblacional que tiene
distribucin normal, una cuestin fundamental es conocer el tamao de la muestra
necesario para realizar tal procedimiento.
Sabiendo que el mejor estimador puntual de es x , definiremos como d el error
muestral:
PARA MEDIAS

PARA PROPORCIONES

d = x

d = p p

A. TAMAO DE MUESTRA PARA ESTIMAR MEDIAS POBLACIONALES


A.1) POBLACIONES CUYO TAMAO TOTAL N ES DESCONOCIDO
Como la variable tiene distribucin normal, podemos estandarizarlo de la siguiente
forma:

=Z

Que grficamente es:

Y como deseamos que el error de muestreo sea pequeo, si delimita la regin de


rechazo de la hiptesis nula H 0 , para que

se encuentre en esta rea se debe

concluir que:

> Z 1

n
Por ende, para saber el tamao de la muestra, de ello es necesario despejar n :

d
Si tenemos
Aplicamos la ley
de los extremos
Dejamos sola a n
Y para despejarla
la elevamos al
cuadrado
A ello debemos la siguiente expresin:

> Z 1

n
n d

n>
n>

> Z 1

Z 1

Z 12 2
2

d2

41

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

EXPRESIN PARA CALCULAR EL


TAMAO DE MUESTRA PARA
ESTIMAR MEDIAS DE POBLACIONES
CON TAMAO DESCONOCIDO

n>

Z 12 2
2

d2

La cual nos indica que para conocer el tamao n de la muestra requerida necesitamos
fijar una confiabilidad 1 de estimacin y encontrar el valor de Z que le
corresponde; adems, establecer una magnitud de error de estimacin d 2 y conocer
el valor de 2 , que puede estimarse con ayuda de investigaciones previas o mediante
muestras piloto. Claro est que, por su relacin, a mayor confianza 1 , una mayor
muestra se necesitar; mientras que a mayor error de estimacin d 2 , menor ser la
muestra requerida.
A.2) POBLACIONES CUYO TAMAO TOTAL N ES CONOCIDO
A diferencia de la expresin anterior, si el tamao total N de la poblacin es conocido,
la expresin para calcular el tamao de muestra requerido es:
EXPRESIN PARA CALCULAR EL
TAMAO DE MUESTRA PARA
ESTIMAR MEDIAS DE POBLACIONES
CUYO TAMAO SE CONOCE

N Z 12 2

n>

d (N 1) + Z 12 2
2

B. TAMAO DE MUESTRA PARA ESTIMAR PROPORCIONES POBLACIONALES


B.1) POBLACIONES CUYO TAMAO TOTAL N ES DESCONOCIDO
Como en proporciones la varianza equivale a 2 = p (1 p ) , la expresin para calcular
el tamao de muestra requerido es:
EXPRESIN PARA CALCULAR EL
TAMAO DE MUESTRA PARA
ESTIMAR PROPORCIONES DE
POBLACIONES
CON TAMAO DESCONOCIDO

n>

Z 12 p(1 p )
2

d2

B.2) POBLACIONES CUYO TAMAO TOTAL N ES CONOCIDO


Por ltimo, si lo que se desea es calcular el tamao de muestra necesario para estimar
proporciones de una poblacin cuyo tamao N se conoce, se utiliza la siguiente
expresin:
EXPRESIN PARA CALCULAR EL
TAMAO DE MUESTRA PARA
ESTIMAR MEDIAS DE POBLACIONES
CUYO TAMAO SE CONOCE

n>

N Z 12 p(1 p )
2

d (N 1) + Z 12 p(1 p )
2

42

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

C. EJEMPLO DE APLICACIN
1.
Jayr desea hacer una encuesta sobre las preferencias que existen en la
escuela para las prximas elecciones de director de la ENAH y ha planeado realizar su
estimacin con un 95% de confianza y un 5% de error. Sabiendo que p (1 p ) es
mximo cuando p = 0.5 y hay tres candidatos, supone una proporcin de p = 0.33 .
DATOS GENERALES

1 = 0.95

= 0.05

= 0.025
2

Z 1 = 1.96

d = 0.05

p = 0.33

1 = 0.975
2
1 p = 0.67

a) Qu tamao de muestra necesitar Jayr para hacer estimaciones sobre las


proporciones de este fenmeno?
EXPRESIN PARA CALCULAR EL
TAMAO DE MUESTRA PARA
ESTIMAR PROPORCIONES DE
POBLACIONES
CON TAMAO DESCONOCIDO

n>

Z 12 p(1 p )
2

d2

2
(
1.96 ) (0.33 0.67 )
n>
= 339.75
(0.05)2

APLICACIN

, Para realizar una estimacin sobre las proporciones de preferencia sobre el


prximo director de la ENAH, Jayr necesita una muestra mayor a 339.75; lo cual,
hablando de personas, implica encuestar alrededor de 340 personas.
b) Previendo los costos y tiempo que se llevar encuestar a 340 personas, Jayr decide
encuestar slo a los estudiantes. Sabiendo que hay aproximadamente 2000 alumnos
en la ENAH, es que con este cambio reducir su muestra?, a cunto?.
EXPRESIN PARA CALCULAR EL
TAMAO DE MUESTRA PARA
ESTIMAR MEDIAS DE POBLACIONES
CUYO TAMAO SE CONOCE

n>

N Z 12 p(1 p )
2

d (N 1) + Z 12 p(1 p )
2

2000 (1.96) (0.33 0.67 )


2

APLICACIN

n>

(0.05) (2000 1) + (1.96)2 (0.33 0.67 )


2

= 290.54

, Si slo encuestara alumnos, el tamao de la muestra que Jayr requerira para


hacer estimaciones sobre las preferencias para director de la ENAH sera de 290.54;
es decir, 251 estudiantes.
EJERCICIOS DE REPASO
I. Define los siguientes conceptos:
1. Hiptesis
2. Hiptesis estadstica
4. Error tipo II
5. Significancia estadstica
7. Estadstico
8. Parmetro
de prueba
10. Qu es ?
Qu es s?

11. Qu es p ?
Qu es p ?

3. Error tipo I
6. Regin de rechazo
9. Qu es x ? qu es
?
12. Potencia de la prueba

43

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

II. Resolver los siguientes problemas, interpretando los resultados encontrados.


1. En un estudio realizado por Herrera y Lpez1 sobre una poblacin infantil de la
regin de la sierra norte de Puebla se obtuvo, entre otros resultados, que la
estatura promedio de 25 hombres de 13 aos en Zacapoaxtla, Puebla fue de
140.38 cm. con una desviacin estndar de 7.89cm. Suponiendo distribucin
normal en la poblacin
a) Existe evidencia para afirmar que la estatura de la poblacin de nios de 13
aos en esta regin es menor de 143 cm.? Sea =0.1
b) Encontrar un intervalo al 90% de confianza para la media de estatura de la
poblacin.
2. En un estudio sobre crecimiento y desarrollo realizado por Villanueva, Sanz y
Serrano2 entre otras medidas, se consider la estatura sentado de nios entre 9 y
12 aos en la comunidad de La Villa de las Margaritas, Chiapas. En 34 nios que
estaban en el rango de 11.6 y 12.5 aos de edad se obtuvo una media de 72.31
cm. y una desviacin estndar de 37.6.
a) Proporcionan estos datos evidencia para afirmar que la poblacin tiene una
estatura sentado menor de 70 cm.? Sea =0.05
b) Estimar por intervalo al 95% de confianza la media de la estatura sentado en
la poblacin.
3. En un departamento de carnes de una cadena de supermercados se empaca
carne molida de res en recipientes que se supone contiene un kilogramo. Una
muestra aleatoria de 42 paquetes dio peso promedio de 1.09 kilos con una
desviacin estndar de 0.18 kilos.
a) Si usted fuera el gerente de control de calidad y quisiera tener la certeza de
que la cantidad promedio de carne molida es en verdad de 1 kilogramo, qu
hiptesis probara?
b) Determine el valor de p para la prueba del inciso a)
c) Establecer un intervalo al 95% de confianza para la media de la poblacin.
d) De qu manera dara a conocer los resultados de su estudio a un grupo de
consumidores interesados?
Los problemas 4 al 10 se refieren a los datos sobre percepcin, iniciacin sexual y
antropometra que fueron recolectados en el grupo (si ya no los tienes puedes bajarlos
en la direccin: http://enah.cursos.estadistica.googlepages.com/home. Contrastar la
hiptesis correspondiente y elaborar un intervalo de confianza donde sea pertinente.
En todos los casos considerar =0.05 e intervalos al 95% de confianza e interpretar
todos los resultados.

Herrera Bautista, Rebeca y Lpez Alonso Sergio (1995) Distribucin de talla y peso en poblacin
infantil de la regin de la sierra norte de Puebla, Mxico Estudios de antropologa bilolgica V Coloquio
de Antropologa Fsica Juan Comas, Mxico, IIA, UNAM.
2
VILLANUEVA MARA, SANZ MA. ELENA Y SERRANO CARLOS. (1982) Crecimiento y
desarrollo en escolares de la Villa de las Margaritas, Chiapas Mxico. En II Coloquo de Antropologa
Fsica Juan Comas, IIA, UNAM. pp. 427-452

44

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

4. Se puede suponer distribucin normal en la estatura antropomtrica de hombres?


5. Se puede asumir distribucin normal en altura de rodilla en mujeres del turno
vespertino?
6. Suponiendo que la variable permetro de cintura en mujeres no se distribuye
normal, es posible inferir que toma un valor mayor de 800 mm.?
7. La media de estatura en la poblacin de hombres es menor de 1650 mm.?
8. La media de la altura de la rodilla de mujeres es diferente de 500mm.?
9. La varianza poblacional de la estatura total en mujeres es de 2500 mm ?
10. La proporcin de mujeres que han tenido relaciones sexuales es mayor de 0.65?
11. la proporcin de mujeres que se autopercibieron como la figura 6 es menor de
0.15?
12. Las autoridades de una universidad consideran que el nivel de acreditacin
debera ser mayor al 65%. En un curso de bioestadstica tomado por 35 alumnos
28 acreditan.
a) Proporcionan estos datos para confirmar que el curso se encuentra de
acuerdo con lo pronosticado por las autoridades. Sea =0.05.
b) Determinar un intervalo al 95% de confianza para la proporcin de alumnos
que acreditan.
13. El siguiente cuestionario fue respondido por una muestra de 250 gineclogos. Los
nmeros de la derecha son las frecuencias de respuesta de cada opcin:
1. Ha revisado durante el ao pasado a una o ms mujeres
embarazadas con altas concentraciones de plomo en la sangre?
a) Si 175
b) No 75
2. Acostumbra como rutina poner al tanto a sus pacientes embarazadas
de que el fumar es riesgoso para el feto?
a) Si 238
b) No 12
a) Es posible concluir que, de la poblacin muestreada menos del 15% de los
gineclogos ha atendido a una o ms mujeres embarazadas con altas
concentraciones de plomo en la sangre? Sea =0.01. Construir intervalo al 99%
de confianza para la proporcin poblacional.
b) es posible concluir que ms del 90% de los mdicos pone al tanto a sus
pacientes de que fumar es riesgoso para el feto? Sea =0.05. Construir
intervalo al 95% de confianza para la proporcin poblacional.
14. En una escuela se est planeando la construccin de canchas de basketball pues
se cree que ms de 2/3 de la poblacin estudiantil lo practican. Una encuesta
realizada detect que, de 48 alumnos elegidos al azar, 33 preferan como deporte
el basketball. Se puede inferir lo planteado? Sea =0.05. Con 95% de
confiabilidad calcular un intervalo para estimar la proporcin de alumnos de toda la
escuela que prefieren basketball. Interprete su resultado.

45

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

15. Un antroplogo fsico ha medido la capacidad del crneo de 38 fsiles de adultos


de un tipo androide ya extinto. Obtuvo una media muestral de 820 cm3 con s = 90
cm3. Calcule un intervalo de confianza a nivel 95% para la capacidad promedio del
crneo de este antropoide.
16. Datos de la Encuesta Nacional de Alimentacin y Nutricin en el medio rural 1996
muestran que el estado de Guerrero presenta la mayor proporcin de nios
desnutridos del pas en medios rurales segn el peso para la edad con un valor de
0.63. Si la muestra considerada fue de 390 nios en el estado.
a) se puede afirmar que la proporcin de nios en Guerrero es mayor de
0.60? Sea =0.0895
b) Construir un intervalo al 90% de confianza para la proporcin poblacional.
17. La productividad de un sistema que fabrica discos compactos vrgenes es, segn
los empresarios ms de 150 discos por hora. De resultar cierto esto, una compaa
disquera comprar dicho sistema. Tomando el sistema a prueba, lo activan en 28
horas (cada hora es una muestra) y obtienen una media de 155.8 con una
desviacin estndar de 7.18. Comprarn el sistema en cuestin? Responder esta
pregunta suponiendo distribucin normal en la poblacin, con las dos metodologas
de inferencia:
a) Mediante una prueba de hiptesis con =0.1.
b) Con un intervalo al 90% de confianza.
18. En un estudio sobre los efectos de la contaminacin ambiental se midieron las
concentraciones de hemoglobina en 15 personas que habitan en la zona
colindante con la zona industrial de Naucalpan, obteniendo los siguientes valores:
15.6, 14.8, 14.4, 16.6, 13.8, 14.0, 17.3, 18.6, 16.2, 14.7, 15.7, 16.4, 13.9, 14.6 y
12.8. Suponiendo que la poblacin de la cual se extrae la muestra no se distribuye
aproximadamente normal, es posible concluir que la concentracin de
hemoglobina en esta regin es mayor de 16?

46

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

UNIDAD II
COMPARACIN DE DOS MEDIAS POBLACIONALES
Cuando lo que se desea es comparar dos poblaciones a travs de su media, lo
primero que debe reconocerse es si la variable a comparar tiene o no distribucin
normal aplicando la prueba de Shapiro-Wilks.
A. COMPARACIN EN POBLACIONES CON DISTRIBUCIN NORMAL
Si bien es posible suponer distribucin normal en la variable de ambas poblaciones,
las expresiones para construir intervalos de confianza y comparar las medias
dependen an de otro requisito: si puede asumirse que sus varianzas son iguales o
no, lo cual se verifica a travs de la prueba de Leveane.
1) PRUEBA DE LEVEANE
Se trata de una prueba para comparar las varianzas 12 y 22 de una variable con
distribucin normal en dos poblaciones de tamao N 1 y N 2 , con medias 1 y 2 .
a) Hiptesis nula y regin de rechazo
Como el fin es simplemente inferir si las varianzas de ambas poblaciones son
estadsticamente iguales o no, las hiptesis de esta prueba son:
HIPTESIS NULA

HIPTESIS ALTERNATIVA

H0 : =

H a : 12 22

2
1

2
2

REGIN DE RECHAZO

F1(n1 1, n2 1)

El valor donde comienza la regin de rechazo se encuentra acudiendo a las


( n 1, n 1)
tablas F de Fisher mediante la expresin F11 2 , donde los grados de
libertad son (n1 1) en el numerador y (n 2 1) en el denominador.
b) Procedimiento para el contraste de hiptesis
1. Tomar una muestra de cada poblacin y obtener sus varianzas muestrales.
2. Definir a la muestra con varianza mayor con el nmero 1 y a la menor con el
nmero dos; es decir, la muestra n1 tiene una varianza s12 , que es mayor que la
varianza s 22 de la muestra n2 .
3. Gracias a ello, puede calcularse el estadstico de prueba:

47

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

EXPRESIN PARA CALCULAR EL


ESTADSTICO DE PRUEBA Fc EN
POBLACIONES CON DISTRIBUCIN
NORMAL

Fc =

s12
s 22

donde el numerador es siempre mayor que el denominador y el resultado tiene


una distribucin F de Fisher con (n1 1) grados de libertad en el numerador y

(n2 1) grados de libertad en el denominador.

4. Determinar el nivel de significancia de la prueba, as como la ubicacin y el


valor de la regin de rechazo de la hiptesis nula H 0 .
5. Ubicar el estadstico de prueba con respecto a la regin de rechazo de la
hiptesis nula H 0 ; si est dentro de ella, rechazar la hiptesis nula H 0 . Si est
fuera, concluir con qu significancia o confiabilidad no se rechaza.
Una vez que se concluye si las varianzas de ambas poblaciones son estadsticamente
iguales o diferentes, se tienen elementos construir intervalos de confianza y hacer
pruebas sobre sus medias.
2) INTERVALOS DE CONFIANZA
Como ya se ha dicho, la expresin para construir un intervalo de confianza para la
diferencia entre las medias de dos poblaciones depende del resultado de la prueba de
Leveane. De acuerdo a ella:
VARIANZAS IGUALES

VARIANZAS DIFERENTES

12 = 22

12 22

1
1
+
1 2 x1 x 2 t1(n1 + n2 2 ) Sp
2
n1 n2

s12 s 22
( n1 + n2 2 )

+
1 2 x1 x 2 t1
2
n1 n2

Y sus resultados se interpretan de la siguiente forma:


VALORES RESULTANTES
Valores negativos
Valores positivos
Valores negativos y positivos
(que incluyen al cero)

INTERPRETACIN

1 < 2
1 > 2
1 = 2

3) PRUEBA t
Cubiertos los anteriores requisitos, es est la prueba que debe utilizarse para
comparar dos poblaciones a travs de sus medias:
a) Hiptesis nula y regin de rechazo
La comparacin de medias poblacionales que esta prueba realiza permite no
slo establecer si son diferentes, sino tambin si alguna es mayor que otra,
motivo por el cual las hiptesis que pueden plantearse son:

48

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

HIPTESIS DEL
INVESTIGADOR

HIPTESIS NULA

HIPTESIS
ALTERNATIVA

H inv : 1 2

H 0 : 1= 2

H inv : 1< 2

H 0 : 1 2

H a : 1< 2

H inv : 1> 2

H 0 : 1 2

H a : 1> 2

H a : 1 2

Segn sea el caso y de acuerdo a la significancia , la regin de rechazo para


la hiptesis nula H 0 ser:
HIPTESIS

H inv : 1 2
PRUEBA
BILATERAL O
DE DOS
COLAS

REGIN DE
RECHAZO DE

H0

H 0 : 1= 2

1-
/2

/2

t1(n1 + n2 2)

t1(n1 + n2 2 )

H inv : 1< 2

REGIN DE
RECHAZO DE

H 0 : 1 2

H a : 1< 2

1-

H0
PRUEBA
UNILATERAL
O DE UNA
COLA

H a : 1 2

t1(n1 + n2 2)
H inv : 1> 2

REGIN DE
RECHAZO DE

H0

H 0 : 1 2

H a : 1> 2

1-

t1(n1 + n2 2 )
El valor en donde inicia la regin de rechazo se obtiene mediante las expresiones
t1(n1 + n2 2 ) si es bilateral o t1(n1 + n2 2 ) si es unilateral. Para encontrarlo, se busca en
2

las tablas de la distribucin t los grados de libertad3 y se intersecta con la


confiabilidad buscada, que depende del tipo de prueba. Finalmente, se agrega un
signo negativo si la regin de rechazo (o una parte) se encuentra en la seccin
inferior del eje de las X .

Como puede verse, los grados de libertad es igual a la suma de los dos tamaos de muestra menos dos.

49

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

b) Procedimiento para el contraste de hiptesis


1. Teniendo las muestras de tamao n1 y n 2 , obtener sus medias muestrales x1
y x2 .
2. Dependiendo del resultado de la prueba de Leveane, calcular el estadstico de
prueba:
VARIANZAS IGUALES

=
2
1

tc =

VARIANZAS DIFERENTES

12 22

2
2

x1 x 2
1
1
+
Sp
n1 n2

Donde Sp es un promedio de las


varianzas muestrales s12 y s 22 , ponderado

tc =

por los tamaos de las muestras n1 y n2


que se calcula de la siguiente forma:

Sp =

x1 x 2
s12 s 22
+
n1 n2

(n1 1)s12 + (n2 1)s 22


n1 + n2 2

que tiene una distribucin t de student con n1 + n2 2 grados de libertad.


3. Determinar el nivel de significancia de la prueba, as como la ubicacin y el
valor de la regin de rechazo de la hiptesis nula H 0 .
4. Ubicar el estadstico de prueba con respecto a la regin de rechazo de la
hiptesis nula H 0 ; si est dentro de ella, rechazar la hiptesis nula H 0 . Si est
fuera, concluir con qu significancia o confiabilidad no se rechaza.
3) EJEMPLOS DE APLICACIN
1.
Los siguientes datos de estatura en centmetros pertenecen a dos muestras
aleatorias (femenina y masculina) de estudiantes de la ENAH. Suponga distribucin
normal en sus poblaciones.
157
156

181
153

158
170

173

182

165

MUJERES
152
160
152
160
HOMBRES
165
176

160
170

163
170

173

180

155
158

Con una significancia de = 0.05 :


a) es posible inferir que la varianza de estatura femenina es diferente a la masculina
en los estudiantes de la ENAH?
b) es posible concluir que la estatura media femenina es menor que la masculina en
estas poblaciones?
c) construir un intervalo para la diferencia de medias al 95% de confianza.

50

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

n = 16
n=7

MUJERES
HOMBRES

DATOS GENERALES

x = 160.94
x = 173.43

s = 8.05
s = 6.65

, Poblacin 1
, Poblacin 2

HIPTESIS

H inv :
2
1

H 0 : 12 = 22

2
2

H a : 12 22

REGIN DE RECHAZO DE H 0 : 12 = 22
,6)
F1(n1 1,n2 1) = F1(160.051, 7 1) = F0(.15
= 3.94
95

= 0.05

s12
Fc = 2
s2

EXPRESIN PARA
ESTADSTICO DE PRUEBA Fc
CLCULO DEL
ESTADSTICO DE PRUEBA Fc

Fc =

(8.05)2
(6.65)2

= 1.47

UBICACIN DE ESTADSTICO DE
PRUEBA Fc CON RESPECTO A
REGIN DE RECHAZO DE H 0
a) , Como el estadstico de prueba Fc = 1.47 est fuera de la regin de rechazo que
,6)
2
2
inicia en F0(.15
975 = 5.27 , la hiptesis nula H 0 : 1 = 2 no se rechaza y puede inferirse
que la varianza de la estatura en estas dos poblaciones no es significativamente
( p > 0.05) diferente.

Teniendo el resultado de la prueba de Leveane, es posible comparar las medias con la


prueba t :

H inv : 1< 2

HIPTESIS

H 0 : 1 2

H a : 1< 2

REGIN DE RECHAZO DE H 0 : 1 2

= 0.05

1 = 0.95

t1(n1 + n2 2 ) = t1(160.+057 2 ) = t 0(.2195) = 1.7207

51

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

H 0 : 12 = 22

RESULTADO P. LEVEANE

tc =

EXPRESIN PARA
ESTADSTICO DE PRUEBA t c

Sp =
CLCULO DE Sp

Sp =
CLCULO DEL
ESTADSTICO DE PRUEBA t c

x1 x 2
1
1
+
Sp
n1 n2

(n1 1)s12 + (n2 1)s 22


n1 + n2 2

(16 1)(8.05)2 + (7 1)(6.65)2


16 + 7 2
160.94 173.43
tc =
= 3.59
1 1
7.86
+
16 7

= 7.68

UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
b) , Como el estadstico de prueba t c = 3.59 cae en la regin de rechazo que parte
)
de t 0(.21
95 = 1.7207 , la hiptesis nula H 0 : 1 2 se rechaza y puede inferirse que

estatura femenina es significativamente ( p < 0.05) menor a la masculina en las


poblaciones de estudiantes de la ENAH.

Finalmente, podemos construir el intervalo de confianza para la diferencia de las


medias:
RESULTADO P.
LEVEANE
CONFIABILIDAD
VALOR DE

t1(n1 + n2 2 )

H 0 : 12 = 22
1 = 0.95

= 0.975

1 2 x1 x 2 t1(n+ n 2 ) Sp

1
1
+
n1 n2

APLICACIN

7 2)
t1(n1 + n2 2 ) = t1(160.+025
= t 0(.21975) = 2.0796

EXPRESIN
PARA INTERVALO
DE CONFIANZA

= 0.025
2

= 0.05

1 2 160.94 173.43 2.0796 7.86

1 2 [ 19.79,5.19]

1 1
+
16 7

1 < 2
Valores negativos
INTERPRETACIN
c) , Con un 95% de confianza es posible inferir que la media de la poblacin 1 es
menor que la de la poblacin 2; por lo cual se puede afirmar que la estatura media
femenina es menor que la masculina en las poblaciones de estudiantes de la ENAH.

52

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

2.
Los siguientes datos pertenecen a dos muestras aleatorias de personas
mayores, fumadores y no fumadores, e indican el ndice de destruccin de pulmn que
presentaron al morir (el cual es ms grande a mayor deterioro pulmonar).
18.1
16.6
18.6

6.0

10.8

13.9
12.0

11.3
24.1

NO FUMADORES
11.0
7.7
17.9
FUMADORES
26.5
17.4
16.5
21.8

8.5

13.0

15.3
16.3

15.8
23.4

18.9
12.3
18.8

Suponga distribucin normal y conteste:


a) Es posible inferir que las varianzas poblacionales son diferentes?
b) Es posible afirmar que la destruccin pulmonar es mayor en personas mayores
fumadoras?
c) Construya un intervalo al 95% de confianza para la diferencia de medias.
DATOS GENERALES
NO
FUMADORES
FUMADORES

n=9

x = 12.43

s = 4.85

, Poblacin 1

n = 16

x = 17.54

s = 4.48

, Poblacin 2

HIPTESIS

H inv :
2
1

H 0 : 12 = 22

2
2

H a : 12 22

REGIN DE RECHAZO DE H 0 : 12 = 22

= 0.05

1,16 1)
F1(n1 1,n2 1) = F1(90.05
= F0(.895,15) = 2.64

EXPRESIN PARA
ESTADSTICO DE PRUEBA Fc
CLCULO DEL
ESTADSTICO DE PRUEBA Fc

Fc =
Fc =

s12
s 22

(4.85)2
(4.48)2

= 1.17

UBICACIN DE ESTADSTICO DE
PRUEBA Fc CON RESPECTO A
REGIN DE RECHAZO DE H 0
a) , Como el estadstico de prueba Fc = 1.17 est fuera de la regin de rechazo que
,15 )
inicia en F0(.8975
= 3.20 , la hiptesis nula H 0 : 12 = 22 no se rechaza y puede inferirse
que la varianza de la estatura en estas dos poblaciones no es significativamente
( p > 0.05) diferente.

53

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

HIPTESIS

H inv : 1< 2

H 0 : 1 2

H a : 1< 2

REGIN DE RECHAZO DE H 0 : 1 2

= 0.05

t1(n1 + n2 2 ) = t1(90+.1605 2) = t 0(.2395) = 1.7139

1 = 0.95

H 0 : 12 = 22

RESULTADO P. LEVEANE

tc =

EXPRESIN PARA
ESTADSTICO DE PRUEBA t c

Sp =
CLCULO DE Sp

Sp =
CLCULO DEL
ESTADSTICO DE PRUEBA t c

x1 x 2
1
1
Sp
+
n1 n2

(n1 1)s12 + (n2 1)s 22


n1 + n2 2

(9 1)(4.85)2 + (16 1)(4.48)2


9 + 16 2
12.43 17.54
tc =
= 2.66
1 1
4.61 +
9 16

= 4.61

UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
b) , Como el estadstico de prueba t c = 2.66 cae en la regin de rechazo que parte
)
de t 0(.23
95 = 1.7139 , la hiptesis nula H 0 : 1 2 se rechaza y puede inferirse que la

destruccin pulmonar es significativamente ( p < 0.05) mayor en personas fumadoras.

RESULTADO P.
LEVEANE
CONFIABILIDAD
VALOR DE

t1(n1 + n2 2 )
2

EXPRESIN
PARA INTERVALO
DE CONFIANZA

H 0 : 12 = 22
1 = 0.95

= 0.025
2

= 0.05

= 0.975

t1(n1 + n2 2 ) = t1(90+.16025 2 ) = t 0(.23975) = 2.0687


2

1 2 x1 x 2 t1(n+ n 2 ) Sp

1
1
+
n1 n2

54

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

1 2 12.43 17.54 2.0687 4.61

APLICACIN

= 1 2 [ 9.08,1.14]

1 1
+
9 16

1 < 2
Valores negativos
INTERPRETACIN
c) , Con un 95% de confianza es posible inferir que la media de la poblacin 1 es
menor que la de la poblacin 2; por lo cual se puede afirmar que la destruccin
pulmonar es ms grande en personas mayores fumadoras.
3.
Los siguientes de datos de permetro craneal (mm.) en neonatos (0-24 horas)
fueron obtenidos durante una investigacin (1968-1970) en el Valle de Cholula:
351
350

365
356

331
340
330

317
332
320

HOMBRES
339
330
350
322
MUJERES
330
321
320
345

335
331

354

335
327

329
335

Con una significancia de = 0.05 , es posible inferir que existen diferencias por sexo
en el permetro craneal de estas poblaciones?
HIPTESIS

H inv : 1 2

H 0 : 1= 2

H a : 1 2

HOMBRES: ESTADSTICOS DE ORDEN.

X (1) = 322

X (2 ) = 330

X (3) = 331

X (4 ) = 335

X (5 ) = 339

X (7 ) = 350

X (8 ) = 351

X (9 ) = 354

X (10 ) = 356

X (11) = 365

DATOS

x = 343.91

s = 13.27

s 2 = 176.09

EXPRESIN PARA EL
ESTADSTICO DE
PRUEBA Wc

n = 11
(impar)

1
(10)s 2

Wc =

h=

1
Wc =
a (X (n j +1) X ( j ) )
2 j , n
(n 1)s j =1

1 5
Wc =
a (X (11 j ) X ( j ) )
2 j , n
(10)s j =1

Wc =

X (6 ) = 350

Wc =

0.5601(365 322 ) + 0.3315(356 330 ) + 0.2260(354 331)


+ 0.1429(351 335) + 0.0695(350 339 )

1
[1677.08]
(10)176.09

11 1
=5
2

1677.08
= 0.952
1760.93

55

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

TIPO DE HIPTESIS H o

CONTRASTE DE HIPTESIS
H o : La muestra procede de una poblacin con
distribucin normal.

EXPRESIN PARA
Wc < Wn
CONTRASTE DE
HIPTESIS
VALORES FINALES A
Wc = 0.952
W011.05 = 0.850
CONTRASTAR
, El estadstico de prueba Wc = 0.948 no es menor a W011.05 = 0.850 . Por tal motivo, la
hiptesis nula no se rechaza y se infiere que, en la poblacin masculina de la cual
procede esta muestra, la variable anchura biacromial tiene una distribucin normal.
MUJERES: ESTADSTICOS DE ORDEN.

X (1) = 317

X (2 ) = 320

X (3 ) = 320

X (4 ) = 321

X (5 ) = 327

X (6 ) = 329

X (7 ) = 330

X (8 ) = 330

X (9 ) = 331

X (10 ) = 332

X (11) = 335

X (12 ) = 335

X (13 ) = 340

X (14 ) = 345

DATOS

x = 329.42

s = 8.02

EXPRESIN PARA EL
ESTADSTICO DE
PRUEBA Wc

n = 14

s 2 = 64.32

(par)

h=

1
(
)

Wc =
a
X
X

j
n
(
n

j
+
)
(
j
)
,
1
(n 1)s 2 j =1

1 7
(
)
Wc =
a
X
X

(
)
(
)
j
n

j
j
,
14
(13)s 2 j =1

1
[801.85]
(13)64.32

TIPO DE HIPTESIS H o

Wc =

0.5251(345 317 ) + 0.3318(340 320 ) + 0.2460(335 320 )


1
Wc =
+ 0.1802(335 321) + 0.1240(332 327 ) + 0.0727(331 329 )
2
(13)s

+ 0.0240(330 330 )

Wc =

14
=7
2

801.85
= 0.959
813.17

CONTRASTE DE HIPTESIS
H o : La muestra procede de una poblacin con
distribucin normal.

EXPRESIN PARA
Wc < Wn
CONTRASTE DE
HIPTESIS
VALORES FINALES A
Wc = 0.959
W014.05 = 0.874
CONTRASTAR
, El estadstico de prueba Wc = 0.961 no es menor a W014.05 = 0.874 . Por tal motivo, la
hiptesis nula no se rechaza y se infiere que, en la poblacin femenina de la cual
procede esta muestra, la variable permetro craneal tiene una distribucin normal.

56

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Comprobado que ambas poblaciones tienen distribucin normal para esta variable,
hacemos la prueba de Leveane:
DATOS GENERALES

n = 11
n = 14

HOMBRES
MUJERES

x = 343.91
x = 329.42

s = 13.27
s = 8.01

, Poblacin 1
, Poblacin 2

HIPTESIS

H inv :
2
1

H 0 : 12 = 22

2
2

H a : 12 22

REGIN DE RECHAZO DE H 0 : 12 = 22
,13)
F1(n1 1,n2 1) = F1(110.051,141) = F0(.10
= 2.67
95

= 0.05

EXPRESIN PARA
ESTADSTICO DE PRUEBA Fc

Fc =

CLCULO DEL
ESTADSTICO DE PRUEBA Fc

Fc

s12
s 22

2
(
13.27 )
=
(8.01)2

= 2.74

UBICACIN DE ESTADSTICO DE
PRUEBA Fc CON RESPECTO A
REGIN DE RECHAZO DE H 0
, Como el estadstico de prueba Fc = 2.74 cae en la regin de rechazo que inicia en
,13)
F0(.10
= 2.67 . Por tal motivo, la hiptesis nula H 0 : 12 = 22 se rechaza y puede
95

inferirse que la varianza del permetro craneal en estas dos poblaciones es


significativamente ( p < 0.05) diferente.
HIPTESIS

H inv : 1 2

H 0 : 1= 2

H a : 1 2

REGIN DE RECHAZO DE H 0 : 1= 2

= 0.05

= 0.975

14 2 )
t1(n1 + n2 2) = t1(110+.025
= t 0( .23975) = 2.0687
2

57

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

H a : 12 22

RESULTADO P. LEVEANE

tc =

EXPRESIN PARA
ESTADSTICO DE PRUEBA t c

tc =

CLCULO DEL
ESTADSTICO DE PRUEBA t c

x1 x 2
s12 s 22
+
n1 n2

343.91 329.42
13.27 2 8.012
+
11
14

= 3.19

UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
b) , Como el estadstico de prueba t c = 3.19 cae en la regin de rechazo que parte
)
de t 0(.23
975 = 2.0687 , la hiptesis nula H 0 : 1= 2 se rechaza y puede inferirse que

existen diferencias significativas ( p < 0.05) por sexo en el permetro craneal de


neonatos de las poblaciones del Valle de Cholula.
RESULTADO P.
LEVEANE
CONFIABILIDAD
VALOR DE

t1(n1 + n2 2 )

H a : 12 22
1 = 0.95

= 0.05

= 0.975

1 2 x1 x 2 t1(n+ n 2 )
1

APLICACIN

14 2 )
t1(n1 + n2 2) = t1(110+.025
= t 0(.23975) = 2.0687

EXPRESIN
PARA INTERVALO
DE CONFIANZA

= 0.025
2

1 2 343.91 329.42 2.0687

= 1 2 [5.10,23.88]

s12 s 22
+
n1 n2

13.27 2 8.012
+

11
14

1 > 2
Valores positivos
INTERPRETACIN
c) , Con un 95% de confianza es posible inferir que la media de la poblacin 1 es
menor que la de la poblacin 2; por lo cual se puede afirmar que el permetro craneal
de hombres es mayor que el de mujeres entre los neonatos de esa localidad.
B. COMPARACIN EN POBLACIONES CON DISTRIBUCIN DESCONOCIDA
B.1) UTILIZANDO DOS MUESTRAS GRANDES
Si de acuerdo a la prueba de Shapiro Wilks no es posible suponer distribucin normal
en al menos una de las dos poblaciones, pero las muestras obtenidas de ellas son
mayores a 20 (n1 > 20, n2 > 20 ) , gracias al Teorema Central de Lmite pueden
utilizarse las siguientes expresiones para construir intervalos de confianza y comparar
sus medias:

58

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

EXPRESIN PARA ENCONTRAR UN


INTERVALO AL (1 ) POR CIENTO

DE CONFIANZA PARA 1 2
CUANDO LA POBLACIN TIENE
DISTRIBUCIN DESCONOCIDA PERO

1 2 x1 x 2 Z 1

s12 s 22
+
n1 n2

(n1 > 20, n2 > 20)

EXPRESIN PARA EL ESTADSTICO


DE PRUEBA Z c EN POBLACIONES
CON DISTRIBUCIN DESCONOCIDA
PERO (n1 > 20, n 2 > 20 )

Zc =

x1 x 2
s12 s 22
+
n1 n2

Como es posible ver, el estadstico de prueba es una Z c , el cual tiene una distribucin
normal estndar. Debido a ello es que se recurre, una vez ms, a las tablas de
distribucin normal para obtener los valores correspondientes a la significancia y
confiabilidad de la prueba.
B.2) UTILIZANDO DOS MUESTRAS PEQUEAS
En caso de que al menos una de las muestras no sea suficientemente grande
(n < 20) para aplicar el Teorema Central de Lmite, la ltima alternativa es utilizar la
prueba no paramtrica U DE MANN-WHITNEY. Aunque el nico requisito para
emplearla es que la variable involucrada sea al menos ordinal, esta prueba no slo es
menos potente, sino que adems es sobre las medianas de las poblaciones y no sobre
sus medias.
a) Hiptesis nula y regin de rechazo
Como en otras ocasiones, existen 3 hiptesis nulas posibles para comparar las
medianas de dos poblaciones:
HIPTESIS DEL
HIPTESIS
HIPTESIS NULA
INVESTIGADOR
ALTERNATIVA

H inv :M 1 M 2

H 0 :M 1= M 2

H a :M 1 M 2

H inv :M 1< M 2

H 0 :M 1 M 2

H a :M 1< M 2

H inv :M 1> M 2

H 0 :M 1 M 2

H a :M 1> M 2

Cuyas regiones de rechazo, respectivamente, son las siguientes:


HIPTESIS

H inv :M 1 M 2
PRUEBA
BILATERAL O
DE DOS
COLAS

H 0 :M 1= M 2

REGIN DE
RECHAZO DE

H0

/2

1-/2

U (n1 ,n2 )

U 1(n1 ,n2 )

PRUEBA

H a :M 1 M 2

H inv :M 1< M 2

H 0 :M 1 M 2

H a :M 1< M 2

59

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

UNILATERAL
O DE UNA
COLA

REGIN DE
RECHAZO DE

H0

U (n1 ,n2 )
H inv :M 1> M 2

H 0 :M 1 M 2

H a :M 1> M 2

REGIN DE
RECHAZO DE

H0

1-

U 1(n1 ,n2 )
Debe dejarse en claro que la forma de la grfica de esta distribucin no es
especficamente tal y acercarse de ella slo puede afirmarse que no es simtrica.
Los valores que delimitan tales regiones, empero, pueden encontrarse utilizando
(n ,n )
las tablas para la prueba de Mann-Whitney mediante las expresiones U 1 2 y
( n1 , n2 )

U 1

( n1 ,n2 )

si la prueba es bilateral y con ayuda de U

( n1 , n2 )

o U 1

si la prueba es

unilateral. Los valores que tienen una alfa directa se encuentran buscando en los
renglones de n el valor de n1 , posteriormente la significancia de la prueba y por
ltimo intersectar ello con la columna de m, que es el valor de n 2 .
Empero, los que implican encontrar la regin de rechazo a la derecha

(1 ,1 2 ) deben calcularse a partir de los anteriores mediante la siguiente

frmula:
EXPRESIN PARA HALLAR EL VALOR DE INICIO DE REGIONES DE RECHAZO
EN EL EJE SUPERIOR DE LAS X

U 1(n1 ,n2 ) = n1 n2 U (n1 ,n2 )

PRUEBAS BILATERALES

( n1 , n2 )

PRUEBAS UNILATERALES

U 1

( n1 , n2 )

= n1 n2 U

b) Procedimiento de contraste de hiptesis


1. Teniendo los datos X 1 , X 2 , X 3 ,..., X n como muestra de la poblacin 1 y a los
datos Y1 , Y2 , Y3 ,..., Yn como muestra de la poblacin 2, se asignan rangos a todos
los datos considerando como slo una a ambas muestras.
2. A partir de ello se obtienen los siguientes datos:

DATOS

60

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Tamao de la muestra 1.

n1
n2
R1
R2

Tamao de la muestra 2.
Suma de los rangos de la muestra 1.
Suma de los rangos de la muestra 2.

3. Teniendo eso se calcula el estadstico de prueba:


EXPRESIN PARA EL ESTADSTICO
DE PRUEBA U c EN POBLACIONES
CON DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS

U c = R1

n1 (n1 + 1)
2

4. El valor obtenido se compara con la regin de rechazo delimitada por el valor


de U que se obtuvo en las tablas de Mann-Whitney y que depende de la
significancia y los tamaos de las muestras.
5. Finalmente se ubica el estadstico de prueba con respecto a la regin de
rechazo de la hiptesis nula H 0 ; si est dentro de ella, rechazar la hiptesis nula

H 0 . Si est fuera, concluir con qu significancia o confiabilidad no se rechaza.


c) Ejemplos de aplicacin
1.
Los siguientes datos corresponden a la altura basion-bregma de crneos
masculinos y femeninos pertenecientes a los restos seos hallados en la Cueva de la
Candelaria, Coahuila.
139
131

135

CRNEOS MASCULINOS (POBLACIN 1)


146
143
137
147
134
137
CRNEOS FEMENINOS (POBLACIN 2)
129
133
127
123
138

142
129

Si ninguna de las poblaciones tiene distribucin normal y utilizamos una significancia


de = 0.05 , es posible inferir que la altura basion-bregma es menor en los crneos
femeninos?
CRNEOS MASCULINOS
139
135
146
143
137
147
134
137
142

R1

RANGO
12
8
15
14
9.5
16
7
9.5
13
104

CRNEOS FEMENINOS
131
129
133
127
123
138
129

R2

RANGO
5
3.5
6
2
1
11
3.5
32

n2 = 7

n1 = 9

HIPTESIS

61

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

H inv :M 1> M 2

H 0 :M 1 M 2

H a :M 1> M 2

REGIN DE RECHAZO DE H 0 :M 1 M 2

= 0.05
= U 0(9.05,7 ) = 16

( n1 , n2 )

( n1 , n2 )

U 1

EXPRESIN PARA EL
ESTADSTICO DE PRUEBA U c EN
POBLACIONES CON
DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS
CLCULO DEL
ESTADSTICO DE PRUEBA t c

1 = 0.95
= U 0(9.95,7 ) = 9 7 16 = 47

U c = R1

U c = 104

n1 (n1 + 1)
2

9(9 + 1)
= 59
2

UBICACIN DE ESTADSTICO DE
PRUEBA U c CON RESPECTO A
REGIN DE RECHAZO DE H 0
, El estadstico de prueba U c = 59 cae en la regin de rechazo que parte de

U 0(9.95,7 ) = 47 . Por ende, la hiptesis nula H 0 :M 1 M 2 se rechaza y puede inferirse que


la altura basion-bregma es significativamente ( p < 0.05) menor en los crneos
femeninos.
2.
Siguiendo su estudio, el investigador de los restos seos de la Cueva de la
Candelaria est interesado en saber si la altura de la nariz presenta un dimorfismo.
Con respecto a esta variable, las poblaciones tampoco tienen una distribucin normal.
Con una significancia de = 0.05 , el investigador se pregunta entonces: es posible
inferir que la altura de la nariz es menor en las mujeres?
55
48.5

51

CRNEOS MASCULINOS (POBLACIN 1)


52
55
53
54.5
53
48
CRNEOS FEMENINOS (POBLACIN 2)
42
46.5
49
47
50

CRNEOS MASCULINOS
55
51
52
55
53
54.5

RANGO
16.5
9.5
11
16.5
12.5
15

CRNEOS FEMENINOS
48.5
42
46.5
49
47
50

47

54
51
RANGO
6
1
2
7
3.5
8

62

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

53
48
47
54

R1

12.5
5
3.5
14
116

51

R2

9.5
37

n2 = 7

n1 = 10
HIPTESIS

H inv :M 1> M 2

H 0 :M 1 M 2

H a :M 1> M 2

REGIN DE RECHAZO DE H 0 :M 1 M 2

= 0.05
,7 )
= U 0(10
= 18
.05

( n1 , n2 )

( n1 , n2 )

U 1

EXPRESIN PARA EL
ESTADSTICO DE PRUEBA U c EN
POBLACIONES CON
DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS
CLCULO DEL
ESTADSTICO DE PRUEBA t c

1 = 0.95
,7 )
= U 0(10
= 10 7 18 = 52
.95

U c = R1

U c = 116

n1 (n1 + 1)
2

10(10 + 1)
= 61
2

UBICACIN DE ESTADSTICO DE
PRUEBA U c CON RESPECTO A
REGIN DE RECHAZO DE H 0
, El estadstico de prueba U c = 61 cae en la regin de rechazo que parte de

,7 )
U 0(10
= 52 . Por ende, la hiptesis nula H 0 :M 1 M 2 se rechaza y puede inferirse que
.95
la altura de la nariz es significativamente ( p < 0.05) menor en los crneos femeninos.

3.
Los siguientes de datos de anchura biacromial en neonatos (0-24 horas) fueron
obtenidos durante una investigacin (1968-1970) en el Valle de Cholula.
102
122

117
100

111
109

105
105

111
115

110
109

HOMBRES
104
121
105
120
MUJERES
103
110
93
110

100
114

115

112

116
105

105
90

112
105

63

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Con una significancia de = 0.05 , es posible inferir que existen diferencias por sexo
en la anchura biacromial de estas poblaciones?
HIPTESIS

H inv : 1 2

H 0 : 1= 2

H a : 1 2

Pero como no sabemos si hay distribucin normal en ambas poblaciones, las hiptesis
tambin podran ser:

H inv :M 1 M 2

H 0 :M 1= M 2

H a :M 1 M 2

Por ende, primero hay que comprobar eso con ayuda de la prueba de Shapiro-Wilks
para saber qu prueba aplicar:
HOMBRES: ESTADSTICOS DE ORDEN.

X (1) = 100

X (2 ) = 100

X (3 ) = 102

X (4 ) = 104

X (5 ) = 105

X (6 ) = 109

X (7 ) = 111

X (8 ) = 112

X (9 ) = 114

X (10 ) = 115

X (11) = 117

X (12 ) = 120

X (13 ) = 121

X (14 ) = 122

DATOS

x = 110.86

s = 7.72

EXPRESIN PARA EL
ESTADSTICO DE
PRUEBA Wc

n = 14

s 2 = 59.60

(par)

h=

1
Wc =
a (X (n j +1) X ( j ) )
2 j , n
(n 1)s j =1

1 7
Wc =
a (X (14 j ) X ( j ) )
2 j , n
(13)s j =1

1
[724.58]
(13)59.60

TIPO DE HIPTESIS H o
EXPRESIN PARA
CONTRASTE DE
HIPTESIS
VALORES FINALES A
CONTRASTAR

Wc =

0.5251(122 100 ) + 0.3318(121 100 ) + 0.2460(120 102 )


1
Wc =
+ 0.1802(117 104 ) + 0.1240(115 105) + 0.0727(114 109 )
2
(13)s

+ 0.0240(112 111)

Wc =

14
=7
2

724.58
= 0.935
774.80

CONTRASTE DE HIPTESIS
H o : La muestra procede de una poblacin con
distribucin normal.

Wc < Wn
Wc = 0.935

W014.05 = 0.874

64

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

, El estadstico de prueba Wc = 0.935 no es menor a W014.05 = 0.874 . Por tal motivo, la


hiptesis nula no se rechaza y se infiere que, en la poblacin masculina de la cual
procede esta muestra, la variable anchura biacromial tiene una distribucin normal.
MUJERES: ESTADSTICOS DE ORDEN.

X (1) = 90

X (2 ) = 93

X (3) = 103

X (4 ) = 105

X (5 ) = 105

X (6 ) = 105

X (7 ) = 105

X (8 ) = 105

X (9 ) = 109

X (10 ) = 110

X (11) = 110

X (12 ) = 110

X (13 ) = 111

X (14 ) = 112

X (15 ) = 115

X (16 ) = 116

DATOS

x = 106.5

s=7

EXPRESIN PARA EL
ESTADSTICO DE
PRUEBA Wc

n = 16

s 2 = 49

(par)

h=

1
(
)
Wc =
a
X
X

j
n
(
n

j
+
)
(
j
)
,
1
(n 1)s 2 j =1

1 8
(
)

Wc =
a
X
X

,
16
(
)
(
)
j
n
j
j

(15)s 2 j =1

1
[646.01]
(15)49

TIPO DE HIPTESIS H o

Wc =

0.5056(116 90) + 0.3290(115 93) + 0.2521(112 103)

1
Wc =
+ 0.1939(111 105) + 0.1447(110 105) + 0.1005(110 105)
2
(15)s

+ 0.0593(110 105) + 0.0196(109 105)

Wc =

16
=8
2

646.01
= 0.879
735

CONTRASTE DE HIPTESIS
H o : La muestra procede de una poblacin con
distribucin normal.

EXPRESIN PARA
Wc < Wn
CONTRASTE DE
HIPTESIS
VALORES FINALES A
Wc = 0.879
W016.05 = 0.887
CONTRASTAR
, El estadstico de prueba Wc = 0.879 es menor a W016.05 = 0.887 . Por tal motivo, la
hiptesis nula se rechaza y se infiere que, en la poblacin fenemina de la cual
procede esta muestra, la variable anchura biacromial no tiene una distribucin normal.
Como una de las poblaciones no cumple con el requisito de distribucin normal, la
opcin para compararlas es la prueba U de Mann-Whitney.

65

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

CRNEOS MASCULINOS

CRNEOS FEMENINOS

X (1) = 100

RANGO
3.5

X (1) = 90

RANGO
1

X (2 ) = 100

3.5

X (2 ) = 93

X (3 ) = 102

X (3) = 103

X (4 ) = 104

X (4 ) = 105

10.5

X (5 ) = 105

10.5

X (5 ) = 105

10.5

X (6 ) = 109

14.5

X (6 ) = 105

10.5

X (7 ) = 111

19.5

X (7 ) = 105

10.5

X (8 ) = 112

21.5

X (8 ) = 105

10.5

X (9 ) = 114

23

X (9 ) = 109

14.5

X (10 ) = 115

24.5

X (10 ) = 110

17

X (11) = 117

27

X (11) = 110

17

X (12 ) = 120

28

X (12 ) = 110

17

X (13 ) = 121

29

X (13 ) = 111

19.5

X (14 ) = 122

30

X (14 ) = 112

21.5

R1

246.5

X (15 ) = 115

24.5

X (16 ) = 116

26

R2

218.5

n1 = 14

n 2 = 16

HIPTESIS

H inv :M 1 M 2

H 0 :M 1= M 2

H a :M 1 M 2

REGIN DE RECHAZO DE H 0 :M 1= M 2

= 0.05
,16 )
= U 0(14
.025 = 65

( n1 , n2 )

EXPRESIN PARA EL
ESTADSTICO DE PRUEBA U c EN
POBLACIONES CON
DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS
CLCULO DEL
ESTADSTICO DE PRUEBA t c

( n1 , n2 )

U 1

1 = 0.95
= U 0.975 = 14 16 65 = 159
(14 ,16 )

U c = R1

U c = 246.5

n1 (n1 + 1)
2

14(14 + 1)
= 141.5
2

66

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

UBICACIN DE ESTADSTICO DE
PRUEBA U c CON RESPECTO A
REGIN DE RECHAZO DE H 0
,16 )
, El estadstico de prueba U c = 141.5 no es menor a U 0(14
.025 = 65 , ni mayor a

,16 )
U 0(14
.975 = 159 . Por ende, est fuera de las regiones de rechazo y la hiptesis nula
H 0 :M 1= M 2 no se rechaza. De esta forma puede inferirse que no existe diferencia
sexual significativa ( p > 0.05) entre la anchura biacromial de neonatos del Valle de

Cholula.

67

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Esquema para inferir sobre la comparacin de dos medias


poblacionales
H 0 : 1= 2 vs. H a : 1 2
H 0 : 1 2 vs. H a : 1< 2
H 0 : 1 2 vs. H a : 1> 2

1 2 x1 x 2 t1(n+ n 2 ) Sp

La poblacin
tiene distribucin
normal?

PRUEBA
DE
LEVEANE

1
1
+
n1 n2

H0 : = ?
2
1

2
2

tc =

1 2 x1 x 2 t1(n+ n 2 )
1

tc =

x1 x2
1 1
Sp
+
n1 n2

s12 s 22
+
n1 n 2

x1 x 2
s12 s 22
+
n1 n2

1 2 x1 x 2 Z 1

Ambas muestras
son mayores
a 20?

Zc =

x1 x 2
s12 s 22
+
n1 n2

PRUEBA NO PARAMTRICA
U de Mann-Whitney

68

s12 s 22
+
n1 n2

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

COMPARACIN DE DOS MUESTRAS PAREADAS


Cuando en una muestra de individuos de tamao n se mide una caracterstica dos
veces o de dos lados, se dice que se obtienen dos MUESTRAS PAREADAS, siendo
X 1 , X 2 , X 3 ,..., X n los datos de la primera medicin y Y1 , Y2 , Y3 ,..., Yn 4 los datos de la
segunda, cuyas respectivas medias poblacionales son x y y .
A. MUESTRAS PAREADAS DE POBLACIN CON DISTRIBUCIN NORMAL
A.1) INTERVALO DE CONFIANZA
La expresin para encontrar el intervalo de confianza para la diferencia x y es:
EXPRESIN PARA ENCONTRAR UN
INTERVALO AL (1 ) POR CIENTO DE
CONFIANZA PARA x y CUANDO LA

x y d t1(n1)

POBLACIN TIENE DISTRIBUCIN


NORMAL

Sd

Y sus resultados se interpretan de la siguiente forma:


VALORES RESULTANTES
Valores negativos

INTERPRETACIN

Valores positivos
Valores negativos y positivos
(que incluyen al cero)

x > y

x < y

x = y

A.2) CONTRASTE DE HIPTESIS


a) Hiptesis nula y regin de rechazo
Con el afn de comparar las muestras pareadas, las hiptesis que pueden
plantearse son:
HIPTESIS DEL
INVESTIGADOR

HIPTESIS NULA

HIPTESIS
ALTERNATIVA

H inv : x y

H 0 : x = y

H inv : x < y

H 0 : x y

H a : x < y

H inv : x > y

H 0 : x y

H a : x > y

H a : x y

Segn sea el caso y de acuerdo a la significancia , la regin de rechazo para


la hiptesis nula H 0 ser:

Debe observarse que el tamao n de ambas muestras tiene que ser igual.

69

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

HIPTESIS

H inv : 1 2
PRUEBA
BILATERAL O
DE DOS
COLAS

REGIN DE
RECHAZO DE

H0

H 0 : 1= 2

1-
/2

/2

t1(n1)

t1(n1)

H inv : 1< 2

REGIN DE
RECHAZO DE

H 0 : 1 2

H a : 1< 2

1-

H0
PRUEBA
UNILATERAL
O DE UNA
COLA

H a : 1 2

t1(n1)
H inv : 1> 2

H 0 : 1 2

REGIN DE
RECHAZO DE

H0

H a : 1> 2

1-

t1(n1)
Como en otras poblaciones con distribucin normal, el valor en donde inicia la
regin de rechazo se obtiene en las tablas para la distribucin t mediante las
expresiones t1(n1) o t1(n1) , de acuerdo al tipo de prueba, la significancia y seccin
2

en que se encuentra la regin de rechazo.


b) Procedimiento para el contraste de hiptesis
1. Teniendo las muestras pareadas de tamao n , obtener la diferencia d i de
cada par xi y i :

[(d1 = x1 y1 ), (d 2 = x2 y 2 ), (d 3 = x3 y3 ),..., (d n = xn y n )]

2. Ingresar los resultados en la calculadora como datos y obtener la media d de


las diferencias d i y su desviacin estndar Sd .
3. Hecho esto, calcular el estadstico de prueba:

d
EXPRESIN DEL ESTADSTICO DE PRUEBA t c PARA LA
tc =
Sd
DIFERENCIA DE MUESTRAS PAREADAS DE UNA
POBLACIN CON DISTRIBUCIN NORMAL.
n
que tiene una distribucin t de student con n 1 grados de libertad.

70

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

4. Determinar el nivel de significancia de la prueba, as como la ubicacin y el


valor de la regin de rechazo de la hiptesis nula H 0 .
5. Ubicar el estadstico de prueba con respecto a la regin de rechazo de la
hiptesis nula H 0 ; si est dentro de ella, rechazar la hiptesis nula H 0 . Si est
fuera, concluir con qu significancia o confiabilidad no se rechaza.
A.3) EJEMPLOS DE APLICACIN
1.
Los siguientes datos corresponden a la estatura estimada a partir de la longitud
del fmur izquierdo y derecho de restos seos masculinos de la Cueva de La
Candelaria.
ESTATURA A PARTIR DE FMUR DERECHO
1657
1616
1618
1616
1597
1595
1580
1603
1646
1700
ESTATURA A PARTIR DE FMUR IZQUIERDO
1676
1719
1655
1657
1704
1659
1655
1635
1621
1599
1593
1657

1648
1597

1614
1640

1614
1680

1591
1644

a) Con una significancia de = 0.05 , es posible inferir que la estatura estimada a


partir de la longitud del fmur izquierdo es mayor que la estimada con el derecho?.
b) Construya un intervalo de confianza al 95% para la diferencia de las medias.
HIPTESIS

H inv : x < y

H 0 : x y

DERECHO X i

IZQUIERDO Yi

X 1 = 1648
X 2 = 1614
X 3 = 1657

Y1 = 1614
Y2 = 1646
Y3 = 1719

X 4 = 1616
X 5 = 1618

Y4 = 1655
Y5 = 1657

X 6 = 1616

Y6 = 1704

X 7 = 1597

Y7 = 1659

X 8 = 1591

Y8 = 1644

X 9 = 1597

Y9 = 1680

X 10 = 1640

Y10 = 1655

X 11 = 1595
X 12 = 1580
X 13 = 1603

Y11 = 1635
Y12 = 1621
Y13 = 1599

X 14 = 1646
X 15 = 1700

Y14 = 1593
Y15 = 1657

DATOS

d = 30

H a : x < y

DIFERENCIA d i = X i Yi

d1 = (1648 1614 ) = 34
d 2 = (1614 1646) = 62
d 3 = (1657 1719) = 62

d 4 = (1616 1655) = 39
d 5 = (1618 1657 ) = 39

d 6 = (1616 1704 ) = 88

d 7 = (1597 1659) = 62
d 8 = (1591 1644 ) = 53

d 9 = (1597 1680) = 83

d10 = (1640 1655) = 15


d11 = (1595 1635) = 40
d12 = (1580 1621) = 41
d13 = (1603 1599) = 4
d14 = (1646 1593) = 53
d15 = (1700 1657 ) = 43

Sd = 44.60

n = 15

71

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

REGIN DE RECHAZO DE H 0 : x y
)
t1(n1) = t1(150.051) = t 0(14
.95 = 1.7613

= 0.05

tc =

EXPRESIN PARA
ESTADSTICO DE PRUEBA t c

tc =

CLCULO DEL
ESTADSTICO DE PRUEBA t c

d
Sd
n

30
= 2.61
44.60
15

UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
a) , Como el estadstico de prueba t c = 2.61 cae en la regin de rechazo que inicia
)
en t 0(14
.95 = 1.7613 , la hiptesis nula H 0 : x y se rechaza y puede inferirse que la

estatura estimada a partir de la longitud del fmur izquierdo es significativamente


( p < 0.05) mayor que la estimada con el derecho.

CONFIABILIDAD

1 = 0.95

= 0.025
2

= 0.05

EXPRESIN
PARA INTERVALO
( n 1)

VALOR DE t1

APLICACIN

x y d t1(n1)

(n 1)g.l. = (15 1) = 14 g.l.

x y 30 2.1448

= 0.975

Sd

t1(n1) = t .14975 = 2.1448


2

44.60
= ( 54.70,5.30)
15
x < y

Valores negativos
INTERPRETACIN
b) , Con un 95% de confianza es posible inferir que la media de la estatura estimada
a partir del fmur izquierdo es mayor que la media de la estatura estimada con el
derecho.
2.
Los siguientes datos corresponden tambin a la estatura estimada a partir de la
longitud del fmur izquierdo y derecho, pero es de restos seos femeninos de la
Cueva de La Candelaria.

72

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

1538
1573
1565
1573

ESTATURA A PARTIR DE FMUR DERECHO


1569
1557
1504
1580
1617
1510
1563
1549
ESTATURA A PARTIR DE FMUR IZQUIERDO
1553
1559
1540
1534
1586
1559
1516
1506

1510
1559

a) Con una significancia de = 0.05 , es posible inferir tambin diferencias entre la


estatura estimada dependiendo del fmur que sea utilizado?
b) Construya un intervalo de confianza al 95% para la diferencia de las medias.
HIPTESIS

H inv : x y

H 0 : x = y

DERECHO X i

IZQUIERDO Yi

X 1 = 1538
X 2 = 1569
X 3 = 1557

Y1 = 1565
Y2 = 1553
Y3 = 1559

X 4 = 1504
X 5 = 1580

Y4 = 1540
Y5 = 1534

X 6 = 1510

Y6 = 1559

X 7 = 1573

Y7 = 1573

X 8 = 1617

Y8 = 1586

X 9 = 1510

Y9 = 1559

X 10 = 1563

Y10 = 1516

X 11 = 1549

Y11 = 1506

d = 1.82

DATOS

H a : x y

DIFERENCIA d i = X i Yi

d1 = (1538 1565) = 27
d 2 = (1569 1553) = 16
d 3 = (1557 1559) = 2

d 4 = (1504 1540 ) = 36
d 5 = (1580 1534 ) = 46

d 6 = (1510 1559) = 49
d 7 = (1573 1573) = 0

d 8 = (1617 1586) = 31

d 9 = (1510 1559) = 49
d10 = (1563 1516) = 47

d11 = (1549 1506 ) = 43

Sd = 37.66

n = 11

REGIN DE RECHAZO DE H 0 : x = y

= 0.05

1)
)
t1(n1) = t1(110.025
= t 0(10
.975 = 2.2281
2

tc =

EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
CLCULO DEL
ESTADSTICO DE PRUEBA t c

tc =

d
Sd
n

1.82
= 0.16
37.66
11

73

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
a) , Como el estadstico de prueba t c = 0.16 est fuera de las dos regiones de
rechazo, la hiptesis nula H 0 : x = y no se rechaza y puede inferirse que, sin
importar qu fmur se ocupe (a diferencia de los hombres), la estatura estimada es
significativamente ( p > 0.05) igual en las mujeres.

CONFIABILIDAD

1 = 0.95

= 0.025
2

= 0.05

EXPRESIN
PARA INTERVALO
VALOR DE t1(n1)
2

APLICACIN

x y d t1(n1)

= 0.975

Sd

t1(n1) = t .10975 = 2.2281

(n 1)g.l. = (11 1) = 10 g.l.


x y 1.82 2.2281

3766
= ( 23.48,27.12)
11

Valores negativo y positivo


x = y
(incluye al cero)
b) , Con un 95% de confianza es posible inferir que la media de la estatura estimada
a partir del fmur derecho es igual que la media de la estatura estimada con el
izquierdo.
INTERPRETACIN

B. MUESTRAS PAREADAS DE POBLACIN SIN DISTRIBUCIN NORMAL


Si no es posible asumir distribucin normal en las dos mediciones, la alternativa es
aplicar una versin de la prueba de Wilcoxon para comparar las muestras pareadas.
B.1) TEORA
Al igual que en la versin que vimos con anterioridad, en esta prueba hay que calcular
las diferencias d i de los datos, pero en vez de restar al dato un valor hipottico, los
valores se restan entre ellos (como en la prueba para poblaciones con distribucin
normal): xi y i : [(d 1 = x1 y1 ), (d 2 = x 2 y 2 ), (d 3 = x3 y 3 ),..., (d n = x n y n )].
Una vez que se tiene esto, tal y como lo hicimos en la prueba de Wilcoxon, hay que
obtener el valor absoluto d i de cada d i , marcando si su origen fue positivo o
negativo y eliminando las diferencias que sean igual a cero del total de n .

Xi

Yi

X1
X2

Y1
Y2

d i = ( X i Yi )

d1 = ( X 1 X 1 )
d 2 = (X 2 X 2 )

d i signo

74

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

(...)

Y3

(...)

d3 = (X 3 X 3 )

Xn

Yn

d n = (X n X n )

X3

(...)

Como en la prueba normal de Wilcoxon, son esas diferencias en valor absoluto a las
que se asigna un rango:

di

d i ordenados
ascendentemente

Valor
de
rango

Lugar

Rangos de d i

Rangos de d i

que provienen de
d i positivo

que provienen de
d i negativo

Dependiendo si el d i del que provienen era positivo o negativo, los rangos de cada

d i se distinguen para obtener los siguientes datos:

T+

DATOS
Suma de los valores de los rangos de d i que provienen de d i positivo

Suma de los valores de los rangos de d i que provienen de d i negativo.

Valor menor entre T + y T .

Ahora bien, De acuerdo al tipo de hiptesis nula H o es que se utilizar una de estas

T y se le comparar con una T de las tablas de Wilcoxon.


TIPO DE HIPTESIS H o

H 0 : x = y
n

T DE TABLAS
CORRESPONDIENTE PARA
ESTADSTICO DE PRUEBA

H 0 : x y

H 0 : x y

Tn

Tn

Donde n es el nmero total de d i 0


y

o 2 es el valor de la significancia

En todos los casos, si la T de los datos es menor o igual a la T de tablas, la hiptesis


nula H o se rechaza. En otras palabras:
TIPO DE HIPTESIS H o

H o SE RECHAZA SI:

H 0 : x = y

T Tn

H 0 : x y

T T

H 0 : x y

T + Tn

B.2) EJEMPLOS DE APLICACIN


1.
En un estudio realizado en hombres de 12 a 16 aos por la NHCS se registr,
primero, la estatura que los sujetos afirmaban tener (reportadas) y, despus, la que se

75

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

obtuvo por medicin. Suponiendo que esta poblacin no tiene distribucin normal y
con una significancia de = 0.05 , es posible afirmar que existen diferencias entre la
estatura reportada y la medida?
HIPTESIS

H inv : x y

H 0 : x = y

Reportadas X i

Medidas Yi

X 1 = 68
X 2 = 71
X 3 = 63

Y1 = 67.9
Y2 = 69.9
Y3 = 64.9

X 4 = 70
X 5 = 71

Y4 = 68.3
Y5 = 70.3

X 6 = 60

Y6 = 60.6

X 7 = 65

Y7 = 64.5

X 8 = 64

Y8 = 67

X 9 = 54

Y9 = 55.6

X 10 = 63

Y10 = 74.2

X 11 = 66
X 12 = 72

Y11 = 65
Y12 = 70.8

di

d i ordenados
ascendentemente

0.1+
1.1+
1.91.7+
0.7+
0.60.5+
3.01.611.21+
1.2+

0.1+
0.5+
0.60.7+
1+
1.1+
1.2+
1.61.7+
1.93.011.2-

d i = ( X i Yi )

d1 = (68 67.9 ) = 0.1


d 2 = (71 69.9) = 1.1
d 3 = (63 64.9 ) = 1.9
d 4 = (70 68.3) = 1.7
d 5 = (71 70.3) = 0.7

d 6 = (60 60.6) = 0.6


d 7 = (65 64.5) = 0.5
d 8 = (64 67 ) = 3.0

d 9 = (54 55.6) = 1.6

d10 = (63 74.2) = 11.2


d11 = (66 65) = 1
d12 = (72 70.8) = 1.2

Lugar

Valor
de
rango

1
2
3
4
5
6
7
8
9
10
11
12

1
2
3
4
5
6
7
8
9
10
11
12
DATOS

T = 34

H a : x y

T = 44

d i signo
0.1+
1.1+
1.91.7+
0.7+
0.60.5+
3.01.611.21+
1.2+

Rangos de d i

Rangos de d i

que provienen de
d i positivo

que provienen de
d i negativo

1
2
3
4
5
6
7
8
9
10
11
12

T {34,44} = 34

n = 12

CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS

Ho

H 0 : x = y

76

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

T DE TABLAS
CORRESPONDIENTE
PARA ESTADSTICO
DE PRUEBA
EXPRESIN PARA
CONTRASTE DE
HIPTESIS
VALORES FINALES
A CONTRASTAR

Tn

T Tn

Tn = T012.025 = 14

T = 34

, Para este caso, el valor de T = 34 no es menor a la T de tablas T012.025 = 14 , motivo


por el cual la hiptesis nula H 0 : x = y no se rechaza y puede inferirse que no

existen diferencias significativas ( p > 0.05) entre la estatura reportada y la medida en


esta investigacin.

COMPARACIN DE MS DE DOS MEDIAS POBLACIONALES


Cuando lo que se necesita es comparar ms de dos poblaciones, veremos que lo
primero que debe hacerse es una prueba para averiguar si sus medias poblacionales
son iguales. En caso de que no, se aplica otro contraste de hiptesis para distinguir las
que son diferentes.
A. POBLACIONES CON DISTRIBUCIN NORMAL
1) PRUEBA ANOVA
Como sus siglas en ingls lo dicen (Analysis Of Variance), la prueba ANOVA consiste
en comparar la varianza que se da entre poblaciones con la que se da dentro de cada
poblacin.
Con tal fin, lo primero que debe hacerse es organizar los datos de las k muestras
(aqu estipulados con dos subndices, el primero de la muestra de la cual proviene X i
y el segundo del nmero de dato X j ) y obtener los siguientes datos:
MUESTRA X i
1

X 31

X 11

X 21

X k1

DATO

X 12

X 22

X 32

X k2

Xj

X 13

X 23

X 33

X k3

X 1k

X 2k

X 3k

X knk

Ti

T1 = X 1 j

T2 = X 2 j

T3 = X 3 j

Tk = X kj

TAMAO
MUESTRA

n1

n2

n3

TOTALES

i =1

i =1

i =1

i =1

n nk

n = n1 + n2 + n3 + ... + nk

77

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Como podemos ver, n es aqu igual al nmero total de elementos de todas las
muestras y cada total Ti es igual a la suma de los datos de cada muestra.
Si bien obtener estos datos es relativamente sencillo, faltan an dos datos que se
necesitarn para el estadstico de prueba:

ij

2
ij

DATOS GENERALES
Valor que es igual al de la suma de los totales de cada muestra
Ti y que puede obtenerse ingresando en el modo estadstico

( )

de la calculadora todos los datos y apretando la tecla

x.

Valor que se obtiene igual que el anterior pero mediante la tecla


x2 .

Es la desviacin estndar que obtiene la calculadora de todos los


datos ingresados.
a) Hiptesis nula, estadstico de prueba y regin de rechazo
Como las medias de las k poblaciones son 1 , 2 , 3 ,..., k , las hiptesis a
contrastar son:

HIPTESIS NULA

HIPTESIS ALTERNATIVA

H 0 : 1 = 2 = 3 = ... = k

H a : Al menos una i es diferente

El punto es que, debido a la naturaleza de esta prueba, el estadstico para el


contraste de hiptesis es ms complejo que en pruebas anteriores, pues se
construye a partir de la siguiente tabla de anlisis de varianza:

Fuente de
variabilidad
Entre
muestras
Dentro de
muestras
Total

TABLA DE ANLISIS DE VARIANZA


Grados
Cuadrados
de
Suma de cuadrados
medios
libertad
(varianza)

(k 1)

T 2 ( X ij )
SCt = i
n
i =1 ni

CM e =

(k 1)

(n k )

SC d = SC t SC e

CM d =

(n k )

(n 1)

SCt = X ij

( X )

Estadstico
de prueba

SC e

SCd

Fc =

CM e
CM d

ij

Definamos cmo establecer los trminos de algunas expresiones y su desarrollo:


DATOS
CLCULO
Se
obtiene
restando
uno
al
nmero
de
(k 1)
muestras/poblaciones.
Se calcula restando uno al nmero total de elementos
(n 1)
de todas las muestras.
(n k )
Se obtiene restando (n 1) - (k 1)
Cada total Ti de muestra se eleva al
cuadrado y se divide entre su tamao
muestral.
esos resultados se suman y a ello se le resta
x,
( X ij )2 El valor obtenido con la tecla

Ti 2

i =1 ni
k

Ti 2 ( X ij )
SCt =

n
i =1 ni
k

elevado al cuadrado y dividido entre la n

78

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

( x )2
.
total:
n
Si bien esta dato puede obtenerse en la calculadora
x 2 el valor de
x , elevado al
restando al valor de

SCt = X ij

( X )

ij

(
x)

2
,
cuadrado y dividido entre la n total: x
n

es ms fcil calcularlo con la siguiente expresin:


SC t = (n 1)s 2 5.
SCd
CM d =
(n k )

SCe
CM e =
(k 1)

Fc =

CM e
CM d

Como se ve en la tabla, los cuadrados medios entre


muestras y dentro de ellas son fciles de calcular, pues
simplemente se divide su respectiva suma de
cuadrados entre sus grados de libertad.
Finalmente, el estadstico de prueba se obtiene
dividiendo los cuadrados medios entre muestras entre
los cuadrados medios dentro de las muestras.

Este estadstico de prueba tiene una distribucin F de Fisher, por lo cual el valor
de inicio de la regin de rechazo para la hiptesis nula se encuentra mediante la
expresin F1(k1,n k ) , donde los grados de libertad son (k 1) en el numerador y

(n k ) en el denominador.

REGIN DE RECHAZO DE H 0 : 1 = 2 = 3 = ... = k

F1(k1,n k )

Cuando en la prueba ANOVA se ha rechazado la hiptesis nula de que todas las


medias poblacionales son iguales (H 0 : 1 = 2 = 3 = ... = k ) , existen varias
pruebas de contraste mltiple que se aplican a posteriori para encontrar las
medias que difieren; por ejemplo, la prueba de Sheff, la de Duncan, de Bon
Ferroni y la de Tukey, que veremos a continuacin.
2) PRUEBA DE TUKEY
Como ya se dijo, esta es una prueba post-hoc de contraste mltiple en la cual se va
comparando parejas de medias poblacionales.
a) Hiptesis nula estadstico de prueba y rechazo.

Porque s =
2

SC

79

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Teniendo k poblaciones, se establece una hiptesis nula y su alternativa para ir


comparando parejas hasta contrastarlas todas:
HIPTESIS NULA

HIPTESIS ALTERNATIVA

H 0 : i = j

H a : i j

Esto implica que el nmero de pruebas a realizar es igual a la combinacin de


k C 2 , por ejemplo:
HIPTESIS NULA

HIPTESIS ALTERNATIVA

H 0 : 1 = 3

H 0 : 1 3

H 0 : 1 = k

H 0 : 1 k

H 0 : 1 = 2

H a : 1 2

Al usarse una prueba post-hoc, el contraste de estas hiptesis depende de un


estadstico
de
prueba
de
DIFERENCIAS
VERDADERAMENTE
SIGNIFICATIVAS, llamado DVS c , el cual depende de un dato de la prueba
ANOVA:
EXPRESIN PARA CALCULAR EL
ESTADSTICO DE PRUEBA DVS c EN
POBLACIONES CON DISTRIBUCIN
NORMAL

DVS c = q ,k ,n k

CM d
n*

Donde q ,k ,n k es un dato que se halla en las tablas de Tukey o de Puntos


porcentuales del rango corregido de Student para 2 a 20 tratamientos, donde la
significancia son los puntos superiores [( = 0.05 = 5% ), ( = 0.01 = 1% )] , k

son el nmero de muestras/poblaciones y (n k ) los grados de libertad que


encontramos dentro de las muestras en la prueba ANOVA.
Por su parte CM d son tambin los varianzas (cuadrados medios) dentro de las
muestras (o el nmero de elementos totales menos el nmero de poblaciones) y
n * es el valor mnimo entre los dos tamaos de muestra comparadas
n* = mnimo ni , n j .

})

Si el valor del DVS c es mayor a la diferencia absoluta de las medias de las dos
muestras comparadas, la hiptesis nula se rechaza. Es decir:

H 0 : i = j

Se rechaza si

X i X j > DVS c

Por ltimo, la forma ms metdica de comprobar esto es organizando los datos


en una tabla como la que se muestra a continuacin:

H 0 : i = j
HIPTESIS

H 0 : i = j

Xi X j

n*

(n* = mnimo{n , n })
i

Xi X j

DVS c

q , k , n k

CM d
= DVS c
n*

se rechaza si

X i X j > DVS c
</>

80

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

3) EJEMPLOS DE APLICACIN
1.
Los siguientes datos corresponden, en una escala del 0 al 10, a la
autopercepcin de discriminacin en 3 grupos de personas de edad mayor.
Suponiendo distribucin normal en todas las poblaciones y con una significancia de
= 0.05 , es posible afirmar que la percepcin de discriminacin es diferente segn
el grupo de edad?
7

5
10

60-64 AOS
5
1
70-74 AOS
5
80-84 AOS
6
10

HIPTESIS NULA

2
4

10
8

5
7

HIPTESIS ALTERNATIVA

H 0 : 1 = 2 = 3

H a : Al menos una i es diferente

Organicemos los datos:


MUESTRA X i

k =3

DATO

Xj

TOTALES

Ti
TAMAO
MUESTRA

1. 60-64 AOS
7
2
1
8
5
5
1
8
5
3
5

2. 70-74 AOS
9
9
5
5
2
10
7

3. 80-84 AOS
6
6
10
5
6
10
4
8
1
8

T1 = 50

T2 = 47

T3 = 64

n1 = 11

n2 = 7

n3 = 10

n = 11 + 7 + 10 = 28
DATOS GENERALES

ij

= 161

2
ij

= 1135

s = 2.78

Y calculemos el estadstico de prueba:

81

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

TABLA DE ANLISIS DE VARIANZA


Cuadrados
Grados de
Suma de cuadrados
medios
libertad
(varianza)

Fuente de
variabilida
d

50 2 47 2 64 2
+
+
11
7
10
2
161

= 26.69
28
SC e =

(3 1) = 2

Entre
muestras

Dentro de
muestras

(27 2) = 25

Total

(28 1) = 27

26.69
2

CM e =
= 13.35

SC d = 208.67 26.69

CM d =

= 181.98

= 7.28

Estadstico
de prueba

13.35
7.28
= 1.83

Fc =

181.98
25

SC t = (28 1)2.78 2
= 208.67

REGIN DE RECHAZO DE H 0 : 1 = 2 = 3

= 0.05

)
( 2 , 25 )
F1( 20,.25
= 3.39
05 = F0.95

, El estadstico de prueba Fc = 1.83 est fuera de la regin de rechazo que inicia en


2 , 25 )
F0(.95
= 3.39 . Por tal motivo, la hiptesis nula H 0 : 1 = 2 = 3 no se rechaza y
puede afirmarse que no existen diferencias en la percepcin de discriminacin entre
estos grupos de personas de edad mayor.
2.
Los siguientes valores corresponden al dimetro transverso mximo de
crneos de hombres egipcios de distintas pocas. Si los cambios en la forma de la
cabeza a lo largo del tiempo sugieren mestizaje, suponiendo distribucin normal en las
poblaciones y con una significancia de = 0.05 , es posible comprobar que hubo
mestizaje en estas poblaciones?

131
129
128

4000 a.C.
138
125
129
132
135
1850 a.C.
134
136
137
137
129
136
138
150 d.C.
138
136
139
141
142
145
HIPTESIS NULA

H 0 : 1 = 2 = 3

132
134
137

HIPTESIS ALTERNATIVA
H a : Al menos una i es diferente
MUESTRA X i

k =3
DATO

1. 4000 a.C.
131

2. 1850 a.C.
129

3. 150 d.C.
128

82

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Xj

TOTALES

Ti
TAMAO
MUESTRA

X
Fuente de
variabilida
d
Entre
muestras

Dentro de
muestras

Total

138
125
129
132
135
132

134
136
137
137
129
136
138
134

138
136
139
141
142
145
137

T1 = 922

T2 = 1210

T3 = 1106

n1 = 7

n2 = 9

n3 = 8

n = 7 + 9 + 8 = 24
DATOS GENERALES

ij

= 3238

2
ij

= 437396

s = 4.83

TABLA DE ANLISIS DE VARIANZA


Cuadrados
Grados de
Suma de cuadrados
medios
libertad
(varianza)

Estadstico
de prueba

922 2 1210 2 1106 2


+
+
SC e =
162.68
CM e =
7
9
8
2
(3 1) = 2
3238 2
= 81.34

= 162.68
81.34
24
Fc =
17.80
373.88 = 4.57
CM d =
536
.
56
162
.
68
SC
=

(23 2) = 21
d
25
= 373.88
= 17.80

(24 1) = 23

SC t = (24 1)4.83 2
= 536.56

REGIN DE RECHAZO DE H 0 : 1 = 2 = 3

= 0.05

)
( 2 , 21)
F1(20,.25
= 3.47
05 = F0.95

, El estadstico de prueba Fc = 4.57 cae en la regin de rechazo que inicia en


2 , 21)
F0(.95
= 3.47 . Por tal motivo, la hiptesis nula H 0 : 1 = 2 = 3 se rechaza y puede
afirmarse que existen diferencias entre las medias del dimetro transverso mximo de
los crneos de estas tres poblaciones y que hubo mestizaje.

83

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Por tal motivo, para distinguir qu medias son diferentes es necesario aplicar la prueba
de Tukey. Establezcamos primero los datos que obtuvimos de las muestras:
TOTAL

Ti

TAMAO DE
MUESTRA

1. 4000 a.C.

T1 = 922

n1 = 7

2. 1850 a.C.

T2 = 1210

n2 = 9

3. 150 d.C.

T3 = 1106

n3 = 8

MUESTRA

k =3

MEDIA MUESTRAL

X 1 = 922 = 131.71
7
X 2 = 1210 = 134.44
9
X 3 = 1106 = 138.25
8

n = 24

Y ahora el valor constante que tendr el coeficiente para calcular el DVS c :


VALOR DE COEFICIENTE q ,k ,n k

= 0.05 = 5%

k =3

(n k ) = (24 3) = 21

q ,k ,n k = q 0.05,3, 21 = 3.58

Ahora contrastemos las hiptesis necesarias:

H 0 : i = j
HIPTESIS

n*

Xi X j

DVS c
17.80
= 5.71
7
17.80
3.58
= 5.71
7
17.80
3.58
= 5.34
8

H 0 : 1 = 2

n* = {7,9} = 7

131.71 134.44 = 2.73

H 0 : 1 = 3

n* = {7,8} = 7

131.71 138.25 = 6.54

H 0 : 2 = 3

n* = {9,8} = 8

134.44 138.25 = 3.81

3.58

se rechaza si

X i X j > DVS c
2.73 < 5.71
6.54 > 5.71
3.81 < 5.34

, Al contrario de las hiptesis H 0 : 1 = 2 y H 0 : 2 = 3 , la hiptesis nula H 0 : 1 = 3 s se

rechaza, por lo cual existe una diferencia significativa ( p < 0.05) entre las medias de la primera
y la tercera poblacin. Ello indica que no pueden percibirse cambios entre poblaciones
continuas, pero s entre la poblacin ms antigua y la ms reciente.
B. POBLACIONES SIN DISTRIBUCIN NORMAL
1) PRUEBA DE KRUSKAL-WALLIS
Cuando el supuesto de normalidad no se cumple en al menos una de las poblaciones,
sta es la alternativa a la prueba ANOVA.
a) Hiptesis nula, estadstico de prueba y regin de rechazo
Igual que en la prueba ANOVA, las hiptesis a contrastar son:
HIPTESIS NULA

H 0 : 1 = 2 = 3 = ... = k

HIPTESIS ALTERNATIVA
H a : Al menos una i es diferente

84

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Empero, el estadstico de prueba aqu es mucho ms sencillo, pues para su


clculo requiere tan slo de los tamaos muestrales (ni ) , el nmero total de
elementos (n ) y los rangos asignados a todos los datos como si fueran una sola
muestra (Ri ) :

EXPRESIN PARA CALCULAR


EL ESTADSTICO DE PRUEBA
H c EN POBLACIONES SIN
DISTRIBUCIN NORMAL

Rk2
12 R12 R22 R32
3(n + 1)

Hc =
+
+
+ ... +
n(n + 1) n1 n 2 n3
n k

Como este estadstico de prueba tiene una distribucin ji-cuadrada, el valor de


inicio de la regin de rechazo de la hiptesis nula se encuentra en las respectivas
tablas mediante la expresin 12(k 1) , donde (k 1) son los grados de libertad:
REGIN DE RECHAZO DE H 0 : 1 = 2 = 3 = ... = k

12(k 1)
Dado el caso que la hiptesis nula se rechace en esta prueba y haya que distinguir
qu medias difieren, la prueba para comparar medias poblacionales por parejas es la
U de Mann-Whitney.
2) PRUEBA U DE MANN-WHITNEY
Si bien la prueba U de Mann-Whitney se aplica exactamente igual a como lo vimos en
el tema de Comparacin de 2 medias poblacionales, lo nico que es importante
mencionar es que las hiptesis son sobre medias y que los rangos deben asignarse
cada vez para que se compare una pareja de muestras. Veremos de cualquier forma
un ejemplo.
3) EJEMPLOS DE APLICACIN
1.
Los siguientes datos corresponden al grado de las heridas en la cabeza que se
registraron en 4 categoras de automviles:
Sub-compacto
Compacto
Mediano
Grande

681
643
469
384

428
655
727
656

917
442
525

514
454
602

898
525
259
687

Suponiendo que las poblaciones no tienen distribucin normal; con una significancia
= 0.05 es posible inferir diferencias en el grado de las heridas respecto al tipo de
automvil?

85

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

HIPTESIS NULA

HIPTESIS ALTERNATIVA
H a : Al menos una i es diferente

H 0 : 1 = 2 = 3 = 4
Saquemos entonces los datos necesarios:
Subcom.
681
428
917
898

Rango
14
3
18
17

Compacto
643
655
442
514
525

R1
n1

52

R2
n2

Rango
11
12
4
7
8.5
42.5
5

k=4
EXPRESIN PARA
CALCULAR EL
ESTADSTICO DE
PRUEBA H c EN
POBLACIONES SIN
DISTRIBUCIN
NORMAL
APLICACIN

Hc =

Mediano
469
727
525
454
259

R3
n3

Rango
6
16
8.5
5
1
36.5

Grande
384
656
602
687

Rango
2
13
10
15
40

R4
n4
5
n = 4 + 5 + 5 + 4 = 18

Rk2
12 R12 R22 R32
3(n + 1)

...
+
+
+
+
n(n + 1) n1 n 2 n3
n k

52 2 42.5 2 36.5 2 40 2
12

3(18 + 1) = 2.78
+
+
+
Hc =
18(18 + 1) 4
5
5
4

REGIN DE RECHAZO DE H 0 : 1 = 2 = 3 = 4

= 0.05

12(k 1) = 12(04.051) = 02.(953 ) = 7.815

, El estadstico de prueba H c = 2.78 est fuera de la regin de rechazo que inicia

en 02.(953 ) = 7.815 ; por ende, la hiptesis nula H 0 : 1 = 2 = 3 = 4 no se rechaza y


puede inferirse que no existen diferencias significativas ( p > 0.05) en las heridas en
la cabeza que se registran en distintos tipos de automviles.

2.
En un grupo de hombres con lesiones cerebrales se hizo un estudio de
sntomas de fatiga, evaluando sus niveles con la escala de Zung (un instrumento para
medir depresin). Teniendo tres muestras: una muestra de hombres con fatiga, otra
sin fatiga y una de control (todos de la misma edad), se registraron los siguientes
resultados:
46
51

MUESTRA CON LESIN CEREBRAL Y FATIGA


61
51
36
51
45
69
54
51
38
64

54

86

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

39

44

36

MUESTRA CON LESIN CEREBRAL SIN FATIGA


58
29
40
48
65
41
MUESTRA CONTROL
34
41
29
31
26

46
33

Suponiendo que las poblaciones no tienen distribucin normal; con una significancia
= 0.05 es posible afirmar que esta poblaciones muestran diferencias de acuerdo a
la escala de Zung?
HIPTESIS NULA

HIPTESIS ALTERNATIVA
H a : Al menos una i es diferente

H 0 : 1 = 2 = 3

LC c/fatiga
46
61
51
36
51
45
54
51
69
54
51
38
64

R1
n1

Rango
16.5
26
20.5
7.5
20.5
15
23.5
20.5
29
23.5
20.5
9
27
259
13

LC s/fatiga
39
44
58
29
40
48
65
41
46

Rango
10
14
25
2.5
11
18
28
12.5
16.5

Control
36
34
41
29
31
26
33

Rango
7.5
6
12.5
2.5
4
1
5

R2
n2

137.5
9

R3
n3

38.5
7

k =3

n = 13 + 9 + 7 = 29

EXPRESIN PARA
CALCULAR EL
ESTADSTICO DE
PRUEBA H c EN
POBLACIONES SIN
DISTRIBUCIN
NORMAL

Rk2
12 R12 R22 R32
3(n + 1)

Hc =
+
+
+ ... +
n(n + 1) n1 n 2 n3
n k

Hc =

APLICACIN

259 2 137.5 2 38.5 2


12

+
+
29(29 + 1) 13
9
7

3(29 + 1) = 13.07

REGIN DE RECHAZO DE H 0 : 1 = 2 = 3

= 0.05

12(k 1) = 12(03.051) = 02.(952 ) = 5.991

87

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

, El estadstico de prueba H c = 13.07 cae en la regin de rechazo que inicia en

02.(952 ) = 5.991 ; por tal motivo la hiptesis nula H 0 : 1 = 2 = 3 se rechaza y puede

inferirse que existen diferencias significativas ( p < 0.05) en los resultados de los
grupos de acuerdo a la escala de Zung.

Para encontrar qu medias difieren, apliquemos la prueba U de Mann-Whitney. En ella


los datos sern acomodados ascendentemente para facilitar la asignacin de rangos.
HIPTESIS

H 0 : 1= 2
LC C/FATIGA
36
38
45
46
51
51
51
51
54
54
61
64
69

RANGO
2
3
8
9.5
13.5
13.5
13.5
13.5
16.5
16.5
19
20
22
170.5
13

R1
n1

H a : 1 2
LC S/FATIGA
29
39
40
41
44
46
48
58
65

R2
n2

RANGO
1
4
5
6
7
9.5
11
18
21
82.5
9

REGIN DE RECHAZO DE H 0 : 1= 2

= 0.05
,9 )
= U 0(13
.05 = 34

( n1 , n2 )

EXPRESIN PARA EL
ESTADSTICO DE PRUEBA U c EN
POBLACIONES CON
DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS
CLCULO DEL
ESTADSTICO DE PRUEBA t c

( n1 , n2 )

U 1

1 = 0.95
,9 )
= U 0(13
.95 = 13 9 34 = 83

U c = R1

U c = 170.5

n1 (n1 + 1)
2

13(13 + 1)
= 79.5
2

88

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

UBICACIN DE ESTADSTICO DE
PRUEBA U c CON RESPECTO A
REGIN DE RECHAZO DE H 0
, El estadstico de prueba U c = 79.5 est fuera de la regin de rechazo. Por ende, la
hiptesis nula H 0 : 1= 2 no se rechaza y puede inferirse que no existen diferencias

significativas ( p > 0.05) entre las dos poblaciones con lesiones cerebrales.

HIPTESIS

H 0 : 1= 3
LC C/FATIGA
36
38
45
46
51
51
51
51
54
54
61
64
69

H a : 1 3

RANGO
6.5
8
10
11
13.5
13.5
13.5
13.5
16.5
16.5
18
19
20
179.5
13

R1
n1

CONTROL
26
29
31
33
34
36
41

R2
n2

RANGO
1
2
3
4
5
6.5
9
30.5
7

REGIN DE RECHAZO DE H 0 : 1= 3

= 0.05
,7 )
= U 0(13
.05 = 25

( n1 , n2 )

EXPRESIN PARA EL
ESTADSTICO DE PRUEBA U c EN
POBLACIONES CON
DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS
CLCULO DEL
ESTADSTICO DE PRUEBA t c

( n1 , n2 )

U 1

1 = 0.95
,7 )
= U 0(13
.95 = 13 7 25 = 66

U c = R1

U c = 179.5

n1 (n1 + 1)
2

13(13 + 1)
= 88.5
2

89

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

UBICACIN DE ESTADSTICO DE
PRUEBA U c CON RESPECTO A
REGIN DE RECHAZO DE H 0
, El estadstico de prueba U c = 88.5 cae en la regin de rechazo. Por ende, la
hiptesis nula H 0 : 1= 3 se rechaza y puede inferirse que, segn la escala de Zung,

existen diferencias significativas ( p < 0.05) entre los hombres con lesin cerebral que
sufren fatiga y la muestra control.
HIPTESIS

H 0 : 2 = 3
LC S/FATIGA
29
39
40
41
44
44
58
65
68

RANGO
2.5
8
9
10.5
12.5
12.5
14
15
16

R1
n1

100
9

H a : 2 3
CONTROL
26
29
31
33
34
36
41

R2
n2

RANGO
1
2.5
4
5
6
7
10.5
36
7

REGIN DE RECHAZO DE H 0 : 2 = 3

= 0.05
= U 0(9.05,7 ) = 16

( n1 , n2 )

EXPRESIN PARA EL
ESTADSTICO DE PRUEBA U c EN
POBLACIONES CON
DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS
CLCULO DEL
ESTADSTICO DE PRUEBA t c

( n1 , n2 )

U 1

1 = 0.95
= U 0(9.95,7 ) = 9 7 16 = 47

U c = R1

U c = 100

n1 (n1 + 1)
2

9(9 + 1)
= 55
2

90

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

UBICACIN DE ESTADSTICO DE
PRUEBA U c CON RESPECTO A
REGIN DE RECHAZO DE H 0
, El estadstico de prueba U c = 55 cae en la regin de rechazo. Por ende, la
hiptesis nula H 0 : 2 = 3 se rechaza y tambin puede inferirse que, segn la escala
de Zung, existen diferencias significativas ( p < 0.05) entre los hombres con lesin
cerebral que no tienen fatiga y la muestra control.

, De esta forma podemos comprobar que, de acuerdo a la escala de Zung, no existen


diferencias entre los hombres con lesiones cerebrales que manifiestan fatiga y los que
no, pero estas dos poblaciones si son diferentes a los hombres que no poseen
ninguna lesin cerebral.

COMPARACIN DE PROPORCIONES POBLACIONALES


A. COMPARACIN DE DOS PROPORCIONES POBLACIONALES
A.1) FUNDAMENTOS
Como en ocasiones anteriores, los siguientes mtodos sirven para comparar una
variable cualitativa, pero que ahora se presenta en dos poblaciones (N 1 , N 2 ) ,
obteniendo proporciones p1 =

M1

N1

y p2 =

M2

N2

que buscan compararse.

A.2) CONDICIONES PARA SU COMPARACIN


Se puede aplicar una prueba de hiptesis para comparar 2 proporciones poblacionales
siempre y cuando acorde al Teorema Central de Lmite las muestras y sus
proporciones cumplan con los siguientes supuestos:
1. n1 > 20

2. n1 p 1 = m1 > 5

4. n 2 > 20

5. n 2 p 2 = m2 > 5

3. n1 (1 p 1 ) = n1 m1 > 5

6. n 2 (1 p 2 ) = n 2 m2 > 5

Cuando tales condiciones no se cumplen, es necesario tomar una muestra ms


grande.
A.3) INTERVALO DE CONFIANZA
La expresin para encontrar el intervalo de confianza para la diferencia de 2
proporciones poblacionales p1 p 2 es:
EXPRESIN PARA
ENCONTRAR UN INTERVALO
AL (1 ) POR CIENTO DE
CONFIANZA PARA p1 p 2
CUANDO LA POBLACIN

p1 p 2 p 1 p 2 Z 1
2

p (1 p ) p (1 p )
+

n1
n2

91

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

TIENE DISTRIBUCIN
APROXIMADAMENTE
NORMAL ESTNDAR

p=

DONDE

n1 p1 + n 2 p 2 m1 + m2
=
n1 + n 2
n1 + n 2

Igual que en otras diferencias, los resultados se interpretan de la siguiente forma:


VALORES RESULTANTES
Valores negativos

INTERPRETACIN

p1 < p 2
p1 > p 2

Valores positivos
Valores negativos y positivos
(que incluyen al cero)

p1 = p 2

A.4) CONTRASTE DE HIPTESIS


a) Hiptesis nulas y su regin de rechazo
Al buscarse comparar dos proporciones poblacionales, las hiptesis a contrastar
son:
HIPTESIS DEL
INVESTIGADOR

HIPTESIS NULA

HIPTESIS
ALTERNATIVA

H inv : p1 p 2

H 0 : p1 = p 2

H a : p1 p 2

H inv : p1 < p 2

H 0 : p1 p 2

H a : p1 < p 2

H inv : p1 > p 2

H 0 : p1 p 2

H a : p1 > p 2

Como dependen de una distribucin aproximadamente normal estndar, como


siempre, segn sea el caso y de acuerdo a la significancia , la regin de
rechazo para la hiptesis nula H 0 ser:
HIPTESIS

H inv : p1 p 2
PRUEBA
BILATERAL O
DE DOS
COLAS

PRUEBA

REGIN DE
RECHAZO DE

H 0 : p1 = p 2

H a : p1 p 2

1-
/2

H0

Z1
H inv : p1 < p 2

/2

Z1

H 0 : p1 p 2

H a : p1 < p 2

92

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

UNILATERAL
O DE UNA
COLA

REGIN DE
RECHAZO DE

1-

H0

Z1
H inv : p1 > p 2

REGIN DE
RECHAZO DE

H0

H 0 : p1 p 2

H a : p1 > p 2

1-

Z1
Por tanto, no hace falta repetir cmo hallar el valor de inicio de la regin de
rechazo con base en las tablas de la distribucin normal estndar.
b) Procedimiento para el contraste de hiptesis
1. Comprobar los supuestos de la muestra para verificar la factibilidad de la
prueba.
2. Si tales condiciones se cumplen, explicitar la hiptesis del investigador H inv , la
hiptesis nula H 0 y la hiptesis alternativa H a .
3. Calcular el estadstico de prueba que compara el estimador con el valor
hipottico y su variabilidad:
EXPRESIN PARA CALCULAR EL
p 1 p 2
Zc =
ESTADSTICO DE PRUEBA Z c EN
p (1 p ) p (1 p )
+
POBLACIONES CON DISTRIBUCIN
n1
n2
APROXIMADAMENTE NORMAL
ESTNDAR
que tiene una distribucin aproximadamente normal estndar.
4. Determinar el nivel de significancia de la prueba, as como la ubicacin y el
valor de la regin de rechazo de la hiptesis nula H 0 .
5. Ubicar el estadstico de prueba con respecto a la regin de rechazo de la
hiptesis nula H 0 ; si est dentro de ella, rechazar la hiptesis nula H 0 . Si est
fuera, concluir con qu significancia o confiabilidad no se rechaza.
B. COMPARACIN DE DOS O MS PROPORCIONES POBLACIONALES:
ASOCIACIN DE VARIABLES CUALITATIVAS
Una forma de comparar dos o ms proporciones poblacionales es la prueba jicuadrada 2 ; basada en los resultados de tablas de contingencia (tambin llamadas
tablas de dos entradas).

93

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

B.1) CONTRASTE DE HIPTESIS


Por ende, para realizar este contraste de hiptesis primero hay que vaciar los datos
que se tienen en una primera tabla de contingencia: la de los datos observados.
DATOS OBSERVADOS Oij

VARIABLE CUALITATIVA ( j )
(Nmero de elementos)
C
S
(con la caracterstica)
(sin la caracterstica)

1
VARIABLE
CUALITATIVA

(i )

2
3

(i )
k

MARGINALES

MARGINALES

O11 = m1
O21 = m2
O31 = m3

O12 = n1 m1
O22 = n2 m2
O32 = n3 m3

n1
n2
n3

Oi1 = mi

Oi 2 = ni mi

ni

Ok 1 = m k

Ok 2 = n k m k

nk

C = O11 + O21 + O31 + ... + Ok1

S = O12 + O22 + O32 + ... + Ok 2

n = n1 + n2 + n3 + ... + nK

n=C+S

Es muy importante calcular el valor de los marginales en cada columna y rengln,


asegurndose que la suma de C + S sea igual al valor de n .
Teniendo los datos marginales, podremos obtener el contenido para la tabla de
contingencia de los datos esperados mediante cualquiera de las siguientes frmulas:
EXPRESIONES PARA OBTENER EL CONTENIDO DE LA TABLA DE
CONTINGENCIA DE DATOS ESPERADOS

n
Oij = C / S i
n

C/S
Oij = ni

n
Lo cual, por ejemplo, implicara lo siguiente:
DATOS ESPERADOS eij

VARIABLE CUALITATIVA ( j )
(Nmero de elementos)
C
S
(con la caracterstica)
(sin la caracterstica)

1
2
VARIABLE
CUALITATIVA

(i )

(i )
k
MARGINALES

C
e11 = n1
n
C
e21 = n2
n
C
e31 = n3
n
C
ei1 = ni
n
C
ekj = n K
n

S
e12 = n1
n
S
e22 = n2
n
S
e32 = n3
n
S
ei 2 = n i
n
S
ekj = nk
n

C = O11 + O21 + O31 + ... + Ok1

S = O12 + O22 + O32 + ... + Ok 2

MARGINALES

n1
n2

n3
ni
nk
n = n1 + n2 + n3 + ... + nK

n=C+S

94

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Y no est de ms volver a comprobar que la suma del contenido sea igual a los
marginales. Una vez construida la tabla de contingencia de datos esperados se
estipulan las hiptesis a contrastar y se calcula el estadstico de prueba:
HIPTESIS NULA

HIPTESIS ALTERNATIVA
H a : Existe asociacin
entre las variables.

H 0 : No hay asociacin
entre las variables.
EXPRESIN PARA CALCULAR EL
ESTADSTICO DE PRUEBA c2

=
2
c

(O

ij

eij )

eij

i =1 j =1

El cual simplemente consiste en sumar los resultados obtenidos de restar a cada valor
observado su respectivo valor esperado, elevarlo al cuadrado y dividirlo entre el valor
esperado.
Obviamente, tal estadstico de prueba tiene una distribucin ji cuadrada con un
nmero de grados de libertad igual al producto de los renglones de la tabla menos uno
por las columnas de la tabla menos uno: 12[(r 1)(c 1)] , que con una significancia de

1 establece una regin de rechazo en la seccin superior del eje de las X .


REGIN DE RECHAZO DE
H 0 : No hay asociacin entre la variable y las poblaciones

1-

12[(r 1)(c 1)]


Como siempre, si la hiptesis nula H 0 : No hay asociacin entre la variable y las
poblaciones se rechaza, existe asociacin entre las variables de inters. Por tal
motivo, resulta importante averiguar el grado de asociacin que existe en ello.
B.2) COEFICIENTE V DE CRAMER
Se trata de una medida que determina la intensidad de asociacin entre dos variables
cualitativas. Al ser una prueba que se aplica a posterior a la 2 , su clculo implica la
siguiente expresin:
EXPRESIN PARA CALCULAR EL
COEFICIENTE DE CRAMER Vc

Vc =

c2

n(mnimo{r 1, c 1})

Donde c2 es el estadstico de prueba que calculamos anteriormente, n es la nmero


de elementos totales que hay en los marginales de las tablas de contingencia y el
mnimo se refiere al valor menor entre los datos por rengln menos uno y los datos de
columna menos uno.

95

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

El resultado del coeficiente de Cramer Vc puede estar entre 0 y 1 (0 Vc 1) , y su


valor se interpreta de la siguiente forma:

Vc 0

La asociacin entre las variables es muy dbil.

Vc 1

La asociacin entre las variables es muy fuerte.

C. EJEMPLOS DE APLICACIN
1.
Se desea establecer si existen diferencias en la proporcin de agujeros
auditivos con forma elptica inclinada que presentan los restos seos masculinos y
femeninos de la Cueva de la Candelaria. Segn los datos del profesor Romano, 37 de
45 hombres presentaron esta caracterstica y 30 de 36 mujeres tambin. Con una
significancia de = 0.01 contrastar la hiptesis planteada y construir un intervalo de
confianza al 99% para la diferencia de proporciones.
DATOS GENERALES

n1 = 45

m1 = 37

p 1 = 37 = 0.82
45

1 p 1 = 1 0.82 = 0.18

n 2 = 36

m2 = 30

p 2 = 30 = 0.83
36

1 p 1 = 1 0.83 = 0.17

p=

m1 + m2 37 + 30
= 0.83
=
45 + 36
n1 + n2

1 p = 1 0.83 = 0.17

Segn el procedimiento para el contraste de hiptesis, lo primero que debemos hacer


es comprobar que los supuestos se cumplan:
1. n1 > 20

2. n1 p 1 = m1 > 5

45 > 20
4. n 2 > 20
36 > 20

37 > 5
5. n 2 p 2 = m2 > 5
30 > 5

3. n1 (1 p 1 ) = n1 m1 > 5

45 37 = 8 > 5
6. n 2 (1 p 2 ) = n 2 m2 > 5
36 30 = 6 > 5

Comprobado ello, podemos plantear las hiptesis para contrastar:


HIPTESIS

H inv : p1 p 2

H 0 : p1 = p 2

H a : p1 p 2

Ahora bien, hay que calcular el estadstico de prueba:


EXPRESIN PARA EL
ESTADSTICO DE PRUEBA Z c

APLICACIN

Zc =

Zc =

p 1 p 2
p (1 p ) p (1 p )
+
n1
n2

0.82 0.83
= 0.12
0.83(0.17 ) 0.83(0.17 )
+
45
36

Teniendo ese dato, falta reconocer la significancia , su valor en tablas y la regin de


rechazo que delimita:

96

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

REGIN DE RECHAZO DE H 0 : p1 = p 2

= 0.005
2

= 0.01

1 = 0.995
2

Z 1 = Z 0.995 = 2.575
2

Para concluir el contraste de hiptesis resta ubicar el estadstico de prueba Z c con


respecto a esta regin de rechazo y concluir:

UBICACIN DE ESTADSTICO DE
PRUEBA c2 CON RESPECTO A
REGIN DE RECHAZO DE H 0

, El estadstico de prueba Z c = 0.12 est fuera de la regin de rechazo, razn por la


cual la hiptesis nula H 0 : p1 = p 2 no se rechaza. Por tanto, no es posible inferir

diferencias significativas ( p > 0.01) entre las proporciones de crneos masculinos y


femeninos con orificio elptico inclinado en los restos de la Cueva de La Candelaria.
Para comprobar este resultado hay que construir el intervalo de confianza para la
diferencia de proporciones:

CONFIABILIDAD Y SIGNIFICANCIA

1 = 0.99
EXPRESIN
PARA INTERVALO
VALOR DE Z 1

APLICACIN

= 0.01

2 = 0.005

1 2 = 0.995

p (1 p ) p (1 p )
+
p1 p 2 p 1 p 2 Z 1

2
n1
n2

Z 1 = Z 0.995 = 2.575
2

0.83(0.17 ) 0.83(0.17 )
= ( 0.23,0.21)
p1 p 2 0.82 0.83 2.575
+

45
36

Valores negativos y positivos


p1 = p 2
(que incluyen al cero)
, Como el intervalo para la diferencia de proporciones contiene al cero, es posible afirmar con
un 99% de confiabilidad que la proporcin de crneos masculinos y femeninos con el orificio
auditivo elptico es igual en las poblaciones de la Cueva de La Candelaria.
INTERPRETACIN

97

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

An sabiendo que las proporciones de esta caracterstica es igual en estas


poblaciones, aplicaremos la prueba ji-cuadrada para ver su aplicacin. Organicemos
entonces los datos observados:
DATOS OBSERVADOS Oij

FORMA ORIFICIO AUDITIVO ( j )


(Nmero de elementos)
ELPTICA INCLINADA
OTRA
(con la caracterstica)
(sin la caracterstica)

O11 = 37
O21 = 30

POBLACIN

(i )

MARGINALES

C = 37 + 30 = 67

MARGINALES

O12 = 45 37 = 8
O22 = 36 30 = 6
S = 8 + 6 = 14

45
36
67 + 14 = 81 = 45 + 36

Y calculemos los esperados:

DATOS ESPERADOS eij

FORMA ORIFICIO AUDITIVO ( j )


(Nmero de elementos)
ELPTICA INCLINADA
OTRA
(con la caracterstica)
(sin la caracterstica)

14
e12 = 45 = 7.78
81

45

67
e11 = 45 = 37.22
81
67
e21 = 36 = 29.78
81

14
e22 = 36 = 6.22
81

36

67 = 37.22 + 29.78

14 = 7.78 + 6.22

POBLACIN

(i )

MARGINALES

MARGINALES

= 37.22 + 7.78

= 29.78 + 6.22
81

Teniendo eso, hagamos el contraste de hiptesis:


HIPTESIS NULA
H 0 : No hay asociacin
entre las variables.

HIPTESIS ALTERNATIVA
H a : Existe asociacin
entre las variables.

Calculemos el estadstico de prueba:


EXPRESIN PARA CALCULAR EL
ESTADSTICO DE PRUEBA c2

(37 37.22)
=
2
c

37.22

=
2
c

(O

ij

i =1 j =1

eij )

eij

APLICACIN

2
2
2
(
(
(
8 7.78)
30 29.78)
6 6.22)
+
+
+

7.78

29.78

6.22

= 0.02

Y ubiquemos la regin de rechazo para comparar ambos datos:


REGIN DE RECHAZO DE

H 0 : No hay asociacin entre la variable y las poblaciones

98

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

= 0.01

12[0(2.991)(21)] = 12[10].99 = 6.635

1 = 0.99

UBICACIN DE ESTADSTICO DE
PRUEBA c2 CON RESPECTO A
REGIN DE RECHAZO DE H 0

, El estadstico de prueba c2 = 0.02 est fuera de la regin de rechazo, razn por la


cual la hiptesis nula no se rechaza ( p > 0.01) y se infiere que no hay asociacin
entre las variables sexo y forma del orificio auditivo.

Por ltimo, mediante el coeficiente de Cramer comprobamos que esta afirmacin sea
significativa:
EXPRESIN PARA CALCULAR EL
COEFICIENTE DE CRAMER Vc

Vc =

c2

n(mnimo{r 1, c 1})

Vc =

APLICACIN

0.02
= 0.02
81(1)
Vc 0

INTERPRETACIN

, Siendo el valor del coeficiente de Cramer Vc = 0.02 , confirmamos que la


asociacin entre las variables es muy dbil, por eso habamos concluido que no hay
asociacin.
2.
Se quiere determinar si existen diferencias entre la proporcin de alcohlicos
que cometieron delitos relacionados con la piromana y la proporcin de alcohlicos
que realizaron fraudes en 1909. De aquellos convictos por provocar incendios, 50 eran
bebedores y 43 abstemios; mientras tanto, de los que cometieron fraude, 63 eran
bebedores y 144 abstemios. Con una significancia de = 0.01 contrastar la hiptesis
planteada y construir un intervalo de confianza al 99% para la diferencia de
proporciones.
DATOS GENERALES

n1 = 93

m1 = 50

p 1 = 50 = 0.54
93

1 p 1 = 1 0.54 = 0.46

n 2 = 207

m2 = 63

p 2 = 63
= 0.30
207

1 p 1 = 1 0.30 = 0.70

p=

m1 + m2
50 + 63
= 0.38
=
93 + 207
n1 + n 2

1 p = 1 0.38 = 0.62

99

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

1. n1 > 20

2. n1 p 1 = m1 > 5

93 > 20
4. n 2 > 20
207 > 20

50 > 5
5. n 2 p 2 = m2 > 5
63 > 5

3. n1 (1 p 1 ) = n1 m1 > 5

43 > 5
6. n 2 (1 p 2 ) = n 2 m2 > 5
144 > 5

HIPTESIS

H inv : p1 p 2

H 0 : p1 = p 2
Zc =

EXPRESIN PARA EL
ESTADSTICO DE PRUEBA Z c

APLICACIN

Zc =

H a : p1 p 2
p 1 p 2
p (1 p ) p (1 p )
+
n1
n2

0.54 0.30
= 3.96
0.38(0.62 ) 0.38(0.62 )
+
93
207

REGIN DE RECHAZO DE H 0 : p1 = p 2

= 0.01

= 0.005
2

1 = 0.995
2

Z 1 = Z 0.995 = 2.575
2

UBICACIN DE ESTADSTICO DE
PRUEBA c2 CON RESPECTO A
REGIN DE RECHAZO DE H 0

, El estadstico de prueba Z c = 3.96 cae en la regin de rechazo, razn por la cual la


hiptesis nula H 0 : p1 = p 2 se rechaza. Por ende, existen diferencias significativas

( p < 0.01) entre las proporciones de alcohlicos que cometieron delitos relacionados

con la piromana y los que cometieron fraude.


CONFIABILIDAD Y SIGNIFICANCIA

1 = 0.99

= 0.01

2 = 0.005

1 2 = 0.995

100

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

p (1 p ) p (1 p )
+
p1 p 2 p 1 p 2 Z 1

2
n1
n2

Z 1 = Z 0.995 = 2.575

EXPRESIN PARA
INTERVALO
VALOR DE Z 1

0.38(0.62 ) 0.38(0.62 )
= (0.08,0.40 )
+
p1 p 2 0.54 0.30 2.575

93
207

p1 > p 2
Valores positivos
INTERPRETACIN
, Como el intervalo para la diferencia de proporciones slo contiene valores
positivos, es posible afirmar con un 99% de confiabilidad que la proporcin de
alcohlicos que cometi delitos relacionados con la piromana es mayor que la
proporcin de alcohlicos que cometi fraude.

DATOS OBSERVADOS Oij

DELITO ( j )
(Nmero de elementos)
PIROMANA
FRAUDE
ESTADO

(i )

O11 = 50
O21 = 43

Alcohlico
Abstemio

C = 50 + 43 = 93

MARGINALES

MARGINALES

O12 = 63
O22 = 144
S = 63 + 144 = 207

113
187
93 + 207 = 300 = 113 + 187

DATOS ESPERADOS eij

DELITO ( j )
(Nmero de elementos)
PIROMANA
FRAUDE

93
e11 = 113

300
= 35.03
93
e21 = 187

300
= 57.97
93 = 35.03 + 57.97

Alcohlico
ESTADO

(i )

Abstemio
MARGINALES

207
e12 = 113

300
= 77.97
207
e22 = 187

300
= 129.03
207 = 77.97 + 129.03

HIPTESIS NULA
H 0 : No hay asociacin
entre las variables.

(50 35.03)
=
35.03

113
= 35.03 + 77.97
187
= 57.97 + 129.03
300

HIPTESIS ALTERNATIVA
H a : Existe asociacin
entre las variables.

EXPRESIN PARA CALCULAR EL


ESTADSTICO DE PRUEBA c2

2
c

MARGINALES

=
2
c

(O

ij

i =1 j =1

eij )

eij

APLICACIN

2
2
2
(
(
(
63 77.97 )
43 57.97 )
144 129.03)
+
+
+

77.97

57.97

129.03

= 14.87

REGIN DE RECHAZO DE

H 0 : No hay asociacin entre la variable y las poblaciones


101

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

= 0.01

12[0(2.991)(21)] = 12[10].99 = 6.635

1 = 0.99

UBICACIN DE ESTADSTICO DE
PRUEBA c2 CON RESPECTO A
REGIN DE RECHAZO DE H 0

, El estadstico de prueba c2 = 14.87 cae en la regin de rechazo. Debido a ello la

hiptesis nula se rechaza ( p < 0.01) y se infiere que hay asociacin entre las
variables estado y delito cometido.

EXPRESIN PARA CALCULAR EL


COEFICIENTE DE CRAMER Vc
APLICACIN
INTERPRETACIN

Vc =

c2

n(mnimo{r 1, c 1})

Vc =

14.87
= 0.22
300(1)
Vc 0

, Siendo el valor del coeficiente de Cramer Vc = 0.22 descubrimos que la asociacin


entre las variables estado y delito cometido es dbil.

102

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

EJERCICIOS DE REPASO

En todos los problemas realizar la prueba de hiptesis correspondiente y donde sea


pertinente calcular el intervalo de confianza e interpretar todos los resultados. En
donde no se indique utilizar una significancia de 0.05 y una confianza de acuerdo
al valor de significancia.
Los siguientes datos corresponden a una muestra osteolgica colonial procedente de un
sitio en azcapotzalco (excavaciones lnea 8 del metro).

Caso

Sexo

Longitud
mxima de
fmur
izquierdo

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37

Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino

.
390
398
428
425
405
405
404
390
.
428
402
436
462
.
415
420
438
423
410
450
408
412
373
403
419
388
394
.
432
403
376
420
406
401
382
397

Dimetro
transverso
a la 1/2 de
la difisis
del fmur
izquierdo

Longitud
mxima de
la tibia
izquierda

Longitud
mxima de
la tibia
derecha

Insercin
del
msculo
dorsal
ancho

26
25
27
25
27
24
24
26
23
23
22
25
27
26
23
25
27
28
25
25
26
29
25
23
24
25
24
22
26
22
23
23
21
25
23
26
26

.
346
340
360
.
.
362
347
314
.
354
349
377
377
345
354
.
388
348
339
378
341
343
.
339
346
.
330
.
.
338
311
346
.
340
.
328

.
339
339
360
.
352
360
345
.
.
.
353
381
377
348
.
366
387
.
335
375
.
342
299
.
341
314
330
.
367
333
312
344
334
340
342
328

Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
103

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

38
39
40
41
42
43
44
45
46
47
48
49
50
51

Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino
Femenino

415
387
387
.
413
398
.
390
411
.
.
.
378
385

25
25
21
21
25
26
25
27
25
23
22
25
22
24

.
324
320
361
.
.
.
.
.
.
.
.
323
308

324
327
315
.
343
.
.
331
339
.
310
.
321
312

Ausencia
Ausencia
Ausencia
Ausencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia

19.Es posible inferir que la longitud mxima de fmur izquierdo es mayor en


hombres? Suponer distribucin normal en las dos poblaciones.
20.Es diferente el dimetro transverso a la 1/2 de la difisis del fmur izquierdo en
hombres respecto al de mujeres? Suponga que no hay distribucin normal en las
poblaciones.
21. Existe diferencia entre la longitud mxima de la tibia izquierda y la longitud
mxima de la tibia derecha?
a) Suponga distribucin normal en las poblaciones
b) Suponga que no hay distribucin normal en las poblaciones
22.Existe asociacin entre el sexo de los individuos y la insercin del msculo
dorsal ancho?
23.Se diseo un estudio para contrastar la hiptesis de que los hombres tienen
mayor presin sangunea sistlica que las mujeres. Los datos muestrales son:
Hombres:
76 76 74 70 80 68 90 70
90 72 76 80 68 72 96 80
76 70 82 90 68 60 62 68
80 74 60 62 72
Presentan estos datos evidencia suficiente que confirme la hiptesis del
investigador? Sea =0.05.
a) Suponer distribucin normal en las poblaciones, para probar la hiptesis.
b) Suponga que no hay distribucin normal en las poblaciones.
c) Suponer distribucin normal, realizando la inferencia utilizando un intervalo al
90% de confianza para la diferencia de medias poblacionales.
24.En un estudio sobre mujeres otomes de una cierta comunidad se obtuvo una
muestra para medir la posible asociacin entre la proporcin de analfabetismo y
el tipo de trabajo que realizan. Se obtuvo que el 11.4% de 44 mujeres obreras
son analfabetas, mientras que 12.8% de 50 mujeres amas de casa son
analfabetas. Proporcionan estos datos evidencias para afirmar que son
diferentes las proporciones de mujeres otomes de la comunidad analfabetas que
trabajan con respecto a las que son amas de casa?
a) Resolver el problema mediante pruebas de hiptesis. Sea =0.08
b) Inferir mediante intervalo al 92% de confianza para la diferencia de
proporciones.
Mujeres:

104

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

25. Se desea conocer qu tan eficaz resulta una dieta para reducir el peso de las
personas para la cual se seleccion una muestra aleatoria de 16 personas
interesadas en bajar de peso, registrndose el peso de cada persona antes y
despus del tratamiento, presentndose los resultados en la tabla siguiente:
Persona
1
2
3
4
5
6
7
8
9
10
Antes
96.9 89.11 105.7
112
93.45 99.1 108.32 88.87 91.0 95.76
Despus 93.1 83.0 101.9 105.87 89.14 95.0 106.56 83.9 85.64 90.44
Persona
Antes
Despus

11
103.05
97.47

12
111.89
107.6

13
83.2
80.81

14
94.74
89.9

15
99.15
97.66

16
126.3
123.3

Con los datos obtenidos se puede afirmar que la dieta es adecuada? Sea =0.05
a) Resolver suponiendo distribucin normal.
b) Resolver suponiendo que no existe distribucin normal
26.Un equipo de antroplogos est estudiando el grado de integracin cultural de
dos comunidades indgenas, una al sur y otra del norte del pas. Uno de los
indicadores empleados en el estudio es la variable aleatoria nmero de distintas
palabras en espaol usadas por cada miembro de la comunidad; se selecciona
una muestra aleatoria en cada comunidad y se llega a:
Comunidad I (Sur)
Comunidad II (Norte)
n1 = 32 x1 = 325 s1 = 60
n2 = 35 x2 = 228 s2 = 30
Esta informacin proporciona evidencia suficiente para afirmar que si hay
elementos de integracin cultural en ambas comunidades?
a) Inferir mediante una prueba de hiptesis con =0.05.
b) Inferir mediante un intervalo al 95% de confianza.
27. Un estudio sobre planificacin familiar en una zona del Estado de Hidalgo
realizado por Castilleja y Zavala6 clasifico a una muestra de mujeres de acuerdo
a dos caractersticas: uso de anticonceptivos y escolaridad*. Los datos se
presentan en la siguiente tabla:
Escolaridad
Anticoncepcin Baja Alta
Usuarias
81
22
Total
114 30
* Escolaridad baja: escolaridad nula, saben leer y escribir y primaria
incompleta. Escolaridad alta: primaria completa y posprimaria.
Existe diferencia entre la proporcin de usuarias de anticonceptivos en las
poblaciones definidas por la escolaridad?
a) Resolver con prueba de hiptesis. Sea =0.091
b) Inferir mediante un intervalo al 93% de confianza.
28. Acaban de descubrir dos nuevas zonas arqueolgicas geogrficamente muy
cercanas entre s. Como no coinciden del todo las caractersticas y la antigedad
de los restos de ambas zonas, se va a corroborar si se trata de una sola o de dos
diferentes culturas precolombinas: se selecciona una muestra de 15 objetos de
una zona y una muestra de 18 objetos localizados en la segunda zona. Los
resultados del fechamiento en aos de los restos son:
6

CASTILLEJA ADA y ZAVALA CARLOS (1982) Respuesta al programa nacional de planificacin


familiar en el sureste del Estado de Hidalgo: un rengln para la Antropologa Fsica. En II Coloquio de
Antropologa Fsica Juan Comas, IIA, UNAM. pp. 501-531

105

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Zona I

Zona II
s12

x1 = 570
= 1518
x2 = 682 s22 = 1625
Con estos datos muestrales puede concluirse que la cultura de la zona II es ms
antigua? Suponga distribucin normal. Sea =0.05
29. Una empresa editorial est haciendo un estudio de mercado para sacar el perfil
de los lectores de peridicos en un pas determinado; consideran que el grado de
escolaridad (entendido como el total de aos aprobados en su trayectoria
escolar) es un factor determinante en la caracterizacin de los lectores; la
empresa ha clasificado a los peridicos en cuatro categoras: los diarios que se
especializan o ponen nfasis en la nota roja (A); los orientados a la informacin
deportiva (B); los que enfatizan aspectos econmicos (C) y los que se centran en
aspectos polticos y sociales (D). Los resultados obtenidos de la variable de
inters son los siguientes:
A
B
C
D
9
6
10
6
17
12
11
20
6
6
6
4
12
21
15
12
3
5
9
5
19
16
9
12
9
6
6
9
17
6
6
6
12
9
12
19
12
9
12
5
6
17
12
1
14
6
7
16
6
4
6
17
2
26
17
15
15
9
20
12
9
2
9
17
17
Con estos datos hay evidencia suficiente para asegurar que la escolaridad de los
lectores es un factor de variacin entre los lectores de peridicos? Sea =0.05
a) Suponga distribucin normal en las poblaciones.
b) Suponga que no hay distribucin normal en las poblaciones.
30. La Secretara del Medio Ambiente quiere determinar si los cambios en la
temperatura del agua del Golfo de Mxico, causados por la planta de Laguna
Verde, tienen un efecto significativo sobre la fauna marina en la regin. Se
dividieron al azar cuatro grupos de especimenes recin nacidos de cierta especie
de peces. Se colocaron los grupos en medios ambientes separados que simulan el
ocano, completamente idnticos, con excepcin de la temperatura del agua.
Seis meses despus se pesaron los especimenes. Los resultados (en libras) se dan
en la tabla siguiente:
Pesos de los especimenes
38F 42F 46F 50F
22

15

14

17

24

21

28

18

16

26

21

13

18

16

19

20

19

25

24

21

17

23

a) Suponga distribucin normal en las poblaciones. Sea =0.01


b) Suponga que no hay distribucin normal en las poblaciones.

106

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

31. En un estudio sobre planificacin familiar en el Estado de Hidalgo se aplico una


encuesta para analizar los posibles factores que influyen en el uso de
anticonceptivos. En la siguiente tabla se presentan las frecuencias observadas de
las mujeres encuestadas en relacin a su edad y si usan algn mtodo
anticonceptivo
Uso de anticonceptivos
Usuarias No
Edad
(aos)
Usuarias
15-24
41
34
25-24
53
52
35-49
39
58
Existe relacin entre la edad y el uso de anticonceptivos?
32. En un curso para pilotos se probaron tres mtodos de enseanza: con casetes de
audio, videocasetes y clase en el aula. Se obtuvieron los siguientes resultados en
la prueba final:
Casete de audio 74 88 82 93 55 70

Videocasete

78 80 65 57 89

Clase en aula

68 83 50 91 84 77 94 81 92

Existen diferencias entre los puntajes obtenidos en los diferentes mtodos? Sea
=0.05
33. La siguiente tabla se obtuvo de una investigacin en restos seos de la poca
colonial en una regin de Tlaxcala al cruzar dos patologas observadas:
Existe asociacin entre las dos variables? Sea =0.10
Criba Orbitara Hiperostosis Portica
Ausencia Presencia
Ausencia
15
11
Presencia
20
32
34. En cierta escuela un grupo de estudiantes ha planteado la posibilidad de que la
cafetera de la institucin este a cargo de la comunidad estudiantil. Un profesor
considera que existe asociacin en las posiciones de los alumnos respecto a la
licenciatura en la que estudian. Se toma una muestra y se observan los siguientes
resultados:
Licenciatura
Posicin respecto a la
propuesta
A favor
En contra
23
25
AF
17
19
AS
20
34
ARQ
32
15
ETH
24
30
ETN
12
16
LIN
30
14
HIS
Qu se puede decir al respecto? Sea =0.05

107

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

UNIDAD III
ANLISIS DE CORRELACIN Y REGRESIN LINEAL
ANLISIS DE CORRELACIN
Cuando se tienen dos variables, la forma ms sencilla para comprobar si existe una
relacin lineal entre ellas es construyendo un diagrama de dispersin con base en
coordenadas ( X , Y ) . Empero, como veremos a continuacin, la estadstica cuenta con
estimadores y pruebas ms precisas (acordes al tipo y la distribucin probabilstica de
las variables) para determinar si existe una asociacin significativa o no.
A. VARIABLES CUANTITATIVAS CON DISTRIBUCIN NORMAL
1) COEFICIENTE DE CORRELACIN DE PEARSON
Medida sobre la asociacin entre dos variables continuas ( X , Y ) , cuyas expresiones
para calcularlo en poblaciones y muestras son:
PARMETRO

ESTIMADOR

(xi x )(yi y )
N

r=

i =1

N x y

(x
i =1

x )( y i y )

(n 1) s x s y

No obstante, para reducir la labor que implica restar a cada dato su media
correspondiente, podemos simplificar la expresin del numerador de este estimador:

Desarrollamos primero el binomio:


n

(x y
i

i =1

xi y x y i + x y )

Repartimos la sumatoria:
n

x y x y xy + xy
i

i =1

i =1

i =1

i =1

Donde las medias son constantes y por ello pueden multiplicar a las sumatorias y
multiplicarse por el tamao de la muestra:
n

i =1

i =1

i =1

xi yi y xi x yi + nx y

Lo cual puede abreviarse a:


n

x y
i

i =1

y nx x ny + nx y

Porque:

x=

x
i =1

xi = x n
i =1

y=

y
i =1

yi = y n
i =1

108

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Y eliminando los trminos en comn obtenemos:


n

x y
i =1

nx y

Con lo cual la expresin queda as:

EXPRESIN PARA CALCULAR EL


ESTIMADOR DEL COEFICIENTE DE
CORRELACIN DE PEARSON PARA
VARIABLES CUANTITATIVAS CON
DISTRIBUCIN NORMAL7.

r=

x y
i =1

nx y

(n 1) s x s y

Imprescindible resulta mencionar que el valor de este coeficiente slo puede


encontrarse en el rango ( 1 < r < 1) y de acuerdo a ello debe interpretarse:
VALOR DEL COEFICIENTE

(r 1)
(r 0)
(r 1)

INTERPRETACIN
Existe asociacin lineal inversa entre las variables.
No existe asociacin entre las variables.
Existe asociacin lineal directa entre las variables.

Esta conclusin, sin embargo, no es suficiente; pues en el caso de que haya


asociacin entre las variables, falta comprobar que sta sea estadsticamente
significativa.
2) PRUEBA DE HIPTESIS t
Teniendo el estimador del coeficiente de correlacin de Pearson (r ) , con esta prueba
se puede definir si su parmetro ( ) tambin es diferente a cero y, por ende, existe
asociacin significativa entre las variables. Para ello, se estipulan las siguientes
hiptesis:

H0 : = 0

HIPTESIS

Ha : 0

Las cuales se contrastan mediante el siguiente estadstico de prueba:


EXPRESIN PARA CALCULAR EL
ESTADSTICO DE PRUEBA SOBRE EL
COEFICIENTE DE CORRELACIN DE
PEARSON.

tc = r

n2
1 r2

Como podemos observar, este estadstico de prueba es del tipo t c ; es decir, tiene una

distribucin t de student pero ahora, por ser dos variables, con (n 2 ) grados de

Si bien esta es la forma ms sencilla para calcular manualmente el coeficiente de correlacin de Pearson,
cabe mencionar que muchas calculadoras cientficas lo pueden arrojar directamente al ingresar los datos
de ambas variables en el modo estadstico de regresin lineal; este dato tendr un valor muy parecido al
que se obtiene haciendo los clculos manualmente con 4 decimales.

109

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

libertad y se compara, como en toda prueba bilateral de esta distribucin, con las
regiones de rechazo de la hiptesis nula:

REGIN DE
RECHAZO DE

1-
/2

H0 : = 0

/2

t1(n 2)

t1(n 2 )

B. VARIABLES NO CUANTITATIVAS Y/O SIN DISTRIBUCIN NORMAL


Cuando las dos variables son al menos de tipo ordinal y/o no se pueda asumir
distribucin normal en ellas, existen alternativas no paramtricas para determinar su
asociacin.
1) COEFICIENTE DE CORRELACIN DE SPEARMAN ( s )
A diferencia del coeficiente de Pearson (y como en muchas pruebas no paramtricas),
el coeficiente de Spearman no se basa en los datos de las variables obtenidas en la
muestra, sino en sus rangos, los cuales se determinan para cada variable de la
manera acostumbrada (de menor a mayor, fijando empates para valores iguales); por
ejemplo:
VARIABLE

RANGO

VARIABLE

RANGO

Rxi

Ry i

Rx1 = 4
Rx 2 = 2.5
Rx3 = 1

Ry1 = 4
Ry 2 = 1
Ry 3 = 2

Rx n = 2.5

Ry n = 3

CASO

(i )

Habiendo asignado rangos a los datos de cada variable, debe obtenerse, para cada
caso, la diferencia d i = Rxi Ry i y elevarse al cuadrado:
VARIABLE

RANGO

VARIABLE

RANGO

Rxi

Ryi

Rx1 = 4
Rx 2 = 2.5
Rx3 = 1

CASO

(i )

Rx n = 2.5

1
2

d i = Rxi Ry i

d i2

Ry1 = 4
Ry 2 = 1
Ry 3 = 2

d1 = 4 4 = 0
d 2 = 2 .5 1 = 1 .5
d 3 = 1 2 = 1

Ry n = 3

d n = 2.5 3 = 0.5

2.25
1
0.25

Es esta diferencia absoluta entre los rangos d i2 la que podremos encontrar en la


expresin para calcular el coeficiente de correlacin de Spearman:

110

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

EXPRESIN PARA CALCULAR EL


ESTIMADOR DEL COEFICIENTE DE
CORRELACIN DE SPEARMAN PARA
VARIABLES AL MENOS ORDINALES
Y/O SIN DISTRIBUCIN NORMAL.

rs = 1

6 d i2
i =1

n(n 2 1)

El cual se interpreta de la misma forma que el anterior:


VALOR DEL COEFICIENTE

(r 1)
(r 0)
(r 1)

INTERPRETACIN
Existe asociacin lineal inversa entre las variables.
No existe asociacin entre las variables.
Existe asociacin lineal directa entre las variables.

2) PRUEBAS DE HIPTESIS
El coeficiente de correlacin de Spearman, al igual que el de Pearson, puede utilizarse
para realizar una prueba sobre la significancia de la asociacin con el mismo tipo de
hiptesis que lo igualan o diferencian de cero:

H0 : s = 0

HIPTESIS

H a : s 0

Empero, el estadstico de prueba para contrastar estas hiptesis cambia dependiendo


del tamao de la muestra utilizada:
a) Muestras grandes
Si el tamao de la muestra sobrepasa los 30 elementos (n > 30 ) , puede
aplicarse el Teorema Central de Lmite y usar el siguiente estadstico de
prueba:
EXPRESIN PARA CALCULAR EL
ESTADSTICO DE PRUEBA SOBRE EL
COEFICIENTE DE CORRELACIN DE
SPEARMAN CUANDO (n > 30 ) .

Zc =

rs
(n 1)

El cual se distribuye de manera aproximadamente normal estndar y por ello se


le compara con la regin de rechazo tpica para esta distribucin:

REGIN DE
RECHAZO DE

H0 : s = 0

1-
/2

/2

Z 1

Z 1

111

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

b) Muestras pequeas
Si el tamao de la muestra es pequeo (n 30 ) , en vez de un estadstico de
prueba, es el propio coeficiente de correlacin de Spearman el que se compara
con la regin de rechazo de la hiptesis nula, determinada por los valores
crticos rs para la prueba que lleva el mismo nombre (y que involucran el
tamao de la muestra n y la significancia )

REGIN DE
RECHAZO DE

H0 : s = 0

/2

/2

Es decir, la hiptesis nula se rechaza si rs < r pero tambin si rs > r .


2

C. EJEMPLOS DE APLICACIN
1.
Los siguientes datos corresponden las longitudes de hmero y fmur de restos
seos masculinos de la Cueva de La Candelaria, Coahuila.
HMERO
329
311
297
323
323
290
297
287
333
336
313
322
321
315
309
304
300

FMUR
444
426
449
427
428
427
417
414
417
440
416
408
420
443
472
466
422

Suponiendo distribucin normal en estas variables, con una significancia = 0.05 es


posible afirmar que existe una relacin lineal entre la longitud del hmero y del fmur?

112

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Hagamos una primera conclusin a partir del diagrama de dispersin correspondiente:


480
470
460

Fmur

450
440
430
420
410
400
280

290

300

310

320

330

340

Hmero

, En esta grfica podemos observar que no existe una linealidad clara entre las
variables.
Pero es necesario comprobar lo que los sentidos nos dicen con un poco de
estadstica. En este primer ejemplo desarrollaremos todos los datos necesarios para
calcular manualmente el coeficiente de correlacin; no obstante, el los prximos casos
recurriremos simplemente a los valores obtenidos con ayuda de una calculadora.
HMERO
329
311
297
323
323
290
297
287
333
336
313
322
321
315
309
304
300

FMUR
444
426
449
427
428
427
417
414
417
440
416
408
420
443
472
466
422

X i Yi

TOTAL

146076
132486
133353
137921
138244
123830
123849
118818
138861
147840
130208
131376
134820
139545
145848
141664
126600
2291339

DATOS GENERALES

n = 17

x = 312.3529

y = 431.5294

s x = 14.8195

s y = 18.2384

113

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

EXPRESIN DEL
COEFICIENTE DE
CORRELACIN
DE PEARSON

r=

CLCULO
MANUAL

r=

x y
i =1

nx y

(n 1) s x s y

2291339 17(312.3529 431.5294)


= 0.0189
(17 1)14.8195 18.2384

VALOR EN
r = 0.0190
CALCULADORA
, El signo negativo indica que la asociacin entre la longitud del hmero y la del
fmur sera inversa, pero su cercano valor a cero nos da una segunda prueba para
afirmar que la asociacin entre estas variables es casi nula.
Finalmente nos resta comprobar que tal afirmacin sea significativa.
HIPTESIS

H0 : = 0

Ha : 0

REGIN DE RECHAZO DE H 0 : = 0

= 0.05

= 0.025
2

1 = 0.975
2

2)
)
t1(n 2 ) = t1(170.025
= t 0(15
.975 = 2.1315

EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
CLCULO DE t c

n2
1 r2
17 2

tc = r
t c = 0.0190

1 ( 0.0190)

= 0.0736

UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
, El estadstico de prueba t c = 0.0736 cae fuera de la regin de rechazo delimitada
)
por t 0(15
.975 = 2.1315 , razn por la cual la hiptesis nula H 0 : = 0 no se rechaza y
puede afirmarse que no existe asociacin significativa entre la longitud del hmero y la
del fmur en los restos seos de esta poblacin.

114

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

2.
Los siguientes datos corresponden a la poblacin juvenil masculina de Cholula,
Puebla (recopilados entre 1968-1970).
LONGITUD MIEMBRO SUPERIOR
771
740
743
775
745
722
764
711
756
721
728
727
756
768
735

ESTATURA
1715
1701
1652
1691
1611
1620
1701
1655
1734
1635
1598
1635
1684
1622
1674

Suponiendo distribucin normal en ambas variables, puede afirmarse que existe


asociacin entre la longitud del miembro superior y la estatura con una significancia
= 0.05 ?
1740
1720
1700

Estatura

1680
1660
1640
1620
1600
1580
710

720

730

740

750

760

770

780

Longitud miembro superior

, Aunque existe dispersin en los datos, puede entre verse una linealidad entre estas
variables y, por ende, una posible asociacin.

115

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

n = 15

DATOS GENERALES

r = 0.5310

, El valor del coeficiente de correlacin de Pearson nos indica una asociacin lineal
directa considerable.
HIPTESIS

H0 : = 0

Ha : 0

REGIN DE RECHAZO DE H 0 : = 0

= 0.05

= 0.025
2

1 = 0.975
2

EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
CLCULO DE t c

2)
)
t1(n 2 ) = t1(150.025
= t 0(13
.975 = 2.1604
2

n2
1 r2
15 2

tc = r
t c = 0.5310

1 (0.5310)

= 2.2592

UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
, El estadstico de prueba t c = 2.2592 cae en la regin de rechazo delimitada por
)
t 0(13
.975 = 2.1604 , razn por la cual la hiptesis nula H 0 : = 0 se rechaza y puede

afirmarse que haba asociacin significativa entre la longitud del miembro superior y la
estatura en la poblacin juvenil masculina de Cholula, Puebla.
3.
Los siguientes fueron obtenidos tambin de los restos seos masculinos de la
Cueva de la Candelaria, pero esta vez son las longitudes de fmur y tibias derechos;
variables que no mostraron distribucin normal.
LONGITUD FMUR DERECHO
444
426
449
427
428
427
417
414
417

LONGITUD TIBIA DERECHA


401
358
417
375
424
392
391
388
394

116

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

440
416
408
420
443
472
466
422
419
462
452
454
468
449
442
472
451
438
440
483
451
429

361
372
358
358
384
381
388
355
368
351
380
349
405
363
412
366
364
346
361
384
388
353

Con una significancia = 0.05 , es posible afirmar que existe relacin entre ellas?
440

Longitud tibia derecha

420

400

380

360

340
400

420

440

460

480

500

Longitud fmur derecho

, En este diagrama los puntos se ven muy dispersos, por lo que se duda exista una
relacin lineal entre las longitudes de estos huesos largos.

117

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

FMUR
444
426
449
427
428
427
417
414
417
440
416
408
420
443
472
466
422
419
462
452
454
468
449
442
472
451
438
440
483
451
429

RANGOS
10.5
4.5
2.0
4.5
15.5
3.0
1.0
7.0
18.0
29.5
27.0
8.0
6.0
26.0
24.0
25.0
28.0
20.5
17.0
29.5
22.5
14.0
15.5
31.0
22.5
13.0
10.5
4.5
2.0
4.5
15.5

TIBIA
401
358
417
375
424
392
391
388
394
361
372
358
358
384
381
388
355
368
351
380
349
405
363
412
366
364
346
361
384
388
353

RANGOS
25.0
24.0
22.0
26.0
9.5
15.0
7.0
7.0
19.5
18.0
22.0
5.0
14.0
3.0
17.0
2.0
28.0
11.0
29.0
13.0
12.0
1.0
9.5
19.5
22.0
4.0
25.0
24.0
22.0
26.0
9.5

d i2

di
-14.50
-19.50
-20.00
-21.50
6.00
-12.00
-6.00
.00
-1.50
11.50
5.00
3.00
-8.00
23.00
7.00
23.00
.00
9.50
-12.00
16.50
10.50
13.00
6.00
11.50
.50
9.00
-14.50
-19.50
-20.00
-21.50
6.00
TOTAL

210.25
380.25
400.00
462.25
36.00
144.00
36.00
.00
2.25
132.25
25.00
9.00
64.00
529.00
49.00
529.00
.00
90.25
144.00
272.25
110.25
169.00
36.00
132.25
.25
81.00
210.25
380.25
400.00
462.25
36.00
4593.00

DATOS GENERALES

n = 31

d
i =1

EXPRESIN DEL
COEFICIENTE DE CORRELACIN
DE SPEARMAN.
CLCULO

2
i

= 4593
n

rs = 1

6 d i2
i =1
2

n(n 1)
6(4593)
rs = 1
= 0.0740
31(312 1)

, El valor del coeficiente de correlacin de Spearman nos indica una asociacin


lineal directa muy dbil entre la longitud del fmur y la de la tibia.

118

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

HIPTESIS

H0 : s = 0

H a : s 0

REGIN DE RECHAZO DE H 0 : = 0

= 0.05

= 0.025
2

1 = 0.975
2

EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
CLCULO DE t c

Z 1 = Z 10.025 = Z 0.975 = 1.96


2

rs
(n 1)
0.0740
Zc =
= 0.0135
(31 1)
Zc =

UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0
, El estadstico de prueba Z c = 0.0135 est fuera de la regin de rechazo delimitada
por Z 0.975 = 1.96 . Por tal motivo, la hiptesis nula H 0 : s = 0 no se rechaza y
puede afirmarse que no existe asociacin significativa entre la longitud del fmur y la
longitud de la tibia masculinas en la poblacin de la Cueva de Candelaria.
4.
Un investigador desea saber si existe relacin entre la migracin Mxico-EEUU
y el analfabetismo. Para averiguarlo obtiene de los reportes de la CONAPO los
siguientes datos sobre el porcentaje de personas (por entidad federativa algunas)
que emigraron hasta el ao 2005 y el porcentaje de personas alfabetas mayores de 15
aos:
ENTIDAD FEDERATIVA
Aguascalientes
Chiapas
Distrito Federal
Estado de Mxico
Guanajuato
Guerrero
Hidalgo
Jalisco
Michoacn
Oaxaca
Puebla
Quertaro
San Luis Potos

EMIGRANTES (%)
1.3
0.4
4.2
6.2
8.7
2.9
2.0
13.4
10.0
2.4
3.2
1.0
3.7

ALFABETAS (%)
95.2
77.1
97.1
93.6
88.0
78.4
85.1
93.5
86.1
78.5
85.4
90.2
88.7

119

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Tabasco
Veracruz
Yucatn

0.1
2.9
0.5

90.3
85.1
87.7

Sabiendo que estas variables no poseen distribucin normal, grafique el diagrama de


dispersin, determine el coeficiente de correlacin y realice una prueba de hiptesis
para averiguar si existe asociacin significativa entre las variables ( = 0.05 ).

Porcentaje de alfabetas

100

90

80

70
0

10

12

14

Porcentaje de emigrantes

, En el diagrama no se observa una relacin lineal entre las variables emigracinalfabetismo; de hecho hay una conglomeracin relativa de puntos en una zona.

ESTADO

EMIGRANTES

RANGO

ALFABETAS

RANGO

Aguascalientes

1.3

5.0

95.2

15.0

Chiapas

0.4

2.0

77.1

1.0

Distrito Federal
Estado de
Mxico
Guanajuato

4.2

12.0

97.1

16.0

6.2

13.0

93.6

14.0

8.7

14.0

88.0

9.0

Guerrero

2.9

8.5

78.4

2.0

Hidalgo

2.0

6.0

85.1

4.5

Jalisco

13.4

16.0

93.5

13.0

Michoacn

10.0

15.0

86.1

7.0

Oaxaca

2.4

7.0

78.5

3.0

Puebla

3.2

10.0

85.4

6.0

Quertaro

1.0

4.0

90.2

11.0

San Luis Potos

3.7

11.0

88.7

10.0

Tabasco

0.1

1.0

90.3

12.0

Veracruz

2.9

8.5

85.1

4.5

Yucatn

0.5

3.0

87.7

8.0

d i = Rxi Ry i
5 15 = 10
2 1 = 1
12 16 = 4
13 14 = 1
14 9 = 5
8 .5 2 = 6 .5
6 4.5 = 1.5
16 13 = 3
15 7 = 8
73 = 4
10 6 = 4
4 11 = 7
11 10 = 1
1 12 = 11
8 .5 4 .5 = 4
3 8 = 5
TOTAL

d i2
100.00
1.00
16.00
1.00
25.00
42.25
2.25
9.00
64.00
16.00
16.00
49.00
1.00
121.00
16.00
25.00
504.50

120

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

DATOS GENERALES
n

n = 16

i =1

2
i

= 504.50
n

EXPRESIN DEL
COEFICIENTE DE CORRELACIN
DE SPEARMAN.

rs = 1

6 d i2
i =1
2

n(n 1)
6(504.50 )
rs = 1
= 0.2581
16 16 2 1

CLCULO

, El valor del coeficiente de correlacin de Spearman nos indica una asociacin


lineal directa muy dbil entre la emigracin y el alfabetismo.
HIPTESIS

H0 : s = 0

H a : s 0

REGIN DE RECHAZO DE H 0 : s = 0 Y UBICACIN DEL COEFICIENTE rs

= 0.025
2

= 0.05

rs = 0.2581

r016.025 = 0.5000

, El valor del coeficiente de correlacin de Spearman rs = 0.2581 est fuera de la


regin de rechazo delimitada por r016.025 = 0.5000 , por lo que la hiptesis nula

H 0 : s = 0 no se rechaza y puede afirmarse que no hay asociacin significativa entre


la emigracin y el alfabetismo; por ende, tampoco con el analfabetismo.
5.
Un estudio realizado en diferentes comunidades recabo datos sobre la
concentracin de fluoruro (partculas por milln) en el suministro del agua de la
poblacin y tambin investig el nmero de dientes con caries, faltas u obturados
(CFO) que haba por cada cien nios Los siguientes valores, empero, no son los datos
obtenidos, sino el rango obtenido por cada comunidad para cada variable.
FLUORURO
CFO

1
8

3
9

4
7

9
3

8
2

7
4

10
1

6
5

5
6

2
10

Compruebe si existe una relacin lineal entre la concentracin de fluoruro y los dientes
CFO en estas comunidades ( = 0.05) .

121

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

12

10

Dientes CFO

0
0

10

12

Concentracin de fluoruro

, En la grfica se observa una clara relacin lineal entre la concentracin de fluoruro


en el agua y la presencia de dientes CFO. Exceptuando algunos casos, se ve que
mientras crece la concentracin de fluoruro, decrece la presencia de dientes CFO.

RANGOS CONCENTRACIN
FLUORURO
1

10

10

RANGOS DIENTES CFO

d i = Rxi Ry i

d i2

8 1 = 7
93= 6
74=3
3 9 = 6
2 8 = 6
4 7 = 3
1 10 = 9
5 6 = 1
65 =1
10 2 = 8

49
36
9
36
36
9
81
1
1

TOTAL

64
322

DATOS GENERALES

n = 10

d
i =1

EXPRESIN DEL
COEFICIENTE DE CORRELACIN
DE SPEARMAN.
CLCULO

2
i

= 322
n

rs = 1

6 d i2
i =1

n(n 2 1)
6(322)
rs = 1
= 0.9515
10 10 2 1

, El valor del coeficiente de correlacin de Spearman nos indica una asociacin


lineal inversa muy fuerte entre el nmero de dientes CFO y la concentracin de
fluoruro en el suministro de agua.

122

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

H0 : s = 0

HIPTESIS

H a : s 0

REGIN DE RECHAZO DE H 0 : s = 0 Y UBICACIN DEL COEFICIENTE rs

= 0.025
2

= 0.05

rs = 0.9515

r010.025 = 0.6364

, El valor del coeficiente de correlacin de Spearman rs = 0.9515 cae en la regin


de rechazo delimitada por r010.025 = 0.6364 , por lo que la hiptesis nula H 0 : s = 0
se rechaza y puede afirmarse que hay relacin inversa significativa entre la
concentracin del fluoruro en el agua y la presencia de dientes con CFO en estas
poblaciones. Es decir, a mayor fluoruro tiene el agua, menos dientes con caries,
faltantes u obturados presentan los infantes.

ANLISIS DE REGRESIN LINEAL SIMPLE


En contraste con la correlacin lineal procedimiento para hallar la existencia e
intensidad de una asociacin entre dos variables, el anlisis de regresin lineal
consiste en aplicar una serie de tcnicas para encontrar si hay causalidad entre ellas;
es decir, si el valor de una variable (Y ) depende y puede explicarse a partir de otra
variable ( X ) , que se postula como independiente.
26

A. FUNDAMENTOS
24

22

La regresin es un mtodo que permite


encontrar relaciones lineales entre las
variables de un fenmeno. Por ende,
primero debemos revisar cmo, a partir
de una serie de datos (como los a
continuacin que se grafican) podemos
encontrar la recta que los define:

20

18

16
12

14

16

18

20

22

Se toman dos coordenadas


Se calcula la pendiente
Teniendo ese valor y el de un punto, se puede
aplicar la ecuacin punto-pendiente
Que se desarrolla de la siguiente forma

[(x1 , y1 ), (x 2 , y 2 )]
m=

y 2 y1
x 2 x1

y y1 = m( x x1 )
y y1 = mx mx1

123

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Como el objetivo es encontrar la ordenada al


origen; es decir, el valor de Y cuando X es igual a
cero, despejamos Y

y = y1 + mx mx1
y = y1 + m(0 ) mx1

Y damos a X el valor de cero


Por lo que el valor de la ordenada al origen (b ) es
Y teniendo esos valores podemos establecer la
ecuacin de la recta
Tambin denotada por la expresin

b = y1 mx1

y = mx + b

y = a + bx

26

24

22

Como podemos ver, cuando la relacin


entre dos variables es clara y constante,
modelos basados en la forma y = a + bx
son de gran utilidad para expresar y
describir con precisin su asociacin.

20

18

16
12

14

16

18

20

22

Los datos de fenmenos relacionados al


ser humano, empero, no son tan fciles de
trabajar, ya que la diversidad y variabilidad
bio-psico-socio-cultural que estos reflejan
impide hallar una ecuacin concreta que
generalice sus resultados.

Echando mano de la probabilidad, la


estadstica se arriesga entonces a suponer
que la mejor recta para describir un
fenmeno de este tipo es la que une las
medias de los valores posibles de Y para
cada X i y x ; sin dejar de reconocer

( )

como error en este modelo la desviacin


que cada dato Yi pueda tener con
respecto a la recta y x .

De esta forma, para su anlisis, la


estadstica no slo se apropia de los
modelos de regresin lineal y les cambia

124

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

las letras con que se denota a la ordenada al origen (b, a 0 ) y a la pendiente

(m, b 1 ) , sino tambin los adapta para manifestar el nivel de incertidumbre o error
(e ) presente en ellos:
MODELO TERICO DE REGRESIN
LINEAL SIMPLE EN ESTADSTICA

y = 0 + 1 x + e

B. AJUSTE DEL MODELO DE REGRESIN LINEAL SIMPLE


Conociendo la forma del modelo de regresin lineal que la estadstica utiliza para
describir la relacin entre dos variables, es ahora necesario saber cmo ajustarlo; es
decir, cmo partiendo de los datos X i , Yi de una muestra de tamao n , calcular la
ordenada al origen y la pendiente de la recta, logrando que los errores ei del modelo
sean mnimos (razn por la cual ocuparemos el procedimiento de mnimos cuadrados).

Para hallar los valores 0 y 1 , tomamos un punto ( X i , Yi ) :

y i = 0 + 1 x i + ei

Y despejamos lo que nos importa: el error

Que en una muestra de tamao n esperamos su suma de cuadrados sea


mnima; lo cual depende de 0 y 1 .

ei = y i 0 1 x i

ei2 = ( y i 0 1 xi )

i =1

i =1

ei2 = ( yi 0 1 xi )

f ( 0 , 1 ) = ( y i 0 1 x i )

i =1

Por lo cual hay que encontrar la forma en que esta funcin sea mnima. El punto
es que, al haber dos variables, mantendremos a la vez una constante; esto es,
haremos derivadas parciales de la funcin.
Empecemos por derivar la funcin respecto a 0 :
n

f ( 0 , 1 ) = ( y i 0 1 x i )

i =1

n
df ( 0 , 1 )
= 2 ( y i 0 1 xi )( 1)
d 0
i =1

d [ f ( x )]
n 1
= n[ f ( x )] f ( x )
dx
n

Porque

Y al igualar a cero, 0 y 1 se convierten en estimadores 0 , 1 que son los


valores donde la funcin es mnima:

2 ( y i 0 1 xi )( 1) = 0
n

i =1

125

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Sinteticemos ahora lo ajeno a la sumatoria y despejmosla:

2 ( y i 0 1 xi ) = 0
n

i =1

(y
n

i =1

0 1 xi ) = 0
0 =0
#

Como

(y
n

i =1

0 1 xi ) = 0

Ahora repartamos la sumatoria:


n

i =1

i =1

i =1

yi 0 1 xi = 0

Expresin que tambin puede denotarse como:

ny n 0 1 nx = 0
n

Porque

y=

yi
i =1

y i = yn

x=

x
i =1

i =1

xi = x n
i =1

Y al dividir eso entre n resulta:

ny n 0 1 nx

=0
n
n
n

C = nC

y 0 1 x = 0

Ecuacin de la cual ya podemos despejar 0 :

0 = y 1 x
Ahora bien, resta hacer lo mismo con 1 :

Derivamos la funcin respecto a 1 :


n

f ( 0 , 1 ) = ( y i 0 1 x i )

i =1

df ( 0 , 1 )
= 2 ( y i 0 1 xi )( xi )
d 1
i =1
n

d [ f ( x )]
n 1
= n[ f ( x )] f ( x )
dx
n

Porque

Igualamos a cero:

2 ( y i 0 1 xi )( xi ) = 0
n

i =1

126

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Desarrollamos y despejamos la sumatoria:

(x y

0 xi 1 xi2 = 0

2 xi y i 0 xi 1 xi2 = 0
i =1

i =1

Ahora la repartimos y liberamos a las constantes:


n

i =1

i =1

xi yi 0 xi 1 xi2 = 0
i =1

i =1

i =1

i =1

xi yi 0 xi 1 xi2 = 0

Despejemos el trmino que incluye a 1 :


n

i =1

i =1

i =1

1 xi2 = xi y i 0 xi

Que puede denotarse como:

1 xi2 = xi y i ( y 1 x )(nx )
n

i =1

i =1

Porque

0 = y 1 x

x=

x
i =1

xi = x n
i =1

Lo cual se desarrolla de la siguiente manera:


n

i =1

i =1

1 xi2 = xi y i nx y + 1 nx 2

As que queda otro trmino con 1 por despejar:


n

i =1

i =1

1 xi2 1 nx 2 = xi y i nx y

Lo cual se puede simplificar como:

i =1

1 xi2 nx 2 = xi y i nx y
i =1

Y a partir de ello despejar completamente el trmino 1 :

127

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

1 =

x y
i =1
n

x
i =1

2
i

nx y
nx 2

Puede decirse entonces que, para encontrar el modelo de regresin lineal


y i = 0 + 1 xi + ei que mejor se ajusta a los datos X i , Yi de una muestra de tamao

n , basta calcular los estimadores de 0 y 1 8 que por mnimos cuadrados se definen


como:
EXPRESIN PARA CALCULAR
EL ESTIMADOR 0

0 = y 1 x
n

EXPRESIN PARA CALCULAR


EL ESTIMADOR 1

1 =

x y
i =1
n

x
i =1

2
i

nx y
nx 2

Si bien ambos datos son fundamentales para construir el modelo de regresin lineal, el
valor de 0 slo indica el punto donde la recta corta el eje de las Y ; esto es, el valor
de Y cuando X = 0 . Mientras tanto, el valor de 1 resulta mucho ms significativo
para la interpretacin ya que, dependiendo de su signo y magnitud, indica el cambio
en la variable Y cuando X cambia una unidad. Por ejemplo:
Si X disminuye una unidad

Si X aumenta una unidad

y = 0 1 ( x 1)
y = 0 1 x + 1

y = 0 1 ( x + 1)
y = 0 1 x 1

y = 0 + 1 ( x 1)
y = 0 + 1 x 1

y = 0 + 1 x
y = 0 1 x

y = 0 + 1 ( x + 1)
y = 0 + 1 x + 1

Por tanto:
Si la pendiente es:

y X disminuye una unidad:

y X aumenta una unidad:

positiva 1

Y disminuye 1 unidades
Y aumenta 1 unidades

Y aumenta 1 unidades
Y disminuye 1 unidades

( )
negativa ( )
1

C. CRITERIOS PARA ESTABLECER QU TAN ADECUADO ES EL MODELO.


Ms all de encontrar la ecuacin de la recta que se ajuste a los datos, el objetivo
principal de los modelos de regresin lineal es predecir el valor de Y dada una X .
Ante fenmenos aleatorios, la estadstica slo puede estimar; pero antes de hacerlo
8

Igual que en el caso del coeficiente de correlacin de Pearson, el valor de la ordenada a la origen y la
pendiente de la recta pueden obtenerse sin hacer manualmente los clculos, pues son ya muchas las
calculadoras cientficas que arrojan sus valores (a,b) al ingresar los datos de la muestra en el modo
estadstico de regresin lineal.

128

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

debe verificar que el modelo cumpla con cuatro criterios para determinar que en
verdad sea adecuado al describir el fenmeno.
C.1) CRITERIO DEL COEFICIENTE DE CORRELACIN LINEAL
Consiste en verificar que exista una asociacin lineal significativa entre las dos
variables a travs de una prueba de hiptesis. En el caso de variables con distribucin
normal, la prueba que en el tema anterior vimos se aplica es la t , basada en el
coeficiente de correlacin de Pearson (r ) :
HIPTESIS

H0 : = 0

Ha : 0

EXPRESIN PARA CALCULAR EL


ESTADSTICO DE PRUEBA SOBRE EL
COEFICIENTE DE CORRELACIN DE
PEARSON.

tc = r

REGIN DE
RECHAZO DE

n2
1 r2

1-

H0 : = 0

/2

/2

t1(n 2)

t1(n 2 )

Si se rechaza H 0 : = 0 , el modelo es adecuado porque


existe una asociacin significativa entre las variables.

INTERPRETACIN

C.2) CRITERIO DEL COEFICIENTE DE DETERMINACIN R 2


Incluso ajustando el modelo de regresin, cuando graficamos los valores estimados
( y i ) y los comparamos con los valores reales ( yi ) y su media ( y ) , podremos
encontrar algunas discrepancias.
160

150

Media

140

V. estimado estatura
Altura de rodilla
V. real estatura
130
40

Altura de rodilla
42

44

46

48

50

129

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

La diferencia entre los valores reales y su media es conocida como desviacin total
de los valores con respecto a la media, la cual est compuesta por dos
desviaciones ms: 1) la que hay entre los valores estimados y la media de los
originales, debida al modelo de regresin, y 2) la que hay entre los valores reales y
los valores estimados, que no justifica el modelo de regresin y es considerada como
error de estimacin o residuo. Esto es:

y i y = y i y + y i y i
Desviacin total de valores
con respecto a la media

Desviacin debida al
modelo de regresin lineal.

Desviacin no explicada
por el modelo , Error o
residuo.

Como hemos venido diciendo, lo que se busca lograr con el modelo de regresin es
que el error al describir el fenmeno sea lo ms pequeo posible, motivo por el cual la
suma de residuos (al cuadrado, para evitar signos) debe ser mnima:

( y y ) = ( y y ) + ( y y )
i =1

Variabilidad total:
Suma de cuadrados
totales (SC t )

i =1

i =1

Variabilidad debida al
modelo de regresin
lineal:
Suma de cuadrados de la
regresin (SC r )

Variabilidad no explicada
por el modelo:
Suma de cuadrados de los
errores (SC e )

De ah partimos para decir que, si no hubiera diferencias entre los valores reales y los
estimados, el error de estimacin sera nulo y no existira una variabilidad inexplicada:
n

y i y i 0 ( y i y i ) 0
2

i =1

Por lo que la variabilidad total sera igual a la variabilidad debida al modelo de


regresin lineal:
n

SC t = SC r ( y i y ) = ( y i y )
2

i =1

i =1

Y al compararlas (por divisin), dara un conciente de 1:


n

1=

( y y )
i =1
n

(y
i =1

y)

130

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Qu pasa, sin embargo, cuando en la prctica existen errores de estimacin? Pues


que el cociente de esta comparacin es menor a uno, ya que parte de la variabilidad
se debe a los residuales. La estadstica define entonces al resultado como coeficiente
de determinacin R 2 , cuyo valor est entre cero y uno 0 R 2 1 y al ser
multiplicado por cien revela el porcentaje de la variabilidad de Y que el modelo de
regresin lineal explica.
Si bien su valor puede calcularse a travs de la frmula ya descrita, se ha comprobado
que para obtener el coeficiente de determinacin basta con elevar al cuadrado el
coeficiente de correlacin:

( )

COEFICIENTE DE
DETERMINACIN

R2 =

( y y )

i =1
n

(y
i =1

y)

R2 = r 2
2

Por ltimo: aunque lo ideal sera que, como vimos, el valor del coeficiente de
determinacin fuera o se acercara a 1 (100%), esto pocas veces sucede. Por ende, a
falta de criterios estrictos sobre el valor que debe tener R 2 para considerar al modelo
de regresin lineal adecuado, simplemente hemos de sugerir que rebase el 50%,
justificando que as la mayor parte de la variabilidad de Y se deber al modelo y no a
lo errores.
C.3) CRITERIOS SOBRE LOS PARMETROS DEL MODELO.
En los modelos de tipo y = 0 + 1 x + e la variable independiente X se asocia a 1 .
Debido a eso, si el valor de este parmetro fuera igual o muy parecido a cero ( 1 0 ) ,

la variable X desaparecera y y = 0 , lo cual indicara que la variable independiente


no afecta ni tiene relacin con la variable dependiente; es decir, el modelo de
regresin lineal planteado estara errado.
A fin de comprobar que ste no sea el caso, debe revisarse que algunos supuestos se
cumplan para poder aplicar dos tipos de pruebas.
C.3.1) Supuestos del modelo clsico de regresin lineal simple

1. Para poder estimar, los valores de la variable independiente deben ser fijos y
los de la dependiente aleatorios. Es decir, para cada dato de X que el
investigador recabe encontrar diversos valores de Y .
2. Los errores ei son independientes. Esto es, el valor de cada uno no depende
del valor de los otros.
Ello puede comprobarse mediante la prueba de Durbin-Watson:
n

EXPRESIN PARA LA PRUEBA DE


DURVIN-WATSON

DW =

(r
i=2

ri 1 )

r
i=2

Cuyo resultado de se interpreta de la siguiente forma:


VALOR DE DW

INTERPRETACIN

131

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

DW 0
DW 2
DW 4

Los errores muestran una autocorrelacin perfecta positiva.


Los errores son independientes.
Los errores muestran una autocorrelacin perfecta negativa.

3. El valor esperado de cualquier error es cero: E (ei ) = 0 , por ende, basta con
comprobar que la media de los errores sea cero.
4. La varianza de cada error es Var (ei ) = 2 ; razn por la cual todos lo errores
tienen la misma varianza (fenmeno denominado homosedasticidad).
5. Los errores tienen distribucin normal, al igual que los valores de Y :

y i ~ N 0 , 1 xi , 2

El hecho de que los errores tengan una distribucin normal, sean independientes,
estn idnticamente distribuidos, tengan media cero y varianza 2 , puede resumirse
en unas cuantas siglas: ei ~ NIID 0, 2 .

C.3.2) Prueba ANOVA


Prueba fundamentada en el anlisis de varianza que postula las siguientes hiptesis:
HIPTESIS

H 0 : o = 1 = 0

H a : o 0, 1 0

Las cuales se contrastan construyendo el siguiente estadstico de prueba:


Fuente de
variabilidad
Debida al
modelo de
regresin

Grados
de
libertad

SC r = ( y i y )

(n 2)

SC e = ( y i y i )

(n 1)

SC t = ( y i y )
i =1

( y y )
i =1

CM e =

i =1

y i )

CM t =

(y
i =1

y)

Fc =

CM r
CM e

= S y2 x

(n 2)

= SC r

(y

Estadstico
de prueba

i =1

Total

CM r =

i =1

Inexplicada
(por error)

Cuadrados medios
(varianza)

Suma de cuadrados

(n 1)

= S y2

El cual tiene una distribucin F de Fisher con 1 grado de libertad en el numerador y


(n 2) grados de libertad en el denominador y se compara con la correspondiente

regin de rechazo cuya confiabilidad es (1 ) :

REGIN DE RECHAZO DE H 0 : o = 1 = 0

132

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

F1(1, n 2 )

Si la hiptesis nula se rechaza se infiere que el modelo de regresin lineal es


adecuado. No obstante, se recomienda realizar la siguiente prueba de hiptesis para
comprobar si la variable X es significativa.
C.3.3) Prueba de la pendiente
Prueba que, para comprobar si la variable independiente explica los valores de la
variable dependiente, plantea las siguientes hiptesis:

H 0 : 1 = 0

HIPTESIS

H a : 1 0

Y les contrasta mediante un estadstico de prueba que tiene una distribucin t de


student con (n 2 ) grados de libertad:
EXPRESIN PARA
CALCULAR EL
ESTADSTICO DE
PRUEBA t c

tc =

Sy x

(n 1) S x

Los elementos de esta expresin nos son ya conocidos, exceptuando el de S y x , que


junto al resto del denominador conforma un estimador de la desviacin estndar de los
valores de Y .
Hagamos entonces una deduccin para llegar a la expresin con la que S y x debe
calcularse:

Basndonos en la prueba ANOVA sabemos que:


n

S y2 x =

i =1

S y2 =

(n 2)

(y
i =1

y)

(n 1)

Frmulas de las cuales despejaremos las sumas de cuadrados para obtener


expresiones que denominaremos como 1 y 2:
1
2
n

2
( yi y i ) = (n 2)S y2 x
i =1

2
( yi y i )

(y
i =1

y ) = (n 1)S y2
2

Por otro lado, recordemos que la variabilidad total de Y es igual a la suma de la


variabilidad debida al modelo y la variabilidad no explicada (debida a los errores).

133

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

i =1

i =1

i =1

2
2
2
( yi y ) = ( y i y ) + ( yi y i )

Para determinar la variabilidad de Y debida al modelo podemos entonces ocupar


cualquiera de las siguientes expresiones:
n

( y y ) = ( y
2

i =1

i =1

y ) ( y i y i )
2

R2 = r 2 =

i =1

( y y )
i =1
n

(y
i =1

R2 = r 2 =

i =1

i =1

(y

y)

Que se simplifica a:
n

R2 = r 2 = 1

(y

y i )

(y

y)

i =1
n

i =1

a+c a c
= +
b
b b

Porque

Sustituyamos ahora sus componentes con las expresiones que dedujimos con el
nmero 1 y 2:

y)

2
2
( yi y ) ( yi y i )

i =1

Si las combinamos por medio de sus elementos comunes tenemos que otra
forma de calcular el coeficiente de determinacin es:
n

(n 2)S y2 x
= 1
(n 1)S y2

Y realicemos los cambios necesarios para aislar al elemento S y2 x :


Despejamos toda la comparacin
(divisin)

(n 2)S y2 x
(n 1)S y2

Pasamos dividiendo lo que le


multiplica y multiplicando lo que le
divide

S y2 x =

Y finalmente sacamos raz cuadrada

Sy x =

= 1 r2

1 r2
(n 1)S y2
(n 2)

1 r 2 (n 1)
Sy
(n 2)

Con lo cual tenemos que la frmula para calcular S y x es:


EXPRESIN PARA CALCULAR S y x

Sy x = Sy

1 r 2 (n 1)
(n 2)

134

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Una vez que se obtenga el valor de S y x resta sustituir el resto de los elementos

( , (n 1), S ) para calcular es estadstico de prueba t


1

y compararlo con la regin

de rechazo correspondiente:

REGIN DE
RECHAZO DE

H 0 : 1 = 0

1-
/2

/2

t1(n 2)

t1(n 2 )

Claro est que si H 0 : 1 = 0 se rechaza, el modelo de regresin es adecuado, porque


la variable independiente no slo afecta los valores de la independiente, si no que
adems resulta significativa para explicarlos.
D. USO DEL MODELO DE REGRESIN LINEAL SIMPLE
Una vez se haya comprobado que el modelo ajustado y = 0 + 1 x es adecuado,
pueden realizarse estimaciones sobre el valor de Y dado un valor de X , siempre y
cuando ste se encuentre en el rango que esta variable haya mostrado; es decir, que
no rebase su mnimo ni su mximo.
D.1) ESTIMACIN PUNTUAL
Si y 0 es el valor desconocido que toma la variable dependiente cuando X = x0 , una
estimacin puntual de su valor puede obtenerse de la siguiente forma:
EXPRESIN PARA ESTIMAR
PUNTUALMENTE EL VALOR DE y 0

y 0 = 0 + 1 x0

Es decir, el valor estimado para esta Y puede calcularse sustituyendo los valores de
0 , 1 y x0 .9
D.2) ESTIMACIN POR INTERVALOS
A diferencia de otras ocasiones, se llama INTERVALO DE PREDICCIN al rango en
el que, con cierto grado de confianza, se estima est el valor hipottico de y 0 cuando

X = x 0 . Para su construccin basta utilizar la siguiente expresin:


EXPRESIN PARA CONSTRUIR UN
INTERVALO DE PREDICCIN SOBRE
EL VALOR DE y 0

1 (x0 x )
(n 2 )
+
y 0 y 0 t1 S y x
2
n (n 1) S x2

Aunque la operacin no es tan complicada, las calculadoras cientficas pueden obtener el valor estimado
con ms precisin, habiendo ingresado los datos de ambas variables en la funcin estadstica de regresin
lineal y aplicando la funcin ( y ) o ( y )

135

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Como en todo intervalo, obtendremos dos valores lmites (mnimo y mximo del
rango). He aqu graficados, como ejemplo, dichos valores de Y respecto a los valores
de xi :
170

160

150

140
V. mx. estatura
Altura de rodilla
V. min. estatura

130

Altura de rodilla
V. real estatura
Altura de rodilla

120
40

42

44

46

48

50

160

150

Estatura

Para evitar tal saturacin, los


programas
de
estadstica
permiten graficar la lnea del
modelo de regresin (central), as
como dos lneas (exteriores) que
delimitan
continuamente
los
intervalos de prediccin para
cada x0 .

140

130
40

42

44

46

48

50

Altura de rodilla

Por otro lado, se conoce como INTERVALO DE CONFIANZA al rango en el que, con
cierto grado de error, puede encontrarse la media de las Y cuando X = x 0 ; es decir:

y x :
0

EXPRESIN PARA CONSTRUIR UN


INTERVALO DE CONFIANZA SOBRE
EL VALOR DE y x0

y x

1 (x0 x )
(n 2 )
y 0 t1 S y x 1 + +
2
n (n 1) S x2

Como puede verse, tal expresin no difiere ms que por un 1 con respecto a la
expresin para construir intervalos de prediccin. Sin embargo, ello es suficiente los
intervalos de y x0 :

136

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

160

160

150

Estatura

150

140
V. mx. media estat

140

Altura de rodilla
V. mn. media estat
Altura de rodilla
130
V. real estatura
130
40

40

42

44

46

48

50

48

50

Altura de rodilla
42

44

46

48

Altura de rodilla

50

Y de hecho, puede comprobarse la gran diferencia entre ellos:


170

160

160
150
V. mx. estatura

150

Altura de rodilla
V. mn. estatura
Altura de rodilla

140

140

V. mx. media estat

V. mn. media estat

130

Altura de rodilla
V. real estatura
120
40

Estatura

Altura de rodilla

130
40

42

44

46

Altura de rodilla
42

44

46

48

50

Altura de rodilla

E. EJEMPLOS DE APLICACIN
1.
Los siguientes datos de altura y peso en jvenes adultos son parte de la
muestra recolectada durante la investigacin en Cholula, Puebla (1968-1970).
ESTATURA
1649
1635
1611
1622
1583
1613
1636
1650
1579
1568
1522
1554
1627
1535

PESO
49.5
57.5
50.0
53.5
43.0
57.5
50.5
56.0
50.0
50.0
44.5
48.0
51.0
46.0

137

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

1565

49.5

Suponiendo distribucin normal en ambas variables:


a) Puede afirmarse que existe asociacin lineal entre estas variables?
b) Dado el caso, ajuste el modelo de regresin lineal.
c) Compruebe si el modelo ajustado es adecuado con una significancia = 0.05
d) Si es el caso, realice una estimacin puntual y por intervalos cuando la estatura del
joven es de 1600 mm.
Comprobemos entonces si existe asociacin lineal entre estas variables por medio de
un diagrama de dispersin y el coeficiente de correlacin.
58
56

Peso jvenes adultos

54
52
50
48
46
44
42
1520

1540

1560

1580

1600

1620

1640

1660

Estatura jvenes adultos

a.1) , Si bien en los valores ms pequeos de la estatura puede verse una


asociacin lineal clara con respecto al peso, conforme la estatura aumenta este
patrn no es tan claro

COEFICIENTE DE PEARSON

r = 0.6786

a.2) , El valor del coeficiente de correlacin de Pearson nos indica una asociacin
lineal directa considerable entre la estatura y el peso de esta poblacin.
A continuacin saquemos los datos necesarios para calcular los estimadores 1 y 0
a fin de establecer el modelo de regresin.
DATOS GENERALES

n = 15

x = 1596.6000

x y
i =1

= 1209525.000

y = 50.4333

s x = 41.5379
n

x
i =1

2
i

s y = 4.3006

= 38261129.00

Si bien en esta ocasin se mostrar el clculo explcito, despus se mostrar


nicamente el obtenido directamente con ayuda de la calculadora.

138

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

EXPRESIN PARA
CALCULAR
EL ESTIMADOR
1 EXPRESIN
PARA

1 =

x y
i =1
n

x
i =1

2
i

nx y
nx 2

1209525.000 15(1596.6000)(50.4333)
1 =
= 0.0703
2
38261129.00 15(1596.6000 )
1 = 0.0703

CLCULO
MANUAL
CALCULADORA
CALCULAR
EL ESTIMADOR 0

0 = y 1 x
0 = 50.4333 0.0703(1596.6000) = 61.8077

CLCULO
MANUAL
CALCULADORA

0 = 61.7390

Por lo que el modelo de regresin lineal ajustado queda como:

y = 0 + 1 x + e
peso = 61.7390 + 0.0703estatura

MODELO TERICO

MODELO AJUSTADO
b) , Segn el modelo ajustado, por cada milmetro que cambia la estatura, el peso
cambia 0.0703 kilogramos.
Ahora bien, para comprobar que el modelo ajustado es adecuado hay que verificar si
cumple con los criterios y supuestos:
1. CRITERIO DEL COEFICIENTE DE CORRELACIN
HIPTESIS

H0 : = 0

Ha : 0

REGIN DE RECHAZO DE H 0 : = 0

= 0.05

= 0.025
2

1 = 0.975
2

EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
CLCULO DE t c

2)
)
t1(n 2 ) = t1(150.025
= t 0(13
.975 = 2.1604
2

n2
1 r2
15 2

tc = r
t c = 0.6786

1 (0.6786)

= 3.3310

139

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0

c.1) , El estadstico de prueba t c = 3.3310 cae en la regin de rechazo delimitada por


)
t 0(13
.975 = 2.1604 . Por tal motivo, la hiptesis nula H 0 : = 0 se rechaza y puede

afirmarse que s existe una asociacin significativa entre la estatura y el peso de los
jvenes adultos de Cholula.
2. CRITERIO DEL COEFICIENTE DE DETERMINACIN
COEFICIENTE DE DETERMINACIN
R2 = r 2

CLCULO
R 2 = (0.6786) = 0.4605
c.2) , El valor del coeficiente de determinacin indica el modelo ajustado explica slo
el 46.05% de la variabilidad total del peso.
2

d) , Al no cumplir con el criterio del coeficiente de determinacin cabe concluir que el


modelo ajustado no es realmente adecuado para explicar el fenmeno; por ende, no
es recomendable realizar estimaciones.
Veamos ahora un ejemplo muy parecido donde podamos aplicar el resto de los
criterios:
2.
Los siguientes datos de altura y peso tambin son parte de la muestra
recolectada durante la investigacin en Cholula, Puebla (1968-1970), pero pertenecen
a adolescentes hombres:
ESTATURA
1674
1672
1710
1651
1702
1656
1672
1590
1612
1652
1594
1566
1645
1678
1740

PESO
58.5
53.5
58.0
57.0
58.0
58.0
56.5
51.5
56.0
57.5
51.5
47.0
54.5
54.0
62.0

Suponiendo distribucin normal en ambas variables:


a) Existe asociacin lineal entre estas variables?
b) En caso afirmativo, ajuste el modelo de regresin lineal.
c) Compruebe que el modelo ajustado sea adecuado utilizando una significancia

= 0.05

140

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

d) Si es posible, realice una estimacin puntual y por intervalos cuando la estatura del
adolescente es de 1700 mm.
64
62

Peso adolescentes

60
58
56
54
52
50
48
46
1500

1600

1700

1800

Estatura adolescentes

a.1) , Pese a la dispersin de algunos datos puede verse una asociacin lineal entre
la estatura y el peso, as como se define una pendiente bastante grande.
COEFICIENTE DE PEARSON

r = 0.8382

a.2) , El coeficiente de correlacin de Pearson seala una asociacin lineal directa


fuerte entre la estatura y el peso de los adolescentes de Cholula.
ESTIMADORES Y AJUSTE DEL MODELO

0 = 51.3759

1 = 0.0646

peso = 51.3759 + 0.0646estatura


b) , De acuerdo al modelo ajustado, por cada milmetro que cambia la estatura, el
peso cambia 0.0646 kilogramos.
1. CRITERIO DEL COEFICIENTE DE CORRELACIN
HIPTESIS

H0 : = 0

Ha : 0

REGIN DE RECHAZO DE H 0 : = 0

= 0.05

= 0.025
2

1 = 0.975
2

EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
CLCULO DE t c

2)
)
t1(n 2 ) = t1(150.025
= t 0(13
.975 = 2.1604
2

n2
1 r2
15 2

tc = r
t c = 0.8382

1 (0.8382)

= 5.5411

141

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0

c.1) , El estadstico de prueba t c = 5.5411 cae en la regin de rechazo delimitada por


)
t 0(13
.975 = 2.1604 . Por ende, la hiptesis nula H 0 : = 0 se rechaza y puede afirmarse

que existe una asociacin significativa entre la estatura y el peso de los adolescentes
de Cholula.
2. CRITERIO DEL COEFICIENTE DE DETERMINACIN
COEFICIENTE DE DETERMINACIN
R2 = r 2

CLCULO
R 2 = (0.8382) = 0.7025
c.2) , Segn este coeficiente, el modelo ajustado explica el 70.25% de la variabilidad
total del peso; lo cual sugiere que slo un menor porcentaje se debe a los residuales.
2

Y antes de verificar los otros dos criterios es necesario revisar si se cumplen los
supuestos sobre los errores:

Valores fijos para X y


valores aleatorios para Y

Errores independientes

Esperanza de los errores

SUPUESTOS
Tericamente sabemos que aunque dos personas
midan lo mismo, su peso puede diferir. En este caso
particular basta con sealar que existen dos
individuos con una estatura de 1672 milmetros, pero
mientras uno pesa 53.5 kilos, el otro pesa 56.5 kg.
Al aplicar la prueba de Durbin-Watson en el SPSS
obtenemos un valor de 1.922. Estando est tan cerca
del 2 (DW 2 ) , podemos afirmar que los errores son
independientes.
Segn el SPSS, la media de los residuales no
estandarizados es cero; por tanto E (ei ) = 0 .

Homosedasticidad
en los errores
Distribucin normal
en los errores

GRFICA DE PAPEL
Peso adolescentes
Errores esperados acumulados

1.00

.75

.50

.25

0.00
0.00

.25

.50

.75

1.00

Errores observados acumulados

, Todos los supuestos sobre los errores se cumplen.

142

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Ahora s pueden verificarse los criterios sobre los parmetros. Si bien aqu se aplicar
tanto la prueba ANOVA (mediante SPSS) como la prueba sobre la pendiente; debido a
la complejidad de la primera, en los siguientes ejemplos y en la prctica ser suficiente
aplicar la segunda, ya que es en ella donde se comprueba si la variable independiente
es significativa para explicar la variabilidad de la dependiente.

H 0 : o = 1 = 0
Fuente de
variabilidad

Grados
de
libertad

Debida al
modelo de
regresin
Inexplicada
(por error)
Total

3. PRUEBA ANOVA
HIPTESIS

H a : o 0, 1 0

Suma de cuadrados

Cuadrados medios
(varianza)

Estadstico
de prueba

SC r = 132.734

CM r = 132.734

Fc = 30.704

13

SC e = 56.199

CM e = 4.323

14

SC t = 189.933

CM t = 13.4953

REGIN DE RECHAZO DE H 0 : o = 1 = 0 Y UBICACIN DEL ESTADSTICO

c.3) , El estadstico de prueba Fc = 30.704 cae en la regin de rechazo delimitada

por F0(.195,13 ) = 4.67 . Debido a ello puede concluirse que ninguno de los dos parmetros
es igual a cero.

H 0 : 1 = 0

4. PRUEBA DE LA PENDIENTE
HIPTESIS

H a : 1 0

REGIN DE RECHAZO DE H 0 : 1 = 0

= 0.05

= 0.025
2

= 0.975

EXPRESIN PARA CALCULAR S y x


CLCULO

2)
)
t1(n 2 ) = t1(150.025
= t 0(13
.975 = 2.1604
2

Sy x = Sy
S y x = 3.6736

1 r 2 (n 1)
(n 2)

(1 0.8382)2 (15 1) = 2.0792


(15 2)

143

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

EXPRESIN PARA CALCULAR EL


ESTADSTICO DE PRUEBA t c

tc =

1
Sy x

(n 1) S x
CLCULO

tc =

0.0646
= 5.5411
2.0792
(15 1) 47.6302

UBICACIN DEL ESTADSTICO DE PRUEBA t c CON RESPECTO A REGIN DE


RECHAZO DE H 0

c.4) , El estadstico de prueba t c = 5.5411 cae en la regin de rechazo delimitada


)
por t 0(13
.975 = 2.1604 , debido a lo que la hiptesis nula H 0 : 1 = 0 se rechaza y puede
afirmarse que la variable estatura es significativa para explicar el peso de los
individuos de esta poblacin.

Por ltimo resta hacer estimaciones, por ejemplo, para un individuo que pesa 1700
milmetros:
EXPRESIN PARA ESTIMAR
PUNTUALMENTE EL VALOR DE y 0
CLCULO MANUAL

y 0 = 0 + 1 x0
y 0 = 51.3759 + 0.0646(1700) = 58.5240
1700 = 58.5232

CALCULADORA
, A partir del modelo de regresin podemos estimar puntualmente que, en esta
poblacin, un individuo con una estatura de 1700 milmetros pesa 58.5232
kilogramos.
EXPRESIN PARA CONSTRUIR UN
INTERVALO DE PREDICCIN SOBRE
EL VALOR DE y 0

CLCULO

1 (x0 x )
+
y 0 y 0 + t1(n 2 ) S y x
2
n (n 1) S x2

1 (1700 1654.2667 )
y 0 58.5232 2.1614 2.0792
+

15
(15 1)(47.6302)2

y 0 [56.8880,60.1584]

, El peso de un individuo cuya estatura es de 1700 milmetros est entre los 56.9 y
los 60.2 kilogramos.
EXPRESIN PARA CONSTRUIR UN
INTERVALO DE CONFIANZA SOBRE
EL VALOR DE y x0

1 (x0 x )
(n 2 )
y x0 y 0 t1 S y x 1 + +
2
n (n 1) S x2

144

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

CLCULO

1 (1700 1654.2667 )
y 0 58.5232 2.1614 2.0792 1 + +

15
(15 1)(47.6302)2

y 0 [53.7429,63.3033]

, En esta poblacin, el peso promedio de individuos una estatura de 1700 milmetros


est entre los 53.7 y los 63.3 kilogramos.
64
62

Peso adolescentes

60
58
56
54
52
50
48
46
1500

1600

1700

1800

Estatura adolescentes

2.
A continuacin se presentan los datos de estatura sentado y estatura total de
un grupo de nios cuyas edades oscilan entre los 6.7 y 7.6 aos.
ESTATURA SENTADO
631
593
617
615
660
672
628
621
636
637
651
590
606
642

ESTATURA TOTAL
1100
1100
1133
1163
1213
1155
1130
1111
1155
1165
1197
1062
1144
1163

Suponiendo distribucin normal en ambas variables:


a) Compruebe si existe asociacin lineal entre las variables.
b) Si es el caso, ajuste el modelo de regresin lineal.
c) Verifique que el modelo sea adecuado a una significancia = 0.05
d) Realice una estimacin puntual y por intervalos para cuando la estatura sentado del
nio fuera de 630 mm.

145

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

1220
1200

Estatura total

1180
1160
1140
1120
1100
1080
1060
580

600

620

640

660

680

Estatura sentado

a.1) , Aunque existe una dispersin considerable, puede entreverse una asociacin
lineal entre la estatura sentado y la estatura total de los nios.
COEFICIENTE DE PEARSON

r = 0.7344

a.2) , El valor del coeficiente de correlacin de Pearson tambin indica una


asociacin lineal directa entre estas variables.
ESTIMADORES Y AJUSTE DEL MODELO

0 = 362.0680

1 = 1.2413

Estatura total = 362.06809 + 1.2413 estatura sentado


b) , Segn el modelo ajustado, por cada milmetro que cambia la estatura sentado,
la estatura total cambia 1.2413 milmetros.
1. CRITERIO DEL COEFICIENTE DE CORRELACIN
HIPTESIS

H0 : = 0

Ha : 0

REGIN DE RECHAZO DE H 0 : = 0

= 0.05

= 0.025
2

1 = 0.975
2

EXPRESIN PARA
ESTADSTICO DE PRUEBA t c
CLCULO DE t c

2)
)
t1(n 2 ) = t1(140.025
= t 0(12
.975 = 2.1788
2

n2
1 r2
14 2

tc = r
t c = 0.7344

1 (0.7344)

= 3.7484

146

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

UBICACIN DE ESTADSTICO DE
PRUEBA t c CON RESPECTO A
REGIN DE RECHAZO DE H 0

c.1) , El estadstico de prueba t c = 3.7484 cae en la regin de rechazo delimitada por


)
t 0(12
.975 = 2.1788 . Debido a ello la hiptesis nula H 0 : = 0 se rechaza y puede

afirmarse que s hay una asociacin significativa entre la estatura sentado y la estatura
total.
2. CRITERIO DEL COEFICIENTE DE DETERMINACIN
COEFICIENTE DE DETERMINACIN
R2 = r 2

CLCULO
R 2 = (0.7344) = 0.5394
c.2) , De acuerdo al coeficiente, el modelo ajustado explica el 53.94% de la
variabilidad total de la estatura total. Dicho valor est muy prximo a la variabilidad
debida a los residuales, motivo por el cual ser importante verificar que el modelo
cumpla con otros criterios antes de utilizarlo para estimar.
2

SUPUESTOS
Valores fijos para X y
valores aleatorios para Y
Errores independientes

Esperanza de los errores

La prueba Durbin-Watson de SPSS arroja un valor de


1.928 (DW 2 ) , por tanto, los errores son
independientes.
El SPSS seala que la media de los residuales no
estandarizados es cero; por lo cual se cumple que
E (ei ) = 0 .

Homosedasticidad
en los errores
Distribucin normal
en los errores

GRFICA DE PAPEL
Estatura total
Errores esperados acumulados

1.00

.75

.50

.25

0.00
0.00

.25

.50

.75

1.00

Errores observados acumulados

, Todos los supuestos sobre los errores se cumplen.


3. PRUEBA DE LA PENDIENTE
HIPTESIS

147

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

H 0 : 1 = 0

H a : 1 0

REGIN DE RECHAZO DE H 0 : 1 = 0

= 0.05

= 0.025
2

= 0.975

2)
)
t1(n 2 ) = t1(140.025
= t 0(12
.975 = 2.1788
2

EXPRESIN PARA CALCULAR S y x


CLCULO

Sy x = Sy
S y x = 40.1271

EXPRESIN PARA CALCULAR EL


ESTADSTICO DE PRUEBA t c

1 r 2 (n 1)
(n 2)

(1 0.7344)2 (14 1) = 28.3466


(14 2)
tc =

1
Sy x

(n 1) S x
CLCULO

tc =

1.2413
= 3.7485
28.3466
(14 1) 23.7414

UBICACIN DEL ESTADSTICO DE PRUEBA t c CON RESPECTO A REGIN DE


RECHAZO DE H 0

c.4) , El estadstico de prueba t c = 3.7485 cae en la regin de rechazo delimitada


)
por t 0(12
.975 = 2.1788 . Por tal motivo la hiptesis nula H 0 : 1 = 0 se rechaza y podemos
afirmar que la variable estatura sentado es significativa para explicar la estatura total
de los nios entre 6.7 y 7.6 aos en esta poblacin.

EXPRESIN PARA ESTIMAR


PUNTUALMENTE EL VALOR DE y 0

y 0 = 0 + 1 x0

CLCULO
630 = 1144.0762
, Gracias al modelo de regresin lineal podemos estimar que un nio con 630
milmetros de estatura sentado tendra una estatura total de 1144.0762 milmetros.
EXPRESIN PARA CONSTRUIR UN
INTERVALO DE PREDICCIN SOBRE
EL VALOR DE y 0

1 (x0 x )
+
y 0 y 0 + t1(n 2 ) S y x
2
n (n 1) S x2

148

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

CLCULO

1 (630 628.5000 )
y 0 1144.0762 2.1755 28.3466
+

14 (14 1)(23.7414 )2

y 0 [1127.5461,1160.6063]

, Si un nio de esta poblacin tuviera una estatura sentado de 630 milmetros, su


estatura total estara entre los 1127.5461 y los 1160.6063 milmetros.
EXPRESIN PARA CONSTRUIR UN
INTERVALO DE CONFIANZA SOBRE
EL VALOR DE y x0
CLCULO

y x y 0 t1(n2 ) S y x 1 +
0

2
1 (x0 x )
+

n (n 1) S x2

1 (630 628.5000 )
y 0 1144.0762 2.1755 28.3466 1 + +

14 (14 1)(23.7414 )2

y 0 [1080.1408,1208.0116]

, En esta poblacin, la estatura total promedio de nios con una estatura sentado de
630 milmetros estara entre los 1080.1408 y los 1208.0116 milmetros.
1220
1200

Estatura total

1180
1160
1140
1120
1100
1080
1060
580

600

620

640

660

680

Estatura sentado

149

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

EJERCICIOS DE REPASO
1. Uno de los principales problemas en la antropometra de ancianos es la
determinacin de la estatura total. Una manera indirecta es construir modelos de
regresin con otras medidas antropomtricas. Una de las ms usadas es la altura
de lo rodilla, pues se cree que existe una fuerte relacin lineal con la estatura. Los
siguientes datos corresponden a una muestra de ancianos del sexo femenino de
un asilo de ancianos de la ciudad de Mxico:
Altura
de
40.8 48.3 46.5 43.3 47.5 45.6 49.9 44.7 46.7 46.2 47.4 40.4 46.9 47.3
rodilla
Estatura 137.5 142.0 142.0 144.4 144.8 141.8 156.2 144.0 149.7 144.0 151.8 134.1 143.9 140.5

Altura de
42.5 43.2 50.0 48.0 49.3 44.9 45.7 50.4 46.0 45.0 43.4 37.5
rodilla
Estatura 145.0136.0 151.2 140.2 143.0 138.1 139.7 153.9 142.0 137.0 140.0 124.5
a) Dibujar en un diagrama de dispersin los datos.
b) Calcula la recta de regresin correspondiente y graficarla.
c) Determina si el modelo es adecuado, es decir calcular coeficiente de
correlacin, coeficiente de determinacin y realizar la prueba de hiptesis sobre
la pendiente de la recta.
d) Si es el caso, realizar una estimacin puntual y por intervalo para la estatura de
una anciana cuya altura de la rodilla sea de 45.8 cm, tanto del valor individual
como para el valor promedio.
2. Se desea saber si es posible encontrar un modelo de regresin lineal entre la
fuerza muscular medida en kilos con un dinammetro y la resistencia para
sostener un peso determinado al aire y con el brazo extendido, medida en minutos
y dcimas de minutos. Todo realizado con la mano derecha, en una muestra de
15 individuos adultos. Los valores obtenidos son los siguientes:
fuerza (kg.)
Resistencia
(min.)

23 25 26 28 23 25 26 29 24 25 27 26 24 26 28
0.8 0.9 2.0 2.7 1.2 1.5 2.4 3.0 0.8 1.9 2.0 1.7 1.2 1.1 1.5

a) Graficar los datos en un diagrama de dispersin.


b) Obtener la recta de regresin y graficarla en el diagrama de dispersin.
c) La pendiente de la recta de regresin poblacional es diferente de cero?
Considerar una significancia de 0.05
d) Obtener los coeficientes de correlacin y determinacin. Interprete estos
valores.
e) Qu puede concluir sobre el modelo encontrado?
f) Si una persona tiene una fuerza de 24.5 kg.
f.1) Encontrar un intervalo de confianza, al 95%, para el valor de la
resistencia
f.2) Encontrar un intervalo de confianza, al 95%, para el valor medio de
la resistencia.
3. Una fundacin para la preservacin de fauna desea demostrar que, en contra de
la opinin de la mayora, las cigeas si traen nios. Le gustara probar esto con
estadsticas. Han reunido datos sobre el nmero de cigeas y de nios (ambos
en miles) en algunas ciudades de Europa.
Cigeas

39

50

25

36

18

31

27

150

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Nios

30

41

14

27

10

26

15

a) Graficar los datos en un diagrama de dispersin.


b) Obtener la recta de regresin y graficarla en el diagrama de dispersin.
c) La pendiente de la recta de regresin poblacional es diferente de cero?
Considerar una significancia de 0.1
d) Obtener los coeficientes de correlacin y determinacin. Interprete estos
valores.
e) Qu puede concluir sobre el modelo encontrado?
4. Los siguientes datos se refieren a la edad cronolgica exacta y la altura sinfisial
de una muestra de nios de Milpa Alta.

a) Dibujar en un diagrama de dispersin los datos.


b) Calcula la recta de regresin correspondiente y
graficarla.
4.81
460
c) Determina si el modelo es adecuado, es decir
5.05
536
calcular coeficiente de correlacin, coeficiente de
5.26
530
determinacin y realizar la prueba de hiptesis
5.19
586
sobre la pendiente de la recta y verificar supuestos
5.24
481
sobre los errores.
4.78
446
d) Si es el caso, realizar una estimacin puntual y por
5.33
512
intervalo para la edad de un nio cuya altura
sinfisial sea de 515 mm., para el valor individual
5.38
518
5. Los
siguientes
datos
corresponden
a la intervalo.
estatura de padres e hijos
como por
4.64
560

Altura
Edad sinfisial

Padres 165.10 160.02 170.18 162.56 172.72 157.48 177.80 167.64 172.72 170.18 175.26 180.34
Hijos 172.72 167.64 172.72 165.10 175.26 167.64 172.72 165.10 180.34 170.18 172.72 177.80
a)
b)
c)
d)

Graficar los datos en un diagrama de dispersin.


Obtener la recta de regresin y graficarla en el diagrama de dispersin.
Obtener el coeficiente de correlacin. Interprete este valor.
La pendiente de la recta de regresin poblacional es diferente de cero?
Considerar una significancia de 0.95
e) Qu puede concluir sobre el modelo encontrado? Verificar supuestos
sobre los errores.
f) Si el modelo es adecuado, estimar, puntualmente y por medio de un
intervalo de confianza, al 90%, el valor de la estatura de un hijo cuando la
estatura de su padre es de 169 cm. Interpretar.
g) Estimar puntualmente la estatura de un hijo si la estatura de su padre es de
195 cm. qu puede decir de este valor estimado?
6. Considera los siguientes valores:
X 12.5
15.3
17.4
16.9
16.3
18.3
20.2
20.7
13.8
12.7
Y 16.165 19.329 21.702 21.137 20.459 22.719 24.866 25.431 17.634 16.391
Graficar los datos en un diagrama de dispersin.
a) Obtener la recta de regresin y graficarla en el diagrama de dispersin.
b) Obtener el coeficiente de correlacin. Interprete este valor.

151

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

c) La pendiente de la recta de regresin poblacional es diferente de cero?


Considerar una significancia de 0.95
d) Qu puede concluir sobre el modelo encontrado? Verificar supuestos
sobre los errores.
7. Los siguientes datos corresponden a la edad y presin sangunea de 12 personas
aparentemente sanas.
Edad
Presin
sangunea

56 42 72 36 63 47 55 49 38 42 68 60
147 125 160 118 149 128 150 145 115 140 152 155

a)
b)
c)
d)

Graficar los datos en un diagrama de dispersin.


Obtener la recta de regresin y graficarla en el diagrama de dispersin.
Obtener el coeficiente de correlacin. Interprete este valor.
La pendiente de la recta de regresin poblacional es diferente de cero?
Considerar una significancia de 0.95
e) Qu puede concluir sobre el modelo encontrado? Verificar supuestos
sobre los errores.
f) Si el modelo es adecuado, estimar, puntualmente y por medio de un
intervalo de confianza, al 95%, el valor de la presin sangunea cuando la
edad es de 50 aos. Interpretar.
g) Estimar puntualmente la presin sangunea cuando la edad es de 80 aos.
Qu puede decir de este valor estimado?
8. Considera los siguientes datos:
X
Y

3.2
4.6
7.5
8.4
6.3
2.4
7.2
3.9
4.7
9.1
5.656 7.238 10.515 11.532 9.159 4.752 10.176 6.447 7.351 12.323
a)
b)
c)
d)

Graficar los datos en un diagrama de dispersin.


Obtener la recta de regresin y graficarla en el diagrama de dispersin.
Obtener el coeficiente de correlacin. Interprete este valor.
La pendiente de la recta de regresin poblacional es diferente de cero?
Considerar una significancia de 0.95
e) Qu puede concluir sobre el modelo encontrado? Verificar supuestos
sobre los errores.
9. Los siguientes datos corresponden al peso y el nivel total de colesterol y
triglicridos en 15 personas:
Peso Colesterol
Triglicridos
Total (mg/100 ml) (mg/100 ml)
76
302
139
97
336
101
83
220
57
52
300
56
70
382
113
67
379
42
75
331
84
78
332
186
70
426
164
99
399
205
75
279
230
78
332
186

152

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

70
77
76

410
389
302

160
153
139

a) Ajustar el modelo de regresin lineal mltiple


b) Realizar las pruebas de hiptesis sobre los coeficientes de las variables
independientes.
c) Calcular el coeficiente de determinacin y el coeficiente de correlacin mltiple.
d) Verificar supuestos sobre los errores.
e) El modelo estimado es correcto?
10. Las siguientes mediciones se obtuvieron en 12 hombres con edades entre 12 y 18
aos (todas las mediciones estn en centmetros):
Estatura Longitud Longitud
del radio del fmur
149.0
21.00
42.50
152.0
21.79
43.70
155.7
22.40
44.75
159.0
23.00
46.00
163.3
23.70
47.00
166.0
24.30
47.90
169.0
24.92
48.95
172.0
25.50
49.90
174.5
25.80
50.30
176.1
26.01
50.90
176.5
26.15
50.85
179.0
26.30
51.10
a) Ajustar el modelo de regresin lineal mltiple
b) Realizar las pruebas de hiptesis sobre los coeficientes de las variables
independientes.
c) Calcular el coeficiente de determinacin y el coeficiente de correlacin mltiple.
d) Verificar supuestos sobre los errores.
e) El modelo estimado es correcto?

153

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Bioestadstica
Prctica 1: Pruebas de Hiptesis
Se trabaja con la base de datos contenida en el archivo antropometria.sav la cual
contiene informacin sobre algunas caractersticas somatolgicas de los alumnos de
Antropologa Fsica de primer semestre en el ciclo 2003-1. Se presentan ejemplos y
actividades para que realicen los alumnos.
I. Una muestra. Suponiendo que los datos representan una muestra representativa de
los estudiantes de la ENAH de primer semestre en ese ciclo, Es posible afirmar que la
edad promedio de los alumnos de este ciclo es menor de 21 aos?
La hiptesis a contrastar es: Hinv : < 21 , por lo tanto las hiptesis estadsticas son:
H o : 21 vs. H a : < 21 . En SPSS se deber seguir los siguientes pasos:

1. En el men Analyze,
seleccionar
Compare
Means y seleccionar OneSample T Test... como se
muestra en la figura.

2. En el cuadro de dilogo
introducir la variable edad y
el valor 21 como se muestra
en la figura y dar Ok.

3. Se obtienen los siguientes resultados en dos tablas, en la primera se presenta el


tamao de muestra, la media aritmtica, la desviacin estndar y el error estndar de la
s
media ,
. En el segundo cuadro se observa el valor del estadstico de prueba, los
n
grados de libertad, la significancia encontrada (el p-valor), la diferencia de medias
( x 0 ) y el intervalo al 95% de confianza para ( 0 ). La hiptesis nula que
contrasta el programa siempre es la de dos colas, H o : = 0 . En el caso del ejemplo
como Sig. = p = .000 < , se rechaza la hiptesis H o : = 21 , por lo cual o es menor o
es mayor a 21 aos. Si observamos los valores descriptivos tenemos que la media
muestra x = 22.8446 , por lo tanto tenemos evidencias estadsticas que nos indican que
la media es mayor a 21. Otra forma de ver esto es observar el intervalo de confianza

154

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

para la diferencia 21 viendo que el intervalo contiene slo valores son positivos.
Por lo tanto se infiere que 21 > 0 > 21 . Por lo tanto, la hiptesis de
investigacin no es correcta, ya que la media estadsticamente (p=.000) es mayor a 21.

T-Test
One-Sample Statistics
N
Edad exacta

62

Mean
22.8446

Std. Deviation
3.70024

Std. Error
Mean
.46993

One-Sample Test
Test Value = 21

Edad exacta

t
3.925

df
61

Sig. (2-tailed)
.000

Mean
Difference
1.8446

95% Confidence
Interval of the
Difference
Lower
Upper
.9049
2.7843

II. Ejercicio Se puede inferir que los ingresos familiares promedio en la poblacin de
estudio es mayor a $10,000?
III. Dos muestras independientes. Es posible inferir que existen diferencias
significativas en las edades de los alumnos respecto al turno?. La hiptesis a contrastar
es:
H o : 1 = 2 vs.
H a : 1 2
1. En el men Analyze,
seleccionar
Compare
Means
y
seleccionar
Independent-Samples
T
Test...

2. En el cuadro de dilogo
introducir la variable edad
en el cuadro de variables a
contrastar. Se introduce la
variable turno en el cuadro
Grouping Variable. Dar
clic en botn Define
Como el grupo
Groups.
matutino esta codificado
como 5 y el vespertino
como 8, se introducen estos
valores
como
identificadores de los grupos
1 y respectivamente. Dar
clic en Continue y en Ok.

155

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

3. Los resultados se presentan en dos tablas, la primera contiene las estadsticas


descriptivas por turno. En la segunda se observa en primer lugar, los resultados de la
prueba de Levene sobre la igualdad de varianzas: H o : 12 = 22 . Se observa que
Sig . = .308 > , por lo tanto no se rechaza la hiptesis nula, por lo que se puede asumir
la igualdad de varianzas. Esto implica que los resultados donde debemos prestar
atencin son los del primer rengln. En caso de rechazar la hiptesis nula, debemos ver
los resultados del segundo rengln.

T-Test
Group Statistics

Edad exacta

Turno
Matutino
Vespertino

N
36
26

Mean
21.7368
24.3785

Std. Deviation
3.41613
3.58548

Std. Error
Mean
.56936
.70317

Independent Samples Test


Levene's Test for
Equality of Variances

F
Edad exacta

Equal variances
assumed
Equal variances
not assumed

1.057

Sig.
.308

t-test for Equality of Means

df

Sig. (2-tailed)

Mean
Difference

Std. Error
Difference

95% Confidence
Interval of the
Difference
Lower
Upper

-2.943

60

.005

-2.6417

.89763

-4.43727

-.84622

-2.920

52.429

.005

-2.6417

.90477

-4.45695

-.82654

Los resultados indican un estadstico de prueba de -2.943, 60 grados de libertad y


sig. = .005 < = .05 , lo cual indica que se rechaza la hiptesis nula H o : 1 = 2 . Es
decir, se puede afirmar que las medias de edad entre turnos son significativamente
diferentes (p=.005), siendo mayor en alumnos del turno vespertino. Se presenta
tambin el valor de la diferencia de medias muestral, su error estndar y el intervalo al
95% de confianza.
IV. Ejercicio: Existe dimorfismo sexual en las variables antropomtricas recolectadas:
estatura, peso, permetro de cadera, circunferencia del brazo relajado, circunferencia del
brazo contrado, estatura sentado, permetro de cintura y altura de la rodilla?
V. Dos muestras pareadas. Se desea saber si existe diferencia significativa en la
magnitud de la circunferencia del brazo relajado respecto a la circunferencia del brazo
contrado. Si 1 y 2 son las medias de cada magnitud y si d = 1 2 entonces, la
hiptesis
a
contrastar
es:
H o : d = 0 vs. H a : d 0 . En
SPSS tenemos:
1. En el men Analyze,
seleccionar Compare Means y
seleccionar Paired-Samples T
Test...

156

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

2. En el cuadro de variables
seleccionar
las
dos
circunferencias del brazo e
introducirlas
al
cudro
Paired_Variables: en Ok.

3. Aparecen tres tablas, la


primera contiene las estadsticas descriptivas de cada variable. La segunda tabla
presenta el coeficiente de correlacin lineal (r) entre las dos variables, y la significancia
del contraste de hiptesis H o : = 0 , donde es el coeficiente de correlacin lineal
poblacional. En el ejemplo se observa que r 1 , lo cual nos indica asociacin lineal
fuerte entre las dos variables, y como sig . = p = .000 < .05 = se rechaza la hiptesis
nula, lo cual nos indica una asociacin lineal significativa entre las variables. La tercera
s
tabla contiene los valores de d , sd , d , el intervalo al 95% de confianza para d , el
n
valor del estadstico de prueba, los grados de libertad y la significancia o p-valor
determinados por los datos. Como p = .000 < .05 = , rechazamos la hiptesis nula, por
lo cual se infieren diferencias significativas en las dos medias poblacionales, teniendo
un valor mayor la circunferencia del brazo contrado.

T-Test
Paired Samples Statistics
Mean
Pair
1

Circunferencia del
brazo relajado
Circunferencia del
brazo contrado

Std. Deviation

Std. Error
Mean

274.188

64

34.6817

4.3352

286.063

64

37.9937

4.7492

157

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Paired Samples Correlations


N
Pair
1

Circunferencia del brazo


relajado & Circunferencia
del brazo contrado

Correlation
64

Sig.

.840

.000

Paired Samples Test


Paired Differences

Mean
Pair
1

Circunferencia del brazo


relajado - Circunferencia
del brazo contrado

-11.875

Std. Deviation

Std. Error
Mean

20.7865

2.5983

95% Confidence
Interval of the
Difference
Lower
Upper
-17.067

-6.683

df

-4.570

63

VI. Ejercicio: Resolver los problemas:


1. Son muchos los argumentos a favor de la suposicin de que las secretarias
escriben ms rpidamente en una computadora que en una mquina de
escribir. Por ejemplo, las egresadas de una escuela tcnica afirman que
escriben en la computadora 30 palabras ms por minuto. Para concertar
esta afirmacin a un grupo de 10 secretarias se les pone a trabajar
diariamente en una computadora y se evala al final su velocidad; en la
siguiente semana se les pone a trabajar exclusivamente en mquina
elctrica de escribir y se evala su velocidad en trmino de nmero de
palabras escritas por minuto. Los resultados son los siguientes:
Secretaria Con computadora Con mquina elctrica
1

93

71

85

53

98

63

79

61

82

44

95

75

89

51

85

60

84

54

10

92

71

Sig. (2-tailed)

Con esta informacin se confirma la afirmacin de las secretarias? Sea =0.1


2. Se desea conocer qu tan eficaz resulta una dieta para reducir el peso de
las personas para la cual se seleccion una muestra aleatoria de 16
personas interesadas en bajar de peso, registrndose el peso de cada

158

.000

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

persona antes y despus del tratamiento, presentndose los resultados


en la tabla siguiente:
Persona
1
2
3
4
5
6
7
8
9
10
Antes

96.9 89.11 105.7

112

93.45 99.1 108.32 88.87

Despus 93.1

83.0

101.9 105.87 89.14 95.0 106.56

Persona

11

12

13

Antes

103.05

111.89

Despus

97.47

107.6

91.0

95.76

83.9

85.64 90.44

14

15

16

83.2

94.74

99.15

126.3

80.81

89.9

97.66

123.3

VII. Prueba ANOVA: Se desea saber si entre las mujeres existen diferencias
significativas en la estatura total respecto a la variable que agrupa la edad. Como se
tienen tres niveles de agrupacin la hiptesis a probar es: H o : 1 = 2 = 3 . En primer
lugar en SPSS seleccionaremos las mujeres, grupo codificado con el nmero 1 en la
variable sexo. De la opcin Data damos click en la opcin Select Cases y activamos la
opcin If condition is satisfied, como se muestra en la pantalla siguiente:

Al dar click en el botn If...


aparece el cuadro que se
presenta a la derecha.
Pasamos la variable sexo y
agregamos la igualdad con 1.
Damos clic en Continue y

159

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Para la prueba de hiptesis en la


opcin Analyze, seleccionar
Compare Means y despus OneWay ANOVA....

En el cuadro Dependent
List: insertar la variable
estatura. En el cuadro
Factor: introducir la
variable grupo de edad.

Como resultado se
obtiene la tabla ANOVA, donde se observa que sig. = p = .231 > = .05 , por lo tanto
no se rechaza la hiptesis nula, es decir las medias de la estatura en los tres grupos de
edad no son estadsticamente diferentes.

Oneway
ANOVA
Estatura Total

Between Groups
Within Groups
Total

Sum of
Squares
6887.515
67096.000
73983.515

df
2
30
32

Mean Square
3443.758
2236.533

F
1.540

Sig.
.231

Si se hubiera rechazado la hiptesis nula, tendramos que repetir la prueba ANOVA y


agregar la prueba de contrastes mltiples

160

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Si se hubiera rechazado la
hiptesis nula, tendramos
que repetir la prueba
ANOVA y agregar la
prueba de contrastes
mltiples, , dando click en
el botn Post Hoc...,
seleccionar la prueba de
Tukey, dar click en
Continue y Ok.

VIII.
Ejercicio
Resolver los problemas:
3. Una empresa editorial est haciendo un estudio de mercado para sacar el perfil
de los lectores de peridicos en un pas determinado; consideran que el grado de
escolaridad (entendido como el total de aos aprobados en su trayectoria
escolar) es un factor determinante en la caracterizacin de los lectores; la
empresa ha clasificado a los peridicos en cuatro categoras: los diarios que se
especializan o ponen nfasis en la nota roja (A); los orientados a la informacin
deportiva (B); los que enfatizan aspectos econmicos (C) y los que se centran en
aspectos polticos y sociales (D). Los resultados obtenidos de la variable de
inters son los siguientes:
A
B
C
D
9
6
10
6
17
12
11
20
6
6
6
4
12
21
15
12
3
5
9
5
19
16
9
12
9
6
6
9
17
6
6
6
12
9
12
19
12
9
12
5
6
17
12
1
14
6
7
16
6
4
6
17
2
26
17
15
15
9
20
12
9
2
9
17
17
Con estos datos hay evidencia suficiente para asegurar que la escolaridad de los
lectores es un factor de variacin entre los lectores de peridicos? Suponga
distribucin normal en las poblaciones. Sea =0.05
4. La Secretara del Medio Ambiente quiere determinar si los cambios en la
temperatura del agua del Golfo de Mxico, causados por la planta de
Laguna Verde, tienen un efecto significativo sobre la fauna marina en la
regin. Se dividieron al azar cuatro grupos de especimenes recin
nacidos de cierta especie de peces. Se colocaron los grupos en medios
ambientes separados que simulan el ocano, completamente idnticos,
con excepcin de la temperatura del agua. Seis meses despus se
pesaron los especimenes. Los resultados (en libras) se dan en la tabla
siguiente:

Pesos de los especimenes

161

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

38F 42F 46F 50F


22

15

14

17

24

21

28

18

16

26

21

13

18

16

19

20

19

25

24

21

17

23

162

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Bioestadstica
Prctica 2: Pruebas No paramtricas.

I.

Con los datos del archivo antropometria. sav, aplicar la prueba 2 para ver
si existe relacin entre el turno y el sexo de los estudiantes de primer ao de
la licenciatura en Antropologa Fsica.
1. En el men Analyze se
selecciona la opcin
Descrpitive Statistics,
escogiendo Crosstabs.

2. Se introduce la variable Sexo


como rengln y la variable
Turno como columna.

3. Se da clic en el botn
Statistics...

4. Se seleccionan las opciones:


Chi-square
y Phi and Cramrs V
5. Dar Continue y Ok

163

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Se obtienen los resultados de la siguiente manera:

Crosstabs
Case Processing Summary
Cases
Missing
N
Percent
0
.0%

Valid
N
Sexo del Individuo * Turno

Percent
100.0%

64

Total
N
64

Percent
100.0%

Sexo del Individuo * Turno Crosstabulation


Count

Sexo del Individuo

Femenino
Masculino

Total

Turno
Matutino
Vespertino
24
9
12
19
36
28

Tabla de
contingencia o
cruzada

Total
33
31
64

Chi-Square Tests

Pearson Chi-Square
Continuity Correctiona
Likelihood Ratio
Fisher's Exact Test
Linear-by-Linear
Association
N of Valid Cases

Value
7.516b
6.198
7.667

df
1
1
1

7.399

Asymp. Sig.
(2-sided)
.006
.013
.006

Exact Sig.
(2-sided)

Exact Sig.
(1-sided)

.011

.006

.007

Valor de c2 y p.
p< = 0.05 , por
tanto se rechaza
H o : no existe
relacin entre sexo
y turno

64

a. Computed only for a 2x2 table


b. 0 cells (.0%) have expected count less than 5. The minimum expected count is
13.56.
Symmetric Measures

Nominal by
Nominal

Phi
Cramer's V

N of Valid Cases

Value
.343
.343
64

Approx. Sig.
.006
.006

a. Not assuming the null hypothesis.

Aunque la prueba 2
indica asociacin entre las
variables , se puede inferir
que es dbil, por el valor
de V de Cramer

b. Using the asymptotic standard error assuming the null


hypothesis.

164

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

2
II. Prueba cuando se tienen los datos en una tabla de contingencia. En un estudio
sobre planificacin familiar en el Estado de Hidalgo se aplico una encuesta para analizar los
posibles factores que influyen en el uso de anticonceptivos. En la siguiente tabla se
presentan las frecuencias observadas de las mujeres encuestadas en relacin a su edad y si
usan algn mtodo anticonceptivo

Uso de anticonceptivos
Usuarias
No
Edad
(aos)
Usuarias
15-19
8
11
20-24
33
23
25-29
31
30
30-34
22
22
35-39
25
18
40-49
14
40
Existe relacin entre la edad y el uso de anticonceptivos?

1. Crear una base de datos con


tres variables: grupo de edad
(edad), anticonceptivos
(anticons) y frecuencias
observadas (fo). Recuerda que
edad y anticons, utilizan
Values para definir las
categoras.
2. Del men Data seleccionar la
opcin Weight Cases...

3. Activar la opcin Weight


cases by e introducir la
variable Frecuencias
observadas (fo) en el
cuadro Frecuency Variable:.
Dar clic en ok.

4. Del men Analyze


seleccionar Descriptive
Statistics, y Crosstabs.
Introducir Edad en rengln
y Anticonceptivos en
columna.
5. Seguir los pasos 3, 4 y 5
del ejercicio anterior.

165

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

III. Ejercicio: Existe relacin entre la edad de los alumnos (grupo de edad) y el turno
de estudio, de la base antropometra.sav.
IV. Prueba de Normalidad de
Kolmogorov-Smirnov. Se desea saber si
ingresos
familiares
la
variable
contenida en la base de datos
antropometra.sav tiene distribucin
normal. La hiptesis es: H o : La variable
ingresos familiares tiene distribucin
normal.
1. Del men Analyze seleccionar
Nonparametric Tests y escoger la opcin
1-Sample K-S...

2. Introducir la variable
Ingresos familiares en el
cuadro Test Variable List.
Verifica que este activada la
opcin Normal en Test
Distribution
Dar clic en OK.

3. Los resultados que se obtienen son:

NPar Tests

166

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

One-Sample Kolmogorov-Smirnov Test

N
Normal Parameters a,b

Ingresos
Familiares
50
11065.0000
11139.030
.247
.247
-.218
1.743
.005

Mean
Std. Deviation
Absolute
Positive
Negative

Most Extreme
Differences
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)

El estadstico de prueba es:


Dc = .247

Como p=.005, se rechaza


H o . La variable no se
distribuye normal.

a. Test distribution is Normal.


b. Calculated from data.

V. Ejercicio: Usando el comando Split File, verificar si la variable estatura total tiene
distribucin normal en hombres y mujeres por separado.
VI. Prueba del signo y Wilcoxon. . A 16 estudiantes se les aplic un examen sobre estadstica
elemental en un da caluroso. Ocho de ellos, seleccionados aleatoriamente, tomaron la prueba
en un saln sin aire acondicionado. Posteriormente, despus de un intermedio corto,
terminaron un examen en un saln con aire acondicionado. Con los otros ocho estudiantes se
invirti este procedimiento:

Estudiante 1
Sin aire
52
Con aire
49

2
90
94

3
63
60

4
74
78

5
87
93

6
77
77

7
92
93

8
72
74

9
77
78

10
94
93

11
67
78

12
86
89

13
78
92

14
84
83

15
57
49

16
55
68

Proporciona la muestra razn suficiente para concluir que la utilizacin del aire
acondicionado en un da caluroso influye sobre las calificaciones del examen?
1. Capturamos la informacin en dos variables de SPSS llamadas Sin Aire y Con Aire.
2. Del men Analyze
seleccionar
Nonparametric Test y
2 Related Samples.

3. Seleccionar las dos


variables e
introducirlas de
manera simultnea en
Test Pair(s)
el cuadro167
List.
Verificar que estn

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

4. Los resultados que se obtienen son:

NPar Tests
Wilcoxon Signed Ranks Test
Ranks
N
Sin Aire - Con Aire

Negative Ranks
Positive Ranks
Ties
Total

5a
10b
1c
16

Mean Rank
6.20
8.90

Sum of Ranks
31.00
89.00

a. Sin Aire < Con Aire


b. Sin Aire > Con Aire
c. Con Aire = Sin Aire
Test Statisticsb

Z
Asymp. Sig. (2-tailed)

Sin Aire Con Aire


-1.652a
.099

Con la prueba de Wilcoxon, no se


rechaza la hiptesis nula de
igualdad de medianas, ya que
p=.099>0.05.

a. Based on negative ranks.


b. Wilcoxon Signed Ranks Test

Sign Test

168

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Frequencies
Negative Differencesa
Positive Differencesb
Ties c
Total

Sin Aire - Con Aire

N
5
10
1
16

a. Sin Aire < Con Aire


b. Sin Aire > Con Aire
c. Con Aire = Sin Aire

De manera similar, en la prueba del


signo no se rechaza la hiptesis
nula de igualdad de medianas, ya
que p=..302>0.05. Con ambas
pruebas no es posible inferir
diferencias en las puntuaciones de
los alumnos debido a las
condiciones
de aplicacin del
examen.

Test Statisticsb

Exact Sig. (2-tailed)

Sin Aire Con Aire


.302a

a. Binomial distribution used.


b. Sign Test

VI. Ejercicio: Se desea conocer qu tan eficaz resulta una dieta para reducir el peso de las
personas para la cual se seleccion una muestra aleatoria de 16 personas interesadas en bajar
de peso, registrndose el peso de cada persona antes y despus del tratamiento,
presentndose los resultados en la tabla siguiente:
Persona
1
2
3
4
5
6
7
8
9
10
Antes
96.9 89.11 105.7
112
93.45 99.1 108.32 88.87
91.0
95.76
Despus
93.1
83.0
101.9 105.87 89.14 95.0 106.56
83.9
85.64 90.44
Persona
Antes
Despus

11
103.05
97.47

12
111.89
107.6

13
83.2
80.81

14
94.74
89.9

15
99.15
97.66

16
126.3
123.3

Usar las pruebas del signo y de Wilcoxon para inferir si es que hubo una disminucin
significativa en el peso de las personas.
VII. Prueba U de Mann-Whitney para comparar dos muestras independientes:
Se desea saber si existe diferencia en el panculo del trceps entre hombres y
mujeres con base en la muestra de
alumnos de primer ao de la ENAH,
contenida
en
el
archivo
antropometria.sav, suponiendo que
las poblaciones no se distribuyen
normal. H 0 : 1 = 2 .

1. Del men Analyze


seleccionar Nonparametric
Test y luego 2 Independent
Samples

169

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

2. Introducir la variable
Panculo del Trceps en
el cuadro Test Variable
List. Introducir la
variable sexo al cuadro
Grouping Variable y dar
clic en Define
Groups...Escribir 1 y 2.
Verificar que este
activado la opcin
Mann-Whitney U
Dar clic en OK

Los resultados son los siguientes:

Mann-Whitney Test
Ranks
Panculo del Trceps

Sexo del Individuo


Femenino
Masculino
Total

N
32
31
63

Mean Rank
39.08
24.69

Sum of Ranks
1250.50
765.50

Test Statisticsa

Mann-Whitney U
Wilcoxon W
Z
Asymp. Sig. (2-tailed)

Panculo
del Trceps
269.500
765.500
-3.115
.002

El estadstico de prueba U c = 269.5 .


La significancia encontrada p=.002.
Se rechaza Ho. Es mayor el panculo del
trceps en mujeres.

a. Grouping Variable: Sexo del Individuo

170

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

VIII. Ejercicio: Se desea comprobar si la gente de la ciudad tiene hbitos diferentes en


cuanto al cuidado de su salud respecto a la de una zona rural. Se tomaron muestras
aleatorias en una ciudad y en un pueblo rural, obtenindose los siguientes resultados
respecto a cuntas veces se acude a visitar al mdico general al ao:
Ciudad:
4
5
8
13
2
9
11
7
6
Pueblo:
3
6
4
5
10
1
Puede deducirse que ambas poblaciones son diferentes?
IX. Prueba de Kruskal-Wallis. Se desea saber si la estatura total en hombres y
mujeres es diferente respecto a la edad. Para realizar esta prueba se crearon tres grupos
de edad en la base de datos del archivo antropometra.sav. La hiptesis a contrastar es:
H 0 : 1 = 2 = 3 .

1. Como queremos
realizar el anlisis en
cada sexo, usamos la
opcin Split del
men Data, e
introducimos la
variable sexo
activando la opcin
indicada.

1. Del men Analyze


seleccionar Nonparametric
Test y luego K Independent
Samples...

2. Introducir la variable
Estatura total en el
cuadro Test Variable
List. Introducir la
variable gedad al cuadro
Grouping Variable y dar
clic en Define
Groups...Escribir 1 y 3.
Verificar que este
activado la opcin
Kruskal-Wallis H.
Dar clic en OK

171

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Los resultados obtenidos son los siguientes:


NPar Tests
Sexo del Individuo = Femenino
Kruskal-Wallis Test
Ranksa
Estatura Total

Grupo de edad
[17,22)
[22,27)
[27,33)
Total

N
23
6
4
33

Mean Rank
15.52
22.00
18.00

a. Sexo del Individuo = Femenino

Test Statisticsa,b,c
Chi-Square
df
Asymp. Sig.

En Mujeres se encuentra un valor de


p=.335>0.05, lo cual implica que no se
rechaza la hiptesis nula. Es decir, no
existe diferencia en la estatura respecto
a la edad.

Estatura Total
2.186
2
.335

a. Kruskal Wallis Test


b. Grouping Variable: Grupo de edad
c. Sexo del Individuo = Femenino

Sexo del Individuo = Masculino


Kruskal-Wallis Test
Ranksa
Estatura Total

Grupo de edad
[17,22)
[22,27)
[27,33)
Total

N
12
11
6
29

Mean Rank
11.50
16.45
19.33

a. Sexo del Individuo = Masculino


Test Statisticsa,b,c
Chi-Square
df
Asymp. Sig.

Estatura Total
3.905
2
.142

a. Kruskal Wallis Test

En Hombres se encuentra un valor de


p=.142>0.05, lo cual implica que no se
rechaza la hiptesis nula. Es decir, no
existe diferencia en la estatura respecto
a la edad.

b. Grouping Variable: Grupo de edad


c. Sexo del Individuo = Masculino

X. Ejercicio: En la ENAH se desea saber si los estudiantes de cuatro carreras difieren


en la frecuencia con que asisten a eventos culturales organizados por la institucin. Para
ello se toman muestras de estudiantes y se les pregunta si asisten a dichos eventos nunca
(0), rara vez (1), pocas veces (2), frecuentemente (3), muy frecuentemente (4) o siempre

172

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

(5). Los resultados de las encuestas se presentan a continuacin. Realice la prueba de


hiptesis correspondiente.
AF
ARQ
AS
HIS

3
1
5
5

1
0
5
4

0
0
3
3

4
4

173

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Bioestadstica
Prctica 3: Anlisis de Regresin

1.En la base de datos


contenida en el archivo
antropometria.sav,
seleccionar slo a las
mujeres
mediante
el
Data
Select
comando
seleccionar la opcin if
condition is satisfied y dar
clic en el botn if...

2. Introducir la
sentencia sexo=1 en
el cuadro de dialogo
y dar clic en
Continue y luego
en Ok. Los casos de
hombres aparecen
tachados.

3. Investigaciones en
somatologa postulan
que existe asociacin
lineal entre estatura y
altura a la rodilla.
Ajustaremos
un
174

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

modelo con los datos de los alumnos de primer ao de antropologa fsica. Del men
Analyze seleccionar Regression y despus Linear.

4. Introducir la variable
Estatura Total en el
cuadro Dependent: y
Altura de Rodilla en
Independent

Se obtiene la siguiente salida:

Regression
Variables Entered/Removedb
Model
1

Variables
Entered
Altura de
a
Rodilla

Variables
Removed

Method
.

Enter

a. All requested variables entered.


b. Dependent Variable: Estatura Total

Coeficiente de
Correlacin

Model Summary
Model
1

R
R Square
.883a
.781

Adjusted
R Square
.773

Std. Error of
the Estimate
22.5010

Coeficiente de
Determinacin

a. Predictors: (Constant), Altura de Rodilla

175

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

ANOVAb
Model
1

Regression
Residual
Total

Sum of
Squares
54009.207
15188.793
69198.000

df
1
30
31

Mean Square
54009.207
506.293

F
106.676

Probando la
hiptesis:
H 0 : 0 = 1 = 0

Sig.
.000a

a. Predictors: (Constant), Altura de Rodilla


b. Dependent Variable: Estatura Total

Coefficientsa

Model
1

(Constant)
Altura de Rodilla

Unstandardized
Coefficients
B
Std. Error
687.316
87.997
1.833
.177

Standardized
Coefficients
Beta
.883

t
7.811
10.328

Sig.
.000
.000

a. Dependent Variable: Estatura Total

Probando la hiptesis H 0 : 0 = 0

5. Para saber si existe


correlacin
significativa,
Analyze,
del
men
seleccionamos Correlate y
despus Bivariate
6. Introducimos las
variables Estatura
Total y Altura de
Rodilla en el cuadro
de dilogo, damos
Ok

Se obtienen los siguientes resultados:

Correlations

176

Probando la
hiptesis
H 0 : 1 = 0

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Correlations

Estatura Total

Altura de Rodilla

Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N

Estatura Total
1
.
33
.883**
.000
32

Altura de
Rodilla
.883**
.000
32
1
.
32

Valor de r.
Probando la hiptesis
H0 : = 0

**. Correlation is significant at the 0.01 level (2-tailed).

Todo indica que el modelo: Estatura total = 687.316+1.833Altura de rodilla


es adecuado.
Veremos ahora los supuestos del modelo.
6. Repetimos el paso
4, pero ahora antes de
dar clic en Ok, damos
en Plots...
7. Activamos la grfica
de probabilidad normal e
introducimos la variable
dependiente y los errores
estandarizados

Adems de los resultados


que se obtuvieron en el
punto anterior se presentan las siguientes grficas:
Normal P-P Plot of Regression Standardized Resi
Dependent Variable: Estatura Total
1.00

Expected Cum Prob

.75

.50

.25

0.00
0.00

.25

.50

Observed Cum Prob

.75

1.00

Con esta grfica


se esta evaluando
el supuesto de
normalidad de los
errores. Si fuera
exactamente
normal la
distribucin de
los errores, todos
los puntos
debern estar
sobre la recta. Se
observan
pequeas
desviaciones de la
normalidad, sin
embargo se puede
considerar como
valido este
supuesto.

177

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Con esta grfica se


analiza el supuesto
de homogeneidad
de varianzas. Los
puntos deben
comportarse de
manera aleatoria en
un rango en el eje
Y de -3 a 3, tal
como se observa en
la grfica. Por lo
tanto se puede dar
como vlido el
supuesto.

Scatterplot
Dependent Variable: Estatura Total
Regression Standardized Residual

-1

-2
1500

1600

1700

1800

Estatura Total

De acuerdo a lo anterior el modelo encontrado puede considerarse adecuado para


predecir valores de la estatura a partir de la altura a la rodilla.
Ejercicio. Ajustar un modelo de regresin considerando la variable estatura total como
dependiente y estatura sentado como independiente.
Modelo de Regresin Lineal Mltiple

1. Con la misma base de datos y con las mujeres seleccionados ajustaremos un modelo
considerando como variable dependiente el peso y como independiente la estatura total,
el panculo del trceps, la circunferencia del brazo relajado y el permetro de la cintura.

2. En el men de
Linear Regresin
Linear introducir las
variables como se
muestra en el cuadro.
3. Seleccionar en
Method la opcin
Stepwise (paso a
paso) de seleccin de
variables.
4. En el men Plots...
seleccionar las
grficas como en el
caso del modelo de
regresin lineal
simple. Dar Ok.

178

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Se obtienen los siguientes resultados:

Regression
Variables Entered/Removeda
Model
1

Variables
Entered

Variables
Removed

Permetro
de Cintura

Circunfere
ncia del
brazo
relajado

Estatura
Total

Method
Stepwise
(Criteria:
Probabilit
y-of-F-to-e
nter <=
.050,
Probabilit
y-of-F-to-r
emove >=
.100).
Stepwise
(Criteria:
Probabilit
y-of-F-to-e
nter <=
.050,
Probabilit
y-of-F-to-r
emove >=
.100).
Stepwise
(Criteria:
Probabilit
y-of-F-to-e
nter <=
.050,
Probabilit
y-of-F-to-r
emove >=
.100).

Indica las variables que


entraron en el modelo. Note
que la variable panculo del
triceps nunca entro en el
modelo.

a. Dependent Variable: Peso Corporal

179

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Model Summaryd
Model
1
2
3

R
R Square
.865a
.748
b
.911
.830
.935c
.874

Adjusted
R Square
.740
.818
.861

Std. Error of
the Estimate
5.56144
4.65262
4.06554

Los cambios en los valores


de r y R2. El ltimo es el del
modelo ajustado.

a. Predictors: (Constant), Permetro de Cintura


b. Predictors: (Constant), Permetro de Cintura,
Circunferencia del brazo relajado
c. Predictors: (Constant), Permetro de Cintura,
Circunferencia del brazo relajado, Estatura Total
d. Dependent Variable: Peso Corporal

ANOVAd
Model
1

Regression
Residual
Total
Regression
Residual
Total
Regression
Residual
Total

Sum of
Squares
2756.042
927.888
3683.930
3056.169
627.760
3683.930
3221.128
462.802
3683.930

df
1
30
31
2
29
31
3
28
31

Mean Square
2756.042
30.930

F
89.107

Sig.
.000a

1528.085
21.647

70.591

.000b

1073.709
16.529

64.961

.000c

La prueba
de que
todos los
s son
cero.
H 0 : 0 = 1 = 2 = 3 = 0

a. Predictors: (Constant), Permetro de Cintura


b. Predictors: (Constant), Permetro de Cintura, Circunferencia del brazo relajado
c. Predictors: (Constant), Permetro de Cintura, Circunferencia del brazo relajado,
Estatura Total
d. Dependent Variable: Peso Corporal

Coefficientsa

Model
1
2

(Constant)
Permetro de Cintura
(Constant)
Permetro de Cintura
Circunferencia del
brazo relajado
(Constant)
Permetro de Cintura
Circunferencia del
brazo relajado
Estatura Total

Unstandardized
Coefficients
B
Std. Error
-18.969
8.339
.103
.011
-31.011
7.690
6.334E-02
.014

Standardized
Coefficients
Beta

.533

t
-2.275
9.440
-4.033
4.531

Sig.
.030
.000
.000
.000

.865

.161

.043

.438

3.724

.001

-107.149
5.158E-02

25.020
.013

.434

-4.283
4.039

.000
.000

.146

.038

.397

3.832

.001

5.586E-02

.018

.250

3.159

.004

Los
coeficientes
estimados
0 , 1, 2 , 3

a. Dependent Variable: Peso Corporal

180

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Excluded Variablesd

Model
1

2
3

Estatura Total
Panculo del Trceps
Circunferencia del
brazo relajado
Estatura Total
Panculo del Trceps
Panculo del Trceps

Collinearity
Statistics
Tolerance
.729
.764

t
3.023
1.398

Sig.
.005
.173

Partial
Correlation
.490
.251

.438

3.724

.001

.569

.425

.250b
-.166b
-.128c

3.159
-1.370
-1.191

.004
.182
.244

.513
-.251
-.223

.718
.389
.384

Beta In
.288a
.144a
a

Variables
excluidas en
cada paso.

a. Predictors in the Model: (Constant), Permetro de Cintura


b. Predictors in the Model: (Constant), Permetro de Cintura, Circunferencia del brazo relajado
c. Predictors in the Model: (Constant), Permetro de Cintura, Circunferencia del brazo relajado,
Estatura Total
d. Dependent Variable: Peso Corporal

Residuals Statisticsa
Predicted Value
Residual
Std. Predicted Value
Std. Residual

Minimum
40.8726
-8.4559
-1.798
-2.080

Maximum
88.6271
8.0791
2.887
1.987

Mean
59.1669
.0300
-.004
.007

Std. Deviation
10.03511
3.80688
.984
.936

N
33
33
33
33

a. Dependent Variable: Peso Corporal

Charts
Normal P-P Plot of Regression Stand
Dependent Variable: Peso Corporal
1.00

Expected Cum Prob

.75

.50

.25

0.00
0.00

.25

.50

.75

1.00

Observed Cum Prob

181

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

Scatterplot
Dependent Variable: Peso Corporal
Regression Standardized Residual

3
2
1
0
-1
-2
-3
40

50

60

70

80

90

100

Peso Corporal

Ejercicio. Los siguientes datos corresponden al peso y el nivel total de colesterol y


triglicridos en 15 personas:
Peso Colesterol
Triglicridos
Total (mg/100 ml) (mg/100 ml)
76
302
139
97
336
101
83
220
57
52
300
56
70
382
113
67
379
42
75
331
84
78
332
186
70
426
164
99
399
205
75
279
230
78
332
186
70
410
160
77
389
153
76
302
139

f) Ajustar el modelo de regresin lineal mltiple


g) Realizar las pruebas de hiptesis sobre los coeficientes de las variables
independientes.
h) Calcular el coeficiente de determinacin y el coeficiente de correlacin mltiple.
i) Verificar supuestos sobre los errores.
j) El modelo estimado es correcto?

Ejercicio. Las siguientes mediciones se obtuvieron en 12 hombres con edades entre 12


y 18 aos (todas las mediciones estn en centmetros):
Estatura Longitud Longitud
del radio del fmur
149.0
21.00
42.50
152.0
21.79
43.70

182

Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH

f)
g)
h)
i)
j)

155.7
22.40
44.75
159.0
23.00
46.00
163.3
23.70
47.00
166.0
24.30
47.90
169.0
24.92
48.95
172.0
25.50
49.90
174.5
25.80
50.30
176.1
26.01
50.90
176.5
26.15
50.85
179.0
26.30
51.10
Ajustar el modelo de regresin lineal mltiple
Realizar las pruebas de hiptesis sobre los coeficientes de las variables
independientes.
Calcular el coeficiente de determinacin y el coeficiente de correlacin mltiple.
Verificar supuestos sobre los errores.
El modelo estimado es correcto?

183

Você também pode gostar