Pruebas de Hipotesis

ALGUNOS PROCEDIMIENTOS DE PRUEBAS DE HIPOTESIS
USO DEL PAQUETE SAS

MUESTRAS GRANDES.
Para todos los casos suponemos que
media
X 1 , X 2 , L , X n es una muestra aleatoria de una poblacin o distribucin con
X y varianza X 2 y que Y1 , Y2 , L , Ym es otra muestra aleatoria de otra poblacin con media Y y
varianza
Y 2 , ambas muestras independientes entre si.
Pruebas de Hiptesis para Medias.

Sea
X 1 , X 2 , L , X n una muestra aleatoria de una de una poblacin con media X y varianza X 2 . Si el tamao
de la muestra es grande y
X X
aprox n 0, 1
es conocida, el Teorema Central del Lmite garantiza que X
.
n
n
Y de esta manera un Intervalo de confianza aproximado al
x z
Si
, donde
P Z z .
2
2
X 2 es desconocida, esta es estimada usando la varianza Muestral: S X 2
Confianza aproximado al
Si
100 1 % para X es de la forma:
100 1 % para X es de la forma:
1
n 1
x z
x
n
i 1
sX
2
i x
y un Intervalo de
0 es un valor particular para X , podemos establecer tres hiptesis alternativas respecto al valor real de :
R.C. Z C | Z C z
Ha :X 0
H 0 : X 0 vs
xX
.
H a : X 0 . Estadstico de Prueba: Z C
s
n
X
Ha :X 0
Usando la parte interactiva del SAS se pueden calcular
R.C. Z C | Z C z
R.C. Z C | Z C z
2
X y S X para ser usados en la inferencia respecto a la
media de la poblacin. Cabe Anotar que la parte interactiva del SAS asume que las poblaciones involucradas SON
NORMALES independiente del tamao de la muestra. Si las poblaciones no son normales, para realizar pruebas de
hiptesis para la Media con muestras grandes, debe hacerse manualmente. Similarmente pasa para la diferencia de
medias de dos poblaciones con muestras grandes.
Ejemplo 1: Se tom una muestra aleatoria de 213 estudiantes de una universidad a los cuales se les registr: Estrato
Socioeconmico (EST), Nmero de horas dedicadas semanalmente a estudiar (HORAS), su EDAD, si trabajaba
(TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Una parte de los datos se muestra a
continuacin. Observe que en este caso no se sabe nada acerca de la distribucin de las variables EDAD Y PROM.
Suponga que se desea probar si la edad promedio real de un estudiante en dicha comunidad es superior a los 24
aos con base en esta muestra aleatoria.
Las hiptesis a probar son:
H 0 : 24 vs H a : 24 .
Como el tamao de la muestra es grande, el estadstico de prueba ser:
ZC
x 24
sX
213
data est;
infile " c:\Estadistica I\datos\induc.txt" firstobs=2;
input est horas edad trab$ prom;
run;
Usando la parte interactiva del SAS se obtienen los siguientes resultados:
Analysis Variable EDAD
N
Mean
Std Dev
213
24.6807512
5.0330470
Por notacin:
x 24. 68 , s X 5. 033 , n 213
Parte de la Base de Datos de los 213 estudiantes encuestados

EST
HORAS
EDAD
TRAB
PROM
EST
HORAS
EDAD
TRAB
PROM
EST
HORAS
EDAD
TRAB
PROM
1
1
1
1
1
2
2
2
2
2
2
28
22
25
24
21
12
30
4
9
72
12
20
21
24
28
30
35
26
32
26
25
25
NO
NO
SI
SI
NO
NO
NO
NO
NO
NO
NO
3.8
3.5
3.8
3.7
3.2
3.0
3.2
2.9
3.4
3.2
3.1
2
2
2
2
2
2
2
2
2
2
2
15
30
15
10
25
15
20
16
8
40
20
26
21
22
21
26
22
21
22
19
37
29
NO
NO
NO
NO
NO
NO
NO
NO
NO
SI
SI
3.7
3.9
3.1
4.0
3.0
3.0
3.0
3.2
2.9
2.9
3.3
2
2
2
2
2
2
2
3
3
3
3
24
16
18
24
18
16
14
20
30
20
30
29
24
25
26
24
40
27
30
36
27
27
SI
SI
SI
SI
SI
SI
SI
NO
NO
NO
NO
2.8
3.0
3.2
2.8
3.5
2.8
2.8
3.7
3.3
3.2
2.8
De esta manera
Rechazo es:
ZC
24. 68 24
5. 033
213
1. 97 . Para un 0.05 , tenemos que z z 0. 05 1. 645 . La Regin de
R.C. Z C | Z C 1. 645 . Como Z C z 0. 05 1. 645 , entonces rechazamos la hiptesis Nula y
concluimos que segn la informacin suministrada, la edad promedio real de los estudiantes en dicha universidad es
superior a los 24 aos. Observe que el valor p de la prueba se calcula como:
Vp P Z 1. 97 1 P Z 1. 97
1 0. 9756
0. 0244
Ejemplo 2. Suponga que se tiene la creencia de que el promedio obtenido por los estudiantes que no trabajan es
superior al promedio de los que si trabajan. Para resolver esta pregunta primero expliquemos el procedimiento general
de la prueba para diferencia de medias con muestras grandes.
Suponga que
X 1 , X 2 , L , X n representa los promedios de quienes no trabajan y que Y1 , Y2 , L , Ym los
promedios de quienes trabajan. Asuma que
E X i X , V X i X 2 , i 1 , 2 , L , n , y que E Y j Y ,
V Y j Y 2 , j 1 , 2 , L , m . Ambas muestras son independientes entre si.

X Y 0
H 0 : X Y 0 vs H a : X Y 0 .
X Y 0
2
De la teora vista sabemos que un estimador puntual para
X Y es X Y . Como los tamaos de cada muestra
son apreciables, podemos usar el Teorema Central del Lmite para hallar la distribucin de la diferencia entre las
XYX Y
medias muestrales:
S X2
n
S Y2
aprox
uuuuuur n 0 , 1
n
El estadstico de Prueba para esta hiptesis es:
ZC
XY X Y
S X2
n
S Y2
m
ZC | ZC z
y la regin de rechazo es de la forma: R.C. = Z C | Z C z

, dado.
ZC | ZC z
Para el Ejemplo en concreto se desea probar:
H 0 : X Y 0 vs H a : X Y 0 .
De los resultados muestrales se obtuvo:
Usando la notacin esto es equivalente a:
El valor del estadstico de prueba es:
El valor P de la prueba ser:
x 3. 41 , s x 0. 382 , n 139 . y 3. 33 , s Y 0. 447 , m 74 .
ZC
3. 41 3. 33 0
0. 382 2 0.447 2
139
74
1.306
Vp P Z 1. 306 1 P Z 1. 31 1 0. 9049 0. 0951 . Como este valor es
grande no podemos rechazar la hiptesis Nula, es decir, que segn la informacin suministrada, no existe suficiente
evidencia para afirmar que la nota promedio de los que NO trabajan sea superior a la nota promedio de los que
trabaja: Pueden asumirse iguales.
Prueba de Hiptesis para Proporciones
Suponga que X e Y son variables aleatorias Independientes tales que
X : bin n , p 1 y Y : bin m , p 2 . Las
pruebas de hiptesis para proporciones asumen que los tamaos n o m son grandes para utilizar la aproximacin
dada por el TLC. Sea
p 0 un valor particular de p 1 . Se desea probar alguna de las siguientes hiptesis:

p1 p 0
H 0 : p 1 p 0 vs H a : p 1 p 0 .
p1 p 0
El estadstico de prueba y las regiones de rechazo respectivas son:
ZC
p$ p 0
p 0 1 p 0
ZC | ZC z
y R.C. = Z C | Z C z
, dado
ZC | ZC z
Ejemplo 3. Usando la base de datos anterior, suponga que se tiene la creencia de que ms del 20% de los
estudiantes en dicha universidad Trabajan. Es cierta dicha afirmacin?
Sea X: Nmero de Estudiantes en la muestra de 213 que trabajan. Entonces
X : bin n , p , con p desconocida.
H 0 : p 0. 2 vs H a : p 0. 2 . Veamos como probar esta hiptesis usando la parte
interactiva del SAS. Ingresamos al mdulo Analyst
Cargamos el archivo de datos que se encuentra en la librera WORK y cuyo nombre es EST.
En el men seleccionamos Statistics Hyptesis Test y se obtiene el siguiente men:
Las pruebas de hiptesis para medias y diferencia de medias aqu relacionadas asumen que las respectivas
poblaciones son Normales.
-
La primera es una prueba de hiptesis para la media de una poblacin Normal con varianza conocida
La segunda es una prueba de hiptesis para la media de una poblacin Normal con varianza desconocida
La tercera es prueba de hiptesis para una proporcin poblacional. Se asume un tamao de muestra grande
La cuarta es prueba de hiptesis para la varianza de una poblacin Normal
La quinta prueba de hiptesis para diferencia de medias de dos poblaciones Normales con varianzas
desconocidas. Aqu se relacionan dos casos: Varianzas Iguales o Varianzas desiguales
La sexta es una prueba de medias para datos Pareados
La sptima es una prueba de hiptesis para la diferencia entre dos proporciones de dos poblaciones
diferentes. Se asumen tamaos de muestra grandes
La ltima es una prueba de hiptesis para igualdad entre varianzas de dos poblaciones normales.
Retomando el ejemplo 3, escogemos la opcin 3: Prueba para una proporcin: Aparece un recuadro donde se puede
seleccionar el tipo de hiptesis alterna. Seleccionamos la variable TRAB. El aspecto que nos interesa medir es los que
trabajan. Seleccionamos la opcin level of interest y hacemos click en SI. El valor de
p 0 y la alternativa se colocan
en Hypotheses Nula y Alternate respectivamente:
En la opcin Intervals puede pedirle al programa que calcule un Intervalo de Confianza al nivel preferido para p.
Podemos calcular un Intervalo de Confianza al 95% para p.
Los resultados arrojados por el SAS son:
As, tanto el valor P (inferior a 0.0001) como el intervalo de confianza
0. 283 , 0. 411 , permiten concluir que la
proporcin de estudiantes que trabajan en dicha universidad es superior al 20%.

Ejemplo 4. Usando la base de datos anterior. El profesor de Estadstica afirma que para los estudiantes mayores de
22 aos, la proporcin de estudiantes que no trabajan es diferente a la proporcin de estudiantes que trabajan. Es
cierta dicha afirmacin?
Sea X: Nmero de estudiantes que No trabajan en la muestra y sea Y: Nmero de estudiantes que trabajan en la
muestra. Suponga que
X : bin n , p 1 y Y : bin m , p 2 , donde p 1 y p 2 , son las proporciones de estudiantes
en la universidad mayores de 22 aos que No trabajan y Trabajan respectivamente, n y m son los tamaos de
muestra respectivos. X e Y son variables aleatorias Estadsticamente Independientes.
Las hiptesis que se desea contrastar son:
H 0 : p 1 p 2 0 vs H a : p 1 p 2 0 . El estadstico de Prueba en este
caso es:
ZC
p$1 p$ 2 0
p1 1 p1
n
Como
p 2 1 p 2
aprox
uuuuuur n 0 , 1
n , m
p 1 y p 2 son desconocidos, no podemos evaluar directamente este estadstico de prueba. Dos alternativas
pueden ser propuestas para resolver este problema.
x
y
p 1 y p 2 por sus estimadores de mxima verosimilitud: p$1 y p$ 2 . As el estadstico de
n
m
$ 0
p$ 1 p
2
ZC
aprox
uuuuuur n 0 , 1
$
$
$
$
prueba ser:
n
, m
p1 1 p1
p 2 1 p 2
n
m
2.
Bajo la hiptesis nula sabemos que p 1 y p 2 son iguales. Al reemplazar a p 1 y p 2 por el valor comn p, el
$ p
$ 0
p
1
2
ZC
aprox
uuuuuu
r n 0 , 1 .
estadstico de prueba ser:
n , m
1 1
p 1 p
n m
$ y p$ :
Como p tambin es desconocido puede ser estimado por usando un promedio ponderado de p
1.
Cambiar
p$
n $
m $
xy
p1
p1
. As, el estadstico de Prueba ser:
nm
nm
nm
$ p
$ 0
p
1
2
ZC
aprox
uuuuuu
r n 0 , 1 .
1
1
n
,
m
$ 1 p
$
p
n m
Para aplicar el procedimiento en la parte interactiva del SAS primero debemos crear una variable categrica que
indique si el estudiante es mayor o menor de 22 aos. En el Paso DATA creamos la variable MAYOR:
data est;
infile " c:\rana\estadistica I\datos\induc.txt" firstobs=2;
input est horas edad trab$ prom;
if edad>22 then mayor="SI"; else mayor="NO";
run;
Ejecutamos el programa y volvemos a la parte interactiva.
En el men de pruebas de Hiptesis seleccionamos la opcin Two Smaples Test for Proportions.
Los estudiantes que nos interesan son los mayores de 22 aos. El en cuadro de dilogo que aparece la opcin
Groups are In aparece por defecto: One variable. En el cuadro Dependent seleccionamos la variable MAYOR, y el
recuadro Group seleccionamos la variable TRAB. El nivel de inters para la variable MAYOR es los que SI son
mayores de 22 aos. Por ltimo seleccionamos la hiptesis nula y la alterna respectivas. La opcin intervals permite
hallar el respectivo intervalo de Confianza para
p1 p 2 .
Los resultados del procedimiento son:
Tanto el Valor P de la Prueba como el Intervalo de Confianza para
p 1 p 2 indica que las proporciones son
diferentes. Ms an, que para los estudiantes mayores de 22 aos es mayor la proporcin de los que trabajan que la
proporcin de los que no trabajan. (Hay ms estudiantes que trabajan que los que no trabajan mayores de 22 aos).
MUESTRAS PEQUEAS (Poblaciones Normales).
Para realizar pruebas de hiptesis acerca de la media o de la diferencia entre medias cuando los tamaos de las
muestras son pequeos, es necesario el supuesto de normalidad en las muestras. Supongamos que
X 1 , X 2 , L , X n es una muestra aleatoria de una poblacin normal con media X y varianza X 2 y que
Y1 , Y2 , L , Ym es otra muestra aleatoria de otra poblacin normal con media Y y varianza Y 2 , ambas muestras
independientes entre si.
De la teora de distribuciones muestrales sabemos que si
Si
X 2 es desconocida, entonces
Sea
XX
sX
X 2 es conocida entonces
XX
X
~ n 0 , 1 .
~ t n 1 .
0 un valor particular para X . Tres hiptesis puedes ser planteadas respecto a X :

Ha :X 0
H 0 : X 0 vs
Ha :X 0 .
Ha :X 0
9
Si
X 2 es conocida entonces, el estadstico de prueba y la Regin Crtica para un valor dado de son:
ZC
Si
ZC | ZC z
~ n 0 , 1 y R.C. = Z C | Z C z .
n
ZC | ZC z
XX
X
X 2 es desconocida entonces, el estadstico de prueba y la Regin Crtica para un valor dado de son:
TC
TC | TC t n 1
~ t n 1 y R.C. = TC | TC t n 1 , donde P t n 1 t n 1 .
n
TC | TC t n 1
XX
sX
Ejemplo 5. Se tiene informacin acerca del consumo de gasolina de 25 automviles (fuente, Revista Motor Trend,
1975) donde: Y: Millas por galn, X1: Desplazamiento ( p lg 3 ), X2: Caballos de fuerza (pie-libra), X3: Torque (pielibra), X4: Razn de compresin, X5: Relacin de puente trasero, X6: Carburador (nmero de gargantas), X7: Nmero
de velocidades de transmisin, X8: Longitud total (pulgadas), X9: Ancho (pulgadas), X10: Peso (libras), TIPO: Tipo de
transmisin (A: Automtica, M: Manual)
Los datos registrados son:
Automovil
Apollo
Nova
Mo.rch
Duster
Jenson_Conv.
Skyhawk
Scirocco
Corolla_SR-5
Camaro
Datsun_B210
Capri_II
Pacer
Gra.da
El_dorado
Imperial
Nova_LN
Starfire
Cordoba
Trans_Am
Corolla_E-5
Mark_IV
Celica_GT
Charger_SE
Cougar
Corvette
Y
18.90
20.00
18.25
20.07
11.2
22.12
34.70
30.40
16.50
36.50
21.50
19.70
17.80
14.39
14.89
17.80
23.54
21.47
16.59
31.90
13.27
23.90
19.73
13.90
16.50
X1
350
250
351
225
440
231
89.7
96.9
350
85.3
171
258
302
500
440
350
231
360
400
96.9
460
133.6
318
351
350
X2
165
105
143
95
215
110
70
75
155
80
109
110
129
190
215
155
110
180
185
75
223
96
140
148
165
X3
260
185
255
170
330
175
81
83
250
83
146
195
220
360
330
250
175
290
.
83
366
120
255
243
255
X4
8.0:1
8.25:1
8.0:1
8.4:1
8.2:1
8.0:1
8.2:1
9.0:1
8.5:1
8.5:1
8.2:1
8.0:1
8.0:1
8.5:1
8.2:1
8.5:1
8.0:1
8.4:1
7.6:1
9.0:1
8.0:1
8.4:1
8.5:1
8.0:1
8.5:1
X5
2.56:1
2.73:1
3.00:1
2.76:1
2.88:1
2.56:1
3.90:1
4.30:1
3.08:1
3.89:1
3.22:1
3.08:1
3.0:1
2.73:1
2.71:1
3.08:1
2.56:1
2.45:1
3.08:1
4.30:1
3.00:1
3.91:1
2.71:1
3.25:1
2.73:1
X6
4
1
2
1
4
2
2
2
4
2
2
1
2
4
4
4
2
2
4
2
4
2
2
2
4
X7
3
3
3
3
3
3
4
5
3
4
4
3
3
3
3
3
3
3
3
5
3
5
3
3
3
X8
200.3
196.7
199.9
194.1
184.5
179.3
155.7
165.2
195.4
160.6
170.4
171.5
199.9
224.1
231.0
196.7
179.3
214.2
196
165.2
228
171.5
215.3
215.5
185.2
X9
69.9
72.2
74.0
71.8
69
65.4
64
65
74.4
62.2
66.9
77
74
79.8
79.7
72.2
65.4
76.3
73
61.8
79.8
63.4
76.3
78.5
69
X10
3910
3510
3890
3365
4215
3020
1905
2320
3885
2009
2655
3375
3890
5290
5185
3910
3050
4250
3850
2275
5430
2535
4370
4540
3660
TIPO
A
A
A
M
A
A
M
M
A
M
M
A
A
A
A
A
A
A
A
M
A
M
A
A
A
Se tiene la creencia de que el consumo de gasolina (Millas por Galn) es superior a 25

millas/galn. Es cierta esta afirmacin? Asuma que el consumo de gasolina se distribuye
aproximadamente normal sin importar el tipo de automvil.
10
X 1 , X 2 , L , X 25 es una muestra aleatoria que representa los consumos de gasolina en millas por
galn para los 25 automviles considerados en el estudio. Suponemos que cada X i es una variable aleatoria normal
Suponga que
con media
X y varianza X 2 . As, cada X i : n X , X 2 i 1, 2, L , 25 . Las hiptesis a ser probada es:

H 0 : X 20 vs H a : X 20 .
X 2 es desconocida y la muestra proviene de una distribucin normal, entonces el estadstico de prueba y la

respectiva regin crtica para un dado son:
Como
TC
X 20
sX
25
El valor P de esta prueba se calcula como:
~ t 25 1 y R.C. = TC | TC t n 1 .
Vp P t 24 TC . En SAS.
DATA AUTO;
INFILE "C:\RANA\ESTADISTICA II\SEM 01_2003\DATOS\ejer10-5_Mont_Run.txt" FIRSTOBS=2;
INPUT AUTO $ Y X1 X2 X3 X4 $ X5 $ X6-X10 TIPO $;
RUN;
El en cuadro de opciones, al igual que el en caso de proporciones, seleccionamos la variable de Inters (Y: Consumo
: X 20 ) y la respectiva alternativa ( H a : X 20 ). Adems

podemos indicar el clculo de un Intervalo de Confianza al 95% para X .
de Gasolina), el valor de la hiptesis Nula ( H 0
Esta opcin del SAS asume que los consumos de Gasolina estn distribuidos Normalmente.
11
Los resultados obtenidos son:
Como el Valor P es grande,
Vp P t 24 0. 473 0. 3202 , No tenemos suficiente evidencia para rechazar Ho,
es decir el consumo promedio de gasolina puede ser inferior o igual a 20 millas/galn.
12
Para Diferencia de Medias.

Si lo que se desea es comparar el comportamiento promedio de una misma caracterstica en dos poblaciones
diferentes, cuando los tamaos de muestra son pequeos, no podemos usar el Teorema Central del Lmite para
construir un Estadstico de Prueba adecuado.
De nuevo, supongamos que
varianza
X 1 , X 2 , L , X n es una muestra aleatoria de una poblacin normal con media X y
X 2 y que Y1 , Y2 , L , Ym es otra muestra aleatoria de otra poblacin normal con media Y y varianza
Y 2 , donde X 2 y Y 2 son desconocidas y ambas muestras independientes entre si.

Un estimador insesgado para
X Y es X Y , pero Cul es la distribucin Muestral de X Y ?
Consideremos dos casos:

Caso I:
X2 Y2 2
Bajo el supuesto de Normalidad,
independientes entre si y
X2
X Y
n 1
m 1 S 2Y
Y2
: 2 m 1 . Y como ambas variables son
n 1 S 2X m 1 S Y2
: 2 n m 2 . Adems:
X Y X y
: n 0 , 1
. Entonces:
1 1
n m
2
1 1
n m
T
n 1 S 2X m 1 S 2Y
2
2 2
n m
Caso I:
X 2 Y 2 2 , entonces:
X Y
n 1 S 2X
X Y
Sp
n m 2
1 1
n m
: t n m 2 , donde S p2
n 1 S 2X m 1 S 2Y .
nm2
X 2 Y 2 . Bajo el supuesto de normalidad en las muestras aleatorias se puede demostrar que:
X Y
X2
n
Y2
m
S 2X
: t
aprox
, donde
S 2Y

m
n
2
2
2
.
2
2
SX
SX
n 1
m 1
La demostracin de este hecho es un poco ms elaborada y por eso no se presentar aqu. Las hiptesis a probar
son entonces:
Para probar si las varianzas de ambas muestras son iguales o diferentes, aunque sean desconocidas, podemos usar
un Intervalo de Confianza al 100 1 % para el cociente de las varianzas poblacionales, es decir para
X2
Y2
13
Si dicho intervalo contiene el nmero 1, podemos afirmar que posiblemente las varianzas sean iguales. Si no contiene
el nmero 1, podemos asumir que las varianzas son diferentes. Un Intervalo de Confianza al
X2
Y2
est basado en la distribucin F de Snedecor. Se puede mostrar que
Intervalo de Confianza al 100 1 % para
S 2X
Y2
X 2 S Y2
: f n 1, m 1 . As, un
es de la forma:
S 2X
1
, 2 f m 1, n 1 , donde P f n 1 , m 1 f m 1 , n 1 .
f n 1 , m 1 S Y
2
SY
Los valores para

valores de
X2
Y 2 S 2X
100 1 % para
f m 1, n 1 se encuentran tabulados, para valores pequeos de . Usualmente se toman
iguales a 0.05, 0.025, 0.01 (que corresponden a Intervalos de Confianza del 90%, 95% y 98%).
Tambin se puede realizar una prueba de hiptesis para igualdad de Varianzas:
H0 :
Estadstico de Prueba:
FC
S 2X
S 2Y
X2
Y2
1 vs H 0 :
X2
1.
Y2
: f n 1, m 1 . R.C. = FC | FC f n 1, m 1 , dado.
Si la hiptesis Nula es rechazada, se concluye que las varianzas poblacionales no son iguales. En caso contrario
podemos asumir que las varianzas poblacionales son iguales.
Las hiptesis de inters a ser probadas son:
X Y 0
H 0 : X Y 0 vs H a : X Y 0 , donde 0 es un valor particular.
X Y 0
0 se toma como cero y entonces hablamos de una prueba de Igualdad de Medias.
Usualmente
X Y
: t n m 2 .
1 1
Sp
n m
La regin crtica es similar al caso de una muestra aleatoria: R.C. = TC | TC t n m 2 , dado. El valor P
Caso I:
X Y
2
. El estadstico de prueba es: TC

2
de esta prueba se calcula como:
Caso II:
Vp P t n m 2 TC .
X Y . El estadstico de Prueba es:

2
TC
X Y
S 2X
n
S 2Y
: t
14
La regin crtica es similar al caso anterior: R.C. =

como:
Vp P t n m 2 TC .
| TC t , dado. El valor P de esta prueba se calcula
Ejemplo 6. Suponga que se cree que los automviles con transmisin Mecnica consumen en promedio ms gasolina
que los automviles con transmisin Automtica. Usando la base de datos anterior, es cierta esta afirmacin?
Usando la parte interactiva del SAS podemos obtener unas estadsticas descriptivas bsicas respecto al Consumo de
Gasolina en autos con ambos tipos de transmisiones:
Tenemos 18 automviles con transmisin automtica y 7 con transmisin mecnica. De nuevo, supongamos que
X 1 , X 2 , L , X 7 es una muestra aleatoria que representa los consumos de gasolina de los autos con transmisin
mecnica, asumamos que estos consumos se distribuyen normalmente con media
X y varianza X 2 y que
Y1 , Y2 , L , Y18 es otra muestra aleatoria que representa los consumos de gasolina de los autos con transmisin
automtica, asumamos que estos consumos se distribuyen normalmente con media
y
Y y varianza Y 2 , donde X 2
Y 2 son desconocidas y ambas muestras independientes entre si.
H0 :X Y 0
Confianza al 95% para el cociente de las varianzas
vs
X2
Y2
H a : X Y 0 . Primero calculamos un Intervalo de

. En SAS elegimos la opcin: Hiptesis Test Two Sample
Test for Variantes.
Aparece un recuadro con un men de opciones. Seleccionamos grupos en una variable, variable dependiente Y, grupo
la variable TIPO. La variable TIPO permite identificar la poblacin. En este caso la Poblacin 1, ser los autos con
transmisin Automtica y la Poblacin 2, ser los autos con transmisin mecnica (esto debido a que el SAS organiza
en orden alfabtico). Esto no Importa lo que interesa es determinar si el Intervalo de Confianza contiene o no el
nmero uno o el resultado de la Prueba de Hiptesis. Las hiptesis a probar son:
H0 :
X2
Y2
1 vs H 0 :
X2
Y2
1.
Seleccionamos la opcin Intervals, escogemos un nivel de confianza del 95% y la opcin Interval. Los resultados
obtenidos son:
15
Observe que la Hiptesis Nula es rechazada, pues el valor P es pequeo. Al mismo tiempo el Intervalo de Confianza
para
Y2
X2
NO contiene el nmero uno. Ambos resultados permiten concluir que las varianzas poblacionales No son
Iguales. As, para probar la hiptesis inicial acerca del consumo de gasolina, debemos asumir que
El estadstico de Prueba es:
TC
X Y
S 2X
n
S 2Y
m
X2 Y2 .
28. 42 17. 57 0 4.17

6. 568 2 3.273 2
7
18
16
En SAS seleccionamos las opciones: Hyptesis Test Two-Sample t-test for Means.
En el recuadro que aparece seleccionamos la variable dependiente Y, el grupo la variable TIPO, la hiptesis Nula
0 0 , la hiptesis alternativa es Mean 1 Mean 2 < 0, pues los grupos a comparar aparecen primero Automtica y
Luego Manual, al revs de lo planteado en la Hiptesis alterna inicial: H a : X Y 0
Los resultados obtenidos muestran las hiptesis tanto para varianzas iguales como para varianzas diferentes:
17
Observe que el valor del estadstico de Prueba para Varianzas diferentes es negativo, esto es porque para el SAS la
poblacin 1 son los consumos de los autos con transmisin Automtica y la Poblacin 2 los autos con transmisin
Mecnica.
La conclusin de la prueba, usando el Intervalo de Confianza o el Valor P, permite afirmar que el consumo de gasolina
para los autos con transmisin Mecnica es SUPERIOR al consumo de gasolina para autos con transmisin
Automtica.
El siguiente grfico nos muestra evidencia inicial de que esta afirmacin es cierta.
. Minitab y el Diseo de Experimentos (20)

5. Inferencia y ANOVA en regresin lineal
18
Si
Y = X +
es la recta regresin a la que se ajusta un conjunto de datos X 1, X2, ..., Xn, y los
estadsticos
son los estimadores de dichos parmetros, entonces es claro que podamos encontrar
sus respectivos intervalos de confianza as como realizar pruebas de hiptesis para cada uno de los parmetros.
Por otro lado, si tomamos en cuenta la diferencia entre los parmetros y sus estimadores, los elevamos al cuadrado y
dividimos la suma de ellos entre el nmero de grados de libertad correspondientes, estaremos hablando del anlisis
de varianza de una lnea de regresin.
Como por lo general se desconoce la varianza poblacional de cada uno de los parmetros y como el nmero de datos,
por lo general no permite el uso de una distribucin normal, el estadstico que se emplea tanto para la obtencin de los
intervalos de confianza como para las pruebas de hiptesis es aquella cuya distribucin es t de Student con n 2
grados de libertad.
En el caso del anlisis de varianza, por su naturaleza misma seguiremos usando la distribucin F y/o el p-value.
El estadstico a ser calculado, se define como
tal que tc t(n-2)

De manera que el Intervalo de Confianza de (1 - )x100% para el coeficiente de regresin i, ser
Respecto a la docimasia, podramos plantear una Prueba de Hiptesis de estos mismos coeficientes afirmando que no
existe ninguna relacin entre las variables predictoras y la variable predicha; esto es
H0: i = 0
H1: i 0
La hiptesis nula ser rechazada si el valor de p-value < 0.05; es decir, que existe una relacin de dependencia entre
las variables independientes (predictoras) y la variable dependiente(predicha). Por el contrario, si el p-value > 0.05,
entonces afirmaremos de que no existe evidencia para rechazar la hiptesis de que una variable dependa de las otras.
Ejemplo 7
En el ejemplo anterior, puesto que el valor de p-value para el coeficiente de regresin es 0.002 < 0.05, entonces
rechazamos la hiptesis nula; es decir, que el porcentaje de quejas depende de alguna manera, de la puntualidad de
llegada de los vuelos. Sin embargo, si utilizamos el valor del t c calculado que, como se puede ver t c = -4.97 y el valor
de t de Student con 7 grados de libertad t0.975(7) = 1.8946; debiramos aceptar la hiptesis nula.
De manera que frente a esta disyuntiva, en regresin es ms confiable utilizar el valor de r.
19
Cun grande es la relacin entre las dos variables, en trminos cuantitiativos?, la prueba de hiptesis no nos permite
responder a esta pregunta. El coeficiente de correlacin ser un indicador que nos permitir extraer esta conclusin.
En este ejemplo, el estimador del coeficiente de correlacin, r = 0.74 . Esto indica que el porcentaje de quejas no
depende exclusivamente del porcentaje en la puntualidad de llegadas de los vuelos; es decir, existe otros factores.
Nota:
Existir una correlacin perfecta; es decir, existir una relacin de dependencia total si el coeficiente de correlacin
r 1 o r -1. En el primer caso existir una correlacin perfecta positiva y el segundo, una correlacin perfecta
negativa. Pero si r 0.5 0.5 entonces diremos que la correlacin es moderada
H0 :
= 0 (equivale a plantear que no hay relacin entre Y y X i )
H1 :
0 (equivale a plantear que s hay relacin entre Y y Xi )
Si se acepta la de hiptesis nula, se est aceptando que no hay relacin entre Y y X i , por lo tanto, sta variable se
debe sacar del modelo.
La estadstica de trabajo se resuelve suponiendo que la hiptesis nula (H 0 ) es verdadera. Dicha estadistica de
trabajo es:
Regla de decisin . Si el nmero de observaciones es mayor que 30, los valores de Z se hallan en la distribucin
normal. Si el nmero de observaciones es menor o igual a 30 , los valores de Z se hallan en la distribucin t con nk-1 grados de libertad. Siendo k el nmero de variables independientes en el modelo.
Figura 4.6 Regla de decisin, prueba de hiptesis para

Si
<T<
se acepta la hiptesis nula, en caso contrario se rechaza (figura 4.6).
Una vez elegidas las variables independientes que realmente influyen en el comportamiento de Y, se pueden
construir intervalos de confianza para cada uno de los coeficientes de regresin poblacional ( )
20
Este intervalo nos proporciona, con una confiabilidad del (1- )%, los valores dentro de los cuales variar Y si
Xi vara en una unidad y las dems variables permanecen constantes. El intervalo se construye as:
Como en el caso de la prueba de hiptesis, si n 30 los valores de Z se hallan en la distribucin normal, y si n < 30
los valores de Z se hallan en la distribucin t con n-k-1 grados de libertad.
21

Pruebas de Hipotesis

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Pruebas de Hipotesis

Enviado por

Direitos autorais:

Formatos disponíveis

ALGUNOS PROCEDIMIENTOS DE PRUEBAS DE HIPOTESIS

USO DEL PAQUETE SAS

X 1 , X 2 , L , X n es una muestra aleatoria de una poblacin o distribucin con

X y varianza X 2 y que Y1 , Y2 , L , Ym es otra muestra aleatoria de otra poblacin con media Y y

Y 2 , ambas muestras independientes entre si.

Pruebas de Hiptesis para Medias.

Y de esta manera un Intervalo de confianza aproximado al

X 2 es desconocida, esta es estimada usando la varianza Muestral: S X 2

100 1 % para X es de la forma:

100 1 % para X es de la forma:

Usando la parte interactiva del SAS se pueden calcular

Como el tamao de la muestra es grande, el estadstico de prueba ser:

x 24. 68 , s X 5. 033 , n 213

Parte de la Base de Datos de los 213 estudiantes encuestados

1. 97 . Para un 0.05 , tenemos que z z 0. 05 1. 645 . La Regin de

R.C. Z C | Z C 1. 645 . Como Z C z 0. 05 1. 645 , entonces rechazamos la hiptesis Nula y

X 1 , X 2 , L , X n representa los promedios de quienes no trabajan y que Y1 , Y2 , L , Ym los

promedios de quienes trabajan. Asuma que

V Y j Y 2 , j 1 , 2 , L , m . Ambas muestras son independientes entre si.

Las hiptesis a probar son:

De la teora vista sabemos que un estimador puntual para

X Y es X Y . Como los tamaos de cada muestra

El estadstico de Prueba para esta hiptesis es:

y la regin de rechazo es de la forma: R.C. = Z C | Z C z

Para el Ejemplo en concreto se desea probar:

De los resultados muestrales se obtuvo:

Usando la notacin esto es equivalente a:

El valor del estadstico de prueba es:

El valor P de la prueba ser:

x 3. 41 , s x 0. 382 , n 139 . y 3. 33 , s Y 0. 447 , m 74 .

Vp P Z 1. 306 1 P Z 1. 31 1 0. 9049 0. 0951 . Como este valor es

X : bin n , p 1 y Y : bin m , p 2 . Las

p 0 un valor particular de p 1 . Se desea probar alguna de las siguientes hiptesis:

El estadstico de prueba y las regiones de rechazo respectivas son:

X : bin n , p , con p desconocida.

H 0 : p 0. 2 vs H a : p 0. 2 . Veamos como probar esta hiptesis usando la parte

interactiva del SAS. Ingresamos al mdulo Analyst

En el men seleccionamos Statistics Hyptesis Test y se obtiene el siguiente men:

en Hypotheses Nula y Alternate respectivamente:

Los resultados arrojados por el SAS son:

As, tanto el valor P (inferior a 0.0001) como el intervalo de confianza

0. 283 , 0. 411 , permiten concluir que la

proporcin de estudiantes que trabajan en dicha universidad es superior al 20%.

X : bin n , p 1 y Y : bin m , p 2 , donde p 1 y p 2 , son las proporciones de estudiantes

H 0 : p 1 p 2 0 vs H a : p 1 p 2 0 . El estadstico de Prueba en este

pueden ser propuestas para resolver este problema.

Los resultados del procedimiento son:

Tanto el Valor P de la Prueba como el Intervalo de Confianza para

p 1 p 2 indica que las proporciones son

De la teora de distribuciones muestrales sabemos que si

0 un valor particular para X . Tres hiptesis puedes ser planteadas respecto a X :

Se tiene la creencia de que el consumo de gasolina (Millas por Galn) es superior a 25

X y varianza X 2 . As, cada X i : n X , X 2 i 1, 2, L , 25 . Las hiptesis a ser probada es:

X 2 es desconocida y la muestra proviene de una distribucin normal, entonces el estadstico de prueba y la

El valor P de esta prueba se calcula como:

: X 20 ) y la respectiva alternativa ( H a : X 20 ). Adems

Los resultados obtenidos son:

Como el Valor P es grande,

Vp P t 24 0. 473 0. 3202 , No tenemos suficiente evidencia para rechazar Ho,

es decir el consumo promedio de gasolina puede ser inferior o igual a 20 millas/galn.

Para Diferencia de Medias.

X 1 , X 2 , L , X n es una muestra aleatoria de una poblacin normal con media X y

Y 2 , donde X 2 y Y 2 son desconocidas y ambas muestras independientes entre si.