Escolar Documentos
Profissional Documentos
Cultura Documentos
Los principales conceptos relativos a la teoria de contraste serán introducidos con la ayuda de
algunos ejemplos.
La media muestral es una variable aleatoria que, por proceder de una distribución Normal
N(m;s2), sigue una distribución Normal N(m; s2/n) = N(m; 500/n)
-
=®
ZN
2
()
0;1
s
-
= ® , también llamado estadísti co experimental
170 0 ; 1 500
x
N
()
exp
Puesto que la media muestral tipificada sigue una distribución N(0;1), puedo encontrar dos
abcisas que definan un intervalo de probabilidad 1-a. En realidad estas dos abcisas pueden ser
cualesquiera que cumplan la condición de que el área bajo la curva de densidad sea 1-a, pero
debido a la simetría de la Normal, se toman Z1-a/2 ; Za/2, o lo que es lo mismo: - Za/2 ; Za/2
Si, elegida una muestra, obtenemos un Zexp fuera de ese intervalo, rechazaremos la hipótesis
nula.
CZZ
= -¥ - È ¥
(
;
(
;
)
r
/2
/2
Región de aceptación:
CZZ
=-
(
;
aa
/2/2
C0
Aplicación:La siguiente serie de datos es una muestra de tamaño n=10 de una N(170;500)
172; 178; 148; 145; 188; 193; 186; 199; 187; 177
la media es:177,3
El estadístico experimental es:1,032 que está comprendido en la región de aceptación, por eso
se concluye que no se puede rechazar la hipótesis nula.
contempla infinitas posibles hipótesis alternativas, basta con que la media no sea 170. Pero en
todos los casos la hipótesis nula es la misma, y la región de aceptación para un a del 10%
siempre será (-1,64 ; 1,64). Supongamos que en realidad, la talla actual ha crecido y que ahora
la media no es 170 sino 180 cm, con una varianza de 500 cm2
190; 199; 170; 189; 179; 221; 175; 193; 150; 209
la media es:187,5
El estadístico experimental es: 2,475 que NO está comprendido en la región de aceptación, por
eso se concluye (correctamente) que hay evidencias para rechazar la hipótesis nula. En casos
como este decimos que el contraste resultó significativo.
Sin embargo, si los valores obtenidos hubieran sido los siguientes, que también proceden de una
variable N(180;500)
184; 204; 173; 188; 189; 190; 146; 157; 184; 198
la media es:181,3
El estadístico experimental es:1,598 que está comprendido en la región de aceptación, por eso
se concluye (incorrectamente) que no se puede rechazar la hipótesis nula. Pero sabemos que la
media es 180, al aceptar la hipótesis nula cometemos un error, es el error de tipo II y ocurre
cuando se acepta la hipótesis nula siendo falsa.
La probabilidad de cometer error de tipo II se representa como b = P(aceptar Ho/Ho es falsa)
Errores de tipo I y II
Para ver la relación existente entre los dos tipos de errores, lo haremos con otro ejemplo:
Hipótesis nula, la media es:170, XàN(170;500)
b
150 160 170 180 190 200 210
0.06
0.05
0.04
0.03
0.02
H0
H1
a/2 C0
0.01
0
Ho: µ = µ0
H1: µ > µ0
Las regiones crítica y de aceptación son: C1 = (Za;~¥) y C0 = (−¥; Za)
No obstante, los programas estadísticos proceden de otro modo, como ellos pueden calcular la
probabilidad asociada a cualquier intervalo de valores correspondientes a la distribución del
estadístico de contraste, pueden informar sobre cómo de “raro” , desde el punto de vista de la
hipótesis nula, es el valor obtenido. En realidad nos informan sobre la probabilidad de obtener
valores tan raros o más que el obtenido, a esta probabilidad se le denomina valor crítico o P-
valor del test.
Sea el contraste unilateral sobre la talla media de los alumnos de la Universidad de Córdoba en
el año 2000, que suponemos que sigue una distribución N( µ ; s2 = 500)
Ho: µ = 170
H1: µ > 170
-
=®
Sustituyendo y operando, se obtiene Zexp = 1,598 . Desde el punto de vista de la hipótesis nula,
valores tan “raros” o más que este serán aquellos que hagan aceptar H1 , es decir, aquellas
muestras cuya media sea claramente mayor que 170, tanto o más que la muestra actual, o , lo
que es lo mismo, que produzcan un valor de Zexp ³ 1,598, de ser cierta la hipótesis nula, esa
probabilidad se puede calcular, pues la distribución de Zexp es una N(0;1):
exp
170 0 ; 1 500
()
exp
ZN
PZZPZ
(0;1)
( ) ( 1.598) 0.05501
³=³=
El P-valor del contraste será, por lo tanto, 0.05501.
Ahora podemos afirmar que, si la hipótesis nula es cierta, valores tan raros como el que
proporciona la muestra actual o aún más favorables a la hipótesis alternativa, ocurren solo 5.5 de
cada 100 veces que se obtenga una muestra, por lo que podremos aceptar o rechazar la
hipótesis nula conociendo el riesgo a error que se corre.
En definitiva, se puede definir e valor crítico o P-valor de un contraste como el riesgo que se
asume a equivocarse por rechazar la hipóteis nula. Si el riesgo a errar es grande, no la
rechazaré, mientras que si este riesgo es pequeño, podré rechazarla. En general, si el P-valor es
menor que a , se rechaza H0 , y si es mayor se acepta.
También se puede contemplar el P-valor como el nivel de significación que debe tener un test
para que el estadístico de contraste sea justamente la frontera entre la región crítica y la región
de aceptación. Con esta definición se puede comprender que, cuando el contraste es bilateral, el
P-valor sea el doble que para el mismo contraste unilateral. Si se realiza el contraste:
Ho: µ = 170
H1: µ ¹ 170
y se obtiene la muestra anterior, el estadístico de contraste vuelve a ser Zexp = 1,598, pero ahora,
la región crítica ha de ser bilateral, como se basa en una N(0;1), será además simétrica. Si se
desea que Zexp sea frontera de esta región se tendrá:
CZZ
CZZ
= -¥ - ¥
(
;;
)
(
r
exp exp
0 exp exp
)
=-
()
;
(
/ (0;1)
)
P valor P Z C Z N
P valor P Z Z Z Z P Z Z P Z Z
-=ή
-=£-³=£-+³
U
r
()()()
exp exp
exp
exp
0.11 P valor P Z Z
-=£-=
(
)
exp
n
Pero ahora no es posible calcularlo, pues la varianza poblacional es desconocida. No obstante,
podemos estimarla con la cuasivarianza. La variable así tipificada no sigue una distribución
Normal, sino una t de Student con n-1 grados de libertad, por lo que la región de aceptación
para el contraste bilateral con un nivel de significación a, se construye a partir de la t de
Student
C0 = (-ta/2 ; ta/2) y con ella se compara la cantidad experimental:
-
exp 2
sn
Ejemplo 2: se desea realizar el contraste visto en el primer ejemplo:
Ho: µ = 170
H1: µ ¹ 170
Pero ahora suponiendo que se desconoce la varianza poblacional.
Para realizar el contraste, se obtiene una muestra, sea la muestra de tamaño n=10 de una
N(175;500) que hemos utilizado ya :
186; 175; 185; 172; 174; 178; 178; 188; 165; 172
En esta muestra estimamos la media poblacional con la muestral:177,3 y estimamos la varianza
poblacional con la cuasivarianza, que es: 325.789
La región de aceptación, para un nivel de significación del 10% y 9 grados de libertad es C0 = (-
ta/2 ; ta/2) = (-1,833 ; 1,833)
-
=®
ZN
µs
02
()
0;1
µ
t
=
0
-
==
1.279, que está comprendido en la región de aceptación, por eso se
Contrastes unilaterales
Cuando el contraste no sea bilateral, la región crítica se sitúa en un solo extremo de la t de
Student, de modo coherente con la hipótesis alternativa de que se trate:
Ho: µ = µ0
H1: µ > µ0
t
exp
C1 = (ta ; ¥)
C0 = (−¥ ; ta)
Ho: µ = µ0
H1: µ < µ0
C1 = (−¥ ; −ta )
C0 = (−ta ; ¥)
Tamaño muestral *
Estadístico experimental
Región de aceptación
x
µ
s2 conocida n>30
0
Z
exp 2 /
Ho: µ = µ0
H1: µ ¹ µ0 s2 desconocida,
estimada con
2
n
C0 = (−Za/2 ; Za/2)
x
µ
s n>60
=
0
exp 2 /
sn
x
µ
s2 conocida n>30
0
exp 2 /
Ho:µ = µ0
H1: µ > µ0 s2 desconocida,
estimada con
2
s
n
C0 = (−¥ ; Za)
x
µ
s n>60
=
0
exp 2 /
sn
x
µ
s2 conocida n>30
0
exp 2 /
s
n
Ho: µ = µ0
H1: µ < µ0 s2 desconocida,
estimada con
2
C0 = (−Za ; ¥)
x
µ
n>60
=
0
exp 2 /
sn
*: es el tamaño de muestra mínimo requerido para que se pueda aplicar el T.C.L., con
suficiente garantía de aproximación.
Ho:µ = 15
H1: µ ³ 15
===
exp 2
sn
La región de aceptación, para un nivel de significación del 5% es:
Conclusión: Habría evidencias para afirmar que se ha superado el nivel máximo admisible.
Ho: p = p0
H1: p ¹ p0
Pueden ser asimilados a uno sobre la media de una variable que no sigue la distribución Normal,
pues al tomar una muestra y estimar en ella la proporción de "éxitos", dicho estimador puede ser
considerado la media de una variable binaria en la que asimilamos 1 a "éxito" y 0 a "fracaso":
==
=
nn
En tal caso, se considera que la muestra es suficientemente grande si np0 y nq0 son ambos
mayores que 5.
15.53 15 2.4141
4.82 100
-
-
Z
0
n
ax
å
x
=
s
pq
00
-
=
pp
Zpqn
exp
00
y comparándolo con una región de aceptación bilateral: C0 = (−Za/2 ; Za/2) De modo similar se
procede para los contrastes unilaterales.
Varianza, bajo H0
Contraste Región de
aceptación Población Estimador de p
Tamaño muestral
Estadístico experimental
Ho:p = p0
H1: p> p0 C0 = (−¥ ; Za)
Ho:p = p0
H1: p< p0 C0 = (−Za ; ¥)
s2 =p0q0
pp
^
pq
-
=
0
s=
Zpqn
2
00
^p
n p0 >5 y
nq0>5
exp
n
00
ppZpq
n
30 0.5
^ 50 1.4142
0.5 0.5 50
===
´
exp
00
n s ns
-
22
si ( ; ) entonces:
XN
µs
( 1)
2
=®-
c
2
( 1)
n
ss
2
Para resolver el contraste hay que suponer cierta la hipótesis nula, entonces el estadístico de
contraste es:
22
2 exp
( 1)
n s ns
-
==
ss
2
2
0
C-
(;)
cc
, bilateral por el tipo de
aa
-a
Contraste
Región crítica
Región de aceptación
Estadístico de contraste
22
0 1 / 2 /2
Ho: s2 = s20
H1: s2 ¹ s20
C-
(0; ) ( ; )
cc
2
C-
(;)
cc
aa
1 1 / 2 /2
¥
U
a
( 1)
n s ns
-
22
2 exp
=¥
(;)
c
2
C=a
(0; )
c
2
c
==
1
ss
2
2
0
C-=a
(0; )
c
2
C-
2
01
=¥
(;)
c
11
( ; ) ( ; ) (3.325;16.919)
Caa
cccc
===
y el estadístico de contraste:
2
nscs
-´
2 exp
===
( 1) 9 410.722 7.393
500
20
Existen varios contrastes específicos de Normalidad, el que veremos aquí sirve para cualquier
tipo de distribución, no solamente la Normal, por este motivo, no es el más potente entre todos
los contrastes de Normalidad disponibles.
El contraste de Kolmogorov-Smirnov se basa en la idea de que si un conjunto de datos sigue un
modelo de distribución, la tabla de frecuencias relativas acumuladas ( función de distribución
empírica) de los datos debe aproximarse a la función de distribución teórica propuesta. Si la
diferencia entre ambas distribuciones no es muy grande, las diferencias pueden ser atribuidas al
azar y concluiremos que los datos siguen la ley propuesta. Si las diferencias son grandes,
entonces no podremos atribuirlas al azar, sino al hecho de que los datos no siguen el modelo de
distribución propuesto. Para realizar el contraste hay que comparar la frecuencia relativa
acumulada con la función de distribución teórica, se calcula la diferencia entra ambas
distribuciones punto a punto y el estadístico de contraste es la mayor de todas las diferencias en
valor absoluto.
La función de distribución empírica es escalonada y muestra un salto en cada uno de los valores
observados, por ello hay que considerar dos posibles diferencias, una por cada uno de los
valores de la función de distribución empírica inmediatamente antes y después de cada uno de
los puntos observados, ambas diferencias calculadas respecto del valor de la función de
distribución teórica en ese punto. Se toman las diferencias en valor absoluto, el estadístico de
contraste es la máxima diferencia entre todas ellas.
El estadístico así calculado se compara con la mínima diferencia significativa para el nivel de
significación considerado, proporcionada por la tabla de Kolmogorov-Smirnov, y si es menor,
concluimos que no se puede rechazar la hipótesis de Normalidad.
Ejemplo La siguiente serie de datos es la muestra de tamaño n=10 de una N(175;500) que
hemos utilizado en el primer ejemplo:
172; 178; 148; 145; 188; 193; 186; 199; 187; 177
Test de Kolmogorov
0.75
0.5
0.25
d2
d1
¿Se podrá aceptar, con un nivel de significación del 5% que este conjunto de datos procede de
una distribución Normal?
El gráfico anterior puede aclarar la situación, pues muestra las distribuciones empírica y teórica
del conjunto de datos.
Para calcular la función de distribución teórica hay que conocer los dos parámetros de la
distribución Normal, la media (µ ), y la varianza (s2) , si ambos son desconocidos se estimarán
con la media (
Ho: Los datos proceden de una Normal ( de media 177.3 y de varianza 325.789)
H1: Los datos proceden de otra distribución (o de una Normal con otros parámetros)
La función de distribución teórica es P(X £ x) y para calcular esta probabilidad teórica hay que
tipificar los datos, pues hay que calcular probabilidades asociadas a intervalos de una variable
Normal, y solo tenemos tabla de la N(0;1)
Para tipificar: Media = 177.3; Cuasivarianza = 325.789
La tabla siguiente contiene los cálculos precisos para realizar el contraste:
Proba- bilidad
P(Z£z)
145 145 1 1 0.1 -1.79 0.0368 0.0368 0.0632 0.0632 148 148 1 2 0.2 -1.62 0.0523 0.0477
0.1477 0.1477 172 172 1 3 0.3 -0.29 0.3845 0.1845 0.0845 0.1845 177 177 1 4 0.4 -0.02
0.4934 0.1934 0.0934 0.1934 178 178 1 5 0.5 0.04 0.5155 0.1155 0.0155 0.1155 186 186
1 6 0.6 0.48 0.6851 0.1851 0.0851 0.1851 187 187 1 7 0.7 0.54 0.7045 0.1045 0.0045
0.1045 188 188 1 8 0.8 0.59 0.7233 0.0233 0.0767 0.0767 193 193 1 9 0.9 0.87 0.8078
0.0078 0.0922 0.0922 199 199 1 10 1 1.20 0.8854 0.0146 0.1146 0.1146
(*) en este caso no hay datos repetidos, por eso esta columna y la anterior coinciden y las
frecuencias absolutas son todas 1. Si hubiese datos repetidos esta columna contendrá solo los
valores diferentes, y se anotará en la columna de frecuencias absolutas el nº de veces que se
repiten.
El estadístico de contraste es D = 0.1934
De la tabla de Kolmogorov, para n =10 y a = 0.05, el valor máximo de D es Dn = 0.410
Como D < Dn, concluimos que no se puede rechazar la hipótesis de normalidad.
Nota: al estimar los parámetros poblacionales con los muestrales, las diferencias entre
la distribución teórica y la empírica tienden a ser menores que las que se obtendrían si se
conociesen estos parámetros y se producen menos resultados significativos que los que
realmente debieran producirse. Por ello, para un caso como este se recomienda usar la
tabla de Lilliefors que da valores inferiores de las diferencias significativas que las
proporcionadas por la tabla de Massey, que es la que se ha proporcionado en la
colección de tablas. No se ha proporcionado esta segunda tabla para no complicar más
los posibles casos a considerar.
177.3 x
=
) y cuasivarianza de la muestra ( 2
325.789 s
).
Datos en
orden
(*) datos
Frec. ac.
Abs.
Frec. ac.
Rel.
z = datos
tipifi- cados
distintos
Frec.
Abs.
d1
d2
dmax