Você está na página 1de 33

Contrastes de hipótesis estadísticas

En la primera parte de la inferencia estadística se ha abordado el problema de la estimación de


parámetros, en ella se ha visto cómo construir estimadores de parámetros poblacionales, se ha
insistido en el carácter de variable aleatoria que tienen los estimadores y se ha estudiado la
distribución de algunos de ellos, lo que se ha denominado distribución en el muestreo, lo cual
ha permitido la estimación por intervalos de confianza.

La segunda parte de la inferencia estadística aborda un problema diferente, que se plantea


cuando se pretende comprobar la veracidad de alguna afirmación que afecta a un fenómeno
aleatorio. En un caso como este, no es posible acometer una prueba irrefutable, pues el
fenómeno a estudiar produce resultados que, por ser aleatorio, son impredecibles. Gracias a la
teoría de la probabilidad se podrá definir un conjunto de resultados más probables en el caso
de que fuese cierta la afirmación que se pretende comprobar y plantear algún procedimiento
para obtener observaciones de aquél fenómeno; si se obtienen respuestas de entre aquellas
que se han identificado como muy poco probables, se podrá concluir la falsedad de la
afirmación sometida a prueba, asumiendo un margen de error cuya probabilidad de ocurrir
podrá ser también cuantificada.

Los principales conceptos relativos a la teoria de contraste serán introducidos con la ayuda de
algunos ejemplos.

Contraste sobre la media de una distribución Normal de varianza conocida


Ejemplo: Supongamos que del censo de 1990 sabemos que la talla media de los estudiantes de
la Universidad de Córdoba es de 170 cm y que su varianza es de 500 cm 2.
Puesto que el censo es antiguo, ¿Podríamos afirmar que la talla media ha cambiado?

Se trata, por tanto de contrastar las siguientes hipótesis:

Hipótesis nula Ho: m = 170 Hipótesis alternativa H1: m<>170

Supuesto inicial: La variable X de que se trata, talla de los estudiantes de la Universidad de


Córdoba en el curso actual, sigue una distribución Normal de media m desconocida y varianza s 2
conocida, pues supondremos que será la misma que en el censo de 1990: 500 cm 2
Metodología: para realizar el contraste, tomamos una muestra de tamaño n y estimamos en ella
m con la media muestral.

La media muestral es una variable aleatoria que, por proceder de una distribución Normal
N(m;s2), sigue una distribución Normal N(m; s2/n) = N(m; 500/n)

Tipificando la media muestral, el estadístico

-

ZN
2

()
0;1
s

Si es cierta la hipótesis nula, el estadístico:

Contraste de Hipótesis, pág 1


Z

-
= ® , también llamado estadísti co experimental

170 0 ; 1 500

x
N

()
exp

Regiones crítica y de aceptación:


Concluiré rechazando la hipótesis nula si la media muestral es un valor que contradice
claramente dicha hipótesis: si obtengo una media muestral mucho más pequeña o mucho mayor
que 170. En otro caso, diré que no hay evidencias en contra de la hipótesis nula.
Si la media es 170, valores muy alejados de 170 son muy improbables, pero no imposibles,
existirá una probabilidad de encontrar tales valores, aún siendo cierta la hipótesis nula. Si nos
encontramos con uno de estos casos y rechazamos la hipótesis nula cometemos un error, es el
error tipo I.
La probabilidad de cometer ese error se fija de antemano, es el nivel de significación, a =
P(rechazar Ho/Ho es cierta)

Puesto que la media muestral tipificada sigue una distribución N(0;1), puedo encontrar dos
abcisas que definan un intervalo de probabilidad 1-a. En realidad estas dos abcisas pueden ser
cualesquiera que cumplan la condición de que el área bajo la curva de densidad sea 1-a, pero
debido a la simetría de la Normal, se toman Z1-a/2 ; Za/2, o lo que es lo mismo: - Za/2 ; Za/2
Si, elegida una muestra, obtenemos un Zexp fuera de ese intervalo, rechazaremos la hipótesis
nula.

Región crítica o de rechazo:

CZZ

= -¥ - È ¥
(
;

(
;

)
r

/2

/2

Región de aceptación:

CZZ

=-

(
;

aa

/2/2
C0

Aplicación:La siguiente serie de datos es una muestra de tamaño n=10 de una N(170;500)
172; 178; 148; 145; 188; 193; 186; 199; 187; 177

la media es:177,3

La región de aceptación, para un nivel de significación del 10% es (-1,64 ; 1,64)

El estadístico experimental es:1,032 que está comprendido en la región de aceptación, por eso
se concluye que no se puede rechazar la hipótesis nula.

Contraste de Hipótesis, pág 2


Error de tipo II
Es el que se comete al aceptar la hipótesis nula siendo falsa, o sea, cuando se rechaza la
hipótesis alternativa siendo cierta. Un contraste como el planteado:
Hipótesis nula Ho: m = 170
Hipótesis alternativa H1: m<>170

contempla infinitas posibles hipótesis alternativas, basta con que la media no sea 170. Pero en
todos los casos la hipótesis nula es la misma, y la región de aceptación para un a del 10%
siempre será (-1,64 ; 1,64). Supongamos que en realidad, la talla actual ha crecido y que ahora
la media no es 170 sino 180 cm, con una varianza de 500 cm2

Ahora la lista siguiente es una muestra procedente de una variable N(180;500)

190; 199; 170; 189; 179; 221; 175; 193; 150; 209

la media es:187,5

El estadístico experimental es: 2,475 que NO está comprendido en la región de aceptación, por
eso se concluye (correctamente) que hay evidencias para rechazar la hipótesis nula. En casos
como este decimos que el contraste resultó significativo.

Sin embargo, si los valores obtenidos hubieran sido los siguientes, que también proceden de una
variable N(180;500)

184; 204; 173; 188; 189; 190; 146; 157; 184; 198

la media es:181,3

La región de aceptación, para un nivel de significación del 10% es (-1,64 ; 1,64)

El estadístico experimental es:1,598 que está comprendido en la región de aceptación, por eso
se concluye (incorrectamente) que no se puede rechazar la hipótesis nula. Pero sabemos que la
media es 180, al aceptar la hipótesis nula cometemos un error, es el error de tipo II y ocurre
cuando se acepta la hipótesis nula siendo falsa.
La probabilidad de cometer error de tipo II se representa como b = P(aceptar Ho/Ho es falsa)

Errores de tipo I y II
Para ver la relación existente entre los dos tipos de errores, lo haremos con otro ejemplo:
Hipótesis nula, la media es:170, XàN(170;500)

Distribución media muestral bajo Ho y H1


= P(error tipo II)
a/2

b
150 160 170 180 190 200 210

0.06

0.05

0.04

0.03

0.02

H0
H1
a/2 C0
0.01
0

Contraste de Hipótesis, pág 3


Un caso concreto de hipótesis alternativa, la media es185, XàN(185;500)
La varianza es, en ambos casos, 500
Se pueden representar las funciones de densidad de la media muestral bajo ambas hipótesis y
ver que el área delimitada por densidad correspondiente a H1 (distribución que hay que
considerar cuando H1 sea cierta) y la región de aceptación (valores de la media muestral que me
hacen decir que H1 es falso) es lo que denominamos b = probabilidad de error de tipo II.
Con la ayuda de este gráfico se puede ver que para reducir el error tipo II se puede hacer más
pequeña la región de aceptación, pero entonces aumenta el error tipo I. Solo se puede disminuir
ambos errores de modo simultáneo aumentando el tamaño de la muestra, pues así la varianza
de la media muestral es menor, las curvas Ho y H1 son más estrechas y, para la misma región de
aceptación, disminuyen el área correspondiente a a y b.

Contrastes unilaterales y bilaterales:


En casos como el visto hasta ahora, rechazaremos la hipótesis nula siempre que la muestra
extraída contradiga claramente esa hipótesis, en nuestro ejemplo, siempre que la media muestral
sea significativamente mayor menor que la propuesta como hipótesis nula. Contrastes del tipo:
Ho: µ = µ0
H1: µ< µ0
Darán resultado significativo solo si la media muestral es menor que la propuesta como hipótesis
nula y se denominan contrastes unilaterales. El contraste se plantea y se resuelve del mismo
modo, pero como solo aceptamos H1 si la media muestral es claramente menor que 175, la
región crítica es:
C1 =(−¥; −Za) y la región de aceptación es: C0 = (−Za; ¥)
En el caso de que la hipótesis alternativa sea de sentido contrario al anterior:

Ho: µ = µ0
H1: µ > µ0
Las regiones crítica y de aceptación son: C1 = (Za;~¥) y C0 = (−¥; Za)

Valor crítico o P- valor de un contraste


Se ha visto que se puede construir la región de aceptación y la región crítica de un contraste
antes de tomar la muestra, basta saber cuál es el estadístico de contraste, su distribución,
conocer si el contraste es unilateral o bilateral y el nivel de significación deseado. Todo ello no
requiere el conocimiento de los datos de la muestra. De hecho, habria que proceder así para
evitar que el conocimiento de la muestra pudiese modificar el planteamiento inicial del test.

No obstante, los programas estadísticos proceden de otro modo, como ellos pueden calcular la
probabilidad asociada a cualquier intervalo de valores correspondientes a la distribución del
estadístico de contraste, pueden informar sobre cómo de “raro” , desde el punto de vista de la
hipótesis nula, es el valor obtenido. En realidad nos informan sobre la probabilidad de obtener
valores tan raros o más que el obtenido, a esta probabilidad se le denomina valor crítico o P-
valor del test.

Veámoslo con un ejemplo:

Sea el contraste unilateral sobre la talla media de los alumnos de la Universidad de Córdoba en
el año 2000, que suponemos que sigue una distribución N( µ ; s2 = 500)

Ho: µ = 170
H1: µ > 170

Contraste de Hipótesis, pág 4


Supongamos que se ha extraido la m.a.s. de tamaño 10 , que resulta ser la siguiente:
184; 204; 173; 188; 189; 190; 146; 157; 184; 198

cuya media es:181,3


El estadístico experimental es :

-

Sustituyendo y operando, se obtiene Zexp = 1,598 . Desde el punto de vista de la hipótesis nula,
valores tan “raros” o más que este serán aquellos que hagan aceptar H1 , es decir, aquellas
muestras cuya media sea claramente mayor que 170, tanto o más que la muestra actual, o , lo
que es lo mismo, que produzcan un valor de Zexp ³ 1,598, de ser cierta la hipótesis nula, esa
probabilidad se puede calcular, pues la distribución de Zexp es una N(0;1):
exp

170 0 ; 1 500

()
exp

ZN
PZZPZ

(0;1)
( ) ( 1.598) 0.05501

³=³=
El P-valor del contraste será, por lo tanto, 0.05501.

Ahora podemos afirmar que, si la hipótesis nula es cierta, valores tan raros como el que
proporciona la muestra actual o aún más favorables a la hipótesis alternativa, ocurren solo 5.5 de
cada 100 veces que se obtenga una muestra, por lo que podremos aceptar o rechazar la
hipótesis nula conociendo el riesgo a error que se corre.

En el ejemplo actual, se puede rechazar H0 , pues el estadístico de contraste proporciona un


valor de los que podríamos calificar de “raros”. No obstante, si se rechaza la hipótesis nula, el
riesgo a errar es del 5.5%.

En definitiva, se puede definir e valor crítico o P-valor de un contraste como el riesgo que se
asume a equivocarse por rechazar la hipóteis nula. Si el riesgo a errar es grande, no la
rechazaré, mientras que si este riesgo es pequeño, podré rechazarla. En general, si el P-valor es
menor que a , se rechaza H0 , y si es mayor se acepta.

También se puede contemplar el P-valor como el nivel de significación que debe tener un test
para que el estadístico de contraste sea justamente la frontera entre la región crítica y la región
de aceptación. Con esta definición se puede comprender que, cuando el contraste es bilateral, el
P-valor sea el doble que para el mismo contraste unilateral. Si se realiza el contraste:

Ho: µ = 170
H1: µ ¹ 170

y se obtiene la muestra anterior, el estadístico de contraste vuelve a ser Zexp = 1,598, pero ahora,
la región crítica ha de ser bilateral, como se basa en una N(0;1), será además simétrica. Si se
desea que Zexp sea frontera de esta región se tendrá:
CZZ
CZZ

= -¥ - ¥

(
;;

)
(
r

exp exp

0 exp exp

)
=-

()
;
(
/ (0;1)

)
P valor P Z C Z N
P valor P Z Z Z Z P Z Z P Z Z

-=ή
-=£-³=£-+³
U
r

()()()
exp exp

exp

exp
0.11 P valor P Z Z

-=£-=

(
)
exp

Contraste de Hipótesis, pág 5


Generalmente este es el resultado que proporcionan los programas estadísticos, si se desea
saber el P-valor correspondiente a un contraste unilateral, basta dividir el que proprocione el
programa entre dos.

En el caso de contrastes unilaterales, si el P-valor que se conoce es el correspondiente a un


contraste bilateral, solo se rechazará H0 cuando la cantidad experimental esté del lado de H1 y si
el P-valor calculado dividiendo entre dos el que proporcione el programa, así lo aconseja.

Contraste sobre la media de una distribución Normal de varianza


desconocida
Hasta ahora se ha supuesto que la varianza poblacional era conocida, lo que es poco verosímil
si la media poblacional es desconocida. Un caso más real será aquél en que se desee efectuar
un contraste sobre la media de una distribución normal de varianza desconocida:
Ho: µ = µ0
H1: µ ¹ µ0
La media muestral es una variable aleatoria que, por proceder de una distribución Normal
N(µ;s2), sigue una distribución Normal N(m; s2/n). Si es cierta la hipótesis nula, la media muestral
seguirá una distribución N(m0; s2/n)

Tipificando la media muestral, el estadístico

n
Pero ahora no es posible calcularlo, pues la varianza poblacional es desconocida. No obstante,
podemos estimarla con la cuasivarianza. La variable así tipificada no sigue una distribución
Normal, sino una t de Student con n-1 grados de libertad, por lo que la región de aceptación
para el contraste bilateral con un nivel de significación a, se construye a partir de la t de
Student
C0 = (-ta/2 ; ta/2) y con ella se compara la cantidad experimental:

-
exp 2

sn
Ejemplo 2: se desea realizar el contraste visto en el primer ejemplo:

Ho: µ = 170
H1: µ ¹ 170
Pero ahora suponiendo que se desconoce la varianza poblacional.

Para realizar el contraste, se obtiene una muestra, sea la muestra de tamaño n=10 de una
N(175;500) que hemos utilizado ya :

186; 175; 185; 172; 174; 178; 178; 188; 165; 172
En esta muestra estimamos la media poblacional con la muestral:177,3 y estimamos la varianza
poblacional con la cuasivarianza, que es: 325.789
La región de aceptación, para un nivel de significación del 10% y 9 grados de libertad es C0 = (-
ta/2 ; ta/2) = (-1,833 ; 1,833)

El estadístico experimental es:

Contraste de Hipótesis, pág 6

-

ZN

µs
02

()
0;1

µ
t

=
0

-
==
1.279, que está comprendido en la región de aceptación, por eso se

concluye que no se puede rechazar la hipótesis nula.

Contrastes unilaterales
Cuando el contraste no sea bilateral, la región crítica se sitúa en un solo extremo de la t de
Student, de modo coherente con la hipótesis alternativa de que se trate:

Hipótesis Región crítica Región de aceptación

Ho: µ = µ0
H1: µ > µ0

177.3 170 325.789 10

t
exp

C1 = (ta ; ¥)

C0 = (−¥ ; ta)

Ho: µ = µ0
H1: µ < µ0

C1 = (−¥ ; −ta )

C0 = (−ta ; ¥)

Contraste sobre la media de una variable aleatoria que no siga la


distribución Normal.
Cuando no se pueda asumir la Normalidad de la variable de partida, tendremos que recurrir a
algún contraste No paramétrico, que no se verán aquí. No obstante, si la muestra es
suficientemente grande, se puede aplicar el T.C.L. y realizar el contraste basándonos en la
distribución normal, la tabla siguiente resume los contrastes y las condiciones de aplicabilidad.

Contraste Varianza poblacional

Tamaño muestral *

Estadístico experimental

Región de aceptación
x

µ
s2 conocida n>30
0
Z

exp 2 /
Ho: µ = µ0
H1: µ ¹ µ0 s2 desconocida,
estimada con
2

n
C0 = (−Za/2 ; Za/2)
x

µ
s n>60

=
0

exp 2 /
sn
x

µ
s2 conocida n>30
0

exp 2 /
Ho:µ = µ0
H1: µ > µ0 s2 desconocida,
estimada con
2

s
n

C0 = (−¥ ; Za)
x

µ
s n>60

=
0

exp 2 /
sn
x

µ
s2 conocida n>30
0

exp 2 /
s

n
Ho: µ = µ0
H1: µ < µ0 s2 desconocida,
estimada con
2

C0 = (−Za ; ¥)
x

µ
n>60

=
0

exp 2 /
sn

*: es el tamaño de muestra mínimo requerido para que se pueda aplicar el T.C.L., con
suficiente garantía de aproximación.

Contraste de Hipótesis, pág 7


Ejemplo: Supóngase que el nivel medio de contaminación atmosférica sobre núcleos urbanos
medido en cierta escala no deba superar las 15 unidades, que para controlar este nivel se hayan
elegido aleatoriamente cien puntos de control sobre una ciudad y que estas medidas
proporcionen un valor medio de 15.53 con una cuasivarianza de 4.82. Contrástese la hipótesis
nula de que no se supera el máximo nivel medio admitido.
Se tratará de efectuar el contraste:

Ho:µ = 15
H1: µ ³ 15

Como no se conoce la distribución de esta variable (de hecho no se indica cuál es el


procedimiento ni las unidades de medida), en principio no se podría plantear el contraste habitual
sobre la media de una distribución Normal, no obstante, como el tamaño muestral, n=100 es
suficientemente grande, se puede admitir la aproximación Normal de la distribución de la media
muestral y resolver el contraste.
El estadístico de contraste es:
µ

===
exp 2

sn
La región de aceptación, para un nivel de significación del 5% es:

C0 = (-¥ ; Z0.05) = (-¥ ;1.64)

Conclusión: Habría evidencias para afirmar que se ha superado el nivel máximo admisible.

Contraste sobre una proporción.


En gran cantidad de ocasiones la variable que se mide es categórica, en esos casos, el
parámetro que más habitualmente se usa para caracterizar las distintas categorías de dicha
variable es la proporción. Cuando solo interese una de las posibles categorías frente a las
demás, será aplicable el modelo de distribución de variable aleatoria binaria, en la que se
identifica como "éxito" al conjunto de resultados que muestran la categoría que es de interés y
como "fracaso" a todos los demás. En este tipo de situaciones es posible plantear contrastes
sobre el parámetro p de la distribución binomial que, como se vio en el tema 7, se podrán y
resolver usando la distribución en el muestreo de la variable X = número de éxitos, pues, como
se sabe, es binomial de parámetros n y p. No obstante, en este punto se seguirá una
metodología distinta, aplicando la aproximación Normal, cuando esto sea posible.
Contrastes del tipo:

Ho: p = p0
H1: p ¹ p0

Pueden ser asimilados a uno sobre la media de una variable que no sigue la distribución Normal,
pues al tomar una muestra y estimar en ella la proporción de "éxitos", dicho estimador puede ser
considerado la media de una variable binaria en la que asimilamos 1 a "éxito" y 0 a "fracaso":

==
=
nn
En tal caso, se considera que la muestra es suficientemente grande si np0 y nq0 son ambos
mayores que 5.

Contraste de Hipótesis, pág 8

15.53 15 2.4141
4.82 100

-
-
Z
0

n
ax

å
x

, donde na es el número de éxitos de la muestra y xi solo toma valores 0 ó


1.
Si H0 es cierta, la varianza poblacional no hay que estimarla, pues es la de una variable binaria
de parámetro p0 :
2

=
s

El contraste se resuelve calculando:


0

pq
00

-
=

pp

Zpqn
exp
00

y comparándolo con una región de aceptación bilateral: C0 = (−Za/2 ; Za/2) De modo similar se
procede para los contrastes unilaterales.

Varianza, bajo H0
Contraste Región de
aceptación Población Estimador de p

Tamaño muestral

Estadístico experimental

Ho:p = p0
H1: p> p0 C0 = (−¥ ; Za)

Ho:p = p0
H1: p< p0 C0 = (−Za ; ¥)

s2 =p0q0

pp

^
pq

-
=
0
s=

Zpqn
2

00
^p

n p0 >5 y
nq0>5
exp

n
00

Ejemplo: De una determinada asignatura se comenta que se produce un número excesivo de


suspensos, para comprobar la sospecha, se han elegido aleatoriamente 50 alumnos de entre los
que se han presentado al primer parcial, y se ha encontrado que 30 de ellos están suspensos,
pero el profesor afirma que eso no quiere decir que la proporción de suspensos sea mayor que el
50%, ¿Es eso cierto?.
Es posible que el profesor tenga razón, pues la información que se posee es la de una muestra,
que se supone representativa de todos sus alumnos, para comprobar la veracidad de su
afirmación, se tendrá que efectuar un contraste sobre la proporción de suspensos.
Si se supone la “inocencia” del profesor, el contraste se planteará:
H0 : p = 0.5
H1 : p > 0.5

Como 50´0.5 = 25 >5, se puede aplicar la aproximación normal.


Para un nivel de significación a = 0,01, C0 = (-¥; Z0.01) = (-¥ ; 2.326) y el estadístico de contraste:

ppZpq
n

30 0.5
^ 50 1.4142
0.5 0.5 50

===

´
exp
00

Conclusión: No se puede rechazar que la proporción de suspensos es inferior o igual al 50%


Contraste sobre la Varianza de una variable aleatoria que sigue una
distribución Normal.
Contrastes del tipo:
Ho: s2 = s20 H1: s2 ¹ s20

Contraste de Hipótesis, pág 9


Se pueden realizar siempre que la variable de partida siga una distribución Normal, pues, en tal
caso, sabemos que:

n s ns

-
22

si ( ; ) entonces:

XN

µs

( 1)
2

=®-

c
2

( 1)

n
ss
2

Para resolver el contraste hay que suponer cierta la hipótesis nula, entonces el estadístico de
contraste es:
22
2 exp

( 1)
n s ns
-

==

ss
2

2
0

y se comparará con la región de aceptación:


22
0 1 / 2 /2

C-

(;)

cc
, bilateral por el tipo de
aa

contraste planteado, donde


2
1/2

c es la abcisa de una distribución Chi-cuadrado con n-1


grados de libertad que deja a su derecha un área 1-a /2 , y
2
/2a

-a

c es la que deja a su derecha


un área a /2
Para el caso unilateral, el estadístico de contraste es el mismo y las regiones de aceptación se
construyen de modo que la región crítica sea coherente con la hipótesis alternativa. La tabla
siguiente resume los contrastes sobre la varianza:

Contraste

Región crítica

Región de aceptación

Estadístico de contraste
22
0 1 / 2 /2

Ho: s2 = s20
H1: s2 ¹ s20
C-

(0; ) ( ; )

cc
2

C-

(;)

cc
aa
1 1 / 2 /2

¥
U
a

Ho: s2 = s20 H1: s2 > s20

( 1)
n s ns

-
22
2 exp

(;)

c
2

C=a

(0; )

c
2
c

==
1

ss
2

2
0

Ho: s2 = s20 H1: s2 < s20

C-=a

(0; )

c
2

C-
2
01

(;)

c
11

Ejemplo: Supongamos la primera muestra de diez alumnos matriculados en la Universidad de


Córdoba durante el año 2000, sus tallas son:
190; 199; 170; 189; 179; 221; 175; 193; 150; 209
Suponiendo que los datos procedan de una distribución Normal, contrástese la hipótesis nula de
que la varianza sea 500 cm2 contra la alternativa de que tenga otro valor, con un nivel de
significación del 10%.
Ho: s2 = s20
H1: s2 ¹ s20
La media de este conjunto de datos es 187.5
La cuasivarianza de este conjunto de datos es 410.722.
Supuesto Normalidad, la región de aceptación, basada en la distribución Chi-cuadrado con 9
grados de libertad es:
22
22
0 1 / 2 / 2 0.95 0.05

( ; ) ( ; ) (3.325;16.919)
Caa

cccc

===
y el estadístico de contraste:
2

nscs


2 exp

===

( 1) 9 410.722 7.393
500
20

Conclusión: Se aceptará la hipótesis nula.

Contraste de Hipótesis, pág 10


Contraste de Normalidad de Kolmogorov-Smirnov.
La mayoría de los contrastes paramétricos que se han visto se basan en la Normalidad de los
datos de la muestra. El contraste actual permite concluir si un conjunto de datos procede o no de
una distribución Normal. El planteamiento es el siguiente:
Ho: Los datos proceden de una Normal
H1: Los datos no proceden de una Normal

Existen varios contrastes específicos de Normalidad, el que veremos aquí sirve para cualquier
tipo de distribución, no solamente la Normal, por este motivo, no es el más potente entre todos
los contrastes de Normalidad disponibles.
El contraste de Kolmogorov-Smirnov se basa en la idea de que si un conjunto de datos sigue un
modelo de distribución, la tabla de frecuencias relativas acumuladas ( función de distribución
empírica) de los datos debe aproximarse a la función de distribución teórica propuesta. Si la
diferencia entre ambas distribuciones no es muy grande, las diferencias pueden ser atribuidas al
azar y concluiremos que los datos siguen la ley propuesta. Si las diferencias son grandes,
entonces no podremos atribuirlas al azar, sino al hecho de que los datos no siguen el modelo de
distribución propuesto. Para realizar el contraste hay que comparar la frecuencia relativa
acumulada con la función de distribución teórica, se calcula la diferencia entra ambas
distribuciones punto a punto y el estadístico de contraste es la mayor de todas las diferencias en
valor absoluto.
La función de distribución empírica es escalonada y muestra un salto en cada uno de los valores
observados, por ello hay que considerar dos posibles diferencias, una por cada uno de los
valores de la función de distribución empírica inmediatamente antes y después de cada uno de
los puntos observados, ambas diferencias calculadas respecto del valor de la función de
distribución teórica en ese punto. Se toman las diferencias en valor absoluto, el estadístico de
contraste es la máxima diferencia entre todas ellas.
El estadístico así calculado se compara con la mínima diferencia significativa para el nivel de
significación considerado, proporcionada por la tabla de Kolmogorov-Smirnov, y si es menor,
concluimos que no se puede rechazar la hipótesis de Normalidad.

Ejemplo La siguiente serie de datos es la muestra de tamaño n=10 de una N(175;500) que
hemos utilizado en el primer ejemplo:
172; 178; 148; 145; 188; 193; 186; 199; 187; 177

Contraste de Hipótesis, pág 11

Test de Kolmogorov

130 150 170 190 210

Normal Frecuencia acumulada

0.75

0.5

0.25

d2
d1
¿Se podrá aceptar, con un nivel de significación del 5% que este conjunto de datos procede de
una distribución Normal?
El gráfico anterior puede aclarar la situación, pues muestra las distribuciones empírica y teórica
del conjunto de datos.
Para calcular la función de distribución teórica hay que conocer los dos parámetros de la
distribución Normal, la media (µ ), y la varianza (s2) , si ambos son desconocidos se estimarán
con la media (

El contraste se plantea entonces como:

Ho: Los datos proceden de una Normal ( de media 177.3 y de varianza 325.789)
H1: Los datos proceden de otra distribución (o de una Normal con otros parámetros)

La función de distribución teórica es P(X £ x) y para calcular esta probabilidad teórica hay que
tipificar los datos, pues hay que calcular probabilidades asociadas a intervalos de una variable
Normal, y solo tenemos tabla de la N(0;1)
Para tipificar: Media = 177.3; Cuasivarianza = 325.789
La tabla siguiente contiene los cálculos precisos para realizar el contraste:
Proba- bilidad
P(Z£z)
145 145 1 1 0.1 -1.79 0.0368 0.0368 0.0632 0.0632 148 148 1 2 0.2 -1.62 0.0523 0.0477
0.1477 0.1477 172 172 1 3 0.3 -0.29 0.3845 0.1845 0.0845 0.1845 177 177 1 4 0.4 -0.02
0.4934 0.1934 0.0934 0.1934 178 178 1 5 0.5 0.04 0.5155 0.1155 0.0155 0.1155 186 186
1 6 0.6 0.48 0.6851 0.1851 0.0851 0.1851 187 187 1 7 0.7 0.54 0.7045 0.1045 0.0045
0.1045 188 188 1 8 0.8 0.59 0.7233 0.0233 0.0767 0.0767 193 193 1 9 0.9 0.87 0.8078
0.0078 0.0922 0.0922 199 199 1 10 1 1.20 0.8854 0.0146 0.1146 0.1146

(*) en este caso no hay datos repetidos, por eso esta columna y la anterior coinciden y las
frecuencias absolutas son todas 1. Si hubiese datos repetidos esta columna contendrá solo los
valores diferentes, y se anotará en la columna de frecuencias absolutas el nº de veces que se
repiten.
El estadístico de contraste es D = 0.1934
De la tabla de Kolmogorov, para n =10 y a = 0.05, el valor máximo de D es Dn = 0.410
Como D < Dn, concluimos que no se puede rechazar la hipótesis de normalidad.

Nota: al estimar los parámetros poblacionales con los muestrales, las diferencias entre
la distribución teórica y la empírica tienden a ser menores que las que se obtendrían si se
conociesen estos parámetros y se producen menos resultados significativos que los que
realmente debieran producirse. Por ello, para un caso como este se recomienda usar la
tabla de Lilliefors que da valores inferiores de las diferencias significativas que las
proporcionadas por la tabla de Massey, que es la que se ha proporcionado en la
colección de tablas. No se ha proporcionado esta segunda tabla para no complicar más
los posibles casos a considerar.

Contraste de Hipótesis, pág 12

177.3 x

=
) y cuasivarianza de la muestra ( 2
325.789 s
).

Datos en

orden

(*) datos

Frec. ac.
Abs.

Frec. ac.
Rel.

z = datos

tipifi- cados

distintos

Frec.
Abs.

d1

d2

dmax

Você também pode gostar