Escolar Documentos
Profissional Documentos
Cultura Documentos
Supongamos que un amigo nuestro afirma que en cada partido de fútbol que juega, mete tres o
cuatro goles. Impresionados con su excelente performance, vamos a verlo jugar cinco partidos
seguidos. Pero ocurre que en esos cinco partidos no mete ningún gol. ¿No sospecharíamos que tal
vez nos mintió? ¿No es muy incompatible “lo observado” con su afirmación inicial de que mete tres
o cuatro goles por partido? Este mini-ejemplo muestra la lógica que hay detrás de una prueba de
hipótesis estadística.
Una prueba de hipótesis es un procedimiento, con el que se busca tomar una decisión sobre el valor
de verdad de una hipótesis estadística. Al realizar una prueba de hipótesis decidimos si rechazar o
no rechazar esa hipótesis estadística. Basamos la decisión en la evidencia muestral.
Por eso muchas veces se compara un proceso de prueba de hipótesis con un juicio: hay que recoger
evidencias para analizar si la hipótesis de base (la inocencia del acusado en el caso del juicio) se
sostiene o se rechaza.
Entender muy bien que es una prueba de hipótesis implica comprender muchos conceptos
(variable, parámetro, hipótesis estadística, estadístico de prueba, etc). Y también las relaciones
entre ellos. Pero la idea general de que es una prueba de hipótesis no es difícil de entender. De
hecho, es muy intuitiva. Vamos a ver un ejemplo que en forma natural expresa el razonamiento y
procedimiento detrás de una prueba de hipótesis.
Situación
La variable que nos interesa observar es XX: peso en gramos de un paquete de galletitas de la
fábrica.
Las hipótesis en juego
Cómo se trata de una discusión acerca del valor de un parámetro, no es fácil decidir cuál afirmación
es correcta. Habría que medir todos los paquetes de la producción para conocer la verdadera
esperanza de XX. En general esto es inviable. Para no tener que medir el peso en todos los paquetes
de la producción se puede tomar una muestra aleatoria de nn paquetes, y analizar si los valores
observados de XX son o no coherentes con la afirmación del fabricante.
Para lo que sigue a continuación es requisito saber sobre la distribución de la variable media
muestral.
Supongamos que se toma una muestra aleatoria de 100 paquetes, y se mide el peso (utilizando una
balanza muy precisa) en cada uno de los 100100 paquetes. Obtenemos entonces una muestra
aleatoria de la variable XX:
X1,X2,X3…,X100X1,X2,X3…,X100
Sabemos que la medía muestral ¯XX¯ es un buen estimador de la media poblacional μμ. Entonces
vamos a calcular la media muestral del peso de los 100 paquetes, para contrastarla con la hipótesis
nula.
Si obtenemos un valor de ¯XX¯ “muy inferior a 500”, es decir una diferencia ¯x–μx¯–μ “muy
grande”, rechazaremos la hipótesis nula.
Si obtenemos un valor de ¯XX¯ “muy cercano a 500”, es decir una diferencia ¯x–μx¯–
μ “pequeña”, diremos que no existe evidencia suficiente para rechazar la hipótesis nula.
Caso A de evidencia muestral: se obtiene una media muestral muy contraría a la afirmación inicial
Si se obtiene que el promedio de los pesos es de ¯x=421,3x¯=421,3 gramos, podríamos concluir que
la evidencia muestral no es compatible con la afirmación del fabricante. Se obtuvo un valor muy por
debajo de 500 gramos. Podríamos rechazar la afirmación del fabricante. No puede ser cierto
que E(X)=500E(X)=500, pero que se observe ¯x=421,3x¯=421,3. Cómo ¯x=421,3x¯=421,3 de hecho
se observó, entonces rechazamos la hipótesis nula.
Caso B de evidencia muestral: se obtiene una media muestral “cercana” a la afirmación inicial
Si se obtiene que el promedio de los pesos es de ¯x=499,8x¯=499,8 gramos, podríamos pensar que
el valor de ¯XX¯ obtenido es muy cercano al valor de μμ propuesto por la hipótesis inicial… y
entonces concluir que no hay evidencia contraria a esa hipótesis.
Caso C de evidencia muestral: se obtiene una media muestral que no es concluyente “a simple vista”
respecto de la afirmación inicial
Si se obtiene que el promedio de los pesos de 100 paquetes es de ¯x=497,3x¯=497,3 gramos… ¿Qué
concluimos? ¿Es coherente con una media poblacional de 500 o no? Este caso resulta más
dilemático y no permite decidir tan fácilmente. Se presenta el problema de decidir que es “cerca” y
que es “lejos” de 500. Más adelante vamos a ver cómo se decide un punto de corte o punto crítico
que permite definir una zona “cercana” (zona de no rechazo) y una zona “lejana” (zona de rechazo).
Definición intuitiva
Entonces una prueba de hipótesis es un proceso en el que, partiendo de dos hipótesis estadísticas
contrapuestas (una nula y una alternativa), tomamos información muestral para decidir si se rechaza
o no la hipótesis inicial en favor de la hipótesis alternativa.
El problema que tiene este abordaje es que no queda bien definido que sería que ¯XX¯ esté “cerca”
o “lejos” de 500 gramos. Para el caso A y B elegimos valores que “a ojo” parecen muy por debajo
(421,3) o muy cercanos (499,8) a 500. Pero tenemos que poder tener un criterio objetivo con el que
tomar la decisión sobre si la evidencia muestral es contraría o no a la afirmación inicial. A
continuación, nos vamos a meter con esta complicación técnica. Pero la idea básica de que es una
prueba de hipótesis, es la que comentamos en este ejemplo.
Para resolver el problema técnico, va a ser necesario tener bien claros los siguientes conceptos.
Para entender bien que es una prueba de hipótesis hay que tener bien claros (entre otros) los
conceptos de: variable, parámetro, estimador de un parámetro, hipótesis estadística y estadístico
de prueba.
Una variable es una característica de interés, que tienen los individuos de una población.
¿Qué es un parámetro?
Ejemplo 1: Si una variable tiene distribución binomial, sus parámetros son nn y pp.
Ejemplo 2: Si una variable tiene distribución normal, sus parámetros son μμ y σσ.
Ejemplo 3: Si una variable tiene distribución Bernoulli, su único parámetro es la probabilidad
de éxito pp.
¿Qué es un estimador de un parámetro?
Esta es la definición más difícil de esta serie. Por eso vamos a dar muchos ejemplos.
Vamos a ver algunos ejemplos de estadísticos de prueba que nos van a interesar más adelante.
EJEMPLO 1
EJEMPLO 2
EJEMPLO 3
EJEMPLO 4
EJEMPLO 5
Si X∼N(μ,σ)X∼N(μ,σ) y X1,X2,…,XnX1,X2,…,Xn, es una muestra aleatoria de XX, entonces:
S2(n–1)σ2∼χ2n–1S2(n–1)σ2∼χn–12
Es un estadístico de prueba. Porque es una variable aleatoria, con distribución conocida, y que
relaciona al parámetro σ2σ2 con su estimador S2S2.
Observación: no demostramos por qué es esa la distribución. Hay que aceptarlo así :).
Una tabla que resume las condiciones que deben darse, el parámetros de interés y un estadístico
de prueba adecuado es la siguiente:
Una hipótesis estadística es una afirmación acerca de la distribución de una variable aleatoria.
Afirmación 1: “La molécula de agua está compuesta por dos átomos de hidrógeno y un átomo
de oxígeno”.
Afirmación 2: “La variable X tiene distribución Binomial”.
Afirmación 3: “La media de una muestra de 100 observaciones es
de ¯x=45,32x¯=45,32 gramos”
Afirmación 4: “La media de la variable X∼(μ,σ)X∼(μ,σ) es μ=134μ=134”
Afirmación 5: “La media de la variable X∼(μ,σ)X∼(μ,σ) es μ<134μ<134”
La afirmación 1 predica sobre la composición de una molécula. Será una afirmación… pero no es de
tipo “estadístico”. Y en particular no dice nada sobre ninguna variable aleatoria. No es una hipótesis
estadística.
La afirmación 2 predica sobre la forma que tiene la distribución de una variable aleatoria. Está
diciendo algo acerca de una variable aleatoria. Así que podemos decir que es una hipótesis
estadística. Pero es una hipótesis estadística no paramétrica.
La afirmación 4 sí es una hipótesis estadística (paramétrica) porque asevera que el parámetro media
poblacional de cierta variable es igual a 134.
Ejemplo de prueba de hipótesis detallado paso a paso (incluyendo los detalles “técnicos”)
El enunciado
La variable sobre la que vamos a trabajar es XX: peso real de un paquete de galletitas de 500 gramos
de la fábrica.
El enunciado afirma que la distribución de XX es normal. No se conoce μμ, pero sí se conoce σ=5σ=5.
Hipótesis nula e hipótesis alternativa
H0H0 es la hipótesis nula. Hipótesis nula es la hipótesis de no cambio. Es la hipótesis de que todo
queda igual. Hay otra hipótesis que es la hipótesis de cambio. Siempre en esta hipótesis va a estar
el igual.
H0:μ=500H0:μ=500
H1H1 es la hipótesis alternativa. Es complementaría a la nula. Niega a la hipótesis nula.
Las hipótesis son complementarias. La nula tiene el símbolo de igualdad siempre. Entonces en la
otra no puede aparecer el igual. En la hipótesis alternativa se utiliza o bien el símbolo de distinto ≠≠,
o bien mayor >> o bien menor <<.
H1:μ<500H1:μ<500
Error de tipo 1 y error de tipo 2
Uno querría tomar la decisión correcta. Rechazar la hipótesis nula, cuando esta es falsa, es una
decisión correcta posible. No rechazar la hipótesis nula, cuando esta es verdadera es otra forma de
tomar una decisión correcta.
Pero cuando se toma una decisión basada en información muestral, se pueden cometer errores. Si
la hipótesis nula fuera verdadera, y tomamos la decisión de rechazarla estaremos cometiendo un
error. Este error se conoce cómo el error de tipo 1. Si la hipótesis nula fuera falsa, y no la rechazamos
estaríamos cometiendo otro error. Este otro error se conoce cómo el error de tipo 2.
α=P(errortipo1)=P(RHo|H0esV)α=P(errortipo1)=P(RHo|H0esV)
Decisión correcta 1: Si la hipótesis nula es en realidad verdadera, y no se la rechaza, se está tomando
una decisión correcta. La probabilidad de que ocurra esto se representa:
1–α=P(NoRHo|H0esV)1–α=P(NoRHo|H0esV)
Error de tipo 2: Si la hip’otesis nula es falsa y no se la rechaza, se comete el error de tipo 2. La
probabilidad de cocmeterlo se representa cómo:
β=P(errortipo2)=P(NoRH0|H0esF)β=P(errortipo2)=P(NoRH0|H0esF)
Decisión correcta 2: Si la hipótesis nula es falsa, se la rechaza, se está tomando una decisión
correcta. Diferente de la decisión correcta 1, así que le podemos llamar decisión correcta 2. (No es
un nombre estándar). La probabilidad de que esto ocurra se conoce cómo “potencia del test” y se
representa cómo:
1–β=Potenciadeltest=P(RH0|H0esF)1–β=Potenciadeltest=P(RH0|H0esF)
El nivel de significación (probabilidad de cometer el error de tipo 1) se establece a priori. Es la
probabilidad de rechazar la hipótesis nula cuando esta es verdadera. En general el enunciado del
ejercicio (o el investigador) establece un nivel de significación.
El error de tipo 1 se considera un error grave, que se quiere evitar. Hay necesidad de
controlarlo. αα debe ser pequeño. Valores usuales de αα pueden ser:
α=⎧⎪⎨⎪⎩0,010,050,10α={0,010,050,10
Estadístico de prueba
Basándonos en que X∼N(μ,σ)X∼N(μ,σ), y que conocemos σσ, entonces es posible afirmar que:
¯X–μσ√ n ∼N(0,1)X¯–μσn∼N(0,1)
Este es un estadístico de prueba que nos puede servir para realizar la prueba de hipótesis sobre μμ.
En el proceso se asume que H0H0 es verdadera hasta que se demuestre lo contrario (cómo en un
juicio se supone la inocencia hasta que se demuestre lo contrario).
Si asumimos que H0H0 es verdadera (μ=500μ=500) entonces el estadístico de prueba es:
eprueba=¯X–5005√ 100 ∼N(0,1)eprueba=X¯–5005100∼N(0,1)
En el numerador tenemos la diferencia ¯X–μX¯–μ si esa diferencia es “muy negativa” entonces
rechazaremos la hipótesis nula (porque significa que ¯XX¯ está muy por debajo de μμ).
Entonces ¿cómo se decide si se rechaza o no a la hipótesis nula? Los valores que puede tomar el
estadístico de prueba de dividen en dos zonas: “la zona de rechazo” y la “zona de no rechazo”. Si el
estadístico de prueba toma un valor dentro de la zona de rechazo se rechaza la hipótesis nula. Si el
estadístico de prueba toma un valor fuera de la zona de rechazo, no se rechaza la hipótesis nula.
Rechazaremos H0H0 si:
¯X–5005√ 100 <ValorcríticoX¯–5005100<Valorcrítico
Más adelante vamos a ver cómo hallar ese valor crítico.
Nivel de significación
zCzC debe ser aquel valor de la variable normal estándar que acumula un área de 0,05 a su izquierda.
Mirando la tabla de probabilidades normales, o bien usando un software, se puede determinar que:
Φ(zC)=0,05⇒zc=–1,64Φ(zC)=0,05⇒zc=–1,64
Regla de decisión:
Se rechaza H0H0 si el valor observado del estadístico de prueba es menor o igual a –1,64–
1,64.
No se rechaza H0H0 si el valor observado del estadístico de prueba es mayor que –1,64–1,64.
Hasta aquí no se utilizó la información recogida en la muestra. Recién ahora tomamos el dato sobre
la media muestral observada y reemplazamos en la expresión de estadístico de prueba para obtener
el valor observado del estadístico de prueba:
eprueba,obs=497,3–5000,5=–5,4eprueba,obs=497,3–5000,5=–5,4
Obtener la conclusión
En general la conclusión tiene dos versiones: una breve, y otra más detallada.
Cómo el valor observado del estadístico de prueba -5,4, cae en la zona de rechazo (–∞,–1,64)(–∞,–
1,64) se decide rechazar la hipótesis nula.
Esta conclusión está muy bien, pero no refiere a la situación general del problema concreto. Solo
dice si se rechaza o no la hipótesis nula.
LA CONCLUSIÓN DETALLADA
Por ejemplo en este caso podríamos escribir una conclusión detallada así:
Con un nivel de significación de 0,050,05 se rechaza la hipótesis nula, que afirma que la media del
peso de los paquetes de galletitas es de 500500 gramos, a favor de la hipótesis alternativa, que
afirma que la media del peso de los paquetes de galletitas es inferior a 500500 gramos. Habría que
re-calibrar la máquina que rellena los paquetes para que la media sea de 500500 gramos.
Pasos que se dan para realizar una prueba de hipótesis
{Primero:rechazoonoH0Luego:expresarlaentérminosdelproblema{Primero:rechazoonoH0Luego:ex
presarlaentérminosdelproblema
Otros problemas de prueba de hipótesis pueden ser muy diferentes. Otras variables, otros
estadísticos de prueba, hipótesis diferentes… etc. Pero en todos los problemas de prueba de
hipótesis se puede seguir esta secuencia de pasos.