Clase Factor de Bayes

Pruebas de Hipótesis Bayesianas
Teorı́a y propiedades
Christian Amao Suxo
Universidad Nacional de Ingenierı́a

Escuela Profesional de Ingenierı́a Estadı́stica
Junio, 2018
Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 1 / 18

Temario
1 Pruebas de Hipótesis Bayesianas

El Factor de Bayes
Enfoque frecuentista vs bayesiano: P-valor vs P(H0 |Xn )
Pruebas de hipótesis en muestras grandes

Pruebas de Hipótesis Bayesianas El Factor de Bayes

El Factor de Bayes

¿ Cómo se prueban hipótesis bajo el enfoque bayesiano?
Se desea probar Ho : θ ∈ Θo vs H1 : θ ∈ Θ1 donde Θ = Θo ∪ Θ1 .

Sean πo y 1 − πo las probabilidades aprioris de Θo y Θ1 respectivamente.
Sea gi (θ) la función de probabilidad de θ suponiendo que θ ∈ Θi , esto es
Z
gi (θ)dθ = 1. (1)
Θi
Con esto se define la distribución priori de la siguiente forma
π(θ) = πo go (θ)I {θ ∈ Θo } + (1 − πo )g1 (θ)I {θ ∈ Θ1 } (2)

¿Cómo se prueban hipótesis bajo el enfoque bayesiano?
Hallando la distribución posteriori con esta distribución priori, se obtiene:

 π f (X |θ)g (θ)
o o
 RΘ π(θ)f (X |θ)dθ
 θ ∈ Θo
π(θ)f (X |θ) 
π(θ|X ) = R = (3)
Θ π(θ)f (X |θ)dθ R o )f (X |θ)g1 (θ)
 (1−π

θ ∈ Θ1

Θ π(θ)f (X |θ)dθ
Una vez conocida la distribución aposteriori se procede a calcular las

probabilidades aposterioris a favor de Ho y H1 :
Z
πo
P(Ho |X = x) = R f (X |θ)go (θ)dθ (4)
Θ π(θ)f (X |θ)dθ Θo
1 − πo
Z
P(H1 |X = x) = R f (X |θ)g1 (θ)dθ (5)
Θ π(θ)f (X |θ)dθ Θ1

¿Cómo se prueban hipótesis bajo el enfoque bayesiano?
Dividiendo (4) y (5) se obtiene el odds ratio aposteriori:

R
P(Ho |X ) πo f (X |θ)go (θ)dθ
Odds ratio aposteriori := = RΘo
P(H1 |X ) 1 − πo Θ1 f (X |θ)g1 (θ)dθ
R
πo f (X |θ)go (θ)dθ
de donde es el odds ratio apriori y RΘo es conocido como
1−πo Θ f (X |θ)g1 (θ)dθ
1
el Factor de Bayes.

¿En qué consiste el factor de Bayes?
Dada una muestra de tamaño n, Xn con función de densidad poblacional

f (x|θ) con θ ∈ Θ. Supóngase que se tiene interés en probar la hipótesis:
H0 : θ ∈ Θ0 vs H1 : θ ∈ Θ1 .
Sea:
Z
mi (xn ) = f (Xn = xn |θ)gi (θ)dθ, i = 0, 1.
Θi
El factor de Bayes se define como:

R
m0 (xn ) f (Xn = xn |θ)go (θ)dθ
BF01 (xn ) := = RΘo (6)
m1 (xn ) Θ1 f (Xn = xn |θ)g1 (θ)dθ

¿En qué consiste el Criterio de Información de Bayes?
Teorema
Existe una relación explı́cita entre P(H0 |xn ) y BF01 (xn ) si π0 se conoce.
Esta está dada por:
−1
1 − π0 −1
P(H0 |xn ) = 1+ BF01 (xn ) (7)
π0

Pruebas de Hipótesis Bayesianas Enfoque frecuentista vs bayesiano: P-valor vs P(H0 |Xn )

El Factor de Bayes

¿Qué es el p-valor?
P-valor
El p-valor se define como la probabilidad de obtener un resultado al menos
tan extremo como el que realmente se ha obtenido (valor del estadı́stico
calculado), suponiendo que la hipótesis nula es cierta. En términos de
probabilidad condicional: P(Obtener un resultado al menos tan extremo |H0 )
Observaciones:
1 Los p-valores pueden indicar cómo son los datos de incompatibles con
cierto modelo estadı́stico.
2 Los p-valores no miden la probabilidad de que la hipótesis nula sea
cierta.
3 Conclusiones cientı́ficas no deberı́an basarse únicamente en el hecho
de que un p-valor supere un umbral especificado.

¿Qué es la probabilidad posteriori de H0

Probabilidad posteriori de H0
Dada una distribución priori para el parámetro en Θ0 y Θ1 , la probabilidad
posteriori de H0 es la evidencia que existe a favor de H0 cuando se
actualiza la priori con la información de la muestra. En función del factor
de Bayes, esta se puede expresar como:
1 − π0 −1
P(H0 |Xn ) = {1 + BF01 (Xn )}−1 (8)
π0
Observaciones:
1 La probabilidad posteriori de H0 depende de la selección de la
distribución priori.
2 Para evitar esta dependencia de la distribución priori, lo ideal es
conseguir la robustez en la priori. Para ello consideramos una clase de
prioris y para no tener preferencia alguna se toma la mı́nima
probabilidad posteriori de H0 en toda la clase de prioris candidatas.
¿Existen grandes diferencias entre el p-valor y P(H0 |xn )?

Ejemplo 1
Supongamos que Xn = {X1 , , . . . , Xn } es una muestra con X ∼ N (θ, σ 2 )
donde σ 2 = 1. Supóngase que se desea probar H0 : θ = θ0 vs H1 : θ 6= θ0 .
Bajo estas condiciones:
√
1 P-valor: α = 2(1 − Φ(t)) donde t = | n(X − θ0 )| y Φ es la función
de distribución de la normal estándar.
2 P(H0 |Xn ): A priori suponemos que θ ∼ N (θ0 , 1), el Factor de Bayes
resultante es:
√ nt 2

BF01 = n + 1 × exp − (9)
2(n + 1)
Suponiendo que π0 = 1/2 y usando la relación entre P(H0 |Xn ) y

BF01 (Xn ) se obtiene el resultado.

¿Existen grandes diferencias entre el p-valor y P(H0 |Xn )?
Tabla: Medidas del p-valor, factor de Bayes (FB) y la probabilidad posteriori de

H0 (PH) para el caso de una hipótesis nula bilateral en un modelo de distribución
normal. (Fuente: Introduction to bayesian analysis, Ghosh et. al., pag. 165 ).
n
1 5 10 20 50 100
t p − valor BF PH BF PH BF PH BF PH BF PH BF PH
1.645 0.10 0.72 0.42 0.79 0.44 0.89 0.47 1.27 0.56 1.86 0.65 2.57 0.72
1.960 0.05 0.54 0.35 0.49 0.33 0.59 0.37 0.72 0.42 1.08 0.52 1.50 0.60
2.576 0.01 0.27 0.21 0.15 0.13 0.16 0.14 0.19 0.16 0.28 0.22 0.37 0.27
3.291 0.001 0.10 0.09 0.03 0.03 0.02 0.02 0.03 0.03 0.03 0.03 0.05 0.05
Observación: Se observa que P(H0 |xn ) varı́a entre 4 y 50 veces el

correspondiente p-valor. ¿Será que depende de la elección de π0 y g1 (θ)?

Pruebas de Hipótesis Bayesianas Pruebas de hipótesis en muestras grandes

El Factor de Bayes

¿Qué ocurre con las discrepancias entre el p-valor y

P(H0 |xn ) cuando el tamaño de muestra es grande?
Paradoja de Jeffreys - Lindley

Dada una hipótesis H0 vs H1 y una distribución priori π para el parámetro,
la paradoja de Jeffreys - Lindley ocurre cuando:
lim P(H0 |Xn = xn ) = 1 (10)

n→∞
y esto conlleva a que se cumplan las siguientes dos condiciones

simultáneamente:
1 La prueba de hipótesis bajo el enfoque frecuentista indica suficiente
evidencia para rechazar H0 .
2 La probabilidad posteriori de H0 indica que existe fuerte evidencia a
favor de H0 en vez de H1 .

¿En qué consiste la paradoja de Jeffreys - Lindley?
Ejemplo 3
Supóngase que se desea saber si existe una proporción equilibrada de
hombres y mujeres en cierta población. Para ello, se extrae una muestra
de n = 98451 personas y se observó que 49581 personas eran hombres.
Estadı́sticamente, se desea probar si H0 : θ = 0.5 vs H1 : θ 6= 0.5 donde θ
es la proporción poblacional de hombres (o de mujeres) en la población.
Enfoque frecuentista: Suponiendo H0 cierta y como n es
suficientemente grande, X ∼ N (nθ, nθ(1 − θ)). Entonces el p-valor
será p = 2(1 − Φ(tc )) donde
√
tc = | n(X /n − 0.5)/0.5|
Calculando se obtiene que p ≈ 0.023. Por tanto, a un nivel de

significancia del 5%, se rechaza H0 .

¿Qué ocurre con las discrepancias entre el p-valor y

P(H0 |Xn ) cuando el tamaño de muestra es grande?
Ejemplo 3 (Continuación)
Enfoque Bayesiano: Suponiendo que g1 (θ) = 1 y suponiendo que
π0 = 0.5 se obtiene que P(H0 |X = 49581) ≈ 0.95. Se concluye que
existe suficiente evidencia más a favor de H0 que de H1 .
Observación:
Según el enfoque frecuentista, estas diferencias observadas se deben a
que el nivel de significancia del test se mantiene constante para
cualquier tamaño de muestra.
Solución propuesta del enfoque clásico: A medida que el tamaño de
muestra crece el nivel de significancia debe disminuir. Se propone
αn = n−k con k ≥ 1/2. Para el ejemplo, si k = 1/2, αn = 0.00318

¿Qué solución propone el enfoque bayesiano?

Alternativa de Pitman y prioris reescaladas
Dada la hipótesis H0 : θ = θ0 vs H1 : θ 6= θ0 , Pitman propone transformar
√
la H1 en θ = θn = θ0 + δ/ n con δ > 0 y de acuerdo a esta forma,
reescalar la forma de la distribución priori.
Ejemplo 4
Supóngase que se tiene una muestra X1 , . . . , Xn con X ∼ N (θ, 1) y se
desea probar que H0 : θ = 0 vs H1 : θ 6= 0. Si se supone una distribución a
priori no informativa para θ (la distribución impropia, por ejemplo) se llega
a la paradoja de Jeffreys - Lindley. Sin embargo, si ahora tomamos en
cuenta la alternativa de Pitman, la priori g1 (θ) según H1 nos conlleva a
√ n δ 2
proponer θ ∼ N (0, δ/n) y se obtiene que BF01 = δ + 1e − 2 ( δ+1 )X . Ası́,
√
si el p-valor es cercano a cero, entonces n|X | → ∞ y por tanto
BF01 → 0, i.e. se resuelve la paradoja de Jeffreys - Lindley.

Clase Factor de Bayes

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Clase Factor de Bayes

Enviado por

Direitos autorais:

Formatos disponíveis

Pruebas de Hipótesis Bayesianas

Christian Amao Suxo

Universidad Nacional de Ingenierı́a

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 1 / 18

1 Pruebas de Hipótesis Bayesianas

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 2 / 18

1 Pruebas de Hipótesis Bayesianas

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 3 / 18

¿ Cómo se prueban hipótesis bajo el enfoque bayesiano?

Se desea probar Ho : θ ∈ Θo vs H1 : θ ∈ Θ1 donde Θ = Θo ∪ Θ1 .

Con esto se define la distribución priori de la siguiente forma

π(θ) = πo go (θ)I {θ ∈ Θo } + (1 − πo )g1 (θ)I {θ ∈ Θ1 } (2)

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 4 / 18

¿Cómo se prueban hipótesis bajo el enfoque bayesiano?

Hallando la distribución posteriori con esta distribución priori, se obtiene:

Una vez conocida la distribución aposteriori se procede a calcular las

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 5 / 18

¿Cómo se prueban hipótesis bajo el enfoque bayesiano?

Dividiendo (4) y (5) se obtiene el odds ratio aposteriori:

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 6 / 18

¿En qué consiste el factor de Bayes?

Dada una muestra de tamaño n, Xn con función de densidad poblacional

El factor de Bayes se define como:

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 7 / 18

¿En qué consiste el Criterio de Información de Bayes?

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 8 / 18

1 Pruebas de Hipótesis Bayesianas

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 9 / 18

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 10 / 18

¿Qué es la probabilidad posteriori de H0

¿Existen grandes diferencias entre el p-valor y P(H0 |xn )?

Suponiendo que π0 = 1/2 y usando la relación entre P(H0 |Xn ) y

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 12 / 18

¿Existen grandes diferencias entre el p-valor y P(H0 |Xn )?

Tabla: Medidas del p-valor, factor de Bayes (FB) y la probabilidad posteriori de

Observación: Se observa que P(H0 |xn ) varı́a entre 4 y 50 veces el

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 13 / 18

1 Pruebas de Hipótesis Bayesianas

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 14 / 18

¿Qué ocurre con las discrepancias entre el p-valor y

Paradoja de Jeffreys - Lindley

lim P(H0 |Xn = xn ) = 1 (10)

y esto conlleva a que se cumplan las siguientes dos condiciones

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 15 / 18

¿En qué consiste la paradoja de Jeffreys - Lindley?

Calculando se obtiene que p ≈ 0.023. Por tanto, a un nivel de

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 16 / 18

¿Qué ocurre con las discrepancias entre el p-valor y

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 17 / 18

¿Qué solución propone el enfoque bayesiano?

Christian Amao Suxo (UNI) Pruebas de Hipótesis Bayesianas Junio, 2018 18 / 18

Você também pode gostar