Distribuciones A Priori Unidimensionales

ESTADSTICA ESPAOLA
Vol. 45, Nm. 154, 2003, pgs. 363 a 383

Distribuciones a priori unidimensiona-
les en Modelos No Regulares: Medidas
de Informacin( )
() Los autores queremos expresar nuestro agradecimiento al evaluador, cuyas suge-
rencias han contribuido a mejorar notablemente la versin inicial del trabajo.
por
FRANCISCO JAVIER ORTEGA IRIZO
JESS BASULTO SANTOS
Departamento de Economa Aplicada I. Facultad de Ciencias Econmicas y Empresariales
Universidad de Sevilla
RESUMEN
A partir de la Medida de Informacin de Akahira y Takeuchi (1991)
que generaliza la Informacin de Fisher a modelos no regulares, se
propone una extensin de la regla de Jeffreys que permite obtener
funciones a priori imparciales en modelos no regulares.
Palabras Clave: Medidas de Informacin, Informacin de Fisher, Mo-
delo regular, Distribucin a priori no informativa (o imparcial), Re-
gla de Jeffreys.
Clasificacin AMS: 62F15, 62A15, 62B10
364 ESTADSTICA ESPAOLA
1. INTRODUCCIN
Podemos decir que el objetivo fundamental de la estadstica es extraer la in-
formacin relevante que hay contenida en un conjunto de datos acerca de alguna
caracterstica desconocida. A la vista de ello, es fundamental disponer de tcnicas
de reduccin de la dimensionalidad, es decir, mtodos que permitan disponer de
la misma cantidad de informacin relevante pero con datos encuadrados en un
espacio de dimensin ms pequea (o en definitiva, trabajando con menos datos).
En este sentido, juegan un papel fundamental los estadsticos, que son funciones
del espacio muestral (de dimensin igual al nmero de observaciones n) en otros
espacios que pueden ser, y generalmente son, de menor dimensin; dentro de
ellos, son de especial importancia los estadsticos suficientes, que, en esencia, son
aquellos que contienen la misma informacin relevante que la muestra de tamao
n.
Es necesario entonces tener alguna medida de la cantidad de informacin rele-
vante que contiene un estadstico dado sobre la caracterstica desconocida o
parmetro desconocido. Una de estas medidas, como es bien conocido, es la
Informacin de Fisher, cuya aplicacin se limita a los llamados modelos regulares.
De todos es conocido las propiedades interesantes que tiene dicha medida de
informacin, que permite conocer cundo un estadstico es suficiente y, caso de no
serlo, cuantificar la prdida de informacin que se produce al trabajar con l.
Por otra parte, ya Jeffreys, en su gran obra Theory of Probability , us medidas
de informacin, sobre todo la Informacin de Fisher, para construir distribuciones a
priori no informativas.
As, teniendo en cuenta la importancia del concepto de informacin y que la In-
formacin de Fisher slo es aplicable a los modelos regulares, se hace necesario
disponer de una medida anloga para los llamados modelos no regulares, algunos
de los cuales son de verdadero inters tanto terico como prctico.
A partir de aqu, resumiremos, en la seccin primera, la definicin y propiedades
de la Informacin de Fisher. A continuacin se analizarn los modelos no regulares,
dando una medida de informacin aplicable a estos casos y que hereda las propie-
dades importantes de la Informacin de Fisher lo que permite conocer la prdida de
informacin que se produce al trabajar con un estadstico no suficiente. En la
seccin 2, siguiendo los pasos de Jeffreys, se propone una regla para construir
distribuciones a priori no informativas aplicable tambin a los modelos no regulares
y que se va a basar en el concepto de informacin estudiado, vindose posterior-
DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIN 365
mente algunas de las propiedades de la distribucin as definida. En la ltima
seccin, se sealarn las conclusiones fundamentales y los problemas abiertos.
2. INFORMACIN DE FISHER E INFORMACIN DE AKAHIRA
En esta seccin, vamos a recordar la definicin y propiedades ms importantes
de la Informacin de Fisher, para posteriormente considerar una medida de infor-
macin aplicable a modelos regulares y no regulares, que reproduce las propieda-
des de la informacin de Fisher, y ver la relacin existente entre ambas.
2.1. Informacin de Fisher. Propiedades
Como sabemos, la Informacin de Fisher es aplicable slo a los modelos regula-
res. Las condiciones de regularidad pueden variar ligeramente de unos autores a
otros segn el problema que se est tratando. Aqu vamos a seguir la definicin
propuesta en Azzalini (1996).
Definicin: Dada una familia de distribuciones
con funciones de
densidad ( ) , x f , decimos que constituyen un modelo regular si se verifican las
siguientes condiciones:
i) El modelo es identificable, en el sentido de que
2 1
, ha de existir al
menos un conjunto B del espacio muestral tal que ( ) ( )
2 1
.
ii) El espacio paramtrico es un intervalo abierto de
.
iii) Todas las funciones de densidad especificadas por el modelo tienen el mis-
mo soporte.
iv) Para la funcin f, la derivacin con respecto a y la integracin con respecto
a x pueden intercambiarse hasta orden dos. Concretamente:
1. ( ) ( )dx , x f dx , x f

y 2. ( ) ( )dx , x f dx , x f
2
2
2
2

donde debe entenderse que si k>1, entonces

2 2
representa
2 t
.
Como es conocido, a partir de las hiptesis anteriores pueden obtenerse las dos
propiedades siguientes:
1.
( )

]
]
]
,
0
, x f log
y 2.
( ) ( )

]
]
]
]
,
,
,

]
]
]
]
,
,
,
(
,
\
,
(
j

2
2
2
, x f log , x f log
Definicin: Se llama Informacin de Fisher que la variable X proporciona sobre
el parmetro
a
( )
( )
]
]
]
]
,
,
,
(
,
\
,
(
j

2
x
, x f log
.
Aplicando la propiedad 2, se obtiene que
( )
( )
]
]
]
]
,
,
,
(
(
,
\
,
,
(
j

2
2
x
, x f log
.
Dada una muestra aleatoria simple
n 1
X ,..., X y un estadstico ( )
n 1
X ,..., X T , uti-
lizaremos la siguiente notacin a partir de ahora: ( ) ( )
1
x
ser la informacin
proporcionada por una muestra de tamao 1; ( )
x
ser la informacin proporcio-
nada por la muestra de tamao n; ( )
ser la informacin proporcionada por el

estadstico T.
Nota: En el caso de ms de un parmetro, podemos aprovechar la propiedad 2
para definir la matriz de Informacin de Fisher como la matriz dada por:
( )
( )
( ) ( )
( )
]
]
]
]
,
,
,

]
]
]
]
,
,
,

j i
2
t
2
, x f log
, decir es ,
, x f log
j , i
.
Recordemos que la Informacin de Fisher verifica varias propiedades intere-
santes, entre las que destacamos:
i) Si T y S son estadsticos independientes, entonces
( )
( ) ( ) ( ) +
S T S , T
I .
Como consecuencia inmediata, ( ) ( ). n
1
x x
.
ii) T es auxiliar (es decir, su distribucin no depende del parmetro ) sii
( ) 0
T
.
iii) ( ) ( )
x T
, dndose la igualdad sii T es suficiente.
La Informacin de Fisher es de gran inters y utilidad desde diversas perspecti-
vas. En primer lugar, podemos estudiar la prdida de informacin que se produce al
trabajar con un estadstico T no suficiente calculando ( ) ( )
x
o bien
( ) ( )
x
. La Informacin de Fisher tambin juega un papel relevante al propor-
cionar la conocida cota de Cramer-Rao para la varianza de los estimadores inses-
gados y la varianza asinttica del estimador mximo-verosmil, que en modelos
regulares coincide con la cota y, por tanto, dicho estimador en estos casos es
asintticamente eficiente.
Adems, a partir de los trabajos de Jeffreys (1946,1961), el concepto de Infor-
macin de Fisher tom tambin relevancia dentro del enfoque Bayesiano, ya que
dada una reparametrizacin biyectiva y regular () (donde suponemos que
ambos parmetros son unidimensionales), sabemos que ( ) ( )
2
/ y por
tanto, la regla de obtencin de distribuciones a priori consistente en tomar
( ) ( ) es invariante ante reparametrizaciones, ya que verifica
( ) ( ) ( ) ( )

As, este autor propuso la llamada regla de Jeffreys para construir distribuciones
a priori no informativas basndose en el concepto de Informacin de Fisher. En el
caso univariante, esta es la opcin actualmente ms aceptada.
La importancia del concepto de Informacin de Fisher es indudable, aunque eso
s, recordando siempre que slo es aplicable a modelos regulares. Por ello, es
natural plantearse si habr alguna forma de generalizar este concepto o al menos
definir una medida de informacin aplicable a modelos no regulares y que tenga en
esencia todas las propiedades de la Informacin de Fisher. La idea entonces es
que una tal medida de informacin permitiera, en los modelos no regulares, calcular
la prdida de informacin correspondiente a un estadstico no suficiente y construir
una regla de eleccin de distribuciones a priori no informativas, que es el objetivo
del presente trabajo.
2.1. Informacin de Akahira. Propiedades
Hay muchas definiciones de medidas de informacin aplicables a modelos no
regulares, aunque nosotros vamos a trabajar slo con la que utilizan Akahira, y
Takeuchi (1991).
Consideremos una familia de distribuciones de probabilidad cuyas funciones de
densidad, con respecto a la medida de Lebesgue, sea ( ) , , x f y
n 1
,...,
una muestra aleatoria simple del modelo ( ) , x f . Definimos la cantidad de informa-
cin entre ( )
1
, f y ( )
2
, f como:
( ) ( ) ( ) dx , x f , x f log 8 , J
2 / 1
2
2 / 1
1 2 1 x
1


La integral que aparece en la definicin es conocida como la afinidad entre
( )
1
, f y ( )
2
, f (que llamaremos ( )
2 1 x
,
1
). Podemos observar de forma trivial
que:
Si
2 1
, entonces la afinidad es uno (es decir, la afinidad de una variable
consigo misma es uno).
Si ( ) ( )
2 1
sop sop , entonces la afinidad entre las distribuciones es
cero (donde ( )
i
sop representa el soporte de la densidad ( )
i
, x f ).
La afinidad es una medida de cun parecidas son las distribuciones, que toma
valores entre 0 y 1 (Matusita, 1955). Al ser la informacin una funcin decreciente
de la afinidad, obtendremos que la informacin es una medida de cun distintas
son las variables. Remarquemos tambin que la informacin entre dos variables
estar comprendida entre 0 e infinito, alcanzndose estos valores en los dos casos
extremos reseados anteriormente.
Dada una muestra aleatoria simple
n 1
,..., y un estadstico ( ) , la cantidad
de informacin aportada por T ser:
( ) ( ) ( ) dt , t f , t f log 8 , J
2 / 1
2
2 / 1
1 2 1

La Informacin de Akahira, reproduce las tres propiedades ms importantes de

la informacin de Fisher.
Propiedad 1: Dados los estadsticos S y T independientes, se verifica
( )
( ) ( ) ( )
2 1 T 2 1 S 2 1 T , S
, J , J , J + .
Notemos que a partir de este resultado es inmediato establecer que la informa-
cin proporcionada por una muestra aleatoria simple de tamao n ser n veces la
proporcionada por una muestra de tamao 1.
Propiedad 2: ( ) es un estadstico auxiliar (es decir, su distribucin es inde-
pendiente del parmetro) si y slo si ( ) 0 , J
2 1 T
.
Propiedad 3: Dado un estadstico ( ) se verifica ( ) ( )
2 1 x 2 1
, J , J
, dn-
dose la igualdad para todo par de valores
1
,
2
si y slo si T es suficiente para el
parmetro .
La demostracin de estas propiedades puede verse en Akahira y Takeuchi,
(1991).
Ejemplo 2.1: Consideremos el modelo Exponencial de parmetro >0, cuya
funcin de densidad es ( ) 0 x , e , x f
x
>

.
En este caso, 0 ,
2 1
> , tenemos ( ) ( )
2 1 2 1 2 1
/ 2 , + y por tanto,
( ) ( ) ( )
2 1 2 1 2 1
/ 2 log 8 , J + .
Ejemplo 2.2: Consideremos el modelo ( ) + , 2 / 1 , 2 / 1 U . Dados dos va-
lores
1
y
2
, en este caso obtenemos:
( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( )
+
+
+

2 1
2 1 2 1 2 1
2 1 1 2 1 2
2 1
sop sop si
sop sop y si 1 log 8
sop sop y si 1 log 8
, J
donde ( ) 2 , 1 i , 2 / 1 , 2 / 1 U
i i i
+ . Esta frmula, puede ser resumida en
( )
( )
> +

1 si
1 si 1 log 8
, J
2 1
2 1 2 1
2 1
2.2.3 Relacin entre las Informaciones de Fisher y de Akahira
Como hemos sealado anteriormente, la medida de informacin de Akahira
puede usarse como alternativa a la informacin de Fisher en aquellos modelos en
los que sta no se puede calcular (es decir, en los llamados modelos no regulares).
En el caso de modelos regulares, existe una conexin entre ambas medidas de
informacin reflejada en la siguiente proposicin, cuya demostracin puede verse
en Akahira y Takeuchi (1991).
Proposicin: En los modelos regulares, para h suficientemente pequeo se ve-
rifica:
( ) ( ) ( )
2 2
h o h h , J + +
A partir de la proposicin, podemos establecer inmediatamente el siguiente co-
rolario:
Corolario: En los modelos regulares, se verifica
( )
( )
2
0 h
h
h , J
lim
+

De este corolario, podemos extraer las dos conclusiones siguientes:

a) Tenemos que ( ) h , J + tiende a cero cuando h tiende a cero (para cual-
quier valor de ) y adems la velocidad de esta convergencia es del orden de h
2
.
b) Dado un h pequeo y fijo, mientras mayor sea ( ) , ms distintas sern
( ) , x f y ( ) h , x f + y, por tanto, mayor ser la capacidad de discriminacin entre
y +h.
Segn Pitman, (1979), pgs. 18 y 19, el trmino de informacin de Fisher es
inadecuado y propone que ( ) debera ser la sensibilidad en , ya que nos
muestra la variacin que experimentan las distribuciones ante pequeos cambios
en los parmetros.
Vemos as que a travs de esta definicin alternativa de la Informacin de
Fisher se mantiene la idea de su significado y, quizs, ste queda an ms claro
que a travs del proceso convencional de considerar la tasa de variacin relativa
( ) ( ) ( ) / ; x f log y calcular su varianza tras observar que la esperanza de dicha
cantidad es cero.
Indiquemos tambin que Pitman (1979), adopta como definicin de modelo re-
gular la existencia de ( ) ( )
2
0 h
h / h , J lim +
, resaltando que para que se cumpla esta

propiedad no es necesario que el recorrido de la variable no dependa del parme-
tro. En efecto, si consideramos el modelo cuya densidad es:
( )
( )
( )

x x e
2
1
, x f
2 x
,
es fcil comprobar que se verifican:
1.
( ) ( )
0
, x f log
h
h , J
lim
0 h
]
]
]
,
,

+
2.
( ) ( ) ( )
]
]
]
]
,
,
,

]
]
]
]
,
,
,
(
,
\
,
(
j

+
2
2
2
2
0 h
, x f log , x f log
1
h
h , J
lim
y por tanto este modelo sera regular, aunque el recorrido dependa del parmetro.
Es muy importante destacar que la propiedad expresada en este corolario, en
esencia, puede encontrarse en el artculo del propio Jeffreys (1946), pg. 455.
Aunque con notaciones muy distintas, y usando dos medidas de informacin dife-
rentes (ambas con el mismo comportamiento local, ante pequeas variaciones en
los parmetros, que la medida usada en el presente trabajo), establece que las
medidas de informacin consideradas son aparentemente las nicas que habi-
tualmente son de segundo orden en la diferencia de los parmetros de las leyes
cuando esta diferencia es pequea. Adems, tambin indica que su propuesta de
obtencin de la distribucin a priori no siempre es aplicable, poniendo como ejem-
plo el modelo ( ) , 0 U , donde el comportamiento es de primer orden (indica tambin
la excepcin de los modelos con espacio paramtrico discreto, en los cuales no
podemos derivar). Estas observaciones han sido fundamentales para el desarrollo
de la propuesta que nosotros haremos en el epgrafe siguiente.
Nota: Obsrvese cmo la informacin puede calcularse sin problemas en el ca-
so de ms de un parmetro. De hecho, la definicin de informacin puede estable-
cerse de forma ms general usando directamente medidas de probabilidad. En
concreto, en Akahira y Takeuchi (1991), la definicin que se ofrece es:
Dada una variable aleatoria X definida sobre un espacio muestral y P y Q me-
didas absolutamente continuas respecto a una medida -finita , definimos la
cantidad de informacin entre P y Q como:
( )
(
(
,
\
,
,
(
j
(
(
,
\
,
,
(
j
d
d
dQ
d
dP
log 8 Q , P J
2 / 1 2 / 1
La definicin ofrecida inicialmente en este trabajo no es ms que un caso parti-
cular, donde P y Q son las medidas de probabilidad inducidas por las variables
correspondientes a los parmetros
1
,
2
, la medida -finita considerada es la de
Lebesgue y las derivadas respecto a esta medida son las funciones de densidad de
las variables.
3. OBTENCIN DE DISTRIBUCIONES A PRIORI NO INFORMATIVAS
3.1. Eleccin de la distribucin a priori
Tras observar la relacin entre ambas medidas de informacin en los modelos
regulares, nos podemos preguntar qu ocurrira en el caso de considerar un modelo
no regular. Antes de pasar a resultados generales, vamos a ver un ejemplo.
Ejemplo 3.1: Consideremos el modelo ( ) ( ) + , 0 , , 0 U , con funcin de den-
sidad ( )

x 0 , , x f
1
.
Como es conocido, este modelo es no regular, puesto que
( ) ( ) dx , x f 0
1
dx , x f


Para h>0 obtendremos ( ) ( ) ( ) h / log 4 h , J + + mientras que para h<0 se
tendr ( ) ( ) ( ) + + / h log 4 h , J , por lo que en este modelo se verifica
( )
+
+
2
0 h
h
h , J
lim
Es decir, J(,+h) converge a cero cuando h tiende a cero, pero la velocidad de
esta convergencia es inferior a la de h
2
. Sin embargo, podemos comprobar que
dicha convergencia es tan rpida como la de |h|. En efecto, clculos elementales
de lmites nos llevan a:
( ) ( )

+
+
+

/ 4
h
h , J
lim
h
h , J
lim
0 h 0 h
Hemos visto as que en ambos casos (modelo regular y no regular) se tiene
( ) 0 h , J lim
0 h
+
(recordar que ( ) 0 , J ), si bien la velocidad de esta conver-

gencia es ms rpida en los modelos regulares que en el modelo uniforme. En la
literatura estudiada hasta ahora, esta medida de informacin ha sido usada funda-
mentalmente para definir la prdida de informacin que se produce al trabajar con
un estadstico no suficiente en un modelo no regular y ver si esta prdida de infor-
macin converge a 0 y con qu velocidad lo hace.
Este trabajo, sin embargo, trata de aprovechar la relacin existente entre ambas
medidas de informacin para proporcionar una propuesta de obtencin de distribu-
cin a priori no informativas, que sea aplicable tanto a modelos regulares como no
regulares. Sabemos que en los modelos regulares (con un nico parmetro) la
distribucin a priori no informativa comnmente aceptada es la de Jeffreys, a saber,
( ) ( ) ( )
2 / 1
que podemos escribir a partir del corolario como
( )
( )
2 / 1
2
0 h
h
h , J
lim
(
(
,
\
,
,
(
j
+

Segn el ejemplo visto anteriormente de la distribucin uniforme, y puesto que la

convergencia es del orden de |h|, proponemos como distribucin a priori para el
parmetro
( )
( )
h
h , J
lim
0 h
+

De forma global, nuestra propuesta es la siguiente:

1. Obtener k tal que
( )
( ) (
,
\
,
(
j +
C
h
h , J
lim
k
0 h
donde C() es una funcin que puede ser constante (pero no idnticamente nula ni
infinito).
2. Elegir como distribucin a priori
( )
( )
k / 1
k
0 h
h
h , J
lim
(
(
,
\
,
,
(
j
+

Ejemplo 3.1. (continuacin): En el ejemplo anterior de la distribucin uniforme

en (0,), como obtuvimos que el lmite era 4/, tendremos ( )
1
que es la
distribucin que se acepta comnmente como no informativa para este modelo, y
que coincide con la distribucin a priori de referencia de Bernardo y Smith (1994) y
con la distribucin imparcial de Basulto (1997).
Ejemplo 3.2: Consideremos el modelo ( ) + , 2 / 1 , 2 / 1 U , con funcin
de densidad
( )
2
1
x
2
1
, 1 , x f +
Para h>0, obtenemos ( ) ( ) h 1 log 8 h , J + , mientras que para h<0 la in-
formacin es ( ) ( ) h 1 log 8 h , J + + . Puede comprobarse sin dificultad que
tambin en este caso la velocidad de convergencia a 0 es del orden de |h| y que
se verifica
( )
8
h
h , J
lim
0 h
y por tanto, la distribucin a priori sera para este caso ( ) 1 , que coincide con
la distribucin a priori de referencia de Bernardo y Smith (1994) y con la distribu-
cin a priori imparcial de Basulto (1997).
Ejemplo 3.3: Consideremos la familia de modelos
( ) ( ) ( ) ( )

b x a , g , x f
1
donde a() y b() pueden ser constantes, pero suponemos que si no lo son, enton-
ces a() es estrictamente creciente y b() es estrictamente decreciente, siendo
ambas funciones derivables. En este caso, se tendr que ( ) ( ) ( ) 0 a b g y
adems g() es estrictamente decreciente y diferenciable. Sealemos que si supo-
nemos a() estrictamente decreciente y b() estrictamente creciente el desarrollo
del modelo es totalmente anlogo. Esta familia puede verse en Basulto (1997) y en
Kosmas (1990).
Para el caso h>0, la informacin es
( ) ( ) ( ) ( ) + + g log h g log 4 h , J
Por lo tanto, teniendo en cuenta que la funcin g es derivable, vamos a obtener
( ) ( )

+
+
g log
4
h
h , J
lim
0 h
El mismo resultado se tendr para el lmite por la izquierda, con lo que, teniendo
en cuenta que ( ) g es decreciente, la distribucin a priori que tomaremos ser
( )
( )

g log
que coincide con la obtenida a travs de la propuesta de Basulto(1997), y que
adems tiene unas propiedades muy interesantes como veremos posteriormente.
Nota: Puede comprobarse que el resultado es el mismo si consideramos el
modelo ( ) ( ) ( ) ( ) ( ) b x a , g / x c , x f imponiendo las mismas condiciones y
adems que ( ) 0 x c y que exista C(x) primitiva de c(x).
Ejemplo 3.4: Consideremos el modelo de Cauchy uniparamtrico definido por:
( )
( ) ( )

+
, x ,
x 1
1
, x f
2
Dados dos valores del parmetro
1
y
2
, la medida de informacin ( )
2 1
, J no
puede ser obtenida explcitamente, ya que la integral que aparece al aplicar la
definicin no es resoluble en este caso. No obstante, este modelo verifica todas las
propiedades de regularidad especificadas en la seccin 2.1, por lo que, aplicando el
corolario de la proposicin establecida en la seccin 2.2.3., obtendremos que
( )
( )
+
2
0 h
h
h , J
lim ,
y por tanto la distribucin a priori ser ( ) ( ) . Por otra parte, en este modelo
tendremos:
( )
( )
( )
( )
( ) ( )
( )
2
1
dx , x f
x 1
x 4
x 1
2 , x f log
2
2
2
2 2
2

(
(
,
\
,
,
(
j
+

]
]
]
]
,
,
,
y por tanto, la distribucin a priori sera ( ) 1 .
3.2. Expresin alternativa para la obtencin de la distribucin a priori
En esta seccin vamos a considerar una familia de modelos para los cuales va-
mos a deducir una expresin alternativa de la distribucin a priori, que permite su
clculo con mayor facilidad. Dicha familia de modelos es la que se considera en
Ghosal y Samanta (1997). En este artculo se estudia una familia no regular que
verifica una serie de condiciones y en ella se obtiene un desarrollo asinttico para
la distribucin a posteriori y la distribucin lmite de la misma. La situacin que se
plantea en este trabajo es la que sigue.
Sean
n 1
,..., independientes e idnticamente distribuidas con distribucin
y con densidad f(x,) respecto a la medida de Lebesgue en , donde

siendo abierto. Suponemos que , f(,) es estrictamente positiva en un
intervalo cerrado (acotado o no) ( ) ( ) ( ) [ ]
2 1
a , a S y vale cero fuera de l. Est
permitido que uno de los extremos sea constante y puede ser ms o menos infinito.
Vamos a exigir tambin que los conjuntos S() sean crecientes o decrecientes en
(es decir, que
2 1
< se verifique ( ) ( )
2 1
S S o bien ( ) ( )
2 1
S S ). En lo
que sigue se supone que son decrecientes (si son crecientes el desarrollo es
completamente anlogo), es decir, ( )
1
a es creciente y ( )
2
a decreciente; an
ms, vamos a suponer que estas funciones son estrictamente montonas y conti-
nuamente diferenciables a menos que sean constantes o valgan ms o menos
infinito.
Vamos a suponer adems las siguientes hiptesis:
1) En el conjunto ( ) ( ) ( ) , x f , S x : , x es conjuntamente continua en ( ) , x .
2) Para cada x, ( ) , x f log es dos veces diferenciable respecto a en el conjunto
( ) ( ) < <
2 1
a x a .
3) ( ) [ ]

/ , x f log , es finita.
Nota 1: Estas son algunas de las hiptesis (no todas), que se suponen en la
familia que aparece en el artculo de Ghosal y Samanta (1997). Indiquemos que,
segn se afirma en dicho trabajo, en Ghosal et al.(1995) se demuestra que las
condiciones exigidas son suficientes para la existencia de un lmite en probabilidad
de la distribucin a posteriori; Ghosh et al. (1994) aplican sus resultados a diversas
familias que no cumplen estas condiciones y obtienen que para ellas no existe un
lmite. As, en vista de estos dos artculos, la familia considerada es esencialmente
la nica para la que existe el lmite a posteriori.
Nota 2: Los modelos ms importantes que pertenecen a esta familia son:
1. La familia de localizacin: ( ) ( ) , x f , x f
0
donde ( ) z f
0
es una densi-
dad en el intervalo ) [ + , 0 . En este caso, ( )
1
a y ( ) +
2
a .
2. ( ) ( ) ( ) ( ) ( ) b x a , g / x c , x f (es decir, la familia tratada en el ejemplo
3.3).
Observemos que esta familia incluye a gran cantidad de modelos, entre los que
podemos destacar los modelos uniformes con soporte en (i) [0,], >0,
(ii) [-,],>0, (iii) [,1/], 0<<1, as como la familia truncada
( ) ( ) ( ) > x , G / x g , x f donde g() es una densidad en ( ) + , 0 y
( ) dt t g ) x ( G
x
+
. Indiquemos que el modelo de Pareto pertenece a la familia trunca-
da, ya que en este caso la funcin de densidad es ( )
( )
>
+
x , x , x f
1
y as
estamos en la situacin descrita tomando ( )

1
x x g y ( ) ( )

+

dt t g G
x
.
Sealemos tambin que modelos tales como los uniformes en [ ] 2 / 1 , 2 / 1 +
o en [ ] 2 , no estn en esta familia por no ser los soportes ni crecientes ni decre-
cientes en (es decir, dados
2 1
< en general no se verifica ni
( ) ( )
2 1
sop sop ni ( ) ( )
2 1
sop sop ).
Suponiendo las condiciones de regularidad (1), (2) y (3) vamos a establecer una
proposicin anloga a la que se desarrolla en Akahira y Takeuchi (1991) y que va a
servir para asegurar la existencia del lmite y decir cunto vale ste.
Proposicin. Bajo las condiciones sealadas anteriormente, se tiene:
( ) ( )
]
]
]
,
,

+
, x f log
4
h
h , J
lim
0 h
La demostracin puede llevarse a cabo siguiendo un camino similar al desarro-
llado para el caso regular, siendo la diferencia ms significativa que al hacer desa-
rrollos de Taylor de ( ) , x f log tomaremos orden 1 en vez de orden 2, ya que en el
caso regular se verifica
( ) ( )
( ) 0 dx , x f
, x f log , x f log

]
]
]
,
quedando as el comportamiento del desarrollo que se hace marcado por el trmino

de segundo orden, mientras que en el caso no regular dicho comportamiento lo
marca el trmino de primer orden al no ser su esperanza nula.
Como consecuencia de la proposicin, la distribucin a priori que elegiramos en
este caso sera:
( )
( )
]
]
]
,
,

, x f log
Nota: Si mantenemos todas las condiciones anteriores, pero suponiendo ahora
que ( )
1
a es estrictamente decreciente y que ( )
2
a es estrictamente creciente, se
puede repetir toda la demostracin, obtenindose ( ) ( ) [ ] / , x f log . En
definitiva, en la familia de modelos estudiada en Ghosal y Samanta (1997), obtene-
mos como distribucin a priori ( ) ( ) [ ] / , x f log que, evidentemente, ser
una distribucin vlida siempre que dicha esperanza no sea idnticamente nula.
Observemos tambin que en el caso de la familia (2) tratada anteriormente en el
ejemplo 3.3 se tiene
( ) ( ) ( ) ( )
]
]
]
,
,

]
]
]
,
,

g log , x f log g log , x f log
con lo que el resultado obtenido en el ejemplo concuerda con el obtenido a partir de
la proposicin. Puede verse tambin fcilmente que en el modelo ( ) , 0 U ambos
resultados coinciden.
Ejemplo 3.5: Consideremos la familia de localizacin: ( ) ( ) , x f , x f
0
donde ( ) z f
0
es una densidad en el intervalo [ ) + , 0 .
En este caso, al aplicar el resultado obtenido en la proposicin tenemos lo si-
guiente:
( ) ( )
( )
( )
( ) ( ) 0 f dz z f
, x f log
x f
x f , x f log
0
0
'
0
0
'
0

]
]
]
,
+
De esta forma, la distribucin a priori sera ( ) 1 siempre que f
0
(0) 0, en
cuyo caso lo que ocurre es que la convergencia de la informacin es de orden dos,
con lo que tendramos que calcular el lmite dividiendo por h
2
.
3.3. Propiedades de la distribucin a priori propuesta
3.3.1. Invarianza ante reparametrizaciones
La expresin alternativa que hemos propuesto en el epgrafe 3.2 para obtener
nuestra distribucin a priori no informativa conlleva a que, al menos en la familia de
Ghosal y Samanta (1997), la regla de construccin de distribuciones a priori sea
invariante ante reparametrizaciones. En efecto, trivialmente tenemos que:
( )
( ) ( ) ( )

]
]
]
,
,

]
]
]
,
,

]
]
]
,
,

, x f log , x f log , x f log
,
y, en definitiva, se obtiene ( ) ( ) / que es precisamente la propiedad de
invarianza buscada.
3.3.2 Propiedades frecuencialistas de los intervalos Bayesianos
Uno de los argumentos ms usados en la literatura para construir distribucio-
nes a priori no informativas (o para decidir si una determinada distribucin a priori
no informativa es una eleccin buena) es poder calcular con dichas distribuciones
intervalos bayesianos de probabilidad 1- cuyo nivel de confianza, en el sentido de
la estadstica clsica, sea tambin 1- ( o al menos, de forma aproximada).
El primer trabajo que puede considerarse en este sentido es el de Welch y
Peers (1963), en el que se demuestra que en modelos regulares y con un slo
parmetro la distribucin de Jeffreys es la nica que verifica
( ) [ ] ( )
1
n O 1 , S g

+ < donde ( ) , S g es el extremo superior del intervalo
bayesiano unilateral de probabilidad 1- obtenido a partir de una muestra S de la
variable X , es decir, ( ) [ ] < 1 S , S g , o lo que es lo mismo, ( ) , S g es el
percentil de orden 1 de la distribucin a posteriori de dada la muestra S.
En Ghosal (1999), se demuestra que, bajo las condiciones descritas en el ep-
grafe 3.2 para la familia de Ghosal y Samantha (1997), cualquier distribucin a
priori diferenciable lleva a intervalos unilaterales con probabilidad de cubrimiento en
sentido frecuencialista ( )
1
n O 1

+ ; sin embargo, tambin se establece en dicho
artculo que la nica distribucin a priori que verifica que los intervalos bayesianos
unilaterales de probabilidad 1 tienen probabilidad de cubrimiento ( )
2
n O 1

+ ,
es la obtenida segn nuestra propuesta.
Hagamos notar que en esta situacin no es aconsejable trabajar con intervalos
bilaterales, ya que tanto la distribucin a posteriori como la distribucin muestral de
, en el lmite, son muy asimtricas y estn muy concentradas en uno de los

extremos de su recorrido.
Aunque este resultado general es bastante importante, queremos destacar tam-
bin tres casos en los que la coincidencia de resultados entre la inferencia bayesia-
na y clsica es exacta, que son los que pasamos a describir a continuacin.
a) Sea la familia de modelos considerada en el ejemplo 3.3, cuya densidad vie-
ne dada por ( ) ( ) ( ) ( ) ( ) b x a , g / x c , x f , donde suponemos adems que
( ) a es estrictamente creciente y ( ) b estrictamente decreciente.
Para esta familia, en Basulto (1997) se establece que si ( ) + g , entonces,
siendo r(,) la funcin de distribucin a posteriori usando la distribucin a priori
propuesta en el presente trabajo, se verifica que r(,) es una variable aleatoria
cuya distribucin en el muestreo es U(0,1), lo que asegura que un intervalo unilate-
ral bayesiano de probabilidad 1- construido a partir de r(,) tiene tambin nivel de
confianza exactamente 1- (el intervalo Bayesiano coincidira con el intervalo
clsico basado en la cantidad pivotal r(,)). Si ( ) 0 c g > , entonces el resultado
se tiene asintticamente.
b) Sea la familia de localizacin considerada en el ejemplo 3.4, cuya densidad
viene dada por ( ) ( ) , x f , x f
0
donde ( ) z f
0
es una densidad en ) [ + , 0 .
Puesto que este modelo pertenece a la familia de Ghosal y Samantha (1997), es
aplicable el resultado general enunciado anteriormente. No obstante, es muy
interesante sealar que, para este caso, se establece que ( ) , r es una variable
aleatoria cuya distribucin condicionada al estadstico auxiliar
n 2
c , , c K es uni-
forme en ( ) 1 , 0 , siendo n , , 2 k , y y c
1 k k
K donde
n 1
y , , y K representa la
muestra ordenada. Por tanto, obtenemos a travs del procedimiento Bayesiano un
intervalo que coincide con el intervalo clsico que se obtiene al condicionar al
estadstico auxiliar (Basulto, 1997).
c) Consideremos por ltimo el modelo ( ) 2 / 1 , 2 / 1 U + , , que no res-
ponde a las condiciones de Ghosal y Samantha (1997) por no ser los soportes
crecientes ni decrecientes en . Con la distribucin a priori que se ha propuesto, es
decir, ( ) 1 , puede probarse que la funcin de distribucin a posteriori ( ) , r
sigue una distribucin ( ) 1 , 0 U (Basulto, 1997).
4. CONSIDERACIONES ACERCA DEL CASO MULTIPARAMTRICO
Cuando hay ms de un parmetro, es decir, cuando
m
, la regla gene-
ral de Jeffreys, aplicable al caso regular, consiste en tomar ( ) ( ) , donde
( ) representa el determinante de la matriz de informacin, lo que sigue asegu-
rando la invarianza ante reparametrizaciones arbitrarias. No obstante, esta opcin
presenta deficiencias importantes, que hacen que en muchos casos no sea la
opcin habitualmente elegida. En el caso del modelo Normal, ( ) , N X , con
ambos parmetros desconocidos, la regla general de Jeffreys conduce a tomar
como distribucin a priori ( )
2
,

. El mismo Jeffreys (1961), p.182 encuentra
esta distribucin inaceptable, ya que cuando se extiende al caso de k medias
desconocidas
k 1
, , K y varianza comn
2
, los grados de libertad resultantes en
la distribucin marginal t-Student de cada
i
no dependen de k. Un resultado muy
similar ocurre en el modelo de regresin lineal, pues si aplicamos la regla general
de Jeffreys para obtener la distribucin a priori, obtendremos que la distribucin a
posteriori para la varianza poblacional se relaciona con una distribucin
2
n
, inde-
pendientemente del nmero de variables explicativas del modelo.
Para evitar estos inconvenientes, Jeffreys sugiri una modificacin para su regla
general en el caso multiparamtrico que deba aplicarse en los modelos con par-
metros de localizacin y escala. Propuso que en estos casos, deban de tratarse los
parmetros de localizacin separadamente del resto (Jeffreys, 1961, p.182-183); es
decir, cuando tenemos parmetros de localizacin
k 1
, , K y un parmetro adicio-
nal de escala , entonces el autor recomienda utilizar ( ) ( ) , , ,
k 1
K , donde
( ) se calcula considerando
k 1
, , K fijos, lo que llevar definitivamente a to-
mar ( )
1
k 1
, , ,

K . As, aplicando la regla modificada al modelo Normal
obtendremos ( )
1
,

en vez de ( )
2
,

. Observemos que la regla
modificada resulta equivalente a obtener la distribucin de cada parmetro supo-
niendo que los otros son fijos y posteriormente, la distribucin multiparamtrica ser
el producto de las correspondientes unidimensionales.
Un camino interesante para la construccin de distribuciones a priori multidi-
mensionales consiste en obtener las mismas a partir de ciertas distribuciones
unidimensionales (bien marginales o bien condicionadas). Supongamos por simpli-
cidad que ( )
2
2 1
, ; sean ( )
2 1
, la distribucin a priori conjunta,
( )
1 1
y ( )
2 2
las respectivas distribuciones marginales y ( )
2 1 2 1
y
( )
1 2 1 2
las condicionadas. En este caso, podemos plantearnos definir la distri-
bucin a priori ( )
2 1
, como producto de las marginales o bien como producto de
una condicionada por una marginal (si nuestro parmetro de inters es
1
conside-
raramos ( ) ( )
2 2 2 1 2 1
y en caso contrario ( ) ( )
1 1 1 2 1 2
). Otro camino
posible, cuando los dos parmetros son de inters, es obtener ( )
2 1 2 1
y
( )
1 2 1 2
y buscar posteriormente una distribucin conjunta compatible con
ambas condicionadas (que no siempre tiene por qu existir). En este sentido, en
Arnold y otros (1999), pg. 8, se establece que las dos distribuciones condiciona-
das definen una conjunta compatible si, denotando
( ) ( ) ( ) ( ) 0 : , N y 0 : , N
1 2 1 2 2 1 2 2 1 2 1 2 1 1
> >
se verifica que N N N
2 1
y adems existen funciones ( )
1
h y ( )
2
h tales que
( ) ( ) ( ) ( ) ( ) N , , h h /
2 1 2 1 1 2 1 2 2 1 2 1

donde ( ) <
1 1
d h . Para el caso que nos ocupa, es decir, la bsqueda de distri-
buciones a priori, la ltima condicin de integrabilidad puede obviarse, ya que las
densidades a priori pueden ser, y de hecho son muy a menudo, impropias (Arnold y
otros, pg. 133).
Pensamos que la posible generalizacin al caso multidimensional de nuestra
propuesta debe basarse en esta ltima va de construir la distribucin a partir de
ciertas marginales o condicionadas, aunque es todava un tema abierto y que ser
objeto de trabajos futuros.
5. CONCLUSIONES
Acudiendo a los trabajos e ideas originales de Jeffreys, hemos propuesto un
procedimiento para obtener distribuciones a priori no informativas, aplicable tanto a
modelos regulares como no regulares. Puesto que si el modelo es regular, nuestra
distribucin a priori coincide con la que se obtiene a travs de la regla de Jeffreys,
puede entenderse que nuestra propuesta es una generalizacin de la misma.
La medida de Informacin usada por Akahira y Takeuchi (1991), se revela su-
mamente interesante, pues reproduce las propiedades de la Informacin de Fisher.
Como hemos comprobado, la distribucin a priori propuesta muestra buen com-
portamiento en lo que se refiere a la propiedad de invarianza ante reparametriza-
ciones. Asimismo, vemos que los intervalos bayesianos obtenidos, tienen buen
comportamiento frecuencialista.
Es importante resaltar que, cuando en el modelo no existe un estadstico sufi-
ciente de la misma dimensin que el espacio paramtrico, los intervalos bayesianos
coinciden con los obtenidos a travs del Principio de Condicionar de Fisher y no
con los intervalos clsicos no condicionados. Aunque esta ltima propiedad slo se
ha comentado en el presente trabajo para el modelo ( ) ( ) , x f , x f
0
hemos podido comprobar que se repite en ms casos.
REFERENCIAS
AKAHIRA, M. and TAKEUCHI, K. (1991), A Definition of Information Amount Applica-
ble to Non-Regular Cases, Journal of Computing and Information, 2, 71-92.
ARNOLD, B.C., CASTILLO, E. and SARABIA, J.M. (1999), Conditional Specification of
Statistical Models, Springer Series in Statistics, Springer-Verlag, New York.
AZZALINI, A. (1996), Statistical Inference Based on the Likelihood, Chapman and
Hall, London.
BASULTO, J. (1997), Funciones a Priori Imparciales Unidimensionales, Estadstica
Espaola, 39, n 142, 99-128.
BERNARDO, J.M. and SMITH, A.F.M. (1994), Bayesian Theory, John Wiley and
Sons, Chichester.
COX, D.R. and REID, N. (1987), Parameter Ortogonality and Approximate Condi-
tional Inference, J. Roy. Statist. Soc., Ser. B, 49, 1-39.
GHOSAL, S. (1999), Probability Matching Priors for Non-Regular Cases, Biome-
trika, 86, n 4, 956-964.
GHOSAL, S. and SAMANTA, T. (1997), Asymptotic Expansions of Posterior Distribu-
tions in Non-Regular Cases, Ann. Inst. Statist. Math., 49, n 1, 181-197.
GHOSAL, S., GHOSH, J.K. and SAMANTA, T. (1995), On Convergence of Posterior
Distributions, Ann. Statist., 23, 2145-2152.
GHOSH, J.K., GHOSAL, S. and SAMANTA, T. (1994), Stability and Convergence of
Posterior in Non-Regular Problems, Statistical Decision Theory and Related
Topics V, (eds. SS. Gupta and J.O. Berger), 183-199, Springer, New-York.
JEFFREYS, H. (1946), An Invariant Form for the Prior Probability in Estimation
Problems, Proc. Roy. Soc. (London), Ser. A, 186, 453-461.
JEFFREYS, H. (1961), Theory of Probability, 3
rd
. edition, Oxford University Press,
London.
KOSMAS, K.F. (1990), Shortest Confidence Intervals for Families of Distributions
Involving Truncation Parameters, The American Statician, 44, 167-168.
MATUSITA, K. (1955), Decisin Rules Based on the Distance for Problems of Fit,
two Samples and Estimation, Ann. Math. Statist., 26, 631-640.
PITMAN, E.J. (1979), Some Basic Theory for Statistical Inference, Chapman and
Hall, London.
WELCH, B.L. and PEERS, H.W. (1963), On Formulae for Confidence Points Based
on Integral of Weithed Likelihoods, J.R. Statist. Soc., Ser. B, 25, 318-329.
ONE-PARAMETER PRIOR DISTRIBUTIONS FOR NON-REGULAR
MODELS: AMOUNTS OF INFORMATION
SUMMARY
From the Information Measure of Akahira and Takeuchi (1991),
that it generalizes the Fisher Information to non-regular models, an
extension of the Jeffreys Rule sets out, that allows to obtain noninfor-
mative prior distributions in non-regular cases.
Key words: Amount of Information, Fisher Information, Regular model,
Noninformative prior distribution, Jeffreys Rule
AMS classificcation: 62F15, 62A15, 62B10

Distribuciones A Priori Unidimensionales

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Distribuciones A Priori Unidimensionales

Enviado por

Direitos autorais:

Formatos disponíveis

ESTADSTICA ESPAOLA

Vol. 45, Nm. 154, 2003, pgs. 363 a 383

donde debe entenderse que si k>1, entonces

ser la informacin proporcionada por el

368 ESTADSTICA ESPAOLA

La Informacin de Akahira, reproduce las tres propiedades ms importantes de

De este corolario, podemos extraer las dos conclusiones siguientes:

, resaltando que para que se cumpla esta

372 ESTADSTICA ESPAOLA

(recordar que ( ) 0 , J ), si bien la velocidad de esta conver-

Segn el ejemplo visto anteriormente de la distribucin uniforme, y puesto que la

De forma global, nuestra propuesta es la siguiente:

Ejemplo 3.1. (continuacin): En el ejemplo anterior de la distribucin uniforme

y con densidad f(x,) respecto a la medida de Lebesgue en , donde

quedando as el comportamiento del desarrollo que se hace marcado por el trmino

, en el lmite, son muy asimtricas y estn muy concentradas en uno de los

Você também pode gostar