Escolar Documentos
Profissional Documentos
Cultura Documentos
MTODOS ESTADSTICOS
PREDICTIVOS
Nancy Lacourly.
2008
PREFACIO
El curso de mtodos estadsticos predictivos, obligatorio para los alumnos de ingeniera matem-tica, profundiza y complementa los temas de anlisis multivariados vistos en el curso de estadstica. Se trata de dar
justificaciones matemticas de los mtodos as como aspectos aplicados.
Los modelos pretenden representar estructuras de un fenmeno descrito mediante datos. Todo modelo estadstico se basa en supuestos y simplifica la realidad. Es entonces importante verificar la validez del modelo,
tanto los supuestos en los cuales se basa el modelo as como la calidad de la aproximacin que el modelo
hace del fenmeno.
ndice general
1. FUNDAMENTOS MATEMTICOS
1.1.1. Definiciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2. Aplicaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Captulo 1
FUNDAMENTOS MATEMTICOS
En este captulo se ven algunos resultados matemticos o estadsticos tiles para los captulos siguientes.
1.1.
Derivacin matricial.
1.1.1.
Definiciones.
f
x1
.
f
..
f =
=
X
f
x p
2
f
f
Hf =
=
=
xi x j i, j
X
1.1.2.
2 f
x12
2 f
x2 x1
..
.
2 f
x1 x2
2 f
x22
..
.
...
2 f
x p x1
...
...
...
..
2 f
x1 x p
2 f
x2 x p
..
.
2 f
x2p
f
f
es una matriz de trmino general
.
A
ai j
Aplicaciones.
f /X = u
f = AX
f /X = A
f=
X t BY
f /X = BY
2 f /XY = B
2 f /X 2 = A + At
f = X t AX
(p = r)
f /X = (A + At )X
f = X t AX
(p = r)
f /A = XX t
f = X t AX
(A = At )
f /X = 2AX
f = Traza(BA)
f /A = Bt
f = Traza(BAAt ) (p = r)
f /A = (B + Bt )A
9
2 f /X 2 = 2A
|A| =
ai j Ai j
j=1
entonces
1.2.
A ji
|A|
= |A|(At )1 dado que (A1 )i j =
.
A
|A|
Inversa generalizada
En un sistema de ecuaciones: x = y, si la matriz es invertible (1 ), entonces x = 1 y. Con el concepto de inversa generalizada o g-inversa queremos definir el conjunto de soluciones y las propiedades
asociadas.
Sea de orden p y de rango r. Si r = p, entonces es invertible, si no, existen matrices , g-inversa de
tales que = . Es decir: x = y es una solucin de x = y. Se observar que no es igual a la
identidad salvo si es invertible, pero se tiene:
( )2 =
( )2 = .
La matriz g-inversa no es invertible ni nica. Para definir una g-inversa nica se puede imponer que la
g-inversa de sea y que y sean simtricas. Tal inversa generalizada nica1 es la inversa
generalizada de Penrose que se denotar + .
Propiedades: Sea X(nxp) de rango incompleto r < p y G una g-inversa de X t X. Muestre que
Gt es una g-inversa de X t X.
GX t es una g-inversa de X. Mostramos que XGX t X = X. Como G es una g-inversa de X t X, se tiene:
X t XGX t X = X t X. Luego X t XGX t X X t X = 0 (GX t X I)(X t XGX t X X t X) = 0 (XGX t X
X)t (XGX t X X) = 0 XGX t X X = 0.
XGX t es invariante para cualquier g-inversa G de X t X. Del resultado anterior se deduce que si G1 y
G2 son g-inversas de X t X, XG1 X t X = XG2 X t X, o sea XG1 X t = XG2 X t .
XGX t es simtrica an si G no lo es. Si G1 es una g-inversa simtrica de X t X entonces XG1 X t es
simtrica. De la propiedad de invarianza se deduce el resultado.
Se nota que las segunda y tercera propiedades anteriores se basan en el siguiente resultado:
1 Ver
10
1.3.
1.3.1.
M-simetra.
Sea F un espacio vectorial real (e.v.r) de dimensin n (F = IRn ) y M una matriz simtrica definida positiva
(f.c.d.p.s.) sobre F. A todo x e y de F se le asocia el producto escalar M, que define una metrica euclideana
en F:
< x, y >M = M(x, y) = xt My = yt Mx
Se obtiene entonces la distancia euclidiana entre x e y:
d(x, y) =
Definicin 1.1 Se dice que una aplicacin lineal A de F en F es M-simtrica si y solo si M es simtrica,
definida positiva y x, y F :< x, A(y) >M =< A(x), y >M .
Se deduce que si A es M-simtrica, entonces (M A)t = M A. En particular, si M = In se obtiene la mtrica
usual y entonces A es simtrica. En ese caso los valores propios de la matriz A, que es simtrica, son reales y
existe una base ortonormal de F formada de vectores propios de A. Si A es M-simtrica, se extienden estos
resultados:
11
Proposicin 1.2 Si A es M-simtrica, sus valores propios son reales y existe una base M-ortonormal de F
formada de vectores propios de A. Si 1 , 2 ,. . . , n son los valores propios de A, entonces existe una matriz
U tal que si U1 , U2 ,. . . , Un son las columnas de U entonces AU j = jU j con U t MU = In .
1.3.2.
Proyectores.
!(u, v) H G tq
x = u+v
Ahora bien Py H, luego existe un vector b IRr tal que Py = Xb. De aqu se obtienen las ecuaciones
normales:
X t MXb = X t My
12
1.3.3.
y1
Y =
y2
..
.
E(Y ) =
2
..
.
= ,
yp
Si es de rango r (r < p) y la matriz restriccin de T a los r vectores asociados a los valores propios
no nulos, entonces: = T . Si el vector aleatorio Z es un vector de media nula y matriz de varianzacovarianza igual a Ip , entonces + Z es un vector de media y matriz de varianza-covarianza = t .
Existen una infinidad de descomposiciones de , pero si se pide que T sea triangular inferior, se obtiene la
descomposicin de Choleski.
Si es de rango p, = T es invertible, entonces Z = 1 (Y ) es un vector aleatorio de dimensin p
de media nula y matriz de varianza-covarianza Ip . El cambio de variables X = 1Y permite pasar de la
mtrica 1 a la mtrica Ip :
p
|Zk2Ip = kY k21
Calculemos la media y la varianza de kY k21 .
p
i=1
z2i
!
.
i=1
1.3.4.
el resultado buscado2 .
1.4.
1.4.1.
Definiciones y propiedades.
Se supone ahora que el vector Y IR p es un vector normal. Se puede definir de dos maneras equivalentes la
distribucin normal multivariada.
Definicin 1.2 Se dice que Y es un vector normal multivariado de orden p de vector de media y de
matriz de varianza-covarianza (se denota Y Np (, )), si y slo si:
u IR p IR : uT Y N(uT , uT u).
Es decir que si Y es un vector normal entonces toda combinacin lineal de Y es una variable aleatoria
normal.
Definicin 1.3 Se dice que Y Np (, ) si y slo si su funcin caracterstica es:
1 T
v IR : Y (v) = exp iv v v .
2
p
Propiedades:
Tomando como vector u a los distintos vectores cannicos, se obtienen que las leyes marginales de
Y son normales, pero la recproca es falsa: un vector formado de variables normales no es necesariamente un vector normal.
Sea A Mq,p : Y Np (, ) X = AY Nq (A, AAT ).
Las v.a. yi son independientes es diagonal.
Si es de rango r, existe una matriz M p,r tal que = T entonces
Y Np (, ) Y = + X
con X Nr (0, Ir )
es decir que las componentes del vector X son centradas, normalizadas e independientes entre si.
Si es invertible, es invertible tambin y X = 1 (Y ). Se puede escribir tambin X = 1/2 (Y
) (es la transformacin de Mahalanobis ).
2 Concluya
usted.
15
Esta ltima propiedad permite calcular la densidad del vector X en el caso que es invertible. En efecto, se
puede calcular la densidad del vector X Np (0, Ip ):
p
f (X) = fi (xi ) =
i=1
1
2
2p
1 p
exp xi2
2 i=1
=
1
2
2p
e 2 X
TX
1
1
=p .
||
||
Entonces se observar que la densidad de la distribucin Np (0, Ip ) es constante sobre los elipsoides de la
forma: (Y )T 1 (Y ) = d 2 .
Proposicin 1.3 Sean dos vectores normales Y1 Np1 (1 , 11 ) e Y2 Np2 (2 , 22 ), con 12 como la matriz
de covarianza entre Y1 e Y2 . Entonces la distribucin condicional de Y1 dado Y2 es una normal:
1 T
T
Y1 |Y2 Np1 1 12 1
22 12 (Y2 2 ), 11 12 22 12
Y1
Y2
!
,
1
2
"
,
11 12
21 22
11
22
#
.
Determinemos
! la ley condicional de!Y1 dado Y2 cuando la matriz 2,2 es invertible: sea el cambio de variables
T1
Y1 12 1
22 Y2
T=
=
y calculemos su esperanza y su matriz de varianza-covarianza:
T2
Y2
E(T ) =
"
Var(T ) =
1 12 1
22 2
2
1
T
11 12 1
22 12 12 12 22 22
T12 T12 1
22 22
22
16
"
=
T
11 12 1
22 12
22
Se deduce que los vectores T1 y T2 son normales e independientes entre si. La densidad conjunta de Y1 e Y2
puede escribirse a partir de la densidad de T1 y T2 : si llamamos f como la funcin densidad de la variable T
y la funcin densidad de la variable Y entonces
(Y ) = f (T (Y ))|J(T Y )|
en donde J(T Y ) es el jacobiano de la transformacin de T a Y que es igual a:
4T Ip1
|J(T Y )| =
=
4Y 0
12 1
22
=1
Ip2
Si denotamos (T1 ) y (T2 ) como las funciones de densidad de T1 y T2 respectivamente y g() como la
funcin densidad de su argumento (), entonces tenemos que
f (T ) = (T1 )(T2 ) g(Y1 |Y2 ) =
(Y )
f (T (Y ))
=
= (T1 (Y1 ,Y2 ))
g(Y2 )
(T2 )
Sabemos ahora que Y1 |Y2 posee una distribucin normal. Calculemos su esperanza y su matriz de varianzacovarianza:
1
E(Y1 |Y2 ) = E T1 + 12 1
22 T2 |T2 = 1 + 12 22 (Y2 2 )
t
Var(Y1 |Y2 ) = Var(T1 ) = 11 12 1
22 12
Notas:
1
La esperanza condicional E(Y1 |Y2 ) = E(T1 + 12 1
22 T2 |T2 ) = 1 + 12 22 (Y2 2 ) es una funcin
lineal de Y2 .
T
La matriz de varianza condicional Var(Y1 |Y2 ) = 112 = 11 12 1
22 12 es independiente de Y2 .
1.4.2.
i, j,k,l
4
i= j=k=l
3 si
4
E(YiY jYkYl ) =
si (i = j 6= k = l) o (i = l 6= j = k) o (i = k 6= j = l)
0 si
no
"
.. E{(Y T AY )2 } = 34 a2ii + 4
i=1
"
= 4
i=1
i6=k
+2
a2ii + a2i j
i=1
i6=k
i6= j
i6= j
!#
= 4 [(Traza(A))2 + 2Traza(A2 )]
i6= j
Dado que
!
AT = A Traza(A2 ) = a2i, j E[(T AY )2 ] = E
i, j
bi b jYiY j
i, j
E[(T AY )2 ] = 2 b2i = 2 bT b = 2 T A2 .
i=1
18
con b = A
1.5.
Se repasan aqu las distribuciones univariadas clsicas derivadas de la normal, algunas aplicaciones y se
introducen nuevas distribuciones que las generalizan y que utilizaremos ms adelante.
1.5.1.
La distribucin 2n .
Si X Nn (0, In ), entonces:
kXk2 = xi2 2n .
i=1
kXk2 = xi2 2n (2 )
i=1
con el decentramiento
2 = 2i = kk2 .
i=1
y Var(kXk2 ) = 2n + 4kk2 .
u 2 1 e 2
f (u) = n n 1{u>0} .
22 2
La funcin de distribucin de U: F(U) = IP(U u) define el interior de la esfera centrada en el origen de
qu?
pgina 36, ejercicio 7.
19
!
La suma de variables 2ri independientes
ri = n
i
kXk2 = xi2 2r .
i=1
E e
=
1
2
n2
12
||
Z
IR
etQ 2 Y
IR
T 1Y
dy1 . . . dyn
con t ] , 1/2]
n
1
1
r
E etQ = |In 2tA| 2 = (1 2ti ) 2 = (1 2t) 2
i=1
5 Comprubelo.
20
que es la f.g.m. de 2r
Nota: si la media de Y es , se obtiene una 2r con un decentramiento T A.
r
1
Condicin necesaria: sea Q 2r , entonces E etQ = (12t) 2 = |In 2tA| 2 . Sea u = 2t, entonces
n
(1 u)r = (1 ui )
i=1
y pasando a
r
r ln(1 u) = ln(1 ui )
i=1
se obtiene que i = 1, . . . , r : i = 1. Como los otros valores propios son nulos, entonces A es idempotente de rango r.
Se deduce un teorema muy importante en el estudio de las formas cuadrticas.
Teorema 1.2 Dado el vector aleatorio Y Nn (, ) con regular, se considera la forma cuadrtica Q =
Y T AY con A simtrica de rango r y las p formas cuadrticas Qh = Y T AhY con Ah simtrica de rango rh
(1 h p) tales que
p
Q=
Qh ,
A=
h=1
Ah
!
.
h=1
rh = r.
h=1
Entonces dos de las proposiciones, salvo las dos ltimas que son equivalentes, implican las dos otras.
Demostracin: Del teorema 1.1, pgina 20, se deduce que:
La proposicin (1) es equivalente a decir que A es un operador idempotente de rango r y AA = A,
y
21
la proposicin (2) es equivalente a decir que los Ah son operadores idempotentes de rango rh y
Ah Ah = Ah .
Adems la proposicin (3) es equivalente6 a decir que h 6= k : Ah Ak = 0. Utilizaremos estas equivalencias
para la demostracin:
Las proposiciones (3) y (4) son equivalentes: si
p
A=
Ah A =
Ah Im(A) =
Im(A).
h=1
h=1
h=1
p
M
Im(Ah )
rh = r.
h=1
h=1
A=
Ah kAY k21 =
Y T AhY =
Qh =
Y T Ah AhY =
kAhY k2
h=1
h=1
h=1
h=1
h=1
Im(A) =
Luego si Z = Ah Y Z Im(A) y
p
Ah Y = AZ = AAh Y =
Ak Ah Y = (Ah )2Y.
k=1
6 Ver
7 Ver
22
Corolario 1.1 (Teorema de Cochran) Dado el vector aleatorio Y Nn (0, ) con regular, se considera
la forma cuadrtica Q = Y T AY con A simtrica de rango r y las p formas cuadrticas Qh = Y T AhY con Ah
simtrica de rango rh (1 h p) tales que
p
Q=
Qh ,
A=
h=1
Ah
!
.
h=1
Entonces:
p
1.5.2.
La distribucin Fm,n .
E(Fm,n ) =
Var(Fm,n ) =
n
n2
(n > 2).
2n2 (m + n 2)
m(n 4)(n 2)2
(n > 4).
F1,n = tn2 .
Se define Fm,n no centrada cuando el numerador es no centrado.
1.5.3.
1 n
1 n
xi 2 (xi xn )2 2n1 .
n i=1
i=1
23
Consideremos una muestra aleatoria simple de tamao n de un vector aleatorio de IRn de distribucin
Np (, ). Sea X Mn,p la matriz que tiene en fila las realizaciones independientes Xi Np (, ), o sea
X1T
T
X2
X =
..
.
XnT
n
1
K
q
1
1
|D|np1 e 2 Traza( D)
1
1 si n p 1 > 0.
n p1
Notas:
Para p = 1
n
W1 (n, 2 ) = (xi )2 2 2n .
i=1
8 Ver
24
1 n
Xi ,
n i=1
entonces g Np , 1n y V = (X 1n gT )T (X 1n gT ) Wp (n 1, ).
Demostracin: Se observa que V = D n(q )(g )T y que n(q )(g )T Wp (1, ) y se aplica la
proposicin 1.4.
Proposicin 1.8 Sea D Wp (n, ), entonces para todo vector constante u IR p , se tiene
uT Du
2n .
ut T u
u Du
W1 (n, 1) = 2n . Se puede demostrar tambin que
Demostracin: Como ut Du W1 (n, uT u), t
u u
ut 1 u
2np+1 ; estos resultados, que se generalizan para vectores u aleatorios, son delicados a demostrar.
ut D1 u
1.5.4.
La distribucin T 2 de Hotelling
N(0, 1)
Esta distribucin generaliza la distribucin t-Student. La v.a. tn = p
sigue una distribucin de Student
2n /n
a n grados de libertad cuando el numerador y el denominador son independientes, por ejemplo
n(xn )
s
tn
1 n
(xi )2
n i=1
n(xn )
s
1 n
(xi xn )2
n 1 i=1
tn1 .
A 2 tiene en filas los vectores 2 Ai que son realizaciones independientes de Np (0, Ip ). Luego BT B =
1
Tp2 (n) =
n(X )T D1 (X )
(X )T 1 (X )
(X )T 1 (X )
2p
uT 1 u
2
T 1 (X ) 2 , luego se escribe que T 2 = n
y
(X
)
,
p
p
np+1
uT D1 u
2np+1
np
Fp,np+1 . En particular si p = 1: Tp2 (n) =
como X y D son independientes, se concluye que Tp2 (n) =
n p+1
F1,n = tn2 .
Por otro lado vimos que
1.5.5.
np
np
E(Fp,np+1 ) =
.
n p+1
n p1
Esta distribucin, que generaliza la distribucin F de Fisher, es la distribucin del cociente de determinantes
de matrices de varianzas con distribucin de Wishart.
Definicin 1.5 Sean A Wp (m, ) y B Wp (n, ) dos matrices independientes, entonces =
|A|
|A + B|
|A|
1
= 1
.
|A + B| |A B + Ip |
1
.
1
+
i
i=1
1.6.
Inferencia Estadstica.
1.6.1.
Desigualdad de Cramer-Rao.
La desigualdad de Cramer-Rao, que vamos a establecer, permite dar una cota inferior de la varianza de un
estimador. Esta cota se basa en la cantidad de la informacin de Fisher.
Cantidad de informacin de Fisher.
Sea una v.a. X de funcin de densidad o funcin de probabilidad f (x|) en donde es un parmetro desconocido en el conjunto .
Definicin 1.6 Se llama cantidad de informacin de Fisher dada por X sobre el parmetro a la
cantidad
"
I() = E
ln f
2 #
.
ln f
I() = Var
f (x|)dx = 1 :
Adems
ln f
f0
= , luego E
ln f
.
f 0 (x|)dx = 0.
= 0 y : I() = Var
ln f
.
El teorema siguiente nos da otra expresin para I(), que a menudo es ms fcil de determinar.
27
2 f
Demostracin: Si : 2 existe, entonces E
2 f
2
= 0. Adems
2 ln f
ln f 2
f f 00 ( f 0 )2
f 00
=
=
.
2
f2
f
Como
E
2 ln f
2
f 00 (x|)dx I(),
=
S
se deduce que
I() = E
2 ln f
2
.
Sea una m.a.s. {x1 , x2 , . . . , xn }, xi de funcin de densidad o funcin de probabilidad f (x|) en donde es un
parmetro desconocido en el conjunto . Sea L la funcin de verosimilitud de la muestra.
Definicin 1.7 Se llama cantidad de informacin de Fisher de una muestra aleatoria de tamao n
sobre el parmetro a la cantidad
"
In () = E
ln L
2 #
.
Se tienen las dos otras formas de expresar In () como en el caso de una v.a. X:
ln L
In () = Var
= E
2 ln L
.
2
1
.
In ()
(h0 ())2
.
In ()
Demostracin: Como
Z
Z
ln L
L
ln L
ln L
ln L
E
Ldx = T dx
= 0 Cov T,
=E T
= T
S
S
ln L
E(T )
Cov T,
=
= h0 ().
Es decir que
(h0 ())2 Var(T )In ().
La pregunta que se plantea entonces es si se puede alcanzar la cota mnima de la varianza. Un tal estimador
se llama eficaz. Se estudian las condiciones para obtener un estimador eficaz en Inferencia Estadstica.
1.6.2.
Test de hiptesis.
Generalidades.
Sea un vector aleatorio x = {x1 , x2 , . . . , xn } IR p de funcin distribucin conjunta Fn (x1 , x2 , . . . , xn ; ) en
donde es un parmetro vectorial de dimensin r que toma valores en , una regin abierta de IRr . Si 0
es el valor verdadero de en la poblacin 0 , un subconjunto de , se plantean las hiptesis estadsticas: la
hiptesis nula H0 : 0 0 contra la hiptesis alternativa H1 : 0 \ 0 . Cuando 0 est reducido a un
solo punto se habla de hiptesis simple, sino de hiptesis compuesta. Se trata de decidir si se acepta o si se
rechaza la hiptesis nula H0 .
Con qu grado de desacuerdo uno tiene que abandonar la hiptesis nula para adoptar la hiptesis
alternativa?
Para decidir, se necesita una regla de decisin. Cualquier regla de decisin debera tratar de minimizar los
errores de decisin. Si es la regla de decisin adoptada y () la probabilidad de equivocarse cuando la
29
hiptesis nula es cierta y () la probabilidad de equivocarse cuando la hiptesis alternativa es cierta, uno
buscar minimizar ambas probabilidades de error.
Dada una hiptesis nula H0 , () es la probabilidad condicional de rechazar la hiptesis H0 con la regla
cuando H0 es cierta. Ahora bien la regla se basa en los valores muestrales: si la muestra es de tamao n y
los valores mustrales en IR, una regla de decisin consiste en dividir el dominio IRn del conjunto de todas
las muestras de tamao n en dos partes disjuntas: la parte Wn en donde se rechaza la hiptesis nula H0 y la
parte Wn en donde no se rechaza H0 . La parte Wn se llama regin de rechazo de H0 o regin crtica del test.
Como la regin crtica del test es aquella en donde se rechaza H0 , debera tomarse en cuenta la hiptesis
alternativa. Una regla de decisin consiste entonces en determinar la regin crtica del test en funcin de las
dos hiptesis.
Definicin 1.8 La funcin
Z
() =
W0
dFn = IP(rechazar H0 |)
si 0
1 si \ 0
En efecto, para todo 0 la decisin de rechazar H0 es una decisin equivocada, entonces () es una
probabilidad de error de tipo I (o riesgo de primer especie). Por otro lado, para todo \0 , la decisin
de rechazar H0 es una decisin correcta, entonces 1() es una probabilidad de error de tipo II (o riesgo
de segundo especie).
El problema es que tal regin crtica ideal no existe. Entonces se busca en general propiedades ms dbiles,
como un test insesgado o consistente y se fija un nivel de error aceptable.
Definicin 1.9 Se llama nivel de significacin del test al valor que uno se fija como cota mxima del
error de tipo I.
Definicin 1.10 Se dice que un test es insesgado si dado un nivel de significacin se tiene a la vez
IP(x Wn | 0 ) y IP(x Wn | \ 0 ) > . Es decir que el error de tipo I est controlado y
no est sobrepasado por el error de tipo II.
Definicin 1.11 Se llama tamao del test a 0 = sup{()| 0 }.
Definicin 1.12 Si
\ 0 : lm IP(x Wn |) = 1
n+
entonces se dice que el test es consistente de tamao para la hiptesis H0 contra la hiptesis H1 .
30
Si Wn y Wn son dos regiones crticas para la hiptesis H0 contra la hiptesis H1 con un tamao del test igual
a , se dice que Wn es uniformemente ms potente que Wn para H0 contra H1 si y slo si
\ 0 : IP(x Wn |) > IP(x Wn |)
Caso de dos hiptesis simples.
Consideramos aqu el caso de 0 reducido a un solo punto: 0 = {0 } y \ 0 = {1 } reducido a un punto
tambin: es decir = {0 , 1 }. Bajo ciertas condiciones, existe un test insesgado y ms potente para la
hiptesis H0 contra la hiptesis H1 .
Lema 1.1 (Lema de Neyman-Pearson) Sea {x1 , x2 , . . . , xn } una m.a.s. de funcin de verosimilitud
fn (x1 , x2 , . . . , xn |) y el espacio muestral de con dos puntos 0 y 1 . Para un c > 0, llamemos Wn
el subconjunto de IRn tal que
fn (x1 , x2 , . . . , xn |1 ) c fn (x1 , x2 , . . . , xn |0 )
y IP(x Wn |0 ) = . Si Wn es un subconjunto de IRn tal que IP(x Wn |0 ) , entonces
IP(x Wn |1 ) IP(x Wn |1 ).
Es decir que la regin crtica Wn es insesgada y la ms potente que cualquier Wn para H0 : = 0 contra
H1 : = 1 de nivel .
Propiedades:
El test es insesgado.
El test es consistente.
Cuando existe un estadstico suficiente T para , fn (x1 , x2 , . . . , xn |) = g(T, )h(x1 , x2 , . . . , xn ), entonces el test se reduce a
g(T, 1 )
> c .
g(T, 0 )
L(x, 0 )
L(x, )
en donde
L(x, 0 ) = sup fn (x1 , x2 , . . . , xn |)
0
Propiedades:
[0, 1]. Mientras ms cerca de 1, ms verosmil es la hiptesis Ho .
La regin crtica es de la forma c , dado que H0 es ms aceptable cuando se acerca a 1.
Ejemplo 1.1 Sea una m.a.s. {x1 , x2 , . . . , xn } con i : xi N(, 2 ). Se considera las hiptesis H0 : = 0
contra H1 : 6= 0 . Aqu = IR y 0 = {0 }.
2
L(x|, ) =
1
22
n2
1 n
exp 2 (xi )2
2 i=1
max L(x|, 2 )
=
max L(x|, 2 )
L(x|0 , s20 )
L(x|x,
s2n )
con
s2n =
1 n
(xi x) 2
n i=1
s20 =
1 n
(xi 0 )2
n i=1
32
n
2
2n
n
2
(xi x)
(xi 0 )
i=1
= n
(xi 0 )2
(xi x) 2
i=1
n
i=1
n2
1 + n(x )2
0
= n
2
(xi x)
i=1
n2
n2
i=1
n2
a2
= 1+
n1
(x 0 )2
1+
s2n
en donde a sigue una distribucin t de Student a n 1 grados de libertad. El test de razn de verosimilitudes
equivale en este caso al test t de Student.
Ejemplo 1.2 Sea el vector Y formado de una m.a.s. {y1 , y2 , . . . , yn } con i : yi N(, 2 ). Sea la matriz
formada
! de vectores constantes X Mn,p con X = (X0 |X1 ), X0 Mn,p0 , X1 Mn,p1 , p = p1 + p2 y =
0
.
1
Sean las hiptesis H0 : E(Y ) = X0 0 contra H1 : E(Y ) = X1 1 . Los conjuntos y 0 son subespacios
vectoriales de IR p : = Imagen(X) y 0 = Imagen(X0 ).
L(Y |, ) =
1
22
n2
1
kY k2
22
Para el denominador:
max L(Y |, ) =
E(Y )=X
n
2kY Xk2
n2
kY Xk2
.
n
Para el numerador:
max
E(Y )=X0 0
L(Y |, ) =
e 2
n
2kY X0 0 k2
n2
e 2
kY X0 0 k2
.
n
Si S = kY Xk2 y S0 = kY X0 0 k2 , entonces
=
S
S0
n2
=
n2
.
S
S S
2np y 0 2
2p1 son independientes entre si. De aqu
2
n p S0 S
F=
Fp1 ,np
p1
S
S0
S
33
bajo la hiptesis H0 y
n2
p1
F
.
= 1+
n p
Es decir que
n p 2/n
(
1) Fp1 ,np
p1
En estos dos casos se puede fcilmente deducir una regin crtica, pero en casos ms generales, para encontrar el valor c y calcular la potencia del test se requiere conocer la distribucin de .
Teorema 1.8 Resultado asinttico: si H0 : = 0 , con un parmetro de dimensin p, entonces
2 ln() 2p .
Demostracin: Se demostrar para p = 1 solamente. Sea el estimador de M.V. de sobre . Entonces
El desarrollo en serie de Taylor de ln(L(x|0 )) permite escribir:
ln() = ln(L(x|0 )) ln(L(x|)).
+ (0 )
ln(L(x|0 )) = ln(L(x|))
ln() = (0 )
ln(L(x|))
1
2 ln(L(x|)) + . . .
+ (0 )
2
ln(L(x|))
1
2 ln(L(x|)) + . . .
+ (0 )
2
ln(L(x|)) + 1 (0 )
2 ln(L(x| )) + . . .
ln() = (0 )
2
2
con |0 | < |0 |.
ln(L(x|))
= 0. Luego
2 ln(L(x| )) .
2 ln() (0 )
2
c.s.
Si H0 : = 0 , 0 0 .
2 ln( f (xi | ))
2
i=1
n
2
2 ln() = (0 )
n
2
2 1 ln( f (xi | ))
2 ln() = ( n(0 ))
n i=1
2
2 ln( f )
2
= I1 ().
1.7.
Ejercicios.
uT Au
es
uT Bu
4. Sea una matriz cuadrada no invertible de rango r. Muestre que existe una inversa generalizada de
que puede escribirse como:
"
A1 0
0
1
1
n p1
si n p 1 > 0.
11. Muestre que la cantidad de informacin de Fisher dada por una v.a. de Bernoulli sobre su parmetro
1
p es I(p) =
.
p(1 p)
12. Muestre que la cantidad de informacin de Fisher dada por una v.a. X N(, 2 ) sobre el parmetro
1
desconocido y la varianza 2 conocida es I() = 2 .
1.8.
BIBLIOGRAFA
37