Você está na página 1de 37

Universidad de Chile.

Facultad de Ciencias Fsicas y Matemticas.


Departamento de Ingeniera Matemtica.

MTODOS ESTADSTICOS
PREDICTIVOS
Nancy Lacourly.

2008

PREFACIO
El curso de mtodos estadsticos predictivos, obligatorio para los alumnos de ingeniera matem-tica, profundiza y complementa los temas de anlisis multivariados vistos en el curso de estadstica. Se trata de dar
justificaciones matemticas de los mtodos as como aspectos aplicados.
Los modelos pretenden representar estructuras de un fenmeno descrito mediante datos. Todo modelo estadstico se basa en supuestos y simplifica la realidad. Es entonces importante verificar la validez del modelo,
tanto los supuestos en los cuales se basa el modelo as como la calidad de la aproximacin que el modelo
hace del fenmeno.

ndice general
1. FUNDAMENTOS MATEMTICOS

1.1. Derivacin matricial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.1.1. Definiciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.1.2. Aplicaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2. Inversa generalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10


1.3. Elementos relacionados con formas cuadrticas . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1. M-simetra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2. Proyectores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.3. Matriz de varianza-covarianza de un vector aleatorio . . . . . . . . . . . . . . . 13
1.3.4. Esperanza de una forma cuadrtica . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4. Distribucin normal multivariada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.1. Definiciones y propiedades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.2. Varianza de una forma cuadrtica. . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5. Distribuciones derivadas de la normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.1. La distribucin 2n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.2. La distribucin Fm,n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.5.3. La distribucin de Wishart Wp (n, ). . . . . . . . . . . . . . . . . . . . . . . . . 23
1.5.4. La distribucin T 2 de Hotelling . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5.5. La distribucin p,m,n de Wilks. . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6. Inferencia Estadstica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5

1.6.1. Desigualdad de Cramer-Rao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27


1.6.2. Test de hiptesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.7. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.8. BIBLIOGRAFA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Captulo 1

FUNDAMENTOS MATEMTICOS

En este captulo se ven algunos resultados matemticos o estadsticos tiles para los captulos siguientes.

1.1.

Derivacin matricial.

1.1.1.

Definiciones.

Sea f una variable dependiente de un vector X IR p de componentes xi . Se define el vector gradiente f


como el vector de las derivadas de f con respecto a los elementos de X:

f
x1
.
f
..
f =
=
X
f
x p

Se define el Hessiano H como la matriz simtrica de las segundas derivadas:

 2 
f
f

Hf =
=
=

xi x j i, j
X

Si f depende de una matriz A = (ai j )i, j , entonces

1.1.2.

2 f
x12
2 f
x2 x1
..
.

2 f
x1 x2
2 f
x22
..
.

...

2 f
x p x1

...

...

...

..

2 f
x1 x p
2 f
x2 x p
..
.
2 f
x2p

f
f
es una matriz de trmino general
.
A
ai j

Aplicaciones.

Sean u y X IR p , Y IRr , A Mr,p y B M p,r :


f = ut X = X t u

f /X = u

f = AX

f /X = A

f=

X t BY

f /X = BY

2 f /XY = B
2 f /X 2 = A + At

f = X t AX

(p = r)

f /X = (A + At )X

f = X t AX

(p = r)

f /A = XX t

f = X t AX

(A = At )

f /X = 2AX

f = Traza(BA)

f /A = Bt

f = Traza(BAAt ) (p = r)

f /A = (B + Bt )A
9

2 f /X 2 = 2A

Se denotan |A| al determinante de A y Ai j al menor de ai j afectando su signo en (1)i+ j


p

|A| =

ai j Ai j

j=1

entonces

1.2.

A ji
|A|
= |A|(At )1 dado que (A1 )i j =
.
A
|A|

Inversa generalizada

En un sistema de ecuaciones: x = y, si la matriz es invertible (1 ), entonces x = 1 y. Con el concepto de inversa generalizada o g-inversa queremos definir el conjunto de soluciones y las propiedades
asociadas.
Sea de orden p y de rango r. Si r = p, entonces es invertible, si no, existen matrices , g-inversa de
tales que = . Es decir: x = y es una solucin de x = y. Se observar que no es igual a la
identidad salvo si es invertible, pero se tiene:
( )2 =

( )2 = .

La matriz g-inversa no es invertible ni nica. Para definir una g-inversa nica se puede imponer que la
g-inversa de sea y que y sean simtricas. Tal inversa generalizada nica1 es la inversa
generalizada de Penrose que se denotar + .
Propiedades: Sea X(nxp) de rango incompleto r < p y G una g-inversa de X t X. Muestre que
Gt es una g-inversa de X t X.
GX t es una g-inversa de X. Mostramos que XGX t X = X. Como G es una g-inversa de X t X, se tiene:
X t XGX t X = X t X. Luego X t XGX t X X t X = 0 (GX t X I)(X t XGX t X X t X) = 0 (XGX t X
X)t (XGX t X X) = 0 XGX t X X = 0.
XGX t es invariante para cualquier g-inversa G de X t X. Del resultado anterior se deduce que si G1 y
G2 son g-inversas de X t X, XG1 X t X = XG2 X t X, o sea XG1 X t = XG2 X t .
XGX t es simtrica an si G no lo es. Si G1 es una g-inversa simtrica de X t X entonces XG1 X t es
simtrica. De la propiedad de invarianza se deduce el resultado.
Se nota que las segunda y tercera propiedades anteriores se basan en el siguiente resultado:
1 Ver

pgina 35, ejercicio 5.

10

Proposicin 1.1 Sea A(mxn)


(a) Para toda matriz B(nxp) y C(nxp), se tiene
AB = AC At AB = At AC
(b) Para toda matriz E(pxn) y F(pxn), se tiene
EAt = FAt EAt A = FAt A
Demostracin
(a) Si AB = AC At AB = At AC.
Recprocamente, si At AB = At AC At AB At AC = 0
Luego (Bt Ct )(At AB At AC) = 0 (AB AC)(AB AC) = 0 AB AC = 0.
La parte (b) es similar.

1.3.

Elementos relacionados con formas cuadrticas

1.3.1.

M-simetra.

Sea F un espacio vectorial real (e.v.r) de dimensin n (F = IRn ) y M una matriz simtrica definida positiva
(f.c.d.p.s.) sobre F. A todo x e y de F se le asocia el producto escalar M, que define una metrica euclideana
en F:
< x, y >M = M(x, y) = xt My = yt Mx
Se obtiene entonces la distancia euclidiana entre x e y:
d(x, y) =

< x y, x y >M = kx ykM

Se define tambin la M-ortogonalidad: x y < x, y >M = 0.


M

Definicin 1.1 Se dice que una aplicacin lineal A de F en F es M-simtrica si y solo si M es simtrica,
definida positiva y x, y F :< x, A(y) >M =< A(x), y >M .
Se deduce que si A es M-simtrica, entonces (M A)t = M A. En particular, si M = In se obtiene la mtrica
usual y entonces A es simtrica. En ese caso los valores propios de la matriz A, que es simtrica, son reales y
existe una base ortonormal de F formada de vectores propios de A. Si A es M-simtrica, se extienden estos
resultados:
11

Proposicin 1.2 Si A es M-simtrica, sus valores propios son reales y existe una base M-ortonormal de F
formada de vectores propios de A. Si 1 , 2 ,. . . , n son los valores propios de A, entonces existe una matriz
U tal que si U1 , U2 ,. . . , Un son las columnas de U entonces AU j = jU j con U t MU = In .

1.3.2.

Proyectores.

Se definen los proyectores en un e.v.r. F a partir de la descomposicin en suma directa de F:


F = H G ssi x F

!(u, v) H G tq

x = u+v

El vector u es la proyeccin de x sobre H paralelamente a G y v es la proyeccin de x sobre G paralelamente


a H. Sean P el proyector sobre H paralelamente a G: u = P(x) y Q el proyector sobre G paralelamente a H:
v = Q(x).
Los operadores P y Q son lineales e idempotentes de orden 2 (P P = P y Q Q = Q). La imagen de P:
Im(P) = H = Ker(Q) y Im(Q) = G = Ker(P). El rango de P es la dimensin de H y el rango de Q es la
dimensin de G. Adems P + Q = In y P Q = 0n . Los operadores P y Q tienen dos valores propios distintos:
el valor propio 1 de espacio propio igual a H para P (y G para Q) y el valor propio 0 de espacio propio igual
a G para P (y H para Q).
Consideremos ahora el caso particular en que H y G son M-ortogonales: < u, v >M = 0. En este caso se habla
de proyecciones M-ortogonales y los proyectores P y Q tienen adems la propiedad de ser M-simtricos. En
efecto, si x = P(x) + Q(x) e y = P(y) + Q(y), entonces:
< x, P(y) >M =< P(x) + Q(x), P(y) >M =
< P(x), P(y) >M =< P(x), P(y) + Q(y) >M =< P(x), y >M .
Luego, si P es un proyector M-ortogonal, existe una base M-ortonormal de vectores propios de M P.
Sea y IRn y H un s.e.v. de IRn . La proyeccin M-ortogonal Py de y sobre H es el punto de H lo ms cercano
de y en el sentido de la mtrica M.
Buscamos la expresin de un proyector M-ortogonal a partir de un conjunto generador {x1 , . . . , xr } de H. La
proyeccin Py es tal que (y Py) H, por lo tanto j : (y Py) x j . Luego si M es la matriz formada de los
M

vectores x j en columnas, X t M(y Py) = 0, o sea


X t My = X t MPy

Ahora bien Py H, luego existe un vector b IRr tal que Py = Xb. De aqu se obtienen las ecuaciones
normales:
X t MXb = X t My
12

Si X es de rango r, entonces se obtiene el vector b y la expresin del proyector:


b = (X t MX)1 X t My
P = X(X t MX)1 X t M
Si X no es de rango r (los x j no forman una base de H) se pueden suprimir columnas de X hasta extraer una
base de H.

1.3.3.

Matriz de varianza-covarianza de un vector aleatorio

Sea Y un vector real aleatorio de dimensin p de media y matriz de varianza-covarianza :

y1

Y =

y2
..
.

E(Y ) =

2
..
.

= ,

yp

= Var(Y ) = (i j )i j = E{(Y )(Y )t } = E(YY t ) t


con i, j = Cov(yi , y j ) si i 6= j y i,i = Var(yi ). La matriz es semi-definida positiva. En efecto ut u es una
forma cuadrtica igual a la varianza de la variable aleatoria ut Y .
Si Z = AY en que A es una transformacin lineal, se tiene:
E(Z) = AE(Y ) = A
Var(Z) = E(ZZ t ) (A)(A)t = AAt
p.s.

Sea K = Ker() el ncleo de . Si u K, entonces Var(ut Y ) = 0 y ut (Y ) = 0. Si es de rango r, K es


de dimensin p r y Y pertenece (p.s.) a un s.e.v. S de dimensin r.
Sea invertible. Se asocia al vector Y el elipsoide de concentracin:
{Z IR p |(Z )t 1 (Z ) = c}
en que c es una constante dada.
Sea la diagonalizacin de : = UDU t = T T t . En las columnas de U se tienen los vectores propios de y
D es la matriz diagonal con los valores propios asociados. Se tiene entonces:
T = UD1/2
13

Si es de rango r (r < p) y la matriz restriccin de T a los r vectores asociados a los valores propios
no nulos, entonces: = T . Si el vector aleatorio Z es un vector de media nula y matriz de varianzacovarianza igual a Ip , entonces + Z es un vector de media y matriz de varianza-covarianza = t .
Existen una infinidad de descomposiciones de , pero si se pide que T sea triangular inferior, se obtiene la
descomposicin de Choleski.
Si es de rango p, = T es invertible, entonces Z = 1 (Y ) es un vector aleatorio de dimensin p
de media nula y matriz de varianza-covarianza Ip . El cambio de variables X = 1Y permite pasar de la
mtrica 1 a la mtrica Ip :
p

kXk2Ip = xi2 = X t X = Y t (t )1 1Y = Y t 1Y = kY k21


i=1

|Zk2Ip = kY k21
Calculemos la media y la varianza de kY k21 .
p

E(kY k21 ) = E(kZk2Ip ) = E(z2i ) = Var(zi ) = p


i=1

i=1

Var(kY k21 ) = Var(kZk2Ip ) = Var

z2i

!
.

i=1

Las p v.a. zi son no correlacionadas entre si y todas de varianza igual a 1. Entonces


Var(kY k21 ) = p.

1.3.4.

Esperanza de una forma cuadrtica

Sea la matriz simtrica A Mn,n y X IRn . Se define la forma cuadrtica:


Q = X T AX = Traza(X T AX) = Traza(AXX T ).
Entonces: E(Q) = Traza(AVar(X)) + E(X)T AE(X). En efecto:
E(X T AX) = E((X E(X))T A(X E(X))) + E{E(X)T AX + X T AE(X) E(X)T AE(X)}
luego:
E(X T AX) = E((X E(X))T A(X E(X))) + E(X)T AE(X)
14

el resultado buscado2 .

1.4.

Distribucin normal multivariada.

1.4.1.

Definiciones y propiedades.

Se supone ahora que el vector Y IR p es un vector normal. Se puede definir de dos maneras equivalentes la
distribucin normal multivariada.
Definicin 1.2 Se dice que Y es un vector normal multivariado de orden p de vector de media y de
matriz de varianza-covarianza (se denota Y Np (, )), si y slo si:
u IR p IR : uT Y N(uT , uT u).
Es decir que si Y es un vector normal entonces toda combinacin lineal de Y es una variable aleatoria
normal.
Definicin 1.3 Se dice que Y Np (, ) si y slo si su funcin caracterstica es:



1 T
v IR : Y (v) = exp iv v v .
2
p

Propiedades:
Tomando como vector u a los distintos vectores cannicos, se obtienen que las leyes marginales de
Y son normales, pero la recproca es falsa: un vector formado de variables normales no es necesariamente un vector normal.
Sea A Mq,p : Y Np (, ) X = AY Nq (A, AAT ).
Las v.a. yi son independientes es diagonal.
Si es de rango r, existe una matriz M p,r tal que = T entonces
Y Np (, ) Y = + X

con X Nr (0, Ir )

es decir que las componentes del vector X son centradas, normalizadas e independientes entre si.
Si es invertible, es invertible tambin y X = 1 (Y ). Se puede escribir tambin X = 1/2 (Y
) (es la transformacin de Mahalanobis ).
2 Concluya

usted.

15

Esta ltima propiedad permite calcular la densidad del vector X en el caso que es invertible. En efecto, se
puede calcular la densidad del vector X Np (0, Ip ):
p

f (X) = fi (xi ) =
i=1

1
2

 2p

1 p
exp xi2
2 i=1


=

1
2

 2p

e 2 X

TX

Como X T X = (1 (Y ))T 1 (Y ) = (Y )T 1 (Y ), el jacobiano de la transformacin es:


|J(X Y )| =

1
1
=p .
||
||

Luego la densidad de Y es:




1
T 1
p exp (Y ) (Y ) .
h(Y ) =
2
(2) p/2 ||
1

Entonces se observar que la densidad de la distribucin Np (0, Ip ) es constante sobre los elipsoides de la
forma: (Y )T 1 (Y ) = d 2 .
Proposicin 1.3 Sean dos vectores normales Y1 Np1 (1 , 11 ) e Y2 Np2 (2 , 22 ), con 12 como la matriz
de covarianza entre Y1 e Y2 . Entonces la distribucin condicional de Y1 dado Y2 es una normal:
1 T
T
Y1 |Y2 Np1 1 12 1
22 12 (Y2 2 ), 11 12 22 12

Demostracin: Considerando las particiones siguientes:


Y=

Y1
Y2

!
,

1
2

"
,

11 12

21 22

Se denota como p a la dimensin de Y (p = p1 + p2 ). Tenemos las equivalencias:


"
Y1 es independiente de Y2 Cov(Y1 ,Y2 ) = 0 =

11

22

#
.

Determinemos
! la ley condicional de!Y1 dado Y2 cuando la matriz 2,2 es invertible: sea el cambio de variables
T1
Y1 12 1
22 Y2
T=
=
y calculemos su esperanza y su matriz de varianza-covarianza:
T2
Y2

E(T ) =
"
Var(T ) =

1 12 1
22 2
2

1
T
11 12 1
22 12 12 12 22 22

T12 T12 1
22 22

22
16

"
=

T
11 12 1
22 12

22

Se deduce que los vectores T1 y T2 son normales e independientes entre si. La densidad conjunta de Y1 e Y2
puede escribirse a partir de la densidad de T1 y T2 : si llamamos f como la funcin densidad de la variable T
y la funcin densidad de la variable Y entonces
(Y ) = f (T (Y ))|J(T Y )|
en donde J(T Y ) es el jacobiano de la transformacin de T a Y que es igual a:

4T Ip1
|J(T Y )| =
=
4Y 0



12 1
22
=1

Ip2

Si denotamos (T1 ) y (T2 ) como las funciones de densidad de T1 y T2 respectivamente y g() como la
funcin densidad de su argumento (), entonces tenemos que
f (T ) = (T1 )(T2 ) g(Y1 |Y2 ) =

(Y )
f (T (Y ))
=
= (T1 (Y1 ,Y2 ))
g(Y2 )
(T2 )

Sabemos ahora que Y1 |Y2 posee una distribucin normal. Calculemos su esperanza y su matriz de varianzacovarianza:

1
E(Y1 |Y2 ) = E T1 + 12 1
22 T2 |T2 = 1 + 12 22 (Y2 2 )
t
Var(Y1 |Y2 ) = Var(T1 ) = 11 12 1
22 12

Notas:

1
La esperanza condicional E(Y1 |Y2 ) = E(T1 + 12 1
22 T2 |T2 ) = 1 + 12 22 (Y2 2 ) es una funcin

lineal de Y2 .
T
La matriz de varianza condicional Var(Y1 |Y2 ) = 112 = 11 12 1
22 12 es independiente de Y2 .

La siguiente propiedad es importante ya que ser usada ms adelante:


Proposicin 1.4 Sea Y Np (, ) y regular, entonces si u y v IR p , A y B son dos matrices simtricas
de orden p, se tienen las propiedades de independencia siguientes:
1. uT Y y vT Y son independientes uT v = 0
2. uT Y y Y T AY son independientes uT A = 0
3. Y T AY y Y T BY son independientes AB = 0.
17

1.4.2.

Varianza de una forma cuadrtica.

Sea la matriz simtrica A Mn,n y X IRn . Se define la forma cuadrtica:


Q = X T AX = Traza(X T AX) = Traza(AXX T ).
Calcularemos la varianza de la forma cuadrtica cuando el vector X sea una normal multivariada (x1 , x2 , . . . , xn )
Nn (, 2 In ). Estos clculos nos dar:
Var(Q) = Var(X T AX) = 24 Traza(A2 ) + 42 T A2 .
En efecto,
Q = (X )T A(X ) + 2T A(X ) + T A,
entonces
Q2 = {(X )T A(X )}2 + 4{T A(X )}2 + (T A)2 +
2T A{(X )T A(X ) + 2T A(X )} + 4T A(X )(X )T A(X ).
Consideremos el cambio de variable Y = X . Calculemos la esperanza de cada sumando de Q2 por
separado:
(
2

E{((X ) A(X )) } = E{(Y AY ) } = E

ai, j ak,l YiY jYkYl .

i, j,k,l

En el caso de la distribucin normal se tiene:

4
i= j=k=l

3 si
4
E(YiY jYkYl ) =

si (i = j 6= k = l) o (i = l 6= j = k) o (i = k 6= j = l)

0 si
no
"

.. E{(Y T AY )2 } = 34 a2ii + 4
i=1

"
= 4

a2ii + aii akk

i=1

aii akk + ai j a ji + a2i j

i6=k

+2

a2ii + a2i j

i=1

i6=k

i6= j

i6= j

!#
= 4 [(Traza(A))2 + 2Traza(A2 )]

i6= j

Dado que
!
AT = A Traza(A2 ) = a2i, j E[(T AY )2 ] = E
i, j

bi b jYiY j
i, j

E[(T AY )2 ] = 2 b2i = 2 bT b = 2 T A2 .
i=1

18

con b = A

Como3 E[(T AY )(Y T AY )] = 0 y E(Q) = E(X T AX) = 2 Traza(A) + T A, entonces


Var(Q) = 24 Traza(A2 ) + 42 T A2 .
Adems si = 0, entonces Var(Q) = 24 Traza(A2 ). Para el caso general4 Y Np (, ) Var(Y T AY ) =
2Traza((A)2 ) + 4T AA.

1.5.

Distribuciones derivadas de la normal.

Se repasan aqu las distribuciones univariadas clsicas derivadas de la normal, algunas aplicaciones y se
introducen nuevas distribuciones que las generalizan y que utilizaremos ms adelante.

1.5.1.

La distribucin 2n .

Si X Nn (0, In ), entonces:

kXk2 = xi2 2n .
i=1

Cuando X Nn (, In ), se define la distribucin 2n decentrada:


n

kXk2 = xi2 2n (2 )
i=1

con el decentramiento

2 = 2i = kk2 .
i=1

Algunos autores definen el decentramiento como 12 kk2 .


Se observa que kXk2 2n (kk2 ) si slo si kX k2 2n . Se deduce que:
E(kXk2 ) = n + kk2

y Var(kXk2 ) = 2n + 4kk2 .

La funcin de densidad de la variable U 2n es:


n

u 2 1 e 2
f (u) = n n  1{u>0} .
22 2
La funcin de distribucin de U: F(U) = IP(U u) define el interior de la esfera centrada en el origen de

IRn y de radio u. En el caso de decentramiento U 2n (kk2 ) la esfera es de centro .


Propiedades:
3 Por
4 Ver

qu?
pgina 36, ejercicio 7.

19

!
La suma de variables 2ri independientes

tiene una distribucin 2n (con un nmero de

ri = n
i

grados de libertad igual a la suma de los grados de libertad).



Relacin con la distribucin Gamma: 2n = Gamma n2 , 12 .
Su distribucin asinttica es normal; se tiene entonces como aproximacin: para n grande 2n
N(n, 2n).
Proposicin 1.5 Si Y Np (, ) con de rango r, entonces kY k2+ 2r , en donde + es la inversa
generalizada de Penrose de .
Demostracin: Como = T , con de mismo rango r que , existe X tal que Y = + X, con X
Nr (0, Ir ). Pero

kXk2 = xi2 2r .
i=1

Como se puede escribir X = (T )1 T (Y ), luego:


kXk2 = kY k2+ 2r
en que + = (T )2 T es la inversa de Penrose5 de . Si es invertible, + = 1 .
El siguiente teorema tiene muchas aplicaciones en el estudio de los modelos lineales.
Teorema 1.1 Si Y Nn (0, ) con regular, A una matriz simtrica de rango r, entonces
Q = Y T AY 2r A es idempotente de orden 2.
Demostracin: Se presentan dos demostraciones:
Demostracin por matrices:
Demostracin por funcin caracterstica:
Condicin suficiente: sea A idempotente, tiene rango r, entonces A tiene sus valores propios i
iguales a 1 con multiplicidad r y 0 con multiplicidad n r. Consideremos ahora la funcin generatriz
de los momentos (f.g.m.) o funcin caracterstica de Q:
tQ

E e


=

1
2

 n2

12

||

Z
IR

etQ 2 Y

IR

T 1Y

dy1 . . . dyn

con t ] , 1/2]

n

1
1
r
E etQ = |In 2tA| 2 = (1 2ti ) 2 = (1 2t) 2
i=1

5 Comprubelo.

20

que es la f.g.m. de 2r
Nota: si la media de Y es , se obtiene una 2r con un decentramiento T A.

r
1
Condicin necesaria: sea Q 2r , entonces E etQ = (12t) 2 = |In 2tA| 2 . Sea u = 2t, entonces
n

(1 u)r = |In uA| = (1 ui ) con u ] , 1].


i=1

Tal ecuacin no puede tener ms de r trminos no nulos. Luego


r

(1 u)r = (1 ui )
i=1

y pasando a
r

r ln(1 u) = ln(1 ui )
i=1

se obtiene que i = 1, . . . , r : i = 1. Como los otros valores propios son nulos, entonces A es idempotente de rango r.
Se deduce un teorema muy importante en el estudio de las formas cuadrticas.
Teorema 1.2 Dado el vector aleatorio Y Nn (, ) con regular, se considera la forma cuadrtica Q =
Y T AY con A simtrica de rango r y las p formas cuadrticas Qh = Y T AhY con Ah simtrica de rango rh
(1 h p) tales que
p

Q=

Qh ,

A=

h=1

Ah

!
.

h=1

Sean las cuatro proposiciones siguientes:


1. Q 2r (T A)
2. Qh 2rh (T Ah )
3. h 6= k : Qh y Qk son independientes
4.

rh = r.
h=1

Entonces dos de las proposiciones, salvo las dos ltimas que son equivalentes, implican las dos otras.
Demostracin: Del teorema 1.1, pgina 20, se deduce que:
La proposicin (1) es equivalente a decir que A es un operador idempotente de rango r y AA = A,
y
21

la proposicin (2) es equivalente a decir que los Ah son operadores idempotentes de rango rh y
Ah Ah = Ah .
Adems la proposicin (3) es equivalente6 a decir que h 6= k : Ah Ak = 0. Utilizaremos estas equivalencias
para la demostracin:
Las proposiciones (3) y (4) son equivalentes: si
p

A=

Ah A =

Ah Im(A) =

Im(A).

h=1

h=1

h=1

Entonces se tiene las equivalencias siguientes:


h 6= k : Ah Ak = 0 h 6= k : Ah Ak = 0 h 6= k : Im(Ah ) Im(Ak ) = {0}
Im(A) =

p
M

Im(Ah )

rh = r.
h=1

h=1

Las proposiciones (1)+(2) (3) (y (4)): en efecto:


kAY k21 = Y T A1 AY = Y T AAY = Y T AY = Q.
Como
p

A=

Ah kAY k21 =

Y T AhY =

Qh =

Y T Ah AhY =

kAhY k2

h=1

h=1

h=1

h=1

h=1

Luego h 6= k :< AhY, AkY >1 = 0 h 6= k : Y T Ah 1 AkY = Y T Ah AkY = 0 h 6= k :


Ah Ak = 0 h 6= k : Qh y Qk son independientes7
Las proposiciones (1)+(3) (2):
(1) A es idempotente y (3) h 6= k : Ah Ak = 0. Para mostrar (2) hay que mostrar que
los Ah son idempotentes. Como se tiene
p

Im(A) =

Im(Ah ) Im(Ah )Im(A).


h=1

Luego si Z = Ah Y Z Im(A) y
p

Ah Y = AZ = AAh Y =

Ak Ah Y = (Ah )2Y.
k=1

6 Ver
7 Ver

36, ejercicio 8(c).


36, ejercicio 8(c).

22

Corolario 1.1 (Teorema de Cochran) Dado el vector aleatorio Y Nn (0, ) con regular, se considera
la forma cuadrtica Q = Y T AY con A simtrica de rango r y las p formas cuadrticas Qh = Y T AhY con Ah
simtrica de rango rh (1 h p) tales que
p

Q=

Qh ,

A=

h=1

Ah

!
.

h=1

Entonces:
p

A idempotente orden 2 y rh = r Qh 2rh h 6= k : Qh y Qk independientes.


h=1

1.5.2.

La distribucin Fm,n .

Se estudia el cociente de dos formas cuadrticas independientes: si U 2m y V 2n con U y V independinU


entes, se dice que F =
sigue una forma distribucin F de Fisher a m y n grados de libertad (se denota
mV
Fm,n ).
Propiedades:

E(Fm,n ) =

Var(Fm,n ) =

n
n2

(n > 2).

2n2 (m + n 2)
m(n 4)(n 2)2

(n > 4).

F1,n = tn2 .
Se define Fm,n no centrada cuando el numerador es no centrado.

1.5.3.

La distribucin de Wishart Wp (n, ).

La distribucin de Wishart es la distribucin de una matriz de varianza-covarianza emprica. Generaliza la


distribucin 2n . Si {x1 , x2 , . . . , xn } es una m.a.s. de la N(, 2 ) con > 0 , entonces
1 n
(xi )2 2n
2 i=1
y si
xn =

1 n
1 n
xi 2 (xi xn )2 2n1 .

n i=1
i=1
23

Consideremos una muestra aleatoria simple de tamao n de un vector aleatorio de IRn de distribucin
Np (, ). Sea X Mn,p la matriz que tiene en fila las realizaciones independientes Xi Np (, ), o sea

X1T

T
X2

X =
..
.
XnT
n

Consideremos D = (X 1n T )T (X 1n T ) = (Xi )(Xi )T es decir la matriz de las sumas y productos


i=1

de las observaciones centradas en las medias de la poblacin.


Propiedades:
De la misma manera que en el caso p = 1,
1 n
(xi )2
n i=1
es una estimacin insesgada de la varianza 2 de la poblacin cuando la media es conocida, muestre8
que n1 D es una estimacin insesgada de cuando el vector de medias es conocido.
La matriz D es semi-definida positiva; es definida positiva (p.s.) cuando es invertible.
Se llama distribucin de Wishart y se denota Wp (n, ) a la distribucin de la matriz D. Se muestra que
cuando la matriz D es definida positiva, su funcin de densidad es:
f (D) =

1
K

q
1
1
|D|np1 e 2 Traza( D)

donde K es una constante:


p

K = 2np/2 p(p1)/4 ||n/2 ((n + j 1)/2).


j=1

Se puede mostrar que E(D) = n y E(D1 ) =

1
1 si n p 1 > 0.
n p1

Notas:
Para p = 1
n

W1 (n, 2 ) = (xi )2 2 2n .
i=1

8 Ver

pgina 36, ejercicio 10.

24

Si D Wp (n, ), entonces u IR p \ Ker() : uT Du W1 (n, uT u).


Proposicin 1.6 La suma de matrices mutuamente independientes Dk Wp (nk , ), n = nk , sigue una
k

distribucin de Wishart Wp (n, ).


Demostracin: Se deja la demostracin como ejercicio.
Proposicin 1.7 Sea el vector de medias empricas
g=

1 n
Xi ,
n i=1


entonces g Np , 1n y V = (X 1n gT )T (X 1n gT ) Wp (n 1, ).
Demostracin: Se observa que V = D n(q )(g )T y que n(q )(g )T Wp (1, ) y se aplica la
proposicin 1.4.
Proposicin 1.8 Sea D Wp (n, ), entonces para todo vector constante u IR p , se tiene
uT Du
2n .
ut T u
u Du
W1 (n, 1) = 2n . Se puede demostrar tambin que
Demostracin: Como ut Du W1 (n, uT u), t
u u
ut 1 u
2np+1 ; estos resultados, que se generalizan para vectores u aleatorios, son delicados a demostrar.
ut D1 u

1.5.4.

La distribucin T 2 de Hotelling

N(0, 1)
Esta distribucin generaliza la distribucin t-Student. La v.a. tn = p
sigue una distribucin de Student
2n /n
a n grados de libertad cuando el numerador y el denominador son independientes, por ejemplo

n(xn )
s
tn
1 n
(xi )2
n i=1

n(xn )
s

1 n
(xi xn )2
n 1 i=1

tn1 .

Definicin 1.4 Si X Np (0, Ip ), D Wp (n, Ip ) y X independiente de D, entonces nX T D1 X sigue


una distribucin de T 2 de Hotelling de parmetro n denotada Tp2 (n).
Se deduce la proposicin:
Proposicin 1.9 Si X Np (, ), D Wp (n, ) y X independiente de D, entonces n(X )T D1 (X )
sigue una distribucin de Hotelling Tp2 (n).
Demostracin: Existe A tal que las filas Ai de A son realizaciones independientes de Np (0, ) y B =
25

A 2 tiene en filas los vectores 2 Ai que son realizaciones independientes de Np (0, Ip ). Luego BT B =
1

2 D 2 Wp (n, Ip ). Por otro lado 2 (X ) Np (0, Ip ). Se deduce entonces de la definicin que


n(X )T D1 (X ) sigue una distribucin de Hotelling Tp2 (n).
Proposicin 1.10 Se puede escribir la Tp2 (n) de Hotelling en funcin de una F de Fisher:
np
Fp,np+1 .
n p+1
Demostracin: En efecto: X Np (, ), entonces se puede escribir:
Tp2 (n) =

Tp2 (n) =

n(X )T D1 (X )
(X )T 1 (X )
(X )T 1 (X )

2p
uT 1 u
2
T 1 (X ) 2 , luego se escribe que T 2 = n
y
(X
)

,
p
p
np+1
uT D1 u
2np+1
np
Fp,np+1 . En particular si p = 1: Tp2 (n) =
como X y D son independientes, se concluye que Tp2 (n) =
n p+1
F1,n = tn2 .
Por otro lado vimos que

De la proposicin 1.8 se deduce que E(Tp2 (n)) =

1.5.5.

np
np
E(Fp,np+1 ) =
.
n p+1
n p1

La distribucin p,m,n de Wilks.

Esta distribucin, que generaliza la distribucin F de Fisher, es la distribucin del cociente de determinantes
de matrices de varianzas con distribucin de Wishart.
Definicin 1.5 Sean A Wp (m, ) y B Wp (n, ) dos matrices independientes, entonces =

|A|
|A + B|

tiene la distribucin de Wilks de parmetros p, m, n (se denota p,m,n ).


Propiedades:

|A|
1
= 1
.
|A + B| |A B + Ip |

p,m,n y n,m+np,p tienen la misma distribucin.


La distribucin de no depende de la matriz .
Si A y B son definidas-positivas, entonces [0, 1], adems se expresa en funcin de los valores
propios: sean 1 , . . . , p de A1 B:
p

1
.
1
+
i
i=1

No es fcil obtener la funcin de densidad exacta de p,m,n , salvo para n = 1 2 m = 1 2. Para


26

calcularla se usan en general aproximaciones. La ms usada es la de Bartlett, cuando m es grande:




1
m (p n + 1) ln( p,m,n )
= 2np .
2
1 p,m,1
p
=
Fp,mp+1 .
p,m,1
m p+1
1 1,m,n
n
= Fn,m .
1,m,n
m

1.6.

Inferencia Estadstica.

1.6.1.

Desigualdad de Cramer-Rao.

La desigualdad de Cramer-Rao, que vamos a establecer, permite dar una cota inferior de la varianza de un
estimador. Esta cota se basa en la cantidad de la informacin de Fisher.
Cantidad de informacin de Fisher.
Sea una v.a. X de funcin de densidad o funcin de probabilidad f (x|) en donde es un parmetro desconocido en el conjunto .
Definicin 1.6 Se llama cantidad de informacin de Fisher dada por X sobre el parmetro a la
cantidad

"
I() = E

ln f

2 #
.

Se puede dar dos otras formas a la cantidad de informacin de Fisher:


Teorema 1.3 Si el dominio S de X no depende de , entonces


ln f
I() = Var

Demostracin: Sea S el dominio de X, entonces como


:

f (x|)dx = 1 :

Adems

ln f
f0
= , luego E

ln f


.

f 0 (x|)dx = 0.


= 0 y : I() = Var


ln f
.

El teorema siguiente nos da otra expresin para I(), que a menudo es ms fcil de determinar.
27

Teorema 1.4 Si el dominio S de X no depende de , entonces:


2 ln f
I() = E
2


si esta cantidad existe.

2 f
Demostracin: Si : 2 existe, entonces E

2 f
2


= 0. Adems



2 ln f
ln f 2
f f 00 ( f 0 )2
f 00
=
=

.
2
f2
f

Como


E

2 ln f
2

f 00 (x|)dx I(),

=
S

se deduce que

I() = E

2 ln f
2


.

Sea una m.a.s. {x1 , x2 , . . . , xn }, xi de funcin de densidad o funcin de probabilidad f (x|) en donde es un
parmetro desconocido en el conjunto . Sea L la funcin de verosimilitud de la muestra.
Definicin 1.7 Se llama cantidad de informacin de Fisher de una muestra aleatoria de tamao n
sobre el parmetro a la cantidad
"
In () = E

ln L

2 #
.

Se tienen las dos otras formas de expresar In () como en el caso de una v.a. X:


ln L
In () = Var


= E


2 ln L
.
2

Es fcil deducir de lo anterior que:


Teorema 1.5 Si I() es la cantidad de Fisher dada por cada xi sobre el parmetro , entonces
In () = nI().
La desigualdad de informacin.
Sea una m.a.s. {x1 , x2 , . . . , xn }, xi con funcin de densidad o funcin de probabilidad f (x|). Se tiene la
desigualdad de Cramer-Rao:
28

Teorema 1.6 Si el dominio S de X no depende de , para todo estimador T insesgado de se tiene:


Var(T )

1
.
In ()

Adems si T es un estimador insesgado de h(), entonces


Var(T )

(h0 ())2
.
In ()

Demostracin: Como



 Z


Z
ln L
L
ln L
ln L
ln L
E
Ldx = T dx
= 0 Cov T,
=E T
= T

S
S


ln L
E(T )
Cov T,
=
= h0 ().

Por otro lado, de la desigualdad de Schwartz se obtiene:




2


ln L
ln L
Cov T,
Var(T )Var
.

Es decir que
(h0 ())2 Var(T )In ().

La pregunta que se plantea entonces es si se puede alcanzar la cota mnima de la varianza. Un tal estimador
se llama eficaz. Se estudian las condiciones para obtener un estimador eficaz en Inferencia Estadstica.

1.6.2.

Test de hiptesis.

Generalidades.
Sea un vector aleatorio x = {x1 , x2 , . . . , xn } IR p de funcin distribucin conjunta Fn (x1 , x2 , . . . , xn ; ) en
donde es un parmetro vectorial de dimensin r que toma valores en , una regin abierta de IRr . Si 0
es el valor verdadero de en la poblacin 0 , un subconjunto de , se plantean las hiptesis estadsticas: la
hiptesis nula H0 : 0 0 contra la hiptesis alternativa H1 : 0 \ 0 . Cuando 0 est reducido a un
solo punto se habla de hiptesis simple, sino de hiptesis compuesta. Se trata de decidir si se acepta o si se
rechaza la hiptesis nula H0 .
Con qu grado de desacuerdo uno tiene que abandonar la hiptesis nula para adoptar la hiptesis
alternativa?
Para decidir, se necesita una regla de decisin. Cualquier regla de decisin debera tratar de minimizar los
errores de decisin. Si es la regla de decisin adoptada y () la probabilidad de equivocarse cuando la
29

hiptesis nula es cierta y () la probabilidad de equivocarse cuando la hiptesis alternativa es cierta, uno
buscar minimizar ambas probabilidades de error.
Dada una hiptesis nula H0 , () es la probabilidad condicional de rechazar la hiptesis H0 con la regla
cuando H0 es cierta. Ahora bien la regla se basa en los valores muestrales: si la muestra es de tamao n y
los valores mustrales en IR, una regla de decisin consiste en dividir el dominio IRn del conjunto de todas
las muestras de tamao n en dos partes disjuntas: la parte Wn en donde se rechaza la hiptesis nula H0 y la
parte Wn en donde no se rechaza H0 . La parte Wn se llama regin de rechazo de H0 o regin crtica del test.
Como la regin crtica del test es aquella en donde se rechaza H0 , debera tomarse en cuenta la hiptesis
alternativa. Una regla de decisin consiste entonces en determinar la regin crtica del test en funcin de las
dos hiptesis.
Definicin 1.8 La funcin
Z

() =
W0

dFn = IP(rechazar H0 |)

se llama funcin de potencia del test.


La regin crtica ideal es aquella que produce una funcin de potencia tal que:
(
() =

si 0

1 si \ 0

En efecto, para todo 0 la decisin de rechazar H0 es una decisin equivocada, entonces () es una
probabilidad de error de tipo I (o riesgo de primer especie). Por otro lado, para todo \0 , la decisin
de rechazar H0 es una decisin correcta, entonces 1() es una probabilidad de error de tipo II (o riesgo
de segundo especie).
El problema es que tal regin crtica ideal no existe. Entonces se busca en general propiedades ms dbiles,
como un test insesgado o consistente y se fija un nivel de error aceptable.
Definicin 1.9 Se llama nivel de significacin del test al valor que uno se fija como cota mxima del
error de tipo I.
Definicin 1.10 Se dice que un test es insesgado si dado un nivel de significacin se tiene a la vez
IP(x Wn | 0 ) y IP(x Wn | \ 0 ) > . Es decir que el error de tipo I est controlado y
no est sobrepasado por el error de tipo II.
Definicin 1.11 Se llama tamao del test a 0 = sup{()| 0 }.
Definicin 1.12 Si
\ 0 : lm IP(x Wn |) = 1
n+

entonces se dice que el test es consistente de tamao para la hiptesis H0 contra la hiptesis H1 .
30

Si Wn y Wn son dos regiones crticas para la hiptesis H0 contra la hiptesis H1 con un tamao del test igual
a , se dice que Wn es uniformemente ms potente que Wn para H0 contra H1 si y slo si
\ 0 : IP(x Wn |) > IP(x Wn |)
Caso de dos hiptesis simples.
Consideramos aqu el caso de 0 reducido a un solo punto: 0 = {0 } y \ 0 = {1 } reducido a un punto
tambin: es decir = {0 , 1 }. Bajo ciertas condiciones, existe un test insesgado y ms potente para la
hiptesis H0 contra la hiptesis H1 .
Lema 1.1 (Lema de Neyman-Pearson) Sea {x1 , x2 , . . . , xn } una m.a.s. de funcin de verosimilitud
fn (x1 , x2 , . . . , xn |) y el espacio muestral de con dos puntos 0 y 1 . Para un c > 0, llamemos Wn
el subconjunto de IRn tal que
fn (x1 , x2 , . . . , xn |1 ) c fn (x1 , x2 , . . . , xn |0 )
y IP(x Wn |0 ) = . Si Wn es un subconjunto de IRn tal que IP(x Wn |0 ) , entonces
IP(x Wn |1 ) IP(x Wn |1 ).
Es decir que la regin crtica Wn es insesgada y la ms potente que cualquier Wn para H0 : = 0 contra
H1 : = 1 de nivel .
Propiedades:
El test es insesgado.
El test es consistente.
Cuando existe un estadstico suficiente T para , fn (x1 , x2 , . . . , xn |) = g(T, )h(x1 , x2 , . . . , xn ), entonces el test se reduce a

g(T, 1 )
> c .
g(T, 0 )

Test uniformemente ms potente (UMP).


Queremos aqu construir una regin crtica ms potente con hiptesis no simples.
Definicin 1.13 Se dice que un test es UMP (uniformemente ms potente) cuando existe una regin
crtica ptima comn para todo valor de la hiptesis alternativa H1 .
Sea la hiptesis nula H0 : = 0 y la hiptesis alternativa H1 : > 0 (o H1 : 6= 0 ). La regin crtica
ptima de nivel de significacin no cambia para todo > 0 pero si cambia para 6= 0 .
31

La existencia de un test UMP est dada por el teorema de Lehmann:


Teorema 1.7 Existe un test UMP si para un estadstico T el cociente
fn (x1 , x2 , . . . , xn |1 )
fn (x1 , x2 , . . . , xn |2 )
es una funcin montona creciente cuando 1 > 2 .
Esta condicin est asegurada con estadsticos suficientes T con una distribucin de tipo exponencial.
Test de razn de verosimilitudes.
Este test permite extender el caso anterior cuando no existe un test UMP. Sea la hiptesis nula H0 : 0
contra la hiptesis alternativa H1 : 1 con = 0 1 . Se define la razn de verosimilitudes:
=

L(x, 0 )
L(x, )

en donde
L(x, 0 ) = sup fn (x1 , x2 , . . . , xn |)
0

L(x, ) = sup fn (x1 , x2 , . . . , xn |).

Propiedades:
[0, 1]. Mientras ms cerca de 1, ms verosmil es la hiptesis Ho .
La regin crtica es de la forma c , dado que H0 es ms aceptable cuando se acerca a 1.
Ejemplo 1.1 Sea una m.a.s. {x1 , x2 , . . . , xn } con i : xi N(, 2 ). Se considera las hiptesis H0 : = 0
contra H1 : 6= 0 . Aqu = IR y 0 = {0 }.
2

L(x|, ) =

1
22

 n2

1 n
exp 2 (xi )2
2 i=1

max L(x|, 2 )
=

max L(x|, 2 )

L(x|0 , s20 )
L(x|x,
s2n )

con
s2n =

1 n
(xi x) 2
n i=1

s20 =

1 n
(xi 0 )2
n i=1
32

n
2

2n

n
2

(xi x)

(xi 0 )

i=1
= n

(xi 0 )2
(xi x) 2
i=1
n

i=1

n2

1 + n(x )2

0
= n

2
(xi x)

i=1

n2

n2

i=1


 n2
a2
= 1+
n1



(x 0 )2
1+
s2n

en donde a sigue una distribucin t de Student a n 1 grados de libertad. El test de razn de verosimilitudes
equivale en este caso al test t de Student.

Ejemplo 1.2 Sea el vector Y formado de una m.a.s. {y1 , y2 , . . . , yn } con i : yi N(, 2 ). Sea la matriz
formada
! de vectores constantes X Mn,p con X = (X0 |X1 ), X0 Mn,p0 , X1 Mn,p1 , p = p1 + p2 y =
0
.
1
Sean las hiptesis H0 : E(Y ) = X0 0 contra H1 : E(Y ) = X1 1 . Los conjuntos y 0 son subespacios
vectoriales de IR p : = Imagen(X) y 0 = Imagen(X0 ).


L(Y |, ) =

1
22

 n2

1
kY k2
22

Para el denominador:


max L(Y |, ) =

E(Y )=X

dado que en este caso el estimador de 2 es

n
2kY Xk2

 n2

kY Xk2
.
n

Para el numerador:


max
E(Y )=X0 0

L(Y |, ) =

dado que en este caso el estimador de 2 es

e 2

n
2kY X0 0 k2

 n2

e 2

kY X0 0 k2
.
n

Si S = kY Xk2 y S0 = kY X0 0 k2 , entonces

=

S
S0

 n2


=

 n2
.

S
S S
2np y 0 2
2p1 son independientes entre si. De aqu
2



n p S0 S
F=
Fp1 ,np
p1
S

Del teorema de Cochran se obtiene que


obtenemos el estadstico

S0
S

33

bajo la hiptesis H0 y

 n2

p1
F
.
= 1+
n p

Es decir que

n p 2/n
(
1) Fp1 ,np
p1

bajo la hiptesis nula H0 .

En estos dos casos se puede fcilmente deducir una regin crtica, pero en casos ms generales, para encontrar el valor c y calcular la potencia del test se requiere conocer la distribucin de .
Teorema 1.8 Resultado asinttico: si H0 : = 0 , con un parmetro de dimensin p, entonces
2 ln() 2p .
Demostracin: Se demostrar para p = 1 solamente. Sea el estimador de M.V. de sobre . Entonces
El desarrollo en serie de Taylor de ln(L(x|0 )) permite escribir:
ln() = ln(L(x|0 )) ln(L(x|)).
+ (0 )

ln(L(x|0 )) = ln(L(x|))

ln() = (0 )

ln(L(x|))
1
2 ln(L(x|)) + . . .
+ (0 )
2

ln(L(x|))
1
2 ln(L(x|)) + . . .
+ (0 )
2

ln(L(x|)) + 1 (0 )
2 ln(L(x| )) + . . .
ln() = (0 )

2
2

Dado que es el estimador de M.V. de , entonces

con |0 | < |0 |.

ln(L(x|))
= 0. Luego

2 ln(L(x| )) .
2 ln() (0 )
2
c.s.
Si H0 : = 0 , 0 0 .

2 ln( f (xi | ))
2
i=1
n

2
2 ln() = (0 )

n
2

2 1 ln( f (xi | ))
2 ln() = ( n(0 ))
n i=1
2

Si n es suficientemente grande, entonces obtendremos


1 n 2 ln( f (xi |)
E
2
n i=1
34

2 ln( f )
2


= I1 ().

en donde I1 () es la cantidad de informacin de Fisher. Luego


ln(L(x|))
nI1 () = In ().
2
Se deduce que

2 In () 21 .
p0
N(0, 1) (0 )
1/In ()

1.7.

Ejercicios.

1. Sea X M p,q . Si Y es un vector de IR p , encuentre el vector Z IR p de la forma Xb lo ms cercano a


Y con respecto a la mtrica N.
2. Sea un vector Y IR p normal de media E(Y ) = y de matriz de varianza-covarianza Var(Y ) =
invertible (A = 1 ). Sea {Y1 ,Y2 , . . . ,Yn } una muestra aleatoria de realizaciones independientes del
vector Y . Encuentre el estimador de mxima verosimilitud para y .
3. Sean A y B dos matrices simtricas del mismo orden, B invertible. Muestre que el cociente
mximo para el vector propio u de B1 A, asociado al mayor valor propio.

uT Au
es
uT Bu

4. Sea una matriz cuadrada no invertible de rango r. Muestre que existe una inversa generalizada de
que puede escribirse como:
"

A1 0
0

en donde A es una matriz cuadrada invertible de orden r.


5. Demuestre que existe una nica inversa generalizada de Penrose para una matriz dada.
6. Muestre el teorema siguiente:
Teorema 1.9: Sea Y un vector aleatorio en IR p de matriz de varianza-covarianza invertible. Consideramos la descomposicin en suma directa: IR p = E1 E2 , Y = Y1 +Y2 , con Y1 E1 e Y2 E2 . Se llaman 1 y 2 las respectivas matrices de varianza-covarianza de Y1 e Y2 . Entonces las dos propiedades
siguientes son equivalentes:
a) = 1 + 2 (Y1 e Y2 son no correlacionados)
b) E1 y E2 son 1 -ortogonales.
35

7. Muestre que si Y Np (, ), A es una matriz simtrica de orden p, entonces


Var(Y T AY ) = 2Traza((A)2 ) + 4T AA.
8. Sea Y Np (, ), regular, entonces si u y v IR p , A y B son dos matrices simtricas de orden p y
L Mm,p se tienen las siguientes propiedades de independencia:
a) uT Y y vT Y son independientes uT v = 0
b) LY e Y T AY son independientes LA = 0
c) Y T AY e Y T BY son independientes AB = 0.
Muestre la 3 proposiciones anteriores.
9. Aplique el teorema de Cochran para demostrar la independencia entre la media emprica y la varianza
emprica de una variable normal.
10. Sea X Mn,p la matriz que tiene en fila las realizaciones independientes Xi Np (, ). Muestre que
1
1
D = (X 1n T )T (X 1n T )
n
n
es una estimacin insesgada de cuando el vector de medias es conocido y que
E(D1 ) =

1
1
n p1

si n p 1 > 0.
11. Muestre que la cantidad de informacin de Fisher dada por una v.a. de Bernoulli sobre su parmetro
1
p es I(p) =
.
p(1 p)
12. Muestre que la cantidad de informacin de Fisher dada por una v.a. X N(, 2 ) sobre el parmetro
1
desconocido y la varianza 2 conocida es I() = 2 .

1.8.

BIBLIOGRAFA

ANDERSON T.W., An Introduction to Multivariate Statistical Analysis, Wiley.


BREIMAN L. et al (1993), Classification and Regression Trees, Chapman and Hall.
CHRISTENSEN R. (1990), Linear Models for Multivariate, Time Series and Spatial Data, Springer.
COX D.R., SNELL E.G. (1992), Analysis of Binary Data, Chapman and Hall.
36

DRAPER N., SMITH H. (1998), Applied Regression Analysis, Wiley.


FUKUNAGA K. (1972), Introduction to Statistical Pattern Recognition, Academic Press.
GOLDSTEIN M., DILLON W. (1978), Discrete Discriminante Analysis, Wiley.
GOURIEROUX C. (1984), Economtrie des Variables Qualitatives, Economica.
GRAYBILL F.A. (1961), An Introduction Linear Statistical Models, McGraw-Hill.
HASTIE T., TIBSHIRANI R., FRIEDMAN J. (2001), The Elements of Statistical Learning. Data Mining,
Inference and Prediction, Springer.
HOCKING R. (1996), Methods and Applications of Linear Models, Wiley.
HOSMER D. W., LEMESHOW S. (2000), Applied Logistic Regression, Wiley.
LEBART L. (1979), Traitement des Donns Statistiques, Dunod.
MARDIA K. (1979) Multivariate Analysis, Academic Press.
MILLER R.G. (1986), Beyond ANOVA, Basics of Applied Statistics, Wiley.
MORRISON D.F. (1976), Multivariate Statistical Methods, McGraw-Hill.
RAO C.R. (1973), Linear Statistical Inference and its Applications, Wiley.
RAO C.R., TOUTENBURG H. (1995), Linear Models, Least squares and Alternatives, Springer
RAVISHANDER N, DIPAK K. D. (2002 ), A First Course in Linear Model Theory, Chapman and Hall.
SAPORTA G. (1990), Probabilits, Analyse des Donnes et Statistique, Editions Technip.
SCHEFFE H. (1959), The Analysis of Variance, Wiley.
SEARLE S.R. (1971), Linear Models, Wiley.
SEBER G.A.F. (1977), Linear Regression Analysis, Wiley.
TOMASSONE R. et al. (1988), Discrimination et Classement, Masson.

37

Você também pode gostar