Você está na página 1de 80

Probabilidades.

Luis Arenas
June 23, 2009
Chapter 1
Espacios de Probabilidad
Finitos.
Al lanzar una moneda se tienen dos resultados posibles: Cara y Sello. La
pregunta sobre cual es la probabilidad de obtener cara se interpreta en
matem aticas como una funcion que asigna a cada elemento del conjunto
= {cara, sello} un n umero real en el intervalo [0, 1] llamado su proba-
bilidad. En otras palabras, el problema est a totalmente determinado si se
conocen las probabilidades p(cara) y p(sello). Por ejemplo, se dice que la
moneda esta equilibrada si p(cara) = p(sello). Uno asume, de hecho, que
el conjunto contiene todas las posibilidades. En particular, desestimamos
la probabilidad de que la moneda quede parada de canto o un ave la de-
vore mientras est a en el aire. Esto se expresa matem aticamente mediante la
ecuaci on
p(cara) +p(sello) = 1.
Por cierto podemos, por ejemplo, incluir la tercera probabilidad considerando
un nuevo conjunto A

= {cara, sello, canto} y asignar a sus elementos proba-


bilidades que satisfagan la ecuaci on
p(cara) +p(sello) +p(canto) = 1,
y modelar el hecho de que consideramos la tercera altermativa como ex-
tremadamente improbable mediante una condicion del tipo p(canto) << 1.
Mas generalmente, una funcion de probabilidad en el conjunto nito es
una funcion p : [0, 1] que satisface

p() = 1.
1
En particular, para todo subconjunto B de puede denirse la probabilidad
del conjunto B mediante P(B) =

B
p(). La probabilidad P(B) es un
n umero entre 0 y 1. Notese que se tienen las propiedades siguientes, cuya
demostraci on se deja al lector:
1. P() = 0.
2. P() = 1.
3. P(B
c
) = 1 P(B).
4. P(B
1
B
2
) = P(B
1
) +P(B
2
) P(B
1
B
2
).
5. P(B
1
B
2
) = P(B
1
) +P(B
2
) si B
1
y B
2
son disjuntos.
6. Si {B
i
}
iI
es una familia nita de conjuntos disjuntos, entonces

iI
P(B
i
) = P
_
_
iI
B
i
_
.
7. Si B
1
B
2
, entonces P(B
1
) P(B
2
).
Conversamente, si () es la coleccion de todos los subconjuntos de , en-
tonces toda funci on no negativa P : () R que satisface las condiciones
2 y 6 dene una funci on de probabilidad en el conjunto , ya que para todo
B se tiene
P(B) =

B
P({}),
y podemos denir p() = P({}). Una funci on P : () R que satisface
2 y 6 recibe el nombre de medida de probabilidad en el conjunto . Un par
(, P), donde es un conjunto nito y P es una medida de probabilidad,
recibe el nombre de espacio de probabilidad (nito). El conjunto recibe
el nombre de espacio muestral y un subconjunto B recibe el nombre de
evento.
ejemplo 1.1. Sea = {1, 2, 3, 4, 5, 6}, y sea p(i) = 1/6 para todo i. Esta
es la funci on probabilidad que se esperara al arrojar un dado simetrico. El
conjunto de los pares sera B = {2, 4, 6} y el de los n umeros compuestos
sera C = {4, 6}. En este caso se tiene P(B) = 1/2 y P(C) = 1/3. En
otras palabras, la probabilidad de obtener un n umero par es de 1/2 y la
probabilidad de obtener un n umero compuesto es de 1/3. El unico elemento
de B que no est a en C es el 2, y de hecho p(2) = 1/6 = P(B) P(C).
2
ejemplo 1.2. Se arroja una moneda dos veces. En este caso hay 4 resultados
posibles (sin considerar caidas de canto o aves tragamonedas):
=
_
(cara, cara), (cara, sello), (sello, cara), (sello, sello)
_
.
Si la moneda esta equilibrada, es razonable asumir que estas cuatro alter-
nativas son igualmente probables y tiene cada una la probabilidad 1/4. En
este caso la probabilidad de obtener una cara en la primera tirada es la
probabilidad del evento
B =
_
(cara, cara), (cara, sello)
_
.
De hecho P(B) = 1/2, que es la misma probabilidad que asociamos a la
obtenci on de una cara en el lanzamiento de una moneda. Del mismo modo,
la probabilidad de obtener una cara en la segunda tirada es la probabilidad
del evento
C =
_
(cara, cara), (sello, cara)
_
.
Como antes se tiene P(C) = 1/2. Notese que en particular que
P
_
{(cara, cara)}
_
= 1/4 = 1/2 1/2.
En otras palabras, para obtener la probabilidad de obtener una cara en cada
lanzamiento, multiplicamos la probabilidad de obtener una cara en el primer
lanzamiento por la probabilidad de obtener una cara en el segundo lanza-
miento. Intuitivamente, consideramos que si la probabilidad de obtener una
cara en el segundo lanzamiento es 1/2, la probabilidad de obtener (cara, cara)
es la mitad de la probabilidad de obtener una cara en el primer lanzamiento.
A continuaci on formalizaremos este concepto.
denicion 1.3. Dos eventos B y C se dicen independientes si P(B C) =
P(B)P(C).
ejemplo 1.4. En el caso de la moneda arrojada dos veces, el evento de
obtener cara en la primera tirada es independiente del evento de obtener
cara en la segunda tirada.
denicion 1.5. Para Dos eventos B y C cualesquiera, tales que P(B) = 0,
se dene la probabilidad condicionada P(C|B) = P(B C)/P(B). Similar-
mente, para un elemento B se dene p(|B) = p()/P(B), mientras
3
que p(|B) = 0 si B
c
. La funci on p(|B) es una funci on de
probabilidad, ya que es positiva y se tiene

p(|B) =

B
p(|B) =

B
p()
P(B)
=
1
P(B)

B
p() =
P(B)
P(B)
= 1.
La probabilidad condicionada es frecuentemente interpretada como la prob-
abilidad a posteriori una vez que se ha establecido que el evento B ocurre.
Se sigue de la denicion que B y C son independientes si y solo si
P(C|B) =
P(C B)
P(B)
=
P(C)P(B)
P(B)
= P(C).
En otras palabras, el conocimiento de que el evento B ocurre no afecta nue-
stro calculo de la probabilidad del evento C. Intuitivamente, pensamos que
dos eventos son independientes si ninguno de ellos es consecuencia del otro
ni existe una causa com un a ambos. Por ejemplo, si yo ignoro la hora que
marca mi reloj de pulsera, pero observo que el reloj de la plaza marca las
5, es mucho m as probable que mi reloj marque una hora cercana a las 5
que una hora cercana a la una. Esto se debe a que existe una causa com un
a ambos fen omenos (ambos relojes marcan la hora). Por otro lado, en el
ejemplo de las monedas, nuestra intuicion nos dice que la primera vez que
tiramos la moneda no afecta la segunda, por lo que ambos eventos deben
ser independientes. Uno espera naturalmente que si no existe relaci on causal
alguna entre dos fen omenos, nuestro conocimiento de uno no inuya en nue-
stro conocimiento del otro, de modo que en particular, nuestro c alculo de las
probabilidades asociadas al segundo fen omeno no deben ser inuenciadas por
nuestro conocimiento del primero. Es esta consecuencia de la noci on intuitiva
de dependencia la que se utiliza como denici on en la teora matematica, a
falta de una manera mas directa de traducir a smbolos la noci on intuitiva
de causalidad. Es posible, sin embargo, que eventos que si esten relacionados
causalmente sean matematicamente independientes. Por ejemplo, si una caja
contiene las siguientes bolas:
1. Una bola roja grande,
2. Una bola roja peque na,
3. Una bola negra grande,
4
4. Una bola negra peque na,
los eventos bola roja y bola grande son ciertamente independientes pero para
cada bola grande en particular la probabilidad de extraerla es fuertemente
modicada una vez que sabemos que la bola extraida fue roja. Para la bola
roja grande esta probabilidad subio de
1
4
a
1
2
, mientras que para la bola negra
grande baj o de
1
4
a 0. La independencia en este caso es una consecuencia
del hecho de que la probabilidad no cambi o en promedio para el conjunto de
bolas grandes. Ignoraremos esta distinci on en lo que sigue y nos enfocaremos
en la denici on matematica dada mas arriba.
ejemplo 1.6. Un ejemplo en el que no hay independencia es el siguiente: Se
tiene una bolsa con dos bolas, una negra y una roja. Por turno, dos personas
extraen cada una una bola y la conservan (no hay remplazo). En este caso
el espacio muestral es
=
_
(negra, roja), (roja, negra)
_
,
de donde la probabilidad de obtener una bola roja en la segunda estracci on
es la misma que la de obtener una bola negra en la primera estracci on, y la
misma probabilidad de obtener el par (negra, roja). Las dos estracciones de
este ejemplo no son independientes, salvo en el caso trivial, donde se tiene
p
_
(negra, roja)
_
{0, 1}.
N otese que si A =

iI
A
i
es una partici on de A en conjuntos disjuntos
entonces para todo subconjunto B de A se tiene
P(B) =

iI
P(B A
i
) =

iI
P(B|A
i
)P(A
i
). (1.1)
En particular se tiene
P(A
i
|B) =
P(BA
i
)
P(B)
=
P(B|A
i
)P(A
i
)

iI
P(B|A
i
)P(A
i
)
. (1.2)
Este resultado se conoce como Teorema de Bayes. Nos referiremos tambien
a la relaci on (1.1) como descomposicion por casos.
Una coleccion P = {B
1
, . . . , B
n
}, donde A =

n
i=1
B
i
y B
i
B
j
= si
i = j, se denomina una partici on de A. N otese que p(B
i
) = P(B
i
) es una
funci on de probabilidad en P. Diremos que es la funci on de probabilidad
asociada a la partici on.
5
denicion 1.7. Una variable aleatoria en el espacio de probabilidad nito
(, P) es una funci on X : R. Su esperanza, que ser a denotada E
P
(X),
o simplemente E(X) si no hay riesgo de confusi on, se dene por
E(X) =

X()p().
Tambien se utiliza la notacion
_

XdP(), en cuyo caso se denomina la


integral de X con respecto a la medida de probabilidad P. N otese que se
tiene
E(X +Y ) =

[X() +Y ()]p() =

X()p() +

Y ()p() = E(X) +E(Y ),


y si X() = c es una constante, se tiene
E(X) =

cp() = c

p() = c 1 = c.
Si B es un subconjunto de , la esperanza condicionada de X respecto de B
es por denici on
E(X|B) =
_

X()dP(|B) =

X()p(|B) =

B
X()p(|B),
dado que p(|B) = 0 si / B. En particular, la esperanza condicionada
E(X|B) depende solo de los valores de la variable aleatoria en los puntos de
B. Se sigue que si X e Y son variables aleatorias que coinciden en B se tiene
E(X|B) = E(Y |B).
N otese que p() = p(|B)P(B) para todo en B. En particular, se tiene
que si P = {B
1
, . . . , B
n
} es una partici on de , entonces
E(X) =

X()p() =

B
i
P
_

B
i
X()p(|B
i
)
_
P(B
i
)
=

B
i
P
E(X|B
i
)P(B
i
).
6
Dada un real cualquiera r, se dene A
r
(X) = { |X() = r} y se denota
P(X = r) := P[A
r
(X)].
Por cierto que P(X = r) = 0 s olo para una cantidad nita de valores r. La
esperanza condicionada E(Y |X = r) es por denici on E[Y |A
r
(X)], la cual
est a denida siempre que P(X = r) = 0. El rango probable o esencial R
P
(X)
(o R(X) si P es claro del contexto) de X es el conjunto de los valores r R
tales que P(X = r) = 0. En este caso se tiene E(X|X = r) = r para todo
r R
P
(X). Dejamos la demostracion al lector. En particular, en terminos
de las probabilidades P(X = r), la esperanza de X puede escribirse como
E(X) =

rR(X)
rP(X = r).
Por cierto, la suma precedente no cambia si se remplaza R(X) por un con-
junto mayor. En lo que sigue escribiremos simplemente
E(X) =

rR
rP(X = r),
con el entendido de que esta suma es nita.
ejemplo 1.8. Suponga que se ordena aleatoriamente los n umeros de uno a
n de manera que cada orden posible sea igualmente probable. Para cada
k = 1, . . . , n sea X
k
una variable aleatoria que vale 1 si el n umero k est a en
su posicion y 0 en caso contrario. En este caso se tiene E(X
k
) = P(X
k
=
1) = 1/n. Sea Y una variable aleatoria que cuenta la cantidad de n umeros
que se encuentran en su posicion correcta. Es facil ver que Y = X
1
+. . .+X
n
,
de donde se sigue que
E(Y ) =
n

k=1
E(X
k
) =
n

k=1
1/n = 1.
denicion 1.9. Dos variables aleatorias X y Y se dicen independientes si
para todo par de n umeros reales r y s los conjuntos A
r
(X) y A
s
(Y ) son
independientes. En este caso se tiene
P(X = s|Y = r) = P(X = s)
7
para cada par de n umeros reales s y r tales que P(Y = r) = 0. Se sigue que
E(X|Y = r) =

sR
sP(X = s|Y = r) =

sR
sP(X = s) = E(X)
para todo real r tal que P(Y = r) = 0. En particular
E(XY ) =

rR(Y )
E(XY |Y = r)P(Y = r) =

rR(Y )
E(Xr|Y = r)P(Y = r)
=

rR(Y )
rE(X|Y = r)P(Y = r) =

rR(Y )
rE(X)P(Y = r) = E(X)E(Y ),
para todo par de variables aleatorias independientes X e Y .
Sean ahora (
1
, P
1
) y (
2
, P
2
) dos espacios de probabilidad nitos, y sea
=
1

2
. Entonces la funci on p(
1
,
2
) = p
1
(
1
)p
1
(
1
) es una funci on
de probabilidad en el espacio , de hecho

(
1
,
2
)
p(
1
,
2
) =
_

1
p
1
(
1
)
__

2
p
2
(
2
)
_
= 1.
La medida de probabilidad P denida por p satisface
P(B
1
B
2
) =

(
1
,
2
)B
1
B
2
p(
1
,
2
) =
_

1
B
1
p
1
(
1
)
__

2
B
2
p
2
(
2
)
_
= P
1
(B
1
)P
2
(B
2
).
Dado que
(B
1

2
) (
1
B
2
) = B
1
B
2
,
se tiene que los eventos
B
1
= B
1

2
y B
2
=
1
B
2
son independientes. En particular, tomando B
1
= A
r
1
(X
1
) y B
1
= A
r
1
(X
1
)
para variables aleatorias X
1
y X
2
y n umeros reales r
1
y r
2
cualesquiera, se
tiene el siguiente resultado:
8
Si cada X
i
es una variable aleatoria que depende solo de la coor-
denada
i
, las variables X
1
y X
2
son independientes con respecto
a la medida de probabilidad producto.
Por otro lado se tiene que, si X depende solo de
1
, es decir X(
1
,
2
) =
Y (
1
), entonces
E
P
(X) =

(
1
,
2
)
X(
1
,
2
)p(
1
,
2
) =

1
Y (
1
)p
1
(
1
)

2
p
2
(
2
) =

1
Y (
1
)p
1
(
1
) = E
P
1
(Y ).
En general uno puede identicas una variable aleatoria que depende s olo de
la primera variable con una variable aleatoria en el espacio
1
. Del mismo
modo, todo evento de la forma B
1

2
se identica con el evento B
1
en
1
.
Todas estas consideraciones se aplican a productos de mas de dos factores.
ejemplo 1.10. La variable aleatoria X : {0, 1} R denida por X() =
recibe el nombre de V.A. de Bernouilli. Supongamos que cada conjunto

i
= {0, 1} tiene dada la funci on de probabilidad denida por p(1) = q,
p(0) = 1 q con p y q jos. Esto induce una probabilidad producto en el
producto cartesiano
=
n

i=1

i
.
Con respecto a esta medida, la probabilidad de obtener una secuencia dada
de ceros y unos (a
1
, . . . , a
n
) es q
r
(1 q)
s
, donde r es el n umero de unos y
s el n umero de ceros de la secuencia. La probabilidad de obtener r unos y
s ceros (si r + s = n) es por lo tanto
_
n
r
_
q
r
(1 q)
s
. Esta es realmente una
funci on de probabilidad en el conjunto {0, 1, . . . , n}, puesto que
n

r=0
_
n
r
_
q
r
(1 q)
nr
=
_
q + (1 q)
_
n
= 1.
Si X es la variable aleatoria que cuenta el n umero de ceros y unos en la
secuencia, se tiene X = X
1
+ . . . + X
n
, donde cada X
i
es una V.A. de
Bernouilli en la coordenada correspondiente. Se dice que X es una V.A.
Binomial o con distribuci on binomial. N otese que
E(X) = E(X
1
) +. . . +E(X
n
) = np.
9
La Varianza de una variable aleatoria X se dene por
V (X) = E
_
[X E(X)]
2
_
= E(X
2
) E(X)
2
.
Es una medida de la dispersi on de los valores de la variable aleatoria. De-
jamos al lector la tarea de mostrar que V (X) = 0 si y solo si X es una
constante.
ejemplo 1.11. Si X : {0, 1} R es una V.A. de Bernouilli, se tiene
V (X) = (1 p)
2
p + (0 p)
2
q = q
2
p +p
2
q = pq(q +p) = pq.
Tambien puede realizarse el c alculo como sigue:
V (X) = E(X
2
) E(X)
2
= E(X) E(X)
2
= p p
2
= pq,
donde se usa el hecho de que X
2
= X, pues esa variable aleatoria toma solo
valores 0 y 1.
La Varianza de una suma X +Y satisface
V (X +Y ) = E
_
[X +Y ]
2
_

_
E(X) E(Y )
_
2
=
V (X) +V (Y ) + 2
_
E(XY ) E(X)E(Y )
_
.
El termino E(XY ) E(X)E(Y ) recibe el nombre de covarianza (o coe-
ciente de correlaci on) de las variables X e Y y se denota cov(X, Y ). Si la
covarianza es nula, las variables X e Y se dicen incorrelacionadas, en cuyo
caso V (X +Y ) = V (X) +V (Y ). Este es el caso, en particular, si X e Y son
independientes.
ejemplo 1.12. Si X = X
1
+. . . +X
n
donde las X
i
son V.A. independientes
de Bernouilli, se tiene
V (X) = V (X
1
) +. . . +V (X
n
) = npq.
Esta es, en particular, la varianza de una V.A. con distribuci on binomial
10
Chapter 2
Espacios de Probabilidad
Numerables.
En este captulo extenderemos las deniciones anteriores al caso en el cual el
espacio = {
1
, . . .} es numerable. En este caso una funci on de probabilidad
en es una funcion p : [0, 1] tal que

i=1
p(
i
) = 1,
donde la suma debe entenderse como una serie convergente, y por lo tanto
absolutamente convergente ya que se trata de una serie de terminos positivos.
En particular, el orden de los terminos es irrelevante y puede escribirse sim-
plemente

p() = 1.
Del mismo modo, para cada subconjunto B de se dene
P(B) =

B
p().
Esta suma es tambien absolutamente convergente por ser una sub-suma de la
anterior. Puede tambien expresarse en terminos de la funcion caracterstica

B
de B mediante
P(B) =

B
()p().
Las propiedades 1-6 del captulo anterior se extienden facilmente a este caso.
Por ejemplo se tiene
11
Proposicion 2.1. Si B
1
y B
2
son subconjuntos de , entonces
P(B
1
B
2
) = P(B
1
) +P(B
2
) P(B
1
B
2
).
Demostraci on Sigue inmediatamente de la f ormula

B
1
B
2
() =
B
1
() +
B
2
()
B
1
B
2
().
Las restantes propiedades se deducen facilmente de esta o se generalizan
de manera similar. De hecho, la propiedad 5 se generaliza a familias numer-
ables, es decir:
Proposicion 2.2. Si {B
i
}
iN
es una familia numerable de conjuntos disjun-
tos, entonces

i=1
P(B
i
) = P
_

i=1
B
i
_
.
Demostracion Enumeremos = {
1
, . . . , } como al comienzo y sea
R
M
= {
M
,
M+1
, . . . , }. Notese que P(R
M
) 0 cuando M por ser la
cola de una serie convergente. Sea U =

i=1
B
i
. Para cada entero positivo
N considerese el conjunto U
N
=

N
i=1
B
i
. Observese que P(U
N
) P(U) por
la propiedad 6. Por otro lado, si N es sucientemente grande todo
j
con
j < M que est a contenido en alg un B
i
, esta de hecho contenido en un B
i
con
i N. Se sigue que el conjunto diferencia U U
N
est a contenido en R
M
, de
donde
0 P(U U
N
) P(R
M
) 0.
Como U = U
N
(UU
N
), se tiene P(U
N
) = P(U)P(UU
N
) P(U).
ejemplo 2.3. Se lanza una moneda todas las veces necesarias hasta obtener
una cara por primera vez. En este caso, el conjunto es el conjunto de todas
las secuencias nitas
cara , sello cara , sello sello cara , sello sello sello cara, . . .
Llamaremos
i
al i-esimo termino de la sucesi on precedente. Para una mon-
eda equilibrada se tiene p(
i
) = 2
i
. En este caso, la probabidad de obtener
un n umero par de lanzamientos es

i=1
p(
2i
) =

i=1
2
2i
= 1/3.
12
N otese que en este caso existe el evento de un n umero innito de tiradas,
evento que llamaremos

. Notese que
p(

) = 1

i=1
p(
i
) = 1

i=1
2
i
= 0.
En este caso diremos que el evento

es improbable. Esto no quiere decir que


sea imposible realizar un n umero innito de tiradas, sino que la probabilidad
de que eso ocurra es 0. Esta distincion sera mas clara en el proximo captulo.
La variable aleatoria que cuenta el n umero de tiradas necesarias hasta obtener
la primera cara recibe el nombre de tiempo de espera asociado al evento cara.
ejemplo 2.4. Si = {
1
,
2
, . . .} de modo que p(
i
) =

i
i!
, se dice que
tiene una distribucion de Poisson. Notese que la f ormula
1 + +

2
2!
+. . . = e

implica que = e

. La distribuci on de Poisson aparece naturalmente como


un caso lmite de la distribuci on binomial. Si cada uno de n objetos se coloca
aleatoriamente en una de m cajas, la probabilidad de obtener r objetos en una
caja dada es
_
n
r
_
q
r
(1 q)
nr
donde q es la probabilidad que tiene un objeto
dado de caer en esa caja. Si cada caja es equiprobable, se tiene q = 1/m. Si
se toma un n umero cada vez mayor de cajas, entonces q 0. Supongamos
que la proporci on = n/m = nq es constante (o tiende a una constante).
Entonces se tiene
_
n
r
_
q
r
(1 q)
nr
=
1
r!
_
1

n
_
nr

r
r1

i=0
n i
n

e

r
r!
.
La Distribucion de Poisson se utiliza por ejemplo para estimar la probabilidad
de encontrar un n umero dado n de peces en una peque na porcion de un
estanque (que hace el papel de caja), asumiendo que la densidad de peces
en el estanque es conocida. Tambien puede utilizarse inversamente, para
conocer la densidad de peces en el estanque observando la distribuci on del
n umero de peces en una regi on peque na.
Una variable aleatoria se dene como una funcion arbitraria X :
R {}. Diremos que es nita si su im agen est a contenida en R. La
probabilidad P(X = r) se dene como antes. En el caso numerable no es
13
necesariamente cierto que P(X = r) es no nula para un n umero nito de
valores de r (s olo puede armarse que el n umero de tales r es numerable).
Sin embargo, si se obtiene el siguiente resultado.
Proposicion 2.5. Si X es una variable aleatoria nita en un espacio de
probabilidad numerable, entonces P(X > t) 0 cuando t .
Demostracion Sea > 0. Se sigue de la denicion que si R(X) denota
el rango de X, entonces

rR(X)
P(X = r) = 1.
Enumeremos los elementos de R(X) = {r
1
, . . .}. Existe un N > 0 tal que
N

i=1
P(X = r
i
) > 1 .
Ahora si T > r
1
, . . . , r
N
, se tiene que X > T implica T = r
1
, . . . , r
n
, por lo
que P(X > T) < P(X = r
1
, . . . , r
n
) < .
denicion 2.6. La esperanza E(X) de una variable aleatoria X se dene
mediante
E(X) =

i=1
X(
i
)p(
i
),
si esta serie resulta ser absolutamente convergente. En tal caso diremos que
la variable aleatoria X tiene esperanza denida o que es integrable. Si X es
integrable el orden de los sumandos no interesa y puede escribirse
E(X) =

X()p().
N otese que este es siempre el caso si X es una variable aleatoria acotada,
ya que la serie de termino general p() es absolutamente convergente. Si es
necesario recordar la medida P correspondiente a la funci on de probabilidad
p, puede utilizarse la notacion E
P
(X) = E(X), o bien la notacion analtica
E(X) =
_

X()dP().
14
ejemplo 2.7. N otese que resulta muy sencillo denir variables aleatorias
nitas cuya esperanza no converge: Por ejemplo, si se lanza una moneda
simetrica i veces para obtener una cara, se tiene que la variable aleatoria
X(
i
) = 2
i
no tiene esperanza denida, ya que la serie

i=1
X(
i
)p(
i
) =

i=1
2
i
2
i
=

i=1
1
no converge.
ejemplo 2.8. Si B es un evento, la funci on caracterstica
B
es una
variable aleatoria. Su esperanza est a dada por
E(
B
) =

i=1

B
(
i
)p(
i
) =

i
B
p(
i
) = P(B).
ejemplo 2.9. Si X es una variable aleatoria y F : R {} R {} es
una funci on arbitraria, entonces F(X) = F X es una variable aleatoria. Su
esperanza esta dada por
E[F(X)] =

i=1
F[X(
i
)]p(
i
),
si dicha serie converge. Un caso particular importante es el de la funci on
F(x) = |x|. En este caso
E(|X|) =

i=1
|X(
i
)|p(
i
).
N otese que en particular la condici on de convergencia absoluta en la denici on
de variable aleatoria integrable implica que X es integrable si y solo si |X|
es integrable.
Proposicion 2.10. La funcion X E(X) es lineal en su dominio de
denicion y la esperanza de la funcion constante c es E(c) = c.
Demostraci on Tal como en el caso nito, podemos escribir
E(X +Y ) =

[X() +Y ()]p() =
15

X()p() +

Y ()p() = E(X) +E(Y ),


donde la convergencia absoluta de la primera suma est a garantizada por la
convergencia absoluta de las restantes. Por otro lado
E(c) =

cp() = c

p() = c 1 = c.
Proposicion 2.11. La funcion X E(X) es monotona, en el sentido de
que si X() < Y () para todo , se tiene E(X) < E(Y ).
Demostracion
E(X) =

X()p()

Y ()p() = E(Y ).
ejemplo 2.12. Si K
1
< X() < K
2
para todo , se tiene K
1
< E(X) <
K
2
.
ejemplo 2.13. Si X es una variable aleatoria integrable arbitraria se tiene
|X| X |X|, por lo que E(|X|) E(X) E(|X|), es decir |E(X)|
E(|X|).
ejemplo 2.14. Si X es una variable aleatoria nita no negativa, entonces se
tiene X
A
X
B
para todo par de subconjuntos A y B de con A B,
por lo que E(X
A
) E(X
B
). En particular, tomando B = se tiene
E(X
A
) E(X).
ejemplo 2.15. Si X es una variable aleatoria integrable, entonces se tiene
para todo subconjunto B de la identidad
E(X
B
) =

X()
B
()p() =

X()p(|B)P(B) = E(X|B)P(B).
Los conceptos de independencia de conjuntos y variables aleatorias, as
como las deniciones de probabilidad y esperanza condicionada se traducen
literalmente al caso numerable. Tambien se traduce literalmente la formula
E(X) =

B
i
P
E(X|B
i
)P(B
i
),
16
si P = {B
1
, . . . , B
n
} es una particion nita de . Esta f ormula puede de-
mostrarse alternativamente utilizando las funciones caractersticas. De he-
cho, siendo P una particion nita se tiene
n

i=1

B
i
= 1,
de donde
E(X) = E
_
X
n

i=1

B
i
_
=
n

i=1
E(X
B
i
) =
n

i=1
E(X|B
i
)P(B
i
).
Diremos que una sucesi on {X
n
}
nN
de variables aleatorias converge a una
variable aleatoria X si para todo se tiene X
n
() X().
Proposicion 2.16. Supongamos que la sucesion {X
n
}
nN
de variables aleato-
rias acotadas por una misma constante K converge a una variable aleatoria
X. Entonces E(X
n
) converge a E(X).
Demostracion Sea > 0. Para cada , sea N = N(, ) el
menor entero tal que |X
n
() X()| < para todo n > N. La funci on
N(, ) es una variable aleatoria nita (por hip otesis) que denotaremos
N

. En particular, P(N

> n) 0 cuando n . Ahora bien:


E(|X
n
X|) = E
_
|X
n
X|

> n
_
P(N

> n)+
E
_
|X
n
X|

n
_
P(N

n) 2KP(N

> n) + .
Como > 0 era arbitrario, se concluye E(|X
n
X|) 0 cuando n .
Esto implica
0

E(X
n
) E(X)

E(|X
n
X|) 0,
de donde E(X
n
) E(X).
Proposicion 2.17. Supongamos que sucesion {X
n
}
nN
de variables aleato-
rias converge uniformemente a una variable aleatoria X. Entonces E(X
n
)
converge a E(X).
17
Demostracion Basta tomar Y
n
= X
n
X y observar que |Y
n
| est a
acotado por 1 para n sucientemente grande, por lo que E(Y
n
) 0.
N otese que es posible dar una demostracion directa del corolario obser-
vando que para n sucientemente grande se tiene X < X
n
< X +. Los
detalles se dejan al lector.
Hay un segundo teorema de convergencia mas fuerte que el de convergen-
cia acotada que utilizaremos en lo que sigue. Para ello necesitamos alguna
preparaci on.
Proposicion 2.18. Sea Y una V.A. positiva e integrable. Existe una medida
de probabilidad P
Y
tal que para toda variable aleatoria X se tiene E
Y
(X) =
E(XY )/E(Y ) si alg un lado de la ecuacion converge.
Demostraci on Para cada se dene p
Y
() = Y ()p()/E(Y ).
Dejamos al lector la tarea de comprobar que esta formula dene una funcion
de probabilidad. La esperanza de X con respecto a esta medida est a dada
por
E
Y
(X) =

X()p
Y
() =

X()Y ()p()/E(Y ),
de donde se sigue lo pedido.
Proposicion 2.19. Supongamos que la sucesion {X
n
}
nN
de variables aleato-
rias acotadas por una misma V.A. positiva e integrable Y converge a una
variable aleatoria X. Entonces E(X
n
) converge a E(X).
Demostracion Se dene Z
n
= X
n
/Y cuando Y = 0, y Z
n
= 0 en caso
contrario. N otese que X
n
= Z
n
Y . Se dene Z del mismo modo, as que
X = ZY . La denici on implica que Z
n
Z para todo punto . Como
X
n
est a acotado por Y , se tiene que Z
n
1. Ahora se tiene
E(X
n
) = E(Z
n
Y ) = E
Y
(Z
n
) E
Y
(Z) = E(X).
Proposicion 2.20. Si X es una variable aleatoria y F : R R es una
funcion, entonces toda variable aleatoria Y que es independiente con X es
independiente con F(X).
18
Demostracion Sean r, s R. Basta probar que
P
_
F(X) = r, Y = s
_
= P
_
F(X) = r
_
P(Y = s).
Para eso observamos que F(X) = r implica X = t para alg un t F
1
(r).
Se sigue que
P
_
F(X) = r, Y = s
_
=

tF
1
(r)
P(X = t, Y = s)
=

tF
1
(r)
P(X = t)P(Y = s) = P
_
F(X) = r
_
P(Y = s).
denicion 2.21. Una variable aleatoria X : R se dice simple si existe
una partici on P = {B
1
, . . . , B
n
} de tal que X es constante en cada conjunto
B
i
. En este caso puede considerarse a X como una funci on denida en P
y el c alculo de su esperanza se reduce al c alculo de la esperanza de una
variable aleatoria denida en un espacio nito. Utilizaremos a menudo esta
observacion en lo que sigue.
Proposicion 2.22. Si X e Y son variables aleatorias independientes e in-
tegrables y al menos una es simple, se tiene E(XY ) = E(X)E(Y ).
Demostracion Suponiendo que Y es simple, se tiene que su rango R(Y )
es nito y se tiene, tal como en el caso nito:
E(XY ) =

rR(Y )
E(XY |Y = r)P(Y = r)
=

rR(Y )
E(Xr|Y = r)P(Y = r) =

rR(X)
rE(X|Y = r)P(Y = r)
=

rR(Y )
rE(X)P(Y = r) = E(X)E(Y ).
Proposicion 2.23. Toda variable aleatoria acotada X es lmite uniforme de
variables aleatorias simples que son funciones en X.
19
Demostracion Sea X una variable aleatoria tal que para todo
se tiene K X() K. Se dene X
n
() =
k
n
si
k
n
X() <
k+1
n
es
inmediato que para todo n y todo se tiene |X
n
() X()| <
1
n
. El
hecho de que cada X
n
es simple sigue si observamos que X
n
toma s olo valores
de la forma
k
n
con K
1
n
<
k
n
< K por lo que hay s olo una cantidad nita
de valores posibles. Por otro lado, es inmediato que X
n
=
1
n
[nX] donde [a]
denota la funci on parte entera de a.
Proposicion 2.24. Si X e Y son variables aleatorias independientes e in-
tegrables y al menos una es acotada, se tiene E(XY ) = E(X)E(Y ).
Demostracion Si K X K escribimos X como un lmite uni-
forme de variables aleatorias X
n
que son tambien independientes de Y .
Como |Y X
n
| est a acotada por la V.A. integrable KY , se tiene por un lado
E(X
n
Y ) E(XY ) y por otro E(X
n
Y ) = E(X
n
)E(Y ) E(X)E(Y ).
El resultado anterior es v alido bajo la hiptesis de independencia e inte-
gridad de ambas variables solamente. A n de demostrarlo, necesitaremos
un teorema de descomposici on de la esperanza para particiones numerables.
Proposicion 2.25. Sea X una variable aleatoria integrable. Entonces
E(X|X n)P(X n) 0, cuando n .
Demostracion Sea Y
n
la variable aleatoria que vale 0 si X < n y 1 si
no. Entonces
E(XY
n
) = E(XY
n
|X n)P(X n) +E(XY
n
|X < n)P(X < n)
= E(X|X n)P(X n).
Se sigue que
E(X|X n)P(X n) = E(XY
n
) = E
X
(Y
n
)E(X) = P
X
(X n),
y el resultado sigue de la Proposicion 2.5 que el ultimo termino tiende a
cero.
Proposicion 2.26. Sea X una variable aleatoria integrable. si = {B
1
, B
2
. . .}
es una particion numerable de , se tiene
E(X) =

i=1
E(X|B
i
)P(B
i
),
y esta serie es absolutamente convergente.
20
Demostracion N otese que

E(X|B
i
)P(B
i
)

E
_
|X|

B
i
_
P(B
i
).
Remplazando X por |X| si es necesario podemos asumir que X es positiva.
Sea T una variable aleatoria tal que T() = n si y s olo si B
n
. Para cada
n umero natural N la particion

N
= {B
1
, . . . , B
N
, C
N
}
donde C
N
=

i=N+1
B
i
, satisface
E(X) =
N

i=1
E(X|B
i
)P(B
i
) +E(X|C
N
)P(C
N
),
por lo que basta probar que E(X|C
N
)P(C
N
) converge a 0. Observese que
C
N
si y s olo si T() > N por lo que el resultado sigue de la proposicion
precedente.
En particular, si tomamos la particion formada por los conjuntos
A
r
(X) = { |X() = r},
se tiene:
Corolario 2.26.1. Si X una variable aleatoria integrable, entonces
E(X) =

rR(X)
rP(X = r),
donde el rango esencial R(X) puede remplazarse por cualquier conjunto mayor.
Tal como en el caso nito, podemos escribir
E(X) =

rR
rP(X = r),
con el entendido de que esta suma tiene un n umero numerable de terminos
no nulos y es absolutamente convergente.
Mas generalmente, con las mismas convenciones, se tiene:
21
Corolario 2.26.2. Si X una variable aleatoria tal que F(X) es integrable,
entonces
E[F(X)] =

rR
F(r)P(X = r).
Proposicion 2.27. Si X e Y son variables aleatorias independientes e inte-
grables, entonces XY es tambien integrable y se tiene E(XY ) = E(X)E(Y ).
Demostracion Supongamos primero que se sabe de antemano que XY
es integrable. Entonces podemos escribir como en el caso nito:
E(XY ) =

rR(Y )
E(XY |Y = r)P(Y = r) =

rR(Y )
E(Xr|Y = r)P(Y = r)
=

rR(Y )
rE(X|Y = r)P(Y = r) =

rR(Y )
rE(X)P(Y = r) = E(X)E(Y ),
utilizando el resultado precedente. En el caso general, basta probar que
|XY | = |X||Y | es integrable, por lo que podemos suponer que X e Y son pos-
itivas. Adem as, si denimos X
n
= min{X, n}, se tiene que el producto X
n
Y
es integrable ya que X
n
es acotada y por lo tanto E(X
n
Y ) = E(X
n
)E(Y )
E(X)E(Y ). Como cada sub-suma nita de la suma

X()Y ()p() (2.1)


que dene E(XY ) es sub-suma de la suma correspondiente que dene a
E(X
n
Y ) para alg un n, esta est a acotada por E(X)E(Y ) por lo que (2.1)
converge.
22
Chapter 3
Espacios de probabilidad.
La teora desarrollada hasta aqu permite estudiar un gran n umero de prob-
lemas, pero hay situaciones que no nos permite describir. Por ejemplo si
queremos construir un espacio asociado al problema siguiente:
Se arroja una moneda indenidamente. Cual es la probabilidad
de que el n umero de caras nunca supere al de sellos durante todo
el proceso?
Nos gustara estudiar este problema deniendo un espacio de probabilidad en
el cual se tuviera un punto por cada posible sucesi on (innita) de resultados
cara o sello. Notese que el conjunto de tales sucesiones no es numerable.
Otro problema de este tipo es el siguiente:
Se escoge un n umero al azar entre 0 y 1 de modo que para cada
intervalo [a, b] la probabilidad de escoger un elemento de este es
b a.
En este captulo desarrollaremos una teora de probabilidades mas general,
que puede aplicarse a problemas de este tipo. Por simplicidad damos aqui
solamente las deniciones generales, posponiendo los resultados de existencia
(por ejemplo, de los espacios antes mencionados) a un captulo posterior (a un
no escrito).
-Algebras
Antes de dar la denicion general de espacio de probabilidad, es necesario
hacer una observaci on. Hasta aqu la probabilidad era una funci on denida
23
en un subconjunto arbitrario del espacio muestral . Sin embargo, es posible
demostrar que no existe ninguna medida de probabilidad denida en todos
los subconjuntos de [0, 1] tal que la medida de un intervalo [a, b] sea b a. Es
necesario por lo tanto restringir nuestra denicion a una colecci on menor de
subconjuntos. Esta colecci on debe, sin embargo, ser lo bastante amplia para
incluir uniones numerables. A continuacion formalizaremos este concepto:
denicion 3.1. Sea un conjunto arbitrario. Una - algebra en es una
colecci on de subconjuntos de que satisface las condiciones siguientes:
1. .
2. Si A entonces su complemento A
c
est a en .
3. Si {A
i
}
iN
es una familia numerable de conjuntos en , entonces su
uni on A =

iN
A
i
est a en .
N otese que las leyes de De Morgan implican que una - algebra es tambien
cerrada bajo intersecciones numerables, puesto que si {A
i
}
iN
es una familia
numerable de conjuntos en , entonces
A =

iN
A
i
=
_
_
iN
A
c
i
_
c
.
denicion 3.2. Un espacio medible es un par (, ) donde es un conjunto
y es una - algebra en .
ejemplo 3.3. Si es un conjunto arbitrario, la coleccion () de todos los
subconjuntos de es una - algebra. Si es nito o numerable, esta es la
unica - algebra que contiene a todos los conjuntos unitarios {}.
ejemplo 3.4. Si es un conjunto arbitrario, la colecci on X de todos los
subconjuntos A de tales que uno de los conjuntos A o A
c
es numerable es
una - algebra.
ejemplo 3.5. Si f : es una funci on arbitraria, y si A es un subcon-
junto de , su pre-im agen f
1
(A) se dene por:
f
1
(A) = { |f() A}.
24
Dejamos al lector la comprobaci on de las propiedades b asicas de la pre-
im agen:
f
1
() = , f
1
(A
c
) = f
1
(A)
c
, f
1
_
_
iN
A
i
_
=
_
iN
f
1
(A
i
).
Si es una - algebra en , su pre-im agen es la colecci on
f

() = {f
1
(A)|A }.
De hecho, f

() es una - algebra en , como se deduce de las identidades


precedentes.
ejemplo 3.6. Si f : es una funcion arbitraria, y si es una - algebra
en , la colecci on
f

() = {B |f
1
(B) }
es una - algebra en .
ejemplo 3.7. Toda interseccion de - algebras es una - algebra. En partic-
ular, si T es una colecci on de subconjuntos de , existe una menor - algebra
(T) que contiene a T y se llama la - algebra generada por T. De hecho
(T) puede caracterizarse como la interseccion de todas las - algebras que
contienen a T. Los elementos de (T) se obtienen a partir de los elementos
de T mediante sucesivos complementos y uniones numerables.
ejemplo 3.8. La - algebra en R generada por el conjunto de todos los inter-
valos del tipo [a, b[ se denomina la - algebra de Borel de R. Los elementos
de esta - algebra se llaman borelianos. Observese que los siguientes tipos de
conjuntos son borelianos:
1. {r} =

n=1
[r, r + 1/n[.
2. [a, b] =

n=1
[a, b + 1/n[.
3. ]a, b[=

n=1
[a + 1/n, b[.
Lo mismo sucede para cualquier otro tipo de intervalo.
25
Medidas de Probabilidad
denicion 3.9. Sea (, ) un espacio medible. Una medida en este espacio
es una funci on P : [0, ] que satisface las condiciones siguientes:
1. P() = 0.
2. Si {A
i
}
iN
es una familia numerable de conjuntos disjuntos en , en-
tonces su uni on A =

iN
A
i
satisface
P(A) =

i=1
P(A
i
).
En este caso el tro (, , P) se denomina un espacio de medida. Si P() = 1
se dice que (, , P) es un espacio de probabilidad.
ejemplo 3.10. Si es numerable, cada funci on de probabilidad p denida
en dene una medida de probabilidad P en la -algebra () de todos los
subconjuntos de mediante P(B) =

B
p().
ejemplo 3.11. Mas generalmente, si es una partici on numerable de , la
colecci on de todos los subconjuntos de que pueden escribirse como union
de elementos de forman una - algebra

. Toda funci on de probabilidad


en dene una medida de probabilidad en (,

).
ejemplo 3.12. Si f : es una funcion arbitraria, y si P es una medida
de probabilidad en (, ), entonces existe una medida de probabilidad en
f

() denida por P
f
(B) = P[f
1
(B)].
ejemplo 3.13. Si P es una medida de probabilidad denida en (, ), y si
es una - algebra contenida en , la restricci on de P a dene una medida
en (, ).
ejemplo 3.14. Si es la - algebra denida el ejemplo 3.4, sobre un espacio
muestral no numerable , entonces se dene una medida de probabilidad en
mediante P(A) = 0 si A es numerable y P(A) = 1 en caso contrario.
denicion 3.15. Una Variable Aleatoria en un espacio medible (, ) es
una funcion X : R {}, tal que para cada intervalo [a, b[ se tiene
X
1
[a, b[=
_
|X() [a, b[
_
.
26
En otras palabras, si (, , P) es un espacio de medida, la funci on X : R
es una variable aleatoria si la probabilidad
P(a X < b) = P
_
X [a, b[
_
= P
X
_
[a, b[
_
est a denida.Aqu P
X
esta denida en el ejemplo 3.12. N otese que los con-
juntos B para los cuales
X
1
(B) = { |X() B}
forman una - algebra por el ejemplo 3.6, de modo que en particular P(X
B) esta denida para cualquier boreliano B. Como
{ |a X() < b} = { |X() < b} { |X() < a}
c
,
es suciente con probar que { |X() < b)} , o en otras palabras
que la probabilidad P(X < b) esta denida. La funci on denida por F(b) =
P(X < b) recibe el nombre de funcion de distribucion de X.
Observaci on 3.16. Si denotamos por B la - algebra en R formada por
todods los borelianos, entonces para toda variable aleatoria X la funci on P
X
denida por
P
X
(B) = P(X B)
es una medida de probabilidad en el espacio (R, B). Se llama la medida de
Borel asociada a la variable aleatoria X.
Proposicion 3.17. Sumas de variables aleatorias son variables aleatorias.
Demostracion N otese que si x + y < b, se tiene y < b x. Sea ahora
{r
n
}
n
una sucesion de n umeros racionales que converge a x por la derecha.
Entonces y < br
n
para n sucientemente grande. Se sigue que existe alg un
n umero racional r tal que x < r e y < b r. Se concluye que
{ |X() +Y () < b} =
_
rQ
{ |X() < r} { |Y () < b r} .
Proposicion 3.18. Si X es una variable aleatoria y G : R R es una
funcion monotona, entonces G(X) = G X es una variable aleatoria.
27
Demostracion Basta ver que si G es creciente entonces para todo in-
tervalo I en R, su preimagen G
1
(I) es un intervalo, ya que entonces
{ |G[X()] I} = { |X() G
1
(I)} .
Si a y b son elementos de G
1
(I), entonces para todo c entre a y b el elemento
G(c) debe estar entre G(a) y G(b) por la monotona de G y por lo tanto
G(c) I, de donde c G
1
(I).
Corolario 3.18.1. Si X es una variable aleatoria, entonces X tambien lo
es para toda constante . En particular combinaciones lineales de variables
aleatorias son variables aleatorias.
Corolario 3.18.2. Si X es una variable aleatoria y G : R R es una
funcion continua con un n umero nito de maximos o mnimos, entonces
G(X) = G X es una variable aleatoria.
Demostracion Supongamos que G es mon otona en cada uno de los
intervalos ] , x
0
], [x
0
, x
1
], . . . , [x
n1
, x
n
], [x
n
, [. Basta escribir
G(x) =
n+1

i=0
G
i
(x),
donde las funciones mon otonas G
i
se denen por
G
0
(x) =
_
G(x) if x x
0
G(x
0
) if x x
0

,
G
i
(x) =
_
_
_
0 if x x
i1
G(x) G(x
i1
) if x
i1
x x
i
G(x
i
) G(x
i1
) if x x
i

,
para 1 i n, y nalmente
G
n+1
(x) =
_
0 if x x
n
G(x) G(x
n
) if x x
n

.
Demostraremos al nal de este captulo que G(X) es una variable aleato-
ria para toda funci on continua G.
Proposicion 3.19. Productos de variables aleatorias son variables aleato-
rias.
28
Demostracion Si b, x, e y son positivos, entonces xy < b es equivalente
a x < r e y < b/r para alg un racional positivo r, por lo que si X e Y fuesen
variables aleatorias positivas el resultado sigue como en el caso de la suma.
Para el caso general, escribimos X = G
1
(X) G
2
(X) e Y = G
1
(Y ) G
2
(Y ),
donde
G
1
(t) = 1 + max{0, t}, G
2
(t) = 1 + max{0, t},
y observamos que
XY = G
1
(X)G
1
(Y ) G
1
(X)G
2
(Y ) G
1
(X)G
2
(Y ) +G
1
(X)G
2
(Y ).
denicion 3.20. Una Variable Aleatoria se dice discreta si su imagen
X() = {X()| }
es numerable. La esperanza de una variable aleatoria discreta X se dene
por:
E(X) =

rR
rP(X = r) =

rX()
rP(X = r).
La probabilidad P(X = r) esta denida ya que {r} es un boreliano.
Una particion (numerable) se dice mas na que una particion

si
todo conjunto de est a contenido en un conjunto de

. Denotemos por

X
la partici on formada por los conjuntos A
r
(X). Entonces para cualquier
partici on mas na que
X
se tiene
E(X) =

A
X(a)P(A),
donde a es un elemento arbitrario de A. Notese que si es cualquier particion
numerable contenida en , entonces

X
= {A A
X
|A , A
X

X
}
es tambien una partici on numerable contenida en y es mas na que que

X
. La variable aleatoria X puede interpretarse como una variable aleatoria
denida en el conjunto numerable
X
, de donde se obtiene, utilizando
los resultados del captulo anterior, que
E(X) =

A
P(A)=0
E(X|A)P(A).
29
La esperanza condicional en la f ormula precedente se dene como la esper-
anza con respecto a la probabilidad condicional, la que tambien se inter-
preta como una probabilidad en el conjunto numerable
X
. Del mismo
modo se demuestra que si X e Y son variables aleatorias discretas, podemos
considerarlas como variables aleatorias en el conjunto numerable
X

Y
,
de modo que cualquier combinaci on lineal X + Y es discreta y se tiene
E(X +Y ) = E(X) +E(Y ). Asimismo, la denici on de independencia
se extiende facilmente a variables aleatorias discretas. Si X e Y son variables
aleatorias discretas, integrables, e independientes, entonces la esperanza de
XY est a denida y se tiene
E(XY ) = E(X)E(Y ).
denicion 3.21. Se dice que una variable aleatoria X es integrable si

nZ
nP
_
X [n, n + 1[
_
es absolutamente convergente. En otras palabras, una variable aleatoria
arbitraria X es integrable si y solo si la variable aleatoria discreta X
1
=
[X] tiene esperanza bien denida. En particular, si X es discreta, se tiene
[X] X [X] +1, por lo que X tambien tiene esperanza bien denida. De
hecho si denimos X
n
=
1
n
[nX], entonces 0 E(X X
n
)
1
n
, de modo que
E(X) = lim
n
E(X
n
). (3.1)
Sin embargo, las variables aleatorias X
n
=
1
n
[nX] estan denidas y son discre-
tas para toda variable aleatoria X. Se sigue que podemos utilizar la ecuaci on
(3.1) para denir la esperanza de una variable aleatoria arbitraria. La de-
sigualdad X
n
X
1
+1 prueba que cada variable aleatoria X
n
tiene esperanza
bien denida y las desigualdades
X
n
X X
n
+
1
n
, X
m
X X
m
+
1
m
,
implican |X
n
X
m
| Max{
1
n
,
1
m
}, por lo que se tiene
|E(X
n
) E(X
m
)| E|X
n
X
m
| Min
_
1
n
,
1
m
_
para todo par de enteros m y n. Se sigue que la sucesion {E(X
n
)} es de
Cauchy y por lo tanto converge.
Proposicion 3.22. La esperanza es lineal.
30
Demostracion Probaremos primero que E(X) = E(X). Para esto
observamos que si
k
n
x <
k+1
n
entonces
k1
n
< x
k
n
. Se sigue que
para todo , (X)
n
() es igual a X
n
() o a X
n
()
1
n
. En todo
caso
(X)
n
X
n
(X)
n
+
1
n
,
de donde
E(X)
n
E(X)
n
E(X)
n
+
1
n
,
y el resultado sigue. Supongamos ahora que y son positivos. Se sigue de
la denicion que
X +Y (X +Y )
n
X +Y +
1
n
,
y del mismo modo
X +Y X
n
+Y
n

_
X +
1
n
_
+
_
Y +
1
n
_
,
de donde

n
(X +Y )
n
(X
n
+Y
n
)
1
n
,
y la esperanza del termino central converge a E(X+Y )E(X)E(Y ).
El caso general sigue ahora facilmente. Por ejemplo, si es negativo y
positivo, escribimos
E(X +Y ) = E[()(X) +Y ] =
()E(X) +E(Y ) = E(X) +E(Y ).
Proposicion 3.23. Si X es una variable aleatoria integrable, y si es una
particion numerable arbitraria, entonces
E(X) =

A
E(X|A)P(A).
31
Demostracion Basta ver que como X
n
X X
n
+
1
n
, se tiene
E(X
n
) =

A
E(X
n
|A)P(A)

A
E(X|A)P(A)

A
_
E(X
n
|A) +
1
n
_
P(A) = E(X
n
) +
1
n
,
y cada extremo de esta desigualdad converge a E(X).
En particular, para todo evento jo C de probabilidad no nula puede
aplicarse esta f ormula a la probabilidad condicional P(|C) y obtener
E(X|C) =

A
P(A|C)=0
E(X|A C)P(A|C).
En particular, si C es la union de alguna subcolecci on de la particion , se
tiene
E(X|C) =

A
P(A)=0
AC
E(X|A)
P(A)
P(C)
,
es decir
E(X|C)P(C) =

A
P(A)=0
AC
E(X|A)P(A).
N otese que C es la union de una subcoleccion de la particion si y s olo si
est a en la - algebra generada por .
denicion 3.24. Dos variables aleatorias X e Y se dicen independientes, si
para todo par de intervalos I = [a, b[ y J = [c, d[ los eventos
A = { |X() I}, B = { |Y () J},
son independientes, es decir P(A B) = P(A)P(B).
Lema 3.25. Si X e Y son independientes, tambien lo son X
n
e Y
n
.
32
Demostracion Basta observar que
_

X
n
() =
k
n
_
=
_

k
n
X() <
k + 1
n
_
,
y del mismo modo
_

Y
n
() =
k
n
_
=
_

k
n
Y () <
k + 1
n
_
,
por lo que estos conjuntos son independientes.
Proposicion 3.26. Si X e Y son variables aleatorias integrables e indepen-
dientes, entonces XY es integrable, y se tiene E(XY ) = E(X)E(Y ).
Demostracion Para la integrabilidad, remplazando X, Y , y XY por
|X|, |Y |, y |XY |, de ser necesario, podemos suponer que ambas variables
aleatorias son positivas y se tiene
(XY )
1
XY (X
1
+ 1)(Y
1
+ 1) = X
1
Y
1
+X
1
+Y
1
+ 1,
y cada una de las variables aleatorias del lado izquierdo es integrable. Como
X
n
e Y
n
son independientes, se tiene E(X
n
Y
n
) = E(X
n
)E(Y
n
) E(X)E(Y ),
por otro lado
X
n
Y
n
XY
_
X
n
+
1
n
__
Y
n
+
1
n
_
= X
n
Y
n
+
1
n
(X
n
+Y
n
) +
1
n
2
,
por lo que al tomar esperanzas se tiene
E(X
n
Y
n
) E(XY ) E(X
n
Y
n
) +
1
n
[E(X
n
) +E(Y
n
)] +
1
n
2
,
y el resultado sigue.
Apendice 1: Tiempos de espera
El teorema de convergencia acotada se extiende al caso general con la misma
demostraci on utilizada en el captulo precedente si demostramos que la funcion
N(, ) = min
_
m

n m |X() X
n
()|
_
33
es una variable aleatoria. Esta funcion es un ejemplo de lo que llamaremos
un tiempo de espera.
Sea Y
1
, Y
2
, . . . una sucesion de variables aleatorias tomando valores 0 y 1.
El tiempo de espera asociada a la sucesi on es la funcion
N() = min
_
m

n m Y
(
) = 1
_
.
La funci on N se denomina en ocasiones el tiempo de espera del primer acierto
de la sucesi on.
Proposicion 3.27. Todo tiempo de espera es una variable aleatoria discreta.
Demostraci on Sea X
1
, X
2
, . . . es una sucesion de variables aleatorias
en un espacio medible (, ) tomando valores 0 y 1. Basta observar que
N = k X
k
= 1 y X
1
= = X
k1
= 0,
de donde
{|N() = k} = {|X
k
() = 1}
k1

i=1
{|X
i
() = 0}
y este ultimo conjunto pertenece a la - algebra .
Observese que si X
1
, X
2
, . . . , X
m
es una colecci on nita de variables aleato-
rias discretas en un espacio medible, estas pueden considerarse variables
aleatorias en un espacio numerable, por lo que cualquier funci on que dependa
de ellas es una variable aleatoria discreta. En particular, Si X
1
, X
2
, . . . es una
sucesi on de variables aleatorias en un espacio medible (, ) tomando valores
0 y 1, podemos denir una nueva sucesion de V.A.s Y
1
, Y
2
, . . . donde Y
i
= 1
si y s olo si X
i
es el n-esimo termino de la sucesion que toma el valor 1. El
tiempo de espera de correspondiente recibe el nombre de tiempo de espera
del n-esimo acierto de la sucesi on original.
Del mismo modo es posible denir el tiempo de espera del ultimo acierto
(recuerdese que como toda variable aleatoria, un tiempo de espera puede
tomar el valor innito). Dada una sucesion de variables aleatorias a valores
0 y 1 X
1
, X
2
, . . ., denimos una segunda sucesi on de V.A.s Y
1
, Y
2
, . . . donde
Y
i
= 1 si 0 = X
i+1
= X
i+1
= . . .. Cada Y
i
es una variable aleatoria ya que
{|Y
i
) = 1} =

j=i+1
{|X
j
() = 0}.
34
N otese que, as denido, el tiempo de espera del ultimo acierto se anula si
no hay aciertos.
Mas generalmente, Si X
1
, X
2
, . . . es una sucesi on arbitraria de variables
aleatorias en un espacio medible y si B es un boreliano (en las aplicaciones, B
es generalmente un intervalo), podemos denir una nueva sucesi on de V.A.s
Z
1
, Z
2
, . . . donde Z
i
= 1 si y solo si 0 = X
i
B, y hablar as del tiempo de
espera del primer ingreso (o del n-esimo, o el ultimo) a B. El hecho de que
cada Z
i
es una variable aleatoria sigue de la observacion de que el conjunto
{|X
i
() B} est a el la - algebra.
Apendice 2: Variables aleatorias y funciones continuas
En esta secci on demostraremos el resultado siguiente:
Proposicion 3.28. Si X es una variable aleatoria nita y G : R R es
una funcion continua, entonces G(X) es una variable aleatoria.
Para demostrar este resultado necesitaremos algunos lemas sobre la topologa
del conjunto de n umeros reales. Recordemos que un subconjunto U R se
dice abierto si para todo elemento x de U existe un real > 0 tal que el inter-
valo ]x , x +[ esta contenido en U. En particular, los intervalos abiertos
son conjuntos abiertos.
Lema 3.29. Si G : R R es una funcion continua y U es un conjunto
abierto, entonces G
1
(U) es un conjunto abierto.
Demostraci on Sea x G
1
(U). Por denici on esto signica G(x)
U. Como U es abierto, existe > 0 tal que
_
G(x) , G(x) +
_
U.
Como G es continua en x, existe > 0 tal que |x y| < implica |G(x)
G(y)| < . En particular, si y ]x , y + [ se tiene |x y| < , por lo que
|G(x) G(y)| < , es decir
G(y)
_
G(x) , G(x) +
_
U,
de donde, por denici on, se tiene y G
1
(U). Como y era un punto arbi-
trario de ]x , x +[, se tiene ]x , x +[ G
1
(U).
Lema 3.30. Todo subconjunto abierto de R es union numerable de intervalos.
35
Demostracion Basta probar que un conjunto abierto U es la uni on de
todos los intervalos de extremos racionales ]r, q[ tales que ]r, q[ U, ya que
existe s olo una cantidad numerable de tales intervalos. Sin embargo, para
cada elemento x U existe un intervalo ]x , x + [ contenido en U, por
lo que basta encontrar un racional r entre x y x, as como un racional q
entre x y x +.
Corolario 3.30.1. Todo subconjunto abierto de R es un boreliano.
Demostracion de la proposicion. Sea G : R R una funcion con-
tinua. Entonces para todo conjunto de la forma I =] , b[ el conjunto
G
1
(I) es abierto y por lo tanto boreliano. Se sigue que
{ |G(X)() I} = { |X() G
1
(I)} .
Apendice 3: El Teorema de Convergencia Dominada.
En este apendice generalizaremos los teoremas de convergencia dominada y
acotada para variables aleatorias no discretas.
Proposicion 3.31. Supongamos que la sucesion {X
n
}
nN
de variables aleato-
rias acotadas por una misma constante K converge a una variable aleatoria
X. Entonces E(X
n
) converge a E(X).
Demostracion Sea > 0. Para cada , sea N = N(, ) el
menor entero tal que |X
n
() X()| < para todo n > N. La funci on
N(, ) es un tiempo de espera nito, luego en particular una variable
aleatoria nita. El resultado sigue como en el captulo anterior una vez que
probemos el siguiente lema:
Lema 3.32. Si X es una variable aleatoria nita en un espacio de probabil-
idad arbitrario, entonces P(X > t)
n
0.
Demostracion Observemos que P(Y > t)
n
0 para toda V.A. disc-
reta Y por los resultados del captulo precedente. Por otro lado, para toda
V.A. X se tiene
0 P(X > t) P
_
1
n
[nX] > t
1
n
_
,
36
de donde se sigue lo pedido.
Para deducir el teorema de convergencia dominada del de convergencia
acotada, se dene la medida P
Y
, para toda V.A. positiva integrable Y medi-
ante
P
Y
(A) = E
Y
(Y
A
)/E(Y ).
Comprobaremos que P
Y
dene una medida. Es inmediato que P
Y
() = 1
y que P
Y
(A B) = P
Y
(A) + P
Y
(B) si A y B son disjuntos. Consideremos
ahora una union numerable A =

i=1
A
i
de conjuntos A
i
tales que A
i
A
j
para i = j. En este caso, {A
c
, A
1
, A
2
, . . .} es una partici on numerable de ,
por lo que se tiene
P
Y
(A)E(Y ) = E(Y
A
) = E(Y
A
|A
c
)P(A
c
) +

i=1
E(Y
A
|A
i
)P(A
i
)
=

i=1
E(Y |A
i
)P(A
i
) =

i=1
E(Y
A
i
) =

i=1
P
Y
(A
i
)E(Y ).
Si X es cualquier V.A. discreta nita, se tiene
E
Y
(X)E(Y ) =

rR
rP
Y
(X = r)E(Y ) =

rR
rE(Y
{X=r}
).
Y por otro lado,
E(XY ) =

rR
E(XY |X = r)P(X = r) =

rR
rE(Y |X = r)P(X = r),
de donde sigue que E
Y
(X)E(Y ) = E(XY ). El caso general sigue ahora si
recordamos que
1
n
[nX] X
1
n
[nX] +
1
n
.
Dejamos los detalles al lector. El siguente resultado sigue ahora como en el
captulo anterior.
Proposicion 3.33. Supongamos que la sucesion {X
n
}
nN
de variables aleato-
rias acotadas por una misma V.A. positiva e integrable Y converge a una
variable aleatoria X. Entonces E(X
n
) converge a E(X).
37
Chapter 4
Variables aleatorias
absolutamente continuas.
denicion 4.1. Sea X una variable aleatoria que satisface
P(a X < b) =
_
b
a
f(x)dx
donde f es una funcion Riemann integrable y no negativa en cada intervalo
nito. Se sigue que para todo par de n umeros reales a y b, con a < b se tiene
_
b
a
f(x)dx P() = 1.
Por otro lado,
_

f(x)dx =

nZ
_
n+1
n
f(x) dx =

nZ
P(n X < n + 1) = P() = 1,
y en particular esta integral es absolutamente convergente en R. En este caso
se dice que X es una variable aleatoria absolutamente continua. La funci on
f recibe el nombre de funcion de densidad de X. N otese que en particular
la funcion de densidad de X est a denida por
F
X
(t) =
_
t

f(s) ds
por lo que F

X
(t) = f
X
(t) en todo punto de continuidad de f
X
.
Proposicion 4.2. Sea X una variable aleatoria absolutamente continua.
Para todo r R, se tiene P(X = r) = 0.
38
Demostracion Basta ver que
0 P(X = r) P(r X r +) < K,
donde K es una cota para f en una vecindad de r.
Proposicion 4.3. Sea X una variable aleatoria absolutamente continua con
funcion de densidad f. entonces E(X) =
_

xf(x) = I. si alg un lado de


esta identidad esta denido.
Demostracion N otese que
E
_
1
n
[nX]
_
=

i=
i
n
P
_
i
n
X <
i + 1
n
_
=

i=
i
n
P
_ i+1
n
i
n
f(x) dx
=
_

1
n
[nx]f(x) dx.
De este modo, si I
n
=
_

1
n
[nx]f(x) dx, se tiene I
n
E(X) I
n
+
1
n
. Por
otro lado, es inmediato que I
n
I I
n
+
1
n
si alguna de estas integrales
converge, por lo que E(X) = I.
ejemplo 4.4. Sea X
i
una sucesi on de V.A.s de Bernouilli independientes de
par ametro 1/2 y sea X =

i=1
X
i
2
i
. Entonces para cada n umero racional de
la forma a +

N
i=1
a
i
2
i
donde a
1
, . . . , a
N
es una sucesi on de 0s y 1s se tiene
P
_
a X a +
1
2
N
_
=
1
2
N
.
De aqui no es dicil ver que para cada par de racionales en [0, 1] cuyo de-
nominador es una potencia de 2 se tiene P(a X b) = b a, y ya que
el conjunto de tales n umeros racionales es denso, la misma relaci on es v alida
para n umeros racionales cualesquiera. Se sigue que X es absolutamente con-
tinua con funci on de densidad 1 en el intervalo [0, 1] y 0 en su complemento,
o como diremos en lo sucesivo, con funci on de densidad
[0,1]
.
ejemplo 4.5. Sea X
i
la misma sucesi on de V.A.s del ejemplo precedente
y sea y =
2
3

i=1
X
i
3
i
. Dado que cada n umero racional tiene a lo m as 2
representaciones en base 3, se ve f acilmente que P(Y = r) = 0 para cada
n umero racional r. Se sigue que Y no es discreta, sin embargo cada valor
39
y = Y () de Y tiene s olo 0s y 2s en su representacion en base 3. Se sigue
que y es un elemento del conjunto de cantor C =

k=0
C
k
, donde C
0
= [0, 1] y
cada C
n+1
se obtiene removiendo el tercio central (abierto) de cada intervalo
componente de C
n
. Notese que si Y tuviese una funcion de densidad f K,
se tendra P(Y C) P(Y C
n
) (
2
3
)
n
K para todo n en Z y por lo tanto
P(Y C) = 0. Se sigue que Y no es absolutamente continua.
ejemplo 4.6. Sea X una V.A. absolutamente continua con funcion de den-
sidad
[0,1]
. Sea G una funci on continua en [0, 1]. Entonces para todo entero
n se tiene
E
_
G
_
1
n
[nX]
_
_
=
n1

k=0
G
_
k
n
_
P
_
k
n
X <
k + 1
n
_
=
n1

k=0
G
_
k
n
_
1
n
.
La suma de la derecha es una suma de Riemann de la funcion G y por lo
tanto E
_
G(
1
n
[nX])
_

_
1
0
G si n por otro lado, como G es continua,
se tiene G(
1
n
[nX]) G(X). Ademas G est a acotada por una constante K
por ser una funci on continua en un intervalo cerrado, por lo que el teorema
de convergencia dominada prueba que E
_
G(
1
n
[nX])
_
E
_
G(X)
_
. Se sigue
que
E
_
G(X)
_
=
_
1
0
G.
Antes de continuar necesitamos algunos lemas tecnicos. Recordemos que
una sucesi on de funciones {f
n
}
nN
denidas en un intervalo I se dice con-
verger uniformemente a una funci on f denida en I si para todo > 0 existe
N N tal que
n > N |f
n
(x) f(x)| < x I.
Lema 4.7. Si una sucesion de funciones reales {g
n
}
nN
denidas en un in-
tervalo I = (a, b), no necesariamente nito, convergen uniformemente a una
funcion real g, y si f es una funcion no negativa cuya integral
_
b
a
f converge,
entonces
_
b
a
g
n
(x)f(x) dx
n

_
b
a
g(x)f(x) dx,
si todas las integrales consideradas convergen.
40
Demostracion Sea > 0. Basta ver que para n sucientemente grande
se tiene
g(x) < g
n
(x) < g(x) +,
de donde
_
b
a
[g(x) ]f(x) dx <
_
b
a
g
n
(x)f(x) dx <
_
b
a
[g(x) +]f(x) dx,
es decir _
gf
_
f <
_
g
n
f <
_
gf
_
f,
de donde se tiene que
_
gf
_
f liminf
n
_
g
n
f limsup
n
_
g
n
f
_
gf
_
f,
y tomando 0 se tiene lo pedido.
Lema 4.8. Sea G una funcion absolutamente continua denida en un inter-
valo nito y cerrado [c, d]. Entonces para todo > 0 existe > 0 tal que si
x, y [c, d] satisfacen |x y| < entonces se tiene |G(x) G(y)| < .
Demostraci on Supongamos que es falso. Entonces existe > 0 tal
que para cada > 0 podemos escoger x e y en [c, d] con |x y| <
1
n
pero,
sin embargo, |G(x) G(y)| . En particular, para todo n existen x
n
e
y
n
en [c, d] tales que |x
n
y
n
| <
1
n
y |G(x
n
) G(y
n
)| . Tomando una
subsucesi on si es necesario, podemos suponer que x
n
x [c, d] cuando
n . La desigualdad |x
n
y
n
| <
1
n
implica que tambien y
n
x, pero
entonces por la continuidad de G se tiene G(x
n
) G(x) y G(y
n
) G(x),
de donde 0 = |G(x) G(x)| , una contradiccion.
Lema 4.9. Supongamos que una sucesion de funciones {t
n
}
nN
denidas en
un intervalo I = (a, b), no necesariamente nito, toman valores en un inter-
valo nito [c, d] y convergen uniformemente a una funcion real t. Supongamos
ademas que f es una funcion no negativa cuya integral
_
b
a
f converge y G es
una funcion continua denida en [c, d]. Entonces
_
b
a
G[t
n
(x)]f(x) dx
n

_
b
a
G[t(x)]f(x) dx,
si todas las integrales consideradas estan denidas.
41
Demostracion Basta probar que Gt
n
converge uniformemente a Gt.
Sea > 0. Por el lema anterior, existe > 0 tal que |x y| < implica
|G(x) G(y)| < . Por otro lado, existe un entero N tal que si n > N se
tiene |t
n
(x) t(x)| < para todo x I, por lo que |G[t
n
(x)] G[t(x)]| <
para todo x I y el resultado sigue.
Proposicion 4.10. Sea X una variable aleatoria absolutamente continua y
sea G una funcion continua que se anula fuera de un intervalo de la forma
[N, N]. Se tiene
E
_
G(X)
_
=
_
N
N
G(x)f(x)dx.
Demostracion Observemos que en general
E
_
G(X)
_
=

k
E
_
G(X)

k
n
X <
k + 1
n
_
P
_
k
n
X <
k + 1
n
_
.
Si m
k
y M
k
son el maximo y el mnimo de G en el intervalo
_
k
n
,
k+1
n

, se tiene
m
k
E
_
G(X)

k
n
X <
k + 1
n
_
M
k
,
por lo que debe existir un elemento t
k,n
en este intervalo tal que
G(t
k,n
) = E
_
G(X)

k
n
X <
k + 1
n
_
.
Poniendo t
n
(x) = t
k,n
si
k
n
x <
k+1
n
, se tiene
E
_
G(X)
_
=

k
G(t
k,n
)P
_
k
n
X <
k + 1
n
_
=
_
N
N
G[t
n
(x)]f(x)dx,
y esta ultima integral converge a
_
N
N
G(x)f(x)dx cuando n por el lema
precedente.
Probaremos ahora que un resultado similar se obtiene sin la hipotesis en
G. Para ello necesitaremos algunos lemas previos.
Lema 4.11. Sea X una variable aleatoria absolutamente continua. Para
toda funcion continua G se tiene
E
_
G(X)

a X b
_
P(a X b) =
_
N
N
G(x)f(x)dx.
42
Demostracion Denimos una funcion continua H por
H(x) =
_

_
0 if x a
a +
G(a)

(r a) if a < x < a
G(x) if a x b
b +
G(b)

(b r) if b < x < b +
0 if x b +

.
Consideremos la descomposicion correspondiente a la partici on que dene
H, es decir
=
_
, a , a, b, b +,
_
.
Entonces la esperanza tiene la descomposici on:
E
_
H(X)
_
= E
_
H(X)

X a
_
P(X a ) +. . . .
Como H vale 0 en los intervalos extremos y coincide con G en el intervalo
central, se tiene
E
_
H(X)
_
= E
_
H(X)

a < X < a
_
P(a < X < a)+
E
_
G(X)|a X b
_
P(a X b)+
E
_
H(X)

b < X < b +
_
P(b < X < b +).
Como H es acotada y las probabilidades de los extremos tienden a 0 cuando
0, se tiene
E
_
H(X)
_
E
_
G(X)|a X b
_
P(a X b),
pero por otro lado,
E
_
H(X)
_
=
_

H(x)f(x)dx
_
N
N
G(x)f(x)dx.
Lema 4.12. Sea X una variable aleatoria absolutamente continua. Para
toda funcion continua G tal que G(X) es integrable, se tiene
E
_
G(X)

|X| N
_
P(|X| N) 0,
cuando N .
43
Demostracion Basta probar que dada cualquier sucesion creciente {N
k
}
k
de n umeros reales, se tiene
E
_
G(X)

|X| N
k
_
P(|X| N
k
) 0.
Para ello observamos que
E
_
G(X)
_
= E
_
G(X)

|X| < N
1
_
P(|X| < N
1
)+

k=1
E
_
G(X)

N
k
|X| N
k+1
_
P(N
k
|X| N
k+1
),
por lo que en particular esta suma es convergente. Por otro lado
E
_
G(X)

|X| N
t
_
P(|X| N
t
) =

k=t
E
_
G(X)

N
k
|X| N
k+1
_
P(N
k
|X| N
k+1
),
es una cola de esta suma y por lo tanto converge a 0.
Proposicion 4.13. Sea X una variable aleatoria absolutamente continua.
Para toda funcion continua G se tiene que G(X) es integrable si y solo si la
integral en R de G(x)f(x) converge absolutamente y en tal caso:
E
_
G(X)
_
=
_

G(x)f(x)dx.
Demostraci on Supongamos primero que G(X) es integrable. Basta
ver que
E
_
G(X)
_
= E
_
G(X)

|X| < N
_
P(|X| < N)+
E
_
G(X)

|X| > N
_
P(|X| > N) =
_
N
N
G(x)f(x)dx +E
_
G(X)

|X| > N
_
P(|X| > N),
y utilizar el resultado precedente. Supongamos ahora que la integral converge
absolutamente, es decir, que
_

|G(t)|f(t) dt
44
converge. Necesitamos probar que |G(X)| es integrable. En otras palabras,
necesitamos probar la convergencia de la serie

n=0
nP(n |G(X)| < n + 1).
De hecho si A
n
denota el evento {n |G(X)| < n + 1}, entonces

nN
nP(A
n
)

nN
E
_
|G(X)|

A
n
_
P(A
n
)
= E
_
|G(X)|

|G(X)| < N + 1
_
P
_
|G(X)| < N + 1
_
.
Sea ahora H(x) = min{|G(x)|, n + 1}. Entonces H(X) es acotada y por lo
tanto integrable. Por otro lado
E
_
H(X)
_
= E
_
|G(X)|

|G(X)| < n + 1
_
P
_
|G(X)| < n + 1
_
+(n + 1)P
_
|G(X)| n + 1
_
,
y es claro que
E
_
H(X)
_
=
_

H(x)f(x)dx
_

G(x)f(x)dx,
por lo que concluimos

nN
nP(A
n
)
_

G(x)f(x)dx
para todo N.
ejemplo 4.14. Sea X una V.A. distribuida uniformemente en [0, 1], i.e. su
funci on de densidad es
[0,1]
. Entonces su esperanza es E(X) =
_
1
0
t dt =
1
2
.
Adem as se tiene E(X
2
) =
_
1
0
t
2
dt =
1
3
. Se concluye que V (X) =
1
3

_
1
2
_
2
=
1
12
.
ejemplo 4.15. Sea X una V.A. absolutamente continua con funcion de den-
sidad e
t

[0,)
. Entonces su esperanza es E(X) =
_

0
te
t
dt = 1. Adem as
se tiene E(X
2
) =
_

0
t
2
e
t
dt = 2. Se concluye que V (X) = 2 (1)
2
= 1.
ejemplo 4.16. Sea X una V.A. absolutamente continua con funcion de den-
sidad
1

e
t
2
. Entonces su esperanza es E(X) =
1

te
t
2
dt = 0. Adem as
se tiene E(X
2
) =
1

t
2
e
t
2
dt =
1
2
. Se concluye que V (X) =
1
2
(0)
2
=
1
2
.
45
Chapter 5
Vectores aleatorios.
En todo este captulo, (, , P) es un espacio de probabilidad arbitrario.
Sean X
1
, . . . , X
n
variables aleatorias. La funcion

X
: R
n
denida por

X
() =
_
X
1
(), . . . , X
n
()
_
se denomina un vector aleatorio. N otese que si a
1
, . . . , a
n
y b
1
, . . . , b
n
son
n umeros reales tales que a
1
< b
1
entonces
{ |a
1
X
i
() < b
i
, i = 1, . . . , n} =
n

i=1
{ |a
1
X
i
() < b
i
}
es un elemento de la - algebra . En particular, si
R =
n

i=1
[a
i
, b
i
),
la probabilidad P(

X
() R) esta denida.
Denotaremos por B(R
n
) la menor - algebra de R
n
que contiene a todos
los rect angulos R del tipo mencionado arriba. Sus elementos se llamar an
borelianos de R
n
. Se sigue de lo anterior que la - algebra

[B(R
n
)] est a
contenida en y en particular { |

X
() A} pertenece a para
cualquier boreliano A en R
n
. Por consiguiente, P(

X
A) esta denida.
Lema 5.1. Todo conjunto abierto o cerrado de R
n
es un boreliano.
46
Demostracion Basta probarlo para conjuntos abiertos, ya que los cer-
rados son sus complementos. Armamos que todo abierto es union (nece-
sariamente numerable) de rect angulos con extremos racionales. Sea U un
conjunto abierto, y sea x U un elemento arbitrario. Por denicion existe
> 0 tal que la bola B = B(x; ) est a contenida en U, pero entonces existe
un rectangulo R tal que x R B (ver gura).
r
x
R
B
U
ejemplo 5.2. Si

X
es un vector aleatorio, entonces las probabilidades
P
_
|

A
| < r
_
, P
_

A
< r
_
est an denidas para todo vector constante

A
y toda constante real r.
Si

X
es un vector aleatorio, su funci on de distribuci on F
X
: R
n
[0, 1]
est a denida mediante
F
X
(t
1
, . . . , t
n
) = F
X
1
,...,Xn
(t
1
, . . . , t
n
) = P(X
i
< t
i
, i = 1, . . . , n).
Tambien recibe el nombre de funcion de distribucion conjunta de las V.A.s
X
1
, . . . , X
n
. Esta funcion puede ser utilizada para calcular probabilidades
relacionadas con las V.A.s X
1
, . . . , X
n
como lo muestra el siguiente ejemplo:
ejemplo 5.3. Sean X e Y dos V.A.s y sea F = F
X,Y
su funcion de dis-
47
tribuci on conjunta. Considerense las regiones A, B, C, D en el diagrama.
6
-
r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
r
r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A
B
C
D
r
(b,d)
(a,c)
No es dicil ver que:
F(b, d) = P
_
(X, Y ) A B C D
_
,
F(a, d) = P
_
(X, Y ) A C
_
,
F(b, d) = P
_
(X, Y ) A B
_
,
F(b, d) = P
_
(X, Y ) C
_
.
Donde por convenci on, cada rect angulo contiene sus bordes inferior e izquierdo
pero no el superior o el derecho. Se sigue que
P(a X < b c Y < d) = P
_
(X, Y ) B
_
=
F(b, d) F(a, d) F(b, c) +F(a, c).
De hecho se tiene una version generalizada de este resultado:
Proposicion 5.4. Sean X
1
, . . . , X
n
variables aleatorias. Si a
1
, . . . , a
n
y
b
1
, . . . , b
n
son n umeros reales que satisfacen a
i
< b
i
para i = 1, . . . , n, se
tiene:
P(a
i
X
i
< b
i
; i = 1, . . . , n) =

c =(c
1
,...,cn)
(1)
k(

c )
F
X
(

c ),
donde la suma se extiende sobre todas las n-tuplas c = (c
1
, . . . , c
n
) tales que
cada c
i
es a
i
o b
i
y k(

c ) es el n umero de as en la tupla.
48
Demostracion Basta ver que
P(a
i
X
i
< b
i
; i = 1, . . . , n) = E
_
n

i=1

{a
i
X
i
<b
i
}
_
= E
_
n

i=1
(
{X
i
<b
i
}

{X
i
<a
i
}
)
_
= E
_
_

c=(c
1
,...,cn)
(1)
k(

c )
n

i=1

{X
i
<c
i
}
_
_
=

c=(c
1
,...,cn)
(1)
k(

c )
E
_
n

i=1

{X
i
<c
i
}
_
=

c=(c
1
,...,cn)
(1)
k(

c )
F
X
(

c ).
Proposicion 5.5. Las V.A.s X
1
, . . . , X
n
son independientes si y solo si
F
X
(

b
) =
n

i=1
F
X
i
(b
i
)
para todo

b
= (b
1
, . . . , b
n
) R
n
.
Demostracion Recordemos que X
1
, . . . , X
n
son independientes cuando
para todo

a= (a
1
, . . . , a
n
) y

b
= (b
1
, . . . , b
n
) en R
n
se tiene
P(a
i
X
i
< b
i
; i = 1, . . . , n) =
n

i=1
P(a
i
X
i
< b
i
).
Se sigue que F
X
(

b
) =

i
F
X
i
(b
i
) implica
P(a
i
X
i
< b
i
; i = 1, . . . , n) =

c =(c
1
,...,cn)
(1)
k(

c )
F
X
(

c ) =

c =(c
1
,...,cn)
(1)
k(

c )
n

i=1
F
X
i
(c
i
) =
n

i=1
(F
X
i
(b
i
) F
X
i
(a
i
))
=
n

i=1
P(a
i
X
i
< b
i
).
49
Lo que prueba que las V.A.s son independientes. La conversa es inmediata
tomando a
i
.
Un vector aleatorio

X
se dice absolutamente continuo si existe una funcion
f
X
: R
n
R integrable, llamada la funcion de densidad de

X
, tal que
F
X
(

b
) =
_
bn


_
b
1

f
X
(s
1
, . . . , s
n
) ds
1
ds
n
para cada

b
= (b
1
, . . . , b
n
) R
n
. Es inmediato de la denicion que en cada
punto de continuidad de f
X
se tiene
f
X
(s
1
, . . . , s
n
) =

n
x
n
x
1
F
X
(s
1
, . . . , s
n
).
Adem as, las funciones de densidad de cada variable es la integral de f
X
con
respecto a las variables restantes, por ejemplo
f
X
1
(t
1
) =
_

f
X
(t
1
, s
2
, . . . , s
n
) ds
2
ds
n
.
Estas funciones reciben el nombre de distribuciones marginales del vector
aleatorio.
Proposicion 5.6. Sea

X
= (X
1
, . . . , X
n
) un vector aleatorio absolutamente
continuo. Las V.A.s X
1
, . . . , X
n
son independientes si y solo si
f
X
(

b
) =
n

i=1
f
X
i
(b
i
)
para todo

b
= (b
1
, . . . , b
n
) R
n
.
Demostracion La independencia equivale a F
X
(

b
) =

n
i=1
F
X
i
(b
i
),
pero entonces
F
X
(

b
) =
n

i=1
_
b
i

f
X
i
(s
i
) ds
i
=
_
bn


_
b
1

_
n

i=1
f
X
i
(s
i
)
_
ds
1
ds
n
de donde el resultado sigue. La conversa es similar.
50
Proposicion 5.7. Si

X
es un vector aleatorio absolutamente continuo con
funcion de densidad f
X
, entonces para n umeros reales a
1
, . . . , a
n
y b
1
, . . . , b
n
tales que a
i
< b
i
para i = 1, . . . , n se tiene
P(a
i
X
i
< b
i
; i = 1, . . . , n) =
_
bn
an

_
b
1
a
1
f
X
(s
1
, . . . , s
n
) ds
1
ds
n
.
Demostracion Basta escribir cada integral de la forma
_
bn
an
h en la
forma
_
bn

h
_
an

h y razonar como en la demostracion de la Proposici on


5.4.
Proposicion 5.8. Sea G : R
n
R una funcion continua. Entonces G(

X
)
es una variable aleatoria.
Demostracion Basta ver que
{G(

X
) (, b)} =
_

X
{x R
n
|g(x) (, b)}
_
,
ya que el conjunto {x R
n
|g(x) (, b)} es abierto y por lo tanto bore-
liano.
Proposicion 5.9. Sea G : R
n
R una funcion continua y sea A un con-
junto acotado cuyo borde es una curva diferenciable a trozos. Entonces
E
_
G(

X
)

X
A
_
P(

X
A) =
_
A
G(

x)f(

x) d

x .
Demostracion Observese que si R es un rect angulo que contiene a A
y = {R
1
, . . . , R
n
} es una partici on de R en rectagulos menores, se tiene
E
_
G(

X
)

X
A
_
P(

X
A) = E
_
G(

X
)
XA
_
=
n

i=1
E
_
G(

X
)
XA

X
R
i
_
P(

X
R
i
),
dado que

X
A implica

X
R. Sea t : R R denida por
t(

x) = E
_
G(

X
)
XA

X
R
i
_
, si

x R
i
.
51
Entonces se tiene
_
R
t(

x)f
X
(

x) d

x=
n

i=1
E
_
G(

X
)
XA

X
R
i
_
_
R
i
f
X
(

x) d

x=
n

i=1
E
_
G(

X
)
XA

X
R
i
_
P(

X
R
i
) = E
_
G(

X
)

X
A
_
P(

X
A).
Sean ahora M
i
y m
i
el m aximo y el mnimo de la funci on G(

x)
A
(

x). Se
tiene
m
i
E
_
G(

X
)
XA

X
R
i
_
M
i
.
Se sigue que si

x R
i
entonces |t(

x) G(

x)
A
(

x)| M
i
m
i
. Se concluye
que

_
R
t(

x)f
X
(

x) d

x
_
R
G(

x)
A
(

x)f
X
(

x) d

K
n

i=1
(M
i
m
i
)Area(R
i
),
para cualquier cota K de f
X
en R. Esta ultima suma puede hacerse arbi-
trariamente peque na ya que G(

x)
A
(

x) es Riemann-integrable en R.
ejemplo 5.10. Sea (X, Y ) un vector aleatorio con funci on de densidad
f(x, y) = (x +y)
[0,1]
2(x, y). Entonces se tiene
P(X
2
+Y
2
1) =
_
D
(x +y) dxdy =
_
/2
0
_
1
0
(r cos +r sen )r drd =
2
3
,
donde D es la regi on de la gura siguiente
figuraaki.
Por otro lado
E(X) =
_
R
x(x +y) dxdy =
_
1
0
_
1
0
(x
2
+xy) dxdy =
7
12
.
52
ejemplo 5.11. Si X es una variable aleatoria, el vector aleatorio

X
= (X, X)
no es absolutamente continuo, ya que de ser f su funcion de densidad se
tendra
1 = P(

X
) =
_

f(x, y) dxdy = 0,
donde es la diagonal.
ejemplo 5.12. Diremos que un vector aleatorio

X
est a uniformemente dis-
tribuido al interior de un conjunto acotado A cuyo borde es una curva deriv-
able a trozos si la funci on de densidad del vector aleatorio est a dada por
f(

t ) =

A
(

t )
Area(A)
.
En este caso se tiene, para cada subconjunto B de similares caractersticas
la relacion
P(

X
B) =
Area(A B)
Area(A)
.
A continuaci on removemos la condici on de que A sea acotado.
Proposicion 5.13. Sea G : R
n
R una funcion continua y sea A un
conjunto cuyo borde es una union nita de curvas diferenciables. Entonces
E
_
G(

X
)

X
A
_
P(

X
A) =
_
A
G(

x)f(

x) d

x .
Demostracion Se sigue que para todo real positivo N, si A
N
= A
B(0; N), se tiene
E
_
G(

X
)

X
A
N
_
P(

X
A
N
) =
_
A
N
G(

x)f(

x) d

x,
y el lado derecho converge a
_
A
G(

x)f(

x) d

x
cuando N . Por otro lado, se tiene
E
_
G(

X
)

X
A
_
P(

X
A) = E
_
G(

X
)

X
A
N
_
P(

X
A
N
)+
53
E
_
G(

X
)

X
A A
N
_
P(

X
A A
N
).
Basta por lo tanto probar que el ultimo termino tiende a 0 cuando N .
Esto es inmediato si |G(

X
)|
A
(

X
) es integrable por el teorema de convergen-
cia dominada. Esto es cierto en particular si G es acotada. El caso general
sigue de remplazar G por una funci on acotada H(

x) = max{|G(

x)|, K} y
razonar como en la demostraci on de la Proposici on 4.13.
Apendice: Probabilidad Condicional
Deniremos una versi on continua de la probabilidad condicional para pares
de V.A.s (X, Y ) con una densidad conjunta f como sigue: Si f
X
(x) = 0 se
dene
f
Y |X
(y|x) =
f(x, y)
f
X
(x)
.
N otese que con esta denici on se tiene
_

f
Y |X
(y|x)f
X
(x) dx =
_

f(x, y) dx = f
Y
(y).
Lo que puede interpretarse como una versi on continua de la descomposici on
por casos. De hecho, se tiene
_

f
Y |X
(y|x) dy =
f
X
(x)
f
X
(x)
= 1, por lo que la
funci on f
Y |X
(y|x) as denida tiene las propiedades que caracterizan a una
funci on de densidad. Se la interpreta normalmente como la densidad de la
V.A. Y para un valor dado de la V.A. X.
ejemplo 5.14. Si X es una V.A. aleatoria distribuida uniformemente en
[1, 2] y para cada valor de X, la V.A. Y esta distribuida uniformemente,
entonces
f
Y |X
(y|x) =

[0,x]
(y)
x
.
De aqu se tiene
f(x, y) =

[1,2]
(x)
[0,x]
(y)
x
.
N otese que la integral
F
Y |X
(a|x) =
_
a

f
Y |X
(y|x) dy,
54
satisface la relaci on
_

F
Y |X
(a|x)f
X
(x) dx = F
Y
(a),
y mas generalmente
_
b

F
Y |X
(a|x)f
X
(x) dx = F(a, b),
Mas generalmente, considerese un vector aleatorio arbitrario (X, Y ) con funci on
de densidad F(a, b) tal que existe una funci on F
Y |X
(a|x) que satisface esa
identidad, entonces diremos que F
Y |X
(a|x) es la funci on de distribucion condi-
cional de Y para un valor dado de la V.A. X.
ejemplo 5.15. Si X es una V.A. aleatoria distribuida uniformemente en [1, 2]
y para cada valor r de X, la V.A. Y toma el valor 0 o r con probabilidad
1/2, entonces F
Y |X
(y|x) es una funci on escalonada con un escalon de tamao
1/2 en 0 y un escal on de tamao 1/2 en r. Se sigue que para b entre 0 y 1,
F
Y
(b) =
_
2
1
F
Y |X
(b|x) dx = 1/2,
mientras que para b entre 1 y 2 se tiene
F
Y
(b) =
_
2
1
F
Y |X
(b|x) dx =
_
b
1
1 dx +
_
2
b
1
2
dx = (b 1) +
1
2
(2 b) =
b
2
.
Si Y es una V.A. acotada, digamos 0 Y 1, se tiene en el caso anterior
E(Y ) = lim
n
n

i=0
i
n
P
_
i
n
Y <
i + 1
n
_
= lim
n
n

i=0
i
n
_
F
Y
_
i + 1
n
_
F
Y
_
i
n
__
=
lim
n
_

i=0
i
n
_
F
Y
_
i + 1
n

x
_
F
Y
_
i
n

x
__
f
X
(x) dx.
Mediante un argumento de convergencia uniforme puede probarse como antes
que esta integral converge a
_

E(Y |x)f
X
(x) dx,
donde E(Y |x) es la esperanza de Y con respecto a la funcion de probabilidad
condicional. F ormulas similares pueden darse para V.A.s del tipo G(Y ) o
incluso para funciones de verias variables aleatorias. Dejamos al lector la
tarea de explorar dichos an alogos.
55
Chapter 6
La ley de los grandes n umeros.
Sea X una variable aleatoria. Por una muestra de tamao n de la variable
aleatoria X queremos decir una sucesion X
1
, . . . , X
n
de variables aleatorias
independientes denidas en un mismo espacio muestral , cada una con
la misma funcion de distribuci on que X. En este captulo estudiaremos el
comportamiento de la variable aleatoria promedio cuando el tamao de la
muestra tiende a innito.
Sea X
1
, . . . , X
n
, . . . es una sucesi on de variables aleatorias en un mismo
espacio muestral . Diremos que X
n
converge en probabilidad (o en medida)
a una variable aleatoria X, o que X es el lmite en probabilidad (o en medida)
de la sucesi on si para cada , > 0 existe un entero N = N() tal que
n > N P(|X X
n
| > ) < .
Equivalentemente, para cada > 0, la sucesi on de n umeros reales
P(|X X
n
| > )
converge a 0.
Lema 6.1 (Desigualdad de Chevychev). Sea X una variable aleatoria con
esperanza y varianza nitas. Para todo > 0 se tiene
P
_

X E(X)

>
_
<
V (X)

2
.
Demostracion Sea A el evento |XE(X)| > . En particular,
A
= 1
si y s olo si |X E(X)| > . De aqu se sigue la desigualdad

A
|X E(X)|.
56
Elevando al cuadrado la desigualdad precedente y tomando esperanzas se
tiene

2
P(A) E
_
_
X E(X)
_
2
_
= V (X).
Proposicion 6.2. Si X
1
, . . . , X
n
, . . . es una sucesion de variables aleato-
rias tales que V (X
n
) converge a 0 cuando n tiende a innito, y E(X
n
) con-
verge a alg un lmite nito a cuando n tiende a innito, entonces la sucesion
X
1
, . . . , X
n
, . . . converge a la variable aleatoria constante a en probabilidad.
Demostracion Se sigue de la desigualdad de Chevychev que
0 P
_

X
n
E(X
n
)

>

2
_
<
4V (X
n
)

2
n
0.
Para n sucientemente grande se tiene |E(X
n
) a| <

2
. En tal caso
|X
n
E(X
n
)



2
|X
n
a| .
Se sigue que
0 P
_

X
n
a

>
_
P
_

X
n
E(X
n
)

>

2
_
n
0,
y el resultado sigue.
Proposicion 6.3 (Ley debil de los grades n umeros). Si X
1
, . . . , X
n
, . . . es
una sucesion de variables aleatorias independientes, cada na con la misma
esperanza E, y con varianzas acotadas, entonces la sucesion de promedios
Y
n
=
1
n

n
k=1
X
k
converge a E en probabilidad.
Demostracion El resultado sigue de la proposici on precedente si de-
mostramos que la sucesion Y
1
, . . . , Y
n
, . . . cumple las hipotesis. La esperanza
E(Y
n
) =
1
n

n
k=1
E(X
k
) = E converge a E trivialmente. Por otro lado, sea
K una cota para las varianzas. Por ser las variables aleatorias X
1
, . . . , X
n
, . . .
independientes, se tiene
X(Y
n
) =
1
n
2
n

k=1
V (X
k
)
K
n
n
0,
y el resultado sigue.
Un renamiento de nuestro resultado precedente es el siguiente:
57
Proposicion 6.4. Si X
1
, . . . , X
n
, . . . es una sucesion de variables aleatorias
independientes cuyas esperanzas convergen a un lmite E, y con varianzas
acotadas, entonces la sucesion de promedios Y
n
=
1
n

n
k=1
X
k
converge a E
en probabilidad.
Su demostraci on es similar a la precedente una vez demostrado el siguiente
lema:
Lema 6.5. Si {a
n
}
n
es una sucesion de n umeros reales que converge a un
lmite L, entonces
1
n

n
k=1
a
k
converge a L.
Demostracion Por denici on de convergencia se tiene que para todo
> 0 existe un entero N tal que n > N implica |a
n
L| < . En particular,
si n > N se tiene

L
1
n
n

k=1
a
k

1
n
n

k=1
|a
k
L| =
1
n
N

k=1
|a
k
L| +
1
n
n

k=N+1
|a
k
L|.
El primer termino de esta suma converge a 0 si n tiende a innito y el segundo
est a acotado por
nN
n
< . Se sigue que
lim sup
n

L
1
n
n

k=1
a
k

.
Como esto se cumple para todo > 0, el lmite existe y es 0.
Diremos que una sucesion de variables aleatorias X
1
, . . . , X
n
, . . . converge
a una variable aleatoria X en distribuci on, o que la distribuci on de X es la
distribuci on lmite de la sucesi on, si se tiene
F
Xn
(t)
n
F
X
(t)
para todo punto t donde F
X
es continua. N otese que esto implica que para
todo intervalo I
P(X
n
I) P(X I).
La comprobacion de esta armacion se deja al lector.
Proposicion 6.6. Si X
1
, . . . , X
n
, . . . es una sucesion de variables aleatorias
que convergen en probabilidad a un lmite X, entonces la sucesion X
1
, . . . , X
n
, . . .
converge en distribucion a X.
58
Demostracion Sea t un punto de continuidad de F
X
. Basta probar
que
P(X
n
< t)
n
P(X < t).
Sea N tal que para n > N se tiene P(|X
n
X| > ) < . Entonces para
n > N se tiene
P(X
n
< t) P(X < t +) P(X t +, X
n
< t) P(|X
n
X| > ) < .
Por otro lado
P(X < t ) P(X
n
< t) P(X < t , X
n
t) P(|X
n
X| > ) < .
De ambas desigualdades se tiene
P(X < t ) P(X
n
< t) P(X < t +) +.
En particular, se tiene
P(X < t) lim inf
n
P(X
n
< t) lim sup
n
P(X
n
< t) P(X < t+)+.
Tomando 0 el resultado sigue.
La implicaci on inversa no es cierta en general, dado que una sucesi on de
variables aleatorias X
1
, . . . , X
n
, . . . que converge a una variable aleatoria X
en distribuci on no tiene por que estar denida en el mismo espacio muestral,
y aunque lo este no hay manera de distinguirla, como lmite, de cualquier
otra variable aleatoria con la misma distribuci on. Existe, sin embargo, un
caso importante en que la conversa es cierta:
Proposicion 6.7. Si X
1
, . . . , X
n
, . . . es una sucesion de variables aleatorias
que convergen en distribucion a un lmite constante a, entonces la sucesion
X
1
, . . . , X
n
, . . . converge en probabilidad a a.
Demostracion Sea X
1
, . . . , X
n
, . . . es una sucesi on de variables aleato-
rias que convergen en distribuci on a la constante a. Sean , > 0. La funcion
de distribuci on F
a
es continua en todo punto distinto de a, luego se tiene que
para n sucientemente grande
P(X
n
> a +) P(a > a +) +

2
=

2
,
59
P(X
n
< a ) P(a < a ) +

2
=

2
.
De ambas desigualdades se tiene
P(|X
n
a| > ) = P(X
n
> a +) +P(X
n
< a ) .
Necesitaremos el siguiente criterio cuya demostracion omitimos aqui por
ser demasiado tecnica.
Proposicion 6.8. Si X
1
, . . . , X
n
, . . . es una sucesion de variables aleatorias,
entonces la sucesion X
1
, . . . , X
n
, . . . converge en distribucion a una variable
aleatoria X si y solo si para cada n umero real t se tiene E(e
itXn
)
n
E(e
itX
).
La funcion G
X
(t) = E(e
itX
) = E(cos tX) + iE(sen tX) recibe el nombre
de funcion caracterstica de la variable aleatoria X. Es siempre nita ya que
las funciones trigonometricas son acotadas. Tomando X
n
= X para todo n
se tiene el siguiente corolario:
Corolario 6.8.1. La funcion caracterstica G
X
(t) determina completamente
la varable aleatoria X.
Proposicion 6.9. Si X
1
, . . . , X
n
son variables aleatorias independientes, en-
tonces se tiene
G
X
1
++Xn
(t) =
n

k=1
G
X
k
(t).
Demostracion Basta ver que
G
X
1
++Xn
(t) = E(e
it(X
1
++Xn)
) =
n

k=1
E(e
itX
k
) =
n

k=1
G
X
k
(t).
ejemplo 6.10. Si X es una variable aleatoria cuyos valores son enteros, se
tiene
G
X
(t) = E(e
itX
) =

nZ
e
nti
P(X = n) = g
X
(e
i
t),
donde g
X
es la funci on generatriz de X. Por ejemplo:
60
1. Si Y es una variable aleatoria de Bernouilli de par ametro p se tiene
G
Y
(t) = (1 p) +pe
i
t.
2. Si Z es una variable aleatoria Binomial de parametros n y p se tiene
G
Z
(t) = [(1 p) +pe
i
t]
n
.
3. Si X es una variable aleatoria de Poisson de parametro se tiene
G
Y
(t) = e
(e
it
1)
.
En particular, Si X
n
es una variable aleatoria binomial de par ametros n y
p =

n
se tiene
G
Xn
(t) = [(1 p) +pe
it
]
n
=
_
1 +
(e
it
1)
n
_
n
n
e
(e
it
1)
.
Como esta ultima es la funci on caracterstica de una variable aleatoria de
Poisson de parametro , esa es la distribucion lmite en ese caso.
ejemplo 6.11. Si X es una variable aleatoria con distribuci on normal de
par ametros a y , se tiene
G
X
(t) = E(e
itX
) =
1

2
_

e
ist
e
(sa)
2
2
2
ds.
Un cambio de variable u =
sa

demuestra que
G
X
(t) =
e
ati

2
_

e
iut
e
u
2
2
du =
e
ati
(t)
2
2

2
_

1
2
(u+it)
2
du.
Si probamos que esta ultima integral es independiente de , entonces se tiene
G
X
(t) = e
ati
(t)
2
2
.
Ahora probaremos la armacion Sea T() =
_

1
2
(u+it)
2
du. Si pudiese-
mos derivar bajo el signo integral tendramos
T

() = it
_

(u +it)e

1
2
(u+it)
2
du = it
_
e

1
2
(u+it)
2

_
= 0.
Para justicar la derivaci on bajo el signo integral escribimos que por teorema
de Fubini
_

0
_
it
_

(u +it)e

1
2
(u+it)
2
du
_
d =
_

_
it
_

0
(u +it)e

1
2
(u+it)
2
d
_
du
61
=
_

1
2
(u+it)
2
du
_

1
2
(u+i
0
t)
2
du = T() T(
0
),
y derivamos a ambos lados.
Proposicion 6.12. Si X es una variable aleatoria, entonces se tiene
G
aX
(t) = G
X
(at).
Demostracion Basta ver que
G
aX
(t) = E(e
it(aX)
) = E(e
i(at)X
) = G
X
(at).
Proposicion 6.13. Si X
1
, X
2
, . . . es una sucesion de variables aleatorias
independientes y con la misma distribucion que X, la cual tiene esperanza y
varianza nitas, y si
Y
n
=

n
k=1
X
k
nE(X)

n
,
entonces Y
n
converge en distribucion a una variable aleatoria normal de
parametros 0 y =
_
V (X).
Demostracion
G
Yn
(t) = e
itE(X)

n
n

k=1
GX
i

n
(t) = e
itE(X)

n
n

k=1
G
X
_
t

n
_
=
e
itE(X)

n
G
X
_
t

n
_
n
.
La condici on en la varianza implica que la funcion caracterstica tiene la
expansi on de Taylor
G
X
(t) = 1 +iE(X)t
E(X
2
)
2
t
2
+o(t
2
).
De aqu se tiene
ln[G
Yn
(t)] = itE(X)

n+nln
_
1 +iE(X)
t

n

E(X
2
)
2
_
t

n
_
2
+o
_
1
n
_
_
=
62
itE(X)

n+n
_
iE(X)
t

n

E(X
2
)
2
_
t

n
_
2
+
E(X)
2
2
_
t

n
_
2
+o
_
1
n
_
_
n

V (X)t
2
2
.
Demostraremos ahora una version mas fuerte de la ley de los grandes
n umeros. Para esto necesitaremos algunos resultados previos.
Proposicion 6.14. Si X
1
, X
2
, . . . es una sucesion creciente de variables
aleatorias integrables que converge a una variable aleatoria X no necesaria-
mente nita. Entonces E(X
n
) E(X) cuando n .
Demostracion Remplazando X
k
por X
k
X
1
se puede suponer que
X
k
0. Si E(X) es nita, el resultado se reduce al teorema de convergencia
dominada. Supongamos ahora que E(X) = . En particular, esto implica
que, o bien P(X = ) > 0 o bien la suma

k=0
kP(k X < k + 1)
no converge. En cualquier caso, para cada constante N > 0, existe una
constante M > 0 tal que si Y = Min{X, M} se tiene E(Y ) > N. Como
E(Y ) es nita, si se dene Y
n
= Min{X
n
, M}, se tiene E(Y
n
)
n
E(Y ). En
particular,
lim
n
E(X
n
) lim
n
E(Y
n
) = E(Y ) > M.
Como M es arbitraria, lim
n
E(X
n
) = .
Proposicion 6.15. Si A
1
, . . . , A
n
, . . . es una sucesion de eventos tales que

n=1
P(A
i
) < y
A = { | A
i
para innitos valores de i},
entonces P
_
A
_
= 0.
63
Demostracion Sea X
n
=

n
k=1

A
k
y sea X
n
=

k=1

A
k
. Como
E(X) =

n
k=1
P(A
k
), se sigue del resultado anterior que E(X) es nita (y
de hecho igual a

n=1
P(A
i
) < ). En particular
P
_
A
_
= P(X = ) = 0.
Proposicion 6.16 (Desigualdad de Kolmogorov). Sean X
1
, . . . , X
n
variables
aleatorias independientes con E(X
i
) =
i
y V (X
i
) =
2
i
. Sea Y
k
= X
1
+. . . +
X
k
para k = 1, 2, . . . , n. Sea a
k
=

k
i=1

i
y s
2
=

n
i=1

2
i
. La probabilidad
de que se cumplan simultaneamente las n desigualdades
|Y
k
a
k
| < ts, k = 1, . . . , n
es al menos 1
1
t
2
.
Demostracion Sea A
k
el evento de que la k-esima desigualdad sea la
primera que no se cumpla. Los eventos A
1
, . . . , A
n
son disjuntos y queremos
probar que P(A
1
A
n
) t
2
. Observemos que U
k
= (Y
n
a
n
)(Y
k
a
k
)
es independiente de
A
k
(Y
k
a
k
) y de esperanza nula, por lo que esperanza
del termino central al lado derecho de la identidad

A
k
(Y
n
a
n
)
2
=
A
k
(Y
k
a
k
)
2
2
A
k
U
k
(Y
k
a
k
) +
A
k
U
2
k
,
es nula. Se sigue que
E
_

A
k
(Y
k
a
k
)
2
_
E
_

A
k
(Y
n
a
n
)
2
_
.
N otese que por denicion del evento A
k
, se tiene
P(A
k
)s
2
t
2
= E(
A
k
)s
2
t
2
E
_

A
k
(Y
k
a
k
)
2
_
E
_

A
k
(Y
n
a
n
)
2
_
.
Sumando sobre k se tiene
P
_
n
_
k=1
A
k
_
s
2
t
2
E
_
n

k=1

A
k
(Y
n
a
n
)
2
_
E
_
(Y
n
a
n
)
2
_
= V (Y
n
) = s
2
.
Proposicion 6.17 (Ley fuerte de los grandes n umeros). Sean X
1
, X
2
, . . .
variables aleatorias independientes con E(X
i
) = y V (X
i
) K. Sea Z
n
=
1
n

n
k=1
X
k
. Entonces
P
_
Z
n
n

_
= 1.
64
Demostracion Basta ver que para cada > 0 la desigualdad |Z
n
|
puede complirse solo para un n umero nito de valores de n fuera de un
conjunto de probabilidad nula. Sea A

el evento de que se tenga |Z


n
| ,
o equivalentemente
|X
1
+. . . +X
n
n| n
para alg un n entre 2
1
y 2

. De hecho esto implica que


|X
1
+. . . +X
n
n| 2
1

Se sigue de la desigualdad de Kolmogorov que


P(A

)

2
1
+. . . +
2
2

2
22

2

2

K
2
22

2
=
4K
2

2
,
por lo que la suma

=1
P(A

) converge.
65
Chapter 7
Estimaci on de parametros.
Sea X una variable aleatoria con una distribuci on dada F
X
. Una muestra
aleatoria de tama no n de X es una sucesi on de n variables aleatorias inde-
pendientes X
1
, . . . , X
n
cada una con la misma distribucion que X, es decir
F
X
(t) = F
X
i
(t), i = 1, . . . , n.
En particular, la distribuci on del vector aleatorio

X
= (X
1
, . . . , X
n
) esta dada
por
F
X
(t
1
, . . . , t
n
) =
n

i=1
F
X
(t
i
).
Si X es absolutamente continua con funci on de densidad f
X
, tambien lo es
el vector aleatorio

X
y su funci on de densidad est a dada por
f
X
(t
1
, . . . , t
n
) =
n

i=1
f
X
(t
i
).
Si X es discretse tiene
P(X
1
= t
1
, . . . , X
n
= t
n
) =
n

i=1
P(X
i
= t
i
).
ejemplo 7.1. Si lanzamos una moneda n veces y X
i
es el suceso se ob-
tiene cara en el i-esimo lanzamiento, entonces (X
1
, . . . , X
n
) es una muestra
aleatoria de la variable aleatoria de Bernouilli de Par ametro p.
66
ejemplo 7.2. La duracion de una maquina producida en una f abrica puede
estudiarse escogiendo una muestra de n m aquinas y midiendo su duracion
(T
1
, . . . , T
n
). Esta es una muestra de tama no n de laa variable aleatoria T
que representa el tiempo de vida de una sola maquina.
Una funci on G(X
1
, . . . , X
n
) se denomina un estadstico. Ejemplos impor-
tantes son el promedio o media muestral

X =
1
n
n

k=1
X
k
,
y la varianza muestral
s
2
=
1
n 1
n

k=1
(X
k


X)
2
.
Supondremos en lo que sigue que la funcion de distribuci on F
X
depende de
uno o m as par ametros desconocidos
1
, . . . ,
n
. En otras palabras, conocemos
la distribuci on de X excepto que necesitamos determinar
1
, . . . ,
n
. Un
ejemplo de esta situaci on se tiene al lanzar una moneda sin saber a priori
si es simetrica. Se sabe que la variable aleatoria que cuenta el n umero de
caras tiene una distribuci on de bernouilli, pero desconocemos el par ametro
p. En tal caso se quiere estimar el o los parametros desconocidos en terminos
de la muestra. Un estadstico

= G(X
1
, . . . , X
n
) utilizado para estimar el
valor del parametro se denomina un estimador. Por cierto que con esta
denici on existen muchos estimadores de un mismo par ametro. La idea es
encontrar estimadores que se ajusten (en alg un sentido) al par ametro que se
desea estimar. Un estimador

del par ametro se dice insesgado si satisface
E(

) = .
N otese que esta denicion depende no s olo del estimador

, sin o tambien del
parametro que se desea estimar.
Una medida de la precisi on de un estimador

de un parametro es la
cantidad
E
_
(

)
2
_
= E
_
_
_

E(

)
_
+
_
E(

)
_
_
2
_
67
= E
_
_

E(

)
_
2
_
2E
_

E(

)
__
E(

)
_
+
_
E(

)
_
2
= V (

) +
_
E(

)
_
2
.
En particular, entre dos estimadores insesgados es mejor el que tiene menor
varianza.
ejemplo 7.3. Sea X una variable aleatoria cuya distribuci on depende de
un par ametro desconocido , y supongamos que E(X) = . Entonces los
estimadores

1
=
1
n
n

k=1
X
k
,

2
= X
1
,
son insesgados, sin embargo
V (

1
) =
V (X)
n
, V (

2
) = V (X),
por lo que el primer estimador es mucho mejor que el segundo.
ejemplo 7.4. Sea X una variable aleatoria con distribucion exponencial de
par ametro 1/, es decir X tiene una funci on de densidad f
X
(t) =
[0,)
(t)
e
t/

.
En este caso E(X) = como en el ejemplo anterior. Denamos

3
= n[MIN(X
1
, . . . , X
n
)] .
En este caso se tiene
P(

3
t) = P
_
X
1
, . . . , X
n

t
n
_
= P
_
X
t
n
_
n
.
Se sigue que
1 F

3
(t) =
_
1 F
X
_
t
n
__
n
.
Como F
X
(t) =
_
t
0
e
s/

ds = 1 e
t/
, se tiene
1 F

3
(t) =
_
e
t/n
_
n
= e
t/
.
Se concluye que

3
tiene la misma distribuci on que X
1
y por lo tanto la
misma esperanza y varianza. En particular es un estimador insesgado de
y no mejor que X
1
. Sin embargo, si X es una variable temporal como
el tiempo que tarda una m aquina en fallar o una bombilla al apagarse, el
tiempo necesario para calcular el estimador

3
es mucho menor.
68
ejemplo 7.5. Probaremos que la varianza muestral s
2
es un estimador ins-
esgado de la varianza
2
= V (X). Observemos que
E(

XX
i
) =
1
n
n

k=1
E(X
k
X
i
) =
n 1
n
E(X)
2
+
1
n
E(X
2
),
E(

X
2
) =
1
n
n

k=1
E(

XX
k
) =
1
n
_
n
_
n 1
n
E(X)
2
+
1
n
E(X
2
)
__
=
n 1
n
E(X)
2
+
1
n
E(X
2
).
Por denici on se tiene
(n 1)E(s
2
) =
n

k=1
E
_
(

X X
i
)
2

=
n

k=1
[E(

X
2
) 2E(

XX
k
) +E(X
2
k
)]
= nE(X
2
) [(n1)E(X)
2
+E(X
2
)] = (n1)[E(X
2
) E(X)
2
] = (n1)
2
.
Un estimador del tipo

=
n

k=1
a
k
X
k
,
se dice lineal.
Proposicion 7.6. Sea X una variable aleatoria no constante cuya distribucion
depende de un parametro = 0, y supongamos que E(X) = . Entonces la
media muestral es el mejor estimador lineal insesgado del parametro .
Demostracion Basta ver que si

=

n
k=1
a
k
X
k
es insesgado, entonces
E(

) = E(X)

n
k=1
a
k
= E(X), de donde

n
k=1
a
k
= 1. Se sigue que
V
_
n

k=1
a
k
X
k
_
= V (X)
n

k=1
a
2
k
= V (X)
n

k=1
__
a
k

1
n
_
+
1
n
_
2
= V (X)
n

k=1
_
a
k

1
n
_
2
+
2V (X)
n
n

k=1
_
a
k

1
n
_
+
1
n
2
= V (X)
n

k=1
_
a
k

1
n
_
2
+
1
n
2
,
69
lo que alcanza su mnimo cuando cada a
k
es 1/n.
La condici on de que

es insesgado es totalmente necesaria, por ejemplo
si X toma los valores 0 y 2 con probabilidad 1/2, se tiene E(X) = V (X) = 1.
En particular, si n = 3 la media muestral satisface V (

X) = 1/3, sin embargo
el estimador

=
1
4
(X
1
+X
2
+X
3
)
tiene esperanza E(

) =
3
4
y varianza V (

) =
3
16
. Se sigue que
V (

) +
_
E(

)
_
2
=
3
16
+
_
3
4
1
_
2
=
4
16
=
1
4
,
con lo que el estimador

est a mas cerca en promedio al valor real que la
media muestral.
Supongamos ahora que se tiene un estimador

n
para cada n, donde n es el
tama no de la muestra. Diremos que la sucesi on de estimadores es consistente
si la sucesi on {

n
}
n
converge a en probabilidad. Como es una constante,
es suciente probar la convergencia en distribucion. Diremos que la sucesion
de estimadores es asintoticamente insesgada si E(

n
) converge a cuando n
tiende a innito.
Proposicion 7.7. Toda sucesion consistente de estimadores

n
tales que

n
K para alguna constante ja K es asintoticamente insesgada.
Demostracion Basta ver que
|E(

n
)| E(|

n
|) P(|

n
| < ) +KP(|

n
| )
para todo > 0 y el ultimo termino tiende a 0 por denicion de convergencia
en probabilidad.
Sea X una variable aleatoria con una distribucion dada F
X
(t) = F(t,

)
donde

= (
1
, . . . ,
r
) es un par ametro. Suponga que los momentos
E(X), E(X
2
), . . . , E(X
r
)
de r pueden escribirse en terminos de los parametros mediante
E(X
j
) = G
j
(
1
, . . . ,
r
),
70
y que este sistema tiene soluci on unica

k
= F
k
_
E(X), . . . , E(X
r
)
_
,
para cada valor de los momentos E(X), . . . , E(X
r
). Entonces los estimadores

k
= F
k
_
X, X
2
, . . . , X
r
_
,
donde por denici on
X
j
=
1
n
n

k=1
X
j
k
,
se denominan los estimadores de momentos de

.
Proposicion 7.8. Suponga que la variable aleatoria X tiene momentos
E(X), . . . , E(X
2r
)
nitos. Si las funciones F
1
, . . . , F
r
obtenidas arriba son uniformemente con-
tinuas, entonces los estimadores de momentos son consistentes.
N otese que la hip otesis de continuidad uniforme sigue de la continuidad
si el rango en el cual los parametros est an denidos es compacto.
Demostraci on Como las variables aleatorias X
j
1
, . . . , X
j
n
son indepen-
dientes y equidistribuidas, se tiene que X
j
converge en probabilidad a E(X
j
)
para todo j por la ley de los grandes n umeros. N otese que la condicion en
los momentos asegura la nitud de las varianzas. El resultado sigue ahora
del lema siguiente:
Lema 7.9. Suponga que

Xn
que converge en probabilidad a un vector aleato-
rio

X
cuando n (coordenada a coordenada). Entonces para toda
funcion uniformemente continua F : R
n
R
n
la variable aleatoria F(

Xn
)
converge a F(

X
) en probabilidad.
71
Demostracion Basta observar que, por denicion de convergencia uni-
forme, para cada > 0 existe > 0 tal que
|

Xn

X
| < |F(

Xn
) F(

X
)| < .
En particular se tiene
P
_
|

Xn

X
| <
_
P
_
|F(

Xn
) F(

X
)| <
_
1.
Puesto que los extremos de la igualdad anterior convergen a 1 tambien lo
hace el termino central.
ejemplo 7.10. Sea X una variable aleatoria de Bernouilli de parametro p
donde p es desconocido. Como p = E(X), el estimador de momentos de p es
p =

X.
ejemplo 7.11. Sea X una variable aleatoria de distribuci on exponencial
de parametro . Como E(X) = 1/, el estimador de momentos de es

= 1/

X.
ejemplo 7.12. Sea X una variable aleatoria normal de par ametros a y
2
desconocidos. Las ecuaciones que deben resolverse son
E(X) = a, E(X
2
) =
2
+a
2
.
Se sigue que los estimadores de momentos son:
a = X,

2
= X
2
X
2
.
En particular

2
=
1
n
n

k=1
X
2
k

2X
n
n

k=1
X
k
+X
2
=
1
n
n

k=1
(X
k
X)
2
no es insesgado.
ejemplo 7.13. Sea X una variable aleatoria binomial de parametros n y p
desconocidos. Las ecuaciones que deben resolverse son
E(X) = pn, E(X
2
) = np(1 p).
72
Con algo de manipulaci on algebraica se obtienen las soluciones
p =
E(X) E(X
2
)
E(X)
, n =
E(X)
2
E(X) E(X
2
)
.
Se sigue que los estimadores de momentos son:
p =
X X
2
X
, n =
X
2
X X
2
.
ejemplo 7.14. Sea X una variable aleatoria distribuida uniformemente en el
intervalo (a, b) con a y b desconocidos. Las ecuaciones que deben resolverse
son
E(X) =
a +b
2
, E(X
2
) =
a
2
+ab +b
2
3
.
Se obtiene f acilmente que ab = 4E(X)
2
3E(X
2
). Esto implica que a y b
son raices de la ecuacion cuadr atica
T
2
2E(X)T +
_
4E(X)
2
3E(X
2
)
_
= 0.
Como a < b se tiene
a = E(X)
_
3V (X), b = E(X) +
_
3V (X).
Se sigue que los estimadores de momentos son:
a = X

_
3
n
n

k=1
(X
k
X)
2
,

b = X +

_
3
n
n

k=1
(X
k
X)
2
.
Sea X una variable aleatoria con una distribuci on dada F
X
(t) = F(t,

) donde

R
r
es un parametro. Supongamos que X es absolutamente
continua con funci on de densidad f
X
(t) = f(t,

). Para cada elemento

t =
(t
1
, . . . , t
n
) R
n
se dene la funci on de verosimilitud mediante
L
t
(

) =
n

k=1
f(t
k
,

).
73
Suponga que existe una funcion

G
= (G
1
, . . . , G
r
) : R
n
R
r
tal que para
cada valor de

t R
n
el valor

G
(

t ) es el unico m aximo de la funcion de


verosimilitud. Entonces los estimadores

k
= G
k
(X
1
, . . . , X
n
)
se denominan los estimadores de maxima verosimilitud de
1
, . . . ,
r
.
Probaremos ahora que los estimadores de maxima verosimilitud son ins-
esgados. Para ello necesitaremos el siguiente resultado cuya demostraci on
omitimos aqu por ser demasiado tecnica. Se trata de una versi on uniforme
de la ley de los grandes n umeros.
Lema 7.15. Sea X
1
, X
2
, una sucesion de variables aleatorias independi-
entes y equidistribuidas. Sea U(t,

) una funcion continua que satisface:


1. |U(t,

)| K(t) para alguna funcion K tal que E[K(X)] < .


2. U(t,

) es uniformemente continua en la variable

.
Si (

) = E[U(X,

)], entonces se tiene


P
_
lim
n
sup

1
n
n

k=1
U(X
n
,

) (

= 0
_
= 1.
Lema 7.16. Sean p y q dos funciones de densidad. Sea X una variable
aleatoria absolutamente continua con funcion de densidad p. Entonces
E
_
ln
q(X)
p(X)
_
0.
Con igualdad si y solo si p y q coinciden.
Demostracion Sigue de la desigualdad de Jensen que
E
_
ln
q(X)
p(X)
_
ln
_
E
_
q(X)
p(X)
__
= ln
__

q(t)
p(t)
p(t) dt
_
= 0.
Como el logaritmo es estrictamente concava, la igualdad se alcanza solo si la
varriable aleatoria
q(X)
p(X)
es constante.
74
Proposicion 7.17. Sea X una variable aleatoria absolutamente continua
con funcion de densidad f
X
(t) = f(t,

0
) de modo que la funcion
U(t,

) = ln[f(t,

)] ln[f(t,

0
)]
satisface las hipotesis del lema 7.15. Supondremos ademas que los esti-
maderes de maxima verosimilitud de
1
, . . .
n
estan denidos para cada n
y que el parametro

identica univocamente la funcion de densidad f(t,

).
En este caso los estimadores de maxima verosimilitud son consistentes.
Demostraci on Supongamos que Sea > 0 y sea A
n
el evento
sup

1
n
n

k=1
U(X
n
,

) (

< .
Entonces se tiene que lim
n
P(A
n
) = 1 y por lo tanto para todo > 0
se tiene que para todo n sucientemente grande, se tiene P(A
n
) > 1 .
Observese que por el lema precedente,
E
_
U(X,

)
_
= () > 0
para todo =
0
. Sea > 0, y sea V = B(

0
, ) . Tomamos igual al
mnimo de (

) en V . El evento A
n
implica
n

k=1
ln[f(X
n
,

)] ln[f(X
n
,

0
)] < 0.
N otese que la suma de la izquierda es el logaritmo de
L
X
(

)
L
X
(

0
)
por lo que el vector

= (

1
, . . . ,

r
) no puede encontrarse en V . Se
concluye que P
_

V
_
1 y el resultado sigue.
75
ejemplo 7.18. Suponga que el tiempo que tarda una ampolleta en fallar
es una variable aleatoria T con distribucion exponencial de par ametro , es
decir f
T
(t) = e

para t 0. Suponga que se toma una muestra (T


1
, . . . , T
n
)
de T. Entonces la funcion de verosimilitud est a dada por
L = L
(T
1
,...,Tn)
() =
n

k=1
(e
T
k
) =
n
e

n
k=1
T
k
.
Se sigue que
ln L = nln()
n

k=1
T
k
.
Derivando e igualando a 0 se tiene
n

n
k=1
T
k
= 0, por lo que el estimador
de maxima verosimilitud es

=

T.
ejemplo 7.19. Suponga que X es una variable aleatoria distribuida uni-
formemente en un intervalo (0, ). en particular se tiene f
X
(t) =
1

para
0 t . Suponga que se toma una muestra (X
1
, . . . , X
n
) de X. Entonces
la funcion de verosimilitud esta dada por
L = L
(X
1
,...,Xn)
() =
1

n
, si X
1
, . . . , X
n
.
Se sigue que el estimador de m axima verosimilitud es = MAX(X
1
, . . . , X
n
).
N otese que en particular, este estimador no es insesgado puesto que
P( < t) = P(X
1
, . . . , X
n
< t) = (t/)
n
por lo que su funcion de densidad es
n

(t/)
n1
y se tiene
E( ) =
_

0
t
n

(t/)
n1
dt =
n
n + 1
.
ejemplo 7.20. Suponga que X es una variable aleatoria con distribucion
normal de par ametros a y
2
, es decir
f
X
(t) =
1

2
e

1
2
(
ta

)
2
.
Suponga que se toma una muestra (X
1
, . . . , X
n
) de X. Entonces la funci on
de verosimilitud esta dada por
L = L
(X
1
,...,Xn)
(a,
2
) = (2
2
)
n/2
e

1
2

n
k=1

X
k
a

2
.
76
En particular
ln(L) =
n
2
ln(2
2
)
1
2
n

k=1
_
X
k
a

_
2
.
Derivando con respecto a a y
2
, respectivamente, se obtienen las ecuaciones:
n

k=1
X
k
a

2
= 0,

n
2

1
2
2
(4) +
2
2
n

k=1
(X
k
a)
2

3
= 0.
De la primera de estas ecuaciones se obtiene a =

X. De la segunda se deduce
n
2
=
n

k=1
(X
k
a)
2
,
por lo que el estimador es

2
=
1
n
n

k=1
(X
k


X)
2
.
7.0.1 Tests de Hipotesis estadisticas.
Supondremos ahora que queremos decidir entre dos o mas hip otesis sobre
una variable aleatoria (lo que puede expresarse en terminos del valor de
un par ametro). Comenzaremos con un ejemplo: Se tiene un n umero r de
monedas con dos caras junto a una cantidad m de monedas normales. Se
escoge una de estas monedas al azar. Queremos determinar cuantas caras
es necesario obtener antes de asumir que la moneda escogida tena de hecho
dos caras.
Existen dos alternativas posibles:
1. La moneda tiene dos caras.
2. La moneda tiene una cara.
Exactamente una de estas hip otesis es la real y debemos escoger exactamente
una. Esto dene cuatro eventos.
77
1. El evento H
1
en el que la primera alternativa es la correcta.
2. El evento H
2
en el que la segunda alternativa es la correcta.
item El evento B
1
en el que nosotros creemos que la primera alternativa
es la correcta.
3. El evento B
2
en el que nosotros creemos que la segunda alternativa es
la correcta.
Si uno comete un error, esto tendr a un costo. Denotaremos por C
ij
el costo
de escoger la alternativa i siendo que la alternativa j es la correcta. Por
cierto supondremos C
jj
< C
ij
, es decir, es preferible no equivocarse. En tal
caso, el costo total esperado es
C =

i,j
C
ij
P(B
i
H
j
) =

i,j
C
ij
P(B
i
|H
j
)P(H
j
).
Necesitamos ahora describir el procedimiento que se usar a para escoger la
alternativa correcta. En general, dispondremos s olo de alg un esperimento,
o sucesion de ellos, cuyo resultado depende de la hip otesis correcta H
j
. Sea
{A
k
}
kK
el conjunto de dichas observaciones. En tal caso, las observaciones
se distribuyen en subconjuntos S
j
con

i
S
i
= K, de modo que k S
i
si y
s olo si al hacer la observacion A
k
se piensa que la alternativa i es la correcta.
En otras palabras B
i
=

kS
i
A
k
. Para simplicar los c alculos denotaremos
por
i
(k) la funci on caracterstica
S
i
(k). Con estas notaciones se tiene:
C =

i,j
C
ij

kS
i
P(A
k
|H
j
)P(H
j
) =

k
_

i,j
C
ij

i
(k)P(A
k
|H
j
)P(H
j
)
_
.
Bastar a por lo tanto, para cada valor de k minimizar la suma que se encuen-
tra entre parentesis. De hecho, en el caso de que tengamos s olamente dos
hip otesis como en el problema de las monedas, escogemos la primera opci on
para una observaci on dada A
k
si y s olo si
C
11
P(A
k
|H
1
)P(H
1
) +C
12
P(A
k
|H
2
)P(H
2
) <
C
21
P(A
k
|H
1
)P(H
1
) +C
22
P(A
k
|H
2
)P(H
2
).
Tras algo de manejo algebraico, esta condici on se traduce a
P(A
k
|H
2
)
P(A
k
|H
1
)
<
(C
12
C
22
)P(H
2
)
(C
21
C
11
)P(H
1
)
.
78
N otese que la fraccion al lado izquierdo es el cociente de las verosimilitudes
de la observacion obtenida A
k
en los dos casos posibles. Por esta raz on, este
test recibe el nombre de Test de Razon de Verosimilitud. En el caso de las
monedas se tiene que si la moneda tuviese dos caras (hipotesis 1) entonces
la probabilidad de obtener n caras seguidas es 1, mientras que si la moneda
tuviese una sola cara (hip otesis 2) entonces la probabilidad de obtener n
caras seguidas es 2
n
. Dado que la probabilidad de que la primera hip otesis
sea la correcta es
r
r+m
, se tiene que debemos aceptar que la moneda tiene dos
caras si y solo si
2
n
1
<
(C
12
C
22
)m
(C
21
C
11
)r
,
o equivalentemente:
r
2
n
m
<
(C
12
C
22
)
(C
21
C
11
)
.
Si suponemos que los costos por equivocarse (o no) en cualquier sentido son
los mismos, debemos escoger n > log
2
(r/m).
Veremos ahora que la misma idea se aplica en el caso en que la observaci on
A = A(

) depende de un par ametro continuo

R
n
. En este caso el costo
total se calcula mediante
C =

i,j
C
ij
_

S
i
f
A
(

|H
j
)P(H
j
) d

=
_

S
i
_

i,j
C
ij

i
(k)f
A
(

|H
j
)P(H
j
)
_
d

.
Aqu basta con minimizar la suma entre parentesis, por lo que se tiene, en el
caso de dos hip otesis, que la primera hip otesis se acepta si y s olo si:
f
A
(

|H
2
)
f
A
(

|H
1
)
<
(C
12
C
22
)P(H
2
)
(C
21
C
11
)P(H
1
)
como antes.
79

Você também pode gostar