Notas de Probabilidad

PROBABILIDAD Y ESTAD
ISTICA
Universidad Nacional de Quilmes
Area Matematica. Departamento de Ciencia y Tecnologa

Notas escritas por:
Prof. Magister OSMAR DAR
IO VERA
Buenos Aires, 2005
Probabilidad y Estadstica
AGRADECIMIENTOS
Agradezco muy especialmente a las nuevas autoridades de la Universidad Nacional
de Quilmes, a traves de la Lic. Mara Ines Baragati la posibilidad de volver a dictar
esta asignatura en el Departamento de Ciencia y Tecnologa.
Primer Semestre 2005
i Prof.Mg. Osmar Vera
PROBABILIDAD Y ESTAD
ISTICA
TEORIA Y APLICACIONES
Prof. Magister Osmar Daro Vera
PERSPECTIVA HIST
ORICA
La Teora de Probabilidad es una rama de la Matematica que permite estudiar
todo tipo de fenomenos en que aparecen conceptos como indeterminismo, incertidum-
bre, impredecible, heterogeneidad, variabilidad, errores de medicion, imprecision y
azar.
Si somos tan afortunados como para disponer de un modelo teorico perfecto que
vincula los valores de ciertas variables con los de otras (por ejemplo en la Mecanica
de Newton, es posible predecir exactamente la trayectoria de un objeto, una vez es-
pecicadas la posicion inicial, la velocidad inicial y todas las fuerzas que act uan sobre
el), su aplicacion se ve trabada por la imposibilidad de conocer estos valores con ab-
soluta precision, es decir cuando hay errores de medicion. Los Modelos probabilsticos
constituyen una alternativa a los modelos determinsticos en situaciones de este tipo.
Los errores de medicion hacen que las formulas matematicas no se veriquen de
manera exacta con datos experimentales. Como ajustar modelos teoricos a datos
experimentales o como rechazar teoras a partir de estos datos es un problema im-
portante que se ataca utilizando metodos estadsticos, para los cuales la Teora de
Probabilidad sirve de base.
ii Prof.Mg. Osmar Vera
Indice general
AGRADECIMIENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
PERSPECTIVA HIST
ORICA . . . . . . . . . . . . . . . . . . . . . . . . . ii
1. Teora de Probabilidades 1
1.1. Teora de Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Teora de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1. Fundamento axiomatico . . . . . . . . . . . . . . . . . . . . . 10
1.2.2. El calculo de probabilidad . . . . . . . . . . . . . . . . . . . . 13
1.2.3. Tecnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.4. Resultados Igualmente probables . . . . . . . . . . . . . . . . 19
1.3. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3.1. Probabilidades compuestas e independencia . . . . . . . . . . 20
1.3.2. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . 21
1.4. EJERCICIOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2. Variables aleatorias 35
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2. Funciones de Distribucion . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.1. Densidad y Funciones de masa . . . . . . . . . . . . . . . . . . 43
2.3. Transformaciones y Esperanzas . . . . . . . . . . . . . . . . . . . . . 49
2.3.1. Distribuciones de funciones de una Variable Aleatoria . . . . . 49
2.4. Valores Esperados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
iii
2.5. Momentos y Funciones Generadoras de Momentos . . . . . . . . . . . 61
2.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3. Distribuciones de Familias comunes 71
3.1. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.1.1. Distribucion uniforme discreta . . . . . . . . . . . . . . . . . . 72
3.1.2. Distribucion Hipergeometrica . . . . . . . . . . . . . . . . . . 72
3.1.3. Distribucion Binomial . . . . . . . . . . . . . . . . . . . . . . 75
3.1.4. Distribucion de Poisson . . . . . . . . . . . . . . . . . . . . . . 78
3.1.5. Distribucion Binomial Negativa . . . . . . . . . . . . . . . . . 80
3.1.6. Distribucion Geometrica . . . . . . . . . . . . . . . . . . . . . 82
3.2. Distribuciones Continuas . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.2.1. Distribucion Uniforme . . . . . . . . . . . . . . . . . . . . . . 83
3.2.2. Distribucion Gamma . . . . . . . . . . . . . . . . . . . . . . . 83
3.2.3. Distribucion Normal . . . . . . . . . . . . . . . . . . . . . . . 86
3.2.4. Distribucion Beta . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.2.5. Distribucion Cauchy . . . . . . . . . . . . . . . . . . . . . . . 92
3.2.6. Distribucion Lognormal . . . . . . . . . . . . . . . . . . . . . 93
3.2.7. Distribucion Doble Exponencial . . . . . . . . . . . . . . . . . 93
3.3. Familias Exponenciales . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4. Modelos Multivariados 97
4.1. Distribuciones conjuntas y marginales . . . . . . . . . . . . . . . . . . 97
iv Prof.Mg. Osmar Vera
Captulo 1
Teora de Probabilidades
La teora de probabilidades determina la fundamentaci on sobre la cual esta con-
struida toda la estadstica, proveyendo de un medio para modelar poblaciones, ex-
perimentos, o al menos todo aquello que puede ser considerado fenomeno aleatorio.
A traves de esos modelos, los estadsticos son capaces de manejar inferencias acerca
de las poblaciones, inferencias basadas en general en una parte del todo.
La teora de probabilidades posee una larga y rica historia, sus comienzos datan
del siglo XVII cuando, a pedido de sus amigos, el Chevalier de Mere, Pascal y Fermat
desarrollaron una formulaci on matematica de juegos basadas en desigualdades.
A lo largo de este captulo formulare algunas ideas basicas de probabilidad teorica
que son fundamentales para el estudio de la estadstica.
As como la estadstica se construye sobre la probabilidad teorica, esta comienza a
construirse sobre la teora de conjuntos, con ello comenzaremos nosotros.
1
1.1. Teora de Conjuntos
Uno de los objetivos principales de un estadstico es el de manejar conclusiones
acerca de una poblacion de objetos, luego de tomar una muestra de ellos y realizar un
experimento. Un primer paso es identicar los posibles resultados o, en terminologa
estadstica, el espacio muestral.
Denicion 1.1.1. El conjunto, S, de todos los posibles resultados de un experimento
particular se denomina espacio muestral para el experimento.
Si el experimento consiste en el lanzamiento de una moneda, el espacio muestral
contiene dos resultados, cara y ceca; as:
S = C, S
Otro experimento podra consistir en lanzar una tachuela al aire y observar si cae con
la punta hacia arriba o hacia abajo, el espacio muestral sera S = U, D, nalmente
otro de este estilo (o sea de experimentos de los mas sencillos que existen: dos resul-
tados posibles) consistira en observar el sexo del siguiente ni no nacido en el hospital
local, con S = M, F.
Supongamos ahora, en otro orden de ejemplos de espacios muestrales asociados a
experimentos, que este consiste en probar cada batera a medida que sale de una lnea
de ensamble hasta que observamos primero un exito (E) (donde el exito consiste en que
esta tiene un voltaje dentro de ciertos lmites pre-establecidos). A un cuando puede ser
que no sea muy probable, un posible resultado de este experimento es que las primeras
10 (o 100, o 1000, etc.), sean F (falla). Esto es, tendremos que examinar n bateras
antes de ver la primera S. El espacio muestral es S = E, FE, FFE, FFFE, , el
cual contiene un n umero innito de posibles resultados. Finalmente en esta voragine
de ejemplos (ja ja!!), consideremos un experimento donde la observacion consiste en
el tiempo de reaccion a un cierto estmulo. Aqu, el espacio muestral consistira en
2 Prof.Mg. Osmar Vera
todos los posibles n umeros reales positivos, es decir, S = (0, ).
Clasicaremos los espacios muestrales dentro de dos tipos, de acuerdo al n umero de
elementos que contienen. Los espacios muestrales de acuerdo con nuestra clasicacion,
podran ser numerables y no-numerables, si sus elementos pueden ser puestos en cor-
respondencia 1 1 con un subconjunto de los n umeros enteros, el espacio muestral
sera numerable. Por supuesto, que si el espacio muestral contiene un n umero nito de
elementos, este sera numerable. As, el lanzamiento de una moneda, la observaci on
del sexo del siguiente ni no a nacer en el hospital local, representan espacios mues-
trales numerables (en efecto, ademas nitos); pero el ejemplo de las bateras tambien
se representa mediante un espacio muestral contable (pero innito), mientras que el
experimento del tiempo de reaccion forma un espacio muestral cuyos elementos no
se pueden poner en correspondencia 1 1 con los enteros, de donde este sera no-
numerable.
Esta distincion de espacios muestrales es importante solamente al momento de la
asignacion de probabilidades, ademas el tratamiento matematico en cada caso es
diferente.
Una vez que el espacio muestral haya sido denido, estamos en posicion de generar
colecciones de posibles resultados de un experimento.
Denicion 1.1.2. Un evento es una coleccion de posibles resultados de un experi-
mento, esto es, cualquier subconjunto de S (incluyendo el mismo S).
Sea A un evento, o sea un subconjunto de S. Nosotros diremos que el evento A
ocurre si al menos alg un resultado del experimento esta en el conjunto A. Cuando
hablamos de probabilidades, generalmente nos referimos a la probabilidad de que
ocurra alg un evento, en vez de una conjunto. Pero podemos usar los terminos indis-
tintamente.
Primero necesitamos denir formalmente las siguiente dos relaciones, las cuales nos
permitiran ordenar e igualar conjuntos:
A B x A =x B inclusion
A = B A B B A igualdad
Dados dos eventos (o conjuntos) A y B, nosotros tenemos las siguientes operaciones
elementales entre ellos:
Union La union de A y B, escrito AB, es el conjunto de los elementos
que pertenecen a A a B o a ambos:
A B = x : x A x B.
Intersecci on La interseccion de A y B, escrito A B, es el conjunto de
los elementos que pertenecen a A y a B a la vez:
A B = x : x A x B.
Complemento El complemento de A, escrito A
c
, es el conjunto de los
elementos que no estan en A:
A
c
= x : x / A.
Ejemplo 1.1.1. Consideremos el experimento de la prueba en la batera, denimos
los siguientes conjuntos (eventos) A, B, C mediante:
A = E, FE, FFE
B = E, FFE, FFFFE
C = FE, FFFE, FFFFFE, . . .
entonces
A B = E, FE, FFE, FFFFE
A B = S, FFS
A
c
= FFFE, FFFFE, FFFFFE, . . .
y
C
c
= E, FFE, FFFFE, . . . = se examina un n umero par de bateras
Ademas, podra suceder que A B = (el evento ), y (A B)
c
= , donde
denota el conjunto vaco (el conjunto que no tiene elementos).
Las operaciones elementales entre conjuntos pueden ser combinadas. A veces se
pueden comparar con las combinaciones que se hacen entre la suma y la multiplicaci on.
Con tal que seamos cuidadosos, nosotros podemos tratar a los conjuntos como si fuesen
n umeros. Presento ahora, las siguientes propiedades de operaciones entre conjuntos
que son mas usadas.
Teorema 1.1.1. Para cualquier terna de eventos A, B y C denidos sobre un mismo
espacio muestral S, se tiene:
1. Conmutatividad A B = B A
A B = B A
2. Asociatividad A (B C) = (A B) C
A (B C) = (A B) C
3. Leyes Distributivas A (B C) = (A B) (A C)
A (B C) = (A B) (A C)
4. Leyes de De Morgan (A B)
c
= A
c
B
c
(A B)
c
= A
c
B
c
La demostracion de muchos de estos teoremas se dejaran como ejercicio, tambien
habra ejercicios que generalizaran el teorema. Para ilustrar la tecnica, probare la Ley
Distributiva.
A (B C) = (A B) (A C)
(podra serle familiar demostrarcon el uso de diagramas de Venn teoremas en teora
de conjuntos. Por un tema de precaucion diremos que los diagramas de Venn, en
algunos casos, sirven como ayuda para visualizar la situacion, pero con eso no se
da una demostracion formal). Para probar que dos conjuntos son iguales, como es
este el caso, debe ser demostrado que cada conjunto contiene al otro. Formalmente,
entonces
A (B C) = x S : x A x (B C);
(A B) (A C) = x S : x (A B) x (A C).
Primero mostramos que A(BC) (AB) (AC). Sea x (A(BC)).
Por la denicion de intersecci on, se debe cumplir que x (B C)), o sea, cada
x Bx C. Ya que x tambien debe estar en A, se tiene que cada x (AB)x
(A C); por lo tanto,
x ((A B) (A C)),
y la inclusion ha sido establecida.
Ahora asumimos que x ((AB) (AC)). Esto implica que x (AB) x
(A C). Si x (A B) entonces x esta tanto en A como en B. Como x B, x
(B C) y as, x (A (B C). Si por otro lado, x (A C), con argumento
similar, concluimos nuevamente que x (A (B C)). As, hemos establecido que
((AB) (AC)) (A(B C), mostrando la inclusion en la otra direccion, por
lo tanto, se tiene demostrada la Ley Distributiva.
Las operaciones de union e intersecci on pueden ser extendidas a colecciones innitas
de conjuntos. Si A
1
, A
2
, A
3
, . . . es una coleccion de conjuntos, todos denidos sobre
un mismo espacio muestral S, entonces
_
i=1
A
i
= x S : x A
i
, para alg un i,
i=1
A
i
= x S : x A
i
, para todos los valores de i.
Por ejemplo, sea S = (0, 1] y denimos A
i
= [(1/i), 1]. Entonces
_
i=1
A
i
=
_
i=1
[(1/i), 1] = x (0, 1] : x [(1/i), 1] para alg un i
= x (0, 1] = (0, 1];
i=1
A
i
=
i=1
[(1/i), 1] = x (0, 1] : x [(1/i), 1] para todo i
= x (0, 1] : x [1, 1]
= 1 solo el valor 1
Funciones denidas sobre el espacio muestral, son con frecuencia mas importantes
que los eventos en s mismos. Ahora discutiremos la forma como un conjunto es
identicado con una funcion 0, 1-valuada.
Denicion 1.1.3. La funcion indicadora del conjunto A S, es la funcion sobre S
dada por
I
A
() =
_
_
_
1 si A
0 si / A.
S
As, vemos que la funcion I
A
() indica si el evento A ocurre. Operaciones al-
gebraicas sobre funciones indicadoras, generalizan conjuntos de operaciones sobre
eventos:
I
AB
= max I
A
, I
B
I
AB
= mn I
A
, I
B
= I
A
I
B
I
A
c = 1 I
A
.
Tambien es posible denir uniones e intersecciones sobre colecciones no numerables
de conjuntos. Si es un conjunto de ndices (es decir, un conjunto de elementos a ser
usados como ndices) entonces
_
= x S : x A
, para alg un ,
= x S : x A
, para todo .
Si, por ejemplo, tomamos como = todos los reales positivos y A
= (0, a],
entonces
= (0, ) la cual es una union no-numerable. Mientras uniones e

intersecciones no- numerables no juegan un rol importante en estadstica, ellas a
veces proveen mecanismos muy usados para obtener algunas respuestas.
Finalmente discutiremos la idea de una particion de un espacio muestral.
Denicion 1.1.4. Dos eventos A y B son disjuntos (o mutuamente excluyentes) si
A B = . Los eventos A
1
, A
2
, . . . son disjuntos tomados de a pares si A
i
A
j
=
para todo i ,= j.
Conjuntos disjuntos son aquellos que no tienen puntos en com un. Si ocupamos un
diagrama de Venn para dos conjuntos disjuntos, estos no se solapan. La coleccion
A
i
= [i, i + 1), i = 0, 1, 2, . . .
consiste en una coleccion de conjuntos disjuntos tomados de a pares. Note ademas
que
i=1
A
i
= [0, ).
Denicion 1.1.5. Si A
1
, A
2
, . . . son disjuntos tomados de a pares y
i=1
A
i
= S,
entonces los conjuntos A
1
, A
2
, . . . forman una particion de S
Los conjuntos A
i
= [i, i + 1), i = 0, 1, 2, . . . forman una particion del interva-
lo [0, ). En general, las particiones son muy usadas, permitiendonos subdividir el
espacio muestral en otros conjuntos mas peque nos que no se solapan.
1.2. Teora de Probabilidad
Cuando se efect ua un experimento, la realizacion del mismo es un resultado en el es-
pacio muestral. Si se efect ua el experimento un n umero de veces, diferentes resultados
pueden ocurrir o alg un resultado puede repetirse. Esta frecuencia de ocurrenciade
un resultado puede ser pensado como una probabilidad. Es mas probable que ocurra
un resultado, si este se repite mas frecuentemente. La frecuencia de ocurrenciade
un evento es un ejemplo de una interpretaci on particular de probabilidad, llamada
objetiva. Otra posible interpretaci on es la subjetiva, donde en vez de pensar en la
probabilidad como una frecuencia, podemos pensarla como una creencia de la chance
que un evento ocurra. Es decir, por ejemplo dos sujetos diferentes ubicados en distin-
tos sitios pueden asignar distinto valor a la creencia de la chance de un mismo evento
1
.
Consideremos un experimento que se puede realizar repetidamente en forma identi-
ca e independiente, y sea A en evento formado por un conjunto de resultados del
experimento. Los ejemplos simples de tales experimentos repetibles incluyen aquellos
de lanzar una moneda al aire y dados. Si el experimento se realiza n veces, en alguna
de las repeticiones ocurrira el evento A (el resultado estara en el conjunto A), y en
otros, A no ocurrira. Denotemos por n(A) el n umero de repeticiones en las que ocurre
A. Entonces la relacion n(A)/n recibe el nombre de frecuencia relativa de ocurren-
cia del evento A en la secuencia de n repeticiones. La evidencia emprica, basada en
los resultados de muchas de estas secuencias de experimentos repetibles, indica que a
medida que n crece, la frecuencia relativa n(A)/n se estabiliza alrededor de un valor,
como se ve en la Figura 1.1
2
. Esto es, a medida que n se hace arbitrariamente grande,
la frecuencia relativa se aproxima a un valor lmite que se conoce como frecuencia
relativa lmite del evento A. La interpretaci on objetiva de probabilidad identica esta
frecuencia relativa lmite con el n umero P(A) (probabilidad del suceso A).
Si las probabilidades se asignan a eventos de acuerdo con sus frecuencias relativa
lmites, entonces podemos interpretar un enunciado como: la probabilidad que una
moneda al ser lanzada caiga de lado de la cara es 0.5esto quiere decir que en un
1
El libro de Robert Wilkler, Introduction to Bayesian Inference and Decision, contiene varias
interpretaciones subjetivas de probabilidad.
2
Ver en apendice como fue generado este graco con S-PLUS
Figura 1.1: Estabilizacion de frecuencia relativa
gran n umero de lanzamientos, aparecera una cara en aproximadamente la mitad de
los lanzamientos y una ceca en la otra mitad.
1.2.1. Fundamento axiomatico
Para cada evento A en el espacio muestral , podemos asociar con A un n umero
entre cero y uno, el cual sera llamado la probabilidad de A, notado por P(A). Pare-
cera natural denir el dominio de P (o sea, el conjunto donde los argumentos de la
funcion P() estan denidos) como todos los subconjuntos de ; esto es, para cada
A S nosotros deniramos el n umero P(A) como la probabilidad de que A ocurra.
Desafortunadamente este tema no es tan sencillo. Hay algunas dicultades tecnicas
para ser superadas. No nos detendremos en tantos tecnicismos, aunque son de impor-
tancia, usualmente tienen mas interes para probabilistas que para estadsticos. Por
lo tanto, el objeto de comprender la estadstica requiere al menos que te familiarices
con los siguientes conceptos.
Denicion 1.2.1. Una coleccion de subconjuntos de S, o una familia de subconjuntos
de S se denomina

Algebra de Borel (o sigma algebra), denotado por B, si esa
satisface las siguientes tres propiedades:
1. B
2. Si A B entonces A
c
B (B es cerrado bajo complementacion)
3. Si A
1
, A
2
, . . . B entonces
i=1
A
i
B (B es cerrado bajo uniones numerables).
El entorno matematico que ocupa la probabilidad necesita que nosotros trabaje-
mos con -algebras, pero con rareza estas son dadas a priori. Lo mas com un es elegir
una -algebra que contenga denido explcitamente algunas clases de eventos elemen-
tales. Afortunadamente, existe un mecanismo para lograrlo: dada cualquier clase de
subconjuntos de , siempre existe una familia minimal conteniendo aquella clase y
cerrada bajo los conjuntos de operaciones preestablecidas en denicion 1.2.1. La min-
imalidad es importante pues, a menos que sea numerable, el conjunto de partes de
es demasiado grande. Aqu la -algebra que nos interesar a es la unica mas peque na
que contiene todos los conjuntos abiertos de un espacio muestral S dado. Sabemos
que esta siempre existe por lo dicho en el parrafo ultimo anterior.
Ejemplo 1.2.1. Si tiene n elementos, este tiene 2
n
conjuntos en B. Si 1, 2, 3,
entonces B esta representado por la siguiente coleccion de 2
3
= 8 conjuntos:
1; 1, 2; 1, 2, 3; 2; 1, 3; 3; 2, 3;
En general, si no es numerable, no es facil describir a B; entonces B se elige de
tal manera que contenga los conjuntos de interes y cumpla con su denicion.
Ejemplo 1.2.2. Sea S = (, ), la recta real. Entonces B se elige de tal manera
que contenga todos los conjuntos de la forma:
[a, b] (a, b] (a, b), y [a, b)
para todos los n umeros reales a y b. Tambien de las propiedades de B se sigue que
esta contiene todos los conjuntos que pueden ser formados tomando (posiblemente
innitos numerables) uniones e intersecciones de conjuntos de la forma dada arriba
en este ejemplo
Estamos ya en condiciones de denir una funcion de probabilidad.
Denicion 1.2.2. Dado un espacio muestral S, y una -algebra B asociada, una
funcion de probabilidad es una funcion P con dominio en B que satisface las siguientes
propiedades,
1. P(A) 0 A B
2. P(S) = 1
3. Si A
1
, A
2
, . . . B son dos a dos disjuntos, entonces P(
i=1
A
i
) =
i=1
P(A
i
).
La terna (S , B , P) se denomina espacio de probabilidad. Tambien se suele anotar S
con la letra griega .
A partir de ahora todo sera estudiado en espacios de probabilidad, a pesar de man-
tenernos en un lenguaje de experimentos y eventos.
Las tres propiedades dadas en la denicion 1.2.2 usualmente se denominan Ax-
iomas de Probabilidad (o Axiomas de Kolmogorov, uno de los padres de la teora
de probabilidad). Cualquier funcion P que satisfaga los Axiomas de Probabilidad es
llamada funcion de probabilidad. Esta denicion axiomatica no hace referencia a la
funcion elegida en particular P, solo se requiere que P satisfaga los axiomas. As,
para un mismo espacio muestral, muchas funciones P diferentes pueden ser denidas
sobre el. Debera ser observada, seguramente, el experimento particular para asignar
la funcion P adecuada.
Ejemplo 1.2.3. Consideremos el experimento simple que consiste en arrojar una
moneda, as = C, S. Entenderemos por moneda normal.
a
una tal balanceada, o
sea equilibrada de manera tal que pueda caer de cara o ceca no este relacionado con
la moneda, sino con el resultado aleatorio del experimento. Con lo cual,
P(C) = P(S). (1.1)
Note que hemos dado una interpretacion simetrica de probabilidad (o hemos ocupa-
do la intuici on) para imponer el requerimiento que tanto las caras como las secas sean
igualmente probables. Como = C S, se tiene del ax. 2, P(C S) = 1.
Tambien, los eventos C y S son disjuntos, as P(CS) = P(C)+P(S) =
1 y
P(C) +P(S) = 1. (1.2)
Resolviendo simult aneamente (1.1) y (1.2) se muestra que P(C) = P(S) = 1/2.
Ya que (1.1) esta basada sobre nuestro conocimiento del experimento particular, no
en los axiomas, cualquier valor no negativo tanto para P(C) como para P(S)
tal que satisfaga (1.2) dene de manera legtima una funcion de probabilidad. Por
ejemplo, podramos elegir P(C) = 1/9 y P(S) = 8/9.
La realidad fsica del experimento podra determinar la asignacion de probabilidad,
lo veremos en el siguiente ejemplo. Por supuesto, tal asignacion debe satisfacer los
Axiomas de Kolmogorov.
Ejercicio 1.2.1.
1.2.2. El calculo de probabilidad
Desde los axiomas de probabilidad podemos construir algunas propiedades de la
funcion de probabilidad, tales propiedades son de gran ayuda en el calculo de proba-
bilidad mas complicado.
Comenzaremos con algunas (casi evidentes, otras no tanto) propiedades de la funcion
de probabilidad cuando la aplicamos a un evento simple,
Teorema 1.2.1. Sea (, B, P) un espacio de probabilidad y A, B B, entonces se
cumple,
a. P() = 0, donde indica el conjunto vaco;
b. P(A) 1;
c. P(A
c
) = 1 P(A);
d. P(B A
c
) = P(B) P(A B);
e. P(A B) = P(A) +P(B) P(A B);
f. Si A B entonces P(A) P(B).
g. P(A B) P(A) +P(B) 1
Ejemplo 1.2.4. La ultima desigualdad del teorema ultimo anterior es muy usada
cuando es difcil (o casi imposible) calcular la probabilidad de la interseccion de dos
eventos, pero alguna de la medida de esa probabilidad se desea conocer. Supongase
que A y B son dos eventos, cada uno con probabilidad 0.95. Entonces la probabilidad
que ambos ocurrieran esta acotada inferiormente por
P(A B) P(A) +P(B) 1 = 0,95 + 0,95 1 = 0,90.
Cerramos esta seccion con un teorema que da algunos resultados utiles para tratar
con una coleccion de eventos.
Teorema 1.2.2. Sea (, B, P) un espacio de probabilidad, entonces
a. P(A) =
i=1
P(A C
i
) para cualquier particion C
1
, C
2
, . . .;
b. P(
i=1
A
i
)
i=1
P(A
i
) para conjuntos cualesquiera A
1
, A
2
, . . . (desigualdad de
Boole)
1.2.3. Tecnicas de conteo
A menudo los metodos de conteo son ocupados en orden para construir asigna-
ciones de probabilidad sobre espacios muestrales nitos, aunque pueden ser usados
para responder tambien otras cuestiones.
Si se tira un dado de seis caras 5 veces sucesivamente, entonces cada posible resul-
tado es un conjunto ordenado de cinco n umeros tales como (1, 3, 1, 2, 4) o (6, 5, 2, 2, 2).
A un conjunto ordenado de k objetos le daremos el nombre de kupla. Cada resulta-
do del experimento de lanzar el dado es entonces una 5upla. Quisieramos responder
a la siguiente pregunta: cuantos son los resultados posibles totales del experimento?.
Sabemos que son muchos, no queremos enumerarlos uno a uno, sino, simplemente de-
terminar cuantos son. El siguiente teorema es el primer paso para resolver tal proceso,
y muchas veces se lo conoce como Teorema Fundamental de Conteo.
Teorema 1.2.3. Supongamos que un conjunto esta formado por grupos ordenados de
k elementos (k upla) y que hay n
1
posibles opciones para el primer elemento; por
cada opcion del primer elemento hay n
2
posibles opciones para el segundo elemento;
. . .; por cada posible opcion de los primeros k 1 elementos hay n
k
opciones del
k-esimo elemento. Entonces hay n
1
n
2
. . . n
k
posibles k uplas.
Ejemplo 1.2.5. El propietario de una casa desea hacer una serie de remodelaciones
y requiere los servicios de un contratista plomero y de un contratista electricista.
Supongamos que este trabajo implica compar primero varios utensillos para la cocina.
Se compraran todos al mismo distribuidor. Hay cinco distribuidores en la zona; 12
contratistas plomeros y 9 contratistas electricistas. De cuantas maneras se pueden
seleccionar los distribuidores y los contratistas para hacer el trabajo?. Denotemos a
los distribuidores por d
1
, d
2
, . . . , d
5
; los plomeros por p
1
, p
2
, . . . , p
12
y los electricistas
por e
1
, e
2
, . . . , e
9
, entonces querremos contar el n
o
de ternas de la forma (d
i
, p
j
, e
k
).
Con n
1
= 5; n
2
= 12; n
3
= 9, el producto N = n
1
n
2
n
3
= 5 12 9 = 540 formas
de seleccionar primero un distribuidor de aparatos domesticos, luego un contratista
plomero y, nalmente, un contratista electricista.
Ejemplo 1.2.6. Supongamos que una persona decide jugar al Quini seis. Entre los
n umeros 1, 2, . . . , 36 una persona puede elegir 6 cualesquiera para completar su boleta.
El n umero ganador entonces, se selecciona en forma aleatoria, tomando seis n umeros
entre los 36. Para calcular la probabilidad de ganar, primero debemos contar cuantos
grupos diferentes de seis n umeros pueden se elegidos de entre los 36.
Ejemplo 1.2.7. Aunque el T.F.C. (Teorema Fundamental de Conteo) es un lugar
razonable para resolver los problemas de los ejemplos dos ultimos anteriores, en la
aplicaciones usualmente hay muchos aspectos a considerar. Por ejemplo el en juego
del Quini, el primer n umero puede ser elegido entre 36 posibles, y el segundo n umero
en 35 posibilidades, produciendo un total de 36 35 = 1260 caminos distintos de elegir
el primero y el segundo n umero. Sin embargo, una persona tambien podra considerar
la posibilidad de elegir las dos veces el mismo n umero para le eleccion del primero y
el segundo; de esta manera producira un total de 36 36 = 1296 caminos distintos de
elecci on de los primeros dos n umeros
La distincion hecha en el ejemplo esta entre contar con reemplazo y sin reemplazo.
Hay otro elemento crucial en todo problema de conteo, si es o no importante el orden
en que se eligen los elementos. Para ejemplicarlo, supongamos que el n umero ganador
para el Quini es seleccionado con el siguiente orden: 12,36,35,9,13,22. Aquella persona
que selecciono: 9,12,13,22,35,36; se lo calica como un ganador?. En otras palabras
importa el orden en que se eligieron los n umeros para conformar el carton?. Tomado
todas esas consideraciones dentro del conteo, es posible construir una tabla de 2 2
que incluya todas las posibilidades:
Posibles Metodos de conteo
Con reemplazo Sin reemplazo
ordenado
sin orden
Antes de comenzar a contar, las siguientes deniciones nos daran algunas preci-
siones.
Denicion 1.2.3. Para cualquier entero positivo n, n! (se lee n factorial) es el pro-
ducto de todos los enteros positivos menores o iguales que n. Esto es,
n! = n (n 1) (n 2) 3 2 1.
Adem as de dene 0! = 1.
Consideremos ahora todos los posibles cartones de Quini bajo cada uno de los
cuatro casos dados en la tabla
1. Ordenados sin reemplazo Del T.F.C., el primer n umero puede ser
seleccionado de 36 formas, el segundo de 35, etc. , entonces todos los
posibles son:
36 35 34 33 32 31 =
35!
30!
= 1,402,410,240
posibles cartones.
2. Ordenados con reemplazo Cada n umero puede ser seleccionado en 36
formas diferentes (pues el n umero elegido es reemplazado), entonces
hay,
36 36 36 36 36 36 = 36
6
= 2,176,782,336
posibles cartones.
3. Sin orden, sin reemplazo Nosotros conocemos el n umero posible de
cartones para una consideracion de orden, ahora deberemos dividir
por el n umero de ordenamientos redundantes. Nuevamente usando
el T.F.C., seis n umeros pueden ser ordenados en 6 5 4 3 2 1
caminos, as el total de cartones distintos no ordenados es:
36 35 34 33 32 31
6 5 4 3 2 1
=
36!
6!30!
= 1,947,792
Esta forma juega un rol central en muchos problemas de estadstica,
mas a un, se ha ganado una notacion especial.
Denicion 1.2.4. Para enteros no-negativos n y r, n r, denimos el smbolo
_
n
r
_
=
n!
r! (n r)!
.
En nuestro ejemplo de los cartones de Quini, el n umero posible de estos (sin orden, sin
reemplazo) es
_
36
6
_
. Cuando nos referimos ese n umero se lo suele denominar coeciente
binomial, las razones seran explicadas mas adelante.
4. Sin orden, con reemplazo Este es el caso mas difcil de conteo. Para
contar en este caso resulta mas facil pensar en ubicar seis marcas
sobre los 36 n umeros. En efecto, podemos pensar a los 36 n umeros
deniendo celdas, en las cuales podemos ubicar seis marcas, M, como
se muestra en la gura siguiente
M MM M M M
1 2 3 4 5 33 34 35 36
El n umero de posibles cartones en entonces igual al n umero de caminos distintos
distintos en que podemos acomodar las seis marcas en las 36 celdas. Pero esto puede
ser reducido notando que todo lo que necesitamos para guardar la marca es un arreglo
con las marcas y de barras de las celdas. Note ademas que las dos barras externas
no juegan ning un papel. As, nosotros tenemos para contar todos los arreglos de 35
barras (36 celdas se corresponden con 37 barras, pero quitamos las barras de sendos
extremos) y 6 marcas. Por lo tanto, tenemos 35+6=41 objetos, los cuales pueden ser
ordenados en 41! formas. Sin embargo, para eliminar los ordenamientos redundantes
debemos dividir por 6! y 35!, as el n umero total de arreglos es:
41!
6!35!
= 4,496,388.
Aunque todas las derivaciones anteriores fueron hechas a partir de un ejemplo, es facil
ver que se mantienen en general, para completar, es posible resumir las situaciones a
traves de la siguiente tabla:
N umero de posibles arreglos de medida r entre n objetos
sin reemplazo con reemplazo
Ordenado
n!
(nr)!
n
r
Sin orden
_
n
r
_ _
n+r1
r
_
1.2.4. Resultados Igualmente probables
Las tecnicas de conteo vistas en la seccion ultima anterior son muy usadas cuando
el espacio muestral es un conjunto nito y todos los resultados en son igual-
mente probables. Entonces probabilidades de eventos pueden ser calculadas por sim-
ple conteo del n umero de resultados en el evento. Para ver esto, supongamos que
=
1
,
2
, . . . ,
N
es un espacio muestral nito. Armar que todos los resultados
son igualmente probables, signica que P(
i
) = 1/N para cada resultado
i
. En-
tonces, usando (3) de la denicion de una funcion de probabilidad, se tiene para cada
evento A,
P(A) =
i
A
P(
i
) =
i
A
1
N
=
n umero de elementos en A
n umero de elementos en
.
Para muestras grandes, las tecnicas de conteo podran ser usadas para determinar
tanto el numerador como el denominador de esta expresion.
Ejemplo 1.2.8. Cuando dos dados ruedan separadamente, hay N = 36 resultados
posibles. Si ambos dados no estan cargados, los 36 resultados son igualmente prob-
ables, as que P(E
i
) =
1
36
, siendo E
i
cualquiera de los evento elementales del espacio
muestral. Entonces el evento A = (x, y) : x + y = 7, o sea la suma de los
n umeros que aparecen en los dados es igual a siete, esta formado por los siguientes
seis resultados:
(1, 6); (2, 5); (3, 4); (4, 3); (5, 2); (6, 1);
as que, se tiene P(A) =
N(A)
N
=
6
36
=
1
6
.
1.3. Probabilidad Condicional
1.3.1. Probabilidades compuestas e independencia
Consideremos el siguiente problema:
Se lanzan simult aneamente dos dados, uno rojo y otro blanco, y se busca la proba-
bilidad de que el rojo sea 2 y el blanco 5.
Sabemos que los casos posibles son 6 6 = 36, pues en el dado rojo puede salir
cualquier n umero del 1 al 6 y, para el caso del blanco tambien. De entre estos 36 casos
posibles, unicamente hay un caso favorable, y por lo tanto la probabilidad buscada
en 1/36. Se tiene as que, mientras que en la probabilidad de que un dado rojo salga
2 es 1/6 y la que en el dado blanco salga 5 es tambien 1/6, la probabilidad de que
ocurran a la vez los dos sucesos es tambien el producto (1/6) (1/6).
Este hecho se nalado en el ejemplo ultimo anterior es general. Supongamos que
para un suceso A hay m
1
casos favorables entre un total de n
1
posibles y para otro
suceso B hay m
2
casos favorables entre un total de n
2
posibles. Entonces se tiene
que P(A) = m
1
/n
1
y P(B) = m
2
/n
2
. Consideremos ahora el conjunto de pares de
casos posibles y favorables. Esta claro que habra n
1
n
2
casos posibles, y entre ellos,
m
1
m
2
casos favorables (en que tienen lugar A y B simultaneamente). Por lo tanto
P(A B) = m
1
m
2
/n
1
n
2
= P(A) P(B).
Podemos, por lo tanto, enunciar el siguiente principio de las probabilidades com-
puestas:
Si dos sucesos son independientes entre s, la probabilidad de que ocurran A y B a
la vez, es igual al producto de la probabilidad de A por la probabilidad de B, o sea,
P(A B) = P(A) P(B). (1.3)
La condicion de que A y B sean independientes es fundamental, para que 1.3 sea
valida. Supongamos, por ejemplo, que se lanza un dado y se busca la probabilidad
de que el n umero resultante sea par y menor que 4. Si A indica el suceso par
2
B
el suceso menor que 4, resulta P(A) = 1/2 y P(B) = 3/6 = 1/2. El unico caso
favorable es el 2, y por lo tanto P(A B) = 1/6, mientras que P(A) P(B) = 1/4.
Esto nos informa que los sucesos par
2
menor que 4no son independientes: si se
supiese de antemano que el resultado es par es menos probable que sea menor que 4
que si no se supiera.
En la mayora de los casos no es facil averiguar a priori si dos sucesos son o no
independientes. Por eso, veremos antes de nalizar este captulo que es mejor tomar
la condicion 1.3 como denicion de independencia de dos eventos, es decir dos sucesos
A y B son independientes si cumplen con la condicion 1.3. Veamos ahora como se
pueden tratar estas ideas dentro de la teora axiomatica.
1.3.2. Probabilidad Condicional
Sea (, B, P) un espacio de probabilidad. Sea A B, un suceso tal que P(A) ,= 0.
Denicion 1.3.1. Se llama probabilidad condicional de un suceso B B, dado el
suceso A B, y se representa por P(B/A), al cociente
P(B/A) =
P(A B)
P(A)
. (1.4)
Se debera probar que esta denicion de probabilidad condicional es admisible, es
decir, que la probabilidad condicional P
A
(B) = P(B/A), denida para todo B B,
una vez jado A B, cumple con las tres partes de la denicion de probabilidad.
Se debe probar que (, B, P
A
) es tambien un espacio de probabilidad. Esto se deja
como ejercicio. Un vez probado podremos armar que la ultima denicion anterior es
admisible. A partir de ella se puede escribir
P(A B) = P(A) P(B/A). (1.5)
En forma analoga y jando el suceso B, suponiendo que P(A) ,= 0, se tiene la prob-
abilidad condicional
P(A/B) =
P(B A)
P(B)
. (1.6)
Podremos enunciar as as ahora la siguiente denicion de sucesos independientes.
Denicion 1.3.2. Se dice que dos sucesos son independientes si se verica que
P(B/A) = P(B). (1.7)
Observese que en este caso, seg un (1.4), es
P(A B) = P(A) P(B) A y B independientes (1.8)
y por tanto comparando con (1.7), es tambien
P(A/B) = P(A). (1.9)
Esto nos dice que la independencia es una propiedad simetrica, que puede denirse
por cualquiera de las igualdades (1.7) o (1.9).
Puesto que el hecho de que un elemento pertenezca a la interseccion AB signica
que a la vez pertenece a A
2
.
a
B, la relacion (1.8) equivale a la (1.3) (principio de las
probabilidades compuestas).
La denicion de independencia se generaliza a mas de dos eventos de la siguiente
manera:
Denicion 1.3.3. Se dice que n sucesos A
1
, A
2
, . . . , A
n
son independientes o (com-
pletamente independientes) si se verica
P(A
i
1
A
i
2
. . . A
i
k
) = P(A
i
1
) P(A
i
2
) P(A
i
k
) (1.10)
para k = 2, 3, . . . , n, donde (i
1
, i
2
, . . . , i
k
) es una combinacion cualquiera de los n
n umeros 1, 2, . . . , n.
Por ejemplo, para que 3 eventos A, By C sean independientes, se debe cumplir:
P(A B) = P(A) P(B),
P(A C) = P(A) P(B),
P(B C) = P(B) P(C),
P(A B C) = P(A) P(B) P(C).
Observe que la ultima relacion no puede deducirse de las dos primeras, es decir las
cuatro condiciones son necesarias.
Naturalmente, y es de suma importancia, no confundir eventos independientes con
eventos disjuntos.
Ejemplo 1.3.1. Problema de las coincidencias Se tienen dos urnas con n bolil-
las cada una, numeradas de 1 a n. Se va sacando simultaneamente una bolilla de cada
urna, y se quiere hallar la probabilidad de que , al terminar la extraccion de todas las
bolillas, se haya extrado, por lo menos una vez, el mismo n umero de cada urna.
Solucion:
El espacio muestral puede ser visualizado como todas las matrices de la forma
_
_
i
1
i
2
. . . i
n
j
1
j
2
. . . j
n
_
_
donde i
1
, i
2
, . . . , i
n
son los n umeros entre 1 y n que salen de la primera urna, y
j
1
j
2
. . . j
n
son los que salen de la segunda. El n umero total de elementos del espacio
muestral es n! n! = (n!)
2
(casos posibles) y la probabilidad de cada suceso elemental
es 1/(n!)
2
.
Consideremos A
i
, el conjunto de elementos de , en los cuales el i en la primera la
coincide con el j = i en la segunda la, independientemente del lugar en que ocurra
la coincidencia. Por ejemplo, A
3
es el conjunto de las matrices de la forma
_
_
. . . 3 . . .
3
_
_
.
El problema nal se trata de calcular P(A
1
A
2
. . . A
n
). Para ello es posible
aplicar la formula:
P(A
1
A
2
. . . A
n
) =
i
P(A
i
)
i,j
P(A
i
A
j
) +
i,j,k
P(A
i
A
j
A
k
) +
(1)
n1
P(A
1
A
2
. . . A
n
), donde las sumas se extienden en cada caso a todas las
combinaciones posibles entre los diferentes ndices i, j, k, . . ., o sea que todo se reduce
al calculo de las probabilidades del segundo miembro. Buscaremos el valor de cada
sumando:
(a) Probabilidad P(A
i
). El n umero de elementos del espacio muestral en que coinci-
den los n umeros i, lo calculamos de la siguiente forma. Fijado el lugar en que
ocurre la coincidencia, los restantes n1 n umeros de la primera y de la segunda
la pueden ser cualesquiera, y por lo tanto se tienen ((n 1)!)
2
casos. Como el
lugar de la coincidencia puede ser tambien cualquiera, se tienen en cada caso,
n posibilidades mas. De donde A
i
esta compuesto de n ((n 1)!)
2
elementos
del muestral, en consecuencia
P(A
i
) =
n ((n 1)!)
2
(n!)
2
=
1
n
,
i
P(A
i
) =
n
n
= 1.
(b) Probabilidad P(A
i
A
j
). Fijamos los lugares en que ocurren las coincidencias
de los lugares i y j, los restantes n 2 n umeros de la primera y de la segunda
la pueden ser cualesquiera, y por lo tanto se tienen ((n2)!)
2
casos. Como los
lugares de las coincidencias pueden ser tambien cualquiera de los n, se tienen
en cada caso, n(n 1) posibilidades mas. De donde A
i
A
j
esta compuesto de
n(n 1) ((n 2)!)
2
elementos del muestral, en consecuencia
P(A
i
A
j
) =
n(n 1) ((n 2)!)
2
(n!)
2
=
1
n(n 1)
i,j
P(A
i
A
j
) =
_
n
2
_
1
n(n 1)
=
1
2
.
(c) Analogamente,
P(A
i
A
j
A
k
) =
n(n 1)(n 2) ((n 3)!)
2
(n!)
2
=
1
n(n 1)(n 2)
y por lo tanto
i,j,k
P(A
i
A
j
A
k
) =
_
n
3
_
1
n(n 1)(n 2)
=
1
3!
.
Se tiene as como resultado nal (procediendo sucesivamente) que la probabili-
dad de por lo menos una coincidencia es:
P = 1
1
2
+
1
3!

1
4!
+. . . + (1)
n
1
n!
. (1.11)
Para n , P = 1 exp
1
= 0,6321 . . .. Es curioso notar que para valores
relativamente peque nos de n se obtienen valores ya muy proximos a esta valor
lmite. As, se tiene
P(1) = 1, P(2) = 0,5, P(3) = 0,66 . . . , P(4) = 0,625 . . . ; P(7) = 0,6321 . . .
y para valores mayores de 7, quedan invariables las cuatro primeras cifras deci-
males.
Ejemplo 1.3.2. Problema de los nacimientos En una reunion de r personas,
cual es la probabilidad de que, por lo menos dos de ellas, cumplan a nos el mismo
da?
Vamos a prescindir de la posibilidad de que alguien haya nacido el 29 de febrero y
por tanto supondremos que el a no tiene 365 das. el espacio muestral se compone de
todos los conjuntos posibles de r fechas. Un individuo, seleccionado al azar, podra
cumplir a nos en cualquiera de los 365 das del a no, de manera analoga un segundo
individuo podra cumplir a nos en cualquiera de los 365 das, etc. Por lo tanto, el
espacio muestral esta constituido por 365
r
puntos, cada uno de los cuales tiene la
misma probabilidad. En vez del suceso cuya probabilidad se busca, consideremos su
complemento: el que ning un para de personas cumpla a nos el mismo da. El n umero
de elementos de este suceso se calcula as: la primera persona tiene 365 posibilidades;
la segunda no habiendo nacido el mismo da que la primera, tiene 364 posibilidades;
la tercera persona tiene 363 posibilidades y as sucesivamente, la ultima persona tiene
365 (r 1) posibilidades. En total, el suceso complementario consta de 365 364
363 . . . (365 (r 1)) elementos. De donde su probabilidad es este n umero dividido
por 365
r
, y la probabilidad del suceso objeto del problema sera (suponiendo r > 1)
P
r
= 1
365 364 363 . . . (365 (r 1))
365
r
.
Este n umero no es facil de calcular directamente. Los siguientes valores dan una idea
de su comportamiento:
N
o
de personas r 5 10 20 23 30 40 60
Probabilidad P
r
0.027 0.117 0.411 0.507 0.706 0.89 0.99
Se ha tenido en cuenta el n umero r = 23, pues all la probabilidad es practicamente
1/2. Observe que si las personas son 60 o mas, la probabilidad es superior a 0.99, es
decir hay casi certeza de que por lo menos dos personas cumplan a nos el mismo da,
lo cual es un resultado sorprendente a primera vista.
Modelos basados en probabilidades condicionales Para ver estos modelos
hace falta poder obtener la probabilidad de un evento, en funcion de sus probabili-
dades condicionales respecto de otros.
En el caso mas sencillo, sea B
1
, B
2
, . . . , B
n
una particion de , y A cualquier evento.
Entonces
P(A) =
n
i=1
P(A/B
i
)P(B
i
). (1.12)
Esta se llama ley de la probabilidad total, para probarla basta con aplicar el Teorema
1.2.2 parte a) y (1.5).
En las mismas condiciones se cumple para todo k = 1, . . . , n:
P(B
k
/A) =
P(A/B
k
)P(B
k
)
n
i=1
P(A/B
i
)P(B
i
)
. (1.13)
Este resultado se conoce como formula de Bayes, se prueba usando (1.12) y la (1.5).
Ejemplo 1.3.3. En una fabrica dos maquinas trabajan simultaneamente producien-
do un mismo artculo. Se sabe que la maquina A produce el doble de artculos que la
maquina B. El porcentaje de artculos defectuosos producidos por A es una 10 %, en
tanto que el porcentaje de artculos defectuosos que produce B es un 5 %. Que canti-
dad de artculos debe fabricar cada maquina, para tener aproximadamente 5500 artcu-
los buenos en total?
Solucion:
Sea el suceso S= se fabrica un artculo sano. Se debera calcular la probabilidad
de este evento, es decir querremos encontrar P(S).
Es mas sencillo calcular la probabilidad de D= se fabrica un artculo defectuoso.
Como D = S
c
, tendremos P(S) = 1 P(D). Es claro que un artculo puede provenir
de la maquina A o la maquina B en forma excluyente. Si A y B son los sucesos el
artculo proviene de A y el artculo proviene de Brespectivamente, podemos poner
D = (D A) (D B)
, como ambos sucesos D A y D B son mutuamente excluyentes, resulta
P(D) = P[(D A) (D B)] = P(D A) +P(D B) = P(D/A)P(A) + P(D/B)P(D)
=
10
100

2
3
+
5
100

1
3
=
1
12
Esto nos dice que de cada 12 artculos fabricados 1 sera defectuoso y 11 seran buenos
(P(S) =
11
12
). Entonces
11
12
=
5500
x
, o sea x = 6000 artculos
En consecuencia, como A produce el doble de artculos que B, deberan fabricar 4000
y 2000 artculos respectivamente.
Ejemplo 1.3.4. Consideremos una situacion que resulta relativamente corriente en
casos de controles masivos aplicados en prevencion medica y examenes de calidad de
productos.
En el control preventivo de una poblacion, en la que la proporcion de enfermos
bacilares es p, se una un examen radiologico para detectar posibles enfermos. Se
sabe que la probabilidad de que el examen aplicado a un enfermo lo muestre como
tal es 0.90 y que la probabilidad de que el examen aplicado a una persona sana, la
se nale como enferma es 0.01. Se quiere calcular la probabilidad de que una persona
sea realmente enferma si el examen radilologico la mostro como tal.
Solucion:
Consideremos el experimento de elegir una persona al azar de la poblacion y los
sucesos,
E = la persona es enferma
R
+
= el examen la detecta como enferma
Tenemos entonces la siguiente particion de la poblacion, donde S y R
son los sucesos

complementarios de E y R
+
respectivamente, es decir, S: la persona es sana y R
: el
examen la detecta como sana.
En virtud de los datos sabemos que
P(E) = p, P(R
+
/E) = 0,90 y P(R
+
/S) = 0,01
queremos hallar P(E/R
+
).
Aplicamos entonces la formula de Bayes,
P(E/R
+
) =
P(E R
+
)
P(R
+
)
=
P(R
+
/E) P(E)
P(R
+
/E)P(E) +P(R
+
/S)P(S)
=
0,90p
0,90p + 0,01(1 p)
=
0,90p
0,89p + 0,01
En particular, si p = 1/500, resulta P(E/R
+
) 0,153. El signicado de este resultado
debe considerarse detenidamente. Por una parte el examen radiologico es altamente
conable (detecta la enfermedad en el 90 % de los casos en que esta exista). Por otra
parte, solo en el 15, 30 % de los casos en que la prueba da un resultado positivo se
tiene que la enfermedad realmente existe.
Analicemos P(E/R
+
) para algunos valores de p.
p P(E/R
+
)
1/1000 0.083
1/500 0.153
1/200 0.311
1/100 0.476
1/10 0.909
Observamos que si p (proporcion de enfermos en la poblacion) es peque no, el
metodo de control masivo indicado es insuciente dado que P(E/R
+
) esta lejos de
1. Este tipo de dicultades que ofrece el metodo requiere un analisis previo a su
aplicacion.
1.4. EJERCICIOS
1.1 Para cada uno de los siguientes experimentos, describir el espacio muestral.
a. Arrojar una moneda cuatro veces
b. Contar el n
o
de insectos da ninos que viven sobre una planta.
c. Medir el tiempo de vida (en horas) de una marca particular de lamparitas
de luz.
d. Determinar el peso de ratas con 10 das de vida.
e. Observe la proporcion de defectos en un embarque de componentes elec-
tronicos.
1.2 Verique las siguientes identidades.
a. A B = A (A B) = A B
c
b. B = (B A) (B A
c
)
c. B A = B A
c
d. A B = A (B A
c
).
1.3 Finalice la demostracion del Teorema 1.1.1.
1.4 Demuestre que para cualquier para de eventos A y B en , se cumple:
AB = A
c
B
c
.
3
1.5 Con la misma tecnica ocupada en clase, muestre que las siguientes igualdades se
cumplen: I
AB
= max I
A
, I
B
, I
A
c = 1 I
A
1.6 Pruebe la version general de las Leyes de De Morgan. Sea A
: una
coleccion de conjuntos (posiblemente no-numerables). Demuestre que:
a. (
)
c
=
A
c
b. (
)
c
=
A
c
.
1.7 Supongamos que B es una sigma algebra de subconjuntos de S, entonces
a. Probar que S B.
b. Probar que B es cerrado bajo intersecciones contables.
3
Recuerde que AB se dene como: AB = (A B) (A B).
c. Probar que el conjunto formado por el vaco y S es una sigma algebra.
1.8 Si A
i
se dene como en la demostracion del Teorema 1.2.2 (b), demuestre que
A
k
A
l
= , k ,= l
1.9 Demuestre que si B es una -algebra, entonces tambien es cerrada para la difer-
encia entre conjuntos.
1.7 Sea (, B, P) un espacio de probabilidad, A, B B.
Demuestre que P(A B) P(A) + P(B) 1 (caso especial de la desigualdad
de Bonferroni)
1.10 Aplicar la desigualdad de Boole al evento A
c
; y usando que
A
c
i
= (
A
i
)
c
,
P(A
c
i
) = 1 P(A
i
), pruebe la desigualdad
P(
n
i=1
A
i
)
n
i=1
P(A
i
) (n 1),
la cual es la desigualdad mas general de la desigualdad de Bonferroni.
1.11 Consideremos una caja que contiene 9 lamparas de las cuales 4 estan quemadas.
Se extraen al azar tres lamparas sin reposicion y se cuenta la cantidad de que-
madas. Cual es la probabilidad de obtener i) ninguna lampara quemada, ii)
exactamente una lampara quemada, iii) exactamente dos lamparas quemadas,
iv) tres lamparas quemadas. Resumir los cuatro resultados obtenidos en una
tabla de doble entrada. Cuanto da la suma de todas estas probabilidades?.
1.12 Consideremos la misma situacion del [1.11], pero ahora la muestra es con reposi-
cion. Cuanto da la suma de todas estas probabilidades?.
1.13 Suponga ahora una caja que contiene N lamparas de las cuales n estan que-
madas (n N) . Se extraen al azar r lamparas y se cuenta la cantidad de
quemadas. Cual es la probabilidad de obtener exactamente k lamparas que-
madas (k r) si la muestra que se toma es:
a) sin reposicion, b) con reposicion.
1.14 Una rma de consultora de computadoras ha licitado en tres proyectos. Sea
A
i
= proyecto i otorgado , para i = 1, 2, 3 y supongamos que P(A
1
) =
0,22, P(A
2
) = 0,25, P(A
3
) = 0,28, P(A
1
A
2
) = 0,11, P(A
1
A
3
) = 0,05, P(A
2
A
3
) = 0,07, P(A
1
A
2
A
3
) = 0,01. Exprese verbalmente cada uno de los sigu-
ientes eventos y calcule su probabilidad
a) A
1
A
2
b) A
c
1
A
c
2
c) A
1
A
2
A
3
d) A
c
1
A
c
2
A
c
3
e) A
c
1
A
c
2
A
3
f) (A
c
1
A
c
2
) A
3
1.15 Aplique la formula demostrada en clase para determinar la probabilidad de la
union de dos eventos a n de,
a) Encontrar una formula para calcular la probabilidad de la union de tres
eventos
b) Generalice la formula hallada en a), por induccion para determinar la prob-
abilidad de la union de n eventos.
1.16 Una tienda de video vende dos marcas diferentes de videograbadoras (VCR),
cada una de las cuales viene con dos o cuatro cabezas. La tabla siguiente indica
los porcentajes de compradores recientes de cada tipo de VCR:
N umero de Cabezas
Marca 2 4
M 25 % 16 %
Q 32 % 27 %
Supongamos que se selecciona al azar un comprador reciente y que se determinan
tanto la marca como el n umero de cabezas.
a) Cuales son los cuatro eventos simples?
b) Cual es la probabilidad de que el comprador seleccionado haya comprado
la marca Q, con dos cabezas?
c) Cual es la probabilidad de que el comprador seleccionado haya comprado
la marca M?
1.16 Pruebe que la terna (, B, P
A
) representa un espacio de probabilidad, siendo
P
A
(B) = P(B/A) =
P(AB)
P(A)
.
1.17 Pruebe que si dos eventos A y B son independientes, entonces tambien lo son
A y B
c
; A
c
y B; A
c
y B
c
; A y ; A y .
1.18 Demuestre formalmente la ley de probabilidad total.
1.19 Demuestre formalmente el Teorema de Bayes.
1.20 1
Captulo 2
Variables aleatorias
2.1. Introduccion
En muchos experimentos resulta mas facil manejarse con una variable resumen que
con la estructura de probabilidad original. Por ejemplo, en una encuesta de opinion,
podramos decidir entrevistar a 50 personas y preguntarles si les agrada o no cierta
cosa. Si usaramos un 1 para el que contesta me agrada
2
un o para el que contesta
me desagrada, el espacio muestral para este experimento tiene 2
50
elementos. Cada
uno de estos elementos es un arreglo de dimension 50, donde cada componente es un 1
o es un 0, debemos ser capaces de reducir esta medida enorme del espacio muestral de
alguna manera razonable. Esto podra hacerse si, por ejemplo, nos interesa solamente
el n umero de personas a quienes les agrada (o equivalentemente, les desagrada) de
entre los 50 entrevistados. Nos podra interesar calcular, por ejemplo, la probabilidad
de que les agrade a la mitad, o a la tercera parte; y as denir la cantidad X =
n umeros de 1s encontrados entre los 50, de esta manera tendramos capturada la
esencia del problema.
Ahora el espacio muestral que recorre X es el conjunto 0, 1, 2, . . . , 50, el cual es
35
mucho mas facil de manejar que el original. Para denir esta cantidad X es necesario
denir una funcion del espacio muestral original, , a un nuevo espacio, usualmente
el conjunto de los n umeros reales. En general se tiene la siguiente
Denicion 2.1.1. Una variable aleatoria es una funcion del espacio muestral en
los n umeros reales.
Ejemplo 2.1.1. En muchos experimentos, variables aleatorias son usadas implcita-
mente. Veamos algunos ejemplos en la siguiente tabla:
Experimentos Variable Aleatoria
Arrojar dos dados X = suma de los n umeros obtenidos
Arrojar una moneda 25 veces X = n umero de caras obtenidas en los 50 tiros
Aplicar diferentes tipos de fertilizantes
a grupos de plantas X = rendimiento por acre
En la denicion de v.a. tenemos denido un nuevo espacio muestral (el rango o recorrido
de la va). Ahora se debe chequear formalmente que nuestra funcion de probabilidad, la cual
esta denida sobre el espacio muestral original, puede ser usada para la v.a.
Supongamos que se tiene el siguiente espacio muestral:
=
1
,
2
, . . . ,
n
con una funcion de probabilidad P, y denimos una v.a. X con un rango en A = x

1
, x
2
, . . . , x
n
.
Deniremos una funcion de probabilidad P
X
sobre A del siguiente modo:
P
X
(X = x
i
) = P(
j
/ X(
j
) = x
i
) (2.1)
Note que la funcion P
X
a la izquierda del igual en (2.1) es una funcion de probabilidad
inducida por A, denida en terminos de la probabilidad original P. La igualdad (2.1) for-
malmente dene una funcion de probabilidad, P
X
, para la v.a. X. Por supuesto que se
debera vericar que P
X
satisface los axiomas de Kolmogorov, lo cual se deja como ejerci-
cio. Como son equivalentes, simplemente (2.1) se escribira como P(X = x
i
) en lugar de
P
X
(X = x
i
)
Notacion Variables aleatorias siempre seran denotadas por letras imprenta may usculas
tales como, X, Y , Z, X
1
, X2, Y
1
, etc; y los valores de su realizacion (o su rango) con su
correspondiente letra min uscula. As, la v.a. X diremos que puede tomar el valor x.
Ejemplo 2.1.2. Consideremos el experimento de arrojar una moneda tres veces. Denimos
la v.a. X = n
o
de caras obtenidas en los tres tiros. Podemos realizar el siguiente cuadro:
X()
CCC 3
CCS 2
CSC 2
SCC 2
CSS 1
SCS 1
SSC 1
SSS 0
El rango de valores de la v.a. X es A = 0, 1, 2, 3. Asumiendo equiprobabilidad, se
tiene P() = 1/8 . De este modo podremos confeccionar la siguiente tabla:
x P
X
(X = x)
0 1/8
1 3/8
2 3/8
3 1/8
Por ejemplo P
X
(X = 1) = P(CSS, SSC, SCS) =
3
8
.
Ejemplo 2.1.3. Sea formado por los 2
50
arreglos de tama no 50 formado por 1s y 0s.
Denimos X = cantidad de 1s obtenidos. Se tiene entonces que A = 0, 1, 2, . . . , 50.
Supongamos que los 2
50
arreglos son igualmente probables. La P(X = 27) puede ser obteni-
da contando todas las cadenas que contienen exactamente 27 1s en el espacio muestral
original. Como cada cadena es igualmente probable, tenemos que
P(X = 27) =
Nro. de cadenas con 27 1s
Nro. total de cadenas
=
_
50
27
_
2
50
.
En general
P
X
(X = i) =
_
50
i
_
2
50
Estos ejemplos anteriores tienen un y un A nito. Tambien A podra ser numerable.
Si A no es numerable, tambien es posible denir la funcion de probabilidad inducida P
X
de
forma similar a la anterior:
Para A A,
P
X
(X A) = P( / X() A).
Esta tambien dene legtimamente una funcion de probabilidad que cumple con los
axiomas de Kolmogorov.
2.2. Funciones de Distribucion
Con toda v.a. X, tenemos asociada una funcion llamada funcion de distribucion
acumulativa de X, dicha tambien f.d.a.
Denicion 2.2.1. La f.d.a. de una v.a. X, denotada por F
X
(x), se dene por:
F
X
(x) = P
X
(X x) x R
Ejemplo 2.2.1. Consideremos el caso de la moneda que se arroja tres veces y se observa
la cantidad de caras obtenidas. Determinemos F
X
(x)
x < 0 = F
X
(x) = P
X
(X x) = 0
0 x < 1 = F
X
(x) = P
X
(X x) = P(X = 0) = 1/8
1 x < 2 = F
X
(x) = P
X
(X x) = P(X = 0) +P(X = 1) = 1/2
2 x < 3 = F
X
(x) = P
X
(X x) = P(X = 0) +P(X = 1) +P(X = 2) = 7/8
x 3 = F
X
(x) = 1
Finalmente, la funcion de distribucion asociada a X es,
F
X
(x) =
_
_
0 si x < 0
1/8 si 0 x < 1
1/2 si 1 x < 2
7/8 si 2 x < 3
1 si x 3
Le proponga al lector que graque esta funcion, obtendra un graco en R
2
con las siguientes
caractersticas:
(a) F
X
(x) esta denida x, no solamente en A. Por ejemplo: F
X
(2,5) = 7/8
(b) Presenta saltos en los valores x
i
A, y la media de los saltos en x
i
es P(X = x
i
).
(c) Es nula para todos los valores de x < 0; y vale 1 para todos los x 3.
(d) A pesar de presentar saltos en los puntos mencionados en (b), o sea discontinuidades, la
funcion alcanza siempre su valor en lo alto del salto, esto se conoce como continuidad
a la derecha. Simbolicamente se tiene:
lm
xx
+
i
F
X
(x) = F
X
(x
i
) si x
i
A
Todas las f.d.a. cumplen ciertas propiedades, algunas de las cuales son obvias, cuando se
piensa que estan denidas en terminos de probabilidad.
Teorema 2.2.1. La funcion F(x) es una f.d.a. s y solo s las siguientes tres condiciones
se cumplen:
(a)
lm
x
F(x) = 0 lm
x
F(x) = 1
(b) F(x) es no decreciente como funcion de x.
(c) F(x) es continua a la derecha, esto es:
lm
xx
+
0
F(x) = F(x
0
) x
0
.
Prueba:
Para probar la condicion necesaria, basta escribir F(x) en terminos de la funcion de prob-
abilidad. Para la suciencia o sea, que si una funcion F satisface las tres condiciones del
teorema entonces es una f.d.a. para una v.a., en mucho mas complicado (no lo haremos),
deberamos establecer que existe un espacio muestral , una funcion de probabilidad P
sobre , y una v.a. X denida sobre , tal que F es la f.d.a. de X.
Ejemplo 2.2.2. Supongamos el experimento que consiste en arrojar una moneda tantas
veces como sea necesario hasta que salga la primera cara. Sea p= probabilidad de obtener
cara en cualquier lanzamiento.
Consideremos X= nro. de lanzamientos hasta que salga la primera cara. Determinar su
f.d.a.
A = 1, 2, 3, . . ., entonces para x = 1, 2, . . . ,
P(X = x) = (1 p)
x1
p ,
ya que debemos encontrar x 1 fallas hasta obtener la siguiente cara, ademas los eventos
ocurren de manera independiente. Para cualquier entero positivo x se tiene,
F
X
(x) = P(X x) =
x
i=1
P(X = i) =
x
i=1
(1 p)
i1
p , x = 1, 2, . . .
recordar que la suma parcial de una serie geometrica es
n
k=1
t
k1
=
1 t
n
1 t
, t ,= 1 (2.2)
Este resultado se puede probar por induccion matematica. Aplicando (2.2) a nuestra prob-
abilidad, encontramos que la f.d.a. de nuestra v.a. X es
F
X
(x) = P(X x)
=
1 (1 p)
x
1 (1 p))
p
= 1 (1 p)
x
, x = 1, 2, . . .
La f.d.a. es una tal que presenta segmentos horizontales entre los enteros no negativos se
sugiere dibujar esta funcion, por ejemplo para p = 0,3.
Es facil mostrar que 0 < p < 1 para que F
X
(x) satisfaga las condiciones del teorema (2.2.1).
lm
x
F
X
(x) = 0, ya que F
X
(x) = 0 x < 0 y
lm
x
F
X
(x) = lm
x
[1 (1 p)
x
] = 1.
Ejemplo 2.2.3. Un ejemplo de una f.d.a. continua es la funcion
F
X
(x) =
1
1 + exp
x
,
la cual satisface las condiciones de teorema (2.2.1).
Por ejemplo,
lm
x
F
X
(x) = 0, ya que lm
x
exp
x
=
y
lm
x
F
X
(x) = 1, ya que lm
x
exp
x
= 0
Si derivamos F
X
(x) una vez, tenemos
d
dx
F
X
(x) =
exp
x
(1 + exp
x
)
2
> 0 ,
mostrando que F
X
es creciente como funcion de x. F
X
no solamente es continua a la derecha.
Sino tambien continua. Este es un caso especial de la llamada distribucion logstica.
Si una f.d.a. es continua o presenta saltos se corresponde con la asociacion de una v.a.
que sea continua o no. En efecto, la asociacion nos conduce a la siguiente denicion,
Denicion 2.2.2. Una v.a. X es continua se F
X
(x) es una funcion continua de x. Una
v.a. X es discreta de F
X
(x) es una funcion dada a trozos con respecto a x.
Necesitamos denir la nocion de cuando dos v.a. son identicamente distribuidas.
Denicion 2.2.3. Se dice que dos v.a. X e Y estan identicamente distribuidas si para
cualquier conjunto A, P(X A) = P(Y B)
Note que dos v.a. que estan identicamente distribuidas no necesariamente son iguales.
Esto es, la denicion ultima anterior no dice que X = Y .
Ejemplo 2.2.4. Consideremos el experimento que consiste en arrojar una moneda tres
veces. Denimos las v.a. X e Y como sigue,
X = n umero de caras obtenidas
Y = n umero de cecas obtenidas
La distribucion de X esta dada en el ejemplo (2.1.2), y se verica facilmente que
la distribucion de Y es exactamente la misma; esto signica que para valores de k =
0, 1, 2, 3 P(X = k) = P(Y = k). As, X e Y estan identicamente distribuidas, sin em-
bargo, no para los mismos puntos se cumple X() = Y (). X ,= Y .
Igual distribucion de v.a., no implica igualdad en las v.a.
Teorema 2.2.2. Las siguientes armaciones son equivalentes:
(a) Las v.a. X e Y estan identicamente distribuidas
(b) F
X
(x) = F
Y
(x) para cada x.
Prueba:
Para mostrar la equivalencia, debemos demostrar que cada armacion implica la otra.
Veamos que (a) =(b).
Ya que X e Y estan identicamente distribuidas, tenemos, para cualquier conjunto A,
P(X A) = P(Y B).
En particular, para el conjunto (, x] se tiene
P(X (, x]) = P(Y (, x]) x.
Pero esta ultima igualdad es equivalente a:
P(X x) = P(Y x) x,
o que F
X
(x) = F
Y
(x) para cada x.
La implicacion inversa, (b) =(a) es mucho mas difcil de probar. Para mostrarla se requiere
usar una batera pesada de - algebras de Borel. No entraremos aqu en mas detalles. Es
suciente saber (de acuerdo con el nivel de estas notas) que eso es necesario para probar
que las dos funciones de probabilidad coincidan sobre todos los intervalos (Por ejemplo para
mas detalles ver Chung,1977).
2.2.1. Densidad y Funciones de masa
Asociada con una v.a.X y su f.d.a. F
X
(x) existe otra funcion, llamada seg un corresponda:
funcion de densidad de probabilidad (f.d.p.) o funcion de masa de probabilidad (f.m.p.).
Los terminos (f.d.p.) y (f.m.p.) se reeren, respectivamente, a los casos continua y discreto.
Ambas funciones esta relacionadas con probabilidades puntuales de v.a.
Denicion 2.2.4. Una funcion de masa de probabilidad, f.m.p., de una v.a. discreta esta da-
da por:
f
X
(x) = P(X = x) , x.
Ejemplo 2.2.5. Para la distribucion geometrica del ejemplo (2.2.2) tenemos la f.m.p.,
f
X
(x) = P(X = x) =
_
_
_
(1 p)
x1
p si x = 1, 2, . . .
0 en otro caso
Recordar que f
X
(x) o equivalentemente P(X = x) es la medida del salto de la f.d.a. en
x. Se puede usar la f.m.p. en un punto para calcular probabilidades; necesitamos solamente
sumar sobre todos los puntos de un evento en forma apropiada.
Por lo tanto, para enteros positivos a y b, con a b, nosotros tenemos,
P(a X b) =
b
k=a
f
X
(k) =
b
k=a
(1 p)
k1
p.
As, se puede conseguir con esto un caso especial
P(X b) =
b
k=1
f
X
(k) = F
X
(b).
Una convencion ampliamente aceptada, la cual tambien nosotros adoptaremos, es la de
anotar con letras imprentas may usculas las f.d.a.s; y con la correspondiente min uscula la
f.m.p. o la f.d.p. respectiva.
Debemos tener un poco mas de cuidado en nuestra denicion de f.d.p. en el caso continuo.
Si ingenuamente tratamos de probar calcular P(X = x) para v.a. continuas, conseguiremos
lo siguiente: ya que X = x x < X x para cualquier > 0, nosotros tendremos
a partir del teorema (1.2.1) parte f. que,
P(X = x) P(x < X x) = F
X
(x) F
X
(x ),
para cualquier > 0. Por lo tanto,
0 P(X = x) lm
x
+
[F
X
(x) F
X
(x )] = 0,
por la continuidad de F
X
. Sin embargo, si nosotros comprendemos el proposito de la f.d.p.,
su denicion sera clara.
Denicion 2.2.5. La funcion de densidad de probabilidad o f.d.p., f
X
(x), de una v.a.
continua X es la funcion que satisface:
F
X
(x) =
_
x
f
X
(x) dt para todo x. (2.3)
Una nota sobre notacion: La expresion X tiene una distribucion dada por F
X
(x)se
abrevia simbolicamente por X F
X
(x), donde leemos el smbolo como esta distribui-
do como. Tambien podremos en forma similar escribir X f
X
(x) o, si X e Y tienen la
misma distribucion, X Y .
En el caso de v.a. continuas no necesitamos ser cuidadosos en la especicacion de incluir
o no los extremos de los intervalos para el calculo de probabilidades. Como P(X = x) = 0
si X es una v.a. continua,
P(a < X < b) = P(a < X b) = P(a X < b) = P(a X b).
En este punto, ya debe estar claro que la f.d.p. (o p.m.f.) contienen la misma informacion
que la f.d.a. Seg un sea el caso se puede ocupar una u otra para resolver problemas, de
acuerdo si facilita o no su resolucion.
Ejemplo 2.2.6. Para la distribucion logstica dada en el ejemplo anterior. Se pide, deter-
minar su f.d.p. y determinar una metodologa para calcular la P(a < X < b)
Deberemos derivar la f.d.a con respecto a X para determinar la f.d.p., en efecto
f
x
(x) =
d
dx
F
X
(x) =
exp
x
(1 + exp
x
)
2
.
El area bajo la curva f
x
(x) dado un intervalo de probabilidad (ver Figura 2.1) es:
Figura 2.1: Area bajo la curva logistica
P(X [a, b]) = F
X
(b) F
X
(a) =
_
b
f
X
(x) dx
_
a
f
X
(x) dx =
_
b
a
f
X
(x) dx.
Solamente existen dos requerimientos para una f.d.p. (o f.m.p.), los cuales son inmediatas
consecuencias de la denicion.
Teorema 2.2.3. Una funcion f
X
(x) es una f.d.p. (o una f.m.p.) de una variable aleatoria
X si y solo s
(a) f
X
(x) 0 x.
(b)

x
f
X
(x) = 1 (f.m.p.) o
_
+
f
X
(x) dx = 1 (f.d.p.).
Prueba:
Si f
X
(x) es una f.d.p. (o una f.m.p.), las dos propiedades son inmediatas de las deniciones.
En particular, usando (2.4) y el Teorema 2.2.1, se tiene que ,
1 = lm
x
F
X
(x) =
_
+
f
X
(t) dt.
La implicacion inversa, es tambien muy facil de probar. Una vez que se tiene f
X
(x) podemos
denir F
X
(x) y recurrir al Teorema 2.2.1.
Ejemplo 2.2.7. Se lanzan dos dados de manera independiente. Sea X
1
y X
2
el pun-
taje obtenido en el lanzamiento del primer dado y segundo respectivamente. Sea X =
maxX
1
, X
2
. Determinar la f.m.p y la f.d.a. de la v.a. X
X x maxX
1
, X
2
x X
1
x X
2
x.
La ultima igualdad se deduce de la denicion de maximo!.
X x es equivalente a,
X
1
x X
2
x.
Al estar suponiendo que los dados se lanzan de manera independiente, resulta que
P(X x) = P[X
1
x X
2
x]
= P(X
1
x) P(X
2
x).
Si suponemos que los dados son equilibrados , se tiene que
P(X
1
= l) = P(X
2
= l) =
1
6
con l = 1, . . . , 6.
Luego,
P(X
i
x) =
x
l=1
P(X
i
= l) =
x
6
x = 1, 2, . . . , 6, i = 1, 2.
Finalmente,
P(X x) =
x
2
36
, x = 1, . . . , 6.
Siendo esta su f.d.a.. Pero
P(X = x) = P(X x) P(X x 1
=
x
2
36

(x 1)
2
36
=
2x 1
6
, x = 1, . . . , 6.
Siendo esta su f.m.p
Que ocurre si lanzamos ahora innitamente el dado en forma independiente?
Si razonamos como en la parte ultima anterior del ejemplo, sea S
i
el puntaje obtenido
en el i-esimo lanzamiento, i=1,. . . ,k.
Nos interesa la v.a. Y = el puntaje maximo obtenido:
Y = max S
1
, S
2
, . . . ,
k
.
Por denicion del maximo, Y y es equivalente a,
S
1
y S
2
y . . . S
k
y.
Luego, usando la independencia de los lanzamientos, se obtiene que
P(Y y) =
k
i=1
P(S
i
y) =
_
y
6
_
k
, y = 1, . . . , 6.
Finalmente, para y = 1, 2, . . . , 6,
P(Y = y) = P(Y y) P(Y y 1) =
1
6
k
[y
k
(y 1)
k
].
Calcular la probabilidad de que el maximo valor ledo sea un valor y en innitos lanzamien-
tos, corresponde a tomar
lm
k
P(Y = y).
Para calcular este lmite, debe notar que la f.m.p. de Y se puede escribir de manera equiv-
alente como
P(Y = y) =
y
k
6
k
_
1
_
y 1
y
_
k
_
.
Al tomar lmite se obtiene:
lm
k
P(Y y) =
_
_
_
0 si y < 6
1 si y = 6
Esto signica que en un n umero innito de lanzamientos, la probabilidad de obtener un
puntaje maximo entre 1 y 5 es cero, mientras que la probabilidad de obtener un puntaje
igual a 6 es uno!!!.
Ejemplo 2.2.8. Probar que la funcion dada por
f
X
(x) =
1
2
exp
x
2
/2
. (2.4)
es una funcion de densidad de probabilidad
En efecto, obviamente f
X
(x) > 0. Para vericar que es una densidad, falta comprobar
que
_
f
X
(x) dx = 1.
Sea a =
_
e
x
2
/2
dx. Deberemos probar que a
2
= 2. Para lo cual, notar que
a
2
=
_

e
x
2
/2
dx
_

e
y
2
/2
dy =
_

e
(x
2
+y
2
)/2
dxdy;
y tomando, en la integral doble, coordenadas polares (r, ) queda
a
2
=
_
2
0
d
_

0
e
r
2
/2
r dr = 2.
Esta densidad se dene como la densidad normal tpica (o estandar), y se la anota con la
letra griega , de donde en adelante siempre que veamos (x), nos estamos reriendo a la
densidad de una v.a. con distribucion Normal estandar, denida por (2.4).
Ejemplo 2.2.9. Supongase que la v.a. X es continua, y se tiene la funcion dada por
f(x) =
_
_
_
kx si 0 < x < 1
0 en otro caso
Se pide: a)Hallar k para que sea una f.d.p. para la v.a. X; b)Determine la f.d.a.
Nota f
X
(x) no representa la probabilidad de nada!. Hemos observado que, por ejemplo
P(X = 0,5) = 0, y por lo tanto f
X
(0,5) no la representa. Solo cuando la funcion se integra
entre dos lmites produce una probabilidad. Sin embargo, es posible dar una interpretacion
de xf
X
(x) del siguiente modo. Del teorema del valor medio del calculo integral se deduce
que
P(x X x +x) =
_
x+x
x
f
X
(s) ds = xf
X
() , x x +x.
Si x es peque no, xf
X
(x) es aproximadamente igual a P(x X x + x). Si f
X
es
continuo por la derecha, esta llega a ser mas segura cuando x 0.
2.3. Transformaciones y Esperanzas
A menudo, si nosotros somos capaces de modelar un fenomeno en terminos de la va X
con una F
X
(x), tambien tendremos la relacion con la conducta de funciones de X. En esta
seccion estudiaremos tecnicas que nos permitiran ganar informacion acerca de funciones de
X que podran ser de interes, que puede ir desde ser completa (las distribuciones de esas
funciones) a muy vaga (la conducta del promedio).
2.3.1. Distribuciones de funciones de una Variable Aleatoria
Si X es una v.a. con fda F
X
(x), entonces cualquier funcion de X, digamos g(X), es
tambien una v.a.. A menudo g(X) es de interes en s misma y escribiremos Y = g(X) para
denotar nuestra v.a. g(X). Ya que Y es una funcion de X, nosotros podemos describir su
conducta probabilstica, en terminos de la de X. Esto es, para cualquier conjunto A,
P(Y A) = P(g(X) A) ,
esto muestra que la distribucion de Y depende de las funciones F
X
y g. Dependiendo de
la eleccion de g, es algunas veces posible obtener una expresion tratable para el calculo de
esta probabilidad.
Formalmente, si nosotros escribimos y = g(x), la funcion g(x) dene una mapeo del espacio
muestral de X, A, a un nuevo espacio muestral, , el espacio muestral de la v.a. Y . Esto
es,
g(x) : A .
Es posible asociar con g un mapeo inverso, denotado por g
1
, el cual es un mapeo prove-
niente de subconjuntos de a subconjuntos de A, y esta denido por
g
1
(A) = x A : g(x) A.
Note que el mapeo g
1
esta denido de conjuntos en conjuntos, esto es, g
1
(A) es el conjunto
de los puntos en A tal que g(x) va a parar dentro de A. Es posible que A sea un conjunto
formado por un solo punto, digamos A = y. Entonces
g
1
(y) = x A : g(x) = y.
En este caso casi siempre se escribe g
1
(y) en lugar de g
1
(y). Sin embargo, la cantidad
g
1
(y) puede a un ser un conjunto, si hay mas de un x para el cual g(x) = y. Si hay
solamente un valor de x para el cual g(x) = y, entonces g
1
(y) en el conjunto unitario x,
y escribiremos g
1
(y) = x.
Si la v.a. Y esta denida por Y = g(X), es posible escribir para cualquier conjunto A ,
P(Y A) = P(g(X) A)
= = P(x A : g(x) A) (2.5)
= P(X g
1
(A)).
Esta dene la distribucion de probabilidades de Y . Sera justo mostrar que esta distribucion
de probabilidad satisface los Axiomas de Kolmogorov.
Si X es una v.a. discreta, entonces A es numerable. El espacio muestral para Y = g(X) es
= y : y = g(x), x A, el cual tambien es un conjunto numerable; con lo cual Y es una
v.a discreta. Usando (2.5), la fmp de Y es
f
Y
(y) = P(Y = y) =
xg
1
(y)
P(X = x) =
xg
1
(y)
f
X
(x), para y ,
y f
Y
(y) = 0 para y / . En este caso para encontrar la fmp de Y solo es necesario identicar
g
1
(y), para cada y y sumar apropiadamente las probabilidades.
Ejemplo 2.3.1. Una va. discreta X tiene una distribucion binomial si su fmp es de la
forma
f
X
(x) = P(X = x) =
_
n
x
_
p
x
(1 p)
nx
, x = 0, 1, . . . , n,
donde n es un entero positivo y 0 p 1. Encontrar la fmp de Y = g(X), siendo g(x) =
n x
Valores como n y p que al tomar diferentes valores producen diferentes funciones de
probabilidad, se llaman parametros de la distribucion. Consideremos la va. Y = g(X),
donde g(x) = nx. Esto es Y = nX. Aqu A = 0, 1, 2, , n y = y : y = g(x), x
A = 0, 1, 2, , n. Para cualquier y , n x = g(x) = y s y solo si x = n y. As,
g
1
(y) es entonces simplemente el punto x = n y, y
f
Y
(y) =
xg
1
(y)
f
X
(x)
= f
X
(n y)
=
_
n
n y
_
p
ny
(1 p)
n(ny)
=
_
n
y
_
(1 p)
y
p
ny
Vemos que tambien Y es una va. con distribucion binomial, pero con parametros n y
(1 p).
Si tanto X como Y son va. continuas, es posible en muchos casos encontrar formulas
simples para la fda de Y en terminos de la fda de X y la funcion g. Consideremos algunos
de estos casos.
La fda de Y = g(X) es
F
Y
(y) = P(Y y)
= P(g(X) y)
= P(x A : g(x) y) (2.6)
=
_
{xX: g(x)y}
f
X
(x) dx.
Muchas veces resulta difcil identicar x A : g(x) y y resolver la integral de f
X
(x)
bajo esa region.
Cuando hacemos transformaciones, es importante mantener presente los espacios mues-
trales donde se mueven las va.; en otro caso pueden presentarse muchas confusiones. Cuando
hacemos una transformacion de X a Y = g(X), lo mas conveniente es usar,
A = x : f
X
(x) > 0 y = y : y = g(x) para alg un x A. (2.7)
La fdp de la va. X es positiva solamente sobre el conjunto A y cero en otro caso. Tal con-
junto es llamado el conjunto soporte de una distribucion, mas informalmente el soporte de
la distribucion. Este terminologa puede tambien aplicarse para una fmp o, en general, para
una funcion no negativa.
Es mucho mas facil tratar con aquellas g(x) que son monotonas, esto es aquellas que
satisfacen
a. u > v = g(u) > g(v) (crecientes) o
b. u < v = g(u) > g(v) (decrecientes)
Si la transformacion x g(x) es monotona, entonces esta es (1-1) de A . Tambien
para denida como en (2.7), para cada y , existe un x A tal que g(x) = y. As la
transformacion g unvocamente manda xs en ys. Si g es monotona, g
1
es univaluada,
esto es g
1
(y) = x s y solo s y = g(x). Si g es creciente, esto implica que
x A : g(x) y = x A : g
1
(g(x)) g
1
(y)
= x A : x g
1
(y).
Mientras que si g es decreciente, esto implica que
x A : g(x) y = x A : g
1
(g(x)) g
1
(y)
= x A : x g
1
(y).
Si g(x) es una funcion creciente, entonces usando (2.6), podemos escribir
F
Y
(y) =
_
{xX: xg
1
(y)}
f
X
(x) dx
=
_
g
1
(y)
f
X
(x) dx
= F
X
(g
1
(y)).
Si g(x) es decreciente, se tiene,
F
Y
(y) =
_
g
1
(y)
f
X
(x) dx
= 1 F
X
(g
1
(y)). (aqu fue usada la continuidad de X)
Resumimos estos resultados en el siguiente teorema
Teorema 2.3.1. Supongamos que X tiene una fda F
X
(x), sea Y = g(X), A e denidos
como en (2.7).
a. Si g es una funcion creciente sobre A, F
Y
(y) = F
X
(g
1
(y)) para y .
b. Si g es una funcion decreciente sobre A y X es una v.a. continua,
F
Y
(y) = 1 F
X
(g
1
(y)) para y .
Ejemplo 2.3.2. Sea X f
X
(x) = 1.I(0 < x < 1), de donde se tiene X U(0, 1). Es-
to ultimo se lee X con distribucion uniforme en el intervalo (0,1). Se pide determinar
F
X
(x), F
Y
(y), f
Y
(y) si Y = g(X) = logX.
Se aconseja siempre vericar que, en este caso la f
X
es una densidad.
Determinacion de F
X
:
F
X
(x) =
_
x
f
X
(t) dt para todo x R, por denicion,
i. Si x < 0 = f
X
(x) = 0 =F
X
(x) =
_
x
0 dt = 0.
ii. Si 0 < x < 1 = f
X
(x) = 1 =F
X
(x) =
_
0
0 dt +
_
x
0
1 dt = 0 + t
_
x
0
= x.
iii Si x 1 = f
X
(x) = 0 =F
X
(x) =
_
0
0 dt +
_
1
0
1 dt +
_
x
1
0 dt = 0 + t
_
1
0
+ 0 = 1.
De donde se tiene,
F
X
(x) =
_
_
0 si x < 0
x si 0 < x < 1
1 si x 1
Determinacion de F
Y
:
Veamos si g(x) es monotona en el soporte de X, A.
d
dx
g(x) =
1
x
< 0 , para x (0, 1) = A,
de donde g(x) resulta ser una funcion decreciente. Veamos cual es el soporte de Y . denido
como en (2.7), resulta ser = (0, ). Queda calcular la g
1
(y) para y = (0, ); la
cual resulta de y = g(x) = logx = y = logx = x = e
y
= g
1
(y).
Finalmente, aplicando el teorema 2.3.1 parte b), resulta
F
Y
(y) = 1 F
X
(g
1
(y)) = 1 F
X
(e
y
) = 1 e
y
, y = (0, )
Para determinar f
Y
(y) queda diferenciar la fda de Y , as
f
Y
(y) =
d
dy
F
Y
(y) = e
y
(y > 0)
La fdp y la fda de Y respectivamente son:
f
Y
(y) = e
y
I(0, ) , F
Y
(y) =
_
_
_
0 si y 0
1 e
y
si y > 0
Este resultado arma que si: X U(0, 1) =Y = logX Exp(1).
Si la fdp de Y es continua, puede ser obtenida derivando su fda. La expresion resultante
esta dada por el siguiente teorema
Teorema 2.3.2. Supongamos X v.a. con una fdp f
X
(x). Sea Y = g(X), donde g es
monotona una transformacion de X; A e son respectivamente sus soportes. Suponga
ademas que f
X
(x) es continua sobre A, y que g
1
(y) tiene una derivada continua sobre .
Entonces la fdp de Y esta dada por:
f
Y
(y) =
_
_
_
f
X
(g
1
(y)) [
d
dy
g
1
(y)) [ si y
0 e.o.c.
(2.8)
Demostracion: Aplicando al teorema ultimo la regla de la cadena, se tiene
f
Y
(y) =
d
dy
F
Y
(y) =
d
dy
F
X
(g
1
(y)) = f
X
(g
1
(y))
d
dy
g
1
(y) g creciente
f
Y
(y) =
d
dy
F
Y
(y) =
d
dy
(1 F
X
(g
1
(y)) = f
X
(g
1
(y))
d
dy
g
1
(y) g decreciente
La cual puede ser expresada en forma consisa como en (2.8).
Ejemplo 2.3.3. Ses f
X
(x) la fdp de una va. gamma, entonces esta tiene la forma,
f
X
(x) =
1
(n 1)!
n
x
n1
e
x/
I(0, )
representa una constante positiva, n entero positivo. Se quiere encontrar la fdp de Y =
g(X) = 1/X .
En muchas aplicaciones resulta que la g no es ni creciente ni decreciente, de donde el
resultado ultimo no puede ser aplicado. Sin embargo, se da a menudo el caso en que g es
monotona sobre ciertos intervalos.
Ejemplo 2.3.4. Supongamos X va. continua. Determinar fda y fdp para Y = X
2
.
En este ejemplo resultara que fdp de Y esta expresada como la suma de dos terminos,
donde cada uno de ellos representa el intervalo donde g(x) = x
2
es monotona. En general
este sera el caso, dado en el siguiente problema.
Teorema 2.3.3. Supongamos X tiene una fdp f
X
(x), Y = g(X), y se dene el so-
porte de X, A. Supongamos que existe una particion A
0
, A
1
, . . . , A
k
de A, tal que P(X
A
0
) = 0 y f
X
(x) es continua sobre cada A
i
. Ademas, supongase que existen funciones
g
1
(x), g
2
(x), . . . , g
k
(x), denidas sobre A
1
, . . . , A
k
respectivamente, satisfaciendo:
(a) g(x) = g
i
(x) , para x A
i
(b) g
i
(x) es monotona sobre A
i
(c) El conjunto = y : y = g
i
(x) , para alg unx A
i
es el mismo para cada i = 1, . . . , k y
(d) g
1
(y) tiene derivada continua en , para cada i = 1, . . . , k, entonces
f
Y
(y) =
_
_
_
k
i=0
f
X
(g
1
(y)) [
d
dy
g
1
(y)) [ si y
0 e.o.c.
El punto mas importante en este teorema es que A puede ser divididos en conjuntos
A
1
, . . . , A
k
, tal que g(x) sea monotona sobre cada A
i
. Es posible ignorar el conjunto excep-
cional A
0
, ya que P(X A
0
) = 0. Esta es una tecnica que puede ser usada para manejar
los extremos de intervalo. Es importante notar que cada g
i
(x) es una transformacion 1 1
de A
i
en .
Ejemplo 2.3.5. Sea X una va. con la distribucion Normal estandar, entonces
f
X
(x) =
1
2
exp
x
2
/2
I(, )
Sea Y = X
2
. Halle f
Y
(y)
La fdp de Y la encontraremos a menudo, y se denomina va. chi cuadrado con un grado
de libertad. Cerramos esta seccion con una especial y muy conocida transformacion, la
transformacion de probabilidad integral.
Teorema 2.3.4. Consideremos X va. continua con fda F
X
(x) y se dene la va. Y = F
X
(x).
Entonces Y U(0, 1), tal que P(Y y) = y; 0 < y < 1.
Antes de demostrarlo, daremos una mirada a F
1
X
, la inversa de la fda con alg un detalle.
Si F
X
es estrictamente creciente, entonces F
1
X
esta bien denida como
F
1
X
(y) = x F
X
(x) = y (2.9)
Sin embargo, si la fda llega a ser constante en alg un intervalo, entonces su inversa no esta bi-
en denida por (2.10).
Cualquier x [x
1
, x
2
], por ejemplo (intervalo donde la F
X
(x) es constante), satisface
F
X
(x) = y. Este problema se soluciona, deniendo F
1
X
(y), para 0 < y < 1, del siguiente
modo,
F
1
X
(y) = infx : F
X
(x) y, (2.10)
esta denicion coincide con de F
1
X
(y) cuando F
X
(x) = y no es constante, pero provee una
F
1
X
siempre univariada
Dem. del teorema:
Para Y = F
X
(X) = g(X); = (0, 1).
P(Y y) = P(F
X
(X) y)
= P(F
1
X
(F
X
(X)) F
1
X
(y)) (F
1
X
creciente)
= P(X F
1
X
(y))
= F
X
(F
1
X
(y)) (denicion de F
X
)
= y (continuidad de F
X
)
En los puntos extremos se tiene P(Y y) = 1 para y 1, y P(Y y) = 0 para y 1,
mostrando as que Y U(0, 1)
Como se razono detras de la igualdad
P(F
1
X
(F
X
(X)) F
1
X
(y)) = P(X F
1
X
(y))?
esta requiere una particular atencion. Si F
X
es estrictamente creciente, entonces es ver-
dad que F
1
X
(F
X
(X)) = X. Sin embargo, si F
X
presenta alg un escalon, puede suceder que
F
1
X
(F
X
(X)) ,= X, pero eso se salva ocupando la denicion para F
1
X
con en (2.10).
Una aplicacion de este teorema esta en la generacion de muestras aleatorias provenientes
de una distribucion particular. Si se quiere generar una observacion x proveniente de una
poblacion con fda F
X
, necesitamos generar solamente el n umero aleatorio uniforme u entre
0 y 1, y resolver para x la ecuacion F
X
(x) = u.
2.4. Valores Esperados
El valor esperado o esperanza de una v.a. X es, su valor promedio. Aqu hablamos de
valor promedio como de tal pensado de acuerdo con la distribucion de probabilidad.
El valor esperado de una distribucion, tambien puede ser pensado como una medida de
centralizacion, del mismo modo como se piensan los promedios estando en el medio de todos
los valores. Cuando nos referimos a los valores de la la va. de acuerdo con la distribucion
de probabilidad, queremos obtener un n umero que resuma un valor tpico o esperado de las
observaciones de la v.a.
Examinemos el siguiente ejemplo,
Considere seleccionar al azar a un estudiante que esta entre 15000 registrados para el
perodo academico de una Universidad. Sea X = cantidad de cursos en los que el estudiante
seleccionado se inscribe; supongamos que X tiene la siguiente fmp,
x 1 2 3 4 5 6 7
f
X
(x) 0.01 0.03 0.13 0.25 0.39 0.17 0.02
Podemos considerar a la poblacion como aquella formada por 15000 personas, cada
una con su propio valor de X (seg un la cantidad de materias en las que inscribio en ese
a no academico); la proporcion con cada valor X esta dada por f
X
(x) de la tabla. Por
ejemplo podramos interpretar el valor f
X
(1) = P(X = 1) = 0,01, como que 1 de cada 100
estudiantes se inscribio en una sola materia; o sea que 150 del total de 15000 se inscribieron
en una sola materia. Analogamente, f
X
(2) = P(X = 2) = 0,03, como que 3 de cada 100
estudiantes se inscribio en dos materias; o sea que 450 del total de 15000 se inscribieron en
dos materias; y as siguiendo, se genera la tabla (2.4)
x 1 2 3 4 5 6 7
f
X
(x) 0.01 0.03 0.13 0.25 0.39 0.17 0.02
N
o
registrado 150 450 1950 3750 5850 2550 300
Finalmente, puede ser posible olvidarse de los estudiantes y considerar a la poblacion misma
como formada por los valores X.
Una vez que tengamos un modelo matematico para una poblacion, el objetivo sera uti-
lizarlo para calcular valores caractersticos de esa poblacion (como por ejemplo la media )
y hacer inferencias a partir de tales caractersticas.
Si se quisiera determinar el n umero promedio de cursos por estudiante, o el valor prome-
dio de X de la poblacion, debemos calcular el n umero total de cursos y dividir entre el
n umero total de estudiantes. El valor promedio de X de la poblacion es entonces,
1(150) + 2(450) + 3(1950) + + 7(300)
15000
= 4,57, (2.11)
como
150
15000
= 0,01 = f
X
(1);
450
15000
= 0,03 = f
X
(2); . . . , etc., otra expresion para el cociente
(2.11) es:
1 f
X
(1) + 2 f
X
(2) + 3 f
X
(3) + + 7 f
X
(7) (2.12)
Esta expresion (2.13) muestra que para calcular el valor promedio de X de la poblacion,
solo necesitamos sus valores posibles junto con sus probabilidades (pesos= proporciones).
El valor promedio, o la media de X es entonces un promedio ponderado de los posibles
valores 1, 2, . . . , 7, donde los pesos son la probabilidades de esos valores.
La expresion (2.13), nos conduce la siguiente denicion de valor esperado o media de una
poblacion.
Denicion 2.4.1. El valor esperado o media de una va. g(X), denotado por E g(X), es
E g(X) =
_
_
_
_
g(x) f
X
(x) dx si X es continua
xX
g(x) f
X
(x) =
xX
g(x) P(X = x)) si X es discreta
Suponiendo que la integral o suma existen. Si E [ g(X) [= diremos que E g(X) no
existe.
Ejemplo 2.4.1. Supongamos que X tiene una distribucion exponencial , es decir su fdp
es,
f
X
(x) =
1
e
x/
I(0 x < ) > 0
Se pide encontrar E X
Rta. E X =
Ejemplo 2.4.2. Si X tiene una distribucion binomial con parametros n y p, entonces su
fmp es,
P(X = x) =
_
n
x
_
p
x
(1 p)
nx
, x = 0, 1, . . . , n
donde n es un entero positivo, 0 p 1, y para cada par de valores jos n y p, la fmp
suma 1. Determine el valor esperado de X.
Rta.: E X = np
Ejemplo 2.4.3. Un ejemplo clasico de una variable aleatoria cuyo valor esperado no existe
es la variable aleatoria Cauchy, cuya fdp es,
f
X
(x) =
1
1
1 +x
2
, x .
Mostrar, entonces que E [ g(X) [= .
El proceso de tomar esperanza es una operacion lineal, lo cual signica que la esperanza
es una funcion lineal de X, la cual entonces puede ser facilmente evaluada, notando que
para cualquier par de valores a y b,
E (aX +b) = aE X +b.
El operador esperanza, en efecto, tiene muchas propiedades que pueden ser de ayuda para
calcularla. La mayora de tales propiedades se derivan de las propiedades de la integral o la
suma, y son resumidas en el siguiente teorema:
Teorema 2.4.1. Consideremos X una va.; a, b, c constantes. Entonces para cualquier g
1
(X), g
2
(X),
funciones de la va. X, cuyas esperanzas existen, se cumple:
(a) E (ag
1
(X) +bg
2
(X) +c) = aE (g
1
(X)) +bE (g
2
(X)) +c.
(b) Si g
1
(x) 0, x = E (g
1
(X)) 0.
(c) Si g
1
(x) g
2
(x), x = E (g
1
(X)) E (g
2
(X)).
(d) Si a g
1
(x) b, x = a E (g
1
(X)) b.
Ejemplo 2.4.4. Tambien es posible interpretar el valor esperado de una va., pesandola con
relacion a considerarla como un buen aciertopara el valor de X.
Supongamos que medimos la distancia entre una va. X y una constante b mediante la
forma (X b)
2
, o sea buscamos el valor de b mas cercano a X. Podemos as, determinar el
valor de b que minimiza E(X b)
2
y, por lo tanto esto podra interpretarse en terminos
estadsticos como la b usqueda de un buen predictor de X. (Note que no es bueno mirar un
valor de b que minimice (X b)
2
, ya que la respuesta podra depender de X, siendo as un
predictor in util de X).
Podramos proceder a minimizar E(X b)
2
ocupando las herramientas que nos provee el
calculo, pero hay un metodo mas simple, usando la creencia que existe algo especial en
relacion con este problema y la E X, as escribimos
E(X b)
2
= E(X E X +E X b)
2
= E((X E X) + (E X b))
2
= E(X E X)
2
+ (E X b)
2
+ 2E((X E X)(E X b)),
en esta ultima igualdad hemos expandido el cuadrado. Ahora note que
E((X E X)(E X b)) = (E X b)E(X E X) = 0
ya que (E X b) es constante sale fuera de la expresion, y E(X E X) = E X E X = 0.
Esto signica que
E(X b)
2
= E(X E X)
2
+ (E X b)
2
. (2.13)
No tenemos control sobre el primer termino del lado derecho en la igualdad (2.13) y el
segundo termino, es siempre positivo, o a lo sumo 0, puede hacerse 0 eligiendo b = E X.
Por lo tanto,
mn
b
E(X b)
2
= E(X E X)
2
(2.14)
Existe un resultado similar para la mediana.
Cada vez que evaluemos la esperanza de una funcion no lineal de X, podemos proceder de
dos maneras diferentes. De la denicion de E g(X), sera posible calcular directamente
E g(X) =
_

g(x)f
X
(x) dx. (2.15)
Pero tambien podramos primero encontrar la fdp f
Y
(y) para la va. Y = g(X), y luego
calcular
E g(X) = E Y =
_

y f
Y
(y) dy. (2.16)
Ejemplo 2.4.5. Sea X U(0, 1), Y = g(X) = log X. Mostraremos que la E Y calculada
de las formas mencionadas en (2.15) y (2.16) da el mismo resultado.
2.5. Momentos y Funciones Generadoras de Mo-
mentos
Los distintos momentos de una distribucion son una importante clase de esperanzas.
Denicion 2.5.1. Para cada entero n, el n-esimo momento de X (o de F
X
(x)), notado
n
, es
n
= E X
n
.
El n-esimo momento central de X, es
n
= E (X )
n
,
donde =
= E X
Ademas de la media, E X, de una va., quiza el momento mas importante es el central
de segundo orden, mas com unmente conocido como la varianza.
Denicion 2.5.2. La varianza de una va. X es el segundo momento central de X, V ar X =
E(X E X)
2
. La raz cuadrada positiva de la V ar X se denomina desviacion estandar de
X.
La varianza de una medida del grado de diseminacion de una distribucion alrededor de
la media. Vimos en el Ejemplo 2.4.4 que la cantidad E(Xb)
2
es minimizada eligiendo b =
E X. Consideremos ahora la medida absoluta de este mnimo. La interpretacion agregada
a la varianza es que valores grandes de la misma, signican que X es muy variable. En
el extremo, si V ar X = E(X E X)
2
= 0, entonces X = E X con probabilidad 1, y no
existe variacion en X. La desviacion estandar tiene la misma interpretacion cualitativa:
peque nos valores de la misma signican que X esta probablemente muy cerca de E X, y
grandes valores signica que X es muy variable. La desviacion estandar es mas facil para
interpretar, pues su unidad de medida es la misma que la de los datos originales en la va.
X.
Ejemplo 2.5.1. Supongamos X Exp(). Hemos calculado ya E X = . Se propone
ahora calcular V ar X.
Rta.: V ar X =
2
Vemos que la varianza de una distribucion exponencial esta directamente relacionada
con el parametro . Es posible dibujar distintas distribuciones exponenciales, cambiando
los valores de . De esta manera sera posible notar como la distribucion esta mas concentrada
alrededor de su media para valores peque nos de . El comportamiento de la varianza de
una va. exponencial, como una funcion de , es una caso especial del comportamiento de la
varianza resumido en el siguiente teorema,
Teorema 2.5.1. Si X es una va. con varianza nita, entonces para cualquier par de con-
stantes a, b se cumple,
V ar(aX +b) = a
2
V ar X.
En muchos casos es mas facil usar una formula alternativa para la varianza, dada por,
V ar X = E X
2
(E X)
2
, (2.17)
la cual es muy facil de demostrar.
Ejemplo 2.5.2. Supongamos que X Bib(n, p). Hemos probado que E X = np. Se pide
ahora calcular V ar X.
Rta.: V ar X = np(1 p)
Para calcular momentos de orden mas alto se procede de manera analoga. En aplica-
ciones, momentos de orden 3 o 4 algunas veces resultan de interes, pero usualmente existen
razones estadsticas para examinar momentos de orden mas algo que 2.
Ahora introduciremos una nueva funcion, la cual esta asociada con distribuciones de
probabilidad, la funcion generadora de momentos (fgm). Como su nombre lo sugiere, la fgm
puede ser usada para generar momentos. En la practica es mas facil en muchos casos calcular
momentos directamente en vez de usar fgm. Sin embargo, el principal uso de la fgm no es el
de generar momentos, sino ayudar para caracterizar una distribucion. Esta propiedad nos
puede llevar a resultado extremadamente poderosos, cuando es usada adecuadamente.
Denicion 2.5.3. Sea X una va. con fda. F
X
. La funcion generadora de momentos (fgm)
de X(o F
X
) , denotada por M
X
(t) ,es
M
X
(t) = E e
t X
,
suponiendo que la esperanza exista para valores de t en alg un entorno del 0. Esto es, existe
un h > 0 tal que, para todo t (h, h) E e
t X
existe. Si tal esperanza no existe en un
entorno del 0, nosotros diremos que la fgm no existe.
Mas explcitamente, podemos escribir la fgm de X como
M
X
(t) =
_
e
t x
f
X
(x) dx Si X es continua
M
X
(t) =
xX
e
t x
f
X
(x) Si X es discreta
Es muy facil ver de que manera una fgm genera momentos. Se resume el siguiente teorema,
Teorema 2.5.2. Si X tiene fgm M
X
(t), entonces
E X
n
= M
(n)
X
(0),
donde se dene
M
(n)
X
(0) =
d
n
dt
n
M
X
(t)[
t=0
.
Es decir el n-esimo momento de la va. X es igual a la n-esima derivada de la fgm de X
evaluada en t = 0
Del teorema ultimo anterior es facil mostrar que,
d
dt
M
X
(t)[
t=0
= E X e
t X
[
t=0
= E X.
Ejemplo 2.5.3. En el Ejemplo 2.3.3 vimos un caso especial de la fdp de la gamma. El caso
general es,
f
X
(x) =
1
()
x
1
e
x/
, 0 < x < , > 0, > 0,
donde () representa la funcion gamma. Determinar la M
X
(t) para esta va.
Rta.: M
X
(t) =
_
1
1t
_
si t <
1
.
Ejemplo 2.5.4. Para otra ilustracion sobre el calculo de la fgm, consideremos una dis-
tribucion discreta, la distribucion binomial. Si X Bin(n, p), determina la fgm de X
Rta.: M
X
(t) = [pe
t
+ (1 p)]
n
.
Podra ocurrir que existan dos va. con distintas fdp, pero que generen los mismos mo-
mentos, e.d.,
X
1
f
1
, X
2
f
2
con f
1
,= f
2
,
pero tal que E X
r
1
= E X
r
2
r = 0, 1, . . ..
Querramos tener condiciones para poder caracterizar las distribuciones con iguales momen-
tos. El siguiente teorema muestra como puede ser caracterizada una distribucion usando su
fgm.
Teorema 2.5.3. Sean F
X
(x), F
Y
(y) dos fda tales que sus momentos existen
(a) Si F
X
y F
Y
tienen soporte acotado, entonces F
X
(u) = F
Y
(u) s y solo s
E X
r
= E Y
r
r = 0, 1, . . ..
(b) Si las fgm existen y se cumple M
X
(t) = M
Y
(t) para todo t en alg un entorno del 0,
entonces F
X
(u) = F
Y
(u) u.
La demostracion de este teorema recae en las teora de las transformaciones de Laplace(ver
Widder 1946, Feller 1971) razones por lo cual su tratamiento escapa al nivel de estas notas.
Teorema 2.5.4. Para cualquier para de constantes a, b, la fgm de la va. Y=aX+b esta dada
por
M
Y
(t) = M
aX+b
(t) = e
b t
M
X
(at).
2.6. Ejercicios
2.1 De un lote que contiene 25 artculos, 5 de los cuales son defectuosos, se eligen 4 al azar.
Sea X el n umero de defectuosos encontrados. Obtener la distribucion de probabili-
dades de X si,
(a) los artculos se escogen con sustitucion
(b) los artculos se escogen sin sustitucion.
2.2 Supongase que la v.a. X tiene valores posibles 1, 2, 3, . . . , y P(X = j) = 1/2
j
, j =
1, 2, . . .
(a) Calcular P(Xsea par ).
(b) Calcular P(X 5).
(c) Calcular P(Xes divisible por 3)
2.3 Considerese una v.a. X con resultados posibles: 0, 1, 2, . . .. Supongamos que P(X =
j) = (1 a) a
j
, j = 0, 1, . . .
(a) Para que valores a es signicativo el modelo anterior?
(b) Vericar que la anterior representa una legtima f.m.p.
(c) Demostrar que para dos enteros positivos cualesquiera s y t,
P(X < s +t [ X > s) = P(X t).
2.4 Considere la v.a. X que mide la duracion de un tubo electronico, y supongamos que X
se puede representar como una v.a. continua con f.d.p. f
X
(x) = be
bx
I (x 0). Sea
p
j
= P(j X < j + 1). Demostrar que p
j
es de la forma (1 a) a
j
y determine a.
2.5 La v.a. continua X tiene f.d.p. f
X
(x) = 3x
2
I(1 x 0). Si b es un n umero que
satisface 1 < b < 0, calcular P(X > b [ X < b/2).
2.6 El porcentaje de alcohol (100X) en cierto compuesto se puede considerar como una v.a.,
en donde X, 0 < X < 1, tiene la siguiente fdp: f
X
(x) = 20x
3
(1 x)I(0 < x < 1).
(a) Obtener una expresion para fda, F
X
y dibujar su graco.
(b) Calcular la P(X
2
3
).
(c) Supongase que el precio de venta del compuesto depende del contenido alcoholico.
Especcamente, si
1
3
< X <
2
3
, el compuesto se vende por C
1
dolares/galon.
Encontrar la distribucion de probabilidades de la utilidad neta por galon.
2.7 Supongase que X esta distribuida uniformemente en [, ], en donde > 0. Cada
vez que sea posible determinar de modo que se satisfaga lo siguiente:
(a) P(X > 1) =
1
3
(b) P(X > 1) =
1
2
(c) P(X >
1
2
) = 0,7
(d) P(X >
1
2
) = 0,3 (e) P([ X [< 1) = P([ X [> 1).
2.8 En cada uno de los siguientes casos encuentre f
Y
. Muestre que la fdp integra 1.
(a) f
X
(x) = 42x
5
(1 x), 0 < x < 1; Y = X
3
.
(b) f
X
(x) = 7e
7x
, 0 < x < ; Y = 4X + 3.
2.9 Si X tiene fdp
f
X
(x) =
1
2
xe
(x/
2
)/2
I(0, ),
2
es una constante positiva
Determine la fdp de Y = e
X
.
2.10 Suponga que X tiene una distribucion geometrica con fmp dada por f
X
(x) =
1
3
(
2
3
)
x
, x =
0, 1, 2, . . .. Determine la distribucion de probabilidades de Y = X/X + 1. Note que
tanto X como Y son v.a. discretas. Para especicar la distribucion de probabilidad
de Y , especique su fmp.
2.11 En cada uno de los siguientes casos encuentre f
Y
. Muestre que la fdp integra 1.
(a) f
X
(x) =
1
2
e
|x|
, < x < ; Y =[ X [
3
.
(b) f
X
(x) =
3
8
(x + 1)
2
, 1 < x < 1; Y = 1 X
2
.
(c) f
X
(x) =
3
8
(x + 1)
2
, 1 < x < 1; Y = 1 X
2
si X 0 e Y = 1 X si X > 0.
2.12 Suponga que X es una va. con la siguiente funcion de densidad
f
X
(x) =
1
2
(1 +x) I(1, 1).
(a) Encuentre la fdp. de Y = X
2
(b) Encuentre la E X y la V arX
2.12 Una mediana de una distribucion es un valor m tal que P(X m) = P(X m) =
1
2
.
(Si X es continua, m satisface
_
m
f
X
(x)dx =
_
m
f
X
(x)dx =
1
2
.). Encuentre la
mediana de las siguientes distribuciones
(a) f
X
(x) = 3x
2
I(0, 1) (b) f
X
(x) =
1
(1+x
2
)
2.13 Calcule E X y V arX para cada una de las siguientes funciones de probabilidad
(a) f
X
(x) = ax
a1
0 < x < 1, a > 0
(b) f
X
(x) =
1
n
x = 1, 2, . . . , n; n > 0 entero
(c) f
X
(x) =
3
2
(x 1)
2
, 0 < x < 2
2.14 Sea
n
el n-esimo momento central de la va. X. Dos cantidades de interes, agregadas
a la media y la varianza son,
3
=

3
(
2
)
3/2
y
4
=

4
(
2
)
2
.
El valor
3
es llamado coeciente de asimetra, y el
4
es llamado de curtosis. La
medida de asimetra se reere a cuanto se aparta la forma de la distribucion simetrica
la fdp. La curtosis, aunque mucho mas difcil de interpretar que la asimetra, mide
cuanta forma de punta o chata tiene la fdp.
(a) Muestre que si la fdp es simetrica alrededor de un punto a, entonces
3
= 0.
(b) Calcule
3
para f(x) = e
x
, x 0, una fdp que tiene asimetra a la derecha.
(c) Calcule
4
para cada una de las siguientes fdp.
(i) f(x) =
1
2
e
x
2
/2
, < x <
(ii) f(x) =
1
2
I(1, 1)
(iii) f(x) =
1
2
e
|x|
, < x <
2.15 Sea M
X
(t) la fgm de una va. X, y se dene S(t) = log(M
X
(t)). Muestre que,
d
dt
S(t)[
t=0
= E X
d
2
dt
2
S(t)[
t=0
= V ar X.
2.16 En cada uno de los siguientes casos verique que la expresion dada para la fgm, y en
cada caso use la fgm para determinar la E X y la V arX.
(a) P(X = x) =
e
x
x!
, M
X
(t) = e
(e
t
1)
, x = 0, 1, 2, . . . ; > 0
(b) P(X = x) = p(1 p)
x
, M
X
(t) =
p
1(1p)e
t
, x = 0, 1, 2, . . . ; 0 < p < 1
(c) f(x) =
e
(x)
2
/(2
2
)
2
, M
X
(t) = e
t+
2
t
2
/2
, < x < , < < , > 0
2.17 Determinar E X
4
para X N(0, 1) [use que
(x) = x(x)].
2.18 Teorema: [Convergencia de fgm]: Suponga que X
i
, i = 1, 2, . . . es una secuencia
de va., cada una con fgm M
X
i
(t). Ademas suponga que
lm
i
M
X
i
(t) = M
X
(t) para todo t en un entorno de 0,
y M
X
(t) es una fgm. Entonces existe una unica fda F
X
, cuyos momentos son deter-
minados por M
X
(t)y, para todo x donde F
X
(x) es continua, se tiene
lm
i
F
X
i
(x) = F
X
(x).
Esto signica, convergencia t, [ t [< h, de fgms a fgm implica convergencia de fda
respectiva.
1
Una aproximacion muy util es la de la distribucion Binomial a la distribucion de
Poisson. La distribucion binomial esta caracterizada por dos cantidades, n y p. La
aproximacion de Poisson es valida cuando n es grande y np peque no.
La fmp de una va. con distribucion de Poisson esta dada por
P(X = x) =
e
x
x!
, x = 0, 1, . . . , > 0.
La aproximacion arma que si X Bin(n, p) e Y Po(), con = np, entonces
P(X = x) P(Y = x)
para n grande y np peque no.
1
La demostracion de este teorema tambien recae sobre la teora de transformadas de Laplace
Se te pide demostrar esta armacion siguiendo los siguientes pasos:
(a) Encontrar M
X
(t), M
Y
(t)
(b) Reemplazar p =

n
en M
X
(t)
(c) Calcular el lm
n
M
X
(t), observando que su resultado es justamente M
Y
(t)
la fgm de la Poisson.
(d) Ocupando Excel graque en un mismo sistema de ejes coordenados la fmp de
una Bin(15, 0,3) y de una Po(4,5); observe el resultado del teorema.
Captulo 3
Distribuciones de Familias comunes
Distribuciones estadsticas son usadas para modelar poblaciones. Nosotros usualmente
trataremos con familias de distribuciones, en vez de con una simple distribucion. Esas famil-
ias son indexadas por uno o mas parametros, lo cual nos permite variar ciertas caractersticas
de la distribucion. Por ejemplo, podemos especicar que la distribucion Normal es una elec-
cion de un modelo razonable para una poblacion particular, pero no podemos especicar
precisamente la media; entonces trataremos con una familia parametrica, la normal con
media , donde este es un parametro no especicado < < .
En este captulo seran catalogadas algunas de las muchas distribuciones estadsticas,
algunas de las cuales ya hemos tratado previamente. Para cada una de las distribuciones
que describamos, daremos su media y su varianza, y algunas otras descripciones adicionales
o medidas que pudieran agregar comprension. Tambien se indicara alguna aplicacion tpica
de esas distribuciones, e interrelaciones adicionales.
3.1. Distribuciones discretas
Una va. X se dice tiene una distribucion discreta, si su rango; e.d. el espacio muestral es
numerable. En la mayora de las situaciones, la va. es entero-positiva valuada.
71
3.1.1. Distribucion uniforme discreta
Una va. X tiene distribucion uniforme discreta (1, N), si
P(X = x [ N) =
1
N
, x = 1, 2, . . . , N (3.1)
donde N es un entero especicado. Esta distribucion pone igual masa sobre cada uno de los
resultados 1, 2, . . . , N.
Una cuestion de Notacion Cuando estamos tratando con distribuciones parametri-
cas, como sera en la mayora de los casos, la distribucion depende de los parametros. Con
la idea de enfatizar este hecho, y de mantener visibles los parametros, los escribiremos
en la fmp precedido por un [(dado). Esta misma convencion tambien sera usada con la
fdp, la fda, la esperanza, y otros casos donde pudiera ser necesario. Cuando no haya posibil-
idad de confusion, los parametros pueden ser omitidos para no desordenar tanto la notacion.
Calculemos ahora la media y la varianza de X. Entonces
E X =
N
x=1
xP(X = x [ N) =
N
x=1
x
1
N
=
1
N
N(N + 1)
2
=
N + 1
2
y
E X
2
=
N
x=1
x
2
P(X = x [ N) =
N
x=1
x
2
1
N
=
1
N
N(N + 1)(2N + 1)
2
=
(N + 1)(2N + 1)
2
y as,
V ar X = E X
2
(E X)
2
=
(N + 1)(2N + 1)
2

_
N + 1
2
_
2
=
(N + 1)(N 1)
2
.
Esta distribucion puede ser generalizada, a un espacio muestral en cualquier rango de en-
teros, N
0
, N
0
+ 1, . . . , N
1
, con fmp P(X = x [ N
0
, N
1
) = 1/(N
1
N
0
+ 1).
3.1.2. Distribucion Hipergeometrica
La distribucion hipergeometrica tiene muchas aplicaciones en muestreo de poblaciones
nitas. Es mejor para su comprension pensarla en el ejemplo clasico de un modelo de urna.
Supongamos tenemos una urna con N bolillas iguales, salvo por el color, es decir, hay M
rojas y N M verdes. K de tales bolillas son seleccionadas aleatoriamente (se toman una
a una de la urna, sin regresarla a la misma; se trata de un caso de muestreo sin reemplazo).
Cual es la probabilidad que exactamente x de las bolillas sean rojas?.
El n umero total de muestras de medida K que pueden ser seleccionadas de un total de
N es
_
N
K
_
. Se requiere que x de tales bolillas sean rojas, lo cual puede ser realizado de
_
M
x
_
formas, dejando
_
MN
Kx
_
caminos para elegir las K x restantes que no son rojas. As,
denotaremos por X la va. que mide el n umero rojas en la muestra de tama no K, entonces
X tiene distribucion hipergeometrica dada por
P(X = x [ N, N, K) =
_
M
x
__
NM
Kx
_
_
N
K
_ , x = 0, 1, . . . , K. (3.2)
Note que hay implcita en (3.2), un supuesto adicional sobre el rango de X. Los coecientes
binomiales de la forma
_
n
r
_
, han sido denidos solamente si n r, y as el rango de x
esta adicionalemente restringido por el siguiente par de inecuaciones
M x y N M K x,
las cuales pueden ser combinadas como
M (N K) x M.
En muchos casos K es peque no comparado con N y M, as el rango 0 x K estara con-
tenido en el rango ultimo anterior dado para x, y por lo tanto sera apropiado. La formula
para la funcion de probabilidad hipergeometrica es difcil de tratar. En efecto no es trivial
vericar que
K
x=0
P(X = x) =
K
x=0
_
M
x
__
NM
Kx
_
_
N
K
_ = 1.
El caso de la distribucion hipergeometrica, ilustra la dicultad estadstica de tratar con
poblaciones nitas (nito N).
La media de la distribucion hipergeometrica esta dada por
E X =
K
x=0
x
_
M
x
__
NM
Kx
_
_
N
K
_ =
K
x=1
_
M
x
__
NM
Kx
_
_
N
K
_ .
(el sumando es 0 en x = 0). Para evaluar estas expresiones, usamos las siguientes iden-
tidades,
x
_
M
x
_
= M
_
M 1
x 1
_
,
_
N
K
_
=
N
K
_
N 1
K 1
_
,
y obtener
E X =
K
x=1
M
_
M1
x1
__
NM
Kx
_
N
K
_
N1
K1
_ =
KM
N
K
x=1
_
M1
x1
__
NM
Kx
_
_
N1
K1
_ .
Es posible reconocer la segunda suma anterior como la suma de las probabilidades de otra
distribucion hipergeometrica basada en valores de parametros N1, M1, y K1. Luego
esa suma vale 1. Finalmente se tiene que
E X =
KM
N
.
En forma similar, pero con mas labor, es posible establecer que
V ar X =
KM
N
_
(N M)(N K)
N(N 1)
_
.
Ejemplo 3.1.1. La biblioteca de una escuela de estudiantes no graduados tiene 20 ejem-
plares de cierto tipo de texto de introducci on a la economa, de los cuales 8 son primeras
impresiones y 12 son segundas impresiones (que contienen correcciones de algunos peque nos
errores que aparecieron en la primera edicion). El instructor del curso ha solicitado que 5
ejemplares sean puestos en reserva de 2 horas. Si los ejemplares se seleccionan en una
forma por completa al azar, de modo que cada subconjunto de tama no 5 tenga la misma
probabilidad de ser seleccionado, cual es la probabilidad de que x (x = 0, 1, 2, 3, 4o 5) de los
seleccionados sean segundas impresiones?
Ejemplo 3.1.2. Cinco ejemplares de una poblacion animal considerados en va de extincion
en cierta region han sido atrapados, marcados y puestos en libertad para que se mezclen en la
poblacion. Despues de tener la oportunidad de mezclarse, se selecciono una muestra aleatoria
de 10 de estos animales. Sea X = n umero de animales marcados de la segunda muestra .
Si hay en realidad 25 animales de este tipo en la region. Cual es la probabilidad de que
(a) halla dos marcados en la muestra?
(b) halla a lo sumo dos marcados en la muestra?
(c) Determine la media y la varianza de X.
3.1.3. Distribucion Binomial
La distribucion binomial, una de las distribuciones discretas mas usadas, esta basada
sobre la idea de una ensayo de Bernoulli. Un ensayo de Bernoulli es un experimento con
dos, y solamente dos, resultados posibles. Una va. tiene una distribucion Bernoulli(p) si
X =
_
_
_
1 con probabilidad p
0 con probabilidad 1 p
0 p 1. (3.3)
El valor X = 1 es a menudo tomado como un exito
2
p se reere a la probabilidad de que
ocurra el exito. El valor X = 0 es tomado como una falla.
Tambien es posible realizar la siguiente interpretacion de un ensayo de Bernoulli, si con-
sideremos un evento A con probabilidad p, X = I
A
es una variable discreta con
P(X = 1) = p, P(X = 0) = 1 p. Calculemos con estas dos interpretaciones la media y la
varianza de esta va.
E X = E(I
A
) = 1p + 0(1 p) = p,
V ar X = (1 p)
2
p + (0 p)
2
(1 p) = p(1 p).
Muchos experimentos pueden ser modelados por una secuencia de ensayos de Bernoulli,
tales como el lanzamiento de monedas, eleccion de candidatos polticos, incidencia de una
enfermedad, etc.
Si con n indicamos la cantidad de ensayos de Bernoulli que son realizados, denimos los
eventos
A
i
= X = 1 en el i-esimo ensayo, i = 1, 2, . . . , n.
Si asumimos que los eventos A
1
, A
2
, . . . , A
n
representan una coleccion de eventos indepen-
dientes (como es el caso del lanzamiento de una moneda), es facil encontrar la distribucion
del n umero total de exitos en n ensayos. Denamos la va. Y por
Y = n umero total de exitos en n ensayos.
El evento Y = y ocurrira solamente si, exactamente y de los eventos A
1
, A
2
, . . . , A
n
ocurren, y n y de ellos no ocurren. Un resultado particular de n ensayos (un particular
ordenamiento de ocurrencias y no-ocurrencias) de los n ensayos de Bernoulli podra ser
A
1
A
2
A
c
3
. . . A
c
n1
A
n
. Este tiene probabilidad de ocurrrencia
P(A
1
A
2
A
c
3
. . . A
c
n1
A
n
) = pp(1 p) . . . . . . p(1 P)
= p
y
(1 p)
ny
,
donde nosotros hemos usado la independencia de los A
i
s en este calculo. Note que el calculo
no depende sobre cuales de los A
i
s ocurre, solamente que alg un conjunto de y de ellos
ocurra. Poniendo todo esto junto, vemos que una secuencia particular de n ensayos con
exactamente y exitos tiene probabilidad p
y
(1p)
ny
de ocurrencia; ya que hay
_
n
y
_
de tales
secuencias (el n umero de ordenamientos de y unos y de (n y) ceros), se tiene
P(Y = y [ n, p) =
_
n
y
_
e Y es llamada una variable aleatoria Bin(n,p). Y puede ser denida en forma equivalente del
siguiente modo: como una secuencia de n identicas, e independientes ensayos de Bernoulli,
cada una con exito p y fracaso 1 p, deniendo las variables X
1
, X
2
, . . . , X
n
por
X
i
=
_
_
_
1 con probabilidad p
0 con probabilidad 1 p
0 p 1.
Entonces la va.
Y =
n
i=1
X
i
tiene distribucion Bin(n, p). Analogamente, usando funciones indicadoras, Y podra es-
cribirse como
Y =
n
i=1
I
A
i
,
y por lo tanto toda va. binomial se puede escribir como una suma de indicadoras.
Hemos ya obtenido tanto la esperanza, la varianza y la fgm para una va. binomial. Para
completar, armemos entonces que si X Bin(n, p) se tiene
E X = np , V ar X = np(1 p) ,
y su fgm es
M
X
(t) = [pe
y
+ (1 p)]
n
.
Ejemplo 3.1.3. A cada una de seis personas que toman refresco cola, seleccionadas al azar,
se les da un vaso que contiene refresco de cola S y uno que contiene refresco de cola F. Los
vasos son identicos en apariencia excepto por un codigo que se encuentra en el fondo para
identicar la marca. Supongamos que en realidad no hay preferencia entre las personas que
beben refresco de cola para preferir entre una marca u otra.
(a) Determine la probabilidad de que exactamente tres preeran la marca de cola S
(b) Determine la probabilidad de que por lo menos tres personas preeran la marca de cola
S.
(c) Calcule la probabilidad de que a lo suma 1 preera la marca de cola S
(d) Calcule la E X, V ar X,
X
.
Ejemplo 3.1.4. Suponga que el 20 % de todos los ejemplares de un texto en particular fallan
en una prueba de resistencia a la encuadernacion. Si X es el n umero entre 15 ejemplares
seleccionados al azar que fallan a la prueba.
(a) Que distribucion sigue X?
(b) Determine la probabilidad de que a lo sumo 8 fallen a la prueba
(c) Cual es la probabilidad de que exactamente 8 fallen a la prueba?, y la probabilidad
de que por lo menos 8 fallen a la prueba?
(d) Halle la probabilidad de que entre 4 y 7 fallen a la prueba.
(e) Determine la media y la varianza de X.
Ejemplo 3.1.5. Un fabricante de equipos electronicos argumenta que a los sumo el 10 % de
sus unidades de fuentes de alimentacion necesitan reparacion durante el perodo de garanta.
Para investigar esto, tecnicos de un laboratorio de pruebas compran 20 unidades y las some-
ten a pruebas aceleradas para simular su uso durante el perodo de garanta. Denotemos por
p la probabilidad de que una fuente de alimentacion necesita reparacion durante el perodo
(la proporcion de todas las unidades que necesitan reparacion). Los tecnicos de laborato-
rio deben determinar si los datos resultantes del experimento apoyan el argumento de que
p 0,10.
3.1.4. Distribucion de Poisson
La distribucion de Poisson es una distribucion discreta ampliamente aplicada, y puede
servir como un modelo de un n umero diferente de experimentos. Por ejemplo, si estamos
modelando un fenomeno en el cual estamos esperando alguna ocurrencia (tales como es-
perando un omnibus, esperando que lleguen clientes a la ventanilla de un banco), el n
o
de ocurrencias en un intervalo de tiempo dado puede ser muchas veces modelado por la
distribucion de Poisson. Uno de los supuestos basicos sobre los cuales esta distribucion
se construye, es que, para peque nos intervalos de tiempo, la probabilidad de un arribo es
proporcional a la medida del tiempo esperado. Esto lo hace un modelo razonable para situa-
ciones como las que indicamos mas arriba. Por ejemplo, esto hace razonable asumir que en
un largo tiempo de espera, es mas probable que un cliente entre al banco.
Otro area de aplicacion es en distribuciones espaciales, donde, por ejemplo, la Poisson
puede ser empleada para modelar la distribucion del estallido de una bomba en un area, o
la distribucion de peces en un lago.
La distribucion de Poisson tiene solo un parametro, , algunas veces llamado parametro de
intensidad. Una va. X que toma valores enteros no negativos, tiene una distribucion Po()
si
P(X = x [ ) =
e
x
x!
, x = 0, 1, . . . . . . (3.4)
Para ver que
x=0
P(X = x [ ) = 1, debemos ocupar la expansion en serie de Taylor de
e
y
,
e
y
=
i=0
y
i
y!
.
As
x=0
P(X = x [ ) = e
x=0
x
x!
= e
= 1
La media de X se puede ver facilmente, haciendo
E X =
x=0
x
e
x
x!
=
x=1
x
e
x
x!
= e
x=1
x1
(x 1)!
= e
y=0
y
y!
sustituyendo y = x 1
= .
Calculos similares mostraran que
V ar X = ,
As el parametro es el mismo tanto para la media como para la varianza de la distribucion
Poisson.
Tambien puede ser obtenida la fgm usando argumentos de calculos analogos, siendo
M
X
(t) = e
(e
t
1)
.
Ejemplo 3.1.6. Si X es el n umero de la fallas en la supercie de un calentador de cierto
tipo seleccionado al azar. Suponga que X tiene una distribucion de Poisson con = 5.
Determine:
(a) La probabilidad de que tenga exactamente dos fallas
(b) La probabilidad de que un calentador contenga un maximo de dos fallas
Ejemplo 3.1.7. Supongamos que llegan pulsos al contador con una tasa promedio de seis
por minuto, supongamos = 6. Para hallar la probabilidad de que en un intervalo de 0.5
min se reciba por lo menos un pulso, observe que el nro. de pulsos en tal intervalo tiene
una distribucion de Poisson con parametro = t = 6(0,5). Si X representa el n umero de
pulsos recibidos en el intervalo de 30 segundos. Determine la probabilidad de que reciba mas
de una llamada.
3.1.5. Distribucion Binomial Negativa
La distribucion Binomial cuenta el n umero de exitos en un n umero prejado de ensayos
de Bernoulli. Supongamos que, en cambio, contamos el n umero de ensayos de Bernoulli
requeridos para conseguir un n umero prejado de exitos. Esta ultima formulacion nos an-
ticipa la distribucion binomial negativa.
En una secuencia de ensayos independientes de Bernoulli(p), sea la va. X, que denota el
ensayo para el cual el r-esimo exito ocurre, donde r es un entero prejado. Entonces
P(X = r [ r, p) =
_
x 1
r 1
_
p
r
(1 p)
xr
, x = r, r + 1, . . . (3.5)
y diremos que X tiene una distribucion binomial negativa (r,p).
La obtencion de (3.5) se sigue rapidamente de la distribucion binomial. El evento X = x
puede ocurrir solamente si hay exactamente r 1 exitos en los primeros x 1 ensayos, y
un exito en el ensayo x. La probabilidad de r 1 exitos en x 1 ensayos es la probabilidad
binomial
_
x1
r1
_
p
r1
(1 p)
xr
y con probabilidad p hay un exito en el ensayo x. Multipli-
cando esas probabilidades se llega a la igualdad (3.5).
La distribucion binomial negativa es muchas veces denida en terminos de la va. Y =
n umero de fracasos antes del r-esimo exito. Esta formulacion es estadsticamente equiva-
lente a la dada antes en terminos de X = ensayos en los cuales el r-esimo exito ocurre,
en consecuencia Y = X r. Usando la relacion entre y y X, la forma alternativa para la
distribucion binomial negativa es
P(Y = y) =
_
r +y + 1
y
_
p
r
(1 p)
y
, y = 0, 1, . . . . . . (3.6)
A menos que sea notado, cuando nos hagamos referencia a la distribucion binomial negativa(r, p)
usaremos la fmp (3.6).
La distribucion binomial negativa, tiene ese nombre de la relacion
_
r +y + 1
y
_
= (1)
y
_
r
y
_
= (1)
y
(r)(r 1)(r 2) . . . (r y + 1)
y(y 1)(y 2) . . . 2,1
,
la cual es, en efecto, la denicion para un coeciente binomial con enteros negativos (ver
Feller (1968) para un tratamiento con mayor profundidad). Sustituyendo en (3.6), se obiene
P(Y = y) = (1)
y
_
r
y
_
p
r
(1 p)
y
, y = 0, 1, . . . . . .
la cual muestra un parecido muy llamativo con la distribucion binomial.
El hecho que

y=0
P(Y = y) = 1 no es facil de vericar, pero proviene de una extension
del Teorema del Binomio, extension que incluye exponentes negativos. No expondre esto
aqu. Una excelente exposicion de este hecho lo puede encontrar en Feller (1968).
La media y la varianza de Y puede ser calculada usando tecnicas similares a las usadas para
la distribucion binomial:
E Y =
y=0
y
_
r +y + 1
y
_
p
r
(1 p)
y
=
y=1
(r +y 1)!
(y 1)!(r 1)!
p
r
(1 p)
y
=
y=1
r
_
r +y + 1
y 1
_
p
r
(1 p)
y
.
Ahora escribimos z = y 1, y la suma se transforma en
E Y =
z=0
r
_
r +z
z
_
p
r
(1 p)
z+1
= r
(1 p)
p
z=0
_
(r + 1) +z 1
z
_
p
r+1
(1 p)
z
,
este ultimo sumando se corresponde con la fmp de una binomial negativa, de donde
E Y = r
(1 p)
p
Un calculo similar mostrara que
V ar Y = r
(1 p)
p
2
.
La familia de la distribucion binomial negativa incluye a la Poisson como un caso lmite. Si
r y p 1 tal que r(1 p) , 0 < < , entonces
E Y = r
(1 p)
p
,
V ar Y = r
(1 p)
p
2
,
lo cual se corresponde con la media y la varianza de la Poisson.
Ejemplo 3.1.8. Un pediatra desea conseguir 5 parejas, cada una de las cuales espera
a su primer hijo, para que participen en un regimen de nacimiento natural. Sea p =
P(una pareja seleccionada al azar acceda a participar). Si p = 0,2, cual es la probabili-
dad de que se le pida a 15 parejas que participen antes de encontrar 5 que accedan?. Esto
es, si S=accede a participar, cual es la probabilidad de que ocurran 10 fallas antes del
quinto exito?.
3.1.6. Distribucion Geometrica
La distribucion geometrica es la mas simple de las distribuciones, y es un caso especial
de la distribucion binomial negativa. Si se hace r = 1 en (3.5) tenemos
P(X = x [ p) = p(1 p)
x1
, x = 1, 2, . . .
la cual dene la fmp de una variable aleatoria X geometrica con probabilidad de exito p.
X puede ser interpretada como el ensayo para el cual el primer exito ocurre. As, diremos
esperando el primer exito. El hecho que
x=1
P(X = x) = 1 se sigue de la propiedad de
series geometricas. Para cualquier a tal que [ a [< 1,
x=1
a
x1
=
1
1 a
,
la cual ya ha sido probada anteriormente.
La media y la varianza de X puede ser calculada usando las formulas de la binomial negativa
y escribiendo X = Y + 1 para obtener
E X = EY + 1 =
1
p
y V ar X =
1 p
p
2
.
La distribucion geometrica tiene una propiedad interesante conocida como perdida de
memoria. Para enteros s > t, esto signica que
P(X > s [ X > t) = P(X > s t); (3.7)
Esto signica que la distribucion geometrica olvida lo que ha ocurrido.
3.2. Distribuciones Continuas
En esta seccion discutiremos algunas de las familias de distribuciones continuas mas co-
munes, aquellas que tienen nombres bien conocidos. Las distribuciones mencionadas aqu no
constituyen todas las distribuciones usadas en estadstica; pues ademas como vimos en sec-
ciones anteriores, cualquier funcion nonegativa, e integragrable puede ser transformada en
una fdp.
3.2.1. Distribucion Uniforme
La distribucion uniforme continua esta denida de manera tal que se extiende masa
uniformemente sobre un intervalo [a, b]. Su fdp esta dada por
f(x [ a, b) =
_
_
_
1
ba
si x [a, b]
0 en otro caso
(3.8)
Es facil demostrar que
_
b
a
f(x) dx = 1. Tambien se tiene
E X =
_
b
a
x
b a
dx =
a +b
2
V ar X =
_
b
a
(x
a+b
2
)
2
b a
dx =
(b a)
2
12
.
3.2.2. Distribucion Gamma
La familia de distribuciones gamma es una familia exible de distribuciones sobre [0, ].
Esta familia puede ser derivada por la siguiente construccion.
Sea una constante positiva, la integral
_

0
t
1
e
t
dt
es nita. Si es un entero positivo la integral puede ser expresada en forma cerrada, en
otro caso no es posible. En cualquier caso, su valor dene la funcion gamma,
() =
_

0
t
1
e
t
dt. (3.9)
La funcion gamma satisface muchas relaciones muy usadas, en particular
( + 1) = () , > 0, (3.10)
la cual puede ser vericada utilizando integracion por partes. Combinando (3.9) y (3.10)
vericando el hecho que (1) = 1, se tiene para cualquier entero n > 0,
(n) = (n 1)!. (3.11)
(Otro caso especial muy usado, que veremos en breve es: (
1
2
) =
.)
Las expresiones (3.10) y (3.11) dan relaciones recursivas para la funcion gamma, que
hacen mas facil su calculo.
Ya que la integral en (3.9) es positiva, inmediatamente se sigue que
f(t) =
t
1
e
t
()
, 0 < t < (3.12)
es una fdp. La familia gamma completa, sin embargo, tiene dos parametros, y puede ser
derivada por cambio de variables para conseguir la fdp de la va. X = T en (3.12), donde
es una constante positiva. Al hacer esto, conseguimos la familia gamma(, ),
f(x) =
1
()
x
1
e
x/
, 0 < x < , > 0 , > 0. (3.13)
El parametro es conocido como el parametro de forma, ya que es el que mas inuencia
tiene en el pico de la distribucion, mientras que es llamado el parametro de escala, ya que
su inuencia esta sobre la cuan abierta o cerrada es la distribucion.
Hemos ya probado que la media de la distribucion es
E X =
1
()
_

0
x, x
1
e
x/
dx. (3.14)
Para evaluar (3.14), note que el integrando es el n ucleo de una fdp gamma( + 1, ). De la
(3.13) sabemos que para , > 0,
_

0
x
1
e
x/
dx = ()
, (3.15)
as tenemos
E X =
1
()
_

0
x, x
1
e
x/
dx =
1
()
( + 1)
+1
=
()
()
= .
Note que para evaluar la E X hemos usado la tecnica de reconocimiento de la integral como
el n ucleo de una fdp. Este hecho ya fue utilizado en m ultiples oportunidades.
La varianza de la distribucion gamma(, ) se calcula de manera analoga. En particular,
en el calculo de E X
2
nos manejamos con el n ucleo de una distribucion gamma( + 2, ).
El resultado es
V ar X =
2
. En un ejemplo anterior hemos calculado la fgm de una distribucion gamma(, ).

Esta
esta dada por
M
X
(t) =
_
1
1 t
_
.
Ejemplo 3.2.1. Existe una interesante relacion entre las distribuciones gamma y la Pois-
son. Si va. X es una gamma(, ), donde es un entero, entonces para cualquier x,
P(X x) = P(Y ), (3.16)
donde Y Poisson(x/). La ecuacion (3.16) puede ser establecida por sucesivas integra-
ciones por partes. Ya que es un entero, podemos escribir () = ( 1)! para conseguir
P(X x) =
1
( + 1)
_
x
0
t
1
e
t/
dt
=
1
( + 1)
__
t
(1)
t
/t
_
x
0
+
_
x
0
( 1)t
2
e
t/
dt
_
,
hemos usado la integracion por partes, sustituyendo u = t
1
, dv = e
t/
dt. Continuando
con la evaluacion de la probabilidad, tenemos
P(X x) =
1
( 1)!
1
x
1
e
x/
+
1
( 2)!
1
_
x
0
t
2
e
t/
dt
=
1
( 2)!
1
_
x
0
t
2
e
t/
dt P(Y = 1),
donde Y Poisson(x/). Continuando de esta manera, es posible establecer (3.16).
Hay dos importantes casos especiales de distribucion gamma. Si hacemos = p/2, donde
p es un entero, y = 2, entonces la fdp de la gamma resulta
f(x) =
1
(p/2)2
p/2
x
(p/2)1
e
x/2
, 0 < x < , (3.17)
la cual es la fdp de la chi cuadrado con p grados de libertad. La media, la varianza, y la
fgm de la distribucion chi cuadrado pueden todas se calculadas usando las formulas gamma
derivadas previamente.
La distribucion chi cuadrado juega una papel importante en inferencia estadstica, especial-
mente cuando se muestrea de una distribucion normal. Esto sera estudiado con detalle mas
adelante.
Otro caso especial importante proveniente de la distribucion gamma se obtiene cuando
se reemplaza = 1. Ahora resulta,
f(x [ ) =
1
e
x/
, 0 < x < , (3.18)
la fdp exponencial con parametro de escala . Su media y su varianza fueron calculadas en
ejemplos anteriores.
La distribucion exponencial puede ser usada para modelar tiempos de vida, analogo al uso
de la distribucion geometrica en el caso discreto.
Otra distribucion relacionada con la exponencial y con la familia gamma es la distribucion
Weibull. Si X Exp(), entonces Y = X
1/
tiene una distribucion Weibull(, ).
f
Y
(y [ , ) =

y
1
e
y
/
, 0 < y < , > 0 , > 0. (3.19)
La distribucion Weibull juega un rol extremadamente importante en el analisis de tiempo de
fracaso (ver Kalbeidch and Prentice (1980)para un tratamiento de este topico). La Weibull
en particular es muy usada para modelar funciones de riesgo.
3.2.3. Distribucion Normal
La distribucion Normal (muchas veces llamada Distribucion gaussiana juega un rol cen-
tral a lo largo de toda la estadstica. Existen tres grandes razones para ello. Primero, la
distribucion Normal y las distribuciones asociadas con ella, son muy tratables analtica-
mente (aunque no lo parezca con una primera mirada). Segundo, la distribucion normal
tiene una forma de campana familiar, cuya simetra la hace elegible para modelar un sin
n de poblaciones. Aunque hay muchas otras distribuciones que tienen forma de campana,
pero no poseen la tratabiliad analtica de la normal. Tercero, existe el Teorema Central del
Lmite (mas adelante se vera con detalle) el cual muestra que bajo algunas condiciones, la
distribucion normal puede ser usada para aproximar una gran variedad de distribuciones
en grandes muestras.
La distribucion normal tiene dos parametros, usualmente anotados por y
2
, las cuales
son su media y su varianza. La fdp de la distribucion Normal con media y varianza
2
(usualmente anotada N(;
2
)) esta dada por,
f(x [ ,
2
) =
1
2
e
(x)
2
/(2
2
)
, < x < . (3.20)
Si X N(;
2
), entonces la va. Z = (X)/ tiene distribucion N(0, 1), tambien conocida
como Normal estandar. Esto se establece facilmente escribiendo
P(Z z) = P
_
X )/ z
_
= P(X z +)
=
1
2
_
z+
e
(x)
2
/(2
2
)
dx
=
1
2
_
z
e
t
2
/2
dt, (sustituyendo t =
x
)
mostrando que P(Z z) es la fda de la normal estandar.
Lo ultimo anterior muestra que todas las probabilidades normales puedes ser calculadas
en terminos de la normal estandar. Ademas, el calculo de la media puede ser simplicado,
calculandolo para la N(0, 1), y luego transformando para el caso de N(,
2
). Por ejemplo,
si Z N(0, 1),
E Z =
1
2
_

ze
z
2
/2
dz =
1
2
e
z
2
/2
[
= 0
y as, si X N(,
2
), se sigue que
E X = E( +z) = +E Z = .
En forma analoga, se tiene que V ar Z = 1, y se prueba que V ar X =
2
.
Ya hemos probado que (3.20) integra 1 sobre la recta real, o sea vimos, via integral doble
que
1
2
_

e
z
2
/2
dz = 1.
Note que esta integral es simetrica alrededor del 0, lo cual implica que la integral sobre
(, 0) es igual a la integral sobre (0, ). As el problema se reduca a probar
_

e
z
2
/2
dz =
2
2
=
_
2
. (3.21)
Dijimos que la funcion e
z
2
/2
no tiene una antiderivada que puede ser escrita explcitamente
en terminos de funciones elementales (esto es, en forma cerrada), por ello, no podemos
resolver la integral en forma directa. Se resuelve va una integral doble
La integral (3.21) esta relacionada con la funcion gamma; en efecto haciendo la sustitucion
w =
1
2
z
2
en (3.21) nosotros vemos que esta integral es (
1
2
). Si se es cuidadoso al conseguir
las constantes correctas ,nosotros vemos que la sustitucion propuesta implica
_
1
2
_
=
_

0
w
1/2
e
w
dw =
. (3.22)
La distribucion normal es un poco especial en el sentido, que sus dos parametros, (la
media) y
2
(la varianza), nos proveen una completa informacion exacta acerca de la forma
y la ubicacion de la distribucion. Esta propiedad que tiene la distribucion normal, no es solo
para esta fdp, pero esta formada por una familia de fdps llamadas familias de localizacion
y escala.
Basta con resolver un elemental problema de calculo para mostrar que la fdp normal (3.20)
tiene un maximo en x = y puntos de inexion (donde la curva cambia de concava a
convexa) en x = . Ademas la probabilidad contenida entre 1,2 o 3 desviaciones estandar
de la media es
P([ X [ ) = P([ Z [ 1) = 0,6826
P([ X [ 2) = P([ Z [ 2) = 0,9544
P([ X [ 3) = P([ Z [ 3) = 0,9947
Donde X N(,
2
), Z N(0, 1) , y los valores numericos provienen de una tabla de dis-
tribucion normal. A menudo valores de dos dgitos son reportados, aunque no representan
valores redondeados, se ocupan frecuentemente.
Entre los muchos usos de la distribucion Normal, uno de gran importancia es su uso como
aproximacion de otras distribuciones (los cuales son justicados por el Teorema central del
Lmite). Por ejemplo, si X Bin(n, p), entonces E X = np y V ar X = np(1 p), y bajo
condiciones convenientes, la distribucion de X puede ser aproximada con una va. normal
con media = np y varianza
2
= np(1 p). Las condiciones convenientesson que n debe
ser grande y p no debe ser un valor extremo (ni estar cerca del 0, ni cerca del 1). Como es el
caso de todas las aproximaciones no hay reglas absolutas, y para cada aplicacion debe ser
chequeada para decidir si la aproximacion es buena para ese caso. Una regla conservativa
que se sigue es que la aproximacion sera buena si min(np, n(1 p)) 5.
Ejemplo 3.2.2. Sea X Bin(25, 0,6). Aproximar X con una va. Y normal, y calcule la
probabilidad de que X tome valores menores o iguales que 13, y compare con el valor exacto.
La aproximacion puede ser grandemente mejorada, por una correccion por continuidad.
Se describira un metodo estandar para mejorar la calidad de la aproximacion que se obtiene
cuando se aproxima una probabilidad basada en una distribucion discreta por una basada
en una distribucion continua.
Supongase, que la va. X tiene una distribucion discreta con fmp f(x) y se desea aproximar
esta distribucion por una distribucion continua con fdp g(x). Consideremos por simplicidad
solamente una distribucion discreta para la que todos los valores posibles de X sean enteros.
Si la fdp g(x) proporciona una buena aproximacion a la distribucion de X, entonces para
cualquier par de enteros a, b se puede aproximar simplemente la probabilidad
P(a X b) =
b
x=a
f(x) (3.23)
por la integral
_
b
a
g(x) dx. (3.24)
Esta sencilla aproximacion tiene el siguiente inconveniente: aunque P(X a) y P(X > a)
en general tendran valores distintos para la distribucion discreta, estas probabilidades seran
siempre iguales para la distribucion continua. Otra forma de expresar este inconveniente es
la siguiente: aunque P(X = x) > 0 para cualquier x entero que es un valor posible de X,
esta probabilidad es necesariamente 0 con la fdp aproximada.
La fmp de X se puede representar por un histograma, o diagrama de barras. Para cada
entero x, la probabilidad de que x se representa por el area de un rectangulo cuya base se
extiende desde x
1
2
hasta x +
1
2
y cuya altura es f(x). Entonces, el area del rectangulo
cuya base esta centrada en el entero x es simplemente f(x).
Desde este punto de vista se puede observar que P(a X b), como se especica en
la ecuacion (3.23), es la suma de la areas de los rectangulos formados por las barras que
representan la distribucion discreta que estan centrados en a, a +1, . . . , b. La suma de estas
areas se aproxima con la integral
_
b+
1
2
a
1
2
g(x) dx. (3.25)
el ajuste la integral (3.24) a la integral (3.25) se llama correccion por continuidad.
Si se utiliza la correccion por continuidad se determina que la probabilidad f(a) del entero
a se puede aproximar como sigue,
P(X = a) = P
_
a
1
2
X a +
1
2
_
(3.26)
_
a+
1
2
a
1
2
g(x) dx. (3.27)
Analogamente,
P(X > a) = P(X a + 1) = P
_
X a +
1
2
_
_

a+
1
2
g(x) dx.
Ejemplo 3.2.3. Continuacion ejemplo ultimo anterior Determinar usando la correc-
cion por continuidad P(X 13) y comparar todas las aproximaciones hechas sobre esta
probabilidad.
3.2.4. Distribucion Beta
La familia de distribuciones beta es una familia continua sobre (0, 1) indexada por dos
parametros. La fdp de la beta(, ) es
f(x [ , ) =
1
B(, )
x
1
(1 x)
1
, 0 < x < 1 > 0 > 0, (3.28)
donde B(, ) denota la funcion beta,
B(, ) =
_
1
0
x
1
(1 x)
1
dx.
La funcion beta esta relacionada con la funcion gamma a traves de la siguientes identidad:
B(, ) =
()()
( +)
. (3.29)
La (3.29) es muy usada al ocupar la funcion Beta, permitiendonos ciertas ventajas tomadas
de la funcio Gamma. En efecto, nunca trataremos directamente con la Beta, sino con (3.29)
para todas las evaluaciones que hagamos.
La distribucun Beta, es una de las pocas distribuciones, entre las mas conocidas que dan
probabilidad 1 sobre un intervalo nito, aqu el intervalo es el (0, 1). De esta manera, la
Beta es muy usada para modelas proporciones, las cuales, naturalmente caen entre 0 y 1.
Seran ilustradas algunas de estas situaciones en el captulo 4.
Calculemos los momentos para esta distribucion. Resolverlo es facil por la forma de la fdp.
Para n > se tiene
E X
n
=
1
B(, )
_
1
0
x
n
x
1
(1 x)
1
dx
=
1
B(, )
_
1
0
x
(+n)1
(1 x)
1
dx.
Reconocemos la integral como el n ucleo de una densidad beta( +n, ), de donde
E X
n
=
B( +n, )
B(, )
=
( +n)( +)
( + +n)()
. (3.30)
Usando (3.10) y (3.30) con n = 1 y n = 2, podemos calcular la media y la varianza de la
distribucion beta(, ) como sigue
E X =

+
y V ar X =

( +)
2
( + + 1)
.
Como los valores de y varan, la distribucion beta toma diversas formas, estrictamente
decrece ( = 1, > 1), forma de U ( < 1, < 1) o es unimodal ( > 1, > 1). El
caso = la fdp es simetrica alrededor de 1/2 y varianza (4(2 + 1)
1
). La fdp se vuelve
mas concentrada cuando crece, pero sigue siendo simetrica. Finalmente, si = = 1,
la distribucion se reduce a una uniforme en (0,1), mostrando que la uniforme puede ser
considerada un miembro de la familia beta. La beta esta tambies relacionada, a traves de una
transformacion, con la distribucion F, una distribucion que juega un papel extremadamente
importante en analisis estadstico.
3.2.5. Distribucion Cauchy
La distribucion Cauchy, es una distribucion simetrica y con forma de campana sobre
(, ) con fdp
f(x [ ) =
1
1
(x )
2
, < x < , < < . (3.31)
A los ojos, en principio, no parece tener grandes diferencias con la normal. Sin embargo
existe una gran diferencia entre ambas. Ya hemos vista que la media de esta distribucion
no existe, o sea hemos probado que E [ X [= . Es facil probar que la (3.31) es una fdp
para todo .
Ya que la E [ X [= , se sigue que esta no existen momentos para la distribucion
Cauchy, o sea que el valor absoluto de todos los momentos es . En particular la fgm
no existe.E [ X [= .
El parametro en no mide (3.31) el centro de la distribucion; sino que representa la me-
diana. De donde, se sique que si una va. X tiene distribucion Cauchy con parametro ,
entonces P(X ) =
1
2
, mostrando que es la mediana de la distribucion.
La distribucion Cauchy juega un rol especial en estadstica teorica. Ella representa, mas
bien un caso extremo contra conjeturas que pueden ser probadas; es decir en otras palabras
propiedades que todas las distribuciones cumplen en general no de dan para la Cauchy!!.
Diriamos que es un caso patologico. Por ejemplo es com un en la practica calcular cocientes
de observaciones, esto es cocientes de va.. Una sorpresa es el hecho que el cociente de dos
normales estandar tiene distribucion Cauchy; de donde el hecho de tomar cocientes nos
puede llevar a distribucines enfermas!!.
3.2.6. Distribucion Lognormal
Si X es una va. cuyo logaritmo esta normalmente distribudo (esto es, logX N(,
2
),
entonces se dice que X tiene una distribucion lognormal. La fdp de X puede ser obtenida por
una transformacion de la fdp Normal usando el teorema de las transformacines, obteniendose
f(x [ ,
2
) =
1
2
1
x
e
(logx)
2
/(2
2
)
, 0 < x < , < < , > 0 (3.32)
para la fdp de la lognormal. Los momentos de X pueden ser calculados directamete, usando
(3.32), o explotando su relacion con la normal.
E X = E e
log X
= E Y Y = log X N(;
2
))
= e
+(
2
/2)
.
La ultima igualdad se obtiene reorganizando la fgm de la distribucion normal (tomar t = 1).
Es posible usar una tecnica similar para calcular E X
2
, y conseguir asi
V ar X = e
2(+
2
)
e
2+
2
.
La distribucion lognormal, es en apariencia similar a la distribucion gamma. Esta distribu-
cion es muy com un cuando se aplican modelos, donde interesa la asimetra a la derecha.
3.2.7. Distribucion Doble Exponencial
La distribucion doble exponencial se forma reejando la distribucion exponencial alrede-
dor de su media. La fdp esta dada por
f(x [ , ) =
1
2
e
|x|/
, < x < , < < , > 0. (3.33)
La doble exponencial provee una distribucion simetrica con colas pesadas (mucho mas pe-
sadas que la Normal), pero tiene todos sus momentos. La esperanza y la varianza son muy
faciles de calcular, ellas son
E X = y V ar X = 2
2
.
La doble exponencial no tiene forma de campana. En efecto, tiene un pico (dicho de
manera mas formal, un punto de no diferenciabilidad) en x = . Es muy importante recor-
darlo al tratar con esta distribucion en forma analtica.
Existen muchas otras distribuciones continuas que tienen uso en diferentes aplicaciones
estadsticas, muchas de las cuales quizas apareceran a lo largo de estas notas. El material
bibliograco referente para las distribuciones usadas en estadstica, puede ser el trabajo de
Johnson y Kotz (1969,1970a,1970b).
3.3. Familias Exponenciales
Una familia de fdp o de fmp se denomina familia exponencial, si puede ser expresada
como
f(x [ ) = h(x)c() exp
_
k
i=1
w
i
()t
i
(x)
_
. (3.34)
Aqu h(x) 0 y t
1
(x), t
2
(x), . . . , t
k
(x) son funciones real valoradas de las observaciones x
(o sea, ellas no pueden depender de ), c() > 0 y w
1
(), w
2
(), . . . , w
k
() son todas funciones
real valoradas positivas del parametro vector valuado (ellas no pueden depender de x).
Muchas de las familias introducidas en las secciones previas son familias exponenciales.
Ellas incluyen las familias continuas (normal, gamma, beta, etc.) y las familias discretas
(binomial, Poisson, binomial negativa, etc.)
La forma especca (3.34) implica que las familias exponenciales tienen muchas propiedades
interesantes desde el punto de vista matematico. Pero a un mas importante para un modelo
estadstico, esta forma (3.34) implica muchas propiedades estadsticas interesantes y de facil
deduccion a partir de la misma.
Para vericar que una familia de fpds o fmps es una familia exponencial, nosotros debemos
identicar las funciones h(x), c(), w
i
(), t
i
(x) y mostrar que la familia tiene la forma (3.34).
Esto se ilustra en los siguientes dos ejemplos
Ejemplo 3.3.1. Mostrar que la familia bin(n,p), con n entero positivo, 0 < p < 1, es una
familia exponencial.
Ejemplo 3.3.2. Sea f(x [ ,
2
) la familia de densidades N(,
2
), donde = (, )
< x < > 0. Mostrar que esta es una familia exponencial.
Captulo 4
Modelos Multivariados
4.1. Distribuciones conjuntas y marginales
En captulos previos hemos discutido modelos de probabilidad y calculos de probabili-
dades sobre eventos que involucran solamente una variable aleatoria. Estos se llaman mod-
elos univariados. En este captulos discutiremos modelos de probabilidad que involucran
mas de una v.a., llamados naturalmente modelos multivariados.
En situaciones experimentales, no es usual observar solamente el valor de una v.a.. Esto
es, no representa un experimento usual aquel para el cual el total de los datos obtenidos
provienen solo de un valor numerico. Lo comun es tener mas de una variable para ser obser-
vada en una situacion experimental. Por ello, necesitamos conocer la manera de describir y
utilizar modelos de probabilidad que manejen mas de una v.a. al mismo tiempo.
Para la primera seccion, abordaremos modelos bivariados, es decir modelos que involucran
dos variables aleatorias.
Denicion 4.1.1. Un n-dimensional vector aleatorio es una funcion de un espacio muestral
en R
n
(espacio eucldeo n-dimensional)
Supongamos que con cada punto en un espacio muestral asociamos un para ordenado
97
de n umeros, esto es, un punto (x, y) R
2
, donde R
2
es el plano coordenado. Entonces,
as tenemos denido un vector aleatorio 2-dimensional (o bivariado) (X, Y ).
Ejemplo 4.1.1. Consideremos el experimento que consiste en arrojar dos dados honestos.
El espacio muestral para este experimento tiene 36 elementos igualmente probables. Por
ejemplo el punto muestral (3, 3) denota el resultado para el cual ambos dados muestran un
3; el punto muestral (4, 1) denota el resultado para el cual el primer dado mostro un cuatro
y el segundo dado un 1; etc. Ahora, con cada uno de los 36 puntos del muestral asociamos
dos n umeros, X e Y . Sean
X = Suma de los dos dados Y =[ Diferencia de los dados [ .
As, para el punto muestral (3, 3), X = 3+3 e Y =[ 33 [= 0. Para (4, 1), X = 5 e Y = 3.
Estos tambien son los valores de X e Y para el punto muestral (1, 4). Para cada uno de
los 36 puntos muestrales podramos calcular el valor de X e Y . De esta manera tenemos
denido un vector aleatorio vivariado (X, Y ).
Habiendo denido un vector aleatorio (X, Y ), podremos discutir probabilidades de eventos
denidos en termino del vector (X, Y ). Que es P(X = 5 e Y = 3)?, sera posible vericar
que los unicos puntos muestrales que hacen que X = 5 e Y = 3 son (4, 1) y (1, 4). As el
evento X = 5 e Y = 3.
o
currira s y solo s el evento (4, 1); (1, 4) ocurre. Ya que cada uno
de los 36 puntos muestrales es igualmente probable, se tiene
P((4, 1); (1, 4)) =
2
36
=
1
18
.
As,
P(X = 5 e Y = 3) =
1
18
.
De aqu en adelante, escribiremos P(X = 5, Y = 3) por P(X = 5 e Y = 3). Leer la coma
como una
2
. En forma analoga, P(X = 6, Y = 0) =
1
36
por que el unico punto muestral
hace que X = 6, Y = 0 es el (3, 3). Para eventos mas complicados, la tecnica es la misma.
Por ejemplo, P(X = 7, Y 4) =
4
36
=
1
9
por que solamente para cuatros puntos muestrales
se cumple que X = 7, Y 4, ellos son (4, 3); (3, 4); (5, 2); (2, 5).

Notas de Probabilidad

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Notas de Probabilidad

Enviado por

Direitos autorais:

Formatos disponíveis

PROBABILIDAD Y ESTAD

Area Matematica. Departamento de Ciencia y Tecnologa

= (0, ) la cual es una union no-numerable. Mientras uniones e

son los sucesos

con una funcion de probabilidad P, y denimos una v.a. X con un rango en A = x

Você também pode gostar