Escolar Documentos
Profissional Documentos
Cultura Documentos
Area
Matematica. Departamento de Ciencia y Tecnologa
Probabilidad y Estadstica
AGRADECIMIENTOS
Probabilidad y Estadstica
Primer Semestre 2005
Probabilidad y Estadstica
PROBABILIDAD Y ESTADISTICA
TEORIA Y APLICACIONES
Prof. Magister Osmar Daro Vera
PERSPECTIVA HISTORICA
Si somos tan afortunados como para disponer de un modelo teorico perfecto que
vincula los valores de ciertas variables con los de otras (por ejemplo en la Mecanica
de Newton, es posible predecir exactamente la trayectoria de un objeto, una vez especificadas la posicion inicial, la velocidad inicial y todas las fuerzas que act
uan sobre
el), su aplicacion se ve trabada por la imposibilidad de conocer estos valores con absoluta precisi
on, es decir cuando hay errores de medici
on. Los Modelos probabilsticos
constituyen una alternativa a los modelos determinsticos en situaciones de este tipo.
Probabilidad y Estadstica
Primer Semestre 2005
ii
Indice general
AGRADECIMIENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
PERSPECTIVA HISTORICA
. . . . . . . . . . . . . . . . . . . . . . . . .
ii
1. Teora de Probabilidades
10
13
15
19
20
20
21
1.4. EJERCICIOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2. Variables aleatorias
35
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
38
43
49
49
57
iii
Probabilidad y Estadstica
2.5. Momentos y Funciones Generadoras de Momentos . . . . . . . . . . .
61
2.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
71
71
72
72
75
78
80
82
83
83
83
86
91
92
93
93
94
4. Modelos Multivariados
97
Probabilidad y Estadstica
Primer Semestre 2005
iv
97
Captulo 1
Teora de Probabilidades
La teora de probabilidades determina la fundamentacion sobre la cual esta construida toda la estadstica, proveyendo de un medio para modelar poblaciones, experimentos, o al menos todo aquello que puede ser considerado fenomeno aleatorio.
A traves de esos modelos, los estadsticos son capaces de manejar inferencias acerca
de las poblaciones, inferencias basadas en general en una parte del todo.
La teora de probabilidades posee una larga y rica historia, sus comienzos datan
del siglo XVII cuando, a pedido de sus amigos, el Chevalier de Mere, Pascal y Fermat
desarrollaron una formulacion matematica de juegos basadas en desigualdades.
Probabilidad y Estadstica
1.1.
Teora de Conjuntos
Probabilidad y Estadstica
todos los posibles n
umeros reales positivos, es decir, S = (0, ).
Probabilidad y Estadstica
permitiran ordenar e igualar conjuntos:
A B x A = x B
inclusion
A = B A B B A
igualdad
Probabilidad y Estadstica
y
C c = {E, F F E, F F F F E, . . .} = {se examina un n
umero par de bateras}
Ademas, podra suceder que A B = (el evento ), y (A B)c = , donde
denota el conjunto vaco (el conjunto que no tiene elementos).
1. Conmutatividad
AB = BA
A (B C) = (A B) C
2. Asociatividad
A (B C) = (A B) C
3. Leyes Distributivas A (B C) = (A B) (A C)
A (B C) = (A B) (A C)
4. Leyes de De Morgan
(A B)c = Ac B c
(A B)c = Ac B c
Probabilidad y Estadstica
(podra serle familiar demostrarcon el uso de diagramas de Venn teoremas en teora
de conjuntos. Por un tema de precaucion diremos que los diagramas de Venn, en
algunos casos, sirven como ayuda para visualizar la situacion, pero con eso no se
da una demostracion formal). Para probar que dos conjuntos son iguales, como es
este el caso, debe ser demostrado que cada conjunto contiene al otro. Formalmente,
entonces
A (B C) = {x S : x A x (B C)};
(A B) (A C) = {x S : x (A B) x (A C)}.
Primero mostramos que A (B C) (A B) (A C). Sea x (A (B C)).
Por la definicion de interseccion, se debe cumplir que x (B C)), o sea, cada
x Bx C. Ya que x tambien debe estar en A, se tiene que cada x (AB)x
(A C); por lo tanto,
x ((A B) (A C)),
y la inclusion ha sido establecida.
Ahora asumimos que x ((A B) (A C)). Esto implica que x (A B) x
(A C). Si x (A B) entonces x esta tanto en A como en B. Como x B, x
(B C) y as, x (A (B C). Si por otro lado, x (A C), con argumento
similar, concluimos nuevamente que x (A (B C)). As, hemos establecido que
((A B) (A C)) (A (B C), mostrando la inclusion en la otra direccion, por
lo tanto, se tiene demostrada la Ley Distributiva.
[
i=1
Ai = {x S : x Ai , para alg
un i},
Ai = {x S : x Ai , para todos los valores de i}.
i=1
Probabilidad y Estadstica
Primer Semestre 2005
Probabilidad y Estadstica
Por ejemplo, sea S = (0, 1] y definimos Ai = [(1/i), 1]. Entonces
Ai =
i=1
i=1
Ai
\
=
[(1/i), 1] = {x (0, 1] : x [(1/i), 1] para todo i}
i=1
i=1
solo el valor 1
Funciones definidas sobre el espacio muestral, son con frecuencia mas importantes
que los eventos en s mismos. Ahora discutiremos la forma como un conjunto es
identificado con una funcion {0, 1}-valuada.
Definici
on 1.1.3. La funcion indicadora del conjunto A S, es la funcion sobre S
dada por
1 si A
IA () =
0 si
/ A.
As, vemos que la funcion IA () indica si el evento A ocurre. Operaciones algebraicas sobre funciones indicadoras, generalizan conjuntos de operaciones sobre
eventos:
IAB = max {IA , IB }
IAB = mn {IA , IB } = IA IB
IAc = 1 IA .
Tambien es posible definir uniones e intersecciones sobre colecciones no numerables
de conjuntos. Si es un conjunto de ndices (es decir, un conjunto de elementos a ser
usados como ndices) entonces
[
A = {x S : x A , para alg
un },
A = {x S : x A , para todo }.
Probabilidad y Estadstica
Primer Semestre 2005
Probabilidad y Estadstica
Si, por ejemplo, tomamos como = {todos los reales positivos} y A = (0, a],
S
entonces A = (0, ) la cual es una union no-numerable. Mientras uniones e
intersecciones no- numerables no juegan un rol importante en estadstica, ellas a
veces proveen mecanismos muy usados para obtener algunas respuestas.
Finalmente discutiremos la idea de una particion de un espacio muestral.
Definici
on 1.1.4. Dos eventos A y B son disjuntos (o mutuamente excluyentes) si
A B = . Los eventos A1 , A2 , . . . son disjuntos tomados de a pares si Ai Aj =
para todo i 6= j.
Conjuntos disjuntos son aquellos que no tienen puntos en com
un. Si ocupamos un
diagrama de Venn para dos conjuntos disjuntos, estos no se solapan. La coleccion
Ai = [i, i + 1),
i = 0, 1, 2, . . .
S
i=1
Ai = S,
1.2.
Teora de Probabilidad
Cuando se efect
ua un experimento, la realizacion del mismo es un resultado en el espacio muestral. Si se efect
ua el experimento un n
umero de veces, diferentes resultados
pueden ocurrir o alg
un resultado puede repetirse. Esta frecuencia de ocurrenciade
un resultado puede ser pensado como una probabilidad. Es mas probable que ocurra
Probabilidad y Estadstica
Primer Semestre 2005
Probabilidad y Estadstica
un resultado, si este se repite mas frecuentemente. La frecuencia de ocurrenciade
un evento es un ejemplo de una interpretacion particular de probabilidad, llamada
objetiva. Otra posible interpretacion es la subjetiva, donde en vez de pensar en la
probabilidad como una frecuencia, podemos pensarla como una creencia de la chance
que un evento ocurra. Es decir, por ejemplo dos sujetos diferentes ubicados en distintos sitios pueden asignar distinto valor a la creencia de la chance de un mismo evento1 .
Consideremos un experimento que se puede realizar repetidamente en forma identica e independiente, y sea A en evento formado por un conjunto de resultados del
experimento. Los ejemplos simples de tales experimentos repetibles incluyen aquellos
de lanzar una moneda al aire y dados. Si el experimento se realiza n veces, en alguna
de las repeticiones ocurrira el evento A (el resultado estara en el conjunto A), y en
otros, A no ocurrira. Denotemos por n(A) el n
umero de repeticiones en las que ocurre
A. Entonces la relacion n(A)/n recibe el nombre de frecuencia relativa de ocurrencia del evento A en la secuencia de n repeticiones. La evidencia emprica, basada en
los resultados de muchas de estas secuencias de experimentos repetibles, indica que a
medida que n crece, la frecuencia relativa n(A)/n se estabiliza alrededor de un valor,
como se ve en la Figura 1.12 . Esto es, a medida que n se hace arbitrariamente grande,
la frecuencia relativa se aproxima a un valor lmite que se conoce como frecuencia
relativa lmite del evento A. La interpretacion objetiva de probabilidad identifica esta
frecuencia relativa lmite con el n
umero P (A) (probabilidad del suceso A).
El libro de Robert Wilkler, Introduction to Bayesian Inference and Decision, contiene varias
Probabilidad y Estadstica
1.2.1.
Fundamento axiom
atico
10
Probabilidad y Estadstica
Desafortunadamente este tema no es tan sencillo. Hay algunas dificultades tecnicas
para ser superadas. No nos detendremos en tantos tecnicismos, aunque son de importancia, usualmente tienen mas interes para probabilistas que para estadsticos. Por
lo tanto, el objeto de comprender la estadstica requiere al menos que te familiarices
con los siguientes conceptos.
Definici
on 1.2.1. Una colecci
on de subconjuntos de S, o una familia de subconjuntos
de S se denomina Algebra
de Borel (o sigma
algebra), denotado por B, si esa
satisface las siguientes tres propiedades:
1. B
2. Si A B entonces Ac B (B es cerrado bajo complementaci
on)
3. Si A1 , A2 , . . . B entonces
S
i=1
El entorno matematico que ocupa la probabilidad necesita que nosotros trabajemos con -algebras, pero con rareza estas son dadas a priori. Lo mas com
un es elegir
una -algebra que contenga definido explcitamente algunas clases de eventos elementales. Afortunadamente, existe un mecanismo para lograrlo: dada cualquier clase de
subconjuntos de , siempre existe una familia minimal conteniendo aquella clase y
cerrada bajo los conjuntos de operaciones preestablecidas en definicion 1.2.1. La minimalidad es importante pues, a menos que sea numerable, el conjunto de partes de
es demasiado grande. Aqu la -algebra que nos interesara es la u
nica mas peque
na
que contiene todos los conjuntos abiertos de un espacio muestral S dado. Sabemos
que esta siempre existe por lo dicho en el parrafo u
ltimo anterior.
Ejemplo 1.2.1. Si tiene n elementos, este tiene 2n conjuntos en B. Si {1, 2, 3},
entonces B est
a representado por la siguiente colecci
on de 23 = 8 conjuntos:
{1}; {1, 2}; {1, 2, 3}; {2}; {1, 3}; {3}; {2, 3};
En general, si no es numerable, no es facil describir a B; entonces B se elige de
tal manera que contenga los conjuntos de interes y cumpla con su definicion.
Probabilidad y Estadstica
Primer Semestre 2005
11
Probabilidad y Estadstica
Ejemplo 1.2.2. Sea S = (, ), la recta real. Entonces B se elige de tal manera
que contenga todos los conjuntos de la forma:
[a, b]
(a, b]
(a, b),
[a, b)
A B
2. P (S) = 1
S
P
3. Si A1 , A2 , . . . B son dos a dos disjuntos, entonces P (
i=1 Ai ) =
i=1 P (Ai ).
La terna (S , B , P) se denomina espacio de probabilidad. Tambien se suele anotar S
con la letra griega .
A partir de ahora todo sera estudiado en espacios de probabilidad, a pesar de mantenernos en un lenguaje de experimentos y eventos.
Las tres propiedades dadas en la definicion 1.2.2 usualmente se denominan Axiomas de Probabilidad (o Axiomas de Kolmogorov, uno de los padres de la teora
de probabilidad). Cualquier funcion P que satisfaga los Axiomas de Probabilidad es
llamada funcion de probabilidad. Esta definicion axiomatica no hace referencia a la
funcion elegida en particular P , solo se requiere que P satisfaga los axiomas. As,
para un mismo espacio muestral, muchas funciones P diferentes pueden ser definidas
Probabilidad y Estadstica
Primer Semestre 2005
12
Probabilidad y Estadstica
sobre el. Debera ser observada, seguramente, el experimento particular para asignar
la funcion P adecuada.
Ejemplo 1.2.3. Consideremos el experimento simple que consiste en arrojar una
moneda, as = {C, S}. Entenderemos por moneda normal.a una tal balanceada, o
sea equilibrada de manera tal que pueda caer de cara o ceca no este relacionado con
la moneda, sino con el resultado aleatorio del experimento. Con lo cual,
P ({C}) = P ({S}).
(1.1)
Note que hemos dado una interpretacion simetrica de probabilidad (o hemos ocupado la intuicion) para imponer el requerimiento que tanto las caras como las secas sean
igualmente probables. Como = {C} {S}, se tiene del ax. 2, P ({C} {S}) = 1.
Tambien, los eventos {C} y {S} son disjuntos, as P ({C}{S}) = P ({C})+P ({S}) =
1y
P ({C}) + P ({S}) = 1.
(1.2)
1.2.2.
El c
alculo de probabilidad
13
Probabilidad y Estadstica
bilidad mas complicado.
Comenzaremos con algunas (casi evidentes, otras no tanto) propiedades de la funcion
de probabilidad cuando la aplicamos a un evento simple,
Teorema 1.2.1. Sea (, B, P ) un espacio de probabilidad y A, B B, entonces se
cumple,
a. P () = 0, donde indica el conjunto vaco;
b. P (A) 1;
c. P (Ac ) = 1 P (A);
d. P (B Ac ) = P (B) P (A B);
e. P (A B) = P (A) + P (B) P (A B);
f. Si A B entonces P (A) P (B).
g. P (A B) P (A) + P (B) 1
Ejemplo 1.2.4. La u
ltima desigualdad del teorema u
ltimo anterior es muy usada
cuando es difcil (o casi imposible) calcular la probabilidad de la intersecci
on de dos
eventos, pero alguna de la medida de esa probabilidad se desea conocer. Supongase
que A y B son dos eventos, cada uno con probabilidad 0.95. Entonces la probabilidad
que ambos ocurrieran esta acotada inferiormente por
P (A B) P (A) + P (B) 1 = 0,95 + 0,95 1 = 0,90.
Cerramos esta seccion con un teorema que da algunos resultados u
tiles para tratar
con una coleccion de eventos.
Teorema 1.2.2. Sea (, B, P ) un espacio de probabilidad, entonces
a. P (A) =
b. P (
S
i=1
P
i=1
Ai )
Boole)
Probabilidad y Estadstica
Primer Semestre 2005
14
Probabilidad y Estadstica
1.2.3.
T
ecnicas de conteo
A menudo los metodos de conteo son ocupados en orden para construir asignaciones de probabilidad sobre espacios muestrales finitos, aunque pueden ser usados
para responder tambien otras cuestiones.
Si se tira un dado de seis caras 5 veces sucesivamente, entonces cada posible resultado es un conjunto ordenado de cinco n
umeros tales como (1, 3, 1, 2, 4) o (6, 5, 2, 2, 2).
A un conjunto ordenado de k objetos le daremos el nombre de k upla. Cada resultado del experimento de lanzar el dado es entonces una 5 upla. Quisieramos responder
a la siguiente pregunta: cuantos son los resultados posibles totales del experimento?.
Sabemos que son muchos, no queremos enumerarlos uno a uno, sino, simplemente determinar cuantos son. El siguiente teorema es el primer paso para resolver tal proceso,
y muchas veces se lo conoce como Teorema Fundamental de Conteo.
Teorema 1.2.3. Supongamos que un conjunto esta formado por grupos ordenados de
k elementos (k upla) y que hay n1 posibles opciones para el primer elemento; por
cada opci
on del primer elemento hay n2 posibles opciones para el segundo elemento;
. . .; por cada posible opci
on de los primeros k 1 elementos hay nk opciones del
k-esimo elemento. Entonces hay n1 n2 . . . nk posibles k uplas.
Ejemplo 1.2.5. El propietario de una casa desea hacer una serie de remodelaciones
y requiere los servicios de un contratista plomero y de un contratista electricista.
Supongamos que este trabajo implica compar primero varios utensillos para la cocina.
Se comprar
an todos al mismo distribuidor. Hay cinco distribuidores en la zona; 12
contratistas plomeros y 9 contratistas electricistas. De cuantas maneras se pueden
seleccionar los distribuidores y los contratistas para hacer el trabajo?. Denotemos a
los distribuidores por d1 , d2 , . . . , d5 ; los plomeros por p1 , p2 , . . . , p12 y los electricistas
por e1 , e2 , . . . , e9 , entonces querremos contar el no de ternas de la forma (di , pj , ek ).
Con n1 = 5; n2 = 12; n3 = 9, el producto N = n1 n2 n3 = 5 12 9 = 540 formas
Probabilidad y Estadstica
Primer Semestre 2005
15
Probabilidad y Estadstica
de seleccionar primero un distribuidor de aparatos domesticos, luego un contratista
plomero y, finalmente, un contratista electricista.
Ejemplo 1.2.6. Supongamos que una persona decide jugar al Quini seis. Entre los
n
umeros 1, 2, . . . , 36 una persona puede elegir 6 cualesquiera para completar su boleta.
El n
umero ganador entonces, se selecciona en forma aleatoria, tomando seis n
umeros
entre los 36. Para calcular la probabilidad de ganar, primero debemos contar cuantos
grupos diferentes de seis n
umeros pueden se elegidos de entre los 36.
La distincion hecha en el ejemplo esta entre contar con reemplazo y sin reemplazo.
Hay otro elemento crucial en todo problema de conteo, si es o no importante el orden
en que se eligen los elementos. Para ejemplificarlo, supongamos que el n
umero ganador
para el Quini es seleccionado con el siguiente orden: 12,36,35,9,13,22. Aquella persona
que selecciono: 9,12,13,22,35,36; se lo califica como un ganador?. En otras palabras
importa el orden en que se eligieron los n
umeros para conformar el carton?. Tomado
todas esas consideraciones dentro del conteo, es posible construir una tabla de 2 2
que incluya todas las posibilidades:
Probabilidad y Estadstica
Primer Semestre 2005
16
Probabilidad y Estadstica
Posibles Metodos de conteo
Con reemplazo
Sin reemplazo
ordenado
sin orden
Antes de comenzar a contar, las siguientes definiciones nos daran algunas precisiones.
Definici
on 1.2.3. Para cualquier entero positivo n, n! (se lee n factorial) es el producto de todos los enteros positivos menores o iguales que n. Esto es,
n! = n (n 1) (n 2) 3 2 1.
Adem
as de define 0! = 1.
Consideremos ahora todos los posibles cartones de Quini bajo cada uno de los
cuatro casos dados en la tabla
1. Ordenados sin reemplazo Del T.F.C., el primer n
umero puede ser
seleccionado de 36 formas, el segundo de 35, etc. , entonces todos los
posibles son:
36 35 34 33 32 31 =
35!
= 1,402,410,240
30!
posibles cartones.
2. Ordenados con reemplazo Cada n
umero puede ser seleccionado en 36
formas diferentes (pues el n
umero elegido es reemplazado), entonces
hay,
36 36 36 36 36 36 = 366 = 2,176,782,336
posibles cartones.
3. Sin orden, sin reemplazo Nosotros conocemos el n
umero posible de
cartones para una consideracion de orden, ahora deberemos dividir
Probabilidad y Estadstica
Primer Semestre 2005
17
Probabilidad y Estadstica
por el n
umero de ordenamientos redundantes. Nuevamente usando
el T.F.C., seis n
umeros pueden ser ordenados en 6 5 4 3 2 1
caminos, as el total de cartones distintos no ordenados es:
36 35 34 33 32 31
36!
=
= 1,947,792
654321
6!30!
Esta forma juega un rol central en muchos problemas de estadstica,
mas a
un, se ha ganado una notacion especial.
Definici
on 1.2.4. Para enteros no-negativos n y r, n r, definimos el smbolo
n!
n
=
.
r
r! (n r)!
En nuestro ejemplo de los cartones de Quini, el n
umero posible de estos (sin orden, sin
36
reemplazo) es 6 . Cuando nos referimos ese n
umero se lo suele denominar coeficiente
binomial, las razones seran explicadas mas adelante.
4. Sin orden, con reemplazo Este es el caso mas difcil de conteo. Para
contar en este caso resulta mas facil pensar en ubicar seis marcas
sobre los 36 n
umeros. En efecto, podemos pensar a los 36 n
umeros
definiendo celdas, en las cuales podemos ubicar seis marcas, M, como
se muestra en la figura siguiente
M
1
MM
33
34
35
36
El n
umero de posibles cartones en entonces igual al n
umero de caminos distintos
distintos en que podemos acomodar las seis marcas en las 36 celdas. Pero esto puede
ser reducido notando que todo lo que necesitamos para guardar la marca es un arreglo
con las marcas y de barras de las celdas. Note ademas que las dos barras externas
no juegan ning
un papel. As, nosotros tenemos para contar todos los arreglos de 35
barras (36 celdas se corresponden con 37 barras, pero quitamos las barras de sendos
extremos) y 6 marcas. Por lo tanto, tenemos 35+6=41 objetos, los cuales pueden ser
Probabilidad y Estadstica
Primer Semestre 2005
18
Probabilidad y Estadstica
ordenados en 41! formas. Sin embargo, para eliminar los ordenamientos redundantes
debemos dividir por 6! y 35!, as el n
umero total de arreglos es:
41!
= 4,496,388.
6!35!
Aunque todas las derivaciones anteriores fueron hechas a partir de un ejemplo, es facil
ver que se mantienen en general, para completar, es posible resumir las situaciones a
traves de la siguiente tabla:
N
umero de posibles arreglos de medida r entre n objetos
sin reemplazo
con reemplazo
n!
(nr)!
nr
Ordenado
Sin orden
1.2.4.
n+r1
P ({i }) =
i A
X 1
n
umero de elementos en A
=
.
N
n
u
mero
de
elementos
en
A
i
Para muestras grandes, las tecnicas de conteo podran ser usadas para determinar
tanto el numerador como el denominador de esta expresion.
Ejemplo 1.2.8. Cuando dos dados ruedan separadamente, hay N = 36 resultados
posibles. Si ambos dados no estan cargados, los 36 resultados son igualmente probables, as que P (Ei ) =
Probabilidad y Estadstica
Primer Semestre 2005
1
,
36
Probabilidad y Estadstica
muestral. Entonces el evento A = {(x, y) : x + y = 7}, o sea la suma de los
n
umeros que aparecen en los dados es igual a siete, esta formado por los siguientes
seis resultados:
(1, 6); (2, 5); (3, 4); (4, 3); (5, 2); (6, 1);
as que, se tiene P (A) =
N (A)
N
6
36
= 16 .
1.3.
Probabilidad Condicional
1.3.1.
Sabemos que los casos posibles son 6 6 = 36, pues en el dado rojo puede salir
cualquier n
umero del 1 al 6 y, para el caso del blanco tambien. De entre estos 36 casos
posibles, u
nicamente hay un caso favorable, y por lo tanto la probabilidad buscada
en 1/36. Se tiene as que, mientras que en la probabilidad de que un dado rojo salga
2 es 1/6 y la que en el dado blanco salga 5 es tambien 1/6, la probabilidad de que
ocurran a la vez los dos sucesos es tambien el producto (1/6) (1/6).
Este hecho se
nalado en el ejemplo u
ltimo anterior es general. Supongamos que
para un suceso A hay m1 casos favorables entre un total de n1 posibles y para otro
suceso B hay m2 casos favorables entre un total de n2 posibles. Entonces se tiene
que P (A) = m1 /n1 y P (B) = m2 /n2 . Consideremos ahora el conjunto de pares de
casos posibles y favorables. Esta claro que habra n1 n2 casos posibles, y entre ellos,
m1 m2 casos favorables (en que tienen lugar A y B simultaneamente). Por lo tanto
P (A B) = m1 m2 /n1 n2 = P (A) P (B).
Probabilidad y Estadstica
Primer Semestre 2005
20
Probabilidad y Estadstica
Podemos, por lo tanto, enunciar el siguiente principio de las probabilidades compuestas:
(1.3)
supiese de antemano que el resultado es par es menos probable que sea menor que 4
que si no se supiera.
1.3.2.
Probabilidad Condicional
Probabilidad y Estadstica
Primer Semestre 2005
P (A B)
.
P (A)
21
(1.4)
Probabilidad y Estadstica
Se debera probar que esta definicion de probabilidad condicional es admisible, es
decir, que la probabilidad condicional PA (B) = P (B/A), definida para todo B B,
una vez fijado A B, cumple con las tres partes de la definicion de probabilidad.
Se debe probar que (, B, PA ) es tambien un espacio de probabilidad. Esto se deja
como ejercicio. Un vez probado podremos afirmar que la u
ltima definicion anterior es
admisible. A partir de ella se puede escribir
P (A B) = P (A) P (B/A).
(1.5)
En forma analoga y fijando el suceso B, suponiendo que P (A) 6= 0, se tiene la probabilidad condicional
P (A/B) =
P (B A)
.
P (B)
(1.6)
(1.7)
A y B independientes
(1.8)
(1.9)
Esto nos dice que la independencia es una propiedad simetrica, que puede definirse
por cualquiera de las igualdades (1.7) o (1.9).
probabilidades compuestas).
Probabilidad y Estadstica
Primer Semestre 2005
22
Probabilidad y Estadstica
La definicion de independencia se generaliza a mas de dos eventos de la siguiente
manera:
Definici
on 1.3.3. Se dice que n sucesos A1 , A2 , . . . , An son independientes
o (completamente independientes) si se verifica
P (Ai1 Ai2 . . . Aik ) = P (Ai1 ) P (Ai2 ) P (Aik )
(1.10)
i1 i2 . . . in
j1 j2 . . . jn
Probabilidad y Estadstica
Primer Semestre 2005
23
Probabilidad y Estadstica
donde i1 , i2 , . . . , in son los n
umeros entre 1 y n que salen de la primera urna, y
j1 j2 . . . jn son los que salen de la segunda. El n
umero total de elementos del espacio
muestral es n! n! = (n!)2 (casos posibles) y la probabilidad de cada suceso elemental
es 1/(n!)2 .
Consideremos Ai , el conjunto de elementos de , en los cuales el i en la primera fila
coincide con el j = i en la segunda fila, independientemente del lugar en que ocurra
la coincidencia. Por ejemplo, A3 es el conjunto de las matrices de la forma
...3...
.
3
El problema final se trata de calcular P (A1 A2 . . . An ). Para ello es posible
aplicar la formula:
P (A1 A2 . . . An ) =
P
i
P (Ai )
P
i,j
P (Ai Aj ) +
P
i,j,k
P (Ai Aj Ak ) +
(1)n1 P (A1 A2 . . . An ), donde las sumas se extienden en cada caso a todas las
combinaciones posibles entre los diferentes ndices i, j, k, . . ., o sea que todo se reduce
al calculo de las probabilidades del segundo miembro. Buscaremos el valor de cada
sumando:
(a) Probabilidad P (Ai ). El n
umero de elementos del espacio muestral en que coinciden los n
umeros i, lo calculamos de la siguiente forma. Fijado el lugar en que
ocurre la coincidencia, los restantes n1 n
umeros de la primera y de la segunda
fila pueden ser cualesquiera, y por lo tanto se tienen ((n 1)!)2 casos. Como el
lugar de la coincidencia puede ser tambien cualquiera, se tienen en cada caso,
n posibilidades mas. De donde Ai esta compuesto de n ((n 1)!)2 elementos
del muestral, en consecuencia
1
n ((n 1)!)2
= ,
P (Ai ) =
2
(n!)
n
X
i
P (Ai ) =
n
= 1.
n
(b) Probabilidad P (Ai Aj ). Fijamos los lugares en que ocurren las coincidencias
de los lugares i y j, los restantes n 2 n
umeros de la primera y de la segunda
Probabilidad y Estadstica
Primer Semestre 2005
24
Probabilidad y Estadstica
fila pueden ser cualesquiera, y por lo tanto se tienen ((n 2)!)2 casos. Como los
lugares de las coincidencias pueden ser tambien cualquiera de los n, se tienen
en cada caso, n(n 1) posibilidades mas. De donde Ai Aj esta compuesto de
n(n 1) ((n 2)!)2 elementos del muestral, en consecuencia
n(n 1) ((n 2)!)2
1
=
2
(n!)
n(n 1)
X
1
n
1
P (Ai Aj ) =
= .
2
2 n(n 1)
i,j
P (Ai Aj ) =
(c) Analogamente,
P (Ai Aj Ak ) =
1
n(n 1)(n 2) ((n 3)!)2
=
2
(n!)
n(n 1)(n 2)
y por lo tanto
X
i,j,k
n
1
1
P (Ai Aj Ak ) =
= .
3 n(n 1)(n 2)
3!
Se tiene as como resultado final (procediendo sucesivamente) que la probabilidad de por lo menos una coincidencia es:
P =1
1
1
1
1
+ + . . . + (1)n .
2 3! 4!
n!
(1.11)
25
Probabilidad y Estadstica
Vamos a prescindir de la posibilidad de que alguien haya nacido el 29 de febrero y
por tanto supondremos que el a
no tiene 365 das. el espacio muestral se compone de
todos los conjuntos posibles de r fechas. Un individuo, seleccionado al azar, podra
cumplir a
nos en cualquiera de los 365 das del a
no, de manera analoga un segundo
individuo podra cumplir a
nos en cualquiera de los 365 das, etc. Por lo tanto, el
espacio muestral esta constituido por 365r puntos, cada uno de los cuales tiene la
misma probabilidad. En vez del suceso cuya probabilidad se busca, consideremos su
complemento: el que ning
un para de personas cumpla a
nos el mismo da. El n
umero
de elementos de este suceso se calcula as: la primera persona tiene 365 posibilidades;
la segunda no habiendo nacido el mismo da que la primera, tiene 364 posibilidades;
la tercera persona tiene 363 posibilidades y as sucesivamente, la u
ltima persona tiene
365 (r 1) posibilidades. En total, el suceso complementario consta de 365 364
363 . . . (365 (r 1)) elementos. De donde su probabilidad es este n
umero dividido
por 365r , y la probabilidad del suceso objeto del problema sera (suponiendo r > 1)
Pr = 1
Este n
umero no es facil de calcular directamente. Los siguientes valores dan una idea
de su comportamiento:
No de personas
10
20
23
30
40
60
Probabilidad
Pr 0.027 0.117 0.411 0.507 0.706 0.89 0.99
Se ha tenido en cuenta el n
umero r = 23, pues all la probabilidad es practicamente
1/2. Observe que si las personas son 60 o mas, la probabilidad es superior a 0.99, es
decir hay casi certeza de que por lo menos dos personas cumplan a
nos el mismo da,
lo cual es un resultado sorprendente a primera vista.
26
Probabilidad y Estadstica
Entonces
P (A) =
n
X
P (A/Bi )P (Bi ).
(1.12)
i=1
Esta se llama ley de la probabilidad total, para probarla basta con aplicar el Teorema
1.2.2 parte a) y (1.5).
(1.13)
Ejemplo 1.3.3. En una fabrica dos maquinas trabajan simultaneamente produciendo un mismo artculo. Se sabe que la maquina A produce el doble de artculos que la
m
aquina B. El porcentaje de artculos defectuosos producidos por A es una 10 %, en
tanto que el porcentaje de artculos defectuosos que produce B es un 5 %. Que cantidad de artculos debe fabricar cada maquina, para tener aproximadamente 5500 artculos buenos en total?
Solucion:
27
Probabilidad y Estadstica
, como ambos sucesos D A y D B son mutuamente excluyentes, resulta
P (D) = P [(D A) (D B)] = P (D A) + P (D B) = P (D/A)P (A) + P (D/B)P (D)
10 2
5 1
1
+
=
100 3 100 3
12
Esto nos dice que de cada 12 artculos fabricados 1 sera defectuoso y 11 seran buenos
(P (S) =
11
).
12
Entonces
11
5500
=
,
12
x
o sea
x = 6000 artculos
28
Probabilidad y Estadstica
examen la detecta como sana.
P (E/R+ ) =
P (E/R+ )
1/1000
0.083
1/500
0.153
1/200
0.311
1/100
0.476
1/10
0.909
Probabilidad y Estadstica
Primer Semestre 2005
29
Probabilidad y Estadstica
1.4.
EJERCICIOS
1.1 Para cada uno de los siguientes experimentos, describir el espacio muestral.
a. Arrojar una moneda cuatro veces
b. Contar el no de insectos da
ninos que viven sobre una planta.
c. Medir el tiempo de vida (en horas) de una marca particular de lamparitas
de luz.
d. Determinar el peso de ratas con 10 das de vida.
e. Observe la proporcion de defectos en un embarque de componentes electronicos.
1.2 Verifique las siguientes identidades.
a. A B = A (A B) = A B c
b. B = (B A) (B Ac )
c. B A = B Ac
d. A B = A (B Ac ).
, IAc = 1 IA
Probabilidad y Estadstica
Primer Semestre 2005
30
Probabilidad y Estadstica
c. Probar que el conjunto formado por el vaco y S es una sigma algebra.
1.8 Si Ai se define como en la demostracion del Teorema 1.2.2 (b), demuestre que
Ak Al = ,
k 6= l
1.9 Demuestre que si B es una -algebra, entonces tambien es cerrada para la diferencia entre conjuntos.
1.7 Sea (, B, P ) un espacio de probabilidad, A, B B.
Demuestre que P (A B) P (A) + P (B) 1 (caso especial de la desigualdad
de Bonferroni)
1.10 Aplicar la desigualdad de Boole al evento Ac ; y usando que
Aci = (
Ai )c ,
n
\
i=1
Ai )
n
X
P (Ai ) (n 1),
i=1
b) con reposicion.
31
Probabilidad y Estadstica
1.14 Una firma de consultora de computadoras ha licitado en tres proyectos. Sea
Ai = {proyecto i otorgado} , para i = 1, 2, 3 y supongamos que P (A1 ) =
0,22, P (A2 ) = 0,25, P (A3 ) = 0,28, P (A1 A2 ) = 0,11, P (A1 A3 ) = 0,05, P (A2
A3 ) = 0,07, P (A1 A2 A3 ) = 0,01. Exprese verbalmente cada uno de los siguientes eventos y calcule su probabilidad
a) A1 A2
b) Ac1 Ac2
c) A1 A2 A3
e) Ac1 Ac2 A3
f) (Ac1 Ac2 ) A3
25 %
16 %
32 %
27 %
32
Probabilidad y Estadstica
c) Cual es la probabilidad de que el comprador seleccionado haya comprado
la marca M?
1.16 Pruebe que la terna (, B, PA ) representa un espacio de probabilidad, siendo
PA (B) = P (B/A) =
P (AB)
.
P (A)
1.17 Pruebe que si dos eventos A y B son independientes, entonces tambien lo son
A y B c ; Ac y B; Ac y B c ; A y ; A y .
1.18 Demuestre formalmente la ley de probabilidad total.
1.19 Demuestre formalmente el Teorema de Bayes.
1.20 1
Probabilidad y Estadstica
Primer Semestre 2005
33
Probabilidad y Estadstica
Probabilidad y Estadstica
Primer Semestre 2005
34
Captulo 2
Variables aleatorias
2.1.
Introducci
on
En muchos experimentos resulta mas facil manejarse con una variable resumen que
con la estructura de probabilidad original. Por ejemplo, en una encuesta de opinion,
podramos decidir entrevistar a 50 personas y preguntarles si les agrada o no cierta
cosa. Si usaramos un 1 para el que contesta me agrada un o para el que contesta
2
me desagrada, el espacio muestral para este experimento tiene 250 elementos. Cada
uno de estos elementos es un arreglo de dimension 50, donde cada componente es un 1
o es un 0, debemos ser capaces de reducir esta medida enorme del espacio muestral de
alguna manera razonable. Esto podra hacerse si, por ejemplo, nos interesa solamente
el n
umero de personas a quienes les agrada (o equivalentemente, les desagrada) de
entre los 50 entrevistados. Nos podra interesar calcular, por ejemplo, la probabilidad
de que les agrade a la mitad, o a la tercera parte; y as definir la cantidad X =
n
umeros de 1s encontrados entre los 50, de esta manera tendramos capturada la
esencia del problema.
Probabilidad y Estadstica
mucho mas facil de manejar que el original. Para definir esta cantidad X es necesario
definir una funcion del espacio muestral original, , a un nuevo espacio, usualmente
el conjunto de los n
umeros reales. En general se tiene la siguiente
Definici
on 2.1.1. Una variable aleatoria es una funcion del espacio muestral en
los n
umeros reales.
Ejemplo 2.1.1. En muchos experimentos, variables aleatorias son usadas implcitamente. Veamos algunos ejemplos en la siguiente tabla:
Experimentos
Variable Aleatoria
X = suma de los n
umeros obtenidos
X = n
umero de caras obtenidas en los 50 tiros
En la definicion de v.a. tenemos definido un nuevo espacio muestral (el rango o recorrido
de la va). Ahora se debe chequear formalmente que nuestra funcion de probabilidad, la cual
esta definida sobre el espacio muestral original, puede ser usada para la v.a.
Supongamos que se tiene el siguiente espacio muestral:
= {1 , 2 , . . . , n }
con una funcion de probabilidad P , y definimos una v.a. X con un rango en X = {x1 , x2 , . . . , xn }.
Definiremos una funcion de probabilidad PX sobre X del siguiente modo:
PX (X = xi ) = P ({j / X(j ) = xi })
(2.1)
Note que la funcion PX a la izquierda del igual en (2.1) es una funcion de probabilidad
inducida por X , definida en terminos de la probabilidad original P . La igualdad (2.1) formalmente define una funcion de probabilidad, PX , para la v.a. X. Por supuesto que se
debera verificar que PX satisface los axiomas de Kolmogorov, lo cual se deja como ejercicio. Como son equivalentes, simplemente (2.1) se escribira como P (X = xi ) en lugar de
PX (X = xi )
Probabilidad y Estadstica
Primer Semestre 2005
36
Probabilidad y Estadstica
Notaci
on Variables aleatorias siempre seran denotadas por letras imprenta mayusculas
tales como, X, Y , Z, X1 , X2, Y1 , etc; y los valores de su realizacion (o su rango) con su
correspondiente letra min
uscula. As, la v.a. X diremos que puede tomar el valor x.
Ejemplo 2.1.2. Consideremos el experimento de arrojar una moneda tres veces. Definimos
la v.a. X = no de caras obtenidas en los tres tiros. Podemos realizar el siguiente cuadro:
X()
CCC
CCS
CSC
SCC
CSS
SCS
SSC
SSS
PX (X = x)
1/8
3/8
3/8
1/8
37
Probabilidad y Estadstica
En general
50
PX (X = i) =
250
2.2.
Funciones de Distribuci
on
FX (x) = PX (X x) = 0
0x<1
FX (x) = PX (X x) = P (X = 0) = 1/8
1x<2
FX (x) = PX (X x) = P (X = 0) + P (X = 1) = 1/2
2x<3
FX (x) = PX (X x) = P (X = 0) + P (X = 1) + P (X = 2) = 7/8
x3
= FX (x) = 1
Finalmente, la funcion de distribucion asociada a X es,
0 si x < 0
1/8 si 0 x < 1
FX (x) =
1/2 si 1 x < 2
7/8 si 2 x < 3
1 si x 3
Probabilidad y Estadstica
Primer Semestre 2005
38
Probabilidad y Estadstica
Le proponga al lector que grafique esta funcion, obtendra un grafico en R2 con las siguientes
caractersticas:
(a) FX (x) esta definida x, no solamente en X . Por ejemplo: FX (2,5) = 7/8
(b) Presenta saltos en los valores xi X , y la media de los saltos en xi es P (X = xi ).
(c) Es nula para todos los valores de x < 0; y vale 1 para todos los x 3.
(d) A pesar de presentar saltos en los puntos mencionados en (b), o sea discontinuidades, la
funcion alcanza siempre su valor en lo alto del salto, esto se conoce como continuidad
a la derecha. Simbolicamente se tiene:
lm FX (x) = FX (xi )
si xi X
xx+
i
Todas las f.d.a. cumplen ciertas propiedades, algunas de las cuales son obvias, cuando se
piensa que estan definidas en terminos de probabilidad.
Teorema 2.2.1. La funci
on F(x) es una f.d.a. s y s
olo s las siguientes tres condiciones
se cumplen:
(a)
lm
F (x) = 0
lm F (x) = 1
xx+
0
x0 .
Prueba:
Para probar la condicion necesaria, basta escribir F (x) en terminos de la funcion de probabilidad. Para la suficiencia o sea, que si una funcion F satisface las tres condiciones del
teorema entonces es una f.d.a. para una v.a., en mucho mas complicado (no lo haremos),
deberamos establecer que existe un espacio muestral , una funcion de probabilidad P
sobre , y una v.a. X definida sobre , tal que F es la f.d.a. de X.
Probabilidad y Estadstica
Primer Semestre 2005
39
Probabilidad y Estadstica
Ejemplo 2.2.2. Supongamos el experimento que consiste en arrojar una moneda tantas
veces como sea necesario hasta que salga la primera cara. Sea p= probabilidad de obtener
cara en cualquier lanzamiento.
Consideremos X= nro. de lanzamientos hasta que salga la primera cara. Determinar su
f.d.a.
X = {1, 2, 3, . . .}, entonces para x = 1, 2, . . . ,
P (X = x) = (1 p)x1 p ,
ya que debemos encontrar x 1 fallas hasta obtener la siguiente cara, ademas los eventos
ocurren de manera independiente. Para cualquier entero positivo x se tiene,
FX (x) = P (X x) =
x
X
P (X = i) =
x
X
i=1
(1 p)i1 p , x = 1, 2, . . .
i=1
tk1 =
k=1
1 tn
,
1t
t 6= 1
(2.2)
Este resultado se puede probar por induccion matematica. Aplicando (2.2) a nuestra probabilidad, encontramos que la f.d.a. de nuestra v.a. X es
FX (x) = P (X x)
=
1 (1 p)x
p
1 (1 p))
= 1 (1 p)x ,
x = 1, 2, . . .
La f.d.a. es una tal que presenta segmentos horizontales entre los enteros no negativos se
sugiere dibujar esta funcion, por ejemplo para p = 0,3.
Es facil mostrar que 0 < p < 1 para que FX (x) satisfaga las condiciones del teorema (2.2.1).
lm
FX (x) = 0,
lm FX (x) = lm [1 (1 p)x ] = 1.
Probabilidad y Estadstica
Primer Semestre 2005
40
Probabilidad y Estadstica
Ejemplo 2.2.3. Un ejemplo de una f.d.a. continua es la funci
on
1
,
1 + expx
FX (x) =
FX (x) = 0,
ya que
lm FX (x) = 1,
ya que
lm
expx =
y
x
lm expx = 0
Si una f.d.a. es continua o presenta saltos se corresponde con la asociacion de una v.a.
que sea continua o no. En efecto, la asociacion nos conduce a la siguiente definicion,
Definici
on 2.2.2. Una v.a. X es continua se FX (x) es una funci
on continua de x. Una
v.a. X es discreta de FX (x) es una funci
on dada a trozos con respecto a x.
Necesitamos definir la nocion de cuando dos v.a. son identicamente distribuidas.
Definici
on 2.2.3. Se dice que dos v.a. X e Y est
an identicamente distribuidas si para
cualquier conjunto A, P (X A) = P (Y B)
Note que dos v.a. que estan identicamente distribuidas no necesariamente son iguales.
Esto es, la definicion u
ltima anterior no dice que X = Y .
Ejemplo 2.2.4. Consideremos el experimento que consiste en arrojar una moneda tres
veces. Definimos las v.a. X e Y como sigue,
X = n
umero de caras obtenidas
Y
Probabilidad y Estadstica
Primer Semestre 2005
= n
umero de cecas obtenidas
41
Probabilidad y Estadstica
La distribucion de X esta dada en el ejemplo (2.1.2), y se verifica facilmente que
la distribucion de Y es exactamente la misma; esto significa que para valores de k =
0, 1, 2, 3 P (X = k) = P (Y = k). As, X e Y estan identicamente distribuidas, sin embargo, no para los mismos puntos se cumple X() = Y (). X 6= Y .
Para mostrar la equivalencia, debemos demostrar que cada afirmacion implica la otra.
Veamos que (a) = (b).
Ya que X e Y estan identicamente distribuidas, tenemos, para cualquier conjunto A,
P (X A) = P (Y B).
En particular, para el conjunto (, x] se tiene
P (X (, x]) = P (Y (, x])
x.
Pero esta u
ltima igualdad es equivalente a:
P (X x) = P (Y x)
x,
42
Probabilidad y Estadstica
2.2.1.
Asociada con una v.a.X y su f.d.a. FX (x) existe otra funcion, llamada seg
un corresponda:
funcion de densidad de probabilidad (f.d.p.) o funcion de masa de probabilidad (f.m.p.).
Los terminos (f.d.p.) y (f.m.p.) se refieren, respectivamente, a los casos continua y discreto.
Ambas funciones esta relacionadas con probabilidades puntuales de v.a.
Definici
on 2.2.4. Una funci
on de masa de probabilidad, f.m.p., de una v.a. discreta est
a dada por:
fX (x) = P (X = x) ,
x.
(1 p)x1 p si x = 1, 2, . . .
fX (x) = P (X = x) =
0
en otro caso
Recordar que fX (x) o equivalentemente P (X = x) es la medida del salto de la f.d.a. en
x. Se puede usar la f.m.p. en un punto para calcular probabilidades; necesitamos solamente
sumar sobre todos los puntos de un evento en forma apropiada.
Por lo tanto, para enteros positivos a y b, con a b, nosotros tenemos,
P (a X b) =
b
X
fX (k) =
b
X
(1 p)k1 p.
k=a
k=a
P (X b) =
b
X
fX (k) = FX (b).
k=1
P (X = x) P (x < X x) = FX (x) FX (x ),
Probabilidad y Estadstica
Primer Semestre 2005
43
Probabilidad y Estadstica
para cualquier > 0. Por lo tanto,
0 P (X = x) lm [FX (x) FX (x )] = 0,
x+
fX (x) dt
para todo x.
(2.3)
d
expx
FX (x) =
.
dx
(1 + expx )2
El area bajo la curva fx (x) dado un intervalo de probabilidad (ver Figura 2.1) es:
Probabilidad y Estadstica
Primer Semestre 2005
44
Probabilidad y Estadstica
Z
P (X [a, b]) = FX (b) FX (a) =
fX (x) dx
fX (x) dx =
fX (x) dx.
Solamente existen dos requerimientos para una f.d.p. (o f.m.p.), los cuales son inmediatas
consecuencias de la definicion.
Teorema 2.2.3. Una funci
on fX (x) es una f.d.p. (
o una f.m.p.) de una variable aleatoria
X si y s
olo s
(a) fX (x) 0
(b)
P
x
x.
fX (x) = 1 (f.m.p.)
R +
fX (x) dx = 1 (f.d.p.).
Prueba:
Si fX (x) es una f.d.p. (o una f.m.p.), las dos propiedades son inmediatas de las definiciones.
En particular, usando (2.4) y el Teorema 2.2.1, se tiene que ,
Z
1 = lm FX (x) =
x
Probabilidad y Estadstica
Primer Semestre 2005
45
fX (t) dt.
Prof.Mg. Osmar Vera
Probabilidad y Estadstica
La implicacion inversa, es tambien muy facil de probar. Una vez que se tiene fX (x) podemos
definir FX (x) y recurrir al Teorema 2.2.1.
Ejemplo 2.2.7. Se lanzan dos dados de manera independiente. Sea X1 y X2 el puntaje obtenido en el lanzamiento del primer dado y segundo respectivamente. Sea X =
max{X1 , X2 }. Determinar la f.m.p y la f.d.a. de la v.a. X
X x max{X1 , X2 } x X1 x X2 x.
La u
ltima igualdad se deduce de la definicion de maximo!.
{X x} es equivalente a,
{X1 x} {X2 x}.
Al estar suponiendo que los dados se lanzan de manera independiente, resulta que
P (X x) = P [{X1 x} {X2 x}]
= P (X1 x) P (X2 x).
Si suponemos que los dados son equilibrados , se tiene que
P (X1 = l) = P (X2 = l) =
Luego,
P (Xi x) =
x
X
P (Xi = l) =
l=1
x
6
1
6
con l = 1, . . . , 6.
x = 1, 2, . . . , 6,
i = 1, 2.
Finalmente,
P (X x) =
x2
,
36
x = 1, . . . , 6.
x2 (x 1)2
2x 1
=
,
36
36
6
46
x = 1, . . . , 6.
Prof.Mg. Osmar Vera
Probabilidad y Estadstica
Siendo esta su f.m.p
k
Y
P (Si y) =
i=1
y k
6
y = 1, . . . , 6.
Finalmente, para y = 1, 2, . . . , 6,
P (Y = y) = P (Y y) P (Y y 1) =
1 k
[y (y 1)k ].
6k
Calcular la probabilidad de que el maximo valor ledo sea un valor y en infinitos lanzamientos, corresponde a tomar
lm P (Y = y).
Para calcular este lmite, debe notar que la f.m.p. de Y se puede escribir de manera equivalente como
P (Y = y) =
Al tomar lmite se obtiene:
y 1 k i
yk h
1
.
y
6k
0 si y < 6
lm P (Y y) =
1 si y = 6
k
47
Probabilidad y Estadstica
Ejemplo 2.2.8. Probar que la funci
on dada por
1
2
fX (x) = expx /2 .
2
(2.4)
es una funci
on de densidad de probabilidad
En efecto, obviamente fX (x) > 0. Para verificar que es una densidad, falta comprobar
R
que fX (x) dx = 1.
Sea a =
kx si 0 < x < 1
f (x) =
0 en otro caso
Se pide: a)Hallar k para que sea una f.d.p. para la v.a. X; b)Determine la f.d.a.
Nota fX (x) no representa la probabilidad de nada!. Hemos observado que, por ejemplo
P (X = 0,5) = 0, y por lo tanto fX (0,5) no la representa. Solo cuando la funcion se integra
entre dos lmites produce una probabilidad. Sin embargo, es posible dar una interpretaci
on
de 4x fX (x) del siguiente modo. Del teorema del valor medio del calculo integral se deduce
que
Z
P (x X x + 4x) =
x
x+4x
fX (s) ds = 4x fX () ,
x x + 4x.
Si 4x es peque
no, 4x fX (x) es aproximadamente igual a P (x X x + 4x). Si fX es
continuo por la derecha, esta llega a ser mas segura cuando 4x 0.
Probabilidad y Estadstica
Primer Semestre 2005
48
Probabilidad y Estadstica
2.3.
Transformaciones y Esperanzas
2.3.1.
Si X es una v.a. con fda FX (x), entonces cualquier funcion de X, digamos g(X), es
tambien una v.a.. A menudo g(X) es de interes en s misma y escribiremos Y = g(X) para
denotar nuestra v.a. g(X). Ya que Y es una funcion de X, nosotros podemos describir su
conducta probabilstica, en terminos de la de X. Esto es, para cualquier conjunto A,
P (Y A) = P (g(X) A) ,
esto muestra que la distribucion de Y depende de las funciones FX y g. Dependiendo de
la eleccion de g, es algunas veces posible obtener una expresion tratable para el calculo de
esta probabilidad.
Formalmente, si nosotros escribimos y = g(x), la funcion g(x) define una mapeo del espacio
muestral de X, X , a un nuevo espacio muestral, Y, el espacio muestral de la v.a. Y . Esto
es,
g(x) : X Y.
Es posible asociar con g un mapeo inverso, denotado por g 1 , el cual es un mapeo proveniente de subconjuntos de Y a subconjuntos de X , y esta definido por
g 1 (A) = {x X : g(x) A}.
Note que el mapeo g 1 esta definido de conjuntos en conjuntos, esto es, g 1 (A) es el conjunto
de los puntos en X tal que g(x) va a parar dentro de A. Es posible que A sea un conjunto
Probabilidad y Estadstica
Primer Semestre 2005
49
Probabilidad y Estadstica
formado por un solo punto, digamos A = {y}. Entonces
g 1 ({y}) = {x X : g(x) = y}.
En este caso casi siempre se escribe g 1 (y) en lugar de g 1 ({y}). Sin embargo, la cantidad
g 1 (y) puede a
un ser un conjunto, si hay mas de un x para el cual g(x) = y. Si hay
solamente un valor de x para el cual g(x) = y, entonces g 1 (y) en el conjunto unitario {x},
y escribiremos g 1 (y) = x.
Si la v.a. Y esta definida por Y = g(X), es posible escribir para cualquier conjunto A Y,
P (Y A) = P (g(X) A)
= = P ({x X : g(x) A})
(2.5)
= P (X g 1 (A)).
Esta define la distribucion de probabilidades de Y . Sera justo mostrar que esta distribucion
de probabilidad satisface los Axiomas de Kolmogorov.
Si X es una v.a. discreta, entonces X es numerable. El espacio muestral para Y = g(X) es
Y = {y : y = g(x), x X }, el cual tambien es un conjunto numerable; con lo cual Y es una
v.a discreta. Usando (2.5), la fmp de Y es
fY (y) = P (Y = y) =
P (X = x) =
xg 1 (y)
fX (x),
para y Y ,
xg 1 (y)
y fY (y) = 0 para y
/ Y. En este caso para encontrar la fmp de Y s
olo es necesario identificar
g 1 (y), para cada y Y y sumar apropiadamente las probabilidades.
Ejemplo 2.3.1. Una va. discreta X tiene una distribucion binomial si su fmp es de la
forma
n x
fX (x) = P (X = x) =
p (1 p)nx ,
x
x = 0, 1, . . . , n ,
50
Probabilidad y Estadstica
X } = {0, 1, 2, , n}. Para cualquier y Y, n x = g(x) = y s y solo si x = n y. As,
g 1 (y) es entonces simplemente el punto x = n y,
X
fY (y) =
fX (x)
xg 1 (y)
= fX (n y)
n
=
pny (1 p)n(ny)
ny
n
=
(1 p)y pny
y
Vemos que tambien Y es una va. con distribucion binomial, pero con parametros n y
(1 p).
Si tanto X como Y son va. continuas, es posible en muchos casos encontrar formulas
simples para la fda de Y en terminos de la fda de X y la funcion g. Consideremos algunos
de estos casos.
La fda de Y = g(X) es
FY (y) = P (Y y)
= P (g(X) y)
(2.6)
Cuando hacemos transformaciones, es importante mantener presente los espacios muestrales donde se mueven las va.; en otro caso pueden presentarse muchas confusiones. Cuando
hacemos una transformacion de X a Y = g(X), lo mas conveniente es usar,
X = {x : fX (x) > 0}
(2.7)
La fdp de la va. X es positiva solamente sobre el conjunto X y cero en otro caso. Tal conjunto es llamado el conjunto soporte de una distribucion, mas informalmente el soporte de
Probabilidad y Estadstica
Primer Semestre 2005
51
Probabilidad y Estadstica
la distribucion. Este terminologa puede tambien aplicarse para una fmp o, en general, para
una funcion no negativa.
Es mucho mas facil tratar con aquellas g(x) que son mon
otonas, esto es aquellas que
satisfacen
a. u > v = g(u) > g(v) (crecientes) o
b. u < v = g(u) > g(v) (decrecientes)
Si la transformacion x g(x) es monotona, entonces esta es (1-1) de X Y. Tambien
para Y definida como en (2.7), para cada y Y, existe un x X tal que g(x) = y. As la
transformacion g unvocamente manda xs en ys. Si g es monotona, g 1 es univaluada,
esto es g 1 (y) = x s y solo s y = g(x). Si g es creciente, esto implica que
{x X : g(x) y} = {x X : g 1 (g(x)) g 1 (y)}
= {x X : x g 1 (y)}.
Mientras que si g es decreciente, esto implica que
{x X : g(x) y} = {x X : g 1 (g(x)) g 1 (y)}
= {x X : x g 1 (y)}.
Si g(x) es una funcion creciente, entonces usando (2.6), podemos escribir
Z
FY (y) =
{xX : xg 1 (y)}
fX (x) dx
g 1 (y)
fX (x) dx
= FX (g 1 (y)).
Si g(x) es decreciente, se tiene,
Z
FY (y) =
g 1 (y)
fX (x) dx
52
Probabilidad y Estadstica
Teorema 2.3.1. Supongamos que X tiene una fda FX (x), sea Y = g(X), X e Y definidos
como en (2.7).
a. Si g es una funci
on creciente sobre X , FY (y) = FX (g 1 (y)) para y Y.
b. Si g es una funci
on decreciente sobre X y X es una v.a. continua,
FY (y) = 1 FX (g 1 (y)) para y Y.
Ejemplo 2.3.2. Sea X fX (x) = 1.I(0 < x < 1), de donde se tiene X U (0, 1). Esto u
ltimo se lee X con distribuci
on uniforme en el intervalo (0,1). Se pide determinar
FX (x), FY (y), fY (y) si Y = g(X) = logX.
Se aconseja siempre verificar que, en este caso la fX es una densidad.
Determinacion de FX :
Rx
FX (x) = fX (t) dt para todo x R, por definicion,
i. Si x < 0 = fX (x) = 0 = FX (x) =
Rx
0 dt = 0.
R0
R0
0 dt +
0 dt +
R1
0
Rx
0
1 dt = 0 + t
1 dt +
Rx
1
ix
0
= x.
0 dt = 0 + t
i1
0
+ 0 = 1.
0 si x < 0
FX (x) =
x si 0 < x < 1
1 si x 1
Determinacion de FY :
Veamos si g(x) es monotona en el soporte de X, X .
d
1
g(x) = < 0 ,
dx
x
para x (0, 1) = X ,
de donde g(x) resulta ser una funcion decreciente. Veamos cual es el soporte de Y . Y definido
como en (2.7), resulta ser Y = (0, ). Queda calcular la g 1 (y) para y Y = (0, ); la
cual resulta de y = g(x) = logx = y = logx = x = ey = g 1 (y).
Finalmente, aplicando el teorema 2.3.1 parte b), resulta
FY (y) = 1 FX (g 1 (y)) = 1 FX (ey ) = 1 ey , y Y = (0, )
Probabilidad y Estadstica
Primer Semestre 2005
53
Probabilidad y Estadstica
Para determinar fY (y) queda diferenciar la fda de Y , as
fY (y) =
d
FY (y) = ey
dy
(y > 0)
fY (y) = ey I(0, )
FY (y) =
si y 0
1 ey si y > 0
fX (g 1 (y)) |
fY (y) =
d 1
dy g (y))
| si y Y
(2.8)
e.o.c.
d
FY (y) =
dy
d
FY (y) =
dy
d
d
FX (g 1 (y)) = fX (g 1 (y)) g 1 (y)
g creciente
dy
dy
d
d
(1 FX (g 1 (y)) = fX (g 1 (y)) g 1 (y) g decreciente
dy
dy
1
xn1 ex/ I(0, )
(n 1)! n
54
Probabilidad y Estadstica
En muchas aplicaciones resulta que la g no es ni creciente ni decreciente, de donde el
resultado u
ltimo no puede ser aplicado. Sin embargo, se da a menudo el caso en que g es
monotona sobre ciertos intervalos.
Ejemplo 2.3.4. Supongamos X va. continua. Determinar fda y fdp para Y = X 2 .
En este ejemplo resultara que fdp de Y esta expresada como la suma de dos terminos,
donde cada uno de ellos representa el intervalo donde g(x) = x2 es monotona. En general
este sera el caso, dado en el siguiente problema.
Teorema 2.3.3. Supongamos X tiene una fdp fX (x), Y = g(X), y se define el soporte de X, X . Supongamos que existe una partici
on A0 , A1 , . . . , Ak de X , tal que P (X
A0 ) = 0 y fX (x) es continua sobre cada Ai . Adem
as, sup
ongase que existen funciones
g1 (x), g2 (x), . . . , gk (x), definidas sobre A1 , . . . , Ak respectivamente, satisfaciendo:
(a) g(x) = gi (x) , para x Ai
(b) gi (x) es mon
otona sobre Ai
(c) El conjunto Y = {y : y = gi (x) , para alg
un x Ai } es el mismo para cada i = 1, . . . , k y
(d) g 1 (y) tiene derivada continua en Y, para cada i = 1, . . . , k, entonces
P
k
fY (y) =
i=0
fX (g 1 (y)) |
d 1
dy g (y))
| si y Y
e.o.c.
El punto mas importante en este teorema es que X puede ser divididos en conjuntos
A1 , . . . , Ak , tal que g(x) sea monotona sobre cada Ai . Es posible ignorar el conjunto excepcional A0 , ya que P (X A0 ) = 0. Esta es una tecnica que puede ser usada para manejar
los extremos de intervalo. Es importante notar que cada gi (x) es una transformacion 1 1
de Ai en Y.
Ejemplo 2.3.5. Sea X una va. con la distribuci
on Normal est
andar, entonces
1
2
fX (x) = expx /2 I(, )
2
Sea Y = X 2 . Halle fY (y)
Probabilidad y Estadstica
Primer Semestre 2005
55
Probabilidad y Estadstica
La fdp de Y la encontraremos a menudo, y se denomina va. chi cuadrado con un grado
de libertad. Cerramos esta seccion con una especial y muy conocida transformacion, la
transformaci
on de probabilidad integral.
Teorema 2.3.4. Consideremos X va. continua con fda FX (x) y se define la va. Y = FX (x).
Entonces Y U (0, 1), tal que P (Y y) = y; 0 < y < 1.
Antes de demostrarlo, daremos una mirada a FX1 , la inversa de la fda con alg
un detalle.
Si FX es estrictamente creciente, entonces FX1 esta bien definida como
FX1 (y) = x FX (x) = y
(2.9)
(2.10)
esta definicion coincide con de FX1 (y) cuando FX (x) = y no es constante, pero provee una
FX1 siempre univariada
Dem. del teorema:
Para Y = FX (X) = g(X); Y = (0, 1).
P (Y y) = P (FX (X) y)
= P (FX1 (FX (X)) FX1 (y))
(FX1 creciente)
= P (X FX1 (y))
= FX (FX1 (y))
(definicion de FX )
= y
(continuidad de FX )
Probabilidad y Estadstica
Primer Semestre 2005
56
Probabilidad y Estadstica
Como se razono detras de la igualdad
2.4.
Valores Esperados
El valor esperado o esperanza de una v.a. X es, su valor promedio. Aqu hablamos de
valor promedio como de tal pensado de acuerdo con la distribucion de probabilidad.
El valor esperado de una distribucion, tambien puede ser pensado como una medida de
centralizacion, del mismo modo como se piensan los promedios estando en el medio de todos
los valores. Cuando nos referimos a los valores de la la va. de acuerdo con la distribucion
de probabilidad, queremos obtener un n
umero que resuma un valor tpico o esperado de las
observaciones de la v.a.
Examinemos el siguiente ejemplo,
Considere seleccionar al azar a un estudiante que esta entre 15000 registrados para el
perodo academico de una Universidad. Sea X = cantidad de cursos en los que el estudiante
seleccionado se inscribe; supongamos que X tiene la siguiente fmp,
x
fX (x)
0.01
0.03
0.13
0.25
0.39
0.17
0.02
Probabilidad y Estadstica
Primer Semestre 2005
57
Probabilidad y Estadstica
Podemos considerar a la poblacion como aquella formada por 15000 personas, cada
una con su propio valor de X (seg
un la cantidad de materias en las que inscribio en ese
a
no academico); la proporcion con cada valor X esta dada por fX (x) de la tabla. Por
ejemplo podramos interpretar el valor fX (1) = P (X = 1) = 0,01, como que 1 de cada 100
estudiantes se inscribio en una sola materia; o sea que 150 del total de 15000 se inscribieron
en una sola materia. Analogamente, fX (2) = P (X = 2) = 0,03, como que 3 de cada 100
estudiantes se inscribio en dos materias; o sea que 450 del total de 15000 se inscribieron en
dos materias; y as siguiendo, se genera la tabla (2.4)
x
fX (x)
0.01
0.03
0.13
0.25
0.39
0.17
0.02
No registrado
150
450
1950
3750
5850
2550
300
Finalmente, puede ser posible olvidarse de los estudiantes y considerar a la poblacion misma
como formada por los valores X.
Una vez que tengamos un modelo matematico para una poblacion, el objetivo sera utilizarlo para calcular valores caractersticos de esa poblacion (como por ejemplo la media )
y hacer inferencias a partir de tales caractersticas.
Si se quisiera determinar el n
umero promedio de cursos por estudiante, o el valor promedio de X de la poblacion, debemos calcular el n
umero total de cursos y dividir entre el
n
umero total de estudiantes. El valor promedio de X de la poblacion es entonces,
1(150) + 2(450) + 3(1950) + + 7(300)
= 4,57,
15000
como
150
15000
(2.11)
450
= 0,01 = fX (1); 15000
= 0,03 = fX (2); . . . , etc., otra expresion para el cociente
(2.11) es:
(2.12)
Esta expresion (2.13) muestra que para calcular el valor promedio de X de la poblacion,
solo necesitamos sus valores posibles junto con sus probabilidades (pesos= proporciones).
Probabilidad y Estadstica
Primer Semestre 2005
58
Probabilidad y Estadstica
El valor promedio, o la media de X es entonces un promedio ponderado de los posibles
valores 1, 2, . . . , 7, donde los pesos son la probabilidades de esos valores.
La expresion (2.13), nos conduce la siguiente definicion de valor esperado o media de una
poblacion.
Definici
on 2.4.1. El valor esperado
o media de una va. g(X), denotado por E g(X), es
R
g(x) fX (x) dx
si X es continua
E g(X) =
P
P
xX g(x) fX (x) =
xX g(x) P (X = x)) si X es discreta
Suponiendo que la integral
o suma existen. Si E | g(X) |= diremos que E g(X) no
existe.
Ejemplo 2.4.1. Supongamos que X tiene una distribuci
on exponencial , es decir su fdp
es,
fX (x) =
1 x/
e
I(0 x < )
>0
Se pide encontrar E X
Rta. E X =
Ejemplo 2.4.2. Si X tiene una distribuci
on binomial con par
ametros n y p, entonces su
fmp es,
n x
P (X = x) =
p (1 p)nx ,
x
x = 0, 1, . . . , n
1
1
,
1 + x2
x .
59
Probabilidad y Estadstica
El proceso de tomar esperanza es una operacion lineal, lo cual significa que la esperanza
es una funcion lineal de X, la cual entonces puede ser facilmente evaluada, notando que
para cualquier par de valores a y b,
E (aX + b) = aE X + b.
El operador esperanza, en efecto, tiene muchas propiedades que pueden ser de ayuda para
calcularla. La mayora de tales propiedades se derivan de las propiedades de la integral o la
suma, y son resumidas en el siguiente teorema:
Teorema 2.4.1. Consideremos X una va.; a, b, c constantes. Entonces para cualquier g1 (X), g2 (X),
funciones de la va. X, cuyas esperanzas existen, se cumple:
(a) E (ag1 (X) + bg2 (X) + c) = aE (g1 (X)) + bE (g2 (X)) + c.
(b) Si g1 (x) 0,
x = E (g1 (X)) 0.
(d) Si a g1 (x) b,
x = a E (g1 (X)) b.
Ejemplo 2.4.4. Tambien es posible interpretar el valor esperado de una va., pes
andola con
relaci
on a considerarla como un buen aciertopara el valor de X.
Supongamos que medimos la distancia entre una va. X y una constante b mediante la
forma (X b)2 , o sea buscamos el valor de b mas cercano a X. Podemos as, determinar el
valor de b que minimiza E(X b)2 y, por lo tanto esto podra interpretarse en terminos
estadsticos como la b
usqueda de un buen predictor de X. (Note que no es bueno mirar un
valor de b que minimice (X b)2 , ya que la respuesta podra depender de X, siendo as un
predictor in
util de X).
Podramos proceder a minimizar E(X b)2 ocupando las herramientas que nos provee el
calculo, pero hay un metodo mas simple, usando la creencia que existe algo especial en
relacion con este problema y la E X, as escribimos
E(X b)2 = E(X E X + E X b)2
= E((X E X) + (E X b))2
= E(X E X)2 + (E X b)2 + 2E((X E X)(E X b)),
Probabilidad y Estadstica
Primer Semestre 2005
60
Probabilidad y Estadstica
en esta u
ltima igualdad hemos expandido el cuadrado. Ahora note que
E((X E X)(E X b)) = (E X b)E(X E X) = 0
ya que (E X b) es constante sale fuera de la expresion, y E(X E X) = E X E X = 0.
Esto significa que
E(X b)2 = E(X E X)2 + (E X b)2 .
(2.13)
No tenemos control sobre el primer termino del lado derecho en la igualdad (2.13) y el
segundo termino, es siempre positivo, o a lo sumo 0, puede hacerse 0 eligiendo b = E X.
Por lo tanto,
mn E(X b)2 = E(X E X)2
b
(2.14)
E g(X) =
(2.15)
Pero tambien podramos primero encontrar la fdp fY (y) para la va. Y = g(X), y luego
calcular
E g(X) = E Y =
y fY (y) dy.
(2.16)
Ejemplo 2.4.5. Sea X U (0, 1), Y = g(X) = log X. Mostraremos que la E Y calculada
de las formas mencionadas en (2.15) y (2.16) da el mismo resultado.
2.5.
Los distintos momentos de una distribucion son una importante clase de esperanzas.
Definici
on 2.5.1. Para cada entero n, el n-esimo momento de X (
o de FX (x)), notado
0n , es
0n = E X n .
Probabilidad y Estadstica
Primer Semestre 2005
61
Probabilidad y Estadstica
El n-esimo momento central de X, es
n = E (X )n ,
donde = 0 = E X
Ademas de la media, E X, de una va., quiza el momento mas importante es el central
de segundo orden, mas com
unmente conocido como la varianza.
Definici
on 2.5.2. La varianza de una va. X es el segundo momento central de X, V ar X =
E(X E X)2 . La raz cuadrada positiva de la V ar X se denomina desviaci
on estandar de
X.
La varianza de una medida del grado de diseminacion de una distribucion alrededor de
la media. Vimos en el Ejemplo 2.4.4 que la cantidad E(X b)2 es minimizada eligiendo b =
E X. Consideremos ahora la medida absoluta de este mnimo. La interpretaci
on agregada
a la varianza es que valores grandes de la misma, significan que X es muy variable. En
el extremo, si V ar X = E(X E X)2 = 0, entonces X = E X con probabilidad 1, y no
existe variacion en X. La desviacion estandar tiene la misma interpretaci
on cualitativa:
peque
nos valores de la misma significan que X est
a probablemente muy cerca de E X, y
grandes valores significa que X es muy variable. La desviacion estandar es mas facil para
interpretar, pues su unidad de medida es la misma que la de los datos originales en la va.
X.
Ejemplo 2.5.1. Supongamos X Exp(). Hemos calculado ya E X = . Se propone
ahora calcular V ar X.
Rta.: V ar X = 2
62
Probabilidad y Estadstica
Teorema 2.5.1. Si X es una va. con varianza finita, entonces para cualquier par de constantes a, b se cumple,
V ar(aX + b) = a2 V ar X.
En muchos casos es mas facil usar una formula alternativa para la varianza, dada por,
V ar X = E X 2 (E X)2 ,
(2.17)
Para calcular momentos de orden mas alto se procede de manera analoga. En aplicaciones, momentos de orden 3 o 4 algunas veces resultan de interes, pero usualmente existen
razones estadsticas para examinar momentos de orden mas algo que 2.
Ahora introduciremos una nueva funcion, la cual esta asociada con distribuciones de
probabilidad, la funci
on generadora de momentos (fgm). Como su nombre lo sugiere, la fgm
puede ser usada para generar momentos. En la practica es mas facil en muchos casos calcular
momentos directamente en vez de usar fgm. Sin embargo, el principal uso de la fgm no es el
de generar momentos, sino ayudar para caracterizar una distribucion. Esta propiedad nos
puede llevar a resultado extremadamente poderosos, cuando es usada adecuadamente.
Definici
on 2.5.3. Sea X una va. con fda. FX . La funci
on generadora de momentos (fgm)
de X (o FX ) , denotada por MX (t) ,es
MX (t) = E et X ,
suponiendo que la esperanza exista para valores de t en alg
un entorno del 0. Esto es, existe
un h > 0 tal que, para todo t (h, h) E et X existe. Si tal esperanza no existe en un
entorno del 0, nosotros diremos que la fgm no existe.
Probabilidad y Estadstica
Primer Semestre 2005
63
Probabilidad y Estadstica
Mas explcitamente, podemos escribir la fgm de X como
MX (t) =
MX (t) =
et x fX (x) dx
Si X es continua
et x fX (x)
Si X es discreta
xX
Es muy facil ver de que manera una fgm genera momentos. Se resume el siguiente teorema,
Teorema 2.5.2. Si X tiene fgm MX (t), entonces
(n)
E X n = MX (0),
donde se define
(n)
MX (0) =
dn
MX (t)|t=0 .
dtn
Del teorema u
ltimo anterior es facil mostrar que,
d
MX (t)|t=0 = E X et X |t=0 = E X.
dt
Ejemplo 2.5.3. En el Ejemplo 2.3.3 vimos un caso especial de la fdp de la gamma. El caso
general es,
fX (x) =
1
x1 ex/ ,
()
0 < x < ,
> 0,
> 0,
Rta.: MX (t) =
1
1t
si t < 1 .
Podra ocurrir que existan dos va. con distintas fdp, pero que generen los mismos momentos, e.d.,
X1 f1
Probabilidad y Estadstica
Primer Semestre 2005
X2 f2
64
con
f1 6= f2 ,
Prof.Mg. Osmar Vera
Probabilidad y Estadstica
pero tal que E X1r = E X2r
r = 0, 1, . . ..
Querramos tener condiciones para poder caracterizar las distribuciones con iguales momentos. El siguiente teorema muestra como puede ser caracterizada una distribucion usando su
fgm.
Teorema 2.5.3. Sean FX (x), FY (y) dos fda tales que sus momentos existen
(a) Si FX y FY tienen soporte acotado, entonces FX (u) = FY (u) s y s
olo s
E Xr = E Y r
r = 0, 1, . . ..
(b) Si las fgm existen y se cumple MX (t) = MY (t) para todo t en alg
un entorno del 0,
entonces FX (u) = FY (u)
u.
Probabilidad y Estadstica
Primer Semestre 2005
65
Probabilidad y Estadstica
2.6.
Ejercicios
2.1 De un lote que contiene 25 artculos, 5 de los cuales son defectuosos, se eligen 4 al azar.
Sea X el n
umero de defectuosos encontrados. Obtener la distribucion de probabilidades de X si,
(a) los artculos se escogen con sustitucion
(b) los artculos se escogen sin sustitucion.
2.2 Supongase que la v.a. X tiene valores posibles 1, 2, 3, . . . , y P (X = j) = 1/2j , j =
1, 2, . . .
(a) Calcular P (Xsea par ).
(b) Calcular P (X 5).
(c) Calcular P (Xes divisible por 3)
2.3 Considerese una v.a. X con resultados posibles: 0, 1, 2, . . .. Supongamos que P (X =
j) = (1 a) aj , j = 0, 1, . . .
(a) Para que valores a es significativo el modelo anterior?
(b) Verificar que la anterior representa una legtima f.m.p.
(c) Demostrar que para dos enteros positivos cualesquiera s y t,
P (X < s + t | X > s) = P (X t).
2.4 Considere la v.a. X que mide la duracion de un tubo electronico, y supongamos que X
se puede representar como una v.a. continua con f.d.p. fX (x) = bebx I (x 0). Sea
pj = P (j X < j + 1). Demostrar que pj es de la forma (1 a) aj y determine a.
2.5 La v.a. continua X tiene f.d.p. fX (x) = 3x2 I(1 x 0). Si b es un n
umero que
satisface 1 < b < 0, calcular P (X > b | X < b/2).
2.6 El porcentaje de alcohol (100X) en cierto compuesto se puede considerar como una v.a.,
en donde X, 0 < X < 1, tiene la siguiente fdp: fX (x) = 20x3 (1 x)I(0 < x < 1).
Probabilidad y Estadstica
Primer Semestre 2005
66
Probabilidad y Estadstica
(a) Obtener una expresion para fda, FX y dibujar su grafico.
(b) Calcular la P (X 23 ).
(c) Supongase que el precio de venta del compuesto depende del contenido alcoholico.
Especficamente, si
1
3
<X <
2
3,
1
3
(b) P (X > 1) =
1
2
2.8 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1.
(a) fX (x) = 42x5 (1 x), 0 < x < 1; Y = X 3 .
(b) fX (x) = 7e7x , 0 < x < ; Y = 4X + 3.
2.9 Si X tiene fdp
fX (x) =
1 (x/2 )/2
xe
I(0, ),
2
Determine la fdp de Y = eX .
2.10 Suponga que X tiene una distribucion geometrica con fmp dada por fX (x) = 13 ( 32 )x , x =
0, 1, 2, . . .. Determine la distribucion de probabilidades de Y = X/X + 1. Note que
tanto X como Y son v.a. discretas. Para especificar la distribucion de probabilidad
de Y , especifique su fmp.
2.11 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1.
(a) fX (x) =
1
2
Probabilidad y Estadstica
Primer Semestre 2005
67
Probabilidad y Estadstica
2.12 Suponga que X es una va. con la siguiente funcion de densidad
1
fX (x) = (1 + x) I(1, 1).
2
(b) fX (x) =
1
(1+x2 )
2.13 Calcule E X y V arX para cada una de las siguientes funciones de probabilidad
(a) fX (x) = axa1
(b) fX (x) =
1
n
0<x<2
2.14 Sea n el n-esimo momento central de la va. X. Dos cantidades de interes, agregadas
a la media y la varianza son,
3 =
3
(2 )3/2
4 =
4
.
(2 )2
1
2
1
2
ex
2 /2
< x <
I(1, 1)
68
Probabilidad y Estadstica
2.15 Sea MX (t) la fgm de una va. X, y se define S(t) = log(MX (t)). Muestre que,
d2
S(t)|t=0 = V ar X.
dt2
d
S(t)|t=0 = E X
dt
2.16 En cada uno de los siguientes casos verifique que la expresion dada para la fgm, y en
cada caso use la fgm para determinar la E X y la V arX.
(a) P (X = x) =
e x
x! ,
t 1)
MX (t) = e(e
/(2
e(x)
2)
MX (t) =
, MX (t) = et+
, x = 0, 1, 2, . . . ;
p
1(1p)et
2 t2 /2
>0
, x = 0, 1, 2, . . . ; 0 < p < 1
e x
,
x!
x = 0, 1, . . . , > 0.
Probabilidad y Estadstica
Primer Semestre 2005
69
Probabilidad y Estadstica
Se te pide demostrar esta afirmacion siguiendo los siguientes pasos:
(a) Encontrar MX (t), MY (t)
(b) Reemplazar p =
en MX (t)
Probabilidad y Estadstica
Primer Semestre 2005
70
Captulo 3
Distribuciones de Familias comunes
Distribuciones estadsticas son usadas para modelar poblaciones. Nosotros usualmente
trataremos con familias de distribuciones, en vez de con una simple distribucion. Esas familias son indexadas por uno o mas parametros, lo cual nos permite variar ciertas caractersticas
de la distribucion. Por ejemplo, podemos especificar que la distribucion Normal es una eleccion de un modelo razonable para una poblacion particular, pero no podemos especificar
precisamente la media; entonces trataremos con una familia parametrica, la normal con
media , donde este es un parametro no especificado < < .
3.1.
Distribuciones discretas
Una va. X se dice tiene una distribucion discreta, si su rango; e.d. el espacio muestral es
numerable. En la mayora de las situaciones, la va. es entero-positiva valuada.
71
Probabilidad y Estadstica
3.1.1.
Distribuci
on uniforme discreta
1
,
N
x = 1, 2, . . . , N
(3.1)
donde N es un entero especificado. Esta distribucion pone igual masa sobre cada uno de los
resultados 1, 2, . . . , N .
Una cuesti
on de Notaci
on Cuando estamos tratando con distribuciones parametricas, como sera en la mayora de los casos, la distribucion depende de los parametros. Con
la idea de enfatizar este hecho, y de mantener visibles los parametros, los escribiremos
en la fmp precedido por un |(dado). Esta misma convenci
on tambien sera usada con la
fdp, la fda, la esperanza, y otros casos donde pudiera ser necesario. Cuando no haya posibilidad de confusion, los parametros pueden ser omitidos para no desordenar tanto la notacion.
N
X
xP (X = x | N ) =
x=1
N
X
x=1
1
1 N (N + 1)
N +1
=
=
N
N
2
2
y
2
EX =
N
X
x P (X = x | N ) =
x=1
N
X
x=1
x2
1
1 N (N + 1)(2N + 1)
(N + 1)(2N + 1)
=
=
N
N
2
2
y as,
V ar X = E X 2 (E X)2
=
=
(N + 1)(2N + 1) N + 1 2
2
2
(N + 1)(N 1)
.
2
Esta distribucion puede ser generalizada, a un espacio muestral en cualquier rango de enteros, N0 , N0 + 1, . . . , N1 , con fmp P (X = x | N0 , N1 ) = 1/(N1 N0 + 1).
3.1.2.
Distribuci
on Hipergeom
etrica
72
Probabilidad y Estadstica
Supongamos tenemos una urna con N bolillas iguales, salvo por el color, es decir, hay M
rojas y N M verdes. K de tales bolillas son seleccionadas aleatoriamente (se toman una
a una de la urna, sin regresarla a la misma; se trata de un caso de muestreo sin reemplazo).
Cual es la probabilidad que exactamente x de las bolillas sean rojas?.
El n
umero total de muestras de medida K que pueden ser seleccionadas de un total de
N
. Se requiere que x de tales bolillas sean rojas, lo cual puede ser realizado de
N es K
M
M N
formas,
dejando
,
x
Kx caminos para elegir las K x restantes que no son rojas. As
denotaremos por X la va. que mide el n
umero rojas en la muestra de tama
no K, entonces
X tiene distribuci
on hipergeometrica dada por
M N M
x
P (X = x | N, N, K) =
,
NKx
x = 0, 1, . . . , K.
(3.2)
Note que hay implcita en (3.2), un supuesto adicional sobre el rango de X. Los coeficientes
binomiales de la forma nr , han sido definidos solamente si n r, y as el rango de x
esta adicionalemente restringido por el siguiente par de inecuaciones
M x
N M K x,
P (X = x) =
x=0
K
X
M N M
x=0
NKx
= 1.
EX =
K
X
x=0
Probabilidad y Estadstica
Primer Semestre 2005
M N M
x
NKx
73
K
X
M N M
x=1
.
NKx
Probabilidad y Estadstica
(el sumando es 0 en x = 0). Para evaluar estas expresiones, usamos las siguientes identidades,
M
M 1
x
= M
,
x
x1
N
N N 1
=
,
K
K K 1
y obtener
EX =
K
X
M
x=1
M 1N M
x1
Kx
N N 1
K K1
K
KM X
=
N
x=1
M 1N M
x1
N 1Kx
K1
Es posible reconocer la segunda suma anterior como la suma de las probabilidades de otra
distribucion hipergeometrica basada en valores de parametros N 1, M 1, y K 1. Luego
esa suma vale 1. Finalmente se tiene que
EX =
KM
.
N
V ar X =
KM (N M )(N K)
.
N
N (N 1)
Ejemplo 3.1.1. La biblioteca de una escuela de estudiantes no graduados tiene 20 ejemplares de cierto tipo de texto de introducci
on a la economa, de los cuales 8 son primeras
impresiones y 12 son segundas impresiones (que contienen correcciones de algunos peque
nos
errores que aparecieron en la primera edici
on). El instructor del curso ha solicitado que 5
ejemplares sean puestos en reserva de 2 horas. Si los ejemplares se seleccionan en una
forma por completa al azar, de modo que cada subconjunto de tama
no 5 tenga la misma
probabilidad de ser seleccionado, cu
al es la probabilidad de que x (x = 0, 1, 2, 3, 4
o 5) de los
seleccionados sean segundas impresiones?
Ejemplo 3.1.2. Cinco ejemplares de una poblaci
on animal considerados en va de extinci
on
en cierta regi
on han sido atrapados, marcados y puestos en libertad para que se mezclen en la
poblaci
on. Despues de tener la oportunidad de mezclarse, se seleccion
o una muestra aleatoria
de 10 de estos animales. Sea X = n
umero de animales marcados de la segunda muestra .
Si hay en realidad 25 animales de este tipo en la regi
on. Cu
al es la probabilidad de que
(a) halla dos marcados en la muestra?
Probabilidad y Estadstica
Primer Semestre 2005
74
Probabilidad y Estadstica
(b) halla a lo sumo dos marcados en la muestra?
(c) Determine la media y la varianza de X.
3.1.3.
Distribuci
on Binomial
La distribucion binomial, una de las distribuciones discretas mas usadas, esta basada
sobre la idea de una ensayo de Bernoulli. Un ensayo de Bernoulli es un experimento con
dos, y solamente dos, resultados posibles. Una va. tiene una distribucion Bernoulli(p) si
1
con probabilidad p
X=
0 p 1.
(3.3)
0 con probabilidad 1 p
El valor X = 1 es a menudo tomado como un exito p se refiere a la probabilidad de que
2
i = 1, 2, . . . , n.
Si asumimos que los eventos A1 , A2 , . . . , An representan una coleccion de eventos independientes (como es el caso del lanzamiento de una moneda), es facil encontrar la distribucion
del n
umero total de exitos en n ensayos. Definamos la va. Y por
Y = n
umero total de exitos en n ensayos.
Probabilidad y Estadstica
Primer Semestre 2005
75
Probabilidad y Estadstica
El evento {Y = y} ocurrira solamente si, exactamente y de los eventos A1 , A2 , . . . , An
ocurren, y n y de ellos no ocurren. Un resultado particular de n ensayos (un particular
ordenamiento de ocurrencias y no-ocurrencias) de los n ensayos de Bernoulli podra ser
A1 A2 Ac3 . . . Acn1 An . Este tiene probabilidad de ocurrrencia
P (A1 A2 Ac3 . . . Acn1 An ) = pp(1 p) . . . . . . p(1 P )
= py (1 p)ny ,
donde nosotros hemos usado la independencia de los Ai s en este calculo. Note que el calculo
no depende sobre cuales de los Ai s ocurre, solamente que alg
un conjunto de y de ellos
ocurra. Poniendo todo esto junto, vemos que una secuencia particular de n ensayos con
exactamente y exitos tiene probabilidad py (1 p)ny de ocurrencia; ya que hay ny de tales
secuencias (el n
umero de ordenamientos de y unos y de (n y) ceros), se tiene
P (Y = y | n, p) =
n
y
e Y es llamada una variable aleatoria Bin(n,p). Y puede ser definida en forma equivalente del
siguiente modo: como una secuencia de n identicas, e independientes ensayos de Bernoulli,
cada una con exito p y fracaso 1 p, definiendo las variables X1 , X2 , . . . , Xn por
1
con probabilidad p
Xi =
0 con probabilidad 1 p
0 p 1.
Entonces la va.
Y =
n
X
Xi
i=1
tiene distribucion Bin(n, p). Analogamente, usando funciones indicadoras, Y podra escribirse como
Y =
n
X
IAi ,
i=1
y por lo tanto toda va. binomial se puede escribir como una suma de indicadoras.
Hemos ya obtenido tanto la esperanza, la varianza y la fgm para una va. binomial. Para
completar, afirmemos entonces que si X Bin(n, p) se tiene
Probabilidad y Estadstica
Primer Semestre 2005
76
Probabilidad y Estadstica
E X = np ,
V ar X = np(1 p) ,
y su fgm es
MX (t) = [pey + (1 p)]n .
Ejemplo 3.1.3. A cada una de seis personas que toman refresco cola, seleccionadas al azar,
se les da un vaso que contiene refresco de cola S y uno que contiene refresco de cola F. Los
vasos son identicos en apariencia excepto por un c
odigo que se encuentra en el fondo para
identificar la marca. Supongamos que en realidad no hay preferencia entre las personas que
beben refresco de cola para preferir entre una marca u otra.
(a) Determine la probabilidad de que exactamente tres prefieran la marca de cola S
(b) Determine la probabilidad de que por lo menos tres personas prefieran la marca de cola
S.
(c) Calcule la probabilidad de que a lo suma 1 prefiera la marca de cola S
(d) Calcule la E X, V ar X, X .
Ejemplo 3.1.4. Suponga que el 20 % de todos los ejemplares de un texto en particular fallan
en una prueba de resistencia a la encuadernaci
on. Si X es el n
umero entre 15 ejemplares
seleccionados al azar que fallan a la prueba.
(a) Que distribuci
on sigue X?
(b) Determine la probabilidad de que a lo sumo 8 fallen a la prueba
(c) Cu
al es la probabilidad de que exactamente 8 fallen a la prueba?, y la probabilidad
de que por lo menos 8 fallen a la prueba?
(d) Halle la probabilidad de que entre 4 y 7 fallen a la prueba.
(e) Determine la media y la varianza de X.
Ejemplo 3.1.5. Un fabricante de equipos electr
onicos argumenta que a los sumo el 10 % de
sus unidades de fuentes de alimentaci
on necesitan reparaci
on durante el perodo de garanta.
Probabilidad y Estadstica
Primer Semestre 2005
77
Probabilidad y Estadstica
Para investigar esto, tecnicos de un laboratorio de pruebas compran 20 unidades y las someten a pruebas aceleradas para simular su uso durante el perodo de garanta. Denotemos por
p la probabilidad de que una fuente de alimentaci
on necesita reparaci
on durante el perodo
(la proporci
on de todas las unidades que necesitan reparaci
on). Los tecnicos de laboratorio deben determinar si los datos resultantes del experimento apoyan el argumento de que
p 0,10.
3.1.4.
Distribuci
on de Poisson
x=0
e x
,
x!
x = 0, 1, . . . . . .
(3.4)
ey ,
ey =
X
yi
.
y!
i=0
Probabilidad y Estadstica
Primer Semestre 2005
78
Probabilidad y Estadstica
As
P (X = x | ) = e
x=0
X
x
= e e = 1
x!
x=0
e x
x!
e x
x!
x=0
X
x=1
= e
= e
X
x=1
X
y=0
x1
(x 1)!
y
y!
sustituyendo y = x 1
= .
Calculos similares mostraran que
V ar X = ,
As el parametro es el mismo tanto para la media como para la varianza de la distribucion
Poisson.
Tambien puede ser obtenida la fgm usando argumentos de calculos analogos, siendo
MX (t) = e(e
t 1)
Ejemplo 3.1.6. Si X es el n
umero de la fallas en la superficie de un calentador de cierto
tipo seleccionado al azar. Suponga que X tiene una distribuci
on de Poisson con = 5.
Determine:
(a) La probabilidad de que tenga exactamente dos fallas
(b) La probabilidad de que un calentador contenga un m
aximo de dos fallas
Ejemplo 3.1.7. Supongamos que llegan pulsos al contador con una tasa promedio de seis
por minuto, supongamos = 6. Para hallar la probabilidad de que en un intervalo de 0.5
min se reciba por lo menos un pulso, observe que el nro. de pulsos en tal intervalo tiene
una distribuci
on de Poisson con par
ametro = t = 6(0,5). Si X representa el n
umero de
pulsos recibidos en el intervalo de 30 segundos. Determine la probabilidad de que reciba m
as
de una llamada.
Probabilidad y Estadstica
Primer Semestre 2005
79
Probabilidad y Estadstica
3.1.5.
Distribuci
on Binomial Negativa
x1 r
P (X = r | r, p) =
p (1 p)xr ,
r1
x = r, r + 1, . . .
(3.5)
r+y+1 r
P (Y = y) =
p (1 p)y ,
y
y = 0, 1, . . . . . .
(3.6)
A menos que sea notado, cuando nos hagamos referencia a la distribucion binomial negativa(r, p)
usaremos la fmp (3.6).
La distribucion binomial negativa, tiene ese nombre de la relacion
r+y+1
(r)(r 1)(r 2) . . . (r y + 1)
y r
= (1)
= (1)y
,
y
y
y(y 1)(y 2) . . . 2,1
Probabilidad y Estadstica
Primer Semestre 2005
80
Probabilidad y Estadstica
la cual es, en efecto, la definicion para un coeficiente binomial con enteros negativos (ver
Feller (1968) para un tratamiento con mayor profundidad). Sustituyendo en (3.6), se obiene
y r
P (Y = y) = (1)
pr (1 p)y ,
y = 0, 1, . . . . . .
y
la cual muestra un parecido muy llamativo con la distribucion binomial.
P
El hecho que
acil de verificar, pero proviene de una extension
y=0 P (Y = y) = 1 no es f
del Teorema del Binomio, extension que incluye exponentes negativos. No expondre esto
aqu. Una excelente exposicion de este hecho lo puede encontrar en Feller (1968).
La media y la varianza de Y puede ser calculada usando tecnicas similares a las usadas para
la distribucion binomial:
EY
X
r+y+1 r
=
y
p (1 p)y
y
y=0
(r + y 1)!
pr (1 p)y
(y 1)!(r 1)!
y=1
X
r+y+1 r
=
r
p (1 p)y .
y1
=
y=1
X
r+z r
EY =
r
p (1 p)z+1
z
z=0
(1 p) X (r + 1) + z 1 r+1
p (1 p)z ,
= r
p
z
z=0
este u
ltimo sumando se corresponde con la fmp de una binomial negativa, de donde
EY =r
(1 p)
p
(1 p)
.
p2
(1 p)
,
p
(1 p)
= r
,
p2
= r
81
Probabilidad y Estadstica
Ejemplo 3.1.8. Un pediatra desea conseguir 5 parejas, cada una de las cuales espera
a su primer hijo, para que participen en un regimen de nacimiento natural. Sea p =
P (una pareja seleccionada al azar acceda a participar). Si p = 0,2, cu
al es la probabilidad de que se le pida a 15 parejas que participen antes de encontrar 5 que accedan?. Esto
es, si S={accede a participar}, cu
al es la probabilidad de que ocurran 10 fallas antes del
quinto exito?.
3.1.6.
Distribuci
on Geom
etrica
x = 1, 2, . . .
la cual define la fmp de una variable aleatoria X geometrica con probabilidad de exito p.
X puede ser interpretada como el ensayo para el cual el primer exito ocurre. As, diremos
P
esperando el primer exito. El hecho que
x=1 P (X = x) = 1 se sigue de la propiedad de
series geometricas. Para cualquier a tal que | a |< 1,
ax1 =
x=1
1
,
1a
E X = EY + 1 =
1
p
V ar X =
1p
.
p2
(3.7)
82
Probabilidad y Estadstica
3.2.
Distribuciones Continuas
En esta seccion discutiremos algunas de las familias de distribuciones continuas mas comunes, aquellas que tienen nombres bien conocidos. Las distribuciones mencionadas aqu no
constituyen todas las distribuciones usadas en estadstica; pues ademas como vimos en secciones anteriores, cualquier funcion nonegativa, e integragrable puede ser transformada en
una fdp.
3.2.1.
Distribuci
on Uniforme
La distribucion uniforme continua esta definida de manera tal que se extiende masa
uniformemente sobre un intervalo [a, b]. Su fdp esta dada por
f (x | a, b) =
Rb
a
si x [a, b]
(3.8)
en otro caso
x
a+b
dx =
ba
2
a+b 2
(x 2 )
(b a)2
dx =
.
ba
12
EX =
a
V ar X =
a
3.2.2.
1
ba
Distribuci
on Gamma
t1 et dt
t1 et dt.
(3.9)
0
Probabilidad y Estadstica
Primer Semestre 2005
83
Probabilidad y Estadstica
La funcion gamma satisface muchas relaciones muy usadas, en particular
( + 1) = () ,
> 0,
(3.10)
(3.11)
.)
Las expresiones (3.10) y (3.11) dan relaciones recursivas para la funcion gamma, que
hacen mas facil su calculo.
t1 et
,
()
0<t<
(3.12)
es una fdp. La familia gamma completa, sin embargo, tiene dos parametros, y puede ser
derivada por cambio de variables para conseguir la fdp de la va. X = T en (3.12), donde
es una constante positiva. Al hacer esto, conseguimos la familia gamma(, ),
f (x) =
1
x1 ex/ , 0 < x < , > 0 , > 0.
()
(3.13)
x, x1 ex/ dx.
(3.14)
x1 ex/ dx = () ,
(3.15)
0
Probabilidad y Estadstica
Primer Semestre 2005
84
Probabilidad y Estadstica
as tenemos
EX =
=
1
()
()
()
x, x1 ex/ dx =
1
( + 1) +1
()
= .
Note que para evaluar la E X hemos usado la tecnica de reconocimiento de la integral como
el n
ucleo de una fdp. Este hecho ya fue utilizado en m
ultiples oportunidades.
MX (t) =
1
.
1 t
(3.16)
t
+
(
1)t
e
dt
,
( + 1)
0
0
hemos usado la integraci
on por partes, sustituyendo u = t1 , dv = et/ dt. Continuando
con la evaluaci
on de la probabilidad, tenemos
P (X x) =
=
Z x
1
1
1 x/
x
e
+
t2 et/ dt
( 1)! 1
( 2)! 1 0
Z x
1
t2 et/ dt P (Y = 1),
( 2)! 1 0
85
Probabilidad y Estadstica
Hay dos importantes casos especiales de distribucion gamma. Si hacemos = p/2, donde
p es un entero, y = 2, entonces la fdp de la gamma resulta
f (x) =
1
x(p/2)1 ex/2 , 0 < x < ,
(p/2)2p/2
(3.17)
1 x/
e
,
0 < x < ,
(3.18)
1 y /
y
e
,
(3.19)
3.2.3.
Distribuci
on Normal
86
Probabilidad y Estadstica
distribucion Normal y las distribuciones asociadas con ella, son muy tratables analticamente (aunque no lo parezca con una primera mirada). Segundo, la distribucion normal
tiene una forma de campana familiar, cuya simetra la hace elegible para modelar un sin
fin de poblaciones. Aunque hay muchas otras distribuciones que tienen forma de campana,
pero no poseen la tratabiliad analtica de la normal. Tercero, existe el Teorema Central del
Lmite (mas adelante se vera con detalle) el cual muestra que bajo algunas condiciones, la
distribucion normal puede ser usada para aproximar una gran variedad de distribuciones
en grandes muestras.
La distribucion normal tiene dos parametros, usualmente anotados por y 2 , las cuales
son su media y su varianza. La fdp de la distribuci
on Normal con media y varianza 2
(usualmente anotada N (; 2 )) esta dada por,
1
2
2
e(x) /(2 ) , < x < .
f (x | , 2 ) =
2
(3.20)
P (Z z) = P X )/ z
= P (X z + )
Z z+
1
2
2
=
e(x) /(2 ) dx
2
Z z
x
1
2
et /2 dt,
(sustituyendo t =
=
)
2
mostrando que P (Z z) es la fda de la normal estandar.
Lo u
ltimo anterior muestra que todas las probabilidades normales puedes ser calculadas
en terminos de la normal estandar. Ademas, el calculo de la media puede ser simplificado,
calculandolo para la N (0, 1), y luego transformando para el caso de N (, 2 ). Por ejemplo,
si Z N (0, 1),
1
EZ =
2
zez
2 /2
1
2
dz = ez /2 |
= 0
2
87
Probabilidad y Estadstica
En forma analoga, se tiene que V ar Z = 1, y se prueba que V ar X = 2 .
Ya hemos probado que (3.20) integra 1 sobre la recta real, o sea vimos, via integral doble
que
1
ez
2 /2
dz = 1.
Note que esta integral es simetrica alrededor del 0, lo cual implica que la integral sobre
(, 0) es igual a la integral sobre (0, ). As el problema se reduca a probar
Z
2 /2
z 2 /2
r
2
dz =
=
.
2
2
(3.21)
en terminos de funciones elementales (esto es, en forma cerrada), por ello, no podemos
resolver la integral en forma directa. Se resuelve va una integral doble
La integral (3.21) esta relacionada con la funcion gamma; en efecto haciendo la sustitucion
w = 21 z 2 en (3.21) nosotros vemos que esta integral es ( 12 ). Si se es cuidadoso al conseguir
las constantes correctas ,nosotros vemos que la sustitucion propuesta implica
1 Z
=
w1/2 ew dw = .
2
0
(3.22)
La distribucion normal es un poco especial en el sentido, que sus dos parametros, (la
media) y 2 (la varianza), nos proveen una completa informacion exacta acerca de la forma
y la ubicacion de la distribucion. Esta propiedad que tiene la distribucion normal, no es solo
para esta fdp, pero esta formada por una familia de fdps llamadas familias de localizacion
y escala.
Basta con resolver un elemental problema de calculo para mostrar que la fdp normal (3.20)
tiene un maximo en x = y puntos de inflexion (donde la curva cambia de concava a
convexa) en x = . Ademas la probabilidad contenida entre 1,2 o 3 desviaciones estandar
de la media es
P (| X | ) = P (| Z | 1) = 0,6826
P (| X | 2) = P (| Z | 2) = 0,9544
P (| X | 3) = P (| Z | 3) = 0,9947
Probabilidad y Estadstica
Primer Semestre 2005
88
Probabilidad y Estadstica
Donde X N (, 2 ), Z N (0, 1) , y los valores numericos provienen de una tabla de distribucion normal. A menudo valores de dos dgitos son reportados, aunque no representan
valores redondeados, se ocupan frecuentemente.
Entre los muchos usos de la distribucion Normal, uno de gran importancia es su uso como
aproximacion de otras distribuciones (los cuales son justificados por el Teorema central del
Lmite). Por ejemplo, si X Bin(n, p), entonces E X = np y V ar X = np(1 p), y bajo
condiciones convenientes, la distribucion de X puede ser aproximada con una va. normal
con media = np y varianza 2 = np(1 p). Las condiciones convenientesson que n debe
ser grande y p no debe ser un valor extremo (ni estar cerca del 0, ni cerca del 1). Como es el
caso de todas las aproximaciones no hay reglas absolutas, y para cada aplicacion debe ser
chequeada para decidir si la aproximaci
on es buena para ese caso. Una regla conservativa
que se sigue es que la aproximaci
on sera buena si min(np, n(1 p)) 5.
Ejemplo 3.2.2. Sea X Bin(25, 0,6). Aproximar X con una va. Y normal, y calcule la
probabilidad de que X tome valores menores
o iguales que 13, y compare con el valor exacto.
La aproximacion puede ser grandemente mejorada, por una correcci
on por continuidad.
Se describira un metodo estandar para mejorar la calidad de la aproximaci
on que se obtiene
cuando se aproxima una probabilidad basada en una distribucion discreta por una basada
en una distribucion continua.
Supongase, que la va. X tiene una distribucion discreta con fmp f (x) y se desea aproximar
esta distribucion por una distribucion continua con fdp g(x). Consideremos por simplicidad
solamente una distribucion discreta para la que todos los valores posibles de X sean enteros.
Si la fdp g(x) proporciona una buena aproximaci
on a la distribucion de X, entonces para
cualquier par de enteros a, b se puede aproximar simplemente la probabilidad
P (a X b) =
b
X
f (x)
(3.23)
x=a
por la integral
g(x) dx.
(3.24)
a
Probabilidad y Estadstica
Primer Semestre 2005
89
Probabilidad y Estadstica
Esta sencilla aproximacion tiene el siguiente inconveniente: aunque P (X a) y P (X > a)
en general tendran valores distintos para la distribucion discreta, estas probabilidades seran
siempre iguales para la distribucion continua. Otra forma de expresar este inconveniente es
la siguiente: aunque P (X = x) > 0 para cualquier x entero que es un valor posible de X,
esta probabilidad es necesariamente 0 con la fdp aproximada.
La fmp de X se puede representar por un histograma,
o diagrama de barras. Para cada
entero x, la probabilidad de que x se representa por el area de un rectangulo cuya base se
extiende desde x
1
2
hasta x +
1
2
b+ 21
a 12
g(x) dx.
(3.25)
1
1
P (X = a) = P a X a +
2
2
Z a+ 1
2
g(x) dx.
a 12
(3.26)
(3.27)
Analogamente,
1
P (X > a) = P (X a + 1) = P X a +
2
Z
g(x) dx.
a+ 12
90
Probabilidad y Estadstica
3.2.4.
Distribuci
on Beta
La familia de distribuciones beta es una familia continua sobre (0, 1) indexada por dos
parametros. La fdp de la beta(, ) es
f (x | , ) =
1
x1 (1 x)1 , 0 < x < 1 > 0 > 0,
B(, )
(3.28)
x1 (1 x)1 dx.
La funcion beta esta relacionada con la funcion gamma a traves de la siguientes identidad:
B(, ) =
()()
.
( + )
(3.29)
La (3.29) es muy usada al ocupar la funcion Beta, permitiendonos ciertas ventajas tomadas
de la funcio Gamma. En efecto, nunca trataremos directamente con la Beta, sino con (3.29)
para todas las evaluaciones que hagamos.
La distribucun Beta, es una de las pocas distribuciones, entre las mas conocidas que dan
probabilidad 1 sobre un intervalo finito, aqu el intervalo es el (0, 1). De esta manera, la
Beta es muy usada para modelas proporciones, las cuales, naturalmente caen entre 0 y 1.
Seran ilustradas algunas de estas situaciones en el captulo 4.
Calculemos los momentos para esta distribucion. Resolverlo es facil por la forma de la fdp.
Para n > se tiene
EX
=
=
Z 1
1
xn x1 (1 x)1 dx
B(, ) 0
Z 1
1
x(+n)1 (1 x)1 dx.
B(, ) 0
B( + n, )
( + n)( + )
=
.
B(, )
( + + n)()
(3.30)
V ar X =
91
( +
)2 (
+ + 1)
.
Prof.Mg. Osmar Vera
Probabilidad y Estadstica
Como los valores de y varan, la distribucion beta toma diversas formas, estrictamente
decrece ( = 1, > 1), forma de U ( < 1, < 1) o es unimodal ( > 1, > 1). El
caso = la fdp es simetrica alrededor de 1/2 y varianza (4(2 + 1)1 ). La fdp se vuelve
mas concentrada cuando crece, pero sigue siendo simetrica. Finalmente, si = = 1,
la distribucion se reduce a una uniforme en (0,1), mostrando que la uniforme puede ser
considerada un miembro de la familia beta. La beta esta tambies relacionada, a traves de una
transformacion, con la distribucion F , una distribucion que juega un papel extremadamente
importante en analisis estadstico.
3.2.5.
Distribuci
on Cauchy
La distribuci
on Cauchy, es una distribucion simetrica y con forma de campana sobre
(, ) con fdp
f (x | ) =
1
1
, < x < , < < .
(x )2
(3.31)
A los ojos, en principio, no parece tener grandes diferencias con la normal. Sin embargo
existe una gran diferencia entre ambas. Ya hemos vista que la media de esta distribucion
no existe, o sea hemos probado que E | X |= . Es facil probar que la (3.31) es una fdp
para todo .
Ya que la E | X |= , se sigue que esta no existen momentos para la distribucion
Cauchy, o sea que el valor absoluto de todos los momentos es . En particular la fgm
no existe.E | X |= .
El parametro en no mide (3.31) el centro de la distribucion; sino que representa la mediana. De donde, se sique que si una va. X tiene distribucion Cauchy con parametro ,
entonces P (X ) = 21 , mostrando que es la mediana de la distribucion.
La distribucion Cauchy juega un rol especial en estadstica teorica. Ella representa, mas
bien un caso extremo contra conjeturas que pueden ser probadas; es decir en otras palabras
propiedades que todas las distribuciones cumplen en general no de dan para la Cauchy!!.
Diriamos que es un caso patologico. Por ejemplo es com
un en la practica calcular cocientes
de observaciones, esto es cocientes de va.. Una sorpresa es el hecho que el cociente de dos
Probabilidad y Estadstica
Primer Semestre 2005
92
Probabilidad y Estadstica
normales estandar tiene distribucion Cauchy; de donde el hecho de tomar cocientes nos
puede llevar a distribucines enfermas!!.
3.2.6.
Distribuci
on Lognormal
Si X es una va. cuyo logaritmo esta normalmente distribudo (esto es, logX N (, 2 ),
entonces se dice que X tiene una distribucion lognormal. La fdp de X puede ser obtenida por
una transformacion de la fdp Normal usando el teorema de las transformacines, obteniendose
1 1 (logx)2 /(22 )
f (x | , 2 ) =
e
, 0 < x < , < < , > 0
2 x
(3.32)
para la fdp de la lognormal. Los momentos de X pueden ser calculados directamete, usando
(3.32), o explotando su relacion con la normal.
E X = E elog X
Y = log X N (; 2 ))
= EY
= e+(
2 /2)
La u
ltima igualdad se obtiene reorganizando la fgm de la distribucion normal (tomar t = 1).
Es posible usar una tecnica similar para calcular E X 2 , y conseguir asi
2
V ar X = e2(+ ) e2+ .
La distribucion lognormal, es en apariencia similar a la distribucion gamma. Esta distribucion es muy com
un cuando se aplican modelos, donde interesa la asimetra a la derecha.
3.2.7.
Distribuci
on Doble Exponencial
La distribucion doble exponencial se forma reflejando la distribucion exponencial alrededor de su media. La fdp esta dada por
f (x | , ) =
Probabilidad y Estadstica
Primer Semestre 2005
1 |x|/
e
, < x < , < < , > 0.
2
93
(3.33)
Probabilidad y Estadstica
La doble exponencial provee una distribucion simetrica con colas pesadas (mucho mas pesadas que la Normal), pero tiene todos sus momentos. La esperanza y la varianza son muy
faciles de calcular, ellas son
EX =
V ar X = 2 2 .
Existen muchas otras distribuciones continuas que tienen uso en diferentes aplicaciones
estadsticas, muchas de las cuales quizas apareceran a lo largo de estas notas. El material
bibliografico referente para las distribuciones usadas en estadstica, puede ser el trabajo de
Johnson y Kotz (1969,1970a,1970b).
3.3.
Familias Exponenciales
Una familia de fdp o de fmp se denomina familia exponencial, si puede ser expresada
como
f (x | ) = h(x)c() exp
k
X
wi ()ti (x) .
(3.34)
i=1
Aqu h(x) 0 y t1 (x), t2 (x), . . . , tk (x) son funciones real valoradas de las observaciones x
(o sea, ellas no pueden depender de ), c() > 0 y w1 (), w2 (), . . . , wk () son todas funciones
real valoradas positivas del parametro vector valuado (ellas no pueden depender de x).
Muchas de las familias introducidas en las secciones previas son familias exponenciales.
Ellas incluyen las familias continuas (normal, gamma, beta, etc.) y las familias discretas
(binomial, Poisson, binomial negativa, etc.)
La forma especfica (3.34) implica que las familias exponenciales tienen muchas propiedades
interesantes desde el punto de vista matematico. Pero a
un mas importante para un modelo
estadstico, esta forma (3.34) implica muchas propiedades estadsticas interesantes y de facil
deduccion a partir de la misma.
Para verificar que una familia de fpds o fmps es una familia exponencial, nosotros debemos
Probabilidad y Estadstica
Primer Semestre 2005
94
Probabilidad y Estadstica
identificar las funciones h(x), c(), wi (), ti (x) y mostrar que la familia tiene la forma (3.34).
Esto se ilustra en los siguientes dos ejemplos
Ejemplo 3.3.1. Mostrar que la familia bin(n,p), con n entero positivo, 0 < p < 1, es una
familia exponencial.
Ejemplo 3.3.2. Sea f (x | , 2 ) la familia de densidades N (, 2 ), donde = (, )
< x <
Probabilidad y Estadstica
Primer Semestre 2005
95
Probabilidad y Estadstica
Probabilidad y Estadstica
Primer Semestre 2005
96
Captulo 4
Modelos Multivariados
4.1.
En captulos previos hemos discutido modelos de probabilidad y calculos de probabilidades sobre eventos que involucran solamente una variable aleatoria. Estos se llaman modelos univariados. En este captulos discutiremos modelos de probabilidad que involucran
mas de una v.a., llamados naturalmente modelos multivariados.
Para la primera seccion, abordaremos modelos bivariados, es decir modelos que involucran
dos variables aleatorias.
Definici
on 4.1.1. Un n-dimensional vector aleatorio es una funci
on de un espacio muestral
en Rn (espacio eucldeo n-dimensional)
Supongamos que con cada punto en un espacio muestral asociamos un para ordenado
97
Probabilidad y Estadstica
de n
umeros, esto es, un punto (x, y) R2 , donde R2 es el plano coordenado. Entonces,
as tenemos definido un vector aleatorio 2-dimensional (o bivariado) (X, Y ).
Ejemplo 4.1.1. Consideremos el experimento que consiste en arrojar dos dados honestos.
El espacio muestral para este experimento tiene 36 elementos igualmente probables. Por
ejemplo el punto muestral (3, 3) denota el resultado para el cual ambos dados muestran un
3; el punto muestral (4, 1) denota el resultado para el cual el primer dado mostro un cuatro
y el segundo dado un 1; etc. Ahora, con cada uno de los 36 puntos del muestral asociamos
dos n
umeros, X e Y . Sean
X = Suma de los dos dados
2
1
= .
36
18
As,
P (X = 5 e Y = 3) =
1
.
18
1
36
por que el u
nico punto muestral
4
36
1
9
se cumple que X = 7, Y 4, ellos son {(4, 3); (3, 4); (5, 2); (2, 5)}.
Probabilidad y Estadstica
Primer Semestre 2005
98