Capitulos3 Distribuciones

NOTAS DE PROBABILIDAD
Programa de Estadı́sticas
UNIVERSIDAD DE CÓRDOBA
MONTERÍA
ii
Índice general
1. Conceptos Básicos y Notaciones 7

1.1. Conjuntos, sucesiones de Conjuntos y funciones . . . . . . . . 7
1.2. Operaciones generalizadas . . . . . . . . . . . . . . . . . . . . 8
1.3. Propiedades de operaciones entre conjuntos . . . . . . . . . . . 9
1.3.1. Número de elementos de un conjunto. . . . . . . . . . . 10
1.4. Sucesiones de Conjuntos . . . . . . . . . . . . . . . . . . . . . 12
1.5. Sucesiones monótonas . . . . . . . . . . . . . . . . . . . . . . 12
1.6. Funciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.7. Función indicadora . . . . . . . . . . . . . . . . . . . . . . . . 16
1.8. Composición de funciones . . . . . . . . . . . . . . . . . . . . 18
2. Elementos de Análisis Combinatorio 19

2.1. Principio de la Multiplicación (P.M) . . . . . . . . . . . . . . . 19
2.2. Principio de la Adición (P.A) . . . . . . . . . . . . . . . . . . 20
2.3. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6. Permutaciones con Repetición . . . . . . . . . . . . . . . . . . 33
2.7. Permutaciones Circulares . . . . . . . . . . . . . . . . . . . . . 36
2.8. Muestras Ordenadas . . . . . . . . . . . . . . . . . . . . . . . 36
2.9. Subpoblaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.10. Particiones Ordenadas . . . . . . . . . . . . . . . . . . . . . . 38
2.11. Combinación con Repetición . . . . . . . . . . . . . . . . . . . 40
3. Probabilidad 51
3.1. Experimento Aleatorio y Probabilidad . . . . . . . . . . . . . 51
3.1.1. Experimento. . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.2. Objeto de la teorı́a de probabilidades . . . . . . . . . . 52
iii
iv ÍNDICE GENERAL
3.2. Conceptos Preliminares . . . . . . . . . . . . . . . . . . . . . . 52

3.2.1. Espacio muestral . . . . . . . . . . . . . . . . . . . . . 52
3.2.2. Sucesos Aleatorios . . . . . . . . . . . . . . . . . . . . 53
3.2.3. Suceso contrario . . . . . . . . . . . . . . . . . . . . . . 54
3.2.4. Sucesos equivalentes . . . . . . . . . . . . . . . . . . . 54
3.3. Conjuntos y Probabilidad . . . . . . . . . . . . . . . . . . . . 54
3.4. Función de Probabilidad . . . . . . . . . . . . . . . . . . . . . 55
3.4.1. Álgebras . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4.2. σ-álgebra . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4.3. Conjunto de Borel . . . . . . . . . . . . . . . . . . . . 64
3.4.4. Funciones de Conjuntos . . . . . . . . . . . . . . . . . 67
3.4.5. Espacio de Probabilidad . . . . . . . . . . . . . . . . . 69
3.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4. Espacios Muestrales Finitos 89

4.1. Asignación de Probabilidades . . . . . . . . . . . . . . . . . . 89
4.2. Espacios Muestrales Equiprobables . . . . . . . . . . . . . . . 90
4.2.1. Ejemplos Sobre Probabilidad y Combinatoria . . . . . 91
4.2.2. Probabilidad hipergeométrica y binomial . . . . . . . . 93
4.3. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . 95
4.4. Procesos Estocásticos Finitos y Diagramas de árbol . . . . . . 100
4.5. Independencia Estocástica . . . . . . . . . . . . . . . . . . . . 105
4.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5. Variables Aleatorias 119

5.0.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . 124
5.0.2. Variable aleatoria y probabilidad . . . . . . . . . . . . 128
5.0.3. Variables aleatorias discretas y continuas . . . . . . . . 129
5.1. Función de Distribución Acumulada . . . . . . . . . . . . . . . 137
5.2. Esperanza Matemática o Valor Esperado . . . . . . . . . . . . 142
5.2.1. Medidas caracterizantes de una distribución . . . . . . 159
6. Distribuciones de Probabilidad 173

6.1. Distribuciones Para Variables Discretas . . . . . . . . . . . . . 173
6.1.1. Distribución Degenerada . . . . . . . . . . . . . . . . . 173
6.1.2. Distribución Uniforme Discreta . . . . . . . . . . . . . 173
6.1.3. Distribución dicotómica . . . . . . . . . . . . . . . . . 176
6.1.4. Distribución Binomial . . . . . . . . . . . . . . . . . . 178
ÍNDICE GENERAL v
6.2. Propiedades de la distribución binomial . . . . . . . . . . . . . 184

6.2.1. Distribución de Poisson . . . . . . . . . . . . . . . . . . 186
6.2.2. Distribución Hipergeometrica . . . . . . . . . . . . . . 190
6.2.3. Distribución Geométrica . . . . . . . . . . . . . . . . . 193
6.2.4. Distribución Binomial Negativa . . . . . . . . . . . . . 199
6.3. Distribuciones Para Variables Continuas . . . . . . . . . . . . 204
6.3.1. Distribución Uniforme Continua . . . . . . . . . . . . . 204
6.3.2. Distribución Gamma . . . . . . . . . . . . . . . . . . . 207
6.3.3. Relación entre la Gamma y la Poisson . . . . . . . . . 212
6.3.4. Distribución Exponencial . . . . . . . . . . . . . . . . . 213
6.3.5. Función de Sobrevivencia . . . . . . . . . . . . . . . . 218
6.3.6. Distribución Chi-cuadrado . . . . . . . . . . . . . . . . 218
6.3.7. Distribución Beta . . . . . . . . . . . . . . . . . . . . . 219
6.3.8. Distribución Normal . . . . . . . . . . . . . . . . . . . 225
6.3.9. Distribución Log-Normal . . . . . . . . . . . . . . . . . 235
6.3.10. Distribución de Cauchy . . . . . . . . . . . . . . . . . . 236
6.3.11. Distribución Weibull . . . . . . . . . . . . . . . . . . . 237
6.3.12. Distribución de Laplace o Exponencial Doble . . . . . . 239
6.3.13. Distribuciones Mixtas . . . . . . . . . . . . . . . . . . 240
6.3.14. Desigualdad de Chebyshev . . . . . . . . . . . . . . . . 241
7. Funciones de Variables Aleatorias 243

7.1. Funciones aleatorias discretas . . . . . . . . . . . . . . . . . . 246
7.1.1. X es una variable aleatoria continua . . . . . . . . . . 247
7.2. Funciones aleatorias continuas . . . . . . . . . . . . . . . . . . 247
7.2.1. Técnica de la Función Generadora de Momentos . . . . 258
6 ÍNDICE GENERAL
Capı́tulo 1
Conceptos Básicos y Notaciones
En esta sección se estudian algunos conceptos básicos de la teorı́a de conjun-

tos y se introducen entre otras las notaciones y operaciones básicas de esta
teorı́a.
1.1. Conjuntos, sucesiones de Conjuntos y fun-

ciones
Llamaremos conjunto universal (o espacio muestral como es llamado más
adelante) al conjunto Ω y en lo que sigue de estas notas, cualquier conjunto
será un subconjunto (⊆) de este conjunto universal (espacio muestral). Los
elementos de Ω serán llamados objetos, elementos u observaciones (o puntos
muestrales) de Ω. Para A un subconjunto de Ω (A ⊆ Ω), la notación ω ∈ A
significa que ω es un elemento del conjunto A, mientras que si ω no es un
elemento de A, entonces lo denotamos ω ∈ / A. En especial el conjunto que
no tiene ningún elemento, llamado conjunto vació, será denotado por ∅. Para
dos subconjuntos de Ω, digamos A y B, se dice que A es un subconjunto de B,
denotado por A ⊆ B, si todo elemento de A también es un elemento de B. En
el caso que algún elemento de B no sea elemento de A, usamos la notación
A ⊂ B. En algunos casos la notación A contenido en B,A ⊆ B, también
puede ser escrita en la forma B ⊇ A es decir, B contiene a A. Un conjunto
cuyo elementos también son conjuntos será llamado una clase o familia, en
particular la familia formada por todos los subconjuntos del conjunto A es
el conjunto de partes de A y será denotada por P(A).
Para un conjunto de ı́ndices Γ donde para cada γ ∈ Γ Aγ ⊆ Ω consideramos
7
8 CAPÍTULO 1. CONCEPTOS BÁSICOS Y NOTACIONES
esta familia mediante la notación {Ak }k∈Γ , {Ar : r ∈ Γ}.

Si el conjunto Γ es enumerable. se puede decir que la familia {Ar : r ∈ Γ} es
una sucesión {An }n=1,2,... .
Para el conjunto de indices Γ = {1, 2, 3, ..., k, ...} usaremos la notación {Ak }k∈Γ ,
{Ar : r ∈ Γ} o {Ak }k=1,2,... para denotar la clase o sucesión de conjuntos
{A1 , A2 , A3 , ..., An , ...}. Cuando Γ es finito, Γ = {1, 2, 3, ..., n}, también se
puede escribir {Ak }k=1,2,...,n... o {Ak }nk=1 .
1.2. Operaciones generalizadas

La unión generalizada de la familia {Ak }k∈Γ es el conjunto de todos los puntos
que pertenecen al menos a uno de los conjuntos Ak . Simbólicamente,
[
Ak = {w : ∃k ∈ Γ/w ∈ Ak }
k∈Γ
De la misma forma, la intersección generalizada es el conjunto formado por

aquellos elementos que pertenecen a todos los Ak . Simbólicamente,
\
Ak = {w : ∀k ∈ Γ, w ∈ Ak }
k∈Γ
Observación 1.2.1.
∞
[
1. Si Γ es infinito enumerable, indicamos en este caso la unión por Ak =
k=1
∞
\
A1 ∪ A2 ∪ A3 ∪ ... ∪ An ∪ ... y la intercepción por Ak = A1 ∩ A2 ∩
k=1
A3 ∩ ... ∩ An ∩ ...
n
[
2. Si Γ es finito, es decir, Γ = {1, 2, . . . , n}, la unión se notará Ak =
k=1
n
\
A1 ∪A2 ∪A3 ∪...∪An y la intercepción por Ak = A1 ∩A2 ∩A3 ∩...∩An .
k=1
1.3. PROPIEDADES DE OPERACIONES ENTRE CONJUNTOS 9
3. En el caso que Γ conste de dos elementos usaremos la notación A1 ∪ A2

(o también A ∪ B) y A1 ∩ A2 ( o también A ∩ B). En este último caso, si
A1 ∩ A2 = ∅, diremos que los conjuntos A1 y A2 son disjuntos, es decir,
estos no tienen elementos comunes. En general, la familia {Ak : k ∈ Γ}
se dice disyunta, si para todo par de elementos k, k 0 ∈ Γ (k 6= k 0 ) se tiene
que Ak ∩ Ak0 = ∅. Asimismo, la familia disyunta {Ak : kS∈ Γ}, donde
Ak ∈/ ∅ para todo k, se dice que es una partición de Ω, sı́ k∈Γ Ak = Ω.
Observación 1.2.2. Para algunas operaciones básicas entre conjuntos usa-

remos las siguientes notaciones:
1. Ac o Ā es el complemento del conjunto A, es decir,
Ac = {ω ∈ Ω : ω ∈
/ A}.
En especial, ∅c = Ω y Ωc = ∅.
2. A − B es la diferencia entre los conjuntos A y B, es decir, el conjunto

de puntos de A, exceptuando aquellos que están en B, simbólicamente:
A − B = {ω : ω ∈ A ∧ ω ∈
/ B}
3. A 4 B = (A ∪ B) − (A ∩ B), es la diferencia simétrica entre A y B, es

decir, todos los elementos de A ∪ B excepto los que estén en A ∩ B.
1.3. Propiedades de operaciones entre con-

juntos
Algunas propiedades de las operaciones anteriormente enunciadas son:
c c
1. ( ni=1 Ai ) = ni=1 Aci y ( ni=1 Ai ) = ni=1 Aci (Ley de Morgan).
S T T S
2. A − B = A ∩ B c .
3. A 4 B = (A − B) ∪ (B − A), es la diferencia simétrica entre A y B, es

decir, todos los elementos de A ∪ B excepto los que estén en A ∩ B.
4. A ∪ B = B ∪ A, A ∩ B = B ∩ A.
5. A ∪ (B ∪ C) = (A ∪ B) ∪ C, A ∩ (B ∩ C) = (A ∩ B) ∩ C.
6. A ∪ (B ∩ C) = (A ∩ B) ∪ (A ∩ C).
S S T T
7. A ∩ i∈Γ Ai = i∈Γ (A ∩ Ai ) y A ∪ i∈Γ Ai = i∈Γ (A ∪ Ai ).
8. A ∪ A = A, A ∪ Ac = Ω, A ∩ A = A, A ∩ Ac = ∅.
9. A ∩ Ω = A, A ∪ ∅ = A, A ∪ Ω = Ω y A ∩ ∅ = ∅.
1.3.1. Número de elementos de un conjunto.

Supongamos ahora que A, B son subconjuntos finitos de Ω.
Si A ∩ B = Φ, entonces el número de elementos de A ∪ B, notado η (A ∪ B)

es:
η (A ∪ B) = η (A) + η (B)
Si A ∩ B 6= ∅, entonces el número de elementos de A ∪ B es:
η (A ∪ B) = η (A) + η (B) − η (A ∩ B)
Una forma de “ ver ” esto es la siguiente:
Sean las regiones R1 = A ∩ B c , R2 = A ∩ B y R3 = Ac ∩ B como en la figura.

1.3. PROPIEDADES DE OPERACIONES ENTRE CONJUNTOS 11
Es claro que: A ∪ B = (A ∩ B c ) ∪ (A ∩ B) ∪ (Ac ∩ B). Luego:

Como R1 ∩ R2 ∩ R3 = Φ se tiene
η (A ∪ B) = η (R1 ∪ R2 ∪ R3 )
= η (R1 ) + η (R2 ) + η (R3 )
| {z }
η(A)
= η (A) + η (R3 ) + η (R2 ) − η (R2 )

| {z }
η(B)
= η (A) + η (B) − η (A ∩ B) .
Ejercicio: Hallar una formula para η (A ∪ B ∪ C) , tenga presente el siguien-

te diagrama
1.4. Sucesiones de Conjuntos

1. Si {An }n=1,2,... es una sucesión de conjuntos, llamaremos lı́mite supe-
rior de la sucesión {An }n=1,2,... al conjunto de todos los puntos w que
pertenecen a An para finitos valores de n. Simbólicamente
∞ [
\ ∞
lı́m sup An = Ai
n
n=1 i=n
2. El conjunto de todos los puntos de Ω que pertenecen a todos los An , a

menos de un número finito de tales An , es llamado lı́mite inferior de la
sucesión {An }n=1,2,...
∞ \
[ ∞
lı́m inf An = Ai .
n
n=1 i=n
1.5. Sucesiones monótonas

1. Una sucesión {An }n=1,2,... se dice creciente o monótona no decreciente
(↑) si A1 ⊆ A2 ⊆ A3 ⊆ . . . ⊆ An−1 ⊆ An ⊆ An+1 ⊆ ... ( es decir
sı́ An ⊆ An+1 , para n = 1, 2, . . .).
2. Una sucesión {An }n=1,2,... se dice decreciente o monótona no creciente(↓)

si A1 ⊇ A2 ⊇ A3 ⊇ . . . ⊇ An−1 ⊇ An ⊇ An+1 ⊇ ... ( es decir,
An ⊇ An+1 , para n = 1, 2, . . .).
3. Si para una sucesión {An }n=1,2,... , lı́m sup An = lı́m inf An diremos que
n n
tal sucesión tiene lı́mite y escribimos lı́m An = A, lo cual simbolizare-
n
mos por An → A.
4. Escribimos sucesiones crecientes de conjuntos con la notación An ↑ y

decrecientes por An ↓
Ejemplo 1.5.1. Encuentre: 1) lı́m supn An y 2) lı́m inf n An si:

1.5. SUCESIONES MONÓTONAS 13

∅
 si n = 1, 3
1 2 1
An = ( n , 3 − n ) si n = 5, 7, . . .

 1 1
( 3 , n + 1) si n = 2, 4, . . ..
¿Existe lı́m An ?
Solución:
A1 = ∅
A2 = (− 16 , 32 )
A3 = ∅
1 5
A4 = ( 12 , 4)
1 7
A5 = ( 5 , 15 )
A6 = ( 16 , 76 )
∞
Ak , entonces B1 = B2 = A2 , B3 = (0, 45 ), B4 = (0, 45 ),
S
Sea Bn =
k=n
B5 = (0, 76 ), B6 = (0, 76 ), B7 = (0, 89 ), B8 = (0, 89 ), B9 = (0, 10
11
) y en
general para n ≥ 6,
(
(0, 1 + n1 ) si n es par
Bn = 1
(0, 1 + n+1 ) si n es impar.
1 1
Luego, como lı́mn→∞ n
= lı́mn→∞ n+1
= 0, entonces
∞ [
\ ∞ ∞
\
lı́m sup An = Ak = Bn = (0, 1].
n
n=1 k=n n=1
∞
T
Sea Cn = Ak , entonces C1 = C2 = C3 = ∅, entonces como para
k=n
−
n ≥ 6, se tiene que n1 ≤ 13 − n1 y 31 − n1 → 13 cuando n → ∞, se sigue
que C4 = [ 31 , 15
7
), C5 = [ 31 , 15
7
), ... y en general,
(
[1, 2 − 1 ) si n es par
Cn = 31 32 n 1
[ 3 , 3 − n+1 ) si n es impar.
Entonces, usando un argumento similar al caso anterior se tiene que

∞ \
∞ ∞
[ [ 1 2
lı́m inf An = Ak = Cn = , .
n
n=1 k=n n=1
3 3
Por tanto,
lı́m sup An 6= lı́m inf An
y ası́ se concluye que lı́m An no existe.
Dos propiedades muy utilizadas de la teorı́a de sucesiones monótonas se enun-

cian a continuación.
Propiedades 1.5.1.
∞
[
1. Si An = A y An ↑, entonces An → A y
n=1
∞
\
2. Si An = A y An ↓, entonces An → A.
n=1
Ejemplo 1.5.2. Sean Ω = R+ ∪{0} (los reales no negativos) y la sucesión de

conjuntos {An }n=1,2,3,... donde An = 0, 1 − n = x ∈ R : 0 ≤ x ≤ 1 − n1 ,
1

para n = 1, 2, . . .. Entonces, A1 = [0, 0] = {0}, A2 = [0, 1/2], A3 = [0, 2/3],

A4 = [0, 3/4], A5 = [0, 4/5] es decir, A1 ⊆ A2 ⊆ A3 ⊆ . . . ⊆ An−1 ⊆ An ⊆
An+1 ⊆ ... luego, An ↑ . Ahora
∞
[
An = [0, 1) = {x : 0 ≤ x < 1} entonces An → [0, 1).
n=1
También se tienen las siguientes operaciones:

T∞
n=1 An = {0},
S∞ c
S∞ 1

n=1 An = n=1 1 − n , ∞ = (0, ∞),
T∞ c
T∞ 1

n=1 An = n=1 1 − n , ∞ = [1, ∞),
Las cuales de acuerdo a las leyes de Morgan pueden ser obtenidas como
1.6. FUNCIONES 15
T∞ c
( n=1 An ) = {0}c = (0, ∞) = {x : x > 0}.
S∞ c
( n=1 An ) = [0, 1)c = [1, ∞) = {x : x ≥ 1}.
Ejemplo 1.5.3. Sea Ω = R. Consideremos An , Bn , n = 1, 2, . . . en Ω como

sigue:
( )
1 1
An = x ∈ R/ − 5 + < x < 20 − .
n n
( )
3
Bn = x ∈ R/0 < x < 7 + .
n
Es claro que An ↑, Bn ↓ y que lim An = (−5, 20) y lim Bn = (0, 7) .
n→∞ n→∞
ejercicio: Sea Ω = R2 . Definamos en ϕ An y Bn como sigue:

( )
1 2 1
An = (x, y) ∈ R2 /3 + ≤ x < 6 − , 0 ≤ y ≤ 2 − 2 .
n n n
( )
1
Bn = (x, y) ∈ R2 /x2 + y 2 ≤ 3 .
n
Demostrar que An ↑ y Bn ↓. Hallar los limites.
1.6. Funciones
1. Sean A y B conjuntos, una función f de A a B, denotada por f : A → B,
es un subconjunto G del producto cartesiano A × B (G ⊆ A × B), tal
que para todo a ∈ A hay un par de la forma (a, b) ∈ G. Si C ⊆ A,
f (C) = {y : ∃x ∈ C|y = f (x)} = {f (x) : x ∈ C}.
2. Para Q ⊆ B, sea f −1 (Q) definida por
f −1 (Q) = {x ∈ A : f (x) = q, para algún q ∈ Q} = {x ∈ A : f (x) ∈ Q}.
3. Si f : A → B es una función. La restricción de f a S, denotada por f|S ,

es la función f|S : S → B, definida por f|S (x) = f (x), para todo x ∈ S.
Propiedades 1.6.1. Sean f : A → B una función, C ⊆ A y T ⊆ B, Γ un

conjunto de indices, {Ak }k∈Γ una familia indexada de subconjuntos de A y
{Bk }k∈Γ una familia indexada de subconjuntos de B. Entonces
1. f (∅) = ∅ y f −1 (∅) = ∅.
c
2. f −1 (T c ) = [f −1 (T )] .
3. f −1 (∩k∈Γ Bk ) = ∩k∈Γ f −1 (Bk ).
4. f −1 (∪k∈Γ Bk ) = ∪k∈Γ f −1 (Bk ).
5. f (∪k∈Γ Ak ) = ∪k∈Γ f (Ak ).
6. f (∩k∈Γ Ak ) ⊆ ∩k∈Γ f (Ak ).
1.7. Función indicadora

Una función de mucha utilidad para operaciones entre conjuntos y la defini-
ción de algunas de las funciones de densidad de probabilidad que estudiare-
mos más adelante es la función indicadora de un conjunto. Entonces, para
un conjunto A, A ⊆ Ω, llamaremos indicador de A, a la función definida por:
(
1 si ω ∈ A,
IA (ω) =
0 si ω ∈/ A.
Propiedades 1.7.1. Enunciamos ahora algunas de las propiedades de la

función indicadora.
1. A ⊆ B si y solo si IA (w) ≤ IB (w) e IAc (w) = 1 − IA (w).

n
Y
2. IA∩B (w) = IA (w)IB (w) ; I∩ni=1 Ai (w) = IAi (w).
i=1
n
Y
3. IA∪B (w) = IA (w)+IB (w)−IA (w)IB (w), I∪ni=1 Ai (w) = 1− (1−IAi (w))
i=1
1.7. FUNCIÓN INDICADORA 17
Sn
4. T
Sean A1 , A2 , . . . , An subconjuntos de Ω y defina A = j=1 Aj y B =
n
j=1 Aj , entonces
a) IA (w) = 1 − nj=1 IAcj (w).

Q
b) IB (w) = nj=1 IAj (w)

Q
5. Para una sucesión {An }n=1,2,... ,
a) Ilı́m sup A (w) = lı́m sup IAn (w)

n n
n
b) Ilı́m inf An (w) = lı́m inf IAn (w)

n
n
Demostración: Los inscisos 1, 2 y 3 se dejan como ejercicio. A continuación

realizaremos las demostraciones de 4-a) y 5-a).
4-a: Si w ∈ A, tenemos que IA (w) = 1. En este caso w ∈ Aj para algún j,

entonces para ese j tenemos que w ∈ / Acj , luego IAcj (w) = 0. Por lo tanto el
lado derecho de la igualdad es igual a 1. Si w ∈ / A, entonces IA (w) = 0. En
c
este caso w ∈
/ Aj para todo j, entonces w ∈ Aj para todo j, luego IAcj (w) = 1
para todo j, lo cual implica que nj=1 IAcj (w) = 1. Por o tanto el lado derecho
Q
de la igualdad es igual a 0.
∞
[
5-a: i ) Sı́ x ∈
/ lı́m sup An , entonces ∃n0 ∈ N tal que x ∈
/ Ak ; luego
n
k=n0
x∈
/ Ak ∀k ≥ n0 . Ası́, IAk (x) = 0 ∀k ≥ n0 , luego lı́m sup IAk (x) = 0.
n
∞
[
ii ) Sı́ x ∈ lı́m sup An entonces Ilı́m sup An (x) = 1, luego x ∈ Ak para
n
n k=n
todo n ∈ N.
∞
[
Ası́, para n = 1, sı́ x ∈ Ak , entonces ∃n1 tal que x ∈ An1 (IAn1 (x) = 1).
k=1
∞
[
Para n = 2, sı́ x ∈ Ak , entonces ∃n2 tal que (n2 > n1 ) y x ∈ An2 (IAn2 (x) =
k=2
1).
∞
[
Ası́, sucesivamente, para n = m, sı́ x ∈ Ak , entonces ∃nm tal que
k=m
(nm > nm−1 > . . . > n2 > n1 ) tal que x ∈ Anm (IAnm (x) = 1).
Ası́, tenemos una subsucesión {IAnm (x)}∞

m=1 de {IAn (x)} con la propiedad de
que IAnm (x) = 1 ∀m ∈ N, por lo tanto se tiene que lı́m sup IAn (x) = 1.
n
De i) y ii) se concluye que lı́m sup IAn (x) = Ilı́m sup A (x).
n n
n
1.8. Composición de funciones

: Sean f : A → B y g : B → C funciones. La composición de f y g es la
función g ◦ f definida por (g ◦ f )(x) = g(f (x)).
Propiedades 1.8.1. Sean f : A → B, g : B → C y h : C → D funciones.

Entonces:
1. (h ◦ g) ◦ f = h ◦ (g ◦ f )
2. f ◦ IA = f y IB ◦ f = f.
Capı́tulo 2
Elementos de Análisis
Combinatorio
2.1. Principio de la Multiplicación (P.M)

Supongamos que un experimento E, se puede realizar en k etapas y que
cada etapa se puede realizar, independientemente, en ni (i : 1, 2, ..., k) formas
diferentes; entonces el experimento se puede hacer de n1 ×n2 ×...×nk formas.
Ejemplo 2.1.1. De cuantas maneras se puede viajar entre A y C pasando

por B sabiendo que entre A y B hay 4 rutas y entre B y C hay 3.
Solución:
A1 B1 C A2 B1 C A3 B1 C A4 B1 C
A1 B2 C A2 B2 C A3 B2 C A4 B2 C
19
20 CAPÍTULO 2. ELEMENTOS DE ANÁLISIS COMBINATORIO
A1 B3 C A2 B3 C A3 B3 C A4 B3 C
número de rutas diferentes 4 × 3 = 12
Ejemplo 2.1.2. Cuantas placas diferentes pueden haber en Colombia, si

cada placa está formada por 3 letras (entre 26) y un número de 3 cifras
Solución:
existen
26 × 26 × 26 × 10 × 10 × 10 = 17576000
placas diferentes.
2.2. Principio de la Adición (P.A)

Supongamos ahora que el experimento se puede realizar de n1 maneras apli-
cando el procedimiento 1 o de n2 maneras aplicando el procedimiento 2.
Entonces el experimento se puede hacer de n1 + n2 maneras. Si existieran k
procedimientos, el experimento se podrı́a hacer de n1 + n2 + ... + nk formas.
Ejemplo 2.2.1. Se planea un viaje y deseamos decidir la forma de hacerlo.

Al sitio viajan 3 empresas de buses, 1 de taxi y 2 compañı́as de aviación. En
total tenemos 3 + 1 + 2 = 6 posibilidades de hacer el viaje.
2.3. Permutaciones
Una permutación de n objetos (tomados todos a la vez) es una ordenación
de los mismos en un orden dado.
Con dos elementos a, b podemos obtener las siguientes permutaciones ab, ba
y con tres elementos a, b, c las permutaciones siguientes abc, acb, bac, bca,
cab, cba.
Veamos ahora cuántas permutaciones se pueden hacer de n objetos diferentes
(tomados todos a la vez). Agrupar los n objetos es equivalente a colocarlos
en una caja con n casillas en algún orden especı́fico.
2.3. PERMUTACIONES 21
1 2 3 ... n
la primera casilla 1 , la podemos llenar con cualquiera de los objetos por lo

tanto hay n maneras de llenarla, después se elige uno cualquiera de los n − 1
objetos para llenar la segunda casilla y por lo tanto hay n − 1 maneras de
llenarla y ası́ sucesivamente, la ultima casilla tiene una sola posibilidad de
llenarla aplicando el P.M hay n(n − 1)(n − 2) · · · 1 formas de llenar la caja
por lo tanto el número de permutaciones de n objetos diferentes viene dado
por n(n − 1)(n − 2) · · · 1.
Si designamos mediante n Pn , el número de permutaciones diferentes de n

objetos, tenemos que:
n Pn = n(n − 1)(n − 2) · · · 1
Definición 2.3.1. Si n ∈ Z+ , se define n! = n(n − 1)(n − 2) · · · 1 y 0! = 1,

luego n Pn = n!
Teorema 2.3.1. El número de permutaciones de un conjunto de n elementos

es igual a n!.
Demostración. (Por inducción)
Para n = 1 (Trivial).
Supongamos ahora que los n elementos b1 , b2 , . . . , bn , bn+1 se pueden ordenar
n! veces de forma diferente. Entonces en los n + 1 elementos b1 , b2 , . . . , bn el
elemento bn+1 puede ubicarse en cada permutación de n + 1 formas distintas
y como hay n! permutaciones entonces bn+1 tendrá (n + 1)n! = (n + 1)!
posibilidades de ubicarse en todas las permutaciones.
Ejemplo 2.3.1. Cuántas permutaciones de 4 letras se puede hacer con las
letras de la palabra AMOR? cuáles son?
Solución:
Aplicando el P.M hay 4 × 3 × 2 × 1 = 4! = 24 permutaciones diferentes. Para
saber cuales son se usa ordinariamente el siguiente diagrama conocido como
”diagrama arbolico”
Se deja como ejercicio a los lectores completar el diagrama arbolar anterior.
Puede observarse que resulta tedioso responder a la pregunta ”cuales son las
permutaciones” cuando n es bastante grande. En los problemas en adelante
estaremos interesados en responder la pregunta ”cuantas son las permutaciones”.
No nos interesa saber, ordinariamente cuáles.
2.4. Variaciones
Consideremos n objetos diferentes. Nos interesa ahora las permutaciones de
r objetos elegidos entre los n elementos dados (r ≤ n), llamadas también
”variaciones”. Usaremos la expresión n Pr para indicar las variaciones (o per-
mutaciones ) de r objetos tomados de n.
Resumimos nuevamente el esquema de las cajas o buzones pero ahora nos
detenemos cuando se haya llenado la casilla r-ésima. De este modo, la prime-
ra casilla se puede llenar con uno de n objetos (n posibilidades), la segunda
con uno de los (n − 1) objetos restantes ((n − 1) posibilidades) y la r−ésima
2.4. VARIACIONES 23
casilla con unoo de los n−(r −1) objetos restantes (n−(r −1) posibilidades).
Usando el principio de la multiplicación hay.
n(n − 1) · · · (n − (r − 1)) formas de llenar los r-compartimientos. Por lo tanto
el número de permutaciones de r objetos tomados de n viene dado por.
n Pr = n(n − 1)(n − 2) · · · (n − (r − 1)).
casillas maneras
1a −→ n
a
2 −→ n − 1
3a −→ n − 2
3a −→ n − 3
.. .. ..
. . .
r −→ n − (r − 1)
.. .. ..
. . .
Ejemplo 2.4.1. Hallar el número de permutaciones de los objetos a, b, c, d, e
tomados de a 3
Solución:
Se trata de llenar 3 casillas , con el objeto de hallar las permutaciones
de 5 elementos tomados de a 3. La primera se puede llenar con cualquiera de
las 5 (5 posibilidades), la segunda puede llenarse de 4 formas diferentes (4
posibilidades) y una vez hecho esto, la tercera se puede llenar de 3 maneras
(3 posibilidades) aplicando el P.M tenemos que hay 5 × 4 × 3 = 60 posibles
permutaciones de 3 elementos tomados de a, b, c, d, e
Ejemplo 2.4.2. i) Hallar el número de palabras de 4 letras que se pueden

formar con las letras de la palabra CRISTAL.
ii) Cuántas de ellas contienen sólo consonantes.
iii) Cuántas empiezan y terminan por consonantes.
iv) Cuántas empiezan por vocal.
v) Cuántas contienen la letra L.
vi) Cuántas empiezan por T y terminan por vocal.

vii) Cuántas empiezan por T y también contienen S.
viii) Cuántas contienen ambas vocales.
Solución:
Hay 7 letras distintas que forman la palabra CRISTAL, de ellas hay 5
consonantes y 2 vocales.
i) En este caso tenemos 7 letras (5 consonantes, 2 vocales) para llenar 4

casillas . La primera se puede llenar de 7 maneras, la segunda de
6, la tercera de 5 y la cuarta de 4 maneras. Aplicando P.M tenemos
7 × 6 × 5 × 4 maneras de llenar las casillas luego hay 7 × 6 × 5 × 4 = 840
permutaciones.
ii) En este caso las 4 casillas solo deben llenarse con las consonantes
c, r, s, t, l. Hay 5 maneras de llenar la primera, 4 la segunda, 3 la ter-
cera y 2 la cuarta casilla. Aplicando P.M hay 5 × 4 × 3 × 2 maneras de
llenar las casillas, por lo tanto hay 5 × 4 × 3 × 2 = 120 permutaciones
que solo contienen consonante.
iii) En este caso, la primera y la ultima casilla contiene consonante. Hay 5

maneras de llenar la primera casilla y 4 de llenar la ultima casilla una
vez hecho esto, como hay 7 letras distintas y se han llenado dos casillas
(primera y ultima), quedan 5 maneras de llenar la segunda casilla y 4
para llenar la tercera casilla. Aplicando P.M hay 5 × 5 × 4 × 4 maneras
de llenar las casillas, luego hay 5 × 5 × 4 × 4 = 400 que empiezan y
terminan por consonante.
iv) La primera casilla se puede llenar de 2 maneras (a,i). Una vez hecho
esto las restantes casillas se pueden llenar de 6, 5, 4 maneras respecti-
vamente. En total hay 2 × 6 × 5 × 4 = 240 palabras que empiezan por
vocal.
v) En este caso la letra L puede ir en la primera, segunda, tercera o cuarta

casilla, luego hay 4 maneras de ubicar la letra L. En cada una de ellas
las restantes letras se pueden ubicar de 6, 5, 4 formas. Por lo tanto hay
4 × 6 × 5 × 4 = 480 palabras que contiene L.
2.5. COMBINACIONES 25
vi) Si empieza por T y terminan en vocal, entonces la primera y la ultima

casilla pueden llenarse de 1 y 2 maneras respectivamente. Hecho esto
las casillas restantes pueden llenarse de 5 y 4 maneras respectivamente.
En total hay 1 × 5 × 4 × 2 = 40 permutaciones que empiezan por T y
terminan por consonante.
vii) Si empiezan por T la primera casilla puede llenarse de 1 manera, pero

como también contiene S ésta puede ubicarse en la segunda o tercera o
cuarta casilla. Luego hay 3 maneras de ubicar la letra S. En cada una de
ellas las restantes casillas se llenaran de 5 y 4 maneras respectivamente.
Aplicando P.M hay 1 × 3 × 5 × 4 = 60 permutaciones que empiezan por
T y también contienen a S.
viii) Las vocales pueden ubicarse en las siguientes posiciones v v ; v v

;v v; vv ; v v; v v. Las casillas restantes se pueden llenar
de 5 y 4 formas diferentes en cada uno de las formas habrá por lo
tanto 6(1 × 1 × 5 × 4) = 120 formas distintas. Pero como las vocales
pueden, a su vez, permutar entre si, el número total de formas sera
2(6(1 × 1 × 5 × 4)) = 240.
n!
Teorema 2.4.1. n Pr = (n−r)!
.
Demostración.
n Pr = n(n − 1)(n − 2) · · · (n − (r − 1)) = n(n − 1)(n − 2)...(n − r + 1)

n(n − 1)(n − 2)...(n − r + 1)(n − r)!
=
(n − r)!
n!
= .
(n − r)!
Notar que n! = n(n − 1)(n − 2) · · · (n − (r + 1))(n − r)!.
2.5. Combinaciones
”En una reunión de 4 defensas de un equipo de microfutbol a, b, c, d se quie-
ren hacer grupos de a 3 defensas cada uno. ?‘cuantos de estos grupos se
pueden formar?. El problema es diferente al de las permutaciones. No resulta
correcto imaginarnos que vamos a meter en casillas a los jugadores defensas

del equipo, pues el grupo abc es el mismo bac. Aquı́ el ORDEN NO IN-
TERESA para nada. Serı́a mas interesante imaginarnos que metemos de a
3 defensas del equipo en una bolsa dentro de la cual ellos puedan mezclarse
como quieran. El problema se reduce, entonces a averiguar cuántos subcon-
juntos de 3 elementos se pueden obtener de un conjunto de 4 elementos. A
este subconjunto los llamaremos combinaciones de 4 objetos tomados de a 3 ”
Se llaman combinaciones de orden k en un conjunto A(A 6= ∅) las partes o

subconjuntos de k elementos tomados del conjunto A (A finito). Si A tiene
n elementos, el número de tales combinaciones lo notáremos C(n, k)
Ejemplo 2.5.1. Las combinaciones de orden 3 de a, b, c, d son {a, b, c},

{a, b, d}, {a, c, d}, {b, c, d}.
Como obtenemos una fórmula general para C(n, k) ?.
Cada una de las combinaciones produce N permutaciones, por lo tanto el
mismo total de permutaciones sera igual al número de composiciones (P.M ).
Es decir. n Pk = C(n, k).k!; por lo tanto
n!
n Pk (n−k)! n!
C(n, k) = = = .
k! k! k!(n − k)!
n

Este número que aparece en infinidad de temas matemáticos se denota k
que se lee ” n con k ”. Por lo tanto.

n n!
= n ∈ Z+ y 0 ≤ k ≤ n.
k k!(n − k)!
n n 0

Nótese que n
= 1, 0
= 1, y en particular 0
= 1.
Ejemplo 2.5.2. En un examen de 10 preguntas, los estudiantes deben selec-

cionar 4 de ellas ¿ de cuantas maneras puede un estudiante seleccionar las
preguntas?
Solución:
Se trata de obtener los subconjuntos de 4 elementos tomados de 10. Por lo
10

tanto, hay 4 formas de escoger las preguntas
Ejemplo 2.5.3. Cuántos rectángulos se forman con 3 lineas horizontales y

8 verticales
Solución:
Cada rectángulo se puede formar con 2 lineas horizontales y 2 verticales.
Las horizontales se pueden combinar de 32 formas y las verticales de 82

maneras. Aplicando P.M se pueden formar entonces 32 82 rectángulos.

Ejemplo 2.5.4. En un plano hay 16 puntos de manera que no hay 3 coli-
neales. Cuántas rectas se pueden trazar uniendo pares de puntos? ?‘Cuántos
triángulos se pueden trazar uniendo ternas de puntos?
Solución:
16 16! 16×15

2
= 2!14! = 2
= 120 rectas y
16 16! 16×15×14

3
= 3!13!
= 2×3
= 560 triángulos.
Teorema 2.5.1. n ∈ Z+ , 0 ≤ k ≤ n, nk = n−k n

.
n n! n! n! n

Demostración. n−k = (n−k)!(n−(n−k))! = (n−k)!k! = k!(n−k)! = k
.
La anterior proposición se interpreta en términos de subconjuntos de un con-
junto de la siguiente manera: Cuando escogemos k objetos de n, es lo mismo
que escoger n − k objetos de n; note que cada subconjunto de k elementos
determina un único
8
8
subconjunto
8
8
de10n − k10elementos (su complemento) y
número, ası́: 3 = 5 ; 1 = 7 ; 6 = 4 .
Teorema 2.5.2. nk + k−1 n
= n+1

k
n ∈ Z+ 0 ≤ k ≤ n.
Demostración.

n n n! n!
+ = +
k k−1 k!(n − k)! (k − 1)!(n − (k − 1))!
n!(n − k + 1) + n!k
=
k!(n − k + 1)!
n!n − n!k + n! + n!k
=
k(n + 1 − k)!
n!(n + 1)
=
k!(n + 1 − k)!

(n + 1)! n+1
= = .
k![(n + 1) − k]! k
n+1 n n

Luego k
= k
+ k−1
.
La anterior expresión se suele escribir de la siguiente forma:

n n−1 n−1
= + ,
k k k−1
este resultado se interpreta de la siguiente manera: escojamos cualquiera de
los n objetos, digamos que sea a1 . Al elegir k objetos entre n puede ocurrir
que a1 esté incluido o excluido pero no las dos cosas. Luego al contar el
número de maneras de escoger k objetos, se puede aplicar el principio de la
adición anotado antes.
Si a1 está excluido se debe escoger la k objetos de la n − 1 objetos restantes
(ya que no se escogió a1 inicialmente) y hay n−1 k
formas de hacerlo.
Si a1 está incluido, entonces debemos escoger solamente k − 1 objetos mas de
los restantes n − 1 lo cual puede hacerse de n−1

k−1
. De manera que el numero
pedido es la suma de esos dos, lo cual comprueba la identidad.
Ejemplo 2.5.5. Si 99 = a y 100 = b. Expresar 100

5 95 95
en función de a y b.
Solución:
Aplicando el teorema anterior
encontramos que:
100 100 100 99 99

95
= 5 y a su vez 5 = 5 + 4 = a + b
Los números nk se suelen denominar coeficientes binomiales debido a que

intervienen en el desarrollo del binomio de Newton (a + b)n . Sabemos que:

n X n
n−k k n n n−k k
X
n
(a + b) = a b = a b
k=0
k k=0
k
la prueba de éste enunciado es por inducción sobre n.
En efecto:
1
X 1 1−k k 1 1 0 1 0 1
a) a b = ab + a b = a1 + b1 = (a + b) = (a + b)1
k=0
k 0 1
b) demos cierto el enunciado para cierto n ∈ Z+ , en tal caso

n
n
X n n−k k
(a + b) = a b
k=0
k
y demostremos que para n + 1 se tiene que

n+1
n+1
X n + 1 n+1−k k
(a + b) = a b .
k=0
k
En efecto:
n
n+1 n
X n
(a + b) = (a + b)(a + b) = (a + b) an−k bk
k=0
k
n n
X n n−k k X n n−k k
=a a b +b a b
k=0
k k=0
k
n n
X n n+1−k k X n n−k k+1
= a b + a b
k=0
k k=0
k
n n+1
n n+1 0 X n n+1−k k X n
= a b + a b + an−(k−1) b(k+1)−1
0 k=1
k k=0+1
k − 1
n n
n n+1 0 X n n+1−k k X n
= a b + a b + an+1−k bk
0 k k − 1
k=1 k=1
n
+ a0 bn+1
n+1−1
n
n n+1 0 X n n n+1−k k n 0 n+1
= a b + + a b + ab
0 k=1
k k−1 n
n
n + 1 n+1 0 X n + 1 n+1−k k n + 1 0 n+1
= a b + a b + ab
0 k=1
k n + 1
n+1
X
= an+1−k bk .
k=0
n
X n
Ejemplo 2.5.6. Aplicar el desarrollo de (a + b) = n
an−k bk para de-
k=0
k
mostrar que el número de subconjuntos de un conjunto con n elementos es 2n .
Solución:
En la obtención de subconjuntos debemos tener el conjunto vació, los que ten-
gan un elemento, los que tengan dos elementos,... y el mismo conjunto
que
consta de n elementos. Cada uno de ellos se puede escoger de n0 , n1 , n2 , ..., nn
formas. El número total de subconjuntos, aplicando el principio de la adición,
para entonces
n
n
n n n
X n n−k k
0
, 1 , 2 , ..., n pero como a b tenemos que si a = b = 1, en-
k
n k=0
X n n−k k n n n n
tonces a b = + + + ... + = (1 + 1)n = 2n .
k=0
k 0 1 2 n
Luego entonces hay 2n subconjuntos de un conjunto con n elementos.
Observación 2.5.1. 1) El ejemplo anterior se puede demostrar también
utilizando P.M. El razonamiento es, en este caso como sigue:
Supongamos que un conjunto tiene n elementos. El método consistirá en
clasificar cada elemento según vaya o no incluido en el subconjunto. Hay
2 maneras de clasificar cada elemento [1 o 0 según esté o no incluido]
y hay n elementos por lo tanto el P.M nos dice que hay
2 × 2 × 2 × ... × 2 = 2n
clasificaciones posibles y por ende hay 2n subconjuntos ya que ca-

da una de las clasificaciones posibles comprende a un subconjunto,
Ası́, si tenemos (1, 1, 1, 0, 0, ..., 0) comprende al subconjunto {a1 , a2 , a3 },
(1, 1, 1, ..., 1) comprende al conjunto dado y (0, 0, ..., 0) comprende al
conjunto vació.
n
n
X n n−k k
2) La expresión (a + b) = a b es bastante importante. Con
k=0
k
respecto a ella se puede hacer las siguientes observaciones:
n
X n n−k k
i) La expresión a b tiene n + 1 términos.
k=0
k
ii) En cada termino la suma de los exponentes de a y b es n y todas las

posibles parejas de exponentes que sumen n se presentan.
iii) Mientras que los exponentes de a van disminuyendo (n, n − 1, ..., 1, 0)
los de b van aumentando (0, 1, ..., n − 1, n)
iv) El coeficiente de an−kbk es nk es el mismo

de ak bn−k = an−(n−k) bn−k a
n
. [Recordar que nk = n−k n

su vez es igual a n−k ]. Los coeficientes de
los términos extremos son iguales.
Resulta útil escribir los coeficientes de las expresiones binomiales en el arreglo
conocido como triangulo de pascal, el cual es como sigue:
0

0
1 1

0 1
2 2 2

0 1 2
3 3 3 3

0 1 2 3
..
.
n n n n n

0 1 k n−1 n
..
.
Al reemplazar estos coeficientes binomiales por sus valores numéricos resulta
el conocido triangulo de pascal.
1
1 1
1 2 1
1 3 3 1
..
.
Entre las aplicaciones tenemos:
Ejemplo 2.5.7. Cuál es el coeficiente de a3 b4 en (a + b)7 ?
Solución:
7
X
7
(a + b) = a7−k bk
k=0
7 7!
7−k

cuando a = a3 , entonces k = 4, luego el coeficiente sera 4
= 4!3!
= 35
Ejemplo 2.5.8. Cuál es el coeficiente de a10 b3 en (a − b)13 ?
Solución:
13 13
X 13 13−k k
X 13 13−k k
(a − b)13
= (a + (−b)) 13
= a (−b) = a b (−1)k
k=0
k k=0
k
cuando a13−k = a10 , entonces k = 3 por lo tanto a10 b3 tiene coeficiente
13

3
(−1)3 = −286
Ejemplo 2.5.9. Cuál es el coeficiente de x2 y 3 z en (x + y + z)6 ?
Solución:
6
X 6
6
(x + y + z) = [(x + y) + z] =6
(x + y)6−k z k
k=0
k
En x2 y 3 z tiene k = 1 para z por lo tanto el coeficiente de z será 61 (x +

5
6−1
X 5 5−k k
y) z = 6 x y z pero x2 y 3 z tiene k = 3 para y luego el coeficiente
k=0
k
de x y z será 6{ 53 x2 y 3 }z = 60x2 y 3 z
2 3

n
k n
X
Usando el mismo razonamiento anterior se puede probar que (−1) =
k=0
k
0 tomando a = −1 y b = 1.
α
Podemos extender la definición de para α ∈ R. Entonces se define ·
k
α
= 0 para k ∈ N.
−k
α
· Extendiendo para k ∈ N y α = −n con n ∈ Z, tenemos
k

−n (−n)(−n − 1)(−n − 2) . . . (−n − k + 1)
=
k k!
(−1)k n(n + 1)(n + 2) . . . (n + k − 1) (n − 1)!
= ·
k! (n − 1)!
n + k − 1
= (−1)k .
k
Teorema 2.5.3. (Serie binomial) Para todo α ∈ R
α
α
X α k
(1 + x) = x ,
k=0
k
converge absolutamente para todo α ∈ R tal que |x| < 1.

Teorema 2.5.4. (de Vandermond) Sea α, β ∈ R. Entonces para todo n ∈ N0
se cumple que:
n
X α β α+β
= .
k=0
k n − k n
2.6. PERMUTACIONES CON REPETICIÓN 33
Demostración.
α
X α+β n
x = (1 + x)α+β = (1 + x)α (1 + x)β
n=0
n
" α #" α #
X α X β
= xk xk
k=0
k k
α
" n k=0 #
X X α β
= xk ∀x ∈ R
k=0 k=0
k n − k
la última linea de la demostración sale directamente del Teorema de Cauchy.

Entonces por igualdad de términos se obtiene el resultado.
2.6. Permutaciones con Repetición

Si se quiere averiguar cuantas palabras de 4 letras se pueden formar con las
letras de la palabra ”DIOS” entendiendo por palabra cualquier cadena de
estos sı́mbolos sin o con significado como DIOS o SIOD o SDOI, la respuesta
claramente es 4! = 24 pero si planteamos el mismo problema con la pala-
bra ”DADO” vemos que el resultado no puede ser 4! = 24. Tiene que ser
mucho menos pues las 2 dees se pueden permutar entre si sin que se produz-
can palabras diferentes. Cuál es entonces la respuesta correcta? para el caso
supongamos que las 2 dees se enumeran con subindices quedando d1 y d2 res-
pectivamente,
√ √√ √las√2 dees
√ pueden
√ ocupar
√ √ las √siguientes
√ casillas
√ √ (señalamos con
) ; ; ; ; ; , mientras que las
casillas restantes se pueden llenar con a o con o. Cada uno de los arreglos, se
podrá llenar entonces de 1 × 1 × 2 × 1 formas y como hay 6 arreglos, entonces
se tendrá 6(1 × 1 × 2 × 1) permutaciones de la palabra DADO. Notese este
número (12) es menor que 4! = 24, el número de permutaciones si las letras
fuesen distintas.
En general, tenemos: El número de permutaciones de n objetos de los cuales

n1 son equivalentes entre si, n2 son equivalentes entre si ,..., es n1 !n2n!!···nr ! , en
donde dos objetos son ”equivalentes entre si” si se pueden intercambiar entre
si, dejando los otros objetos fijos, sin que se observe algún cambio, sin que
se produzcan permutaciones diferentes de los n objetos.
(la demostración general se deja a los estudiantes).
Ejemplo 2.6.1. Hallar el numero de permutaciones de las letras de las pa-

labras
a) dado
b) estadı́stica
c) matemática
d) aracataca
e) tennessee
Solución:
4!
a) 2!
11!
b) 2!2!2!2!
10!
c) 2!3!2!
9!
d) 5!2!
9!
e) 4!2!2!
Ejemplo 2.6.2. Cuantas señales diferentes,cada una de 8 banderas, coloca-

das en una linea vertical, pueden formarse con un conjunto de 4 banderas
rojas sin marcar, 3 blancas sin marcar y 1 azul
Solución:
Se trata de obtener el número de permutaciones de 8 banderas de las cuales
8!
hay 4 iguales y 3 también. Aplicando el teorema hay 4!3! señales diferentes.
Que sucede cuando nos interesa el número de permutaciones de k objetos de
n (k ≤ n) de los cuales hay n1 de una clase, n2 de otra clase etc.
En este caso el número de permutaciones de n objetos tomando k a la vez
y si n1 son equivalentes, entre si, n2 de ellos son equivalentes entre si,..., nr
son equivalentes entre si viene dado por:
n!
(n − k)!n1 !n2 ! · · · nr !
Notese que ésta fórmula generaliza todas las anteriores.
2.6. PERMUTACIONES CON REPETICIÓN 35
Ejemplo 2.6.3. ?‘cuántas señales de 6 banderas se pueden formar con 3

banderas rojas, 3 azules y 2 blancas? (las banderas se colocan sobre una linea
vertical)
Solución:
Como hay 3 banderas rojas, 3 azules y 2 blancas tendremos entonces 8 objetos
con las cuales se quieren formar señales diferentes que contengan (cada señal)
8! 8!
6 banderas aplicando el teorema tendremos, entonces (8−6)!3!2!3! = 2!3!2!3! =
280 señales diferentes.
Por medio del siguiente ejemplo ilustraremos, nuevamente, lo consiguiente a

las permutaciones con repetición.
Ejemplo 2.6.4. De cuantas maneras se puede llegar de (0, 0) a (m, k) en un

angulo reticular de números (con coordenadas enteras) si solamente se permi-
te moverse, a través de los puntos reticulares, hacia la derecha y hacia arriba.
Solución:
Dado un angulo reticular de puntos, como como el que se muestra a conti-
m+k

nuación, hay k maneras de llegar de (0, 0) a (m, k).
Para ver que esto se dá notemos en primer lugar que necesariamente cual-
quier trayectoria tiene longitud m + k lo cual significa que está formado por
m + k segmentos horizontales (H) o verticales (V). De esta forma cada tra-
yectoria puede caracterizarse como una expresión que tiene m + k haches
y ves tales como V HV HHV...H. La cual significa: moverse verticalmente
(una trayectoria), luego horizontalmente, luego horizontalmente, luego hori-
zontalmente, luego horizontalmente,... A cada trayectoria le corresponde una
expresión como la anterior y a cada expresión como esa le corresponde una
trayectoria. El problema se reduce, pues, a calcular
cuántas de éstas expre-
(m+k)! m+k m+k
siones hay! claramente hay m!k! = m = k .
Ejemplo 2.6.5. Todas las mañanas un persona debe marchar de la calle 1

con la carrera 1 de una ciudad, hasta su sitio de trabajo en la carrera 7 con
calle 6, por ejemplo, en la manera como se muestra en el plano, marchando
hacia el occidente o hacia el norte. La persona ha decidido que cada dı́a lo
va a hacer de una manera diferente, de cuantas maneras se puede hacer esto?
Solución:
Básicamente es una aplicación del ejemplo anterior, la persona puede hacerlo
de (5+6)!
5!6!
= 462 maneras diferentes.
Otra forma de razonamiento es como sigue: A una esquina se puede llegar

desde la inmediatamente anterior del sur o del occidente, por lo tanto el
número de maneras de llegar a una esquina cualquiera es la SUMA de las
maneras de llegar a la inmediatamente anterior del sur y del número de
maneras de llegar de la anterior del oriente. Por ejemplo para llegar a la
calle 2 con carrera 1a hay un solo camino y para llegar a la calle 1 con
carrera 2 hay un solo camino, luego para llegar a la calle 2 con carrera 2 hay
1 + 1 = 2 caminos. De esta forma podemos formar un triangulo de pascal que
nos da inmediatamente la llegada: 426 caminos diferentes.
2.7. Permutaciones Circulares

De cuantas maneras se puede sentar n personas alrededor de una mesa
redonda?
una cualquiera de las persona se sienta en un asiento cualquiera, las n − 1
personas restantes se pueden sentar de (n − 1)! maneras. La respuesta es
entonces (n − 1)!
Analicemos el problema de otra forma. Si las n personas se sentaran en forma
lineal serian n! maneras de sentarse las n personas pero cada una de estas
maneras se puede notar de n maneras sin que se pierda el angulo (BCAD es
lo mismo que DBCA cuando A,B,C,D son 4 personas sentadas alrededor de
una mesa redonda), osea hay n!n
= (n − 1)! maneras.
2.8. Muestras Ordenadas

Consideremos un conjunto de n elementos, al que llamaremos población cual-
quier arreglo ordenado de m elementos (tomados de los n) lo llamaremos una
prueba ordenada de tamaño m.
Para formar ésta muestra podemos pensar que lo hacemos uno a uno. Esta
selección la podemos hacer de 2 maneras:
a) Sin repetición: En este caso se hace la selección de un elemento y éste

2.9. SUBPOBLACIONES 37
no se devuelve a la población, es decir que un elemento de la pobla-

ción no puede ser seleccionado mas que una vez. Este procedimiento se
llama MUESTREO SIN REMPLAZAMIENTO, PRUEBAS SIN SUS-
TITUCIÓN. Como no hay repetición en la prueba ordenada, entonces
una prueba ordenada de tamaño m sin sustitución no es mas que una
variación de m elementos tomados de n y por lo tanto el número de
pruebas ordenadas de tamaña m sin remplazamiento viene dado por
n!
n Pm = (n−m)!
b) Con remplazamiento: En este caso el elemento escogido se devuelve a la

población antes de escoger la siguiente. como hay n maneras diferentes
de escoger cada elemento, según el principio de la multiplicación, hay:
m
| ×n×
n {z· · · × n} = n pruebas ordenadas de tamaño m con sustitución.
m veces
Nótese que en este caso m puede ser mayor que n, mientras que en
el caso a) necesariamente m ≤ n. (En este caso, un elemento de la
población puede ser seleccionado más de una vez).
Ejemplo 2.8.1. Un jugador de baloncesto lanza 5 veces el balón a la canasta

?‘ cuantos resultados diferentes se pueden obtener según que en cada lanzada
logre o no logre una canasta?
Solución:
2 × 2 × 2 × 2 × 2 = 25 .
2.9. Subpoblaciones
Dos poblaciones se consideran diferentes si una de ellas contiene un elemento
que no contiene la otra. Escoger m elementos diferentes de una población
tamaña n, es seleccionar una subpoblación (muestra ordenada) de tamaño
m (m ≤ n)
2.10. Particiones Ordenadas

Dividimos una población de tamaño n en k subpoblaciones de tamaño n1 , n−
2, ..., nn [n1 , n2 + ... + nk = n]. La selección de los n, elementos de la primera
subpoblación viene dada por nn1 maneras, una vez escogidas estas quedan
n − n1 en la población, la selección de los n − 2 elementos de la segunda viene
n−n1

dado por n2 maneras quedando n − n1 − n2 objetos de la población, por
lo tanto hay n−nn13−n2 formas de escoger los n3 elementos de la subpoblación

tercera, etc.
Aplicando el principio de la multiplicación hay.

n n − n1 n − n1 − n2 n − n1 − n2 − ... − nk−1 n!
... = .
n1 n2 n3 nk n1 !n2 !...nk !
Ejemplo 2.10.1. Suponga que 8 exploradores llegan a un sitio donde van a

acampar y deciden que 3 de ellos se quedan en el sitio ordenando el campa-
mento, 2 van a traer leña y los 3 restantes continuaran explorando la región.
De cuántas maneras se puede dividir en los 3 grupos?
Solución:
Los 3 que se van a quedar en el campamento se pueden escoger de 83 ma-

neras, los 2 que se van a recoger leña se escogen entre los 5 restantes de 52
explorando lo harán de 33 maneras. En total

maneras y los 3 que siguieron
se pueden decidir de 83 52 33 = 3!2!31
8!

maneras.
Ejemplo 2.10.2. De cuantas maneras se pueden repartir 9 juguetes entre 4

niños, si al menor hay que darle 3 juguetes y a los otros 3 de a 2.
Solución:
9!
3!2!2!2!
maneras.
Nota 2.10.1. Si n1 + n2 + ... + nk = n, entonces la expresión n1 ,n2n,··· ,nk se

define como sigue: n1 ,n2n,··· ,nk = n1 !,n2n!!,··· ,nk !

Estos números son llamados coeficientes multinominales en atención a que

X n
(a1 + a2 + · · · + ak )n = a1n−1 an2 2 · · · ank k .
n +n +···+n =n
n1 , n2 , · · · , nk
1 2 k
2.10. PARTICIONES ORDENADAS 39
Ejemplo 2.10.3.
7 7!
= = 210
2, 3, 2 2!3!2!

8 8!
= = 420
4, 2, 2, 0 4!2!2!0!
Para tratar de explicar la fórmula antes dada, consideremos el caso particular

(a + b + c)3 .
Claramente
(a + b + a)3 = (a + b + c)(a + b + c)(a + b + c)

= aaa + abb + aab + acc + abc + bbb + bab + aba + cac + acb
+ ccc + bba + baa + cca + bac + cbb + aac + bcc + bca + bcb
+ aca + cbc + cab + bbc + caa + ccb + cba
de acuerdo con lo anterior hay 3 clases de términos. Los de la primera columna

(tiene elementos idénticos); los de la segunda, tercera y cuarta columna (2
elementos idénticos) y los de la quinta columna (3 elementos diferentes);
agrupando el resultado tenemos
(a + b + c)3 = a3 + b3 + c3 + 3ab2 + 3cb2 + 3a2 b + 3a2 c + 3bc2 + 3ac2 + 6abc
En general, los términos del desarrollo son de la forma kap bq cr en donde

p + q + r = 3 y k es el coeficiente, el cual hay que buscar.
Analizando el cuadro anterior podemos decir que, los elementos que están
en la primera columna son permutaciones de tres elementos idénticos, luego
aplicando la fórmula de permutaciones con repetición tenemos que:
n! 3!
p!q!r!
con n = 3, p = 3, q = r = 0 tenemos 3! = 1 por lo que la formula nos
da los coeficientes de los términos de la primera columna.
los de la segunda, tercera y cuarta columna son grupos de permutaciones
en los cuales hay 2 elementos idénticos, por lo que, nuevamente aplicando la
fórmula, tenemos.
3!
(n = 3, p = 2, q = 1, r = 0) k = 2!1! = 3 que viene siendo los coeficientes de
2 2 2
ab , a b, ac .
Los de la ultima columna son permutaciones de tres elementos diferentes
(entre si). Aplicando la fórmula tenemos que.
3!
(p = q = r = 1) k = 1!1!1!
= 6 que es coeficiente de abc en el desarrollo.
[En los términos de la primera columna pudo haberse tomado p = 0, q =

3, r = 0 o también p = 0, q = 0, r = 3; en los de la segunda, tercera y cuarta
columna pudo haberse tomado p = 2, q = 1, r = 0; p = 2, q = 0, r = 1; p =
1, q = 2, r = 0; p = 0, q = 2, r = 1; p = 1, q = 0, r = 2; p = 0, q = 1, r = 2;
para obtener todos los términos que tiene 3 por coeficientes].
Como se ve, se obtienen grupos de permutaciones diferentes buscando todas

las colecciones posibles de la ecuación p + q + r = 3 con tal que sean enteros
y positivos, de acuerdo con lo,anterior podemos afirmar que :
X 3! p q r
(a + b + c)3 = abc.
p+q+r=3
p!q!r!
Generalizando lo anterior podemos decir que: En el caso de (a1 + · · · + ar )n =

(a1 + a2 + · · · + ar )(a1 + a2 + · · · + ar ) · · · (a1 + a2 + · · · + ar ) (n veces). Cada
término del desarrollo es de la forma an1 1 an2 2 · · · anr r (en la cual n1 + n2 + · · · +
nr = n), además hay n1 !n2n!!···nr ! es el coeficiente de estos términos, por lo tanto.

X n
(a1 + a2 + · · · + ar ) =n
an1 1 an2 2 · · · anr r , en donde
n1 +n2 +···+nr =n
n1 , n2 , · · · , nr
n1 , n2 , · · · , nr son todas las colecciones posibles de la ecuación n1 + n2 + · · · +
nr = n cada solución da a lugar a un grupo de términos. Tales soluciones
tienen que ser enteros y positivos.
X
Ejemplo 2.10.4. Sea (a + b)5 luego (a + b)5 = kap bq , donde k = p!q! 5!
p
p+q=5
y q tiene que ser soluciones enteras y positivas de p + q = 5 Podemos hacer
p = 5, q = 0; p = 4, q = 1; p = 3, q = 2; p = 2, q = 3; p = 1, q = 4;
p = 0, q = 5. lo cual produce los valores siguientes k = 1, k = 5, k = 10,
k = 10, k = 5, k = 1 luego el desarrollo de (a + b)5 es:
(a + b)5 = a5 + 5a4 b + 10a3 b2 + 10a2 b3 + 5ab4 + b5 .
2.11. Combinación con Repetición

Consideremos los objetos a, b, c, d. Entenderemos como combinaciones con re-
petición aquellas combinaciones en las cuales las letras se repiten. Su sı́mbolo
2.11. COMBINACIÓN CON REPETICIÓN 41
será Cr (n, m) en la cual n es el número de términos dados y m el número de

elementos que forman la combinación. Las expresiones, combinaciones mo-
narias, combinaciones binarias, etc. Indicaron las combinaciones que tienen
1 elemento, 2 elementos, etc. Cómo formar las combinaciones? Escritas las
monarias, su número es, en general, n ya que en ellas no hay repetición po-
sible, para formar las binarias le agregamos sucesivamente a cada monaria
todas las demás letras que le siguen y ademas ella misma. Consideramos pues
los sı́mbolos a, b, c, d. Las combinaciones monarias Cr (4, 1) son: a, b, c, d. (1).
Notese que Cr (4, 1) = 4. Las combinaciones binarias Cr (4, 2) son:
aa ab ac ad
bb bc bd (2)
cc cd
dd
Notese que Cr (4, 2) = 10.
Las combinaciones ternarias Cr (4, 3) son:

aaa aab aac aad
abb abc abc
bbb bbc bbd
acc acd
bcc bcd (3)
ccc ccd
add
bdd
cdd
ddd
Notese que Cr (4, 3) = 20
A continuación deduciremos una formula general para Cr (n, m) a partir de

los casos anteriores. Cuál será el método? Consiste en buscar 2 expresiones
que representen el número de veces que se repite una letra, digamos a, se
igualan las 2 expresiones y se despeja la que se desea buscar.
Busquemos una fórmula, por ejemplo, para Cr (4, 2).

El número de letras que aparece en (2) es 20, el cual podemos expresar ası́:
2Cr (4, 2) ya que hay 10 combinaciones con repetición de 4 elementos tomados
2 a 2.
Como todas las letras aparecen el mismo número de veces y hay 4 letras
distintas, se deduce que la a aparece 5 veces lo cual podemos expresar ası́:
2Cr (4,2)
4
.
Suprimamos la letra a en cada expresión que la contenga [aa ab ac ad]

nos resulta entonces a b c d, las combinaciones monarias cuyo número es
Cr (4, 1) = 4 y como hemos suprimido la letra a, entonces Cr (4, 1) será el
número de veces que se ha sprimido a.
Cuántas aes nos quedan en [a b c d]? Tantas como haya en las combinacio-
nes monarias (1). Este número lo representaremos Cr (4,1)
4
.
podemos plantear entonces la siguiente igualdad:

# de veces que aparece la letra a en las combinaciones binarias = # de veces
que se ha suprimido la letra a de las combinaciones binarias + # de veces
que aparece a en las monarias, es decir.
2Cr (4, 2) Cr (4, 1) 1

= Cr (4, 1) + = (1 + )Cr (4, 1) = (4 + 1)Cr (4, 1)
4 4 4
⇒ Cr (4, 2) = 4+1
2
C r (4, 1).
Siguiendo las ideas anteriores, veamos como obtener una fórmula para Cr (4, 3).
El número de letras que aparecen en las combinaciones ternarios es 60 y como

hay 20 combinaciones binarias este número (60) lo podemos representar ası́:
3Cr (4, 3).
Como todas las letras aparecen el mismo número de veces y hay 4 letras
distintas, entonces se deduce que cada letra aparece 15 veces (en particular
la a aparece 15 veces). Luego 3Cr4(4,3) , es el número de veces que aparece la
letra a, en las combinaciones ternarias.
Suprimimos ahora la letra a en cada expresión que la contenga. de esta ma-

nera nos medirı́an las combinaciones binarias tal como se ve suprimiendo la
a en 3. Nos resulta entonces,
aa ab ac ad
bb bc bd
cc cd
dd
Las anteriores son las combinaciones binarias cuyo número es Cr (4, 2), el
número de letras a que hemos suprimido (10) es Cr (4, 2); las aes que quedan
son las que hay en las combinaciones con repetición cuyo número es 2Cr4(4,2) .
Por lo tanto planteamos la siguiente igualdad.
3Cr (4, 3) 2
= Cr (4, 2) + Cr (4, 2)
4 4
2
= (1 + )Cr (4, 2)
4
⇒ 3Cr (4, 3) = (4 + 2)Cr (4, 2)
4+2
⇒ Cr (4, 3) = Cr (4, 2)
3
Como Cr (4, 2) = 4+1 2
Cr (4, 1) y Cr (4, 3) = 4+2
3
Cr (4, 2) entonces se espera que
Cr (4, 4) = 4+3
4
C r (4, 3).
En general, podemos decir que si tenemos n objetos a1 , a2 , ..., an entonces:

n+1
Cr (n, 2) = 2
Cr (n, 1)
n+2
Cr (n, 3) = 3
Cr (n, 2)
n+3
Cr (n, 4) = 4
Cr (n, 3)
..
.
n+(m−1)
Cr (n, m) = m
Cr (n, m − 1)
multiplicando termino a termino y simplificando tenemos:
Cr (n, 2)Cr (n, 3)Cr (n, 4) · · · Cr (n, m−1)Cr (n, 2m) = n+1
2
n+2
3
· · · n+(m−1)
m
Cr (n, 1)
Cr (n, 2) · · · Cr (n, m)
luego.
(n + 1)(n + 2)(n + 3) · · · (n + (m − 1))
Cr (n, m) = Cr (n, 1)
2 × 3 × 4 × ··· × m
n(n+1)(n+2)···(n+m−1)
Pero Cr (n, 1) = n, entonces Cr = 1×2×3×···×m
multiplicando y divi-
diendo por (n − 1)! se tiene:
(n − 1)!n(n + 1)(n + 2) · · · (n + m − 1)
Cr (n, m) =
(n − 1)!m!

n+m−1
=
m
Esto significa que las combinaciones con repetición de n elementos tomados

de m a m equivale a las combinaciones sin repetición de n + m − 1 elementos
tomados m a m.
Observación 2.11.1. Es importante resaltar que en las combinaciones con

repetición m ≤ n
Ejemplo 2.11.1. En una bolsa hay 4 tipos de arandelas A, B, C, D. Se van

a sacar muestras de 3 arandelas cada una. Cuantas muestras distintas se
pueden elegir.
Solución:
Hay 4 tipos de arandelas y se van a sacar muestras de 3 arandelas, donde se
permite repetición (AAB, BBB, son muestras). se trata de combinaciones
con repetición de4 elementos (A, B, C, D) tomados de a 3 luego.
Cr (4, 3) = 4+3−1 6

3
= 3
= 20 muestras distintas.
A continuación mostraremos una serie de problemas que ayudaran a una

mejor comprensión de los temas anteriores.
Ejemplo 2.11.2. Hay 9 posiciones en el juego de béisbol. Se dispone de 12

jugadores, pero en cualquier arreglo que se haga el pitcher y la primera base
han de ser siempre los mismos. Cuántos arreglos pueden hacerse?
Solución:
Hay 12 jugadores para llenar 9 posiciones, de los cuales el pitcher y la primera
base hay que jugar juntos. En consecuencia solo quedan 12 − 2 jugadores para
llenar las restantes 9 − 2 posiciones. Se trata entonces de variaciones de 10
jugadores tomados de a 7 cuyo número viene dado por 10P 7 = 10! 3!
= 604800
Este problema ilustra la siguiente situación general. Si hay n artı́culos de

los cuales van a formar arreglos de m artı́culos pero p objetos determinados
tiene que ocupar, lugar fijos en los arreglos, entonces el número de ellos viene
(n−p)!
dado por n − pP m − p = (n−m)!
Ejemplo 2.11.3. En un estante hay 8 tomos de una obra, se exige que el
tomo 1, 4 y 8 ocupen siempre sus lugares, de cuántos modos pueden colocarse
los libros.
Solución:
Como hay 8 tomos de la obra y se exige que el 1, 4 y 8 ocupen sus lugares,
entonces los 5 restantes se pueden repartir de 5! maneras.
Este problema uno ilustra la siguiente situación. Si se tienen n objetos y a p
de ellos se le asignan lugares determinados, entonces el número de permuta-
ciones que pueden formarse es igual a Pn−p = (n − p)!.
Si los p objetos especificados pueden permutar entre si, entonces el número
total de permutaciones viene dado por Pn−p × P ! = (n − p)!p!.
Siguiendo el ejemplo anterior, si los tomos I,II,V III pueden intercambiarse

entre si hay 5!3! = 720 maneras de arreglarse.
Ejemplo 2.11.4. De cuantas maneras se puede dividir m + n cosas en gru-
pos de m y n respectivamente
Solución:
El problema equivale hallar las combinaciones de m + n cosas tomadas de
m en m por que cada vez que escojamos m cosas de m + n(m+n)!
dejamos ”atrás”
un grupo de n cosas restantes. Por lo tanto hay m+n n
= n!m!
maneras de
seleccionar m y n cosas respectivamente de un total de m + n, por ejemplo.
De cuantas maneras se puede dividir a, b, c en grupos de 1 y 2 respectivamente?
3!
De acuerdo al enunciado tendrı́amos que hay 1!2! maneras de dividir a, b, c
en grupos de 1 y 2 respectivamente, es decir 3 formas.
cuales serian los grupos
a bc −→ un grupo
b ac −→ otro grupo
c ab −→ otro grupo
tendrı́amos un total de 3 grupos.
puede suceder que m + n sean igual a un número par de cosas en tal caso nos
interesarı́a, por ejemplo, saber de cuantas maneras se puede dividir m + n
cosas en grupos iguales (m = n).
En este caso (si m = n) los grupos son del mismo número de objetos y son
(2m)!
intercambiables por lo que habrá m!m!2! maneras de dividir m + n objetos en
grupos iguales. Expliquemos un ejemplo porque se divide por 2!
Sean a, b, c, d objetos dividamoslo en grupos de 2 y 2 objetos respectivamente.

Tales grupos son:
1. ab y cd
2. ac y bd
3. ad y bc
4. bc y ad
5. bd y ac
6. cd y ab
grupos iguales se reduce a
1. ab y cd
2. ac y bd
3. ad y bc
para un total de 3 grupos
Note que los 6 grupos iniciales se reducen a 3 ya que al ser intercambiable
se reducen a uno solo y por eso se divide por 2! osea por el número de
permutaciones de 2 elementos que es 2! [(a, b) se considera como un elemento]
Ejemplo 2.11.5. De cuántas maneras se puede dividir m + n + p cosas en
grupos de m, n y p cosas respectivamente.
Solución:
Supongamos que dividimos m + n + p en grupos de a m y n + p cosas respec-
tivamente, entonces el número en virtud a el ejemplo anterior es:
(m + n + p)!
,
m!(n + p)!
pero cada grupo de n + p cosas puede dividirse en grupos de n y p cosas, por

lo tanto lo podemos hacer de
(n + p)!
,
n!p!
luego cada grupo de las indicadas por la primera fórmula, da un número de
grupos indicadas por la segunda fórmula, luego en total habrá
(m + n + p)! (n + p)! (m + n + p)!

= .
m!(n + p)! n!p! m!n!p!
Si los grupos son del mismo número y son intercambiables, se tiene la fórmula
(3m)!
m!m!m!3!
.
Consideremos los elementos a, b, c, d. De cuántas maneras podemos dividirlos

en grupos de 1, 2 y 1 elementos respectivamente?
4!
Por aplicación de la formula, tiene 1!2!1! = 12 formas de dividirlos en grupos
de 1, 2 y 1 elementos respectivamente
Ejemplo 2.11.6. Con las letras a, b, c, d, e, f , formar las combinaciones 4 a

4 pero que en todas ellas se encuentra la a cuantas son?
Solución:
Como hay 6 elementos para formar combinaciones 4 a 4 pero se quiere que
en cada una de éstas este la a, entonces las 3 restantes se tendrán que escoger
5!
de 5; por lo tanto hay 5C3 = 3!2! = 10 combinaciones las cuales contienen a
El ejemplo ilustro la siguiente situación: si se tiene n elementos para formar

combinaciones m a m pero se quiere que p elementos se encuentra en las
combinaciones, entonces el número de combinaciones viene dado por
(n−m)!
n − pCm − p = (m−p)!(n+p)! .
Es claro, ya que teniendo p elementos fijos quedan m−p en cada combinación

que pueden ocupar las n − p lugares restantes.
Ejemplo 2.11.7. Se tienen 6 lápices: rojo, azul, verde, amarillo, negro, café.
De cuántas maneras diferentes pueden tomarse des de ellos, excluyendo siem-
pre el negro y el azul.
Solución:
Como hay 6 lapices, para escoger 2 de ellos no incluyendo el negro y el azul,
entonces se han de escoger de 4 lapices (rojo, verde, amarillo, café) luego se
pueden escoger de 4C2 formas.
En general, el número de combinaciones de n elementos tomados m a m y

que no incluyan ninguno de los p viene dado por n − pCm
Ejemplo 2.11.8. Hay 3 manzanas, 4 peras y 2 naranjas. Se desea tomar

3 de ellas pero ha de haber al menos una manzana, de cuantas maneras se
podrá hacer considerando las frutas de cada grupo distintas entre si?
Solución:
Para el caso basta obtener todos los grupos de 3 elementos que se pueden
obtener de 9 frutos y a ese número quitarle aquellos grupos que no conten-
gan ninguna manzana. Los grupos que se pueden formar de 3en 3 son 93 .

Los grupos que no contiene manzanas se puede formar de 63 (4 peras y 2

naranjas). Por lo tanto el número de maneras será 93 − 63 = 64

Con lo anterior se plantea la plantea la siguiente situación general: se tienen

n objetos para escoger de m en m. el número de los que encierran por lo
menos uno de los p objetos determinados, será
nCm − nCm − p
Ejemplo 2.11.9. De 7 cordobeses y 4 sucreños se va a formar un comité de

6. De cuántas maneras puede formarse si.
a) Hay en el comité 2 sucreños.
b) Hay como mı́nimo 2 sucreños
Solución:
a) Como el comité es de 6 miembros se ha de escoger 2 sucreños y 4 cor-

4

dobeses. Los sucreños pueden escogerse de 2
maneras y los cordobeses
7

de 4 . Cada uno de los miembros del primer grupo puede asociarse en
4 7
cada uno de los del segundo, por lo tanto hay 2 4 maneras.
b) El comité puede tener 2, 3 o 4 sucreños. Cuando haya 2 sucreños

habrá que escoger 4 cordobeses; cuando haya 3 sucreños habrá que es-
coger 3 cordobeses; cuando haya 4 sucreños habrá que escoger 2 cordo-
beses. El número total de maneras será:

4 7 4 7 4 7
+ +
2 4 3 3 4 2
Ejemplo 2.11.10. Encontrar una formula que exprese la suma de todos los
números resultada de permutar el número 1234. Generalizar el resultado.
Solución:
Como hay 4 números se tendrá 4! = 24 permutaciones las cuales podemos
agrupar en grupos de 6 números [pues como cada permutación tiene 4 cifras
al dividir 24 entre 4, se obtiene los grupos antes mencionados]. Tales grupos
son iguales al siguiente.
1234
2341
3412
4123
y cada columna de ese grupo suma 10 por lo que el total en su expresión

polinómica tiene la forma
10 × 103 + 10 × 102 + 10 × 101 + 10 × 100 = 10[103 + 102 + 101 + 100 ]

3
X
= 10 10j
j=0
y como hay 6 grupos de esos, entonces la suma será.

3
X 3
X
j
6[10] 10 = 3![10] 10j
j=0 j=0
Note que 10 es la suma de los dı́gitos que forman cada permutación del grupo
y 3! es el número de permutaciones circulares de 1, 2, 3, 4.
Capı́tulo 3
Probabilidad
3.1. Experimento Aleatorio y Probabilidad

3.1.1. Experimento.
Es un procedimiento que se puede llevar a cabo, bajo un cierto conjunto de
condiciones, un número indefinido de veces, de modo que en cada relación se
obtenga una observación (un resultado, una medición).
Al efectuar el experimento puede ocurrir que las condiciones bajo las cuales
se verifica determina el resultado del mismo. En este caso se dice que se tiene
un experimento DETERMINÍSTICO.
Ejemplo 3.1.1. Al aplicar una diferencia de potencial de 1 voltio a una
resistencia de 1 ohnio se produce una corriente de 1 amperio. El modelo
matemático que describe en mejor forma la situación es i = VR , predice el
valor i cuando se dan V y R. En otras palabras, si se repitiese el experimento
un número considerable de veces, manteniendo fijos V y R, esperarı́amos
obtener siempre el mismo valor para i. Cualquier situación que se tuviera
serı́a tan pequeña que no influirı́a en la aplicación del modelo. (realmente,
la baterı́a, el alambre, el experimento y la destreza personal determinan el
resultado de cada medición)
Ejemplo 3.1.2. ejemplos de ”experimentos” en la naturales para los cuales
los modelos determinı́sticos son apropiados.
− Las leyes gravitacionales describen muy bien lo que sucede a un cuerpo
bajo determinadas condiciones.
− Las leyes de kepler nos indican el comportamiento de las plantas.
51
52 CAPÍTULO 3. PROBABILIDAD
− Bajo ciertas condiciones, la distancia recorrida(verticalmente sobre el sue-

lo) por un objeto esta dada por S = V0 t + 12 gt2 .
− Al aplicar a una determinada masa una fuerza dada, el cuerpo adquiere
una determinada aceleración. Aquı́ el modelo determinı́stico es F = ma.
Hay sin embargo, otros experimentos en los cuales no puede producirse de

antemano el resultado, aun que sea posible conocer el conjunto de resultados
posibles del experimento. Tales experimentos se conocen como ALEATO-
RIOS (o probabilı́sticos o no determinı́sticos). Ejemplos tı́picos de experi-
mentos aleatorios son:
E1 : Se lanza un dado normal y se observa el número que aparece en la cara
superior.
E2 : Lanzar una moneda normal y observar el lado que aparece.
E3 : Lanzar una moneda cuatro veces (es lo mismo que lanzar cuatro mone-
das una vez) y contar el mismo total de casos obtenidos.
E4 : Lanzar una moneda cuatro veces y observar la sucesión de caras y sellos
que aparecen.
E5 : Medir el tiempo de vuelo de un avión entre Monterı́a y Bogotá.
E6 : Se fabrican artı́culos en una linea de producción y se cuenta el número
de artı́culos defectuosos producidos en un periodo de 12 meses.
E7 : En un lote de 10 artı́culos hay 3 defectuosos. Se elige un artı́culo, después
otro (sin sustituir el artı́culo elegido) hasta que se obtiene el ultimo articulo
defectuoso. Se cuenta el número total de artı́culos sacados del lote.
3.1.2. Objeto de la teorı́a de probabilidades

La teorı́a de probabilidades tiene como objeto proporcionar un modelo ma-
temático adecuado a la descripción, análisis e interpretación de los experi-
mentos aleatorios.
3.2. Conceptos Preliminares

3.2.1. Espacio muestral
Se llama espacio muestral, asociado a un experimento E, al conjunto Ω de
todos los resultados posibles de dicho experimento. Cada uno de los elemen-
tos de Ω se dice un punto de Ω.
Consideremos ahora, cada uno de los experimentos anteriores y describamos
3.2. CONCEPTOS PRELIMINARES 53
el espacio muestral asociado a cada uno. Si se refiriera al experimento Ei .

Ω1 = {1, 2, 3, 4, 5, 6}
Ω2 = {c, s}
Ω3 = {0, 1, 2, 3, 4}
Ω4 = {cccc, cccs, ccsc, ccss, cscc, cscs, cssc, csss, sccc, sccs, scsc, scss, sscs, sscs,
sssc, ssss}
Ω4 = {t ∈ R+ |tm < t < tM } tm y tM fijos,tm :tiempo mı́nimo de vuelo,tM :tiempo
máximo de vuelo.
Ω6 = {0, 1, 2, 3, ..., M }, en donde M es el número máximo que puede ser
producido en 12 horas.
Ω7 = {3, 4, 5, 6, 7, 8, 9, 10}
3.2.2. Sucesos Aleatorios

Cualquier subconjunto del espacio muestral Ω asociado a un experimento E,
se denomina suceso o evento aleatorio. De ésta manera, un suceso aleatorio
A es un conjunto de posibles resultados del experimento.
Usando términos conjuntista afirmamos: A suceso, implica A ⊆ Ω.
Los eventos formados por un solo punto muestral se denominan simples, y si
tienen mas de uno se denominan compuestos.
Observación 3.2.1. Como ∅ ⊆ Ω ∧ Ω ⊆ Ω, entonces ∅ y Ω son sucesos. Se

denominan suceso imposible y suceso seguro respectivamente.
Observación 3.2.2. Cuando el resultado de cierto experimento es un punto

de cierto suceso A, decimos que se ”dio el suceso A” o ”se presento el suceso A”
etc.
Ejemplo 3.2.1. Al lanzar un dado definamos A como la obtención de por

lo menos 4. Al conjunto {4, 5, 6} corresponde al hecho de salir ”4 o 5 o 6”.
A = {4, 5, 6}; A ⊆ Ω donde Ω = {1, 2, 3, 4, 5, 6}.
Ejemplo 3.2.2. Al lanzar una moneda dos veces definamos A como sigue; la
mayorı́a son caras. Claramente A = {cc} y A ⊆ Ω donde Ω = {cc, cs, sc, ss}.
Notese que los eventos elementales son {cc}, {cs}, {sc}, {ss}.
Ejemplo 3.2.3. Si al lanzar un dado obtenemos 5, está ocurriendo el suceso

A del ejemplo dado antes, el cual consistı́a en obtener por lo menos 4. Si el
resultado fuera 1 no ocurrirı́a el evento A.
3.2.3. Suceso contrario

Para cada suceso A se asocia otro suceso, Ac , que consiste en la no presen-
tación de A y se llama suceso contrario de A.
Ac es el complemento de A en Ω. como ∅ = Ωc , entonces ∅ y Ω son contrarios.
Ejemplo 3.2.4. Al lanzar un dado sabemos que Ω = {1, 2, 3, 4, 5, 6}. Sea

A = {1, 2, 4, 5}, entonces Ac = {3, 6} es el complemento de A.
Notese que si A es el contrario de B, entonces B es contrario de A y ademas

A ∪ B = Ω y A ∩ B = ∅.
3.2.4. Sucesos equivalentes

Si A y B son sucesos tales que A ⊆ B, décimos que A es un subconjunto de
B. Esto quiere decir que de la llegada del suceso A se deriva la llegada del
suceso B o que al aparecer A, indefectiblemente lo hace B.
Si A ⊆ B y B ⊆ A, entonces los sucesos A y B se dicen equivalentes, lo cual
se exprese con la igualdad A = B.
3.3. Conjuntos y Probabilidad

Usando álgebra de conjuntos podemos obtener nuevos eventos a partir de
sucesos dados.
Sean A, B sucesos diferentes asociados a un espacio muestral Ω, asociado a
un experimento E. Suponga que al analizarse E, se produce el resultado a,
luego:
1. A ocurre :a ∈ A.
2. B ocurre :a ∈ B.
3. Ambos eventos ocurren :a ∈ (A ∩ B).
4. Al menos uno de los eventos ocurre :a ∈ (A ∪ B).

3.4. FUNCIÓN DE PROBABILIDAD 55
5. A ocurre y B no se ha producido :a ∈ (A − B).
6. No ocurre el evento A :a ∈ Ac .
7. No ocurre el evento B :a ∈ B c .
8. No ocurre ninguno de los dos eventos :a ∈ (Ac ∩ B c ).
9. Ocurre solo un evento :a ∈ (A ∩ B c ) ∪ (B ∩ Ac ).
10. Ocurre a lo mas un evento :a ∈ (A ∩ B)c .
11. Si A ocurre, entonces B ocurre :A ⊆ B.
12. A y B no ocurren juntas :A ∩ B = ∅.
En este último caso afirmamos que A y B son mutuamente excluyentes, (en

otras palabras A y B se dicen mutuamente excluyentes si no pueden ocurrir
juntos; ası́ no se pueden presentar simultáneamente).
n
[
Si A1 , A2 , ..., An es una colección de sucesos, entonces Ai es el suceso que
i=1
n
\
ocurre si y solo si al menos uno de los sucesos Ai ocurre y Ai es el suceso
i=1
que ocurre si y solo si exactamente todos los sucesos ocurren.
Los sucesos A1 , A2 , ..., An son incompatibles si no existe ningún elemento de

Ω que pertenezca a dos o mas de ellos, es decir si Ai ∩ Aj = ∅ para todo par
de indices i 6= j.
3.4. Función de Probabilidad

3.4.1. Álgebras
Una colección (conjuntos) de subconjuntos de Ω se dice un álgebra y es
notada por Q, si
Q1 ) Q es una colección no vacı́a.
Q2 ) A ∈ Q implica Ac ∈ Q ( esto es, Q es cerrada bajo complementos ).

Q3 ) Si A, B ∈ Q entonces A ∪ B ∈ Q ( esto es, Q es cerrada bajo unión de

parejas ).
Consecuencias: 1) Ω, ∅ ∈ Q.
n
S n
T
2) Si Aj ∈ Q, j = 1, 2, . . . , n entonces Aj , Aj ∈ Q para cualquier
j=1 j=1
n finito. ( Esto dice que Q es cerrada bajo uniones e intersecciones
finitas ).
Prueba:
1) Q1 implica que existe A ∈ Q. Por Q2 se tiene que Ac ∈ Q y por

Q3 se tiene que A ∪ Ac = Ω ∈ Q. Ahora, como Ω ∈ Q, por Q2 se
tiene que Ωc = ∅ ∈ Q.
n
S
2) Se demuestra por inducción que Aj ∈ Q. Aplicando ley de Mor-
j=1
n
T
gan se prueba que Aj ∈ Q.
j=1
Ejemplo 3.4.1. 1. Q1 = {∅, Ω} es un álgebra ( álgebra trivial ).
2. Q2 = {A/A ⊆ Ω, ∀A} es un álgebra ( álgebra discreta ).
3. Q3 = {∅, Ω, A, Ac }, para algún ∅ ⊂ A ⊂ Ω es un álgebra.
4. Q4 = {A ⊆ Ω/A ó Ac es finito} es un álgebra.

Aquı́ Ω es infinito. [Q4 es la colección de de subconjuntos de Ω que son
finitos o tienen complemento finito].
Veamos la prueba de 4.
i) Como Ω ⊆ Ω ∧ Ωc = ∅ es finito, entonces Ω ∈ Q4 y ası́ Q4 es no vacı́o.
ii) Supongamos que A ∈ Q4 . Entonces A o Ac es finito.

Si A es finito, entonces (Ac )c = A es finito, luego Ac ∈ Q4 .
Si Ac es finito, entonces Ac ∈ Q4 .
iii) Suponga que A1 y A2 ∈ Q4 . Entonces ( A1 o Ac1 es finito ) y ( A2 o Ac2

es finito ). Luego ( A1 y A2 son finitos ) o ( A1 y Ac2 es finito ) o ( Ac1
y A2 es finito ) o ( Ac1 es finito y Ac2 es finito ). Ası́,
Si A1 y A2 son finitos, entonces A1 ∪ A2 es finito, luego A1 ∪ A2 ∈ Q4 .
Si A1 y Ac2 son finitos, entonces (A1 ∪ A2 )c = Ac1 ∩ Ac2 es finito es finito
ya que Ac1 lo es. Luego A1 ∪ A2 ∈ Q4 .
3.4.2. σ-álgebra
Definición 3.4.1. Sea un experimento E y Ω espacio muestral asociado a
E. Sea F una colección de sucesos:
F es una σ-álgebra de eventos si se cumple que:
1. Ω ∈ F.
2. Si A ∈ F, entonces Ac ∈ F.
∞
[
3. Si A1 , A2 . . . , ∈ F, entonces Aj ∈ F.
j=1
Ejemplo 3.4.2. Sea Ω = {1, 2, 3}, entonces para las colecciones de conjuntos
a) F1 = {∅, {1}, {2, 3}, Ω}
b) F2 = {∅, {1}, {2}, {3}, Ω}

se tiene que:
a) claramente ∅, Ω ∈ F1 ,{1}c = {2, 3}, (Ω)c = ∅, por tanto si A ∈ F1 ,
entonces Ac ∈ F1 , además {1} ∪ {2, 3} = Ω y las demás uniones tri-
vialmente están en F1 , pues A ∪ ∅ = A; A ∪ Ω = Ω, para todo A ∈ F1 ,
por tanto F1 es una σ-álgebra en Ω.
b) Se puede observar que {1} ∪ {2} = {1, 2} ∈

/ F2 , por tanto F2 no es una
σ-álgebra.
Ejemplo 3.4.3. Las siguientes colecciones de subconjuntos de Ω son σ-álge-
bras.
1. F1 = {∅, Ω}
2. F2 = {A/A ⊆ Ω}
3. F3 = {∅, Ω, A, Ac }
4. F4 = {A/A ⊆ Ω, A es contable o cuyo complemento es contable }. ( Aquı́ Ω
es un conjunto no contable ).
Observación 3.4.1. Si en 3) de la definición anterior solo se cumple la unión
finita, entonces F es un álgebra. En general toda σ-álgebra es un álgebra,
más el reciproco no es cierto.
Observación 3.4.2. los elementos de F se llaman conjuntos medibles o
eventos. Todo evento de un solo elemento se llama evento elemental.
Definición 3.4.2. La dupla (Ω, F) es denominado espacio medible si Ω 6= φ
y F es una σ-álgebra en Ω.
Observación 3.4.3. 1. A es un evento de Ω, si A ∈ F.
2. F = {φ, Ω} es denominada σ-álgebra trivial (la más pequeña).
3. F = P (Ω) es denominada σ-álgebra total (la más grande).
Ejemplo 3.4.4. Para las colecciones definidas en el ejemplo anterior, se
observa que {2, 3} ∈ F1 , más {1, 3} ∈
/ F1 , ası́, {2, 3} es un evento de F1 más
{1, 3} no lo es; asimismo, {2} no es un evento en F2 , puesto que F2 no es
una σ-álgebra.
Proposición 3.4.1. ∅ ∈ F, A ∩ B ∈ F, A − B ∈ F, A M B ∈ F.
Demostración: Las pruebas de estas propiedades son inmediatas y se dejan
como ejercicios para los lectores.
Proposición 3.4.2. Si F es una σ-álgebra en Ω, entonces para A1 , A2 , . . . ∈
∞
\
F, Aj ∈ F.
j=1
Demostración: Si A1 , A2 , . . . ∈ F, entonces Ac1 , Ac2 , . . . ∈ F de donde por

∞
[
ser F una σ-álgebra se sigue que Acj ∈ F. Ahora por las leyes de Morgan
j=1
se sigue!que
∞ c ∞ ∞
[ \ \
c
Aj = (Acj )c = Aj ∈ F.
j=1 j=1 j=1
Corolario 3.4.1. Sea F una σ-álgebra en Ω.

n
[
1. Si Ai ∈ F, i = 1, 2, ..., n entonces Ai ∈ F.
i=1
n
\
2. Si Ai ∈ F, i = 1, 2, ..., n, entonces Ai ∈ F.
i=1
La prueba de las consecuencias anteriores es inmediata, queda como ejercicio

para los lectores.
Ejemplo 3.4.5. Sea F 0 una σ-álgebra en Ω0 y definamos G : Ω → Ω0 una
función. Entonces
G−1 (F 0 ) = {G−1 (B 0 ) : B 0 ∈ F 0 }
es una σ-álgebra en Ω.
Solución:
1. Sean A1 , A2 , . . . ∈ G−1 (F 0 ) entonces para todo k = 1, 2, 3..., Ak =
G−1 (Bk0 ) para Bk0 ∈ F 0 . Ahora usando las propiedades de la función
inversa de la unión infinita se tiene que
∞ ∞ ∞
!
[ [ [
Ak = G−1 (Bk0 ) = G−1 Bk0
k=1 k=1 k=1
ahora, como Bk0 ∈ F 0 para todo k = 1, 2, 3, ... entonces como F 0 es

[∞
una σ-álgebra, se sigue que Bk0 ∈ F 0 de donde se concluye que
k=1
∞
! ∞
[ [
G−1 Bk0 ∈ G−1 (F 0 ) es decir, Ak ∈ G−1 (F 0 ).
k=1 k=1
2. Para A ∈ G−1 (F 0 ) se tiene por definición que A = G−1 (D) con D ∈ F 0 ,

de donde se sigue que Dc ∈ F 0 . Ahora, nuevamente usando propiedades
de la función inversa para el complemento se tiene que
c
Ac = G−1 (D) = G−1 (Dc )
por tanto, Ac ∈ G−1 (F 0 ).

3. Para A ∈ G−1 (F 0 ), por el inciso 2) se tiene que Ac ∈ G−1 (F 0 ) entonces,

por el inciso 1) (para la unión contable) se sigue que A ∪ Ac = Ω ∈
G−1 (F 0 ).
Existen otras definiciones alternativas y obviamente equivalentes del concepto

de σ-álgebra, el siguiente ejemplo ilustra una de tales equivalencias.
Ejemplo 3.4.6. Se puede demostrar que F es una σ-álgebra de subconjuntos

de Ω si y solamente si se cumplen las siguientes propiedades.
1. Ω ∈ F.
2. Si A1 , A2 ∈ F, entonces A1 − A2 ∈ F.
3. Si A1 , A2 , A3 , ..., ∈ F, entonces ∞
T
i=1 Ai ∈ F.
Se deja como ejercicio a los lectores demostrar la equivalencia.
Proposición 3.4.3.
1. La intersección de dos σ-álgebra de Ω es una σ-álgebra de Ω.
2. Si F1 y F2 , donde F1 ⊆ F2 , son σ-álgebras de Ω, entonces F1 ∪ F2 es

una σ-álgebra de Ω.
3. En general no siempre F1 ∪ F2 es una σ-álgebra.
Demostración:
1. Sean F1 y F2 σ-álgebras de Ω, entonces
Ω ∈ F1 ∧ Ω ∈ F2 ⇒ Ω ∈ F1 ∩ F2 .
Si A ∈ F1 ∩ F2 ⇒ A ∈ F1 ∧ A ∈ F2 ⇒ Ac ∈ F1 ∧ Ac ∈ F2 ⇒
Ac ∈ F1 ∩ F1 .
Si A1 , A2 , . . . ∈ F1 ∩ F2 entonces A1 , A2 , . . . ∈ F1 ∧ A1 , A2 , . . . ∈
F2
[∞ [∞ [∞
⇒ Aj ∈ F1 ∧ Aj ∈ F2 → Aj ∈ F1 ∩ F2 .
j=1 j=1 j=1
2. Se deja como ejercicio para los lectores.

3. Use un contra ejemplo.
La siguiente proposición generaliza el resultado 1) anterior.
Proposición 3.4.4. La intersección finita, infinita numerable o bien arbi-

traria de σ-álgebra es nuevamente una σ-álgebra.
\
Demostración. Sea F = Ft donde Ft es una σ-álgebra en Ω, entonces:
t∈T
Claramente ∅, Ω ∈ F, puesto que ∅, Ω ∈ Ft , para todo t ∈ T .
Si A ∈ F, entonces A ∈ Ft , para todo t ∈ T , y como cada Ft es una

σ-álgebra, entonces Ac ∈ Ft para todo t ∈ T , ası́, Ac ∈ F.
Si {An }n∈N es una familia de elementos de F, entonces An ∈ Ft para

[∞ [
todo n ∈ N, entonces Aj ∈ Ft , para todo t ∈ T , ası́ Aj ∈ F, por
j=1 t∈T
tanto F es una σ-álgebra.
Definición 3.4.3. (σ-álgebra generada) Sea ξ una colección no vacı́a de

subconjuntos de Ω. La σ-álgebra generada por ξ, denotada por σ(ξ) es la
colección: \
σ(ξ) = {F : F es una σ − álgebra y ξ ⊆ F}.
De acuerdo a la definición, la σ-álgebra generada es la mı́nima σ-álgebra que

contiene a ξ razón por la cual también es conocida con el nombre de σ-álgebra
minimal. De la definición anterior se tienen las siguientes consecuencias.
1. σ(ξ) es una σ-álgebra.
2. Si ξ ⊆ F, entonces σ(ξ) ⊆ F.
3. ξ ⊆ σ(ξ).
Ejemplo 3.4.7. Para los siguientes casos, constrúyase σ(ξ).

1. Sean A, B ⊆ Ω, defina ξ = {A, B}. como σ(ξ) es la menor σ-Algebra

que contiene a ξ, tanto A, B, Ac , B c las uniones, intersecciones, y sus
complementos, de dos cualquiera de estos subconjuntos de Ω ası́ como
también las diferencias A − B y B − A deben estar en σ(ξ), entonces
σ(ξ) = {Ω, ∅, A, B, Ac , B c , A ∩ B, A ∪ B, Ac ∪ B c , Ac ∩ B c , Ac ∩ B, A ∩
B c , Ac ∪ B, A ∪ B c , A 4 B, (A 4 B)c }. Es claro que la colección σ(ξ) es
una σ-álgebra, las propiedades (i) y (ii) de σ-Algebra se verifican fácil-
mente, para obtener la propiedad (iii) sólo basta analizar las uniones
dos a dos de elementos de la colección; note que no se puede supri-
mir ningún elemento de la colección, pues automáticamente no serı́a
σ-álgebra, pues cada elemento está relacionado con otro de la colec-
ción intrı́ncecamente, luego, ésta colección es la menor σ-Algebra que
contiene a ξ.
2. Si para ξ = {A, B} donde A, B ⊆ Ω con A∩B = ∅, entonces a partir del
inciso 1. se puede verificar fácilmente que σ(ξ) = {Ω, ∅, A, B, Ac , B c , A∪
B, Ac ∩ B c }.
3. Considere una urna con cuatro bolas numeradas del 1 al 4. Consi-
dere un experimento aleatorio de extraer una bola de la urna. Sean
los eventos A={Obtener múltiplo de 3} y B={Obtener número par}.
Para encontrar σ(ξ) donde ξ = {A, B}, aplique el inciso 2. tomando
Ω = {1, 2, 3, 4} y la partición A = {3}, B = {2, 4} y C = {1}.
4. En una urna hay dos bolas rojas y tres negras (numerados 1R, 2R,
1N, 2N, 3N). El experimento consiste en sacar una bola de la urna
y observar su número y color. Sean los eventos A={Salir bola roja}
y B={Obtener número par}. Para encontrar ξ = {A, B} aplique el
inciso 1. teniendo en cuenta que el espacio muestral esta conformado
por Ω = {ω1 , ω2 , ω3 , ω4 , ω5 } donde ω1 corresponde a la bola roja 1, ω2
a la bola roja 2, ω3 a la bola negra 1, etc. Entonces A = {ω1 , ω2 } y
B = {ω2 , ω4 } luego, dado que ω2 pertenece a los dos sucesos tomamos la
partición del espacio muestral A1 = {ω1 } = A−B, A2 = {ω2 } = A∩B,
A3 = {ω4 } = B − A, A4 = {ω3 , ω5 } y ahora aplicamos el inciso 1.
Proposición 3.4.5. Sean ξ1 y ξ2 las colecciones de subconjuntos de Ω tales
que ξ1 ⊆ ξ2 , entonces σ(ξ1 ) ⊆ σ(ξ2 ).
Demostración. ξ1 ⊆ ξ2 ⊆ σ(ξ2 ), pero σ(ξ1 ) es la σ-álgebra más pequeña que
contiene a ξ1 , entonces σ(ξ1 ) ⊆ σ(ξ2 ).
Proposición 3.4.6. Si F es una σ-álgebra, entonces σ(F) = F.
Esta última resultado ı́ndica que la σ-álgebra mı́nima de cualquier σ-álgebra

es ella misma.
Demostración. Por la definición de σ(F), F ⊆ σ(F), pero F es una σ-álgebra

y además es subconjunto de si mismo, F ⊆ F, además σ(F) es la σ-álgebra
más pequeña que contiene a F, entonces σ(F) ⊆ F de donde se sigue que
F = σ(F).
Proposición 3.4.7. σ(σ(ξ)) = σ(ξ)
Demostración. Se sigue de la proposición anterior, dado que σ(ξ) es una

σ-álgebra.
Proposición 3.4.8. Si ξ1 y ξ2 son dos colecciones no vacı́as de subconjuntos

de Ω, entonces σ(ξ1 ∪ ξ2 ) = σ(σ(ξ1 ) ∪ σ(ξ2 )).
Demostración. Note que ξi ⊆ σ(ξi ) para i = 1, 2 entonces σ(ξ1 ∪ ξ2 ) ⊆

σ(σ(ξ1 ) ∪ σ(ξ2 )); recı́procamente, como ξi ⊆ ξ1 ∪ ξ2 para i = 1, 2; entonces
σ(ξi ) ⊆ σ(ξ1 ∪ ξ2 ) para i = 1, 2; entonces σ(ξ1 ) ∪ σ(ξ2 ) ⊆ σ(ξ1 ∪ ξ2 ), luego
σ(σ(ξ1 ) ∪ σ(ξ2 )) ⊆ σ(ξ1 ∪ ξ2 ), de donde se sigue la igualdad.
0
Ejemplo 3.4.8. Sea f : Ω −→ Ω una función y sea C una clase de sub-
0
conjuntos de Ω . Demuestre que σ(f −1 (C)) = f −1 (σ(C)), donde f −1 (C) :=
{f −1 (A) : A ∈ C}.
Demostración. Primero demostremos el siguiente lema:

0 0
Lema 3.4.1. Si f : Ω −→ Ω es una función y F es una σ-álgebra en Ω ,
entonces f −1 (F) es una σ-álgebra en Ω.
Demostración. Claramente ∅ y Ω están en f −1 (F), además si A ∈ f −1 (F),

entonces existe B ∈ F tal que f −1 (B) = A, ası́ Ac = (f −1 (B))c = f −1 (B c ),
pero B c ∈ F, por tanto Ac ∈ f −1 (F), ahora bien, si {An }∞
n=1 es una familia
−1
de elementos de f (F), entonces para cada n ∈ N existe Bn ∈ F tal que
∞ ∞ ∞
f −1 (Bn ) = An , luego, f −1 (Bn ) = f −1 (
S S S
An = Bn ), pero F es una
n=1 n=1 n=1
∞ ∞
Bn ∈ F, luego por la definición de f −1 (F),
S S
σálgebra, por tanto An ∈
n=1 n=1
f −1 (F), asi f −1 (F) es una σálgebra en Ω.
” ⊆ ” Como C ⊆ σ(C), entonces f −1 (C) ⊆ f −1 (σ(C)), luego σ(f −1 (C)) ⊆

σ(f −1 (σ(C))) = f −1 (σ(C)), pues por el lema anterior f −1 (σ(C)) es una
σ-álgebra en Ω, ya que σ(C) es σ-álgebra, asi se tiene la primera con-
tenencia.
” ⊇ ” Para probar la segunda contenencia, defina
M := {B ∈ σ(C) : f −1 (B) ∈ σ(f −1 (C))}; es fácil demostrar que M
es una σ-álgebra tal que M ⊆ σ(C), pero dado C ∈ C; C ∈ σ(C), en-
tonces f −1 (C) ∈ f −1 (C) ⊆ σ(f −1 (C)), por lo tanto C ⊆ M, ası́ σ(C) ⊆
σ(M) = M, por tanto M = σ(C), entonces f −1 (M) ⊆ σ(f −1 (C)), lo
que demuestra la igualdad.
3.4.3. Conjunto de Borel

Considere la colección de todos los intervalos abiertos (a, b) de R, en donde
a ≤ b. A la mı́nima σ-álgebra generada por esta colección se le llama σ-
álgebra de borel de R y se denota por B(R).
Definición 3.4.4. (σ − álgebra de borel) B(R) = σ{(a, b) ⊆ R : a ≤ b}
A los elementos de B(R) se les llama conjunto de Borel, borelianos o con-
juntos Borel medibles. De esta forma se puede asociar la σ-álgebra B(R) al
conjunto de números reales, y ası́ obtener el espacio medible (R, B(R))
Proposición 3.4.9. Para cualesquiera números reales a ≤ b, los intervalos
[a, b], (a, ∞), (−∞, b), [a, b), (a, b] y {a} son todos elementos de B(R).
Demostración: Para a, b ∈ R, a ≤ b
∞
\ 1 1
[a, b] = a − ,b + y como (a − n1 , b + n1 ) ∈ B(R) ∀n ∈ N, entonces
n=1
n n
la intersección es un elemento de B(R). En forma similar se tiene que:
∞
[
· (a, ∞) = (a, a + n) ∈ B(R).
n=1
∞
[
· (−∞, b) = (b − n, b) ∈ B(R).
n=1
∞
\ 1
· [a, ∞) = a − , ∞ ∈ B(R).
n=1
n
∞
\ 1
· (−∞, b] = −∞, b + ∈ B(R).
n=1
n
∞
\ 1 1
· {a} = a − ,a + ∈ B(R).
n=1
n n
Proposición 3.4.10. Las siguientes σ-álgebras son todas idénticas a B(R)

1. σ{[a, b] : a ≤ b}.
2. σ{(a, b] : a ≤ b}.
3. σ{[a, b) : a ≤ b}.
4. σ{(a, ∞) : a ∈ R}.
5. σ{(−∞, b] : b ∈ R}.
Demostración. Realizaremos la demostración del primer inciso, el resto de
incisos se realiza de forma idéntica usando la proposición anterior y algunas
propiedades ya estudiadas.
Claramente [a, b] ⊆ R, entonces σ{[a, b] : a ≤ b} ⊆ σ(B(R)) = B(R).

∞
[ 1 1
Ahora, (a, b) = a + ,b − , entonces {(a, b) : a ≤ b} ⊆ σ{[a, b] : a ≤
n=1
n n
b}, por lo tanto B(R) ⊆ σ{[a, b] : a ≤ b}.
Definición 3.4.5. Sea A ∈ B(R). La σ-álgebra de Borel de A, denotada por
B(A) o por A ∩ B(R), se define por
B(A) = {A ∩ B : B ∈ B(R)}.
Observe que la colección es una σ-álgebra de subconjuntos de A.
En efecto: usando la definición equivalente para una σ-álgebra dada anterior-
mente, se tiene que:
1. Como A ∈ B(R) y A = A ∩ A entonces A ∈ B(A).
2. Sean C1 , C2 ∈ B(A), entonces C1 = A ∩ B1 y C2 = A ∩ B2 , con
B1 , B2 ∈ B(R). Luego C1 − C2 = C1 ∩ C2c = (A ∩ B1 ) ∩ (A ∩ B2 )c =
(A ∩ B1 ) ∩ (Ac ∪ B2c ) = [(A ∩ B1 ) ∩ Ac ] ∪ [(A ∩ B1 ) ∩ B2c ] = ∅ ∪ [A ∩ (B1 −
B2 )] = A ∩ (B1 − B2 ). Como B1 − B2 ∈ B(R) entonces se concluye que
C1 − C2 ∈ B(A).
3. Sean C1 , C2 , ..., ∈ B(A), entonces C1 = A ∩ B1 , C2 = A ∩ B2 ,...con

B1 , B2 , ..., ∈ B(R). Luego
∞ ∞ ∞
!
\ \ \
Cn = (A ∩ Bn ) = A ∩ Bn .
n=1 n=1 n=1
T∞
Ahora, como B1 , B2 , ..., ∈ B(R), entonces
T∞ n=1 Bn ∈ B(R), puesto que
B(R) es una σ-álgebra, entonces n=1 Cn ∈ B(A).
Definición 3.4.6. Si A y B son clases de conjuntos, definimos A × B :=

{A × B : A ∈ A, B ∈ B}.
Extendemos ahora la definición de boreliano a R2 .
Definición 3.4.7. Sea la colección ξ = {(a, b) × (c, d) : a ≤ d ∧ c ≤ d}.

Se define los conjuntos de Borel de R2 como los elementos de la mı́nima
σ-álgebra generada por la colección ξ, es decir, B(R2 ) = σ(ξ). También,
B(R2 ) = σ(B(R) × B(R)).
Ejercicio 3.4.1. F1 y F2 σ-álgebras, no implica que F1 × F2 es σ-álgebra.

Solución:
Tome Ω1 = {1, 2}, F1 = {{1}, {2}, ∅, Ω1 }; Ω2 = {a, b}, F2 = {{a}, {b}, ∅, Ω2 },
fácilmente se puede demostrar que Ω1 × Ω2 = {(1, a), (1, b), (2, a), (2, b)} y
F1 × F2 = {Ω1 × Ω2 , Ω1 × {a}, Ω1 × {b}, {1} × Ω2 , {1} × {a}, {1} × {b}, {2} ×
Ω2 , {2} × {a}, {2} × {b}, ∅}, note que ({1} × {a})c = {(1, b), (2, a), (2, b)} el
cual no pertenece a F1 × F2 , por lo cual F1 × F2 no es una σ-Algebra.
Proposición 3.4.11. σ(B(R) × B(R)) coinciden con σ{(a, b) × (c, d) : a ≤

b ∧ c ≤ d}.
Demostración. B(R2 ) es la σ-álgebra generada por todos los productos car-

tesianos de intervalos abiertos en R, como σ(R) es la σ-álgebra generada por
todos los intervalos abiertos de R, tenemos que {(a, b) : a, b ∈ R} ⊆ σ(R),
de donde σ{(a, b) × (c, d) : a ≤ b ∧ c ≤ d} ⊆ σ(B(R) × B(R)); ahora, como
B(R) × B(R) = {A × B : A, B ∈ B(R)} y A × B ∈ σ{(a, b) × (c, d) : a ≤
b ∧ c ≤ d}, puesto que B(R) = σ({(a, b) : a, b ∈ R}), ası́, B(R) × B(R) ⊆
σ{(a, b) × (c, d) : a ≤ b ∧ c ≤ d}, por tanto σ(B(R) × B(R) ⊆ σ(σ({(a, b) ×
(c, d) : a ≤ b ∧ c ≤ d})) = σ({(a, b) × (c, d) : a ≤ b ∧ c ≤ d}) = B(R2 ); lo que
demuestra la igualdad.
Un planteamiento natural para definir la σ-álgebra de Borel en Rn es co-

mo sigue: Es la menor σ-álgebra que contiene todos los conjuntos que son
abiertos, los cuales son abiertos con respecto a la métrica Euclideana en Rn .
Siguiendo este concepto intuitivo se tiene la siguiente definición.
Definición 3.4.8. [σ-álgebra de Borel en Rn ] B(Rn ) = σ(B(R) × B(R) ×

. . . × B(R)).
3.4.4. Funciones de Conjuntos

Una función f : F → R cuyo dominio es una colección F de conjuntos y
cuyo valor son números reales, se llama función de conjunto. Si A ∈ F, el
valor de f en A, se notará f (A).
Ejemplo 3.4.9. Sea A ⊂ R, consideremos f (A) = número de enteros positivos de A.

Si A = {x : 0 < x < 5}, f (A) = 4; si A = {x : x = −2, −1}, entonces
f (A) = 0 y si A = {x : −∞ < x < 6}, entonces f (A) = 5.
Ejemplo 3.4.10. Sea A ⊂ R2 y sea

Area de A si A tiene área finita
f (A) =
Indef inida caso contrario
Si A = {(x, y) : x2 + y 2 ≤ 1}, entonces f (A) = πr2 = π(12 ) = π.

Si A = {(x, y) : (x, y) = (0, 0), (1, 1), (0, 1)}, entonces f (A) = 0.
Si A = {(x, y) : x ≥ 0, y ≥ 0, x + y ≤ 1}, entonces f (A) = 21 .
Ejemplo 3.4.11. Sea A ⊂ R3 y sea

Volumen de A si A tiene volumen finito
f (A) =
Indef inido caso contrario
Si A = {(x, y, z) : 0 ≤ x ≤ 2, 0 ≤ y ≤ 1, 0 ≤ z ≤ 3}, entones f (A) = 6.

Si A = {(x, y, z) : x2 + y 2 + z 2 ≥ 1}, entonces f (A) es indefinido.
X
Ejemplo 3.4.12. Sea A ⊂ R y sea f (A) = f (x), donde
A
1 x

2
si x = 1, 2, 3, . . .
f (x) =
0 caso contrario
Si A = {x : 0 ≤ x ≤ 3}, entonces
2 3
X X 1 1 1 7
f (A) = f (x) = f (x) = f (1) + f (2) + f (3) = + + =
A 0≤x≤3
2 2 2 8
X
Ejemplo 3.4.13. Sea f (A) = f (x), donde
A

px (1 − p)1−x si x = 0, 1
f (x) =
0 caso contrario
x=0
X
Si A = {x : x = 0}, entonces f (A) = p0 (1 − p)1−0 = 1 − p.
x=0
Si A = {x : 1 ≤ x ≤ 2}, entones f (A) = f (1) = p.
Z
Ejemplo 3.4.14. Sea A ⊂ R y sea f (A) = e−x dx. Luego,
A
Z +∞
Si A = {x : 0 ≤ x < ∞}, entonces f (A) = e−x dx = 1.
Z 20
Si A = {x : 1 ≤ x ≤ 2}, entonces f (A) = e−x dx = e−1 − e−2 .
1
Si A1 = {x : 0 ≤ x ≤ 1} y A2 = {x : 1 < x ≤ 3}, entonces
Z 3 Z 1 Z 3
−x −x
f (A1 ∪ A2 ) = f ([0, 3]) = e dx = e dx + e−x dx = f (A1 ) + f (A2 )
0 0 1
Si A = A1 ∪ A2 , con A1 = {x : 0 ≤ x ≤ 2} y A2 = {x : 1 ≤ x ≤ 3}, entonces

Z 3 Z 2 Z 3 Z 2
−x −x −x
f (A) = f (A1 ∪ A2 ) = e dx = e dx + e dx − e−x dx
0 0 1 1
= f (A1 ) + f (A2 ) − f (A1 ∩ A2 ).
Definición 3.4.9 (Definición de medida). Sea la función de conjuntos

µ : F → R+ ∪ {0} con F una σ − álgebra sobre Ω.
(Es decir µ : (Ω, F) → R+ ∪ {0} ). µ se llama medida si cumple
a) µ(∅) = 0.
∞
! ∞
[ X
b) µ Ai = µ(Ai ), Ai ∩ Aj = ∅ si i 6= j.
i=1 i=1
Por a) y b) µ se denomina frecuentemente medida positiva.
Ejemplo 3.4.15. 1) Si Ω es contable. Para cada A ∈ Q se toma µ(A) =

mı́nimo de puntos muestrales en A. µ se llama en este caso medida
de centro.
2) Sea Q ⊂ Rn . Para cada A ∈ Q se define µ(A) como sigue:

Cuando n = 1; µ([a, b)) = µ((a, b]) = long(a, b] = b − a. (Aquı́ el in-
tervalo puede ser abierto, cerrado o semi-abierto). µ se llama medida
de longitud. µ(0, 1) = 1 = µ[0, 1].
Cuando n = 2, µ(A) = área de la región A: medida de Área.
Cuando n = 3, µ(A) = volumen del solido A: medida de Volumen.
3.4.5. Espacio de Probabilidad

Definición 3.4.10 (Medida de Probabilidad). Sea E un experimento y
Ω el espacio muestral asociado. Sea F una σ-álgebra de eventos de Ω. Una
probabilidad es una función:
P : F −→ R
definida ası́:
A cada suceso A ∈ F se asigna un real único P (A), llamado la probabilidad
del evento A, el cual debe satisfacer las siguientes axiomas.
P1 : P (A) ≥ 0, para todo A ∈ F
P2 : P (Ω) = 1
P3 : Si Ai ∈ F, i : 1, 2...n.., para Ai ∩ Aj = ∅ (i 6= j), entonces
"∞ # ∞
[ X
P Ai = P (Ai ).
i=1 i=1
P1 es llamado axioma de no negatividad; P2 es el axioma de normabilidad y

P3 es el axioma de aditividad.
A partir de estos axiomas probaremos una serie de resultado que son la base
de la teorı́a de probabilidad.
Ejemplo 3.4.16. Sea Ω = {1, 2, 3} y F = {∅, Ω, {2}, {1, 3}} una σ-álgebra
de Ω, entonces para
(
0 si 2 ∈
/A
P (A) =
1 si 2 ∈ A
se tiene que: P ≥ 0, además p(Ω) = 1, pues 2 ∈ Ω, como los únicos conjuntos
disjuntos de F dos a dos son {2}, {1, 3}, ∅ y dado que 2 ∈ / {1, 3}, ∅ se puede
verificar la propiedad de aditividad de P con respecto a la unión disjunta, por
lo tanto P es una medida de probabilidad.
Ejemplo 3.4.17. Para Ω = {1, 2, 3} y la colección de conjuntos F2 =
{∅, {1}, {2}, {3}, Ω}, se tiene que


 0 si A = ∅
 1 si A = {1}

P (A) = 32
 3 si A = {2}



1 si A={1,2}
no es una medida de probabilidad sobre F2 puesto que F2 no es una σ-álgebra
en Ω.
Definición 3.4.11. La tripla (Ω, F, P ) es denominado un espacio de proba-
bilidades, donde Ω es el espacio muestral, F una σ-álgebra de eventos y P la
probabilidad.
Observación 3.4.5. Si el espacio muestral Ω es finito, el espacio de proba-
bilidad se llamara también finito. Cuando esto suceda el axioma P3 no tiene
razón de ser. En este caso se suplirá por el teorema 2 y éste desaparece de la
lista de teoremas.
Teorema 3.4.1. Sea (Ω, F, P ) un espacio de probabilidad. Entonces,
P (∅) = 0.
Demostración. Sea A1 = Ω y A" i = ∅ para
# i :∞2, 3, .... Claramente Ai ∩ Aj = ∅
[∞ ∞
[ X
(i 6= j) y Ω = Ai , luego P Ai = P (Ai ). Por lo tanto P (Ω) =
i=1 i=1 i=1
∞
X ∞
X ∞
X
P (Ai ) esto implica (por P2 ), 1 = P (Ai ) = P (A1 ) + P (Ai ) =
i=1 i=1 i=2
∞
X ∞
X
P (Ω) + P (Ai ), entonces P (Ai ) = 0 y como (por P1 ), P (Ai ) ≥ 0 para
i=2 i=2
todo A ∈ F, entonces P (Ai ) = 0 para i = 2, 3, ..., entonces P (∅) = 0.
Teorema 3.4.2. Sea (Ω, F, P ) un espacio de probabilidad. Si Ai ∈ F para

i = 1, 2, ..., n y Ai ∩ Aj = ∅ (i 6= j), entonces
" n
# n
[ X
P Ai = P (Ai ).
i=1 i=1
Demostración.
"n # Sea
" ∞ An+1 An+2 = ... = ∅, entonces
# =∞
[ [ X Xn ∞
X n
X
P Ai = P Ai = P (Ai ) = P (Ai )+ P (Ai ) = P (Ai )+
i=1 i=1 i=1 i=1 i=n+1 i=1
∞
X n
X
P (∅) = P (Ai ).
i=n+1 i=1
Teorema 3.4.3. Sea (Ω, F, P ) un espacio de probabilidad. Si A ∈ F, enton-

ces P (Ac ) = 1 − P (A)
Demostración. Note en la figura 3.1 que A ∪ Ac = Ω y luego P (A ∪ Ac ) =

P (Ω) = 1 y como A ∩ Ac = ∅, entonces P (A ∪ Ac ) = P (A) + P (Ac ) = 1,
luego P (Ac ) = 1 − P (A).
Figura 3.1: Ω = A ∪ Ac .
Teorema 3.4.4. Sea (Ω, F, P ) un espacio de probabilidad. Si A, B ∈ F,

entonces
P (A − B) = P (A) − P (A ∩ B).
Demostración. Como se puede observar en la figura 3.2
A = (A ∩ B c ) ∪ (A ∩ B) = (A − B) ∪ (A ∩ B),
entonces P (A) = P ((A − B) ∪ (A ∩ B)), ademas (A − B) ∩ (A ∩ B) = ∅, en

consecuencia P ((A − B) ∪ (A ∩ B)) = P (A − B) + P (A ∩ B), por lo tanto
P (A) = P (A − B) + P (A ∩ B), esto último implica
P (A − B) = P (A) − P (A ∩ B).
Figura 3.2: A ∩ B c = A − B.
Corolario 3.4.2. Sea (Ω, F, P ) un espacio de probabilidad. Si B ⊆ A en-

tonces P (A − B) = P (A) − P (B).
Demostración. La prueba es inmediata a partir del teorema anterior, dado
que A ∩ B = B.
Teorema 3.4.5. Sean A, B ∈ F, entonces
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Demostración. De la figura 3.2 se tiene que
A ∪ B = (A ∩ B c ) ∪ B = (A − B) ∪ B
luego, P (A ∪ B) = P ((A − B) ∪ B), pero (A − B) ∩ B = ∅, en consecuencia
P ((A − B) ∪ B) = P (A − B) + P (B) y por lo tanto:
P (A ∪ B) = P (A − B) + P (B)
= P (A) − P (A ∩ B) + P (B), por teorema anterior
= P (A) + P (B) − P (A ∩ B).
Teorema 3.4.6. Sea (Ω, F, P ) un espacio de probabilidad. Si A ⊆ B, en-

tonces P (A) ≤ P (B), es decir, P es una función no decreciente.
Demostración. De la figura 3.3 se tiene que: B = A ∪ (B − A), por lo tanto

P (B) = P (A ∪ (B − A)) y como A ∩ (B − A) = ∅, entonces
P (B) = P (A) + P (B − A).
y como P (B − A) ≥ 0, entonces P (B) ≥ P (A).

En consecuencia, si A ⊆ B, entonces P (A) ≤ P (B).
Figura 3.3: A ⊆ B.
Corolario 3.4.3. Sea (Ω, F, P ) un espacio de probabilidad. P (A) ≤ 1 para

todo A ∈ F.
Demostración. Como A ⊆ Ω, entonces P (A) ⊆ P (Ω), es decir P (A) ≤ 1.
Corolario 3.4.4. Sea (Ω, F, P ) un espacio de probabilidad. Para todo sub-

conjunto A de Ω se tiene que 0 ≤ P (A) ≤ 1.
Demostración. Del corolario anterior y del axioma P1 se tiene para todo

A ∈ F; 0 ≤ P (A) ≤ 1.
Teorema 3.4.7. Sea (Ω, F, P ) un espacio de probabilidad. P es sub-aditivo,

esto es, "∞ #
[ X∞
P Aj ≤ P (Aj ).
j=1 j=1
Demostración. Inicialmente se tiene que:

∞
[
Aj = A1 ∪ (A2 ∩ Ac1 ) ∪ (A3 ∩ Ac2 ∩ Ac1 ) ∪ . . . ∪ (An ∩ Ac1 ∩ Ac2 ∩ . . . ∩ Acn−1 ) ∪ . . .
j=1
Ahora, como A1 ∩ (A2 ∩ Ac1 ) = ∅, (A2 ∩ Ac1 ) ∩ (A3 ∩ Ac2 ∩ Ac1 ) = ∅,... y además,
A2 ∩ Ac1 ⊆ A2 , A3 ∩ Ac2 ∩ Ac1 ⊆ A3 ,..., An ∩ Ac1 ∩ Ac2 ∩ . . . ∩ Acn−1 ) ⊆ An ,
entonces se tiene que
"∞ #
[
P Aj = P (A1 ) + P (A2 ∩ Ac1 ) + P (A3 ∩ Ac2 ∩ Ac1 ) + . . .
j=1
≤ P (A1 ) + P (A2 ) + P (A3 ) + . . . + p(An ) + . . .

X∞
= P (Aj )
j=1
"∞ # ∞
[ X
de donde se concluye que: P Aj ≤ P (Aj ).
j=1 j=1
Ejemplo 3.4.18. Considere el espacio de probabilidad (Ω, F, P ). Sea G =

{A : A ∈ F y P (A) = 0 ó 1}. Demuestre que G es una σ-álgebra de subcon-
juntos de Ω.
Demostración. Veamos que G es una σ-álgebra
1) Ω ∈ G, puesto que Ω ∈ F y P (Ω) = 1
2) Si A ∈ G, entonces A ∈ F y P (A) = 1 ó P (A) = 0. Como A ∈ F

entonces Ac ∈ F y,
• si P (A) = 1 entonces P (Ac ) = 1 − P (A) = 1 − 1 = 0,

• Si P (A) = 0 entonces P (Ac ) = 1 − P (A) = 1 − 0 = 1.
En cualquier caso Ac ∈ G.
3) Sean {An }n∈N una familia de conjuntos de G. Luego An ∈ F para todo

n ∈ N y P (An ) = 1 ó P (A
Sn ) = 0 para todo n ∈ N . Como An ∈ F
para todo n ∈ N , entonces n∈N An ∈ F
• Si P (An ) = 0 para todo n ∈ N entonces,
[ ∞
X
P( An ) ≤ P (An ) = 0
n∈N n=1
S S
entonces, P ( n∈N An ) = 0 y ası́ n∈N An ∈ G
• Si P (Am
S) 6= 0 para algún m ∈ N entonces PS(Am ) = 1, luego
A
Sm ⊂ n∈N An , entoncesS1 = P (Am ) ≤ P (S n∈N An ) y como
n∈N An ∈ F entonces P ( n∈N An ) = 1 y ası́ n∈N An ∈ G
Entonces se concluye que G es una σ-álgebra
Ejemplo 3.4.19. Sea (Ω, F, P ) un espacio de probabilidad y para cada B ∈

F defina la clase de subconjuntos
FB = {A : A ∈ F y P (A ∩ B) = 0 ó P (A ∩ B) = P (B) }.
Demuestre que FB es una σ-álgebra de subconjuntos de Ω.
Demostración. Veamos que FB es una σ-álgebra
1. Ω ∈ FB , puesto que Ω ∈ F y P (Ω ∩ B) = P (B), porque B ⊂ Ω
2. Si A ∈ G, entonces A ∈ F y P (A ∩ B) = 0 ó P (A ∩ B) = P (B). Como

A ∈ F entonces Ac ∈ F y,
si P (A∩B) = P (B) entonces B ⊂ A y ası́ P (Ac ∩B) = P (B−A) =

P (∅) = 0,
si P (A ∩ B) = 0 entonces B ⊂ Ac y ası́ P (Ac ∩ B) = P (B).
En cualquier caso Ac ∈ FB
3. Sean {An }n∈N una familia de conjuntos de FB tal que Ak ∩ Ak0 = ∅

para k 6= k 0 . Luego An ∈ F para todo n ∈ N y P (An ∩ B) = P (B)
ó P (An ∩SB) = 0 para todo n ∈ N . Como An ∈ F para todo n ∈ N ,
entonces n∈N An ∈ F. Ahora,
si P (An ∩ B) = P (B) para todo n ∈ N entonces B ⊂ An para

todo n ∈ N , luego,
! ! !
[ [ [
P An ∩ B = P (An ∩ B) = P B = P (B),
n∈N n∈N n∈N
S
y ası́ n∈N An ∈ G, y
si P (An ∩ B) = 0 para todo n ∈ N entonces
! ! ∞
[ [ X
P An ∩ B = P (An ∩ B) = P (An ∩ B) = 0,
n∈N n∈N n=1
S
entonces n∈N An ∈ G.
Entonces concluimos que FB es una σ-álgebra.
Teorema 3.4.8. Sea {An } una sucesión de eventos tales que An ↑ o An ↓.
Entonces h i
P lı́m An = lı́m P [An ]
n→∞ n→∞
Demostración. Si {An }n∈N ↑ entonces A1 ⊆ A2 ⊆ A3 ⊆ . . . por tanto,
∞
[
An = lı́m An
n→∞
n=1
. Luego,
[∞
Aj = A1 ∪ (A2 ∩ Ac1 ) ∪ (A3 ∩ Ac2 ∩ Ac1 ) ∪ . . . ∪ (An ∩ Acn−1 . . .)
j=1
= A1 ∪ (A2 ∩ Ac1 ) ∪ (A3 ∩ Ac2 ) ∪ . . . ∪ (An − ∩Acn−1 ) ∪ ...

= A1 ∪ (A2 − A1 ) ∪ (A3 − A2 ) ∪ . . . ∪ (An − An−1 ) ∪ . . .
entonces,
"∞ #
[
P Aj = P (A1 ) + P (A2 − A1 ) + P (A3 − A2 ) + · · · P (An − Acn−1 ) + ...
j=1
= lı́m [P (A1 ) + P (A2 − A1 ) + P (A3 − A2 ) + · · · + P (An − Acn−1 )]

n→∞
= lı́m [P (A1 ) + P (A2 ) − P (A1 ) + P (A3 ) − P (A2 ) + · · ·
n→∞
+ P (An−1 ) + P (An ) − P (An−1 )]
= lı́m P (An )
n→∞
de donde se concluye que:

h i
P lı́m An = lı́m P (An )
n→∞ n→∞
Si {An }n∈N ↓ entonces A1 ⊇ A2 ⊇ A3 ⊇ . . . por tanto,

∞
\
An = lı́m An .
n→∞
n=1
Asimismo se tiene que Ac1 ⊆ Ac2 ⊆ Ac3 ⊆ . . . por tanto,

∞
[
Acn = lı́m Acn .
n→∞
n=1
Entonces por el resultado obtenido en i) se tiene que P ( lı́m Acn ) =

"∞ # n→∞
[
lı́m P (Acn ) entonces P ( lı́m Acn ) = P Acn es decir, lı́mn→∞ P (Acn ) =
n→∞ n→∞
" ∞ !c # n=1 " ∞ !#
\ \
P An por tanto, 1 − lı́mn→∞ P (An ) = 1 − P An de
n=1 n=1
donde se obtiene que
h i
P lı́m An = lı́m P (An ).
n→∞ n→∞
Teorema 3.4.9 (de aditividad de Poincare). Para cualquier número

finito de eventos, se tiene
" n # n
[ X X
P Aj = P (Aj ) − P (Aj1 ∩ Aj2 )+
j=1 j=1 1≤j1 <j2 ≤n
X
P (Aj1 ∩ Aj2 ∩ Aj3 ) − . . . +
1≤j1 <j2 <j3 ≤n
n+1
(−1) P (A1 ∩ A2 ∩ . . . ∩ An ).
Demostración. Por inducción sobre n.

Para n = 2 se tiene el resultado. Supongamos que el resultado es valido para
n = k y veamos que se cumple para n = k + 1. En efecto,
"k+1 # " k ! #
[ [
P Aj = P Aj ∪ Ak+1
j=1 j=1
" k
# " k
!#
[ [
=P Aj + P [Ak+1 ] − P Aj ∩ Ak+1
j=1 j=1
k
X X
= P (Aj ) − P (Aj1 ∩ Aj2 )+
j=1 1≤j1 <j2 ≤k
X
P (Aj1 ∩ Aj2 ∩ Aj3 ) − · · · + (−1)k+1
1≤j1 <j2 <j3 ≤k
k
!
[
P (A1 ∩ A2 ∩ . . . ∩ Ak ) + P (Ak+1 ) − P (Aj ∩ Ak+1 )
j=1
k+1
X X
= P (Aj ) − P (Aj1 ∩ Aj2 )+
j=1 1≤j1 <j2 ≤k
X
P (Aj1 ∩ Aj2 ∩ Aj3 ) − · · · + (−1)k+1
1≤j1 <j2 <j3 ≤k
k
!
[
P (A1 ∩ A2 ∩ . . . ∩ Ak ) − P (Aj ∩ Ak+1 ) .
j=1
Ahora,
" k # k
[ X X
P (Aj ∩ Ak+1 ) = P (Aj ∩ Ak+1 ) − P (Aj1 ∩ Aj2 ∩ Ak+1 )
j=1 j=1 1≤j1 <j2 ≤k
X
+ P (Aj1 ∩ Aj2 ∩ Aj3 ∩ Ak+1 ) − · · · + (−1)k+1
1≤j1 <j2 <j3 ≤k
X
P (Aj1 ∩ Aj2 ∩ . . . ∩ Ajk−1 ∩ Ak+1 )
1≤j1 <j2 <...<jk−1 ≤k
+ (−1)k+2 P (A1 ∩ A2 ∩ . . . ∩ Ak ∩ Ak+1 )
Entonces,
"k+1 # k+1
" k
#
[ X X X
P Aj = P (Aj ) − P (Aj1 ∩ Aj2 ) + P (Aj ∩ Ak+1 )
j=1 j=1 1≤j1 <j2 ≤k j=1
" #
X X
+ P (Aj1 ∩ Aj2 ∩ Aj3 ) + P (Aj1 ∩ Aj2 ∩ Ak+1 )
1≤j1 <j2 <j3 ≤k 1≤j1 <j2 ≤k
k+1
− · · · + (−1) P (A1 ∩ A2 ∩ · · · ∩ Ak )
X
+ (−1)k+1 P (Aj1 ∩ Aj2 ∩ . . . ∩ Ajk−1 ∩ Ak+1 )
1≤j1 <j2 <···<jk−1 ≤k
k+2
+ (−1) P (A1 ∩ A2 ∩ · · · ∩ Ak ∩ Ak+1 )
k+1
X X
= P (Aj ) − P (Aj1 ∩ Aj2 )+
j=1 1≤j1 <j2 ≤k+1
X
P (Aj1 ∩ Aj2 ∩ Aj3 ) − · · · + (−1)k+2
1≤j1 <j2 <j3 ≤k+1
P (A1 ∩ A2 ∩ . . . ∩ Ak ∩ Ak+1 ).
En particular:
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ).
P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) −
P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ).
Proposición 3.4.12. Sea {An : n ∈ N} una sucesión de eventos. Defina

n−1
[
B1 = A1 y Bn = An − Ak para n ≥ 2. Entonces la sucesión de eventos
k=1
{Bn : n ∈ N} satisface las siguientes propiedades.
1. Bn ⊆ An .
2. Bn ∩ Bm = ∅, si n 6= m y
∞
[ ∞
[
3. Bn = An .
n=1 n=1
Demostración. 1. De la definición se sigue que para

n−1
!
\
n ≥ 2, Bn = An ∩ Ack ⊆ An .
k=1
2. Sin perdida de generalidades, supongamos que n < m, entonces se tiene

que
n−1
! m−1
!
[ [
Bn ∩ Bm = An − Ak ∩ Am − Ak
k=1 k=1
n−1
!! m−1
!!
\ \
= An ∩ Ack ∩ Am ∩ Ack
k=1 k=1
n−1
!! m−1
!!
\ \
= An ∩ Ack ∩ Am ∩ Acn ∩ Ack
k=1 k=1,k6=n
= ∅.
∞
[ ∞
[
3. Como Bn ⊆ An , ∀n ⇒ Bn ⊆ An .
n=1 n=1
∞
[
Ahora, sea x ∈ An , entonces existe un ı́ndice n tal que x ∈ An , sea n0
n=1
el primer ı́ndice tal que x ∈ An0 y x ∈ / Aj para 1 ≤ j ≤ n0 − 1. Entonces
0 −1
n[ [∞
x ∈ An0 − An = Bn0 , por lo tanto, x ∈ Bn . Lo cual completa la
n=1 n=1
prueba.
Proposición 3.4.13 (desigualdad de Boole). Sea {An : n ∈ N} una

sucesión de eventos. Entonces:
∞
! ∞
[ X
1. P An ≤ P (An ) y
n=1 n=1
∞
! ∞
\ X
2. P An ≥1− P (Acn ).
n=1 n=1
n−1
[
Demostración. 1. Tomamos B1 = A1 y Bn = An − Ak , entonces como
k=1
∞
[ ∞
[
Bn = An y Bn ⊆ An y Bn ∩ Bm = ∅ ∀n 6= m
n=1 n=1
se sigue que
∞
! ∞
! ∞ ∞
[ [ X X
P An = P Bn = P (Bn ) ≤ P (An ).
n=1 n=1 n=1 n=1
2.
∞
! ∞ ∞
!c ! ∞
[ X \ X
P Acn ≤ P (Acn ) ⇒ P An ≤ P (Acn )
n=1 n=1 n=1 n=1
∞
! ∞
\ X
⇒ 1−P An ≤ P (Acn )
n=1 n=1
∞
! ∞
\ X
⇒ P An ≥1− P (Acn ).
n=1 n=1
Ejemplo 3.4.20. Sean A1 , A2 , . . . eventos aleatorios. Demuestre que:

n
T
i) Si P (Ak ) ≥ 1 − para k = 1, 2, . . . , n, entonces P Ak ≥ 1 − n.
k=1
∞ ∞
P (Ack )
T P
ii) P Ak ≥1−
k=1 k=1
Demostración. i) Suponga que P (Ak ) ≥ 1 − ε; k = 1, 2, 3, ..., n. Para

demostrar lo que se nos pide, basta probar que:
∞
! ∞
\ X
P Ak ≥ 1 − P (Ack )
k=1 k=1
.
En efecto: Usando ii) y definiendo Ak = Ω, k > n, tenemos que;
∞
! ∞ n
! n
\ X \ X
c
P Ak ≥ 1 − P (Ak ) ⇔ P Ak ≥ 1 − P (Ack )
k=1 k=1 k=1 k=1
n
n
Ak y P (Ack ) = 0 para todo k > n.
T T
puesto que Ak ∩Ω=
k=1 nk=1
T n
P
Aplicando lo anterior se tiene que: P Ak ≥ 1 − P (Ak ).
k=1 k=1
Ahora, P (Ak ) ≥ 1 − ε, para todo k = 1, 2, 3, ..., n ↔ 1 − P (Ak ) ≤ ε.
P (Ack ) ≤ ε; para todo k = 1, 2, 3, ..., n.
n n
P (Ack ) ≤
P P
Entonces, ε = nε; ası́:
k=1 k=1
n
! n
\ X
P Ak ≥ 1 − P (Ack ) ≥ 1 − nε.
k=1 k=1
ii) Sea {An }∞

n=1 una familia de eventos; entonces, por desigualdad de Boo-
le:
∞ ∞
S c
P (Acn ), entonces
P
P An ≤
n=1 n=1
∞
! ∞
!c !c !
\ \
P An =P An
n=1 n=1
∞
!c !
\
=1−P An
n=1
∞
!
\
=1−P Acn
n=1
∞
X
≥1− P (Acn ).
n=1
Proposición 3.4.14. Sea {An : n ∈ N} una sucesión de eventos.

∞
!
\
1. Si P (An ) = 1 para toda n, entonces P An = 1.
n=1
∞
!
[
2. Si P (An ) = 1 para alguna n, entonces P An = 1.
n=1
3.5. EJERCICIOS 83
∞
!
\
3. Si P (An ) = 0 para alguna n, entonces P An = 0.
n=1
∞
!
[
4. Si P (An ) = 0 para toda n, entonces P An = 0.
n=1
∞
! n ∞
!
\ X \
Demostración. 1. P An ≥ 1− P (Acn ) ⇒P An ≥1⇒
n=1 j=1 n=1
| {z }
0
∞
!
\
P An = 1.
n=1
∞ ∞
! ∞
!
[ [ [
2. An ⊆ Ak ⇒ P Ak ≥ P (An ) = 1 ⇒ P An = 1.
k=1 k=1 n=1
∞ ∞
! ∞
!
\ \ \
3. Ak ⊆ An ⇒ P Ak ≤ P (An ) = 0 ⇒ P Ak = 0.
k=1 k=1 k=1
∞
! ∞ ∞
!
[ X [
4. P An ≤ P (An ) ≤ 0 ⇒ P Ak = 0.
n=1 n=1 n=1
| {z }
0
3.5. Ejercicios
1. Con el fin de probar la afirmación de un mago quien asegura que posee
una varita capaz de detectar la presencia de aguas y minerales en el
subsuelo, se entierran 4 recipientes, dos vacı́os y dos llenos de agua. El
mago usara su varita para examinar cada uno de los 4 recipientes y
decidir cuales son los dos que contienen agua.
a) Defina el experimento.
b) Describa el espacio muestral.
2. Con referencia al ejercicio anterior, suponga que el experimento se hace

con 5 recipientes, 3 vacı́os y 2 llenos de agua. Responda las partes a) y
b)
3. Los pacientes que llegan a una clı́nica pueden seleccionar una de tres
secciones para ser atendidos. Supongamos que los médicos se asignan al
azar a las secciones y que los pacientes no tiene preferencia especial por
ninguna de las secciones. tres pacientes llegan a la clı́nica y se registra
la sección que escogen.
a) Cuáles son los puntos muestrales de S para este experimento?

b) Sea A el evento: cada sección mide un paciente. Cuales son las
partes de A?
4. Se le pide a un catador de té que pruebe y clasifique tres variedades de

té A, B, C de acuerdo con su experiencia.
a) Defina el experimento.
b) Describa Ω
5. 4 trabajadores, de los cuales dos pertenecen a un grupo minoritario, se

asignan a 4 empleos simultáneamente distintos.
a) Describa el experimento.
b) Describa Ω
6. Se consideran los dı́gitos 1, 2, 3, 4, 5. Se escoge uno de ellos y luego entre

los cuatro restantes, se escoge otro. Describa el espacio muestral Ω.
7. El juego de la ”guayabita” consiste en lanzar un dado dos veces. Si en

el primer lanzamiento se obtiene mas de uno se lanza nuevamente el
dado. En caso de que en el segundo lanzamiento se obtenga un pun-
taje superior al primero, se gana el juego; en caso contrario se pierde.
Describa el espacio muestral del juego y el evento ”ganar el juego”
8. Un experimento aleatorio consiste en elegir al azar una pareja de novios

de cierta universidad y registran las edades. Se pide:
a) Cual es el espacio muestral? representarlo gráficamente

3.5. EJERCICIOS 85
b) Representar sobre el espacio muestral los siguientes eventos

A : Cada uno de los novios es mayor que 16 años
B : El novio es de mayor edad que la novia
C : La suma de las edades de ambos es menor que 50 años
D : La diferencia entre las edades no es superior a 5 años.
9. En una caja hay 5 bombillas hay 2 dañadas. Las bombillas se prueban

una por una hasta que se encuentra una dañada. Describa el espacio
muestral para este experimento.
Supongase, ahora, que las bombillas se probaron una por una, hasta
que se probaron todas las dañadas. Describa el espacio muestral para
este experimento.
10. Considere 4 dı́gitos 1, 2, 3, 4. Supongase que el orden en el cual se

anotan esos dı́gitos representa el resultado de un experimento. Sean
A, B sucesos definidos como sigue A : {1 esta en primer lugar},
B : {3 esta en el segundo lugar}
a) Anote los puntos muestrales de Ω

b) Encuentre A, B, A ∩ B, A ∪ B
11. Cuál es el espacio muestral para cada uno de los siguientes experimen-
tos:
a) Lanzamiento de dos dados normales.

b) Lanzamiento de tres dados normales.
c) Lanzamiento de una moneda normal.
d) Lanzamiento de dos monedas normales (por ejemplo, una de $20
y otra de $50)
e) Lanzamiento de una moneda y un dado normal.
12. Sean A, B, C eventos asociados a un experimento E. Expresar en no-

tación de conjuntos los siguientes eventos:
a) Al menos uno de los eventos ocurre.

b) Exactamente uno de los eventos ocurre.
c) Exactamente ocurre dos eventos.
d) Sucede por lo menos dos sucesos de los eventos.
13. Sean A, B sucesos. Probar que:
P (A ∩ B) ≤ P (A) ≤ P (A ∪ B) ≤ P (A) + P (B)
14. Demuestre que la probabilidad de que exactamente uno de los sucesos

A o B ocurra está dada por:
P (A) + P (B) − 2P (A ∩ B)
15. Sean A, B sucesos tales que P (A) = a, P (B) = b y P (A ∩ B) = c.

Calcular en función de a, b, c las probabilidades de los siguientes sucesos:
a) Ac c) A ∪ B e) Ac ∪ B
b) B c d) Ac ∪ B c f) A ∩ B c
16. Sean A, B, C sucesos tales que P (A) = P (B) = P (C) = 14 , P (A ∩ B) =

P (B ∩ C) = 0 y P (A ∩ C) = 18 .
Calcular la probabilidad de que al menos uno de los eventos A o B o
C ocurran.
3 1 1
17. Sean A, B eventos tales que P (A) = 8
, P (B) = 2
, P (A ∩ B) = 4
.
Hallar:
a) P (A ∪ B) c) P (B c ) e) P (Ac ∪ B c )
b) P (Ac ) d) P (Ac ∩ B c ) f) P (A ∩ B c )
18. Sean A, B eventos tales que P (A ∪ B) = 43 , P (Ac ) = 23 , P (A ∩ B) = 1

4
Hallar:
a) P (A) b) P (B) c) P (A ∩ B c )
19. Sean A, B eventos tales que P (A ∪ B) = 78 , P (Ac ) = 58 , P (A ∩ B) = 1

4
Hallar:
3.5. EJERCICIOS 87
a) P (A) b) P (B) c) P (A ∩ B c )
1 3 5
20. Sean A, B eventos tales que P (A) = 2
, P (A ∪ B) = 4
, P (B c ) = 8
Hallar:
a) P (A ∩ B) b) P (Ac ∩ B c ) c) P (Ac ∪ B c ) d) P (Ac ∩ B)
21. Sean A, B, C eventos asociados a un experimento ε. Expresar en nota-

ción de conjuntos:
a) Al menos uno de los eventos e) Sucede A o B pero no C.

ocurre.
f) Sucede A y B pero no C.
b) Exactamente uno de los suce-
sos ocurre. g) Si ocurre A, no ocurre B.
c) Sucede por lo menos uno de h) Ocurren no más de dos.
los eventos A, B, C.
i) Ocurren no más de tres.
d) Ninguno de los eventos ocu-
rre. j) No ocurre no más que uno.
Capı́tulo 4
Espacios Muestrales Finitos
4.1. Asignación de Probabilidades

En lo que sigue estamos interesados en espacios muestrales finitos. Sea E ex-
perimento y Ω un espacio muestral asociado. supóngase que Ω = {a1 , a2 , ..., an }
con ai 6= aj . Consideremos los eventos elementales Ai = {ai }, i = 1, 2, 3, ..., n.
n
[
Es claro que Ai ⊆ Ω ∀i y que Ai = Ω. Además, Ai ∩ Aj = ∅ (i 6= j). Fi-
i=1
n
X
nalmente se puede ver que P (Ω) = P (Ai ).
i=1
Asignemos a cada Ai un número pi tal que P (Ai ) = pi para i = 1, 2, 3, ..., n.

Estos números pi deben ser tales que:
a) pi ≥ 0 y
n
X
b) pi = 1.
i=1
En efecto:
a) Dado que P (Ai ) ≥ 0 para todo Ai ∈ F, entonces pi ≥ 0.
n n
! n
[ [ X
b) Como Ω = Ai , entonces P (Ω) = P Ai = P (Ai ) ya que
i=1 i=1 i=1
n
X
Ai ∩ Aj = ∅ (i 6= j) por lo tanto, 1 = pi .
i=1
89
90 CAPÍTULO 4. ESPACIOS MUESTRALES FINITOS
Ejemplo 4.1.1. Un dado esta cargado en tal forma que la probabilidad de que
aparezca una cara es proporcional al número de puntos de esa cara. Calcular
la probabilidad de cada cara.
Solución:
Claramente Ω = {1, 2, 3, 4, 5, 6} y P {i} = ki, para i : 1, 2, 3, 4, 5, 6 con k una
X6
constante de proporcionalidad. Como pi = 1, se tiene que
i=1
k + 2k + 3k + 4k + 5k + 6k = 1,
1 i
entonces k = 21
y ası́ P {i} = 21
para i = 1, 2, 3, 4, 5, 6.
Nos interesa ahora calcular la probabilidad de un evento A asociado a Ω. Su-

pongamos que A es un conjunto finito con r puntos, es decir A = {am1 , am2 , ..., amr }
donde los sub-indices m1 , m2 , ..., mr recorren los sub-indices 1, 2, ..., n. Es cla-
[ r
ro que A ⊆ Ω y si escribimos Ai = {ami } se puede ver que A = {ami } con
i=1
{ami } ∩ {amk } = ∅ (i 6= j). Por lo tanto,
" r # r r
[ X X
P (A) = P {ami } = P {ami } = pmi = pm1 + pm2 + ... + pmr .
i=1 i=1 i=1
Ejemplo 4.1.2. Calcular la probabilidad de que con el dado del ejemplo

anterior saquemos un número par.
Solución:
A = {2, 4, 6} entonces, P (A) = P [{2} ∪ {4} ∪ {6}] = P {2} + P {4} + P {6} =
2 4 6
21
+ 21 + 21 = 12
21
. Observe que la probabilidad de sacar número impar es:
P (A ) = 1 − P (A) = 1 − 12
c
21
9
= 21 .
4.2. Espacios Muestrales Equiprobables

Supongamos que cada uno de los eventos elementales tiene igual probabili-
dad, es decir P (Ai ) = p para cada i : 1, 2, ..., n. De acuerdo con esto tenemos
que:
Xn Xn
P (Ω) = P (Ai ) = p = np luego np = 1 y ası́ se tiene que p = n1 .
i=1 i=1
4.2. ESPACIOS MUESTRALES EQUIPROBABLES 91
Ahora bien, consideremos A ⊆ Ω tal como fue concluido antes con n elemen-
tos claramente tenemos:
r r
X X 1 r
P (A) = pm i = p = p + p + ... + p = pr = r= .
i=1 i=1
| {z } n n
r veces
Luego,
# casos f avorables a A
P (A) = .
# casos posibles
Esta es la definición clásica de probabilidad de Laplace llamada ”probabilidad
clásica”. Es una forma de asignar probabilidades ”a priori”, contraria a la
definición frecuentista a que se hizo referencia en el ejercicio dos del capitulo
1, la cual asigna probabilidades ”a posteriori”.
Observación 4.2.1. En muchos ejercicios de probabilidad va a interesar la

noción ”elegir al azar” uno o mas objetos de una colección dada. Precisemos
esta afirmación, supongamos que se tiene n objetos a1 , a2 , ..., an .
a) Escoger al azar un objeto de los n significa que cada uno de ellos tiene
la misma probabilidad de ser seleccionado que cualquier otro, es decir,
1
p(ai ) = .
n
b) Escoger al azar dos objetos de los n significa que cada uno de los pares
de objetos tiene la misma probabilidad de ser seleccionado que cualquier
otro par. el análisis combinatorio nos dirán cuantos pares diferentes
hay.
c) Escoger al azar r objetos de los n (r ≤ n) significa que cada r-upla
tiene tantas probabilidades de ser seleccionada que cualquier otra.
4.2.1. Ejemplos Sobre Probabilidad y Combinatoria

En muchas situaciones el cálculo de la probabilidad de un evento necesita
el uso del análisis combinatorio, especı́ficamente para encontrar el número
de casos posibles y el número de casos favorables. Las siguientes situaciones
ilustran lo anterior.
Ejemplo 4.2.1. Calcular la probabilidad de que al seleccionar 4 números de

8 positivos y 6 negativos su producto sea positivo.
Solución:
En total hay 14 números de los cuales se quieren seleccionar 4, el número de
maneras de hacerlo viene dado por 14 4
. El producto es positivo si:
a) los 4 números son positivos, o
b) los 4 números son negativos, o
c) 2 son positivos o 2 son negativos.
(8) (6)
En el caso a) se tienen p = 144 en b) se tienen p = 144 y en c) se tiene
(4) (4)
8 6
( )( )
p = 2 14 2 . Por lo tanto, la probabilidad pedida es
(4)
8 6 8 6

+ +
p(+) = 4 4
14
2 2 = 0,5044.
4
Ejemplo 4.2.2. Cuál es la probabilidad de que al lanzar 4 dados, 2 tengan

1 ?.
Solución:
4
Al lanzar 4 dados el número de casos posibles es 6 . Para calcular el número
4
de casos posibles podemos decir que hay 2 formas de presentarse 1 y que
las otras 2 (osea la que no se presenta 1) tienen 5 × 5 maneras de combinarse,
(4)×25
por lo tanto la probabilidad pedida es p = 2 64 = 150 64
.
Ejemplo 4.2.3. Cuál es la probabilidad de que 2 personas cumplan año el

mismo dı́a, lo mismo para 3 personas y para 100 personas.
Solución:
Podemos pensar que las dos personas cumplen año o el dı́a 1 o el dı́a 30,
o el dı́a 154 o el dı́a 365 del año. De esta manera el espacio muestral se
puede considerar como el conjunto de parejas (x, y) en la cual x representa
el dı́a del año que cumple la primera persona y y el dı́a del año que cumple
la segunda persona, por lo tanto el espacio muestral tiene 3652 parejas. El
número de casos favorables es 365 (las parejas (1, 1), (2, 2), ..., (365, 365)). Se
365 1
sigue que p = 365 2 = 365 .
365 1 365 1
Para 3 personas p = 365 3 = 3652 y para 100 persona p = 365100 = 3652 u 0.
Ejemplo 4.2.4. Cuál es la probabilidad de que un número de 1 a 300 sea

múltiplo de 3 o múltiplo de 5 ?.
4.2. ESPACIOS MUESTRALES EQUIPROBABLES 93
Solución:
Sea A ser múltiplo de 3; B ser múltiplo, se trata de hallar P (A ∪ B) para
calcular debemos usar el resultado P (A ∪ B) = P (A) + P (B) − P (A ∪ B).
Hay 31 (3000) = 1000 números que son múltiplos de 3, su probabilidad es
1000
p(A) = 3000 = 13 y hay 51 (3000) = 600 números que son múltiplos de 5,
600
su probabilidad asociada es p(B) = 3000 = 51 ahora, hay 15 1
(3000) = 200
200 1
números que son multiplos de 15, la probabilidad de p(A ∩ B) = 3000 = 15 , la
1 1 1 5+3−1 7
probabilidad pedida es P (A ∪ B) = 3 + 5 − 15 = 15 = 15 .
4.2.2. Probabilidad hipergeométrica y binomial

Suponga que tenemos N artı́culos y que de estos hay r1 de una clase y r2 de
otra clase (r1 + r2 = N ). Si elegimos n de esos al azar sin sustitución, toma-
dos al mismo tiempo, el espacio muestral viene dado por Ω0 = {{z 1 , . . . , zn } :
N
z1 , . . . , zn son los números de las n bolas sorteadas}. Hay n subconjun-
tos de tamaño n de las N bolas, luego N (Ω0 ) = Nn . Definiendo A0k como

el evento donde de las n bolas s1 son de la clase 1 y suponiendo que cada

uno de estos subconjuntos de tamaño n es tan probable como cualquier otro
subconjunto de tamaño n, entonces P [A0k ] = N (A0k )/N (Ω0 ), entonces la pro-
babilidad de que los n artı́culos escogidos contengan s1 de la clase 1 y n − s1
de la clase 2 viene dado por
r1 r2

s1 n−s1
P [A0k ] = N

n
la anterior se llama probabilidad hipergeométrica. El modelo probabilı́sti-

co hipergeométrico, como definido anteriormente, es un modelo de urna sin
reemplazamiento, tomados al mismo tiempo. Otra situación es cuando los
elementos son tomas uno a uno, situación que estudiamos a continuación.
Suponga que una urna contiene N bolas numeradas de 1 a N , donde las pri-
meras r1 bolas pertenecen a la clase 1 y las restante r2 = N −r1 son de la clase
2. El experimento consiste en sacar n bolas de la urna, una detras de la otra.
Definamos Ak como aquel evento donde de las n bolas s1 son de la clase 1. El
espacio muestral consiste de todas las n-tuplas dadas en Ω = {(x1 , . . . , xn ) :
xj = número de la bola sacada en la extracción j-ésima }; ahora de acuerdo
a la situación #Ω =N Pn . Entonces, definiendo Ak como un subconjunto
de Ω para el cual exactamente s1 de los xj son bolas numeradas de 1 a r1
inclusive, se tiene que:

#Ak
P [Ak ] = .
#Ω
Ahora, hay sn1 formas de seleccionar las s1 bolas de las bolas numera-

das de 1 a r1 inclusive y para cada una de las sn1 posiciones diferen-

tes se tienen r1 Ps1 ×N −r1 Pn−s1 n-tuplas diferentes. Ası́ Ak tiene tamaño
n
P × N −r1 Pn−s1 ; luego,
s1 r1 s1
n

r1 Ps1 × N −r1 Pn−s1
P [Ak ] = s1 .
N Pn
Esta última fórmula puede ser re-escrita como
r1 N −r1 r1
r2
s1 n−s1 s1 n−s1
P [Ak ] = N
= N
. (4.1)
n n
En este último caso,

sı́ el muestreo es con reemplazamiento entonces, para
cada una de las nk posiciones diferentes, hay r1s1 (N −r1 )n−s1 n-tuplas. Ası́ Ak
tiene tamaño sn1 r1s1 (N − r1 )n−s1 ; luego,
n
s1
r1 (N − r1 )n−s1
P [Ak ] = s1 .
Nn
Llamando p = r1 /N, probabilidad de seleccionar una bola de la clase 1,
entonce la expresión anterior se deja escribir como

n s1 n−s1 n s1 n−s1
P [Ak ] = p (1 − p) = p q .
s1 s1
La expresión anterior es conocida como modelo de probabilidad binomial,
donde q = 1 − p.
Ejemplo 4.2.5. Un lote de 100 artı́culos contiene 20 defectuoso y 80 no
defectuoso. Se eligen 10 al azar, sin sustitución. Cual es la probabilidad de
que los 10 artı́culos escogidos haya 3 defectuoso y 7 no defectuoso.
Solución:
Al seleccionar 10 artı́culos, hay 100

10
maneras de hacerlo.
Como hay 20 de-
20 80
fectuoso, hay 3 formas de escoger los defectuosos y 7 formas de escoger
los no defectuosos, por lo tanto.
20 80

3
P = 7
100
10
4.3. PROBABILIDAD CONDICIONAL 95
Cuál es la probabilidad de que la mitad sea defectuoso y la mitad no lo sea.

20 80

5
P = 100
5
10
4.3. Probabilidad Condicional

Definición 4.3.1. Sea (Ω, F, P ) un espacio de probabilidad. Sea B ∈ F tal
que P (B) > 0. Se llama probabilidad condicional del evento A ∈ F, dado el
evento B, al cociente:
P (A ∩ B)
P (A|B) =
P (B)
Teorema 4.3.1. La probabilidad condicionada de todo evento A es una pro-

babilidad. (En otras palabras, la función P (.|B) es una medida de probabili-
dad)
Demostración. Sean A, B ∈ F tal que P (B) > 0.
P (A∩B)
a) P (A|B) ≥ 0 ya que P (A|B) = P (B)
≥ 0 puesto que P (A ∩ B) ≥ 0.
P (Ω∩B) P (B)
b) P (Ω|B) = 1. En efecto: P (Ω|B) = P (B)
= P (B)
= 1.
c) Sean Ai ∈ F, i = 1, 2, ..., con Ai ∩ Aj = ∅ (i 6= j).
"∞ # "∞ #
[ [
"∞ # P Ai ∩ B P (Ai ∩ B)
[ i=1 i=1
P Ai |B = =
i=1
P (B) P (B)
∞
X
P (Ai ∩ B)
i=1
=
P (B)
∞
X P (Ai ∩ B)
=
i=1
P (B)
X∞
= P (Ai |B).
i=1
La probabilidad condicional se usa para expresar la probabilidad de la inter-

sección de un número finito de eventos.
1. Cuando buscamos P (A|B) se calcula P (A) con respecto al espacio

muestral reducido B en vez de Ω.
2. Cuando calculamos P (A) nos preguntamos que tan probables es que

estemos en A sabiendo que debemos estar en Ω y cuando calculamos
P (A|B) nos preguntamos que tan probable es que estemos en A sa-
biendo que debemos estar en B.
Ejemplo 4.3.1. Se lanzan 2 dados normales. Sean A = {(x, y)|x + y = 10}

y B = {(x, y)|x > y}. Hallar P (A) P (B) y P (A|B).
Solución:
Ω = {(1, 1), (1, 2), , . . . , (6, 6)},
A = {(5, 5), (4, 6), (6, 4)},
B = {(2, 1), (3, 1), (3, 2), ..., (6, 5)}, entonces
3
P (A) = 36 ; P (B) = 15 36
P (A|B) = 151
(porqué el espacio muestral se ha redu-
cido a B), usando definición se tiene: A ∩ B = {(6, 4)}, entonces P (A|B) =
1
P (A∩B) 1
P (B)
= 36
15 = 15 .
36
Según lo anterior, hay 2 formas de hallar P (A|B)
a) Directamente: Considerando la probabilidad del evento A con segmento

al espacio muestral reducido B.
b) A partir de la definición, donde P (A ∩ B) y P (B) se calculan con

segmento al espacio muestral original Ω.
Ejemplo 4.3.2. Para eventos A y B con P (B) > 0 se cumple que:

i) P (A|B) + P (Ac |B) = 1.
ii) Si P (B|A) > P (B), entonces P (B c |A) < P (B c ).
Demostración. i)
P (A ∩ B) P (Ac ∩ B)
P (A|B) + P (Ac |B) = +
P (B) P (B)
P (A ∩ B) + P (Ac ∩ B)
=
P (B)
P ((A ∩ B) ∪ (Ac ∩ B))
=
P (B)
dado que (A ∩ B) ∩ (Ac ∩ B) = ∅, entonces
P ((A ∪ Ac ) ∩ B)
P (A|B) + P (Ac |B) =
P (B)
P (Ω ∩ B)
=
P (B)
P (B)
=
P (B)
= 1.
ii) Como P (B|A) > P (B) > 0; ésto nos asegura que P (A) existe y P (A) >
0; luego
P (B ∩ A)
P (B|A) = > P (B) ⇔ P (B ∩ A) > P (A)P (B)
P (A)
↔ −P (B ∩ A) < −P (A)P (B)
↔ P (A) − P (A ∩ B) < P (A)(1 − P (B))
↔ P (A − (A ∩ B)) < P (A)P (B c )
↔ P (A ∩ B c ) < P (A)P (B c )
P (A ∩ B c )
↔ < P (B c )
P (A)
↔ P (B c |A) < P (B c ).
Teorema # (de la Multiplicación). Sean A0 , A1 , A2 , ..., An ∈ F, tales

"n−14.3.2
\
que P Ai ≥ 0, entonces
i=0
" n
# n−1
!
\ \
P Ai = P (A0 ).P (A1 |A0 ).P (A2 |A1 ∩ A0 )...P An | Ai . (4.2)
i=0 i=0
Demostración. Realmente,
"n # las probabilidades
" n condicionadas
# están bien defi-
\ \
nidas ya que si P Ai ≥ 0 implica P Ai > 0. Este a su vez implica
i=0 i=0
!
n−1
\
que P (A0 ) > 0, P (A0 ∩ A1 ) > 0, ...P Ai > 0.
i=0
El enunciado general se prueba por inducción.
P (A1 ∩A0 )
Para n = 2; P (A0 ∩ A1 ) = P (A0 )P (A1 |A0 ) ya que P (A1 |A0 ) = P (A0 )
implica P (A0 ∩ A1 ) = P (A0 )P (A1 |A0 ).
Supongamos que el enunciado es valido para k = n, verifiquemos que es

valido para k = n + 1.
"n+1 # "n #
\ \
P Ai = P Ai ∩ An+1
i=0
"i=0
n
# " n
#
\ \
=P Ai P An+1 | Ai
i=0 i=0
" n−1
# n
\ \
= P [A0 ]P [A1 |A0 ]...P An | Ai P [An+1 | Ai ].
i=0 i=0
Ejemplo 4.3.3. Un lote contiene 80 artı́culos sin defectos y 20 con defectos.

Se escogen 2 artı́culos al azar sin sustitución. Cuál es la probabilidad de que
ambos sean defectuosos.
Solución:
Sea los eventos A = {el 1er artı́culo es defectuoso} y B = {el 2do artı́culo es
20 19
defectuoso} entonces P (A ∩ B) = P (A)P (B|A) = 100 99
Ejemplo 4.3.4. En una bolsa hay 5 bolas blancas y 3 bolas negras, calcular
la probabilidad de que al sacar 2, la primera sea blanca y la segunda sea negra.
Solución:
Sea A = {la 1ra es blanca} y B = {la 2da es negra} entonces P (A ∩ B) =
P (A)P (B|A) = 85 37
Ejemplo 4.3.5. En un grupo hay 3 hombres y 2 mujeres. Cuál es la proba-

bilidad de que al hacer una fila las personas queden intercaladas.
Solución:
Como hay 5 personas, para que queden intercalados, la primera tiene que ser
hombre.
Sea A = H1 ∩ M2 ∩ H3 ∩ M4 ∩ H5 .
P (A) = P (H1 )P (M2 |H1 )P (H3 |H1 ∩M2 )P (M4 |H1 ∩M2 ∩H3 )P (H5 |H1 ∩M2 ∩
H3 ∩ M4 ) = 35 24 32 12 11 = 10
1
.
Definición 4.3.2 (Partición de Ω). Los sucesos B1 , B2 , ..., Bk forman una

partición del espacio muestral Ω si.
a) Bi ∩ Bj = ∅ (i 6= j)
k
[
b) Bi = Ω
i=1
c) P (Bi ) > 0, para todo i
La partición puede ser finita o infinita numerable, según que los eventos sean
finitos o infinitos numerables.
Ejemplo 4.3.6. Sea ε: lanzar un dado normal.

Ω = {1, 2, 3, 4, 5, 6}
B1 = {1, 2, 3}, B2 = {4} y B3 = {5, 6}.
La colección {B1 , B2 , B3 } forman una partición de Ω, mientras que {{1, 2, 3}, {1, 4, 5, 6}}
no forman una partición de Ω.
Ejemplo 4.3.7. Sea Aj , j = 1, 2, 3 eventos en Ω.

La colección {A1 , A2 ∩ Ac1 , A3 ∩ Ac1 ∩ Ac2 , (A1 ∪ A2 ∪ A3 )c } es una partición de
Ω. Como se puede mostrar fácilmente.
Teorema 4.3.3 (de Probabilidad Total). Sea B1 , B2 , ..., Bk una partición

de Ω. Para todo A ⊆ Ω se tiene:
k
X
P (A) = P (Bi )P (A|Bi ). (4.3)
i=1
Demostración. Sea A un suceso respecto a Ω y B1 , B2 , ..., Bk una

! partición
[k
de Ω. Entonces, Ω = B1 ∪ B2 ∪ ... ∪ Bk y A ∩ Ω = A ∩ Bi de donde
"k # i=1
[k [ X k
A= (A ∩ Bi ); luego P (A) = P (A ∩ Bi ) = P (A ∩ Bi )
i=1 i=1 i=1
k
X
entonces, P (A) = P (Bi )P (A|Bi ).
i=1
Ejemplo 4.3.8. Sea un lote de 20 artı́culos defectuosos y 80 no defectuosos,

de los cuales se escogen 2 sin sustitución. Sean los eventos B = {el 1er
artı́culo es defectuoso}; y A = {el 2do artı́culo es defectuoso}. Hallar P (A).
Solución:
Si B = {el 1er artı́culo es defectuoso}, entonces B c = {el 1er artı́culo no
defectuoso}
20 19 80 20
P (A) = P (B)P (A|B) + P (B c )P (A|B c ) = 100 99
+ 100 99
.
4.4. Procesos Estocásticos Finitos y Diagra-

mas de árbol
Una sucesión (Finita) de experimentos en los cuales cada experimento tiene
un número finito de resultados con probabilidades dadas, se llama proceso
estocástico (finito).
Para describir tal proceso se usan los diagramas arbolares y para calcular la
probabilidad de que el suceso representado por la trayectoria de una rama
del árbol suceda se usa el teorema de la multiplicación.
4.4. PROCESOS ESTOCÁSTICOS FINITOS Y DIAGRAMAS DE ÁRBOL101
Ejemplo 4.4.1. Una urna contiene 3 cajas:

caja I contiene 10 lamparas de las cuales 4 son defectuosas
caja II contiene 6 lamparas de las cuales 1 son defectuosas
caja III contiene 8 lamparas de las cuales 3 son defectuosas
Se escoge al azar una caja y luego al azar se selecciona una lampara cuál es
la probabilidad de que sea defectuosa?
Solución:
4
P (D) = P (I)P (D|I) + P (II)P (D|II) + P (III)P (D|III) = 13 10 + 13 16 + 13 83 .
Figura 4.1: Diagrama de árbol Ejemplo 4.4.1.
Ejemplo 4.4.2. Se dan 2 urnas como sigue:

Urna A contiene 3 bolas rojas y 2 blancas.
Urna B contiene 2 bolas rojas y 5 blancas. Se selecciona al azar una urna, se
saca una bola y se coloca en la otra urna, luego se saca una bola de la segunda
urna. Hallar la probabilidad de que las dos bolas sean del mismo color.
Solución:
Como hay 4 trayectorias que conducen a bolas del mismo color, entonces.
P = 12 53 38 + 21 25 86 + 12 27 46 + 21 57 36 = 1680
901
.
Ejemplo 4.4.3. Una fabrica tiene 3 máquinas M1 , M2 , M3 cuya producción
es 60 %, 30 % y 10 % respectivamente. Cada máquina produce cierto porcen-
taje de artı́culos defectuosos, M1 el 2 %, M2 el 3 % y M3 el 4 %.
Se selecciona un artı́culo al azar. calcular la probabilidad de que sea defec-

tuoso.
P (D) = P (M1 )P (D|M1 ) + P (M2 )P (D|M2 ) + P (M3 )P (D|M3 )

= (0,6)(0,02) + (0,3)(0,03) + (0,1)(0,01)
= 0,012 + 0,009 + 0,014
= 0,025
entonces, el 2,5 % de la producción es defectuosa.
Ejemplo 4.4.4. Una caja contiene 3 monedas, dos corrientes y una de dos
caras. Se selecciona una moneda al azar y se lanza. Si sale cara se lanza la
moneda de nuevo; si sale sello, entonces se escoge otra moneda entre las dos
que quedan y se lanza. i) Hallar la probabilidad de que salga cara dos veces,
ii) Salga sello dos veces.
Solución:
i) P = 31 · 12 · 21 + 13 · 12 · 12 + 31 · 1 · 1 = 12 .
ii) P = 13 · 12 · 12 · 12 + 13 · 12 · 12 · 12 = 12
1
.
Teorema 4.4.1 (Teorema de Bayes). Sea B1 , B2 , ..., Bk una partición del

4.4. PROCESOS ESTOCÁSTICOS FINITOS Y DIAGRAMAS DE ÁRBOL103
espacio muestral Ω. Sea A un evento asociado a Ω. Entonces,

P (Bi )P (A|Bi )
P (Bi |A) = P . (4.4)
i P (Bi )P (A|Bi )
Demostración.
P (Bi ∩ A) P (Bi )P (A|Bi )
P (Bi |A) = =P .
P (A) i P (Bi )P (A|Bi )
El teorema de Bayes recibe el nombre de TEOREMA DE LAS CAUSAS.

Como los Bi son una partición de Ω, entonces uno y solo uno de los eventos
ocurre. La fórmula nos da la probabilidad de que en Bi ”particular” (una
causa) ocurra, dado que el suceso A ha ocurrido. es obvio que hay que conocer
los valores de P (Bi ).
Ejemplo 4.4.5. Se tiene 3 urnas como sigue:
Urna A contiene 3 bolas rojas y 5 blancas.
Urna B contiene 2 bolas rojas y 1 blanca.
Urna C contiene 2 bolas rojas y 3 blancas.
Se selecciona una urna al azar y se saca una bola de la urna.
a) Cuál es la probabilidad de que sea roja?
b) Si la bola es roja ?‘ Cuál es la probabilidad de que provenga de la urna

C ? (una causa!!)
Solución: Sean los eventos R = {la bola es roja} y C = {proviene de la urna C}

entonces:
13 12 12 173
a) P (R) = 38
+ 33
+ 35
= 360
.
1 2
P (c∩R) P (C)P (R|C)
b) P (C|R) = P (R)
= P (R)
= 3 5
173 .
360
Ejemplo 4.4.6. Por los sı́ntomas observados en un enfermo, y en vista de

la experiencia acumulada en un gran número de casos similares, se deduce
que ha podido contraer la enfermedad A con probabilidad 13 , o la B con pro-
babilidad 23 . Para precisar el diagnóstico, se somete al enfermo a un análisis
clı́nico con dos resultados posibles, positivo o negativo. Se sabe, también por
experiencia, que en los pacientes que tienen la enfermedad A el análisis es
positivo con probabilidad 0,99 y en los que padezcan la enfermedad B lo es
un 0,06. Si al enfermo se le hizo un análisis y el resultado fue positivo, cuál
es la probabilidad de que padezca la enfermedad A?.
P (A) · P (P |A) P (A) · P (P |A)

P (A|P ) = =
P [P ] P (A) · P (P |A) + P (B) · P (P |B)
0,99 × 13
=
0,99 × 31 + 0,06 × 32
0,33
=
0,33 + 0,04
0,33
=
0,37
= 0,89
4.5. INDEPENDENCIA ESTOCÁSTICA 105
4.5. Independencia Estocástica

Definición 4.5.1. Dos eventos A y B son estocásticamente independientes
si P (A|B) = P (A).
Observación 4.5.1. 1) En la que sigue cuando digamos ”independiente”

se deberá entonces a estocásticamente independiente.
2) La definición anterior expresa que los eventos A y B son independientes

si la probabilidad de que A ocurra no está influenciada por la ocurrencia
de B.
Surge de manera natural el siguiente teorema.
Teorema 4.5.1. Si A es independiente de B, entonces B es independiente

de A.
Demostración. Sea A independiente de B, entonces P (A|B) = P (A). Pero

P (A|B) = P P(A∩B)
(B)
y P (B|A) = P P(B∩A)
(A)
y P (B ∩ A) = P (A ∩ B).
Entonces,
P (A|B)P (B)
P (A ∩ B) =
P (B|A)P (A)
luego,
P (A)P (B)
P (A ∩ B) =
P (B|A)P (A)
y ası́ P (A)P (B) = P (B|A)P (A) ⇒ P (B) = P (B|A), entonces B es inde-

pendiente de A.
El teorema anterior nos dice que la independencia es una propiedad simétrica.
Teorema 4.5.2. Dos eventos A, B, P (B) > 0, son independientes si y sola-

mente si P (A ∩ B) = P (A)P (B).
Demostración. ” → ” Si A y B son independientes, entonces P (A|B) = P (A)

ó P (B|A) = P (B) luego, P (A|B) = P P(A∩B)
(B)
→ P (A ∩ B) = P (A)P (B).
P (A∩B)
” ← ” Supongamos que P (A∩B) = P (A)P (B), entonces P (A|B) = P (B)
=
P (A)P (B)
P (B)
= P (A) y ası́ A y B son independientes.
Ejemplo 4.5.1. Se lanzan 2 dados. Hallar la probabilidad de que la suma de

la misma sea 7, y al mismo tiempo, la diferencia entre el mayor y el menor
sea 1.
Solución:
Sean A = ”sacar suma 7” y B = ”diferencia igual a 1”.
Se trata de hallar P (A ∩ B). Como no sabemos nada de la independencia de
estos no podemos aplicar la fórmula P (A ∩ B) = P (A)P (B). Aplicamos, en-
tonces el teorema de la multiplicación y tenemos P (A∩B) = P (A)P (B|A) pe-
6
ro P (A) = 36 y P (B|A) = 26 ya que A = {(1, 6), (6, 1), (2, 5), (5, 2), (3, 4), (4, 3)}
6 2 1
en consecuencia P (A ∩ B) = 36 6
= 18 .
¿Pero, serán A y B independientes? para responder esto veamos si P (B|A) =

P (B), claramente igual a 26 . Como
B = {(1, 2), (2, 1), (2, 3), (3, 2), (3, 4), (4, 3), (4, 5), (5, 4), (5, 6), (6, 5)},
10 5
entonces P (B) = 36
= 18
. Por tanto, los eventos A y B no son independien-
tes.
Ejemplo 4.5.2. La probabilidad de que el individuo A cace un pato es 32 y
la de que el individuo B lo cace es 51 . Si los dos salen de cacerı́a, cual es la
probabilidad de que se cace el pato si los dos disparan al tiempo?
Solución:
El pato se caza si al menos uno de los dos lo consigue. Luego ,
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
= P (A) + P (B) − P (A)P (B)
2 1 21
= + −
3 5 35
11
= .
15
Definición 4.5.2. Tres eventos A, B, C son mutuamente independientes si:
a) Los eventos son independientes dos a dos.
b) P (A ∩ B ∩ C) = P (A)P (B)P (C).
Sin embargo b) no sigue de a). Los eventos puede ser independientes 2 a 2 y
sin embargo no independientes entre si.
Ejemplo 4.5.3. Se lanzan 2 monedas corrientes. Sean A = { cara en la

1ra moneda}, B = {cara en la 2da moneda} y C = { cara en una moneda
exactamente}.
Claramente: A = {cc, cs}, B = {cc, sc}, C = {cs, sc}
Ahora: A ∩ B = {cc}, A ∩ C = {cs}, B ∩ C = {sc}.
1 11
P (A ∩ B) = 4
= P (A)P (B) = 22
1 11
P (A ∩ C) = 4
= P (A)P (C) = 22
P (B ∩ C) = 14 = P (B)P (C) = 12 12
Sin embargo,
A ∩ B ∩ C = ∅ y P (A ∩ B ∩ C) = P (∅) = 0 6= P (A)P (B)P (C).
Observación 4.5.2. Si se tiene n eventos hay 2n − n − 1 condiciones que
se deben cumplir para los sucesos sean mutuamente independientes.
Note que si n = 3 (A, B, C), hay 23 − 3 − 1 = 4 condiciones que se deben
cumplir, a saber:
P (A ∩ B) = P (A)P (B),
P (A ∩ C) = P (A)P (C),
P (B ∩ C) = P (B)P (C), y
P (A ∩ B ∩ C) = P (A)P (B)P (C)
La prueba de la situación general es como sigue:
Como hay n sucesos, y el orden entre ellos no importa, para escoger 2 lo

n n

hacemos de 2 maneras, para 3 lo hacemos de 3 ;...etc. Para escoger n
lo hacemos de nn . El número total de condiciones sera la suma de estas

maneras, es decir:

n n n n
+ + + ... +
2 3 4 n
pero se sabe que:

n n n n
+ + + ... + = 2n
0 1 2 n
por lo tanto.

n n n n n n
+ + ... + =2 − − = 2n − 1 − n.
2 3 n 0 1
Definición 4.5.3. Los n sucesos A1 , A2 , ..., An son mutuamente indepen-

dientes si:
P (A1 ∩ A2 ∩ ... ∩ An ) = P (A1 )P (A2 )...P (An ).
Esta definición expresa que no es necesario hallar todas las condiciones enun-
ciadas antes, por que generalmente se supone la independencia (con base de
lo que se sabe del experimento). Por lo tanto, se usa ésta proposición para
calcular P (A1 ∩ ... ∩ An ) como P (A1 )P (A2 )...P (An ).
Ejemplo 4.5.4. En la siguiente figura se supone que la probabilidad de que

cada riele este cerrada es p y que cada uno funciona independientemente.
Encontrar la probabilidad de que la corriente pase de A hasta B.
Solución
Figura 4.4: Circuito.
Sean Ai = {el riele i esta cerrado} para i = 1, 2, 3, 4, 5, 6 y
E = {la corriente pasa de A hasta B}.
Por lo tanto,
E = (A1 ∩ A2 ) ∪ (A3 ∩ A2 ) ∪ A4 ∪ (A5 ∩ A6 ).
Note que los eventos (A1 ∩A2 ), (A3 ∩A2 ), A4 , (A5 ∩A6 ) no son mutuamente
excluyentes. Luego,
P (E) = P ((A1 ∩ A2 ) ∪ (A3 ∩ A2 ) ∪ A4 ∪ (A5 ∩ A6 ))
= P (A1 ∩ A2 ) + P (A3 ∩ A2 ) + P (A4 ) + P (A5 ∩ A6 )
− P ((A1 ∩ A2 ) ∩ (A3 ∩ A2 )) − P ((A1 ∩ A2 ) ∩ A4 )
− P ((A1 ∩ A2 ) ∩ (A5 ∩ A6 )) − P ((A3 ∩ A2 ) ∩ A4 )
− P ((A3 ∩ A2 ) ∩ (A5 ∩ A6 )) − P (A4 ∩ (A5 ∩ A6 ))
+ P ((A1 ∩ A2 ) ∩ (A5 ∩ A6 ) ∩ A4 ) + P ((A1 ∩ A2 ) ∩ (A3 ∩ A2 ) ∩ (A5 ∩ A6 ))
+ P ((A1 ∩ A2 ) ∩ A4 ∩ (A5 ∩ A6 )) + P ((A3 ∩ A2 ) ∩ A4 ∩ (A5 ∩ A6 ))
− P ((A1 ∩ A2 ) ∩ (A3 ∩ A2 ) ∩ A4 ∩ (A5 ∩ A6 )).
Ahora, como los eventos son mutuamente independientes, con P (Ai ) = p
para i = 1, 2, 3, 4, 5, 6, entonces:
P (E) = P (A1 )P (A2 ) + P (A3 )P (A2 ) + P (A4 ) + P (A5 )P (A6 )
− P (A1 )P (A2 )P (A3 ) − P (A1 )P (A2 )P (A4 )
− P (A1 )P (A2 )P (A5 )P (A6 ) − P (A3 )P (A2 )P (A4 )
− P (A3 )P (A2 )P (A5 )P (A6 ) − P (A4 )P (A5 )P (A6 ))
+ P (A1 )P (A2 )P (A5 )P (A6 )P (A4 ) + P (A1 )P (A2 )P (A3 )P (A5 )P (A6 )
+ P (A1 )P (A2 )P (A4 )P (A5 )P (A6 ) + P (A3 )P (A2 )P (A4 )P (A5 )P (A6 )
− P (A1 )P (A3 )P (A2 )P (A4 )P (A5 )P (A6 )
= p + 3p2 − 4p3 − p4 + 3p5 − p6 .
Teorema 4.5.3. Sean A y B eventos independientes, entonces:
1. Ac y B c también son independientes.
2. A y B c también son independientes.
3. Ac y B también son independientes.
Demostración. 1.
P (Ac ∩ B c ) = P ((A ∪ B)c ) = 1 − P (A ∪ B)
= 1 − P (A) − P (B) + P (A ∩ B)
= 1 − P (A) − P (B) + P (A).P (B)
= (1 − P (A)) − (1 − P (A))P (B)
= (1 − P (A))(1 − P (B))
= P (Ac )P (B c ).
2.
P (A ∩ B c ) = P (A − B)
= P (A) − P (A ∩ B)
= P (A) − P (A)P (B)
= P (A)(1 − P (B))
= P (A)P (B c ).
3. Similar a 2.
Teorema 4.5.4. Sea A una colección de eventos independientes. Si algunos

de los eventos son reemplazados por su complemento, la colección resultante
es también formada por eventos independientes.
Ejemplo 4.5.5. Para el circuito de la siguiente figura, sean Ei , para i =

1, 2, 3, el evento que ocurre si el riel i esta cerrado. Supongamos que los
eventos E1 y E2 son independientes, además se tienen siguientes probabili-
dades
1 1 1 1
P (E1 ) = , P (E2 ) = , P (E3 |E1 ∩ E2 ) = , P (E3 |E1 ∩ E2c ) = .
4 2 4 5
Calcular la probabilidad de que entre los terminales A y B pase corriente.

Solución:
Figura 4.5: Circuito

P (A ↔ B) = P ((E1 ∩ E2 ) ∪ (E1 ∩ E3 )))

= P (E1 ∩ E2 ) + P (E1 ∩ E3 ) − P (E1 ∩ E2 ∩ E3 )
= P (E1 ∩ E2 ) + P (E1 ∩ (E2 ∪ E2c ) ∩ E3 ) − P (E1 ∩ E2 ∩ E3 )
= P (E1 )P (E2 ) + P (E1 ∩ E2 ∩ E3 ) + P (E1 ∩ E2c ∩ E3 ) − P (E1 ∩ E2 ∩ E3 )
= P (E1 )P (E2 ) + P (E1 )P (E2c )P (E3 |E1 ∩ E2c ) + 0
11 111
= +
22 225
3
= .
10
Ejemplo 4.5.6. La probabilidad de que un riel del circuito presentado en
la siguiente Figura este cerrado es p con 0 < p < 1. Suponga que todos los
rieles funcionan en forma independiente, cuál es la probabilidad de que haya
corriente entre los punto B y C.
Solución Sea A el evento ”haber corriente entre los terminales B y C”.

Entonces A = (A1 ∩ A2 ) ∪ (A4 ∩ A5 ) ∪ (A2 ∩ A3 ), entonces usando el hecho
que los eventos pasar corriente por un riel son independientes, se tiene que
P (A) = P (A1 ∩A2 )+P (A4 ∩A5 )+P (A2 ∩A3 )−P (A1 ∩A2 ∩A4 ∩A5 )−P (A1 ∩
A2 ∩ A3 ) − P (A2 ∩ A3 ∩ A4 ∩ A5 ) + P (A1 ∩ A2 ∩ A3 ∩ A4 ∩ A5 ) = P (A1 )P (A2 ) +
P (A4 )P (A5 ) + P (A2 )P (A3 ) − P (A1 )P (A2 ) + P (A4 )P (A5 ) − P (A1 )P (A2 ) +
P (A3 ) − P (A2 )P (A3 )P (A4 )P (A5 ) + P (A1 )P (A2 )P (A3 )P (A4 )P (A5 ) = p2 +
p2 + p2 − p4 − p3 − p4 + p5 = p5 − 2p4 − p3 + 3p2 .
Ejemplo 4.5.7. La probabilidad de cierre de cada riel de el circuito de la

siguiente figura es igual a p, 0 < p < 1.
Si todo los rieles funcionan de forma independiente, encuentre la probabili-
dad de haber corriente entre A y B.
Solución: Sea Ai = {cerrarse el circuito i },i = 1, 2, ..., 5, entonces hay co-

rriente entre A y B si suceden los eventos A1 ∩ A2 ∩ A3 o A1 ∩ A4 ∩ A5 o
A1 ∩ A4 ∩ A3 o A1 ∩ A2 ∩ A5 , entonces la probabilidad de haber corriente entre
A y B es:
P (AB) = P ((A1 ∩ A2 ∩ A3 ) ∪ (A1 ∩ A4 ∩ A5 ) ∪ (A1 ∩ A4 ∩ A3 )

∪ (A1 ∩ A2 ∩ A5 ))
= P (A1 ∩ (A3 ∪ A5 ) ∩ (A2 ∩ A4 ))
= P (A1 ∩ A2 ∩ (A3 ∪ A5 )) + P (A1 ∩ A4 ∩ (A3 ∪ A5 ))
− p(A1 ∩ A2 ∩ (A3 ∪ A5 ) ∩ (A1 ∩ A2 ∩ A3 ∪ A5 ))
Usando las propiedades de las funciones de probabilidad y el hecho de que los

eventos Ai son independientes para cada i = 1, 2, 3, 4, 5; se tiene que:
P (AB) = p3 + p3 − p4 + p3 + p3 − p4 − (p4 + p4 − p5 )
= P 5 − 4p4 + 4p3
= P 3 (2 − p)2 .
Ejemplo 4.5.8. Si A,B y C son eventos mutuamente independientes, enton-

ces A y B ∪ C también son mutuamente independientes:
En efecto:
P (A ∩ (B ∪ C)) = P ((A ∩ B) ∪ (A ∩ C))

= P ((A ∩ B) + P ((A ∩ C) − P ((A ∩ B ∩ C)
= P (A)P (B) + P (A)P (C) − P (A)P (B)P (C)
= P (A)(P (B) + P (C) − P (B)P (C))
= P (A)(P (B) + P (C) − P (B ∩ C))
= P (A)P (B ∪ C).
Ejemplo 4.5.9. Usando el resultado del ejercicio anterior podemos darle

una segunda solución mucho más sencilla al segundo circuito analizado. Ası́,
sean los eventos Ai = {cerrarse el circuito i },i = 1, 2, ..., 5, note que para
que exista corriente entre A y B es necesario que el riel número 1 debe estar
cerrado. Posterior a cerrar el riel 1, también debe estar cerrado el riel 2 o el
riel 4 y por último se debe cerrar el riel 3 o el riel 5. Entonces hay corriente
entre A y B si sucede el evento A1 ∩ (A2 ∪ A4 ) ∩ (A3 ∪ A5 ). Entonces, usando
las propiedades de las funciones de probabilidad y el hecho de que los eventos
Ai son independientes para cada i = 1, 2, 3, 4, 5; se tiene que la probabilidad
de haber corriente entre A y B es:
P (A1 ∩ (A2 ∪ A4 ) ∩ (A3 ∪ A5 )) = P (A1 )P (A2 ∪ A4 )P (A3 ∪ A5 )

= P (A1 )(P (A2 ) + P (A4 ) − P (A2 ∩ A4 ))(P (A3 ) + P (A5 ) − P (A3 ∩ A5 ))
= P (A1 )(P (A2 ) + P (A4 ) − P (A2 )P (A4 ))(P (A3 ) + P (A5 ) − P (A3 )P (A5 ))
= p(p + p − p × p)(p + p − p × p)
= p(2p − p2 )2
= p3 (2 − p).
Ejemplo 4.5.10. Al perforar uno de los 80 caracteres de una tarjeta de un

computador se puede cometer un error con probabilidad p. Calcular la proba-
bilidad de que al perforar todos los caracteres, la tarjeta quede mal perforada.
Quedar mal perforada lo entenderemos como tener un error o más.
Solución: Sea Ai = {existe un error en la posición i; i : 1, 2, ..., 80}.

Supongamos que los errores son independientes entre si.
Calculemos la probabilidad de no cometer ningún error.

Aplicando el teorema; si los Ai son independientes, también lo serán los Aci ,
luego:
P (Ac1 ∩ Ac2 ∩ · · · ∩ Ac80 ) = P (Ac1 ) · P (Ac2 ) · · · P (Ac80 )

= [1 − P (A1 )][1 − P (A2 )] · · · [1 − P (A80 )]
= (1 − p)(1 − p) · · · (1 − p)
= (1 − p)80 ,
luego, la probabilidad de cometer por lo menos un error es 1 − (1 − p)80 .
Proposición 4.5.1. Sea (Ω, F, P ) un espacio de probabilidad y A1 , A2 , . . . ∈

F. Sea {Ak }nk=1 una sucesión de eventos independientes, entonces
" n #
[ Pn
P Ak ≥ 1 − e− k=1 P (Ak ) .
k=1
Demostración:
" n # " n #
[ \
P Ak = 1 − P Ack
k=1 k=1
n
Y
=1− P (Ack )
k=1
Yn
=1− (1 − P (Ak ))
k=1
Yn
≥1− e−P (Ak ) usando la desigualdad 1 − x ≤ e−x para x ≥ 0.
k=1
− n
P
=1−e k=1 P (Ak ) .
Proposición 4.5.2 (Lema de Borel-Cantelli). Sea (Ω, F, P ) un espacio

de probabilidad y A1 , A2 , . . . ∈ F. Sea {An : n ∈ N } una sucesión de eventos
y defina A = lı́m supn→∞ An . Entonces, se cumple lo siguiente:
1. Si ∞
P
n=1 P (An ) < ∞, entonces P (A) = 0.
P∞
2. Si A1 , A2 . . . son asumidos como independientes y n=1 P (An ) = ∞,
entonces P (A) = 1.
T∞ S∞
Demostración. 1. Por definición lı́m supn→∞ An = n=1 k=n Ak . Como
∞
[ ∞
[
Ak ⊂ Ak
k=n+1 k=n
entonces por la continuidad de la función P , se obtiene que

=P[ ∞
T S∞
P lı́m sup An n=1 k=n Ak ]
n→∞
= lı́mn→∞ P [ ∞
S
Ak ]
P∞ k=n
≤ lı́mn→∞ k=n P (Ak ), (4.5)
ahora como ∞
P
n=1 P (An ) < ∞, entonces el lado derecho del resultado
anterior tiende a cero cuando n tiende a infinito.
2. Por definición de limite superior se tiene que

c ∞ [
∞
!c ∞ \
∞ ∞
\ [ [
lı́m sup An = Ak = Ack = Bnc .
n
n=1 k=n n=1 k=n n=1
donde Bn = ∪∞ c
k=n Ak para n = 1, 2, 3, .... Entonces es claro que B1 ⊂
B2 ⊂ B3 ⊂ . . ., de modo que
∞ \
∞
!
[
P Ack = lı́m P (Bn ),
n→∞
n=1 k=n
luego, es suficiente mostrar que
∞
!
\
P (Bn ) = P Ack = 0.
k=n
Como la independencia de A1 , A2 . . . implica la independencia de Ac1 , Ac2 . . .,

tomando pk = P (Ak ) se tiene que

∞
!
\
P (Bn ) = P Ack
k=n
= P (Acn )P (Acn+1 )P (Acn+2 )...
≤ P (Acn )P (Acn+1 )P (Acn+2 )...P (Acm ) para m > n
m
!
\
= P Ack
k=n
m
Y
≤ e−pk
k=n
− m
P
= e k=n pk
−x
Pm1 − x ≤ e para x ≥ 0.
aquı́ nuevamente se usa el hecho que
Ası́, fijando n se tiene que: lı́mm→∞ ( k=n pk ) = ∞ puesto Pque la serie
m
{pk ; k ≥ 1} es divergente por hipótesis. Por tanto, lı́mm→∞ e− k=n pk = 0,
entonces, P (Bn ) = 0. Como esto es valido para todo n, sigue que
"∞ # ∞
[ X
c
P Bk ≤ P (Bnc ) = 0.
k=1 n=1
Entonces,
"∞ #
[
P Bkc = 0, de donde sigue que, P (A) = P lı́m sup An = 1.
n→∞
k=1
4.6. Ejercicios
1. Sea {Aj , j = 1, 2, ..., 5} una partición de Ω y supongamos que P (Aj ) =
j
15
y P (A|Aj ) = 5−j
15
, j = 1, ..., 5. Computar las probabilidades P (Aj |A)
j = 1, 2, ..., 5.
2. Si P (A|B) > P (A), muestre que P (B|A) > P (B)
3. Muestre que:
4.6. EJERCICIOS 117
i) P (Ac |B) = 1 − P (A|B)

ii) P ((A ∪ B)|C) = P (A|C) + P (B|C) − P (A ∩ B|C)
También muestre por medio de un contraejemplo que no necesariamente

se cumple que:
iii) P (A|B c ) = 1 − P (A|B)

ii) P (C|(A ∪ B)) = P (C|A) + P (C|B)
4. Si A ∩ B = ∅ y P (A ∪ B) > 0, expresar P (A|(A ∪ B)) y P (B|(A ∪ B))

en términos de P (A) y P (B)
5. Muestre que P (A|B) = P (A) si y sólo si P = 0 o P = 1.
6. Muestre que si el evento A es independiente de si mismo, entonces

P (A) = 0 o 1.
7. Una urna contiene 5 bolas rojas y 3 blancas. Se selecciona una bola al

azar, se descarta y se colocan dos bolas del otro color en la urna. Luego
se saca de la urna una segunda bola. Hallar la probabilidad de que:
i) La segunda bola sea roja.

ii) Ambas bolas sean del mismo color.
iii) Si la segunda bola es roja. ¿Cuál es la probabilidad de que la
primera bola sea roja?
iv) Si ámbas son del mismo color. ¿Cuál es la probabilidad de que
ámbas sean blancas?
8. Una urna A contiene x bolas rojas y y bolas blancas, y otra urna B

contiene z bolas rojas y v bolas blancas.
i) Si se escoge una urna al azar y se saca una bola. ¿Cuál es la

probabilidad de que la bola sea roja?
ii) Si se saca una bola de la urna A y se pone en la B y luego se
saca una bola de la urna B. ¿ Cuál es la probabilidad de que la
segunda bola sea roja?
Capı́tulo 5
Variables Aleatorias
0 0
Definición 5.0.1. Sean (Ω, F) y (Ω , F ) espacios medibles. Una función
0
f : Ω −→ Ω se dice F − F 0 medible si
0
f −1 (A0 ) = {w ∈ Ω/f (w) ∈ A } ∈ F
0 0
para cada A ∈ F .
0 0
Definición 5.0.2. Si (Ω, F, P ) es un espacio de probabilidad y (Ω , F ) es
0
un espacio medible, entonces una función X : Ω −→ Ω se llama elemento
aleatorio, si X es una función F − F 0 .
0 0
Definición 5.0.3. Sean (Ω, F, P ) un espacio de probabilidad, (Ω , F ) un
0
espacio medible y la función X : Ω −→ Ω un elemento aleatorio, si Ω0 = R
y F 0 = B(R), X se llama una variable aleatoria (v.a.).
La definición anterior implica que X es una v.a. si y solamente si la imagen
inversa de cualquier conjunto boreliano es un elemento de la σ-álgebra del
espacio de probabilidad. Esta condición se conoce como ”medibilidad” en
teorı́a de la medida, y se dice entonces que dicha función es medible respecto
de las σ-álgebras F y B(R).
Observación 5.0.1. X : Ω −→ R debe ser medible, puesto que P es una
medida de probabilidad definida sobre el espacio medible (Ω, F).
Observación 5.0.2. En general, las variables aleatorias se denotan por le-
tras mayúsculas como X, Y, Z, W, etc., mientras que los valores que toman
las v.a. se denotan con letras minúsculas; ası́, para la v.a. X se tienen los
valores x1 , x2 , ...
119
120 CAPÍTULO 5. VARIABLES ALEATORIAS
Definición 5.0.4. El simbolo RX representará el recorrido de la variable

aleatoria X.
Definición 5.0.5. Para (R, B(R), P ) un espacio de probabilidad, (R, B(R))
un espacio probabilizable con B la σ-álgebra de borel, la función X : R →
R es una variable aleatoria (v.a.) si y solo si la imagen inversa de cada
intervalo es un elemento de B(R), es decir X es una v.a. si y solamente si
X −1 (−∞, x) ∈ B(R).
Ejemplo 5.0.1. Sea el experimento aleatorio ξ: lanzar dos monedas,o equi-
valentemente lanzar una moneda dos veces, entonces Ω : {cc, cs, sc, ss}. Sea
la σ-álgebra F = P (Ω). Definamos la función X : Ω → R definida por X :=
número de caras obtenidas. Entonces el rango de X, denotado por RX es
RX = {0, 1, 2} donde X(cc) = 2, X(cs) = 1 y X(ss) = 0. Esquemáticamen-
te se tiene la siguiente figura:
Figura 5.1: Variable aleatoria en el lanzamiento de dos monedas
Ahora, para x ∈ R se tiene que:

i) si x < 0, entonces X −1 [(−∞, x)] = ∅ ∈ F,
ii) si 0 ≤ x < 1, entonces X −1 [(−∞, x)] = {ss} ∈ F,
iii) si 1 ≤ x < 2, entonces X −1 [(−∞, x)] = {ss, cs, sc} ∈ F,
iv) si 2 ≤ x, entonces X −1 [(−∞, x)] = Ω ∈ F,

entonces se concluye que la función X es una variable aleatoria.
121
Observación 5.0.3. Se puede notar que Ω es el espacio muestral asociado

al experimento aleatorio ξ, mientras que RX es el espacio muestral asociado
a la variable aleatoria X.
Ejemplo 5.0.2. Sea Ω = {1, 2, 3} y F = {∅, {1, 2}, {3}, Ω} definamos

m1 si w = 1
X(ω) =
m2 si w = 2 o w = 3,
entonces, X −1 ({m1 }) = {1} ∈
/ F, por tanto, X no es v.a.
Ejemplo 5.0.3. Una función muy usada en la teorı́a estadı́stica es la función
indicadora, la cual sirve para describir y cuantificar experimentos dicotómi-
cos. Esta viene definida por:
(
1 si ω ∈ A
IA (ω) =
0 si ω ∈/ A.
Verifique que IA (ω) es una v.a. en B(R).
Solución:
En efecto, para x ∈ R, se tiene que:

∅ ∈ B(R)
 si x < 0
−1 c
IA (−∞, x) = {ω ∈ R|IA (ω) < x} = A ∈ B(R) si 0 ≤ x < 1

R ∈ B(R) si x ≥ 1

portanto, IA es una v.a.

Definición 5.0.6. Sean ξ un experimento en Ω, el espacio muestral asociado,
X una v.a definida en Ω y RX su recorrido. Sea B un suceso respecto a X,
es decir B ⊆ RX , si A se define como A = {ω ∈ Ω : X(s) ∈ B}, entonces
decimos que A y B son equivalentes.
Ejemplo 5.0.4. Para ξ el experimento de lanzar dos monedas no cargadas

X :=número de caras, entonces Ω = {cc, cs, sc, ss} y RX = {0, 1, 2}. Si
B1 = {0} ⇔ A1 = {ω ∈ Ω : X(ω) = 0} = {ss},entonces B1 y A1 son
equivalentes (A1 ⇔ B1 ) en el sentido de la definición anterior, en forma
similar, B2 = {1} ⊆ RX y A2 = {ω ∈ Ω : X(ω) = 1} = {cs, sc}, son
equivalente. Esquemáticamente, la figura 5.2 representa esta última situación
(A2 ⇔ B2 ). De la misma forma:
B3 = {2} ⇔ A3 = {ω ∈ Ω : X(ω) = 2} = {cc},
B4 = {0, 1} ⇔ A4 = {ω ∈ Ω : X(ω) = 0 , ∨, X(ω) = 1} = {ss, cs, sc}.
Figura 5.2: Sucesos equivalentes en Ω y RX
Figura 5.3: B1 = {1} ⇔ A1 = {ω ∈ Ω : X(ω) = 1} = {cs, sc}.
En este contexto son equivalentes los eventos: (X = x) y {ω ∈ Ω : X(ω) = x},

(X ≤ x) y {ω ∈ Ω : X(ω) ≤ x}, (a ≤ X ≤ b) y {ω ∈ Ω : a ≤ X(ω) ≤ b}.
Si B es un boreliano, se usan los sı́mbolos X −1 (B) y (X ∈ B) para denotar

el conjunto {ω ∈ Ω : X(ω) ∈ B}.
Ası́, el conjunto {ω ∈ R : X(ω) ∈ [0, ∞)} puede ser representado por
X −1 [0, ∞) o simplemente (x ≥ 0).
También, podemos representar el conjunto {ω ∈ R : a ≤ X(ω) ≤ b} por

X −1 [a, b] o por (a ≤ X ≤ b).
Ejemplo 5.0.5. Para ξ el experimento de lanzar dos monedas no cargadas
123
Figura 5.4: Imagen inversa de un boreliano.
y X :=número de caras, (0 ≤ X ≤ 1) ⇔ {ω ∈ Ω : 0 ≤ X(ω) ≤ 1} =

{ss, cs, sc} y (x ≤ 1) ⇔ {ω ∈ Ω : X(ω) ≤ 1} = {ω ∈ Ω : X(ω) =
0 , ∨, X(ω) = 1} = {ss, cs, sc}.
Proposición 5.0.1. Una función X : Ω → R es una v.a. si y solamente si

para cada x ∈ R se cumple que (X ≤ x) ∈ F.
Observación 5.0.4. Dado que la σ-álgebra de borel puede ser generada por
las clases ζ = {(a, b) : a < b; a, b ∈ R}, ζ = {(a, b] : a ≤ b; a, b ∈ R},
ζ = {(−∞, b) : b ∈ R}, ζ = {(a, +∞) : a ∈ R}, etc, entonces se conclu-
ye que X es una v.a. si y solamente si ocurre alguna de las condiciones:
X −1 [(−∞, x]] = {ω|X(ω) ≤ x} ∈ F o X −1 [(−∞, x)] = {ω|X(ω) < x} ∈ F
o X −1 [(x, +∞]] = {ω|X(ω) ≥ x} ∈ F o X −1 {x} = {ω|X(ω) = x} =
{ω|X(ω) ≤ x} ∩ {ω|X(ω) ≥ x} ∈ F, etc.
Observación 5.0.5. X es una v.a. si para cada x en R, (X < x) ∈ F o

(X > x) ∈ F o (X ≥ X) ∈ F o (X ≤ x) ∈ F.
Proposición 5.0.2. Sean X : Ω → R una v.a. real y f : R → R una función

continua, entonces f ◦ X : Ω → R es una v.a.
Demostración. Como f es continua, f devuelve intervalos abiertos (a, b) en

intervalos abiertos, y B(R) = σ{(a, b) : a, b ∈ R}, por tanto f es v.a; ası́ dado
A ∈ B(R), (f ◦ X)−1 (A) = X −1 (f −1 (A)) es un evento, entonces f ◦ X es una
v.a.
5.0.1. Propiedades
A continuación estudiamos las principales propiedades de las variables alea-
torias, asimismo se definen algunas operaciones entre v.a.
1) la función constante X = c es una v.a.
Demostración. Sea B un boreliano cualquiera y c ∈ R, entonces:
/ B entonces, X −1 (B) = ∅ ∈ F
• Si c ∈
• Si c ∈ B entonces, X −1 (B) = Ω ∈ F,
en cualquier caso X −1 (B) ∈ F por tanto X es una v.a.
2) Si X es una v.a. entonces Y = cX es una v.a. (con c constante).
Demostración. Si c = 0 entonces Y = 0 es una constante y por tanto

v.a.
Si c 6= 0, entonces para x ∈ R, veamos que Y −1 (−∞, x] ∈ F.
En efecto:
Y −1 (−∞, x] = {ω ∈ R : Y (ω) ≤ x}
= {ω ∈ R : cX(ω) ≤ x}.
Ahora, como c ∈ R − {0} entonces
{w ∈ R : x(w) ≤ xc }

−1 si c > 0
Y (−∞, x] =
{w ∈ R : x(w) ≥ xc } si c < 0
por tanto,
X −1 (−∞, xc ] ∈ F

−1 si c > 0
Y (−∞, x] =
X −1 [ xc , ∞) ∈ F si c < 0
con lo cual se demuestra que Y es una v.a.
3) Si X es una v.a. entonces −X es una v.a.
Demostración. Tome c = −1 en el inciso 2).

125
1
4) Si X es una v.a. entonces X 2 , |X| y X
{ω : X(ω) 6= 0} también son
variables aleatorias.
1. Demostración. Sea Y = X 2 entonces,
Y −1 (−∞, x] = {ω : Y (ω) ≤ x}
= {ω : X 2 (ω) ≤ x}
(
∅ si x < 0
=
{ω : X 2 (ω) ≤ x} si x ≥ 0
(
∅ si x < 0
= √ √
{ω : − x ≤ X(ω) ≤ x} si x ≥ 0
(
∅∈F
= √ √
X −1 [− x, x] ∈ F.
2. Sea Y (ω) = |X(ω)| entonces, para x ∈ R
Y −1 (−∞, x] = {ω : Y (ω) ≤ x}
= {ω : |X(ω)| ≤ x}
(
∅ si x < 0
=
{ω : −x ≤ X(ω) ≤ x} si x ≥ 0
(
∅∈F
=
X −1 [−x, x] ∈ F.
1
3. Sea Y (ω) = X(ω)
entonces, para x ∈ R
Y −1 (−∞, x] = {ω : Y (ω) ≤ x}

1
= ω: ≤x
X(ω)

−1 1
X [ x , 0] ∈ F
 si x ≥ 0
= X −1 (−∞, 0) ∈ F si x = 0

 −1
X (−∞, 0) ∪ X −1 [ x1 , 0] ∈ F si x > 0
5) Si X y Y son variables aleatorias entonces, X + Y y X − Y también

son variables aleatorias.
Demostración. Vamos a demostrar que para cada número real x ∈ R,

el conjunto (X + Y > x) ∈ F
Ayuda:
Inicialmente demostraremos el siguiente resultado:
[
(X + Y > x) = (X > r) ∩ (Y > x − r).
r∈Q
” ⇒ ” Sea ω ∈ Ω, tal que X(ω) + Y (ω) > x → X(ω) > x − Y (w)

y como Q es un conjunto denso en R, entonces existe r ∈ Q tal que
X(ω) > r > x−Y (ω) → X(ω) > r , ∧, Y[ (ω) > x−r → ω ∈ (X(ω) >
r) ∩ (Y (ω) > x − r) → (X + Y > x) ⊆ (X > r) ∩ (Y > X − r).
r∈Q
[
” ⇐ ” Sea ω ∈ (X(ω) > r) ∩ (Y (ω) > x − r)
r∈Q
→ ∃r0 ∈ Q tal que /X(ω) > r0 , ∧, Y (ω) > x − r0 → suman-

do las dos desigualdades anteriores se tiene que X(w) + Y (w) > x
→ ω ∈ (X + Y > x)
De donde se sigue la igualdad.
Intuitivamente definimos (X + Y )(w) = X(w) + Y (w). Veamos ahora

que X + Y es una v.a. Entonces, para x ∈ R
(X + Y )−1 (x, ∞) = {ω : (X + Y )(ω) > x}

= {ω : X(ω) + Y (ω) > x}
[
= (X(ω) > r) ∩ (Y (ω) > x − r).
| {z } | {z }
r∈Q ∈F ∈F
| {z }
∈F
entonces como la intersección de elementos de la σ-álgebra es nueva-

mente un elemento de la σ-álgebra y la unión numerable también, se
sigue que (X + Y )−1 (x, ∞) ∈ F, portanto X + Y es una v.a. Adicional-
mente como X − Y = X + (−Y ) entonces también se sigue que X − Y
es una v.a.
127
X
6) Si X y Y son variables aleatorias entonces, XY y Y
({ω : Y (ω) 6= 0})
también son variables aleatorias.
Demostración. La demostración de este resultado sigue del hecho que

2 )2 ]
XY = [(X+Y ) −(X−Y
4
y dado que la suma y resta de v.a. es una v.a. y
además el cuadrados de una v.a. al igual que el producto por un escalar
es v.a., entonces se sigue que XY es una v.a. Tomando el resultado
anterior y escribiendo X Y
= X Y1 entonces como Y1 es nuevamente una
X
v.a. se sigue que Y es una v.a.
7) Si X y Y son variables aleatorias entonces, Z = mı́n{X, Y } y W =

máx{X, Y } son variables aleatorias.
Demostración. Resulta del hecho que:

1
Z = mı́n{X, Y } = [(X + Y ) + |X − Y |]
2
y
1
W = máx{X, Y } = [(X + Y ) − |X − Y |],
2
usando las propiedades anteriores.
Ejemplo 5.0.6. Sean X, Y : Ω → R v.a. reales sobre (Ω, B(R), P ), usando

la definición clásica demuestre que:
1. b + cY b, c ∈ R, es una v.a. y
2. máx{X, Y } es v.a.
Demostración. 1. Sea Z = b + cY , si c = 0 el resultado es inmediato;

asumamos que c 6= 0, luego dado a ∈ R:
Z −1 ((−∞, a]) = {x ∈ Ω : cY (x) + b ≤ a} = {x ∈ Ω : Y (x) ≤
a−b
c
} = Y −1 ((−∞, a−b
c
]), para c > 0, pero Y es v.a.; ası́ Z −1 ((−∞, a]) =
Y −1 ((−∞, a−bc
]) ∈ B(R), por tanto Z es una v.a. El caso c < 0 se
demuestra en forma similar.
2. Sea Z = máx{X, Y }, luego dado a ∈ R:

Z −1 ((−∞, a]) = {x ∈ Ω : Z(x) ≤ a} = {x ∈ Ω : X(x) ≤ a} ∩
{x ∈ Ω : Y (x) ≤ a} = X −1 ((−∞, a]) ∩ Y −1 ((−∞, a]), pero X, Y son
variables aleatorias, por lo cual X −1 ((−∞, a]), Y −1 ((−∞, a]) ∈ B(R),

ası́ X −1 ((−∞, a]) ∩ Y −1 ((−∞, a]) ∈ B(R), por tanto Z es una v.a.
Ejemplo 5.0.7. Sea X : Ω → R una v.a. real sobre (Ω, B(R), P ), entonces
se sigue del ejemplo anterior o de las propiedades de las variables aleatorias
que la parte positiva de X, definida por X + (ω) = máx{X(ω), 0}, es una
v.a., de igual forma también se sigue que la parte negativa de X, X − (ω) =
máx{−X(ω), 0}, es una v.a.
Ejemplo 5.0.8. Suponga que Ω = [0, 4] y F = B([0, 4])
(
ω + 3 si 0 ≤ ω < 2
X(ω) =
ω si 2 ≤ ω ≤ 4
y

ω + 1
 si 0 ≤ ω ≤ 1
Y (ω) = 1 si 1 < ω < 25

2ω + 3 si 25 ≤ ω ≤ 4

Encuentre X(ω) + Y (ω).
Solución:


 (ω + 3) + (ω + 1) si 0 ≤ ω ≤ 1

(ω + 3) + 1 si 1 < ω < 2
X(ω) + Y (ω) =


 ω+1 si 2 ≤ ω < 52
si 25 ≤ ω < 4

ω + (2ω + 3)


 2ω + 4 si 0 ≤ ω ≤ 1

ω + 4 si 1 < ω < 2
=


 ω+1 si 2 ≤ ω < 52
3(ω + 1) si 25 ≤ ω < 4.

5.0.2. Variable aleatoria y probabilidad

Si X es una v.a. entonces podemos trasladar la medida de probabilidad P al
espacio medible (R, B(R)), del siguiente modo: si B es un boreliano definimos
PX (B) = P (X −1 (B)).
129
lo cual es posible dado que el conjunto X −1 (B) es un elemento de F, dominio

de definición de P ası́, la función.
PX : B(R) → [0, 1]
es llamada medida de probabilidad inducida por la v.a. X de este modo se

construye el espacio de probabilidad.
(R, B(R), PX ).
Definición 5.0.7. Sea B un suceso asociado a la variable aleatoria X, esto

es B ⊆ RX , se define P (B) como: P (B) = P (A), donde A = {ω ∈ Ω :
X(ω) ∈ B}.
Ejemplo 5.0.9. Para ξ el experimento de lanzar dos monedas no cargadas y

X :=número de caras, P (X = 0) = P ({ss}) = 41 , P (X = 1) = P ({cs, sc}) =
1
2
, P (X = 2) = P ({cc}) = 14 y P (X ∈ {0, 1}) = P ({ss, cs, sc}) = 34 .
las probabilidades obtenidas en RX se consideran ”inducidas” por los eventos

dados en Ω.
5.0.3. Variables aleatorias discretas y continuas

Variables aleatorias discretas (v.a.d.)
Definición 5.0.8. Sea X una v.a. Si el número de valores posibles de X es
finito o infinito numerable, decimos que X es una v.a. discreta, (v.a.d.) esto
es, si los posibles valores de X se pueden enumerar como X1 , X2 , X3 , ..., Xn , ...
Definición 5.0.9. Sea X una v.a.d., por tanto RX consta a lo mas de un

numero de valores X1 , X2 , ... infinito numerable. Con cada resultado xi se
asociara un número Pi = P (X = xi ) = p(xi ) llamado la probabilidad de xi .
Los números P (xi ), i = 1, 2, 3... son tales que
1. P (xi ) ≥ 0 ∀i y
∞
X
2. P (xi ) = 1.
i=1
La función P definida anteriormente se llama función de probabilidad o fun-

ción de probabilidad puntual o función de cuantı́a y la colección (xi , P (xi ))
para i = 1, 2, 3... se llama distribución de probabilidad de la v.a. X.
Ahora consideremos un suceso B asociado a la v.a. X(B ⊆ RX ) suponga que

B = {Xi1 , X2i , ..., Xik , ...}. Entonces,
P (B) = P ({w ∈ Ω : X(w) ∈ B})

= P ({w ∈ Ω : X(w) = xi , i = 1, 2...})
X∞
= P (xi )
i=1
es decir, la probabilidad de B es la suma de probabilidades de los resultados

individuales asociados a B.
Ejemplo 5.0.10. Para el experimento de lanzar dos monedas donde la v.a.
de interés es X :=número de caras, se tiene que P (X = 0) = 41 , P (X = 1) =
1
2
, P (X = 2) = 14 y P (X ∈ {0, 1}) = 43 entonces,
 1
 4 si x = 0
1
P (X = xi ) = f (xi ) = si x = 1
 21
4
si x = 2
Es decir, la distribución de la v.a. es {(0, 1/4), (1, 1/2), (2, 1/4)}.
Ejemplo 5.0.11. Se deje como ejercicio para los lectores verificar las si-
guientes distribuciones en cada v.a. definida, en el lanzamiento de dos dados,
.
X(i, j) = i + j, con distribución,
{(2, 1/36), (3, 2/36), (4, 3/36), (5, 4/36), (6, 5/36), (7, 6/36), (8, 5/36),
(9, 4/36), (10, 3/36), (11, 2/36), (12, 1/36)}.
Y (i, j) = máximo común divisor de (i, j), con distribución,
{(1, 24/36), (2, 6/36), (3, 3/36), (4, 1/36), (5, 1/36), (6, 1/36)}.
Z(i, j) = número de divisores de la suma i + j, con distribución,

{(2, 16/36), (3, 7/36), (4, 12/36), (6, 1/36)}.
131
0.5
0.4
0.3
probabilidad
0.2
0.1
0.0
−1 0 1 2 3
Figura 5.5: Gráfico función de probabilidad.
W (i, j) = máximo de (i, j), con distribución,
{(1, 1/36), (2, 3/36), (3, 5/36), (4, 7/36), (5, 9/36), (6, 11/36)}.
V (i, j) = mı́nimo de (i, j), con distribución,
{(1, 11/36), (2, 9/36), (3, 7/36), (4, 5/36), (5, 3/36), (6, 1/36)}.
Observación 5.0.6. 1) Suponga que X puede tomar solo un número fi-

nito de valores x1 , x2 , ..., xn si cada resultado es igualmente probable,
entonces P (X = xi ) = n1 .
2) Si X toma un número infinito numerable de valores,
P∞ no es posible que
los resultados sean igualmente probables ya que i=1 P (X = xi ) >> 1
cuando P (X = xi ) = constante para i = 1, 2, 3, ...
3) En cada intervalo solo habrá un número finito de valores posibles de la
v.a. X.
Cuando X tome un número finito de valores x1 , x2 , ..., xn , entonces
P (xi ) = 0 para todo i > n y por lo tanto la serie infinita de la definición
se convierte en finita.
Se considera una masa total unitaria distribuida sobre la recta real, con
la masa indicada en los puntos x1 , x2 , x3 , ... etc. Los números P (xi )
representan la cantidad de masa que hay en cada punto xi .
Variables Aleatorias Continuas (v.a.c.)

Definición 5.0.10. Se dice que X es una variable aleatoria continua (v.a.c.)
si existe una función f (o también denotada fX ) llamada función de densidad
de probabilidad de X (fdp), que satisface las siguientes propiedades.
1. f (x) ≥ 0 ∀x y
Z ∞
2. f (x) dx = 1.
−∞
Observación 5.0.7. Generalmente f es continua o continua por tra-

mos o por pedazos, de modo que si f es una fdp, su gráfico será una
curva como la de la siguiente figura
Figura 5.6: Gráfico fdp de una v.a.c.
Para cualquier m, M tales que −∞ < m < M < ∞, se tiene que

Z M
P (m ≤ X ≤ M ) = f (x) dx,
m
133
es decir, la probabilidad representa el área bajo la gráfica de la función

f (x) entre X = m y X = M, tal y como se ilustra en el gráfico.
Figura 5.7: ärea bajo la curva para una v.a.c.
Z m
Note que [m, m] = {m} 6= ∅ , ∧, P (m ≤ X ≤ m) = f (x) dx = 0,
m
es decir, en el caso continuo P (A) = 0 no implica A = ∅.
P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b),

como consecuencia del resultado anterior.
Observe que f (x) no representa ninguna probabilidad en el caso conti-

nuo.
Cuando la v.a. X tome valores en [a, b] se establece que f (x) = 0 para

todo x ∈ Z modo f se define para todo −∞ < x < ∞ y se
/ [a, b]. De este
∞
cumple la condición f (x) dx = 1.
−∞
Del Teorema del valor medio del cálculo se deduce que

Z x+∆x
P (x ≤ X ≤ x + ∆x) = f (s) ds
x
= (x + ∆x − x)f (), x ≤ ≤ x + ∆x
= ∆xf ().
Si ∆x → 0 ocurre que → x y la expresión ∆xf () es aproximada-
mente igual a P (x ≤ X ≤ x + ∆x). Ası́, el hecho de referirse a f (x)
como ”función de densidad de probabilidadı̈ndica que f (x) representa
la ”densidad de masa.”
∗ ∗
Z ∞existe una función f que cumple la condición f (x) ≥ 0, ∀x y
Si
f ∗ (x) dx = k 6= 1, k > 0, entonces f ∗ no es una fdp, pero se
−∞
puede definir una nueva función f (x) = k1 f ∗ (x), la cual evidentemente
es una fdp. La constante positiva k es llamada de constante de norma-
lización. En general para g(x) = cf (x), la constante de normalización
R −1
∞
es c = −∞ f (x)dx .
Ejemplo 5.0.12. Sea X una v.a.c. con fdp

2x si 0 < x < 1
f (x) =
0 caso contrario.
a) Realice el gráfico de f
b) corrobore que f es una buena fdp
c) calcular P (X ≤ 12 ).
Solución:
a) El gráfico de la fdp del modelo lineal dado es:
b) i) como 0 < x < 1 → 0 < 2x < 2 → 0 < f (x) ≤ 2.
ii)
Z ∞ Z 0 Z 1 Z ∞
f (x) dx = f (x) dx + f (x) dx + f (x) dx
−∞ −∞ 0 1
Z 1
=0+2 x dx + 0
0
= x2 |10 = 1.
135
Figura 5.8: Gráfico fdp.
Z 1
2 1 1
c) P (X ≤ 1
2
) = 2x dx = x2 |02 = .
0 4

kx3 si 0 < x < 1
f (x) =
0 caso contrario
1) Encuentre el valor de k (llamada constante de normalización) tal que

f sea una fdp.
2) Encuentre el valor de a tal que P (X > a) = P (X < a)
3) Encuentre P (0,2 < x < 0,8)

Solución:
1) i) como f es no negativa y 0 < x < 1 entonces es obvio

Z ∞ que k > 0.
ii) Para que f sea una fdp se debe cumplir que f (x) dx = 1 →
Z 1 −∞
kx3 dx = 1 → k4 x4 |10 = 1 → k4 = 1 → k = 4.
0
2)
1
P (X > a) = 1 − P (X ≤ a) = P (X ≤ a) → 2P (X ≤ a) = 1 → P (X ≤ a) =
2
Z a
r
3 1 1 1 1
x4 |a0 = → a4 =
4
→ 4x dx = → →a= .
0 2 2 2 2
Z 0,8
3) P (0,2 < X < 0,8) = 4x3 dx = x4 |0,8
0,2 = 0,408
0,2
Ejemplo 5.0.14. Se sabe que la vida en horas de cierto tipo de lámparas se

distribuye según la función de densidad
100
x2
si x > 0
f (x) =
0 caso contrario.
Se eligen tres de estas lámparas al azar. ¿ Cuál es la probabilidad de que:

las tres lámparas tengan vida superior a 150 horas
exactamente 2 de las 3 lámparas tengan vida superior a 150 horas.

Solución:
Sea Xi : i = 1, 2, 3 la vida en horas de la lámpara i, entonces Xi es una
v.a.c. con fdp 100
x2
si x > 0
f (x) =
0 caso contrario.
Luego, Z ∞
100 100 ∞ 100 2
P (Xi > 150) = 2
dx = − |150 = = .
150 x x 150 3
Este resultado significa que cada lámpara tiene una probabilidad de 23 de tener
una vida superior a 150 horas y por lo tanto 13 de tener menos o igual a 150
horas.
Sea A el suceso ”las tres lámparas tienen más de 150 horas,.entonces
bajo el supuesto de eventos independientes,
222 8
P (A) = P (X1 > 150, X2 > 150, X3 > 150) = = .
333 27
5.1. FUNCIÓN DE DISTRIBUCIÓN ACUMULADA 137
Sea B el evento .exactamente dos lámparas duran más de 150 horas..Entonces,

B = B1 ∪ B2 ∪ B3 donde B1 = (X1 > 150 ∧ X2 > 150 ∧ X3 ≤
150), B2 = (X1 > 150 ∧ X2 ≤ 150 ∧ X3 > 150), B3 = (X1 ≤
150 ∧ X2 > 150 ∧ X3 > 150), con probabilidades P (B1 ) = 23 23 13 = 27 4
,
212 4 122 4
P (B2 ) = 3 3 3 = 27 y P (B3 ) = 3 3 3 = 27 , luego:
4 4 4 12 4
P (B) = P (B1 ∪ B2 ∪ B3 ) = P (B1 )+P (B2 )+P (B3 ) = + + = = .
27 27 27 27 9
5.1. Función de Distribución Acumulada

Definición 5.1.1. Sea X una v.a. la probabilidad de que X tenga un valor
menor o igual que x se llama función de distribución acumulada (fda) y la
simbolizamos por F (x) o FX (x), es decir.
F (x) = FX (x) = P [X ≤ x]
Ejemplo 5.1.1. 1. Sea el experimento de lanzar tres monedas no car-
gadas, o en su defecto de lanzar una moneda no cargada tres veces,
entonces Ω = {ccc, ccs, csc, css, scc, scs, ssc, sss} y definamos la
v.a. X = # de caras en el experimento, entonces RX = {0, 1, 2, 3} y la
función de masa de probabilidad viene dada por
 1
si x = 0
 83


8
si x = 1
f (x) = 3
si x = 2
 81


8
si x = 3
Por tanto, como F (x) = P (X ≤ x) se sigue que:

 P (X < 0) si x<0
0≤x<1

 P (X < 0) + P (X = 0)
 si
F (x) = P (X < 0) + P (X = 0) + P (X = 1) si 1≤x<2
 P (X < 0) + P (X = 0) + P (X = 1) + P (X = 2) si 2≤x<3



P (X < 0) + P (X = 0) + P (X = 1) + P (X = 2) + p(X = 3) si x≥3
entonces,


 0 si x<0
 0 + 18 = 18 si 0≤x<1


F (x) = 0 + 18 + 38 = 48 si 1≤x<2
0 + 18 + 38 + 38 = 78 si ≤x<3




0 + 81 + 38 + 38 + 18 = 1 si x ≥ 3.

Figura 5.9: Gráfico función de distribución acumulada v.a.d.
2. Para el caso de la v.a.c. estudiada anteriormente y definida por la fdp

2x si 0 < x < 1
f (x) =
0 caso contrario
se sigue que:
Z x
a) Si x ≤ 0 → F (x) = f (t) dt = 0
−∞
Z x Z 0 Z x
b) Si 0 < x < 1 → F (x) = f (t) dt = f (t) dt + f (t) dt
Z x Z x −∞ −∞ 0
→ f (t) dt = 2 t dt = t2 |t0 = x2
0 0
Z x Z 0 Z 1
c) Si x ≥ 1 → F (x) = f (t) dt = f (t) dt + f (t) dt +
Z ∞ −∞ −∞ 0
f (t) dt = 0 + 1 + 0 = 1.
1
Entonces, 
 0 si x ≤ 0
F (x) = x2 si 0 < x < 1
1 si x ≥ 1

Figura 5.10: Gráfico función de distribución acumulada v.a.c.
Teorema 5.1.1. Sea F(x) la f.d.a de una v.a X entonces.

1) lı́m F (x) = 1.
x→∞
2) lı́m F (x) = 0.
x→−∞
3) Si X1 ≤ X2 entonces, F (X1 ) ≤ F (X2 ).
4) F (X) es continua por la derecha es decir F (X + ) = F (X).

Demostración:
1) Sea {xn , n = 1, 2, ..., } una sucesión de números reales tales que x1 ≤
x2 ≤ ... ≤ xk ≤ ..., donde xn → ∞ cuando n → ∞. Entonces, los
eventos An = [X ≤ xn ]n∈N conforman una sucesión de eventos no
decrecientes y An → Ω cuando n → ∞. Entonces por la continuidad
de la función de probabilidad
lı́m F (x) = lı́m P (X ≤ x) = lı́m P (An ) = P lı́m An = P (Ω) = 1
x→∞ x→∞ n→∞ n→∞
2) Sea {xn , n = 1, 2, ..., } una sucesión de números reales tales que x1 ≥

x2 ≥ x3 ≥ ... ≥ xn ≥ ... con xn → −∞ cuando n → ∞. Entonces,
los eventos An = [X ≤ xn ]n∈N conforman una sucesión de eventos no
crecientes y An → ∅ cuando n → ∞. Entonces por la continuidad de
la función de probabilidad
lı́m F (x) = lı́m P (X ≤ x) = lı́m P (An ) = P lı́m An = P (∅) =
x→−∞ x→−∞ n→∞ n→∞
0
3) Sea x1 ≤ x2 entonces,
[X ≤ x1 ] ⊆ [X ≤ x2 ] → P (X ≤ x1 ) ≤ P (X ≤ x2 )
es decir, F (x1 ) ≤ F (x2 ).
4) Sea x < ... < xn < ... < x2 < x1 entonces, la sucesión de eventos
An = [X ≤ xn ]n∈N es una sucesión no creciente de eventos, tal que
∞
\
An → [X ≤ x] cuando n → ∞. Por lo tanto, An = [X ≤ x].
n=1
Entonces,

lı́m + F (xn ) = lı́m P (An ) = P lı́m An = P (X ≤ x) = F (x).
xn →x n→∞ n→∞
Observación 5.1.1. Una función de distribución es monótona no decrecien-

te y por tanto tiene un número finito o enumerable de puntos de discontinui-
dad ademas, todas las discontinuidades son de tipo salto, por la continuidad
a la derecha, el salto en el punto x es:

− 1
F (x) − F (x ) = F (x) − lı́m F x −
n→∞ n

1
= lı́m F (x) − F x −
n→∞ n

1
= lı́m P (X ≤ x) − P X ≤ x −
n→∞ n

1
= lı́m P x − ≤ X ≤ x
n→∞ n

1
= P lı́m An , con An = x − ≤ X ≤ x
n→∞ n
= P (X = x).
Note que la sucesión de eventos An = x − n1 ≤ X ≤ x es decreciente y por

tanto lı́mn→∞ An = ∩∞ n=1 An = {x}.

Es decir, que el valor del salto es igual a la probabilidad en el punto x,

P (X = x), en este caso F es continua en el punto x si y solamente si
P (X = x) = 0. En el caso de v.a.c. el valor de la probabilidad P (X = x) es
cero, por tanto en este caso la función siempre será continua.
Por definición, la función de distribución acumulada se calcula a partir de

la función de probabilidad para el caso de v.a.d. y a partir de la fdp para
el caso de una v.a.c. El siguiente resultado muestra como se puede llegar a
la función de densidad o la función de probabilidad de una v.a. cuando se
conoce su respectiva función de distribución acumulada.
Teorema 5.1.2. 1. Sea X una v.a.d. con valores x1 , x2 , ..., xn tales que
x1 < x2 < x3 < ... y sea F la fda de X luego:
f (xj ) = P (X = xj ) = F (xj ) − F (xj − 1).
2. Sea F la fda de una v.a.c. X con fdp f entonces,

d
f (x) = F (x).
dx
Demostración. 1.
F (xj ) = P (X = x1 ) + P (X = x2 ) + ... + P (X = xj−1 ) + P (X = xj )

F (xj−1 ) = P (X = x1 ) + P (X = x2 ) + ... + P (X = xj−1 )
→ F (xj ) − F (xj−1 ) = P (X = xj ) = f (xj ).

Z x
dF (x) d
2. dx = dx f (t) dt = f (x).
−∞
Teorema 5.1.3. Sea F la fda de la v.a. X. Si a < b entonces se tiene que,
1. P [a < x ≤ b] = F (b) − F (a).
2. P (x < a) = F (a− ).
3. P (a ≤ x ≤ b) = F (b) − F (a− ).
4. P (a < x < b) = F (b− ) − F (a).

5. P (a ≤ x < b) = F (b− ) − F (a− ).
Demostración. 1. Dado que el evento [a < x ≤ b] = [x ≤ b] − [x ≤ a],

entonces, [x ≤ b] = [x ≤ a]∪[a < x ≤ b] donde [x ≤ a]∩[a < x ≤ b] = ∅
por tanto, P (x ≤ b) = P (x ≤ a) + P (a < x ≤ b) de donde sigue que
P (a < x ≤ b) = F (b) − F (a).
2. En forma similar al caso anterior tenemos que [x ≤ a] = [x < a]∪[x = a]

donde [x < a] ∩ [x = a] = ∅ por tanto, P (x ≤ a) = P (x < a) + P (x =
a), es decir, F (a) = P (x < a) + P (x = a). Ahora, anteriormente
demostramos que F (x) − F (x− ) = P (X = x) entonces usando este
resultado para P (X = a) se sigue que F (a) = P (x < a) + F (a) − F (a− )
de donde se obtiene P (x < a) = F (a− ).
3. Dado que [x ≤ b] = [x < a]∪[a ≤ x ≤ b] donde [x < a]∩[a ≤ x ≤ b] = ∅

entonces, P (x ≤ b) = P (x < a) + P (a ≤ x ≤ b) y por el inciso 2)
entonces se sigue que P (a ≤ x ≤ b) = F (b) − F (a− ).
4. Se tiene que [x < b] = [x ≤ a] ∪ [a < x < b] donde [x ≤ a] ∩ [a < x <

b] = ∅ entonces, P (x < b) = P (x ≤ a) + P (a < x < b) y nuevamente
por el inciso 2) se sigue que P (a < x < b) = F (b− ) − F (a).
5. Por último se tiene que [x < b] = [x < a] ∪ [a ≤ x < b] donde [x <

a] ∩ [a ≤ x < b] = ∅ entonces, P (x < b) = P (x < a) + P (a ≤ x < b) de
donde se obtiene que P (a ≤ x < b) = F (b− ) − F (a− ).
5.2. Esperanza Matemática o Valor Esperado

Introducimos ahora el concepto de valor esperado de una variable aleatoria.
Este concepto es de sumo interés dado que en muchas distribuciones que se
estudiaran en el siguiente capı́tulo, la esperanza o media de la v.a. X es el
parámetro o uno de los parámetros de la distribución. En otro contexto la
esperanza matemática también representa la media de la distribución, la cual
es una estadı́stica de gran utilidad cuando se estudia el comportamiento de
un determinado fenómeno medido a través de una v.a.
Definición 5.2.1. Sea X una v.a. con fda F (x). La esperanza matemática
de X, valor esperado de X, media de la v.a. X o simplemente esperanza de
5.2. ESPERANZA MATEMÁTICA O VALOR ESPERADO 143
X, denotada por E(X), se define como el número:

Z ∞
E(X) = x dF (x), (5.1)
−∞
cuando la integral es absolutamente convergente, es decir, cuando

Z ∞
|x| dF (x) < ∞,
−∞
en tal caso se dice que X es integrable, o que tiene esperanza finita.
Definición 5.2.2. Sea X una v.a. con función de distribución F (x).
1. Si X es discreta con función de probabilidad

X P (X = x) = f (x), su
esperanza, si existe, es decir cuando |xk |P (X = xk ) < ∞, se define
k
como X
E(X) = xk P (X = xk ). (5.2)
k
2. Si X es absolutamente continua con función

Z de densidad f (x), entonces
∞
su esperanza, si existe, es decir cuando |x|f (x) dx < ∞, se define
−∞
por Z ∞
E(X) = xf (x)dx. (5.3)
−∞
Ejemplo 5.2.1. Suponga que se lanza una moneda corriente dos veces y sea
X la v.a. que cuenta el número de caras obtenidas en los dos lanzamientos.
Entonces, RX = {0, 1, 2} y
2
X
E(X) = xP (X = x)
x=0
= 0 × P (X = 0) + 1 × P (X = 1) + 2 × P (X = 2)
1 1 1
=0× +1× +2×
2 2 4
=1
es decir, en promedio se espera una cara en los dos lanzamientos.

Ejemplo 5.2.2. Sea la v.a. indicadora

(
1 si x ∈ A
X = IA (x) =
0 si x ∈
/ A.
Entonces,
E(X) = 0 × P (x ∈
/ A) + 1 × P (x ∈ A) = P (x ∈ A) = P (A).
Ejemplo 5.2.3. Un experimento consiste en probar tubos de radio hasta

encontrar el primero defectuoso, suponga que la probabilidad de tubos defec-
tuosos es 34 .
1. Encuentre la función de probabilidad de la v.a. que mide el número

de tubos necesarios para finalizar el experimento, compruebe que dicha
función es una función de distribución.
2. Encuentre la función de distribución.
3. ¿ Cuál es la probabilidad de que el evento termine después de un número

par de experimentos?
4. Encuentre E[X].
Solución:
1. Sean D={salir tubo defectuoso} y B={salir tubo no defectuoso}, enton-

ces el experimento sigue el siguiente patrón:
D,BD,BBD,BBBD,BBBBD,. . ., ahora definamos de forma implı́cita la
v.a. X que mide el número de tubos necesarios para finalizar el experi-
mento:
D−→ 1
BD−→ 2
BBD−→ 3
BBBD−→ 4
BBBBD−→ 5
BBBBBD−→ 6
..
.
Luego P (X = 1) = 34 ; P (X = 2) = 43 ( 14 ); P (X = 3) = 43 ( 412 ); P (X =
4) = 34 ( 413 ); . . . ; P (X = n) = 34 ( 4n−1
1
); . . . y P (X = x) = 0 si x ∈
/ N.
Claramente P (X = x) ≥ 0 para todo x ∈ R y

∞ ∞ n−1
X X 3X 1 3 4
P (X = x) = P (X = n) = = = 1,
x∈R n=1
4 n=1 4 4 3
por tanto P (X = x) define una función de probabilidad con:
(
3 1 x−1

si x ∈ N
P (X = x) = 4 4
0 si x ∈
/ N.
2. Si x ∈ R y x < 1, P (X = x) = 0, ası́ F (x) = P (X ≤ x) = 0 para

x < 1, mientras que para x ≥ 1
k−1 bxc bxc
X 3 X 1 3 1 − 14 1
F (x) = P (X = x) = = 1 = 1− ,
4 4 4 1− 4 4
k∈N,k≤bxc k∈N,k≤bxc
donde bxc representa la función parte entera; por tanto:

(
1 − ( 14 )bxc si x ≥ 1
F (x) =
0 si x < 1.
3. Si n es un número natural par, entonces existe k ∈ N tal que n = 2k,

ası́, la probabilidad de que el experimento termine en un número par de
intentos es
P (X = n) = P (X = 2k)
∞ 2k−1
X 3 1 3 1 1 1
= = + + + ...
k=1
4 4 4 4 43 45

3 1 1 3 1 1
= 1 + 2 + 4 + ... = 1 = .
16 4 4 16 1 − 16 5
4. n−1
X 3X 1
E[X] = xP (X = x) = ,
x∈R
4 n∈N 4
si hacemos an = ( 14 )n−1 para n ∈ N, entonces

X
nan = a1 + 2a2 + 3a3 + 4a4 + . . .
n∈N
= (a1 + a2 + a3 + . . .) + (a2 + a3 + a4 + . . .)
+ (a3 + a4 + a5 + . . .) + . . .
3 3
( 14 )n−1 = 1, entonces
P P P
Ahora, 4
an = 4
an = a1 +a2 +a3 +. . . =
n∈N n∈N n∈N
4
an − a1 = 43 − 1, a3 + a4 + a5 + . . . =
P
3
, a2 + a3 + a4 + . . . =
n∈N
an − a1 − a2 = 34 − 1 − 41 , ..., luego
P
n∈N
n k−1 !
X 4 4 4 1 4 X 1
nan = + −1 + −1− + ... + − + ...
n∈N
3 3 3 4 3 k=1 4
entonces

3 4 1 1 1 1
E[X] = + + + + + ...
4 3 3 12 48 192

3 1 1 1 1
= 4 + 1 + + 2 + 3 + ...
4 3 4 4 4
!!
n−1
3 1 X 1
= 4+
4 3 n∈N
4

3 4 4
= +
4 3 9
3 16
=
4 9
4
= .
3
Ejemplo 5.2.4. Sea X una v.a. con valores en Z. Suponga que
k
x2
si x 6= 0
P (X = x) =
0 si x = 0
X k
donde k > 0 es una constante y = 1. Entonces, verificando la conver-
x
x2
gencia de la serie se tiene que
X X
|x|P (X = x) = |x|P (X = x)
x∈Z x∈Z−{0}
∞
X
=2 xP (X = x)
x=1
∞
X k
=2 x
x=1
x2
∞
X 1
= 2k
x=1
x
= ∞.
Esto es, E(X) no existe.
Ejemplo 5.2.5. Sea X con valores en el conjunto {1, 2, 3, ...} y con función
de probabilidad.
1
f (x) = P (X = x) = ; x = 1, 2, 3, ...
2x
Entonces,
∞ ∞
X X x
E(X) = xP (X = x) =
x=1 x=1
2x
1 2 3 4 5 6 7
= + + + + + + + ...
2 4 8 16 32 64 128
1 1 1 1 1 1 1 1 1 1 1
= + + + + + + ... + + + + + + ...
2 4 8 16 32 64 4 8 16 32 64

1 1 1 1
+ + + + + ... + · · ·
8 16 32 64

1 1 1 1 1 1 1 1 1 1
= 1+ + + + + ... + 1+ + + + + ...
2 2 4 8 16 4 2 4 8 16

1 1 1 1 1
+ 1+ + + + + ... + · · ·
8 2 4 8 16

1 1 1 1 1 1 1 1
= + + + + ... 1 + + + + + ...
2 4 8 16 2 4 8 16

1 1 1 1 1
= 1 + + + + ... ×
2 2 4 8 1 − 21
1 1 1
=
2 1 − 12 12
= 2.

2x si 0 < x < 1
f (x) =
0 caso contrario.
Entonces,
Z ∞ Z 0 Z 1 Z ∞
E(X) = xf (x) dx = xf (x) dx + xf (x) dx + xf (x) dx
−∞ −∞ 0 1
Z 1
= x(2x) dx
0
Z 1
=2 x2 dx
0
2
= x3 |10
3
2
= .
3

4x3 si 0 < x < 1
f (x) =
0 caso contrario.
entonces,
Z ∞ Z 0 Z 1 Z ∞
E(X) = xf (x) dx = xf (x) dx + xf (x) dx + xf (x) dx
−∞ −∞ 0 1
Z 1
= x(4x3 ) dx
0
Z 1
=4 x4 dx
0
4
= x5 |10
5
4
= .
5
Ejemplo 5.2.8. Sea X una v.a.c. con fdp dada por:
1

2x2
si 1 < x ó x < −1
f (x) =
0 caso contrario.
Entonces, verificando la convergencia de la serie tenemos que

Z ∞
1 −1 |x| 1 ∞ |x|
Z Z
|x|f (x) dx = dx + dx
−∞ 2 −∞ x2 2 1 x2
1 −1 1 1 ∞1
Z Z
=− dx + dx
2 −∞ x 2 1 x
1 1
= − ln |x||−1
−∞ + ln |x||∞
1
2 2
= ∞.
Es decir, E(X) no existe.

Otro caso de distribuciones cuya esperanza no existe es la distribución de
Cauchy, la cual estudiaremos en el siguiente capı́tulo.
Ejemplo 5.2.9. Sea X una v.a. con función de probabilidad
e−λ λx
si x = 0, 1, 2, ...
P (X = x) = x!
0 caso contrario.
Entonces,
∞ ∞
X e−λ λx X e−λ λx
E(X) = x = x
x=0
x! x=1
x!
∞
−λ
X λx
=e , hacemos j=x-1
x=1
(x − 1)!
∞
X λj+1
= e−λ
j=0
j!
∞
−λ
X λj
= λe
j=0
j!
−λ λ
= λe e
= λ.
Ejemplo 5.2.10. Sea X una v.a. con fdp

−λx
λe si x > 0
f (x) =
0 caso contrario.
Entonces,
Z ∞ Z ∞
−λx
E(X) = λxe dx = λ xe−λx dx
0 0
∞
1 ∞ −λx
Z
1 −λx
= λ − xe + e dx
λ 0 λ 0
Z ∞
= e−λx dx
0
1
= − e−λx |∞
0
λ
1
= .
λ
Ejemplo 5.2.11. Sea X una v.a. entonces, E[X] existe si y sólo si E[|X|]
existe.
Demostración. Note que, si E[X] existe, por la definición de esperanza E[|X|]
existe; y si E[|X|] existe, por el teorema de comparación para integrales
impropias E[X] existe; ası́ E[X] existe si y sólo si E[|X|] existe.
Teorema 5.2.1. Sea X una v.a., acotada, esto es, existe una constante real
a > 0 tal que P (|X| ≤ a) = 1, entonces E(X) existe.
Demostración. a) Si X es una v.a.d. que toma valores x1 , x2 , . . . , entonces,
como X es acotada, existe una constante real positiva, digamos a, tal
que {x1 , x2 , . . .} ⊂ [−a, a] por tanto, P (|X| > a) = 0. Luego,
X X
|xi |P (X = xi ) ≤ a P (X = xi ) = a < ∞.
i i
b) Sea X una v.a.c. con fdp f , como X es acotada, existe una constante
real positiva a, tal que para todo ∀x ∈ RX , x ∈ [−a, a]. Ası́, podemos
suponer f (x) = 0 ∀x ∈ / [−a, a], es decir, P (|X| > a) = 0. Luego,
Z ∞ Z −a Z a Z ∞
|x|f (x)dx = − xf (x)dx + |x|f (x)dx + xf (x)dx
−∞ −∞ −a a
Z a Z a
= |x|f (x)dx < a f (x)dx = a < ∞.
−a −a
Proposición 5.2.1. Sea X una v.a. con fda F, y tal que E(X) existe, en-
tonces
Z +∞ Z 0
E(X) = [1 − F (x)]dx − F (x)dx
0 −∞
Z +∞ Z 0
= P (X > x)dx − P (X < x)dx. (5.4)
0 −∞
Es decir,
R +∞la esperanza existe
R 0si y solamente si existen y sean finitas las inte-
grales 0 P (X > x)dx y −∞ P (X < x)dx.
Demostración. Dividiendo el intervalo de integración del valor esperado en
dos partes tenemos que
Z +∞ Z 0 Z +∞
E(X) = xdF (x) = xdF (x) + xdF (x).
−∞ −∞ 0
1. Como E(X) existe, entonces E[|X|] < ∞, entonces integrando por

partes tomando u = x → du = dx y dv = dF (x) → v = F (x) se tiene
que
Z +∞ Z b
xdF (x) = lı́m bF (b) − 0F (0) − lı́m F (x)dx
0 b→∞ b→∞ 0
Z b
= lı́m −b[1 − F (b)] + [1 − F (x)]dx .
b→∞ 0
Aplicando teorı́a de colas se demuestra que lı́mb→∞ b[1 − F (b)] = 0, por

tanto,
Z +∞ Z b
xdF (x) = lı́m [1 − F (x)]dx
0 b→∞ 0
Z +∞ Z +∞
= [1 − F (x)]dx = P (X > x)dx.
0 0
2. En forma similar a 1. se tiene que

Z 0 Z 0
xdF (x) = lı́m b[1 − F (b)] − F (x)dx
−∞ b→∞ −b
Z 0 Z 0
=− F (x)dx = − P (X ≤ x)dx.
−∞ −∞
3. De los incisos 1. y 2. se sigue el resultado.
Corolario 5.2.1. Sea X una v.a. no negativa con fda F, y tal que E(X)
existe, entonces
Z +∞ Z +∞
E(X) = [1 − F (x)]dx = P (X > x)dx. (5.5)
0 0
Demostración. Sigue inmediatamente del Teorema anterior, dado que
P (X < x) = 0, ∀x < 0.
Observación 5.2.1. Si X es una v.a.d., entonces se puede usar el resultado

del anterior corolario para deducir la esperanza de X, dado que [0, ∞) =
∪k [k, k + 1) con Rk ∈ N ∪ {0} y donde [k, k + 1) ∩ [k 0 ,Rk + 1) entonces la
+∞ +∞
integral anterior 0 [1 − F (x)]dx se deja escribir como 0 [1 − F (x)]dx =
P∞ R k+1
k=0 k [1−F (x)]dx. Ası́ la integrales dentro de la sumatoria corresponden
a áreas de rectángulos continuos, a partir de lo cual finalmente se obtiene que:
∞
X ∞
X
E(X) = [1 − F (k)] = P (X > k). (5.6)
k=0 k=0
Ejemplo 5.2.12. Sea X una v.a.d. con función de probabilidad
f (x) = p(1 − p)x , x = 0, 1, 2, 3, ...(distribución geométrica).
Entonces, la función de distribución de X es:

1. Para x < 0, F (x) = 0.
2. Para k ≤ x < k + 1 con k ∈ N ,

k (k+1)−1
X X
x
F (k) = P (X ≤ k) = p(1 − p) = p (1 − p)x
x=0 x=0
k+1
1 − (1 − p)
=p = 1 − (1 − p)k+1 .
1 − (1 − p)
Luego como la v.a. X es no negativa se sigue que

∞
X ∞
X
E(X) = [1 − F (k)] = [1 − (1 − (1 − p)k+1 )]
k=0 k=0
∞
X ∞
X
k+1
= (1 − p) = (1 − p) (1 − p)k
k=0 k=0
1 1−p
= (1 − p) = .
1 − (1 − p) p
λe−λx

si x > 0
f (x) =
0 caso contrario
Entonces,

0 si x ≤ 0
F (x) = −λx
1−e si x > 0
Luego, como X es no negativa,

Z +∞ Z +∞
E(X) = [1 − F (x)]dx = [1 − (1 − e−λx )]dx
Z0 +∞ 0
1 1
= e−λx dx = − e−λx |∞
0 = .
0 λ λ
Proposición 5.2.2. Sea X una v.a. real y suponga que E(X) existe.
1. Si P (X ≥ 0) = 1 (X es no negativa), entonces E(X) ≥ 0.
2. E(aX + b) = aE(X) + b para a y b constantes reales.
Demostración. 1. Analicemos los casos para variables discretas y conti-

nuas. Entonces:
Suponga que X es una v.a.d. que toma valores x1 , x2 , . . . , no ne-

gativos entonces, como P (X < 0) = 1 − P (X ≥ 0) = 1 − 1 = 0,
se tiene P (X = xj ) = 0 para todo xj < 0. Por tanto

X
E(X) = xk P (X = xk )
k
X X
= xk P (X = xk ) + xk P (X = xk )
k:xk <0 k:xk ≥0
X
= xk P (X = xn ) ≥ 0.
k:xk ≥0
Note que este resultado se puede obtener directamente del hecho

que como la v.a.d. X es no negativa, entonces
∞
X
E(X) = P (X > k) ≥ 0.
k=0
Si X es una v.a.c. no negativas, entonces sigue directamente del

corolario anterior que,
Z +∞ Z +∞
E(X) = xdF (x) = P (X > 0)dx ≥ 0.
0 0
2. Sea X una v.a.d. con valores valores x1 , x2 , . . . , entonces

X X
|axk + b|P (X = xk ) ≤ (|a||xk | + |b|) P (X = xk )
k k
X X
= |a| |xk |P (X = xk ) + |b| P (X = xk )
k k
X
= |a| |xk |P (X = xk ) + |b| < ∞,
k
dado que E(X) existe. Luego, en forma similar se sigue que

X
E(aX + b) = (axk + b)P (X = xk )
k
X X
=a xk P (X = xk ) + b P (X = xk )
k k
X
=a xk P (X = xk ) + b = aE(X) + b.
k
El caso continuo se deja como ejercicio a los lectores.
Observación 5.2.2. Tomando a = 0 en el inciso 2) de la proposición ante-

rior se desprende que el valor esperado de una constante es la misma cons-
tante, es decir, E(b) = para b una constante real.
El resultado 2) de la anterior proposición puede extenderse a casos más ge-

nerales dado que si X es una variable aleatoria, entonces se sigue que para
una función g cualquiera g(X) también es una v.a.
Definición 5.2.3. Sea X una v.a. El número E[|X|r ] se denomina momen-

to absoluto de orden r. El número E[X n ], momento de orden n. Es común
denotar E[X n ] por µ0n es decir,
µ0n = E[X n ].
0
Teorema 5.2.2. Sı́ E[|X|r ] < ∞, r ≥ 1, entonces E[|X|r ] < ∞, con 1 ≤
r0 ≤ r.
0
Demostración. ∀x ∈ R, si 1 ≤ r0 ≤ r entonces |x|r < 1 + |x|r y por tanto,
Z ∞ Z ∞
r0
|x| f (x) dx ≤ [1 + |x|r ]f (x) dx
−∞ −∞
Z ∞
≤1+ |x|r f (x) dx < ∞.
−∞
Definición 5.2.4. Para una v.a. X, el número E[(X − E(X))n ], suponiendo

que la esperanza existe, se denomina n-ésimo momento central de X. Es
común denotarlo por:
µn = E[(X − E(X))n ].
Teorema 5.2.3. Para una v.a. X, cuyo valor esperado existe, si µn existe,
entonces
n
X n 0
µn = µk (−µ01 )n−k .
k=0
k
Demostración.
" n
#
X n
µn = E[(X − µ01 )n ] =E X k (−µ01 )n−k
k=0
k
n
X n
= E(X k )(−µ01 )n−k
k=0
k
n
X n 0
= µk (−µ01 )n−k
k=0
k
Definición 5.2.5. Sea X una v.a. real con función de distribución asociada
F. Sea g : R → R una función medible borel tal que g(X) es una variable
aleatoria. Entonces, el valor esperado de g(X) viene definido por:
P
g(xk )P (X = xk ) si X es una v.a.d.
E(g(X)) = R ∞k
−∞
g(x)f (x) dx si X es una v.a.c.,
P R∞
si k |g(xk )|P (X = xk ) < ∞ para el caso discreto y −∞ |g(x)|f (x) dx < ∞
para el caso continuo.
Observación 5.2.3. Por Teorema anteriormente demostrado, si X es una
v.a. y g es una función real continua, entonces g◦X definida por (g◦X)(ω) =
g(X(ω)) = g(x), para todo ω ∈ Ω, /x = X(ω), también es una variable alea-
toria. Entonces, es suficiente que la función g mencionada en la definición
anterior sea continua para que g(X) sea una variable aleatoria, dndo sentido
al cálculo de la esperanza de g(X).
Teorema 5.2.4. 1. Si g1 (x) ≥ 0, ∀x entonces, entonces E[g1 (X)] ≥ 0.
2. Sea X una v.a. y sean gi para i = 1, 2, ..., n funciones tales que gi (X)
son variables aleatorias, cuyos valores esperados
Pn existen. Entonces, para
constantes reales αi el valor esperado de E ( i=1 αi gi (X)) existe y
n
! n
X X
E αi gi (X) = αi E(gi (X)).
i=1 i=1
3. Si g1 y g2 son funciones tales que g1 (X) y g2 (X) son variables aleatorias

cuyos valores esperados existen y si g1 (x) ≤ g2 (x) para todo x, entonces
E(g1 (X)) ≤ E(g2 (X)).
Demostración. 1. Si g1 (x) ≥ 0 ∀x, entonces como ∀x, f (x) ≥ 0 se sigue

que
Z ∞
g1 (x)f (x) ≥ 0 ∀x, por tanto, E[g1 (X)] = g1 (x)f (x) dx ≥ 0.
−∞
2. Sea X una v.a.c. con fdp f tal que gi (X) es unaR ∞v.a. para i = 1, 2, ..., n
con esperanza finita, entonces se sigue que −∞ |gi (x)|f (x)dx < ∞.
Luego,
Z ∞ Xn

Z ∞ "Xn
#
αi gi (X) f (x) dx ≤ |αi gi (x)| f (x) dx

−∞ i=1 −∞ i=1
Xn Z ∞
= |αi ||gi (x)|f (x) dx
i=1 −∞
Xn Z ∞
= |αi | |gi (x)|f (x) dx
i=1 −∞
n
X
= |αi |E[|gi (X)|]
i=1
< ∞.
Esto es, E [ ni=1 αi gi (X)] existe, y

P
" n
# " n
#
X Z ∞ X
E αi gi (X) = αi gi (X) f (x) dx
i=1 −∞ i=1
Z n
∞ X
= [αi gi (X)f (x)] dx
−∞ i=1
n
XZ ∞
= [αi gi (x)f (x)] dx
i=1 −∞
Xn Z ∞
= αi gi (x)f (x) dx
i=1 −∞
Xn
= αi E[gi (X)].
i=1
3. Sea X una v.a.c. con fdp f y suponga que ∀x g1 (x) ≤ g2 (x), entonces,
como ∀x, f (x) ≥ 0 se sigue que g1 (x)f (x) ≤ g2 (x)f (x). Por tanto,
Z ∞ Z ∞
E[g1 (X)] = g1 (x)f (x) dx ≤ g2 (x)f (x) dx ≤ E[g2 (X)].
−∞ −∞
Corolario 5.2.2. Sea X una v.a. y g una función tal que g(X) es una
variable real. Suponga que existen constantes reales tal que ∀x, a ≤ g(x) ≤ b,
entonces a ≤ E[g(X)] ≤ b. En general, si para funciones g1 , g2 , g3 tal que ∀x,
g1 (x) ≤ g2 (x) ≤ g3 (x), se sigue que E[g1 (X)] ≤ E[g2 (X)] ≤ E[g3 (X)].
5.2.1. Medidas caracterizantes de una distribución

En el estudio de la probabilidad, existen varias medidas que caracterizan a
una variable aleatoria X y otras que ayudan a describir el comportamiento de
la v.a. Estas medidas se pueden describir a partir de la la esperanza E[g(X)],
para ciertas formas de la función g : R → R.
Definición 5.2.6. Sea X una v.a. y g : R → R una función real tal que
g(X) es una v.a.
1. Si g(X) = (X − m)n para una constante m y n = 0, 1, 2, 3... entonces
E[g(X)] = E [(X − m)n ] es el momento general de orden n. Si m = 0 se
obtiene µ0n . Si m = E(X) se obtiene µn . Del momento central respecto a
la media se definen varios estadı́sticos de gran importancia en el estudio
de las caracterı́sticas de una v.a., entre estas se tienen:
a) El segundo momento central de X, alrededor de la media o E(X),
se denomina varianza de la v.a. X la cual usualmente es denotada
2
por V (X), V ar(X) ó σX . Ası́,
2
= E (X − E(X))2 .

V (X) = V ar(X) = σX
b) La raı́z cuadrada de la varianza, denotada por σX espconocida

2
como la desviación estándar de la v.a. Es decir, σX = σX .
c) Se define el coeficiente de variación de X por
σX
CV (X) = , E(X) 6= 0.
E(X)
d) El coeficiente de asimetrı́a se define por:
E [(X − E(X))3 ] E [(X − E(X))3 ]

β1 = = 3
.
[E [(X − E(X))2 ]]3/2 σX
e) El coeficiente de curtosis se define por:
E [(X − E(X))4 ] E [(X − E(X))4 ]

β2 = = .
[E [(X − E(X))2 ]]2 4
σX
2. Si g(X) = X(X −1)(X −2)(X −3)...(X −k +1) para k ∈ Z + , entonces

se obtiene el momento factorial de orden k definido por
γk = E[g(X)] = E[X(X − 1)(X − 2)(X − 3)...(X − k + 1)].
3. Si g(X) = sX , con |s| < 1, entonces H(s) = E[g(X)] = E[sX ] es

llamada función generatriz de probabilidades (f.g.p) de la v.a. X..
4. Si g(X) = etX , con t ∈ R, entonces MX (t) = E[g(X)] = E[etX ] es

llamada función generatriz de momentos (f.g.m.) de la v.a. X.
√
5. Si g(X) = eitX , con i = −1 la unidad imaginaria y t ∈ R, entonces
∅X (t) = E[g(X)] = E[eitX ] es llamada función caracterı́stica (f.c.) de
la v.a. X.
Teorema 5.2.5. Sea X una v.a cuyo valor esperado existe. Entonces,
V (X) = E(X 2 ) − E 2 (X).
Demostración.
V (X) = E[(X − E(X))2 ] = E[X 2 − 2XE(X) + E 2 (X)]

= E(X 2 ) − 2E(X)E(X) + E 2 (X)
= E(X 2 ) − 2E 2 (X) + E 2 (X)
= E(X 2 ) − E 2 (X).
Teorema 5.2.6. Sea X una v.a. cuyo valor esperado existe y a, b ∈ R cons-
tantes. Entonces
1. V (X) ≥ 0.
2. V (a) = 0.
3. V (aX) = a2 V (X).
4. V (X + b) = V (X).
5. V (X) = 0 si y sólo si P (X = E(X)) = 1.
Demostración. 1. Se obtiene directamente del hecho que:

g(X) = (X − E(X))2 ≥ 0, aplicando el Teorema (5.2.4-(1)).
2. V (a) = E[(a − E(a))2 ] = E[(a − a)2 ] = E(0)2 = E(0) = 0.
3.
V (aX) = E[aX − E(aX)]2 = E[aX − aE(X)]2

= a2 E[(X − E(X))2 ] = a2 V (X).
4.
V (X + b) = E[(X + b) − E(X + b)]2 = E[X + b − E(X) − b]2

= E[X − E(X)] = V (X).
5. Si X = E(X), por (1), es claro que V (X) = 0 pues E[X − E(X)]2 =

E[X − X] = E(0) = 0.
La prueba del reciproco se deja como ejercicio.
Definición 5.2.7. Sean X una v.a. y g una función real continua, de tal for-
ma que Y = g(X) es una variable aleatoria. Entonces el n-énesimo momento
de la transformación g(X) es
P n
n y P (Y = y) si Y es una v.a.d.
E(Y ) = R ∞y n
−∞
y fY (y) dy si Y es una v.a.c.,
P R∞
si y |y|P (Y = y) < ∞ para el caso discreto y −∞ |y|fY (y) dy < ∞ para el
caso continuo.
Observación 5.2.4. La varianza de la v.a. Y = g(X) viene dada por
V ar(Y ) = E(Y 2 ) − E 2 (Y ).
Teorema 5.2.7. Sea X una v.a. con media µ y varianza σ 2 . Suponga que
H es una función dos veces diferenciable en X = µ y que Y = H(X) es una
v.a. tal que E(Y ) y E(Y 2 ) existen. Las siguientes son aproximaciones para
E(Y ) y V ar(Y ).
Demostración. Notemos la siguiente definición:
Si una función g(x) tiene derivada de orden r, g (r) (x) = dg(x)

dxr
existe, entonces
para alguna constante a el polinomio de Taylor de orden r es:
r
X g (k) (a)
Tr (x) = (x − a)k .
k=0
k!
Ahora, como H es una función dos veces diferenciable en X = µ, entonces

aplicando el polinomio de Taylor en a = µ se tiene que la aproximación de
segundo orden alrededor de a = µ es:
H 00 (µ)
Y = H(X) ≈ H(µ) + H 0 (µ)(X − µ) + (X − µ)2 .
2!
Luego,
H 00 (µ)
E(Y ) ≈ E[H(µ) + H 0 (µ)(X − µ) + (X − µ)2 ]
2!
H 00 (µ)
≈ E[H(µ)] + E[H 0 (µ)(X − µ)] + E[ (X − µ)2 ]
2!
0 H 00 (µ)
≈ H(µ) + H (µ)E(X − µ) + E(X − µ)2 .
2!
Ahora, E(X − µ) = E(X) − µ = 0 ası́,
H 00 (µ)
E(Y ) ≈ H(µ) + H 0 (µ) E(X − µ) + E(X − µ)2
| {z } 2! | {z }
0 σ2
00
H (µ) 2
≈ H(µ) + σ .
2!
Ahora, para la varianza se tiene que la aproximación de primer orden alre-

dedor de a = µ es:
Y ≈ H(µ) + H 0 (µ)(X − µ).
Elevando al cuadrado se tiene que:
Y 2 ≈ (H(µ) + H 0 (µ)(X − µ))2

≈ H 2 (µ) + 2H(µ)H 0 (µ)(X − µ) + (H 0 (µ))2 (X − µ)2 .
Ası́,
E(Y 2 ) ≈ E[H 2 (µ) + 2H(µ)H 0 (µ)(X − µ) + (H 0 (µ))2 (X − µ)2 ]

≈ E[H 2 (µ)] + E[2H(µ)H 0 (µ)(X − µ)] + E[(H 0 (µ))2 (X − µ)2 ]
≈ H 2 (µ) + 2H(µ)H 0 (µ) E(X − µ) +(H 0 (µ))2 E(X − µ)2 .
| {z } | {z }
0 σ2
Entonces,
E(Y 2 ) ≈ H 2 (µ) + (H 0 (µ))2 σ 2 .
Luego,
V ar(Y ) = E(Y 2 ) − E 2 (Y ) y E(Y ) ≈ E(H(µ)) + H 0 (µ) E(X − µ) ≈ H(µ).
| {z }
0
Por tanto,
V ar(Y ) ≈ H 2 (µ) + (H 0 (µ))2 σ 2 − H 2 (µ)

≈ (H 0 (µ))2 σ 2 .
Ejemplo 5.2.14. Haciendo uso del teorema anterior, calcular de manera

aproximada el valor esperado y la varianza de la variable aleatoria
Y = 2(1 − 0,005x)1,2 ,
donde X es una variable aleatoria cuya función de densidad está dada por:
fX (x) = 3000x−4 I[10,∞] (x)

Solución: Hallemos en primer lugar µ y σ 2 usando fX (x) = 3000x−4 I[10,∞] (x)

Z ∞ Z ∞
−4
µ = E(X) = (x)3000x dx = 3000 x−3 dx
10 10
∞
3000 −2 3000
=− x = (10)−2 = 15.
2 10 2
Ahora,
Z ∞ Z ∞
−4
2
E(X ) = 2
(x )3000x dx = 3000 x−2 dx
10 10
∞ 3000
−3000x−1 10

= = = 300.
10
→ σ 2 = V ar(X) = E(X 2 ) − E 2 (X) = 300 − (15)2 = 75.

Dada y = 2(1 − 0,005x)1,2 = H(x), hallemos H 0 (x), H 00 (x), H 0 (µ) y H 00 (µ).
Entonces,
H(x) = 2(1 − 0,005x)1,2 entonces,

H 0 (x) = (2)(1,2)(1 − 0,005x)1,2−1 = −0,012(1 − 0,005x)0,2 .
Ası́,
H 0 (µ) = H 0 (15) = −0,012(1 − 0,005(15))0,2 ≈ −0,0118.
Entonces,
H 00 (x) = (−0,012)(0,2)(1 − 0,005x)0,2−1 (−0,005)
= 1,2 · 10−5 (1 − 0,005x)−0,8 .
Ası́,
H 00 (µ) = H 00 (15) = 1,2 · 10−5 (1 − 0,005(15))−0,8 ≈ 1,2772 · 10−5 .
Luego,
H 00 (µ) 2
E(Y ) ≈ H(µ) + σ
2
H 00 (15)
≈ H(15) + (75)
2
1,2772 · 10−5
≈ 1,8214 + (75)
2
≈ 1,821879.
Finalmente,
V ar(Y ) ≈ (H 0 (µ))2 σ 2
≈ (−0,0118)2 (75)
≈ 0,010443.
Definición 5.2.8. (Función Generadora de Momentos (fgm))
Sea X una v.a tal que E(etX ) < ∞ para todo t ∈ (−α, α), con α > 0. Se
define la función generadora de momentos de X, (fgm), denotada por MX (·),
como
MX (t) = E[etX ], con t ∈ (−α, α).
Esto es,
 X


 etxk P (X = xk ) si X es una v.a.d. con valores x1 , x2 , ...
MX (t) = Zk ∞


 etx f (x) dx si X es una v.a.c. con fdp f.
−∞
Ejemplo 5.2.15. Sea X una v.a.d. con función de probabilidad

−λ λx
e x! si x = 0, 1, 2, ...
f (x) = P (X = x) =
0 caso contrario
Entonces,
∞
X λ xk
MX (t) = etxk e−λ
k=0
xk !
∞
−λ
X (λet )xk
=e
k=0
xk !
−λ λet
=e e
−λ+λet
=e
t
= eλ(e −1) .
Ejemplo 5.2.16. Tomemos ahora la función de probabilidad de una v.a.
binomial con parámetro p, 0 < p < 1, dada por:
n x
x
p (1 − p)n−x si x = 0, 1, 2, ...n
f (x) = P (X = x) =
0 caso contrario.
Entonces,
n
X n x tx
MX (t) = e p (1 − p)n−x
x=0
x
n
X n
= (pet )x (1 − p)n−x
x=0
x
= (pet + (1 − p))n
= (pet + q) donde q = 1 − p.

−λx
λe si x > 0
f (x) =
0 caso contrario.
Entonces,
Z ∞ Z ∞
−λx
MX (t) = tx
e λe dx = λ e−(λ−t)x dx
0 0
λ −(λ−t)x ∞
=− e |0 , para t < λ
λ−t
−1
λ 1 t
= = = 1− .
λ−t 1 − λt λ
Teorema 5.2.8. Suponga que la función generadora de momentos de X

existe para |t| < t0 , t > 0. Entonces, E(X n ) existe para n = 1, 2, ... y se tiene
que
(n) ∂ n MX (t)
E(X n ) = MX (t) |t=0 = |t=0
∂tn
Demostración. Por expansión en serie de Taylor se tiene que:
(tX)2 (tX)3 (tX)n

etX = 1 + tX + + + ··· + + ···
2! 3! n!
Entonces, aplicando esperanza obtenemos
E[etX ] = MX (t)
E(X 2 ) E(X 3 ) E(X n )
= 1 + tE(X) + t2 + t3 + · · · + tn + ···
2! 3! n!
el cual es un polinomio en t, luego, derivando con respecto a t se obtiene

∂MX (t) E(X 2 ) E(X 3 ) E(X n )
= E(X) + 2t + 3t2 + · · · + ntn−1 + ···
∂t 2! 3! n!
y tomando t = 0 se llega a
∂MX (t)
|t=0 = E(X).
∂t
Ahora, la segunda derivada con respecto a t es
∂ 2 MX (t) 2 6 n(n − 1) n−2
2
= E(X 2 ) + tE(X 3 ) + · · · + t E(X n ) + · · ·
∂t 2! 3! n!
entonces,
∂ 2 MX (t)
|t=0 = E(X 2 ).
∂t2
Siguiendo sucesivamente este procedimiento, se obtiene que la n−énesima
derivada con respecto a t es
∂ n MX (t) n(n − 1)(n − 2) · · · 2,1 (n + 1)n(n − 1) · · · 2 2
n
= E(X n ) + t E(X n+1 )+
∂t n! (n + 1)!
(n + 2)(n + 1)n(n − 1) · · · 3 2
··· + t E(X n+2 ) + · · ·
(n + 2)!
Y tomando t = 0, resulta
∂ n MX (t)
|t=0 = E(X n ).
∂tn
Ejemplo 5.2.18. Para la distribución

−λ λx
e x! si x = 0, 1, 2, ...
f (x) = P (X = x) =
0 caso contrario
Para λ > 0, se tiene
∞ ∞ ∞
X e−λ λx X −λ (λet )x X (λet )x
MX (t) = etx = e = e−λ
x=0
x! x=0
x! x=0
x!
−λ λet t
=e e = eλ(e −1) ,
entonces,
∂MX (t) t t
= eλ(e −1) λet = λeλ(e −1)+t .
∂t
Ası́,
∂MX (t) 0
→ E(X) = |t=0 = λeλ(e −1)+0 = λe0 = λ.
∂t
Ahora,
∂ 2 MX (t) t
2
| = λeλ(e −1)+t (λet + 1).
∂t
Entonces,
∂ 2 MX (t) 0
E(X 2 ) = 2
|t=0 = λeλ(e −1)+0 (λe0 + 1) = λ(λ + 1) = λ2 + λ
∂t
y ası́,
V ar(X) = E(X 2 ) − E 2 (X) = λ2 + λ − λ2 = λ.
Teorema 5.2.9. Sean X y Y v.a cuyas funciones generadoras de momentos

existen. Si
MX (t) = MY (t), para todo t.
Entonces X y Y tienen la misma distribución
La demostración del anterior Teorema se encuentra fuera del alcance de este

libro, ası́ que en lo que sigue nos conformaremos con tomar este resultado
como cierto.
Definición 5.2.9. Sea X una v.a., la función caracterı́stica de X es la fun-

ción ∅X : R → C definida por:
∅X (t) := E[eitX ] = E[cos(tX)] + iE[sen(tX)],

√
donde i = −1 es la unidad imaginaria.
Ejemplo 5.2.19. Para X con función de probabilidad

x
e−λ λx!

si λ > 0, x = 0, 1, 2, ...
f (x) =
0 caso contrario.
Entonces,
∞
X λx
∅X (t) = E[e itX
]= eitx e−λ
x=0
x!
∞
X (λeit )x
= e−λ
x=0
x!
−λ λeit
=e e
it −1)
= eλ(e .

−λx
λe si x > 0
f (x) =
0 caso contrario.
Entonces,
Z ∞ Z ∞
−λx
∅X (t) = itx
e λe dx = λ e−(λ−it)x dx
0 0
λ λ
=− e−(λ−it)x |∞
0 =
λ − it λ − it
−1
1 it
= it = 1− .
1− λ λ
Teorema 5.2.10. Sea X una v.a. real, entonces ∅X (t) existe para todo t ∈ R.
Demostración. Debemos demostrar que ∅X (t) = E[eitX ] < ∞. Entonces,
Z Z p
itx
||e ||f (x) dx = cos2 (tX) + sen2 (tx)f (x) dx
R ZR
= (1)f (x) dx
R
= 1 < ∞.
Observación 5.2.5. Note que ∅X (t) = E[eitX ] = E[e(it)X ] = MX (it) con la

diferencia que ∅X (t) siempre existe.
Teorema 5.2.11. Sea X una v.a., entonces
1. ∅X (0) = 1.
2. |∅X (t)| ≤ 1 para todo t.
3. para a y b constantes ∅aX+b (t) = eitb ∅X (at).
4. ∅X (t) genera momentos, esto es,
∂ n ∅X (t)
|t=0 = in E(X n ); n = 1, 2, ... si E[|X|n ] < ∞.
∂tn
5. ∅X (t) es uniformemente continua.
6. ∅X (t) es definida positiva.
Demostración. 1. ∅X (0) = E(eitX )|t=0 = E(ei0X ) = E(1) = 1.
2.
|∅X (t)| = |E(cos(tX)) + isen(tX)|
≤ E|cos(tX)) + isen(tX| (∗)
p
=E cos2 (tX) + sen2 (tX)
√
=E 1
= E (1)
= 1.
En el paso (*) se uso la desigualdad de Jensen (g(E(X)) ≤ E(g(X))).
3.
∅aX+b (t) = E(eit(aX+b) ) = E(eiatX+ibt )
= eibt E(ei(at)X )
= eibt ∅X (at).
4. Como E[|X|n ] < ∞ y n es finito, entonces se puede invertir derivada y

esperanza. Luego,
∂ n ∅X (t) ∂n
n
itX ∂ itX
= n E(e ) = E e = E(in X n eitX ),
∂tn ∂t ∂tn
∂ n ∅X (t)
→ |t=0 = E(in X n ) = in E(X n ).
∂tn
5. Para verificar que ∅X (x) es uniformemente continua, observe que:

|∅X (t + h) − ∅X (t)| = |E(ei(t+h)X − eitX )|
≤ E(|ei(t+h)X − eitX |)
≤ E(|eitX (eihX − 1)|)
= E(|eitX ||eihX − 1|)
≤ E(|eihX − 1|), puesto que |eitX | ≤ 1.
Entonces,
lı́m |∅X (t + h) − ∅X (t)| ≤ lı́m E(|eihX − 1|)
h→0 h→0
h i
= E lı́m |eihX − 1| = 0
h→0
Ası́, lı́m ∅X (h + t) = ∅X (t) y como la desigualdad de arriba no depen-

h→0
de de t, entonces la continuidad es uniforme.
6. Sea n ∈ N, entonces
n X
X n n X
X n
∅X (tj − tk )zj z k = E(eiX(tj −tk ) )zj z k
j=1 k=1 j=1 k=1
Xn X n
= E(zj eitj X z k e−itk X )
j=1 k=1
n X
n
!
X
=E zj eitj X zk eitk X
j=1 k=1
n n
!
X X
=E zj eitj X zk eitk X
j=1 k=1
 2 
Xn
= E  zj eitj X  ≥ 0.

j=1
Por lo tanto, ∅X es definida positiva.
Teorema 5.2.12. Si X y Y son variables aleatorias reales y ∅X (t) = ∅Y (t)

para todo t, entonces X y Y tienen la misma distribución.
Capı́tulo 6
Distribuciones de Probabilidad
Estudiamos ahora algunas de las distribuciones de probabilidad más comunes

en la teorı́a estadı́stica clásica.
6.1. Distribuciones Para Variables Discretas

6.1.1. Distribución Degenerada
Definición 6.1.1. Una variable aleatoria real X se dice degenerada si toda
su masa de probabilidad está concentrada en un punto k ∈ R, es decir, si
P (X = k) = 1, casi siempre. Para esta variable aleatoria usamos la notación
X ∼ Dg (k).
Teorema 6.1.1. Si X ∼ Dg (k), entonces
1) E(X) = k.
2) V (X) = 0.
Demostración. Es inmediata a partir de la definición.
6.1.2. Distribución Uniforme Discreta

Definición 6.1.2. Una v.a. real sigue un modelo Uniforme Discreto, con
valores x1 , x2 , . . . , xk , si tiene función de probabilidad dada por:
1
f (xi ) = P (X = xi ) = para i = 1, 2, 3, ..., k.
k
173
174 CAPÍTULO 6. DISTRIBUCIONES DE PROBABILIDAD
Si una v.a. X sigue la distribución uniforme discreta, de parámetro k, usa-

remos la notación X ∼ Ud (E) con E siendo el conjunto de sus valores.
El modelo Uniforme Discreto representa situaciones en que todos los posibles

valores de la variable son equiprobables, cabe resaltar que el número de valo-
res debe ser finito. La función de distribución de una v.a. uniforme discreta es
una función escalera y los puntos de discontinuidad son los valores asumidos
por la variable.
Ejemplo 6.1.1. Al lanzar un dado equilibrado, tenemos que E = {1, 2, . . . , 6}

y
1
P (x) = para x = 1, 2, . . . , 6.
6
Gráficamente esta función es representada por la figura siguiente

0.15
0.10
probabilidad
0.05
0.00
0 1 2 3 4 5 6 7
Figura 6.1: Gráfico función de probabilidad uniforme discreta.

6.1. DISTRIBUCIONES PARA VARIABLES DISCRETAS 175
Ası́ mismo, la fda es dada por



 0 si x<1
1
si 1 ≤ x < 2



 6
2
 6 si 2 ≤ x < 3


3
F (x) = 6
si 3 ≤ x < 4
4
si 4 ≤ x < 5



 6
5
 6 si 5 ≤ x < 6



1 si x≥6

Teorema 6.1.2. Si X ∼ Ud (E) de parámetro N , entonces

N +1
1) E(X) = 2
.
N 2 −1
2) V (X) = 12
.
N
X 1 tk
3) MX (t) = e .
k=1
N
Demostración. 1)
N N N
X 1
X 1 X
E(X) = kP (X = k) = k = k
k=1 k=1
N N k=1
1 N (N + 1) N +1
= = .
N 2 2
2)
N
2 1 X 2 1 N (N + 1)(2N + 1) (N + 1)(2N + 1)
E(X ) = k = = .
N k=1 N 6 6
Entonces,
2 (N + 1)(2N + 1) (N + 1)2
2
V (X) = E(X ) − E (X) = −
6 4
N + 1 2N + 1 N + 1 N + 1 4N + 2 − 3N − 3
= − =
2 3 2 2 6
2

N +1 N −1 N −1
= = .
2 6 12
3)
N
tk
X 1 tk
MX (t) = E(e ) = e .
k=1
N
6.1.3. Distribución dicotómica

Definición 6.1.3. Una v.a. X sigue el modelo dicotómico, si su función de
probabilidad o cuantı́a, viene dada por:

 p si x = a
f (x) = P (X = x) = 1 − p si x = b
0 caso contrario

Si una v.a. sigue el modelo dicotómico, se notará X ∼ Dc (p, a, b).
Teorema 6.1.3. Si X ∼ Dc (p, a, b), entonces
1) E(X) = ap + b(1 − p).
2) V (X) = p(1 − p)(b − a)2 .
3) MX (t) = peat + (1 − p)ebt .
Un caso especial del modelo dicotómico es la distribución de bernoulli, la cual

se ha utilizado en múltiples procesos estadı́sticos de modelos de muestreo de
poblaciones.
Distribución de bernoulli
Un experimento se dice ser un ensayo de bernoulli si solo existen dos resul-
tados posible en el experimento, digamos A y Ac , con probabilidades p y
1 − p, respectivamente. Estos sucesos son complementarios ya que la suma
de sus probabilidades siempre es igual a la unidad, además estos son mutua-
mente excluyentes. El suceso de mayor interés se distingue como el suceso
principal de manera que si ocurre, se dice que se presento un ”éxito”, el cual
ocurre con probabilidad p. El otro suceso será secundario y su ocurrencia
será trivialmente denominada un ”fracaso”, el cual ocurre con probabilidad
1 − p.
Ejemplo 6.1.2. Sexo de un niño en el vientre de la madre: masculino

o femenino.
Un estudiante presenta un examen final. Posibles resultados: aprobar o

reprobar.
Lanzamiento de una moneda normal. Resultados posibles: cara o sello.
Se selecciona un objeto de una linea de producción. Resultados posibles:

Defectuoso o no defectuoso.
Definición 6.1.4. Una v.a. X sigue la distribución Bernoulli de paráme-

tro p, si asume únicamente los valores 0 y 1. Su función de densidad de
probabilidad es dada por
f (x) = P (X = x) = px (1 − p)1−x x = 0, 1.
Comúnmente la ocurrencia X = 1 es llamada éxito y fracaso a X = 0. Esta

distribución es denotada por X ∼ Ber(p).
Teorema 6.1.4. Si X ∼ Ber(p), entonces
1) E(X) = p.
2) V (X) = p(1 − p).
3) MX (t) = pet + (1 − p).
Demostración. 1)
1
X
E(X) = xP (X = x) = 0 · P (X = 0) + 1 · P (X = 1) = p.
x=0
2)
1
X
2
E(X ) = x2 P (X = x) = 02 · P (X = 0) + 12 · P (X = 1) = p.
x=0
Entonces,
V (X) = E(X 2 ) − E 2 (X) = p − p2 = p(1 − p).

3)
1
X 1
X
tx x 1−x
MX (t) = e p (1 − p) = (pet )x (1 − p)1−x
x=0 x=0
t 0 1−0
= (pe ) (1 − p) + (pe ) (1 − p)1−1
t 1
= pet + (1 − p).
6.1.4. Distribución Binomial

Al repetir un experimento, en forma independiente, diremos que son ensayos
de bernoulli si solo existen dos posibles resultados para cada experimento, A
y Ac , y sus probabilidades, p y q = 1 − p, permanecen siempre constantes en
cada ensayo.
Si se repite el experimento n veces independientemente, definamos la v.a. X
como el número de éxitos en los n ensayos, es decir el número de veces que
ocurre el evento A. Entonces, tomando el espacio de probabilidad asociado
(Ω, F, P ), donde F = {∅, Ω, A, Ac }, se tiene una variable aleatoria con valores
o rango X = 0, 1, 2, 3, ..., n. Ahora nos interesa calcular la probabilidad de
que en los n ensayos el suceso A ocurra k veces, es decir P (X = k). El evento
X = k significa que en k de los n ensayos ocurre A y en los n − k restantes
ocurre Ac . Una posibilidad de que A se presente k veces viene dado por el
siguiente arreglo.
A1 A2 A3 ...Ak Ack+1 Ack+2 Ack+3 ...Acn .
Como los eventos son independientes tenemos que
P [A1 A2 ...Ak Ack+1 Ack+2 ...Acn ] = P [A1 ]P [A2 ]...P [Ak ]P [Ack+1 ]P [Ack+2 ]...P [Acn ]
= p.p.p...p.(1 − p)(1 − p)...(1 − p)
= pk (1 − p)n−k .
Como se quiere calcular la probabilidad de que ocurran k éxitos en n ensayos
el orden en que estos se presentan no importa. El número total de arreglos o
casos favorables viene dado por la combinatoria nk , luego

n k n−k n k n−k
P (X = k) = p (1 − p) = p q x = 0, 1, 2, 3, ..., n.
k k
Es fácil ver que esta función es una función de probabilidad. En efecto:
P (X = k) = nk pk (1 − p)n−k ≥ 0.

Pn Pn n k
n−k
k=0 P [X = k] = k=0 k p (1 − p) = (p + (1 − p))n = 1n = 1.
Definición 6.1.5. Sea X el número total de éxitos obtenidos, en la realiza-
ción de n ensayos de Bernoullis independientes. Diremos que X tiene una
Distribución Binomial con parámetros n y p. Su función de probabilidad es
dada por

n x
f (x) = P (X = x) = p (1 − p)n−x x = 0, 1, 2, 3, ..., n
x

n x n−x
= p q , q = 1 − p.
x
La notación usada para esta distribución es X ∼ Bin(n, p).
Los gráficos siguientes muestran la función de probabilidad de la distribución
binomial bajo dos distintos escenarios.
0.25
0.25
0.20
0.20
0.15
0.15
probabilidad
probabilidad
0.10
0.10
0.05
0.05
0.00
0.00
0 2 4 6 8 10 0 2 4 6 8 10
x x
(a) (b)
Figura 6.2: Distribución Binomial (a) Bin(10, 2/5) y (b) Bin(10, 1/2).
Ejemplo 6.1.3. Se lanza 50 veces una moneda. Cuál es la probabilidad de

salir 25 caras exactamente.
Solución:
n = 50
k = 25
sea X el número de caras en los 50 lanzamientos de la moneda, entonces,
X = 0, 1, 2, 3, ..., 50
P = P [X = 25] = 50 ( 1 )25 ( 21 )25 = 25!25!
25 2
50!
( 21 )50
Para hallar P utilizamos logaritmos en base 10 ası́.
LogP = log(50!) − 2 log(25!) − 50 log(2)
= 64413 − 50361 − 15062
= log(1,12) − log(10)
= log(0,112),
entonces P = 0,112
Ejemplo 6.1.4. Cuál es la probabilidad de que al lanzar un dado 100 veces
el numero 4 aparezca 40 veces
Solución:
n = 100
k = 40
Sea X el número de veces que sale 4 en los cien lanzamientos, entonces,
X = 0, 1, 2, ..., 100 p = 16
q = 65
P [X = 40] = 100
1 40 5 60
40
(6) (6)
Ejemplo 6.1.5. Se sabe por experiencia, que en condiciones normales, la
probabilidad de nacimiento de niño o niña es igual. Calcular la probabilidad
de que en una familia de 4 hijos hallan a) 2 niños y 2 niñas, b) al menos dos
niños.
Solución:
Sea X la v.a. que cuenta el número de niños en la familia, entonces, X =
0, 1, 2, 3, 4. Entonces, P [niño] = P [niña] = 21 , luego
a) P [2 niños] = P [X = 2] = 42 ( 12 )2 ( 12 )2 = 38
b)
P [al menos 2 niños] = P [X = 2] + P [X = 3] + P [X = 4]
2 2 3 2 4 2
4 1 1 4 1 1 4 1 1
= + +
2 2 4 3 2 4 4 2 4
3 1 1 11
= + + = .
8 4 10 16
Ejemplo 6.1.6. El 35 % de los internos de una cárcel son reincidentes. Se

selecciona, para una habitación, una muestra aleatoria de 15 internos.
a) Hallar la probabilidad de que el número de reincidentes del grupo sea
mayor que 10.
n = 15
P = 0,35 Sea X el número de reincidentes en la muestra seleccionada,
luego, X = 0, 1, 2, 3, ..., 15.
P (X > 10) = P (X = 11) + P (X = 12) + P (X = 13) + P (X = 14) + P (X = 15)

= 0,024 + 0,004 + 0,001 + 0,000 + 0,000
= 0,029
b) Hallar la probabilidad de que 5 o mas sean reincidentes
P (X ≥ 5) = P (X = 5) + P (X = 6) + ... + P (X = 15)
= 0,2123 + 0,1500 + ... + 0,000
= 0,6481
c) Hallar la probabilidad de que menos de 8 sean reincidentes.
P (X < 8) = P (X = 0) + P (X = 1) + ... + P (X = 7)
= 0,0016 + ... + 0,1319
= 0,8868
d) Hallar la probabilidad de que 9 o menos sean reincidentes.
P (X ≤ 9) = P (X = 0) + ... + P (X = 9)
= 0,016 + ... + 0,0298
= 0,9876
e) Hallar la probabilidad de que el número de reincidentes este entre 5 y

12
P (5 ≤ X ≤ 12) = P (X = 5) + ... + P (X = 12)

= 0,2123 + ... + 0,0004
= 0,6410
f ) Hallar la probabilidad de que el número de reincidentes sea mayor que

6 pero menor que 12.
P (6 < X < 12) = P (X = 7) + ... + P (X = 11)

= 0,1319 + ... + 0,0024
= 0,2447
Teorema 6.1.5. Sea X ∼ Bin(n, p), entonces
1) E(X) = np.
2) V (X) = np(1 − p).
3) MX (t) = (pet + (1 − p))n .
Demostración. 1.
n n n
X X X n k
E(X) = kP (X = k) = kP (X = k) = k p (1 − p)n−k
k=0 k=1 k=1
k
n
X n!
= k pk (1 − p)n−k
k=1
k!(n − k)!
n
X kn(n − 1)!
= ppk−1 (1 − p)n−k
k=1
k(k − 1)!(n − k)!
n
X n − 1 k−1
= np p (1 − p)n−k , haciendo j = k − 1
k=1
k − 1
n−1
X n−1 j
= np p (1 − p)(n−1)−j = np.
j=0 |
j
{z }
Bin(n−1,p)
2. Primero hallaremos E(X 2 ) el cual se puede obtener usando el momento

factorial de orden 2, de la siguiente forma:
E(X 2 ) = E(X(X − 1)) + E(X),

Luego, encontrando el momento factorial de orden 2,

n n
X X n k
E(X(X − 1)) = k(k − 1)P (X = k) = k(k − 1) p (1 − p)n−k
k=0 k=0
k
n
X k(k − 1)n(n − 1)(n − 2)!
= p2 pk−2 (1 − p)n−k
k=2
k(k − 1)(k − 2)!(n − k)!
n
2
X n − 2 k−2
= n(n − 1)p p (1 − p)n−k , con j = k − 2
k=2
k−2
n−2
2
X n−2 j
= n(n − 1)p p (1 − p)(n−2)−j
j=0
j
| {z }
Bin(n−2,p)
2
= n(n − 1)p .
Entonces,
V (X) = E(X 2 ) − E 2 (X) = n(n − 1)p2 + np − n2 p2

= n2 p2 − np2 + np − n2 p2 = np(1 − p).
3.
n
X n k
tk
MX (t) = e p (1 − p)n−k
k=0
k
n
X n
= (pet )k (1 − p)n−k
k=0
k
= (pet + (1 − p))n .
Ejemplo 6.1.7. En el ejemplo anterior de presos reincidentes, se tiene que

el número esperado de preso reincide es E(X) = 15 × 0,35 = 5,25, es decir,
se esperan que 5 presos (aproximando por el piso) reincidan.
q
Del Teorema anterior es claro que CV = 1−p np
. Por otro lado, calculando el
√
coeficiente de asimetrı́a β1 se obtiene

> 0 (asimétrica a la derecha) si p < 0,5
p 1 − 2p 
β1 = p 0 (simétrica) si p = 0,5
np(1 − p)  < 0 (asimétrica a la izquierda) si p > 0,5.
6.2. Propiedades de la distribución binomial

Estudiamos ahora algunas formulas recurrentes para el cálculo de la proba-
bilidad binomial. Entonces, llamando

n k
P [X = k] = pn (k) = p (1 − p)n−k ,
k
entonces:
pn (k+1) n−k p
a) Para 0 ≤ k ≤ n tenemos pn (k)
= k+1 1−p
Demostración.

n k n!
pn (k) = p (1 − p)n−k = pk (1 − p)n−k
k k!(n − k)!

n n!
pn (k+1) = pk+1 (1−p)n−k−1 = pk+1 (1−p)n−k−1
k+1 (k + 1)!(n − k − 1)!
entonces pnp(k+1)
n (k)
= n−k p
k+1 1−p
nota: realmente la anterior es una buena formula de recurrencia ya que
expresa pn (k + 1) en términos de pn (k).
b) Usando a) demuestre
i) pn (k + 1) > pn (k) si k < np − (1 − p)
ii) pn (k + 1) = pn (k) si k = np − (1 − p)
iii) pn (k + 1) < pn (k) si k > np − (1 − p)
Demostración.
6.2. PROPIEDADES DE LA DISTRIBUCIÓN BINOMIAL 185
i) Demostremos que si k < np − (1 − p) y 0 < k < n, entonces
pn (k + 1) > pn .
En efecto:
Si k = 0, tenemos 0 < np − (1 − p), lo cual implica 1 − p < np y esto a
np
su vez nos lleva a 1 < 1−p . Por otra parte
pn (k + 1) pn (0 + 1) n−0 p np
= = = > 1,
pn (k) pn (0) 0+11−p 1−p
luego ppnn (0)

(1)
> 1 lo cual implica pn (1) > pn (0).
Si k = n − 1 tenemos n − 1 < np − (1 − p) esto nos conduce a que
p
1 < n(1−p) . También
pn (k + 1) pn (n − 1 + 1) pn (n) n−n+1 p p
= = = = >1
pn (k) pn (n − 1) pn (n − 1) n−1+11−p n(1 − p)
por lo tanto pn (k) > pn (k − 1). De éste modo si k < np(1 − p) se

muestra que pn (0) < pn (1) < ... < pn (k) < pn (k + 1).
ii) Demostremos que si k = np − (1 − p), entonces
pn (k + 1) = pn (k).
en efecto:
Si pnp(k+1)
n (k)
= n−k p
k+1 1−p
, entonces
pn (k + 1)
= 1,
pn (k)
se reemplaza k por np − (1 − p) y ası́ pn (k + 1) = pn (k) para k =

np − (1 − p).
iii) similar a i)
c) Si np − (1 − p) es un punto, entonces pn (k) toma un valor máximo para

0
los valores de k, llamados k0 = np − (1 − p) y k0 = np − (1 − p) + 1.
Demostración. Sabemos que pnp(k+1)n (k)

= n−k p
k+1 1−p
.
Supongamos que existe un entero k tal que k = np − (1 − p), en tal
caso por i) del apartado anterior tenemos que pn (k + 1) = pn (k) para
este valor de k.
Esto implica que la función pn (k) tiene un valores iguales comprendien-
0
do k0 = np − (1 − p) y a k0 = np − (1 − p) + 1. Tal valor es un máximo
por que si k > np − (1 − p) entonces ocurre que pn (k + 1) < pn (k) lo
cual significa que pn (k) es decreciente y si k < np − (1 − p) se dice que
pn (k + 1) > pn (k) lo cual significa que pn (k) es creciente.
d) Si np − (1 − p) no es un entero entonces pn (k) toma su valor máximo

cuando k es igual al entero mas pequeño mayor que k0 .
Demostración. Sea m un entero que no es igual
np − (1 − p) = (n + 1)p − 1.
Si m > np − (1 − p) entonces pn (m + 1) < pn (m) esto significa que

pn (k) es decreciente para todo k < m.
Si m < np − (1 − p) entonces pn (m + 1) > pn (m) por lo tanto la función
pn (k) es creciente para todo k < m. luego la función pn (k) tiene un solo
valor k0 en el cual toma su valor máximo. En este caso sea k0 el único
entero comprendido entre
(n + 1)p − 1 = np − (1 − p) y (n + 1)p.
Es decir np − (1 − p) < k0 < (n + 1)p. tomando k0 = [(n + 1)p] se tiene

que pn (k) toma su valor máximo precisamente en k0 .
c) Si np − (1 − p) < 0, entonces pn (0) > pn (1) > ... > pn (k).

Si np − (1 − p) = 0, entonces, pn (0) = pn (1) > pn (s) > ... > pn (k).
Demostración. Se deja como ejercicio para los lectores.
6.2.1. Distribución de Poisson

La distribución de Poisson es útil en aquellas situaciones donde se evalúa
el número de eventos que ocurren por unidad, la cual puede ser de tiempo,
espacio, de área o de número de artı́culos o de persona, por ejemplo. Ası́,
si lo que interesa es el número de accidentes por dı́a en un determinado

punto de la ciudad o el número de llamadas telefónicas por hora en una
central de llamadas, el número de defectos por metro cuadrado de tela, etc. la
distribución de Poisson cobra gran interés para modelar este tipo de variable.
Definición 6.2.1. Se dice que una v.a. X tiene distribución de Poisson de

parámetro λ > 0, si su función de probabilidad está dada por
−λ λx
e x! si x = 0, 1, 2, ...
f (x) = P (X = x) =
0 caso contrario.
La notación usada para esta distribución es X ∼ P o(λ).
El comportamiento de dos v.a. de Poisson para dos situaciones se muestra a

continuación.
0.20
20
0.15
15
probabilidad
probabilidad
0.10
10
0.05
5
0.00
0
0 1 2 3 4 5 6 7 8 9 0 2 4 6 8 10
x x
(a) (b)
Figura 6.3: Distribución de Poisson (a) P o(4,5) y (b) P o(3).
Teorema 6.2.1. Sea X ∼ P o(λ) entonces.
1) E(X) = λ.
2) V (X) = λ.
t
3) MX (t) = eλ(e −1) .
Demostración. 1)
∞ ∞ k ∞
X X
−λ λ −λ
X λk
E(X) = kP (X = k) = ke =e k
k=0 k=0
k! k=1
k!
∞ k
X λ
= e−λ , haciendo j = k − 1
k=1
(k − 1)!
∞
−λ
X λj+1
=e
j=0
j!
∞
−λ
X λj
= λe
j=0
j!
−λ λ
= λe e = λ.
2)
∞ ∞
X e−λ λk X e−λ λk
E(X(X − 1)) = k(k − 1) =
k=0
k! k=2
(k − 2)!
∞
X λk−2
= λ2 e−λ , haciendo j = k − 2
k=1
(k − 2)!
∞
X λj
= λ2 e−λ
j=0
j!
| {z }
=1
2
=λ .
Entonces,
V (X) = λ2 + λ − λ2 = λ.
La prueba del item 3) está hecha en la sección de Variables Aleatorias.
De aquı́ se sigue que CV = √1λ , ası́ mismo, también se puede concluir que
√
β1 = CV > 0, es decir, el modelo siempre es asimétrico a la derecha,
independientemente del valor de λ; sin embargo, a medida que λ sea mayor
(ó λ → ∞) este tiende a ser simétrico.
Ejemplo 6.2.1. Suponga que el número de falla por milı́metro de cierto tipo
de alambre de cobre se puede describir mediante la distribución de poisson
de media 2.5 fallas/milı́metro. Determine:
1. La probabilidad de no tener ninguna falla en un milı́metro de alambre.
2. la probabilidad de tener al menos una falla en un milı́metro de alambre.
3. La probabilidad de tener exactamente tres fallas en un milı́metro de

alambre.
4. La probabilidad de tener entre una y tres fallas (inclusive) en un milı́me-

tro de alambre.
5. El número esperado de fallas en tres milı́metro de alambre.
6. La probabilidad de tener 5 fallas en 3 milı́metros de alambre.
Solución: Sea X la v.a. que cuenta el número de fallas en cada milı́metro

de alambre, entonces RX = {0, 1, 2, 3, ...}. luego, para λ = 2,5
0
1. P (X = 0) = e−2,5 2,5
0!
= 0,0820.
2. P (X ≥ 1) = 1 − P (X < 1) = 1 − P (X = 0) = 1 − 0,0820 = 0,9179.

3
3. P (X = 3) = e−2,5 2,5
3!
= 0,2137.
1
4. P (1 ≤ X ≤ 3) = P (X = 1) + P (X = 2) + P (X = 3) = e−2,5 2,51!
+
−2,5 2,52 −2,5 2,53
e 2!
+e 3!
= 0,2052 + 0,2565 + 0,2137 = 0,6754.
5. Como en un milı́metro de alambre se tiene una poisson con 2.5 fa-

llas/milı́metro, entonces en tres milı́metros de alambre se tendrá una
poisson de parámetro λ = 3 × 2,5 = 7,5 fallas por 3 milı́metro de alam-
bre. Luego, la v.a. Y que cuenta el número de fallas en 3 milı́metros
de alambre tendrá una distribución P o(7,5). Por lo tanto, el número
esperado de fallas en 3 milı́metros de alambre es E(Y ) = 7,5.
5
6. P (Y = 5) = e−7,5 7,5
5!
= 0,1093.
Relación Entre Binomial y Poisson

Sea X ∼ B(n, p), entonces podemos escribir
x n−x
n x n−x (n)x λ λ
P (X = x) = p (1 − p) = 1− ,
x x! n n
donde (n)x = n(n − 1) · · · (n − x + 1) y λ = np = E(X). Entonces, tenemos

que
n −x
λx (n)x

λ λ
P (X = x) = 1− 1−
x! nx n n
n −x
λx n

1 2 x−1 λ λ
= 1− 1− ··· 1 − 1− 1−
x! n n n n n n
supongamos ahora que p es pequeño (p → 0), de modo que cuando n → ∞,

entonces λ = np = cte. Entonces, tenemos que
−x
n 1 2 x−1 λ
, 1− , 1− ,... 1 − , y 1− → 1, cuando n → ∞.
n n n n n
Además, n
λ
lı́m 1− = e−λ ,
n→∞ n
entonces,
Bn (n, p(n)) → P (λ), cuando n → ∞.
Se aconseja esta aproximación cuando n es grande y p → 0 o n es moderada-
mente pequeña y p = 21 o mejor aún cuando np y n(1 − p) es mayor o igual
a 5.
6.2.2. Distribución Hipergeometrica

La distribución hipergeométrica fue estudiada en los modelos de urnas, es-
pecı́ficamente se trata de la situación donde el espacio muestral, de N elemen-
tos, se encuentra dividido en dos subgrupos, digamos A y Ac , de R y N − R
elementos, respectivamente. Entonces se eligen n elementos del universo, es
decir de N, y se está interesado en la probabilidad de que de los n objetos
seleccionados, exactamente k sean del subgrupo A. Entonces, definiendo la
variable aleatoria X como aquella que cuenta de los n objetos, el total de
objetos que son del subgrupo A, podemos calcular esta probabilidad como
la probabilidad de que X tome el valor k. En este caso, usando un poco de
análisis combinatorio, se encuentra que
R N −R

k n−k
P (X = k) = N
si k = 0, 1, 2, ..., mı́n{n, R}.
n
En este caso, aunque se tratan de n ensayos de bernoulli, la probabilidad de

éxito no se mantiene constante, puesto que esta cambia de un ensayo a otro;
por otro lado, R de los objetos son clasificados como éxitos y el resto N − R
como fracasos.
Definición 6.2.2. La v.a. X tiene distribución Hipergeométrica de paráme-

tros n, R y N (n < R) si su función de probabilidad está dada por
−R
(Rx)(Nn−x )
(
si x = 0, 1, 2, ..., n
f (x) = P (X = x) = (Nn )
0 caso contrario,
donde N ∈ Z+ , R ∈ Z+ ∪ {0} (R ≤ N ), n ∈ Z+ (n ≤ N ).
La notación usada para esta distribución es X ∼ Hg(n, R, N ).
A continuación se muestra el gráfico de probabilidad de esta distribución

para una situación en particular.
0.3
probabilidad
0.2
0.1
0.0
0 1 2 3 4 5 6 7
Figura 6.4: Gráfico función de probabilidad hipergeométrica, Hg (7, 8, 10).
Teorema 6.2.2. Sea X ∼ Hg(n, R, N ). Entonces,

R
1. E(X) = n · N
.
R N −R N −n
2. V (X) = n · N
· N
· N −1
.
Demostración. 1.
n N −R
R n R N −R

X xn−x
X
E(X) = x N
= x x Nn−x

x=0 n x=1 n
R(R−1)! N −R
n

x(x−1)!(R−x)! n−x
X
= x N (N −1)!
x=1 n(n−1)!(N −n)!
n R−1 N −R

R X x−1 n−x
= n N −1
, haciendo j =x−1
N x=1 n−1
R−1 (N −1)−(R−1)
n−1

RX j (n−1)−j R
= n N −1
=n .
N j=0 n−1
N
| {z }
Hg(n−1,R−1,N −1)
2.
n R(R−1)(R−2)! N −R
n
(R−x)! n−x
X X
E(X(X − 1)) = x(x − 1)P (X = x) = N (N −1)(N −2!)
x=0 x=2 n(n−1)(n−2)! (N − n)!
n R−2 N −R

R(R − 1) X x−2 n−x
= n(n − 1) N −2
, con k = x − 2
N (N − 1) x=2 n−2
n−2 R−2 (N −2)−(R−2)

R(R − 1) X k (n−2)−k
= n(n − 1) N −2
N (N − 1) k=0

n−2
| {z }
=1
R(R − 1)
= n(n − 1) .
N (N − 1)
Entonces,
V (X) = E(X(X − 1)) + E(X) − E 2 (X)
R(R − 1) R R2
= n(n − 1) + n − n2 2
N (N − 1) N N

R R−1 R
=n (n − 1) +1−n
N N −1 N
R (N − R)(N − n)
=n · .
N N (N − 1)
Ejemplo 6.2.2. En un lote de 30 semillas de un producto agrı́cola se tienen

8 semillas no aceptables (o semillas vanas) y 22 semillas aceptables (produc-
tora de fruto). Si se toma una muestra de 5 semillas del lotes ¿ Cuál es la
probabilidad de que la muestra contenga a lo más dos semillas no aceptables,?
¿ cuál es la probabilidad de tener exactamente tres semillas vanas? ¿ cuál es
la probabilidad de tomar todas las semillas aceptables? ¿ cuantas semillas no
aceptable se esperan en la muestra de 5 semillas?
Solución
Sea X el número de semillas no aceptables en la muestra. Entonces, X ∼
Hg(5, 8, 30). Ası́,
P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2)
8 22 8 22 5 22

0
= 5 +
30
1
4 +
30
2
3
30
5 5 5
= 0,1847 + 0,4106 + 0,3025 = 0,8980.
(83)(222)
P (X = 3) = = 0,0907.
(305)
P (X = 0) = 0,1840.
8
E(X) = 5 × 30
= 1,33.
6.2.3. Distribución Geométrica

El modelo geométrico hace parte de los modelos de espera, que describen el
tiempo aleatorio de espera (o número de pruebas) hasta que ocurre un de-
terminado evento o suceso previamente fijado. La razón de su denominación
se debe a que su función de masa viene dada por una progresión geométrica,
cuya razón es la probabilidad de fracaso (constante).
Considere una secuencia de ensayos de Bernoulli independientes con proba-
bilidad de éxito p; ahora defina X como el número de fracasos anteriores al
primer suceso o éxito, entonces se dice que X sigue una distribución geométri-
ca de parámetro p.
Definición 6.2.3. La v.a. X que cuenta el número de fracasos antes de obte-

ner el primer éxito, en repetidos ensayos independientes de bernoulli con pro-
babilidad de éxito p en cada ensayo, sigue el modelo geométrico con parámetro
p, 0 < p < 1, cuya función de probabilidad es dada por
P (X = x) = f (x) = p(1 − p)x , x = 0, 1, 2, ... (6.1)
La notación usada para esta distribución es X ∼ Geo(p).
Verifiquemos que en verdad f (x) es una buena función de probabilidad, es
decir,
i) P (X = x) ≥ 0, ∀x = 1, 2, . . . y
∞
X
ii) P (X = x) = 1.
x=1
En efecto:
i) Sea 0 ≤ p ≤ 1 y definamos q = 1 − p. Entonces, q x−1 ≥ 0 ∀x =

1, 2, 3, . . . de donde, pq x−1 ≥ 0 ∀x = 1, 2, 3, . . . es decir, P (X = x) ≥
0 ∀, x = 1, 2, 3, . . .
ii)
∞
X ∞
X
P (X = x) = pq x
x=1 x=0
X∞
=p q x = p[1 + q + q 2 + q 3 + . . .]
x=1
1 p
=p· = = 1.
1−q p
Luego, f (x) es una buena función de probabilidad.
A continuación se muestra el gráfico de probabilidad de esta distribución para
una situación en particular. La distribución geométrica tiene una segunda
representación, la cual esta basada en una v.a. que cuenta el número de
ensayos (es decir número de fracasos más uno) hasta obtener el primer éxito,
en este caso,

(1 − p)x−1 p si x = 1, 2, 3, . . .
f (x) = P (X = x) =
0 caso contrario.
0.25
0.20
0.15
probabilidad
0.10
0.05
0 2 4 6 8 10
Figura 6.5: Gráfico función de probabilidad geométrica, Geo(1/4).
Proposición 6.2.1. (Falta de memoria) Sea X ∼ Geo(p), entonces para

cualesquiera números enteros positivos m y n se tiene que
P (X ≥ m + n|X ≥ m) = P (X ≥ n).
(Es decir, esta variable recuerda el presente pero olvida el pasado.)
Demostración. Note que:

∞
X
P (X > k) = p(1 − p)j
j=k+1
X∞
=p (1 − p)j , haciendo y = j − (k + 1)
j=k+1
X∞ ∞
X
=p (1 − p)y+k+1 = p(1 − p)k+1 (1 − p)y
y=0 y=0
1 1
= p(1 − p)k+1 = p(1 − p)k+1
1 − (1 − p) p
= (1 − p)k+1 .
Esto implica que P (X ≥ k) = (1 − p)k . Entonces,
P ((X ≥ m + n) ∩ (X ≥ m)) P (X ≥ m + n)
P (X ≥ m + n|X ≥ m) = =
P (X ≥ m) P (X ≥ m)
m+n
(1 − p)
= m
= (1 − p)n = P (X ≥ n).
(1 − p)
Teorema 6.2.3. Sea X ∼ Geo(p). Entonces,

1−p
1. E(X) = p
.
1−p
2. V (X) = p2
.
p
3. MX (t) = 1−(1−p)et
.
Demostración. Sea X una variable aleatoria discreta con distribución geométri-

ca de parámetro p, entonces su fdp es dada por

(1 − p)x p si x = 0, 1, 2, 3, . . .
f (x) = P (X = x) =
0 caso contrario.
1.
∞
X ∞
X
j
E(X) = jp(1 − p) = p(1 − p) j(1 − p)j−1
j=0 j=1
∞
X ∂
= −p(1 − p) (1 − p)j ;
j=1
∂p
como la suma existe, podemos cambiar el orden de operación entre la

sumatoria y la derivación. Entonces,
∞
∂ X j ∂ 1−p
E(X) = −p(1 − p) (1 − p) = −p(1 − p)
∂p j=1 ∂p p

−1 1−p
= −p(1 − p) 2
= .
p p
2.
Observación 6.2.1. La distribución geométrica se puede definir a

partir del número de fracasos (X) antes del primer éxito pero igual
también a partir del número de ensayos hasta que ocurra el primer
éxito. En este último caso Y = X + 1, de donde se concluye que
E(Y ) = E(X) + 1 = 1−p p
+ 1 = p1 y V ar(Y ) = V ar(X).
Teniendo en cuenta la observación anterior, optaremos por usar la se-
gunda representación de la distribución geométrica para calcular la va-
rianza, es decir X ∼ geo(p) donde X representa el número de ensayos
hasta el obtener el primer éxito. Entonces,
∞
X ∞
X
E(X 2 ) = j 2 p(1 − p)j−1 = j 2 p(1 − p)j−1 .
j=0 j=1
En efecto, consideremos
∞
! ∞
∂2 X
j+1
X
(1 − p) = (j + 1)j(1 − p)j−1
∂p2 j=1 j=1
∞
X ∞
X
2 j−1
= j (1 − p) + j(1 − p)j−1 .
j=1 j=1
Multiplicando por p, tenemos

∞
! ∞ ∞
∂2 X j+1
X
2 j−1
X
p 2 (1 − p) = j p(1 − p) + jp(1 − p)j−1 .
∂p j=1 j=1 j=1
| {z } | {z }
E(X 2 ) = p1
Por tanto,
∞
∂2 (1 − p)2

2
X
2 j−1 1
E(X ) = j p(1 − p) =p 2 −
j=1
∂p p p
| {z }
2
p3
2 1 2 1
=p − = −
p3 p p2 p
Resulta entonces que
2 1 1 1−p q
V (X) = − − = = .
p2 p p2 p2 p2
3.
∞
X ∞
X ∞
X
tX tx tx x
MX (t) = E(e ) = e P (X = x) = e q p= (qet )x p
x=0 x=0 x=0
P∞ P∞
con q = 1 − p. Ahora, como 0 q x converge, entonces x=0 (qet )x
converge. Luego,
∞
X
MX (t) = p (qet )x = p[1 + qet + (qet )2 + (qet )3 + . . .]
x=0
= p[1 + qet + q 2 e2t + q 3 e3t + . . .]

1
=p t
= p(1 − qet )−1 .
1 − qe
√
1−p
De este resultado se puede obtener que CV = 1−p , ası́ mismo, también se
√
puede concluir que β1 > 0, es decir, el modelo siempre es asimétrico a la
derecha.
Ejemplo 6.2.3. Otra forma de obtener E(X), E(X 2 ) y V (X), es apoyándose

en la fgm, ası́, inicialmente se deduce MX (t) y posteriormente se obtiene la
primera y segunda derivada de MX (t), entonces se evalúa esta función en
t = 0, tal y como se ilustra a continuación.
MX0 (t) = −p(1 − qet )−2 (−qet ) = pqet (1 − qet )−2 . Entonces,
E(X) = MX0 (0) = pqe0 (1 − qe0 )−2 = pq(1 − q)−2

pq pq
= =
(1 − q)2 p2
q
= .
p
Calculamos ahora MX00 (t) sabiendo que MX0 (t) = pqet (1 − qet )−2 . Entonces,
MX00 (t) = pqet (1 − qet )−2 − 2pqet (1 − qet )−3 (−qet )

= pqet (1 − qet )−2 + 2pq 2 e2t (1 − qet )−3 .
Ası́,
E(X 2 ) = MX00 (0) = pqe0 (1 − qe0 )−2 + 2pq 2 e0 (1 − qe0 )−3
= pq(1 − q)−2 + 2pq 2 (1 − q)−3
= pqp−2 + 2pq 2 p−3
p 2q 2
= + 2,
q p
luego, como V (X) = E(X 2 ) − E 2 (X) se tiene que
q p 2q 2 q q2
V (X) = + + 2 = + 2
p q p p p
2
pq + q q(p + q)
= 2
=
p p2
q
= 2.
p
Ejemplo 6.2.4. El equipo medico de una clı́nica ha decidido interrumpir
la utilización de un determinado equipo y someterlo a revisión a la primera
ocurrencia de un defecto. El equipo tiene probabilidad 0,0005 de presentar un
defecto en un dı́a cualquiera, después de haber sido sometido a una revisión.
Sea X la variable aleatoria que cuenta el número de dı́as que anteceden a
la revisión del equipo. ¿ Cuál es la probabilidad que el equipo falle al décimo
dı́a? ¿ cuántos dı́as se esperan que pasen, después de la revisión, para que el
equipo presente una nueva falla.
Solución:
Suponiendo independencia en los dı́as sucesivos después de la revisión, se
tiene que X ∼ Geo(0, 0005). Entonces,
P (X = 10) = 0,0005 × 0,999510−1 = 0,0005.
1
E(X) = 0,0005
= 2000 dı́as, es decir, 5.48 años.
6.2.4. Distribución Binomial Negativa

La distribución binomial negativa es una extensión o generalización del mo-
delo geométricos, puesto que ahora la v.a. de interés cuenta el número de
fracasos pero antes del que se de el k-ésimo éxito, es decir ahora estamos
interesados en el número de fracasos antes de que ocurra el segundo, tercer,
cuarto o quinto éxito.
Definición 6.2.4. Considere una secuencia de ensayos de Bernoulli inde-

pendientes, con probabilidad de éxito constante para cada ensayo, y defina X
como el número de fracasos entes del k-ésimo éxito. La v.a. X sigue el modelo
Binomial Negativo con parámetros k y p con 0 < p < 1 y tiene función de
probabilidad dada por

x+k−1 k
P (X = x) = f (x) = p (1 − p)x x = 0, 1, 2, . . .
k−1
La notación usada para esta distribución es X ∼ BN (k, p).
Observación 6.2.2. La distribución geométrica es un caso particular de la

distribución binomial negativa para k = 1, es decir, Geo(p) ≡ BN (1, p).
La distribución binomial negativa tiene varias representaciones de acuerdo a

la variable que se este contando, por ejemplo, si en vez de contar el número
de fracaso antes del k-ésimo éxito se cuenta el número de ensayos hasta lograr
el k-ésimo éxito, tendremos otra representación de la distribución binomial.
Teniendo en cuenta que

x+k−1 x+k−1
= ,
k−1 x
entonces también podemos usar la siguiente expresión para representar la

distribución de una v.a. con distribución binomial negativa.

x+k−1 k
P (X = x) = f (x) = p (1 − p)x x = 0, 1, 2, ...
x
Suponga ahora que interesa es el número de ensayos Y , hasta que ocurra el

k-ésimo éxito en vez del número de fracasos antes de que ocurra el k-ésimo
éxito, entonces definiendo la v.a. Y como el número de ensayos hasta que
ocurra el k-ésimo éxito, se tiene que
Y = X + k, con rango de valores Y = k, k + 1, . . .
de donde se obtiene que la función de probabilidad de Y es:

j−1 k
P (Y = j) = p (1 − p)j−k , j = k, k + 1, . . .
k−1
Igualmente, tomando Y = X + k − 1 (número de ensayos antes del k-ésimo

éxito), tenemos

j
P (Y = j) = pk (1 − p)j−k+1 , j = k − 1, k, k + 1, . . .
k−1
donde 0 < p < 1 es la probabilidad de éxito.
A continuación se muestra el gráfico de probabilidad de esta distribución
donde la v.a. cuenta el número de fracasos antes del tercer éxito, en una
secuencia de bernoulli de probabilidad p = 4/7.
0.20
0.15
probabilidad
0.10
0.05
0.00
0 2 4 6 8 10
Figura 6.6: Gráfico función de probabilidad binomial negativa.
Ejemplo 6.2.5. Se estima que la proporción de viviendas que poseen al me-

nos una mascota en cierta ciudad es de un cuarto. ¿ cuál es la probabilidad
de la décima vivienda visitada en esta ciudad sea la tercera que tiene al me-
nos una mascota. ?
Solución:
Sea X := número de viviendas visitadas que no tienen mascota, probabili-
dad de éxito p = 1/4 = 0,25, entonces q = 1 − p = 0,75 y k = 3. Ası́,
X ∼ BN (3, 0,25). Entonces, la probabilidad pedida es:

7+3−1 3 7 9
P (X = 7) = (0,25) (0,75) = (0,25)3 (0,75)7 = 0,0750.
7 7
Ejemplo 6.2.6. En una lı́nea de producción, la proporción de unidades de-

fectuosas es 0.025 ¿ Cuál es la probabilidad de que la décima unidad inspec-
cionada sea la segunda que se encuentra defectuosa?
Solución:
Llamando X la v.a. que cuenta el número de unidades inspeccionadas (en-
sayos) hasta obtener dos unidades defectuosas, entonces

10 − 1
P (X = 10) = 0,0252 (0,75)10−2 = 0,0563.
2−1
Teorema 6.2.4. Sea X ∼ BN (k, p), donde X representa el número de en-

sayos hasta obtener el k-ésimo éxito, entonces
1) E(X) = kp .
k(1−p)
2) V (X) = p2
.
h ik
pet
3) MX (t) = 1−(1−p)et
.
Demostración. Veamos a qué es igual el r-ésimo momento de X

∞
r
X
r j−1 k
E(X ) = j p (1 − p)j−k
j=k
k−1
∞
X kj(j − 1)!
= j r−1 pk+1 p−1 (1 − p)j−k
j=k
k(k − 1)!(j − k)!
∞
k X r−1 j k+1
= j p (1 − p)j−k , haciendo n = j + 1 ⇒ j = n − 1
p j=k k
∞
k X r−1 n−1
= (n − 1) pk+1 (1 − p)n−(k+1)
p n=k+1 (k + 1) − 1
| {z }
BN (k+1,p)
k
= E((Y − 1)r−1 ),
p
donde, Y ∼ BN (k + 1, p).
1) Ası́, para r = 1
k k k
E(X) = E((Y − 1)0 ) = E(1) = .
p p p
2) Para r = 2, se tiene
k k
E(X 2 ) = E((Y − 1)) = (E(Y ) − 1)
p p
k 2 + k − kp

k k+1
= −1 = .
p p p2
Entonces,
k(1 − p)
V (X) = E(X 2 ) − E 2 (X) = .
p2
3)
∞
X
tj j−1 k
MX (t) = e p (1 − p)j−k , haciendo l = j − k
j=k
k − 1
∞
lt l + k − 1
X
tk
=e e pk (1 − p)l
l=0
k−1
∞
t k
X l+k−1
= (pe ) (et (1 − p))l .
l=0
k − 1
Ahora,

l+k−1 l+k−1 (l + k − 1)!
= =
k−1 l l!(k − 1)!
(k − 1)!k(k + 1)(k + 2)...(k + l − 1)
=
l!(k − 1)!
k(k + 1)(k + 2)...(k + l − 1)
=
l!
(−k)(−k − 1)(−k − 2)...(−k − l + 11)
= (−1)l
l!
(−k)(−k − 1)(−k − 2)...(−k − l + 11)(−k − l)!
= (−1)l
l!(−k − l)!

−k
= (−1)l ,
l
entonces
∞
l −k
X
t k
MX (t) = (pe ) (−1) (et (1 − p))l
l=0
l
∞
t k
X −k
= (pe ) (−et (1 − p))l .
l=0
l
Ahora, por serie de Taylor se tiene que
∞
−k
X −k
(1 − x) = (−x)l ,
j=k
l
entonces
MX (t) = (pet )k (1 − et (1 − p))−k

k
pet

= .
1 − et (1 − p)
√
1−p √
Se sigue que CV = k(1−p)
, también, se obtiene que β1 = √ 2−p > 0, es
k(1−p)
decir, el modelo siempre es asimétrico a la derecha.
6.3. Distribuciones Para Variables Continuas

6.3.1. Distribución Uniforme Continua
Definición 6.3.1. Una v.a.c. X está distribuida uniformemente en el in-
tervalo cerrado [a, b]; a, b ∈ R y a < b si su función de densidad está dada
por. 1
1 b−a
si a ≤ x ≤ b
fX (x) = I[a,b] (x) =
b−a 0 caso contrario.
La notación usada para esta distribución es X ∼ U (a, b).
Una gráfica de la fdp de esta v.a. es dada en la siguiente figura.

6.3. DISTRIBUCIONES PARA VARIABLES CONTINUAS 205
Figura 6.7: Gráfico fdp de la distribución uniforme continua.
Si X ∼ U (a, b), entonces para a ≤ x < b,

Z x Z x
1 x−a
F (x) = f (t)dt = dt = .
a a b−a b−a
Entonces, la fda de X es

 0 si x<a
x−a
FX (x) = b−a
si a ≤ x ≤ b
1 si x > b.

Gráficamente esta función se representa como en la figura siguiente.
Figura 6.8: Gráfico fda de la distribución uniforme continua.
Ejemplo 6.3.1. Un punto se elige al azar sobre el intervalo [0, 2]. cual es la
probabilidad de que el punto escogido quede entre 1 y 32 ?
Solución:
Puesto que X toma valores en el intervalo [0, 2], la fdp de X viene dada por
1
1 1 si 0 ≤ x ≤ 2
fX (x) = I[0,2] (x) = I[0,2] (x) 2
2−0 2 0 caso contrario.
Luego,
Z 3
3 2 1 1 3 11 1
P [1 ≤ X ≤ ] = dx = −1 = = .
2 1 2 2 2 22 4
Teorema 6.3.1. Sea X ∼ U (a, b), entonces
a+b
1) E(X) = 2
.
(b−a)2
2) V (X) = 12
.
ebt −eat
3) MX (t) = (b−a)t
.
Demostración. 1)
Z ∞ Z b
1 1 1 a+b
E(X) = xfX (x)dx = xdx = (b2 − a2 ) = .
−∞ b−a a 2b−a 2
2) Hallamos primero E(X 2 ), en efecto

Z ∞
2 1 1
E(X ) = x2 fX (x)dx = · (b3 − a3 ) = (a2 + ab + b2 ).
−∞ 3(b − a) 3
Entonces,
1 1
V (X) = (a2 + ab + b2 ) − (a2 + 2ab + b2 )
3 4
4a2 + 4ab + 4b2 − 3a2 − 6ab − 3b2
=
12
2
(b − a)
= .
12
3)
Z ∞
tX
MX (t) = E(e ) = etx fX (x)dx
−∞
1 1 ebt − eat
= · (etb − eta ) = .
b−a t (b − a)t
√
3 b−a
√
Igualmente se puede obtener que CV = 3 a+b
, ası́ mismo, β1 = 0, es decir,
el modelo siempre es simétrico.
6.3.2. Distribución Gamma

Algunas v.a. son no negativas y tienen distribuciones que son sesgadas a la
derecha y los valores de la f.d.p. disminuyen gradualmente cuando la variable
aumenta. Como ejemplo para este tipo de variable se tiene la distribución
Gamma, la cual ha tenido múltiples aplicaciones, sobretodo en análisis de
sobre vivencia y funciones de riesgo.
Función Gamma
La función Gamma es definida por
Z ∞
Γ(r) = tr−1 e−t dt,
0
donde r ∈ R+ .
Teorema 6.3.2. 1. Γ(1) = 1.
2. Γ(α + 1) = αΓ(α) para α > 1 con α ∈ R+ .
3. Γ(α) = (α − 1)! para α ∈ Z+ .
√
4. Γ( 12 ) = π.
Demostración. 1.
Z ∞
Γ(1) = e−t dt = −e−t |∞
0 = 1.
0
2.
∞ ∞
xα
Z Z
α−1 −x −x
Γ(α) = x
e dx = e d
0 0 α
α Z ∞ α
−x x ∞ x −x
=e |0 + e dx
| {zα } 0 α
Z ∞=0 α
x −x Γ(α + 1)
= e dx = .
0 α α
Entonces,
Γ(α + 1) = αΓ(α) = αΓ((α − 1) + 1) = α(α − 1)Γ(α − 1)

= α(α − 1)(α − 2)Γ(α − 2)
= α(α − 1)(α − 2)(α − 3)Γ(α − 3) . . .
3. Para α ∈ Z+ , entonces por el resultado anterior tenemos que
Γ(α + 1) = α(α − 1)(α − 2) · · · 1Γ(1) = α(α − 1)(α − 2) . . . 1 = α!
4.
Z ∞
1 − 12 −x y2
Γ = x e dx, haciendo x =
2 0 2
√ Z ∞
y2
= 2 e− 2 dy
√ Z0 ∞
2 y2
= e− 2 dy (∗)
2 −∞
Z ∞
1 y2
=√ e− 2 dy.
2 −∞
y2
El resultado en (∗) se da porque e− 2 es una función simétrica, enton-
R ∞ y2 R∞ y2 R y2
ces 0 e− 2 dy, = 21 −∞ e− 2 dy. Ahora, e− 2 dy no tiene una antide-
rivada; sin embargo, se puede usar un argumento auxiliar apoyado en
coordenadas polares para encontrar esta antiderivada. Ası́, tomando
Z ∞
y2
I= e− 2 dy,
−∞
entonces, Z ∞ Z ∞
(x2 +y 2 )
2
I = e− 2 dxdy,
−∞ −∞
luego usando coordenadas polares, se tiene usando
x = r cos(θ) y y = r sin(θ) → x2 + y 2 = r2 cos2 (θ) + r2 sin2 (θ) = r2
y calculando el jacobiano de la transformación J(r, θ), con respecto

a la nuevas variables r y θ, se llega a J(r, θ) = r. De acuerdo a la
transformación realizada se tiene que los lı́mites de integración de r y

θ vienen dados por: 0 < r < ∞ y 0 < θ < 2π. (puesto que x e y
recorren todos los reales). Entonces,
Z ∞ Z 2π 2
Z ∞
r2
− r2
2
I = re dθdr = 2π re− 2 dr
0
h 0 r2 i 0
= 2π −e− 2 |∞
0 = 2π.
Es decir, Z ∞
y2 √
I= e− 2 dy = 2π.
−∞
Luego,
1 √
Z ∞
√

1 1 y2
Γ =√ e− 2 dy = √ 2π = π.
2 2 −∞ 2
Observación 6.3.1. Del resultado anterior, podemos deducir que

Z ∞ Z ∞
1 2
− y2
√ 1 y2
√ e dy = π ⇒ √ e− 2 dy = 1.
2 −∞ 2π −∞
y 2
Por tanto, f (x) = √1 e− 2 es una fdp.
2π
Definición 6.3.2. Una v.a.c. X tiene distribución Gamma, con parámetros

α > 0 y β > 0, si su fdp está dada por
β α α−1 −βx
Γ(α)
x e si x > 0
fX (x) =
0 si x ≤ 0
La notación para esta distribución es X ∼ Gamma(α, β).
Observación 6.3.2. La fdp de la distribución gamma de parámetros

α y β toma una variedad de formas dependiendo de los valores de α
y β; para α < 1, f es estrictamente decreciente y f (x) → 0 cuando
x → ∞, mientras que f (x) → ∞ cuando x → 0.
(α−1)
Para α > 1, la densidad f tiene una única moda en x = β
con valor
[(α−1)e−1 ](α−1)
máximo βΓ(α)
.
2.5
1.2
β = 4.5 β = 4.5
β=3 β=3
β = 1.5 β = 1.5
2.0
β = 0.75
1.0
β = 0.75
0.8
1.5
densidad
densidad
0.6
1.0
0.4
0.5
0.2
0.0
0.0
0 2 4 6 8 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
x x
(a) (b)
Figura 6.9: Distribución Gamma (a) α = 2,5 (b) α = 1,25.

1.2
0.5
α = 4.5 α = 4.5
α=3 α=3
α = 1.5 α = 1.5
1.0
α = 1.25 α = 1.25
0.4
0.8
0.3
densidad
densidad
0.6
0.2
0.4
0.1
0.2
0.0
0.0
0 2 4 6 8 0 2 4 6 8 10 12 14
x x
(a) (b)
Figura 6.10: Distribución Gamma (a) β = 1,75 (b) β = 0,75.
Los gráficos siguientes muestran el comportamiento de la distribución Gamma(α, β)

para distinto valores de los parámetros.
Teorema 6.3.3. Sea X ∼ Gamma(α, β). Entonces,
Γ(α+n) 1
1. E(X n ) = Γ(α) β n
.
2. E(X) = αβ .
α
3. V (X) = β2
.
α
β
4. MX (t) = β−t
si t < β.
Demostración. 1.
∞ Z ∞
βα
Z
n
E(X ) = n
x f (x) dx = xn xα−1 e−βx dx
0 Γ(α) 0
β α Γ(α + n) ∞ β α+n
Z
= α+n
x(α+n)−1 e−βx dx
Γ(α) β 0 Γ(α + n)
| {z }
Gamma(α+n,β)
Γ(α + n) 1
= .
Γ(α) β n
2. Por el resultado del inciso (1) se tiene que para n = 1,
Γ(α + 1) 1 αΓ(α) 1 α
E(X) = = = .
Γ(α) β Γ(α) β β
3. Para n = 2, en el inciso (1) se tiene que
Γ(α + 2) 1 α(α + 1)Γ(α) 1 α(α + 1)

E(X 2 ) = 2
= 2
= ,
Γ(α) β Γ(α) β β2
entonces,
α(α + 1) α2 α
V (X) = E(X 2 ) − E 2 (X) = − = .
β2 β2 β2
4. La función generadora de momentos viene dada por:

Z ∞
β α α−1 −βx
MX (t) = etx x e dx
0 Γ(α)
Z ∞ α
β
= xα−1 e−(β−t)x dx
0 Γ(α)
β (β − t)α ∞ α−1 −(β−t)x
α Z
= x e dx
Γ(α) (β − t)α 0
α Z ∞
(β − t)α α−1 −(β−t)x

β
= x e dx
β−t 0 Γ(α)
| {z }
Gamma(α,β−t)
α
β
=
β−t
−α
t
= 1− .
β
√
De este resultado se puede obtener que CV = α−1/2 , también, β1 = 2CV >
0, es decir, el modelo siempre es asimétrico a la derecha.
Ejemplo 6.3.2. El tiempo, en minutos, que transcurre en una central te-
lefónica antes que entren tres llamadas es una v.a. gamma de parámetros
α = 3 y β = 4. ¿ Cuál es la probabilidad de que pase un minuto antes de que
entren tres llamadas,? ¿ cuánto tiempo se espera que pase para que entren
tres llamadas?
solución:
Sea T la v.a. que mide el tiempo que transcurre antes de que entren tres
llamadas, entonces
Z 1 Z 1
βα α−1 −βt 43
P (T ≤ 1) = t e dt = t2 e−4t dt = 0,7618.
Γ(α) 0 Γ(3) 0
3
Ası́ mismo, E(T ) = 4
= 0,75 minutos.
6.3.3. Relación entre la Gamma y la Poisson

Suponga que la variable aleatoria X(t) sigue una distribución de Poisson
de parámetro λ por unidad de tiempo. Sea Tk el tiempo de ocurrencia del
k-ésimo evento y sea
Fk (t) = P (Tk ≤ t) para t ≥ 0.
Entonces,
P (Tk > t) = 1 − P (Tk ≤ t)

= P (k-ésimo evento ocurra después del tiempo t)
= P (número de eventos en [0, t] es menor que k)
= P (X(t) < k)
= P (X(t) ≤ k − 1)
k−1
X
− λt ( λt )j
= e .
j=0
j!
Luego, para t ≥ 0,
1 k

d 1 t t
fk (t) = − P (Tk > t) = k tk−1 e− λ = λ tk−1 e− λ
dt λ (k − 1)! Γ(k)
y fr (t) = 0 para t < 0. La cual es una función Gamma con α = k y β = λ1 ,

excepto que k es un número entero, k ≥ 1.
6.3.4. Distribución Exponencial

Análogo al caso de la distribución geométrica, donde X mide el número de
eventos hasta el primer éxito, ahora mostramos el mismo caso para variables
continuas.
Suponga una secuencia de eventos que ocurren aleatoriamente en el tiempo
de acuerdo a la distribución de Poisson de parámetro (tasa) λ > 0. Para
este caso estudiamos el número de éxitos X(t), en el intervalo [0, t]. Suponga
ahora que necesitamos responder sobre el tiempo de espera para que ocurra
el primer éxito. Entonces, si T es la v.a. que mide el tiempo transcurrido
hasta que ocurre el primer éxito, entonces
P (T > t) = P (ningún evento en [0, t]) = P (X(t) = 0) = e−λt

lo esto implica que
FT (t) = P (T ≤ t) = 1 − P (T > t) = 1 − e−λt .

Por tanto, la función de densidad de la v.a. T viene dado por
−λt
d λe si t ≥ 0
fT (t) = − P (T > t) =
dt 0 si t < 0
La notación para esta distribución es T ∼ Exp(λ).
La fdp anterior es conocida como la función de densidad exponencial. Su fda
es dada por
1 − e−λt si t ≥ 0

FT (t) =
0 si t < 0.
Observación 6.3.3. Se puede verificar que la distribución exponencial, Exp(λ)
es un caso particular de la distribución Gamma(α, β), cuando α = 1 y β = λ.
Algunos autores definen la distribución exponencial a partir de esta relación.
Como λ es positivo y T sólo toma valores no negativos, entonces es claro que
la fdp fT (t) es estrictamente decreciente, con única moda en t = 0, donde
fT (t) toma el valor máximo λ. La mediana de fT (t) ocurre cuando FT (a) =
1 − e−λa = 12 , entonces a = logλ 2 es la mediana de la distribución. En las
siguiente figuras se observa el comportamiento de la distribución exponencial
para valores del parámetro λ por encima y por debajo de uno
Teorema 6.3.4. Sea X ∼ Exp(λ) ≡ Gamma(1, λ). Entonces,
1) E(X) = λ1 .
1
2) V (X) = λ2
.
1
3) MX (b) = λ−b
= 1 − λb , para b < λ.
Demostración. 1) Hallemos primero la fórmula del n-ésimo momento. En
efecto,
∞ ∞
Γ(n + 1) λn+1
Z Z
n −λt
n
E(T ) = λ z e dt = λ · · t(n+1)−1 e−λt dt
0 Γ(n + 1) λn+1 0
Γ(n + 1)
= .
λn
Luego, para n = 1
Γ(1 + 1) 1 · Γ(1) 1
E(T ) = = = .
λ λ λ
λ = 4.5 λ = 0.75
λ=3 λ = 0.5
λ = 1.5 λ = 0.25
0.6
0.6
densidad
densidad
0.4
0.4
0.2
0.2
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
x x
(a) (b)
Figura 6.11: Distribución Exponencial (a) λ > 1 y (b) λ < 1.
2) Ahora, para n = 2 en E(T n ), se tiene
Γ(2 + 1) 2 · Γ(1 + 1) 2 · 1 · Γ(1) 2

E(T 2 ) = 2
= 2
= 2
= 2,
λ λ λ λ
entonces
2 1 1
V (T ) = − = .
λ2 λ2 λ2
3)
Z ∞ −1
−(λ−b)t λ 1 b
MX (b) = λ e dx = = b
= 1− , b < λ.
0 λ−b 1− λ
λ
√
Se sigue que CV = 1 y β1 = 2, entonces el modelo es asimétrico a la
derecha.
Proposición 6.3.1. (Falta de memoria)

Sea T ∼ Exp(λ). Entonces, para s, t ≥ 0 se tiene que
P (T > t + s|T > s) = P (T > t).

Demostración.
P ([T > t + s] ∩ [T > s])
P (T > t + s|T > s) =
P (T > s)
P (T > t + s) e−λ(t+s)
= =
P (T > S) e−λs
= e−λt = P (T > t).
Ejemplo 6.3.3. La duración en horas de una determinada marca de lampa-

ras eléctricas es una v.a. con función de densidad de probabilidad
fX (x) = 0,02e−0,02x I[0,∞) .
Encuentre la probabilidad de que una lampara cualquiera seleccionada al azar
tenga una duración de por lo menos 150 horas.
Solución:
Z 150
P (X ≥ 150) = 1 − P (X < 150) = 1 − 0,02 e−0,02x dx
0
= 1 − (1 − e−0,02×150 ) = e−3 = 0,0497.
Ejemplo 6.3.4. Suponga que el tiempo de atendimiento en la ventanilla de
un banco tiene una distribución exponencial de parámetro λ = 0,2 es decir,
un promedio de atendimiento de 5 minutos por persona. La probabilidad de
que el tiempo de atendimiento de un cliente sea por lo menos de 10 minutos
es
P (X ≥ 10) = e−0,2×10 = e−2 = 0,1353.
Entonces, la probabilidad de que el tiempo de atendimiento de un cliente sea
mayor de 15 minutos dado que el tiempo de atendimiento ha sido mayor de
10 minutos es
P (X > 15|X > 10) = P (X > 5+10|X > 10) = P (X > 5) = e−0,2×5 = 0,3679.
Teorema 6.3.5. Sea T una v.a.c. Entonces, T ∼ Exp(λ) con λ > 0, si y
sólo si
P (T > t + h|X > h) = P (T > t), para todo h, t ∈ [0, ∞).
Demostración. (⇒) Suponga primero que T ∼ Exp(λ) con λ > 0, entonces,

P (T > t + h|T > h) P (T > t + h)
P (T > t + h|T > h) = =
P (T > h) P (T > h)
e−λ(t+h)
= −λt
= e−λh = P (T > t).
e
(⇐) Para probar el recı́proco, note que, si P (T > t + h|T > h) = P (T > t),
entonces
P (T > t + h)
= P (T > t),
P (T > h)
y por tanto
P (T > t + h) = P (T > t)P (T > h) ∀h, t ≥ 0.
Ahora, tomando G(t) = P (T > t) se obtiene que G(t + h) = G(t)G(h).

Luego,
G(t + h) − G(t) = G(t)(G(h) − 1).
Entonces, dividiendo por h 6= 0 se tiene que
G(t + h) − G(t) G(t)(G(h) − 1) G(t)(G(h) − G(0))
= = , h 6= 0
h h h
y tomando lı́mite a ambos lados de la igualdad obtenemos
G(t + h) − G(t) G(h) − G(0)
lı́m = G(t) lı́m ,
h→0 h h→0 h
entonces,
G0 (t) = G(t)G0 (0) es decir, G0 (t) − G(t)G(0) = 0,
ası́, haciendo G(t) = y se obtiene la ecuación diferencial

dy
+ λy = 0 con λ = −G0 (0)
dt
de donde, Z Z
dy dy
= −λdt ⇒ = −λ dt
y y
es decir,
∗
ln y = −λt + c∗ ⇒ y = e−λt+c
por tanto, la solución se deja escribir en la forma y = ce−λt es decir, G(t) =

ce−λt . Ası́, G(0) = ce0 = c = 1, más anteriormente se definió G(0) = 1, luego
se concluye que c = 1. Ası́, G(t) = e−λt .
Entonces, la fda de T es
FT (t) = 1 − G(t) = 1 − e−λt ,
y la función de densidad de T es
fT (t) = λe−λt , es decir , T ∼ Exp(λ).
6.3.5. Función de Sobrevivencia

Para modelar el tiempo de vida de un organismo o un sistema de componen-
tes, es necesario estudiar la función de sobrevivencia
S(t) = P (T > t) = 1 − P (T ≤ t) = 1 − F (t).
También es muy usada la función Hazard (tasa de falla) λ(t), definida por
f (t) S 0 (t)
h(t) = =− .
S(t) S(t)
La función h(t) puede ser interpretada como la densidad de probabilidad

condicional que un componente con t años de viejo, falle.
Se puede demostrar que para h(t) = λ, ∀t > 0,
f (t) = −S 0 (t) = λ exp (−λt) para t > 0.
6.3.6. Distribución Chi-cuadrado

Sea X ∼ Gamma(α, β). Entonces, si α = n2 , donde n es un número entero
positivo y β = 21 , la función de densidad resultante es conocida como distri-
bución Chi-cuadrado (Ji-cuadrado), con n grados de libertad, cuya fdp viene
dada por
n
( 21 ) 2 n −1 − 1 x
fX (x) = n x 2 e 2 , x > 0.
Γ( 2 )
Esta distribución la denotamos por Gamma n2 , 21 , usualmente también se

usa la notación χ2n . Las caracterı́sticas de esta distribución se obtienen direc-

tamente de las obtenidas para la distribución Gamma(α, β). El comporta-
miento de la distribución Chi-cuadrado para distintos grados de libertad se
muestra a continuación.
0.25
n=3
n=4
n=5
0.20
n=6
0.15
densidad
0.10
0.05
0.00
0 5 10 15
Figura 6.12: Distribución de Chi-cuadrado.
6.3.7. Distribución Beta

Modelos estadı́sticos que expliquen una variables respuestas en el intervalo
(0, 1) han recibido gran atención en las últimas décadas. Entre estos modelos
uno que ha recibido gran atención es la distribución beta, la cual ha sido
aplicada pra modelar tasas o porcentajes de distintas variables, tales como
tasa de muerte por determinada enfermedad, porcentaje de ingreso dedicado
a telefonı́a celular, porcentaje de viviendas en ciertos suburbios con ante-
na parabólica o por satélite, etc. Inicialmente se estudia la función beta y
posteriormente se define la distribución beta.
Definición 6.3.3 (Función Beta). La función integral
Z 1−
B(α, β) = xα−1 (1 − x)β−1 dx,
0+
es convergente para α > 0 y β > 0. Esta es llamada la función Beta. Para

α ≤ 0 o β ≤ 0 esta integral es divergente.
En efecto:
1
Z
2
Z 1−
(α−1) β−1
B(α, β) = x (1 − x) dx + xα−1 (1 − x)β−1 dx
1
0+ 2
Z 1 Z 1
2 2
= xα−1 (1 − x)β−1 dx + y β−1 (1 − y)α−1 dy, y = 1 − x.
0+ 0+
Z 1
2
Entonces, es suficiente analizar xα−1 (1 − x)β−1 dx, la cual diverge para
0+
α ≤ 0 o β ≤ 0, converge para 0 < α < 1, y para α ≥ 1 es una integral
propia.
Teorema 6.3.6. Para α > 0, β > 0.
1. B(α, β) = B(β, α)
Γ(α)Γ(β)
2. B(α, β) = Γ(α+β)
Demostración. 1. Sea y = 1 − x, entonces

Z 1− Z 1−
α−1 β−1
B(α, β) = x (1 − x) dx = y β−1 (1 − y)α−1 dy = B(β, α)
0+ 0+
2. Tomando x = y 2 , entonces
Z ∞ Z ∞
α−1 −x 2
Γ(α) = x e dx = 2 y 2α−1 e−y dy
0 0
y
Z ∞ Z ∞
β−1 −x 2
Γ(β) = x e dx = 2 y 2β−1 e−y dy
0 0
Luego,
Z ∞ Z ∞
2 +y 2 )
Γ(α)Γ(β) = 4 x2α−1 y 2β−1 e−(x dxdy
0 0
Tomando x = rcosθ y y = rsenθ, se tiene que

Z πZ ∞
2 2
Γ(α)Γ(β) = 4 r2(α+β)−1 (cosθ)2β−1 (senθ)2α−1 e−r drdθ
o 0
Z π Z ∞
2 2
=2 (senθ)2α−1
(cosθ)2β−1
dθ 2 r2(α+β)−1 e−r dr
0
| 0 {z }
Γ(α+β)
Z π
2
= 2Γ(α + β) (senθ)2α−1 (cosθ)2β−1 dθ
0
Z 1
Ahora, en B(α, β) = xα−1 (1 − x)β−1 dx sea x = sen2 θ, entonces,
0
1 − x = 1 − sen2 θ = cos2 θ y también, dx = 2senθcosθ. Entonces,
Z 1
B(α, β) = xα−1 (1 − x)β−1 dx
0
Z π
2
= (senθ)2(α−1) (cosθ)2(β−1) 2senθcosθ dθ
0
Z π
2
=2 (senθ)2α−1 (cosθ)2β−1 dθ
0
Luego,
Γ(α)Γ(β) = Γ(α + β)B(α, β).
Por lo tanto,
Γ(α)Γ(β)
B(α, β) = .
Γ(α + β)
En lo que sigue, escribiremos:

Z ∞ Z 1
α−1 −x
Γ(α) = x e dx y B(α, β) = xα−1 (1 − x)β−1 dx.
0 0
Definición 6.3.4. La f.d.p de una v.a. con distribución Beta esta dada por
1
B(α,β)
xα−1 (1 − x)β−1 si 0 < x < 1
fX (x) =
0 caso contrario.
Si una v.a. X sigue la distribución Beta de parámetros α y β, se denota por
X ∼ Beta(α, β).
Observación 6.3.4. La fdp de la distribución beta, Beta(α, β), tiene algunas

caracterı́sticas, entre estas sobresalen:
i) Si α > 1 y β > 1, entonces f (x) → 0 cuando x → 0 o x → 1.
ii) Si 0 < α < 1, entonces fX (x) → ∞ cuando x → 0.
iii) Si 0 < β < 1, entonces fX (x) → ∞ cuando x → 1.
iv) Para α > 1 y β > 1, f tiene una única moda en
α−1
x= .
α+β−2
v) Para α < 1 y β < 1, f tiene un único mı́nimo en
α−1
x= .
α+β−2
y la densidad tiene forma de u.
vi) Cuando α = β, entonces fX (x) es simétrica alrededor de la mediana

x = 12 .
En el siguiente gráfico se puede observar como se comporta la distribución

beta para algunos valores de sus parámetros.
Teorema 6.3.7. Sea X ∼ Beta(α, β). Entonces, para n ∈ Z + ,
Γ(α+β)Γ(α+1)
1. E(X n ) = Γ(α)Γ(α+β+n)
.
α
2. E(X) = α+β
.
αβ
3. V (X) = (α+β)2 (α+β+1)
.
6.3. DISTRIBUCIONES PARA VARIABLES CONTINUAS
3.5 223
3.5
β=5 α=3
β = 2.5 α = 1.5
β = 0.75 α = 0.75
3.0
3.0
β = 0.25 α = 0.25
2.5
2.5
2.0
2.0
densidad
densidad
1.5
1.5
1.0
1.0
0.5
0.5
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x
(a) (b)
Figura 6.13: Distribución Beta (a) α = 3,5 y (b) β = 0,75.
Demostración. 1.
Z 1 Z 1
n 1 n
E(X ) = x f (x)dx = xn xα−1 (1 − x)β−1 dx
0 B(α, β) 0
Z 1
1
= xα+n−1 (1 − x)β−1 dx
B(α, β) 0
Z 1
B(α + n, β) 1
= · xα+n−1 (1 − x)β−1 dx
B(α, β) 0 B(α + n, β)
| {z }
Beta(α+n,β)
| {z }
=1
Γ(α+n)Γ(β)
B(α + n, β) Γ(α+β+n)
= = Γ(α)Γ(β)
B(α, β)
Γ(α+β)
Γ(α + β)Γ(α + n)
= .
Γ(α)Γ(α + β + n)
2. Del resultado anterior, para n = 1 se tiene que
Γ(α + β)Γ(α + 1) Γ(α + β)αΓ(α) α

E(X) = = = .
Γ(α)Γ(α + β + 1) Γ(α)(α + β)Γ(α + β) α+β
3. Para n = 2, se tiene
Γ(α + β)Γ(α + 2) Γ(α + β) · (α + 1) · α · Γ(α)
E(X 2 ) = =
Γ(α)Γ(α + β + 2) Γ(α)(α + β + 1)(α + β)Γ(α + β)
α(α + 1)
= .
(α + β)(α + β + 1)
Entonces,
αβ
V (X) = E(X 2 ) − E 2 (X) = .
(α + β)2 (α + β + 1)
q
β
Igualmente se puede obtener que CV = α(α+β+1)
y

> 0 (asimétrica a la derecha) si β > α
s
p 2(β − α) α+β+1
β1 = 0 (simétrica) si β = α
α+β+2 αβ
< 0 (asimétrica a la izquierda) si β < α.

Ejemplo 6.3.5. La proporción de computadoras portátil de una cierta li-

nea que solicitaron servicio técnico antes de cumplirse el año de garantı́a
que ofrece la empresa distribuidora, es una v.a. con distribución beta con
parámetros α = 3 y β = 2. ¿ Cuál es la probabilidad que más del 75 % de la
nueva versión de la misma linea de computadoras portátiles soliciten servi-
cio técnico antes de cumplirse el año de garantı́a.? ¿ Cuál es la proporción
esperada de portátiles con solicitud de servicio técnico antes de cumplirse el
año de garantı́a.?
Solución: Sea la v.a. X = proporción de portátiles que solicitan servicio

técnico antes de cumplirse el año de garantı́a. Entonces, para 0 < X < 1
1
fX (x) = x2 (1 − x) = 12(x2 − x3 )
B(3, 2)
y
1
x3 x4
Z
2 3
1
P (X > 0,75) = 12(x − x ) dx = 12 − 0,75 = 0,2617.
0,75 3 4
3
También, E(X) = 3+2 = 0,6 es decir, se espera que el 60 % de los portátiles
de la nueva versión soliciten soporte técnico antes del primer año de garantı́a.
6.3.8. Distribución Normal

La distribución normal es quizas la distribución más importante en la teorı́a
estadı́stica clásica, sus múltiples aplicaciones en la vida real le han dado este
estatus. Son muchas las variables que en distintos escenarios o áreas siguen
una distribución normal. Esta distribución es la base de muchos procedi-
mientos de la inferencia estadı́stica, tales como la construcción de intervalos
de confianza y pruebas de hipótesis, son de gran soporte en la inferencia en
los modelos de regresión y análisis de varianza, en general son muchos los
campos de la estadı́stica donde esta distribución a tenido muchos aportes.
Definición 6.3.5. La distribución de una v.a. X se dice ser normal de

parámetros µ y σ 2 si su fdp es dada por:
1 1 x−µ 2
fX (x) = √ e− 2 ( σ ) , x ∈ R, µ ∈ R, σ ∈ R+
2πσ
La notación para esta distribución es X ∼ N (µ, σ 2 ).
Claramente se observa que
f (µ + x) = f (µ − x), entonces f es simétrica respecto a µ.

Rµ R∞
Dado que X es simétrica respecto a µ, entonces −∞ fX (x)dx = µ fX (x)dx =
0,5, es decir que µ también es la mediana de la distribución. Por otro
lado, la derivada del logaritmo de la fdp de X con respecto a x es
−2 21 x−µ
1
σ σ
, ası́, igualando a cero esta expresión se obtiene x = µ y
como la segunda derivada del logaritmo de la fdp con respecto a x es
− σ12 < 0, entonces el máximo de la función ocurre en x = µ, por tanto,
la moda de la v.a. X es µ. Ası́, se ha demostrado que la mediana y la
moda de la distribución coinciden y son iguales a µ.
Siguiendo el mismo procedimiento del inciso anterior se puede demos-

trar que los puntos de inflexión de la fdp ocurren en µ − σ y µ + σ;
mientras que la única ası́ntota ocurre en y = 0, puesto que, como puede
verificarse fácilmente,
lı́m fX (x) = lı́m fX (x) = 0.

x→∞ x→−∞
0.4
µ = −2 σ = 0.75
0.5
µ=0 σ=1
µ=2 σ = 1.75
0.3
0.4
0.3
densidad
densidad
0.2
0.2
0.1
0.1
0.0
0.0
−6 −4 −2 0 2 4 6 −4 −2 0 2 4
x x
(a) (b)
Figura 6.14: Distribución Normal (a) σ = 1,0 y (b) µ = 0.
La siguiente figura muestra la fdp de la v.a. normal para algunos valores de

los parámetros. En todos los casos se puede observar que la forma es la de
una campana.
Cuando µ = 0 y σ 2 = 1 se dice que X tiene distribución normal estándar.
La notación para la distribución normal estándar es X ∼ N (0, 1) y su fdp
está dada por
1 1 2
fX (x) = √ e− 2 x = φ(x), x ∈ R,
2π
aquı́ introducimos la notación φ(·) para denotar la función de densidad de
una normal estándar.
Generalmente, si X ∼ N (µ, σ 2 ), entonces Z = X−µσ

∼ N (0, 1). La función
de distribución acumulada de una v.a.c. con distribución normal estándar,
N (0, 1), es
Z x Z x
1 1 2
FX (x) = f (t) dt = √ e− 2 t dt = Φ(x),
−∞ −∞ 2π
donde Φ(·) denota la acumulada de la v.a. X con distribución normal estándar.
El gráfico siguiente muestra el comportamiento de esta función.
Por otro lado, dada la simetrı́a de la fdp, para x < 0 se tiene que
Z x Z ∞ Z −x
Φ(x) = fX (t) dt = 1 − fX (t)dt = 1 − f (t) dt = 1 − Φ(−x),
−∞ x −∞
1.0
0.8
0.6
Φ(x)
0.4
0.2
0.0
−4 −2 0 2 4
Figura 6.15: fda de la normal.
por tanto, la fda también es simétrica, al rededor de cero, en el sentido de la

igualdad anterior. Note que
Φ(x) = 1 − Φ(−x) = P (X > −x).
Ası́ mismo, la fda de una normal de parámetros µ y σ 2 es:
x−µ
x
x−µ
Z Z
1 1 t−µ 2 σ 1 1 2
FX (x) = √ e− 2 ( σ ) dt = √ e− 2 z dz = Φ ,
−∞ 2πσ −∞ 2π σ
es decir,

x−µ x−µ
FX (x) = P (X ≤ x) = P Z ≤ =Φ .
σ σ
Note además que

a−µ X −µ b−µ
P (a ≤ X ≤ b) = P ≤ ≤
σ σ σ

a−µ b−µ
=P ≤Z≤
σ σ

b−µ a−µ
=P Z≤ −P Z ≤
σ σ

b−µ a−µ
=Φ −Φ .
σ σ
Observación 6.3.5. El lector no debe olvidar que Z = X−µ σ

sigue una
distribución normal estándar, N (0, 1).
Rx 1 2
Como la integral −∞ √12π e− 2 z dz no se puede obtener en forma cerra-
da, esto usualmente se aproxima por medio de métodos numéricos. En
la literatura clásica existen tablas que tiene el valor de esta integral para
distintos valores de x. En otros casos, existen paquetes computacionales
que calculan esta integral numéricamente. Entre estos paquetes nom-
bramos el paquete estadı́stico R, el cual es de libre acceso, mediante el
cual se pueden calcular estas probabilidades acumuladas usando cier-
tos código. En especial para calcular la probabilidad P (X ≤ x) donde
X ∼ N (µ, σ 2 ), usamos el código pnorm(x, µ, σ). Ası́,
• Si X ∼ N (200, 152 ) entonces para calcular
Φ(220) = P (X ≤ 220)
se obtiene en R,
pnorm(220, 200, 15) = 0,9087 −→ Φ(220) = P (X ≤ 220) = 0,9087,
ası́ mismo
• P (X ≥ 224) = 1−P (X ≤ 224) = 1−Φ(224) entonces procedemos
ası́: 1 − pnorm(224, 200, 15) = 0,0547, es decir, 1 − Φ(224) =
1 − pnorm(224, 200, 15) = 0,0547.
• P (191 < X < 209) = Φ(191) − Φ(209) = pnorm(209, 200, 15) −
pnorm(191, 200, 15) = 0,4514.
Usando el mismo argumento del inciso anterior, se puede corroborar

que bajo una distribución normal, el 68,26 % de las observaciones se
encuentra a una desviación estándar de la media poblacional. En efecto:
−1
Figura 6.16: fda de la normal para µ − σ < X < µ + σ..

µ−σ−µ X −µ µ+σ−µ
P (µ − σ < X < µ + σ) = P < <
σ σ σ
σ σ
=P − <Z<
σ σ
= P (−1 < Z < 1)
= Φ(1) − Φ(−1)
= 0,8413 − 0,1586 = 0,6826
es decir que el 68,26 % de las observaciones se encuentran a una des-
viación estándar de la media.
Asi mismo, también se puede verificar que el 95.44 % de las observacio-
nes se encuentra a dos desviaciones estándar de la media poblacional,
mientras que el 99.74 % se encuentra a tres desviaciones estándar de
la media poblacional. Verificamos la primera parte de este enunciado y
dejamos a los lectores verificar la segunda parte. Entonces,
−2
2
Figura 6.17: fda de la normal para µ − 2σ < X < µ + 2σ.

µ − 2σ − µ X −µ µ + 2σ − µ
P (µ − 2σ < X < µ + 2σ) = P < <
σ σ σ

2σ 2σ
=P − <Z<
σ σ
= P (−2 < Z < 2)
= Φ(2) − Φ(−2)
= 0,9772 − 0,0227 = 0,9544.
es decir que el 95,44 % de las observaciones se encuentran a dos des-

viaciones estándar de la media.
Teorema 6.3.8. Sea X ∼ N (µ, σ 2 ). Entonces,
1. E(X) = µ.
2. V (X) = σ 2 .
√
3. β1 = 0.
4. β2 = 3.
1 2 t2
5. MX (t) = eµt+ 2 σ .
Demostración. 1.
∞
x−µ
Z
1 1 x−µ 2
E(X) = x√ e− 2 ( σ ) , haciendo z =
−∞ 2πσ σ
Z ∞
1 1 2
=√ (µ + σz)e− 2 z σdz
2πσ
Z ∞ −∞ Z ∞
1 − 1 z2 σ 1 2
=µ √ e 2 dz + √ ze− 2 z dz
−∞ 2π 2π −∞
| {z }
N (0,1)
Z ∞ 2
σ − 12 z 2 z
=µ+ √ e d
2π −∞ 2
σ − 1 z ∞
= µ − √ e 2 −∞ = µ.
2π
| {z }
=0
Es decir bajo una distribución normal, media, moda y mediana coinci-

den.
2.
Z∞
1 1 x−µ 2
V (X) = E(X − µ) = 2
(x − µ)2 √ e− 2 ( σ ) dx
−∞ 2πσ
Z ∞
1 y 2
= σ2 y 2 √ e− 2 dy, haciendo z = y 2
−∞ 2π
2 Z ∞
σ 1 z
=√ z 2 e− 2 dz
2π 0
3
σ 2 Γ( 23 ) ∞ ( 12 ) 2 3 −1 − 1 y
Z
=√ y 2 e 2 dy
2π ( 21 ) 2 0 Γ( 23 )
3
| {z }
Gamma( 32 , 21 )
σ 2 Γ( 21 + 1)
=√ 3
2π ( 12 ) 2
1
σ2 2
Γ( 21 )
= 1√ 3
22 π ( 12 ) 2
√
σ2 π
= 3√ 1 3
22 π (2)2
= σ2.
3.
3
E(X − µ)3

p X −µ
β1 = 3 =E
(V (X)) 2 σ
Z ∞ 3
x−µ 1 1 x−µ 2
= √ e− 2 ( σ ) dx
−∞ σ 2πσ
Z ∞
1 1 2
=√ z 3 e− 2 z dz
2π −∞
Z 0 Z ∞
1 3 − 12 z 2 3 − 12 z 2
=√ z e dz + z e dz
2π −∞ 0
Z ∞ Z ∞
1 3 − 21 y 2 3 − 12 y 2
=√ − y e dy + y e dy
2π 0 0
= 0.
4.
4
E(X − µ)4

X −µ
β2 = =E
(V (X))2 σ
Z ∞ 4
x−µ 1 1 x−µ 2
= √ e− 2 ( σ ) dx
σ 2πσ
Z−∞∞
1 1 2
= √ z 4 e− 2 z dz
2π
Z−∞∞
= z 4 φZ dz
−∞
= 3Φ(z) − (z 3 + 3z)φ(z) |∞

−∞
= [3(1) − 0] − [3(0) − 0]
= 3.
5.
Z ∞
1 1 x−µ 2
tX
MX (t) = E(e ) = √ etx e− 2 ( σ ) dx
2πσ −∞
Z ∞ 1 x2 −2µx+µ2
1 −
σ2
+tx
=√ e 2 dx
2πσ −∞
Z ∞
1 1 x2 −2µx+µ2 −2σ 2 tx
=√ e− 2 σ2 dx
2πσ −∞
Z ∞
1 2 2 2
1 x −2(µ+σ t)x+µ ±(µ+σ t)
2 2
=√ e− 2 σ2 dx
2πσ −∞
Z ∞
1 2 2 2
1 (x−(µ+σ t)) +µ −(µ+σ t)
2 2
=√ e− 2 σ2 dx
2πσ −∞
Z ∞
1 2
1 (x−(µ+σ t))
2
1 2
=√ e− 2 σ2 eµt+ 2 σ t dx
2πσ −∞
Z ∞
µt+ 21 σ 2 t 1 2
1 (x−(µ+σ t))
2
=e √ e− 2 σ2 dx
−∞ 2πσ
| {z }
N (µ+σ 2 t,σ 2 )
1 2
= eµt+ 2 σ t .
Ejemplo 6.3.6. De acuerdo a experiencias anteriores, un entrenador supo-

ne que la calificación obtenida por un grupo de atletas sigue una distribución
Normal, N (µ, σ 2 ), el entrenador de acuerdo a resultados anteriores asignar la
calificación Excelente, E, para aquellos atletas cuyo calificación final excede
µ + 2σ, calificación sobresaliente , S, para los que obtienen calificación entre
µ + σ y µ + 2σ, calificación bueno , B, para aquellas atletas con calificacio-
nes entre µ y µ + σ, calificación aceptable , A, para aquellos con calificación
entre µ − σ y µ y deficiente, D, a los atletas con calificaciones menores de
µ − σ. ¿ Que porcentaje de atletas se encuentra en cada categorı́a, es decir,
que proporción de estudiantes obtienen en cada caso puntaje E, S, B, etc?
Solución:

X −µ
PE = P (X > µ + 2σ) = 1 − P (X ≤ µ + 2σ) = 1 − P ≤2
σ
= 1 − P (Z < 2) = 1 − Φ(2) = 1 − 0,9772 = 0,0227.

X −µ
PS = P (µ + σ < X < µ + 2σ) = P 1 < <2
σ
= P (1 < Z < 2) = Φ(2) − Φ(1) = 0,9772 − 0,8413 = 0,1359.

X −µ
PB = P (µ < X < µ + σ) = P 0 < <1
σ
= P (0 < Z < 1) = Φ(1) − Φ(0) = 0,8413 − 0,5 = 0,3413.

X −µ
PA = P (µ − σ < X < µ) = P −1 < <0
σ
= P (−1 < Z < 0) = Φ(0) − Φ(−1) = 0,5 − 0,1587 = 0,3413.

X −µ
PD = P (X < µ−σ) = P < −1 = P (Z < −1) = Φ(−1) = 0,1586.
σ
6.3.9. Distribución Log-Normal

Al igual que la distribución gamma, la distribución log-normal es una al-
ternativa para modelar v.a. con soporte positivo. Eta distribución ha tenido
gran aplicabilidad en la teorı́a de análisis de sobre vida, asimismo en estudios
de cáncer, tiempo de falla, etc. Su nombre se debe a que esta distribución es
una transformación de una v.a. normal.
Definición 6.3.6. Sean X > 0 una v.a. y Y = ln X. Si Y ∼ N (µ, σ 2 ),
entonces se dice que X tiene distribución log-Normal. La fdp de la v.a. X,
de parámetros µ y σ 2 , es
1 1 ln x−µ 2
fX (x) = √ e− 2 ( σ ) , x > 0, µ ∈ R, σ ∈ R+ .
2πσx
La notación para esta distribución es X ∼ LN (µ, σ 2 ).
El comportamiento de esta distribución se puede observar en el siguiente
gráfico.
1.5
µ=1 σ = 0.75
µ=0 σ=1
µ = − 0.5 σ = 1.5
1.5
µ = −1 σ=2
1.0
1.0
densidad
densidad
0.5
0.5
0.0
0.0
0 1 2 3 4 5 6 0 1 2 3 4 5 6
x x
(a) (b)
Figura 6.18: Distribución Normal (a) σ = 1,0 (b) µ = 0.
Teorema 6.3.9. Sea X ∼ LN (µ, σ 2 ). Entonces,

1 2
1. E(X) = eµ+ 2 σ
2 2
2. V (X) = e2(µ+σ ) − e2µ+σ
3. MX (t) no existe.
Demostración. En general, Y = ln X implica que X = eY y X 2 = e2Y y

1 2
dado que Y ∼ N (µ, σ 2 ), se tiene que MY (t) = eµt+ 2 σ t . Entonces, apoyados
en esta relación se sigue que:
1.
1 2 (1) 1 2
E(X) = E(eY ) = MY (1) = eµ(1)+ 2 σ = eµ+ 2 σ .
2.
2 2
E(X 2 ) = E(e2Y ) = MY (2) = e2µ+2σ = e2(µ+σ ) .
Entonces,
2 2
V (X) = E(X 2 ) − E 2 (X) = e2(µ+σ ) − e2µ+σ
3. Ver texto de Liliana Blanco.
6.3.10. Distribución de Cauchy

La distribución de Cauchy es otra de las distribuciones aplicadas en teorı́a de
riesgo, dado que a pesar que tiene forma de campana, es mucho más achatada
y sus colas son más pesadas que las colas de la distribución normal.
Definición 6.3.7. Una v.a. X se dice que tiene distribución de Cauchy si

su fdp está dada por
1
fX (x) = h i.
x−µ 2
πσ 1 + σ
La función de distribución acumulada de una v.a. con distribución de Cauchy

viene dada por:
Z x
1 1 x−µ
FX (x) = f (t) dt = + arctan
−∞ 2 π σ
La siguiente figura muestra la fdp de la v.a. de Cauchy para algunos valores

de los parámetros. En todos los casos se puede observar que la forma es la de
una campana con colas más pesadas que las colas de la distribución normal.
µ=2
0.30
σ = 0.5
0.6
µ=1
σ = 0.75
µ=0
σ=1
µ = −1
σ=2
0.25
0.5
0.20
0.4
densidad
densidad
0.15
0.3
0.10
0.2
0.05
0.1
0.00
0.0
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
x x
(a) (b)
Figura 6.19: Distribución de Cauchy (a) σ = 1,0 y (b) µ = 0.
La media y los momentos superiores de una v.a. de Cauchy no existen.

En efecto:
Sea X una v.a.c. de Cauchy, entonces

∞ Z ∞
x−µ
Z
2 x
|x|f (x) dx = 2 dx, haciendo u =
−∞ πσ 0 1 + x−µ σ
σ
Z ∞
σ 1
= du
π 0 1+u
σ
= ln |1 + u|∞
0
π
= ∞.
Es decir, E(X) no existe.
6.3.11. Distribución Weibull

Una de las distribuciones de gran importancia en el análisis de sobre vivencia
es la distribución Weibull, esta al igual que las distribuciones Gamma y
exponencial se ha usado en el análisis de funciones de riesgo en la teorı́a de
colas.
Definición 6.3.8. Una v.a. X tiene distribución Weibull de parámetros α y

β, si su fdp está dada por
β
αβxβ−1 e−αx si x ≥ 0
fX (x) =
0 caso contrario.
La notación usada para esta distribución es X ∼ W (α, β).
Se puede observar que la distribución exponencial es un caso particular del

modelo Weibull cuando β = 1. Ası́ mismo, para β = 2 se obtiene la distribu-
ción de Rayleigh. El comportamiento de la distribución Weibull con paráme-
tro de escala α = 1 y parámetro de forma β se muestra en la siguiente figura
para algunos valores de β.
1.2
β=3
β = 1.5
β = 0.75
1.0
β = 0.25
0.8
densidad
0.6
0.4
0.2
0.0
0 1 2 3 4
Figura 6.20: Distribución de Weibull.
Teorema 6.3.10. Si X ∼ W (α, β), entonces

1
1. E(X) = ( α1 ) β Γ( β1 + 1).
2
2. V (X) = ( α1 ) β [Γ( β2 + 1) − Γ2 ( β1 + 1)].
Demostración. 1.
Z ∞
β
E(X) = αβ x · xβ−1 e−αx dx
0
Z ∞
1
=α y β e−αy dy, tomando y = xβ
Z0 ∞
1
=α y (1+ β )−1 e−αy dy
0
1
Γ(1 + β1 ) α(1+ β ) Z ∞ (1+ 1 )−1 −αy
=α· y β e dy
(1+ β1 ) 1
α Γ 1+ β 0

Γ 1 + β1 ( β1 )
1 1

=α 1
= Γ 1+ .
α(1+ β ) α β
2.

2
Z ∞
2
Γ 1+ β
E(X 2 ) = αβ y ( β ) e−αy dy = αβ 1
0 α(1+ β )
β2
1 2
= Γ 1+ .
α β
Entonces,
β2
2 1 2 2 2 1
V (X) = E(X ) − E (X) = Γ 1+ −Γ 1+ .
α β β
6.3.12. Distribución de Laplace o Exponencial Doble

Se dice que una v.a. X tiene distribución de Laplace si su f.d.p está dada por
1 − |x−α|
fX (x) = e β donde α ∈ R y β > 0.
2β
El siguiente gráfico muestra como se comporta esta dı́stribución, es claro que

la derivada en x = 0 no existe.
0.5
2.0
α=3 β=3
α=1 β=1
α=0 β=0
α = −2 β = −2
0.4
1.5
0.3
densidad
densidad
1.0
0.2
0.5
0.1
0.0
0.0
−4 −2 0 2 4 6 −4 −2 0 2 4
x x
(a) (b)
Figura 6.21: Distribución de Laplace (a) β = 1,0 y (b) α = 0.
Teorema 6.3.11. 1) E(X) = α.

2) V (X) = 2β 2 .
Demostración. 1)
α Z Z ∞
1 (x−α) (x−α)
− β
E(X) = xe β dx + xe dx
2β −∞ α
Z 0 Z ∞
1 y −y x−α
= (βy + α)e βdy + (βy + α)e βdy ; con y =
2β −∞ 0 β
 
Z 0 Z ∞ Z 0 Z ∞
1 y −y y −y

=  β ye dy + ye dy +α e dy + e dy 
2 −∞ 0 −∞ 0

| {z }
=0
α
= (1 + 1) = α.
2
2) La prueba se deja como ejercicio.
6.3.13. Distribuciones Mixtas

Hasta ahora, hemos hecho análisis de distribuciones que pueden ser continuas
o discretas. Ellas son las mas importantes en las aplicaciones, sin embargo es
posible que se presenten situaciones de tipo mixto. La variable aleatoria toma

ciertos valores distintos x1 , x2 , ..., xn1 con probabilidades positivas y toma
otros valores en algún intervalo [a, b]. Cual es la distribución de probabilidad
en este caso? Entonces, se le asigna a cada valor xi un numero p(xi ) tal
Xn1
que p(xi ) ≥ 0 para todo i y que p(xi ) = p < 1; luego definimos una
i=1
función f que cumpla las condiciones: f (x) > 0 para todo x ∈ [a, b] y ademas
Z b
f (x) dx = 1 − p. Por lo tanto para todo a, b ∈ R con −∞ < a − b < ∞ se
a
tendrá que:
n1
X Z b n1
X
P [a ≤ X ≤ b] + p(xi ) = f (x) dx + p(xi ) = (1 − p) + p = 1.
i=1 a i=1
Ejemplo 6.3.7. Supongamos que estamos probando un equipo y sea X el

tiempo de funcionamiento. La variable X se describirá generalmente como
una variable aleatoria continua con valores X > 0. Sin embargo, en algu-
nos casos es posible que haya una probabilidad positiva, de que el equipo no
funcione del todo, falla al tiempo X = 0, esto significa que se debe cambiar
el modelo y originar una probabilidad positiva, por ejemplo, al para X = 0,
se tendrı́a entonces. P [X = 0] = p y P [X > 0] = 1 − p. de esta manera p
describirá la situación en X = 0 mientras que f (x) la describirá en x > 0.
6.3.14. Desigualdad de Chebyshev

La desigualdad de Chebyshev proporciona limites, en función de la varianza
y la media poblacional, para la probabilidad de que una variable aleatoria
exceda un cierto valor de interés, además este resultado es independiente del
tipo de distribución que tenga la variable aleatoria de interés. Ası́ mismo, el
Teorema se puede aplicar aún si no se conoce la distribución de la v.a. de
interés pero si son conocidos la media y la varianza de la v.a.
Teorema 6.3.12. Sea X una v.a. con media µ finita y varianza σ 2 . Entonces,
para cualquier valor > 0, se tiene que
1
P (|X − µ| ≥ kσ) ≤ .
k2
Demostración. Sean Y = |X − µ| y A = {Y ≥ }. Entonces, se tiene las

consecuencias Y 2 = (X − µ)2 y Y 2 ≥ Y 2 IA (x). Ası́,
V (X) = σ 2 = E[(X − µ)2 ] = E(Y 2 )

Z ∞
2
≥ E(Y IA (x)) = y 2 fY (y)dy

Z ∞
≥ fY (y)dy = 2 P (A).
2

Entonces,
σ2
P (A) = P (|X − µ| ≥ ) ≤ ,
2
luego, tomando = kσ se sigue el resultado.
Ejemplo 6.3.8. Para el caso de una distribución normal, con media µ y

varianza σ 2 se tiene que
1
P (|X − µ| ≥ 2σ) ≤ = 0,25 ó también que P (|X − µ| ≤ 2σ) ≥ 0,75.
22
Este resultado contiene el resultado encontrado para la distribución normal
P (−2 ≤ Z ≤ 2) = 0,9544 puesto que la desigualdad de Chebyshev es un
resultado universal. Sin embargo como la desigualdad de Chebyshev se cumple
para cualquier distribución sus resultados son débiles, en ciertas ocasiones
como la ilustrada anteriormente. Muy a pesar el Teorema ofrece una cota
inferior para la probabilidad en mención. En el caso ilustrado el Teorema
solo da la información que bajo una distribución normal la probabilidad de
que la v.a. caiga a lo máximo a dos desviaciones estándar de la media es
0.75; sin embargo no da información de cuanto más podrı́a ser. En este
caso particular se conoce que esta probabilidad es 0.9544, es decir, que solo
conociendo la distribución de la v.a. se puede calcular exactamente cuanto
es la probabilidad de que la v.a. se encuentra a k desviaciones estándar de la
media.
Capı́tulo 7
Funciones de Variables
Aleatorias
Introducción: Sea una X v.a.c. que mide el radio de la entrada de un tubo

bien calibrado. Definamos ahora la función A como el área de la sección de
entrada; como A = πX 2 , es correcto pensar que A es también una variable
aleatoria, pues depende de X que es una variable aleatoria. Si se conoce la
fdp f de X se esperarı́a que la fdp g de A también fuese conocida.
Definición 7.0.9. Sea (Ω, =, P ) un espacio de probabilidad y sea X una v.a.
consideremos una función g : R → R continua y estrictamente monótona
(↑ o ↓). Entonces Y = g(X) es también una v.a.
Observación 7.0.6. La definición anterior esta soportada en el hecho
que la composición de una variable aleatoria con una funicón continua,
es una v.a. de acuerdo al Teorema demostrado en la sección dos.
El interés ahora se dirige en determinar la relación existente entre FX

y FY .
Definición 7.0.10. Sucesos Equivalentes: Sean un experimento, Ω el
espacio muestral asociado y X una variable aleatoria definida en Ω. Si y =
H(x) una función real de x, entonces Y = H(X) es una variable aleatoria
puesto que para cada X1 ∈ Ω se asigna un único valor de Y , llamado Y =
H(X(1) ).
Gráficamente se tiene la situación:
243
244 CAPÍTULO 7. FUNCIONES DE VARIABLES ALEATORIAS
Figura 7.1: Composición de funciones
Definición 7.0.11. Sea C un suceso asociado con el recorrido de Y (C ⊆ RY )

Definamos B (⊆ Rx ) como sigue:
B = {x ∈ RX | H(x) ∈ C}
Si B y C están relacionadas de esa forma decimos que son equivalentes.
Observaciones 7.0.1. Suponga que A es un suceso asociado a Ω y por lo

tanto equivale a un suceso B asociado a RY . Si C es equivalente a B y B lo
es de A, entonces C es un suceso equivalente a A.
Ejemplo 7.0.9. Sea H(x) = πx2 . Los sucesos B = {X > 2} y C = {Y >

4π} son equivalentes.
En efecto: sea y = H(x) ↔ Y = H(X). Como Y > 4π, entonces πX 2 > 4π
esto significa que X 2 > 4 y por lo tanto X > 2. Ası́, los sucesos B y C son
equivalentes. Gráficamente se puede observar en la figura 2.2.
Definición 7.0.12. Sea X una variable aleatoria definida en el espacio mues-

tral Ω y RX su recorrido. Sea H una función real y sea Y = H(X) con
recorrido RY . Para cualquier C ⊂ RY se define:
P (C) = P [{x ∈ RX : H(x) ∈ C}]

= P [{x ∈ RX : H(X(ω)) ∈ C}].
Ejemplo 7.0.10. Sea X una variable aleatoria con fdp f (x) = e−x (x > 0).
Sea H(x) = 2x + 1.
245
Figura 7.2: Ilustración ejemplo
a) Hallar RX , RY ,
b) Si C = {Y ≤ 5} Hallar un suceso B equivalente a C,
c) Halle P (C).
Solución:
a) Como x > 0, claramente RX = {x|x > 0}. Ahora; puesto que x > 0
entonces 2x + 1 y como y = H(x), entonces y > 1 ası́ se tiene que
RY = {y|y > 1}
b) El suceso Y ≤ 5 equivale a 2X + 1 ≤ 5 lo cual implica que X ≤ 2. por

lo tanto el suceso {Y ≤ 5} equivale al suceso {X ≤ 2} = B
c) Como B y C son equivalentes, hallar P (C) equivale a hallar P (B),

luego
Z ∞
1
P (C) = P (B) = P (X ≤ 2) = e−x dx = 2 .
2 e
1
Ası́, P [Y ≤ 5] = e2
.
7.1. Funciones aleatorias discretas

X es una variable aleatoria discreta:
En caso de que X sea una v.a.d. entonces para Y = H(X) es obvio que Y es
una variable aleatoria discreta porque suponiendo que los valores posibles de
X son x1 , x2 , ..., xn , ..., entonces los valores de Y se pueden enumerar como
y1 = H(x1 ), y2 = H(x2 ), ..., yn = H(xn ), ...
incluso, algunos de los valores posibles de Y pueden ser iguales, pero esto no
implica que no se puedan enumerar.
Ejemplo 7.1.1. Suponga que la variable aleatoria X toma los valores 1, 2, 3
con igual probabilidad. Sea Y = 2X + 3; los valores posibles de Y son 5, 7, 9
con igual probabilidad.
Ejemplo 7.1.2. Suponga que X toma valores −1, 0, 1 con probabilidad 31 , 12 ,
1
6
respectivamente. Sea Y = X 2 , entonces los valores posibles de Y son 0, 1
con probabilidad 21 , 12 respectivamente.
En efecto:
1
Y = 0 ↔ X = 0; entonces, P [Y = 0] = P [X = 0] =
2
Y = 0 ↔ X = 1 ó − 1; entonces, P [Y = 1] = P [X = 1] + P [X = −1]
1 1 1
= + = .
6 3 2
Ejemplo 7.1.3. Suponga que X toma valores 1, 2, 3, ..., n, .. y además,
n
1
P [X = n] = .
2

1 si x es par
Sea Y =
−1 si x es impar.
Hallar:
P[Y=1],
P[Y=-1].
Solución:
7.2. FUNCIONES ALEATORIAS CONTINUAS 247
Y = 1 ↔ X = 2 ó 4 ó 6 ó · · · ó 2n ó · · · , luego
P [Y = 1] = P [X = 2n] n = 1, 2, 3, · · ·
= P [X = 2] + P [X = 4] + ...
1 1 1 1
= + + + + ···
4 16 64 256
1 1 1 1
= 1+ + + + ···
4 4 16 64
1 1
=
4 1 − 14
1
= .
3
1
P [Y = −1] = 1 − P [Y = 1] = 1 − 3
= 23 .
7.1.1. X es una variable aleatoria continua

Puede suceder que X sea una variable aleatoria continua mientras que Y sea
discreta. Por ejemplo, suponga que X toma todos los valores reales mientras
que Y se define ası́:
1 si x ≥ 0
Y =
−1 si x < 0.
Para obtener P [Y = 1] y P [Y = −1] basta encontrar P [X ≤ 0] y P [X < 0],
al usar la fdp de X es posible hallar éstas probabilidades.
7.2. Funciones aleatorias continuas

El caso más importante es cuando X es una variable aleatoria continua con
fdp f y H es una función continua. Luego Y = H(X) es una función continua.
El objetivo es tratar de hallar la fdp g de Y .
El procedimiento general será:
a) Obtener G la fdp de Y , en donde G(Y ) = P [Y ≤ y], al encontrar el
suceso A(⊆ RX ) que es equivalente al suceso {Y ≤ y}.
b) Derivar G(y) con respecto a Y para obtener g(y).

c) Determinar los valores de y en el recorrido de Y (RY ) para los cuales

g(y) > 0.
Ejemplo 7.2.1. Suponga que X tiene fdp dada por:

2x si 0 < x < 1
f (x) =
0 en otro caso.
Sea y = H(x) = 3x + 1. Hallar la fdp g de Y = H(X).
Solución:
H(x) = y ⇔ H(X) = Y, de aquı́ que y = 3x + 1 lo escribimos Y = 3X + 1.
a)

y−1
G(y) = P [Y ≤ y] = P [3X + 1 ≤ y] = P X ≤
3
Z y−1 2
3 y−1
= 2x dx = .
0 3
0
b) g(y) = G0 (y) = (( y−1
3
)2 ) = 2( y−1
3
)( 13 ) = 92 (y − 1), entonces
2
g(y) = (y − 1).
9
c) Como f (x) > 0 para 0 < x < 1 y dado que y = 3x + 1, entonces

0 < 3x < 3 luego 1 < 3x + 1 < 4 es decir 1 < y < 4.
ası́, g(y) > 0 para 1 < y < 4.
Otro método.
y−1 y−1
G(y) = P [Y ≤ y] = P [X ≤ ] = F( )
3 3
0
0 0 y−1 y−1
→ g(y) = G (y) = F
3 3

y−1 1
=f
3 3

y−1 1
=2 .
3 3
2
= (y − 1).
9
Note en este ejemplo que la función y = 3x + 1 es creciente.
Ejemplo 7.2.2. Suponga que X tiene fdp

2x si 0 < x < 1
f (x) =
0 en otro caso.
Sea H(x) = e−x . Hallar la fdp g de Y = H(X).
Solución:
a)
G(y) = P [Y ≤ y] = P [e−X ≤ y]
= P [ln e−X ≤ ln y]
= P [−X ≤ ln y]
= P [X ≥ − ln y]
Z 1
= 2x dx
− ln y
1
= x2 − ln y
= 1 − (− ln y)2 .
b)
g(y) = G0 (y) = (1 − (− ln y)2 )0
= 0 − 2(− ln y)(− ln y)0
2 ln y
=− .
y
c) Como f (x) > 0 para 0 < x < 1 y dado que y = e−x , entonces g(y) > 0
para 1e < g < 1. En efecto:
0 < x < 1 ↔ e0 < ex < e1
↔ 1 < ex < e
1
↔ 1 > e−x >
e
1
↔ < y < 1.
e
Otro método:
G(y) = P [Y ≤ y] = P [X ≤ − ln y] = 1 − P [X < − ln y] = 1 − F (− ln y)
entonces,
G0 (y) = 0 − F 0 (− ln y)(− ln y)0 = −f (− ln y).(− y1 ) = − 2 lny y .
Ejemplo 7.2.3. Sea

1 si 0 < x < 1
f (x) =
0 caso contrario
y sea Y = g(X) = eX . Encontrar GY .

 0 si x ≤ 0
1 si 0 < x < 1
Si f (x) = entonces, FX (x) = x si 0 < x < 1
0 caso contrario
1 si x ≥ 1.

Luego,
G(y) = P (Y ≤ y) = P (eX ≤ y) = P (X ≤ log(y))
= F (ln y)
= ln y, si 1 < y < e

 0 si y ≤ 1 1
y
si 1 < y < e
→ G(y) = ln y si 1 < y < e → f (y) =
0 caso contrario.
1 si y ≥ e.

Ejemplo 7.2.4. Sea X una v.a. con fda F (x). Entonces, la distribución de
Y = FX (x) es:
G(y) = P (Y ≤ y) = P (FX (x) ≤ y)
= P (X ≤ FX−1 (y))
= FX (FX−1 (y))
=y
además, como FX (x) es una probabilidad, entonces y ∈ (0, 1). Se sigue que
f (y) = 1, para y ∈ (0, 1) es decir, Y ∼ U (0, 1).
Observación 7.2.1. El resultado del ejemplo anterior es de gran interés

cuando se quiere general número pseudo-aleatorios independientes de una
v.a.c. que sigue cierta distribución, puesto que independiente de la distribu-
ción que siga la variable aleatoria, digamos X, se tiene que FX (x) ∼ U (0, 1).
Entonces, dado que FX (x) es una función continua no decreciente, para
u = FX (x) con u ∈ (0, 1) se sigue que x = FX−1 (u) donde FX−1 es la función
inversa de FX . Por ejemplo, si X ∼ Exp(2), entonces FX (x) = 1−e−2x , luego
para u = 0,3558, se tiene que 0,3558 = 1 − e−2x entonces, e−2x = 0,6442, de
donde se sigue que x = −0,5(ln 0,6442) = 0,2198. Para variables aleatorias
con fda más complejas, se puede usar algún software para la generación de
los números aleatorios.
Ejemplo 7.2.5. Sea X una v.a. con fda F (x). Entonces, la distribución de
Y = − ln F (x) es:
G(y) = P (Y ≤ y) = P (− ln F (x) ≤ y)
= P (ln F (x) ≥ −y)
= P (F (x) ≥ e−y )
= 1 − P (F (x) ≤ e−y )
= 1 − P (X ≤ F −1 (e−y ))
= 1 − F (F −1 (e−y ))
= 1 − e−y ,
entonces f (y) = e−y , para y > 0 es decir, Y ∼ Exp(1).
Ejemplo 7.2.6. Supongase que la v.a. X está distribuida uniformemente en

(−1, 1). Encuentre la fdp de la variable aleatoria Y = sin( π2 X).
Solución:
Como X está distribuida uniformemente en (−1, 1), su fdp está dada por
1
2
si −1 < x < 1
f (x) = P (X = x) =
0 caso contrario.
Además, −1 < x < 1 implica que − π2 < π2 x < π2 y como la función sin(x) es
creciente en (− π2 , π2 ), entonces X = π2 arcsin(Y ) y como sin(x) ≤ A si y sólo
si x ≤ arcsin(A), entonces,
π
2 2
G(y) = P (Y ≤ y) = P sin X ≤ y = P X ≤ arcsin(y) = F arcsin(y) .
2 π π
Luego, la fdp de Y está dada por:
0
0 2
g(y) = G (y) = F arcsin(y)
π

0 2 2 1
=F arcsin(y) · · p
π π 1 − y2

2 2
= p f arcsin(y)
π 1−y 2 π
2 1 2
= p · puesto que − 1 < arcsin(y) < 1
π 1 − y2 2 π
1
= p .
π 1 − y2
Como f (x) > 0 para −1 < x < 1, entonces − π2 < π2 x < π2 y por lo tanto
sin(− π2 ) < sin( π2 x) < sin( π2 ) y esto implica que −1 < sin( π2 x) < 1, esto es,
−1 < y < 1.
Concluimos entonces que
1 1
(1 − y 2 )− 2 si −1 < y < 1
g(y) = P (X = x) = π
0 caso contrario.
Es claro que g(y) ≥ 0 para todo y ∈ (−1, 2), además
Z ∞ Z 1
1 1 1 1 1 1 1
g(y)dy = p dy = arcsin(y)|−1 = + = 1.
−∞ −1 π 1 − y2 π π π π
Por lo tanto, g(y) es una buena fdp para Y .

En los ejemplos anteriores, las transformaciones Y = 2X +1 y Y = F (X) son
funciones crecientes (Y = sin( π2 X) es creciente en el (−π/2, π/2)), mientras
que Y = e−X y Y = − ln F (X) son funciones decrecientes. En cada caso el
método de la transformación utilizado se apoyo en la función de distribución,
razón por la cual algunos autores se refieren a esta metodologı́a como método
de la función de distribución. Un paso importante en este método es el

de sustituir el evento {Y ≤ y} por el evento equivalente en función de X, lo
cual resulta sencillo siempre y cuando la función o transformación realizada
sea estrictamente creciente o estrictamente decreciente. En general, cuando
H es creciente {H(X) ≤ y} ⇔ {X ≤ H −1 (y)} y cuando H es decreciente
{H(X) ≤ y} ⇔ {X ≥ H −1 (y)}. El método para encontrar la fda de la v.a.
Y = H(X) se puede generalizar como sigue:
Teorema 7.2.1.
1. Sea g : R → R una función estrictamente creciente y sea (a, b) = g(R).
Entonces, si X es una v.a. con función de distribución FX , la fda de
Y = g(X) será:

 0 si y ≤ a
−1
FY (y) = FX (g (y)) si a < y < b
1 si y ≥ b

2. Sea g : R → R una función estrictamente decreciente en (a, b) = g(R).

Entonces,
a) si X es una v.a. con función de distribución Fx se tiene que

 0 si y ≤ a
FY (y) = 1 − P (X < g −1 (y)) si a < y < b
1 si y ≥ b

b) si X es una v.a.c. se tiene que


 0 si y ≤ a
−1
FY (y) = 1 − FX (g (y)) si a < y < b
1 si y ≥ b

Demostración. Si y ∈ (a, b), entonces

FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≤ g −1 (y)) = FX (g −1 (y)).
Si y ≤ a, note que: {ω : g(X(ω)) ≤ a} = ∅, luego
P ({w : g(X(w)) ≤ a}) = P (∅) = 0.
Si y ≥ b, note que: {ω : g(X(ω)) ≥ b} = Ω

luego
P ({ω : g(X(ω)) ≥ b}) = P (Ω)1.
1. FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = 1 − P (g(X) > y) =

1 − P (X < g −1 (y)).
FY (y) = 1 − P (X < g −1 (y)) = 1 − P (X ≤ g −1 (y)) = 1 −
FX (g −1 (y)).
En forma similar, para determinar la fdp de la v.a. Y = H(X) se puede

utilizar el siguiente resultado:
Teorema 7.2.2. Sea g : R → R una función estrictamente monótona y

diferenciable con g 0 (y) 6= 0. Sea (a, b) = g(R) entonces, si X es una v.a.
absolutamente continua con función de densidad fX , la fdp de Y = g(X) es:

−1
d −1
fY (y) = fX (g (y)) g (y) , si y ∈ (a, b)
dy
Demostración. i) Si g es ↑ entonces,
d −1
FY (y) = FX (g −1 (y)) −→ fY (y) = fX (g −1 (y)) · g (y)
dy
ii) Si g es ↓ entonces,

−1 −1 d −1
FY (y) = 1 − FX (g (y)) −→ fY (y) = fX (g (y)) · − g (y)
dy
luego, de i) y ii) se sigue que

−1
d −1
fY (y) = fX (g (y)) · g (y) .

dy
Ejemplo 7.2.7. Sea X ∼ N (0, 1). Encontrar la distribución de Y = µ+σX,

−∞ < µ < ∞, σ > 0.
Solución:
Dado que y = µ + σx entonces, x = g −1 (y) = y−µ
σ
entonces, dyd −1
g (y) = σ1 .
Luego,

y−µ 1 1 y−µ 1 1 y−µ 2
fY (y) = fX · = Φ
=√ e− 2 ( σ ) ; y ∈ R.
σ σ σ σ 2πσ
Entonces, Y ∼ N (µ, σ 2 ).
Observación 7.2.2. Al usar los dos Teoremas anteriores para encontrar la

fda o la fdp de la v.a. Y, resalta la pregunta sobre el rango de la esta variable
aleatoria. Las dos siguientes anotaciones ayudan a despejar esta inquietud.
Cuando y = H(x) con H una función creciente y a < x < b entonces,

puesto que H es creciente se tiene que H(a) < H(x) < H(b), esto es,
H(a) < y < H(b).
Cuando y = H(x) con H una función decreciente y a < x < b entonces,

puesto que H es decreciente se tiene que H(b) < H(x) < H(a), esto
es, H(b) < y < H(a).
Reconsideramos ahora algunos de los ejemplos anteriores a través del Teore-

ma anterior.
Ejemplo 7.2.8. Sea X una v.a. con fdp

2x si 0 < x < 1
f (x) =
0 en otro caso.
Sea Y = 3X + 1, encontrar la fdp de la v.a. Y

Solución:
Como Y = H(X) = 3X + 1 es creciente aplicamos el teorema anterior, en-
tonces,
y = 3x + 1 ⇔ x = y−1
3
entonces, dx
dy
= 13 . Luego,
g(y) = f ( y−1
3
) · | 13 | = 2( y−1
3
) · 13 = 29 (y − 1). y como 0 < x < 1 y y = 3x + 1 es
creciente, entonces H(0) < y < H(1) es decir, 1 < y < 4 esto significa que
g(y) > 0 para 1 < y < 4.

2x si 0 < x < 1
f (x) =
0 en otro caso
Sea y = e−x , para x > 0.

Solución:
Es claro que y = e−x es decreciente. Entonces, y = e−x ↔ x = − ln y
entonces, dx
dy
= − y1 . Luego,
g(y) = f (− ln y)| − ln y| = 2(− ln y) y1 = − 2 lny y y se tiene que g(y) > 0 para
H(1) < y < H(0), es decir, para e−1 < y < 1.
Ejemplo 7.2.10. Sea X una variable aleatoria con función de distribución

acumulativa continua y estrictamente creciente.
a) Determinar una función de densidad de la variable aleatoria Y = |X|
b) Hallar la función de distribución acumulativa de la variable aleatoria

Y = X3
Solución:
a) Sea Y = |X| entonces FY (y) = P (Y ≤ y), como X es una v.a. con fdp
continua y estrictamente creciente se tiene que:
P (|X| ≤ y) si y > 0
FY (y) =
0 si y ≤ 0
P (−y ≤ X ≤ y) si y > 0
es decir, FY (y) =
0 si y ≤ 0
llegando finalmente a:

FX (y) − FX (−y) si y > 0
FY (y) =
0 si y ≤ 0.
Por lo tanto,
la función de densidad de la v.a. Y está dada por:
fX (y) − fX (−y) si y > 0
fY (y) =
0 si y ≤ 0.
b) Ya que la f.d.a es continua y estrictamente creciente, tenemos:

√ √
FY (y) = P (Y ≤ y) = P (X 3 ≤ y) = P (X ≤ 3
y) = FX ( 3 y).
Observación 7.2.3. Si y = H(x) no es una función monótona de x, enton-

ces no podemos aplicar el método anterior. En su lugar se aplica el método
general bosquejado inicialmente.
Teorema 7.2.3. Sea X una variable aleatoria con fdp f . Sea Y = X 2 .

Entonces la variable aleatoria Y tiene fdp dada por:
1 √ √
g(y) = √ [f ( y) + f (− y)]
2 y
Demostración. Claramente Y = X 2 no es monótona. luego
√ √ √ √
G(y) = P [Y ≤ y] = P [X 2 ≤ y] = P [− y ≤ X y] = F ( y) − F (− y).
Entonces,
√ √ √ √
G0 (y) = F 0 ( y)( y)0 − F 0 (− y)(− y)0

√ 1 √ 1
= f ( y) √ − f (− y) − √
2 y 2 y
1 √ √
entonces, g(y) = √ [f ( y) + f (− y)]; además 0 < y < ∞.
2 y
Ejemplo 7.2.11. Suponga que la fdp f de una v.a.c X viene dada por:
1

2
si −1 < x < 1
f (x) =
0 si en otro caso.
Sea Y = X 2 . Hallar g(y) para y > 0.
√
Solución: y = x2 no es monótona; x2 = y ↔ x = y entonces,
g(y) = 2√1 y 12 + 12 = 2√1 y y además 0 < y < 1.

Ejemplo 7.2.12. Sea X ∼ N (0, 1) y Y = X 2 . Entonces,
G(y) = P (Y = y) = P (X 2 ≤ y)
√ √
= P (− y ≤ X ≤ y)
Z √y
= √
f (x) dx
− y
Z √y
2 1 2
=√ e− 2 x dx; tomando z = x2
2π Z 0
y
1 1 1
=√ √ e− 2 z dz
2π 0 2z
1
2 −1 y 1 −1 − 1 z
Z
2
= 1 z 2 e 2 dz
Γ( 2 ) 0
1 1

entonces, Y ∼ Gamma ,
2 2
= X12 .
7.2.1. Técnica de la Función Generadora de Momentos
Para una v.a. X la fdp de la v.a. Y = H(X) también se puede encontrar

mediante la técnica de la función generadora de momentos. Esta técnica se
basa en el siguiente Teorema, enunciado cuando se estudio la fgm de una v.a.
Teorema 7.2.4. Si X y Y son variables aleatorias tales que MX (t) = MY (t)

entonces, las variables aleatorias X y Y tienen la misma distribución, es
decir, X ∼ Y.
El uso de esta técnica se ilustrará mediante el siguiente ejemplo.

Ejemplo 7.2.13. Sea X N (0, 1) y Y = X 2 . Entonces,

Z ∞
tX 2 1 2 1 2
tY
MY (t) = E(e ) = E(e ) = √ etx e− 2 x dx
2π −∞
Z ∞
1 1 2
= √ e− 2 (1−2t)x dx
2π −∞
!2
Z ∞ −1 x−0
1 2 −1
=√ e (1−2t) 2
dx
2π −∞
!2
Z ∞ − 21 x−0
− 12 1 −1
= (1 − 2t) √ 1 e
(1−2t) 2
dx
−∞ 2π(1 − 2t)− 2
| {z }
N (0,(1−2t)−1 )
1 12
2
= 1 (1)
2
−t
1 12
2
= 1 .
2
−t
1
12
Ahora 1 −t 2
corresponde a la fgm de una v.a. gamma de parámetros α =
2
β = 1/2, que corresponde a la distribución de una chi-cuadrado con un grado
de libertad. Entonces, Y ∼ Gamma 12 , 12 = χ21 .
Ejemplo 7.2.14. Sea X ∼ Gamma n2 , β para n ∈ Z + y β > 0. Entonces

para Y = 2βX
n2 1 n2
2t
X β
MY (t) = E(etY ) = E(e β )= = 1
2
,
β − 2βt 2
−t
n 1

la cual corresponde a la fgm de una v.a. Gamma ,
2 2
, es decir, Y ∼
Gamma n2 , 21 = χ2n .

Capitulos3 Distribuciones

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Capitulos3 Distribuciones

Enviado por

Direitos autorais:

Formatos disponíveis

NOTAS DE PROBABILIDAD

1. Conceptos Básicos y Notaciones 7

2. Elementos de Análisis Combinatorio 19

3.2. Conceptos Preliminares . . . . . . . . . . . . . . . . . . . . . . 52

4. Espacios Muestrales Finitos 89

5. Variables Aleatorias 119

6. Distribuciones de Probabilidad 173

6.2. Propiedades de la distribución binomial . . . . . . . . . . . . . 184

7. Funciones de Variables Aleatorias 243

Conceptos Básicos y Notaciones

En esta sección se estudian algunos conceptos básicos de la teorı́a de conjun-

1.1. Conjuntos, sucesiones de Conjuntos y fun-

esta familia mediante la notación {Ak }k∈Γ , {Ar : r ∈ Γ}.

1.2. Operaciones generalizadas

De la misma forma, la intersección generalizada es el conjunto formado por

3. En el caso que Γ conste de dos elementos usaremos la notación A1 ∪ A2

Observación 1.2.2. Para algunas operaciones básicas entre conjuntos usa-

2. A − B es la diferencia entre los conjuntos A y B, es decir, el conjunto

3. A 4 B = (A ∪ B) − (A ∩ B), es la diferencia simétrica entre A y B, es

1.3. Propiedades de operaciones entre con-

3. A 4 B = (A − B) ∪ (B − A), es la diferencia simétrica entre A y B, es

1.3.1. Número de elementos de un conjunto.

Si A ∩ B = Φ, entonces el número de elementos de A ∪ B, notado η (A ∪ B)

Si A ∩ B 6= ∅, entonces el número de elementos de A ∪ B es:

Una forma de “ ver ” esto es la siguiente:

Sean las regiones R1 = A ∩ B c , R2 = A ∩ B y R3 = Ac ∩ B como en la figura.

Es claro que: A ∪ B = (A ∩ B c ) ∪ (A ∩ B) ∪ (Ac ∩ B). Luego:

= η (A) + η (R3 ) + η (R2 ) − η (R2 )

Ejercicio: Hallar una formula para η (A ∪ B ∪ C) , tenga presente el siguien-

1.4. Sucesiones de Conjuntos

2. El conjunto de todos los puntos de Ω que pertenecen a todos los An , a

1.5. Sucesiones monótonas

2. Una sucesión {An }n=1,2,... se dice decreciente o monótona no creciente(↓)

4. Escribimos sucesiones crecientes de conjuntos con la notación An ↑ y

Ejemplo 1.5.1. Encuentre: 1) lı́m supn An y 2) lı́m inf n An si:

Entonces, usando un argumento similar al caso anterior se tiene que

lı́m sup An 6= lı́m inf An

y ası́ se concluye que lı́m An no existe.

Dos propiedades muy utilizadas de la teorı́a de sucesiones monótonas se enun-

Ejemplo 1.5.2. Sean Ω = R+ ∪{0} (los reales no negativos) y la sucesión de

para n = 1, 2, . . .. Entonces, A1 = [0, 0] = {0}, A2 = [0, 1/2], A3 = [0, 2/3],

También se tienen las siguientes operaciones:

Ejemplo 1.5.3. Sea Ω = R. Consideremos An , Bn , n = 1, 2, . . . en Ω como

ejercicio: Sea Ω = R2 . Definamos en ϕ An y Bn como sigue:

Demostrar que An ↑ y Bn ↓. Hallar los limites.

f (C) = {y : ∃x ∈ C|y = f (x)} = {f (x) : x ∈ C}.

2. Para Q ⊆ B, sea f −1 (Q) definida por

f −1 (Q) = {x ∈ A : f (x) = q, para algún q ∈ Q} = {x ∈ A : f (x) ∈ Q}.

3. Si f : A → B es una función. La restricción de f a S, denotada por f|S ,

Propiedades 1.6.1. Sean f : A → B una función, C ⊆ A y T ⊆ B, Γ un

3. f −1 (∩k∈Γ Bk ) = ∩k∈Γ f −1 (Bk ).

4. f −1 (∪k∈Γ Bk ) = ∪k∈Γ f −1 (Bk ).

5. f (∪k∈Γ Ak ) = ∪k∈Γ f (Ak ).

6. f (∩k∈Γ Ak ) ⊆ ∩k∈Γ f (Ak ).

1.7. Función indicadora

Propiedades 1.7.1. Enunciamos ahora algunas de las propiedades de la

1. A ⊆ B si y solo si IA (w) ≤ IB (w) e IAc (w) = 1 − IA (w).

a) IA (w) = 1 − nj=1 IAcj (w).

b) IB (w) = nj=1 IAj (w)

5. Para una sucesión {An }n=1,2,... ,

a) Ilı́m sup A (w) = lı́m sup IAn (w)

b) Ilı́m inf An (w) = lı́m inf IAn (w)

Demostración: Los inscisos 1, 2 y 3 se dejan como ejercicio. A continuación

Estos números son llamados coeficientes multinominales en atención a que