Você está na página 1de 132

Chapter 1

Introducción

Probabilidad es una disciplina matemática. La teorı́a tiene tres aspectos: (a) con-
tenido lógico formal, (b) antecedentes intuitivos y (c) aplicaciones.
Sobre el contenido lógico formal, debe recordarse que la matemática estudia, desde
el punto de vista axiomático las relaciones entre entes no definidos (e.g. en Geometrı́a,
no se define punto). Ası́, la teorı́a de la probabilidad, como área de matemáticas, se
construye por conceptos, axiomas y teoremas.
Desde el punto de vista intuitivo, todos tiene alguna noción de probabilidad. Las
siguientes preguntas se refieren a esto:
¿ cual es la probabilidad de ganar las elecciones ?
¿ cual es la probabilidad de que hoy llueva ?
¿ cual es la probabilidad de vivir al menos 50 años ?.
La palabra experiencia combina tres términos: experimento, evento y frecuencia.
Del diccionario, experimento significa un proceso controlado, realizado para probar,
demostrar o descubrir algo; en el cual, al final ciertos resultados son observados. Se
asume que dicho proceso, es repetible en condiciones similares.
Si el resultado de un experimento, realizado bajo ciertas condiciones, está com-
pletamente determinado, se dice que es un experimento determinı́stico. Mientras que

1
2

si el resultado no puede ser determinado, excepto que se conoce el conjunto de sus


resultados posibles, se le llama experimento aleatorio.
Por consiguiente, un fenómeno aleatorio es un suceso empı́rico caracterizado por el
hecho de que su observación no siempre conlleva al mismo resultado observado, i.e.,
no hay regularidad determinı́stica. Sin embargo los diferentes resultados posibles,
presentan una regularidad estadı́stica; esto significa que existe números entre 0 y
1 que representan la frecuencia relativa en la cual los diferentes resultados posibles
pueden ser observados, en una serie de eventos.
Algunos ejemplos de fenómenos aleatorios:
(i) cantidad de lluvia en el mes de Agosto en el Valle de México
(ii) proporción de individuos con alguna caracterı́stica genética
(iii) cantidad de reactante producido en un proceso quı́mico
(iv) rendimiento en ton/ha producido por un cultivo de trigo
(v) número de llamadas telefónicas que recibe una operadora
(vi) horas de operación de un dispositivo electrónico
(vii) proporción de votantes de un partido polı́tico
(viii) respuesta de un paciente a un nuevo medicamento
La Probabilidad es la disciplina requerida para estudiar los fenómenos aleatorios.
Las ciencias empı́ricas son aquellas disciplinas cientı́ficas que para validar sus
declaraciones requieren datos sobre los fenómenos y procesos estudiados. Por esto,
los cientı́ficos e ingenieros tienen interés en la colección de datos.
La Estadı́stica es una ciencia, apoyada en la Probabilidad, que provee los prin-
cipios y métodos para colectar y analizar datos, de tal manera que permita extraer
conclusiones, en presencia de incertidumbre y variación. Por ello, la Estadı́stica es la
ciencia del aprendizaje a partir de datos.
3

1.1 Modelos Matemáticos y Principio de Incer-


tidumbre
En aplicaciones, los modelos matemáticos sirven como herramientas para hacer predic-
ciones. Modelos distintos pueden describir, de manera satisfactoria, la misma situación
empı́rica.
Modelo Matematicos. Es una relación funcional entre variables. Es una de-
scripción cuantitativa de un fenómeno.
Entrada (x) −→ Proceso −→ Salida (y)

y = f (x), y = f (x1 , . . . xn )

Ejemplos: Dos modelos matemáticos familiares son;

1
s = g t2
2
distancia o recorrido en un tiempo t de un objeto en caı́da libre, que estaba en reposo.

A = π r2

Dos tipos de modelos matemáticos


(i) Modelo Matemático Determinı́stico. Es aquel modelo que describe un experi-
mento o fenómeno determinı́stico
(ii) Modelo Matemático Probabilı́stico. Es aquel modelo que describe un experi-
mento o fenómeno aleatorio.
La utilidad de un modelo matemático, depende de la bondad de sus predicciones.
El descubrimiento de la naturaleza dual onda-partı́cula de la materia nos ha obli-
gado a reevaluar el lenguaje y los conceptos de Cinemática usados para describir la
posición y movimiento de una partı́cula.
4

En la mecánica clásica de Newton, se considera a una partı́cula como un punto.


Se describe su locación y movimiento en cualquier instante con tres coordenadas
espaciales y 3 componentes de velocidad. Pero en general, tal descripción especı́fica
no es posible.
Cuando se analiza en escala suficientemente pequeña, existe una limitación fun-
damental en la precisión con la cual se puede determinar la posición y velocidad de la
partı́cula. Ası́, entre más exacto se trata de medir la posición de una partı́cula, menos
exacto se puede medir su velocidad, y viceversa. Esto es debido al disturbio causado
por el proceso de medición. A este fenómeno se le llama Principio de Incertidumbre
de Heissenberg.
Heissenberg, Schrodinger y Dirac, inventaron la Mecánica Cuántica, basado en el
principio de incertidumbre. En general la mecánica cuántica, no predice un solo resul-
tado definido de una observación; en lugar de esto, predice un número de resultados
diferentes posibles e indica la probabilidad de ocurrencia de cada uno de ellos. por
consiguiente, el principio de incertidumbre, introduce un elemento de aleatoriedad
inevitable en la ciencia.
Estos principios gobiernan la conducta de los transistores y circuitos integrados,
que son componentes escenciales en los mecanismos electrónicos usados en la comu-
nicaciones modernas, TV, computadoras etc.

1.2 Antecedentes Históricos


El origen de la Probabilidad está asociado a las investigaciones de problemas de juegos
de azar hecha por matemáticos franceses e italianos.
Entre ellos, Fermat; Pascal B.; Cardano y Tartaglia (1570); Laplace; Bernoulli
(1654-1705); DeMoivre (1667-1754); Poisson.
Por su parte, K. F. Gauss, matemático alemán, realizó aplicaciones de probabili-
5

dad en Astronomı́a (1777-1754)


En 1713 Bernoulli estableció un resultado muy importante, llamado Ley Débil de
los Números Grandes.
1909, E. Borel estableció otro resultado llamado Ley Fuerte de los Números
Grandes.
A principios del siglo XX, un grupo de matemáticos rusos, entre ellos, Markov,
Chebyshev, Liapounov, establecieron varios resultados fundamentales de la Probabil-
idad. Con el invento del concepto de la intagral de Lebesgue (1903, H. Lebesgue),
en 1933, A. N. Kolmogorov axiomatizó y fundamentó rigurosamente la teorı́a de la
probabilidad, despues de varios intentos hechos por Von Mises entre 1928 y 1931.
Con esto, la Probabilidad se constituyó como una area legı́tima de la Matemática.
La palabra Estadı́stica derivó de la palabra Estado, y fué usada para referirse a
la colección de hechos de interés para el Estado.
Italia: En Florencia y Venecia se inicia la colección sistemática de datos económicos
y de población durante el Renacimiento.
J Graunt y E. Halley (1662-1693) usaron datos para estimar la mortalidad y
aplicaron ésta información en seguros de vida.
El término Estadı́stica fué usado hasta el siglo XVIII como una abreviación de la
ciencia descriptiva del Estado y ya en el siglo XIX se indentificaba fuertemente con
los números.
A finales del siglo XIX la Estadı́stica se interesó en la inferencia de conclusiones
en base a datos numéricos, a partir de los trabajos de F. Galton y K. Pearson, en
Genética.
A principios del siglo XX, R. A. Fisher y J. Neyman, establecieron los fundamentos
matemáticos de la Inferencia Estadı́stica, bsasado en la Probabilidad.
Chapter 2

Probabilidad

2.1 Antecedentes y Definiciones


El término Probabilidad refiere al estudio de la aleatoriedad e incertidumbre. En
un experimento aleatorio, Probabilidad es la disciplina que provee los métodos para
cuantificar las posibilidades de ocurrencia asociadas a los resultados.

Defn. Experimento. Actividad o proceso que genera una observación o un conjunto


de datos.

Defn. Experimento Aleatorio. Experimento cuyo resultado no es predecible con


certidumbre y por lo tanto está sujeto al azar; pero sı́ se conoce el conjunto de todos
los resultados posibles.

Defn. Espacio Muestral. Se define el espacio muestral de un experimento aleatorio,


como el conjunto de todos los resultados posibles; y se denota por Ω (ó S).

Ejemplos:
a) Se determina el sexo de un recién nacido

6
CHAPTER 2. PROBABILIDAD 7

S = Ω ={ masculino, femenino} = {m,f}


b) Se lanza una moneda al aire ,
S = Ω ={ águila, cara} = {a,c}
c) Suponga ahora que se lanzan dos monedas al aire,
S = Ω = {aa, ac, ca, cc}
d) Se mide el tiempo de operación de un circuito electrónico de control de un sistema
de fertiirrigación,
Ω = {t : 0 ≤ t < ∞}
e) Se mide la longitud de mazorca de una variedad de maı́z,
Ω = {x : 0 < x < 35cm}
f) El experimento consiste en una carrera de 1/2 maratón con 5 aspirantes a la
olimpiada. Ω = {Todas las ordenes de(1, 2, 3, 4, 5)}

Nota: Ω = {ω : ω es un resultado del experimento aleatorio}


ω ∈ Ω, ω es un ”punto” muestral
ω ≡ aa, en (c) anterior,
ω ≡ (5, 3, 1, 2, 4) en (f) anterior, donde el competidor 5 llegó en primer lugar, etc.
Ω es un conjunto finito o infinito. Si es infinito, puede ser infinito numerable (contable)
o infinito no numerable.

Defn. Evento. Un evento E es un subconjunto de Ω.

Nota. Los eventos E son denotados por las letras mayúsculas A, B, C, D, etc. ∅ es
el evento vacı́o o nulo.

Ejemplos:
a) A = {m}
b) B = {cara}
CHAPTER 2. PROBABILIDAD 8

c) C={ Al menos una águila}={ac, ca, aa}


d) E={El circuito opera al menos 100 hrs}={t : t ≥ 100}

Nota: El evento que contiene un solo punto muestral es llamado evento elemental.

Operaciones con Conjuntos


Para eventos A, B, E en Ω, se consideran las operaciones:
Unión A ∪ B = {ω : ω ∈ A o ω ∈ B}
Intersección A ∩ B = AB = {ω : ω ∈ A y ω ∈ B}
Diferencia A \ B = A − B = {ω : ω ∈ A y ω ∈
/ B}
Complement E c = {ω : ω ∈ Ω y ω ∈
/ E}.
Diagramas de Venn

A B

Propiedades de Conjuntos
A ∪ B = B ∪ A AB = BA, P. Conmutativa
(A ∪ B) ∪ C = A ∪ (B ∪ C), (AB)C = A(BC) P. Asociativa
(A ∪ B)C = AC ∪ BC, (AB) ∪ C = (A ∪ C) ∩ (B ∪ C) P. Distributiva.
(A ∪ B)c = Ac ∩ B c , (A ∩ B)c = Ac ∪ B c P. de De Morgan.

Defn. Si A ∩ B = ∅ se dice que A y B son mutuamente excluyentes o disjuntos.

Defn. Probabilidad. Suponga un espacio muestral Ω de un experimento aleatorio.


Sea C una colección de subconjutos de Ω. Se define Probabilidad a una función con
CHAPTER 2. PROBABILIDAD 9

domino C y rango [0, 1], es decir P : C −→ [0, 1], que satisface los axiomas siguientes:
Axioma 1. 0 ≤ P (E) ≤ 1, ∀E ⊂ Ω, E ∈ C
Axioma 2. P (Ω) = 1,
Axioma 3. Para cualquier sucesión de ventos E1 , E2 , E3 , . . . mutuamente excluyentes,
i.e. ∀ i 6= j, Ei ∩ Ej = ∅,
n
! n
[ X
P Ei = P (Ei ), n = 1, 2, 3, . . . ∞
i=1 i=1

Se llama a P (E) la probabilidad del evento E.

El concepto de P (E) de un experimento es tema de interpretación. Supongo que


un geólogo cita: ”hay un 60% de posibilidad de hallar petróleo en una región par-
ticular”. Todos tendremos una idea de tal declaración. Las posibles interpretaciones
serı́an:
a) El geólogo piensa que en general, en 60% de las regiones de condiciones ambientales
similares a la región en consideración, hay petróleo.
b) El geólogo cree que es más probable que la región contenga petróleo, que la prob-
abilidad de que no contenga; y en realidad 0.6 es una medida de su creencia, en la
hipótesis que la región contendrá petróleo.
A tales interpretaciones se les llama interpretación frecuentista e interpretación
subjetiva (o personal) respectivamente de la probabilidad. En la interpretación fre-
cuentista, la probabilidad de un resultado dado del experimento, es considerada como
”propiedad” del resultado. Y se considera que ésta propiedad puede ser determinada
operacionalmente por repetición continua del experimento; la probabilidad del resul-
tado será observado como la proporción de observaciones favorables.
Cualquier interpretación que uno haga de la probabilidad es tal que se satisfacen
los axiomas dados en la definición.
Propiedades de P (·),
CHAPTER 2. PROBABILIDAD 10

TEOREMA. P (∅) = 0.
TEOREMA. P (Ac ) = 1 − P (A), ∀ A ⊂ Ω.
TEOREMA. Si A ⊂ B, entonces P (A) ≤ P (B).
TEOREMA. P (A ∪ B) = P (A) + P (B) − P (AB).
Demostración. Considere A ∪ B = A ∪ Ac B. Dado que A y Ac B son mutuamente
excluyentes, se tiene que
P (A ∪ B) = P (A ∪ Ac B) = P (A) + P (Ac B)
Por otra parte B = AB ∪ Ac B, donde ambos conjuntos AB y Ac B son mutuamente
exclutentes, es decir P (B) = P (AB) + P (Ac B), lo que implica que
P (A ∪ B) = P (A ∪ Ac B) = P (A) + P (B) − P (AB). 2

Note que si AB = ∅ ⇒ P (A ∪ B) = P (A) + P (B).

Para tres eventos y por la propiedad distributiva

P (A ∪ B ∪ C) = P [(A ∪ B) ∪ C)]

= P (A ∪ B) + P (C) − P [(A ∪ B)C]

= P (A) + P (B) − P (AB) + P (C) − P (AC ∪ BC)

= P (A) + P (B) + P (C) − P (AB) − P (AC) − P (BC) + P (ABC).

Ejemplo. En una raza de ratones se tiene que el color del pelaje es negro o café. Los
de color negro son genéticamente hablando de dos tipos, BB y Bb; y los de color café
de un solo tipo, bb. De la teorı́a se sabe que si se cruzan dos ejemplares negros tipo
Bb, se pueden obtener los tres tipos de color de pelaje con las probabilidades,

Descendencia BB Bb bb
Probabilidad 1/4 1/2 1/4

Ω = {BB, Bb, bb} = {ω1 , ω2 , ω3 }


CHAPTER 2. PROBABILIDAD 11

P ({BB}) = 1/4, P ({Bb}) = 1/2, P ({bb}) = 1/4,


P (Ω) = P ({BB}) + P ({Bb}) + P ({bb}) = 1.
Note que si solo interesa el color del pelo (fenotipo),
Ω = {Negro, Café} = {N, C}
P ({N }) = 3/4, P (C) = 1/4

2.2 Espacio Muestral Finito Con Puntos


Equiprobables
Sea Ω = {ω1 , ω2 , . . . , ωN }
Sea N (Ω) = N , el # de puntos elementales de Ω. Para muchos experimentos aleato-
rios se puede asumir que,
1
P ({ω1 }) = P ({ω2 }) = · · · = P ({ωN }) = N
.
Note que
PN 1
1 = P (Ω) = i=1 P ({ωi }) = N · N

Para cualquier evento E ⊂ Ω

# de puntos en E N (E)
P (E) = =
N (Ω) N

Ejemplos:
a) Se lanza una moneda dos veces y se registra el resultado.
Ω = {cc, ca, ac, aa} = {ω1 , ω2 , ω3 , ω4 }
N (Ω) = 4, P ({ωi }) = 1/4, i = 1, 2, 3, 4
¿ Cual es la probabilidad de obtener al menos una cara ?
A ={ Se obtiene al menos una cara}={ac, ca, cc}

N (A) 3
P (A) = =
N 4
CHAPTER 2. PROBABILIDAD 12

b) Sea el experimento de lanzar dos dados (ó un dado dos veces)


Ω = {(i, j) : i, j = 1, . . . , 6}, N (Ω) = 36 puntos muestrales tales que
P (wk ) = P ({(i, j)}) = 1/36, k = 1, . . . , 36. Sean los eventos
Aj ={ la suma de los dados es j}. Note que
A7 = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}, lo que implica N (A7 ) = 6. Por consigu-
iente,
N (A7 ) 6 1
P (A7 ) = = =
N (Ω) 36 6

Nota. Para calcular probabilidaddes en éste escenario, es necesario contar efectiva-


mente, el número de resultados para cualquier evento dado.

2.3 Principio Básico de Conteo


El principio básico de conteo es conocido como la regla de multiplicación.
Suponga que se tienen dos experimentos E1 y E2 a realizarce, y que hay m re-
sultados posibles de E1 , y si por cada resultado de E1 , hay n resultados posibles
de E2 , entonces conjuntamente hay mn resultados posibles de los dos experimentos
representado por los pares ordenados (i, j), como se ilustra a continuación:
(1, 1), (1, 2), . . . , (1, n)
(2, 1), (2, 2), . . . , (2, n)
··· ··· ···
(m, 1), (m, 2), . . . , (m, n)

Nota: Otros autores hablan de dos etapas E1 y E2 u operaciones, con m y n resultados


o maneras posibles respectivamente, de un solo experimento.

Ejemplos:
a) Un hombre tiene 3 camisas y dos corbatas.
CHAPTER 2. PROBABILIDAD 13

¿ De cuantas maneras puede vestirse ?


# de pares = 3 x 2 =6.

b) Un club de 22 personas necesita elegir un director y un tesorero, en dicho orden.


¿ De cuantas maneras pueden ser elegidas tales dos personas ?
Para director hay 22 posibilidades; y por cada una de tales posibilidades, hay 21
posibilidades de tesoreros.
# de pares = m · n= 22 x 21.
c) Una urna contiene 6 bolas blancas y 5 bolas negras. Sea el experimento que
consiste en extraer al azar 2 bolas de la urna. Sea el evento E={ una bola es blanca
y la otra bola es negra }. Ontenga P (E).
N (Ω) = (11)(10) = 110 puntos muestrales que son pares ordenados
Para obtener N (E) consideremos
(6)(5) = 30 primera bola es blanca y segunda bola es negra
(5)(6) = 30 primera bola es negra y segunda bola es blanca
Por lo tanto N (E) = 30 + 30 = 60

N (E) 60 6
P (E) = = =
N 110 11

Principio de Conteo Básico Generalizado


Si r experimentos E1 , . . . , Er que serán realizados, son tales que E1 puede producir
n1 resultados posibles, y si por cada uno de éstos n1 resultados posibles hay n2
resultados posibles de E2 , y si por cada uno de los resultados posibles de los dos
primeros experimentos allı́ hay n3 posibles resultados de E3 , y si,..., entonces allı́ hay
un total de n1 · n2 · n3 · · · nr resultados posibles de los r experimentos.

Ejemplos:
a) En una reunión de alumnos, hay 3 de Matemáticas, 4 de Estadı́stica, 5 de
CHAPTER 2. PROBABILIDAD 14

Quı́mica y 2 de Biologı́a. Se formará un comité de 4 alumnos, uno por cada carrera.


¿ Cuantos comités posibles hay ?
# de comités posibles = 3 x 4 x 5 x 2 = 120.
b) ¿ Cuantas placas de 7 caracteres son posibles, si las tres primeros caracteres
son letras y el resto números ?
# de placas = 26 x 26 x 26 x 10 x 10 x 10 x 10 = 175,760,000
¿ Cuantas placas habrı́a, en el caso anterior, si se evita repetir letras y números ?
# de placas = 26 x 25 x 24 x 10 x 9 x 8 x 7 = 78,624,000

c) Relación de la regla de multiplicación con el producto cartesiano.


Sean los conjuntos A = {1, 2, 3}, B = {2, 4} y C = {3, 4, 5}
Diagrama de árbol
(1,2,3)
(1,2,4)
(1,2,5)
(1,4,3)
(1,4,4)
(1,4,5)
(2,2,3)
(2,2,4)
(2,2,5)
(2,4,3)
(2,4,4)
(2,4,5)
(3,2,3)
(3,2,4)
(3,2,5)
CHAPTER 2. PROBABILIDAD 15

(3,4,3)
(3,4,4)
(3,4,5)

Permutaciones.
Defn. Permutación. Se define una permutación como el arreglo ordenado de r
objetos distintos seleccionados de n objetos distintos, r ≤ n. El número de tales
arreglos es,

n!
Prn = n(n − 1)(n − 2) · · · (n − (r − 1)) = n(n − 1)(n − 2) · · · (n − r + 1) =
(n − r)!

Notación: Prn = n Pr = Pr,n = P (n, r)

Si r = n, por convención se toma 0! = 1 y en tal caso,

Prn = n(n − 1)(n − 2) · · · (n − (n − 1) = n(n − 1) · · · 1 = n!

Ejemplos:
a) De entre 10 técnicos agrı́colas se van a elegir al azar a 3 para supervisar tres
huertos A, B y C; es decir el orden es importante, el primer seleccionado irá al huerto
A, etc.
El # posible de asignaciones es,

10!
P310 = = (10)(9)(8) = 720
(10 − 3)!
b) Permutaciones de las letras a b c:
P33 = 3! = (3)(2)(1) = 6,
Directamente: abc, acb, bac, bca, cab, cba.
CHAPTER 2. PROBABILIDAD 16

c) El alumno Pedro tiene 10 libros que ordenará en su librero. Tales libros son,
4 de Matemáticas, 3 de Quı́mica, 2 de Historia, y 1 de Literatura. Si los libros de la
misma disciplina estarán juntos, ¿ cuantos arreglos son posibles ?
Suponga el arreglo de los temas: Matemáticas, Quı́mica, Historia y Literatura,
# de arreglos = 4! 3! 2! 1!
Como las 4 áreas a su vez se pueden permutar en 4!, se tiene entonces:
# total de arreglos = 4! 4! 3! 2! 1!

d) Un equipo de Beisbol tiene 9 jugadores. ¿ Cuantas órdenes de bateo hay ?


# de órdenes de bateo = 9! = 362,880
Nota: El # de permutaciones de n objetos distintos arreglados en un cı́rculo es de
(n − 1)!.

Permutaciones con Repeticiones. Suponga que los n objetos están en r grupos


distintos; n1 del grupo uno (indistinguibles entre ellos), n2 del grupo dos, ..., nr del
grupo r. Ası́, n1 + n2 + · · · + nr = n. Entonces,

n!
# de permutaciones =
n1 ! n2 ! · · · nr !

Ejemplo. Suponga que se desea formar todas las palabras posibles de cinco letras a
partir de la palabra DADDY .
Si todas las 5 letras fueran distintas, habrı́a 5! = 120 permutaciones de D1 AD2 D3 Y .
Note que
D1 D2 D3 AY , D1 D3 D2 AY , D2 D1 D3 AY , D2 D3 D1 AY , D3 D1 D2 AY ,D3 D2 D1 AY
producen la misma palabra. Las tres letras D tienen una permutación de 3! = 6. Ası́
se tiene,

5! 5!
# de permutaciones = = = 20
3! 1! 1! 3!
CHAPTER 2. PROBABILIDAD 17

Más ejemplos de conteo.


Ejemplo. Si no se permiten repeticiones
a) ¿ Cuantos números de 3 dı́gitos se pueden formar de los 6 dı́gitos 2, 3, 5, 6, 7 y 9 ?
b) ¿ Cuantos de tales números son menores de 400 ?
c) ¿ Cuantos de ellos son pares ?
d) ¿ Cuantos de ellos son impares ?
e) ¿ Cuantos de ellos son múltiplos de 5 ?

Sol.
1) (6)(5)(4) = 120 números.
2) (2)(5)(4) = 40 (2)()() dos posibles con los #’s 2 y 3,
3) (5)(4)(2) = 40 ()()(2) dos posibles con los #’s 2 y 6
4) (5)(4)(4) = 80 ()()(4) cuatro posibles de los #’s 3, 5, 7 y 9
5) (5)(4)(1) = 20 ()()(1) una posibilidad con el # 5.

Ejemplo. De un grupo de tres hombres y dos mujeres,


a) ¿ De cuantas maneras 3 hombres y 2 mujeres se pueden sentar en una hilera ?
b) Si se sientan por grupos cada uno, los hombres juntos y las mujeres juntas;
¿cuantas maneras de sentarse hay ?
c) Si solo las mujeres se sientan juntas, ¿ cuantas maneras hay ?
Soln.
a) 5! = 120 maneras
b) Si H = Hombre, M = Mujer, entonces MMHHH ó HHHMM
3! para H y 2! para M, entonces
# de maneras = 2(3! 2!) = 2(6)2 = 24.
c) Distribución con solo mujeres juntas,
MMHHH, HMMHH, HHMMH, HHHMM
CHAPTER 2. PROBABILIDAD 18

3! para H y 2! para M, entonces


# de maneras = 4(3! 2!) = 48.

Combinaciones.
Defn. Combinación. Se define una combinación como un subconjunto no ordenado
de r objetos seleccionados de n objetos distintos, r ≤ n. El número de combinaciones
posibles es,  
n n!
Crn = =
r (n − r)! r!

Nota.

Prn n!
Crn = =
r! (n − r)! r!
n n!

Si r = n entonces n
= 0! n!
=1
es decir, solo un resultado posible, no ordenado, de todos los objetos.

Ejemplo. De un grupo de 20 estudiantes se elige un comité de 3 personas selec-


cionadas al azar. ¿ Cuantos comités posibles hay ?

 
20 20! (20)(19)(18)
= = = 1140
3 (20 − 3)! 3! (3)(2)(1)

Ejemplo. De un grupo de 5 mujeres y 7 hombre, ¿ Cuantos comités se pueden formar


que consista de 2 mujeres y 3 hombre ?. ¿ Cuantos comités hay si 2 hombres están
peleados y se rehúsan a estar en el comité ?
5
mujeres; 73 hombres. Por el principio de conteo
 
a) 2

  
5 7 (5)(4) (7)(6)(5)
# de comités = = · = 350
2 3 (2)(1) 3(2)1
CHAPTER 2. PROBABILIDAD 19

2
 5
b) 0 3
grupos de 3 hombres que excluyen a los dos peleados,
2 5
 
1 2
grupos de 3 hombres que contiene a uno de los peleados

       
5 2 5 2 5
# de comités = + = 10[10 + (2)(10)] = 10(30) = 300
2 0 3 1 2

La relación entre combinaciones y permutaciones se muestra en el siguiente ejem-


plo.
Considere las letras {a, b, c, d}, n = 4, r = 3. Entonces,

4! 4!
C34 = = 4, P34 = = 24,
(4 − 3)! 3! (4 − 3)!

Combinaciones Permutaciones
abc abc, acb, bac, bca, cab, cba
abd abd, adb, bad, bda, dab, dba
acd acd, adc, cad, cda, dac, dca
bcd bcd, bdc, cbd, cdb, dbc, dcb

Ejemplos de Probabilidad.
a) Una urna contiene 6 bolas blancas y 5 bolas negras. Se extraen 2 bolas al azar
sin reemplazo. ¿ Cual es la probabilidad de que una bola sea blanca y la otra bola
sea negra ? Ω ={ Combinaciones de 2 bolas extraı́das de 11 posibles }. N (Ω) = 11

2
,
E ={una bola es blanca y la otra bola es negra }.
6 5
 
N (E) 1 1 6(5) 6
P (E) = = 11 = =
N (Ω) 2
55 11

b) De un grupo de 5 mujeres y 7 hombres (ejemplo anterior), se formará un comité


de 5 personas, elegidas al azar. ¿ Cual es la probabilidad de que el comité consista en
2 mujeres y 3 hombres ? ¿ Cual es la probabilidad de que consiste de puras mujeres
CHAPTER 2. PROBABILIDAD 20

? ¿ Cual es la probabilidad de que consista de puros hombres ?


Sean los eventos:
A = { 2 mujeres, 3 hombres },
B = { 5 mujeres },
C = { 5 hombres }.
5
 7
2 10(35)
P (A) = 3 =
12 = 0.441919
5
792
5
 7
1(1)
P (B) = 5
0 =
12 = 0.00126 = 1.2626X 10−3
5
792
5
 7
0 1(21)
P (C) = 5 =
12 = 0.0265151
5
792

c) Una caja de 30 manzanas contiene 4 frutos que no reúnen el control de calidad.


Para inspección de calidad, se eligen al azar 2 frutos. Sean los eventos
A = { Ambos frutos pasan el control de calidad },
B = { Ambos frutos no pasan el control de calidad },
E = { Al menos un fruto pasa el control de calidad }.
¿ Cual es la probabilidad de cada evento ?

4 26
 
0 1(325)
P (A) = 30
2 = = 0.747126436
2
435

4 26
 
2 6(1)
P (B) = 30
0 = = 0.013793103
2
435

4 26 4 26
   
1 4(26) 1(325)
P (E) = 30
1 + 0
30
2 = + = 0.239080459 + 0.747126436
2 2
435 435

Note que E = B c , por consiguiente,


P (E) = P (B c ) = 1 − P (B) = 1 − 0.013793103 = 0.986206896.
CHAPTER 2. PROBABILIDAD 21

d) Juego de Barajas (versión inglesa). 52 cartas.


4 palos (tipos o suits) de 13 cartas cada uno.
Palos: espadas (pica), clubs (trébol), corazones y diamantes (rombo).
Cada palo consiste de 13 valores o nominaciones:
2, 3, 4, 5, 6, 7, 8, 9, 10, as(1), jack(11), reina(12) y rey(13).
De un paquete de 52 barajas (cartas) se eligen al azar 2 cartas. ¿ Cual es la probabil-
idad de que ambas cartas sean espadas ? ¿ Cual es la probabilidad de que una carta
sea una espada y una carta sea un corazón ?

13

2 78 1
52
 = =
2
1326 17

13 13
 
1 1 13(13) 13
52
 = =
2
1326 102

2.4 Probabilidad Condicional, Independencia de


Eventos
Probabilidad condicional es fundamental por dos razones. La primera razón es que
con frecuencia se tiene interés en calcular probabilidades cuando se tiene información
parcial del experimento o en recalcular la probailidad en cuestión a partir de infor-
mación adicional. La segunda razón es que con frecuencia es más fácil calcular la
probabilidad de un evento, restringiendo o condicionando sobre la ocurrencia o no de
otro evento. Por ejemplo, suponga que se lanzan un par de dados. Se tiene
Ω = {(i, j) : i, j = 1, . . . , 6}, y P (wk ) = 1/36, k = 1, . . . , 36
Suponga que se observa que el primer dado cae en 3. Dada ésta información, ¿ cual
es la probabilidad de que la suma de los dos dados sea 8 ?. Dado que i = 3 en
(i, j), entonces (3, j) conduce a los siguientes resultados posibles (reducción del espa-
CHAPTER 2. PROBABILIDAD 22

cio muestral),
(3,1), (3,2), (3,3), (3,4), (3,5), (3,6)
cada uno con la misma probabilidad. Ası́, si el primer dado es 3, entonces la prob-
abilidad condicional de (3,j), j=1,2,3,4,5,6, es de 1/6. La probabilidad del resultado
(3,5) es de 1/6.
En otro ejemplo suponga que se tiene el experimento de inspeccionar una caja
de 100 frutos, de los cuales se sabe que 5 no reúnen la calidad (defectuosos). Se
seleccionan sin reemplazo 2 frutos al azar; cual es la probabilidad que en la segunda
extracción resulte un fruto defectuoso, dado que en la primera extracción se obtuvo
un fruto defectuoso ?

Defn. Probabilidad Condicional. Sean A y B dos eventos en el mismo Ω y


P (B) > 0, se define la probabilidad condicional de A dado B como,
P (A ∩ B) P (AB)
P (A | B) = =
P (B) P (B)

Nota. B representa un espacio muestral reducido.

Ejemplo. En el ejemplo anterior de los dos dados lanzados,


Ω = {(i, j) : i, j = 1, . . . , 6}, Sean los eventos
A={ La suma de los dos dados es 8}={(2,6),(3,5),(4,4),(5,3),(6,2)}.
B={ El primer dado es 3}
A ∩ B ={La suma de los dados es 8 y el primer dado es 3}={(3,5)}.
P (A) = 5/36, P (B) = 6/36, P (AB) = 1/36

P (AB) 1/36 1
P (A | B) = = = 6= P (A)
P (B) 6/36 6

Nota. Si P (A) > 0, también se puede definir,


P (AB)
P (B | A) =
P (A)
CHAPTER 2. PROBABILIDAD 23

Además se tiene que por ambas probabilidades condicionadas,

P (AB) = P (A | B)P (B) = P (B | A)P (A)

Ejemplo. Suponga que se tienen los datos de empleo y desempleo en una comunidad;

Género Empleado Desempleado Total


Masculino 460 40 500
Femenino 140 260 400
Total 600 300 900

En éste caso, N (Ω) = 900. Un nuevo programa agropecuario elige al azar a un


individuo. Dado que el elegido está empleado, cual es la probabilidad de que sea
masculino ?
Sean los eventos
E= El elegido está empleado,
M= El elegido es masculino.
600
P (E) = 900
= 32 ; P (M E) = 460
900
= 23
45

P (M E) 23/45 23
P (M | E) = = =
P (E) 2/3 30
Considerando el espacio muestral reducido E,

460 23
P (M | E) = =
600 30

Ejemplo. Un exportador de fresa conoce, en base a su experiencia pasada:


Que un pedido estará empacado para envı́o a tiempo con una probabilidad de 0.8;
que el pedido estará empacado para envı́o y además que será enviado a tiempo, con
una probabilidad de 0.72.
Cual es la probabilidad de que una orden en particular sea enviada a tiempo dado
que dicha orden estaba empacada para envı́o a tiempo ?
CHAPTER 2. PROBABILIDAD 24

Sean los eventos


A= La orden está empacada para envı́o,
B= La orden es enviada a tiempo.
P (A) = 0.8, P (AB) = 0.72,

P (AB) 0.72
P (B | A) = = = 0.9
P (A) 0.8

Ejemplo. Una pareja tiene 2 hijos. Cual es la probabilidad condicional de que ambos
sean niños si:
a) se sabe que el menor es niño ?
b) se sabe que al menos uno de los hijos es niño ?
Sea f = femenino, y m = masculino,
Ω = {(f, f ), (f, m), (m, f ), (m, m)}, entonces P (wi ) = 1/4, i = 1, 2, 3, 4,
Soln,
a) Defina los eventos y probabilidades implicadas,
A={ El segundo hijo es niño }, P (A) = 1/2
B={ El primer hijo es niño}

P (AB) 1/4 1
P (B | A) = = =
P (A) 1/2 2
Vı́a reducción del espacio muestral A = {(f, m), (m, m)} se tiene que la probailidad
de que ambos sean masculinos dado (a), es de 1/2.
b) Sean los eventos
A={ Ambos hijos son niños },
B={ Al menos un hijo es niño }={(f,m),(m,f),(m,m)}

P (AB) 1/4 1
P (A | B) = = =
P (B) 3/4 3
CHAPTER 2. PROBABILIDAD 25

Vı́a reducción del espacio muestral B = {(f, m), (m, f ), (m, m)}, la probabilidad de
que ambos hijos sean niños dado (b), es 1/3.

Ejemplo. Una caja contiene 12 frutos de manzana, de los cuales 8 reúnen la calidad.
Se extraen 2 frutos al azar. Cual es la probabilidad de que ambos frutos extraı́dos
reunan la calidad ?
Soln,
Sean los eventos
R1 ={ El primer fruto extraı́do reúne la calidad }
R2 ={ El segundo fruto extraı́do reúne la calidad }
Se desea calcular P (R1 R2 )
Note que condicionando se tiene

8 7
P (R1 ) = , P (R2 | R1 ) =
12 11
8 7 14
P (R1 R2 ) = P (R1 )P (R2 | R1 ) = · =
12 11 33
Por conteo directo se tiene,

8
 4 8!
2 8·7 14
P (R1 R2 ) = 12
0 = 6!2!
12!
= =
2 10!2!
12 · 11 33

Defn. Partición del Espacio Muestral. Los eventos {B1 , . . . , Bn } representan


una partición del espacio muestral Ω si se satisfacen:
a) P (Bi ) > 0, i = 1, . . . , n,
b) ∀i, j, Bi ∩ Bj = ∅, i, j = 1, . . . , n
c) ∪ni=1 Bi = Ω.

Nota: Mı́nima partición es {B, B c }.


CHAPTER 2. PROBABILIDAD 26

TEOREMA Probabilidad Total. Dada una partición {B1 , . . . , Bn } de Ω se tiene


que ∀A ∈ Ω,

n
X
P (A) = P (A | Bi )P (Bi )
i=1

Nota: En particular, con la partición {B, B c }.

P (A) = P (A | B)P (B) + P (A | B c )P (B c )

TEOREMA de Bayes. Dado Ω y una partición de éste por {B1 . . . , Bn } se tiene


que para cualquier evento A con P (A) > 0,

P (A | Bk ) P (Bk )
P (Bk | A) = Pn
i=1 P (A | Bi ) P (Bi )

En particular, para la partición {B, B c },

P (A | B) P (B)
P (B | A) =
P (A | B) P (B) + P (A | B c ) P (B c )

Ejemplo. Una compañı́a de seguros divide a la población en dos clases: Suceptibles


de accidentes (descuidados) y no suceptibles. Sus estadı́sticas muestran que una
persona suceptible de accidentes, tendrá un accidente en algún momento dentro del
siguente año con probabilidad de 0.4; mientras que tal probabilidad para una persona
no suceptible es de 0.2. Si se asume que el 30 % de la población es suceptible de
accidentes; cual es la probabilidad de que un cliente con póliza nueva, tenga un
accidente durante el próximo año de vigencia de póliza ?

Soln. Defina los eventos


A = El cliente con nueva póliza tiene un accidente durante el perı́odo de vigencia
anual.
CHAPTER 2. PROBABILIDAD 27

B = El cliente con nueva póliza es suceptible de accidente.


Usando el teorema de la probabilidad total,

P (A) = P (A | B) P (B) + P (A | B c ) P (B c )

= (0.4)(0.3) + (0.2)(0.7) = 0.26

Ahora se verá cómo reevaluar una probabilidad inicialmente establecida, con base
a nueva información, es decir actualizar una probabilidad. Suponga que un nuevo
cliente asegurado tiene un accidente durante el año de vigencia de póliza. Cual es la
probabilidad de que dicho cliente es suceptible de accidente ?
Inicialmente cuando el cliente compró su póliza se asumió que habı́a una probabilidad
de 0.3 de que era suceptible de accidente, es decir P (B) = 0.3. Ahora basado en el
hecho de que el cliente ha tenido un accidente durante el año vigente, se reevalúa la
probabilidad de ser suceptible de accidente. Considerando el teorema de Bayes,
P (A | B) P (B) (0.4)(0.3)
P (B | A) = = = 0.46
P (A) 0.26

Ejemplo. En una región agrı́cola se pueden encontrar tres marcas de equipo de fu-
migación, M1, M2 y M3. De acuerdo a los datos de ventas, 50% son de M1 (más
barato), 30% de M2 y 20% de M3. Cada fabricante ofrece un año de garantı́a. Infor-
mación histórica indica que el 25% de M1 requiere trabajo de reparación de garantı́a,
mientras que los correspondientes porcentajes para M2 y M3 son 20% y 10% respec-
tivamente.
a) Cual es la probabilidad que un nuevo cliente elegido al azar, haya comprado un
equipo de fumigación M1 que necesitará reparación bajo la garantı́a ?
b) Cual es la probabilidad de que un cliente elegido al azar, ha comprado un equipo
de fumigación que requerirá reparación bajo la garantı́a ?
c) Si un cliente regresa a la tienda con un equipo que requiere trabajo de reparación
bajo garantı́a, cual es la probabilidad de que el equipo es de la M1 ?, de la M2 ?.
CHAPTER 2. PROBABILIDAD 28

Soln. Defina los eventos


A= El equipo de fumigación requiere reparación bajo garantı́a,
Bi = El equipo es de la marca Mi, i=1,2,3. Se tiene
P (B1 ) = 0.5, P (B2 ) = 0.3, P (B3 ) = 0.2,
P (A | B1 ) = 0.25, P (A | B2 ) = 0.2, P (A | B3 ) = 0.1. Para responder (a) note que
P (AB1 ) = P (A | B1 )P (B1 ) = (0.25)(0.5) = 0.125
Para responder (b) considere la probabilidad total
P (A) = P (A | B1 )P (B1 ) + P (A | B2 )P (B2 ) + P (A | B3 )P (B3 )
= (0.25)(0.5) + (0.2)(0.3) + (0.1)(0.2) = 0.205
Finalmente, para responder (c) por el teorema de Bayes se tiene,

P (A | B1 ) P (B1 ) (0.25)(0.5) 0.125


P (B1 | A) = = = = 0.61
P (A) 0.205 0.205

P (A | B2 ) P (B2 ) (0.2)(0.3) 0.06


P (B2 | A) = = = = 0.29
P (A) 0.205 0.205

Intuitivamente dos eventos A y B son independientes si la probabilidad de ocur-


rencia de uno, no depende de la probabilidad de ocurrencia del otro.

Def. Eventos Independientes. Dos eventos A y B en Ω son independientes si se


satisface alguna de las siguientes condiciones:
a) P (AB) = P (A)P (B),
b) P (A | B) = P (A), si P (B) > 0,
c) P (B | A) = P (B), si P (A) > 0.
Si los eventos no son independientes, se dice que son dependientes.

Ejemplos.
a) Se lanza una moneda 2 veces. Ω = {aa, ac, ca, cc}. sean
A = { Se obtiene águila en el lanzamiento 1 }
CHAPTER 2. PROBABILIDAD 29

B = { Se obtiene águila en el lanzamiento 2 }


P (A) = P (B) = 1/2
1
P (AB) = P ({aa}) = 4

Por consiguiente los eventos A y B son independientes, ya que


1 1 1
P (AB) = 4
= 2
· 2
= P (A)P (B).

b) Se selecciona al azar una carta de un juego de 52 barajas. sean el evento


A de que la carta seleccionada es un as; y sea el evento B de que la carta elegida
es un corazón. Note que P (A) = 4/52, mientras que P (B) = 13/52 y finalmente
P (AB) = 1/52. Entonces A y B son independientes, ya que
P (A)P (B) = (4/52)(13/52) = 1/52 = P (AB).

c) De un ejemplo anterior donde se lanza dos dados, se definieron los eventos:


A = { La suma de los dos dados es 8 }, y B = { El primer dado es 3 }. En tal
caso se obtuvo P (A | B) = 1/6 6= P (A) = 5/36, por lo que A y B no son eventos
independientes.

Defn. Razón de Posibilidades. La razón de posibilidades o simplemente posibili-


dades de un evento A, se define como,

P (A) P (A)
c
=
P (A ) 1 − P (A)

La razón de posibilidades de un evento, indica cuán posible es que ocurra dicho


evento respecto a que no ocurra. Por ejemplo si P (A) = 2/3, entonces
P (A) = 2 P (Ac ) y se tiene que la razón de posibilidades de A es 2.
En General si la razón de posibilidades es α, se dice que las posibilidades son “α a 1”
en favor de la hipótesis.
Chapter 3

Funciones de Probabilidad

3.1 Variables Aleatorias


El escenario general es que se tiene un experimento aleatorio con Ω establecido y
eventos de interés.

Defn. Variable Aleatoria. Dado Ω se define una variable aleatoria como una
función X(·) : Ω → R.

Nota: las variables aleatorias v.a.’s se denotan con letras mayúsculas X, Y , Z, etc.,
y el rango de X, se denota con letras minúsculas x, y, z, etc.

Como la v.a. está determinada por el resultado de un experimento aleatorio, se


pueden asignar probabilidades a los posibles valores de dicha v.a.. Además cualquier
evento de interés pueda ser descrito por una v.a., definida de manera apropiada.
El objetivo es operar los resultados del experimento aleatorio en el conjunto de los
números reales.

Ejemplos.
a) Se lanza una moneda al aire ,

30
CHAPTER 3. FUNCIONES DE PROBABILIDAD 31

S = Ω ={ águila, cara} = {a,c}. Defina la v.a. como


X() = # de caras que se obtienen
X(a) = 0, y X(c) = 1. Por lo tanto RX = {0, 1}.

b) Se lanzan dos monedas al aire,


S = Ω = {aa, ac, ca, cc}
Definiendo la misma v.a. como antes,
X() = # de caras que se obtienen
X(aa) = 0,
X(ac) = X(ca) = 1,
X(cc) = 2,
Por consiguiente RX = {0, 1, 2}. Note además que las probabilidades asociadas a
cada valor de X son,

X 0 1 2
P(X=x) 1/4 1/2 1/4

El evento A = { se obtiene al menos una cara }, puede ser descrito con la v.a.
como {X ≥ 1}. Por consiguiente
P (A) = P (X ≥ 1) = 3/4.

c) Se mide la longitud de mazorca de una variedad de maı́z,


Ω = {ω : 0 < ω < 35cm}
En tal caso, como ya se tiene un intervalo en el conjunto R, se usa la función idéntica
X(ω) = ω. Como la v.a. X toma valores posibles en un intervalo de R, las probabili-
dades serán asignadas a través de una función de probabilidad definida más adelante.
Defn. Variable Aleatoria Discreta. Una v.a. X se define discreta si el rango de
X es a lo más contable. Asi, RX = {x1 , x2 , x3 . . . xn } ó RX = {x1 , x2 , x3 . . .}.

Defn. Función de Densidad Discreta de una V.A. Discreta. Si X es una v.a.


CHAPTER 3. FUNCIONES DE PROBABILIDAD 32

discreta se define su función de densidad discreta f (x) como,


f (x) = P (X = x), para toda x.

A la función de densidad discreta también se le llama función masa de probabilidad


ó simplemente función de probabilidad ó distribución de probabilidad ó función de
frecuencia discreta.
La función de densidad está dada por los pares de valores (x, f (x)), y se deben
satisfacer las condiciones:
a) f (x) > 0 para toda x,
P
b) x f (x) = 1.

Ejemplo. Del experimento de lanzar las dos monedas se tiene la v.a. discreta
X = # de caras, y tiene la siguiente función masa de probabilidad;

X 0 1 2
P(X=x) 1/4 1/2 1/4

Ejemplo. Si un esperimento solo tiene dos resultados posibles, éxito con probabilidad
p, donde 0 < p < 1, y fracaso, con probabilidad 1 − p, entonces se define una v.a.
X = # de éxitos. Claramente RX = {0, 1}. La función de densidad o masa de
probabilidad de X es, 
 p si x = 1
f (x) =
 1 − p si x = 0

A ésta función de probabilidad se le llama función o modelo de Bernoulli. Note que


en el experimento de lanzar una moneda al aire, se tiene el caso de p = 1/2 para
águila o cara, cualquier caso que se quiera llamar éxito.

Defn. Función Indicadora. Sea un conjunto A ⊂ R. Se define la función indi-


CHAPTER 3. FUNCIONES DE PROBABILIDAD 33

cadora como, 
 1 si x ∈ A
IA (x) =
 0 si x ∈
/A

Ejemplo. Suponga que se tiene la función





 0 si x ≤ 0


si 0 < x ≤ 1

 x
f (x) =


 2−x si 1 < x ≤ 2



 0 si x > 2

Se puede escribir con la función indicadora como,

f (x) = x I(0,1] (x) + (2 − x) I(1,2] (x)

Ejemplo. La función masa de probabilidad de Bernoulli se puede escribir como,

f (x) = px (1 − p)1−x I{0,1} (x)

Defn. Variable Aleatoria Continua. Una v.a. X es continua si el rango de valores


posibles es un intervalo en R, o todo R.

Defn. Función de Densidad de Probabilidad de una V.A. Continua. Una v.a.


X es continua si existe una función no negativa f (x), definida para toda x ∈ (−∞, ∞),
con la propiedad, Z
P (X ∈ B) = f (x)dx ∀B ⊂ R
B

y además Z ∞
1 = P {X ∈ (−∞, ∞)} = f (x)dx
−∞

A la función f (x) se le llama función de densidad de probabilidad de la v.a. X.


CHAPTER 3. FUNCIONES DE PROBABILIDAD 34

Nota. La función de densidad de probabilidad f (x) es tal que si B = [a, b],


Z b
P (a ≤ X ≤ b) = f (x)dx
a

Y si a = b, entonces Z a
P (X = a) = f (x)dx = 0
a

Nota. Cualquier función f (x) : R → R+ es definida como una función de densidad


de probabilidad si satisface:
a) f (x) ≥ 0 para toda x,
R∞
b) −∞ f (x)dx = 1.

Ejemplos
a) Sea la v.a. X tiempo transcurrido entre sucesos, por ejemplo, entre llegadas
de clientes a un invernadero que vende plántulas de una hortaliza. La función de
densidad de probabilidad de la v.a. es

f (x) = λe−λ x I[0,∞) (x), λ>0

Note que tal f (x) ≥ 0 y además,


Z ∞ Z ∞ Z b
−λ x
f (x)dx = λe dx = lim λe−λ x dx = lim −e−λx |b0 = 1
−∞ 0 b→∞ 0 b→∞

Si se tiene el evento B = [0, 100], entonces


Z 100
P (X ∈ B) = P (0 < X < 100) = λe−λ x dx = −e−λx |100
0 = 1−e
−λ100
0

b) Suponga una v.a. continua con función de densidad de probabilidad dada por

f (x) = 3 x2 I(0,1) (x)

Note que f (x) ≥ 0 para toda x y además


Z ∞ Z 1
f (x)dx = 3x2 dx = x3 |10 = 1
−∞ 0
CHAPTER 3. FUNCIONES DE PROBABILIDAD 35

Defn. Función de Distribucion Acumulada. Para una v.a. X se define su


función de distribución acumulada F (x) como,
X
F (x) = P (X ≤ x) = f (xj ) si X es discreta
{j:xj ≤x}
Z x
F (x) = P (X ≤ x) = f (u)du si X es continua
−∞

Ejemplo. Suponga el experimento de lanzar 3 veces una moneda al aire. Sea la v.a.
discreta X = # de águilas. Se tiene,
Ω = {aaa, aac, aca, caa, acc, cac, cca, ccc}, P (ωi ) = 1/8, i = 1, 2, . . . , 8. La función
masa de probabilidad de X es,

X 0 1 2 3
P(X=x) 1/8 3/8 3/8 1/8




 0 si x < 0


1/8 si 0 ≤ x < 1





F (x) = P (X ≤ x) = 4/8 si 1 ≤ x < 2


si 2 ≤ x < 3



 7/8


si x ≥ 3

 1

Equivalentemente se escribe como

1 4 7
F (x) = P (X ≤ x) = I[0,1) (x) + I[1,2) (x) + I[2,3) (x) + I[3,∞) (x)
8 8 8

Ejemplo. Suponga la v.a. X continua con función de densidad de probabilidad

f (x) = λe−λ x I[0,∞) (x), λ>0

La función de distribución acumulada es,


CHAPTER 3. FUNCIONES DE PROBABILIDAD 36

Z x
F (x) = P (X ≤ x) = f (u)du
−∞
Z x
= λe−λ u du = −e−λ u |x0 = 1 − e−λ x .
0

3.2 Variables Aleatorias Distribuidas Conjuntamente


En un experiment aleatorio frecuentemente se tiene interés en estudiar la relación
en dos o más variables aleatorias. Por ejemplo un ingeniero agrónomo puede estar
interesado en la longitud del tallo y el peso del fruto en la producción de manzana.

Defn. Vector Aleatorio Discreto y Masa de Probabilidad Conjunta. Si X


y Y son dos variables aleatorias discretas con rangos de valores posibles
RX = {x1 , x2 , . . .} y RY = {y1 , y2 , . . .} respectivamente, se define la función masa de
probabilidad conjunta para el vector aleatorio (X, Y ) como,

fXY (xi , yj ) = P [X = xi , Y = yj ] ∀ par (xi , yj )

La función fXY (x, y) debe satisfacer las dos propiedades,


a) fXY (x, y) ≥ 0, ∀(x, y),
P P
b) x y fXY (x, y) = 1.

Con frecuencia se denota fXY (x, y) = f (x, y) = p(x, y).

Ası́ para cualquier región A ⊂ R2 , se tiene que,


XX
P [(X, Y ) ∈ A] = f (x, y)IA (x, y)

Ejemplo. Suponga que una caja contiene 3 manzanas, 2 peras y 4 duraznos. Si se


eligen al azar dos frutos y las v.a X y Y representan el números de manzanas y peras
CHAPTER 3. FUNCIONES DE PROBABILIDAD 37

respectivamente en la muestra extraı́da, obtenga la masa de probabilidades del v.a.


(X, Y ).
soln. Los posibles pares de valores son: (0,0), (0,1), (0,2), (1,0), (1,1) y (2.0).
Note que

4 2
  4 2

2 6 1 8 1
f (0, 0) = 9
 = , f (0, 1) = 9
1 = , f (0, 2) = 2
9
 = ,
2
36 2
36 2
36

3
 4 3
 2 3

1 1 12 1 1 6 2 3
f (1, 0) = 9
 = , f (1, 1) = 9
 = , f (2, 0) = 9
 = .
2
36 2
36 2
36

La masa de probabilidad conjunta se resume en la siguiente tabla

X\Y 0 1 2
0 6/36 8/36 1/36
1 12/36 6/36 0
2 3/36 0 0

Sea el evento A = {0 ≤ X ≤ 1, 1 ≤ Y ≤ 2}, entonces,

XX
P [(X, Y ) ∈ A] = f (x, y)IA (x, y)
1 X
X 2
= f (xi , yj )IA (xi , yj )
i=0 j=1
= f (0, 1) + f (0, 2) + f (1, 1) + f (1, 2)
8 1 6 15
= + + +0= .
36 36 36 36

Defn. Función de Distribución Acumulada Conjunta Discreta. Si (X, Y ) es


un v.a. discreta con función de probabilidad conjunta f (x, y), se define la función de
CHAPTER 3. FUNCIONES DE PROBABILIDAD 38

distribución acumulada conjunta a,


XX
FXY (x, y) = P (X ≤ x, Y ≤ y) = f (s, t) ∀(x, y) ∈ R2
s≤x t≤y

Ejemplo. En el ejemplo anterior,

FXY (1, 2) = P (X ≤ 1, Y ≤ 2)
XX
= f (x, y)IA (x, y)
1 X
X 2
= f (xi , yj )IA (xi , yj )
i=0 j=0
= f (0, 0) + f (0, 1) + f (0, 2) + f (1, 0) + f (1, 1) + f (1, 2)
6 8 1 12 6 33
= + + + + +0= .
36 36 36 36 36 36

Defn. Distribuciones Marginales Discretas. Sea el v.a. (X, Y ) discreto, con


masa de probabilidad conjunta fXY (x, y), se definen las funciones de distribuciones
marginales respectivamente de la v.a. X y de la v.a. Y como,
X
fX (x) = P (X = x) = fXY (x, y),
y
X
fY (y) = P (Y = y) = fXY (x, y),
x

Ejemplo. Del ejemplo anterior del v.a. discreto (X, Y ) con masa de probabilidad
dado en el cuadro siguiente, se tienen las distribuciones marginales de X en la última
columna; y la de Y en la última hilera;

X\Y 0 1 2 P(X=x)
0 6/36 8/36 1/36 15/36
1 12/36 6/36 0 18/36
2 3/36 0 0 3/36
P(Y=y) 21/36 14/36 1/36 36/36
CHAPTER 3. FUNCIONES DE PROBABILIDAD 39

Note en tal caso que,


X 12 6 18
fX (1) = P (X = 1) = fXY (1, y) = f (1, 0) + f (1, 1) + f (1, 2) = + +0=
y
36 36 36
X 6 12 3 21
fY (0) = P (Y = 0) = fXY (x, 0) = f (0, 0) + f (1, 0) + f (2, 0) = + + =
x
36 36 36 36

Vector Aleatorio Continuo y Función de Densidad de Probabilidad Con-


junta. Sean X y Y dos v.a. continuas. Una función de dichas variables fXY (x, y)
se le llama función de densidad de probabilidad conjunta del v.a. (X, Y ), si dicha
función satisface;
a) fXY (x, y) ≥ 0, ∀ (x, y) ∈ R2 ,
R∞ R∞
b) −∞ −∞ fXY (x, y)dxdy = 1
Y entonces para cuanquier conjunt A ⊂ R2 ,
Z Z
P [(X, Y ) ∈ A] = fXY (x, y)dA.
A

Algunos autores denotan solamente f (x, y), sin subı́ndice XY .


Nota: Cualquier función f (x, y) que satisface (a) y (b) se le llama función de densidad
de probabilidad.

Ejemplo. Suponga un v.a. (X, Y ) con función de densidad de probabilidad conjunta


dada por,
3
fXY (x, y) = x(y + x)I(0,1) (x)I(0,2) (y)
5
2
Note que f (x, y) ≥ 0 ∀(x, y) ∈ R , además

Z ∞ Z ∞ Z 1 Z 2
3
fXY (x, y)dxdy = (xy + x2 )dydx
−∞ −∞ 0 0 5
Z 1 2 2
3 y 2
= x +x y dx
5 0 2 y=0
1
3 1 x3
Z 
2 3 2
= (2x + 2x )dx = x +2 =1
5 0 5 3 0
CHAPTER 3. FUNCIONES DE PROBABILIDAD 40

Ahora suponga la región A = {(x, y) : 0 < x < 1/2, 1 < y < 2}. Entonces,
Z Z
P [(X, Y ) ∈ A] = fXY (x, y)dA
A
= P (0 < X < 1/2, 1 < Y < 2)
Z 1/2 Z 2
3
= (xy + x2 )dydx
0 1 5
Z 1/2  2 2
3 y 2
= x +x y dx
5 0 2 y=1

3 1/2
Z
x
= (2x + 2x2 − − x2 )dx
5 0 2
Z 1/2
3 3
= ( x + x2 )dx
5 0 2
1/2
3 3 2 x3
  
3 31 1 11
= x + = + = .
5 4 3 0 5 4 4 24 80

Defn. Distribuciones Marginales Continuas. Sea el v.a. (X, Y ) continuo, con


función de probabilidad conjunta fXY (x, y), se definen las funciones de distribuciones
marginales respectivamente de la v.a. X y de la v.a. Y como,
Z ∞
fX (x) = fXY (x, y)dy,
−∞
Z ∞
fY (y) = fXY (x, y)dx,
−∞

Las funciones de distribuciones marginales, deben satisfacer las propiedades de una


función de probabilidad.

Ejemplo. Sea el v.a. (X, Y ) con función de densidad de probabilidad conjunta dada
por,
3
fXY (x, y) = x(y + x)I(0,1) (x)I(0,2) (y)
5
Las distribuciones marginales son,
CHAPTER 3. FUNCIONES DE PROBABILIDAD 41

Z ∞ Z 2
3
fX (x) = fXY (x, y)dy = x(y + x)dy
−∞ 0 5
2
3 y2

2
= x +x y
5 2 0
3
= (2x + 2x2 )I(0,1) (x).
5

Z ∞ Z 1
3
fY (y) = fXY (x, y)dx = x(y + x)dx
−∞ 0 5
 2 3
1
3 x x
= y +
5 2 3
  0
3 y 1
= + I(0,2) (y).
5 2 3

Note que se satisface, fX (x) ≥ 0, fY (y) ≥ 0, y


Z ∞ Z 1  1  
3 2 3 2 2 3 3 2
fX (x)dx = (2x + 2x )dx = x + x = 1+ =1
−∞ 0 5 5 3 0 5 3

∞ 2 2
3 y2 y
Z Z     
3 y 1 3 2
fY (y)dy = + dy = + = 1+ =1
−∞ 0 5 2 3 5 4 3 0 5 3

3.3 Momentos, Esperanza y Varianza


En la descripción de una distribución de probabilidad, se establecen medidas que
caracterizan al modelo teórico, entre las que se encuentran los llamados momentos de
la distribución. Dos de tales momentos son: momento respecto al origen, y momento
respecto a la media.

Def. Esperanza Matemática. Dada una v.a. X con masa de probabilidad o


función de densidad f (x), se define la esperanza de X o primer momento respecto al
origen, denotado por E(X), como,
CHAPTER 3. FUNCIONES DE PROBABILIDAD 42


 P x P (X = x) si X es discreta
x
E(X) =
 R ∞ x f (x)dx si X es continua
−∞

La Esperanza Matemática es una medida del centro (de gravedad) de la masa de


probabilidad o de la función de densidad f (x).

Ejemplo. Suponga la v.a. X con masa de probabilidad,

X 0 1 2 3
P(X=x) 1/8 3/8 3/8 1/8

X
E(X) = x P (X = x)
x
= 0P (X = 0) + 1P (X = 1) + 2P (X = 2) + 3P (X = 3)

= 0(1/8) + 1(3/8) + 2(3/8) + 3(1/8) = 12/8 = 3/2.

Ejemplo. Suponga la v.a. X de Bernoulli.


X
E(X) = x P (X = x) = 0P (X = 0) + 1P (X = 1) = p.
x

Ejemplo. Suponga la v.a. X continua con función de densidad de probabilidad

f (x) = λe−λ x I[0,∞) (x) λ > 0

Z ∞ Z ∞
E(X) = xf (x)dx = x λe−λ x dx
−∞ 0
Z ∞ Z ∞
1 −u 1 1 1
= ue du = u2−1 e−u du = Γ(2) = .
λ 0 λ 0 λ λ

Defn. Esperanza de una Función de una Variable Aleatoria. Sea f (x) la


función de probabilidades de la v.a. X. Para cualquier función g(X) de la v.a. X, se
define la esperanza de la función de la v.a. X como,
CHAPTER 3. FUNCIONES DE PROBABILIDAD 43


 P g(x) P (X = x) si X es discreta
x
E[g(X)] =
 R ∞ g(x) f (x)dx si X es continua
−∞

Propiedades de la Esperanza Matemática. La esperanza matemática satisface


las propiedades siguientes;
a) E(c) = c, para cualquier constante c,
b) E[c g(X)] = c E[g(X)], para cualquier constante c,
c) E[c1 g1 (X) + c2 g2 (X)] = c1 E[g1 (X)] + c2 E[g2 (X)]
d) E[g1 (X)] ≤ E[g2 (X)] si g1 (X) ≤ g2 (X) para toda x.

Def. Varianza de una Variable Aleatoria. Dada una v.a. X con función de
probabilidad f (x) y E(X) = µ, se define la Varianza de X o segundo momento
respecto a la media como,

 P (x − µ)2 P (X = x) si X es discreta
2 x
Var(X) = E[(X − µ) ] = R ∞

−∞
(x − µ)2 f (x)dx si X es continua

La varianza es una medida de dispersión o variación alrededor de µ = E(X).

Teorema. Var(X) = E(X 2 ) − [E(X)]2 .


Demostración. Sea µ = E(X) y g(X) = (X − µ)2 . Entonces,

Var(X) = E[(X − µ)2 ] = E[X 2 − 2µX + µ2 ]

= E(X 2 ) − E(2µX) + E(µ2 ) = E(X 2 ) − 2µE(X) + µ2

= E(X 2 ) − 2µ2 + µ2 = E(X 2 ) − µ2

= E(X 2 ) − [E(X)]2 . 2

Ejemplo. Suponga la v.a. X con masa de probabilidad,


CHAPTER 3. FUNCIONES DE PROBABILIDAD 44

X 0 1 2 3
P(X=x) 1/8 3/8 3/8 1/8

Considerando el teorema anterior para obtener la varianza, sea g(x) = x2 ,

X
E(X 2 ) = x2 P (X = x)
x
= 0P (X = 0) + 12 P (X = 1) + 22 P (X = 2) + 32 P (X = 3)

= 0(1/8) + 1(3/8) + 4(3/8) + 9(1/8) = 24/8 = 3.

Con esto, se tiene que

Var(X) = E(X 2 ) − [E(X)]2 = 3 − (3/2)2 = 3/4.

Ejemplo. Suponga la v.a. X de Bernoulli. Similarmente


X
E(X 2 ) = x2 P (X = x) = 0P (X = 0) + 12 P (X = 1) = p.
x

Var(X) = E(X 2 ) − [E(X)]2 = p − (p)2 = p(1 − p).

Ejemplo. Suponga la v.a. X continua con función de densidad de probabilidad

f (x) = λe−λ x I[0,∞) (x) λ > 0

Para obtener la varianza,


Z ∞ Z ∞ Z ∞
−λ x 1
2
E(X ) = 2
x f (x)dx = 2
x λe dx = 2 (λx)2 e−λ x λdx
−∞ 0 λ 0
Z ∞ Z ∞
1 1 1 2! 2
= 2
u2 e−u du = 2 u3−1 e−u du = 2 Γ(3) = 2 = 2 .
λ 0 λ 0 λ λ λ
Por consiguiente,
 2
2 2 2 1 1
Var(X) = E(X ) − [E(X)] = 2 − = 2.
λ λ λ
CHAPTER 3. FUNCIONES DE PROBABILIDAD 45

Propiedades de la Varianza. La varianza satisface las siguientes propiedades,


a) Var(X) ≥ 0,
b) Var(c) = 0, para cualquier constante c,
c) Var(cX) = c2 Var(X), c es constante,
d) Var(X + c) = Var(X), c es constante.

3.4 Momentos Conjuntos, Covarianza y Correlación


.
Defn. Momento Conjunto Respecto al Origen. Sea el v.a. (X, Y ) con f.d.p
conjunta fXY (x, y). Se define la esperanza conjunta de X y Y respecto al origen
como,

 P P xy f (x, y) si (X, Y ) es discreta
x y XY
E(XY ) =
 ∞ ∞ xy f (x, y)dxdy si (X, Y ) es continua
R R
−∞ −∞ XY

Defn. Covarianza o Momento Conjunto Respecto a la Media. Sea el v.a.


(X, Y ) con f.d.p conjunta fXY (x, y). Sea E(X) = µX y E(Y ) = µY . Se define la
Covarianza de X y Y , denotado Cov(X, Y ), como la esperanza o momento conjunto
de X y Y respecto a sus medias,

Cov(X, Y ) = E[(X − µX )(Y − µY )]



 P P (x − µ )(y − µ ) f (x , y ) si (X, Y ) es discreta
i j i X j Y XY i j
=
 ∞ ∞ (x − µ )(y − µ ) f (x, y)dxdy si (X, Y ) es continua
R R
−∞ −∞ X Y XY

Notación. Se denota con frecuencia


2
σX = Var(X), σY2 = Var(Y ), σXY = Cov(X, Y )
CHAPTER 3. FUNCIONES DE PROBABILIDAD 46

p p
2
Nota. Se le llama Desviación Estándar de X a V ar(X) = σX = σX .

Para facilitar la obtención de la covarianza se recurre al siguiente resultado.

Teorema. Cov(X, Y ) = E(XY ) − E(X)E(Y ).

Note que

Cov(X, Y ) = Cov(Y, X)

Cov(X, X) = V ar(X)

Defn. Correlación. Dado un v.a. (X, Y ) se define la correlación entre X y Y ,


denotado ρXY = Corr(X, Y ) como,

Cov(X, Y ) σXY
ρXY = Corr(X, Y ) = p =
V ar(X) V ar(Y ) σX σY

La correlación entre X y Y satisface las propiedades:


a) −1 ≤ ρXY ≤ 1. Valores cercanos a 1 indican fuerte asociación positiva entre las
variables; valores cercanos a -1 indican fuerte asociación negativa entre las variables;
mientras que valores cercanos a cero indican que no hay relación lineal entre las
variables,
b) ρXY no se afecta si hay cambios de escala en las variables.

Ejemplo. Del ejemplo anterior sobre el v.a. discreto (X, Y ) que representa los
números de manzanas y peras respectivamente se tiene;
CHAPTER 3. FUNCIONES DE PROBABILIDAD 47

X\Y 0 1 2 P(X=x)
0 6/36 8/36 1/36 15/36
1 12/36 6/36 0 18/36
2 3/36 0 0 3/36
P(Y=y) 21/36 14/36 1/36 36/36

Se desea obtener la correlación entre X y Y .

XX
E(XY ) = xy fXY (x, y)
x y
2 X
X 2
= xy fXY (x, y)
x=0 y=0
6 8 1 12 6
= (0)(0) + (0)(1) + (0)(2) + (1)(0) + (1)(1) + (1)(2)0
36 36 36 36 36
3 6 1
+(2)(0) + (2)(1)0 + (2)(2)0 = = .
36 36 6

Considerando las distribuciones marginales,


2
X 15 18 3 24 2
E(X) = xfX (x) = 0 +1 +2 = =
x=0
36 36 36 36 3

2
2
X 15 18 3 30 5
E(X ) = x2 fX (x) = 02 + 12 + 2 2 = =
x=0
36 36 36 36 6

 2
2 2 5 2 2 21 7
σX = E(X ) − [E(X)] = − = =
6 3 54 18

2
X 21 14 1 16 4
E(Y ) = yfY (y) = 0 +1 +2 = =
y=0
36 36 36 36 9

2
2
X 21 14 1 18 1
E(Y ) = y 2 fY (y) = 02 + 12 + 2 2 = =
y=0
36 36 36 36 2
CHAPTER 3. FUNCIONES DE PROBABILIDAD 48

 2
1 4 49
σY2 2
= E(Y ) − [E(Y )] = − 2
=
2 9 162
Por consiguiente,

1 24 7
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = − =−
6 39 54

La correlación es,

Cov(X, Y ) −7/54
ρXY = p =p = −0.3779645
V ar(X) V ar(Y ) (7/18)(49/162
Valor que indica poca relación lineal entre X y Y .

Ejemplo. Sea el v.a. (X, Y ), de un ejemplo anterior, con función de densidad de


probabilidad conjunta dada por,

3
fXY (x, y) = x(y + x)I(0,1) (x)I(0,2) (y)
5

Las distribuciones marginales son,

3
fX (x) = (2x + 2x2 )I(0,1) (x).
5

 
3 y 1
fY (y) = + I(0,2) (y).
5 2 3
Se desea obtener la Corr(X, Y ).

Z ∞ Z ∞ Z 1 Z 2
3
E(XY ) = xy fXY (x, y)dxdy =
xy x(y + x)dydx
−∞ −∞ 0 0 5
Z 1Z 2 Z 1 3 2 2

3 2 2 3 3 2y 3y
= (x y + x y)dydx = x +x dx
5 0 0 5 0 3 2 y=0
1
3 1 8x2 3 8x3 2x4
Z   
3 5
= + 2x dx = + = .
5 0 3 5 9 4 0 6
CHAPTER 3. FUNCIONES DE PROBABILIDAD 49

1 1 1
6 x3 x4
Z Z 
3 2 7
E(X) = xfX (x)dx = x (2x + 2x )dx = + = .
0 0 5 5 3 4 0 10

2 2 2
3 y3 y2
Z Z   
3 y 1 6
E(Y ) = yfY (y)dy = y + dy = + = .
0 0 5 2 3 5 6 6 0 5

1 1 1
6 x4 x 5
Z Z 
2 2 23 2 27
E(X ) = x fX (x)dx = x (2x + 2x )dx = + =
0 0 5 5 4 5 0 50

2 2 2
3 y4 y3
Z Z   
2 2 23 y 1 26
E(Y ) = y fY (y)dy = y + dy = + = .
0 0 5 2 3 5 8 9 0 15

 2
227 2 7 1
V ar(X) = E(X ) − [E(X)] = − =
50 10 20

 2
2 26 2 6 110
V ar(Y ) = E(Y ) − [E(Y )] = − =
15 5 375

5 7 6 1
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = − · =−
6 10 5 150
La correlación es,

Cov(X, Y ) −1/150
ρXY = p =p = −0.05504819
V ar(X) V ar(Y ) (1/20)(110/375)

Esperanza de Sumas de Variables Aleatorias. Si X y Y son dos v.a. con f.d.p.


conjunta fXY (x, y) y g(, ) es una función de dos variables, entonces,


 P P g(x, y) f (x, y) si (X, Y ) es discreta
x y XY
E[g(X, Y )] =
 ∞ ∞ g(x, y) f (x, y)dxdy si (X, Y ) es continua
R R
−∞ −∞ XY
CHAPTER 3. FUNCIONES DE PROBABILIDAD 50

Si g(X, Y ) = X + Y , entonces se tiene,


Z ∞ Z ∞
E[X + Y ] = (x + y) fXY (x, y)dxdy
−∞ −∞
Z ∞ Z ∞ Z ∞ Z ∞
= x fXY (x, y)dxdy + y fXY (x, y)dxdy
−∞ −∞ −∞ −∞
Z ∞ Z ∞  Z ∞ Z ∞ 
= x fXY (x, y)dy dx + y fXY (x, y)dx dy
−∞ −∞ −∞ −∞
= E[X] + E[Y ].

El caso discreto es similar. Por lo cual se tiene que,

E[X + Y ] = E[X] + E[Y ].

En general, sean X1 , X2 , . . . , Xn variables aleatorias, y sean a1 , a2 , . . . , an con-


stantes, entonces
" n
# n
X X
E ai X i = ai E(Xi )
i=1 i=1

Teorema. Covarianza de Sumas de Variables Aleatorias. Sean las v.a. X1 , X2 , . . . , Xn


y las v.a. Y1 , Y2 , . . . , Ym ; entonces

n m
! n X
m
X X X
Cov Xi , Yj = Cov(Xi , Yj )
i=1 j=1 i=1 j=1

Corolario. Considerando que Cov(X, X) = V ar(X), se tiene


n
! n n X
n
X X X
V ar Xi = V ar(Xi ) + Cov(Xi , Xj ), i 6= j
i=1 i=1 i=1 j=1

En el caso particular n = 2 se tiene,

V ar(X + Y ) = V ar(X) + V ar(Y ) + Cov(X, Y ) + Cov(Y, X)

= V ar(X) + V ar(Y ) + 2 Cov(X, Y )


CHAPTER 3. FUNCIONES DE PROBABILIDAD 51

3.5 Independencia
Previamente se ha definido que dos eventos A y B son independientes si y solo si

P (A ∩ B) = P (A) P (B)

Sea el v.a. (X, Y ). Se dice que las v.a. X y Y son independientes si para cualquier
par de valores (x, y) se cumple

fXY (x, y) = fX (x) · fY (y)

Si no se cumple tal propiedad, se dice que X y Y no son independientes, lo que


implica que son dependientes.
Si el v.a. (X, Y ) es discreto se denota;

fXY (x, y) = p(x, y) = P (X = x) · P (Y = y) = pX (x) · pY (y)

Ejemplo. Suponga el v.a. (X, Y ) con masa de probabilidad conjunta dada por

X\Y 2 3 4 P(X=x)
1 4/54 8/54 12/54 24/54
2 5/54 10/54 15/54 30/54
P(Y=y) 9/54 18/54 27/54 54/54

Se puede verificar que para cada par (x, y), se cumple p(x, y) = pX (x) · pY (y)

4 4 (9)(6) 24 9
p(1, 2) = = = = pX (1) pY (2)
54 54 54 54 54

8 8 (3)(3)(6) 24 18
p(1, 3) = = = = pX (1) pY (3)
54 54 54 54 54
Similarmente se pueden verificar los pares restantes de (x, y). Por consiguiente,
X y Y son v.a. independientes.
CHAPTER 3. FUNCIONES DE PROBABILIDAD 52

Ejemplo. Del ejemplo anterior sobre el v.a. discreto (X, Y ) que representa los
números de manzanas y peras respectivamente se tiene;

X\Y 0 1 2 P(X=x)
0 6/36 8/36 1/36 15/36
1 12/36 6/36 0 18/36
2 3/36 0 0 3/36
P(Y=y) 21/36 14/36 1/36 36/36

Note que
3 14
p(2, 1) = 0 6= = pX (2) pY (1)
36 36
es suficiente para concluir que las v.a. X y Y no son independientes, es decir son
dependientes.

Ejemplo. Suponga un v.a. (X, Y ) con f.d.p. conjunta dada por


1
fXY (x, y) = e−(x+y/2) I[0,∞) (x)I[0,∞) (y)
2
Se puede ver que las funciones de distribución marginales son,
Z ∞ Z ∞
−x 1 −y/2 ∞
dy = e−x −e−y/2 0 = e−x

fX (x) = fXY (x, y)dy = e e
0 0 2

Z ∞ Z ∞
1 1
fY (y) = fXY (x, y)dx = e−y/2 e−x dx = e−y/2
0 2 0 2
Note que la distribución conjunta satisface,

fXY (x, y) = fX (x) fY (y)

Por consiguiente las v.a. X y Y son independientes.

Lemma. Si las v.a. X y Y son independientes, entonces


a) Cov(X, Y ) = 0, ( y por consiguiente ρXY = 0)
b) V ar(X + Y ) = V ar(X) + V ar(Y ).
Chapter 4

Modelos de Probabilidad

4.1 Modelos Aleatorios Discretos


Algunos modelos de probabilidad discreto serán examinados.

4.1.1 Función de Probabilidad de Bernoulli y Binomial

Si el experimento solo tiene dos resultados posibles, se tiene el modelo de Bernoulli,


donde la v.a. X representa el número de éxitos.

Def. Variable Aleatoria Bernoulli. Se define una v.a. de Bernoulli con parámetro
p, si su f.d.p. es de la forma,

f (x) = p(x) = px (1 − p)1−x I{0,1} (x), 0 < p < 1.

En tal caso se tiene


E(X) = p
V ar(X) = p(1 − p) = pq, si 1 − p = q.

Se denota X ∼ Bernoulli(p), que se lee, X se distribuye Bernoulli con parámetro

53
CHAPTER 4. MODELOS DE PROBABILIDAD 54

p. Con frecuencia se escribe p(x) = f (x; p), para indicar el parámetro p.


Si el experimento incluye n variables de Bernoulli, cada uno con la misma proba-
bilidad de éxito p, se define la v.a. X que representa el número de éxitos en total, se
tiene el modelo llamado Binomial.

Def. Variable Aleatoria Binomial. Se define una v.a. Binomial con parámetros
n y p, si su f.d.p. es,
 
n x
f (x) = p(x) = p (1 − p)n−x I{0,1,2,...,n} (x), 0 < p < 1.
x

En tal caso se tiene


E(X) = np
V ar(X) = np(1 − p) = npq, si 1 − p = q.
Se denota X ∼ Binom(n, p) y su f.d.p. como p(x) = f (x; n, p).

Se muestran las gráficas de la distribución Binomial, con n = 20 y con tres valores


de p, dados por 0.1, 0.5 y 0.8 respectivamente.
0.25
dbinom(x, size = 20, prob = 0.1)

0.20
0.15
0.10
0.05
0.00

0 5 10 15 20

Figure 4.1: Binom(20,0.1)


CHAPTER 4. MODELOS DE PROBABILIDAD 55

0.20
0.15
dbinom(x, size = 20, prob = 0.5)

dbinom(x, size = 20, prob = 0.8)

0.15
0.10

0.10
0.05

0.05
0.00

0.00
0 5 10 15 20 0 5 10 15 20

x x

Figure 4.2: Binom(20,0.5) Figure 4.3: Binom(20,0.8)

Ejemplo. Suponga que se examinan 12 frutos de manzana y la probabilidad de que


cada fruto pase el control de calidad es p = 0.9. La v.a. X = Número de frutos que
reúnen el contro de calidad es Binomial. Se abrevia X ∼ Binomial(12, 0.9). Su masa
de probabilidad es
p(x) = 12
 x
x
0.9 (0.1)12−x I{0,1,2,...,12} (x),
¿ Cual es la probabilidad de que 10 frutos reúnan la calidad ?
¿ Cual es la probabilidad de que entre 8 y 10 frutos reúnen la calidad ?
¿ Cual es la probabilidad de que al menos 3 frutos reúnan la calidad ?

Las probabilidades requeridas son:

12
 10
P (X = 10) = 10
0.9 (0.1)12−10 = 66(0.34867844)(0.01) = 0.2301278
CHAPTER 4. MODELOS DE PROBABILIDAD 56

P (8 ≤ X ≤ 10) = P (X = 8) + P (X = 9) + P (X = 10)
     
12 8 4 12 9 3 12
= 0.9 (0.1) + 0.9 (0.1) + 0.910 (0.1)2
8 9 10
= 0.02130813 + 0.08523251 + 0.2301278 = 0.3366684

P (X ≥ 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2)
     
12 0 12 12 1 11 12
= 1− 0.9 (0.1) − 0.9 (0.1) − 0.92 (0.1)10
0 1 2
= 1 − 1(10 ) − 1.08(10 ) − 5.34(10 ) = 1 − 5.455(10−9 )
−12 −9 −9

= 0.999999994

Uso de Tablas para Calcular Probabilidades. Los textos incluyen tablas para
ciertos valores de n y de p para calcular probabilidades, basados en la función de
distribución acumulada,

k  
X n i
FX (k) = P (X ≤ k) = p (1 − p)n−i , k = 0, 1, 2, . . . , n
i=0
i

Ejemplo. En el ejemplo anterior, se puede calcular, con las tablas,


P (X = 10) = FX (10) − FX (9) = 0.3410 − 0.1109 = 0.2301
P (8 ≤ X ≤ 10) = FX (10) − FX (7) = 0.3410 − 0.0043 = 0.3367
P (X ≥ 3) = 1 − FX (2) = 1 − 0 = 1

Cálculo de Probabilidades en R
Si X ∼ Binom(n, p) y se desea P (X = x), se escribe:
dbinom(x,n,p)
Para obtener la probabilidad acumulada FX (k) = P (X ≤ k), se escribe
CHAPTER 4. MODELOS DE PROBABILIDAD 57

pbinom(x,n,p)

Ejemplo. Sea X ∼ Binom(12, 0.9).


Para obtener P (X = 10) escriba
dbinom(10,12,0.9)
lo que le producirá: 0.2301278
Para obtener P (8 ≤ X ≤ 10) = P (X ≤ 10) − P (X ≤ 7), escriba
pbinom(10,12,0.9)-pbinom(7,12,0.9)
lo que le producirá: 0.3366684
Para obtener P (X ≥ 3) = 1 − P (X ≤ 2) escriba
1-pbinom(2,12,0.9)
produciendo el resultado: 1

4.1.2 Función de Probabilidad Poisson

Si un experimento aleatorio implica conteos de eventos que ocurren en intervalos de


tiempo o en unidades de superficie o volumen, tales como: número de insectos por
planta; número de manchas en hojas de una planta; número de clientes que llegan a
un invernadero; número de llamadas por teléfono a una oficina de asesorı́a técnica,
etc., se puede describir tales conteos con el modelo de probabilidad de Poisson.
El modelo de Poisson está relacionado con el modelo de Bernoulli y Binomial,
cuando se considera un número muy grande de repeticiones de un experimento de
Bernoulli con probabilidad de éxito muy pequeña.

Defn. Variable Aleatoria de Poisson. Se define una v.a. de Poisson con parámetro
λ si su f.d.p es de la forma,

e−λ λx
f (x) = p(x) = I{0,1,2,...} (x), λ>0
x!
CHAPTER 4. MODELOS DE PROBABILIDAD 58

En tal caso se tiene


E(X) = λ
V ar(X) = λ.
Se denota X ∼ P oisson(λ) y p(x) = f (x; λ).

λ representa el número promedio de resultados por unidad de tiempo o espacio.

Se muestran las gráficas de la distribución Poisson, con dos valores de λ, dados


por 3 y 10 respectivamente.

0.12
0.20

0.10
0.15

0.08
dpois(x, 10)
dpois(x, 3)

0.06
0.10

0.04
0.05

0.02
0.00

0.00

0 10 20 30 40 50 0 10 20 30 40 50

x x

Figure 4.4: Poisson(3) Figure 4.5: Poisson(10)

Ejemplo. Suponga que el número promedio de clientes que llegan a un vivero es de


3 por cada media hr. Suponga que la v.a. X ∼ P oisson(λ = 3).
¿ Cual es la probabilidad que en la próxima media hr lleguen 4 clientes ?
¿ Cual es la probabilidad que en la próxima media hr lleguen al menos 2 clientes ?
¿ Cual es la probabilidad que en la próxima hr lleguen 7 clientes ?
CHAPTER 4. MODELOS DE PROBABILIDAD 59

e−3 34
P (X = 4) = p(4) = = 0.1680314
4!

e−3 30 e−3 31
P (X ≥ 2) = 1 − FX (1) = 1 − − = 1 − 0.1991483 = 0.8008517
0! 1!
Para el intervalo de una hr (dos intervalos de tiempo) se considera λ = 6.

e−6 67
p(7) = P (X = 7) = = 0.1376
7!

Uso de Tablas para Calcular Probabilidades. Los textos incluyen tablas para
ciertos valores de x y de λ para calcular probabilidades, basados en la función de
distribución acumulada,

x
X e−λ λk
FX (x) = P (X ≤ x) = , k = 0, 1, 2, . . . , x
k=0
k!
Ejemplo. Con los datos del ejemplo anterior X ∼ Poisson(λ = 3), y las tablas,

P (X = 4) = FX (4) − FX (3) = 0.8153 − 0.6472 = 0.1681

P (X ≥ 2) = 1 − FX (1) = 1 − 0.1991 = 0.8009

p(7) = P (X = 7) = FX (7) − FX (6) = 0.7440 − 0.6063 = 0.1377

Cálculo de Probabilidades en R
CHAPTER 4. MODELOS DE PROBABILIDAD 60

Si X ∼ P oisson(λ) y se desea P (X = x), se escribe:


dpois(x,λ)
Para obtener la probabilidad acumulada FX (k) = P (X ≤ k), se escribe
ppois(x,λ)

Ejemplo. Sea X ∼ P oisson(3).


Para calcular P (X = 2) y P (X = 4) escriba
dpois(2,3)
dpois(4,3)
lo que resultará en: 0.2240418 y en 0.1680314, respectivamente.
Para calcular la probabilidad acumulada P (X ≤ 3) escriba
ppois(3,3)
lo que resultará en: 0.6472319
P (X ≥ 2) = 1 − P (X ≤ 1) se obtiene con
1-ppois(1,3)
resultando en: 0.8008517

En el caso que X ∼ P oisson(6), para calcular P (X = 7), escribe


dpois(7,6)
lo que produce: 0.137677

4.1.3 Función de Probabilidad Hipergeométrica

Suponga que se tienen N objetos cada uno con dos caracterı́sticas posibles mutua-
mente excluyentes, y que de tales objetos K presentan una caracterı́stica (p.e. éxito)
y N − K no la presentan. Se realiza el experimento de extraer una muestra sin
reemplazo de tamaño n y se desea saber cuantos objetos en la muestra provienen de
CHAPTER 4. MODELOS DE PROBABILIDAD 61

K.

Defn. Distribución de Probabilidad Hipergeométrica. Una v.a. tiene dis-


tribución Hipergeométrica con parámetros N , K y n si su f.d.p. es,
K N −K
 
x n−x
f (x; N, n, K) = N
 , max{0, n − (N − K)} ≤ x ≤ min{n, K}
n

En tal caso se tiene


E(X) = np, donde p = K/N
V ar(X) = npq(N − n)/(N − 1), donde q = 1 − p.

Suponga que X ∼ Hipergeométrica(N = 12, K = 6, n = 4). Note que


max{0, n − (N − K)} = max{0, 4 − (12 − 6)} = 0 y min{n, K} = min{4, 6} = 4; por
consiguiente X = 0, 1, 2, 3, 4. La f dp es,
6
 6 
x 4−x
p(x) = 12
 x = 0, . . . , 4
4

Se muestra la gráfica.

Ejemplo. Suponga que se tiene en una caja 34 frutos de manzana, de las cuales 4
no reúnen la calidad. Se toma una muestra aleatoria de n = 6 frutos.
¿ Cual es la probabilidad de que los 6 frutos reúnan la calidad ?
¿ Cual es la probabilidad de que ningún fruto reúnan la calidad ?
¿ Cual es la probabilidad de que al menos 5 frutos reúnan la calidad ?
Se tiene N = 34, K = 30 y n = 6. Note que max{0, 6 − (34 − 30)} = max{0, 2} = 2,
mientras que, min{6, 28} = 6 y con esto X = 2, 3, 4, 5, 6 y la f dp de X es,

30 4
 
x 6−x
p(x) = 34
 x = 2, . . . , 6
6
Con esto las probabilidades deseadas son,
CHAPTER 4. MODELOS DE PROBABILIDAD 62

0.4
0.4

0.3
dhyper(x, 30, 4, 6)
0.3
dhyper(x, 6, 6, 4)

0.2
0.2

0.1
0.1

0.0
0 1 2 3 4 2 3 4 5 6

x x

Figure 4.6: Hypg(N=12,K=6,n=4) Figure 4.7: Hypg(N=34,K=30,n=6)

30 4
 
6 593775
P (X = 6) = 34
0 = = 0.441499913
6
1344904

P (X = 0) = 0

30 4 30 4
   
5
P (X ≥ 5) = P (X = 5) + P (X = 6) = 34
1 + 6
34
0
6 6
= 0.4238399 + 0.441499913 = 0.8653398

Cálculo de Probabilidades en R
Si X ∼ Hypergeometrica(N, K, n) y se desea P (X = x), se escribe:
dhyper(x,K,N-K,n)
Para obtener la probabilidad acumulada FX (k) = P (X ≤ k), se escribe
phyper(x,K,N-K,n)
CHAPTER 4. MODELOS DE PROBABILIDAD 63

Ejemplo. Sea X ∼ Hypergeometrica(N = 34, K = 30, n = 6).


Para calcular P (X = 6) escriba,
dhyper(6,30,4,6)
lo que producirá el valor: 0.4414999
La probabilidad acumulada P (X ≤ 5) se obtiene escribiendo,
phyper(5,30,4,6)
produciendo el valor: 0.5585001
Para calcular P (X ≥ 5) = 1 − P (X ≤ 4) se escribe,
1-phyper(4,30,4,6)
resultando el valor: 0.8653398

4.2 Modelos Aleatorios Continuos

4.2.1 Función de Probabilidad Gamma, Exponencial y Ji


Cuadrada

.
Defn. Función de Probabilidad Gama. Una v.a. continua X tiene una dis-
tribución de probabilidad Gama con parámetros α y β si su f.d.p es,

xα−1 e−x/β
fX (x; α, β) = I[0,∞) (x), α > 0, β > 0
Γ(α) β α
R∞
Donde Γ(α) = 0
tα−1 e−t dt, α > 0.
Se escribe X ∼ Gama(α, β). En tal caso se tiene,
E(X) = α β,
V ar(X) = α β 2 .
A α se le llama parámetro de forma, ya que tiene relación con el pico de la distribución;
mientras que a β se le llama parámetro de escala, ya que tiene relación con la amplitud
CHAPTER 4. MODELOS DE PROBABILIDAD 64

de la distribución.
Algunos autores definen la distribución Gama con β = 1/λ, por lo que la f dp
serı́a,
λα xα−1 e−λx
fX (x; α, λ) = I[0,∞) (x), α > 0, λ > 0
Γ(α)

Se muestra la gráfica de dos funciones de distribución Gama(α, λ),


1.4
1.2

0.6
1.0
dgamma(x, 3, 5)

dgamma(x, 8, 5)
0.8

0.4
0.6
0.4

0.2
0.2
0.0

0.0

0 1 2 3 4 5 0 1 2 3 4 5

x x

Figure 4.8: Gama(α = 3, λ = 5) Figure 4.9: Gama(α = 8, λ = 5)

Cálculo de Probabilidades en R
Si X ∼ Gama(α, λ), para evaluar la función en x, f (x; α, λ), solo útil para graficar
la f.d.p, como en las subsiguientes v.a.’s continuas, se representa como
dgamma(x, α, λ)
Para obtener la probabilidad acumulada FX (x) = P (X ≤ x), se escribe
pgamma(x, α, λ)
Mientras que para obtener P (a < X < b) se escribe,
pgamma(b, α, λ)-pgamma(a, α, λ)
CHAPTER 4. MODELOS DE PROBABILIDAD 65

Ejemplo. Suponga X ∼ Gama(3, 5),


Para obtener P (X < 2) se escribe
pgamma(2,3,5)
lo que producirá: 0.9972306
Para calcular P (1 < X < 3) se escribe,
pgamma(3,3,5)-pgamma(1,3,5)
lo que resulta en: 0.1246127

Si en la distribución Gama(α, β), se toma α = 1, se obtiene la función de probabilidad


Exponencial.

Def. Función de Probabilidad Exponencial. Una v.a. continua X tiene una


distribución de probabilidad Exponencial con parámetro β, si su f.d.p es,

e−x/β
fX (x; β) = I[0,∞) (x), β>0
β

Se escribe X ∼ Exponencial(β). En tal caso se tiene,


E(X) = β,
V ar(X) = β 2 .

Si se escribe λ = 1/β, la distribución Exponencial(λ) serı́a,

fX (x; λ) = λe−λx I[0,∞) (x), λ>0

En tal caso, como se vió en un ejemplo anterior se tiene,


E(X) = 1/λ,
V ar(X) = 1/λ2 .
que corresponde a la media y la varianza indicadas.
Se muestran las gráficas de dos densidades Exponenciales con λ = 1 y con λ = 0.4.

Cálculo de Probabilidades en R
CHAPTER 4. MODELOS DE PROBABILIDAD 66

1.0

0.4
0.8

0.3
0.6

dexp(x, 0.4)
dexp(x, 1)

0.2
0.4

0.1
0.2
0.0

0.0
0 2 4 6 8 10 0 5 10 15

x x

Figure 4.10: Exp(λ = 1) Figure 4.11: Exp(λ = 0.4)

Si X ∼ Exp(λ), para evaluar la función en x, f (x; λ) se representa como


dexp(x, λ)
Para obtener la probabilidad acumulada FX (x) = P (X ≤ x), se escribe
pexp(x, λ)
Mientras que para obtener P (a < X < b) se escribe,
pexp(b, λ)-pexp(a, λ)

Ejemplo. Suponga X ∼ Exp(λ = 0.4),


Para obtener P (X < 5) se escribe,
pexp(5,0.4)
lo que producirá: 0.8646647
Para calcular P (2 < X < 10) se escribe,
pexp(10,0.4)-pexp(2,0.4)
lo que resulta en: 0.4310133
CHAPTER 4. MODELOS DE PROBABILIDAD 67

Si en la distribución Gama(α, β), para un k ∈ N se toma α = k/2 y β = 2, se obtiene


la distribución de probabilidad Ji-Cuadrada.

Def. Función de Probabilidad Ji-Cuadrada. Una v.a. continua X tiene una


distribución de probabilidad Ji-Cuadrada con parámetro k, si su f.d.p es,

xk/2−1 e−x/2
fX (x; k) = I[0,∞) (x), k∈N
Γ(k/2) 2k/2
Se escribe X ∼ Ji-Cuadrada(k) y se denomina Ji-cuadrada con k grados de liber-
tad. También se denota X ∼ χ2(k) o X 2 ∼ χ2(k) . En tal caso,
E(X) = k,
V ar(X) = 2k.

Se presentan las gráficas de dos densidades Ji-cuadradas con parámetros k = 5 y


k = 18,
0.07
0.15

0.06
0.05
0.10

dchisq(x, 18)

0.04
dchisq(x, 5)

0.03
0.05

0.02
0.01
0.00

0.00

0 5 10 15 20 25 30 0 10 20 30 40 50 60

x x

Figure 4.12: JiCuad(k = 5) Figure 4.13: JiCuad(k = 18)


CHAPTER 4. MODELOS DE PROBABILIDAD 68

Uso de Tablas Jicuadrada. Los textos incluyen tablas para ciertos valores de k g.l.
en la primer columna y de probabilidades α en la primer hilera, para obtener valores
c llamados puntos de corte, que satisfacen alguna probabilidad especificada.
En la tabla D del libro de Said y Zarate (2012) con X 2 ∼ Ji-Cuadrada(k), se
proveen valores χ2α (k) (ó χ2α,k como en Ross 2009) tales que,

P X 2 ≥ χ2α (k) = α


Con esto, los valores de α representan áreas del lado derecho de la gráfica.

Ejemplo. Sea X 2 ∼ Ji-Cuadrada(10).


El valor de c tal que P (X 2 ≥ c) = 0.99 es c = χ20.99 (10) = 2.5582.
P (X 2 ≥ 2.5582) = 0.99
El valor de c tal que P (X 2 ≥ c) = 0.95 es c = χ20.95 (10) = 3.9403.
P (X 2 ≥ 3.9403) = 0.95
El valor de c tal que P (X 2 ≥ c) = 0.01 es c = χ20.01 (10) = 23.2093.
P (X 2 ≥ 23.2093) = 0.01.

Cálculo de Probabilidades en R
Si X 2 ∼ Ji-Cuadrada(k), para evaluar la función en x, f (x; k) se representa como
dchisq(x, k)
Para obtener la probabilidad acumulada FX (x) = P (X ≤ x), se escribe
pchisq(x, k)
Mientras que para obtener P (a < X < b) se escribe,
pchisq(b, k)-pchisq(a, k)
Para obtener el valor de c tal que P (X 2 ≤ c) = p, se escribe,
qchisq(p,k)
Mientras que para el valor de c tal que P (X 2 ≥ c) = p, se escribe,
CHAPTER 4. MODELOS DE PROBABILIDAD 69

qchisq(1-p,k)

Ejemplo. Suponga X 2 ∼ Ji-Cuadrada(10) ,


Para obtener P (X < 20) se escribe,
pchisq(20,10)
lo que producirá: 0.9707473
Para calcular P (5 < X < 22) se escribe,
pchisq(22,10)-pchisq(5,10)
lo que resulta en: 0.8760734
Suponga que se desean el valor de c tal que P (X 2 ≥ c) = 0.01; en tal caso se escribe,
qchisq(0.99,10)
produciendo el valor de c como: 23.20925

4.2.2 Función de Probabilidad de Gauss o Normal

La distribución de probabilidad continua más importante en Estadı́stica es la dis-


tribución normal. Su gráfica se denomina curva normal o curva de la campana, la
cual describe la distribución de frecuencias de mediciones de variables, para una diver-
sidad de fenómenos que ocurren en la naturaleza, en la industria y en la investigación.
Además ésta distribución de probabilidad sirve de base para muchas técnicas de infer-
encia estadı́stica. Frecuentemente es referida como distribución Gaussiana en honor
a K. F. Gauss.

Def. Función de Probabilidad Normal. Una v.a. X tiene distribución Normal o


de Gauss, con parámetros µ y σ 2 si su f.d.p es,

1 1 2
fX (x) = √ e− 2σ2 (x−µ) , −∞ < µ < ∞, σ > 0
2π σ
Se denota X ∼ N (µ, σ 2 ), y con frecuencia fX (x) = fX (x; µ, σ 2 ).
CHAPTER 4. MODELOS DE PROBABILIDAD 70

En tal caso,
E(X) = µ,
V ar(X) = σ 2 .

La gráfica de la función de densidad de Gauss es simétrica centrada en el parámetro


µ, como se observa en una gráfica abajo.

Estandarización de una Variable Aleatoria Normal. Si se tiene X ∼ N (µ, σ 2 ),


se llama estandarizar la v.a. X al proceso de formar la nueva variable Z como,

X −µ
Z=
σ

Note que la E(Z) y V ar(Z) son:

1
E(Z) = E(X − µ) = 0
σ

1 1
V ar(Z) = 2
V ar(X − µ) = 2 V ar(X) = 1
σ σ

Def. Función de Probabilidad Normal Estándar. Si X ∼ N (µ, σ 2 ), entonces


la v.a.
X −µ
Z=
σ
tiene una distribución N (0, 1), llamada normal estándar, y su f.d.p. es,

1 1 2
fZ (z) = √ e− 2 z

La gráfica de dicha función de densidad es simétrica centrada en 0, como se puede
apreciar abajo.
Por el proceso de estandarización, cualquier cálculo de probabilidades en la v.a.
X, se puede realizar con la v.a. Z. Note que si X ∼ N (µ, σ 2 ),
CHAPTER 4. MODELOS DE PROBABILIDAD 71

     
X −µ b−µ b−µ b−µ
P (X ≤ b) = P ≤ =P Z≤ = FZ
σ σ σ σ
En general, para cualquier a < b,
 
a−µ X −µ b−µ
P (a ≤ X ≤ b) = P ≤ ≤
σ σ σ
 
a−µ b−µ
= P ≤Z≤
σ σ
   
b−µ a−µ
= P Z≤ −P Z ≤
σ σ
   
b−µ a−µ
= FZ − FZ
σ σ

Se presentan las gráficas de varias densidades Normales, 0.020


0.12
0.10

0.015
dnorm(x, 50, 18)
dnorm(x, 20, 3)

0.08

0.010
0.06
0.04

0.005
0.02
0.00

0.000

5 10 15 20 25 30 35 0 20 40 60 80 100

x x

Figure 4.14: N(20,3) Figure 4.15: N(50,18)

Uso de Tablas para calcular Probabilidades. Los textos incluyen tablas para
ciertos valores de z, generalmente del intervalo [−3.59, 3.59]. En la primer columna
CHAPTER 4. MODELOS DE PROBABILIDAD 72

0.20

0.4
0.15

0.3
dnorm(x, 0, 2)

dnorm(x, 0, 1)

0.2
0.10

0.1
0.05

0.0
−4 −2 0 2 4 −4 −2 0 2 4

x x

Figure 4.16: N(0,2) Figure 4.17: N(0,1)

de la tabla están los valores de -3.5 a 3.5 y en la primera hilera de la tabla están
los números del segundo decimal. El resto del contenido de la tabla, son las prob-
abilidades acumuladas. La tabla permite calcular las probabilidades de la v.a. Z.
Para calcular probabilidades de una v.a. X ∼ N (µ, σ) con dicha tabla, se requiere
estandarizar previamente a X.

Ejemplo. Sea Z ∼ N (0, 1). Usando la tabla se tiene que;


P (Z ≤ −1.52) = 0.0643 P (Z ≤ 1.52) = 0.9357.

Propiedades de Z. Sea Z ∼ N (0, 1). Se satisfacen las propiedades siguientes, para


los valores de z, z1 y z2 , donde z1 < z2 ,
a) P (Z ≥ z) = 1 − P (Z ≤ z) = P (Z ≤ −z)
b) P (z1 ≤ Z ≤ z2 ) = P (Z ≤ z2 ) − P (Z ≤ z1 ),
c) P (−z ≤ Z ≤ z) = 1 − 2 P (Z ≤ −z)
d) si z > 0 y para algunas tablas que solo proporcionan el área entre 0 y z,
CHAPTER 4. MODELOS DE PROBABILIDAD 73

P (Z ≤ z) = 0.5 + P (0 ≤ Z ≤ z)
P (Z ≤ −z) = 0.5 − P (0 ≤ Z ≤ z)

Ejemplo. Sea Z ∼ N (0, 1).


P (Z ≥ 1.96) = 1 − P (Z ≤ 1.96) = 1 − 0.975 = P (Z ≤ −1.96) = 0.025
P (−1.36 ≤ Z ≤ 2.64) = P (Z ≤ 2.64) − P (Z ≤ −1.36) = 0.9959 − 0.0869 = 0.909
P (−1.64 ≤ Z ≤ 1.64) = 1 − 2 P (Z ≤ −1.64) = 1 − 2(0.0505) = 0.899

Ejemplo. Suponga que X ∼ N (µ = 20, σ 2 = 25).

 
X − 20 18 − 20
P (X ≥ 18) = P ≥ = P (Z ≥ −0.4) = P (Z ≤ 0.4) = 0.6554
5 5

 
16.4 − 20 X − 20 23.7 − 20
P (16.4 ≤ X ≤ 23.7) = P ≤ ≤ = P (−0.72 ≤ Z ≤ 0.74)
5 5 5
= P (Z ≤ 0.74) − P (Z ≤ −0.72) = 0.7704 − 0.2358 = 0.5346

 
7.6 − 20 X − 20 32.4 − 20
P (7.6 ≤ X ≤ 32.4) = P ≤ ≤ = P (−2.48 ≤ Z ≤ 2.48)
5 5 5
= 1 − 2 P (Z ≤ −2.48) = 1 − 2(0.0066) = 0.9868

Cálculo de Probabilidades en R
Si X ∼ Normal(µ, σ), para evaluar la función en x, f (x; k) se representa como
dnorm(x, µ, σ)
Para obtener la probabilidad acumulada FX (x) = P (X ≤ x), se escribe
pnorm(x, µ, σ)
Mientras que para obtener P (a < X < b) se escribe,
CHAPTER 4. MODELOS DE PROBABILIDAD 74

pnorm(b, µ, σ)-pnorm(a, µ, σ)

Para el caso de la normal estándar Z, no se especifican la media ni la desviación


estándar. Para FX (x) = P (X ≤ x) se escribe,
pnorm(x)
Mientras que para obtener P (a < Z < b) se escribe,
pnorm(b)-pnorm(a)
Para obtener el valor de c tal que P (X ≤ c) = p, se escribe,
qnorm(p, µ, σ)
Mientras que para el valor de c tal que P (X ≥ c) = p, se escribe,
qnorm(1 − p, µ, σ)
Para obtener el valor de c tal que P (Z ≤ c) = p, se escribe,
qnorm(p)
Mientras que para el valor de c tal que P (Z ≥ c) = p, se escribe,
qnorm(1-p)

Ejemplo. Suponga Z ∼ N (0, 1). Para calcular P (Z < −1.52) escriba,


pnorm(-1.52)
lo que produce: 0.06425549
Para calcular P (Z < 1.52) escriba,
pnorm(1.52)
resultando el valor: 0.9357445. Mientras que para calcular P (Z > 1.52) escriba,
1-pnorm(1.52)
produciendo el valor: 0.06425549; en virtud de la simetrı́a de la distribución alrededor
del origen.
Para P (−1.36 < Z < 2.64), se obtiene escribiendo,
CHAPTER 4. MODELOS DE PROBABILIDAD 75

pnorm(2.64)-pnorm(-1.36)
produciendo el valor; 0.9089397
Suponga que se desea el valor c tal que P (Z ≥ c) = 0.01. Escribe,
qnorm(0.99)
lo que produce 2.326348 como valor de c.

No se requiere estandarizar la v.a. X Normal arbitraria, para obtener las proba-


bilidades en R.

Ejemplo. Suponga que X ∼ N (µ = 20, σ 2 = 25).


Para obtener P (X > 18) se escribe,
1-pnorm(18,20,5)
lo que produce el valor: 0.6554217
Para calcular P (16.4 < X < 23.7) se escribe,
pnorm(23.7,20,5)-pnorm(16.4,20,5)
resultando en el número: 0.5345875
Si se desea valor de c tal que P (X ≥ c) = 05, se escribe,
qnorm(0.95,20,5)
lo que resulta en el número 28.22427 para tal valor de c deseado.

Relación de la Distribución Ji-Cuadrada y la Normal.


Si Z1 , Z2 , . . . , Zn son variables aleatorias normales estándar independientes, en-
tonces la v.a. X definida como,

X = Z12 + Z22 + · · · + Zn2

resulta ser una v.a. Ji-cuadrada(n). Por consiguiente,

X = Z12 + Z22 + · · · + Zn2 ∼ χ2(n)


CHAPTER 4. MODELOS DE PROBABILIDAD 76

4.3 Distribución de Probabilidad t-Student


.
La distribución t-student es muy utilizada cuando se desea hacer inferencia sobre
la media de una o dos distribuciones normales, como se verá más adelante.

Defn. Distribución t-Student. Una v.a. T tiene tiene una distribución de proba-
bilidad t − Student con n grados de libertad, si su f.d.p es,

Γ( n+1
2
) 1
fT (t) =
n , t∈R
Γ( 2 )(nπ)1/2 (1 + t2 /n) n+1
2

Se denota T ∼ t(n) . En tal caso,


E(T ) = 0 si n > 1,
V ar(T ) = n/(n − 2) si n > 2.

La gráfica de la distribución t − Student es simétrica centrada en el origen, como


se aprecia a continuación en dos ejemplos abajo. Un resultado importante que será
usado posteriormente es el siguiente:

Teorema. Sea una v.a. Z ∼ N (0, 1) y sea la v.a. X 2 ∼ χ2(n) , con Z y X 2 independi-
entes, entonces la v.a. T definida por
Z
T =p
X 2 /n
es tal que T ∼ t(n) .

Uso de Tablas para calcular Probabilidades. Los textos incluyen tablas para
ciertos valores de n gl en la primer columna, y ciertos valores de probabilidad α en
la primera hilera.
Ası́, la tabla proporciona el valor tα (n) (ó tα,n ) tal que,

P (T ≥ tα (n)) = α
CHAPTER 4. MODELOS DE PROBABILIDAD 77

0.4

0.4
0.3

0.3
dt(x, 20)
dt(x, 8)

0.2

0.2
0.1

0.1
0.0
0.0

−4 −2 0 2 4 −4 −2 0 2 4

x x

Figure 4.18: t(8) Figure 4.19: t(20)

Por la simetrı́a de la distribución se tiene que,

P (T ≥ tα (n)) = P (T ≤ −tα (n)) = α

Ejemplo. Suponga que T ∼ t(8) .


P (T ≥ 2.8965) = 0.01 implica que t0.01 (8) = 2.8965. Por simetrı́a se tiene,
P (T ≤ −2.8965) = 0.01.
¿ Cuál es el valor c tal que P (T ≤ −c) = 0.05 ?
Por la simetrı́a de la distribución se tiene,
P (T ≤ −t0.05 (8)) = P (T ≥ t0.05 (8)) = 0.05, lo que implica
c = t0.05 (8) = 1.8595

Ejemplo. Suponga que T ∼ t(20) .


Ahora determine el valor c tal que, P (−c ≤ T ≤ c) = 0.95.
Note que se desea c tal que P (T ≥ c) = 0.025, es decir c = t0.025 (20). De la tabla se
CHAPTER 4. MODELOS DE PROBABILIDAD 78

tiene que, c = t0.025 (20) = 2.086, es decir P (T ≥ 2.086) = 0.025. Con esto,

P (−2.086 ≤ T ≤ 2.086) = 0.95

Cálculo de Probabilidades en R
Si X ∼ t-Student(n), para evaluar la función en x, f (x; n) se representa como
dt(x, n)
Para obtener la probabilidad acumulada FX (x) = P (X ≤ x), se escribe
pt(x, n)
Mientras que para obtener P (a < X < b) se escribe,
pt(b, n)-pt(a, n)
Para obtener el valor de c tal que P (X ≤ c) = p, se escribe,
qt(p, n)
Mientras que para el valor de c tal que P (X ≥ c) = p, se escribe,
qt(1 − p, n)

Ejemplo. Suponga que T ∼ t(8) .


Para obtener P (−2 < X < 1) se escribe,
pt(1, 8)-pt(−2, 8)
lo que produce: 0.7864451
Suponga se desea el valor de c tal que P (X ≤ c) = 0.95; escriba
qt(0.95,8)
lo que produce el valor de: 1.859548
Mientras que si se desea el valor c tal que P (X ≥ c) = 0.01, escriba
qt(.99,8)
resultando en el número: 2.896459
CHAPTER 4. MODELOS DE PROBABILIDAD 79

4.4 Distribución de Probabilidad F


.
En muchas aplicaciones en Estadı́stica, tales como la comparación de las varianzas
de dos poblaciones; o para comparación de los efectos de varios tratamientos, se
emplea la distribución de probabilidad F .

Defn. Función de Probabilidad F. Una v.a. X tiene una distribución F , con m


grados de libertad en el numerador y n grados de libertad en el denominador, si su
f.d.p. es,

 m2 m
Γ( m+n
2
) x 2 −1 m
n
fX (x; m, n) =  m+n I(0,∞) (x)
Γ( m2 )Γ( n2 ) 1 + m
n
x 2

Se denota X ∼ Fnm o también X ∼ Fm,n .

Se presentan las gráficas de dos distribuciones F.


0.6
0.8

0.5
0.6

0.4
df(x, 14, 20)

df(x, 10, 4)

0.3
0.4

0.2
0.2

0.1
0.0

0.0

0 1 2 3 4 5 0 1 2 3 4 5 6

x x

14
Figure 4.20: F20 Figure 4.21: F410
CHAPTER 4. MODELOS DE PROBABILIDAD 80

El siguiente resultado establece una relación entre la distribución Ji-cuadrada con


la distribución F .

Teorema. Sea una v.a. U ∼ χ2(m) y sea la v.a. V ∼ χ2(n) , con U y V independientes,
entonces la v.a. X definida por
U/m
X=
V /n
es tal que X ∼ Fnm .

Dos resultados útiles para aplicaciones son:

Teorema. Sea una v.a. T ∼ t(n) , entonces T 2 ∼ Fn1 .

Teorema. Sea una v.a. X ∼ Fnm , entonces 1/X ∼ Fmn .

Uso de Tablas para calcular Probabilidades. Los textos incluyen tablas para
ciertos gl m de la v.a. U del numerador en la primera hilera, y ciertos g.l n de la v.a.
V del denominador, en la primer columna, para algunos valores de probabilidad α.
m
El resto del cuerpo de la tabla presenta valores Fn,α tales que,

m
P (X ≥ Fn,α )=α

Las tablas de los textos solo proporcionan el valor de corte del lado derecho de la
curva de F . Para obtener el lado izquierdo, por un teorema anterior se considera la
relación,
m 1
Fn,1−α = n
Fm,α

Ejemplo. Suponga que X ∼ F65 .


5 5
P (X ≥ F6,0.025 ) = 0.025, implica que F6,0.025 = 5.988, es decir,
P (X ≥ 5.988) = 0.025
5
Para obtener P (X ≥ F6,0.975 ) = 0.975,
CHAPTER 4. MODELOS DE PROBABILIDAD 81

5
Tal valor de F6,0.975 no es provisto en la tabla. Para obtener dicho valor se requiere
usar el teorema anterior que establece,

5 1 1
F6,0.975 = 6
= = 0.1433
F5,0.025 6.978
Con lo anterior,
P (X ≥ 0.1433) = 0.975
Note que el valor c = 0.1433 es tal que P (X ≤ 0.1433) = 0.025

Cálculo de Probabilidades en R
Si X ∼ Fnm , para evaluar la función en x, f (x; m, n) se representa como
df(x, m, n)
Para obtener la probabilidad acumulada FX (x) = P (X ≤ x), se escribe
pf(x, m, n)
Mientras que para obtener P (a < X < b) se escribe,
pf(b, m, n)-pf(a, m, n)
Para obtener el valor de c tal que P (X ≤ c) = p, se escribe,
qf(p, m, n)
Mientras que para el valor de c tal que P (X ≥ c) = p, se escribe,
qf(1 − p, n)

Ejemplo. Suponga que X ∼ F65 .


Para obtener la probabilidad acumulada FX (x) = P (X ≤ 3), se escribe
pf(3, 5, 6)
Lo que produce: 0.8932024
Para obtener P (1 < X < 3) se escribe,
pf(3, 5, 6)-pf(1, 5, 6)
Resultando el valor de tal probabilidad: 0.3826368
CHAPTER 4. MODELOS DE PROBABILIDAD 82

Para el valor de c tal que P (X ≥ c) = 0.025, se escribe,


qf(0.975, 5, 6)
Resultando tal valor de c en: 5.987565
Para el valor de c tal que P (X ≥ c) = 0.975, el cual no es provisto en muchas tablas,
se escribe,
qf(0.025, 5, 6)
Lo que resulta tal valor de c en: 0.1433137
Chapter 5

Distribuciones Derivadas de
Muestreo

El progreso cientı́fico frecuentemente es debido a la experimentación. Los investi-


gadores realizan experimentos y obtienen datos, que permiten formular conclusiones
sobre las hipótesis establecidas con anterioridad. Se desea que tales conclusiones
trasciendan al experimento y se permita un nivel de generalización. A éste tipo de
generalización se le llama inferencia inductiva.
El proceso de realizar inferencia inductiva es un proceso riesgoso. Se puede ver,
a partir de un teorema de Lógica, que la incertidumbre está presente en la inferencia
inductiva. Lo cual implica que no se pueden hacer generalizaciones absolutamente
ciertas. Sin embargo, si el experimento es realizadi bajo ciertos principios, el grado
de incertidumbre de la inferencia inductiva puede ser medido.
La función de la Estadı́stica es proporcionar técnicas para hacer inferencia induc-
tiva y medir el grado de incertidumbre mediante el uso de la Probabilidad.

83
CHAPTER 5. DISTRIBUCIONES DERIVADAS DE MUESTREO 84

5.1 Muestras de Variables Aleatorias


Defn. Población Objetivo. Se define población objetivo a la totalidad de elementos
(conceptuales) que están bajo discusión, con una propiedad de interés, descrita por
una f d.p. f (x; θ), con parámetro θ, θ ∈ Θ, Θ ⊂ R (o Rk ) y acerca de los cuales la
información es deseada.

Defn. Muestra Aleatoria. Una muestra aleatoria de una población descrita por
f (x; θ) es una colección de v.a.0 s independientes X1 , X2 , . . . , Xn cada una con la misma
distribución de probabilidad f (x; θ)

Nota. Para referirse a una muestra aleatoria (m.a.) se abrevia

X1 , X2 , . . . , Xn iid f (x; θ)

iid significa independiente idénticamente distribuida.


Ası́ una m.a. es antes de realizar fı́sicamente las repeticiones del experimento, una
colección de v.a.0 s X1 , X2 , . . . , Xn . Una vez seleccionada la muestra, cada una de las
variables habrá tomado uno y solo un valor numérico el cual será denotado como
x1 , x2 , . . . , xn , constituyendo la realización de la muestra.
Se puede denominar;
X1 , X2 , . . . , Xn Observables
x1 , x2 , . . . , xn Observaciones.

Defn. Estadı́stica. Una estadı́stica es una función de la muestra aleatoria X1 , X2 , . . . , Xn


de fX (x; θ), que no involucra parámetros desconocidos.

Nota.
a) Frecuentemente la función de la muestra es g() : Rn → R
b) Dado que la estadı́stica es función de la m.a. X1 , X2 , . . . , Xn , también es una v.a.
cuya f.d.p. dependerá de algún modo de fX (x; θ).
CHAPTER 5. DISTRIBUCIONES DERIVADAS DE MUESTREO 85

Ejemplos. Sea X1 , X2 , . . . , Xn iid f (x; θ), donde θ representa uno o más parámetros
desconocidos. Entonces las siguientes funciones son estadı́sticas;

n
1X
g(X1 , X2 , . . . , Xn ) = Xi = X̄
n i=1

g(X1 , X2 , . . . , Xn ) = Max{X1 , X2 , . . . , Xn }

g(X1 , X2 , . . . , Xn ) = Min{X1 , X2 , . . . , Xn }

n
1 X 2
g(X1 , X2 , . . . , Xn ) = Xi − X̄
n − 1 i=1

Mientras tanto, la siguiente función de la muestra no es una estadı́stica,

n
1X
g(X1 , X2 , . . . , Xn ) = Xi − θ
n i=1

5.2 Media y Varianza Muestrales


Defn. Media Muestral. Sea X1 , X2 , . . . , Xn iid f (x). Se define la media mues-
tral a la estadı́stica,
n
1X
X̄ = Xi
n i=1

Defn. Segundo Momento Muestral Alrededor de la Media Muestral. Sea


X1 , X2 , . . . , Xn iid f (x). Se define el segundo momento muestral alrededor de la
media muestral denotado M2 a la estadı́stica,
n
1X 2
M2 = Xi − X̄
n i=1
CHAPTER 5. DISTRIBUCIONES DERIVADAS DE MUESTREO 86

X̄ y M2 reflejan los momentos poblacionales de f (x).

Teorema. Sea X1 , X2 , . . . , Xn iid fX (x). Si E(X) = µ y V ar(X) = σ 2 , entonces,


E(X̄) = µ
V ar(X̄) = σ 2 /n.

Demostración. Por las propiedades de la esperanza y la varianza,

n
! n
1X 1X 1
E(X̄) = E Xi = E(Xi ) = nµ = µ
n i=1 n i=1 n
Para la varianza, se considera la independencia de las v.a.0 s,

n
! n
! n
1X 1 X 1 X
V ar(X̄) = V ar Xi = 2 V ar Xi = 2 V ar(Xi ) = σ 2 /n. 2
n i=1 n i=1
n i=1

Defn. Varianza Muestral. Sea X1 , X2 , . . . , Xn iid f (x). Se define la varianza


muestral, denotado S 2 a la estadı́stica

n
1 X 2
S2 = Xi − X̄
n − 1 i=1


Nota. Se llama desviación estándar muestral a S = S2
Nota. M2 6= S 2 .

Teorema. Sea X1 , X2 , . . . , Xn iid fX (x). Si E(X) = µ y V ar(X) = σ 2 , entonces,


E(S 2 ) = σ 2 .
CHAPTER 5. DISTRIBUCIONES DERIVADAS DE MUESTREO 87

5.3 Teorema Central del Lı́mite


Si X1 , X2 , . . . , Xn iid fX (x), E(X) = µ y V ar(X) = σ 2 , entonces ya se sabe que
la media muestral denotada X̄n (por el tamaño de la muestra n) tiene

E(X̄n ) = µ y V ar(X̄n ) = σ 2 /n.

Sin embargo la f.d.p. de X̄n dependerá de fX (x). Ası́, no se tiene ningún resultado
general sobre la distribución de X̄n .
Sin embargo si n es suficientemente “grande”, se puede tener una distribución
aproximada para X̄n , sin importar la distribución particula de la población fX (x).
Tal resultado de aproximación está dado por el teorema más importante de la Proba-
bilidad y Estadı́stica, llamado Teorema Central del Lı́mite (central por fundamental).

Teorema Central del Lı́mite. Sea una v.a. X con f.d.p. fX (x), E(X) = µ y
V ar(X) = σ 2 . Considere una m.a. X1 , X2 , . . . , Xn de fX (x) y la media muestral X̄n ,
entonces la v.a.
X̄n − µ

σ/ n
tiene una distribución aproximadamente normal estándar si n → ∞. Es decir,
X̄n − µ
√ ∼ ˙ N (0, 1)
σ/ n

Se lee X̄n se distribuye aproximadamente normal.


Equivalentemente se denota ˙ N (µ, σ 2 /n).
X̄n ∼
Pn
O también se representa en términos de la suma Sn = i=1 Xi , indicando que
Sn = ni=1 Xi ∼ ˙ N (nµ, nσ 2 )
P

Lo que a su vez implica

Sn − nµ
√ ∼
˙ N (0, 1)
σ n
CHAPTER 5. DISTRIBUCIONES DERIVADAS DE MUESTREO 88

Ejemplo. La altura media de planta de una variedad de maı́z a cierta etapa fenológica
es 172 cm y con una desviación estándar de 24.
a) si se toma una muestra aleatoria de 45 plantas, aproxime la probabilidad de que
la media muestral de altura de planta esté entre 164 y 178 cm,
b) repita (a) con una muestra de 140 plantas.

Soln. Note que E(X) = 172, σ 2 = (24)2 y f (x) es desconocida. Además como
√ √
˙ N (172, 242 /45), se tiene que σ/ n = 24/ 45 = 3.5777. Por consiguiente,
X̄n ∼

 
164 − 172 X̄n − 172 178 − 172
P (164 ≤ X̄n ≤ 178) = P ≤ ≤
3.5777 3.5777 3.5777
= (−2.23 ≤ Z ≤ 1.68)

= P (Z ≤ 1.68) − P (Z ≤ −2.23)

= 0.9535 − 0.0129 = 0.9406

˙ N (172, 242 /140). En tal caso,


Cuando n = 140 se tiene X̄n ∼
√ √
σ/ n = 24/ 140 = 2.0283.

 
164 − 172 X̄n − 172 178 − 172
P (164 ≤ X̄n ≤ 178) = P ≤ ≤
2.0283 2.0283 2.0283
= (−3.94 ≤ Z ≤ 2.95)

= P (Z ≤ 2.95) − P (Z ≤ −3.94)

= 0.9984 − 0 = 0.9984
CHAPTER 5. DISTRIBUCIONES DERIVADAS DE MUESTREO 89

5.4 Distribuciones del Muestreo de una Población


Normal
.
Si la m.a. se toma de una N (µ, σ 2 ), entonces se tienen las ditribuciones exactas
de las v.a.0 s X̄n y S 2 , que son elementos fundamentales en las aplicaciones de varios
métodos estadı́sticos.

Teorema. Si X1 , X2 , . . . , Xn iid N (µ, σ 2 ), entonces, X̄n ∼ N (µ, σ 2 /n). Equiva-


lentemente,
X̄n − µ
√ ∼ N (0, 1)
σ/ n

Ejemplo. Sea X ∼ N (40, 36). Suponga una muestra de n = 25. Obtenga la


probabilidad de que la media muestral sea mayor que la media poblacional por mas
de 4 unidades.
 
X̄ − µ 44 − 40
P (X̄ > 44) = P √ > √ = P (Z ≥ 3.33) = 1 − P (Z ≤ 3.33)
σ/ n 6/ 25
= 1 − 0.9996 = 0.0004

Calcule la misma probabilidad con n = 4,


 
X̄ − µ 44 − 40
P (X̄ > 44) = P √ > √ = P (Z ≥ 1.33) = 1 − P (Z ≤ 1.33)
σ/ n 6/ 4
= 1 − 0.0.9082 = 0.0918

Note la diferencia causada por el tamaño de la muestra que modifica las varianzas.

Ejemplo. Sea X ∼ N (40, 36). Suponga que ahora se desea obtener la probabilidad
de que la media muestral difiera de la media poblacional en menos de 3 unidades, con
una muestra de n = 25.
 
−3 X̄ − µ 3
P (−3 < X̄ − µ < 3) = P √ < √ < √ = P (−2.5 < Z < 2.5)
6/ 25 σ/ n 6/ 25
= 1 − 2 P (Z < −2.5) = 1 − 2(0.0062) = 0.9876
CHAPTER 5. DISTRIBUCIONES DERIVADAS DE MUESTREO 90

Ejemplo. Sea X ∼ N (40, 36). Suponga que ahora se desea obtener dos valores
equidistantes de µ tales que con probabilidad 0.95 las medias muestrales se encuentren
entre tales valores.
soln. De la tabla de la normal estándar se tiene que,

P (−c < Z < c) = 0.95 ⇒ P (−1.96 < Z < 1.96) = 0.95



Por consiguiente para la v.a. Z = (X̄ − µ)/(σ/ n) se tiene,
 
X̄ − µ
P −1.96 < √ < 1.96 = 0.95
σ/ n

Ası́, para µ = 40, σ = 6 y n = 25 se despeja X̄,


 
−1.96(6) 1.96(6)
P < X̄ − µ < = P (−2.35 < X̄ − 40 < 2.35)
5 5

P (37.65 < X̄ < 42.35) = 0.95

Teorema. Si X1 , X2 , . . . , Xn iid N (µ, σ 2 ), y S 2 es la varianza muestral, entonces:


a) la v.a. (n − 1) S 2 /σ 2 tiene distribución Ji-Cuadrada con n − 1 g.l., es decir

(n − 1) S 2
∼ χ2(n−1)
σ2

b) la media muestral X̄ y la varianza muestral S 2 , son v.a.0 s independientes.

Si X1 , X2 , . . . , Xn iid fX (x), es decir cualquier distribución con E(X) = µ, y


V ar(X) = σ 2 , se observó, por el Teorema Central del Lı́mite (TCL),

X̄n − µ

σ/ n

es aproximadamente N (0, 1). Si la m.a. proviene de la fX (x) = N (µ, σ 2 ), entonces,

X̄n − µ

σ/ n
CHAPTER 5. DISTRIBUCIONES DERIVADAS DE MUESTREO 91

es exactamente N (0, 1). Como tal media muestral estandarizada contiene a dos
parámetros desconocidos, se tiene interés en substituir al parámetro σ por la es-

tadı́stica S = S 2 , llamada deviación estándar muestral. ası́, se quiere saber la
distribución de la v.a.
X̄n − µ

S/ n
Por el teorema anterior, si la m.a. es de la N (µ, σ 2 ), se tiene que X̄ y S 2 , son
v.a.0 s independientes, entonces las v.a.0 s

X̄n − µ (n − 1) S 2
√ y
σ/ n σ2
son independientes, y con distribución normal estándar y Ji-Cuadrada respectiva-
mente.
Entonces por el teorema anterior referido a la distribución t-Student se tiene que
el cociente

−µ
X̄n√
σ/ n X̄n − µ
q = √ ∼ tn−1
(n−1) S 2 S/ n
σ 2 (n−1)

5.5 Distribuciones de Razón de Varianzas Mues-


trales de Distribuciones Normales
2
Sea X1 , X2 , . . . , Xm iid N (µX , σX )
Sea Y1 , Y2 , . . . , Yn iid N (µY , σY2 ).
2
Sean SX y SY2 las respectivas varianzas muestrales. Entonces por un teorema anterior
se tiene que,
2
(m − 1) SX (n − 1) SY2
2
∼ χ2(m−1) y ∼ χ2(n−1)
σX σY2
CHAPTER 5. DISTRIBUCIONES DERIVADAS DE MUESTREO 92

Por consiguiente, si las dos muestras aleatorias son independientes, por el teorema
sobre el cociente de dos Ji-Cuadradas, se tiene,

2 2
SX /σX m−1
∼ Fn−1
SY2 /σY2

En particular, si σx2 = σY2 , se tiene,


2
SX m−1
2
∼ Fn−1
SY
Chapter 6

Prueba de Hipótesis Estadı́stica

En un proceso de investigación con frecuencia se establece una hipótesis, la cual se


desea corroborar a partir de una colección de datos.

Escenario:
Población descrita por X ∼ fX (x; θ), θ es un parámetro desconocido.
Muestra Aleatoria X1 , X2 , . . . , Xn iid fX (x; θ)

Defn. Hipótesis Estadı́stica. Una hipótesis estadı́stica es una declaración sobre


un parámetro de la población.

Defn. Las dos hipótesis complementarias en una prueba de hipótesis, se llaman


hipótesis nula e hipótesis alternante y se denotan como H0 y HA , respectivamente.

El objetivo de una prueba de hipótesis es decidir, basado en una muestra de la


población, cual de las hipótesis es cierta.

Ejemplos:
a) p = proporción de artı́culos defectuosos
H0 : p ≤ 0.01

93
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 94

HA : p > 0.01
b) µ = rendimiento en ton/ha de maiz variedad Torito I
H0 : µ ≥ 14.3
HA : µ < 14.3
c) σ 2 = varianza de las mediciones de pH
H0 : σ 2 ≤ 0.001
HA : σ 2 > 0.001

Elementos de una Prueba de hipótesis.


a) H0 Hipótesis nula
b) HA Hipótesis alternante
c) Estadı́stica de Prueba
d) Región crı́tica o de rechazo.

Defn. Un procedimiento de prueba de hipótesis (estadistica) es una regla que especi-


fica:
a) para qué valores de la estadśtica conlleva a aceptar H0 como cierta
b) para qué valores de la estadı́stica conlleva a aceptar HA como cierta.

Tipos de Errores en Prueba de Hipótesis. Una prueba de hipótesis estadı́stica


tiene dos tipos de errores posibles.

Decision
Aceptar H0 Rechazar H0
H0 Decision Correcta Error Tipo I
Verdad
HA Error Tipo II Decision Correcta
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 95

α = P (RechazarH0 | H0 cierta) = P (Error Tipo I)

β = P (No RechazarH0 | H0 falsa) = P (Error Tipo II)

No es posible controlar ambos tipos de errores eficientemente. Para un tamaño de


muestra fijo, un decremento en la probabilidad de un error, resultará en un incremento
en la probabilidad del otro error. Afortunadamente la probabilidad de cometer ambos
tipos de errores puede ser reducido incrementando el tamaño de la muestra.
En el interés de cuantificar la evidencia para rechazar H0 , un concepto importante
en una prueba de hipótesis es la probabilidad de rechazar una hipótesis dada. Como
esta probabilidad es una función del parámetro denominada función de potencia de
la prueba.

Defn. Función de Potencia. La función de potencia de una prueba de hipótesis


denotada β(θ) es

β(θ) = P ( Rechazar H0 cuando el verdadero valor del parámetro es θ)



 P (Error tipo I) si θ ∈ H0
=
 1 − P (Error Tipo II) si θ ∈ HA

Una prueba ideal es aquella cuya función de potencia valga cero si θ ∈ H0 y


valga 1 si θ ∈ HA . Desafortunadamente tal prueba no existe. En el mejor de los
casos se decide un valor bajo como probabilidad tipo I y se busca una prueba cuya
función β(θ) sea grande, cuando θ ∈ HA .

Defn. Nivel de Significancia. En una prueba de hipótesis, el valor máximo de α


se llama nivel de significancia.
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 96

6.1 Prueba de Hipótesis sobre la Media de la Dis-


tribución Normal
Se tiene interés en realizar pruebas de hipótesis sobre el parámetro µ de la distribución
de Gauss.
Considere X1 , X2 , . . . , Xn iid N (µ, σ 2 ).
Las hipótesis de interés son:
a) H0 : µ ≤ µ0 vs HA : µ > µ0
b) H0 : µ ≥ µ0 vs HA : µ < µ0
c) H0 : µ = µ0 vs HA : µ 6= µ0

Como σ 2 es desconocida, entonces se substituye con la varianza muestral S 2 y se


usa la estadı́stica de prueba,
X̄ − µ0
t0 = √
S/ n
Regla de Decisión (RD). Con un valor α de significancia,
a) Rechazar H0 si t0 > tα (n − 1), no rechaza H0 si t0 ≤ tα (n − 1)
b) Rechazar H0 si t0 < −tα (n − 1), no rechazar H0 si t0 ≥ −tα (n − 1)
c) Rechazar H0 si |t0 | > tα/2 (n − 1), no rechazar H0 si |t0 | ≤ tα/2 (n − 1).

Abreviaciones.
RH0 = Rechazar H0
AH0 = Aceptar H0
RRH0 = Región de Rechazo de H0
RAH0 = Región de Aceptar H0

Ejemplo. Una nueva variedad de trigo produce los siguientes rendimientos en ton/ha.
3.15, 3.92, 4.26, 3.36, 3.72, 4.19, 3.42, 4.38, 4.50
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 97

La hipótesis de interés es,


H0 : µ ≤ 3.5 vs HA : µ > 3.5
Con la muestra se obtiene:
n = 9, X̄ = 3.877778, S 2 = 0.2396197 y S = 0.4895094
Con esto, se obtiene la estadı́stica de prueba,
X̄ − µ0 3.877778 − 3.5
t0 = √ = √ = 2.315243
S/ n 0.4895094/ 9
Si el nivel de significancia de α = 0.05, tα (n − 1) = t0.05 (8) = 1.859.
RD: Como t0 = 2.3152 > 1.859 = t0.05 (8) se rechaza H0 con α = 0.05.
Conclusión. El promedio de rendimiento de la variedad de trigo, es mayor a 3.5
ton/ha, con α = 0.05.
Note que si se decide usar un nivel de significancia α = 0.01, se tiene que t0.01 (8) =
2.8965. En tal caso,
RD: t0 = 2.3152 < 2.8965 = t0.01 (8) implica aceptar H0 , con α = 0.01.
Conclusión: El promedio de rendimiento de la variedad de trigo, no es mayor a 3.5
ton/ha, con α = 0.01.
Prueba en R
x < − c(3.15, 3.92, 4.26, 3.36, 3.72, 4.19, 3.42, 4.38, 4.50)
t.test(x,alternative=c(“greater”), mu=3.5, conf.level=0.95)
p-value: P (T8 > 2.315243) = 0.02464203
RD con p-value:
Rechaza Ho si p-value < α
No Rechaza Ho si p-value > α.
p-value=0.02464203 < 0.05, se rechaza H0

Ejemplo. Con el objeto de verificar la calibración de un medidor de pH, se evalúa


una substancia neutra, pH=7.0. Para esto se mide el pH a diez muestras y se colectan
los datos:
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 98

7.07, 7.00, 7.10, 6.97, 7.00, 7.03, 7.01, 7.01, 6.98, 7.08
Usando α = 0.05 se desea probar,
H0 : µ = 7.0
HA : µ 6= 7.0
n = 10, X̄ = 7.025, S 2 = 0.001938889, S = 0.04403282

X̄ − µ0 7.025 − 7.0
t0 = √ = √ = 1.795409
S/ n 0.04403282/ 10
α = 0.05 ⇒ tα/2 (n − 1) = t0.025 (9) = 2.26
RD: |t0 | = 1.7954 < 2.26 = t0.025 (9) ⇒ AH0 , con α = 0.05
Conclusión: El promedio de mediciones de pH es de 7.0, con α = 0.05.
Prueba en R
x < − c(7.07, 7.00, 7.10, 6.97, 7.00, 7.03, 7.01, 7.01, 6.98, 7.08)
t.test(x,alternative=c(“two.sided”), mu=7.0, conf.level=0.95)
P (T9 > 1.795409) = 0.05307953
p-value= 2 P (T9 > 1.795409) = 0.1061 > 0.05 = α, entonces AH0

Ejemplo. Un fabricante de un nuevo compuesto para neumáticos, considera que éste


producto permite un promedio de vida de al menos 40,000 millas. Para verificar tal
afirmación, se toma una muestra aleatoria de n = 12 llantas para prueba de millaje
de vida y se registran los datos en miles de millas:
36.1, 40.2, 33.8, 38.5, 42, 35.8, 37.1, 41, 36.8, 37.2, 33, 36
¿ Tiene razón el fabricante ?
Soln. De la muestra se tiene:
n = 12, X̄ = 37.29167, s2 = 7.459015, S = 2.73112
La hipótesis de interés, con α = 0.05, es:
H0 : µ ≥ 40
HA : µ < 40
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 99

La estadı́stica de prueba,

X̄ − µ0 37.29167 − 40
t0 = √ = √ = −3.4352
S/ n 2.73112/ 12
−tα (n − 1) = −t0.05 (11) = −1.79
RD: como t0 = −3.4352 < −1.79 = −t0.05 (11) ⇒ RH0 , con α = 0.05.
Conclusión. El promedio de millaje de la muestra es menor a 40,000 millas, con
α = 0.05. Es decir, el fabricante del compuesto, no tiene razón, con α = 0.05.
Prueba en R,
x < − c(36.1, 40.2, 33.8, 38.5, 42, 35.8, 37.1, 41, 36.8, 37.2, 33, 36)
t.test(x,alternative=c(“less”), mu=40, conf.level=0.95)

p-value= P (T11 < −3.4352) = 0.002786 < α, entonces RH0 .

Caso Muestras Grandes. Considere X1 , X2 , . . . , Xn , iid fX (x) con n ≥ 40. Sea


E(X) = µ y V ar(X) = σ 2 . Entonces por el Teorema Central de Lı́mite (TCL) se
tiene que,
X̄ − µ0
√ ∼ ˙ N (0, 1)
σ/ n
Por consiguiente, para realizar las pruebas de hipótesis sobre la media de la dis-
tribución, establecidas previamente, se puede substituir la desviación estándar σ por
su estimador S, la raı́z cuadrada de la varianza muestral y usar la estadı́stica aprox-
imadamente Z dada por,
X̄ − µ0
AZ0 = √
S/ n
Las reglas de decisión serı́an:
a) Rechazar H0 si AZ0 > zα , no rechaza H0 si AZ0 ≤ zα
b) Rechazar H0 si AZ0 < −zα , no rechazar H0 si AZ0 ≥ −zα
c) Rechazar H0 si |AZ0 | > zα/2 , no rechazar H0 si |AZ0 | ≤ zα/2 .
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 100

6.2 Prueba de Hipótesis sobre la Varianza en la


Distribución Normal
Considere X1 , X2 , . . . , Xn , iid N (µ, σ 2 ).
Las hipótesis de interés son:
a) H0 : σ 2 ≤ σ02 vs HA : σ 2 > σ02
b) H0 : σ 2 ≥ σ02 vs HA : σ 2 < σ02
a) H0 : σ 2 = σ02 vs HA : σ 2 6= σ02

Considerando la varianza muestral S 2 , se usa la estadı́stica de prueba,


(n − 1) S 2
χ20 =
σ02
RD: Con un valor de significancia α,
a) Rechaza H0 si χ20 > χ2α (n − 1), no rechaza H0 si χ20 ≤ χ2α (n − 1)
b) Rechaza H0 si χ20 < χ21−α (n − 1), no rechaza H0 si χ20 ≥ χ21−α (n − 1)
c) Rechaza H0 si χ20 < χ21−α/2 (n − 1), o rechaza H0 si χ20 > χ2α/2 (n − 1), y
no rechaza H0 si χ21−α/2 (n − 1) ≤ χ20 ≤ χ2α/2 (n − 1)

Ejemplo. Del ejemplo anterior sobre las muestras de mediciones de pH obtenidas


para calibrar un nuevo dispositivo, se desea probar la hipótesis de que la varianza es
menor a 0.0018; es decir
H0 : σ 2 ≤ 0.0018
HA : σ 2 > 0.0018
con α = 0.05. Se tiene, de la muestra, los siguientes datos,
n = 10, X̄ = 7.025, S 2 = 0.001938889, S = 0.04403282
La estadı́stica de prueba es,
(n − 1) S 2 9(0.001938889)
χ20 = 2
= = 9.69
σ0 0.0018
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 101

El valor de tablas χ2α (n − 1) = χ20.05 (9) = 16.91


RD: Como χ20 = 9.69 < 16.91 = χ20.05 (9) ⇒ No reachaza H0 , con α = 0.05.
Conclusión: La variación en las mediciones de pH es menor o igual a 0.0018, con
α = 0.05.
Note ahora considerando la hipótesis
H0 : σ 2 ≤ 0.001
HA : σ 2 > 0.001
Se tendrı́a la estadı́stica de prueba,
(n − 1) S 2 9(0.001938889)
χ20 = 2
= = 17.45
σ0 0.001
RD: Como χ20 = 17.45 > 16.91 = χ20.05 (9) ⇒ Rechaza H0 , con α = 0.05.
Conclusión: La variación en las mediciones de pH es mayor a 0.001, con α = 0.05.

Ejemplo. Para determinar la variabilidad en las mediciones de un equipo sobre el


contenido de magnesio en un producto, se realizan 12 determinaciones en una solución
que se sabe contiene 5% de magnesio. Por norma de calidad se sabe que la máxima
desviación tolerable es de 0.2%. Lo que significa, si el equipo es adecuado, debe tener
una σ 2 < 0.04 (en porcentaje). Con lo anterior, se tiene interés en la hipótesis,
H0 : σ 2 ≥ 0.04
HA : σ 2 < 0.04
Los datos de las determinaciones son:
5.1, 4.8, 5.2, 5.3, 4.7, 4.8, 4.9, 5.1, 5.2, 4.9, 4.8, 5.3
Con la muestra se obtiene, n = 12, S 2 = 0.04628788. La estadı́stica de prueba es
(n − 1) S 2 11(0.04628788)
χ20 = 2
= = 12.72917
σ0 0.04
Con α = 0.05, χ21−α (n − 1) = χ20.95 (11) = 4.5748.
RD: χ20 = 12.72 ≥ 4.5748 = χ21−α (n − 1) ⇒ NRH0 , con α = 0.05.
Conclusión: La varianza de las mediciones es mayor o igual a 0.004, con α = 0.05;
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 102

por lo cual el equipo no es adecuado en virtud de tener una desviación mayor a lo


tolerable 0.2%.

Prueba en R
Se requiere cargar el programa TeachingDemos. En seguida usar la instruccion
library(TeachingDemos)
a fin de disponer de la rutina requerida. A continuación use:
ph < − c(7.07, 7.00, 7.10, 6.97, 7.00, 7.03, 7.01, 7.01, 6.98, 7.08)
sigma.test(ph, alternative=c(”greater”), sigma=sqrt(0.0018))

Para verificar el supuesto de normalidad de los datos, se plantea la siguiente


hipótesis
H0 : X ∼ Normal
HA : X No tiene distribución Normal.
Dos pruebas comunes son: prueba de Shapiro-Wilks y prueba de Kolmogorov-
Smirnov. Para realizar tales pruebas usando el programa R se emplean las instruc-
ciones siguientes y se compara el p-value obtenido con el α establecido.
y < − c(datos)
shapiro.test(y)
ks.test(y,”pnorm”, mean=mean(y), sd=sd(y))

Ejemplo. Realizar la prueba de normalidad a los datos de rendimiento de trigo


presentados anteriormente
3.15, 3.92, 4.26, 3.36, 3.72, 4.19, 3.42, 4.38, 4.50
trigo < − c(3.15, 3.92, 4.26, 3.36, 3.72, 4.19, 3.42, 4.38, 4.50)
shapiro.test(trigo)
Produce la información siguiente:
Shapiro-Wilk normality test
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 103

data: trigo
W = 0.93198, p-value = 0.5004
RD p-value = 0.5004 > 0.05 = α, implica que se acepta H0 .

Mientras que la instrucción:


ks.test(trigo,”pnorm”, mean=mean(trigo), sd=sd(trigo))
Produce la siguiente información:
Exact one-sample Kolmogorov-Smirnov test
data: trigo D = 0.18265, p-value = 0.8749
RD p-value = 0.8749 > 0.05 = α, implica que se acepta H0 .
Conclusión: Con ambas pruebas, de Shapiro-Wilk y de Kolmogorov-Smirnov se con-
cluye de que los datos de rendimiento de trigo presenta una distribución de Gauss o
normal, con α = 0.05.

6.3 Prueba de Hipótesis sobre las Varianzas de dos


Poblaciones Normales
Considere dos poblaciones con distribuciones normales, es decir

2
X ∼ N (µX , σX ), Y ∼ N (µY , σY2 )

Considere una muestra aleatoria de cada población.


2
X1 , X2 , . . . , Xm iid N (µX , σX )
Y1 , Y2 , . . . , Yn iid N (µY , σY2 )
Se tiene interés en comparar las varianzas de las dos poblaciones. Para esto, se
establecen las hipótesis siguientes:
2
a) H0 : σX ≤ σY2 2
vs HA : σX > σY2
2
b) H0 : σX ≥ σY2 2
vs HA : σX < σY2
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 104

2
c) H0 : σX = σY2 2
vs HA : σX 6= σY2

2
Se obtienen de las muestras SX y SY2 . Para realizar la prueba de hipótesis, se
emplea la estadı́stica de prueba
2
SX
F0 =
SY2
Considerando un nivel de significancia de α, la regla de decisión es,
m−1 m−1
a) Rechaza H0 si F0 > Fn−1,α , no rechaza H0 si F0 ≤ Fn−1,α
m−1 m−1
b) Rechaza H0 si F0 < Fn−1,1−α , no rechaza H0 si F0 ≥ Fn−1,1−α
m−1 m−1
c) Rechaza H0 si F0 < Fn−1,1−α/2 , o rechaza H0 si F0 > Fn−1,α/2 ,y
m−1 m−1
no rechaza H0 si Fn−1,1−α/2 ≤ F0 ≤ Fn−1,α/2 .

Recuerde que para obtener el punto de corte del lado izquierdo de la curva de F ,
m−1
es decir, el punto Fn−1,1−α , no provisto por las tablas en los textos, se usa la relación

m−1 1
Fn−1,1−α = n−1
Fm−1,α

Ejemplo. Se realiza un experimento en soya, donde se efectúa un riego de auxilio a


dos condiciones de humedad aprovechable en el suelo, que constituyen 10% y 40% de
humedad, en parcelas de dimensión (4)(7) m2 . Se obtuvieron los datos de rendimiento
en kg/ha, que son:
10%: 1735, 2002, 1820, 2082, 1894, 1816, 2008, 1758, 1898, 2223, 2873, 2313
40%: 3403, 3294, 2899, 3350, 3212, 2964, 3098, 2984, 2492
Con las dos muestras se tiene la siguiente información:
2
m = 12, X̄ = 2035.67 SX = 101, 678.5
n = 9, Ȳ = 3077.333 SY2 = 80, 235.75
Antes de comparar las medias del rendimiento de cada condición de humedad aprovech-
able, se desea realizar la prueba de hipótesis sobre la igualdad de varianzas. Por lo
tanto, se desea realizar la prueba de hipótesis,
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 105

2
H0 : σX = σY2
2
HA : σX 6= σY2
La estadı́stica de prueba es,
2
SX 101678.5
F0 = 2
= = 1.267247
SY 80235.75

Los valores en la tabla de F con α = 0.05 son;

m−1 11 1 1
Fn−1,1−α/2 = F8,0.975 = 8
= = 0.2729
F11,0.025 3.664
m−1 11
Fn−1,α/2 = F8,0.025 = 4.243
RD: Como F0 = 1.267247 ∈ (0.2729, 4.243) ⇒ Se acepta H0 , con α = 0.05
Conclusión: Las varianzas del rendimiento en las dos condiciones de humedad, 10%
y 40%, son estadı́sticamente iguales, con α = 0.05.

Prueba en R
x < − c(1735, 2002, 1820, 2082, 1894, 1816, 2008, 1758, 1898, 2223, 2873, 2313)
y < − c(3403, 3294, 2899, 3350, 3212, 2964, 3098, 2984, 2492)
var.test(x,y)
p-value=0.754 > α = 0.05, por lo que se acepta H0 .
p-value = 2 P (F ≥ F0 ) = 2 P (F ≥ 1.2672).

Ejemplo. La viscocidad de dos tipos de aceite X y Y están dados en los siguientes


datos:
X : 10.62, 10.58, 10.33, 10.72, 10.44, 10.74
Y : 10.50, 10.52, 10.58, 10.62, 10.55, 10.51, 10.53
Con las muestras se tienen los siguientes valores,
2
m = 6, X̄ = 10.57167, SX = 0.02569667
n = 7, Ȳ = 10.54429, SY2 = 0.001828571
Se desea probar una hipótesis sobre la igualdad de varianzas. Por consiguiente, se
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 106

tienen
2
H0 : σX = σY2
2
HA : σX 6= σY2
La estadı́stica de prueba es,
2
SX 0.02569667
F0 = 2
= = 14.05286
SY 0.001828571

Los valores en la tabla de F con α = 0.05 son;


m−1 5
Fn−1,α/2 = F6,0.025 = 5.988

m−1 5 1 1
Fn−1,1−α/2 = F6,0.975 = 6
= = 0.1433
F5,0.025 6.978

RD: Como F0 = 14.05286 6∈ (0.14, 5.988) ⇒ Se rechaza H0 , con α = 0.05


Conclusión: Las varianzas de la viscocidad en los dos tipos de aceite X y Y , son
significativamente diferentes, con α = 0.05.
Prueba en R
x < − c(10.62, 10.58, 10.33, 10.72, 10.44, 10.74)
y < − c(10.50, 10.52, 10.58, 10.62, 10.55, 10.51, 10.53)
var.test(x,y)
p-value = 0.005835 < 0.05, se rechaza H0 .

6.4 Prueba de Hipótesis sobre las Medias de dos


Poblaciones Normales
Suponga que se tiene
2
X1 , X2 , . . . , Xm iid N (µX , σX )
Y1 , Y2 , . . . , Yn iid N (µY , σY2 )
Las hipótesis de interés son:
a) H0 : µX ≤ µY vs HA : µX > µY
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 107

b) H0 : µX ≥ µY vs HA : µX < µY
c) H0 : µX = µY vs HA : µX 6= µY

Para determinar la estadı́stica de prueba, hay dos casos posibles, dependiendo de


si las varianzas poblacionales son iguales o son diferentes.
Si en la anterior prueba de hipótesis de varianzas, se acepta que las varianzas son
iguales, se usa el siguiente:

2
Caso σX = σY2 = σ 2 desconocida.

Dado que las dos varianzas son estadı́sticamente iguales, entonces se obtiene la
estimación de una sola varianza, llamada ponderada, con la siguiente expresión,
2
(m − 1)SX + (n − 1)SY2
Sp2 =
m+n−2
Con esto, se emplea la estadı́stica de prueba
X̄ − Ȳ
T0 = q
Sp2 m1 + n1


la cual bajo la hipótesis nula, tiene distribución t-Student, con m + n − 2 g.l.


La regla de decisión para las hipótesis establecidas es:
Regla de Decisión, con un valor α de significancia,
a) Rechazar H0 si T0 > tα (m + n − 2), no rechaza H0 si T0 ≤ tα (m + n − 2)
b) Rechazar H0 si T0 < −tα (m + n − 2), no rechazar H0 si T0 ≥ −tα (m + n − 2)
c) Rechazar H0 si |T0 | > tα/2 (m + n − 2), no rechazar H0 si |T0 | ≤ tα/2 (m + n − 2).

Si en la prueba de hipótesis de varianzas, se acepta que las varianzas son distintas,


se usa el siguiente:

2
Caso σX 6= σY2 , σX σY , desconocidas.
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 108

En este escenario, la distribución de la estadı́stica T0 dado en el caso anterior, ya


no es t-Student. Para realizar las pruebas establecidas, se propone una modificación
llamada aproximación de Welch o de Satterthwaite. La estadı́stica de prueba es
X̄ − Ȳ
T0 = q 2
SX S2
m
+ nY

La estadı́stica T 0 ∼
˙ t(ν) g.l. donde ν = dve (máximo entero mayor que) y
 2 2
SX SY2
m
+ n
v= 2 2 2
(SX /m) (SY2 /n)
m−1
+ n−1

Regla de Decisión, con un valor α de significancia,


a) Rechazar H0 si T 0 > tα (ν), no rechaza H0 si T 0 ≤ tα (ν)
b) Rechazar H0 si T 0 < −tα (ν), no rechazar H0 si T 0 ≥ −tα (ν)
c) Rechazar H0 si |T 0 | > tα/2 (ν), no rechazar H0 si |T 0 | ≤ tα/2 (ν).

Caso Muestras grandes.


Suponga m y n grandes (quizás al menos 40)
Por el Teorema Central del Lı́mite (TCL)
2
X̄ ∼
˙ N (µX , σX /m) ˙ N (µY , σY2 /n)
Ȳ ∼
Por consiguiente,
σ2 σ2
 
X̄ − Ȳ ∼
˙ N µX − µy , X + Y
m n
Lo que implica que
X̄ − Ȳ − (µX − µY )
q
2 2

˙ N (0, 1)
σX σY
m
+ n
Por consiguiente, para realizar las pruebas de hipótesis establecidas, se substituyen
las varianzas poblacionales con las variaanzas muestrales. Considerando que bajo la
hipoótesis nula, µX − µY = 0, se usa la estadı́stica aproximadamente Z,
X̄ − Ȳ
AZ0 = q 2
SX S2
m
+ nY
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 109

Regla de Decisión, con un valor α de significancia,


a) Rechazar H0 si AZ0 > zα , no rechaza H0 si AZ0 ≤ zα
b) Rechazar H0 si AZ0 < −zα , no rechazar H0 si AZ0 ≥ −zα
c) Rechazar H0 si |AZ0 | > zα/2 , no rechazar H0 si |AZ0 | ≤ zα/2 .

Ejemplo. Del experimento realizado en soya bajo las dos condiciones de humedad,
descrito anteriormente, se tiene la siguiente información:
2
m = 12, X̄ = 2035.67 SX = 101, 678.5
n = 9, Ȳ = 3077.333 SY2 = 80, 235.75
La hipótesis de interés es,
H0 : µX = µY
HA : µX 6= µY
En virtud de haber aceptado la hipótesis de igualdad de las varianzas en la prueba
2
anterior con dichos datos, se asume el caso σX = σY2 = σ 2 , σ 2 desconocida.
Se calcula la varianza ponderada,
2
(m − 1)SX + (n − 1)SY2 11(101678.5) + 8(80235.75)
Sp2 = = = 92649.98
m+n−2 19
Con esto, se emplea la estadı́stica de prueba
X̄ − Ȳ 2035.167 − 3077.333 −1042.167
T0 = q = q = = −7.764557
Sp2 1 1
+n
 1
92649.98 12 + 91
 134.221
m

RD: Como |T0 | = 7.764557 > 2.861 = t0.005 (19) ⇒ RH0 con α = 0.01.
Conclusión: Las medias del rendimiento de soya en las dos condiciones de humedad
10% y 40%, no son iguales, con α = 0.01.
Prueba en R
x < − c(1735, 2002, 1820, 2082, 1894, 1816, 2008, 1758, 1898, 2223, 2873, 2313)
y < − c(3403, 3294, 2899, 3350, 3212, 2964, 3098, 2984, 2492)
t.test(x,y,alternative=c(“two.sided”),mu=0,var.equal=TRUE)
p-value=2.604e − 07 = 2.604(10−7 ) = 2 P (t19 < t0 ) < α, entonces RH0 ,
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 110

Ejemplo. Se desea comparar las medias de la viscocidad de dos tipos de aceite X


y Y , de un ejemplo anterior. Ya se realizó la prueba de hipótesis sobre las varianzas
2
y se concluyó que no son iguales. Por lo cual se asume el caso σX 6= σY2 , σX
2
σY2 ,
desconocidas.
Los datos son:
2
m = 6, X̄ = 10.57167, SX = 0.02569667
n = 7, Ȳ = 10.54429, SY2 = 0.001828571
La hipótesis de interés es,
H0 : µX = µY
HA : µX 6= µY
Se obtiene la estadı́stica,

X̄ − Ȳ 10.57167 − 10.54429 0.02738095


T0 = q 2 = q = = 0.40619
SX SY2 0.02569667
+ 0.001828571 0.06740922
m
+ n 6 7

Para los grados de libertad se tiene


 2 2
SX SY2 2
m
+ n
0.02569667
+ 0.001828571 2.064796(10−5 )
6 7
v= 2 2 2 = = = 5.611147
(SX /m) (SY2 /n) (0.02569667/6)2 (0.001828571/7)2 3.67981(10−6 )
+ n−1 5
+ 6
m−1

ν = dve = d5.611147e = 6 ⇒ tα/2 (ν) = t0.025 (6) = 2.4469


RD: Como |T 0 | = 0.40619 < 2.4469 = t0.025 (6), se acepta H0 , con α = 0.05.
Conclusión: Las medias de viscocidad de los dos tipos de aceite X y Y son es-
tadı́sticamente iguales, con α = 0.05.

Prueba en R
x < − c(10.62, 10.58, 10.33, 10.72, 10.44, 10.74)
y < − c(10.50, 10.52, 10.58, 10.62, 10.55, 10.51, 10.53)
t.test(x,y,alternative=c(“two.sided”),mu=0,var.equal=FALSE)
p-value= 2 P (t6 > t0 ) = 2(0.349343) = 0.698 > α, se acepta H0 .
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 111

6.5 Prueba de Hipótesis en la Distribución Bino-


mial
Prueba Aproximada sobre una Distribución Binomial. Suponga X ∼ Bernoulli(p)
Suponga se realizan n ensayos de Bernoulli, n suficientemente grande, y cada uno con
la misma probabilidad de éxito p.
Dado que X1 , X2 , . . . , Xn iid Brnoulli(p),

E(Xi ) = p, V ar(Xi ) = p(1 − p) = pq


Pn
Entonces Y = i=1 Xi ∼ Binomial(n, p). Ası́, E(Y ) = np y V ar(Y ) = np(1 − p).
Si n es suficientemente grande, se puede justificar, por el Teorema Central del
Lı́mite la aproximación Pn
Xi − np
pi=1 ∼˙ N (0, 1)
np(1 − p)
Considerando la aproximación anterior, se tiene interés en realizar una prueba de
hipótesis sobre el parámetro p. Ası́, se establecen las siguientes hipótesis de interés:
a) H0 : p ≤ p0 vs HA : p > p0
b) H0 : p ≥ p0 vs HA : p < p0
c) H0 : p = p0 vs HA : p 6= p0

La prueba aproximada usa la estadı́stica


Pn
Xi − np0
AZ0 = pi=1
np0 (1 − p0 )
La regla de decisión es:
a) Rechaza H0 si AZ0 > zα
b) Rechaza H0 si AZ0 < −zα
c) Rechaza H0 si |Z0 | > zα/2 .

Ejemplo. Una empresa empacadora de ahuacate de exportación clama que a lo más


4% de producto no reúne el control de calidad. Un supervisor toma una muestra
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 112

aleatoria de n = 500 frutos, de lo cuales 16 resultaron no reunir la calidad.


¿ Hay cambios en la proporción de defecto ?
Considere la hipótesis
H0 : p ≤ 0.04
HA : p > 0.04
n = 500, p0 = 0.04. La estadı́stica de prueba es,

Pn
Xi − np0 16 − 500(0.04)
AZ0 = pi=1 =p = −0.91
np0 (1 − p0 ) 500(0.04)(0.96)
Con α = 0.05, el valor de tablas es zα = z0.05 = 1.645.
RD: Como AZ0 = −0.91 < 1.645 = z0.05 , se acepta H0 , con α = 0.05.
Conclusión: La proporción de defecto es menor o igual a 4%, con α = 0.05, es decir,
no hay cambio.

Prueba Aproximada sobre dos Distribuciónes Binomiales.


Suponga dos muestras aleatorias independientes:
X11 , . . . , X1m iid Bernoulli(p1 )
X21 , . . . , X2n iid Bernoulli(p2 )
Y1 = m
P
i=1 X1i ∼ Binomial(m, p1 )

Y2 = ni=1 X2i ∼ Binomial(n, p2 )


P

Por consiguiente;
E(Y1 ) = mp1 y V ar(Y1 ) = mp1 (1 − p1 )
E(Y2 ) = np2 y V ar(Y2 ) = np2 (1 − p2 )
Se desea probar la hipótesis
H0 : p1 = p2
HA : p1 6= p2
Los estimadores de los dos parámetros proporciones p1 y p2 son:
pˆ1 = Y1 /m, E(pˆ1 ) = p1 , y V ar(pˆ1 ) = p1 (1 − p1 )/m
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 113

pˆ2 = Y2 /n, E(pˆ2 ) = p2 , y V ar(pˆ2 ) = p2 (1 − p2 )/n


Si H0 es cierta, p1 = p2 = p y entonces se obtiene un solo estimador,

Y1 + Y2
p̂ =
m+n

Y si m y n son suficientemente grandes, se obtiene la aproximación

pˆ − pˆ2 − (p1 − p2 )
q1  ∼
˙ n(0, 1)
p̂(1 − p̂) m1 + n1

Por lo anterior, se emplea la estadı́stica

pˆ1 − pˆ2
AZ0 = q
p̂(1 − p̂) m1 + n1


La regla de decisión es rechazar H0 si |AZ0 | > zα/2 .

Ejemplo.Se desea comparar dos métodos de entrenaniento de personal, usando como


criterio la proporción de personas que aprobaron el entrenamiento.
Los datos son:
Método 1: m = 300 # de personas aprobadas=250
Método 2: n = 260 # de personas aprobadas=178
Se desea probar la hipótesis
H0 : p1 = p2
HA : p1 6= p2

Los estimadores de cada método y el estimador conjunto, son:

Y1 250 Y2 178
pˆ1 = = = 0.8333, pˆ2 = = = 0.6846
m 300 n 260

Y1 + Y2 250 + 178 428


p̂ = = = = 0.7643
m+n 300 + 260 560
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 114

Con esto se tiene la estadı́stica

pˆ1 − pˆ2 0.8333 − 0.6846


AZ0 = q =q  = 4.1351
p̂(1 − p̂) m1 + n1 1 1

0.7643(0.2357) 300 + 260

Si α = 0.05 se tiene que zα/2 = z0.025 = 1.96


RD: Como |AZ0 | = 4.13 > 1.96 se rechaza H0 con α = 0.05
Conclusión: Las proporciones de aprobación con los dos métodos de entrenamiento,
no son iguales, con α = 0.05.
Prueba en R
prop.test(c(250,178), c(300,260), correct=FALSE)
Se provee
AZ02 = χ20 = 17.0998, df = 1 p − value = 3.547e − 05

6.6 Prueba de Bondad de Ajuste


Suponga que n repeticiones independientes de un experimento: En cada repetición
el resultado solo pertenece a una de k clases mutuamente excluyentes. Suponga
que la probabilidad de que una repetición se obtenga un resultado de la clase i es
pi , ı = 1, 2, . . . , k; donde ki=1 pi = 1. Las probabilidades p1 , . . . , pk permanecen
P

constantes en cada repetición. Se tiene ası́ una tabla,

P
Clase 1 2 ··· k
Frecuencia n1 n2 ··· nk n

las variables n1 , n2 , . . . , nk en la tabla anterior, son variables aleatorias antes de


realizar el experimento, y que satisfacen n = ki=1 ni . Note que si k = 2, se tiene el
P

modelo Binomial, con p1 = p y p2 = 1 − p.


CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 115

Modelo Multinomial. Sean n1 , n2 , . . . , nk variables aleatorias definidas anterior-


mente. La función de probabilidad conjunta de n1 , n2 , . . . , nk se llama multinomial y
está dada por,
n!
f (n1 , n2 , . . . , nk ) = pn1 pn2 · · · pnk k
n1 !n2 ! · · · nk ! 1 2
Donde n = ki=1 ni y ki=1 pi = 1.
P P

Se tiene que

E(ni ) = npi , V ar(ni ) = npi (1 − pi ), i = 1, 2, . . . , k

Se tiene interés en la prueba de hipótesis,


H0 : p1 = p01 , p2 = p02 , . . . , pk = p0k
HA : Al menos una pi 6= p0i , i = 1, . . . , k.
Se emplea la estadı́stica
k k
X (ni − npi )2 X (Oi − Ei )2
χ20 = =
i=1
npi i=1
Ei
Oi = ni = Observados; Ei = npi = Esperados.
RD: Rechazar H0 si χ20 ≥ χ2α (l), donde
l = k − 1 − (número de parámetros estimados para especificar las p0i )

Notas
a) Se recomienda tener Ei ≥ 5
b) Si no se ha estimado ningún parámetro, los gl son k − 1.

Ejemplo. Las proporciones esperadas en un dihı́brido son 9 : 3 : 3 : 1. Se examinaron


1008 individuos y se observaron los valores, para las 4 clases,

P
Clase 1 2 3 4
Oi 587 197 168 56 1008
Ei 567 189 189 63
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 116

Se desea realizar la prueba de hipótesis,


H0 : p1 = 9/16, p2 = 3/16, p3 = 3/16, p4 = 1/16
HA : Al menos una pi 6= p0i , i = 1, 2, 3, 4.
La estadı́stica es
k
X (Oi − Ei )2 (587 − 567)2 (197 − 189)2 (168 − 189)2 (56 − 63)2
χ20 = = + + + = 4.16
i=1
Ei 567 189 189 63

Los gl son l = k − 1 = 3. Con α = 0.05 el valor de tabla de Ji-cuadrada es


χ2α (l) = χ20.05 (3) = 7.8147.
RD: Como χ20 = 4.16 < 7.8147 = χ20.05 (3), se acepta H0 con α = 0.05.
Conclusión: Los datos obtenidos para cada clase muestran que la proporción
9 : 3 : 3 : 1 es correcta, con α = 0.05.
Chapter 7

Intervalos de Confianza

7.1 Intervalos de Confianza


Sean X1 , X2 , . . . , Xn iid fX (x; θ), θ ∈ Θ ⊂ R y θ es una constante desconocida.

Defn. Intervalo de Confianza. Sean X1 , X2 , . . . , Xn iid fX (x; θ), θ ∈ Θ ⊂ R.


Sean T1 (X1 , X2 , . . . , Xn ) y T2 (X1 , X2 , . . . , Xn ) dos estadı́sticas que satisfacen T1 ≤ T2 ,
para las cuales,

Pθ [T1 (X1 , X2 , . . . , Xn ) < θ < T2 (X1 , X2 , . . . , Xn )] ≥ 1 − α

para todo θ ∈ Θ. Entonces al intervalo aleatorio (T1 , T2 ) se le llama el Intervalo de


Confianza para θ abreviado IC(θ), de 1 − α coeficiente de confianza.

Nota. También se denota


L1 = L = T1 (X1 , X2 , . . . , Xn )
L2 = L̄ = T2 (X1 , X2 , . . . , Xn )

Nota. Intervalos de Confianza Laterales

117
CHAPTER 7. INTERVALOS DE CONFIANZA 118

Si T1 (X1 , X2 , . . . , Xn ) es una estadı́stica tal que

Pθ [T1 < θ] ≥ 1 − α

entonces se tiene al IC inferior para θ dado por (T1 , ∞).

Si T2 (X1 , X2 , . . . , Xn ) es una estadı́stica tal que

Pθ [θ < T2 ] ≥ 1 − α

entonces se tiene al IC superior para θ dado por (−∞, T2 ).


Nota. El significado de un IC se basa en la interpretación de frecuencia relativa de la
probabilidad.

7.2 Intervalos de Confianza para la Media de la


Normal
Sean X1 , X2 , . . . , Xn iid N (µ, σ 2 )

X̄ − µ
√ ∼ tn−1
S/ n
Por consiguiente
 
X̄ − µ
Pµ −tα/2 (n − 1) < √ < tα/2 (n − 1) = 1 − α
S/ n
Despejando µ, se tiene el IC(µ),
 
S S
X̄ − tα/2 (n − 1) √ , X̄ + tα/2 (n − 1) √
n n
En éste caso, se tienen los lı́mites

S
L = X̄ − tα/2 (n − 1) √
n
CHAPTER 7. INTERVALOS DE CONFIANZA 119

S
L̄ = X̄ + tα/2 (n − 1) √
n

Dado un IC(µ) por (L1 , L2 ) con 1 − α de confianza, se puede emplear dicho


intervalo para probar cualquier hipótesis del tipo
H0 : µ = µ0 vs HA : µ 6= µ0
Con el mismo α del IC.
Si µ0 ∈ (L1 , L2 ) se acepta H0 con α,
Si µ0 6∈ (L1 , L2 ) se rechaza H0 con α.

Ejemplo. En un ejemplo anterior se presentaron unos datos de rendimiento de trigo


de 9 lotes experimentales. Los rendimientos en ton/ha son:
3.15, 3.92, 4.26, 3.36, 3.72, 4.19, 3.42, 4.38, 4.50
Con la muestra se obtiene:
n = 9, X̄ = 3.877778, S 2 = 0.2396197 y S = 0.4895094
Si α = 0.05, t0.025 (8) = 2.306 y el IC(µ) es,

S
L = X̄ − tα/2 (n − 1) √
n
0.4895094
= 3.878 − (2.306) = 3.5017
3

S
L̄ = X̄ + tα/2 (n − 1) √
n
0.4895094
= 3.878 + (2.306) = 4.2542
3
Se escribe el IC con 1 − α = 0.95 de confiabilidad como (3.5017, 4.2542).
Considere ahora probar, H0 : µ = 3.4 vs HA : µ 6= 3.4
Como 3.4 6∈ (3.5017, 4.2542) ⇒ se rechaza H0 con α = 0.05.
Considere ahora probar, H0 : µ = 4.1 vs HA : µ 6= 4.1
Como 4.1 ∈ (3.5017, 4.2542) ⇒ se acepta H0 con α = 0.05.
CHAPTER 7. INTERVALOS DE CONFIANZA 120

7.3 Intervalos de Confianza para la Varianza de la


Normal
Sean X1 , X2 , . . . , Xn iid N (µ, σ 2 )
Considerando que
(n − 1)S 2
∼ χ2n−1
σ2
Se tiene que
(n − 1)S 2
 
2 2
Pσ2 χn−1,1−α/2 < < χn−1,α/2 = 1 − α
σ2
Despejando σ 2 se obtiene el IC(σ 2 ),
!
2 2
(n − 1)S (n − 1)S
2
, 2
χn−1,α/2 χn−1,1−α/2

Dado un IC(σ 2 ) por (L1 , L2 ) con 1 − α de confianza, se puede emplear dicho


intervalo para probar cualquier hipótesis del tipo
H0 : σ 2 = σ02 vs HA : σ 2 6= σ02
Con el mismo α del IC.
Si σ02 ∈ (L1 , L2 ) se acepta H0 con α,
Si σ02 6∈ (L1 , L2 ) se rechaza H0 con α.

Ejemplo. Con los datos de un ejemplo anterior donde se desea calibrar un medidor
de pH se tienen los datos;
7.07, 7.00, 7.10, 6.97, 7.00, 7.03, 7.01, 7.01, 6.98, 7.08
n = 10, X̄ = 7.025, S 2 = 0.001938889, S = 0.04403282
Se construye un IC(σ 2 ) con 1 − α = 0.95,
(n − 1)S 2 9(0.001938889)
L1 = 2
= = 0.00091732032
χn−1,α/2 19.0228

(n − 1)S 2 9(0.001938889)
L2 = 2
= = 0.0064620059
χn−1,1−α/2 2.7004
CHAPTER 7. INTERVALOS DE CONFIANZA 121

Ası́ se tiene el intervalo (L1 , L2 ) = (0.00091732032, 0.0064620059).

7.4 Intervalos de Confianza para Dos Medias de


Distribuciones Normales
Para la prueba de hipótesis
H0 : µX = µY vs HA : µX 6= µY
2
Caso σX = σY2 = σ 2 desconocida. Entonces,
 
X̄ − Ȳ − (µ1 − µ2 )
P −tα/2 (m + n − 2) < q < tα/2 (m + n − 2) = 1 − α
1 1

2
Sp m + n
Despejando µ1 − µ2 , se tiene un IC para µ1 − µ2 ,
s   s  !
1 1 1 1
X̄ − Ȳ − tα/2 (m + n − 2) Sp2 + , X̄ − Ȳ + tα/2 (m + n − 2) Sp2 +
m n m n
Con esto se tiene
s  
1 1
L = X̄ − Ȳ − tα/2 (m + n − 2) Sp2 +
m n
s  
1 1
L̄ = X̄ − Ȳ + tα/2 (m + n − 2) Sp2 +
m n
Con el IC(µX − µY ) = (L, L̄) se prueba la hiótesis indicado arriba, considerando
la siguiente regla de decisión:
Si 0 ∈ (L, L̄) ⇒ Se acepta H0 : µX = µY , con α
Si 0 6∈ (L, L̄) ⇒ Se acepta HA : µX 6= µY , Con α.

Ejemplo. Con los datos de un ejemplo anterior sobre la comparación del rendimiento
de soya bajo dos condiciones de humedad aprovechable se tiene la siguiente infor-
mación.
CHAPTER 7. INTERVALOS DE CONFIANZA 122

2
m = 12, X̄ = 2035.67 SX = 101, 678.5
n = 9, Ȳ = 3077.333 SY2 = 80, 235.75
Sp2 = 92649.98
Para obtener un IC(µX − µY ), con α = 0.05 se tiene t0.025 (19) = 2.093024, y los
lı́mites inferior y superior se calculan mediante,
s  
2
1 1
L = X̄ − Ȳ − tα/2 (m + n − 2) Sp +
m n
s  
1 1
= 2035.167 − 3077.333 − 2.093024 92649.98 + = −1323.094
12 9

s  
1 1
L̄ = X̄ − Ȳ + tα/2 (m + n − 2) Sp2 +
m n
s  
1 1
= 2035.167 − 3077.333 + 2.093024 92649.98 + = −761.2389
12 9

El IC es (L, L̄) = (−1323, −761.2389).


Como 0 6∈ (−1323, −761.2389) ⇒ Se acepta HA : µX 6= µY , con α = 0.05.
Chapter 8

Regresión Lineal Simple

8.1 Modelo de Regresión Lineal Simple


En Ingenierı́a y Ciencias, muchos problemas consisten en determinar una relación
entre un conjunto de variables. Por ejemplo, en un proceso quı́mico se tiene interés
en la relación entre el producto del proceso y la temperatura a la cual ocurre y la
cantidad de catalizador empleado.

Objetivo: Encontrar y describir relación entre una variable dependiente (Y) y una
variable independiente (x).
X −→ Y
Causa Efecto

Ejemplos.
a) Relación entre reactante producido y temperatura, en un proceso quı́mico
b) Relación entre el rendimiento de grano y cantidad de fertilizante usado.
c) Relación entre oferta y demanda de una mercancı́a.

123
CHAPTER 8. REGRESIÓN LINEAL SIMPLE 124

De las v.a.’s X y Y , se toma una muestra aleatoria de tamaño n, dada por:


(X1 , Y1 ), (X2 , Y2 ), . . . , (Xn .Yn )
Se tienen los pares de observaciones;
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
¿ Es posible obtener un modelo matemático probabilı́stico que describa la relación
entre X y Y ?
¿ Es una lı́nea recta, parábola, logarı́tmica, exponencial, etc ?
La relación más simple entre la variable respuesta Y y la variable independiente
X, es una relación lineal del tipo,
Modelo lineal simple

Y = β0 + β1 f (X)

Donde;
β0 y β1 son parámetroa desconocidos,
β0 es la ordenada al origen,
β1 es la pendiente o coeficiente de regresión,
f (X) es cualquier función de X,
Se le llama modelo lineal (lineal en los parámetros β0 y β1 ), sin que necesariamente
implique que la relación entre X y Y pueda representarse por una lı́nea recta,
Si tal relación fuera verdadera, una vez conocidos los parámetros β0 y β1 , entonces
serı́a posible predecir exactamente la respuesta, para cualquier valor de entrada. En la
práctica tal precisión no es posible, en virtud de la variación inherente a la naturaleza.
Por consiguiente, una ecuación como la anterior podrı́a ser válido sujeto a un error
aleatorio, dando una relación llamada Regresión Lineal Simple, representada por,

Yi = β0 + β1 f (Xi ) + i i = 1, 2, . . . , n

donde i es un error aleatorio con media cero.


CHAPTER 8. REGRESIÓN LINEAL SIMPLE 125

Se llama simple porque solo involucra a una variable independiente X.

Supuestos del modelo


a) Para cualquier valor de X, Y es una v.a. tal que Y ∼ f (µY |X , σY2 |X ),
b) E(Y |X) = µY |X = β0 + β1 f (X),
c) E(i ) = 0 y V ar(i ) = σ 2 ,
d) σY2 |X1 = σY2 |X2 = · · · = σY2 |Xn .

Los siguientes modelos son de regresión lineal simple;


µY |X = β0 + β1 X
µY |X = β0 + β1 senX
µY |X = β0 + β1 ln X
µY |X = β0 + β1 X 2 .
Solo µY |X = β0 + β1 X, representa una relación de lı́nea recta entre X y Y .

8.2 Modelo de Lı́nea Recta


Sea el modelo de lı́nea recta

Yi = β0 + β1 Xi + i i = 1, 2, . . . , n

Se desea usar la muestra aleatoria para obtener los estimadores de los parámetros
desconocidos β0 y β1 . Denote la ecuaciń de recta estimada por

Ŷi = β̂0 + β̂1 Xi i = 1, 2, . . . , n

Se desea determinar las Ŷi , es decir la recta estimada de regresión tal que el cuadrado
de errores sean minimizados, es decir,
X X X
2i = (Yi − Ŷi )2 = (Yi − β̂0 − β̂1 Xi )2
CHAPTER 8. REGRESIÓN LINEAL SIMPLE 126

Gauss propuso el método de cuadrados mı́nimos para obtener los estimadores de


los parámetros. Tomando las derivadas parciales para cada parámetro se tiene;

∂ X 2 ∂ X
i = (Yi − β0 − β1 Xi )2
∂β0 ∂β0
X
= 2(Yi − β0 − β1 Xi )(−1)
X X X
= −2 Yi + 2 β0 + 2β1 Xi

∂ X 2 ∂ X
i = (Yi − β0 − β1 Xi )2
∂β1 ∂β
X0
= 2(Yi − β0 − β1 Xi )(−Xi )
X X X
= −2 Xi Yi + 2β0 Xi + 2β1 Xi2

Igualando a cero cada derivada parcial y escribiendo los parámetros del lado
izquierdo para ser determinados, se obtiene el llamado sistema de ecuaciones nor-
males,
P P
(A) nβ0 + Xi β1 = Yi
Xi β0 + Xi2 β1 = Xi Yi
P P P
(B)

Resolviendo este sistema de 2 ecuaciones se tiene qie los estimadores de los parámetros
que minimizan los cuadrados de los errores son:

β̂0 = ȳ − β̂1 x̄

P P
xi yi − ( xi )( yi )
P
n
β̂1 = P 2 (P xi )2
xi − n

Nota. Es común escribir


P P
P ( xi )( yi )
Sxy = SP XY = xi y i − n
CHAPTER 8. REGRESIÓN LINEAL SIMPLE 127

2
P
yi2 − ( nyi )
P
Syy = SP Y Y =
P 2 ( P xi ) 2
Sxx = SP XX = xi − n

Sxy
Con lo anterior, se puede escribir β1 = Sxx
.

Ejemplo. En un proceso quı́mico de destilación, se evalúa la relación entre la variable


dependiente:
y = % de oxı́geno producido
x = % de hidrocarburos presentes en el condensador.

x y x y
0.99 90.01 1.19 93.54
1.02 89.05 1.15 92.52
1.15 91.43 0.98 90.56
1.29 93.74 1.01 89.54
1.46 96.73 1.11 89.85
1.36 94.45 1.20 90.39
0.87 87.59 1.26 93.25
1.23 91.77 1.32 93.41
1.55 99.42 1.43 94.98
1.40 93.65 0.95 87.33

Con los datos se obtienen los siguientes valores:


P20
n = 20, i=1 xi = 23.92 x̄ = 1.196
P20
i=1 yi = 1843.21 ȳ = 92.1605
P20 2 P20 2
i=1 xi = 29.2892 i=1 yi = 170, 044.5321
P20
i=1 xi yi = 2, 214.6566
CHAPTER 8. REGRESIÓN LINEAL SIMPLE 128

20
( xi )2 (23.92)2
X P
Sxx = x2i − = 29.2892 − = 0.68088
i=1
20 20
20
( yi )2 (1843.21)2
X P
Syy = yi2 − = 170, 044.5321 − = 173.3768
i=1
20 20

20 P20
xi )( 20
P
X ( i=1 i=1 yi ) (23.92)(1843.21)
Sxy = xi y i − = 2, 214.6566 − = 10.17744
i=1
20 20

Sxy 10.17744
β̂1 = = = 14.94748
Sxx 0.68088

β̂0 = ȳ − β̂1 x̄ = 92.1605 − 14.94748(1.196) = 74.28331

La recta estimada de regresión es

ŷ = β̂0 + β̂1 x = 74.28331 + 14.947 x

8.3 Pruebas de Hipótesis


Para poder hacer inferencia sobre los parámetros del modelo, se realiza el supuesto
i ∼ N (0, σ 2 ). Esto implica que Yi ∼ N (β0 + β1 Xi , σ 2 ).

Se puede mostrar que los parámetros estimados se distribuyen como;

σ 2 Xi2
 P 
β̂0 ∼ N β0 ,
nSxx

σ2
 
β̂1 ∼ N β1 ,
Sxx
CHAPTER 8. REGRESIÓN LINEAL SIMPLE 129

Para estimar la varianza del error σ 2 se usa

2 Syy − β12 Sxx


S =
n−2

Prueba de Hipótesis sobre β1


Se desea probar la hipótesis si la variable independiente X explica o no la variación
de variable dependiente Y . Para esto se establece la prueba
H0 : β1 = β10 vs HA : β1 6= β10
Si β10 = 0 se rechaza, indica que la variable independiente sı́ contribuye a explicar
la variación de la variable dependiente.
Se usa la estadı́stica

β̂1 − β 0
t0 = q 1
S2
Sxx

Si H0 es cierta, t0 ∼ tn−2 .
RD: Rechaza H0 si |t0 | > tα/2 (n − 2).

Ejemplo. Con los datos del ejemplo anterior, se establece la hipótesis,


H0 : β1 = 0 vs HA : β1 6= 0

Syy − β12 Sxx 173.3768 − (14.9474)2 (0.68088)


S2 = = = 1.18043
n−2 18

β̂1 − β10 14.947 14.947


t0 = q =q = = 11.3527
S 2 1.18 1.3166
Sxx 0.68088

Con α = 0.05 se tiene tα/2 (n − 2) = t0.025 (18) = 2.101


RD: |t0 | = 11.35 > 2.101 = t0.025 (18) ⇒ Rechaza H0 con α = 0.05.
Conclusión: La cantidad de hidrocarburos sı́ predice a la variable oxigeno producido,
con α = 0.05
CHAPTER 8. REGRESIÓN LINEAL SIMPLE 130

Para realizar la prueba en R;


hidrocarb < − c(0.99, 1.02, 1.15, 1.29, 1.46, 1.36, 0.87, 1.23, 1.55, 1.4, 1.19, 1.15,
0.98, 1.01, 1.11, 1.2, 1.26, 1.32, 1.43, 0.95)
oxigeno < − c(90.01, 89.05, 91.43, 93.74, 96.73, 94.45, 87.59, 91.77, 99.42, 93.65,
93.54, 92.52, 90.56, 89.54, 89.85, 90.39, 93.25, 93.41, 94.98, 87.33)
reg1 < − lm(oxigeno ∼ hidrocarb)
summary(reg1)
fitted(reg1)
plot(hidrocarb,oxigeno)
lines(hidrocarb,fitted(reg1))
La gráfica de regresión es
96
oxigeno

92
88

0.9 1.0 1.1 1.2 1.3 1.4 1.5

hidrocarb

Figure 8.1: Regresion Lineal Simple


References

[1] Daniel, W. W. and Cross, C. L. 2013. Biostatistics A Foundations for Analysis


in the Health Sciences 10th ed. John Wiley

[2] Dalgaard, P. 2008. Introductory Statistics with R 2nd ed. Springer

[3] Infante, G. S. y Zárate, G. de L. 2012. Métodos Estadı́sticos: Un Enfoque Inter-


disciplinario 3a ed. La Gaya Ciencia

[4] Lawal, B. 2014. Applied Statistical Methods in Agriculture, Health and Life Sci-
ences. Springer

[5] Le, C. T. and Eberly, L. E. 2016. Introductory Biostatistics 2nd ed. John Wiley

[6] Ott, R. L. and Longnecker, M. 2016. An Introduction to Statistical Methods and


Data Analysis 7th ed. Cengage Learning

[7] Ross, S. M. 2021. Introduction to Probability and Statistics for Engineers and
Scientists 6th ed. Academic Press Elsevier

[8] Walpole, R. E., Myers, R. H., Myers, S. L. and Ye, K. 2012. Probability and
Statistics for Engineers and Scientists 9th ed. Pearson

131

Você também pode gostar