Notas Estadistica

Chapter 1
Introducción
Probabilidad es una disciplina matemática. La teorı́a tiene tres aspectos: (a) con-
tenido lógico formal, (b) antecedentes intuitivos y (c) aplicaciones.
Sobre el contenido lógico formal, debe recordarse que la matemática estudia, desde
el punto de vista axiomático las relaciones entre entes no definidos (e.g. en Geometrı́a,
no se define punto). Ası́, la teorı́a de la probabilidad, como área de matemáticas, se
construye por conceptos, axiomas y teoremas.
Desde el punto de vista intuitivo, todos tiene alguna noción de probabilidad. Las
siguientes preguntas se refieren a esto:
¿ cual es la probabilidad de ganar las elecciones ?
¿ cual es la probabilidad de que hoy llueva ?
¿ cual es la probabilidad de vivir al menos 50 años ?.
La palabra experiencia combina tres términos: experimento, evento y frecuencia.
Del diccionario, experimento significa un proceso controlado, realizado para probar,
demostrar o descubrir algo; en el cual, al final ciertos resultados son observados. Se
asume que dicho proceso, es repetible en condiciones similares.
Si el resultado de un experimento, realizado bajo ciertas condiciones, está com-
pletamente determinado, se dice que es un experimento determinı́stico. Mientras que
1
2
si el resultado no puede ser determinado, excepto que se conoce el conjunto de sus

resultados posibles, se le llama experimento aleatorio.
Por consiguiente, un fenómeno aleatorio es un suceso empı́rico caracterizado por el
hecho de que su observación no siempre conlleva al mismo resultado observado, i.e.,
no hay regularidad determinı́stica. Sin embargo los diferentes resultados posibles,
presentan una regularidad estadı́stica; esto significa que existe números entre 0 y
1 que representan la frecuencia relativa en la cual los diferentes resultados posibles
pueden ser observados, en una serie de eventos.
Algunos ejemplos de fenómenos aleatorios:
(i) cantidad de lluvia en el mes de Agosto en el Valle de México
(ii) proporción de individuos con alguna caracterı́stica genética
(iii) cantidad de reactante producido en un proceso quı́mico
(iv) rendimiento en ton/ha producido por un cultivo de trigo
(v) número de llamadas telefónicas que recibe una operadora
(vi) horas de operación de un dispositivo electrónico
(vii) proporción de votantes de un partido polı́tico
(viii) respuesta de un paciente a un nuevo medicamento
La Probabilidad es la disciplina requerida para estudiar los fenómenos aleatorios.
Las ciencias empı́ricas son aquellas disciplinas cientı́ficas que para validar sus
declaraciones requieren datos sobre los fenómenos y procesos estudiados. Por esto,
los cientı́ficos e ingenieros tienen interés en la colección de datos.
La Estadı́stica es una ciencia, apoyada en la Probabilidad, que provee los prin-
cipios y métodos para colectar y analizar datos, de tal manera que permita extraer
conclusiones, en presencia de incertidumbre y variación. Por ello, la Estadı́stica es la
ciencia del aprendizaje a partir de datos.
3
1.1 Modelos Matemáticos y Principio de Incer-

tidumbre
En aplicaciones, los modelos matemáticos sirven como herramientas para hacer predic-
ciones. Modelos distintos pueden describir, de manera satisfactoria, la misma situación
empı́rica.
Modelo Matematicos. Es una relación funcional entre variables. Es una de-
scripción cuantitativa de un fenómeno.
Entrada (x) −→ Proceso −→ Salida (y)
y = f (x), y = f (x1 , . . . xn )
Ejemplos: Dos modelos matemáticos familiares son;
1
s = g t2
2
distancia o recorrido en un tiempo t de un objeto en caı́da libre, que estaba en reposo.
A = π r2
Dos tipos de modelos matemáticos

(i) Modelo Matemático Determinı́stico. Es aquel modelo que describe un experi-
mento o fenómeno determinı́stico
(ii) Modelo Matemático Probabilı́stico. Es aquel modelo que describe un experi-
mento o fenómeno aleatorio.
La utilidad de un modelo matemático, depende de la bondad de sus predicciones.
El descubrimiento de la naturaleza dual onda-partı́cula de la materia nos ha obli-
gado a reevaluar el lenguaje y los conceptos de Cinemática usados para describir la
posición y movimiento de una partı́cula.
4
En la mecánica clásica de Newton, se considera a una partı́cula como un punto.

Se describe su locación y movimiento en cualquier instante con tres coordenadas
espaciales y 3 componentes de velocidad. Pero en general, tal descripción especı́fica
no es posible.
Cuando se analiza en escala suficientemente pequeña, existe una limitación fun-
damental en la precisión con la cual se puede determinar la posición y velocidad de la
partı́cula. Ası́, entre más exacto se trata de medir la posición de una partı́cula, menos
exacto se puede medir su velocidad, y viceversa. Esto es debido al disturbio causado
por el proceso de medición. A este fenómeno se le llama Principio de Incertidumbre
de Heissenberg.
Heissenberg, Schrodinger y Dirac, inventaron la Mecánica Cuántica, basado en el
principio de incertidumbre. En general la mecánica cuántica, no predice un solo resul-
tado definido de una observación; en lugar de esto, predice un número de resultados
diferentes posibles e indica la probabilidad de ocurrencia de cada uno de ellos. por
consiguiente, el principio de incertidumbre, introduce un elemento de aleatoriedad
inevitable en la ciencia.
Estos principios gobiernan la conducta de los transistores y circuitos integrados,
que son componentes escenciales en los mecanismos electrónicos usados en la comu-
nicaciones modernas, TV, computadoras etc.
1.2 Antecedentes Históricos

El origen de la Probabilidad está asociado a las investigaciones de problemas de juegos
de azar hecha por matemáticos franceses e italianos.
Entre ellos, Fermat; Pascal B.; Cardano y Tartaglia (1570); Laplace; Bernoulli
(1654-1705); DeMoivre (1667-1754); Poisson.
Por su parte, K. F. Gauss, matemático alemán, realizó aplicaciones de probabili-
5
dad en Astronomı́a (1777-1754)

En 1713 Bernoulli estableció un resultado muy importante, llamado Ley Débil de
los Números Grandes.
1909, E. Borel estableció otro resultado llamado Ley Fuerte de los Números
Grandes.
A principios del siglo XX, un grupo de matemáticos rusos, entre ellos, Markov,
Chebyshev, Liapounov, establecieron varios resultados fundamentales de la Probabil-
idad. Con el invento del concepto de la intagral de Lebesgue (1903, H. Lebesgue),
en 1933, A. N. Kolmogorov axiomatizó y fundamentó rigurosamente la teorı́a de la
probabilidad, despues de varios intentos hechos por Von Mises entre 1928 y 1931.
Con esto, la Probabilidad se constituyó como una area legı́tima de la Matemática.
La palabra Estadı́stica derivó de la palabra Estado, y fué usada para referirse a
la colección de hechos de interés para el Estado.
Italia: En Florencia y Venecia se inicia la colección sistemática de datos económicos
y de población durante el Renacimiento.
J Graunt y E. Halley (1662-1693) usaron datos para estimar la mortalidad y
aplicaron ésta información en seguros de vida.
El término Estadı́stica fué usado hasta el siglo XVIII como una abreviación de la
ciencia descriptiva del Estado y ya en el siglo XIX se indentificaba fuertemente con
los números.
A finales del siglo XIX la Estadı́stica se interesó en la inferencia de conclusiones
en base a datos numéricos, a partir de los trabajos de F. Galton y K. Pearson, en
Genética.
A principios del siglo XX, R. A. Fisher y J. Neyman, establecieron los fundamentos
matemáticos de la Inferencia Estadı́stica, bsasado en la Probabilidad.
Chapter 2
Probabilidad
2.1 Antecedentes y Definiciones

El término Probabilidad refiere al estudio de la aleatoriedad e incertidumbre. En
un experimento aleatorio, Probabilidad es la disciplina que provee los métodos para
cuantificar las posibilidades de ocurrencia asociadas a los resultados.
Defn. Experimento. Actividad o proceso que genera una observación o un conjunto

de datos.
Defn. Experimento Aleatorio. Experimento cuyo resultado no es predecible con

certidumbre y por lo tanto está sujeto al azar; pero sı́ se conoce el conjunto de todos
los resultados posibles.
Defn. Espacio Muestral. Se define el espacio muestral de un experimento aleatorio,

como el conjunto de todos los resultados posibles; y se denota por Ω (ó S).
Ejemplos:
a) Se determina el sexo de un recién nacido
6
CHAPTER 2. PROBABILIDAD 7
S = Ω ={ masculino, femenino} = {m,f}

b) Se lanza una moneda al aire ,
S = Ω ={ águila, cara} = {a,c}
c) Suponga ahora que se lanzan dos monedas al aire,
S = Ω = {aa, ac, ca, cc}
d) Se mide el tiempo de operación de un circuito electrónico de control de un sistema
de fertiirrigación,
Ω = {t : 0 ≤ t < ∞}
e) Se mide la longitud de mazorca de una variedad de maı́z,
Ω = {x : 0 < x < 35cm}
f) El experimento consiste en una carrera de 1/2 maratón con 5 aspirantes a la
olimpiada. Ω = {Todas las ordenes de(1, 2, 3, 4, 5)}
Nota: Ω = {ω : ω es un resultado del experimento aleatorio}

ω ∈ Ω, ω es un ”punto” muestral
ω ≡ aa, en (c) anterior,
ω ≡ (5, 3, 1, 2, 4) en (f) anterior, donde el competidor 5 llegó en primer lugar, etc.
Ω es un conjunto finito o infinito. Si es infinito, puede ser infinito numerable (contable)
o infinito no numerable.
Defn. Evento. Un evento E es un subconjunto de Ω.
Nota. Los eventos E son denotados por las letras mayúsculas A, B, C, D, etc. ∅ es
el evento vacı́o o nulo.
Ejemplos:
a) A = {m}
b) B = {cara}
c) C={ Al menos una águila}={ac, ca, aa}

d) E={El circuito opera al menos 100 hrs}={t : t ≥ 100}
Nota: El evento que contiene un solo punto muestral es llamado evento elemental.
Operaciones con Conjuntos

Para eventos A, B, E en Ω, se consideran las operaciones:
Unión A ∪ B = {ω : ω ∈ A o ω ∈ B}
Intersección A ∩ B = AB = {ω : ω ∈ A y ω ∈ B}
Diferencia A \ B = A − B = {ω : ω ∈ A y ω ∈
/ B}
Complement E c = {ω : ω ∈ Ω y ω ∈
/ E}.
Diagramas de Venn
A B
Propiedades de Conjuntos
A ∪ B = B ∪ A AB = BA, P. Conmutativa
(A ∪ B) ∪ C = A ∪ (B ∪ C), (AB)C = A(BC) P. Asociativa
(A ∪ B)C = AC ∪ BC, (AB) ∪ C = (A ∪ C) ∩ (B ∪ C) P. Distributiva.
(A ∪ B)c = Ac ∩ B c , (A ∩ B)c = Ac ∪ B c P. de De Morgan.
Defn. Si A ∩ B = ∅ se dice que A y B son mutuamente excluyentes o disjuntos.
Defn. Probabilidad. Suponga un espacio muestral Ω de un experimento aleatorio.

Sea C una colección de subconjutos de Ω. Se define Probabilidad a una función con
domino C y rango [0, 1], es decir P : C −→ [0, 1], que satisface los axiomas siguientes:
Axioma 1. 0 ≤ P (E) ≤ 1, ∀E ⊂ Ω, E ∈ C
Axioma 2. P (Ω) = 1,
Axioma 3. Para cualquier sucesión de ventos E1 , E2 , E3 , . . . mutuamente excluyentes,
i.e. ∀ i 6= j, Ei ∩ Ej = ∅,
n
! n
[ X
P Ei = P (Ei ), n = 1, 2, 3, . . . ∞
i=1 i=1
Se llama a P (E) la probabilidad del evento E.
El concepto de P (E) de un experimento es tema de interpretación. Supongo que

un geólogo cita: ”hay un 60% de posibilidad de hallar petróleo en una región par-
ticular”. Todos tendremos una idea de tal declaración. Las posibles interpretaciones
serı́an:
a) El geólogo piensa que en general, en 60% de las regiones de condiciones ambientales
similares a la región en consideración, hay petróleo.
b) El geólogo cree que es más probable que la región contenga petróleo, que la prob-
abilidad de que no contenga; y en realidad 0.6 es una medida de su creencia, en la
hipótesis que la región contendrá petróleo.
A tales interpretaciones se les llama interpretación frecuentista e interpretación
subjetiva (o personal) respectivamente de la probabilidad. En la interpretación fre-
cuentista, la probabilidad de un resultado dado del experimento, es considerada como
”propiedad” del resultado. Y se considera que ésta propiedad puede ser determinada
operacionalmente por repetición continua del experimento; la probabilidad del resul-
tado será observado como la proporción de observaciones favorables.
Cualquier interpretación que uno haga de la probabilidad es tal que se satisfacen
los axiomas dados en la definición.
Propiedades de P (·),
TEOREMA. P (∅) = 0.
TEOREMA. P (Ac ) = 1 − P (A), ∀ A ⊂ Ω.
TEOREMA. Si A ⊂ B, entonces P (A) ≤ P (B).
TEOREMA. P (A ∪ B) = P (A) + P (B) − P (AB).
Demostración. Considere A ∪ B = A ∪ Ac B. Dado que A y Ac B son mutuamente
excluyentes, se tiene que
P (A ∪ B) = P (A ∪ Ac B) = P (A) + P (Ac B)
Por otra parte B = AB ∪ Ac B, donde ambos conjuntos AB y Ac B son mutuamente
exclutentes, es decir P (B) = P (AB) + P (Ac B), lo que implica que
P (A ∪ B) = P (A ∪ Ac B) = P (A) + P (B) − P (AB). 2
Note que si AB = ∅ ⇒ P (A ∪ B) = P (A) + P (B).
Para tres eventos y por la propiedad distributiva
P (A ∪ B ∪ C) = P [(A ∪ B) ∪ C)]
= P (A ∪ B) + P (C) − P [(A ∪ B)C]
= P (A) + P (B) − P (AB) + P (C) − P (AC ∪ BC)
= P (A) + P (B) + P (C) − P (AB) − P (AC) − P (BC) + P (ABC).
Ejemplo. En una raza de ratones se tiene que el color del pelaje es negro o café. Los
de color negro son genéticamente hablando de dos tipos, BB y Bb; y los de color café
de un solo tipo, bb. De la teorı́a se sabe que si se cruzan dos ejemplares negros tipo
Bb, se pueden obtener los tres tipos de color de pelaje con las probabilidades,
Descendencia BB Bb bb
Probabilidad 1/4 1/2 1/4
Ω = {BB, Bb, bb} = {ω1 , ω2 , ω3 }

P ({BB}) = 1/4, P ({Bb}) = 1/2, P ({bb}) = 1/4,

P (Ω) = P ({BB}) + P ({Bb}) + P ({bb}) = 1.
Note que si solo interesa el color del pelo (fenotipo),
Ω = {Negro, Café} = {N, C}
P ({N }) = 3/4, P (C) = 1/4
2.2 Espacio Muestral Finito Con Puntos

Equiprobables
Sea Ω = {ω1 , ω2 , . . . , ωN }
Sea N (Ω) = N , el # de puntos elementales de Ω. Para muchos experimentos aleato-
rios se puede asumir que,
1
P ({ω1 }) = P ({ω2 }) = · · · = P ({ωN }) = N
.
Note que
PN 1
1 = P (Ω) = i=1 P ({ωi }) = N · N
Para cualquier evento E ⊂ Ω
# de puntos en E N (E)
P (E) = =
N (Ω) N
Ejemplos:
a) Se lanza una moneda dos veces y se registra el resultado.
Ω = {cc, ca, ac, aa} = {ω1 , ω2 , ω3 , ω4 }
N (Ω) = 4, P ({ωi }) = 1/4, i = 1, 2, 3, 4
¿ Cual es la probabilidad de obtener al menos una cara ?
A ={ Se obtiene al menos una cara}={ac, ca, cc}
N (A) 3
P (A) = =
N 4
b) Sea el experimento de lanzar dos dados (ó un dado dos veces)

Ω = {(i, j) : i, j = 1, . . . , 6}, N (Ω) = 36 puntos muestrales tales que
P (wk ) = P ({(i, j)}) = 1/36, k = 1, . . . , 36. Sean los eventos
Aj ={ la suma de los dados es j}. Note que
A7 = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}, lo que implica N (A7 ) = 6. Por consigu-
iente,
N (A7 ) 6 1
P (A7 ) = = =
N (Ω) 36 6
Nota. Para calcular probabilidaddes en éste escenario, es necesario contar efectiva-

mente, el número de resultados para cualquier evento dado.
2.3 Principio Básico de Conteo

El principio básico de conteo es conocido como la regla de multiplicación.
Suponga que se tienen dos experimentos E1 y E2 a realizarce, y que hay m re-
sultados posibles de E1 , y si por cada resultado de E1 , hay n resultados posibles
de E2 , entonces conjuntamente hay mn resultados posibles de los dos experimentos
representado por los pares ordenados (i, j), como se ilustra a continuación:
(1, 1), (1, 2), . . . , (1, n)
(2, 1), (2, 2), . . . , (2, n)
··· ··· ···
(m, 1), (m, 2), . . . , (m, n)
Nota: Otros autores hablan de dos etapas E1 y E2 u operaciones, con m y n resultados

o maneras posibles respectivamente, de un solo experimento.
Ejemplos:
a) Un hombre tiene 3 camisas y dos corbatas.
¿ De cuantas maneras puede vestirse ?

# de pares = 3 x 2 =6.
b) Un club de 22 personas necesita elegir un director y un tesorero, en dicho orden.

¿ De cuantas maneras pueden ser elegidas tales dos personas ?
Para director hay 22 posibilidades; y por cada una de tales posibilidades, hay 21
posibilidades de tesoreros.
# de pares = m · n= 22 x 21.
c) Una urna contiene 6 bolas blancas y 5 bolas negras. Sea el experimento que
consiste en extraer al azar 2 bolas de la urna. Sea el evento E={ una bola es blanca
y la otra bola es negra }. Ontenga P (E).
N (Ω) = (11)(10) = 110 puntos muestrales que son pares ordenados
Para obtener N (E) consideremos
(6)(5) = 30 primera bola es blanca y segunda bola es negra
(5)(6) = 30 primera bola es negra y segunda bola es blanca
Por lo tanto N (E) = 30 + 30 = 60
N (E) 60 6
P (E) = = =
N 110 11
Principio de Conteo Básico Generalizado

Si r experimentos E1 , . . . , Er que serán realizados, son tales que E1 puede producir
n1 resultados posibles, y si por cada uno de éstos n1 resultados posibles hay n2
resultados posibles de E2 , y si por cada uno de los resultados posibles de los dos
primeros experimentos allı́ hay n3 posibles resultados de E3 , y si,..., entonces allı́ hay
un total de n1 · n2 · n3 · · · nr resultados posibles de los r experimentos.
Ejemplos:
a) En una reunión de alumnos, hay 3 de Matemáticas, 4 de Estadı́stica, 5 de
Quı́mica y 2 de Biologı́a. Se formará un comité de 4 alumnos, uno por cada carrera.

¿ Cuantos comités posibles hay ?
# de comités posibles = 3 x 4 x 5 x 2 = 120.
b) ¿ Cuantas placas de 7 caracteres son posibles, si las tres primeros caracteres
son letras y el resto números ?
# de placas = 26 x 26 x 26 x 10 x 10 x 10 x 10 = 175,760,000
¿ Cuantas placas habrı́a, en el caso anterior, si se evita repetir letras y números ?
# de placas = 26 x 25 x 24 x 10 x 9 x 8 x 7 = 78,624,000
c) Relación de la regla de multiplicación con el producto cartesiano.

Sean los conjuntos A = {1, 2, 3}, B = {2, 4} y C = {3, 4, 5}
Diagrama de árbol
(1,2,3)
(1,2,4)
(1,2,5)
(1,4,3)
(1,4,4)
(1,4,5)
(2,2,3)
(2,2,4)
(2,2,5)
(2,4,3)
(2,4,4)
(2,4,5)
(3,2,3)
(3,2,4)
(3,2,5)
(3,4,3)
(3,4,4)
(3,4,5)
Permutaciones.
Defn. Permutación. Se define una permutación como el arreglo ordenado de r
objetos distintos seleccionados de n objetos distintos, r ≤ n. El número de tales
arreglos es,
n!
Prn = n(n − 1)(n − 2) · · · (n − (r − 1)) = n(n − 1)(n − 2) · · · (n − r + 1) =
(n − r)!
Notación: Prn = n Pr = Pr,n = P (n, r)
Si r = n, por convención se toma 0! = 1 y en tal caso,
Prn = n(n − 1)(n − 2) · · · (n − (n − 1) = n(n − 1) · · · 1 = n!
Ejemplos:
a) De entre 10 técnicos agrı́colas se van a elegir al azar a 3 para supervisar tres
huertos A, B y C; es decir el orden es importante, el primer seleccionado irá al huerto
A, etc.
El # posible de asignaciones es,
10!
P310 = = (10)(9)(8) = 720
(10 − 3)!
b) Permutaciones de las letras a b c:
P33 = 3! = (3)(2)(1) = 6,
Directamente: abc, acb, bac, bca, cab, cba.
c) El alumno Pedro tiene 10 libros que ordenará en su librero. Tales libros son,
4 de Matemáticas, 3 de Quı́mica, 2 de Historia, y 1 de Literatura. Si los libros de la
misma disciplina estarán juntos, ¿ cuantos arreglos son posibles ?
Suponga el arreglo de los temas: Matemáticas, Quı́mica, Historia y Literatura,
# de arreglos = 4! 3! 2! 1!
Como las 4 áreas a su vez se pueden permutar en 4!, se tiene entonces:
# total de arreglos = 4! 4! 3! 2! 1!
d) Un equipo de Beisbol tiene 9 jugadores. ¿ Cuantas órdenes de bateo hay ?

# de órdenes de bateo = 9! = 362,880
Nota: El # de permutaciones de n objetos distintos arreglados en un cı́rculo es de
(n − 1)!.
Permutaciones con Repeticiones. Suponga que los n objetos están en r grupos

distintos; n1 del grupo uno (indistinguibles entre ellos), n2 del grupo dos, ..., nr del
grupo r. Ası́, n1 + n2 + · · · + nr = n. Entonces,
n!
# de permutaciones =
n1 ! n2 ! · · · nr !
Ejemplo. Suponga que se desea formar todas las palabras posibles de cinco letras a
partir de la palabra DADDY .
Si todas las 5 letras fueran distintas, habrı́a 5! = 120 permutaciones de D1 AD2 D3 Y .
Note que
D1 D2 D3 AY , D1 D3 D2 AY , D2 D1 D3 AY , D2 D3 D1 AY , D3 D1 D2 AY ,D3 D2 D1 AY
producen la misma palabra. Las tres letras D tienen una permutación de 3! = 6. Ası́
se tiene,
5! 5!
# de permutaciones = = = 20
3! 1! 1! 3!
Más ejemplos de conteo.

Ejemplo. Si no se permiten repeticiones
a) ¿ Cuantos números de 3 dı́gitos se pueden formar de los 6 dı́gitos 2, 3, 5, 6, 7 y 9 ?
b) ¿ Cuantos de tales números son menores de 400 ?
c) ¿ Cuantos de ellos son pares ?
d) ¿ Cuantos de ellos son impares ?
e) ¿ Cuantos de ellos son múltiplos de 5 ?
Sol.
1) (6)(5)(4) = 120 números.
2) (2)(5)(4) = 40 (2)()() dos posibles con los #’s 2 y 3,
3) (5)(4)(2) = 40 ()()(2) dos posibles con los #’s 2 y 6
4) (5)(4)(4) = 80 ()()(4) cuatro posibles de los #’s 3, 5, 7 y 9
5) (5)(4)(1) = 20 ()()(1) una posibilidad con el # 5.
Ejemplo. De un grupo de tres hombres y dos mujeres,

a) ¿ De cuantas maneras 3 hombres y 2 mujeres se pueden sentar en una hilera ?
b) Si se sientan por grupos cada uno, los hombres juntos y las mujeres juntas;
¿cuantas maneras de sentarse hay ?
c) Si solo las mujeres se sientan juntas, ¿ cuantas maneras hay ?
Soln.
a) 5! = 120 maneras
b) Si H = Hombre, M = Mujer, entonces MMHHH ó HHHMM
3! para H y 2! para M, entonces
# de maneras = 2(3! 2!) = 2(6)2 = 24.
c) Distribución con solo mujeres juntas,
MMHHH, HMMHH, HHMMH, HHHMM
3! para H y 2! para M, entonces

# de maneras = 4(3! 2!) = 48.
Combinaciones.
Defn. Combinación. Se define una combinación como un subconjunto no ordenado
de r objetos seleccionados de n objetos distintos, r ≤ n. El número de combinaciones
posibles es,
n n!
Crn = =
r (n − r)! r!
Nota.
Prn n!
Crn = =
r! (n − r)! r!
n n!

Si r = n entonces n
= 0! n!
=1
es decir, solo un resultado posible, no ordenado, de todos los objetos.
Ejemplo. De un grupo de 20 estudiantes se elige un comité de 3 personas selec-

cionadas al azar. ¿ Cuantos comités posibles hay ?

20 20! (20)(19)(18)
= = = 1140
3 (20 − 3)! 3! (3)(2)(1)
Ejemplo. De un grupo de 5 mujeres y 7 hombre, ¿ Cuantos comités se pueden formar

que consista de 2 mujeres y 3 hombre ?. ¿ Cuantos comités hay si 2 hombres están
peleados y se rehúsan a estar en el comité ?
5
mujeres; 73 hombres. Por el principio de conteo

a) 2

5 7 (5)(4) (7)(6)(5)
# de comités = = · = 350
2 3 (2)(1) 3(2)1
2
5
b) 0 3
grupos de 3 hombres que excluyen a los dos peleados,
2 5

1 2
grupos de 3 hombres que contiene a uno de los peleados

5 2 5 2 5
# de comités = + = 10[10 + (2)(10)] = 10(30) = 300
2 0 3 1 2
La relación entre combinaciones y permutaciones se muestra en el siguiente ejem-

plo.
Considere las letras {a, b, c, d}, n = 4, r = 3. Entonces,
4! 4!
C34 = = 4, P34 = = 24,
(4 − 3)! 3! (4 − 3)!
Combinaciones Permutaciones
abc abc, acb, bac, bca, cab, cba
abd abd, adb, bad, bda, dab, dba
acd acd, adc, cad, cda, dac, dca
bcd bcd, bdc, cbd, cdb, dbc, dcb
Ejemplos de Probabilidad.
a) Una urna contiene 6 bolas blancas y 5 bolas negras. Se extraen 2 bolas al azar
sin reemplazo. ¿ Cual es la probabilidad de que una bola sea blanca y la otra bola
sea negra ? Ω ={ Combinaciones de 2 bolas extraı́das de 11 posibles }. N (Ω) = 11

2
,
E ={una bola es blanca y la otra bola es negra }.
6 5

N (E) 1 1 6(5) 6
P (E) = = 11 = =
N (Ω) 2
55 11
b) De un grupo de 5 mujeres y 7 hombres (ejemplo anterior), se formará un comité

de 5 personas, elegidas al azar. ¿ Cual es la probabilidad de que el comité consista en
2 mujeres y 3 hombres ? ¿ Cual es la probabilidad de que consiste de puras mujeres
? ¿ Cual es la probabilidad de que consista de puros hombres ?

Sean los eventos:
A = { 2 mujeres, 3 hombres },
B = { 5 mujeres },
C = { 5 hombres }.
5
7
2 10(35)
P (A) = 3 =
12 = 0.441919
5
792
5
7
1(1)
P (B) = 5
0 =
12 = 0.00126 = 1.2626X 10−3
5
792
5
7
0 1(21)
P (C) = 5 =
12 = 0.0265151
5
792
c) Una caja de 30 manzanas contiene 4 frutos que no reúnen el control de calidad.

Para inspección de calidad, se eligen al azar 2 frutos. Sean los eventos
A = { Ambos frutos pasan el control de calidad },
B = { Ambos frutos no pasan el control de calidad },
E = { Al menos un fruto pasa el control de calidad }.
¿ Cual es la probabilidad de cada evento ?
4 26

0 1(325)
P (A) = 30
2 = = 0.747126436
2
435
4 26

2 6(1)
P (B) = 30
0 = = 0.013793103
2
435
4 26 4 26

1 4(26) 1(325)
P (E) = 30
1 + 0
30
2 = + = 0.239080459 + 0.747126436
2 2
435 435
Note que E = B c , por consiguiente,

P (E) = P (B c ) = 1 − P (B) = 1 − 0.013793103 = 0.986206896.
d) Juego de Barajas (versión inglesa). 52 cartas.

4 palos (tipos o suits) de 13 cartas cada uno.
Palos: espadas (pica), clubs (trébol), corazones y diamantes (rombo).
Cada palo consiste de 13 valores o nominaciones:
2, 3, 4, 5, 6, 7, 8, 9, 10, as(1), jack(11), reina(12) y rey(13).
De un paquete de 52 barajas (cartas) se eligen al azar 2 cartas. ¿ Cual es la probabil-
idad de que ambas cartas sean espadas ? ¿ Cual es la probabilidad de que una carta
sea una espada y una carta sea un corazón ?
13

2 78 1
52
= =
2
1326 17
13 13

1 1 13(13) 13
52
= =
2
1326 102
2.4 Probabilidad Condicional, Independencia de

Eventos
Probabilidad condicional es fundamental por dos razones. La primera razón es que
con frecuencia se tiene interés en calcular probabilidades cuando se tiene información
parcial del experimento o en recalcular la probailidad en cuestión a partir de infor-
mación adicional. La segunda razón es que con frecuencia es más fácil calcular la
probabilidad de un evento, restringiendo o condicionando sobre la ocurrencia o no de
otro evento. Por ejemplo, suponga que se lanzan un par de dados. Se tiene
Ω = {(i, j) : i, j = 1, . . . , 6}, y P (wk ) = 1/36, k = 1, . . . , 36
Suponga que se observa que el primer dado cae en 3. Dada ésta información, ¿ cual
es la probabilidad de que la suma de los dos dados sea 8 ?. Dado que i = 3 en
(i, j), entonces (3, j) conduce a los siguientes resultados posibles (reducción del espa-
cio muestral),
(3,1), (3,2), (3,3), (3,4), (3,5), (3,6)
cada uno con la misma probabilidad. Ası́, si el primer dado es 3, entonces la prob-
abilidad condicional de (3,j), j=1,2,3,4,5,6, es de 1/6. La probabilidad del resultado
(3,5) es de 1/6.
En otro ejemplo suponga que se tiene el experimento de inspeccionar una caja
de 100 frutos, de los cuales se sabe que 5 no reúnen la calidad (defectuosos). Se
seleccionan sin reemplazo 2 frutos al azar; cual es la probabilidad que en la segunda
extracción resulte un fruto defectuoso, dado que en la primera extracción se obtuvo
un fruto defectuoso ?
Defn. Probabilidad Condicional. Sean A y B dos eventos en el mismo Ω y

P (B) > 0, se define la probabilidad condicional de A dado B como,
P (A ∩ B) P (AB)
P (A | B) = =
P (B) P (B)
Nota. B representa un espacio muestral reducido.
Ejemplo. En el ejemplo anterior de los dos dados lanzados,

Ω = {(i, j) : i, j = 1, . . . , 6}, Sean los eventos
A={ La suma de los dos dados es 8}={(2,6),(3,5),(4,4),(5,3),(6,2)}.
B={ El primer dado es 3}
A ∩ B ={La suma de los dados es 8 y el primer dado es 3}={(3,5)}.
P (A) = 5/36, P (B) = 6/36, P (AB) = 1/36
P (AB) 1/36 1
P (A | B) = = = 6= P (A)
P (B) 6/36 6
Nota. Si P (A) > 0, también se puede definir,

P (AB)
P (B | A) =
P (A)
Además se tiene que por ambas probabilidades condicionadas,
P (AB) = P (A | B)P (B) = P (B | A)P (A)
Ejemplo. Suponga que se tienen los datos de empleo y desempleo en una comunidad;
Género Empleado Desempleado Total

Masculino 460 40 500
Femenino 140 260 400
Total 600 300 900
En éste caso, N (Ω) = 900. Un nuevo programa agropecuario elige al azar a un

individuo. Dado que el elegido está empleado, cual es la probabilidad de que sea
masculino ?
Sean los eventos
E= El elegido está empleado,
M= El elegido es masculino.
600
P (E) = 900
= 32 ; P (M E) = 460
900
= 23
45
P (M E) 23/45 23
P (M | E) = = =
P (E) 2/3 30
Considerando el espacio muestral reducido E,
460 23
P (M | E) = =
600 30
Ejemplo. Un exportador de fresa conoce, en base a su experiencia pasada:

Que un pedido estará empacado para envı́o a tiempo con una probabilidad de 0.8;
que el pedido estará empacado para envı́o y además que será enviado a tiempo, con
una probabilidad de 0.72.
Cual es la probabilidad de que una orden en particular sea enviada a tiempo dado
que dicha orden estaba empacada para envı́o a tiempo ?
Sean los eventos

A= La orden está empacada para envı́o,
B= La orden es enviada a tiempo.
P (A) = 0.8, P (AB) = 0.72,
P (AB) 0.72
P (B | A) = = = 0.9
P (A) 0.8
Ejemplo. Una pareja tiene 2 hijos. Cual es la probabilidad condicional de que ambos
sean niños si:
a) se sabe que el menor es niño ?
b) se sabe que al menos uno de los hijos es niño ?
Sea f = femenino, y m = masculino,
Ω = {(f, f ), (f, m), (m, f ), (m, m)}, entonces P (wi ) = 1/4, i = 1, 2, 3, 4,
Soln,
a) Defina los eventos y probabilidades implicadas,
A={ El segundo hijo es niño }, P (A) = 1/2
B={ El primer hijo es niño}
P (AB) 1/4 1
P (B | A) = = =
P (A) 1/2 2
Vı́a reducción del espacio muestral A = {(f, m), (m, m)} se tiene que la probailidad
de que ambos sean masculinos dado (a), es de 1/2.
b) Sean los eventos
A={ Ambos hijos son niños },
B={ Al menos un hijo es niño }={(f,m),(m,f),(m,m)}
P (AB) 1/4 1
P (A | B) = = =
P (B) 3/4 3
Vı́a reducción del espacio muestral B = {(f, m), (m, f ), (m, m)}, la probabilidad de
que ambos hijos sean niños dado (b), es 1/3.
Ejemplo. Una caja contiene 12 frutos de manzana, de los cuales 8 reúnen la calidad.
Se extraen 2 frutos al azar. Cual es la probabilidad de que ambos frutos extraı́dos
reunan la calidad ?
Soln,
Sean los eventos
R1 ={ El primer fruto extraı́do reúne la calidad }
R2 ={ El segundo fruto extraı́do reúne la calidad }
Se desea calcular P (R1 R2 )
Note que condicionando se tiene
8 7
P (R1 ) = , P (R2 | R1 ) =
12 11
8 7 14
P (R1 R2 ) = P (R1 )P (R2 | R1 ) = · =
12 11 33
Por conteo directo se tiene,
8
4 8!
2 8·7 14
P (R1 R2 ) = 12
0 = 6!2!
12!
= =
2 10!2!
12 · 11 33
Defn. Partición del Espacio Muestral. Los eventos {B1 , . . . , Bn } representan

una partición del espacio muestral Ω si se satisfacen:
a) P (Bi ) > 0, i = 1, . . . , n,
b) ∀i, j, Bi ∩ Bj = ∅, i, j = 1, . . . , n
c) ∪ni=1 Bi = Ω.
Nota: Mı́nima partición es {B, B c }.

TEOREMA Probabilidad Total. Dada una partición {B1 , . . . , Bn } de Ω se tiene

que ∀A ∈ Ω,
n
X
P (A) = P (A | Bi )P (Bi )
i=1
Nota: En particular, con la partición {B, B c }.
P (A) = P (A | B)P (B) + P (A | B c )P (B c )
TEOREMA de Bayes. Dado Ω y una partición de éste por {B1 . . . , Bn } se tiene

que para cualquier evento A con P (A) > 0,
P (A | Bk ) P (Bk )
P (Bk | A) = Pn
i=1 P (A | Bi ) P (Bi )
En particular, para la partición {B, B c },
P (A | B) P (B)
P (B | A) =
P (A | B) P (B) + P (A | B c ) P (B c )
Ejemplo. Una compañı́a de seguros divide a la población en dos clases: Suceptibles

de accidentes (descuidados) y no suceptibles. Sus estadı́sticas muestran que una
persona suceptible de accidentes, tendrá un accidente en algún momento dentro del
siguente año con probabilidad de 0.4; mientras que tal probabilidad para una persona
no suceptible es de 0.2. Si se asume que el 30 % de la población es suceptible de
accidentes; cual es la probabilidad de que un cliente con póliza nueva, tenga un
accidente durante el próximo año de vigencia de póliza ?
Soln. Defina los eventos

A = El cliente con nueva póliza tiene un accidente durante el perı́odo de vigencia
anual.
B = El cliente con nueva póliza es suceptible de accidente.

Usando el teorema de la probabilidad total,
P (A) = P (A | B) P (B) + P (A | B c ) P (B c )
= (0.4)(0.3) + (0.2)(0.7) = 0.26
Ahora se verá cómo reevaluar una probabilidad inicialmente establecida, con base
a nueva información, es decir actualizar una probabilidad. Suponga que un nuevo
cliente asegurado tiene un accidente durante el año de vigencia de póliza. Cual es la
probabilidad de que dicho cliente es suceptible de accidente ?
Inicialmente cuando el cliente compró su póliza se asumió que habı́a una probabilidad
de 0.3 de que era suceptible de accidente, es decir P (B) = 0.3. Ahora basado en el
hecho de que el cliente ha tenido un accidente durante el año vigente, se reevalúa la
probabilidad de ser suceptible de accidente. Considerando el teorema de Bayes,
P (A | B) P (B) (0.4)(0.3)
P (B | A) = = = 0.46
P (A) 0.26
Ejemplo. En una región agrı́cola se pueden encontrar tres marcas de equipo de fu-
migación, M1, M2 y M3. De acuerdo a los datos de ventas, 50% son de M1 (más
barato), 30% de M2 y 20% de M3. Cada fabricante ofrece un año de garantı́a. Infor-
mación histórica indica que el 25% de M1 requiere trabajo de reparación de garantı́a,
mientras que los correspondientes porcentajes para M2 y M3 son 20% y 10% respec-
tivamente.
a) Cual es la probabilidad que un nuevo cliente elegido al azar, haya comprado un
equipo de fumigación M1 que necesitará reparación bajo la garantı́a ?
b) Cual es la probabilidad de que un cliente elegido al azar, ha comprado un equipo
de fumigación que requerirá reparación bajo la garantı́a ?
c) Si un cliente regresa a la tienda con un equipo que requiere trabajo de reparación
bajo garantı́a, cual es la probabilidad de que el equipo es de la M1 ?, de la M2 ?.
Soln. Defina los eventos

A= El equipo de fumigación requiere reparación bajo garantı́a,
Bi = El equipo es de la marca Mi, i=1,2,3. Se tiene
P (B1 ) = 0.5, P (B2 ) = 0.3, P (B3 ) = 0.2,
P (A | B1 ) = 0.25, P (A | B2 ) = 0.2, P (A | B3 ) = 0.1. Para responder (a) note que
P (AB1 ) = P (A | B1 )P (B1 ) = (0.25)(0.5) = 0.125
Para responder (b) considere la probabilidad total
P (A) = P (A | B1 )P (B1 ) + P (A | B2 )P (B2 ) + P (A | B3 )P (B3 )
= (0.25)(0.5) + (0.2)(0.3) + (0.1)(0.2) = 0.205
Finalmente, para responder (c) por el teorema de Bayes se tiene,
P (A | B1 ) P (B1 ) (0.25)(0.5) 0.125

P (B1 | A) = = = = 0.61
P (A) 0.205 0.205
P (A | B2 ) P (B2 ) (0.2)(0.3) 0.06

P (B2 | A) = = = = 0.29
P (A) 0.205 0.205
Intuitivamente dos eventos A y B son independientes si la probabilidad de ocur-

rencia de uno, no depende de la probabilidad de ocurrencia del otro.
Def. Eventos Independientes. Dos eventos A y B en Ω son independientes si se

satisface alguna de las siguientes condiciones:
a) P (AB) = P (A)P (B),
b) P (A | B) = P (A), si P (B) > 0,
c) P (B | A) = P (B), si P (A) > 0.
Si los eventos no son independientes, se dice que son dependientes.
Ejemplos.
a) Se lanza una moneda 2 veces. Ω = {aa, ac, ca, cc}. sean
A = { Se obtiene águila en el lanzamiento 1 }
B = { Se obtiene águila en el lanzamiento 2 }

P (A) = P (B) = 1/2
1
P (AB) = P ({aa}) = 4
Por consiguiente los eventos A y B son independientes, ya que

1 1 1
P (AB) = 4
= 2
· 2
= P (A)P (B).
b) Se selecciona al azar una carta de un juego de 52 barajas. sean el evento

A de que la carta seleccionada es un as; y sea el evento B de que la carta elegida
es un corazón. Note que P (A) = 4/52, mientras que P (B) = 13/52 y finalmente
P (AB) = 1/52. Entonces A y B son independientes, ya que
P (A)P (B) = (4/52)(13/52) = 1/52 = P (AB).
c) De un ejemplo anterior donde se lanza dos dados, se definieron los eventos:

A = { La suma de los dos dados es 8 }, y B = { El primer dado es 3 }. En tal
caso se obtuvo P (A | B) = 1/6 6= P (A) = 5/36, por lo que A y B no son eventos
independientes.
Defn. Razón de Posibilidades. La razón de posibilidades o simplemente posibili-

dades de un evento A, se define como,
P (A) P (A)
c
=
P (A ) 1 − P (A)
La razón de posibilidades de un evento, indica cuán posible es que ocurra dicho

evento respecto a que no ocurra. Por ejemplo si P (A) = 2/3, entonces
P (A) = 2 P (Ac ) y se tiene que la razón de posibilidades de A es 2.
En General si la razón de posibilidades es α, se dice que las posibilidades son “α a 1”
en favor de la hipótesis.
Chapter 3
Funciones de Probabilidad
3.1 Variables Aleatorias

El escenario general es que se tiene un experimento aleatorio con Ω establecido y
eventos de interés.
Defn. Variable Aleatoria. Dado Ω se define una variable aleatoria como una
función X(·) : Ω → R.
Nota: las variables aleatorias v.a.’s se denotan con letras mayúsculas X, Y , Z, etc.,
y el rango de X, se denota con letras minúsculas x, y, z, etc.
Como la v.a. está determinada por el resultado de un experimento aleatorio, se

pueden asignar probabilidades a los posibles valores de dicha v.a.. Además cualquier
evento de interés pueda ser descrito por una v.a., definida de manera apropiada.
El objetivo es operar los resultados del experimento aleatorio en el conjunto de los
números reales.
Ejemplos.
a) Se lanza una moneda al aire ,
30
CHAPTER 3. FUNCIONES DE PROBABILIDAD 31
S = Ω ={ águila, cara} = {a,c}. Defina la v.a. como

X() = # de caras que se obtienen
X(a) = 0, y X(c) = 1. Por lo tanto RX = {0, 1}.
b) Se lanzan dos monedas al aire,

S = Ω = {aa, ac, ca, cc}
Definiendo la misma v.a. como antes,
X() = # de caras que se obtienen
X(aa) = 0,
X(ac) = X(ca) = 1,
X(cc) = 2,
Por consiguiente RX = {0, 1, 2}. Note además que las probabilidades asociadas a
cada valor de X son,
X 0 1 2
P(X=x) 1/4 1/2 1/4
El evento A = { se obtiene al menos una cara }, puede ser descrito con la v.a.
como {X ≥ 1}. Por consiguiente
P (A) = P (X ≥ 1) = 3/4.
c) Se mide la longitud de mazorca de una variedad de maı́z,

Ω = {ω : 0 < ω < 35cm}
En tal caso, como ya se tiene un intervalo en el conjunto R, se usa la función idéntica
X(ω) = ω. Como la v.a. X toma valores posibles en un intervalo de R, las probabili-
dades serán asignadas a través de una función de probabilidad definida más adelante.
Defn. Variable Aleatoria Discreta. Una v.a. X se define discreta si el rango de
X es a lo más contable. Asi, RX = {x1 , x2 , x3 . . . xn } ó RX = {x1 , x2 , x3 . . .}.
Defn. Función de Densidad Discreta de una V.A. Discreta. Si X es una v.a.

discreta se define su función de densidad discreta f (x) como,

f (x) = P (X = x), para toda x.
A la función de densidad discreta también se le llama función masa de probabilidad

ó simplemente función de probabilidad ó distribución de probabilidad ó función de
frecuencia discreta.
La función de densidad está dada por los pares de valores (x, f (x)), y se deben
satisfacer las condiciones:
a) f (x) > 0 para toda x,
P
b) x f (x) = 1.
Ejemplo. Del experimento de lanzar las dos monedas se tiene la v.a. discreta
X = # de caras, y tiene la siguiente función masa de probabilidad;
X 0 1 2
P(X=x) 1/4 1/2 1/4
Ejemplo. Si un esperimento solo tiene dos resultados posibles, éxito con probabilidad
p, donde 0 < p < 1, y fracaso, con probabilidad 1 − p, entonces se define una v.a.
X = # de éxitos. Claramente RX = {0, 1}. La función de densidad o masa de
probabilidad de X es, 
 p si x = 1
f (x) =
 1 − p si x = 0
A ésta función de probabilidad se le llama función o modelo de Bernoulli. Note que

en el experimento de lanzar una moneda al aire, se tiene el caso de p = 1/2 para
águila o cara, cualquier caso que se quiera llamar éxito.
Defn. Función Indicadora. Sea un conjunto A ⊂ R. Se define la función indi-

cadora como, 
 1 si x ∈ A
IA (x) =
 0 si x ∈
/A
Ejemplo. Suponga que se tiene la función




 0 si x ≤ 0


si 0 < x ≤ 1

 x
f (x) =


 2−x si 1 < x ≤ 2



 0 si x > 2
Se puede escribir con la función indicadora como,
f (x) = x I(0,1] (x) + (2 − x) I(1,2] (x)
Ejemplo. La función masa de probabilidad de Bernoulli se puede escribir como,
f (x) = px (1 − p)1−x I{0,1} (x)
Defn. Variable Aleatoria Continua. Una v.a. X es continua si el rango de valores

posibles es un intervalo en R, o todo R.
Defn. Función de Densidad de Probabilidad de una V.A. Continua. Una v.a.

X es continua si existe una función no negativa f (x), definida para toda x ∈ (−∞, ∞),
con la propiedad, Z
P (X ∈ B) = f (x)dx ∀B ⊂ R
B
y además Z ∞
1 = P {X ∈ (−∞, ∞)} = f (x)dx
−∞
A la función f (x) se le llama función de densidad de probabilidad de la v.a. X.

Nota. La función de densidad de probabilidad f (x) es tal que si B = [a, b],

Z b
P (a ≤ X ≤ b) = f (x)dx
a
Y si a = b, entonces Z a
P (X = a) = f (x)dx = 0
a
Nota. Cualquier función f (x) : R → R+ es definida como una función de densidad

de probabilidad si satisface:
a) f (x) ≥ 0 para toda x,
R∞
b) −∞ f (x)dx = 1.
Ejemplos
a) Sea la v.a. X tiempo transcurrido entre sucesos, por ejemplo, entre llegadas
de clientes a un invernadero que vende plántulas de una hortaliza. La función de
densidad de probabilidad de la v.a. es
f (x) = λe−λ x I[0,∞) (x), λ>0
Note que tal f (x) ≥ 0 y además,

Z ∞ Z ∞ Z b
−λ x
f (x)dx = λe dx = lim λe−λ x dx = lim −e−λx |b0 = 1
−∞ 0 b→∞ 0 b→∞
Si se tiene el evento B = [0, 100], entonces

Z 100
P (X ∈ B) = P (0 < X < 100) = λe−λ x dx = −e−λx |100
0 = 1−e
−λ100
0
b) Suponga una v.a. continua con función de densidad de probabilidad dada por
f (x) = 3 x2 I(0,1) (x)
Note que f (x) ≥ 0 para toda x y además

Z ∞ Z 1
f (x)dx = 3x2 dx = x3 |10 = 1
−∞ 0
Defn. Función de Distribucion Acumulada. Para una v.a. X se define su

función de distribución acumulada F (x) como,
X
F (x) = P (X ≤ x) = f (xj ) si X es discreta
{j:xj ≤x}
Z x
F (x) = P (X ≤ x) = f (u)du si X es continua
−∞
Ejemplo. Suponga el experimento de lanzar 3 veces una moneda al aire. Sea la v.a.
discreta X = # de águilas. Se tiene,
Ω = {aaa, aac, aca, caa, acc, cac, cca, ccc}, P (ωi ) = 1/8, i = 1, 2, . . . , 8. La función
masa de probabilidad de X es,
X 0 1 2 3
P(X=x) 1/8 3/8 3/8 1/8



 0 si x < 0


1/8 si 0 ≤ x < 1





F (x) = P (X ≤ x) = 4/8 si 1 ≤ x < 2


si 2 ≤ x < 3



 7/8


si x ≥ 3

 1
Equivalentemente se escribe como
1 4 7
F (x) = P (X ≤ x) = I[0,1) (x) + I[1,2) (x) + I[2,3) (x) + I[3,∞) (x)
8 8 8
Ejemplo. Suponga la v.a. X continua con función de densidad de probabilidad
f (x) = λe−λ x I[0,∞) (x), λ>0
La función de distribución acumulada es,

Z x
F (x) = P (X ≤ x) = f (u)du
−∞
Z x
= λe−λ u du = −e−λ u |x0 = 1 − e−λ x .
0
3.2 Variables Aleatorias Distribuidas Conjuntamente

En un experiment aleatorio frecuentemente se tiene interés en estudiar la relación
en dos o más variables aleatorias. Por ejemplo un ingeniero agrónomo puede estar
interesado en la longitud del tallo y el peso del fruto en la producción de manzana.
Defn. Vector Aleatorio Discreto y Masa de Probabilidad Conjunta. Si X

y Y son dos variables aleatorias discretas con rangos de valores posibles
RX = {x1 , x2 , . . .} y RY = {y1 , y2 , . . .} respectivamente, se define la función masa de
probabilidad conjunta para el vector aleatorio (X, Y ) como,
fXY (xi , yj ) = P [X = xi , Y = yj ] ∀ par (xi , yj )
La función fXY (x, y) debe satisfacer las dos propiedades,

a) fXY (x, y) ≥ 0, ∀(x, y),
P P
b) x y fXY (x, y) = 1.
Con frecuencia se denota fXY (x, y) = f (x, y) = p(x, y).
Ası́ para cualquier región A ⊂ R2 , se tiene que,

XX
P [(X, Y ) ∈ A] = f (x, y)IA (x, y)
Ejemplo. Suponga que una caja contiene 3 manzanas, 2 peras y 4 duraznos. Si se

eligen al azar dos frutos y las v.a X y Y representan el números de manzanas y peras
respectivamente en la muestra extraı́da, obtenga la masa de probabilidades del v.a.

(X, Y ).
soln. Los posibles pares de valores son: (0,0), (0,1), (0,2), (1,0), (1,1) y (2.0).
Note que
4 2
4 2

2 6 1 8 1
f (0, 0) = 9
= , f (0, 1) = 9
1 = , f (0, 2) = 2
9
= ,
2
36 2
36 2
36
3
4 3
2 3

1 1 12 1 1 6 2 3
f (1, 0) = 9
= , f (1, 1) = 9
= , f (2, 0) = 9
= .
2
36 2
36 2
36
La masa de probabilidad conjunta se resume en la siguiente tabla
X\Y 0 1 2
0 6/36 8/36 1/36
1 12/36 6/36 0
2 3/36 0 0
Sea el evento A = {0 ≤ X ≤ 1, 1 ≤ Y ≤ 2}, entonces,
XX
P [(X, Y ) ∈ A] = f (x, y)IA (x, y)
1 X
X 2
= f (xi , yj )IA (xi , yj )
i=0 j=1
= f (0, 1) + f (0, 2) + f (1, 1) + f (1, 2)
8 1 6 15
= + + +0= .
36 36 36 36
Defn. Función de Distribución Acumulada Conjunta Discreta. Si (X, Y ) es

un v.a. discreta con función de probabilidad conjunta f (x, y), se define la función de
distribución acumulada conjunta a,

XX
FXY (x, y) = P (X ≤ x, Y ≤ y) = f (s, t) ∀(x, y) ∈ R2
s≤x t≤y
Ejemplo. En el ejemplo anterior,
FXY (1, 2) = P (X ≤ 1, Y ≤ 2)
XX
= f (x, y)IA (x, y)
1 X
X 2
= f (xi , yj )IA (xi , yj )
i=0 j=0
= f (0, 0) + f (0, 1) + f (0, 2) + f (1, 0) + f (1, 1) + f (1, 2)
6 8 1 12 6 33
= + + + + +0= .
36 36 36 36 36 36
Defn. Distribuciones Marginales Discretas. Sea el v.a. (X, Y ) discreto, con

masa de probabilidad conjunta fXY (x, y), se definen las funciones de distribuciones
marginales respectivamente de la v.a. X y de la v.a. Y como,
X
fX (x) = P (X = x) = fXY (x, y),
y
X
fY (y) = P (Y = y) = fXY (x, y),
x
Ejemplo. Del ejemplo anterior del v.a. discreto (X, Y ) con masa de probabilidad
dado en el cuadro siguiente, se tienen las distribuciones marginales de X en la última
columna; y la de Y en la última hilera;
X\Y 0 1 2 P(X=x)
0 6/36 8/36 1/36 15/36
1 12/36 6/36 0 18/36
2 3/36 0 0 3/36
P(Y=y) 21/36 14/36 1/36 36/36
Note en tal caso que,

X 12 6 18
fX (1) = P (X = 1) = fXY (1, y) = f (1, 0) + f (1, 1) + f (1, 2) = + +0=
y
36 36 36
X 6 12 3 21
fY (0) = P (Y = 0) = fXY (x, 0) = f (0, 0) + f (1, 0) + f (2, 0) = + + =
x
36 36 36 36
Vector Aleatorio Continuo y Función de Densidad de Probabilidad Con-

junta. Sean X y Y dos v.a. continuas. Una función de dichas variables fXY (x, y)
se le llama función de densidad de probabilidad conjunta del v.a. (X, Y ), si dicha
función satisface;
a) fXY (x, y) ≥ 0, ∀ (x, y) ∈ R2 ,
R∞ R∞
b) −∞ −∞ fXY (x, y)dxdy = 1
Y entonces para cuanquier conjunt A ⊂ R2 ,
Z Z
P [(X, Y ) ∈ A] = fXY (x, y)dA.
A
Algunos autores denotan solamente f (x, y), sin subı́ndice XY .

Nota: Cualquier función f (x, y) que satisface (a) y (b) se le llama función de densidad
de probabilidad.
Ejemplo. Suponga un v.a. (X, Y ) con función de densidad de probabilidad conjunta

dada por,
3
fXY (x, y) = x(y + x)I(0,1) (x)I(0,2) (y)
5
2
Note que f (x, y) ≥ 0 ∀(x, y) ∈ R , además
Z ∞ Z ∞ Z 1 Z 2
3
fXY (x, y)dxdy = (xy + x2 )dydx
−∞ −∞ 0 0 5
Z 1 2 2
3 y 2
= x +x y dx
5 0 2 y=0
1
3 1 x3
Z
2 3 2
= (2x + 2x )dx = x +2 =1
5 0 5 3 0
Ahora suponga la región A = {(x, y) : 0 < x < 1/2, 1 < y < 2}. Entonces,
Z Z
P [(X, Y ) ∈ A] = fXY (x, y)dA
A
= P (0 < X < 1/2, 1 < Y < 2)
Z 1/2 Z 2
3
= (xy + x2 )dydx
0 1 5
Z 1/2 2 2
3 y 2
= x +x y dx
5 0 2 y=1
3 1/2
Z
x
= (2x + 2x2 − − x2 )dx
5 0 2
Z 1/2
3 3
= ( x + x2 )dx
5 0 2
1/2
3 3 2 x3

3 31 1 11
= x + = + = .
5 4 3 0 5 4 4 24 80
Defn. Distribuciones Marginales Continuas. Sea el v.a. (X, Y ) continuo, con

función de probabilidad conjunta fXY (x, y), se definen las funciones de distribuciones
marginales respectivamente de la v.a. X y de la v.a. Y como,
Z ∞
fX (x) = fXY (x, y)dy,
−∞
Z ∞
fY (y) = fXY (x, y)dx,
−∞
Las funciones de distribuciones marginales, deben satisfacer las propiedades de una

función de probabilidad.
Ejemplo. Sea el v.a. (X, Y ) con función de densidad de probabilidad conjunta dada
por,
3
fXY (x, y) = x(y + x)I(0,1) (x)I(0,2) (y)
5
Las distribuciones marginales son,
Z ∞ Z 2
3
fX (x) = fXY (x, y)dy = x(y + x)dy
−∞ 0 5
2
3 y2

2
= x +x y
5 2 0
3
= (2x + 2x2 )I(0,1) (x).
5
Z ∞ Z 1
3
fY (y) = fXY (x, y)dx = x(y + x)dx
−∞ 0 5
2 3
1
3 x x
= y +
5 2 3
0
3 y 1
= + I(0,2) (y).
5 2 3
Note que se satisface, fX (x) ≥ 0, fY (y) ≥ 0, y

Z ∞ Z 1 1
3 2 3 2 2 3 3 2
fX (x)dx = (2x + 2x )dx = x + x = 1+ =1
−∞ 0 5 5 3 0 5 3
∞ 2 2
3 y2 y
Z Z
3 y 1 3 2
fY (y)dy = + dy = + = 1+ =1
−∞ 0 5 2 3 5 4 3 0 5 3
3.3 Momentos, Esperanza y Varianza

En la descripción de una distribución de probabilidad, se establecen medidas que
caracterizan al modelo teórico, entre las que se encuentran los llamados momentos de
la distribución. Dos de tales momentos son: momento respecto al origen, y momento
respecto a la media.
Def. Esperanza Matemática. Dada una v.a. X con masa de probabilidad o

función de densidad f (x), se define la esperanza de X o primer momento respecto al
origen, denotado por E(X), como,

 P x P (X = x) si X es discreta
x
E(X) =
 R ∞ x f (x)dx si X es continua
−∞
La Esperanza Matemática es una medida del centro (de gravedad) de la masa de

probabilidad o de la función de densidad f (x).
Ejemplo. Suponga la v.a. X con masa de probabilidad,
X 0 1 2 3
P(X=x) 1/8 3/8 3/8 1/8
X
E(X) = x P (X = x)
x
= 0P (X = 0) + 1P (X = 1) + 2P (X = 2) + 3P (X = 3)
= 0(1/8) + 1(3/8) + 2(3/8) + 3(1/8) = 12/8 = 3/2.
Ejemplo. Suponga la v.a. X de Bernoulli.

X
E(X) = x P (X = x) = 0P (X = 0) + 1P (X = 1) = p.
x
f (x) = λe−λ x I[0,∞) (x) λ > 0
Z ∞ Z ∞
E(X) = xf (x)dx = x λe−λ x dx
−∞ 0
Z ∞ Z ∞
1 −u 1 1 1
= ue du = u2−1 e−u du = Γ(2) = .
λ 0 λ 0 λ λ
Defn. Esperanza de una Función de una Variable Aleatoria. Sea f (x) la

función de probabilidades de la v.a. X. Para cualquier función g(X) de la v.a. X, se
define la esperanza de la función de la v.a. X como,

 P g(x) P (X = x) si X es discreta
x
E[g(X)] =
 R ∞ g(x) f (x)dx si X es continua
−∞
Propiedades de la Esperanza Matemática. La esperanza matemática satisface

las propiedades siguientes;
a) E(c) = c, para cualquier constante c,
b) E[c g(X)] = c E[g(X)], para cualquier constante c,
c) E[c1 g1 (X) + c2 g2 (X)] = c1 E[g1 (X)] + c2 E[g2 (X)]
d) E[g1 (X)] ≤ E[g2 (X)] si g1 (X) ≤ g2 (X) para toda x.
Def. Varianza de una Variable Aleatoria. Dada una v.a. X con función de
probabilidad f (x) y E(X) = µ, se define la Varianza de X o segundo momento
respecto a la media como,

 P (x − µ)2 P (X = x) si X es discreta
2 x
Var(X) = E[(X − µ) ] = R ∞

−∞
(x − µ)2 f (x)dx si X es continua
La varianza es una medida de dispersión o variación alrededor de µ = E(X).
Teorema. Var(X) = E(X 2 ) − [E(X)]2 .

Demostración. Sea µ = E(X) y g(X) = (X − µ)2 . Entonces,
Var(X) = E[(X − µ)2 ] = E[X 2 − 2µX + µ2 ]
= E(X 2 ) − E(2µX) + E(µ2 ) = E(X 2 ) − 2µE(X) + µ2
= E(X 2 ) − 2µ2 + µ2 = E(X 2 ) − µ2
= E(X 2 ) − [E(X)]2 . 2
Ejemplo. Suponga la v.a. X con masa de probabilidad,

X 0 1 2 3
P(X=x) 1/8 3/8 3/8 1/8
Considerando el teorema anterior para obtener la varianza, sea g(x) = x2 ,
X
E(X 2 ) = x2 P (X = x)
x
= 0P (X = 0) + 12 P (X = 1) + 22 P (X = 2) + 32 P (X = 3)
= 0(1/8) + 1(3/8) + 4(3/8) + 9(1/8) = 24/8 = 3.
Con esto, se tiene que
Var(X) = E(X 2 ) − [E(X)]2 = 3 − (3/2)2 = 3/4.
Ejemplo. Suponga la v.a. X de Bernoulli. Similarmente

X
E(X 2 ) = x2 P (X = x) = 0P (X = 0) + 12 P (X = 1) = p.
x
Var(X) = E(X 2 ) − [E(X)]2 = p − (p)2 = p(1 − p).
f (x) = λe−λ x I[0,∞) (x) λ > 0
Para obtener la varianza,

Z ∞ Z ∞ Z ∞
−λ x 1
2
E(X ) = 2
x f (x)dx = 2
x λe dx = 2 (λx)2 e−λ x λdx
−∞ 0 λ 0
Z ∞ Z ∞
1 1 1 2! 2
= 2
u2 e−u du = 2 u3−1 e−u du = 2 Γ(3) = 2 = 2 .
λ 0 λ 0 λ λ λ
Por consiguiente,
2
2 2 2 1 1
Var(X) = E(X ) − [E(X)] = 2 − = 2.
λ λ λ
Propiedades de la Varianza. La varianza satisface las siguientes propiedades,

a) Var(X) ≥ 0,
b) Var(c) = 0, para cualquier constante c,
c) Var(cX) = c2 Var(X), c es constante,
d) Var(X + c) = Var(X), c es constante.
3.4 Momentos Conjuntos, Covarianza y Correlación

.
Defn. Momento Conjunto Respecto al Origen. Sea el v.a. (X, Y ) con f.d.p
conjunta fXY (x, y). Se define la esperanza conjunta de X y Y respecto al origen
como,

 P P xy f (x, y) si (X, Y ) es discreta
x y XY
E(XY ) =
 ∞ ∞ xy f (x, y)dxdy si (X, Y ) es continua
R R
−∞ −∞ XY
Defn. Covarianza o Momento Conjunto Respecto a la Media. Sea el v.a.

(X, Y ) con f.d.p conjunta fXY (x, y). Sea E(X) = µX y E(Y ) = µY . Se define la
Covarianza de X y Y , denotado Cov(X, Y ), como la esperanza o momento conjunto
de X y Y respecto a sus medias,
Cov(X, Y ) = E[(X − µX )(Y − µY )]


 P P (x − µ )(y − µ ) f (x , y ) si (X, Y ) es discreta
i j i X j Y XY i j
=
 ∞ ∞ (x − µ )(y − µ ) f (x, y)dxdy si (X, Y ) es continua
R R
−∞ −∞ X Y XY
Notación. Se denota con frecuencia

2
σX = Var(X), σY2 = Var(Y ), σXY = Cov(X, Y )
p p
2
Nota. Se le llama Desviación Estándar de X a V ar(X) = σX = σX .
Para facilitar la obtención de la covarianza se recurre al siguiente resultado.
Teorema. Cov(X, Y ) = E(XY ) − E(X)E(Y ).
Note que
Cov(X, Y ) = Cov(Y, X)
Cov(X, X) = V ar(X)
Defn. Correlación. Dado un v.a. (X, Y ) se define la correlación entre X y Y ,

denotado ρXY = Corr(X, Y ) como,
Cov(X, Y ) σXY
ρXY = Corr(X, Y ) = p =
V ar(X) V ar(Y ) σX σY
La correlación entre X y Y satisface las propiedades:

a) −1 ≤ ρXY ≤ 1. Valores cercanos a 1 indican fuerte asociación positiva entre las
variables; valores cercanos a -1 indican fuerte asociación negativa entre las variables;
mientras que valores cercanos a cero indican que no hay relación lineal entre las
variables,
b) ρXY no se afecta si hay cambios de escala en las variables.
Ejemplo. Del ejemplo anterior sobre el v.a. discreto (X, Y ) que representa los
números de manzanas y peras respectivamente se tiene;
X\Y 0 1 2 P(X=x)
0 6/36 8/36 1/36 15/36
1 12/36 6/36 0 18/36
2 3/36 0 0 3/36
P(Y=y) 21/36 14/36 1/36 36/36
Se desea obtener la correlación entre X y Y .
XX
E(XY ) = xy fXY (x, y)
x y
2 X
X 2
= xy fXY (x, y)
x=0 y=0
6 8 1 12 6
= (0)(0) + (0)(1) + (0)(2) + (1)(0) + (1)(1) + (1)(2)0
36 36 36 36 36
3 6 1
+(2)(0) + (2)(1)0 + (2)(2)0 = = .
36 36 6
Considerando las distribuciones marginales,

2
X 15 18 3 24 2
E(X) = xfX (x) = 0 +1 +2 = =
x=0
36 36 36 36 3
2
2
X 15 18 3 30 5
E(X ) = x2 fX (x) = 02 + 12 + 2 2 = =
x=0
36 36 36 36 6
2
2 2 5 2 2 21 7
σX = E(X ) − [E(X)] = − = =
6 3 54 18
2
X 21 14 1 16 4
E(Y ) = yfY (y) = 0 +1 +2 = =
y=0
36 36 36 36 9
2
2
X 21 14 1 18 1
E(Y ) = y 2 fY (y) = 02 + 12 + 2 2 = =
y=0
36 36 36 36 2
2
1 4 49
σY2 2
= E(Y ) − [E(Y )] = − 2
=
2 9 162
Por consiguiente,
1 24 7
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = − =−
6 39 54
La correlación es,
Cov(X, Y ) −7/54
ρXY = p =p = −0.3779645
V ar(X) V ar(Y ) (7/18)(49/162
Valor que indica poca relación lineal entre X y Y .
Ejemplo. Sea el v.a. (X, Y ), de un ejemplo anterior, con función de densidad de

probabilidad conjunta dada por,
3
fXY (x, y) = x(y + x)I(0,1) (x)I(0,2) (y)
5
Las distribuciones marginales son,
3
fX (x) = (2x + 2x2 )I(0,1) (x).
5

3 y 1
fY (y) = + I(0,2) (y).
5 2 3
Se desea obtener la Corr(X, Y ).
Z ∞ Z ∞ Z 1 Z 2
3
E(XY ) = xy fXY (x, y)dxdy =
xy x(y + x)dydx
−∞ −∞ 0 0 5
Z 1Z 2 Z 1 3 2 2

3 2 2 3 3 2y 3y
= (x y + x y)dydx = x +x dx
5 0 0 5 0 3 2 y=0
1
3 1 8x2 3 8x3 2x4
Z
3 5
= + 2x dx = + = .
5 0 3 5 9 4 0 6
1 1 1
6 x3 x4
Z Z
3 2 7
E(X) = xfX (x)dx = x (2x + 2x )dx = + = .
0 0 5 5 3 4 0 10
2 2 2
3 y3 y2
Z Z
3 y 1 6
E(Y ) = yfY (y)dy = y + dy = + = .
0 0 5 2 3 5 6 6 0 5
1 1 1
6 x4 x 5
Z Z
2 2 23 2 27
E(X ) = x fX (x)dx = x (2x + 2x )dx = + =
0 0 5 5 4 5 0 50
2 2 2
3 y4 y3
Z Z
2 2 23 y 1 26
E(Y ) = y fY (y)dy = y + dy = + = .
0 0 5 2 3 5 8 9 0 15
2
227 2 7 1
V ar(X) = E(X ) − [E(X)] = − =
50 10 20
2
2 26 2 6 110
V ar(Y ) = E(Y ) − [E(Y )] = − =
15 5 375
5 7 6 1
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = − · =−
6 10 5 150
La correlación es,
Cov(X, Y ) −1/150
ρXY = p =p = −0.05504819
V ar(X) V ar(Y ) (1/20)(110/375)
Esperanza de Sumas de Variables Aleatorias. Si X y Y son dos v.a. con f.d.p.

conjunta fXY (x, y) y g(, ) es una función de dos variables, entonces,

 P P g(x, y) f (x, y) si (X, Y ) es discreta
x y XY
E[g(X, Y )] =
 ∞ ∞ g(x, y) f (x, y)dxdy si (X, Y ) es continua
R R
−∞ −∞ XY
Si g(X, Y ) = X + Y , entonces se tiene,

Z ∞ Z ∞
E[X + Y ] = (x + y) fXY (x, y)dxdy
−∞ −∞
Z ∞ Z ∞ Z ∞ Z ∞
= x fXY (x, y)dxdy + y fXY (x, y)dxdy
−∞ −∞ −∞ −∞
Z ∞ Z ∞ Z ∞ Z ∞
= x fXY (x, y)dy dx + y fXY (x, y)dx dy
−∞ −∞ −∞ −∞
= E[X] + E[Y ].
El caso discreto es similar. Por lo cual se tiene que,
E[X + Y ] = E[X] + E[Y ].
En general, sean X1 , X2 , . . . , Xn variables aleatorias, y sean a1 , a2 , . . . , an con-

stantes, entonces
" n
# n
X X
E ai X i = ai E(Xi )
i=1 i=1
Teorema. Covarianza de Sumas de Variables Aleatorias. Sean las v.a. X1 , X2 , . . . , Xn

y las v.a. Y1 , Y2 , . . . , Ym ; entonces
n m
! n X
m
X X X
Cov Xi , Yj = Cov(Xi , Yj )
i=1 j=1 i=1 j=1
Corolario. Considerando que Cov(X, X) = V ar(X), se tiene

n
! n n X
n
X X X
V ar Xi = V ar(Xi ) + Cov(Xi , Xj ), i 6= j
i=1 i=1 i=1 j=1
En el caso particular n = 2 se tiene,
V ar(X + Y ) = V ar(X) + V ar(Y ) + Cov(X, Y ) + Cov(Y, X)
= V ar(X) + V ar(Y ) + 2 Cov(X, Y )

3.5 Independencia
Previamente se ha definido que dos eventos A y B son independientes si y solo si
P (A ∩ B) = P (A) P (B)
Sea el v.a. (X, Y ). Se dice que las v.a. X y Y son independientes si para cualquier
par de valores (x, y) se cumple
fXY (x, y) = fX (x) · fY (y)
Si no se cumple tal propiedad, se dice que X y Y no son independientes, lo que

implica que son dependientes.
Si el v.a. (X, Y ) es discreto se denota;
fXY (x, y) = p(x, y) = P (X = x) · P (Y = y) = pX (x) · pY (y)
Ejemplo. Suponga el v.a. (X, Y ) con masa de probabilidad conjunta dada por
X\Y 2 3 4 P(X=x)
1 4/54 8/54 12/54 24/54
2 5/54 10/54 15/54 30/54
P(Y=y) 9/54 18/54 27/54 54/54
Se puede verificar que para cada par (x, y), se cumple p(x, y) = pX (x) · pY (y)
4 4 (9)(6) 24 9
p(1, 2) = = = = pX (1) pY (2)
54 54 54 54 54
8 8 (3)(3)(6) 24 18
p(1, 3) = = = = pX (1) pY (3)
54 54 54 54 54
Similarmente se pueden verificar los pares restantes de (x, y). Por consiguiente,
X y Y son v.a. independientes.
Ejemplo. Del ejemplo anterior sobre el v.a. discreto (X, Y ) que representa los
números de manzanas y peras respectivamente se tiene;
X\Y 0 1 2 P(X=x)
0 6/36 8/36 1/36 15/36
1 12/36 6/36 0 18/36
2 3/36 0 0 3/36
P(Y=y) 21/36 14/36 1/36 36/36
Note que
3 14
p(2, 1) = 0 6= = pX (2) pY (1)
36 36
es suficiente para concluir que las v.a. X y Y no son independientes, es decir son
dependientes.
Ejemplo. Suponga un v.a. (X, Y ) con f.d.p. conjunta dada por

1
fXY (x, y) = e−(x+y/2) I[0,∞) (x)I[0,∞) (y)
2
Se puede ver que las funciones de distribución marginales son,
Z ∞ Z ∞
−x 1 −y/2 ∞
dy = e−x −e−y/2 0 = e−x

fX (x) = fXY (x, y)dy = e e
0 0 2
Z ∞ Z ∞
1 1
fY (y) = fXY (x, y)dx = e−y/2 e−x dx = e−y/2
0 2 0 2
Note que la distribución conjunta satisface,
fXY (x, y) = fX (x) fY (y)
Por consiguiente las v.a. X y Y son independientes.
Lemma. Si las v.a. X y Y son independientes, entonces

a) Cov(X, Y ) = 0, ( y por consiguiente ρXY = 0)
b) V ar(X + Y ) = V ar(X) + V ar(Y ).
Chapter 4
Modelos de Probabilidad
4.1 Modelos Aleatorios Discretos

Algunos modelos de probabilidad discreto serán examinados.
4.1.1 Función de Probabilidad de Bernoulli y Binomial
Si el experimento solo tiene dos resultados posibles, se tiene el modelo de Bernoulli,

donde la v.a. X representa el número de éxitos.
Def. Variable Aleatoria Bernoulli. Se define una v.a. de Bernoulli con parámetro
p, si su f.d.p. es de la forma,
f (x) = p(x) = px (1 − p)1−x I{0,1} (x), 0 < p < 1.
En tal caso se tiene

E(X) = p
V ar(X) = p(1 − p) = pq, si 1 − p = q.
Se denota X ∼ Bernoulli(p), que se lee, X se distribuye Bernoulli con parámetro
53
CHAPTER 4. MODELOS DE PROBABILIDAD 54
p. Con frecuencia se escribe p(x) = f (x; p), para indicar el parámetro p.

Si el experimento incluye n variables de Bernoulli, cada uno con la misma proba-
bilidad de éxito p, se define la v.a. X que representa el número de éxitos en total, se
tiene el modelo llamado Binomial.
Def. Variable Aleatoria Binomial. Se define una v.a. Binomial con parámetros
n y p, si su f.d.p. es,

n x
f (x) = p(x) = p (1 − p)n−x I{0,1,2,...,n} (x), 0 < p < 1.
x

E(X) = np
V ar(X) = np(1 − p) = npq, si 1 − p = q.
Se denota X ∼ Binom(n, p) y su f.d.p. como p(x) = f (x; n, p).
Se muestran las gráficas de la distribución Binomial, con n = 20 y con tres valores

de p, dados por 0.1, 0.5 y 0.8 respectivamente.
0.25
dbinom(x, size = 20, prob = 0.1)
0.20
0.15
0.10
0.05
0.00
0 5 10 15 20
Figure 4.1: Binom(20,0.1)

0.20
0.15
0.15
0.10
0.10
0.05
0.05
0.00
0.00
0 5 10 15 20 0 5 10 15 20
x x
Figure 4.2: Binom(20,0.5) Figure 4.3: Binom(20,0.8)
Ejemplo. Suponga que se examinan 12 frutos de manzana y la probabilidad de que

cada fruto pase el control de calidad es p = 0.9. La v.a. X = Número de frutos que
reúnen el contro de calidad es Binomial. Se abrevia X ∼ Binomial(12, 0.9). Su masa
de probabilidad es
p(x) = 12
x
x
0.9 (0.1)12−x I{0,1,2,...,12} (x),
¿ Cual es la probabilidad de que 10 frutos reúnan la calidad ?
¿ Cual es la probabilidad de que entre 8 y 10 frutos reúnen la calidad ?
¿ Cual es la probabilidad de que al menos 3 frutos reúnan la calidad ?
Las probabilidades requeridas son:
12
10
P (X = 10) = 10
0.9 (0.1)12−10 = 66(0.34867844)(0.01) = 0.2301278
P (8 ≤ X ≤ 10) = P (X = 8) + P (X = 9) + P (X = 10)

12 8 4 12 9 3 12
= 0.9 (0.1) + 0.9 (0.1) + 0.910 (0.1)2
8 9 10
= 0.02130813 + 0.08523251 + 0.2301278 = 0.3366684
P (X ≥ 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2)

12 0 12 12 1 11 12
= 1− 0.9 (0.1) − 0.9 (0.1) − 0.92 (0.1)10
0 1 2
= 1 − 1(10 ) − 1.08(10 ) − 5.34(10 ) = 1 − 5.455(10−9 )
−12 −9 −9
= 0.999999994
Uso de Tablas para Calcular Probabilidades. Los textos incluyen tablas para
ciertos valores de n y de p para calcular probabilidades, basados en la función de
distribución acumulada,
k
X n i
FX (k) = P (X ≤ k) = p (1 − p)n−i , k = 0, 1, 2, . . . , n
i=0
i
Ejemplo. En el ejemplo anterior, se puede calcular, con las tablas,

P (X = 10) = FX (10) − FX (9) = 0.3410 − 0.1109 = 0.2301
P (8 ≤ X ≤ 10) = FX (10) − FX (7) = 0.3410 − 0.0043 = 0.3367
P (X ≥ 3) = 1 − FX (2) = 1 − 0 = 1
Cálculo de Probabilidades en R
Si X ∼ Binom(n, p) y se desea P (X = x), se escribe:
dbinom(x,n,p)
Para obtener la probabilidad acumulada FX (k) = P (X ≤ k), se escribe
pbinom(x,n,p)
Ejemplo. Sea X ∼ Binom(12, 0.9).

Para obtener P (X = 10) escriba
dbinom(10,12,0.9)
lo que le producirá: 0.2301278
Para obtener P (8 ≤ X ≤ 10) = P (X ≤ 10) − P (X ≤ 7), escriba
pbinom(10,12,0.9)-pbinom(7,12,0.9)
lo que le producirá: 0.3366684
Para obtener P (X ≥ 3) = 1 − P (X ≤ 2) escriba
1-pbinom(2,12,0.9)
produciendo el resultado: 1
4.1.2 Función de Probabilidad Poisson
Si un experimento aleatorio implica conteos de eventos que ocurren en intervalos de

tiempo o en unidades de superficie o volumen, tales como: número de insectos por
planta; número de manchas en hojas de una planta; número de clientes que llegan a
un invernadero; número de llamadas por teléfono a una oficina de asesorı́a técnica,
etc., se puede describir tales conteos con el modelo de probabilidad de Poisson.
El modelo de Poisson está relacionado con el modelo de Bernoulli y Binomial,
cuando se considera un número muy grande de repeticiones de un experimento de
Bernoulli con probabilidad de éxito muy pequeña.
Defn. Variable Aleatoria de Poisson. Se define una v.a. de Poisson con parámetro
λ si su f.d.p es de la forma,
e−λ λx
f (x) = p(x) = I{0,1,2,...} (x), λ>0
x!

E(X) = λ
V ar(X) = λ.
Se denota X ∼ P oisson(λ) y p(x) = f (x; λ).
λ representa el número promedio de resultados por unidad de tiempo o espacio.
Se muestran las gráficas de la distribución Poisson, con dos valores de λ, dados

por 3 y 10 respectivamente.
0.12
0.20
0.10
0.15
0.08
dpois(x, 10)
dpois(x, 3)
0.06
0.10
0.04
0.05
0.02
0.00
0.00
0 10 20 30 40 50 0 10 20 30 40 50
x x
Figure 4.4: Poisson(3) Figure 4.5: Poisson(10)
Ejemplo. Suponga que el número promedio de clientes que llegan a un vivero es de

3 por cada media hr. Suponga que la v.a. X ∼ P oisson(λ = 3).
¿ Cual es la probabilidad que en la próxima media hr lleguen 4 clientes ?
¿ Cual es la probabilidad que en la próxima media hr lleguen al menos 2 clientes ?
¿ Cual es la probabilidad que en la próxima hr lleguen 7 clientes ?
e−3 34
P (X = 4) = p(4) = = 0.1680314
4!
e−3 30 e−3 31
P (X ≥ 2) = 1 − FX (1) = 1 − − = 1 − 0.1991483 = 0.8008517
0! 1!
Para el intervalo de una hr (dos intervalos de tiempo) se considera λ = 6.
e−6 67
p(7) = P (X = 7) = = 0.1376
7!
Uso de Tablas para Calcular Probabilidades. Los textos incluyen tablas para
ciertos valores de x y de λ para calcular probabilidades, basados en la función de
distribución acumulada,
x
X e−λ λk
FX (x) = P (X ≤ x) = , k = 0, 1, 2, . . . , x
k=0
k!
Ejemplo. Con los datos del ejemplo anterior X ∼ Poisson(λ = 3), y las tablas,
P (X = 4) = FX (4) − FX (3) = 0.8153 − 0.6472 = 0.1681
P (X ≥ 2) = 1 − FX (1) = 1 − 0.1991 = 0.8009
p(7) = P (X = 7) = FX (7) − FX (6) = 0.7440 − 0.6063 = 0.1377
Si X ∼ P oisson(λ) y se desea P (X = x), se escribe:

dpois(x,λ)
ppois(x,λ)
Ejemplo. Sea X ∼ P oisson(3).

Para calcular P (X = 2) y P (X = 4) escriba
dpois(2,3)
dpois(4,3)
lo que resultará en: 0.2240418 y en 0.1680314, respectivamente.
Para calcular la probabilidad acumulada P (X ≤ 3) escriba
ppois(3,3)
lo que resultará en: 0.6472319
P (X ≥ 2) = 1 − P (X ≤ 1) se obtiene con
1-ppois(1,3)
resultando en: 0.8008517
En el caso que X ∼ P oisson(6), para calcular P (X = 7), escribe

dpois(7,6)
lo que produce: 0.137677
4.1.3 Función de Probabilidad Hipergeométrica
Suponga que se tienen N objetos cada uno con dos caracterı́sticas posibles mutua-
mente excluyentes, y que de tales objetos K presentan una caracterı́stica (p.e. éxito)
y N − K no la presentan. Se realiza el experimento de extraer una muestra sin
reemplazo de tamaño n y se desea saber cuantos objetos en la muestra provienen de
K.
Defn. Distribución de Probabilidad Hipergeométrica. Una v.a. tiene dis-

tribución Hipergeométrica con parámetros N , K y n si su f.d.p. es,
K N −K

x n−x
f (x; N, n, K) = N
, max{0, n − (N − K)} ≤ x ≤ min{n, K}
n

E(X) = np, donde p = K/N
V ar(X) = npq(N − n)/(N − 1), donde q = 1 − p.
Suponga que X ∼ Hipergeométrica(N = 12, K = 6, n = 4). Note que

max{0, n − (N − K)} = max{0, 4 − (12 − 6)} = 0 y min{n, K} = min{4, 6} = 4; por
consiguiente X = 0, 1, 2, 3, 4. La f dp es,
6
6
x 4−x
p(x) = 12
x = 0, . . . , 4
4
Se muestra la gráfica.
Ejemplo. Suponga que se tiene en una caja 34 frutos de manzana, de las cuales 4
no reúnen la calidad. Se toma una muestra aleatoria de n = 6 frutos.
¿ Cual es la probabilidad de que los 6 frutos reúnan la calidad ?
¿ Cual es la probabilidad de que ningún fruto reúnan la calidad ?
¿ Cual es la probabilidad de que al menos 5 frutos reúnan la calidad ?
Se tiene N = 34, K = 30 y n = 6. Note que max{0, 6 − (34 − 30)} = max{0, 2} = 2,
mientras que, min{6, 28} = 6 y con esto X = 2, 3, 4, 5, 6 y la f dp de X es,
30 4

x 6−x
p(x) = 34
x = 2, . . . , 6
6
Con esto las probabilidades deseadas son,
0.4
0.4
0.3
dhyper(x, 30, 4, 6)
0.3
dhyper(x, 6, 6, 4)
0.2
0.2
0.1
0.1
0.0
0 1 2 3 4 2 3 4 5 6
x x
Figure 4.6: Hypg(N=12,K=6,n=4) Figure 4.7: Hypg(N=34,K=30,n=6)
30 4

6 593775
P (X = 6) = 34
0 = = 0.441499913
6
1344904
P (X = 0) = 0
30 4 30 4

5
P (X ≥ 5) = P (X = 5) + P (X = 6) = 34
1 + 6
34
0
6 6
= 0.4238399 + 0.441499913 = 0.8653398
Si X ∼ Hypergeometrica(N, K, n) y se desea P (X = x), se escribe:
dhyper(x,K,N-K,n)
phyper(x,K,N-K,n)
Ejemplo. Sea X ∼ Hypergeometrica(N = 34, K = 30, n = 6).

Para calcular P (X = 6) escriba,
dhyper(6,30,4,6)
lo que producirá el valor: 0.4414999
La probabilidad acumulada P (X ≤ 5) se obtiene escribiendo,
phyper(5,30,4,6)
produciendo el valor: 0.5585001
Para calcular P (X ≥ 5) = 1 − P (X ≤ 4) se escribe,
1-phyper(4,30,4,6)
resultando el valor: 0.8653398
4.2 Modelos Aleatorios Continuos
4.2.1 Función de Probabilidad Gamma, Exponencial y Ji

Cuadrada
.
Defn. Función de Probabilidad Gama. Una v.a. continua X tiene una dis-
tribución de probabilidad Gama con parámetros α y β si su f.d.p es,
xα−1 e−x/β
fX (x; α, β) = I[0,∞) (x), α > 0, β > 0
Γ(α) β α
R∞
Donde Γ(α) = 0
tα−1 e−t dt, α > 0.
Se escribe X ∼ Gama(α, β). En tal caso se tiene,
E(X) = α β,
V ar(X) = α β 2 .
A α se le llama parámetro de forma, ya que tiene relación con el pico de la distribución;
mientras que a β se le llama parámetro de escala, ya que tiene relación con la amplitud
de la distribución.
Algunos autores definen la distribución Gama con β = 1/λ, por lo que la f dp
serı́a,
λα xα−1 e−λx
fX (x; α, λ) = I[0,∞) (x), α > 0, λ > 0
Γ(α)
Se muestra la gráfica de dos funciones de distribución Gama(α, λ),

1.4
1.2
0.6
1.0
dgamma(x, 3, 5)
dgamma(x, 8, 5)
0.8
0.4
0.6
0.4
0.2
0.2
0.0
0.0
0 1 2 3 4 5 0 1 2 3 4 5
x x
Figure 4.8: Gama(α = 3, λ = 5) Figure 4.9: Gama(α = 8, λ = 5)
Si X ∼ Gama(α, λ), para evaluar la función en x, f (x; α, λ), solo útil para graficar
la f.d.p, como en las subsiguientes v.a.’s continuas, se representa como
dgamma(x, α, λ)
Para obtener la probabilidad acumulada FX (x) = P (X ≤ x), se escribe
pgamma(x, α, λ)
Mientras que para obtener P (a < X < b) se escribe,
pgamma(b, α, λ)-pgamma(a, α, λ)
Ejemplo. Suponga X ∼ Gama(3, 5),

Para obtener P (X < 2) se escribe
pgamma(2,3,5)
lo que producirá: 0.9972306
Para calcular P (1 < X < 3) se escribe,
pgamma(3,3,5)-pgamma(1,3,5)
lo que resulta en: 0.1246127
Si en la distribución Gama(α, β), se toma α = 1, se obtiene la función de probabilidad

Exponencial.
Def. Función de Probabilidad Exponencial. Una v.a. continua X tiene una

distribución de probabilidad Exponencial con parámetro β, si su f.d.p es,
e−x/β
fX (x; β) = I[0,∞) (x), β>0
β
Se escribe X ∼ Exponencial(β). En tal caso se tiene,

E(X) = β,
V ar(X) = β 2 .
Si se escribe λ = 1/β, la distribución Exponencial(λ) serı́a,
fX (x; λ) = λe−λx I[0,∞) (x), λ>0
En tal caso, como se vió en un ejemplo anterior se tiene,

E(X) = 1/λ,
V ar(X) = 1/λ2 .
que corresponde a la media y la varianza indicadas.
Se muestran las gráficas de dos densidades Exponenciales con λ = 1 y con λ = 0.4.
1.0
0.4
0.8
0.3
0.6
dexp(x, 0.4)
dexp(x, 1)
0.2
0.4
0.1
0.2
0.0
0.0
0 2 4 6 8 10 0 5 10 15
x x
Figure 4.10: Exp(λ = 1) Figure 4.11: Exp(λ = 0.4)
Si X ∼ Exp(λ), para evaluar la función en x, f (x; λ) se representa como

dexp(x, λ)
pexp(x, λ)
pexp(b, λ)-pexp(a, λ)
Ejemplo. Suponga X ∼ Exp(λ = 0.4),

Para obtener P (X < 5) se escribe,
pexp(5,0.4)
pexp(10,0.4)-pexp(2,0.4)
Si en la distribución Gama(α, β), para un k ∈ N se toma α = k/2 y β = 2, se obtiene

la distribución de probabilidad Ji-Cuadrada.
Def. Función de Probabilidad Ji-Cuadrada. Una v.a. continua X tiene una

distribución de probabilidad Ji-Cuadrada con parámetro k, si su f.d.p es,
xk/2−1 e−x/2
fX (x; k) = I[0,∞) (x), k∈N
Γ(k/2) 2k/2
Se escribe X ∼ Ji-Cuadrada(k) y se denomina Ji-cuadrada con k grados de liber-
tad. También se denota X ∼ χ2(k) o X 2 ∼ χ2(k) . En tal caso,
E(X) = k,
V ar(X) = 2k.
Se presentan las gráficas de dos densidades Ji-cuadradas con parámetros k = 5 y

k = 18,
0.07
0.15
0.06
0.05
0.10
dchisq(x, 18)
0.04
dchisq(x, 5)
0.03
0.05
0.02
0.01
0.00
0.00
0 5 10 15 20 25 30 0 10 20 30 40 50 60
x x
Figure 4.12: JiCuad(k = 5) Figure 4.13: JiCuad(k = 18)

Uso de Tablas Jicuadrada. Los textos incluyen tablas para ciertos valores de k g.l.
en la primer columna y de probabilidades α en la primer hilera, para obtener valores
c llamados puntos de corte, que satisfacen alguna probabilidad especificada.
En la tabla D del libro de Said y Zarate (2012) con X 2 ∼ Ji-Cuadrada(k), se
proveen valores χ2α (k) (ó χ2α,k como en Ross 2009) tales que,
P X 2 ≥ χ2α (k) = α

Con esto, los valores de α representan áreas del lado derecho de la gráfica.
Ejemplo. Sea X 2 ∼ Ji-Cuadrada(10).

El valor de c tal que P (X 2 ≥ c) = 0.99 es c = χ20.99 (10) = 2.5582.
P (X 2 ≥ 2.5582) = 0.99
P (X 2 ≥ 3.9403) = 0.95
P (X 2 ≥ 23.2093) = 0.01.
Si X 2 ∼ Ji-Cuadrada(k), para evaluar la función en x, f (x; k) se representa como
dchisq(x, k)
pchisq(x, k)
pchisq(b, k)-pchisq(a, k)
Para obtener el valor de c tal que P (X 2 ≤ c) = p, se escribe,
qchisq(p,k)
Mientras que para el valor de c tal que P (X 2 ≥ c) = p, se escribe,
qchisq(1-p,k)
Ejemplo. Suponga X 2 ∼ Ji-Cuadrada(10) ,

Para obtener P (X < 20) se escribe,
pchisq(20,10)
pchisq(22,10)-pchisq(5,10)
Suponga que se desean el valor de c tal que P (X 2 ≥ c) = 0.01; en tal caso se escribe,
qchisq(0.99,10)
produciendo el valor de c como: 23.20925
4.2.2 Función de Probabilidad de Gauss o Normal
La distribución de probabilidad continua más importante en Estadı́stica es la dis-

tribución normal. Su gráfica se denomina curva normal o curva de la campana, la
cual describe la distribución de frecuencias de mediciones de variables, para una diver-
sidad de fenómenos que ocurren en la naturaleza, en la industria y en la investigación.
Además ésta distribución de probabilidad sirve de base para muchas técnicas de infer-
encia estadı́stica. Frecuentemente es referida como distribución Gaussiana en honor
a K. F. Gauss.
Def. Función de Probabilidad Normal. Una v.a. X tiene distribución Normal o

de Gauss, con parámetros µ y σ 2 si su f.d.p es,
1 1 2
fX (x) = √ e− 2σ2 (x−µ) , −∞ < µ < ∞, σ > 0
2π σ
Se denota X ∼ N (µ, σ 2 ), y con frecuencia fX (x) = fX (x; µ, σ 2 ).
En tal caso,
E(X) = µ,
V ar(X) = σ 2 .
La gráfica de la función de densidad de Gauss es simétrica centrada en el parámetro

µ, como se observa en una gráfica abajo.
Estandarización de una Variable Aleatoria Normal. Si se tiene X ∼ N (µ, σ 2 ),

se llama estandarizar la v.a. X al proceso de formar la nueva variable Z como,
X −µ
Z=
σ
Note que la E(Z) y V ar(Z) son:
1
E(Z) = E(X − µ) = 0
σ
1 1
V ar(Z) = 2
V ar(X − µ) = 2 V ar(X) = 1
σ σ
Def. Función de Probabilidad Normal Estándar. Si X ∼ N (µ, σ 2 ), entonces

la v.a.
X −µ
Z=
σ
tiene una distribución N (0, 1), llamada normal estándar, y su f.d.p. es,
1 1 2
fZ (z) = √ e− 2 z
2π
La gráfica de dicha función de densidad es simétrica centrada en 0, como se puede
apreciar abajo.
Por el proceso de estandarización, cualquier cálculo de probabilidades en la v.a.
X, se puede realizar con la v.a. Z. Note que si X ∼ N (µ, σ 2 ),

X −µ b−µ b−µ b−µ
P (X ≤ b) = P ≤ =P Z≤ = FZ
σ σ σ σ
En general, para cualquier a < b,

a−µ X −µ b−µ
P (a ≤ X ≤ b) = P ≤ ≤
σ σ σ

a−µ b−µ
= P ≤Z≤
σ σ

b−µ a−µ
= P Z≤ −P Z ≤
σ σ

b−µ a−µ
= FZ − FZ
σ σ
Se presentan las gráficas de varias densidades Normales, 0.020

0.12
0.10
0.015
dnorm(x, 50, 18)
dnorm(x, 20, 3)
0.08
0.010
0.06
0.04
0.005
0.02
0.00
0.000
5 10 15 20 25 30 35 0 20 40 60 80 100
x x
Figure 4.14: N(20,3) Figure 4.15: N(50,18)
Uso de Tablas para calcular Probabilidades. Los textos incluyen tablas para
ciertos valores de z, generalmente del intervalo [−3.59, 3.59]. En la primer columna
0.20
0.4
0.15
0.3
dnorm(x, 0, 2)
dnorm(x, 0, 1)
0.2
0.10
0.1
0.05
0.0
−4 −2 0 2 4 −4 −2 0 2 4
x x
Figure 4.16: N(0,2) Figure 4.17: N(0,1)
de la tabla están los valores de -3.5 a 3.5 y en la primera hilera de la tabla están
los números del segundo decimal. El resto del contenido de la tabla, son las prob-
abilidades acumuladas. La tabla permite calcular las probabilidades de la v.a. Z.
Para calcular probabilidades de una v.a. X ∼ N (µ, σ) con dicha tabla, se requiere
estandarizar previamente a X.
Ejemplo. Sea Z ∼ N (0, 1). Usando la tabla se tiene que;

P (Z ≤ −1.52) = 0.0643 P (Z ≤ 1.52) = 0.9357.
Propiedades de Z. Sea Z ∼ N (0, 1). Se satisfacen las propiedades siguientes, para

los valores de z, z1 y z2 , donde z1 < z2 ,
a) P (Z ≥ z) = 1 − P (Z ≤ z) = P (Z ≤ −z)
b) P (z1 ≤ Z ≤ z2 ) = P (Z ≤ z2 ) − P (Z ≤ z1 ),
c) P (−z ≤ Z ≤ z) = 1 − 2 P (Z ≤ −z)
d) si z > 0 y para algunas tablas que solo proporcionan el área entre 0 y z,
P (Z ≤ z) = 0.5 + P (0 ≤ Z ≤ z)
P (Z ≤ −z) = 0.5 − P (0 ≤ Z ≤ z)
Ejemplo. Sea Z ∼ N (0, 1).

P (Z ≥ 1.96) = 1 − P (Z ≤ 1.96) = 1 − 0.975 = P (Z ≤ −1.96) = 0.025
P (−1.36 ≤ Z ≤ 2.64) = P (Z ≤ 2.64) − P (Z ≤ −1.36) = 0.9959 − 0.0869 = 0.909
P (−1.64 ≤ Z ≤ 1.64) = 1 − 2 P (Z ≤ −1.64) = 1 − 2(0.0505) = 0.899
Ejemplo. Suponga que X ∼ N (µ = 20, σ 2 = 25).

X − 20 18 − 20
P (X ≥ 18) = P ≥ = P (Z ≥ −0.4) = P (Z ≤ 0.4) = 0.6554
5 5

16.4 − 20 X − 20 23.7 − 20
P (16.4 ≤ X ≤ 23.7) = P ≤ ≤ = P (−0.72 ≤ Z ≤ 0.74)
5 5 5
= P (Z ≤ 0.74) − P (Z ≤ −0.72) = 0.7704 − 0.2358 = 0.5346

7.6 − 20 X − 20 32.4 − 20
P (7.6 ≤ X ≤ 32.4) = P ≤ ≤ = P (−2.48 ≤ Z ≤ 2.48)
5 5 5
= 1 − 2 P (Z ≤ −2.48) = 1 − 2(0.0066) = 0.9868
Si X ∼ Normal(µ, σ), para evaluar la función en x, f (x; k) se representa como
dnorm(x, µ, σ)
pnorm(x, µ, σ)
pnorm(b, µ, σ)-pnorm(a, µ, σ)
Para el caso de la normal estándar Z, no se especifican la media ni la desviación

estándar. Para FX (x) = P (X ≤ x) se escribe,
pnorm(x)
Mientras que para obtener P (a < Z < b) se escribe,
pnorm(b)-pnorm(a)
Para obtener el valor de c tal que P (X ≤ c) = p, se escribe,
qnorm(p, µ, σ)
Mientras que para el valor de c tal que P (X ≥ c) = p, se escribe,
qnorm(1 − p, µ, σ)
Para obtener el valor de c tal que P (Z ≤ c) = p, se escribe,
qnorm(p)
Mientras que para el valor de c tal que P (Z ≥ c) = p, se escribe,
qnorm(1-p)
Ejemplo. Suponga Z ∼ N (0, 1). Para calcular P (Z < −1.52) escriba,

pnorm(-1.52)
Para calcular P (Z < 1.52) escriba,
pnorm(1.52)
resultando el valor: 0.9357445. Mientras que para calcular P (Z > 1.52) escriba,
1-pnorm(1.52)
produciendo el valor: 0.06425549; en virtud de la simetrı́a de la distribución alrededor
del origen.
Para P (−1.36 < Z < 2.64), se obtiene escribiendo,
pnorm(2.64)-pnorm(-1.36)
produciendo el valor; 0.9089397
Suponga que se desea el valor c tal que P (Z ≥ c) = 0.01. Escribe,
qnorm(0.99)
lo que produce 2.326348 como valor de c.
No se requiere estandarizar la v.a. X Normal arbitraria, para obtener las proba-

bilidades en R.
Ejemplo. Suponga que X ∼ N (µ = 20, σ 2 = 25).

Para obtener P (X > 18) se escribe,
1-pnorm(18,20,5)
lo que produce el valor: 0.6554217
Para calcular P (16.4 < X < 23.7) se escribe,
pnorm(23.7,20,5)-pnorm(16.4,20,5)
resultando en el número: 0.5345875
Si se desea valor de c tal que P (X ≥ c) = 05, se escribe,
qnorm(0.95,20,5)
lo que resulta en el número 28.22427 para tal valor de c deseado.
Relación de la Distribución Ji-Cuadrada y la Normal.

Si Z1 , Z2 , . . . , Zn son variables aleatorias normales estándar independientes, en-
tonces la v.a. X definida como,
X = Z12 + Z22 + · · · + Zn2
resulta ser una v.a. Ji-cuadrada(n). Por consiguiente,
X = Z12 + Z22 + · · · + Zn2 ∼ χ2(n)

4.3 Distribución de Probabilidad t-Student

.
La distribución t-student es muy utilizada cuando se desea hacer inferencia sobre
la media de una o dos distribuciones normales, como se verá más adelante.
Defn. Distribución t-Student. Una v.a. T tiene tiene una distribución de proba-
bilidad t − Student con n grados de libertad, si su f.d.p es,
Γ( n+1
2
) 1
fT (t) =
n , t∈R
Γ( 2 )(nπ)1/2 (1 + t2 /n) n+1
2
Se denota T ∼ t(n) . En tal caso,

E(T ) = 0 si n > 1,
V ar(T ) = n/(n − 2) si n > 2.
La gráfica de la distribución t − Student es simétrica centrada en el origen, como

se aprecia a continuación en dos ejemplos abajo. Un resultado importante que será
usado posteriormente es el siguiente:
Teorema. Sea una v.a. Z ∼ N (0, 1) y sea la v.a. X 2 ∼ χ2(n) , con Z y X 2 independi-
entes, entonces la v.a. T definida por
Z
T =p
X 2 /n
es tal que T ∼ t(n) .
ciertos valores de n gl en la primer columna, y ciertos valores de probabilidad α en
la primera hilera.
Ası́, la tabla proporciona el valor tα (n) (ó tα,n ) tal que,
P (T ≥ tα (n)) = α
0.4
0.4
0.3
0.3
dt(x, 20)
dt(x, 8)
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4
x x
Figure 4.18: t(8) Figure 4.19: t(20)
Por la simetrı́a de la distribución se tiene que,
P (T ≥ tα (n)) = P (T ≤ −tα (n)) = α
Ejemplo. Suponga que T ∼ t(8) .

P (T ≥ 2.8965) = 0.01 implica que t0.01 (8) = 2.8965. Por simetrı́a se tiene,
P (T ≤ −2.8965) = 0.01.
¿ Cuál es el valor c tal que P (T ≤ −c) = 0.05 ?
Por la simetrı́a de la distribución se tiene,
P (T ≤ −t0.05 (8)) = P (T ≥ t0.05 (8)) = 0.05, lo que implica
c = t0.05 (8) = 1.8595

Ahora determine el valor c tal que, P (−c ≤ T ≤ c) = 0.95.
Note que se desea c tal que P (T ≥ c) = 0.025, es decir c = t0.025 (20). De la tabla se
tiene que, c = t0.025 (20) = 2.086, es decir P (T ≥ 2.086) = 0.025. Con esto,
P (−2.086 ≤ T ≤ 2.086) = 0.95
Si X ∼ t-Student(n), para evaluar la función en x, f (x; n) se representa como
dt(x, n)
pt(x, n)
pt(b, n)-pt(a, n)
qt(p, n)
qt(1 − p, n)

Para obtener P (−2 < X < 1) se escribe,
pt(1, 8)-pt(−2, 8)
Suponga se desea el valor de c tal que P (X ≤ c) = 0.95; escriba
qt(0.95,8)
lo que produce el valor de: 1.859548
Mientras que si se desea el valor c tal que P (X ≥ c) = 0.01, escriba
qt(.99,8)
resultando en el número: 2.896459
4.4 Distribución de Probabilidad F

.
En muchas aplicaciones en Estadı́stica, tales como la comparación de las varianzas
de dos poblaciones; o para comparación de los efectos de varios tratamientos, se
emplea la distribución de probabilidad F .
Defn. Función de Probabilidad F. Una v.a. X tiene una distribución F , con m

grados de libertad en el numerador y n grados de libertad en el denominador, si su
f.d.p. es,
m2 m
Γ( m+n
2
) x 2 −1 m
n
fX (x; m, n) = m+n I(0,∞) (x)
Γ( m2 )Γ( n2 ) 1 + m
n
x 2
Se denota X ∼ Fnm o también X ∼ Fm,n .
Se presentan las gráficas de dos distribuciones F.

0.6
0.8
0.5
0.6
0.4
df(x, 14, 20)
df(x, 10, 4)
0.3
0.4
0.2
0.2
0.1
0.0
0.0
0 1 2 3 4 5 0 1 2 3 4 5 6
x x
14
Figure 4.20: F20 Figure 4.21: F410
El siguiente resultado establece una relación entre la distribución Ji-cuadrada con

la distribución F .
Teorema. Sea una v.a. U ∼ χ2(m) y sea la v.a. V ∼ χ2(n) , con U y V independientes,
entonces la v.a. X definida por
U/m
X=
V /n
es tal que X ∼ Fnm .
Dos resultados útiles para aplicaciones son:
Teorema. Sea una v.a. T ∼ t(n) , entonces T 2 ∼ Fn1 .
Teorema. Sea una v.a. X ∼ Fnm , entonces 1/X ∼ Fmn .
ciertos gl m de la v.a. U del numerador en la primera hilera, y ciertos g.l n de la v.a.
V del denominador, en la primer columna, para algunos valores de probabilidad α.
m
El resto del cuerpo de la tabla presenta valores Fn,α tales que,
m
P (X ≥ Fn,α )=α
Las tablas de los textos solo proporcionan el valor de corte del lado derecho de la
curva de F . Para obtener el lado izquierdo, por un teorema anterior se considera la
relación,
m 1
Fn,1−α = n
Fm,α
Ejemplo. Suponga que X ∼ F65 .

5 5
P (X ≥ F6,0.025 ) = 0.025, implica que F6,0.025 = 5.988, es decir,
P (X ≥ 5.988) = 0.025
5
Para obtener P (X ≥ F6,0.975 ) = 0.975,
5
Tal valor de F6,0.975 no es provisto en la tabla. Para obtener dicho valor se requiere
usar el teorema anterior que establece,
5 1 1
F6,0.975 = 6
= = 0.1433
F5,0.025 6.978
Con lo anterior,
P (X ≥ 0.1433) = 0.975
Note que el valor c = 0.1433 es tal que P (X ≤ 0.1433) = 0.025
Si X ∼ Fnm , para evaluar la función en x, f (x; m, n) se representa como
df(x, m, n)
pf(x, m, n)
pf(b, m, n)-pf(a, m, n)
qf(p, m, n)
qf(1 − p, n)
Ejemplo. Suponga que X ∼ F65 .

Para obtener la probabilidad acumulada FX (x) = P (X ≤ 3), se escribe
pf(3, 5, 6)
Lo que produce: 0.8932024
Para obtener P (1 < X < 3) se escribe,
pf(3, 5, 6)-pf(1, 5, 6)
Resultando el valor de tal probabilidad: 0.3826368
Para el valor de c tal que P (X ≥ c) = 0.025, se escribe,

qf(0.975, 5, 6)
Resultando tal valor de c en: 5.987565
Para el valor de c tal que P (X ≥ c) = 0.975, el cual no es provisto en muchas tablas,
se escribe,
qf(0.025, 5, 6)
Lo que resulta tal valor de c en: 0.1433137
Chapter 5
Distribuciones Derivadas de
Muestreo
El progreso cientı́fico frecuentemente es debido a la experimentación. Los investi-

gadores realizan experimentos y obtienen datos, que permiten formular conclusiones
sobre las hipótesis establecidas con anterioridad. Se desea que tales conclusiones
trasciendan al experimento y se permita un nivel de generalización. A éste tipo de
generalización se le llama inferencia inductiva.
El proceso de realizar inferencia inductiva es un proceso riesgoso. Se puede ver,
a partir de un teorema de Lógica, que la incertidumbre está presente en la inferencia
inductiva. Lo cual implica que no se pueden hacer generalizaciones absolutamente
ciertas. Sin embargo, si el experimento es realizadi bajo ciertos principios, el grado
de incertidumbre de la inferencia inductiva puede ser medido.
La función de la Estadı́stica es proporcionar técnicas para hacer inferencia induc-
tiva y medir el grado de incertidumbre mediante el uso de la Probabilidad.
83
CHAPTER 5. DISTRIBUCIONES DERIVADAS DE MUESTREO 84
5.1 Muestras de Variables Aleatorias

Defn. Población Objetivo. Se define población objetivo a la totalidad de elementos
(conceptuales) que están bajo discusión, con una propiedad de interés, descrita por
una f d.p. f (x; θ), con parámetro θ, θ ∈ Θ, Θ ⊂ R (o Rk ) y acerca de los cuales la
información es deseada.
Defn. Muestra Aleatoria. Una muestra aleatoria de una población descrita por
f (x; θ) es una colección de v.a.0 s independientes X1 , X2 , . . . , Xn cada una con la misma
distribución de probabilidad f (x; θ)
Nota. Para referirse a una muestra aleatoria (m.a.) se abrevia
X1 , X2 , . . . , Xn iid f (x; θ)
iid significa independiente idénticamente distribuida.

Ası́ una m.a. es antes de realizar fı́sicamente las repeticiones del experimento, una
colección de v.a.0 s X1 , X2 , . . . , Xn . Una vez seleccionada la muestra, cada una de las
variables habrá tomado uno y solo un valor numérico el cual será denotado como
x1 , x2 , . . . , xn , constituyendo la realización de la muestra.
Se puede denominar;
X1 , X2 , . . . , Xn Observables
x1 , x2 , . . . , xn Observaciones.
Defn. Estadı́stica. Una estadı́stica es una función de la muestra aleatoria X1 , X2 , . . . , Xn

de fX (x; θ), que no involucra parámetros desconocidos.
Nota.
a) Frecuentemente la función de la muestra es g() : Rn → R
b) Dado que la estadı́stica es función de la m.a. X1 , X2 , . . . , Xn , también es una v.a.
cuya f.d.p. dependerá de algún modo de fX (x; θ).
Ejemplos. Sea X1 , X2 , . . . , Xn iid f (x; θ), donde θ representa uno o más parámetros
desconocidos. Entonces las siguientes funciones son estadı́sticas;
n
1X
g(X1 , X2 , . . . , Xn ) = Xi = X̄
n i=1
g(X1 , X2 , . . . , Xn ) = Max{X1 , X2 , . . . , Xn }
g(X1 , X2 , . . . , Xn ) = Min{X1 , X2 , . . . , Xn }
n
1 X 2
g(X1 , X2 , . . . , Xn ) = Xi − X̄
n − 1 i=1
Mientras tanto, la siguiente función de la muestra no es una estadı́stica,
n
1X
g(X1 , X2 , . . . , Xn ) = Xi − θ
n i=1
5.2 Media y Varianza Muestrales

Defn. Media Muestral. Sea X1 , X2 , . . . , Xn iid f (x). Se define la media mues-
tral a la estadı́stica,
n
1X
X̄ = Xi
n i=1
Defn. Segundo Momento Muestral Alrededor de la Media Muestral. Sea

X1 , X2 , . . . , Xn iid f (x). Se define el segundo momento muestral alrededor de la
media muestral denotado M2 a la estadı́stica,
n
1X 2
M2 = Xi − X̄
n i=1
X̄ y M2 reflejan los momentos poblacionales de f (x).
Teorema. Sea X1 , X2 , . . . , Xn iid fX (x). Si E(X) = µ y V ar(X) = σ 2 , entonces,

E(X̄) = µ
V ar(X̄) = σ 2 /n.
Demostración. Por las propiedades de la esperanza y la varianza,
n
! n
1X 1X 1
E(X̄) = E Xi = E(Xi ) = nµ = µ
n i=1 n i=1 n
Para la varianza, se considera la independencia de las v.a.0 s,
n
! n
! n
1X 1 X 1 X
V ar(X̄) = V ar Xi = 2 V ar Xi = 2 V ar(Xi ) = σ 2 /n. 2
n i=1 n i=1
n i=1
Defn. Varianza Muestral. Sea X1 , X2 , . . . , Xn iid f (x). Se define la varianza

muestral, denotado S 2 a la estadı́stica
n
1 X 2
S2 = Xi − X̄
n − 1 i=1
√
Nota. Se llama desviación estándar muestral a S = S2
Nota. M2 6= S 2 .
Teorema. Sea X1 , X2 , . . . , Xn iid fX (x). Si E(X) = µ y V ar(X) = σ 2 , entonces,

E(S 2 ) = σ 2 .
5.3 Teorema Central del Lı́mite

Si X1 , X2 , . . . , Xn iid fX (x), E(X) = µ y V ar(X) = σ 2 , entonces ya se sabe que
la media muestral denotada X̄n (por el tamaño de la muestra n) tiene
E(X̄n ) = µ y V ar(X̄n ) = σ 2 /n.
Sin embargo la f.d.p. de X̄n dependerá de fX (x). Ası́, no se tiene ningún resultado
general sobre la distribución de X̄n .
Sin embargo si n es suficientemente “grande”, se puede tener una distribución
aproximada para X̄n , sin importar la distribución particula de la población fX (x).
Tal resultado de aproximación está dado por el teorema más importante de la Proba-
bilidad y Estadı́stica, llamado Teorema Central del Lı́mite (central por fundamental).
Teorema Central del Lı́mite. Sea una v.a. X con f.d.p. fX (x), E(X) = µ y
V ar(X) = σ 2 . Considere una m.a. X1 , X2 , . . . , Xn de fX (x) y la media muestral X̄n ,
entonces la v.a.
X̄n − µ
√
σ/ n
tiene una distribución aproximadamente normal estándar si n → ∞. Es decir,
X̄n − µ
√ ∼ ˙ N (0, 1)
σ/ n
Se lee X̄n se distribuye aproximadamente normal.

Equivalentemente se denota ˙ N (µ, σ 2 /n).
X̄n ∼
Pn
O también se representa en términos de la suma Sn = i=1 Xi , indicando que
Sn = ni=1 Xi ∼ ˙ N (nµ, nσ 2 )
P
Lo que a su vez implica
Sn − nµ
√ ∼
˙ N (0, 1)
σ n
Ejemplo. La altura media de planta de una variedad de maı́z a cierta etapa fenológica
es 172 cm y con una desviación estándar de 24.
a) si se toma una muestra aleatoria de 45 plantas, aproxime la probabilidad de que
la media muestral de altura de planta esté entre 164 y 178 cm,
b) repita (a) con una muestra de 140 plantas.
Soln. Note que E(X) = 172, σ 2 = (24)2 y f (x) es desconocida. Además como
√ √
˙ N (172, 242 /45), se tiene que σ/ n = 24/ 45 = 3.5777. Por consiguiente,
X̄n ∼

164 − 172 X̄n − 172 178 − 172
P (164 ≤ X̄n ≤ 178) = P ≤ ≤
3.5777 3.5777 3.5777
= (−2.23 ≤ Z ≤ 1.68)
= P (Z ≤ 1.68) − P (Z ≤ −2.23)
= 0.9535 − 0.0129 = 0.9406
˙ N (172, 242 /140). En tal caso,

Cuando n = 140 se tiene X̄n ∼
√ √
σ/ n = 24/ 140 = 2.0283.

164 − 172 X̄n − 172 178 − 172
P (164 ≤ X̄n ≤ 178) = P ≤ ≤
2.0283 2.0283 2.0283
= (−3.94 ≤ Z ≤ 2.95)
= P (Z ≤ 2.95) − P (Z ≤ −3.94)
= 0.9984 − 0 = 0.9984
5.4 Distribuciones del Muestreo de una Población

Normal
.
Si la m.a. se toma de una N (µ, σ 2 ), entonces se tienen las ditribuciones exactas
de las v.a.0 s X̄n y S 2 , que son elementos fundamentales en las aplicaciones de varios
métodos estadı́sticos.
Teorema. Si X1 , X2 , . . . , Xn iid N (µ, σ 2 ), entonces, X̄n ∼ N (µ, σ 2 /n). Equiva-

lentemente,
X̄n − µ
√ ∼ N (0, 1)
σ/ n
Ejemplo. Sea X ∼ N (40, 36). Suponga una muestra de n = 25. Obtenga la

probabilidad de que la media muestral sea mayor que la media poblacional por mas
de 4 unidades.

X̄ − µ 44 − 40
P (X̄ > 44) = P √ > √ = P (Z ≥ 3.33) = 1 − P (Z ≤ 3.33)
σ/ n 6/ 25
= 1 − 0.9996 = 0.0004
Calcule la misma probabilidad con n = 4,

X̄ − µ 44 − 40
P (X̄ > 44) = P √ > √ = P (Z ≥ 1.33) = 1 − P (Z ≤ 1.33)
σ/ n 6/ 4
= 1 − 0.0.9082 = 0.0918
Note la diferencia causada por el tamaño de la muestra que modifica las varianzas.
Ejemplo. Sea X ∼ N (40, 36). Suponga que ahora se desea obtener la probabilidad
de que la media muestral difiera de la media poblacional en menos de 3 unidades, con
una muestra de n = 25.

−3 X̄ − µ 3
P (−3 < X̄ − µ < 3) = P √ < √ < √ = P (−2.5 < Z < 2.5)
6/ 25 σ/ n 6/ 25
= 1 − 2 P (Z < −2.5) = 1 − 2(0.0062) = 0.9876
Ejemplo. Sea X ∼ N (40, 36). Suponga que ahora se desea obtener dos valores
equidistantes de µ tales que con probabilidad 0.95 las medias muestrales se encuentren
entre tales valores.
soln. De la tabla de la normal estándar se tiene que,
P (−c < Z < c) = 0.95 ⇒ P (−1.96 < Z < 1.96) = 0.95

√
Por consiguiente para la v.a. Z = (X̄ − µ)/(σ/ n) se tiene,

X̄ − µ
P −1.96 < √ < 1.96 = 0.95
σ/ n
Ası́, para µ = 40, σ = 6 y n = 25 se despeja X̄,

−1.96(6) 1.96(6)
P < X̄ − µ < = P (−2.35 < X̄ − 40 < 2.35)
5 5
P (37.65 < X̄ < 42.35) = 0.95
Teorema. Si X1 , X2 , . . . , Xn iid N (µ, σ 2 ), y S 2 es la varianza muestral, entonces:

a) la v.a. (n − 1) S 2 /σ 2 tiene distribución Ji-Cuadrada con n − 1 g.l., es decir
(n − 1) S 2
∼ χ2(n−1)
σ2
b) la media muestral X̄ y la varianza muestral S 2 , son v.a.0 s independientes.
Si X1 , X2 , . . . , Xn iid fX (x), es decir cualquier distribución con E(X) = µ, y

V ar(X) = σ 2 , se observó, por el Teorema Central del Lı́mite (TCL),
X̄n − µ
√
σ/ n
es aproximadamente N (0, 1). Si la m.a. proviene de la fX (x) = N (µ, σ 2 ), entonces,
X̄n − µ
√
σ/ n
es exactamente N (0, 1). Como tal media muestral estandarizada contiene a dos
parámetros desconocidos, se tiene interés en substituir al parámetro σ por la es-
√
tadı́stica S = S 2 , llamada deviación estándar muestral. ası́, se quiere saber la
distribución de la v.a.
X̄n − µ
√
S/ n
Por el teorema anterior, si la m.a. es de la N (µ, σ 2 ), se tiene que X̄ y S 2 , son
v.a.0 s independientes, entonces las v.a.0 s
X̄n − µ (n − 1) S 2
√ y
σ/ n σ2
son independientes, y con distribución normal estándar y Ji-Cuadrada respectiva-
mente.
Entonces por el teorema anterior referido a la distribución t-Student se tiene que
el cociente
−µ
X̄n√
σ/ n X̄n − µ
q = √ ∼ tn−1
(n−1) S 2 S/ n
σ 2 (n−1)
5.5 Distribuciones de Razón de Varianzas Mues-

trales de Distribuciones Normales
2
Sea X1 , X2 , . . . , Xm iid N (µX , σX )
Sea Y1 , Y2 , . . . , Yn iid N (µY , σY2 ).
2
Sean SX y SY2 las respectivas varianzas muestrales. Entonces por un teorema anterior
se tiene que,
2
(m − 1) SX (n − 1) SY2
2
∼ χ2(m−1) y ∼ χ2(n−1)
σX σY2
Por consiguiente, si las dos muestras aleatorias son independientes, por el teorema
sobre el cociente de dos Ji-Cuadradas, se tiene,
2 2
SX /σX m−1
∼ Fn−1
SY2 /σY2
En particular, si σx2 = σY2 , se tiene,

2
SX m−1
2
∼ Fn−1
SY
Chapter 6
Prueba de Hipótesis Estadı́stica
En un proceso de investigación con frecuencia se establece una hipótesis, la cual se

desea corroborar a partir de una colección de datos.
Escenario:
Población descrita por X ∼ fX (x; θ), θ es un parámetro desconocido.
Muestra Aleatoria X1 , X2 , . . . , Xn iid fX (x; θ)
Defn. Hipótesis Estadı́stica. Una hipótesis estadı́stica es una declaración sobre

un parámetro de la población.
Defn. Las dos hipótesis complementarias en una prueba de hipótesis, se llaman

hipótesis nula e hipótesis alternante y se denotan como H0 y HA , respectivamente.
El objetivo de una prueba de hipótesis es decidir, basado en una muestra de la

población, cual de las hipótesis es cierta.
Ejemplos:
a) p = proporción de artı́culos defectuosos
H0 : p ≤ 0.01
93
CHAPTER 6. PRUEBA DE HIPÓTESIS ESTADÍSTICA 94
HA : p > 0.01
b) µ = rendimiento en ton/ha de maiz variedad Torito I
H0 : µ ≥ 14.3
HA : µ < 14.3
c) σ 2 = varianza de las mediciones de pH
H0 : σ 2 ≤ 0.001
HA : σ 2 > 0.001
Elementos de una Prueba de hipótesis.

a) H0 Hipótesis nula
b) HA Hipótesis alternante
c) Estadı́stica de Prueba
d) Región crı́tica o de rechazo.
Defn. Un procedimiento de prueba de hipótesis (estadistica) es una regla que especi-

fica:
a) para qué valores de la estadśtica conlleva a aceptar H0 como cierta
b) para qué valores de la estadı́stica conlleva a aceptar HA como cierta.
Tipos de Errores en Prueba de Hipótesis. Una prueba de hipótesis estadı́stica

tiene dos tipos de errores posibles.
Decision
Aceptar H0 Rechazar H0
H0 Decision Correcta Error Tipo I
Verdad
HA Error Tipo II Decision Correcta
α = P (RechazarH0 | H0 cierta) = P (Error Tipo I)
β = P (No RechazarH0 | H0 falsa) = P (Error Tipo II)
No es posible controlar ambos tipos de errores eficientemente. Para un tamaño de

muestra fijo, un decremento en la probabilidad de un error, resultará en un incremento
en la probabilidad del otro error. Afortunadamente la probabilidad de cometer ambos
tipos de errores puede ser reducido incrementando el tamaño de la muestra.
En el interés de cuantificar la evidencia para rechazar H0 , un concepto importante
en una prueba de hipótesis es la probabilidad de rechazar una hipótesis dada. Como
esta probabilidad es una función del parámetro denominada función de potencia de
la prueba.
Defn. Función de Potencia. La función de potencia de una prueba de hipótesis

denotada β(θ) es
β(θ) = P ( Rechazar H0 cuando el verdadero valor del parámetro es θ)


 P (Error tipo I) si θ ∈ H0
=
 1 − P (Error Tipo II) si θ ∈ HA
Una prueba ideal es aquella cuya función de potencia valga cero si θ ∈ H0 y

valga 1 si θ ∈ HA . Desafortunadamente tal prueba no existe. En el mejor de los
casos se decide un valor bajo como probabilidad tipo I y se busca una prueba cuya
función β(θ) sea grande, cuando θ ∈ HA .
Defn. Nivel de Significancia. En una prueba de hipótesis, el valor máximo de α

se llama nivel de significancia.
6.1 Prueba de Hipótesis sobre la Media de la Dis-

tribución Normal
Se tiene interés en realizar pruebas de hipótesis sobre el parámetro µ de la distribución
de Gauss.
Considere X1 , X2 , . . . , Xn iid N (µ, σ 2 ).
Las hipótesis de interés son:
a) H0 : µ ≤ µ0 vs HA : µ > µ0
b) H0 : µ ≥ µ0 vs HA : µ < µ0
c) H0 : µ = µ0 vs HA : µ 6= µ0
Como σ 2 es desconocida, entonces se substituye con la varianza muestral S 2 y se

usa la estadı́stica de prueba,
X̄ − µ0
t0 = √
S/ n
Regla de Decisión (RD). Con un valor α de significancia,
a) Rechazar H0 si t0 > tα (n − 1), no rechaza H0 si t0 ≤ tα (n − 1)
b) Rechazar H0 si t0 < −tα (n − 1), no rechazar H0 si t0 ≥ −tα (n − 1)
c) Rechazar H0 si |t0 | > tα/2 (n − 1), no rechazar H0 si |t0 | ≤ tα/2 (n − 1).
Abreviaciones.
RH0 = Rechazar H0
AH0 = Aceptar H0
RRH0 = Región de Rechazo de H0
RAH0 = Región de Aceptar H0
Ejemplo. Una nueva variedad de trigo produce los siguientes rendimientos en ton/ha.
3.15, 3.92, 4.26, 3.36, 3.72, 4.19, 3.42, 4.38, 4.50
La hipótesis de interés es,

H0 : µ ≤ 3.5 vs HA : µ > 3.5
Con la muestra se obtiene:
n = 9, X̄ = 3.877778, S 2 = 0.2396197 y S = 0.4895094
Con esto, se obtiene la estadı́stica de prueba,
X̄ − µ0 3.877778 − 3.5
t0 = √ = √ = 2.315243
S/ n 0.4895094/ 9
Si el nivel de significancia de α = 0.05, tα (n − 1) = t0.05 (8) = 1.859.
RD: Como t0 = 2.3152 > 1.859 = t0.05 (8) se rechaza H0 con α = 0.05.
Conclusión. El promedio de rendimiento de la variedad de trigo, es mayor a 3.5
ton/ha, con α = 0.05.
Note que si se decide usar un nivel de significancia α = 0.01, se tiene que t0.01 (8) =
2.8965. En tal caso,
RD: t0 = 2.3152 < 2.8965 = t0.01 (8) implica aceptar H0 , con α = 0.01.
Conclusión: El promedio de rendimiento de la variedad de trigo, no es mayor a 3.5
ton/ha, con α = 0.01.
Prueba en R
x < − c(3.15, 3.92, 4.26, 3.36, 3.72, 4.19, 3.42, 4.38, 4.50)
t.test(x,alternative=c(“greater”), mu=3.5, conf.level=0.95)
p-value: P (T8 > 2.315243) = 0.02464203
RD con p-value:
Rechaza Ho si p-value < α
No Rechaza Ho si p-value > α.
p-value=0.02464203 < 0.05, se rechaza H0
Ejemplo. Con el objeto de verificar la calibración de un medidor de pH, se evalúa

una substancia neutra, pH=7.0. Para esto se mide el pH a diez muestras y se colectan
los datos:
7.07, 7.00, 7.10, 6.97, 7.00, 7.03, 7.01, 7.01, 6.98, 7.08
Usando α = 0.05 se desea probar,
H0 : µ = 7.0
HA : µ 6= 7.0
n = 10, X̄ = 7.025, S 2 = 0.001938889, S = 0.04403282
X̄ − µ0 7.025 − 7.0
t0 = √ = √ = 1.795409
S/ n 0.04403282/ 10
α = 0.05 ⇒ tα/2 (n − 1) = t0.025 (9) = 2.26
RD: |t0 | = 1.7954 < 2.26 = t0.025 (9) ⇒ AH0 , con α = 0.05
Conclusión: El promedio de mediciones de pH es de 7.0, con α = 0.05.
Prueba en R
x < − c(7.07, 7.00, 7.10, 6.97, 7.00, 7.03, 7.01, 7.01, 6.98, 7.08)
t.test(x,alternative=c(“two.sided”), mu=7.0, conf.level=0.95)
P (T9 > 1.795409) = 0.05307953
p-value= 2 P (T9 > 1.795409) = 0.1061 > 0.05 = α, entonces AH0
Ejemplo. Un fabricante de un nuevo compuesto para neumáticos, considera que éste

producto permite un promedio de vida de al menos 40,000 millas. Para verificar tal
afirmación, se toma una muestra aleatoria de n = 12 llantas para prueba de millaje
de vida y se registran los datos en miles de millas:
36.1, 40.2, 33.8, 38.5, 42, 35.8, 37.1, 41, 36.8, 37.2, 33, 36
¿ Tiene razón el fabricante ?
Soln. De la muestra se tiene:
n = 12, X̄ = 37.29167, s2 = 7.459015, S = 2.73112
La hipótesis de interés, con α = 0.05, es:
H0 : µ ≥ 40
HA : µ < 40
La estadı́stica de prueba,
X̄ − µ0 37.29167 − 40
t0 = √ = √ = −3.4352
S/ n 2.73112/ 12
−tα (n − 1) = −t0.05 (11) = −1.79
RD: como t0 = −3.4352 < −1.79 = −t0.05 (11) ⇒ RH0 , con α = 0.05.
Conclusión. El promedio de millaje de la muestra es menor a 40,000 millas, con
α = 0.05. Es decir, el fabricante del compuesto, no tiene razón, con α = 0.05.
Prueba en R,
x < − c(36.1, 40.2, 33.8, 38.5, 42, 35.8, 37.1, 41, 36.8, 37.2, 33, 36)
t.test(x,alternative=c(“less”), mu=40, conf.level=0.95)
p-value= P (T11 < −3.4352) = 0.002786 < α, entonces RH0 .
Caso Muestras Grandes. Considere X1 , X2 , . . . , Xn , iid fX (x) con n ≥ 40. Sea

E(X) = µ y V ar(X) = σ 2 . Entonces por el Teorema Central de Lı́mite (TCL) se
tiene que,
X̄ − µ0
√ ∼ ˙ N (0, 1)
σ/ n
Por consiguiente, para realizar las pruebas de hipótesis sobre la media de la dis-
tribución, establecidas previamente, se puede substituir la desviación estándar σ por
su estimador S, la raı́z cuadrada de la varianza muestral y usar la estadı́stica aprox-
imadamente Z dada por,
X̄ − µ0
AZ0 = √
S/ n
Las reglas de decisión serı́an:
a) Rechazar H0 si AZ0 > zα , no rechaza H0 si AZ0 ≤ zα
b) Rechazar H0 si AZ0 < −zα , no rechazar H0 si AZ0 ≥ −zα
c) Rechazar H0 si |AZ0 | > zα/2 , no rechazar H0 si |AZ0 | ≤ zα/2 .
6.2 Prueba de Hipótesis sobre la Varianza en la

Distribución Normal
Considere X1 , X2 , . . . , Xn , iid N (µ, σ 2 ).
a) H0 : σ 2 ≤ σ02 vs HA : σ 2 > σ02
b) H0 : σ 2 ≥ σ02 vs HA : σ 2 < σ02
a) H0 : σ 2 = σ02 vs HA : σ 2 6= σ02
Considerando la varianza muestral S 2 , se usa la estadı́stica de prueba,

(n − 1) S 2
χ20 =
σ02
RD: Con un valor de significancia α,
a) Rechaza H0 si χ20 > χ2α (n − 1), no rechaza H0 si χ20 ≤ χ2α (n − 1)
b) Rechaza H0 si χ20 < χ21−α (n − 1), no rechaza H0 si χ20 ≥ χ21−α (n − 1)
c) Rechaza H0 si χ20 < χ21−α/2 (n − 1), o rechaza H0 si χ20 > χ2α/2 (n − 1), y
no rechaza H0 si χ21−α/2 (n − 1) ≤ χ20 ≤ χ2α/2 (n − 1)
Ejemplo. Del ejemplo anterior sobre las muestras de mediciones de pH obtenidas

para calibrar un nuevo dispositivo, se desea probar la hipótesis de que la varianza es
menor a 0.0018; es decir
H0 : σ 2 ≤ 0.0018
HA : σ 2 > 0.0018
con α = 0.05. Se tiene, de la muestra, los siguientes datos,
n = 10, X̄ = 7.025, S 2 = 0.001938889, S = 0.04403282
La estadı́stica de prueba es,
(n − 1) S 2 9(0.001938889)
χ20 = 2
= = 9.69
σ0 0.0018
El valor de tablas χ2α (n − 1) = χ20.05 (9) = 16.91

RD: Como χ20 = 9.69 < 16.91 = χ20.05 (9) ⇒ No reachaza H0 , con α = 0.05.
Conclusión: La variación en las mediciones de pH es menor o igual a 0.0018, con
α = 0.05.
Note ahora considerando la hipótesis
H0 : σ 2 ≤ 0.001
HA : σ 2 > 0.001
Se tendrı́a la estadı́stica de prueba,
(n − 1) S 2 9(0.001938889)
χ20 = 2
= = 17.45
σ0 0.001
RD: Como χ20 = 17.45 > 16.91 = χ20.05 (9) ⇒ Rechaza H0 , con α = 0.05.
Conclusión: La variación en las mediciones de pH es mayor a 0.001, con α = 0.05.
Ejemplo. Para determinar la variabilidad en las mediciones de un equipo sobre el

contenido de magnesio en un producto, se realizan 12 determinaciones en una solución
que se sabe contiene 5% de magnesio. Por norma de calidad se sabe que la máxima
desviación tolerable es de 0.2%. Lo que significa, si el equipo es adecuado, debe tener
una σ 2 < 0.04 (en porcentaje). Con lo anterior, se tiene interés en la hipótesis,
H0 : σ 2 ≥ 0.04
HA : σ 2 < 0.04
Los datos de las determinaciones son:
5.1, 4.8, 5.2, 5.3, 4.7, 4.8, 4.9, 5.1, 5.2, 4.9, 4.8, 5.3
Con la muestra se obtiene, n = 12, S 2 = 0.04628788. La estadı́stica de prueba es
(n − 1) S 2 11(0.04628788)
χ20 = 2
= = 12.72917
σ0 0.04
Con α = 0.05, χ21−α (n − 1) = χ20.95 (11) = 4.5748.
RD: χ20 = 12.72 ≥ 4.5748 = χ21−α (n − 1) ⇒ NRH0 , con α = 0.05.
Conclusión: La varianza de las mediciones es mayor o igual a 0.004, con α = 0.05;
por lo cual el equipo no es adecuado en virtud de tener una desviación mayor a lo

tolerable 0.2%.
Prueba en R
Se requiere cargar el programa TeachingDemos. En seguida usar la instruccion
library(TeachingDemos)
a fin de disponer de la rutina requerida. A continuación use:
ph < − c(7.07, 7.00, 7.10, 6.97, 7.00, 7.03, 7.01, 7.01, 6.98, 7.08)
sigma.test(ph, alternative=c(”greater”), sigma=sqrt(0.0018))
Para verificar el supuesto de normalidad de los datos, se plantea la siguiente

hipótesis
H0 : X ∼ Normal
HA : X No tiene distribución Normal.
Dos pruebas comunes son: prueba de Shapiro-Wilks y prueba de Kolmogorov-
Smirnov. Para realizar tales pruebas usando el programa R se emplean las instruc-
ciones siguientes y se compara el p-value obtenido con el α establecido.
y < − c(datos)
shapiro.test(y)
ks.test(y,”pnorm”, mean=mean(y), sd=sd(y))
Ejemplo. Realizar la prueba de normalidad a los datos de rendimiento de trigo

presentados anteriormente
3.15, 3.92, 4.26, 3.36, 3.72, 4.19, 3.42, 4.38, 4.50
trigo < − c(3.15, 3.92, 4.26, 3.36, 3.72, 4.19, 3.42, 4.38, 4.50)
shapiro.test(trigo)
Produce la información siguiente:
Shapiro-Wilk normality test
data: trigo
W = 0.93198, p-value = 0.5004
RD p-value = 0.5004 > 0.05 = α, implica que se acepta H0 .
Mientras que la instrucción:

ks.test(trigo,”pnorm”, mean=mean(trigo), sd=sd(trigo))
Produce la siguiente información:
Exact one-sample Kolmogorov-Smirnov test
data: trigo D = 0.18265, p-value = 0.8749
RD p-value = 0.8749 > 0.05 = α, implica que se acepta H0 .
Conclusión: Con ambas pruebas, de Shapiro-Wilk y de Kolmogorov-Smirnov se con-
cluye de que los datos de rendimiento de trigo presenta una distribución de Gauss o
normal, con α = 0.05.
6.3 Prueba de Hipótesis sobre las Varianzas de dos

Poblaciones Normales
Considere dos poblaciones con distribuciones normales, es decir
2
X ∼ N (µX , σX ), Y ∼ N (µY , σY2 )
Considere una muestra aleatoria de cada población.

2
X1 , X2 , . . . , Xm iid N (µX , σX )
Y1 , Y2 , . . . , Yn iid N (µY , σY2 )
Se tiene interés en comparar las varianzas de las dos poblaciones. Para esto, se
establecen las hipótesis siguientes:
2
a) H0 : σX ≤ σY2 2
vs HA : σX > σY2
2
b) H0 : σX ≥ σY2 2
vs HA : σX < σY2
2
c) H0 : σX = σY2 2
vs HA : σX 6= σY2
2
Se obtienen de las muestras SX y SY2 . Para realizar la prueba de hipótesis, se
emplea la estadı́stica de prueba
2
SX
F0 =
SY2
Considerando un nivel de significancia de α, la regla de decisión es,
m−1 m−1
a) Rechaza H0 si F0 > Fn−1,α , no rechaza H0 si F0 ≤ Fn−1,α
m−1 m−1
b) Rechaza H0 si F0 < Fn−1,1−α , no rechaza H0 si F0 ≥ Fn−1,1−α
m−1 m−1
c) Rechaza H0 si F0 < Fn−1,1−α/2 , o rechaza H0 si F0 > Fn−1,α/2 ,y
m−1 m−1
no rechaza H0 si Fn−1,1−α/2 ≤ F0 ≤ Fn−1,α/2 .
Recuerde que para obtener el punto de corte del lado izquierdo de la curva de F ,
m−1
es decir, el punto Fn−1,1−α , no provisto por las tablas en los textos, se usa la relación
m−1 1
Fn−1,1−α = n−1
Fm−1,α
Ejemplo. Se realiza un experimento en soya, donde se efectúa un riego de auxilio a

dos condiciones de humedad aprovechable en el suelo, que constituyen 10% y 40% de
humedad, en parcelas de dimensión (4)(7) m2 . Se obtuvieron los datos de rendimiento
en kg/ha, que son:
10%: 1735, 2002, 1820, 2082, 1894, 1816, 2008, 1758, 1898, 2223, 2873, 2313
40%: 3403, 3294, 2899, 3350, 3212, 2964, 3098, 2984, 2492
Con las dos muestras se tiene la siguiente información:
2
m = 12, X̄ = 2035.67 SX = 101, 678.5
n = 9, Ȳ = 3077.333 SY2 = 80, 235.75
Antes de comparar las medias del rendimiento de cada condición de humedad aprovech-
able, se desea realizar la prueba de hipótesis sobre la igualdad de varianzas. Por lo
tanto, se desea realizar la prueba de hipótesis,
2
H0 : σX = σY2
2
HA : σX 6= σY2
2
SX 101678.5
F0 = 2
= = 1.267247
SY 80235.75
Los valores en la tabla de F con α = 0.05 son;
m−1 11 1 1
Fn−1,1−α/2 = F8,0.975 = 8
= = 0.2729
F11,0.025 3.664
m−1 11
Fn−1,α/2 = F8,0.025 = 4.243
RD: Como F0 = 1.267247 ∈ (0.2729, 4.243) ⇒ Se acepta H0 , con α = 0.05
Conclusión: Las varianzas del rendimiento en las dos condiciones de humedad, 10%
y 40%, son estadı́sticamente iguales, con α = 0.05.
Prueba en R
x < − c(1735, 2002, 1820, 2082, 1894, 1816, 2008, 1758, 1898, 2223, 2873, 2313)
y < − c(3403, 3294, 2899, 3350, 3212, 2964, 3098, 2984, 2492)
var.test(x,y)
p-value=0.754 > α = 0.05, por lo que se acepta H0 .
p-value = 2 P (F ≥ F0 ) = 2 P (F ≥ 1.2672).
Ejemplo. La viscocidad de dos tipos de aceite X y Y están dados en los siguientes

datos:
X : 10.62, 10.58, 10.33, 10.72, 10.44, 10.74
Y : 10.50, 10.52, 10.58, 10.62, 10.55, 10.51, 10.53
Con las muestras se tienen los siguientes valores,
2
m = 6, X̄ = 10.57167, SX = 0.02569667
n = 7, Ȳ = 10.54429, SY2 = 0.001828571
Se desea probar una hipótesis sobre la igualdad de varianzas. Por consiguiente, se
tienen
2
H0 : σX = σY2
2
HA : σX 6= σY2
2
SX 0.02569667
F0 = 2
= = 14.05286
SY 0.001828571
Los valores en la tabla de F con α = 0.05 son;

m−1 5
Fn−1,α/2 = F6,0.025 = 5.988
m−1 5 1 1
Fn−1,1−α/2 = F6,0.975 = 6
= = 0.1433
F5,0.025 6.978
RD: Como F0 = 14.05286 6∈ (0.14, 5.988) ⇒ Se rechaza H0 , con α = 0.05

Conclusión: Las varianzas de la viscocidad en los dos tipos de aceite X y Y , son
significativamente diferentes, con α = 0.05.
Prueba en R
x < − c(10.62, 10.58, 10.33, 10.72, 10.44, 10.74)
y < − c(10.50, 10.52, 10.58, 10.62, 10.55, 10.51, 10.53)
var.test(x,y)
p-value = 0.005835 < 0.05, se rechaza H0 .
6.4 Prueba de Hipótesis sobre las Medias de dos

Poblaciones Normales
Suponga que se tiene
2
X1 , X2 , . . . , Xm iid N (µX , σX )
Y1 , Y2 , . . . , Yn iid N (µY , σY2 )
a) H0 : µX ≤ µY vs HA : µX > µY
b) H0 : µX ≥ µY vs HA : µX < µY
c) H0 : µX = µY vs HA : µX 6= µY
Para determinar la estadı́stica de prueba, hay dos casos posibles, dependiendo de

si las varianzas poblacionales son iguales o son diferentes.
Si en la anterior prueba de hipótesis de varianzas, se acepta que las varianzas son
iguales, se usa el siguiente:
2
Caso σX = σY2 = σ 2 desconocida.
Dado que las dos varianzas son estadı́sticamente iguales, entonces se obtiene la
estimación de una sola varianza, llamada ponderada, con la siguiente expresión,
2
(m − 1)SX + (n − 1)SY2
Sp2 =
m+n−2
Con esto, se emplea la estadı́stica de prueba
X̄ − Ȳ
T0 = q
Sp2 m1 + n1

la cual bajo la hipótesis nula, tiene distribución t-Student, con m + n − 2 g.l.

La regla de decisión para las hipótesis establecidas es:
Regla de Decisión, con un valor α de significancia,
a) Rechazar H0 si T0 > tα (m + n − 2), no rechaza H0 si T0 ≤ tα (m + n − 2)
b) Rechazar H0 si T0 < −tα (m + n − 2), no rechazar H0 si T0 ≥ −tα (m + n − 2)
c) Rechazar H0 si |T0 | > tα/2 (m + n − 2), no rechazar H0 si |T0 | ≤ tα/2 (m + n − 2).
Si en la prueba de hipótesis de varianzas, se acepta que las varianzas son distintas,

se usa el siguiente:
2
Caso σX 6= σY2 , σX σY , desconocidas.
En este escenario, la distribución de la estadı́stica T0 dado en el caso anterior, ya

no es t-Student. Para realizar las pruebas establecidas, se propone una modificación
llamada aproximación de Welch o de Satterthwaite. La estadı́stica de prueba es
X̄ − Ȳ
T0 = q 2
SX S2
m
+ nY
La estadı́stica T 0 ∼
˙ t(ν) g.l. donde ν = dve (máximo entero mayor que) y
2 2
SX SY2
m
+ n
v= 2 2 2
(SX /m) (SY2 /n)
m−1
+ n−1

a) Rechazar H0 si T 0 > tα (ν), no rechaza H0 si T 0 ≤ tα (ν)
b) Rechazar H0 si T 0 < −tα (ν), no rechazar H0 si T 0 ≥ −tα (ν)
c) Rechazar H0 si |T 0 | > tα/2 (ν), no rechazar H0 si |T 0 | ≤ tα/2 (ν).
Caso Muestras grandes.

Suponga m y n grandes (quizás al menos 40)
Por el Teorema Central del Lı́mite (TCL)
2
X̄ ∼
˙ N (µX , σX /m) ˙ N (µY , σY2 /n)
Ȳ ∼
Por consiguiente,
σ2 σ2

X̄ − Ȳ ∼
˙ N µX − µy , X + Y
m n
Lo que implica que
X̄ − Ȳ − (µX − µY )
q
2 2
∼
˙ N (0, 1)
σX σY
m
+ n
Por consiguiente, para realizar las pruebas de hipótesis establecidas, se substituyen
las varianzas poblacionales con las variaanzas muestrales. Considerando que bajo la
hipoótesis nula, µX − µY = 0, se usa la estadı́stica aproximadamente Z,
X̄ − Ȳ
AZ0 = q 2
SX S2
m
+ nY

a) Rechazar H0 si AZ0 > zα , no rechaza H0 si AZ0 ≤ zα
b) Rechazar H0 si AZ0 < −zα , no rechazar H0 si AZ0 ≥ −zα
c) Rechazar H0 si |AZ0 | > zα/2 , no rechazar H0 si |AZ0 | ≤ zα/2 .
Ejemplo. Del experimento realizado en soya bajo las dos condiciones de humedad,
descrito anteriormente, se tiene la siguiente información:
2
m = 12, X̄ = 2035.67 SX = 101, 678.5
n = 9, Ȳ = 3077.333 SY2 = 80, 235.75
H0 : µX = µY
HA : µX 6= µY
En virtud de haber aceptado la hipótesis de igualdad de las varianzas en la prueba
2
anterior con dichos datos, se asume el caso σX = σY2 = σ 2 , σ 2 desconocida.
Se calcula la varianza ponderada,
2
(m − 1)SX + (n − 1)SY2 11(101678.5) + 8(80235.75)
Sp2 = = = 92649.98
m+n−2 19
Con esto, se emplea la estadı́stica de prueba
X̄ − Ȳ 2035.167 − 3077.333 −1042.167
T0 = q = q = = −7.764557
Sp2 1 1
+n
1
92649.98 12 + 91
134.221
m
RD: Como |T0 | = 7.764557 > 2.861 = t0.005 (19) ⇒ RH0 con α = 0.01.
Conclusión: Las medias del rendimiento de soya en las dos condiciones de humedad
10% y 40%, no son iguales, con α = 0.01.
Prueba en R
x < − c(1735, 2002, 1820, 2082, 1894, 1816, 2008, 1758, 1898, 2223, 2873, 2313)
y < − c(3403, 3294, 2899, 3350, 3212, 2964, 3098, 2984, 2492)
t.test(x,y,alternative=c(“two.sided”),mu=0,var.equal=TRUE)
p-value=2.604e − 07 = 2.604(10−7 ) = 2 P (t19 < t0 ) < α, entonces RH0 ,
Ejemplo. Se desea comparar las medias de la viscocidad de dos tipos de aceite X

y Y , de un ejemplo anterior. Ya se realizó la prueba de hipótesis sobre las varianzas
2
y se concluyó que no son iguales. Por lo cual se asume el caso σX 6= σY2 , σX
2
σY2 ,
desconocidas.
Los datos son:
2
m = 6, X̄ = 10.57167, SX = 0.02569667
n = 7, Ȳ = 10.54429, SY2 = 0.001828571
H0 : µX = µY
HA : µX 6= µY
Se obtiene la estadı́stica,
X̄ − Ȳ 10.57167 − 10.54429 0.02738095

T0 = q 2 = q = = 0.40619
SX SY2 0.02569667
+ 0.001828571 0.06740922
m
+ n 6 7
Para los grados de libertad se tiene

2 2
SX SY2 2
m
+ n
0.02569667
+ 0.001828571 2.064796(10−5 )
6 7
v= 2 2 2 = = = 5.611147
(SX /m) (SY2 /n) (0.02569667/6)2 (0.001828571/7)2 3.67981(10−6 )
+ n−1 5
+ 6
m−1
ν = dve = d5.611147e = 6 ⇒ tα/2 (ν) = t0.025 (6) = 2.4469

RD: Como |T 0 | = 0.40619 < 2.4469 = t0.025 (6), se acepta H0 , con α = 0.05.
Conclusión: Las medias de viscocidad de los dos tipos de aceite X y Y son es-
tadı́sticamente iguales, con α = 0.05.
Prueba en R
x < − c(10.62, 10.58, 10.33, 10.72, 10.44, 10.74)
y < − c(10.50, 10.52, 10.58, 10.62, 10.55, 10.51, 10.53)
t.test(x,y,alternative=c(“two.sided”),mu=0,var.equal=FALSE)
p-value= 2 P (t6 > t0 ) = 2(0.349343) = 0.698 > α, se acepta H0 .
6.5 Prueba de Hipótesis en la Distribución Bino-

mial
Prueba Aproximada sobre una Distribución Binomial. Suponga X ∼ Bernoulli(p)
Suponga se realizan n ensayos de Bernoulli, n suficientemente grande, y cada uno con
la misma probabilidad de éxito p.
Dado que X1 , X2 , . . . , Xn iid Brnoulli(p),
E(Xi ) = p, V ar(Xi ) = p(1 − p) = pq

Pn
Entonces Y = i=1 Xi ∼ Binomial(n, p). Ası́, E(Y ) = np y V ar(Y ) = np(1 − p).
Si n es suficientemente grande, se puede justificar, por el Teorema Central del
Lı́mite la aproximación Pn
Xi − np
pi=1 ∼˙ N (0, 1)
np(1 − p)
Considerando la aproximación anterior, se tiene interés en realizar una prueba de
hipótesis sobre el parámetro p. Ası́, se establecen las siguientes hipótesis de interés:
a) H0 : p ≤ p0 vs HA : p > p0
b) H0 : p ≥ p0 vs HA : p < p0
c) H0 : p = p0 vs HA : p 6= p0
La prueba aproximada usa la estadı́stica

Pn
Xi − np0
AZ0 = pi=1
np0 (1 − p0 )
La regla de decisión es:
a) Rechaza H0 si AZ0 > zα
b) Rechaza H0 si AZ0 < −zα
c) Rechaza H0 si |Z0 | > zα/2 .
Ejemplo. Una empresa empacadora de ahuacate de exportación clama que a lo más

4% de producto no reúne el control de calidad. Un supervisor toma una muestra
aleatoria de n = 500 frutos, de lo cuales 16 resultaron no reunir la calidad.

¿ Hay cambios en la proporción de defecto ?
Considere la hipótesis
H0 : p ≤ 0.04
HA : p > 0.04
n = 500, p0 = 0.04. La estadı́stica de prueba es,
Pn
Xi − np0 16 − 500(0.04)
AZ0 = pi=1 =p = −0.91
np0 (1 − p0 ) 500(0.04)(0.96)
Con α = 0.05, el valor de tablas es zα = z0.05 = 1.645.
RD: Como AZ0 = −0.91 < 1.645 = z0.05 , se acepta H0 , con α = 0.05.
Conclusión: La proporción de defecto es menor o igual a 4%, con α = 0.05, es decir,
no hay cambio.
Prueba Aproximada sobre dos Distribuciónes Binomiales.

Suponga dos muestras aleatorias independientes:
X11 , . . . , X1m iid Bernoulli(p1 )
X21 , . . . , X2n iid Bernoulli(p2 )
Y1 = m
P
i=1 X1i ∼ Binomial(m, p1 )
Y2 = ni=1 X2i ∼ Binomial(n, p2 )

P
Por consiguiente;
E(Y1 ) = mp1 y V ar(Y1 ) = mp1 (1 − p1 )
E(Y2 ) = np2 y V ar(Y2 ) = np2 (1 − p2 )
Se desea probar la hipótesis
H0 : p1 = p2
HA : p1 6= p2
Los estimadores de los dos parámetros proporciones p1 y p2 son:
pˆ1 = Y1 /m, E(pˆ1 ) = p1 , y V ar(pˆ1 ) = p1 (1 − p1 )/m
pˆ2 = Y2 /n, E(pˆ2 ) = p2 , y V ar(pˆ2 ) = p2 (1 − p2 )/n

Si H0 es cierta, p1 = p2 = p y entonces se obtiene un solo estimador,
Y1 + Y2
p̂ =
m+n
Y si m y n son suficientemente grandes, se obtiene la aproximación
pˆ − pˆ2 − (p1 − p2 )
q1 ∼
˙ n(0, 1)
p̂(1 − p̂) m1 + n1
Por lo anterior, se emplea la estadı́stica
pˆ1 − pˆ2
AZ0 = q
p̂(1 − p̂) m1 + n1

La regla de decisión es rechazar H0 si |AZ0 | > zα/2 .
Ejemplo.Se desea comparar dos métodos de entrenaniento de personal, usando como

criterio la proporción de personas que aprobaron el entrenamiento.
Los datos son:
Método 1: m = 300 # de personas aprobadas=250
Método 2: n = 260 # de personas aprobadas=178
Se desea probar la hipótesis
H0 : p1 = p2
HA : p1 6= p2
Los estimadores de cada método y el estimador conjunto, son:
Y1 250 Y2 178
pˆ1 = = = 0.8333, pˆ2 = = = 0.6846
m 300 n 260
Y1 + Y2 250 + 178 428

p̂ = = = = 0.7643
m+n 300 + 260 560
Con esto se tiene la estadı́stica
pˆ1 − pˆ2 0.8333 − 0.6846

AZ0 = q =q = 4.1351
p̂(1 − p̂) m1 + n1 1 1

0.7643(0.2357) 300 + 260
Si α = 0.05 se tiene que zα/2 = z0.025 = 1.96

RD: Como |AZ0 | = 4.13 > 1.96 se rechaza H0 con α = 0.05
Conclusión: Las proporciones de aprobación con los dos métodos de entrenamiento,
no son iguales, con α = 0.05.
Prueba en R
prop.test(c(250,178), c(300,260), correct=FALSE)
Se provee
AZ02 = χ20 = 17.0998, df = 1 p − value = 3.547e − 05
6.6 Prueba de Bondad de Ajuste

Suponga que n repeticiones independientes de un experimento: En cada repetición
el resultado solo pertenece a una de k clases mutuamente excluyentes. Suponga
que la probabilidad de que una repetición se obtenga un resultado de la clase i es
pi , ı = 1, 2, . . . , k; donde ki=1 pi = 1. Las probabilidades p1 , . . . , pk permanecen
P
constantes en cada repetición. Se tiene ası́ una tabla,
P
Clase 1 2 ··· k
Frecuencia n1 n2 ··· nk n
las variables n1 , n2 , . . . , nk en la tabla anterior, son variables aleatorias antes de

realizar el experimento, y que satisfacen n = ki=1 ni . Note que si k = 2, se tiene el
P
modelo Binomial, con p1 = p y p2 = 1 − p.

Modelo Multinomial. Sean n1 , n2 , . . . , nk variables aleatorias definidas anterior-

mente. La función de probabilidad conjunta de n1 , n2 , . . . , nk se llama multinomial y
está dada por,
n!
f (n1 , n2 , . . . , nk ) = pn1 pn2 · · · pnk k
n1 !n2 ! · · · nk ! 1 2
Donde n = ki=1 ni y ki=1 pi = 1.
P P
Se tiene que
E(ni ) = npi , V ar(ni ) = npi (1 − pi ), i = 1, 2, . . . , k
Se tiene interés en la prueba de hipótesis,

H0 : p1 = p01 , p2 = p02 , . . . , pk = p0k
HA : Al menos una pi 6= p0i , i = 1, . . . , k.
Se emplea la estadı́stica
k k
X (ni − npi )2 X (Oi − Ei )2
χ20 = =
i=1
npi i=1
Ei
Oi = ni = Observados; Ei = npi = Esperados.
RD: Rechazar H0 si χ20 ≥ χ2α (l), donde
l = k − 1 − (número de parámetros estimados para especificar las p0i )
Notas
a) Se recomienda tener Ei ≥ 5
b) Si no se ha estimado ningún parámetro, los gl son k − 1.
Ejemplo. Las proporciones esperadas en un dihı́brido son 9 : 3 : 3 : 1. Se examinaron

1008 individuos y se observaron los valores, para las 4 clases,
P
Clase 1 2 3 4
Oi 587 197 168 56 1008
Ei 567 189 189 63
Se desea realizar la prueba de hipótesis,

H0 : p1 = 9/16, p2 = 3/16, p3 = 3/16, p4 = 1/16
HA : Al menos una pi 6= p0i , i = 1, 2, 3, 4.
La estadı́stica es
k
X (Oi − Ei )2 (587 − 567)2 (197 − 189)2 (168 − 189)2 (56 − 63)2
χ20 = = + + + = 4.16
i=1
Ei 567 189 189 63
Los gl son l = k − 1 = 3. Con α = 0.05 el valor de tabla de Ji-cuadrada es

χ2α (l) = χ20.05 (3) = 7.8147.
RD: Como χ20 = 4.16 < 7.8147 = χ20.05 (3), se acepta H0 con α = 0.05.
Conclusión: Los datos obtenidos para cada clase muestran que la proporción
9 : 3 : 3 : 1 es correcta, con α = 0.05.
Chapter 7
Intervalos de Confianza
7.1 Intervalos de Confianza

Sean X1 , X2 , . . . , Xn iid fX (x; θ), θ ∈ Θ ⊂ R y θ es una constante desconocida.
Defn. Intervalo de Confianza. Sean X1 , X2 , . . . , Xn iid fX (x; θ), θ ∈ Θ ⊂ R.

Sean T1 (X1 , X2 , . . . , Xn ) y T2 (X1 , X2 , . . . , Xn ) dos estadı́sticas que satisfacen T1 ≤ T2 ,
para las cuales,
Pθ [T1 (X1 , X2 , . . . , Xn ) < θ < T2 (X1 , X2 , . . . , Xn )] ≥ 1 − α
para todo θ ∈ Θ. Entonces al intervalo aleatorio (T1 , T2 ) se le llama el Intervalo de

Confianza para θ abreviado IC(θ), de 1 − α coeficiente de confianza.
Nota. También se denota

L1 = L = T1 (X1 , X2 , . . . , Xn )
L2 = L̄ = T2 (X1 , X2 , . . . , Xn )
Nota. Intervalos de Confianza Laterales
117
CHAPTER 7. INTERVALOS DE CONFIANZA 118
Si T1 (X1 , X2 , . . . , Xn ) es una estadı́stica tal que
Pθ [T1 < θ] ≥ 1 − α
entonces se tiene al IC inferior para θ dado por (T1 , ∞).
Si T2 (X1 , X2 , . . . , Xn ) es una estadı́stica tal que
Pθ [θ < T2 ] ≥ 1 − α
entonces se tiene al IC superior para θ dado por (−∞, T2 ).

Nota. El significado de un IC se basa en la interpretación de frecuencia relativa de la
probabilidad.
7.2 Intervalos de Confianza para la Media de la

Normal
Sean X1 , X2 , . . . , Xn iid N (µ, σ 2 )
X̄ − µ
√ ∼ tn−1
S/ n
Por consiguiente

X̄ − µ
Pµ −tα/2 (n − 1) < √ < tα/2 (n − 1) = 1 − α
S/ n
Despejando µ, se tiene el IC(µ),

S S
X̄ − tα/2 (n − 1) √ , X̄ + tα/2 (n − 1) √
n n
En éste caso, se tienen los lı́mites
S
L = X̄ − tα/2 (n − 1) √
n
S
L̄ = X̄ + tα/2 (n − 1) √
n
Dado un IC(µ) por (L1 , L2 ) con 1 − α de confianza, se puede emplear dicho

intervalo para probar cualquier hipótesis del tipo
H0 : µ = µ0 vs HA : µ 6= µ0
Con el mismo α del IC.
Si µ0 ∈ (L1 , L2 ) se acepta H0 con α,
Si µ0 6∈ (L1 , L2 ) se rechaza H0 con α.
Ejemplo. En un ejemplo anterior se presentaron unos datos de rendimiento de trigo

de 9 lotes experimentales. Los rendimientos en ton/ha son:
3.15, 3.92, 4.26, 3.36, 3.72, 4.19, 3.42, 4.38, 4.50
Con la muestra se obtiene:
n = 9, X̄ = 3.877778, S 2 = 0.2396197 y S = 0.4895094
Si α = 0.05, t0.025 (8) = 2.306 y el IC(µ) es,
S
L = X̄ − tα/2 (n − 1) √
n
0.4895094
= 3.878 − (2.306) = 3.5017
3
S
L̄ = X̄ + tα/2 (n − 1) √
n
0.4895094
= 3.878 + (2.306) = 4.2542
3
Se escribe el IC con 1 − α = 0.95 de confiabilidad como (3.5017, 4.2542).
Considere ahora probar, H0 : µ = 3.4 vs HA : µ 6= 3.4
Como 3.4 6∈ (3.5017, 4.2542) ⇒ se rechaza H0 con α = 0.05.
Considere ahora probar, H0 : µ = 4.1 vs HA : µ 6= 4.1
Como 4.1 ∈ (3.5017, 4.2542) ⇒ se acepta H0 con α = 0.05.
7.3 Intervalos de Confianza para la Varianza de la

Normal
Sean X1 , X2 , . . . , Xn iid N (µ, σ 2 )
Considerando que
(n − 1)S 2
∼ χ2n−1
σ2
Se tiene que
(n − 1)S 2

2 2
Pσ2 χn−1,1−α/2 < < χn−1,α/2 = 1 − α
σ2
Despejando σ 2 se obtiene el IC(σ 2 ),
!
2 2
(n − 1)S (n − 1)S
2
, 2
χn−1,α/2 χn−1,1−α/2
Dado un IC(σ 2 ) por (L1 , L2 ) con 1 − α de confianza, se puede emplear dicho

intervalo para probar cualquier hipótesis del tipo
H0 : σ 2 = σ02 vs HA : σ 2 6= σ02
Con el mismo α del IC.
Si σ02 ∈ (L1 , L2 ) se acepta H0 con α,
Si σ02 6∈ (L1 , L2 ) se rechaza H0 con α.
Ejemplo. Con los datos de un ejemplo anterior donde se desea calibrar un medidor
de pH se tienen los datos;
7.07, 7.00, 7.10, 6.97, 7.00, 7.03, 7.01, 7.01, 6.98, 7.08
n = 10, X̄ = 7.025, S 2 = 0.001938889, S = 0.04403282
Se construye un IC(σ 2 ) con 1 − α = 0.95,
(n − 1)S 2 9(0.001938889)
L1 = 2
= = 0.00091732032
χn−1,α/2 19.0228
(n − 1)S 2 9(0.001938889)
L2 = 2
= = 0.0064620059
χn−1,1−α/2 2.7004
Ası́ se tiene el intervalo (L1 , L2 ) = (0.00091732032, 0.0064620059).
7.4 Intervalos de Confianza para Dos Medias de

Distribuciones Normales
Para la prueba de hipótesis
H0 : µX = µY vs HA : µX 6= µY
2
Caso σX = σY2 = σ 2 desconocida. Entonces,
 
X̄ − Ȳ − (µ1 − µ2 )
P −tα/2 (m + n − 2) < q < tα/2 (m + n − 2) = 1 − α
1 1

2
Sp m + n
Despejando µ1 − µ2 , se tiene un IC para µ1 − µ2 ,
s s !
1 1 1 1
X̄ − Ȳ − tα/2 (m + n − 2) Sp2 + , X̄ − Ȳ + tα/2 (m + n − 2) Sp2 +
m n m n
Con esto se tiene
s
1 1
L = X̄ − Ȳ − tα/2 (m + n − 2) Sp2 +
m n
s
1 1
L̄ = X̄ − Ȳ + tα/2 (m + n − 2) Sp2 +
m n
Con el IC(µX − µY ) = (L, L̄) se prueba la hiótesis indicado arriba, considerando
la siguiente regla de decisión:
Si 0 ∈ (L, L̄) ⇒ Se acepta H0 : µX = µY , con α
Si 0 6∈ (L, L̄) ⇒ Se acepta HA : µX 6= µY , Con α.
Ejemplo. Con los datos de un ejemplo anterior sobre la comparación del rendimiento
de soya bajo dos condiciones de humedad aprovechable se tiene la siguiente infor-
mación.
2
m = 12, X̄ = 2035.67 SX = 101, 678.5
n = 9, Ȳ = 3077.333 SY2 = 80, 235.75
Sp2 = 92649.98
Para obtener un IC(µX − µY ), con α = 0.05 se tiene t0.025 (19) = 2.093024, y los
lı́mites inferior y superior se calculan mediante,
s
2
1 1
L = X̄ − Ȳ − tα/2 (m + n − 2) Sp +
m n
s
1 1
= 2035.167 − 3077.333 − 2.093024 92649.98 + = −1323.094
12 9
s
1 1
L̄ = X̄ − Ȳ + tα/2 (m + n − 2) Sp2 +
m n
s
1 1
= 2035.167 − 3077.333 + 2.093024 92649.98 + = −761.2389
12 9
El IC es (L, L̄) = (−1323, −761.2389).

Como 0 6∈ (−1323, −761.2389) ⇒ Se acepta HA : µX 6= µY , con α = 0.05.
Chapter 8
Regresión Lineal Simple
8.1 Modelo de Regresión Lineal Simple

En Ingenierı́a y Ciencias, muchos problemas consisten en determinar una relación
entre un conjunto de variables. Por ejemplo, en un proceso quı́mico se tiene interés
en la relación entre el producto del proceso y la temperatura a la cual ocurre y la
cantidad de catalizador empleado.
Objetivo: Encontrar y describir relación entre una variable dependiente (Y) y una
variable independiente (x).
X −→ Y
Causa Efecto
Ejemplos.
a) Relación entre reactante producido y temperatura, en un proceso quı́mico
b) Relación entre el rendimiento de grano y cantidad de fertilizante usado.
c) Relación entre oferta y demanda de una mercancı́a.
123
CHAPTER 8. REGRESIÓN LINEAL SIMPLE 124
De las v.a.’s X y Y , se toma una muestra aleatoria de tamaño n, dada por:

(X1 , Y1 ), (X2 , Y2 ), . . . , (Xn .Yn )
Se tienen los pares de observaciones;
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
¿ Es posible obtener un modelo matemático probabilı́stico que describa la relación
entre X y Y ?
¿ Es una lı́nea recta, parábola, logarı́tmica, exponencial, etc ?
La relación más simple entre la variable respuesta Y y la variable independiente
X, es una relación lineal del tipo,
Modelo lineal simple
Y = β0 + β1 f (X)
Donde;
β0 y β1 son parámetroa desconocidos,
β0 es la ordenada al origen,
β1 es la pendiente o coeficiente de regresión,
f (X) es cualquier función de X,
Se le llama modelo lineal (lineal en los parámetros β0 y β1 ), sin que necesariamente
implique que la relación entre X y Y pueda representarse por una lı́nea recta,
Si tal relación fuera verdadera, una vez conocidos los parámetros β0 y β1 , entonces
serı́a posible predecir exactamente la respuesta, para cualquier valor de entrada. En la
práctica tal precisión no es posible, en virtud de la variación inherente a la naturaleza.
Por consiguiente, una ecuación como la anterior podrı́a ser válido sujeto a un error
aleatorio, dando una relación llamada Regresión Lineal Simple, representada por,
Yi = β0 + β1 f (Xi ) + i i = 1, 2, . . . , n
donde i es un error aleatorio con media cero.

Se llama simple porque solo involucra a una variable independiente X.
Supuestos del modelo

a) Para cualquier valor de X, Y es una v.a. tal que Y ∼ f (µY |X , σY2 |X ),
b) E(Y |X) = µY |X = β0 + β1 f (X),
c) E(i ) = 0 y V ar(i ) = σ 2 ,
d) σY2 |X1 = σY2 |X2 = · · · = σY2 |Xn .
Los siguientes modelos son de regresión lineal simple;

µY |X = β0 + β1 X
µY |X = β0 + β1 senX
µY |X = β0 + β1 ln X
µY |X = β0 + β1 X 2 .
Solo µY |X = β0 + β1 X, representa una relación de lı́nea recta entre X y Y .
8.2 Modelo de Lı́nea Recta

Sea el modelo de lı́nea recta
Yi = β0 + β1 Xi + i i = 1, 2, . . . , n
Se desea usar la muestra aleatoria para obtener los estimadores de los parámetros
desconocidos β0 y β1 . Denote la ecuaciń de recta estimada por
Ŷi = β̂0 + β̂1 Xi i = 1, 2, . . . , n
Se desea determinar las Ŷi , es decir la recta estimada de regresión tal que el cuadrado
de errores sean minimizados, es decir,
X X X
2i = (Yi − Ŷi )2 = (Yi − β̂0 − β̂1 Xi )2
Gauss propuso el método de cuadrados mı́nimos para obtener los estimadores de

los parámetros. Tomando las derivadas parciales para cada parámetro se tiene;
∂ X 2 ∂ X
i = (Yi − β0 − β1 Xi )2
∂β0 ∂β0
X
= 2(Yi − β0 − β1 Xi )(−1)
X X X
= −2 Yi + 2 β0 + 2β1 Xi
∂ X 2 ∂ X
i = (Yi − β0 − β1 Xi )2
∂β1 ∂β
X0
= 2(Yi − β0 − β1 Xi )(−Xi )
X X X
= −2 Xi Yi + 2β0 Xi + 2β1 Xi2
Igualando a cero cada derivada parcial y escribiendo los parámetros del lado
izquierdo para ser determinados, se obtiene el llamado sistema de ecuaciones nor-
males,
P P
(A) nβ0 + Xi β1 = Yi
Xi β0 + Xi2 β1 = Xi Yi
P P P
(B)
Resolviendo este sistema de 2 ecuaciones se tiene qie los estimadores de los parámetros
que minimizan los cuadrados de los errores son:
β̂0 = ȳ − β̂1 x̄
P P
xi yi − ( xi )( yi )
P
n
β̂1 = P 2 (P xi )2
xi − n
Nota. Es común escribir

P P
P ( xi )( yi )
Sxy = SP XY = xi y i − n
2
P
yi2 − ( nyi )
P
Syy = SP Y Y =
P 2 ( P xi ) 2
Sxx = SP XX = xi − n
Sxy
Con lo anterior, se puede escribir β1 = Sxx
.
Ejemplo. En un proceso quı́mico de destilación, se evalúa la relación entre la variable

dependiente:
y = % de oxı́geno producido
x = % de hidrocarburos presentes en el condensador.
x y x y
0.99 90.01 1.19 93.54
1.02 89.05 1.15 92.52
1.15 91.43 0.98 90.56
1.29 93.74 1.01 89.54
1.46 96.73 1.11 89.85
1.36 94.45 1.20 90.39
0.87 87.59 1.26 93.25
1.23 91.77 1.32 93.41
1.55 99.42 1.43 94.98
1.40 93.65 0.95 87.33
Con los datos se obtienen los siguientes valores:

P20
n = 20, i=1 xi = 23.92 x̄ = 1.196
P20
i=1 yi = 1843.21 ȳ = 92.1605
P20 2 P20 2
i=1 xi = 29.2892 i=1 yi = 170, 044.5321
P20
i=1 xi yi = 2, 214.6566
20
( xi )2 (23.92)2
X P
Sxx = x2i − = 29.2892 − = 0.68088
i=1
20 20
20
( yi )2 (1843.21)2
X P
Syy = yi2 − = 170, 044.5321 − = 173.3768
i=1
20 20
20 P20
xi )( 20
P
X ( i=1 i=1 yi ) (23.92)(1843.21)
Sxy = xi y i − = 2, 214.6566 − = 10.17744
i=1
20 20
Sxy 10.17744
β̂1 = = = 14.94748
Sxx 0.68088
β̂0 = ȳ − β̂1 x̄ = 92.1605 − 14.94748(1.196) = 74.28331
La recta estimada de regresión es
ŷ = β̂0 + β̂1 x = 74.28331 + 14.947 x
8.3 Pruebas de Hipótesis

Para poder hacer inferencia sobre los parámetros del modelo, se realiza el supuesto
i ∼ N (0, σ 2 ). Esto implica que Yi ∼ N (β0 + β1 Xi , σ 2 ).
Se puede mostrar que los parámetros estimados se distribuyen como;
σ 2 Xi2
P
β̂0 ∼ N β0 ,
nSxx
σ2

β̂1 ∼ N β1 ,
Sxx
Para estimar la varianza del error σ 2 se usa
2 Syy − β12 Sxx

S =
n−2
Prueba de Hipótesis sobre β1

Se desea probar la hipótesis si la variable independiente X explica o no la variación
de variable dependiente Y . Para esto se establece la prueba
H0 : β1 = β10 vs HA : β1 6= β10
Si β10 = 0 se rechaza, indica que la variable independiente sı́ contribuye a explicar
la variación de la variable dependiente.
Se usa la estadı́stica
β̂1 − β 0
t0 = q 1
S2
Sxx
Si H0 es cierta, t0 ∼ tn−2 .
RD: Rechaza H0 si |t0 | > tα/2 (n − 2).
Ejemplo. Con los datos del ejemplo anterior, se establece la hipótesis,

H0 : β1 = 0 vs HA : β1 6= 0
Syy − β12 Sxx 173.3768 − (14.9474)2 (0.68088)

S2 = = = 1.18043
n−2 18
β̂1 − β10 14.947 14.947

t0 = q =q = = 11.3527
S 2 1.18 1.3166
Sxx 0.68088
Con α = 0.05 se tiene tα/2 (n − 2) = t0.025 (18) = 2.101

RD: |t0 | = 11.35 > 2.101 = t0.025 (18) ⇒ Rechaza H0 con α = 0.05.
Conclusión: La cantidad de hidrocarburos sı́ predice a la variable oxigeno producido,
con α = 0.05
Para realizar la prueba en R;

hidrocarb < − c(0.99, 1.02, 1.15, 1.29, 1.46, 1.36, 0.87, 1.23, 1.55, 1.4, 1.19, 1.15,
0.98, 1.01, 1.11, 1.2, 1.26, 1.32, 1.43, 0.95)
oxigeno < − c(90.01, 89.05, 91.43, 93.74, 96.73, 94.45, 87.59, 91.77, 99.42, 93.65,
93.54, 92.52, 90.56, 89.54, 89.85, 90.39, 93.25, 93.41, 94.98, 87.33)
reg1 < − lm(oxigeno ∼ hidrocarb)
summary(reg1)
fitted(reg1)
plot(hidrocarb,oxigeno)
lines(hidrocarb,fitted(reg1))
La gráfica de regresión es
96
oxigeno
92
88
0.9 1.0 1.1 1.2 1.3 1.4 1.5
hidrocarb
Figure 8.1: Regresion Lineal Simple

References
[1] Daniel, W. W. and Cross, C. L. 2013. Biostatistics A Foundations for Analysis

in the Health Sciences 10th ed. John Wiley
[2] Dalgaard, P. 2008. Introductory Statistics with R 2nd ed. Springer
[3] Infante, G. S. y Zárate, G. de L. 2012. Métodos Estadı́sticos: Un Enfoque Inter-

disciplinario 3a ed. La Gaya Ciencia
[4] Lawal, B. 2014. Applied Statistical Methods in Agriculture, Health and Life Sci-
ences. Springer
[5] Le, C. T. and Eberly, L. E. 2016. Introductory Biostatistics 2nd ed. John Wiley
[6] Ott, R. L. and Longnecker, M. 2016. An Introduction to Statistical Methods and

Data Analysis 7th ed. Cengage Learning
[7] Ross, S. M. 2021. Introduction to Probability and Statistics for Engineers and
Scientists 6th ed. Academic Press Elsevier
[8] Walpole, R. E., Myers, R. H., Myers, S. L. and Ye, K. 2012. Probability and
Statistics for Engineers and Scientists 9th ed. Pearson
131

Notas Estadistica

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Notas Estadistica

Enviado por

Direitos autorais:

Formatos disponíveis

Chapter 1

si el resultado no puede ser determinado, excepto que se conoce el conjunto de sus

1.1 Modelos Matemáticos y Principio de Incer-

Ejemplos: Dos modelos matemáticos familiares son;

Dos tipos de modelos matemáticos

En la mecánica clásica de Newton, se considera a una partı́cula como un punto.

1.2 Antecedentes Históricos

dad en Astronomı́a (1777-1754)

2.1 Antecedentes y Definiciones

Defn. Experimento. Actividad o proceso que genera una observación o un conjunto

Defn. Experimento Aleatorio. Experimento cuyo resultado no es predecible con

Defn. Espacio Muestral. Se define el espacio muestral de un experimento aleatorio,

S = Ω ={ masculino, femenino} = {m,f}

Nota: Ω = {ω : ω es un resultado del experimento aleatorio}

Defn. Evento. Un evento E es un subconjunto de Ω.

c) C={ Al menos una águila}={ac, ca, aa}

Operaciones con Conjuntos

Defn. Si A ∩ B = ∅ se dice que A y B son mutuamente excluyentes o disjuntos.

Defn. Probabilidad. Suponga un espacio muestral Ω de un experimento aleatorio.

Se llama a P (E) la probabilidad del evento E.

El concepto de P (E) de un experimento es tema de interpretación. Supongo que

Note que si AB = ∅ ⇒ P (A ∪ B) = P (A) + P (B).

Para tres eventos y por la propiedad distributiva

= P (A ∪ B) + P (C) − P [(A ∪ B)C]

= P (A) + P (B) − P (AB) + P (C) − P (AC ∪ BC)

= P (A) + P (B) + P (C) − P (AB) − P (AC) − P (BC) + P (ABC).

Ω = {BB, Bb, bb} = {ω1 , ω2 , ω3 }

P ({BB}) = 1/4, P ({Bb}) = 1/2, P ({bb}) = 1/4,

2.2 Espacio Muestral Finito Con Puntos

Para cualquier evento E ⊂ Ω

b) Sea el experimento de lanzar dos dados (ó un dado dos veces)

Nota. Para calcular probabilidaddes en éste escenario, es necesario contar efectiva-

2.3 Principio Básico de Conteo

Nota: Otros autores hablan de dos etapas E1 y E2 u operaciones, con m y n resultados

¿ De cuantas maneras puede vestirse ?

b) Un club de 22 personas necesita elegir un director y un tesorero, en dicho orden.

Principio de Conteo Básico Generalizado

Quı́mica y 2 de Biologı́a. Se formará un comité de 4 alumnos, uno por cada carrera.

c) Relación de la regla de multiplicación con el producto cartesiano.

Notación: Prn = n Pr = Pr,n = P (n, r)

Si r = n, por convención se toma 0! = 1 y en tal caso,

Prn = n(n − 1)(n − 2) · · · (n − (n − 1) = n(n − 1) · · · 1 = n!

d) Un equipo de Beisbol tiene 9 jugadores. ¿ Cuantas órdenes de bateo hay ?

Permutaciones con Repeticiones. Suponga que los n objetos están en r grupos

Más ejemplos de conteo.

Ejemplo. De un grupo de tres hombres y dos mujeres,

3! para H y 2! para M, entonces

Ejemplo. De un grupo de 20 estudiantes se elige un comité de 3 personas selec-

Ejemplo. De un grupo de 5 mujeres y 7 hombre, ¿ Cuantos comités se pueden formar

La relación entre combinaciones y permutaciones se muestra en el siguiente ejem-

b) De un grupo de 5 mujeres y 7 hombres (ejemplo anterior), se formará un comité

? ¿ Cual es la probabilidad de que consista de puros hombres ?

c) Una caja de 30 manzanas contiene 4 frutos que no reúnen el control de calidad.

Note que E = B c , por consiguiente,

d) Juego de Barajas (versión inglesa). 52 cartas.

2.4 Probabilidad Condicional, Independencia de

Defn. Probabilidad Condicional. Sean A y B dos eventos en el mismo Ω y

Nota. B representa un espacio muestral reducido.

Ejemplo. En el ejemplo anterior de los dos dados lanzados,

Nota. Si P (A) > 0, también se puede definir,

Además se tiene que por ambas probabilidades condicionadas,

P (AB) = P (A | B)P (B) = P (B | A)P (A)

Género Empleado Desempleado Total