Você está na página 1de 184

Estadística Inferencial

Guía de trabajo

Los profesores del curso


2019-1
Contenido
Estadística ........................................................................................................................ 3
Variable aleatoria ............................................................................................................. 4
Variable aleatoria discreta ........................................................................................................ 5
Variable aleatoria continua ....................................................................................................... 8
Principales distribuciones de probabilidad .............................................................................. 25
Teorema central del límite ...................................................................................................... 39
Distribuciones muestrales ............................................................................................... 53
Estimación de parámetros ...................................................................................................... 68
Pruebas de hipótesis ....................................................................................................... 94
Pruebas de hipótesis de una población ...................................................................................100
Prueba de hipótesis con dos poblaciones independientes .......................................................110
Prueba de hipótesis para datos pareados ...............................................................................114
Análisis de la varianza (ANOVA) .............................................................................................124
Aplicaciones de la distribución chi cuadrado ..................................................................134
Regresión y correlación lineal simple .............................................................................147
Regresión lineal simple ..........................................................................................................149
Regresión lineal múltiple .......................................................................................................165
3 Estadística Inferencial 2019-1

Estadística
La Estadística es una ciencia matemática que se ocupa de la recolección, organización, presentación y
análisis de datos que corresponden a fenómenos o situaciones en donde está presente la
incertidumbre.

Recolección Organización Presentación Análisis

Estadística descriptiva
Proporciona los métodos y técnicas de recolección, caracterización y presentación que permiten
describir, apropiadamente, las características de un conjunto de datos. Comprende el uso de gráficos,
tablas y medidas resumen además de otras técnicas.

Estadística inferencial
Proporciona los métodos y técnicas que hacen posible estudiar una o más características de una
población para la toma de decisiones sobre la población basados en el resultado de muestras
aleatorias. La generalización de los resultados muestrales a toda la población cae en el dominio de la
Estadística Inferencial; en dicha generalización juega un papel muy importante la probabilidad.

Estadística

Estadística descriptiva Estadística inferencial

Notas
4 Estadística Inferencial 2019-1

Variable aleatoria
Introducción
Si analizamos los problemas estadísticos que se presentan en la práctica, nos daremos cuenta
fácilmente que las variables aleatorias de interés no son todas discretas.
Considere, por ejemplo, el tiempo requerido para procesar un artículo (en minutos), cantidad de
precipitación pluvial en cierta zona de la ciudad (en cc/m2), el tiempo de vida útil de un componente
electrónico (en horas).
Notaremos que el recorrido de estas variables no se puede representar mediante un conjunto finito
de valores, pues en un intervalo de números reales se tienen infinitos posibles valores y por lo tanto
no se podrá asignar a cada punto del recorrido su respectiva probabilidad.
Se debe formular, por lo tanto, un método diferente para describir la distribución de probabilidades
de una variable aleatoria continua.
La variable aleatoria que adopte cualquier valor dentro de un intervalo de números reales se conoce
como variable aleatoria continua o simplemente variable continua.
El objetivo de este capítulo es estudiar la distribución de probabilidad de este tipo de variables.

Definición de variable aleatoria


Una variable aleatoria X es una función que asocia a cada elemento del espacio muestral un número
real, es decir, X :   IR
La variable aleatoria asigna a cada elemento del espacio muestral  un número que no es aleatorio o
imprevisible, sino fijo y predeterminado. Lo que es aleatorio es el experimento sobre cuyo espacio
muestral se define la variable aleatoria.

Rango de la variable aleatoria


Es el conjunto de los valores posibles de la variable aleatoria, es decir, RX { X(w) / w}
Dependiendo de los valores contenidos en éste rango se clasifica a la variable en discreta ó continua.

Tipos de variable aleatoria

Una variable aleatoria es discreta si puede asumir Una variable aleatoria es continua si
un conjunto finito o infinito numerable de valores puede asumir cualquier valor en un
diferentes, es decir, si su rango es un conjunto intervalo o en general, si su rango es un
discreto. conjunto continuo.

Ejercicio 1
Sea la población de alumnos de pregrado de ESAN. Indique dos ejemplos de variables aleatorias
discretas y dos de variables aleatorias continuas.

Notas
5 Estadística Inferencial 2019-1

Variable aleatoria discreta


Una variable aleatoria es discreta si su rango es un conjunto finito o infinito numerable. Si x es un
elemento del rango de la variable aleatoria discreta X, entonces, la probabilidad de que ocurra el
evento (X = x) se denota P(X = x).

Distribución de probabilidad de una variable aleatoria discreta


La distribución de probabilidad de una variable aleatoria discreta X se describe como una función de
probabilidad representada por f(x) que asigna a cada valor posible de la variable aleatoria, la
probabilidad de que este valor ocurra, es decir, f(x) = P(X = x).

Toda función de probabilidad cumple lo siguiente:


- 0 ≤ f(x) = P(X = x) ≤ 1
-  f x  P(X  x)  1
xRX xRX

8
6
4
2
0
0 2 4 6

Si A  RX , entonces PX A  f x (R = rango de la variable aleatoria X)


xA
X

El dominio de la función f(x) se puede extender a todos los números reales, si se define f(x) = 0 para
todo x  IR - RX.

Esperanza de una variable aleatoria discreta


La esperanza de una variable aleatoria X se define como:
E X      xf x   xP X  x
xRX xRX

Al E(X) también se le llama valor esperado o media de la variable X y se denota también por μX.

Esperanza de una función de variable aleatoria


Sea G(X) una función de la variable aleatoria X. Si X es una variable aleatoria discreta, entonces:
E G(X )  G(x) f x   G(x)PX  x 
xRX xRX

Varianza de una variable aleatoria


Si X es una variable aleatoria discreta, entonces:
 
V X    ( x   ) f x    x f x  
x
2 2 2
x
xRX  xRX 

Notas
6 Estadística Inferencial 2019-1

Distribución Binomial
Un experimento binomial consiste en una serie de n repeticiones de un experimento Bernoulli, donde
n se fija antes de realizar el experimento.
Las pruebas son independientes entre sí por lo que el resultado de un intento en particular no influye
en el resultado de cualquier otro.
La probabilidad de éxito es constante de una prueba a otra y la denotamos como p.
Se define la variable aleatoria binomial X como el número de éxitos observados en un experimento
binomial, es decir, X:= número de éxitos obtenidos en n repeticiones independientes de un
experimento de Bernoulli con probabilidad de éxito p.

La función de probabilidad de la variable aleatoria binomial X es:


f x   P X  x   C xn p x 1  pnx ; x  0, 1, 2,, n
Se denota X ~ B (n, p) y se lee X sigue una distribución binomial con parámetros n y p.

Esperanza de X:  EX  np
Varianza de X:  2  V  X   np1  p 

Distribución Geométrica
La variable aleatoria X tiene una distribución geométrica con parámetro p si X es el número de
repeticiones independientes de un experimento Bernoulli con P(E) = p hasta obtener un éxito.
La función de probabilidad de X es:
f (x)  P  X  x   q x 1 p ; x  1, 2, 3,...
Se denota X ~ G(p) y se lee X sigue una distribución geométrica con parámetro p.
1
Esperanza de X:   E X  
p
1 p q
Varianza de X:  2  VX  2  2
p p
La función de distribución acumulada de X es: F (x)  PX  x   1  (1  p) x ; x  1, 2, 3,...
Se cumple que P X  x   (1  p)x  q x ; x  1, 2, 3,...

Distribución de Pascal o Binomial negativa


Se define la variable Pascal con parámetros r y p como X número de repeticiones independientes de
un experimento Bernoulli con P(E) = p, hasta obtener r éxitos.
La función de probabilidad de la variable X es:
f (x)  P X  x   C rx11 1  px r pr ; x  r , r  1, r  2,...
Se denota X ~ P(r, p) y se lee X sigue una distribución Pascal con parámetros r y p.
r
Esperanza de X:   E X  
p
r1  p rq
Varianza de X:  2  VX    2
p2 p

Notas
7 Estadística Inferencial 2019-1
Distribución Hipergeométrica
El experimento hipergeométrico consiste en extraer al azar y sin sustitución n elementos de un
conjunto de N elementos, r de los cuales son éxitos y (N - r) son fracasos. Se define la variable aleatoria
hipergeométrica como X:= número de éxitos observados en la muestra de tamaño n.

La función de probabilidad de la variable X es:


Cxr CnNxr
f (x)  PX  x  ; x  max{0,n (N  r)},..., min{n,r}
CnN

Se denota X ~ H (n, r, N) y se lee que la variable aleatoria X sigue una distribución hipergeométrica con
parámetros n, r y N.
r
Esperanza de X:   E X   n
N
r N n 
 2  V X   n 1  
r
Varianza de X: 
N N  N  1 

Distribución de Poisson
Sea la variable discreta X definida como el número de veces que ocurre un evento en un intervalo dado
(área, volumen o cualquier medida continua). La variable aleatoria X usualmente se modela con una
distribución de Poisson de parámetro λ (λ > 0), que representa el número medio de éxitos en el
intervalo dado.

La función de probabilidad de la variable aleatoria Poisson X es:


ex
f x  PX  x  ; x  0, 1, 2,
x!
 = número esperado de éxitos por unidad de tiempo o región. e = 2,71828…

Se denota X ~ P() y se lee que la variable aleatoria X sigue una distribución Poisson con parámetro λ.

Esperanza de X:  EX
Varianza de X:  2  V X   

Notas
8 Estadística Inferencial 2019-1

Variable aleatoria continua


Una variable aleatoria continua X es aquella cuyo rango es un conjunto continuo, por lo general, un
intervalo de los números reales.
El rango de la variable aleatoria continua X es un conjunto infinito no numerable, por lo tanto, la idea
de asignar un valor de probabilidad a cada elemento del rango ya no es posible y es por ello que se
define la función de densidad que nos permitirá asignar probabilidades a los eventos relacionados con
X.

Función de densidad de una variable aleatoria continua


Se denomina función de densidad de probabilidad f(x) de una variable aleatoria continua X a la función
que satisface lo siguiente:
 f x  0 x RX

  f x dx  1
RX

Si A  RX , entonces PX  A  f xdx



A

El dominio de la función f(x) se puede extender a todos los números reales, si se define f(x) = 0 para
todo x  IR - RX

Interpretación geométrica
A partir de la primera condición f(x) ≥ 0, tenemos que los
valores de la función son mayores o iguales que 0, lo cual
implica que la gráfica está sobre el eje X.

A partir de la segunda condición concluimos que el área bajo


la gráfica de la función y por encima del eje X es igual a 1.

Se cumple que:
b
 Pa  X  b  f x dx

a
a
 
P ( X  a)  f ( x ) dx  0
a

 P(a  X  b)  P(a  X  b)  P(a  X  b)  P(a  X  b)

Notas
9 Estadística Inferencial 2019-1
Ejemplos de aplicación de distribuciones de variables continuas

La distribución Weibull se usa para modelar la velocidad del viento. Los


generadores eólicos de la foto están colocados entre los distritos de
Cupisnique en La Libertad y de Talara en Piura.
Foto: AFP

La distribución exponencial se usa en teoría de colas y problemas de


confiabilidad. El tiempo entre las llegadas en las instalaciones de servicio y el
tiempo de falla de los componentes y sistemas eléctricos, frecuentemente
involucran la distribución exponencial.

Imagen: http://ingunilibre.blogspot.pe/

El coeficiente intelectual es una herramienta para medir la


inteligencia. Fue aplicado por William Stern, un psicólogo alemán, en
1912, en base a la escala de inteligencia de Alfred Binet y Théodore
Simon. Otro método es el denominado WAIS, diseñado por David
Wechsler en 1939 con el objetivo de definir la inteligencia de
individuos entre los 16 a 64.
Tomado de http://www.guioteca.com/

Notas
10 Estadística Inferencial 2019-1
Ejercicio 2
El gasto mensual, en soles, de una persona que reside en el distrito Jesús María en bebidas gaseosas
se modela con una variable aleatoria X cuya función de densidad está dada por:

k(60  x) 0  x  60
f (x)  
 0 otro cas o
Calcule el valor de la constante k.

Calcule la probabilidad de que una persona gaste entre 25 y 45 soles.

Calcule la probabilidad de que una persona gaste más de 30 soles, si se sabe que ya gastó 30 soles en
PA B
dicho mes. Recuerde que PA B 
PB

Ejercicio 3
Notas
11 Estadística Inferencial 2019-1
Suponga que una estación de gasolina es abastecida cada sábado por la tarde. Si la demanda semanal
X (en miles de litros), es una variable aleatoria con la siguiente función de densidad:
k 0x 8
f (x)  
0 otro caso

Se debe construir un tanque nuevo para esta estación, que reemplazará al que se está utilizando.

Determine el valor de k.

Si se elige una semana de cada mes, calcule la probabilidad de que en más de dos semanas la demanda
supere los 6500 litros.

¿Cuál debe ser la capacidad de este tanque para tener una probabilidad de 0,985 de que se pueda
satisfacer la demanda en una semana determinada?

Notas
12 Estadística Inferencial 2019-1
Ejercicio 4
Si las ventas diarias (en miles de soles) en una tienda se modelan con una variable continua X con
función de densidad de probabilidad:

f ( x )  cx ; 0  x  10

a. Calcule el valor de la constante c.

Solución
10
10
x2
Como f(x) es una función de densidad  cx dx  1 , luego c  1 , de donde, 50 c  1 . Despejando
0
2 0
c = 0,02

b. Calcule e interprete P( X  5)

Solución
5
P( X  5)   f (x) dx  0,25 . La probabilidad de que las ventas en un día cualesquiera sean menores a
0
5 000 soles es de 0,25.

Calcule e interprete P( X  8)

Solución
10
P ( X  8)   f (x) dx  0,36 . La probabilidad de que las ventas en un día cualesquiera sean de al
8
menos 8 000 soles es de 0,36.

Distribución de probabilidad de una variable aleatoria

La distribución de probabilidad de una variable aleatoria X se denota f(x) y es:

 la función de probabilidad de X, si X es discreta


 la función de densidad de X, si X es continua.

Notas
13 Estadística Inferencial 2019-1
Esperanza de una variable aleatoria
Si X es una variable aleatoria continua, la esperanza de una variable aleatoria X con distribución de
densidad de probabilidad f(x) se denota E(X) y se define según el tipo de variable:

E X    xf x dx


A la esperanza E(X) también se le llama valor esperado o media de la variable X. También se le denota
por μX o μ.

Ejercicio 5
Dada la siguiente función de densidad de probabilidad de la variable aleatoria X
 x ; 0xk
f (x)  
2  x ; k  x  2

Calcule el valor esperado de X.

Esperanza de una función de variable aleatoria


Sea G(X) una función de la variable aleatoria continua X, entonces:

E G( X )  G(x) f x dx



Varianza de una variable aleatoria


La varianza V(X) de una variable aleatoria X con distribución de probabilidad f(x) se define por:

 
V X   E X   X   E ( X 2 )  E ( X ) 
2 2

La varianza de la variable aleatoria X, V(X), también se denota por  X2 o  2 .


Si X es una variable aleatoria continua, entonces:
2

  
V X   x f x dx   xf x dx 

2

 
   

Desviación estándar de una variable aleatoria


 X    X2

Notas
14 Estadística Inferencial 2019-1
Coeficiente de variabilidad
Sea X una variable aleatoria con distribución de probabilidades f(x). El coeficiente de variabilidad de la
variable aleatoria X es:
X
CVX  *100
X

Moda
La moda de la variable aleatoria X es el valor de x que maximiza su función de distribución f(x).

Ejercicio 6
La demanda diaria de gasolina, en miles de galones, en una refinería, se modela con una variable
aleatoria X con función de densidad f(x) dada por:
 2cx 0  x  1
f (x)  
c(3  x) 1  x  3
Calcule el valor de la constante c. Además, grafique la función de densidad f(x) de la variable X.

Calcule el coeficiente de variabilidad de X.

Calcule la moda de X.

Notas
15 Estadística Inferencial 2019-1

Notas
16 Estadística Inferencial 2019-1
Propiedades del valor esperado y la varianza de variables aleatorias
E(b) = b; Var(b) = 0 para cualquier constante real b.

Si X e Y son variables aleatorias, a y b son constantes, entonces:


E(aX + bY) = a E(X) + b E(Y)

Si Y = aX + b, con a y b son constantes, entonces:


E(Y) = a E(X) + b V(Y) = a2V(X)

Si X1, X2, X3, . . ., Xn son n variables aleatorias, y a1, a2, a3, . . ., an son n constantes, entonces:
E(a1X1 + a2X2 + …+anXn) = a1 E(X1) + a2 E(X1) + …+ anE(Xn)

Si X1, X2, X3, . . ., Xn son n variables aleatorias independientes, y a1, a2, a3, . . ., an son n constantes,
entonces:
V(a1X1 + a2X2 + … + anXn) = 𝑎12 V(X1) +𝑎22 V(X1) + …+ 𝑎𝑛2 V(Xn)

Función de distribución acumulativa de una variable aleatoria


La función de distribución acumulativa de la variable aleatoria X, es una función F : IR  IR , tal que:
F(x)  P(X  x)

Si X es una variable continua con función de densidad de probabilidad f(x)


a
F (a)  P(X  a)  f x dx



Para variables aleatorias continuas se cumple que:


 0  F(a)  P(X  a) 1

 Si x1 ≤ x2 entonces F(x1) ≤ F(x2)


 P(a < X ≤ b) = P(a ≤ X ≤ b) = F(b) – F(a)
 Si la variable X es continua se cumple que dF(x)  f x 
dx

 lim F x   0 y que lim F x   1


x  x 

Mediana
La mediana de la variable aleatoria X es el menor valor de x tal que su función de distribución
acumulada F(x) ≥ 0,50.

Percentil k
El percentil de la variable aleatoria X es el menor valor de x tal que su función de distribución
acumulada F(x) ≥ k/100.

Notas
17 Estadística Inferencial 2019-1
Ejercicio 7
Determine y grafique la función de distribución acumulada de la variable X. La función de densidad de
la variable aleatoria X es:
x  2 2  x  3

f (x)  k 3 x 4
0 otro cas o

Use la función de distribución acumulativa de X para calcular la probabilidad de que P(2,5 < X < 3,5)

Ejercicio 8
Suponga que la cantidad de dinero (en dólares) que ahorra una persona de un grupo social
determinado, es un fenómeno aleatorio cuya función de distribución acumulativa es la siguiente.
  x 
 
2

1
 e  5 0
x0
 2
F x    2
 1  5x 0
1  e  
x 0
 2
Tenga en cuenta que una cantidad negativa de ahorro representa una deuda.
¿Cuál es la probabilidad de que la cantidad ahorrada por una persona esté en -50 y 50 dólares?

Notas
18 Estadística Inferencial 2019-1
¿Cuál es la probabilidad de que esta persona ahorre a lo más 100 dólares si ya tiene a ahorrados por
los menos 50 dólares?

Ejercicio 9
El número de artículos X, en miles de unidades, de un cierto producto que una distribuidora vende
mensualmente a nivel nacional es una variable aleatoria con función de densidad definida por:
k4  x  0  x  4
f ( x)  
0 otros casos
Use la función de distribución acumulativa para calcular la mediana de X.

Si se define la variable aleatoria Y como el ingreso por ventas, tal que Y = 3 + 2X, calcule el coeficiente
de variabilidad de ingreso por concepto de las ventas de este producto.

Notas
19 Estadística Inferencial 2019-1
Ejercicios propuestos
1. Considere la variable aleatoria X, cuya función de distribución acumulativa es:
 0 x0
 x
 0 x 2
 8
F ( x)   2
x 2 x 4
 16
 1 x4 o.c.

a. Si seleccionamos un valor de X, calcule la probabilidad que este sea superior a 2,5 o inferior
a 0,5.
b. Calcule la media y la varianza de la variable aleatoria X.

2. Una abarrotera tiene un nivel de ventas Y de cierto alimento que se vende por libra. Y (medida
en cientos de libras) tiene una función de densidad de probabilidad determinada por la
expresión:
3y 2 0  y 1
f (y)  
 0 otro caso

a. Si la abarrotera tiene ventas por día menores de 30 libras se pierde 50 dólares, si la venta
supera las 70 libras se tiene una utilidad de 150 dólares, en otro caso la utilidad, es de 80
dólares. Calcule la utilidad promedio por día.
b. Si seleccionamos de forma independientemente seis días laborables y se observa el nivel de
ventas ¿Cuál es la probabilidad que en al menos cuatro de estos días la demanda supere las
80 libras?

3. El gasto mensual, en soles, en bebidas gaseosas de las personas que residen en Jesús María se
modela con una variable aleatoria X cuya función de densidad está dada por:
k(40  x) 0  x  40
f ( x)  
 0 otro cas o
3(   Me )
Calcule e interprete el valor del coeficiente de asimetría de Pearson, AS 

4. Suponga que la demanda diaria de azúcar (en cientos de kilogramos) en un supermercado es
una variable aleatoria X cuya función de densidad está dada por



kx 0x5
f (x)  k(1 0 x) 5  x  10

 0 o troca so
a. En un determinado día ya se vendió por lo menos 300 kilogramos, calcule la probabilidad que
en dicho día se vendan a lo más 900 kilogramos.
b. Este supermercado tiene una utilidad de:
- 850 soles si el nivel de ventas es menor que 400 kilogramos,
- 1100 soles si el nivel de ventas es superior a los 800 kilogramos
- k soles en otro caso.
Si el valor esperado de la utilidad es de 914 soles, ¿cuál es el valor de k?

Notas
20 Estadística Inferencial 2019-1
5. Un artículo que es fabricado por cierto proceso tiene una longitud X (en centímetros) que es una
variable aleatoria, cuya función de densidad está dada por:
x  1 1 x3

f ( x)   4
5x
 3 x5
 4
Si la longitud de un artículo tiene una diferencia con respecto a tres:
- de más de un centímetro se considera que es un artículo defectuoso,
- en caso contrario, se considera que es un artículo de buena calidad.
El costo de fabricar un artículo es de cinco soles y se vende en 15 soles. Un artículo se puede
vender solo si es de buena calidad, de lo contrario, es desechado.
a. Determine el porcentaje de artículos producidos que no son defectuosos.
b. Determine el valor esperado de la utilidad obtenida por la venta de uno de estos artículos.
c. Si se elige una muestra aleatoria de diez artículos, calcule la probabilidad de que se encuentre
por lo menos dos artículos de mala calidad en la muestra.

6. El retraso o adelanto (en minutos) de un vuelo de Phoenix a Tucson es una variable aleatoria
cuya función de densidad está dada por:
k(36  x2 )  6  x  6
f (x)  
 0 otro caso
donde los valores negativos son indicativos que el vuelo llega adelantado y los valores positivos
señalan que el vuelo llega retrasado.
a. Calcule la probabilidad que un vuelo llegue por lo menos dos minutos antes.
b. Calcule la probabilidad que un vuelo llegue con una diferencia de por lo menos cuatro
minutos con respecto a su horario establecido.
c. Calcule e interprete el valor esperado de esta variable.

7. En una distribuidora, el número de artículos, en miles de unidades, de un cierto producto


vendidos mensualmente es una variable aleatoria X con función de densidad definida por:
k4  x  0  x  4
f (x)  
 0 otro cas o
a. Calcule el valor de la constante k.
b. Calcule la probabilidad de que, en un determinado mes, el nivel de ventas supere las tres mil
unidades.
c. Si se define la variable aleatoria Y como el ingreso por ventas, tal que Y = 3 + 2X, calcule el
ingreso medio de las ventas por este producto.

8. Resolver las siguientes situaciones


a. La variable aleatoria W: Tiempo de vida útil de cierto componente electrónico, se comporta
de acuerdo a una distribución exponencial. El 22,313% de estos componentes tienen una
duración de por lo menos 180 horas. Si seleccionamos uno de estos componentes en forma
aleatoria, determine la probabilidad que funcione a lo más 210 horas.

b. El tiempo de espera, en minutos, para ser atendido en una consulta médica es una variable
aleatoria con distribución uniforme en [10, b], el 25% de los pacientes en esta consulta tienen

Notas
21 Estadística Inferencial 2019-1
que esperar por lo menos 25 minutos. ¿Cuál es tiempo promedio de espera de los pacientes
en esta consulta?
c. Considere la siguiente función:
x  2 1 x 3

f(x)   1 3 x 4
 0 otro cas o

¿Es esta una función de densidad para la variable X?

9. La proporción de utilidad en cierta transacción económica es una variable aleatoria cuya función
de densidad está dada por:
kx2 0  x 1
f ( x)  
0 otro caso
a. Determine el valor de la constante k para que f(x) sea una función de densidad.
b. Calcule la probabilidad de que el porcentaje de utilidad sea menor al 70%.
c. Calcule la probabilidad de que el porcentaje de utilidad sea mayor al 30%; si se tiene
información que dicho porcentaje fue menor al 80%.
d. Calcule la media y la varianza de la utilidad.
e. Si se realizan cinco de estas transacciones en forma independiente, calcule la probabilidad
que en tres de ellas se tenga un porcentaje de utilidad superior al 75%.

10. La vida útil, en horas, de un componente para computadoras personales se modela con una
variable aleatoria X con función de distribución acumulativa dada por:
 0 x0
 kx

F(X)   0  x  200
 200

 1 x  200
a. Determine la probabilidad de que dicho componente dure más de 120 horas.
b. Un componente que dura menos de 50 horas se considera defectuoso. Calcule la
probabilidad de que un componente sea defectuoso, si ya ha tenido una vida útil de 30 horas.
c. Calcule la media y la desviación estándar de la vida útil de estos componentes.

11. Determine la verdad o falsedad de los siguientes enunciados, justificando su respuesta.


a. Si el recorrido de una variable aleatoria X está dado por el intervalo [2, 15], el valor esperado
de X puede ser 17.
b. Una variable aleatoria X con rango [-20, 20] puede tener una varianza negativa.
c. Si se tiene una variable aleatoria X en soles, de modo que V(X) = 6 soles2, si la variable Y se
define como Y = 6X, entonces la varianza de Y es 36 soles2
d. Si la desviación estándar de X es 10, entonces la desviación estándar de Y = 2X – 4 es 20.
e. Si F(x) es la función de distribución acumulativa de una variable aleatoria X que tiene como
recorrido el intervalo [1, 4], entonces F(5) = 0,98

12. El peso neto, en kilos, de los artículos producidos por una máquina se modela con una variable
aleatoria X con la siguiente función de densidad:

Notas
22 Estadística Inferencial 2019-1
kx2 1  x 2

x
f (x)   2 x 4
 10
0 otro cas o

a. Calcule el valor de la constante k y determine la función de distribución acumulativa F(x).


b. Calcule la probabilidad de que un artículo tenga un peso entre 1,5 y 3 kilos.
c. Si un artículo tiene un peso de por lo menos un kilo y medio, ¿cuál es la probabilidad de que
pese a lo más 3,5 kilos?
d. Calcular la media y la desviación estándar del peso neto de estos artículos.
e. El costo por fabricar un artículo es de S/.80; si este artículo tiene un peso:
- inferior a 1,5 kilos, se vende a S/.60,
- superior a los 3 kilos, se vende a S/.110,
- entre 1,5 y 3 kilos inclusive, se vende a S/.140.
Calcule la ganancia media por artículo vendido.

13. El tiempo que espera un paciente para ser atendido en una consulta médica en los policlínicos
de ESSALUD, desde que entrega su cita en el módulo respectivo hasta que ingresa al consultorio,
es una variable aleatoria con media de 30 minutos y varianza de 36 minutos2. Ante las continuas
quejas de los pacientes, la gerencia de ESSALUD implementó mejoras en el sistema de atención
en los consultorios. Luego de estos cambios se logró reducir en un 25% los tiempos de espera
de los pacientes. ¿Cuál es el tiempo medio y la desviación estándar de los tiempos de espera de
los pacientes, luego de los cambios realizados?

14. Una variable aleatoria continua X tiene la siguiente función de distribución acumulativa:
 0 x0
 1
 x2 0  x 1

 4
F ( x)   1 1 5
2 x  4 1 x 
2

 1 x
5

 2
a. Calcule la siguiente probabilidad PX  2 X  0,5.
b. Calcule el valor esperado de X.
c. Si se sabe que Pk  X  2  11 , calcule el valor de la constante k.
16

15. El tiempo requerido, en minutos, para procesar un artículo es una variable aleatoria en la cual
se tiene que E(X) = 10 minutos y V(X) = 9 minutos2.
Se realizan ciertos reajustes al proceso de modo que luego de estos el tiempo medio es de 12
minutos y la varianza es de 2,25 minutos2. Si la transformación realizada fue de la siguiente
forma Y = a + bX, (donde Y representa los tiempos requerido luego de los reajustes), calcule los
valores de las constante a y b.

16. En una estación de servicio, la cantidad de combustible vendida al mes, en miles de galones, se
modela con una variable aleatoria X con la siguiente función de densidad:

Notas
23 Estadística Inferencial 2019-1
x , 0  x 1

f (x)  2  x , 1 x 2
0 , otro cas o

a. Calcule la probabilidad de que la estación de servicio entre 800 a 1200 galones de
combustible en un mes.
b. Si ya vendió 1000 galones en un mes en particular, ¿cuál es la probabilidad de que se venda
más de 1500 galones durante dicho mes?
c. Se ha determinado que la utilidad obtenida por la venta de combustible es de:
- 15000 soles si la cantidad vendida es de a lo más 900 galones,
- 35000 soles si la cantidad vendida es superior a los 1500 galones,
- 25000 soles en otro caso.
Calcule la utilidad esperada mensual por la venta de combustible.

17. Sea X una variable aleatoria cuya función de densidad está dada por:
x
4 0  x  2
 1
f (x)   2 x 3
2
 0 otro cas o

a. Determine la función de distribución acumulativa de X.
b. Calcule la probabilidad que X difiera del valor 2 en por lo menos 0,5 unidades.

18. El costo de un proyecto, en miles de dólares, está dado en función del tiempo que se emplea en
fabricarlo, dicha relación es C = 3X + 5X2. En este caso, la variable aleatoria X representa el tiempo
de fabricación y se sabe que:
 1   13
2
E  X    
 2   4
E[(X – 1)2] = 2
Calcule el costo esperado de un proyecto.

19. Considere la variable aleatoria X, cuya función de densidad está dada por la siguiente expresión:
bx 0  x 1
b 1 x 2

f ( x)  
3b  bx 2  x  3

0 otro cas o
a. Grafique la función f(x).
b. Determine y grafique la función de distribución acumulativa F(x).
c. Suponga que se realizan cinco observaciones independientes de este variable, ¿cuál es la
probabilidad que exactamente dos de estas observaciones sean mayores a 1,5?

20. Sea X una variable aleatoria cuya función de densidad está dada por:

Notas
24 Estadística Inferencial 2019-1
x
4 0  x  2
 1
f (x)   2 x 3
2
 0 otro cas o

Use la función de distribución acumulativa de X para calcular la probabilidad que X difiera del
valor 2 en por lo menos 0,5 unidades.

21. Sea X una variable aleatoria continua de modo que su función de densidad está dada por:
 1
 r  x k
f ( x)   k  r
 0 otro caso
donde r y k son dos constantes reales.
a. Si se sabe que E(X) = 5 y P(X > 6,5) = ¼ calcular los valores de r y k.
b. Si se tiene una variable aleatoria Y donde: Y = 2X2 + 6. Hallar E(Y)

22. La duración, en horas, de cierto tubo de radio se modela con una variable aleatoria X cuya
función de densidad es.
100
f x  x  100
x2
a. Calcule la probabilidad de que un tubo dure menos de 200 horas, si se sabe que todavía
funciona después de las 150 horas.
b. El costo por fabricar uno de estos tubos es 20 dólares; si la duración del tubo es:
- a lo más 150 horas el precio de venta es de 15 dólares,
- más de 200 horas el precio de venta es de 35 dólares,
- más de 150 pero menos de 200 horas su precio de venta es de 30 dólares.
Determine la utilidad media por unidad vendida.

23. El tiempo de vida útil (en horas) de un componente de los nuevos procesadores para PC se
considera una variable aleatoria X con función de distribución acumulativa dada por:
 0 x0
 ax  b

F (x)   0  x  200
 200
 1 x  200
Calcule la media y la desviación estándar del tiempo de vida útil de estos componentes.

24. Sea X una variable aleatoria con la siguiente función de distribución acumulativa:
 0 x0
 x

 0 x 1
F (x)   2
x  k 1  x  1,5


 1 x  1,5
Calcule, si existe, el valor de la constante k, de modo que F(x) sea una función de distribución
acumulativa para la variable X. De ser posible, calcule la función de densidad de X.

Notas
25 Estadística Inferencial 2019-1

Principales distribuciones de probabilidad

Distribución de probabilidad uniforme


La variable aleatoria X tiene una distribución uniforme en el intervalo [a, b], si su función de densidad
de probabilidad es:
1
f x   ; axb
ba

Se denota X ~ U(a, b) y se lee que la variable aleatoria X sigue una distribución uniforme con parámetros
a, b.
d
1 d c
Se cumple que P(c  X  d )   dx 
c
ba ba

 0 ; x a
x  a
Función de distribución acumulada: F ( x)   ; axb
b  a
 1 ; x b
ab
Esperanza de X:   E X  
2

Varianza de X:  2  V X  
b  a2
12

Ejercicio 10
Supongamos que el tiempo, en minutos, que se tarda un cajero de un banco en atender a un cliente
es una variable aleatoria con distribución uniforme en el intervalo [5, 15].
Indique y grafique la función de densidad de la variable aleatoria X.

Notas
26 Estadística Inferencial 2019-1
Calcule la probabilidad de que el tiempo de atención a un cliente sea de a lo más 9,5 minutos.

Calcule la probabilidad de que el tiempo de atención de un cliente esté entre 7 y 10 minutos.

Determine el coeficiente de variabilidad para el tiempo que se tarda el cajero en atender a un cliente.

Ejercicio 11
Si una variable aleatoria X que tiene distribución uniforme en el intervalo [a, b].
Se sabe que P(X < 4) = 0,2 y P(X < 10) = 0,8. Calcule el valor esperado y la desviación estándar de X.

Notas
27 Estadística Inferencial 2019-1
Distribución exponencial
En variables que representan los tiempos de vida útil, tiempos de sobrevivencia, en tiempos de
ocurrencia en procesos de Poisson se suele utilizar la distribución exponencial.

La variable aleatoria X tiene una distribución exponencial con parámetro β (β > 0) si su función de
densidad de probabilidad es:

x
1 

f ( x)  e ; x 0

Se denota X ~ Exp(β) y se lee que la variable aleatoria X sigue una distribución exponencial con
parámetro β.
La probabilidad de que la variable aleatoria X tome valores en el intervalo [c,d] es numéricamente igual
al área sombreada, y se calcula de la siguiente manera:
Pc  X  d  
d  1 t

c 
1
e dt

Esperanza de X:   EX  
Varianza de X:  2  V X    2

Nótese que el parámetro β es igual a la media de la variable aleatoria.

Función de distribución acumulativa de X

t t x
1  
F (x)  PX  x    e

dt  1  e 
; x 0
0

Se cumple que:
x

 P X  x   e 

 PX  k t / X  k  PX  t

Notas
28 Estadística Inferencial 2019-1
Ejercicio 12
Supongamos que el tiempo de vida útil de cierta marca de artefacto eléctrico es una variable aleatoria
con distribución exponencial, cuya media es cinco años.

Calcule la probabilidad de que un artefacto eléctrico de la marca indicada, tenga una vida útil de siete
años o menos.

Un artefacto eléctrico de dicha marca tiene más de cuatro años funcionando, ¿cuál es la probabilidad
de que funcione como máximo siete años?

Calcule la desviación estándar tiempo de vida útil de los artefactos eléctricos de la marca indicada.

Si se seleccionan al azar y de forma independiente seis de estos artefactos, calcule la probabilidad que
en por lo menos cuatro de estos artefactos eléctricos se observe una vida útil menor a seis años.

Notas
29 Estadística Inferencial 2019-1
Ejercicio 13
Se ha instalado una fábrica de componentes electrónicos y se tiene que decidir acerca de qué proceso
de producción se tiene que adoptar; se tienen dos posibilidades los cuales tienen las siguientes
características:
- empleando el proceso A, cuesta S/. k fabricar un componente,
- empleando el proceso B, cuesta S/.40 fabricar un componente.
Los componentes tienen un tiempo de funcionamiento hasta la primera falla que es una variable
aleatoria exponencial cuyas medias son 230 y 250 horas con el proceso A y con el proceso B
respectivamente.
Debido a una cláusula de garantía, si un componente tiene un tiempo de duración hasta la primera
falla de a lo más 280 horas, el fabricante debe pagar una pena de 200 soles.
Calcule el valor de k de modo que el costo total esperado con el proceso A sea igual al costo total
esperado con el proceso B.

Notas
30 Estadística Inferencial 2019-1
Distribución normal
Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica
su utilización por la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse en su
comportamiento aleatoria a esta distribución.
En resumen, la importancia de la distribución normal se debe a que hay muchas variables asociadas a
fenómenos naturales que siguen el modelo de la distribución normal.

La variable aleatoria X tiene una distribución normal con parámetros μ y σ2 (σ2 > 0) si su función de
densidad de probabilidad es:

2
1  x  
1   
f x   e 2  
; x  IR
 2

Se denota X ~ N (, 2) y se lee que la variable aleatoria X sigue una distribución normal con parámetros
µ y σ2.

Esperanza de X: X  EX  
Varianza de X:  X 2  V X    2
La función de densidad de una variable normal tiene forma de campana y es simétrica, por lo que las
medidas de tendencia central coinciden.
El rango de la variable aleatoria normal es el conjunto de los números reales.

Distribución normal estándar

X
Sea X ~ N(μ,σ2), si se define la variable aleatoria Z  , entonces Z tiene distribución normal

Además, se cumple que E(Z) = μZ = 0 y V(Z) = σZ2 = 1.

Se dice que la variable aleatoria Z ~ N(0,1) tiene una distribución normal estándar.
La función de distribución acumulada de Z se denota por  (z ) .

Notas
31 Estadística Inferencial 2019-1
Uso de la tabla de la distribución normal estándar
Sea Z ~ N(0,1), en la tabla podemos encontrar las probabilidades acumuladas hasta cierto valor z, es
decir ( z)  P( Z  z)

Ejercicio 14
Calcular P(Z ≤ 0,24).

Usando la tabla podemos determinar que P(Z ≤ 0,24) =  (0,24 ) = 0,59483

Calcular c para que P(Z ≤ c) = 0,88100

De acuerdo con la condición dada, P(Z  c)  (c)  0,881 00. Usando la tabla de forma inversa,
encontramos que (1,18)  0,88100 . Por lo tanto, podemos concluir que c = 1,18.

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586
0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535
0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409
0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173
0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793
0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240
0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490
0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524
0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327
0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891

1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214
1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298
1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147

Notas
32 Estadística Inferencial 2019-1
Ejercicio 15
Si Z ~ N    0, 2  1 , calcule:

P(Z ≤ 1,74) =

P(Z > -2,36) =

P(-1,23 ≤ Z < 3,1) =

P(Z > 1,65/Z < 2,32) =

Calcule c para que P(Z < c) = 0,9750

Calcule c para que P(-c < Z < c) = 0,90

Notas
33 Estadística Inferencial 2019-1
Cálculo de probabilidades para una variable normal
Sea X ~ N(μ, σ2),
Nos piden calcular
Pa  X b
Entonces, estandarizando se tiene que:
a  X   b   a  b b a  
P a  X  b  P     P Z       
              
b a  
Los valores de   y   se determinan usando la tabla de la distribución normal
     
estándar.

Ejercicio 16
Sea X ~ N(μ = 20; σ2 = 16) entonces:

 18  20 X   21  20 
P18  X  21  P     P 0,5  Z  0,25
 4  4 
 0,25   0,5  0,59871- 0,30854  0,29017

Ejercicio 17
Los sueldos mensuales de los trabajadores de la empresa Export S.A. se comportan de acuerdo con
una distribución normal con media 3 600 soles y desviación estándar de 400 soles.
¿Cuál es la probabilidad que un trabajador elegido al azar tenga un sueldo de a lo más 3 750 soles?

¿Cuál es la probabilidad que un trabajador elegido al azar tenga un sueldo entre 3 300 y 4 000 soles?

Notas
34 Estadística Inferencial 2019-1
Si seleccionamos 15 trabajadores aleatoriamente de la empresa Export S.A., ¿cuál es la probabilidad
que se seleccione a lo más dos trabajadores con un sueldo mensual superior a los 3 850 soles?

Ejercicio 18
Si Y es una variable aleatoria con distribución normal con media 0 y varianza 4, calcular la siguiente
Y  1,855
probabilidad P 
Y  1,067

Ejercicio 19
Al establecer garantías a sus televisores, el fabricante desea establecer los límites de manera que muy
pocos requieran ser reparados a expensas del fabricante. Por otra parte, el periodo de garantía debe
ser lo bastante largo para hacer que la compra sea atractiva para el cliente. Para un televisor nuevo, el
número medio de meses que transcurren hasta que se requieren reparaciones es de 36,84 meses con
una desviación estándar de 3,34 meses y se comporta de acuerdo a una distribución normal. ¿En dónde
deberán establecerse los límites de garantía de modo que sólo el 10% de los televisores deban ser
reparados a expensas del fabricante?

Notas
35 Estadística Inferencial 2019-1
Ejercicio 20
En una fábrica se tienen dos líneas de producción A y B, el 60% de la producción corresponde a la línea
A y el resto a la línea B. El peso de los productos producidos por A tienen un peso que tienen una
distribución normal con media 80 gramos y varianza 25 gramos2, y los artículos producidos por B tienen
un peso que tiene una distribución normal con media 90 gramos y una varianza de 36 gramos2. Al final
del día de la producción total se selecciona un artículo al azar ¿Cuál es la probabilidad que tenga un
peso superior a los 85 gramos?

Ejercicio 21
Suponga que Y tiene una distribución normal con media μ y varianza σ2. Después de observar un valor
de Y, se construye un rectángulo con L  Y de largo y W  3 Y de ancho. Si A es el área del
rectángulo, calcule E(A), el valor esperado de dicha área en términos de μ y σ2.

Notas
36 Estadística Inferencial 2019-1
Ejercicio 22
Si los puntajes de los postulantes en un examen de ingreso se distribuyen como una variable aleatoria
normal con una media de 1 200 y una desviación estándar de 300 puntos.
a. Encontrar la probabilidad de que el puntaje de un postulante sea de por lo menos 1 300.
b. Si se ha establecido que ingresarán el 12,3 % de los postulantes con puntajes más altos, hallar el
puntaje mínimo para ingresar.

Solución

Definamos la variable aleatoria


X:= Puntaje de un postulante.
Se tiene que:
μ = 1 200, σ = 300, σ2 = 3002.
De donde, X ~ N(1 200, 3002)

a. La probabilidad de que el puntaje de un postulante sea de por lo menos 1300 puntos es:

PX  1300  1  PX  1300


 X  1200 1300  1200 
 1  P  
 300 300 
 1  PZ  0,33  1  0,33  0,3707

b. Sea k el puntaje mínimo para ingresar.

Se tiene P(X  k)  0,123, luego P(X  k)  0,877.


Estandarizando tendremos que:
 X  1 200 k  1 200   k  1 200 
P    P Z    0,877
 300 300   300 
k  1 200 
De lo cual, se tiene que     0,877
 300 
k  1 200
En la tabla N(0, 1) observamos que (1,16)  0,8770, luego  1,16 , de donde k = 1 548.
300
Por lo tanto, el puntaje mínimo para ingresar debe ser 1 548 puntos.

Notas
37 Estadística Inferencial 2019-1
Propiedades de la distribución normal

La suma de variables aleatorias normales independientes es otra variable aleatoria con distribución
normal.
 Si X i ~ N  i , i2  (i = 1, 2,…, n) son variables aleatorias independientes y c1, c2,…, cn son constantes

 
n
reales, entonces la variable S  c1 X1  c2 X2  ...  cn Xn  c X
i 1
i i ~ N S ;  S2 , donde:
n
E(S)   S  c1 1  c2 2  ...  cn n  c i 1
i i

n
V (S)   S2  c12 12  c22 22  ...  cn2 n2  c 
i 1
2
i
2
i

 En particular, si X1, X2, X3,...Xn son variables aleatorias independientes e idénticamente distribuidas,
tales que Xi ~ N(μ, σ2) (i = 1, 2,…, n) entonces la variable:

 X ~ N 
n
S  X1  X2  ...  Xn  i S  n;  S2  n 2
i 1

 Sean X1, X2, X3,...Xn variables aleatorias independientes e idénticamente distribuidas, tales que
Xi~N(μ, σ2) (i = 1, 2,…, n) entonces la variable:
n

X  X 2  ...  X n
X i
 2 
X 1  i 1
~ N  X   ;  X2  
n n  n 

Ejercicio 23
Sean X ~ N(8, 10) e Y ~ N(12, 25) variables aleatorias independientes, indicar la distribución de las
siguientes variables:
S = X +Y

S=X-Y

S = 2X - 5Y

Notas
38 Estadística Inferencial 2019-1
Ejercicio 24
El ingreso familiar en cierta zona de la ciudad se comporta de acuerdo a una distribución normal cuyo
promedio es de 3200 soles y una varianza de 250000 soles2. Una empresa de investigación de
mercados desea determinar algunas característica de interés de esta población para lo cual selecciona
una muestra aleatoria de 25 familias
Determine la probabilidad que la suma de los ingresos familiares de esta muestra sea menor a 79 000
soles.

Determine la probabilidad que el ingreso familiar promedio de esta muestra supere los 3500 soles.

Si se desea tener una diferencia, entre el promedio de la muestra y el promedio real, de a lo más 150
soles con una probabilidad del 95% ¿Qué tamaño de muestra se debe seleccionar como mínimo?

Notas
39 Estadística Inferencial 2019-1

Teorema central del límite


Sean X1, X2, X3,...Xn n variables aleatorias independientes e idénticamente distribuidas con media  y
varianza 2.
Si definimos la variable aleatoria S = X1 + X2 + X3 +...+ Xn se cumple que la distribución de probabilidad
de S se aproxima a una distribución normal a medida que n crece.
En general, se considera que la distribución de S es aproximadamente normal si n  30.
Se tiene que:
Valor esperado de S: ES  S  n
Varianza de S: V S    S2  n 2

Ejercicio 25
Un jugador paga 10 dólares cada vez que participa en un juego de azar, en cada juego puede tener un
premio de 30 dólares con una probabilidad 0,7 o no tener premio alguno (por lo tanto pierde lo
apostado) con una probabilidad 0,3. Si esta persona decide realizar este juego 60 veces ¿Cuál es la
probabilidad que tenga una ganancia neta total de por lo menos 700 dólares?

Ejercicio 26
La demanda diaria de agua por habitante en cierto sector de una ciudad es una variable aleatoria con
media de 350 litros y desviación estándar de 150 litros. La disponibilidad de agua para el consumo de
este sector de la ciudad se almacena diariamente en un tanque elevado cuya capacidad es de 160000
litros. Si en este sector de la ciudad residen 450 habitantes, ¿cuál es la probabilidad que la demanda
de agua supere a la disponibilidad en un día cualquiera?

Notas
40 Estadística Inferencial 2019-1
Aplicación del teorema central del límite en la media muestral
Sea X1, X2,…, Xn una muestra aleatoria de tamaño n de la variable aleatoria X tal que E(Xi) = , V(Xi) = 2
(i = 1, 2,…, n).
n

X
i 1
i
Si n ≥ 30, la estadística media muestral, X  tiene una distribución aproximadamente normal,
n
 2 
es decir, X  N   X   ,  X   .
2

 n 
Ejercicio 27
Una persona lanza un dado mil veces. Calcule la probabilidad de que la media muestral de los 1000
lanzamientos esté entre 3,45 y 3,55.

Aplicación del teorema central del límite en la proporción muestral


Sea X1, X2,…, Xn una muestra aleatoria de tamaño n de una variable aleatoria X  Bernoulli(π).
n

x
i 1
i
Si n ≥ 30, la estadística proporción muestral P  ; tiene una distribución aproximadamente
n
 1    
normal, es decir, P  N  P   ,  P2  
 n 
Ejercicio 28
En un país el 74% de sus habitantes considera que la sociedad de su país es machista. Si se toma una
muestra aleatoria de 500 habitantes, calcule la probabilidad de que menos del 73% de los encuestados
consideren que la sociedad de su país es machista.

Notas
41 Estadística Inferencial 2019-1
Distribución chi-cuadrado

La variable aleatoria X tiene una distribución chi cuadrado con m grados de libertad (m es un entero
positivo) si su función de densidad de probabilidad es

m x
1 1 
f (x)  m
x2 e 2 , x0

2 2 (m / 2)

Se denota X ~ 2 (m) y se lee que la variable aleatoria X sigue una distribución chi cuadrado con m
grados de libertad.

El rango de la variable aleatoria chi cuadrado es el conjunto de los números reales no negativos.

La función de densidad de una variable chi cuadrado tiene sesgo positivo.

Esperanza de X:   EX  m
Varianza de X:  2  V X   2m

Se cumple que
Si Zi ~ N(0, 1) (i = 1, 2,…, m) son independientes y sea X  Z12  Z 22  ...  Z m2 , entonces X ~ 2(m)

Propiedad reproductiva de la chi cuadrado


Si X ~ 2(ri) (i = 1, 2,…, n) son variables aleatorias independientes S = X1 + X2 +… + Xn entonces S ~ 2(r1
+ r2 +…+ rn)

Notas
42 Estadística Inferencial 2019-1
Ejercicio 29
Considere una variable aleatoria X con distribución chi cuadrado con 20 grados de libertad.
Calcular:

P(X < 12,443)

P(X > 31,41)

P(14,578  X  34,17)

El valor de c tal que P(X > c) = 0,05

Notas
43 Estadística Inferencial 2019-1
Distribución t de Student

La variable aleatoria X tiene una distribución t de Student con m grados de libertad (m es un entero
positivo) si su función de densidad de probabilidad es

 m1  m1 
   
 2   x2   2 
f (x)   1  
(m / 2) m  m

Se denota X ~ t(m) y se lee que la variable aleatoria X sigue una distribución t de Student con m grados
de libertad.

La función de densidad de una variable t de Student es simétrica respecto al cero y tiene forma de
campana.

El rango de la variable aleatoria t de Student es el conjunto de los números reales.

Esperanza de X:   EX  0
m
Varianza de X:  2  V X   m2
m2

Propiedad de la distribución t de Student


Sea X ~ t(m) si r tiende al infinito, entonces X tiene una distribución aproximadamente N(0,1).

Notas
44 Estadística Inferencial 2019-1
Ejercicio 30
Si X es una variable que tiene distribución t de Student con 10 grados de libertad.

Calcule:
P(X < 1,812)

P(X > 2,228)

P(X  -2,359)

El valor de c tal que P(- c < X < c) = 0,90

P(X > - 2,764)

Notas
45 Estadística Inferencial 2019-1
Distribución F de Fisher

Se dice que X es una variable aleatoria que tiene una distribución F de Fisher con m grados de libertad
en el numerador y n grados de libertad en el denominador, si su función de densidad de probabilidad
es:

mn
  m m
1
 2   m  2 x 2
f ( x)    m n
x0
m n n
      m  2
 2  2 1  x 
 n 

Se denota X ~ F (m, n) y se lee que la variable aleatoria X sigue una distribución F de Fisher con m y n
grados de libertad.

El rango de la variable aleatoria F es el conjunto de los números reales no negativos.

La función de densidad de una variable F tiene sesgo positivo.

n
Esperado de X :   E X  
n2

2n2 n  m  2
Varianza de X:  2  V X  
mn  2 n  4
2

Propiedad de la distribución F
1
Se cumple que: F ,m,n 
F1 ,n,m
1 1
Por ejemplo, F0,0 5;1 0;1 2  0,343  
2,913 F0,9 5,1 2,1 0

Notas
46 Estadística Inferencial 2019-1
Ejercicio 31
Si X es una variable que tiene distribución F de Fisher con 10 grados de libertad en el numerador y 12
grados de libertad en el denominador, calcular:

P(X > 2,753)

P(X ≤ 0,343)

Hallar k de modo que P(X < k) = 0,95

Ejercicios propuestos
25. Supongamos que cierta tarea requiere, para ser culminada, un tiempo X el cual tiene un
comportamiento aleatorio y que se ajusta a una distribución uniforme, con media 10 horas y
varianza 12 horas2.
a. Calcule la probabilidad de que se requieran por lo menos ocho horas para culminar esta
tarea.
b. El costo (en soles) requerido para realizar esta tarea está dado por la siguiente expresión: C=
20 + 4X ¿Cuál es la probabilidad de que se requiera un costo mayor a 60 soles, en esta tarea?

26. En una zona, el peso de un adulto puede modelarse con una variable aleatoria normal. El peso
medio para los varones es de 75 kilos y de 65 kilos para las mujeres, mientras que sus
desviaciones estándar fueron de 10 kilos y 5 kilos respectivamente.
a. Si se elige, al azar, a un hombre y una mujer, calcule la probabilidad de que la mujer pese
más que el hombre.
b. Un ascensor tiene como límite de carga 400 kilos. Si suben al ascensor cuatro hombres y dos
mujeres, calcule la probabilidad de que se supere el límite de carga.
c. Si en dicha zona, el 55% de las personas adultas son hombres y se elige un adulto al azar,
¿cuál es la probabilidad de que la persona elegida pese menos de 70 kilos?

27. El ingreso familiar en cierta zona de la ciudad se comporta de acuerdo a una distribución normal
cuyo promedio es de 3200 soles y una varianza de 250000 soles2. Una empresa de investigación
Notas
47 Estadística Inferencial 2019-1
de mercados desea determinar algunas característica de interés de esta población para lo cual
selecciona una muestra aleatoria de 25 familias
a. Determine la probabilidad que el ingreso familiar promedio de esta muestra supere los 3500
soles
b. Si se desea tener una diferencia, entre el promedio de la muestra y el promedio real, de a lo
más 150 soles con una probabilidad del 95% ¿Qué tamaño de muestra se debe seleccionar
como mínimo?

28. Suponga que una operación de venta puede tener tres posibles resultados, los cuales son: ganar
diez dólares, con probabilidad 0,2; perder tres dólares con probabilidad 0,3; resultado neutro
(no gana ni pierde) con probabilidad 0,5. Si en un día determinado, se realiza 80 de estas
operaciones y podemos considerar que cada operación es independiente, determine la
probabilidad de que en ese día se tenga una ganancia de por lo menos 95 dólares.

29. Los puntajes de una prueba de aptitud aplicada a los trabajadores de una gran empresa, se
comportan de acuerdo a una distribución normal con un promedio de 120 puntos, además se
sabe que el 15% de los trabajadores que rinden esta prueba tienen un puntaje superior a 146.
En la empresa se premiará a los trabajadores que tengan un puntaje superior a 160. Si la
empresa tiene 980 trabajadores ¿cuántos de ellos se harán acreedores al premio ofrecido por la
empresa?

30. El tiempo de vida útil de un componente electrónico es una variable aleatoria X que se comporta
de acuerdo con una distribución exponencial con media de 40 meses. Las empresas que
adquieren este componente y lo utilizan, tienen un beneficio final (por unidad) en dólares, que
es una variable aleatoria Y la cual se puede expresar por Y = 10 + 0,25X2. Calcule el valor esperado
del beneficio por componente utilizado.

31. La demanda diaria, en kilogramos, de cierto tipo de grano se comporta de acuerdo con una
distribución uniforme en el intervalo [4,9]. Si en un día se vende:
- al menos seis kilogramos, se obtiene una utilidad neta de k soles,
- es inferior a los seis kilogramos, se obtiene una utilidad neta de k/3 soles.
¿Cuál es el valor de k, si la media de la utilidad neta diaria es de 50 soles?

32. La venta diaria, en miles de dólares, de un artículo en el periodo de Navidad se puede considerar
como una variable aleatoria de distribución uniforme con media 10. Además, se sabe que la
probabilidad que tome valores mayores que 12 es 3/8. ¿Cuál es la probabilidad de que la venta
de un día supere los 15 mil dólares?

33. La comisión de privatización está estudiando la posibilidad de vender la empresa Estado S.A. Un
experto estima que el precio ofertado, en dólares, por sus posibles compradores se modela con
una variable uniforme X con parámetros [a, b], donde a = 2k/3 y b = 2k, siendo k el precio real
de la empresa.
a. Calcule la probabilidad de que la empresa Estado S.A. se venda por encima de su precio real.
b. Si la utilidad obtenida por la venta de esta empresa es una variable aleatoria U que está en
función del precio real y del precio ofertado, es decir U = X – k. Calcule la probabilidad de que
la utilidad sea al menos la mitad del precio real de la empresa.

34. El gasto mensual, en soles, por concepto de mantenimiento de un equipo es una variable
aleatoria X, con distribución normal con media de 250 soles. Se sabe que el 14,92% de las veces
este gasto es de al menos 276 soles. Se le pide calcular:

Notas
48 Estadística Inferencial 2019-1
a. La desviación estándar de la distribución de gastos mensuales.
b. La probabilidad de que el gasto en un determinado mes como máximo 230 soles o como
mínimo 260 soles.
c. Si se eligen al azar seis meses, calcule la probabilidad de que en más de dos de ellos se tenga
un gasto que difiera de la mediana del gasto en no más de una desviación estándar.
d. En un determinado mes, se elige al azar una decena de estos equipos. Calcule la probabilidad
de que estos equipos generen un gasto en mantenimiento que sea de a lo más 2800 soles,
que es lo máximo que destina la empresa en estudio. ¿Debería preocuparse está empresa
por exceder su presupuesto para este rubro?

35. La vida útil de un componente electrónico se comporta de acuerdo con una distribución
exponencial con parámetro β = 50 horas. Con la finalidad de lograr una mejora en la vida útil de
este componente, la empresa que los fabrica adquirió máquinas más modernas para
producirlos. En el informe de la evaluación de resultados, el ingeniero a cargo indicó que la vida
útil del componente se multiplicó por un factor a (a > 1), aumentó en b horas, y que la nueva
media de la vida útil de los componentes es de 65 horas y con una desviación estándar de 60
horas.
a. ¿Es la vida útil de los componentes más variable después de la modificación?
b. Calcule los valores de a y b a los que se refiere el ingeniero a cargo de la producción.

36. Si una compañía comercial contrata n vendedores, sus ventas brutas mensuales, en miles de
soles, pueden considerarse como una variable aleatoria con distribución uniforme en el
 
intervalo 80 n , 120 n . El costo de ventas es de 5 000 soles por cada vendedor
contratado. Calcule el número de vendedores a contratar para que el valor esperado de la
utilidad de la compañía sea máximo.

37. El precio, en soles, de cierto artículo de temporada es una variable aleatoria que tiene
distribución uniforme en el intervalo [20,30]. Por fin de temporada se desea realizar una rebaja
en el precio de estos artículos de modo que la media del precio se reduzca a 22 soles y se tenga
una varianza de 16 soles2. ¿Cuál es la transformación que se debe de realizar en los precios de
3
dichos artículos? Considere una transformación lineal de la forma Y = a + bX.

38. Un corredor de inmuebles cobra honorarios fijos de 500 dólares más una comisión del 6% sobre
el beneficio obtenido por el propietario. Si el beneficio obtenido por el propietario se distribuye
en forma uniforme en el intervalo [10 500, 13 500] dólares.
a. ¿Cuánto espera obtener el corredor de inmuebles por sus honorarios?
b. ¿Cuál es la probabilidad que obtenga honorarios superiores a 1 200 dólares?

39. El tiempo, en minutos, que transcurre antes de que un cliente sea atendido en una cafetería es
una variable que tiene una distribución exponencial. Por consideración a los clientes, se procura
que estos sean atendidos lo antes posible, de tal modo que, en esta cafetería, solo el 8,21% de
clientes esperan más de 10 minutos para ser atendidos.
a. Calcule la media del tiempo que transcurre antes de que un cliente sea atendido.
b. Si ingresan dos clientes y los tiempos transcurridos antes de ser atendidos son
independientes, ¿cuál es la probabilidad de que dichos tiempos sean de a lo más cuatro
minutos en ambos casos?

Notas
49 Estadística Inferencial 2019-1
40. El tiempo para que se atienda el pedido de una persona en la cafetería de la universidad es una
variable exponencial de media igual a cuatro minutos.
a. Calcule la probabilidad de que una persona sea atendida en menos de tres minutos.
b. Calcule la probabilidad de que el tiempo de espera de una persona sea mayor a tres minutos
pero menor a seis minutos.
c. ¿Cuántos minutos, como máximo, tendrá que esperar una persona para que se atienda su
pedido con probabilidad de 0,90?

41. La vida útil de un equipo electrónico se comporta de acuerdo con una variable exponencial, con
media de 60 meses. Se desea otorgar una garantía de modo que se tenga que reparar todo
equipo que dure menos de t horas.
a. Calcule el valor de t de modo que el departamento de reparaciones tenga que reparar sólo
el 1% de los equipos.
b. Supongamos que la venta de uno de estos artefactos genera una ganancia neta de:
- 190 soles, si se malogra después de los 75 meses,
- 120 soles, si se malogra antes de los 45 meses,
- 145 soles, en otros casos.
Determine la media ganancia neta por la venta de estos equipos electrónicos.
42. Un foco tiene una vida útil, en horas, que se ajusta a una variable aleatoria con distribución
exponencial. El 30% de las bombillas tienen una vida útil de más de 96,32 horas. Si se adquiere
un lote de 350 de estos focos, ¿cuántos se espera que tengan una vida útil mayor a 100 horas?

43. Se ha instalado una fábrica de componentes electrónicos y se tiene que decidir acerca de qué
proceso de producción se tiene que adoptar. El precio de fabricar un componente es:
- 20 soles empleando el proceso A,
- 30 soles empleando el proceso B.
Los componentes tienen un tiempo de funcionamiento hasta la primera falla que es una variable
exponencial cuyas medias son 220 y 280 horas con el proceso A y con el proceso B
respectivamente.
Debido a una cláusula de garantía, si un componente tiene un tiempo de duración hasta la
primera falla menor a 400 horas, el fabricante debe pagar una pena de S/.80. Calcule el valor
esperado del costo total en cada proceso y luego indique qué proceso de producción será más
conveniente adoptar.

44. Las ventas mensuales, en soles, de una empresa se modela con una variable aleatoria uniforme
X en el intervalo [100 000, 300 000].
a. Calcule la probabilidad de que, en un determinado mes, el nivel de ventas sea superior a 120
mil soles pero menor a 250 mil soles.
b. Antes de que acabe un mes, las ventas ya han sido de 150 mil soles, calcule la probabilidad
de que las ventas sean menores a 200 mil soles en dicho mes.
c. Calcule la media y la desviación estándar del nivel de ventas mensuales.
d. Debido a ciertas medidas económicas, la utilidad Y es una variable cuya relación con las
ventas es Y = 0,3X – 45000. Calcule la media y la desviación estándar de la utilidad.

45. Una fábrica de jugo de manzana emplea una máquina para envasarlo la cual está regulada para
que llene automáticamente 25 onzas. No obstante, la cantidad que llena en cada botella varía.

Notas
50 Estadística Inferencial 2019-1
Se observó que la cantidad de líquido que se vierte en cada botella se aproxima a una
distribución normal con una media de 24,5 onzas y una varianza de 2,25 onzas2.
a. ¿Qué porcentaje de botellas de jugo de manzana contendrá más de 26 onzas?
b. ¿Cuál es la probabilidad de que una botella contenga entre 23,5 y 26 onzas?
c. ¿Cuál es el contenido máximo del 25% de botellas con menor contenido?
d. Calcule la probabilidad de que por lo menos dos de diez botellas seleccionadas al azar tengan
como mínimo 25,5 onzas. Asuma independencia entre los contenidos de las botellas.
46. El gasto mensual, en soles, por mantenimiento de un equipo es una variable aleatoria X que
tiene una distribución normal con media de 250 soles. Se sabe que el 85,083% de las veces este
costo es menor a 276 soles.
a. Calcule el valor de la varianza de X.
b. Calcule la probabilidad que el gasto mensual sea menor a 230 soles o mayor a 260 soles.
c. Si consideramos que los costos por mantenimiento al mes son independientes, calcule el
costo máximo por mantenimiento en un año con probabilidad de 0,975.

47. En la empresa Granda S.A., el sueldo mensual de los trabajadores tienen una distribución normal
con media 3 800 soles, una desviación estándar σ. Se sabe que el 84,13% de sus trabajadores
tienen un sueldo mensual menor a 4 200 soles. Calcule la desviación estándar de los sueldos
mensuales de los trabajadores de esta empresa.

48. Para producir un producto se requiere de un componente específico a granel. La cantidad del
producto utilizada en un día, en toneladas, se modela con una distribución exponencial con
media de cuatro toneladas.
a. Encuentre la probabilidad que la fábrica utilice más de cinco toneladas en un día.
b. ¿Qué cantidad del producto habría que almacenar para que la probabilidad de que se agote
la existencia en un día cualquiera sea de 0,05?

49. Los ingresos semanales por ventas en las farmacias de un sector de Lima se modelan por una
variable normal. Se conoce que el 0,82% de estos establecimientos tiene ingresos superiores a
5 800 soles y el 10,2% ingresos inferiores a 1 200 soles. Si en este sector hay 950 farmacias,
¿cuántas de ellas tendrán ingresos semanales superiores a 3 800 soles? Asuma independencia.

50. En una investigación acerca del rendimiento escolar, la psicóloga a cargo tiene la siguiente
información con respecto a las calificaciones de los estudiantes en una evaluación:
- el 30,85% de los estudiantes obtuvo una calificación menor a 13,
- el 2,28% de los estudiantes obtuvo una calificación superior a 18.
La calificación se modela con una variable con distribución normal.
a. Calcule la media y la desviación estándar de las calificaciones en esta evaluación.
b. Calcule la probabilidad de que un alumno tenga una calificación superior a 15.

51. Las calificaciones de una prueba de aptitud de candidatos a laborar en una compañía se
distribuyen normalmente con una media de 70 puntos y una desviación estándar de 10 puntos.
Los candidatos con una calificación entre 61 y 79 puntos se clasifican en la categoría C.
a. Se evalúa a 24 candidatos, ¿cuántos se espera que estén en la categoría C?
b. Un candidato evaluado obtuvo 92 puntos, ¿pertenece al quinto superior?

Notas
51 Estadística Inferencial 2019-1
52. Al inspeccionar la calidad de un producto se ha determinado dos tareas claves, las cuales se
realizan de manera independiente y una después de la otra. El tiempo que se emplea para la
primera tarea es una variable aleatoria con distribución normal con  = 10 minutos y  = 1,5
minutos. Para la segunda tarea, se emplea un tiempo que también se comporta de acuerdo a un
distribución normal con  = 15 minutos y  = 2 minutos
a. ¿Cuál es la probabilidad que en la inspección se emplee más de media hora?
b. ¿En qué tiempo máximo se concluirá la inspección con una probabilidad de 0,95?

53. Un producto tiene un peso que se comporta como una variable aleatoria normal con media de
250 gramos y una desviación estándar de 10 gramos. Para su venta, este producto es embalado
en cajas que contienen 20 unidades. Asuma independencia.
a. Calcule la probabilidad de que una caja llena pese a lo más 5,5 kilogramos.
b. Calcule el peso mínimo del 10% de las cajas más pesadas.

54. Un tren recorre el trayecto AC en un tiempo, en horas, que es una variable aleatoria normal
donde µ = 3 y  = 0,4; y otro tren saliendo a la misma hora de B recorre el trayecto BC en un
tiempo, en horas, que es una variable aleatoria normal donde µ = 3,2 y  = 0,3. En C se debe de
realizar un trasbordo de pasajeros. Calcule la probabilidad de que, en un día cualquiera, los
pasajeros de un tren hayan tenido que esperar al otro tren más de media hora.

55. El tiempo de vida útil de un componente tiene distribución exponencial con media de 20 horas.
Estos componentes se utilizan uno a continuación de otro, si uno deja de funcionar,
inmediatamente comienza a funcionar el siguiente. Si se tiene 40 de estos componentes, calcule
la probabilidad que el tiempo de funcionamiento total sea a mayor a 820 horas.

56. Cierta transacción económica tiene dos posibles resultados: se gana 50 soles o se pierde 20
soles, las probabilidades en cada caso son 0,4 y 0,6; respectivamente. Si en un determinado día
se realizaron 80 de estas transacciones, ¿cuál es la probabilidad que el resultado final indique
una ganancia de por lo menos 620 soles?

57. En cada uno de los siguientes casos indique si lo afirmado es verdadero o falso, en caso de
considerar la afirmación como falsa indique la afirmación correcta.
a. Si F(x) es la función de distribución acumulativa de la variable aleatoria X, cuya función de
densidad tiene como recorrido el intervalo [-1, 2], entonces tenemos que F  2k   F (k ) para
cualquier valor k real.
b. Si el tiempo que se requiere para realizar una transacción en la ventanilla de un banco es una
variable con distribución normal con media de 12 minutos y se sabe que el 95% de usuarios
de este cajero demoran por lo menos 8,5 minutos en ser atendidos, entonces el coeficiente
de variabilidad de los tiempos de atención es mayor a 0,15.
c. Si el tiempo de duración de un componente electrónico tiene distribución exponencial con
media β horas y el 90% de estos componentes duran por lo menos 270 horas, entonces, la
media de duración de estos componentes es menor a 50 horas.

58. Responda las siguientes preguntas:


a. Si Y representa el nivel de ventas por día de una distribuidora de alimentos y esta variable
tiene una distribución uniforme en el intervalo [68 000, 80 000], calcule el percentil 75 de las
ventas.
b. Si X es una variable aleatoria con distribución normal estándar, calcule los valores de k1 y k2
si se sabe que P(k1 < X < k2) = 0,69879 y P(X > k2) = 0,0951
Notas
52 Estadística Inferencial 2019-1

59. Una máquina expendedora de café llena vasos con una cantidad que es una variable aleatoria
normal con media de µ onzas y desviación estándar de 0,05 onzas.
a. Si se desea que solo el 3% de los vasos tengan menos de seis onzas de café, ¿cuál debe ser la
media del contenido por vaso que vierta esta máquina?
b. Si se llena 15 vasos de café, ¿cuál es la probabilidad que la máquina haya expendido por lo
menos 91 onzas en total? Asuma independencia.
c. Se toma una muestra aleatoria de ocho vasos, calcule la probabilidad que en tres de ellos el
contenido de café sea menor a 6,1 onzas.

60. Si la variable aleatoria X tiene una distribución chi cuadrado con 24 grados de libertad, calcule
los valores de a y b de tal modo que P(a < X < b) = 0,80; si P(X > b) = 0,10.

61. El ingreso familiar mensual en cierta zona de la ciudad es una variable aleatoria con distribución
normal con media 1 200 soles, se sabe además que el 20% de las familias en esa zona de la ciudad
tienen un ingreso mensual superior a 1450 soles. El gobierno decide aplicar un programa de ayuda
social orientado a todas las familias cuyo ingreso familiar mensual sea inferior a 600 soles, si en
esa zona de la ciudad residen 3 480 familias. ¿Aproximadamente cuántas familias se beneficiaran
con dicha ayuda social?

62. La vida útil, en meses, de un artefacto eléctrico es una variable aleatoria con distribución
exponencial con parámetro β. El fabricante afirma que el 90% de estos componentes tienen una
vida útil que supera los 60 meses. ¿Cuál es la media de la vida útil de estos componentes?

63. Suponga que una operación de venta puede tener tres posibles resultados, los cuales son: ganar
cinco dólares, perder dos dólares o resultado neutro (no gana ni pierde), con probabilidades: 0,2;
0,3 y 0,5 respectivamente. Si se realizan 60 de estas operaciones independientes en un día,
determine la probabilidad de que en un día determinado se tenga una ganancia de por lo menos
30 dólares.

64. El peso de los pasajeros que abordan un ómnibus de transporte interprovincial tiene una media
de 65 kilogramos y una desviación estándar de 19 kilogramos. Si el bus tiene 72 pasajeros, ¿cuál
es la probabilidad de que la media de los pesos de los 72 pasajeros supere los 67 kilogramos?

Notas
53 Estadística Inferencial 2019-1

Distribuciones muestrales
Uno de los objetivos de la Estadística es el de realizar inferencia acerca de las característica de una
población.
Estas inferencias se basan en la información obtenida de una muestra aleatoria, de la población en
estudio, la cual debe ser representativa de la población de interés.
De acuerdo con las características de la población se debe elegir un método adecuado de muestreo.

Población
Es una colección finita o infinita de individuos; personas, objetos o mediciones de interés. También se
le denomina universo.

Muestra
Es una parte o un subconjunto de la población.

Unidad de muestreo (unidad de análisis)


Se define como el elemento que se observa y del que se busca la información relacionada a las variables
de interés.

Parámetro (θ)
Es una medida de resumen que representa a la población y cuyo valor numérico se calcula en base al
estudio de toda la población, y como esto en general no es factible por el tiempo que requiere y por el
costo que implica, entonces estos valores son desconocidos y por lo tanto deben de ser estimados.

Los parámetros que estudiaremos son los siguientes:


 Media poblacional: µ
 Proporción poblacional: π
 Varianza poblacional: σ2
 Cociente de varianzas:  12  22
 Diferencia de medias: µ1 - µ2
 Diferencia de proporciones: π1 - π2

Muestra aleatoria
Una muestra aleatoria de tamaño n de la población definida por la variable aleatoria X, es un conjunto
de n variables aleatorias X1, X2,…, Xn independientes y con la misma distribución que la variable
aleatoria X.
Así, dada una variable aleatoria X con distribución f(x), E(X) =  y V(X) = 2; si X1, X2,…, Xn es una muestra
aleatoria de la población X, entonces Xi ~ f(x), E(Xi) =  y V(Xi) = 2 (i = 1, 2,…, n).

Estadístico o estimador
Un estadístico ˆ es cualquier función de las variables de una muestra aleatoria, es decir,
ˆ  f X1 , X2 ,, Xn 
 Esto nos indica que el estimador solo depende de los valores muestrales.
 Un estadístico es una variable aleatoria, por lo tanto, tiene distribución, media, varianza, etc.

Notas
54 Estadística Inferencial 2019-1
Ejemplos de estadísticos
- Sea X1, X2,…, Xn una muestra aleatoria de tamaño n. Se define la estadística media muestral como
n

X
i 1
i
X
n
- Sea X1, X2,…, Xn una muestra aleatoria de tamaño n de una población Bernoulli(π). Se define la
n

X
i 1
i
estadística proporción muestral como P 
n
- Sea X1, X2,…, Xn una muestra aleatoria de una población X. Se define la estadística varianza
1 n
muestral como S 
2
 X i  X 2
n  1 i 1
Error de estimación
Definimos como error de estimación a la diferencia entre el estimador y el parámetro. Este error se
debe a que una muestra no da la información completa acerca del parámetro.
Este error puede ser medido y controlado utilizando técnicas estadísticas adecuadas.

E   

Ejemplo de errores de estimación


Por ejemplo, durante las elecciones municipales del 5 de octubre del 2014
para la ciudad de Lima, el candidato ganador fue Luis Castañeda Lossio con
el 50,77% de los votos válidos; este valor es un parámetro. Este resultado
fue dado por la Oficina Nacional de Procesos Electorales el día 29 de
diciembre del 2014. A las cuatro de la tarde del 5 de octubre, diversas
compañías encuestadoras dieron ganador a Luis Castañeda Lossio.
- El resultado dado por Ipsos Apoyo fue de 48,4% de la votación para Castañeda. La encuestadora
tuvo un error de estimación E    p  0,5077  0,484  0,0237 , en porcentaje fue de 2,37%.
- El resultado dado por Datum fue de 45,5%, su error de estimación fue de 5,27%
- El resultado dado por CPI fue 53,3%, su error de estimación fue de 2,53%.

Distribución muestral
Se denomina distribución muestral a la distribución de probabilidades del estadígrafo (o estimador)
calculada a partir de todas las posibles muestras de tamaño n elegidas de la población en estudio.
Estas distribuciones se conciben en forma teórica puesto que por lo general es muy difícil extraer todas
las muestras de tamaño n de una población.
Los estadígrafos, definidos anteriormente, son variables aleatorias y por lo tanto estaremos
interesados en hallar la distribución muestral de cada una de estas variables, y para esto tendremos
que determinar las siguientes características:
 su distribución de probabilidad,
 su media y varianza.
Cuando se conocen estas características se dice que la distribución muestral del estadígrafo está
definida.

Notas
55 Estadística Inferencial 2019-1
Distribución de la media muestral de una población con distribución normal
Sean X1, X2, X3,...Xn una muestra aleatoria, tal que Xi ~ N(μ, σ2) (i = 1, 2,…, n), entonces, la variable:
X1  X 2  ...  X n 1 n
 2 
X
n

i 1 n

X i ~ N  X   ;  X2 


n 
Es decir, para la variable media muestral X se cumple que:
Esperado de X : E X    X  
2
Varianza de X : V X    2X 
n
X 
Por lo tanto, tendremos que: Z  2
 ~ N(μ= 0, σ = 1)
n
Ejercicio 32
En la empresa Servius S.A. los ingresos mensuales, en dólares, se modela con una variable normal con
media 100 mil y una desviación estándar de 10 mil. Si la media muestral de los ingresos, en una muestra
aleatoria de tamaño n, varía entre 95 mil y 105 mil, se considera que la empresa mantiene un estado
de ganancias estable.
Si se selecciona una muestra aleatoria de 36 meses, calcule la probabilidad que se concluya que el
estado de ganancias sea estable.

Si se selecciona al azar una muestra de 36 meses, calcule la probabilidad que la media muestral del
ingreso difiera de su verdadero valor en más de mil dólares.

Si se desea tener una probabilidad de 0,95 de que la media muestral de ingresos difiera de la media
verdadera en menos de 500 dólares, ¿qué tamaño de muestra será necesario seleccionar?

Notas
56 Estadística Inferencial 2019-1
Distribución de la media muestral cuando la varianza 2 es desconocida
Si se toma una muestra aleatoria de tamaño n de una población con distribución normal de media µ y
varianza 2 desconocida, entonces tendremos que:
X 
~ t n 1
S
n
donde t(n-1) es una distribución t de Student con n - 1 grados de libertad.
Si el tamaño de muestra n es mayor que 30, esta distribución puede ser aproximada mediante la
distribución normal, basándonos en el teorema central del límite, es decir:
X 
 N 0, 1
S
n
Distribución de la media muestral en poblaciones que no tienen distribución normal
Si se toma una muestra aleatoria de tamaño n de una población con cierta distribución con media µ y
varianza 2, entonces si n > 30, usando el teorema del límite central, tendremos que la distribución de
la variable media muestral es:
 2 
X  N  , 
 n 
Ejercicio 33
Una máquina fabrica un determinado producto cuya longitud, en centímetros, tiene una media de seis
centímetros y una desviación estándar de 1,2 centímetros.
Si se toma una muestra aleatoria de tamaño 64 artículos, ¿cuál es la probabilidad de que se obtenga
una media muestral de a lo más 6,25 cm?

Se sabe que el costo de fabricación, por unidad, está dado por C = 4,5X + 6,5, donde C es el costo
unitario y está dado en soles. Si se toma una muestra aleatoria de tamaño 36, ¿cuál es la probabilidad
de que la media muestral del costo supere los 35 soles?

Notas
57 Estadística Inferencial 2019-1
Distribución de la varianza muestral (S2)
Si de una población con distribución normal de media µ y varianza σ2 se extrae una muestra aleatoria
de tamaño n, entonces la distribución asociada a la varianza muestral será:

(n  1)S2
~ (2n1)
2
S2 varianza muestral
n tamaño de la muestra
 (2n 1) distribución chi cuadrado con n - 1 grados de libertad.

Ejercicio 34
Una alta variabilidad en los resultados de la rentabilidad de la acciones tipo A implica un alto riesgo al
invertir en dichas acciones. Como la desviación estándar en un estimador confiable de la desviación
estándar de la población, se usará la desviación estándar muestral para decidir si se invierte o no en
acciones tipo A. Por ello, se seleccionará una muestra aleatoria de tamaño 25 y si se encuentra una
desviación estándar de la rentabilidad mayor a 72 mil soles se considera que existe un alto riesgo al
invertir en acciones tipo A. Si esta rentabilidad se distribuye en forma normal y realmente la varianza
en la rentabilidad de este tipo de acciones es de 4225 miles de soles2 ¿Cuál es la probabilidad que se
decida no invertir en las acciones tipo A por considerarlas de alto riesgo?

Ejercicio 35
Las bolsas de plástico empleadas para empaquetar productos se fabrican de forma que la resistencia
a la rotura tenga una distribución normal con  = 5 kg/cm2. Si se toma una muestra al azar de 16 bolsas,
¿qué valor máximo tendrá la desviación estándar de la muestra con probabilidad 0,95?

Notas
58 Estadística Inferencial 2019-1
Distribución de la proporción muestral (P)
Suponga una población con distribución de Bernoulli con parámetro , si de esta población se toma
una muestra aleatoria de tamaño n > 30, entonces la distribución muestral de la proporción muestral
P, usando el teorema central del límite, será:
  1    
P  N  , 
 n 
Al estandarizar la variable proporción muestral P se tiene lo siguiente:
P 
 N 0,1
 1   
n
Ejercicio 36
El presidente de Distribuidores S.A. cree que el 30% de los pedidos a su empresa provienen de clientes
nuevos. Se va a usar una muestra aleatoria simple de 200 empleados para comprobar lo que dice.
Suponga que el presidente está en lo correcto y que  = 0,3; ¿cuál es la distribución de p para este
estudio? Defina p

Calcule la probabilidad de que la proporción muestral difiera de su valor real en menos de 0,05.

Ejercicio 37
Se utiliza la siguiente regla para controlar el funcionamiento de una máquina que produce cierto tipo
de artículos: Se selecciona una muestra aleatoria de 400 artículos cada hora, si el número de artículos
defectuosos es 12 o más, se detiene la máquina; y si el número de artículos defectuosos es inferior a
12, se deja que la máquina siga funcionando. ¿Cuál es la probabilidad de detener la máquina cuando
está produciendo 2% de artículos defectuosos?

Notas
59 Estadística Inferencial 2019-1
Distribuciones muestrales para dos poblaciones independientes de poblaciones con
distribución normal

Supongamos que tenemos dos poblaciones independientes cada una con distribución normal de
medias µ1, µ2 y varianzas 21, 22 respectivamente. Si de cada una de estas poblaciones se toma
muestras aleatorias de tamaño n1 y n2, entonces, tendremos los siguientes casos para la distribución
de la diferencia de las medias muestrales.

Varianzas poblacionales 21 y 22 son conocidas


Se tiene que:
x1  x2   1  2  ~ N0; 1
 12  22

n1 n2

Note que no interesa el tamaño de muestra, la distribución será normal, debido a la propiedad
reproductiva de la normal.

Varianzas poblacionales 21 y 22 desconocidas pero supuestas iguales


Se tiene que:
x1  x2   1  2  ~ t
n1 n2 2
SP2 SP2

n1 n2

n1  1S12  n2  1S22


donde SP 
2
y t n1 n2 2 es una distribución t de Student con n1+ n2 - 2 grados de
n1  n2  2
libertad.

Varianzas poblacionales 21 y 22 desconocidas pero supuestas diferentes


Se tiene que:
x1  x2   1  2  ~ t
g
S12 S22

n1 n2
donde t g es una distribución t de Student con g grados de libertad. En este caso, los g grados de
libertad se calculan a partir de la siguiente expresión:

g
 S12
n1
2

S22
n2
 2

2
 S12   S22 
   
n  n 
 1   2 
n1 1
 n2 1

Notas
60 Estadística Inferencial 2019-1
Distribución de la diferencia de proporciones muestrales
Supongamos que tenemos dos poblaciones independientes cada una con distribución de Bernoulli con
parámetros π1 y π2, las respectivas probabilidades de éxito.
Si de cada una de estas poblaciones tomamos muestras aleatorias independientes de tamaño n1 y n2
respectivamente, entonces la distribución de la diferencia de proporciones muestrales sera:

  (1   1 )  2 (1   2 ) 
p1  p2  N  1   2 , 1  
 n1 n2 

siempre y cuando, n1 y n2 sean mayores a 30.

Distribución muestral del cociente de varianzas


Supongamos que tenemos dos poblaciones independientes cada una con distribución normal de
medias µ1, µ2 y varianzas 21, 22 respectivamente.
Si de cada una de estas poblaciones tomamos muestras aleatorias de tamaño n1 y n2 respectivamente,
entonces la distribución del cociente de las varianzas muestrales será:

S12
 12 S12 22
 ~ Fn1 1 ,n2 1
S22 S22 12
 22

La distribución del cociente de varianzas será una variable con distribución F de Fisher con n1-1 y n2-1
grados de libertad.

Notas
61 Estadística Inferencial 2019-1
Problemas propuestos

65. El porcentaje de clientes que asisten a un supermercado y que adquieren cierto producto
recientemente lanzado al mercado es del 15%.
a. Calcule la probabilidad que al extraer una muestra aleatoria de 450 clientes, se encuentre
entre 54 y 76 clientes que adquieren dicho producto.
b. ¿Qué tan grande debe ser el tamaño de la muestra para que la diferencia entre la proporción
muestral y la proporción real sea, como máximo, 0,02 con una probabilidad de 0,98?

66. Se tiene que la duración de paneles luminosos fabricados por una compañía tiene una
distribución normal con media de 2000 horas y una desviación estándar de 60 horas. Se
seleccionan 10 paneles al azar.
a. ¿Cuál será la probabilidad que la desviación estándar muestral no supere las 50 horas?
b. ¿Cuál será la probabilidad que la desviación estándar muestral se encuentre entre 50 y 70
horas?

67. En una empresa de transporte pesado se sabe que el consumo diario de petróleo por camión de
carga se modela con una variable aleatoria normal con una media 40 galones y una desviación
estándar de cinco galones.
a. Si seleccionamos una muestra al azar de ocho camiones, ¿cuál es la probabilidad que la
varianza muestral del consumo de petróleo por camión esté entre 20 y 30 galones2?
b. Calcular el valor de la constante k de modo que P(S < k) = 0,90

68. Para procesar un artículo se requiere de un tiempo X que es una variable aleatoria con
distribución normal con media de 20 minutos y varianza de 12,25 minutos2. Se sabe que el costo
de procesamiento por artículo es de tres veces el tiempo requerido en el procesamiento más
cinco dólares.
a. Si seleccionamos una muestra aleatoria de tamaño 25 artículos, calcular la probabilidad de
que la media muestral del costo sea menor a 70 dólares.
b. Si se requiere estimar la verdadera media del costo con un error de a lo más tres dólares con
un 95% de confianza, ¿qué tamaño de muestra se tiene que elegir?

69. El dueño de una tienda de discos ha comprobado que el 20% de los clientes que entran a su
tienda realizan alguna compra. Cierta mañana entraron a su tienda 180 clientes los cuales
pueden ser considerados como una muestra aleatoria de todos sus clientes.
a. ¿Cuál será la media de la variable proporción muestral de clientes que realizaron alguna
compra?
b. ¿Cuál es la varianza de la proporción muestral de clientes que realizaron alguna compra?
c. ¿Cuál es el error estándar de la proporción muestral?
d. ¿Cuál es la probabilidad de que la proporción muestral sea de a lo más 0,15?

70. Una profesora de psicología afirma lo siguiente, con respecto a una prueba de aptitud que suele
aplicar a personas mayores de 30 años: El 25,2493% de las personas evaluadas obtiene una nota
superior a los 80 puntos y el 9,12112% obtiene un nota de a lo más 50 puntos, además se sabe
que las notas se comportan según una distribución normal. Si seleccionamos una muestra
aleatoria de 36 personas, ¿cuál es la probabilidad de que la media muestral de las notas esté
entre 68 y 75 puntos?

Notas
62 Estadística Inferencial 2019-1
71. Un censo realizado por el Ministerio de Educación indica que con respecto al nivel de captación
y rendimiento de los alumnos de primaria en un distrito del Cono Norte de Lima, solo el 65% de
los estudiantes captan las clases y rinden satisfactoriamente sus evaluaciones.
Si seleccionamos una muestra aleatoria de 220 estudiantes de primaria en dicho distrito.
a. Obtenga la distribución de la variable P definida como proporción muestral de estudiantes
de primaria en dicho distrito que captan las clases y rinden satisfactoriamente sus
evaluaciones.
b. Calcule la probabilidad que la proporción muestral que difiera de la proporción real en menos
de 3%.
c. Si se desea tener una diferencia de menos del 2% entre la proporción real y la proporción
muestral, con un 95% de probabilidad, ¿qué tamaño de muestra se tiene que seleccionar?

72. El porcentaje de amas de casa que utilizan el detergente A, en cierto sector de la población es
de 35%, una agencia de investigación de mercados selecciona una muestra aleatoria de 150
amas de casa
a. ¿Cuál es la probabilidad de que en dicha muestra la proporción de amas de casa sea de a lo
más 36%?
b. Si el error de estimación se define como la diferencia, en términos absolutos, entre el
estimador (estadígrafo) y su respectivo parámetro. ¿Qué tamaño de muestra es necesario
seleccionar para que el error de estimación sea de a lo más 4% con una probabilidad de 0,95?

73. En cierta localidad se sabe que el 35% de amas de casa consumen el producto A, el 50%
consumen el producto B y un 10% de amas de casa consumen ambos productos. Si al tomar una
muestra aleatoria de tamaño n = 60 se encuentra a lo más 42 personas que consumen al menos
uno de los productos se decide lanzar al mercado un nuevo producto C, en caso contrario no se
lanza dicho producto. Teniendo en cuenta este criterio de decisión, ¿cuál es la probabilidad de
lanzar el nuevo producto?

74. Al gerente de alarmas contra incendios de una empresa le preocupa las quejas recientes de sus
clientes respecto a la breve vida de sus alarmas. Decide probar una muestra de éstas; el costo de
probar una alarma es cuatro dólares. El beneficio que recibirá depende de la fórmula:
5249
Benefic io 
X
Si desea obtener una muestra que haga que el costo sea igual al beneficio, ¿cuántas unidades
debe tomar en la muestra, si se sabe que  = 265 dólares?

75. El ingreso mensual de los trabajadores de cierta compañía se puede considerar como una
variable aleatoria con media de 2 200 soles mensuales y con una varianza de 160 000 soles2. La
gerencia determina un reajuste de estos ingresos de modo que estos se incrementarán en un
15% del haber actual y adicionalmente 50 soles por concepto de movilidad.
a. Luego de dicho reajuste se toma una muestra aleatoria de 60 trabajadores, calcule la
probabilidad de que la media muestral del ingreso sea superior a 2 800 soles.
b. Luego de realizar el reajuste de dichos ingresos, determine el tamaño de la muestra para que
se cumpla siguiente probabilidad:
 
P X    90  0,95

Notas
63 Estadística Inferencial 2019-1
76. Con el objetivo de realizar un estudio acerca del gasto familiar mensual en educación en las
familias que residen en el distrito de Lince, se tomó una muestra aleatoria de 49 hogares, y se
obtuvo lo siguiente: 𝜇𝑋̅ = 168 y 𝜎𝑋̅ = 2. A partir de estos resultados, determine la media y la
varianza del gasto familiar mensual en educación de todas las familias residentes en el distrito
de Lince.

77. Se utiliza la siguiente regla para controlar el funcionamiento de una máquina que produce cierto
tipo de artículos: Se selecciona una muestra aleatoria de 400 artículos cada hora y si el número
de artículos defectuosos es:
- 12 o más, se detiene la máquina,
- menor a 12, se deja que la máquina siga funcionando.
Calcule la probabilidad de detener la máquina cuando en realidad está produciendo 2% de
artículos defectuosos.

78. Un comerciante va a comprar un gran lote de lapiceros, del cual le garantizaron que el 95%
escribe correctamente. Para evitar ser sorprendido, el comerciante decidió seleccionar
aleatoriamente 100 lapiceros de ese lote para probarlos antes de hacer la compra, de modo que
si encuentra que en la muestra más del 4% no escribe correctamente no realizará la compra.
a. Calcule la media y el error estándar de la variable “proporción muestral de lapiceros que no
escriben correctamente”.
b. Calcule la probabilidad de que comerciante efectúe la compra.

79. Para comprar un determinado lote de artículos, el jefe de producción tiene la siguiente regla de
decisión: Tomará una muestra aleatoria de tamaño 25 artículos, calculará la media muestral del
peso y si esta media está entre 240 gramos y 260 gramos, entonces decidirá comprar el lote, en
caso contrario no lo compra. Si realmente el lote en mención contiene artículos cuyos pesos
tienen distribución normal con media 250 gramos y desviación estándar de 30 gramos, ¿cuál es
la probabilidad de que el lote sea aceptado?

80. Una fábrica produce repuestos en tres máquinas. La primera realiza 50% de la producción total,
la segunda el 30% y la tercera el 20%. La primera máquina produce 1% de repuestos defectuosos,
la segunda 2% y la tercera 3%. Un comerciante desea comprar un gran lote de repuestos, para
ello tomará una muestra aleatoria de 80 repuestos producidos por las tres máquinas, aceptando
el lote si a lo más hay cuatro defectuosos. Calcule la probabilidad de aceptar el lote.

81. Se tiene que la duración de paneles luminosos fabricados por una compañía tiene una
distribución normal con media de 2000 horas y una desviación estándar de 60 horas. Se
seleccionan 10 paneles al azar.
a. ¿Cuál será la probabilidad que la desviación estándar muestral de la duración de los paneles
no supere las 50 horas?
b. ¿Cuál será la probabilidad que la desviación estándar muestral de la duración de los paneles
se encuentre entre 50 y 70 horas?

82. Según estudios realizados por una empresa de estudio de mercados se concluyó que el 55% de
las amas de casa residentes en el distrito de San Borja afirman estar satisfechas son el
desempeño del serenazgo en lo que respecta a la seguridad y el orden del distrito, mientras que
en el distrito de Miraflores dicho porcentaje es del 40%. Se selecciona una muestra aleatoria de
180 amas de casa de San Borja y 120 amas de casa en Miraflores.
a. ¿Cuál es la probabilidad que la proporción muestral de amas de casa de San Borja que están
satisfechas con el desempeño de Serenazgo supere a la proporción muestral de amas de case
seleccionadas del distrito de Miraflores?

Notas
64 Estadística Inferencial 2019-1
b. ¿Cuál es la probabilidad que las proporciones muestrales mencionadas difieren en por lo
menos 3%?

83. Para fabricar un producto una empresa aplica un procedimiento el cual permite utilizar un
determinado tiempo para obtener una unidad lista para su comercialización. El tiempo usado
en la producción de una unidad del producto es una variable aleatoria normal con media de 20
minutos y desviación estándar de 6 minutos. Si se toma una muestra al azar de 21 unidades,
¿qué valor máximo tendrá la desviación estándar de la muestra con probabilidad 0,95?

84. En la elaboración de una prueba de aptitud para un puesto en una gran empresa, es necesario
especificar que la varianza de las calificaciones sea bastante grande para que así se pueda
identificar con facilidad a los mejores aspirantes. En una prueba se tiene que las calificaciones
se distribuyen normalmente con una media de 80 puntos y una desviación estándar de 10
puntos. Si se debe aplicar una prueba de aptitud a 12 aspirantes:
a. ¿Cuál sería la probabilidad de que la desviación estándar de las calificaciones se dichos
aspirantes sea mayor que 15 puntos?
b. ¿Cuál debería ser el mínimo valor de la desviación estándar de las calificaciones de dichos
aspirantes con una probabilidad de 0,95?

85. El costo de procesamiento de un artículo utilizando:


- el proceso A, tiene una media de 45 soles y una desviación estándar de tres soles,
- el proceso B, tiene una media de 40 soles y una desviación estándar de cuatro soles.
En ambos casos los costos se comportan de acuerdo a una distribución normal. Se selecciona
una muestra de 10 artículos producidos con el proceso A y 8 con el proceso B. Asuma
independencia.
a. Determine la distribución de la variable “diferencia de medias muestrales”.
b. Calcule la probabilidad que la media de la muestra de A sea menor que la media de la muestra
de B.
c. Determine una distribución que permita relacionar las varianzas muestrales y calcule el valor
de la constante k de modo que P S12  kS22   0 ,25 .

86. El ingreso mensual de las mujeres que tienen:


- por lo menos un hijo en una guardería infantil se modela con una variable normal con media
2 800 soles y desviación estándar de 300 soles,
- no tienen a sus hijos en guarderías infantiles se modela con una variable normal con media
2 450 soles y desviación estándar de 420 soles.
Si seleccionamos una muestra de tamaño 110 mujeres que tienen sus hijos en guardería
infantil y otra muestra independiente de 130 mujeres que no tienen sus hijos en guardería
infantil.
a. ¿Cuál es la probabilidad que la varianza muestral del ingreso de mujeres que tienen hijos en
guardería infantil sea menor que la mitad de la varianza muestral del ingreso de las mujeres
que no tienen hijos en guarderías infantiles?
b. ¿Cuál es la probabilidad que el ingreso medio muestral de las mujeres que tienen hijos en
guardería infantil sea mayor que la media muestral del ingreso de mujeres que no tienen
hijos en guardería infantil en más de 200 soles?

87. Considere una población con distribución normal con media µ y varianza σ2, en la cual se desea
estimar la media poblacional. Hallar una expresión para determinar el tamaño de muestra n

Notas
65 Estadística Inferencial 2019-1
cuando se desea un error de estimación de a lo más E unidades (el error de estimación es la
diferencia entre el estimador y el parámetro) con una probabilidad de 0,98.

88. Se ha contratado un nuevo asistente cuya labor consiste en llenar un formato de declaración
jurada de impuestos. El tiempo que utiliza este asistente en llenar un formato de declaración es
una variable aleatoria que se comporta como una distribución normal con media 15 minutos y
desviación estándar de 2,5 minutos. Si se le ha encargado llenar 12 formatos y estos se pueden
considerar como una muestra aleatoria.
a. Calcule la probabilidad de que la media del tiempo requerido para llenar los 12 formatos sea
menor a 16 minutos.
b. Si se desea que la diferencia entre la media muestral y la media real del tiempo que demora
en llenar un formato sea de a lo más 1,5 minutos con una probabilidad de 0,9; ¿qué tamaño
de muestra será necesario seleccionar?

89. Un mayorista compra vasos de vidrio directamente de la fábrica. Inspecciona una muestra al
azar de 50 vasos de un lote recién adquirido para determinar la proporción de vasos rotos o
defectuosos. Suponiendo que en realidad el lote ha sido enviado con 4% de vasos rotos.
a. ¿Cuál es la probabilidad de que la muestra contenga como máximo tres vasos rotos?
b. ¿Qué diferencia máxima encontrará entre la proporción de la muestra y su valor real con
probabilidad de 0,95?

90. El gerente de créditos de una financiera determinó que el 15% de los clientes a los que se les
otorgó un crédito comercial tiene al menos una cuota vencida. El monto del crédito se comporta
como una variable normal, donde el 2,56% de estos créditos el monto fue inferior a los 1 305
dólares y el 15,87% superó los 1 600 dólares.
a. Si se elige al azar 15 créditos otorgados, calcule la probabilidad que la media de los créditos
otorgados a esa muestra supere a la media real en más de 40 dólares.
b. Si se elige al azar 120 créditos otorgados, calcule la probabilidad de encontrar a lo más 20
créditos con cuotas vencidas.
c. En una muestra de tamaño 15, calcule la probabilidad de que la desviación estándar del
monto de los créditos otorgados a esta muestra sea a lo más 2,60135 dólares.

91. Se selecciona una muestra aleatoria de tamaño 12 de un población con distribución normal de
media µ y varianza 25, calcule la siguiente probabilidad:
 12 
P Xi  X   322,475

2

 i 1 

92. Al tomar una muestra aleatoria de tamaño 15 de una población con distribución normal con
desviación estándar σ, se encontró que P(S2 < 23,5) = 0,80; ¿cuál es el valor de la varianza
poblacional?

93. Se selecciona una muestra aleatoria de tamaño 45 de una población con distribución uniforme
en el intervalo [15, 25]. Indique si es posible determinar la distribución muestral de la media. Si
su respuesta es afirmativa indique la distribución, media y varianza de la media muestral; en
caso contrario, indique por qué no es posible determinar la distribución de la media muestral.

94. Suponga que una operación de venta puede tener tres posibles resultados, los cuales son:
- ganar cinco dólares, con probabilidad 0,2;
- perder dos dólares con probabilidad 0,3;
- resultado neutro (no gana ni pierde) con probabilidad 0,5.
Notas
66 Estadística Inferencial 2019-1
Si en un día determinado, se realiza 60 de estas operaciones y podemos considerar que cada
operación es independiente, determine la probabilidad de que en ese día se tenga una ganancia
de por lo menos 130 dólares.

95. De una población de tamaño N = 3 se realizó un muestreo con reposición y se obtuvo las nueve
muestras posibles de tamaño n = 2. De cada muestra, se calculó las nueve medias muestrales.
La distribución de probabilidades de la media muestral se muestra a continuación:
̅𝒊
𝒙 10,0 11,5 13,0 14,5 16,0 19,0
1 2 1 2 2 1
̅𝒊 )
𝒇(𝒙
9 9 9 9 9 9
Calcule la media de la población µ y la varianza de la población 2.

96. El gerente de finanzas de cierta entidad bancaria determinó que el tiempo que emplean los
clientes en realizar el pago sus facturas es una variable aleatoria normal con media 30 días y
desviación estándar 8 días.
a. Si se escoge al azar una muestra de 40 clientes, ¿cuál es la probabilidad de tener una media
muestral inferior a 32 días?
b. Si n = 36 cuentas, ¿qué valor máximo tomará la media muestral con probabilidad 0,90?
c. Determine el tamaño de muestra n de modo que la media muestral difiera de la media
poblacional en a lo más dos días, con un 95% de probabilidad.

97. El gerente de producción determinado que la vida útil de los focos que produce es una variable
aleatoria normal con media desconocida  y  = 200 horas. El valor monetario, en dólares, de
𝜇
un lote de este tipo de bombillas es 5 . Un posible comprador propone tomar una muestra
𝑋̅
aleatoria de n focos y pagar al productor 5 dólares por dicho lote. ¿De qué tamaño debe ser n,
para que el pago que realiza el comprador se diferencie del valor monetario real del lote, en a
lo más 20 dólares, con un 95% de probabilidad?

98. Una compañía telefónica está tratando de determinar si algunas líneas en una determinada
comunidad deben instalarse de forma subterránea. Debido a que se hará un pequeño cargo
adicional en las cuentas telefónicas para pagar los costos extras de la instalación. La compañía
hará un estudio tomando una muestra entre los clientes y procederá con la instalación
subterránea, solo si, el estudio indica que más del 60% de los clientes están a favor de la
instalación, en caso contrario no se realiza la instalación. Si se toma una muestra de 160 clientes,
¿cuál es la probabilidad de que la compañía telefónica decida realizar las instalaciones
subterráneas, cuando el porcentaje real de clientes a favor de las instalaciones es de 55%?

99. Una máquina produce barras de acero de cierta longitud digamos Y (medida en centímetros), se
sabe que dicha longitud tiene una distribución N(  6,  2  0,2) . Además, el costo (en dólares)
para reparar una barra que no tiene exactamente 6 cm. está dado por C  4(Y 6) . Si se
2

producen 25 barras en un día y se tiene que la longitud de cada barra producida es


independiente.
a. Calcular la probabilidad que el costo total por reparaciones en dicho día, supere los 24,54
dólares.
b. ¿Cuál es el costo total máximo, por día, en el 95% de las veces?

100. En una región costeña el consumo promedio por día de proteínas es de 200 gramos, con una
desviación de 80 gramos. En otra región de la sierra el consumo promedio es de 150 gramos,

Notas
67 Estadística Inferencial 2019-1
con una desviación de 80 gramos. Si dichos consumos se distribuyen normalmente en ambas
regiones
a. ¿Cuál es la probabilidad de que dos muestras aleatorias independientes de tamaño 40,
tomadas en cada región tengan una diferencia de medias muestrales a lo más de 20 gramos?
b. Si seleccionamos muestras aleatorias de tamaños diez de la región costeña y ocho de la
región de la sierra, ¿Cuál será el valor de la constante k de modo que P(S1 < kS2) = 0.90, si S1
representa la desviación estándar del consumo de proteínas en la muestra de la costa y S2 es
la desviación estándar del consumo de proteínas en la muestra de la sierra

101. La policía de una ciudad informa que durante el semestre pasado se han cobrado multas por
infracciones de tránsito cuyos montos se ajustan a una distribución normal, el 19,49% de estas
multas son superiores a 68,87 dólares y el 11,9% son inferiores a 59,69 dólares. Además, el 15%
de los ciudadanos han recibido al menos una vez una multa por infracciones de tránsito.
a. Si seleccionamos una muestra aleatoria de 25 multas por infracciones de tránsito ¿cuál es la
probabilidad que el monto promedio de multas de dicha muestra supere los 67 dólares.
b. Calcule los valores de a y b si se tiene que P(a < S < b) = 0,8; donde dicha probabilidad está
centrada de manera simétrica y S representa la desviación estándar de los montos de multa
en una muestra de 16 papeletas por infracciones de tránsito.
c. Si selecciona una muestra aleatoria de 180 personas. Calcule la probabilidad que encuentre
más de 36 personas que hayan recibido al menos una multa por infracción de tránsito.

Notas
68 Estadística Inferencial 2019-1

Estimación de parámetros

Dada una población a estudiar, se identifica el parámetro desconocido que interesa estimar. A fin de
realizar la estimación, se selecciona una muestra aleatoria de tamaño n de la población y a partir de
esta muestra se obtiene la información requerida acerca del parámetro desconocido.

Hay dos métodos para estimar un parámetro desconocido:


 Estimación puntual.
 Estimación por intervalo de confianza.

Ejemplo

Estimación puntual de parámetros


 ˆ  G(X , X ,..., X ) usado para aproximar el valor de un parámetro desconocido
Un estadístico  1 2 n

 se denomina estimador puntual del parámetro .


 Un estimador puntual es un estadístico y por lo tanto es una variable aleatoria.
 Una vez seleccionada la muestra aleatoria y realizadas las mediciones correspondientes, se cuenta
con los valores experimentales de la muestra aleatoria que se denotan x1, x2, …, xn ; con estos
valores se evalúa el estimador puntual y se obtiene el número real ˆ  G(x1 , x2 ,..., xn ) que es

denominado estimación puntual del parámetro de interés .

Ejemplos de estimadores puntuales


 La media muestral X es un estimador puntual de la media poblacional µ.
 La proporción muestral P es un estimador puntual de proporción poblacional .
n

 x
i 1
i  x 2
 La varianza muestral S 
2
es un estimador puntual de la varianza poblacional σ2.
n 1

Notas
69 Estadística Inferencial 2019-1
Estimación de parámetros mediante intervalos de confianza

Un método de estimación de parámetros que se utiliza con frecuencia es la estimación mediante


intervalos de confianza y cuya ventaja sobre la estimación puntual es que en este caso es posible
determinar el error de estimación así como el nivel de confianza con el que se dan los resultados.

Definición de intervalo de confianza


Un intervalo de confianza es un rango de valores que se construye a partir de datos muestrales, de
modo que el parámetro, que se pretende estimar, está contenido dentro de dicho rango con una
probabilidad especificada.
A la probabilidad especificada se le conoce como nivel de confianza y se le denota con la letra griega
.
Es decir, dado un parámetro de interés (que puede ser la media µ, la proporción π, la varianza 2, etc.)
basándonos en la información de una muestra aleatoria y un nivel de confianza preestablecido,
podremos decir que el parámetro está contenido en el intervalo: Li ; Ls, donde Li es el límite inferior
del intervalo y Ls el límite superior del intervalo de confianza.

La forma general de una estimación por intervalo es:


IC() = Li ; Ls = Estimación puntual  margen de error

El margen de error (E) determina qué tan precisa es la estimación realizada. También se le llama error
máximo de estimación.

Interpretación del nivel de confianza


Por ejemplo, para un intervalo de confianza para la media µ a un nivel de confianza del 95%
 Si se selecciona repetidamente 1000 muestras de tamaño n, y calculamos la media de cada una de
ellas, podremos realizar 1000 estimaciones por intervalo de confianza para la media poblacional
.
 Se espera o confía que aproximadamente 950 de los intervalos de confianza hallados contengan
el parámetro  y los restantes no lo contengan.
 En la gráfica siguiente se muestran intervalos a 95% de confianza para µ generados con muestras
de tamaño n.

Tomado de http://biplot.usal.es

Notas
70 Estadística Inferencial 2019-1
Intervalo de confianza para la media poblacional
Sean x1, x2,…, xn los valores experimentales de una muestra aleatoria X1, X2,…, Xn extraída de una
población definida por la variable aleatoria X, con media  y varianza2.
Se requiere estimar la media poblacional µ usando esta muestra y con un nivel de confianza .

La estimación por intervalo de confianza para µ, a un nivel de confianza de , es:


IC()  x  E
donde x es la media calculada con los valores experimentales de la muestra de tamaño n.

 La longitud del intervalo de confianza es L = 2E


 El punto medio de este intervalo es la media muestral x

Cálculo del margen de error


Caso Margen de error Condición
Si la varianza  El índice z0 se calcula de acuerdo con el nivel de
E  z0 confianza fijado .
poblacional 𝜎 2 n
es conocida
Si la varianza s El índice t0 se calcula de acuerdo con el nivel de
E  t0 confianza fijado ; t0 tiene una distribución t de
poblacional 𝜎 2 n
es desconocida Student con n – 1 grados de libertad.
n
Cuando la varianza poblacional 2 es desconocida,
 x
i 1
i  x
2
se usa la distribución t de Student con n - 1 grados
s es la desviación
de libertad, pero si n es suficientemente grande, se
n 1
estándar calculada con los valores aproxima el índice t0 utilizando la distribución
de la muestra de tamaño n. normal estándar, usando el teorema central del
límite.

Ejercicio 38
El nivel de ventas por día de un establecimiento tiene una distribución normal con media desconocida
y desviación estándar 145 soles. Se tomó una muestra aleatoria de 36 días y se encontró una media
muestral de 485 soles. Determine e interprete el intervalo de confianza para estimar la media real del
nivel de ventas por día. Use  = 95%.

Notas
71 Estadística Inferencial 2019-1
Ejercicio 39
En un establecimiento de comida rápida, se lanza una promoción en la que se garantiza que hará
entrega de un pedido en 30 minutos o menos, desde el momento en que el pedido se solicite; y si la
entrega se hace después, el pedido realizado será gratis. Para realizar un análisis de los tiempos
requeridos para la entrega de pedidos, se seleccionó una muestra aleatoria de 20 registros de tiempo,
en minutos, los resultados se muestran a continuación:

35,3 29,5 28,2 10,1 30,0 14,0 23,5 22,5 19,6 30,0
10,8 32,2 14,8 15,0 32,1 12,8 21,0 19,4 18,3 12,0

Calcule e interprete un intervalo de confianza que le permita estimar la media real del tiempo utilizado
para la entrega de un pedido. Use un nivel de confianza del 95%.

Ejercicio 40
Al tomar una muestra aleatoria de tamaño n = 36, de una población cuya varianza es de 1024, de
calculó un intervalo de confianza para la media la cual resultó ser:
IC  413,4267; 436,5733

¿Cuál fue el nivel de confianza que se utilizó?

Notas
72 Estadística Inferencial 2019-1
Si se reduce el error de estimación hallado en la primera parte del ejercicio en un 30%, manteniendo
el mismo nivel de confianza, calcule el tamaño de muestra necesario.

Ejercicio 41
Para estimar el precio medio del kilo de un cierto tipo de pescado se tomó una muestra aleatoria
formada por los precios del kilo de dicho pescado en 34 puestos de venta y se determinó que la media
muestral es de S/.34,90. Por estudios realizados anteriormente se sabe que la desviación estándar de
los precios de estos pescados es de S/.4,50. Estime, con un 95% de confianza, el precio medio del kilo
de este tipo de pescado. Interprete.

Solución
En este caso se cuenta con una estimación previa de la desviación estándar, por lo tanto, el intervalo
de confianza al 95% está dado por:
IC()  x  E

El margen de error se calcula con E  z 0
n
1
Ya que el nivel de confianza solicitado es 95%, se tiene que  = 0,95 y por lo tanto = 0,975.
2
En la tabla buscamos el valor de z0 en la tabla normal estándar, z0,975 = 1,96.
Reemplazando los datos tenemos que:
 4,5 
 33,39; 36,41
4,5
IC ( )  34,9  1,96 ; 34,9  1,96
 34 34 
Con un nivel de confianza del 95%, se estima que el precio medio del kilo de ese tipo de pescado está
entre S/.33,39 y S/.36,41.

Tamaño de muestra para estimar la media poblacional


Sea X1, X2,…, Xn una muestra aleatoria extraída de una población definida por la variable aleatoria X,
con media  y varianza2. Se requiere determinar el tamaño de muestra, n, necesario para estimar la
media poblacional µ con un nivel de confianza  y con un margen de error (error de estimación) máximo
de E unidades.

P| X   | E     E  z 1 
2 n

Notas
73 Estadística Inferencial 2019-1
De la expresión anterior, se deduce que para cumplir lo requerido se debe seleccionar una muestra de
por lo menos:
Población infinita Población finita
2
 z 1    z 1  2N
 
n 2  n 2

 E  z 21  2  N  1E 2
  2

El tamaño de muestra n debe ser un número entero. Si es necesario el valor obtenido en las
expresiones anteriores se aproxima al entero siguiente.
Si σ es desconocida y no se cuenta con estimaciones previas de ese parámetro, para encontrar el
tamaño de muestra, σ se podría estimar previamente con una muestra piloto.

Ejercicio 42
A un inspector sanitario se le asigna como tarea estimar el peso medio actual de paquetes de carne
molida que indican en la etiqueta “Tres Libras”. Obviamente se percata de que los pesos no pueden
ser exactamente de tres libras, para estimar el verdadero peso promedio por paquete de carne se fija
un error de estimación de a lo más 0,01 libras un nivel de confianza del 95%, si tiene información que
el peso de los paquetes de carne molida tienen un distribución normal con una desviación estándar de
0,03 libras. ¿Qué tamaño de muestra requiere seleccionar?

Ejercicio 43
El peso de cierto tipo de motores se modela con una variable con desviación estándar de 7,04 kilos.
Calcular el tamaño de muestra para que con una confianza del 99% el error de estimación, al estimar
la media poblacional por la media muestral, sea de a lo más dos kilos.
Solución
Sea X = peso del motor, en kilos, la desviación estándar σ = 7,04 kilos y error máximo E = 2 kilos.
1
El nivel de confianza  es 0,99, luego  0,995  z 0,995  2,575
2
Luego, el tamaño de muestra será
2
 2,575  7,04 
n   82,15
 2 
El tamaño de muestra n se aproxima al entero siguiente, luego n = 83. Basta tomar una muestra de 83
motores para que la estimación del peso medio, al 99% de confianza, tenga un error máximo permitido
de dos kilos.

Notas
74 Estadística Inferencial 2019-1

Notas
75 Estadística Inferencial 2019-1
Intervalo de confianza para la proporción poblacional
Sean x1, x2,…, xn los valores experimentales de una muestra aleatoria X1, X2,…, Xn de una población
Bernoulli(π), tales que con E(Xi) = , V(Xi) = (1- )  i = 1,..,n. La estimación por intervalo de confianza
para la proporción poblacional , con un nivel de confianza  es:
IC( )  p  E
donde p es la proporción muestral de éxitos observada en la muestra de tamaño n, el cual debe ser
mayor a 30.
Cálculo del margen de error
p1  p
El margen de error se calcula con E  z0
n
El índice z0 se calcula de acuerdo con el nivel de confianza fijado .

Ejercicio 44
De un lote de pilas para reloj se tomó una muestra aleatoria de tamaño 150 y se encontró que 12 de
ellas no cumplían con las especificaciones requeridas. Construya un intervalo del 90% de confianza
para el porcentaje de pilas de este lote que no cumplen con las especificaciones.

Ejercicio 45
En una muestra aleatoria de 100 clientes de un restaurante, se encontró que 28 de ellos presentaron
quejas por fallas en el servicio durante el presente mes. Calcule e interprete un intervalo con una
confianza del 90%, para la proporción de clientes de este restaurante que presentaron quejas por fallas
en el servicio, durante el presente mes.
Solución
Interesa estimar el parámetro  = proporción poblacional de clientes que presentaron quejas por fallas
en el servicio, durante el presente mes. El intervalo está dado por: IC()  p  E
1
De los datos el nivel de confianza requerido es  = 0,90, luego  0,95  z0,95  1,645
2
p1  p (0,28)( 1  0,28)
E  Z0  1,645  0,045
n 100
Luego, reemplazando estos valores en IC(π) tenemos que:
IC() [0,281,6450,045] 0,280,074[0,206; 0,354]

La proporción de clientes que presentaron quejas por fallas en el servicio, durante el presente mes, se
estima entre 0,206 y 0,354, con una confianza del 90%.

Notas
76 Estadística Inferencial 2019-1
Tamaño de muestra para estimar una proporción poblacional
Para tener un nivel de confianza  de que el error de estimación al estimar la proporción poblacional
por la proporción muestral, sea de a lo más E:
 (1   )
P  P    E     E  z 1 
2
n
De la expresión anterior, se deduce que para cumplir lo requerido se debe seleccionar una muestra de
por lo menos:
Población infinita Población finita
z 21  1    z 21  1   N
n 2
n 2
E 2
z 21  1     N  1E 2
2

Como π es desconocida, pues π es el parámetro que se desea estimar para encontrar el tamaño de
muestra, su valor se reemplaza por:
 una estimación previa disponible,
 una estimación obtenida de una muestra piloto tomada para tener una estimación de ,
 0,5, que es la opción que da el mayor tamaño de muestra posible.
El tamaño de muestra n debe ser un número entero. Si es necesario, el valor obtenido en las
expresiones anteriores se aproxima al entero siguiente.

Ejercicio 46
Una empresa quiere realizar una investigación sobre la intención de voto para las próximas elecciones.
Desea que los resultados tengan un nivel de confianza del 95% y un margen de error del 2,8%. Calcule
el tamaño de muestra necesario para dicha encuesta.

Ejercicio 47
Una compañía de investigación de mercado desea estimar el porcentaje de hogares que tienen
servicios de televisión por cable en casa. Calcule el tamaño de muestra necesario, si se desea tener un
nivel de confianza del 94% y un margen de error del 2,5%? En una investigación del año pasado, se
determinó que el porcentaje de hogares con servicio de televisión por cable en casa era del 36%.

Notas
77 Estadística Inferencial 2019-1
Intervalo de confianza para la varianza poblacional de una población normal
Sean x1, x2,…, xn los valores experimentales de una muestra aleatoria X1, X2,…, Xn de una población
normal con una varianza desconocida σ2.
La estimación por intervalo de confianza para la varianza 2, con un nivel de confianza  es:
 
 (n  1)s 2 (n  1)s 2 
IC ( )   2
2
; 2 
  n1, 1  n1, 1 
 2 2 

La estimación por intervalo de confianza para la desviación estándar , con un nivel de confianza  es:
 
 n  1s 2 n  1s 2 
IC ( )   ; 
  n1, 1 2
2
n1,
1 
 2 2 
donde:
n

x
i 1
i  x
2

- s2  es la varianza muestral calculada con los valores experimentales de la muestra de


n 1
tamaño n
-  2 1 y  2 1
denotan los índices calculados con la distribución chi cuadrado con n -1 grados
n1 , n1 ,
2 2
1  1
de libertad y probabilidades 2 y 2 respectivamente.

Ejercicio 48
Un gerente quiere decidir si compra o no una nueva máquina para reemplazar la que tiene en uso. Se
sabe que la máquina que está en uso tiene una varianza, con respecto al tiempo que demora en
producir una pieza, de 0,067 min2. Al tomar una muestra aleatoria de 20 piezas producidas por la
máquina que se desea comprar, se encontró una desviación estándar de 0,15 minutos. Si la decisión
estará basada en la menor variabilidad, ¿cuál será la decisión del gerente de ventas? Considere que el
tiempo de producción de la nueva máquina tiene una distribución normal. Use un nivel de confianza
del 90%.

Notas
78 Estadística Inferencial 2019-1
Ejercicio 49
Se desea estimar la varianza de las longitudes de ciertos cables coaxiales. En una muestra de 25 de
estos cables se encuentra que la longitud tiene una media de 80 metros y una desviación estándar de
tres metros. Calcule e interprete un intervalo con una confianza del 95%, para la desviación estándar
de las longitudes de los cables coaxiales. Asuma normalidad.

Solución

Se necesita estimar  = desviación estándar de las longitudes de los cables coaxiales (en metros)
1 1 
El nivel de confianza requerido es  = 0,95, luego  0,975 y  0,025
2 2
Buscamos en la tabla de la distribución chi cuadrado:

(20,0 2 ;52 51)  12,4011, (20,9 7 ;52 51)  39,3641

Además de los datos: n  25 y s  3.


Luego, el intervalo de confianza pedido es:
 
 n  1s2 n  1s2   25  1  32 25  1  32   2,34 ; 4,17
IC     ;  , 
   2 1  2 2
2
1 
  39,3641 12,4011 
 n  1,
2
n 1,
2 

La desviación estándar de las longitudes de los cables coaxiales se estima entre 2,34 y 4,17 metros con
una confianza del 95%.

Notas
79 Estadística Inferencial 2019-1

Intervalo de confianza para el cociente de varianzas


Suponga que se tienen dos poblaciones independientes con distribución N(µi, i2) i = 1, 2. Se toma una
muestra aleatoria de cada población de tamaño n1 y n2 respectivamente, entonces el intervalo de
confianza para el cociente de las varianzas será:
 2   S 12 S 12 
IC  12 
 F
2 n 1, n 1; 1 
; 2 n 1, n 1; 1   
F
2   S 2 2 1 2 S2 2 1 2  

Los índices se calculan con la distribución F de Fisher con n2 - 1 y n1 - 1 grados de libertad.

Interpretación
 Si el valor 1 está a la izquierda del intervalo, es decir, los dos límites son mayores a 1, entonces
 12   22
 Si el valor 1 está a la derecha del intervalo, es decir, los dos límites son menores a 1, entonces
 12   22
 Si el valor 1 está contenido en el intervalo, entonces no podemos afirmar que las varianzas son
diferentes, entonces  12   22

Ejercicio 50
La tabla siguiente resume los datos de un experimento realizado para estudiar la resistencia a la
tracción de dos marcas de tornillos de anclaje:

Marca Tamaño de la muestra Resistencia media (N/mm2) Desviación estándar de la resistencia


A 15 700,8 50,30
B 13 730,4 67,68

Un aspecto importante es la variabilidad en cuanto a la resistencia de estas dos marcas de tornillos. En


base a la información mostrada ¿podemos concluir que las resistencias de los tornillos de ambas
marcas tienen la misma variabilidad? Use un nivel de confianza del 95%.

Notas
80 Estadística Inferencial 2019-1
Intervalo de confianza para la diferencia de medias poblacionales
Supongamos que tenemos dos poblaciones independientes, cada una con distribución normal con
medias µi y varianzas i2, de cada población se toma una muestra aleatoria de tamaño n1 y n2
respectivamente, entonces el intervalo de confianza para la diferencia de las medias poblacionales
dependerá de la información con la que se cuenta y se presentan los siguientes casos:

IC1 2 x1 x2 E

Cálculo del margen de error

Caso Margen de error Condición


Si las varianzas 12 22 En este caso, z0 es el índice
poblacionales 𝜎12 y 𝜎22 son E  z0  correspondiente al nivel de confianza,
n1 n2
conocidas que se calcula usando la distribución
normal estándar.
Si las varianzas Sp2 Sp2 En este caso, t0 es el índice
poblacionales 𝜎12 y 𝜎22 son E  t0  correspondiente al nivel de confianza,
n1 n2
desconocidas, pero se que se calcula usando la distribución t
consideran iguales
SP2 
n1  1S12  n2  1S22 de Student con n1 + n2 - 2 grados de
n1  n2  2 libertad.

Si las varianzas S12 S22 En este caso, t0 es el índice


poblacionales 𝜎12 y 𝜎22 son E  t0  correspondiente al nivel de confianza,
n1 n2
desconocidas, pero se que se calcula usando la distribución t
consideran diferentes de Student con g grados de libertad.
En este caso, los g grados de libertad
se calculan a partir de la siguiente
expresión:

g
S12
n1
2

S22
n2
 2

2
 S12   S22 
   
n  n 
 1   2 
n1 1
 n2 1

Interpretación
 Si el valor cero está a la izquierda del intervalo, es decir, los dos límites son mayores a cero,
entonces µ1 > µ2
 Si el valor cero está a la derecha del intervalo, es decir, los dos límites son menores a cero, entonces
µ1 < µ2
 Si el valor cero está contenido en el intervalo, entonces no podemos afirmar que las medias reales
sean diferentes, diremos que µ1 = µ2.

Notas
81 Estadística Inferencial 2019-1
Ejercicio 51
La tabla siguiente resume los datos de un experimento realizado para estudiar la resistencia a la
tracción de dos marcas de tornillos de anclaje:
Marca Tamaño de la muestra Resistencia media (N/mm2) Desviación estándar de la resistencia
A 15 700,8 50,30
B 13 730,4 67,68
En base a la información mostrada ¿podemos concluir que las resistencias medias reales de los tornillos
de ambas marcas son iguales? Use un nivel de confianza del 95%.

Ejercicio 52
Se ha realizado un estudio para comparar el contenido de nicotina, en miligramos, de dos marcas A y
B de cigarrillos. Se tomó dos muestras de tamaño nA = 10 y nB = 8 cigarrillos respectivamente. Los
resultados muestrales son lo que se dan en la siguiente tabla:
Marca Media muestral Desviación estándar
A 3,1 0,5
B 2,1 0,7
Calcule e interprete un intervalo de confianza del 95% para la diferencia de las medias poblacionales
del contenido de nicotina entre las dos marcas. Asuma normalidad y que las varianzas poblacionales
son diferentes.

Notas
82 Estadística Inferencial 2019-1
Intervalo de confianza para la diferencia de proporciones poblacionales
Se tiene dos poblaciones independientes con distribución de Bernoulli con parámetros π1 y π2; de cada
una se toma una muestra aleatoria de tamaños n1 y n2 (mayores a 30) respectivamente, entonces, el
intervalo de confianza para la diferencia de proporciones será:

IC1 2  p1  p2 E

El margen de error es E  z0 p1 1  p1   p2 1  p2 
n1 n2

Interpretación
 Si el valor cero está a la izquierda del intervalo, es decir, los dos límites son mayores a cero,
entonces, π1 > π2.
 Si el valor cero está a la derecha del intervalo, es decir, los dos límites son menores a cero,
entonces, π1 < π2.
 Si el valor cero está contenido en el intervalo, entonces no podemos afirmar que las proporciones
poblacionales son diferentes, diremos que π1 = π2.

Ejercicio 53
Una compañía comercializa sus productos mediante catálogos y ventas puerta por puerta. Esta
compañía ha decidido comprobar la eficacia de una campaña de televisión, para lo cual seleccionó dos
territorios semejantes. El primer territorio recibió una campaña por televisión y el segundo territorio
no. El porcentaje de visitas con éxito en el territorio con campaña fue de 18%, mientras que en el
territorio sin campaña fue 14%. Se hicieron 900 visitas en cada territorio.
Calcule e interprete un intervalo de confianza para la diferencia de proporciones poblacionales. Use
un nivel de confianza del 95%

Notas
83 Estadística Inferencial 2019-1
Ejercicio 54
Se tiene el siguiente intervalo de confianza para la diferencia de proporciones que fue calculado
utilizando un nivel de confianza del 95%.

IC1 2  0,032; 0,064

Considerando la misma información muestral determine, si es posible, un intervalo de confianza para


esta diferencia de proporciones, en este caso con un nivel de confianza del 90%.

Notas
84 Estadística Inferencial 2019-1
Problemas propuestos

102. Se sabe que el ingreso mensual de los trabajadores de construcción civil en Lima Metropolitana,
que son 25000, tiene una varianza de 810000 soles2 y un intervalo de confianza para estimar el
ingreso total de este sector, con una muestra aleatoria de tamaño 300 resultó [68082500 ;
71917500]. Indique qué nivel de confianza se utilizó.

103. En las organizaciones actuales una de las principales metas a lograr es ser competitivas, para
lograrlo se manejan una serie de variables en todo el ámbito de la Administración y de los
Recursos Humanos; de este modo uno de los objetivos a lograr es la manera de reducir el estrés
de sus empleados e implementar mejoras significativas en la calidad de la vida laboral, por lo
que se espera que esto redunde en la mejor producción laboral. En este contexto, el gerente de
Recursos Humanos de la empresa RIAL. S.A. afirma que la calificación media del nivel de
satisfacción laboral de sus empleados es superior que la de los empleados de la empresa SOEL
S.A. Para verificar esta afirmación se decidió registrar las calificaciones del nivel de satisfacción
laboral de una muestra aleatoria de empleados en cada una de las empresas (10 de la empresa
RIAL y 13 de la empresa SOEL), encontrándose los siguientes resultados:

RIAL S.A. 19,1 19,4 14,7 18,9 17,5 17,1 18,2 18,4 18,5 17,2
SOEL S.A. 14,2 13,3 13,1 12,4 13,5 12,8 14,7 11,9 12,8 15,3 13,7 11,7 12,3

Asumiendo que el nivel de satisfacción laboral se comporta de acuerdo a una distribución


normal y que las poblaciones en estudio son independientes, responda las siguientes preguntas:
a. Defina la variable de estudio y el o los parámetros de interés que le permita evaluar lo
afirmado por el gerente de Recursos Humanos de la empresa RIAL S. A. en este caso.
b. Utilizando un nivel de confianza del 95% ¿podemos aceptar lo afirmado por el gerente de
RIAL S.A.?

104. La empresa Cheese S.A. es una empresa importadora de quesos europeos. El gerente de ventas
seleccionó una muestra aleatoria de 14 pedidos realizados en los últimos meses y obtuvo los
siguientes datos sobre la cantidad vendida, en miles de kilogramos, en cada una de los pedidos.

1,8 1,9 1,6 1,4 1,5 1,9 1,8 1,7 1,2 1,6 1,7 1,1 1,6 1,7

Si la cantidad por pedido es una variable aleatoria con distribución normal, estime con un 90%
de confianza, la media real de la cantidad de queso vendido por pedido realizado.

105. El gerente de control de calidad de una fábrica de lámparas eléctricas desea estimar la media de
la duración de las lámparas de un embarque. Se sabe la duración de estas lámparas tienen
distribución normal con una desviación estándar de 120 horas. Se seleccionó una muestra
aleatoria de 36 lámparas y se obtuvo una media muestral de la duración de las lámparas de 540
horas.
a. Con esta información, calcule e interprete un intervalo para estimar la media real de la
duración de las lámparas. Use un nivel de confianza del 96%.
b. El gerente de control de calidad considera la posibilidad de reducir el margen de error hallado
en la parte a. en un 30%. Si mantiene el mismo nivel de confianza, ¿qué tamaño de muestra
debe seleccionar?

106. En cierto proceso de producción se tiene que el costo por unidad producida se comporta de
acuerdo con una distribución normal con media igual a 120 soles y desviación estándar de 10
soles. Se realizan medidas de reajuste en el proceso de producción de este artículo, con la
Notas
85 Estadística Inferencial 2019-1
finalidad es disminuir los costos de producción y que estos sean más homogéneos. Luego de
estas medidas se tomó una muestra aleatoria de seis unidades y se obtuvo los siguientes costos:
115,6 118,5 123,6 119,5 115,2 116,3

Utilizando los intervalos de confianza apropiados con un 90% de confianza.


a. Con respecto a la homogeneidad en los costos: defina el parámetro involucrado y luego haga
la estimación correspondiente. Comente su resultado.
b. Con respecto a la disminución de las medias de los costos: defina el parámetro involucrado y
luego haga la estimación correspondiente. Comente su resultado.

107. Para decidir si un programa de ayuda social en una región del país se justifica, se realizó un
estudio sobre el ingreso mensual de las familias. Si se tiene evidencia de que el ingreso total
mensual de las 5 000 familias que viven en esta región es inferior a 900 000 dólares se justifica
considerar a esta región como susceptible de ayuda social. Se tomó una muestra de 100 familias,
donde la media muestral del ingreso mensual fue de 150 dólares y la desviación estándar de 80
dólares. Calcule un intervalo de confianza del 90% para el ingreso total de la comunidad y úselo
para decidir si la región requiere de ayuda social.

108. Se tomó una muestra de bodegas de una zona de la ciudad con la finalidad de estimar la media
del nivel de ventas por semana, en miles de soles. El nivel de ventas tiene una distribución
normal. Los datos obtenidos se procesaron y los resultados se muestran a continuación:

Variable n Media muestral Desviación estándar muestral Intervalo de confianza


Nivel de ventas 15 ……….. 10,21 56,21; 67,52

A partir de esta información, responda las siguientes preguntas:


a. Se afirma que la media del nivel de ventas por semana de estas bodegas es superior a los 54
500 soles. Con el reporte dado, ¿qué puede decir al respecto?
b. Determine la media muestral del nivel de ventas.
c. ¿Qué nivel de confianza se utilizó en este reporte?

109. En abril del año 2006, la misión de observadores designados para verificar el normal desarrollo
del proceso electoral peruano, eligió una muestra aleatoria de 105 mesas electorales de entre
3398 mesas de la región Ica. La media muestral del número de votos por mesa fue de 319,2 con
una desviación estándar de 88,35. Con esta información, los miembros integrantes de dicha
comisión indicaron, en un informe proporcionado al JNE, que el número total de votos emitidos
en el departamento de Ica fue estimado entre 1 027 215 y 1 142 068 votos. Determine el nivel
de confianza utilizado en dicho informe.

110. Al señor Pérez le han propuesto participar en una lista para el congreso, en representación de
su región. Antes de aceptar la propuesta este señor quiere estimar, con 95% de probabilidad, el
porcentaje de votantes que están a favor de su candidatura. Para determinar esto, se tomó una
muestra aleatoria de tamaño n = 450 encontrándose que 90 están a favor de su candidatura.
Calcule e interprete el intervalo de confianza para el porcentaje de ciudadanos que estarían a
favor de la candidatura del señor Pérez.

111. En un distrito de la capital se realiza un estudio mediante el cual se podría tener la posibilidad
de otorgar créditos a los comerciantes de la zona y, de este modo, se puedan formalizar. Para
esto, se quiere estimar la media real del ingreso mensual de un sector de comerciantes
informales. Se tomó una muestra aleatoria de 120 de ellos y se encontró entre otros datos los

Notas
86 Estadística Inferencial 2019-1
siguientes: una media muestral del ingreso de 1 800 soles con una desviación estándar de 150
soles y que sólo el 36% tiene ingresos superiores a 2 100 soles.
a. Calcule e interprete los límites de confianza del 95% para la estimación de la media real del
ingreso mensual de estos comerciantes. ¿Cuál es el error máximo de estimación?
b. Estimar la proporción de todos los comerciantes con ingresos superiores a S/.2 100,
utilizando un nivel de confianza del 90%.

112. En un centro de educación superior técnica, en el presente periodo académico, se han


matriculado 800 alumnos. El administrador de la cafetería, con la finalidad de organizar
adecuadamente sus ventas, selecciona una muestra aleatoria de alumnos la cual representa el
15% del total, y aplicó una encuesta con las siguientes preguntas:
Pregunta 1: ¿Utiliza la cafetería del instituto? Sí __ No__
Pregunta 2: Si la repuesta anterior es afirmativa, diga aproximadamente cuánto gasta al día
en esta cafetería.
Los resultados: fueron:
- Contestaron negativamente a la pregunta 1 un total de 24 alumnos.
- De los que contestaron afirmativamente la pregunta 1, se obtuvo que la media muestra del
gasto diario fue de 12,2 soles con una desviación estándar de 3,48 soles.

Considerando estas características y resultados responda las siguientes preguntas:


a. Defina la población de interés, indique las variables y el tipo de variables involucradas.
b. Estime el porcentaje de alumnos que utilizan la cafetería del instituto con un 90% de
confianza.
c. Estime con un 97% de confianza, la media del monto diario que gasta un alumno que utiliza
la cafetería del instituto. Suponga que el gasto diario que realizan los alumnos que hacen uso
de la cafetería del instituto se distribuye normalmente.

113. Responda las siguientes preguntas:


a. De una población se toma una muestra aleatoria de tamaño n = 64 personas, con el objetivo
de estimar la media del gasto mensual en consumo, el cual tiene una distribución normal.
Sabiendo que la varianza de la población es de 62 500 soles2, se encontró el siguiente
 
intervalo de confianza para la media IC  1138,75; 1261,25 . Indique el valor de la media
muestral, el error de estimación y el nivel de confianza.
b. Dentro del contexto de la parte a., se desea reducir el error de estimación en un 40%, con el
mismo nivel de confianza. Indique el tamaño de muestra que se requiere.
c. A partir de una muestra aleatoria de tamaño n = 25, se ha calculado el intervalo de confianza
para la media de una población normal, obteniéndose una longitud de ocho. Si permanecen
invariables todos los demás valores que intervienen en el cálculo y si el tamaño de muestra
fuera de n = 100, ¿cuál será la longitud del intervalo?
d. Un productor de manzanas afirma la desviación estándar del peso de sus manzanas es de 10
gramos. Para verificar esto, se tomó una muestra aleatoria de tamaño n = 31 y se encontró
una desviación estándar muestral de 14 gramos. Usando un intervalo de confianza del 90%,
¿se puede aceptar la afirmación del productor?

114. En las ciudades donde la empresa aérea Vuelo Feliz S.A tiene oficinas se ha obtenido los
siguientes resultados con respecto al tipo de pasajes (económico y primera clase), gasto por
pasaje en dólares y la valoración del servicio. En la última reunión de directorio, el gerente
presentó los resultados de un estudio realizado con una muestra aleatoria de 304 clientes.

Notas
87 Estadística Inferencial 2019-1
Total Lima Arequipa Trujillo
Clientes entrevistados 304 152 95 57
Que usan pasajes económicos 245 129 76 40
Que usan pasajes de primera clase 59 23 19 17
Que consideran el servicio como aceptable 262 75 80 107
Media del gasto en pasajes por cliente 85 95 115 75
Desviación estándar del gasto en pasajes por cliente 15 10 15 9

Basándose en estos resultados responda las siguientes preguntas:


a. Con un nivel de confianza del 90%, ¿se puede afirmar, que el porcentaje de clientes que
consideran el servicio como aceptable es superior al 80%?
b. En Arequipa, se sabe que la media del gasto en pasajes tiene una distribución normal, usando
un nivel de confianza del 95%, estime la media del gasto en pasajes de los clientes.
c. “De acuerdo a la tendencia histórica, se espera que en Arequipa 4500 clientes compren
pasajes en febrero, por lo que el gerente de ventas asegura que el ingreso total por compra
de pasajes estaría alrededor de 550 000 soles. Usando un 95% de confianza, ¿el gerente de
ventas tiene razón?
d. Se desea estimar el porcentaje de clientes, a nivel nacional, que suelen utilizar pasajes en
primera clase, y si se tiene evidencia de que este porcentaje es inferior al 25%, se iniciará una
campaña de publicidad con el fin de promocionar mediante una oferta determinada, la
compra de dicho tipo de pasajes. Usando un 92% de confianza, ¿se debe realizar dicha
campaña de publicidad?

115. Un empresario afirma que el riesgo de una cartera de inversión es bajo si se tienen evidencia
que su desviación estándar de la utilidad es menor a 500 dólares. Para verificar si el riesgo de
cierta cartera de inversión es bajo decide tomar una muestra aleatoria de tamaño n = 16 en la
que encontró una varianza de la utilidad de 102 400 dólares2.
a. Defina adecuadamente el parámetro a estimar.
b. Utilizando un 95% de confianza, ¿se puede considerar que realmente el riesgo es bajo?

116. Se selecciona una muestra aleatoria de 100 familias de una comunidad de 15 000 familias. La
muestra dio una media del ingreso mensual de 250 dólares y una varianza de 400 dólares2. Con
esta información, se entregó el siguiente informe “Los ingresos totales de la comunidad están
comprendidos entre 2 200 800 y 2 299 200 dólares”. Indique qué nivel de confianza se usó.

117. Sean x 1 y x 2 las medias de dos muestras aleatorias independientes cada una de tamaño n
tomadas de las poblaciones con distribución normal, N(µ1, 2) y N(µ2, 2), en lo que respecta a
la variable de interés, donde la varianza común es conocida.
Determine el tamaño de muestra común n, si se sabe que con un 90% de confianza se construyó
el siguiente intervalo:
  
IC 1  2   x1  x2   ;x1  x2   
 5 5

118. Una compañía, que comercializa sus productos mediante catálogos y ventas puerta por puerta,
ha decidido comprobar la eficacia de una campaña de televisión, para lo cual seleccionó dos
territorios semejantes. Uno recibió campaña por televisión y en el otro no. El porcentaje de
visitas con éxito en el territorio con campaña fue de 18%, mientras que, en el otro territorio sin
campaña fue 14%. Se hicieron 900 visitas en cada territorio. Para justificar el costo de la campaña

Notas
88 Estadística Inferencial 2019-1
se requiere más de 3% de aumento en la proporción de visitas con éxito. ¿Dan estos datos
pruebas de que la campaña por televisión se justifica? Use un nivel de confianza del 92%.

119. En estudios realizados antes del año 1985 el enfoque del desempeño ajustado a las normas de
la ética en la Administración de Empresas tenía un claro enfoque en los administradores varones
pues estos eran los que dominaban el campo profesional. Actualmente se registran records de
mujeres que cursan carreras de administración. En consecuencia, los estudios actuales incluyen
las diferencias que tienen en la percepción del desempeño ajustado a las normas éticas de la
Administración de Empresas entre administradores hombres y mujeres.
Un estudio reciente revela que en una muestra de 500 mujeres administradoras 420 afirmaron
percibir un bajo desempeño en cuanto a las normas éticas de la Administración de Empresas;
mientras que en una muestra de 400 administradores hombres 330 respondieron en forma
similar.
Con un nivel de confianza de 92%, ¿se puede inferir que existe diferencia significativa entre los
administradores hombres y mujeres respecto a la percepción que tienen con respecto al bajo
desempeño ajustado a las normas éticas de la Administración de Empresas. ¿En cuál de ellos
esta proporción es más pequeña?
a. Defina el o los parámetros de interés en este caso.
b. Calcule el intervalo de confianza adecuado y responda las preguntas planteadas.
c. Explique cuáles son sus conclusiones, en términos del problema.

120. El gerente de Inlet Square Mall, en la Florida, desea estimar la cantidad promedio que gastan
sus clientes que visitan el centro comercial. Una muestra aleatoria de 14 clientes revela los
siguientes montos, en dólares, gastados por los clientes entrevistados:

Cliente 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Gasto 48,2 42,2 46,8 51,4 23,9 41,9 54,9 37,9 52,6 48,6 50,8 46,9 61,8 61,7

a. Si tiene evidencias que el monto promedio real gastado es inferior a los 60 dólares, iniciará
una agresiva campaña con la finalidad de atraer más clientes e incentivar el gasto de estos
en el centro comercial. Si utiliza un nivel de confianza del 95% ¿Cuál será la decisión del
gerente de este centro comercial?
b. Se considera que los gastos de los clientes que visitan el centro comercial tienen un grado de
homogeneidad aceptable si tiene una desviación estándar de a lo más 15 dólares. ¿Se tiene
evidencia que los gastos de los clientes de este centro comercial son homogéneos? Utilizar
un 90% de confianza.

121. Se selecciona una muestra aleatoria de 100 familias de una comunidad de familias. La muestra
dio una media de 150 dólares de ingreso mensual. Se sabe que la varianza del ingreso mensual
en esta comunidad es de 400 dólares2. Con esta información se entregó el siguiente informe “La
media de los ingresos de esta comunidad están comprendidos entre 146,72 dólares y 153,28
dólares”. Indique qué nivel de confianza se usó en el informe.

122. La aseguradora de fondo de pensiones Neptuno cuenta con 145 000 afiliados. En una muestra
aleatoria de 1200 afiliados en el último trimestre, se obtuvo lo siguiente: media 850 dólares y
desviación estándar 225 dólares. Se sabe que 650 de los 1200 afiliados seleccionados hicieron
aportaciones superiores a 1250 dólares.

Notas
89 Estadística Inferencial 2019-1
En el mismo período y basado en una muestra de 1500 afiliados, la competencia más cercana,
AFP Venus indica que la media de aportaciones es 1020 dólares con desviación estándar 190
dólares. Además, 780 afiliados tuvieron aportaciones superiores a los 1250 dólares.
a. ¿Puede AFP Venus afirmar que la media de las aportaciones de sus afiliados es mayor a la
media de las aportaciones de los afiliados de AFP Neptuno? Use  = 90%.
b. ¿Qué puede comentar con respecto al porcentaje poblacional de afiliados cuyas aportaciones
son superiores a los 1250 dólares, si compara las dos AFP? Use  = 98%%.

123. La siguiente información representa los datos obtenidos en una muestra aleatoria de tiempos,
en minutos, utilizados en la fabricación de un artículo. La empresa que los fabrica tiene dos líneas
de producción, en dos turnos diferentes. Las muestras aleatorias de cada uno de los turnos y de
cada una de las líneas de producción fueron extraídas en forma independiente.

Mañana Tarde
Línea A 2,5 3,0 4,3 5,1 4,5 4,6 5,3 6,7 8,0
Línea B 3,5 4,0 5,3 7,1 6,5 5,0 6,5 8,1 6,9

Responda lo siguiente:
a. ¿Se puede decir que la media del tiempo en el turno de la mañana es diferente a la media
del tiempo en el turno de la tarde? Use un nivel de confianza del 90%.
b. ¿Se puede afirmar que, durante el turno de la mañana, el tiempo de fabricación es más
estable en la línea A que en la línea B? Use un nivel de confianza del 90%.
c. El gerente de producción afirma que la media del tiempo de producción en la línea A es de
7,5 minutos y por lo tanto, se debe realizar reajustes pues es necesario reducir ese tiempo.
Usando un intervalo de confianza del 95%, ¿tiene razón el gerente?
d. Si la desviación estándar en el tiempo de producción del proceso B durante el turno de la
mañana es cuatro minutos o más se tendrá que detener el proceso y reajustar la línea.
Usando un nivel de confianza del 95%, ¿será necesario el reajuste?

124. Una fábrica produce dos tipos de productos en dos turnos diferentes y se desea observar el
número de productos defectuosos en ambos turnos. Para esto se toma dos muestras
independientes, una de cada turno de trabajo, y se determinó la cantidad de artículos
defectuosos y el tipo de producto producido, los resultados se muestran en la siguiente tabla:

Producto A Producto B
Turno Defectuosos Buenos Defectuosos Buenos
Mañana 20 200 50 300
Tarde 5 150 25 200

a. ¿Podemos afirmar que el turno de la tarde se producen artículos con un menor porcentaje
de unidades defectuosas comparadas con el turno de la mañana? Use un 90% de confianza.
b. Considerando el turno de la mañana, ¿en qué producto se producen un mayor porcentaje de
artículos defectuosos? Use un 90% de confianza.

125. La empresa Ocio S.A. está interesada en estimar la media del gasto en recreación que tiene
cierto sector de la población. Encarga hacer el estudio a dos empresas de investigación de
mercado, la empresa A y la empresa B. En el informe recibido por el gerente de Ocio S.A. tiene
que las empresas A y B utilizaron muestras independientes de tamaños n1 y n2 respectivamente
y que ambas muestras fueron suficientemente grandes, ambas empresas obtuvieron un

Notas
90 Estadística Inferencial 2019-1
intervalo de confianza para estimar la media pedido, resultando que ambos intervalos tienen la
misma longitud, la empresa A reporta que utilizó un nivel de confianza del 89,04% y la empresa
B reporta que utilizó un nivel de confianza del 98,36%, el gasto en recreación en el sector de la
población que es de interés en este caso tiene un distribución normal con media µ y varianza 2
conocida.
a. ¿Qué empresa utilizó un tamaño de muestra mayor?
b. ¿Cuántas veces contiene la muestra mayor a la muestra menor?

126. Un empresario debe decidir en cuál de tres carteras (A, B y C) debe invertir su dinero. Solo debe
seleccionar una de ellas. Tiene información que en las tres carteras:
- la media de la utilidad mensual, en cientos de dólares, es aproximadamente el mismo,
- la utilidad mensual se comporta según una distribución normal,
- los resultados en cuanto a las utilidades son independientes.
Al tomar muestras de cada una de estas carteras este empresario encontró los siguientes
resultados a un nivel de confianza del 90%:
 2 
IC B2   0,3682; 0,6892
 C 
2 
IC C2   1,8695; 3,6568
A 
 A2 ,  B2 y  C2 son las varianzas en las utilidades mensuales de las carteras A, B y C
respectivamente. Sin embargo la información muestral correspondiente a las carteras A y B no
fue aún procesada y se muestra a continuación:

Utilidad mensual en cientos de dólares


Cartera A 15,0 16,5 17,2 14,9 15,5 16,1
Cartera B 16,3 19,5 11,4 23,8 16,8 21,3 12,5 21,0

Utilizando un nivel de confianza del 90% y considerando que este empresario es adverso al
riesgo, y que, por lo tanto, tomará la decisión influenciado por esta característica, indique cuál
debe ser la decisión de este empresario.

127. Un empresario normalmente invierte en las acciones tipo A, uno de sus agentes le informa que
si invierte en las acciones tipo B logrará disminuir su riesgo. Con esta información y con la
finalidad de tomar una decisión este empresario tomó una muestra aleatoria de tamaño 16 de
las acciones tipo A y otra muestra de tamaño 21 de las acciones tipo B y encontró los siguientes
resultados:
Acciones tipo A: Desviación estándar 158,52
Acciones tipo B: Varianza 110 459,76
Utilizando un intervalo de confianza adecuado del 95%, ¿cuál será la decisión del empresario?

128. El intervalo de confianza para la proporción de artículos defectuosos producidos por una máquina,
en base a una muestra aleatoria de tamaño 240, es:
IC1 2  0,031971; 0,068029
Determine el nivel de confianza utilizado al calcular este intervalo.

Notas
91 Estadística Inferencial 2019-1
129. Para estimar la media del ingreso mensual, en miles de soles, de las pequeñas empresas en el
rubro de servicios del país, se fija un nivel de confianza del 92% y se está dispuesto a tolerar como
máximo un error de 2500 soles, como información adicional se tiene que los ingresos mensuales
en este tipo de empresas tiene una distribución normal con una desviación estándar de 8,8 miles
de soles. ¿Qué tamaño de muestra se necesita seleccionar como mínimo?

130. El administrador del restaurante Paladar Fino tiene las siguientes estadísticas con respecto al
monto en soles por mesa, el tiempo (en minutos) que es ocupada una mesa y el número de
clientes que ingresan por día, en una muestra aleatoria de diez mesas tomadas en un día muestran
los siguientes resultados:
Con respecto al monto y al tiempo que se ocupa una mesa:
Mesa (número de la mesa) 1 2 3 4 5 6 7 8 9 10
Monto del consumo (en soles) 85 120 105 98 112 109 95 140 90 110
Tiempo de ocupación de la mesa (min) 31 25 32 36 28 30 37 34 40 38

Con respecto a la cantidad de clientes que ingresaron durante un día, según sean clientes
habituales y clientes nuevos.
Cantidad de personas por mesa Clientes habituales Clientes nuevos
Más de tres personas 60 10
Tres o menos personas 30 20

Considerando a estas diez mesas como una muestra aleatoria.


a. Estime con una confianza del 95%, la media del monto que gastan los clientes por mesa en
el restaurante Paladar Fino y diga, si es posible considerar que la media del gasto por mesa
supera los 95 soles. Se sabe que estos montos tienen una distribución normal.
b. Estime con un 98% de confianza la media del tiempo que permanece ocupada una mesa, y
diga, si es posible concluir que en un día de ocho horas una mesa rotará más de 14 veces.
Considere que este tiempo tiene una distribución normal.
c. Estime con una confianza del 92% la proporción de clientes habituales que tiene el
restaurante. ¿Se puede decir que la proporción de clientes habituales supera el 75%?

131. En una empresa de insumos se ha realizado un estudio para comparar los tiempos, en minutos,
requeridos para producir un artículo mediante dos procesos diferentes e independientes A y B.
Con la finalidad de decidir qué proceso seleccionar se tomó dos muestras aleatorias de tamaño
nA = 13 y nB = 10 artículos producidos por cada uno de los procesos respectivamente. Se encontró
los siguientes resultados:

Proceso utilizado Media del tiempo Desviación estándar del tiempo


A 31 minutos 5 minutos
B 26 minutos 7 minutos

a. Si la decisión se toma estrictamente basado en la variabilidad en los tiempos de


procesamiento y se utiliza un nivel de confianza del 90%, ¿qué proceso debe elegir? Defina
el o los parámetros de interés e interprete sus resultados en términos del problema.
b. Si el criterio bajo el cual se toma la decisión es la media del tiempo de procesamiento, ¿qué
proceso se debe elegir? Defina el o los parámetros de interés, utilice un 90% de confianza,
interprete sus resultados.

Notas
92 Estadística Inferencial 2019-1

132. Considere dos poblaciones independientes con promedios 1 y 2 desconocidos y cuyas varianzas
son  12  900 y  22  625 . Si de estas poblaciones se toman dos muestras aleatorias, una de cada
población, de tamaños n1 = 20 y n2 = 40, y se encontraron los promedios muestrales x1 152 y
x2 145.

a. Con esta información, calcule un intervalo de confianza para comparar las medias
poblacionales e indique cuál es su conclusión, utilizando un nivel de confianza del 95%.
b. Si el error de estimación en el intervalo anterior se desea reducir a 10, utilizando el mismo
nivel de confianza y considerando que las muestras mantienen la misma relación, es decir
que la muestra de la población dos es el doble de la muestra tomada de la población uno.
Determine los tamaños de muestra que se deben tomar de cada una de las poblaciones.

133. Un comerciante normalmente compra componentes que utiliza en la fabricación de baterías a dos
proveedores, proveedor A y proveedor B. Para simplificar sus procesos decide que comprará solo
a uno de ellos siempre y cuando tenga evidencia que la proporción de componentes defectuosas
sea más de 2% a favor de alguno de los dos proveedores, de no ser así continuará adquiriendo
dichos componentes a ambos proveedores. Para esto selecciona una muestra aleatoria de 180
componentes al proveedor A y 200 componentes al proveedor B, encentrando los siguientes
resultados:
Proveedor A Proveedor B
Número de componentes defectuosos 7 20
Número de componentes en buen estado 173 180

a. Defina el o los parámetros de interés en este caso.


b. Utilizando un nivel de confianza del 95%, calcule y muestre el intervalo de confianza que le
permita al gerente tomar una decisión al respecto.
c. Considerando los resultados obtenidos, ¿qué debería decidir el gerente y por qué?

134. Se quiere estimar la media del ingreso diario de un taxista en Lima. Se quiere tener un margen de
error de dos soles y un nivel de confianza del 90%. De una investigación anterior, se sabe que la
desviación estándar del ingreso diario es de 30 soles. Determine el tamaño de muestra requerido.

135. Si el ingreso mensual en dos poblaciones A y B tienen una distribución normal con medias
desconocidas pero sus desviaciones estándar son iguales y cuyo valor es 400 soles. Utilizando un
95% de confianza y tamaños de muestra iguales, se desea estimar un intervalo para la diferencia
de las medias de estas poblaciones con un error de a lo más 200 soles ¿Qué tamaño de muestra
debe seleccionar de cada una de las poblaciones?

136. De dos poblaciones independientes y con distribución normal se seleccionaron dos muestras
aleatorias también independientes, una de cada población, y se calcularon los siguientes
intervalos de confianza:
IC1 2 a; b
 2 
IC 12   c ; d
 2 

Notas
93 Estadística Inferencial 2019-1
Donde a, b, c y d son números reales positivos tales que a < b < c < d < 1. Si comparamos las
respectivas medias y varianzas: ¿Se puede afirmar que la media de la población 2 es mayor que la
media de la población 1? En términos absolutos ¿en la población 2, la variable en estudio es más
homogénea que en la población 1?

Notas
94 Estadística Inferencial 2019-1

Pruebas de hipótesis
Supongamos que se formula alguna conjetura o supuesto con respecto a una característica
desconocida de la población, como por ejemplo:
“La media del costo de producción por unidad es de 3,5 dólares”
En este caso será necesario contrastar la validez de dicha conjetura que se ha planteado con respecto
a la media del costo unitario. Esta conjetura, la llamaremos hipótesis estadística y tiene que ser
contrastada para determinar su validez.
Este proceso de contrastación se realiza en base a la información obtenida a partir de una muestra
aleatoria. El objetivo al tomar una muestra es extraer alguna conclusión o realizar alguna inferencia
respecto a un parámetro poblacional.
En este capítulo estudiaremos las circunstancias en las cuales se pueden contrastar la hipótesis,
basándonos en la información de una muestra aleatoria y el estimador puntual correspondiente al
parámetro que nos interesa, además de un cierto nivel de significancia.

Definición de hipótesis estadística


Una hipótesis estadística es un supuesto o una conjetura que se plantea con respecto al valor de algún
parámetro de una o más poblaciones.
Por ejemplo:
 La media del nivel de ventas por día es mayor que S/. 860 (µ > 860)
 La proporción de artículos defectuosos por lote es menor a 0,03 ( ≤ 0,03)
 La variabilidad de ambos procesos es la misma (σ12 = σ22)
El objetivo de las pruebas de hipótesis es evaluar las proposiciones o conjeturas que se plantean acerca
de los parámetros de la población en estudio.
Este objetivo se logra utilizando la información obtenida en una muestra aleatoria que es tomada de
la población en estudio, un nivel de significancia α fijado y el estadístico de contraste adecuado al
parámetro que está sometido a prueba.

Hipótesis nula H0
Es la que se contrasta y rechazada o no, dependiendo de la evidencia que da la información muestral.
Es la hipótesis se supone que no hay diferencia, o no asociación, o no efecto, Se plantea con la intención
de ser rechazada.
En resumen las características de la hipótesis nula son:
 Se va a considerar como cierta hasta que se tenga suficiente evidencia de lo contrario.
 Siempre incluye el signo de igualdad
 Es la base para el análisis estadístico de la prueba y la decisión a tomar

Hipótesis alternativa H1
Es la hipótesis que se opone o es la que niega la hipótesis nula.
En términos generales en esta hipótesis se plantea lo que se está tratando de probar, y está sujeta a la
evidencia observada en la muestra.
En resumen las características de la hipótesis alternativa:
 Es lo contrario a la hipótesis nula.
 Está hipótesis se establece en términos de la evidencia que se está buscando. (≠ , < , > ).
 Es la que define la dirección de la zona de rechazo.

Notas
95 Estadística Inferencial 2019-1
Ejercicio 55
H0: El tiempo medio de atención a un cliente en el módulo de información es de 2,8 minutos o menos.
H1: El tiempo medio de atención a un cliente en el módulo de información es de más de 2,8 minutos.
Notación:
H0: µ ≤ 2,8 minutos
H1: µ > 2,8 minutos

Ejercicio 56
H0: El porcentaje de personas que votará por un candidato es de al menos 50%.
H1: El porcentaje de personas que votará por un candidato es menor al 50%.
Notación:
H0:  ≥ 0,50
H1:  < 0,50

Contraste de hipótesis
El hecho de no rechazar la hipótesis nula no implica que ésta sea cierta, significa que los datos de la
muestra no proporcionan evidencia suficiente que contradiga lo supuesto en la hipótesis nula.
La hipótesis que se contrasta es rechazada o no en función de la información muestral. La hipótesis
alternativa se especifica como opción posible si se rechaza la nula.

Tipos de errores

Error tipo I
Es el error que se comete al rechazar la hipótesis nula cuando ésta es realmente verdadera.
La probabilidad de cometer el error tipo I se denota y se define como:
 PRechazarH0 H0 escierta
La probabilidad de cometer el error tipo I se denomina el nivel de significancia de la prueba.
El valor α es fijado por la persona que realiza la investigación, por lo general, en 0,01; 0,05 o 0,10.

Error tipo II
Es el error que se comete al no rechazar la hipótesis nula H0 cuando ésta en realidad es falsa.
La probabilidad de cometer el error tipo II se denota β y se define como:
 PNorechazarH0 H0 esfalsa
Si se reduce la probabilidad de cometer uno de los errores, la probabilidad de cometer el otro error
crece (manteniendo todo lo demás constante).
Resumiendo las posibles situaciones:

Decisión basada en la muestra


La realidad Rechazar H0 No rechazar H0
H0 cierta Error tipo I Decisión correcta
H0 falsa Decisión correcta Error tipo II

Notas
96 Estadística Inferencial 2019-1
Ejercicio 57
En las siguientes situaciones establezca la hipótesis nula y alternativa y establezca, si es posible, qué
tipo de error tendría consecuencias más graves si se comete.

Una investigación afirma que tomar una aspirina a la semana reduce el riesgo de contraer cáncer de
colon.

Se quiere establecer si un político es culpable sobre un caso de malversación de fondos.

Un inspector formula la siguiente hipótesis nula: “Este paracaídas funcionará”.

Notas
97 Estadística Inferencial 2019-1
Procedimiento para desarrollar una prueba de hipótesis
En lo que sigue desarrollaremos las técnicas que utilizaremos para resolver pruebas de hipótesis que
involucren una media, una proporción o una varianza. Así como también, pruebas de hipótesis que
involucren dos medias, dos proporciones y dos varianzas poblacionales.

Pasos a seguir en una prueba de hipótesis

Paso 1

•Plantear hipótesis acerca del parámetro.

Paso 2

•Fijar el nivel de significancia para la prueba .

Paso 3

•Escoger el estadístico de prueba (o estadístico de contraste) adecuado.

Paso 4

•Establecer las regiones críticas de acuerdo con la hipótesis alternativa y el nivel de significancia.
Establecer la regla de decisión.

Paso 5

•Calcular el valor del estadístico de prueba con los datos de la muestra. Tomar la decisión, interpretar y
dar las conclusiones en el contexto del problema.

Estadístico de prueba
En este paso se selecciona el respectivo estadístico de prueba, es decir, la fórmula que se utilizará para
realizar el contraste. Esta depende del parámetro sometido a prueba y de la información muestral
disponible. Se calcula bajo el supuesto de que la hipótesis nula H0 es verdadera.

Hipótesis a plantear
En resumen, tendremos los siguientes casos:
H0 :    0 H0 :    0 H0 :    0
  
H1 :    0 H1 :    0 H1 :    0

Ejercicio 58
En los siguientes casos, defina el parámetro de interés y establezca la hipótesis nula y alternativa.
Una investigación afirma que, en el Perú, menos del 75% de los trabajadores de la población
económicamente activa (PEA) que se encuentra ocupada se desempeña en un empleo informal.

Notas
98 Estadística Inferencial 2019-1
Una investigación afirma que, en Lima Metropolitana, la media del ingreso mensual por la actividad
laboral principal fue de como máximo de 1700 soles en el primer trimestre del 2016.

El proceso de fabricación de cierto artículo se considera estable si la desviación estándar del tiempo
utilizado en la producción de una unidad es menor o igual a 3 minutos.

Región crítica
La región crítica o de rechazo de la hipótesis nula H0 es un conjunto de valores del estadístico de prueba
que depende del nivel de significancia α y de la hipótesis alternativa H1.

 Si la hipótesis nula fuera cierta, la probabilidad de que ocurran los valores de la estadística de
prueba que pertenecen a la región crítica es pequeña y se determina con el nivel de significancia.
 La región crítica se usa para establecer la regla de decisión para la prueba.

H0 :    0 H0 :    0 H0 :    0


  
H1 :    0 H1 :    0 H1 :    0

Unilateral derecha Unilateral izquierda Bilateral

  /2 /2

Regla de decisión
Sea ˆ el valor observado de la estadística de prueba, es decir, el valor de la estadística de prueba
calculado con los valores experimentales de la muestra.
 Si ˆ pertenece a la región crítica se rechaza H0
 Si ˆ no pertenece a la región crítica no se rechaza H0

Notas
99 Estadística Inferencial 2019-1
Nivel crítico de la prueba (valor p)
Es la probabilidad de obtener un estadístico de prueba igual o más extremo que el resultado obtenido
de la muestra, dado que la hipótesis nula H0 es cierta.
El nivel crítico de la prueba, valor p o p-value es el mayor valor posible del nivel de significancia para el
que no se rechaza H0.

Se puede tomar la decisión en base al valor p de la prueba.


 Si  ≤ valor p, entonces no se rechaza H0.
 Si  > valor p, entonces se rechaza H0.

Ejercicio 59
En una investigación se afirma que la desviación estándar de la estatura de los habitantes de una
ciudad es menor a ocho centímetros. Si para dicha investigación se sabe que el valor p de la prueba es
del 0,06, establezca las conclusiones para los diversos nivel de significancia que el investigador puede
establecer.
H0: ………………………………………………………………………………………………………………………………………………………
H1: ………………………………………………………………………………………………………………………………………………………
Nivel de significancia Decisión (Rechazar o no rechazar H0)
3%
5%
6%
7%
10%

Ejercicio 60
En una investigación se afirma que el gasto medio en alimentación diario de los alumnos de una
universidad es de por lo menos 10 soles. Si para dicha investigación se sabe que la probabilidad de
cometer el error tipo I es de 0,1 y de cometer el error tipo II es del 0,05 y el valor p de la prueba es del
0,07. Establezca la hipótesis nula y la alternativa y realice la conclusión en términos del problema.

Notas
100 Estadística Inferencial 2019-1

Pruebas de hipótesis de una población


Plantearemos a continuación el procedimiento a seguir para poder resolver pruebas de hipótesis que
involucren la media poblacional (µ), que tenga distribución normal. Esta prueba se basa en la
información que se tiene de una muestra aleatoria seleccionada de la población en estudio. Este
procedimiento será generalizado para realizar pruebas de hipótesis que impliquen otros parámetros.

Prueba de hipótesis para una media poblacional 

Posibles hipótesis
Unilateral izquierda Bilateral Unilateral derecha
H0 :   0 H0 :   0 H0 :   0
H1 :   0 H1 :   0 H1 :   0

Estadístico de prueba y regiones críticas

Si la varianza poblacional 2 es conocida, usamos la variable Z  X  0



n
Las regiones críticas serán:

Unilateral izquierda Bilateral Unilateral derecha


   
RC   ,  z1  RC    ,  z    z  ,   RC  z1 , 
 1
2   2
1


Si la varianza poblacional 2 es desconocida, usamos la variable T  X   0


S
n
Las regiones críticas serán:

Unilateral izquierda Bilateral Unilateral derecha


   

RC   ,  t1 ,n1  RC    ,  t    t  ,    
RC  t1 ,n1 ,  
 1 ,n 1
2   1 2 ,n1 

Si el tamaño de muestra es mayor a 30 podemos aproximar la distribución t de Student por la normal


estándar, usando el teorema central del límite.

La regla de decisión es:


 rechazar H0 si el valor observado de estadístico de la prueba (calculado con los datos de la muestra)
pertenece a la región crítica
 no rechazar H0, en otro caso.

Notas
101 Estadística Inferencial 2019-1
Ejercicio 61
El jefe de control de calidad desea determinar si la máquina con la que embolsan un cereal está bajo
control, es decir, si se está embolsando con una media de 500 gramos. Para ello, tomó una muestra
aleatoria de 36 bolsas y se encontró una media de 496,5 gramos. Si el jefe de control de calidad usa un
nivel de significancia del 5%, ¿a qué conclusión llegará, si sabe que el proceso tiene una varianza de 81
gramos2? Indique los supuestos necesarios y calcule el valor p de la prueba.

Ejercicio 62
En una entidad de defensa del consumidor, se desea determinar si cierta empresa debe ser multada o
no. Los clientes se quejan que el contenido de aceite en sus botellas es menor a lo indicado en la
etiqueta que dice 850 centímetros cúbicos. Con la finalidad de tomar una decisión el funcionario
selecciona una muestra de tamaño 10 botellas y los resultados que obtiene son los siguientes:

850 852 839 842 849 852 849 846 851 852

Asumiendo un nivel de significancia del 5% y que la distribución de los contenidos por botella de aceite
se ajusta a una distribución normal, ¿cuál será la decisión del funcionario?

Notas
102 Estadística Inferencial 2019-1
Ejercicio 63
El director de una biblioteca universitaria, afirma que el número medio de libros sacados a préstamo
semanalmente por cada estudiante ha cambiado últimamente. Anteriormente, se sacaba una media
de 3,4 libros. En una muestra reciente de 40 estudiantes la media fue de 4,3 libros con una desviación
estándar de 1,5 libros. Al nivel de significancia del 1%.
a. ¿Ha cambiado la media de préstamos?
b. Si actualmente la media es de 4,2 libros, calcule la probabilidad de cometer el error tipo II.

Solución
a. Determinemos las hipótesis nula y alternativa

µ= número medio poblacional de libros semanales prestados por alumno


H0: µ = 3,4 libros (µ0 = 3,4 libros)
H1: µ ≠ 3,4 libros
El nivel de significancia α es 0,01.
Determinemos la región crítica RC.
RC ]  ,z [  ]z  ,  [
1 1
2 2
RC ]  ,  2,575[]2,575,[

Calculemos el valor observado del estadístico de prueba


x  0 4,3  3,4
zc    3,79
 __ 0,237
X

Como zc  3,79 pertenece a la región crítica (RC), rechazamos H0. Luego, a un nivel de significancia
del 1%, la evidencia muestral indica que el número medio semanal de libros prestados por alumno
ha cambiado.

b. Calculemos la probabilidad de cometer el error tipo II

β= P(cometer el error tipo II) = P(No rechazar H0/ H0 es falsa)


 X  3,4 
  P  2,575   2,575 /   4,2 
 0,237 
 2,79  4,2 4,01  4,2 
  P2,79  X  4,01 /   4,2  P Z   (0,80)  (5,95)
 0,237 0,237 
 0,2119  0  0,2119
Si tomamos la decisión usando la región crítica establecida en la parte a, la probabilidad de concluir
que la media no ha cambiado cuando en realidad ha cambiado a 4,2 libros por semana es 0,2119.

Notas
103 Estadística Inferencial 2019-1
Pruebas de hipótesis para una proporción poblacional 
Para pruebas de hipótesis sobre la proporción poblacional requerimos muestras grandes, n ≥ 30.

Posibles hipótesis
Unilateral izquierda Bilateral Unilateral derecha
H0 : 0 H0 : 0 H0 : 0
H1 : 0 H1 :   0 H1 : 0

Estadísticos de prueba y regiones críticas


El estadístico de prueba es:
P  0
Z
 0 (1   0 )
n
Las regiones críticas serán:

Unilateral izquierda Bilateral Unilateral derecha


   
RC   ,  z1  RC    ,  z     z  ,    RC  z1 , 
 1
2 
  2
1


Ejercicio 64
La aprobación de la gestión de un presidente de un país que lleva cien días de gobierno es del 68%. Un
analista político, luego de destaparse recientes casos de corrupción, afirma que dicha aprobación ha
bajado. Para probar dicha afirmación, se tomó una encuesta de 1240, encontrándose que 805 personas
aprueban la gestión presidencial. Defina el o los parámetros de interés en este caso y defina sus
hipótesis.

Calcule el valor p de la prueba.

Notas
104 Estadística Inferencial 2019-1
Ejercicio 65
El director de correos implementó nuevos procedimientos para reducir el número de cartas
extraviadas. Anteriormente el porcentaje de cartas extraviadas era del 0,3 %. Recientemente en una
investigación en la que 8 000 cartas fueron enviadas se extraviaron 18 cartas. Al nivel de significancia
del 10%:
a. ¿Se puede aceptar que los nuevos procedimientos consiguieron su objetivo?
b. Si actualmente el porcentaje de cartas extraviadas es del 0,2%, encontrar la probabilidad de
cometer el error tipo II.

Solución
a. Determinemos las hipótesis nula y alternativa
 = proporción poblacional de cartas extraviadas.
H0:  = 0,003 (0 = 0,003)
H1:  < 0,003
El nivel de significancia α es 0,05.
Determinemos la región crítica.
z1  1,28, entonces, RC ]  ,  1,28[
Calculemos el valor observado del estadístico de prueba
p 0 p 0 0,00225  0,003
z    1,23
P  0 1   0  0,003  0,997
n 8 000
Como z  1,23 no pertenece a la región crítica RC no se rechaza H0 y se concluye que a un nivel
de significancia del 10%, no hay evidencia muestral suficiente de que los nuevos procedimientos
hayan consiguieron su objetivo de reducir el porcentaje de cartas extraviadas.

b. Calculemos la probabilidad de cometer el error tipo II

β = P(cometer el error tipo II) = P(No rechazar H0/ H0 es falsa)


 
 
 P  0,003 
  P  1,28 /   0,002
 0,003  0,997 
 8 000 
 
 
 
 0,0022  0,002 
 PP  0,0022 /   0,002  P Z  
 0,002  0,998 
 8 000 
 
 1  (0,4)  0,3446

La probabilidad de concluir que los nuevos procedimientos no consiguieron su objetivo cuando en


realidad si hubo una disminución de 0,1% en el porcentaje de cartas extraviadas es 0,3446.

Notas
105 Estadística Inferencial 2019-1
Prueba de hipótesis para una varianza poblacional 2

Posibles hipótesis
Unilateral izquierda Bilateral Unilateral derecha
H0 :  2   02 H0 :  2   02 H0 :  2   02

H1 :  2   02 H1 :  2   02 H1 :  2   02

Estadístico de prueba y regiones críticas


El estadístico de prueba es:

2 
n  1S 2
 02
Las regiones críticas posibles serán:

Unilateral izquierda Bilateral Unilateral derecha


RC  0; (2 , n1)  
RC   0;  2
  2
   

;    
RC   (21  ; n 1) ;
 2
; n 1
  1  ; n 1
2 

Ejercicio 66
Según una empresa de productos agrícolas para exportación, el peso de sus manzanas tiene una
desviación estándar menor a 14 gramos. Para confirmar dicha aseveración, se tomó una muestra
aleatoria de 31 manzanas y se encontró una desviación estándar muestral de 12,9 gramos. A un nivel
de significancia del 5%, ¿puede afirmarse que la desviación estándar es menor a 14 gramos? Asuma
que el peso de las manzanas es una variable aleatoria normal.

Notas
106 Estadística Inferencial 2019-1
Ejercicio 67
En una embotelladora la desviación estándar de la cantidad de líquido llenado debe ser menor que 0,1
onzas. El supervisor del control de calidad tomó una muestra de 12 botellas y encontró que la cantidad
de líquido llenado tenía una desviación estándar muestral de 0,07 onzas. Con un nivel de significancia
del 10 %, ¿se puede afirmar que la desviación estándar de la cantidad de líquido llenado es menor que
0,1 onzas? Asume que la cantidad de líquido en una variable normal.

Solución
Determinemos las hipótesis nula y alternativa

2 = varianza de la cantidad de líquido llenado en las botellas, en onzas2


H0 :  2  0,12 ( 02  0,12  0,01)
H1 :  2  0,12
El nivel de significancia α es 0,10.

Determinemos la región crítica (RC)

  
RC  0; (2 , n1)  0; (20,1;11)  0; 5,5778

Calculemos el valor observado del estadístico de prueba.

c2 
n  1S2  12  1  0,0049  5,39
 02 0,01

Como  c2  5,39 pertenece a la región crítica (RC) se rechaza H0 y se concluye que, a un nivel de
significancia del 10%, la evidencia muestral indica que la desviación estándar del líquido llenado es
menor a 0,1.

Notas
107 Estadística Inferencial 2019-1
Problemas propuestos

137. En cada uno de los siguientes casos plantear la hipótesis nula y alternativa respectiva, definiendo
el parámetro de interés.
a. Se desea verificar si el proceso está bajo control, el proceso debe de llena bolsas de cereal en
las que se indica que contiene 350 gramos.
b. En una entidad de defensa del consumidor, se desea determinar si cierta empresa debe ser
multada o no. Los clientes se quejan que el contenido de aceite en sus botellas es menor a lo
indicado, que es 850 c.c.
c. El porcentaje de aceptación de cierta marca de detergente es 20%, se realiza una campaña
de publicidad y desea evaluar si esta campaña fue efectiva o no.

138. Se sabe que en una compañía de taxis, la media del gasto diario en combustible, por unidad, es
una variable con distribución normal con media de 177,6 galones y desviación estándar de 32,5
galones. El gerente de operaciones decide incluir un aditivo especial al combustible que le
permitirá un ahorro en ese rubro. Después de incluir el aditivo toma una muestra de 6 unidades
y encontró los siguientes gastos en combustible expresado en galones por día:

180,3 179,6 185,7 170,5 158,3 180,6

El gerente operativo afirma que la media del gasto diario en combustible disminuyó. ¿En base a
la información muestral presentada se puede aceptar lo afirmado por el gerente operativo?
Asuma que el gasto en combustible tiene una distribución normal.

139. Una compañía telefónica está tratando de determinar si algunas líneas en una determinada
comunidad deben instalarse subterráneas. Debido a que se hará un pequeño cargo adicional en
las cuentas telefónicas para pagar los costos extras de la instalación, la compañía ha determinado
hacer un estudio entre los clientes y proceder con la instalación subterránea solo si el estudio
indica que más del 60% de todos los clientes están a favor de la instalación.
a. Defina en forma clara el parámetro que utilizará en la prueba de hipótesis respectiva.
b. Si 118 de 160 clientes entrevistados están a favor de esta instalación a pesar del cargo
adicional, ¿qué debe hacer la compañía? Use un  = 0,01
c. ¿Cuáles son las conclusiones al respecto?
d. Defina el error tipo I y error tipo II en términos del problema.

140. En un proceso de producción de un artículo se tiene que la utilidad por unidad producida es una
variable aleatoria con distribución normal con media de 115 soles y desviación estándar de 10
soles. Se realizan ciertas medidas de reajuste en el proceso de producción, con dos objetivos
principalmente, uno es el de mejorar la media de la utilidad, y el otro es hacer que las utilidades
sean más homogéneas. Luego de estas medidas, se tomó una muestra aleatoria de seis objetos y
se determinó las siguientes utilidades:

115,6 118,5 123,6 119,5 114,2 116,3

Usando un 5% de significancia, diga si se puede concluir que se lograron los dos objetivos
establecidos para mejorar el proceso. Considere que las utilidades siguen la distribución normal.

Notas
108 Estadística Inferencial 2019-1
141. En una biblioteca universitaria se hace un inventario completo de libros que están en los estantes,
una vez al año. El jefe de la biblioteca piensa que puede ser posible ahorrar dinero si se pospone
el inventario de este año. Para decidir al respecto el bibliotecario decide seleccionar 800 libros al
azar y si hay evidencia que la verdadera proporción de libros mal colocados en estantes o
extraviados es menor a 0,02 entonces el inventario se pospondrá.
a. Defina el parámetro de interés en este caso.
b. Entre los 800 libros, 12 estaban mal colocados o no se pudieron encontrar. Pruebe la
hipótesis pertinente y asesore al bibliotecario sobre qué hacer. Utilice un nivel de
significancia del 5%.
c. Explique, en términos del problema, en qué consiste el error tipo I y error tipo II.

142. El proceso de fabricación de cierto artículo se considera estable si la desviación estándar del
tiempo utilizado en la producción de una unidad es como máximo dos minutos. Con la finalidad
de determinar si el proceso es estable se toma una muestra aleatoria de 13 unidades producidas
y se encontraron los siguientes datos, los que están dados en minutos:

12,5 15,4 10,1 12,6 10,6 16,8 12,8 15,4 10,5 12,6 10,6 16,6 14,2

a. Defina el parámetro de interés en este caso


b. Utilizando un nivel de significancia del 5% ¿Cuál será la conclusión respecto a la estabilidad
del proceso de producción?
c. Determine qué valores de la varianza muestral nos llevan a concluir que el proceso de
fabricación es inestable, para muestras del mismo tamaño y el mismo nivel de significancia.

143. Si se desea probar las hipótesis


H0: A = 22,5
H1: A < 22,5
Suponiendo que A = 2,3 minutos, ¿qué valores de la media muestral nos llevan al rechazo de la
hipótesis nula, si la probabilidad de cometer un error tipo I es 0,025 y se usó un tamaño de
muestra n = 25?

144. Con respecto a la vida útil de un marcapasos se plantea la siguiente expresión como error tipo II:
“Concluir, erróneamente, que la media de la vida útil del marcapasos es menor a 300 horas”.
¿Cuáles son las hipótesis correspondientes en este caso?

145. En una prueba de hipótesis, para la media, que es unilateral hacia la derecha, el valor numérico
de estadístico de prueba (o estadístico de contraste) es 2,758 y el punto crítico es 1,645. ¿Cuál es
la decisión estadística en este caso?

146. ¿Qué supuesto fundamental se realiza para calcular el valor numérico del estadístico de prueba?

147. Suponga que se plantean las siguientes hipótesis:


H0: El proceso de producción está bajo control.
H1: El proceso de producción no está bajo control y se debe detener para reajustar.
Defina, en términos de estas hipótesis, el error tipo I y el error tipo II.

148. La alta gerencia de una importante corporación de empresas está preocupada por el alto nivel de
estrés que muestran sus ejecutivos, que en promedio es de 8.5, aunque ciertos estudios muestran
Notas
109 Estadística Inferencial 2019-1
que un nivel de estrés controlado es beneficioso en el rendimiento laboral, cuando este es
excesivo, suele ser contraproducente. Se decide contratar una empresa de servicios que aplique
una terapia orientada a reducir tal nivel de estrés. El psicólogo clínico encargado del proyecto
aplica la terapia debidamente programada luego de lo cual desea evaluar la eficacia de la misma.
Para ello selecciona aleatoriamente una muestra de 20 ejecutivos de esta corporación les aplica
una escala que mide la ansiedad ante la toma de decisiones obteniendo los resultados que se
muestran a continuación:
¿El psicólogo clínico tiene evidencia de que el nivel de estrés en los ejecutivos de esta corporación
disminuyó luego de aplicada la terapia recomendada? Utilizar un nivel significancia del 5%.

Individuo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Nivel de estrés 6 8 5 9 7 8 6 5 9 7 5 9 6 8 8 9 5 6 8 8

149. En una prueba de hipótesis para la media H0:  = µ0 se calculó el estadístico de prueba (o
estadístico de contrate) Tc = 2,056, con una muestra aleatoria de tamaño n = 15, si la prueba es
unilateral hacia la derecha y el nivel de significancia es 2,5% ¿Cuál será la decisión en este caso?

150. El porcentaje de aceptación de cierta marca de detergente es 20%, se realiza una intensa campaña
de publicidad por radio y televisión. Luego de esta campaña, se evaluó si fue efectiva o no, para
esto se seleccionó una muestra aleatoria de 450 consumidores de detergente y se encontró que
105 usaban el detergente en mención.
a. Usando un nivel de significancia del 5%, ¿cuál es la conclusión?
b. Si actualmente el porcentaje de aceptación de la marca es en realidad del 22%, calcule la
probabilidad de cometer el error tipo II.

Notas
110 Estadística Inferencial 2019-1

Prueba de hipótesis con dos poblaciones independientes


Cuando se trata de comparar dos poblaciones con respecto a su variabilidad, al riesgo, a la estabilidad
o la dispersión, entonces, se tiene que evaluar y comparar sus varianzas. Para esto se toman dos
muestras aleatorias independientes, una de cada población, estas poblaciones deben de tener una
distribución normal con medias µi y varianza i2 (i = 1, 2), entonces nos interesará probar alguna de las
siguientes hipótesis

Pruebas de hipótesis para comparar dos varianzas


Posibles hipótesis
Unilateral izquierda Bilateral Unilateral derecha
H0 :  12   22 H0 :  12   22 H0 :  12   22

H1 :  12   22 H1 :  12   22 H1 :  12   22

El estadístico de prueba para esta hipótesis es el siguiente:


S 12
F
S 22

donde S 12 y S 22 son las varianzas muestrales y n1, n2 son los tamaños de muestra respectivos. El
estadístico F tiene distribución F de Fisher con n1 – 1 grados de libertad en el numerador y n2 – 1 grados
de libertad en el denominador.

Las regiones críticas posibles serán:


Unilateral izquierda Bilateral Unilateral derecha


RC  0 ; F ,n1 1,n2 1  
RC   0 ; F
 
  F 

;   
RC  F1 ,n1 1,n2 1 ; 
 2
,n1 1 ,n2 1
  2
1 ,n1 1 ,n2 1


Ejercicio 68
Dos fuentes de materias primas están siendo consideradas. Ambas fuentes parecen tener
características similares, pero no se está seguro de su homogeneidad. Una muestra de 10 grupos de la
fuente A produce una varianza de 250 y una muestra de 11 grupos de la fuente B produce una varianza
de 195. Con base en esta información, ¿se puede concluir que la varianza de la fuente A es mayor que
la de la fuente B? Use un nivel de significancia del 5%.

Notas
111 Estadística Inferencial 2019-1
Pruebas de hipótesis para comparar dos medias poblacionales
En muchos casos será necesario comparar dos poblaciones diferentes y esta comparación se debe
hacer con respecto a las medias, si las dos medias poblacionales son desconocidos entonces, será
necesario una prueba de hipótesis para comparar las medias.
Para esto se toman dos muestras aleatorias independientes, una de cada población, estas poblaciones
deben de tener una distribución normal con medias µi y varianzas i2 (i = 1, 2), entonces nos interesará
probar alguna hipótesis.

Posibles hipótesis
Unilateral izquierda Bilateral Unilateral derecha
H0 : 1  2  0 H0 : 1  2  0 H0 : 1  2  0
H1 : 1  2  0 H1 : 1  2  0 H1 : 1  2  0
donde µ0 es el valor hipotético de la diferencia y que suele ser cero.

Estadísticos de prueba y regiones críticas


Varianzas poblacionales conocidas
El estadístico de prueba es Z  X1  X2   0
 12  22

n1 n2
Las regiones críticas serán:

Unilateral izquierda Bilateral Unilateral derecha


   
RC   ,  z1  RC    ,  z    z  ,   RC  z1 , 
 1
2   1 2 

Varianzas poblacionales desconocidas, pero supuestas iguales


X1  X2   0
El estadístico de prueba es T 
Sp2 Sp2

n1 n2

n1  1S12  n2  1S22


donde SP 
2
n1  n2  2
Este estadístico se contrasta contra el valor punto crítico en una distribución t de Student con n1+n2-2
grados de libertad.

Las regiones críticas serán:

Unilateral izquierda Bilateral Unilateral derecha


RC   ,  t1 , n1  n2 2  
RC    ,  t 
 
  t 

 
,    RC  t1  , n1  n2 2 ,  
 1  , n1  n2  2
2   2
1  , n1  n2  2


Notas
112 Estadística Inferencial 2019-1
Varianzas poblacionales desconocidas, pero supuestas diferentes
El estadístico de prueba es T  X1  X2   0
2 2
S1 S2

n1 n2
Este estadístico se contrasta contra el valor punto crítico en una distribución t de Student con g grados
de libertad.
Los g grados de libertad se calculan a partir de la siguiente expresión:

g
S12
n1
2

S22
n2
 2

2
 S12   S22 
   
n  n 
 1   2 
n1 1
 n2 1

Las regiones críticas serán:

Unilateral izquierda Bilateral Unilateral derecha


   

RC   ,  t1  , g  RC    ,  t    t  ,    
RC  t1  ,g ,   
 2 
1 ,g
  2
1 ,g


Varianzas poblacionales desconocidas y al sumar los tamaños de muestra se tiene que n1+n2
>30
El estadístico de prueba es Z  X1  X2   0
2 2
S1 S2

n1 n2

Las regiones críticas serán:

Unilateral izquierda Bilateral Unilateral derecha


   
RC   ,  z1  RC    ,  z    z  ,   RC  z1 , 
 1
2   1 2 

Notas
113 Estadística Inferencial 2019-1
Ejercicio 69
Una compañía distribuidora piensa que, para acelerar el pago de cuentas atrasadas, una llamada
telefónica es más efectiva que una carta. Se contactaron dos grupos de cuentas atrasados, cada uno
con uno de los dos métodos. Se registró el tiempo, en días, entre el envío de la carta o la llamada y el
momento en que se registró el pago.
¿Se debería llegar a la conclusión de que las cuentas atrasadas son pagadas más rápidamente con una
llamada que con una carta? Use un nivel de significancia del 5%. A continuación, se muestra los
resultados de las muestras seleccionadas.

Tamaño de muestra Media muestral Desviación estándar


Llamada telefónica 10 6,50 1,60
Envío de carta 13 11,50 1,25

Notas
114 Estadística Inferencial 2019-1

Prueba de hipótesis para datos pareados


Anteriormente hemos discutido la diferencia entre dos medias cuya condición fundamental es que las
muestras sean independientes. Ahora desarrollaremos un procedimiento para analizar la diferencia
entre dos medias cuando los datos se obtienen de dos muestras que están relacionadas, es decir,
muestras no independientes o datos pareados.
Esta característica de dependencia ocurre, ya sea porque los individuos o los artículos están
emparejados según alguna característica o porque se obtienen mediciones repetidas en el mismo
grupo de artículos o individuos. En cualquier caso, la variable de interés será la diferencia entre los
pares de valores de las observaciones.
Esta prueba se basa en dos muestras individuales medidas, como ya se dijo, en datos pareados o una
muestra evaluada en situaciones diferentes, a estos datos los llamaremos Xi y Yi. Se tiene que calcular
la diferencia entre cada par de datos (di), es decir, tendremos que di = Xi – Yi.

Se calculan los siguientes estadísticos:

La media de las diferencias, que será un estimador de la verdadera diferencia de medias µd.
n

d i
d  i 1
n
La varianza de las diferencias:

 d 
n
2
i d
Sd2  i 1
n 1
Posibles hipótesis
Unilateral izquierda Bilateral Unilateral derecha
H0 : 1  2  0 H0 : 1  2  0
H0 : 1  2  0
H1 : 1  2  0 H1 : 1  2  0
H1 : 1  2  0

Estadísticos de prueba y regiones críticas


d
El estadístico de prueba es T 
sd
n
Este estadístico se contrasta contra el valor punto crítico en la distribución t de Student con n - 1 grados
de libertad.

Las regiones críticas serán:

Unilateral izquierda Bilateral Unilateral derecha


RC   ,  t1 ,n1  
RC    ,  t 
 
  t 

,    
RC  t1 ,n1 ,  
 1 ,n 1
2   1 2 ,n1 

Notas
115 Estadística Inferencial 2019-1
Ejercicio 70
El gerente de un gimnasio afirma que un nuevo programa de ejercicio reducirá la medida de la cintura
de una persona en un período de cinco días. Las medidas de cinturas de seis hombres que participaron
en este programa de ejercicios se registraron antes y después del período de cinco días en la siguiente
tabla:

Hombre 1 2 3 4 5 6
Medida de cintura antes 90,4 95,5 98,7 115,9 104,0 85,6
Medida de cintura después 91,7 93,9 97,4 112,8 101,3 84,0

¿La afirmación del gimnasio es válida al nivel de significación de 5%? Suponga que la distribución de
las diferencias de medidas de cintura antes y después del programa es aproximadamente normal.

Notas
116 Estadística Inferencial 2019-1
Prueba de hipótesis para comparar dos proporciones poblacionales

Cuando se requiere comparar dos poblaciones con respecto a alguna característica que genera una
variable aleatoria cualitativa, entonces se tendrá que comparar las dos proporciones poblacionales 1
y 2. Para esto se toman dos muestras aleatorias independientes, una de cada población, estas
poblaciones deben de tener una distribución de Bernoulli con parámetros 1 y 2 (i = 1, 2) las cuales
son las respectivas proporciones poblacionales respectivamente, entonces nos interesará probar
alguna de las siguientes hipótesis.

Posibles hipótesis con diferencia de proporciones igual a cero


Unilateral izquierda Bilateral Unilateral derecha
H0 : 1 2  0 H0 : 1 2  0
H0 : 1 2  0
H1 :1 2  0 H1 :1 2  0 H1 :1 2  0

Estadísticos de prueba y regiones críticas

El estadístico de prueba es Z  p1  p2
p1  p
~ ~ p ~1  p
~

n1 n2
n P n P a a
donde P~  1 1 2 2  1 2
n1  n2 n1  n2

Posibles hipótesis con diferencia de proporciones diferente a cero


Unilateral izquierda Bilateral Unilateral derecha
H0 : 1 2 0 H0 : 1 2 0 H0 : 1 2 0
H1 :1 2  0 H1 :1 2  0
H1 :1 2  0
donde 0 es un valor diferente de cero y representa la diferencia de las proporciones planteada la
hipótesis nula.

Estadísticos de prueba y regiones críticas

El estadístico de prueba es Z 
P1  P2    0

P1 1  P1  P2 1  P2 

n1 n2
donde p1 y p2 representan las proporciones muestrales respectivas.

Las regiones críticas serán:

Unilateral izquierda Bilateral Unilateral derecha


   
RC   ,  z1  RC    ,  z    z  ,   RC  z1 , 
 1
2   2
1


Notas
117 Estadística Inferencial 2019-1
Ejercicio 71
Se seleccionó una muestra aleatoria de 300 hombres y 400 mujeres; se halló que 135 hombres estaban
a favor de una ley de unión civil y 190 mujeres estaban a favor de dicha ley. Con base en esta
información, ¿es posible afirmar que la proporción de hombres que favorece esta ley es menor que la
proporción de mujeres? Use un nivel de significancia del 6%.

Calcule el valor p de la prueba.

Notas
118 Estadística Inferencial 2019-1
Problemas propuestos

151. Para calcular el valor numérico del estadístico de prueba (o estadístico de contraste) ¿cuál es el
supuesto fundamental que se hace?

152. De una población cuya característica en estudio tiene distribución normal con media µ y varianza
σ2 = 36 se selecciona una muestra aleatoria de tamaño 25, se plantea una hipótesis unilateral
derecha, indique los valores de la media muestral que nos llevan al no rechazo de la hipótesis
nula, si el nivel de significancia es de 2,5% y el valor planteado en la hipótesis nula es de 85.

153. Se supone que en cierta población la variable de interés tiene distribución normal con  = 2. Para
probar las hipótesis H0:  = 30 versus H1:  < 30 se propone el siguiente método: seleccionar una
muestra aleatoria de tamaño n y se rechazar H0 si x  c , en donde c es una constante que debe
determinarse. Si α = 0,01 y el tamaño de muestra n = 25, ¿Cuál es el valor que la constante c?
Considerando su respuesta anterior ¿cuál es la probabilidad que se decida aceptar la hipótesis
nula, cuando en realidad el verdadero promedio es 28,5.

154. En una empresa dedicada a la venta de lácteos, su proceso de envasado opera con una media de
500 ml. y una desviación estándar de 5 ml. Se tiene la sospecha de que la media del proceso ha
disminuido, y para verificar esto se toman al azar 25 envases, resultando una media de 498,6 ml.
a. Al 1% de significación, la sospecha tiene justificación. Considere que la varianza se ha
mantenido constante
b. ¿Cuál es la probabilidad de que usted decida concluir que la media del proceso no ha
disminuido, siendo la verdadera media del proceso 496,5 ml? Use 1% de significancia.

155. Fresquito es una nueva marca de gaseosas que entró al mercado y logró un nivel de aceptación
del 12%, es decir, el 12% de consumidores de gaseosas prefieren esta marca. Con la finalidad de
tener una mayor participación del mercado la gerencia de producción de Fresquito ha decidido
realizar una agresiva campaña de publicidad por televisión, radio y medios escritos. Luego de la
campaña de publicidad la gerencia desea evaluar los resultados de esta campaña de publicidad,
para lo cual tomó una muestra de 450 personas y encontró que 72 personas consumían Fresquito.
Use un nivel de significancia del 5%.
a. Determine las hipótesis de interés para la gerencia, defina el parámetro de interés e indique
cuál será la conclusión del gerente.
b. Si en realidad luego de la campaña publicitaria el porcentaje de aceptación es de 13,5%, ¿cuál
es la probabilidad que la gerencia concluya que la campaña no fue efectiva?

156. El gerente de venta de una empresa industrial tiene que decidir si compra o no una nueva máquina
para reemplazar la que tienen en uso actualmente en el departamento de producción. Se sabe
que la máquina que está en uso tiene una varianza, con respecto al tiempo que demora en
producir una pieza, de 0,067 min2. Al tomar una muestra aleatoria de 20 piezas producidas por la
máquina que se desea comprar se encontró una desviación estándar de 0,15 minutos. Si se utiliza
un 5% de significancia y la decisión estará basada en la menor variabilidad, ¿cuál será la decisión
del gerente de ventas?

157. El jefe de ventas de una empresa decidirá que su equipo de vendedores debe ser recompuesto si
la varianza de las ventas en la última semana es mayor a 10,15 dólares2. Si para esta semana
recolecta datos de una muestra aleatoria de 25 ventas del equipo y encuentra una varianza de
18,03 dólares2.

a. Con  = 0,05, ¿indican los resultados que se debe recomponer el equipo de ventas?

Notas
119 Estadística Inferencial 2019-1
b. ¿Qué valor máximo debe tener la varianza muestral para no rechazar la hipótesis nula?
c. Si se fija  = 0,05, determine la probabilidad del error de tipo II cuando la desviación estándar
real es de 3,8 dólares. Indique qué supuestos fueron necesarios para resolver este problema
de aplicación.

158. Una oficina relacionada con la cobranza de impuestos comprobó que el 5,5% de las declaraciones
juradas de impuestos eran inexactas. Después de un programa de educación aplicado a los
contribuyentes se encontró en una muestra aleatoria de contribuyentes que de 1124
declaraciones juradas, 45 eran inexactas. ¿Existe suficiente evidencia para concluir que el
programa de educación ha rendido buenos resultados? Use un nivel de significancia del 5%.

159. Al señor Juan Pérez le han propuesto participar en una lista para el congreso, en representación
de su provincia. Para aceptar la propuesta este señor quiere estar seguro de que al menos el 25%
de los votantes en la provincia que reside están a favor de su candidatura. Para determinar esto
toma una muestra aleatoria de tamaño n = 450 personas encontrando que 90 están a favor de su
candidatura. ¿Aceptará el señor Juan Pérez participar en la lista? Use  = 5%.

160. En la situación que se da a continuación, diga cuál debe ser la hipótesis nula (H0) de manera que
el error tipo I sea el más grave: “El trabajo del operador de un radar es detectar aeronaves
enemigas, en un determinado momento el tablero indica que algo invadió el espacio aéreo” el
operador tiene las dos siguientes hipótesis:
“Está comenzando un ataque”
“No hay ataque solo es una interferencia”

161. Se tienen los resultados de una encuesta realizada a 2095 turistas, entre los cuales hay
norteamericanos, europeos y sudamericanos, entre otras cosas la encuesta trata sobre los
destinos turísticos que les agradaría realizar en su próxima visita al Perú, el resultado se muestra
en la siguiente tabla. Se ha tenido en cuenta que las muestras con respecto al destino turístico
son independientes, así como las muestras con respecto al origen del turista.

Destino turístico
Cusco Iquitos Arequipa
Europeo 700 200 150
Norteamericano 400 250 75
Sudamericano 180 100 40

El gerente de una conocida agencia de turismo afirma que “El porcentaje de turistas de origen
europeo cuyo destino turístico es Cusco supera al porcentaje de turistas de origen
norteamericano cuyo destino es Cusco en más de seis puntos porcentuales”. Mediante una
prueba de hipótesis con un 5% de significancia, evalúe la afirmación de este gerente.

162. Un artículo reporta resultados de un experimento para comparar características de maniobra para
dos automóviles de diferentes longitudes, distancias entre ejes y radios de giro. Las observaciones
son el tiempo en segundos necesarios para estacionar cada automóvil en paralelo. Se sabe que
los tiempos están distribuidos en forma normal, Se selecciona una muestra aleatoria de ocho
personas las que utilizaron el auto A y el auto B para realizar las maniobras respectivas. Los
resultados se muestran a continuación:

Persona 1 2 3 4 5 6 7 8
Notas
120 Estadística Inferencial 2019-1
Auto marca A 37,1 25,8 16,2 24,2 22,0 33,4 23,8 58,2
Auto marca B 17,8 20,2 16,8 41,4 21,4 38,4 16,8 46,6

¿Sugiere la información que la media real del tiempo en el que una persona estaciona en paralelo
es menor en la marca B que en la marca A? Use un nivel de significancia  = 0,10.

163. Un analista de sistemas está estudiando la posibilidad de usar un nuevo sistema de cómputo, y
decide que cambiará de sistema si tiene evidencia de que el nuevo sistema utiliza menos tiempo
en el procesamiento, para esto toma una muestra de siete trabajos y se los encarga a siete
trabajadores elegidos al azar, estos trabajadores realizan dicho trabajo utilizando el nuevo sistema
y utilizando el sistema antiguo, los tiempos utilizados, en minutos, en cada caso fueron los que se
muestran a continuación. Si α = 5%, ¿qué se decide al respecto? Los datos observados son los
siguientes:

Trabajo 1 2 3 4 5 6 7
Sistema antiguo 8 4 10 9 8 7 12
Sistema nuevo 6 3 7 9 5 8 9

164. En la actualidad, la aseguradora de fondo de pensiones Neptuno cuenta con afiliados que hacen
sus aportaciones con regularidad. En una muestra tomada de los últimos aportes realizados de 28
afiliados durante el último trimestre, se obtuvo los siguientes datos: la media de las aportaciones
trimestrales 480 dólares y una desviación estándar de 60 dólares. Además, se determinó en otra
muestra de 850 afiliados seleccionados el número de afiliados que hicieron aportaciones
superiores a los 1500 dólares fue de 697.
a. El gerente de esta AFP afirma que la media de las aportaciones trimestrales es superior a los
465 dólares. Usando un 5% de nivel de significancia, ¿se puede aceptar lo afirmado por el
gerente?
b. ¿Es posible afirmar que el porcentaje de afiliados de esta AFP cuyas aportaciones superan los
1500 dólares es superior al 75%? Use un 2,5% de nivel de significancia.
c. El gerente de esta AFP afirma que la media de las aportaciones trimestrales es superior a los
465 dólares. Usando un 5% de nivel de significancia, ¿se puede aceptar lo afirmado por el
gerente?

165. Una empresa farmacéutica está interesada en la investigación preliminar de un nuevo


medicamento que parece tener propiedades reductoras del colesterol en la sangre. A tal fin, se
tomó una muestra al azar de seis personas con características similares, y se determinó el
contenido de colesterol antes y después del tratamiento. Los resultados fueron los siguientes:

Antes 217 252 229 200 209 213


Después 209 241 230 208 206 211

a. Formule las hipótesis nula y alternativa e indique, en términos del enunciado, en qué
consisten los errores de tipo I y tipo II.
b. Confirmar estadísticamente la bondad del tratamiento. Use  = 0,01

166. El jefe de marketing de una compañía que produce el detergente ABC tomó una muestra de 200
personas, en la que encontró que el 20% usaba el detergente ABC. Después de una intensa

Notas
121 Estadística Inferencial 2019-1
campaña publicitaria, se tomó otra muestra de 300 personas en la que encontró que el 27% usaba
esta marca. Al 5% de significancia, ¿puede afirmar el jefe de marketing, en base a los resultados
de esta muestra, que la campaña fue exitosa?

167. La siguiente información representa los datos obtenidos en una muestra aleatoria de tiempos, en
minutos, utilizados en la fabricación de un determinado artículo. La empresa que los fabrica tiene
dos líneas de producción, en dos turnos diferentes. Las muestras aleatorias de cada uno de los
turnos y de cada una de las líneas de producción fueron extraídas de forma independiente.

Mañana Tarde
Línea A 2,5 3,0 4,3 5,1 4,5 4,6 5,3 6,7 8,0
Línea B 3,5 4,0 5,3 7,1 6,5 5,0 6,5 8,1 6,9

Responda las siguientes interrogantes:


a. Se puede decir que la media del tiempo en el turno de la mañana es diferente a la media del
tiempo en el turno de la tarde. Usar un nivel de significancia del 10%.
b. El gerente de producción afirma que la media del tiempo de producción en la Línea A es de
7,5 minutos y, por lo tanto, se debe realizar reajustes pues es necesario reducir ese tiempo.
Con un 5% de significancia, ¿tiene razón el gerente?
c. Si la desviación estándar en el tiempo de producción del proceso B durante el turno de la
mañana es cuatro minutos o más se tendrá que detener el proceso y reajustar la línea.
Usando un nivel de significancia de 1%, ¿será necesario el reajuste?

168. El gerente de marketing de una compañía desea determinar si un nuevo envase podría aumentar
las ventas de su producto. Para probar la factibilidad de la nueva forma de envase se seleccionó
una muestra de 20 tiendas similares y se asignaron, en forma aleatoria, once de ellas como
mercado de prueba de la nueva forma de envase, en tanto que las otras nueve continuarían
recibiendo el envase antiguo. Las ventas semanales durante el tiempo de estudio fueron las
siguientes:

Envase nuevo Envase antiguo


n1 = 11 x1 = 130 cajas s1 = 8 cajas n2 = 9 x2 = 118 cajas s2 = 10 cajas

Si se sabe que el nivel de ventas con el envase nuevo y con el envase antiguo se comporta según
una distribución normal y que las muestras tomadas son independientes, ¿tiene evidencia de que
la nueva forma de envase dio como resultado una mayor media del nivel de ventas? Use un nivel
de significancia del 5%.

169. Dos proveedores fabrican un engranaje de plástico utilizado en una impresora láser. Una
característica importante de estos engranajes es la resistencia al impacto la cual se mide en
pies/libras.
Se toma una muestra aleatoria de 10 engranajes suministrados por el primer proveedor y 13
engranajes del segundo proveedor. Los resultados obtenidos se dan en la tabla adjunta.
El proveedor 2 afirma que su producto tiene en promedio una mayor resistencia al impacto. Si se
verifica esta afirmación se realizará el pedido a este proveedor, en caso contrario se realizará el
pedido al proveedor 1. Ambos proveedores producen engranajes que tienen igual varianza en la
resistencia al impacto.

Notas
122 Estadística Inferencial 2019-1
Utilizando un nivel de significancia del 5% diga si se debe realizar el pedido al segundo proveedor.
Plantee adecuadamente las hipótesis correspondientes y de sus conclusiones, indicando a qué
proveedor se decidirá realizar el pedido. Se sabe que los dos proveedores ofrecen engranajes cuya
resistencia tiene distribución normal.

Proveedor 1 n1 = 10 Promedio = 296,4 s = 12,6

Proveedor 2 323 318 309 316 338 332 314 357 343 336 323 329 327

170. El jefe de ventas de una gran cadena de tiendas debe decidir entre dos cursos similares de
capacitación para sus vendedores. Para esto decide comprobar la eficacia de los cursos tomando
un muestra de 350 vendedores para el curso A y otra muestra de 400 vendedores para el curso
B, al final de cada curso encontró que en el primer caso 82% de los vendedores mejoraron
significativamente su desempeño, mientras que en con el curso B ese porcentaje fue del 74%.
Como el curso A es más costoso decidirá enviar a sus vendedores a dicho curso siempre y cuando
el porcentaje de vendedores que mejoran significativamente su desempeño supere en más de
6% al porcentaje de vendedores que mejoran significativamente su desempeño y que recibieron
el curso B. Usando un α = 0,05; ¿cuál será la decisión del jefe de ventas de esta cadena de
tiendas?

171. El objetivo de una investigación es descubrir si las mujeres tienen más conciencia sobre la
comunidad antes del matrimonio, o después de cinco años el mismo. Se aplicó una prueba para
medir la conciencia comunitaria a una muestra antes de casarse y se les hizo la misma prueba
cinco años después del matrimonio. Los registros de la prueba son (a mayor puntaje la prueba
indica mayor conciencia sobre la comunidad):

Persona Antes del matrimonio Cinco años después del matrimonio


Beatriz 110 114
Juana 157 165
Susana 121 131
Catalina 96 103
María 130 139
Carolina 186 196
Luisa 116 126
Sandra 160 150
Petronila 149 151
Utilizando un nivel de significancia del 5% y suponiendo que los puntajes tienen distribución
normal ¿Cuál es su conclusión al respecto?

172. Una agencia de investigación de mercados realizó una encuesta en tres distritos deferentes de
la ciudad de Lima. El diseño muestral utilizado por esta agencia consideró la selección de tres
muestras de personas de manera independiente, una de cada distrito (A, B y C), la selección de
las muestra dentro de cada distrito, también son independientes entre los diferentes grupos de
edad (adolescentes, jóvenes y adultos). Con respecto al tipo de programa que prefería ver en
televisión (en horarios nocturnos) los resultados, en términos del número de personas, fueron
los que se muestran en la siguiente tabla:

Notas
123 Estadística Inferencial 2019-1
Tipo de programa
Cómico Deportivo Musical
Distrito A Adolescentes 40 50 20
Jóvenes 45 30 60
Adultos 55 20 15
Distrito B Adolescentes 35 60 15
Jóvenes 30 40 60
Adultos 15 15 5
Distrito C Adolescentes 25 30 25
Jóvenes 45 45 30
Adultos 40 15 10

Utilizando esta información determine si la siguiente afirmación pueden ser consideradas como
cierta o no. Justifique e interprete adecuadamente su respuesta utilizando un intervalo de
confianza adecuado. “En el distrito A se tiene un mayor porcentaje de personas que prefieren
programas cómicos, que en el distrito C”. Usar un nivel de significancia del 5%.

173. Una compañía desea estudiar el efecto que tiene la pausa para el café, sobre la productividad
de sus obreros. Selecciona seis obreros y mide su productividad en un día corriente, y luego
mide la productividad de los mismos seis obreros en un día que se concede la pausa para el café.
Las cifras que miden la productividad son las que siguen:

Trabajador 1 2 3 4 5 6
Sin pausa 23 35 29 33 43 32
Con pausa 28 38 29 37 42 30

Con  = 0,05, ¿a qué conclusión llegará la compañía?

174. Sean x 1 y x 2 las medias de dos muestras aleatorias independientes, de tamaños n1 =15 y n2=2n1
seleccionadas de las poblaciones con distribución normal N(1,2) y N(2,2) respectivamente,
para una variable aleatoria de interés, donde la varianza común es conocida y cuyo valor es 25.
Se plantean las siguientes hipótesis:
H0: μ1 – μ2 = 5
H1: μ1 – μ2 ≠ 5
Determinar el o los valores de la diferencia de medias muestrales que permitan no rechazar la
hipótesis nula, si el nivel de significancia es de 5%.

175. Explique brevemente qué criterio utiliza para determinar la fórmula a utilizar si tiene una prueba
de hipótesis que involucre una diferencia de proporciones.

Notas
124 Estadística Inferencial 2019-1

Análisis de la varianza (ANOVA)

Análisis de varianza unidireccional


Hemos visto como contrastar la hipótesis de igualdad de dos medias, pero en muchos casos se requiere
comparar más de dos poblaciones, en este caso la prueba para k medias (k > 2) también llamada
análisis de varianza unidireccional, nos será de gran utilidad.
Aunque la finalidad del análisis de varianza es contrastar la diferencia entre k medias poblacionales,
exige que se analicen las varianzas, de allí el nombre de análisis de varianza.
En este caso, el término tratamiento se emplea en un sentido amplio y se puede referir a diferentes
niveles de la variable, diferentes programas o diferentes poblaciones, este último es el sentido en el
cual lo utilizaremos.

Supuestos para el análisis de varianza


Esta prueba requiere el cumplimiento de los siguientes supuestos:
Normalidad Homocedasticidad Independencia
•Las k poblaciones tienen •Las k poblaciones todas •Las k muestras seleccionadas
distribución normal, con tienen igual varianza, con de cada población o
respecto a la variable respecto a la variable tratamiento son
dependiente (variable de dependiente (variable de independientes.
estudio). estudio).

Objetivos y procedimiento de la prueba


Esta prueba permite contrastar la hipótesis de que las medias de k poblaciones (k > 2) son iguales
frente a la hipótesis alternativa de que por lo menos una de las medias poblaciones es diferente.
Este contraste es fundamental en el análisis de resultados experimentales, en los que se interesa
comparar los resultados de k tratamientos o factores, con respecto a la variable dependiente o de
interés.
La prueba para k medias o el análisis de varianza se basa en la descomposición de la variación total de
los datos con respecto a la media global (SCT) en dos partes:
ni

x 2  xi2j  T
k k 2
SCT  ij  x
i 1 j 1 i 1 j 1 n
Variación dentro de las muestras o variación intragrupos que denotaremos como SCTR.
k k
Ti2 T2
SCTR   n x
i 1
i i  x 2  n
i 1 i

n
Variación entre muestras o variación intergrupos que denotaremos como SCE.
ni

x 2 = SCT – SCTR


k
SCE = i j  xj
i 1 j1

donde:
SCT: Suma de cuadrados del total n: Tamaño de muestra total n = n1 + n2 + ... + nk
SCTR: Suma de cuadrados de los tratamientos k: Número de tratamientos
SCE: Suma de cuadrados del error Ti: Total de la i-ésima muestra
ni: Tamaño de muestra del i-ésimo T = T1 + T2 + ... + Tk
tratamiento

Notas
125 Estadística Inferencial 2019-1
Procedimiento de la prueba
Se plantean las hipótesis siguientes:
H0 : 1  2  k

H1 : Al menos de las medias µi es diferente

Es una prueba unilateral hacia la derecha.

El nivel de significancia es α.

Para determinar el estadístico de contraste se construye la siguiente tabla, denominada tabla de


análisis de varianza.

Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio F

Tratamientos SCTR CMTR


SCTR k–1 CMTR  FC 
(Entre grupos) k 1 CME
Error SCE
SCE n–k CME 
(Dentro de los grupos) nk

Total SCT n–1

La región de rechazo se determina utilizando la distribución F de Fisher con k - 1 grados de libertad en


el numerador y n - k grados de libertad en el denominador.

Notas
126 Estadística Inferencial 2019-1
Ejercicio 72
El jefe de producción de una fábrica desea determinar si las cuatro máquinas tienen la misma media
para el mismo de fabricación de un artículo. Para esto selecciona muestras aleatorias de cada máquina
de tamaños n1 = 6, n2 = 4, n3 = 4 y n4 = 6 respectivamente, midiendo el tiempo que utilizan en la
fabricación de un artículo. Complete la siguiente tabla:

Origen de las Suma de Grados de


Cuadrado medio F
variaciones cuadrados libertad
Tratamientos SCTR CMTR
SCTR = k–1= CMTR  = 152,62 FC  =
(Entre grupos) k 1 CME
Error (Dentro SCE
SCE = n–k= CME  =
de los grupos) nk
Total SCT = 542,92 n–1=

Con esta información, plantee las hipótesis adecuadas y diga cuál será la conclusión del jefe de
producción, interpretando adecuadamente sus resultados. Use  = 0,05

Notas
127 Estadística Inferencial 2019-1
Ejercicio 73
Se desea llevar a cabo un seminario de administración gerencial para ejecutivos de las áreas de
manufactura, finanzas y comercio. Antes de empezar el seminario el coordinador del mismo desea
saber si los tres grupos de participantes tienen el mismo nivel promedio de conocimientos sobre
principios de administración; con esta finalidad toma muestras de cada grupo y les aplica una prueba
(que se califica entre 0 y 120 puntos), los resultados fueron los siguientes:

Manufactura 56 39 48 38 73 50 62
Finanzas 103 87 51 95 68 40 105 85
Comercio 42 38 85 70 32 60
A un nivel de significancia del 0,05 dé sus conclusiones para apoyar al coordinador del seminario.
Identifique la(s) variable(s) de interés en este caso y plantee las hipótesis correspondientes.

Origen de las Suma de Grados de


Cuadrado medio F
variaciones cuadrados libertad
Tratamientos SCTR CMTR
SCTR = k–1= CMTR  = FC  =
(Entre grupos) k 1 CME

Error (Dentro SCE


SCE = n–k= CME  =
de los grupos) nk
Total SCT = n–1=

Notas
128 Estadística Inferencial 2019-1
Comparaciones múltiples: Método DMS (Diferencia mínima significativa)
Cuando se rechaza la hipótesis nula, lo que se tiene que hacer es determinar la o las medias que son
diferentes. Para esto utilizaremos intervalos de confianza para la diferencia de medias, mediante el
método de la diferencia mínima significativa (DMS), el cual determina el intervalo de confianza para
cada par de medias de la siguiente manera:


IC (  i   j )  x i  x j   E 
CME CME
El margen de error es E  t 0 
ni nj

x i ; x j : media muestral del i-ésimo y el j-ésimo tratamiento

ni, nj: tamaño de muestra de la i-ésima y la j-esima muestra


t0: valor del índice t con una distribución t(n-k)
CME: cuadrado medio del error

Ejercicio 74
Una empresa de confecciones de polos, tiene varias sedes en el territorio nacional; con la finalidad de
contribuir con la descontaminación ambiental, la gerencia ha dispuesto realizar un estudio, y entre los
objetivos específicos está conocer si la cantidad promedio de desechos producidos por la confección
de sus polos es la misma y su próxima disminución; se seleccionaron cuatro muestras aleatorias de
tamaños 8,7,6 y 9 semanas, una de cada ciudad respectivamente: ciudad A, ciudad B, ciudad C y la
ciudad D; registrándose la cantidad de desechos (en kilogramos). Se le pide:

Identificar a la variable en estudio (dependiente), indicar su tipo.

Identificar el o los factores o tratamientos, el o los parámetro(s) de interés.

Plantear y desarrollar la hipótesis respectiva, establecer claramente sus conclusiones.

Notas
129 Estadística Inferencial 2019-1
¿En qué ciudad, de las cuatro en estudio se producen más y en cuál menos desechos?

Reportes del SPSS:

ANOVA de un factor
Cantidad de desechos por semana (kgs.)

Suma de cuadrados gl Media cuadrática F Sig.

Intergrupos 398,403

Intragrupos 101,097

Total 499,500

Comparaciones múltiples
Variable dependiente: Cantidad de desechos por semana (kilos)
DMS
(I) Ciudad (J) Ciudad Diferencia de Error típico Sig. Intervalo de confianza al 95%
medias (I-J) Límite Límite
inferior superior
Ciudad B -1,875 1,021 0,078 -3,97 0,22
Ciudad A Ciudad C -6,542* 1,065 0,000 -8,73 -4,35
Ciudad D -8,764* 0,958 0,000 -10,73 -6,79
Ciudad A 1,875 1,021 0,078 -0,22 3,97
Ciudad B Ciudad C -4,667* 1,097 0,000 -6,92 -2,41
Ciudad D -6,889* 0,994 0,000 -8,93 -4,85
Ciudad A 6,542* 1,065 0,000 4,35 8,73
Ciudad C Ciudad B 4,667* 1,097 0,000 2,41 6,92
Ciudad D -2,222* 1,039 0,042 -4,36 -0,09
Ciudad A 8,764* 0,958 0,000 6,79 10,73
Ciudad D Ciudad B 6,889* 0,994 0,000 4,85 8,93
Ciudad C 2,222* 1,039 0,042 0,09 4,36
*. La diferencia de medias es significativa al nivel 0,05.

Notas
130 Estadística Inferencial 2019-1
Problemas propuestos

176. Aunque el té es la bebida que más se consume en el mundo, después del agua, poco se sabe
acerca de su valor nutritivo. La folacina es la única vitamina B presente en cualquier cantidad
importante de té, y recientes avances en métodos de ensayo han hecho una determinación
precisa del contenido factible de esta vitamina.
Se eligieron cuatro marcas de té (A, B, C y D) con la finalidad de comparar la media del contenido
de dicha vitamina en las cuatro marcas mencionadas, los resultados se muestran en la tabla
adjunta. ¿Cuál es la conclusión al respecto? Use un 5% de significancia.

Marca A Marca B Marca C Marca D


3,4 8,0 12,8 11,3
7,8 11,0 10,5 12,8
3,0 9,0 7,3 9,1
5,0 7,4 7,0 6,9
3,5 9,7 8,3 5,8
3,8 8,8 9,4
3,6

a. Plantee las hipótesis correspondientes definiendo también los parámetros a utilizar.


b. ¿Sugiere esta información que la verdadera media del contenido de folacina es el mismo para
todas las marcas? Use un nivel de significancia del 5%.
c. Si la hipótesis nula es rechazada, realice las comparaciones múltiples y diga qué marca de té
se recomendaría por ser más nutritiva.

177. Con la finalidad de comparar los precios del producto Escaso A1 se llevó a cabo un experimento
en tres zonas de Lima: Cono Sur, Cono Norte y Lima Centro. En cada una de dichas zonas se
tomaron muestras de las tiendas más grandes: seis tiendas de Lima Centro, cuatro tiendas de
Cono Norte y cinco tiendas del Cono Sur y se consultó acerca del precio (en soles) de dicho
producto, los resultados se muestran en la siguiente tabla:
Precios del producto Escaso A1
Lima Centro Cono Norte Cono Sur
29 27 30
27 27 30
31 30 31
29 28 27
32 29
30
¿Constituyen los datos anteriores suficiente evidencia que indique una diferencia entre las
medias del producto Escaso A1 en las tiendas de las tres zonas de Lima?

Notas
131 Estadística Inferencial 2019-1
178. En la siguiente tabla, se muestran los datos obtenidos con respecto al grado de instrucción
alcanzado por el administrador de la empresa en una muestra de empresas de servicios que
están ubicadas en avenida Principal del distrito de San Borja. El nivel de ventas y el gasto en
publicidad están en miles de soles mensuales.
Empresa Nivel de ventas Gasto en publicidad Grado de instrucción
1 13,57 2,77 Doctorado
2 5,87 4,53 Superior no universitaria
3 9,06 2,85 Universitaria
4 10,22 8,16 Superior no universitaria
5 11,84 0,91 Maestría
6 14,26 4,04 Doctorado
7 10,61 7,43 Universitaria
8 11,96 5,68 Doctorado
9 6,02 4,05 Maestría
10 4,72 3,17 Universitaria
11 10,70 4,76 Superior no universitaria
12 7,05 2,84 Maestría
13 10,83 1,39 Maestría

Determine si las empresas de servicios cuyos administradores, tienen el nivel de instrucción


superior no universitaria, universitaria, maestría o doctorado tienen la misma media del gasto
en publicidad. Use un α = 5%.

179. Una empresa que fabrica tablets debe elegir un programa de entrenamiento para sus empleados
que se dedican a operaciones de ensamblado. Se seleccionaron a 20 trabajadores quienes
fueron distribuidos aleatoriamente a los cuatro programas de entrenamiento propuestos (A, B,
C y D). Se evaluó el tiempo de ensamblado, en minutos, de una tablet, los resultados luego de la
experimentación se presentan a continuación:
A B C D
6,2 5,2 6,5 6,4
6,4 5,8 7,1 6,7
5,7 5,4 6,3 6,2
6,2 5,6 6,4 6,4
6,0 5,8 6,3 6,6

¿Hay suficiente evidencia estadística que indique diferencia en las medias de los tiempos de
ensamblado en al menos uno de los programas de entrenamiento en estudio? Use α = 0,05.

180. Existen cuatro estaciones de radio. Cada estación toca rock durante cierto número de minutos
por hora y se desea determinar si la media del tiempo, en minutos, que cada estación toca esta
música por hora es la misma. Para esto, se tomó muestras de 10 horas de cada estación y se
encontró las siguientes medias muestrales del tiempo en que se toca música rock.
x1  51,43 x2  44,64 x3  47,2 x4  50,85

Se sabe que la suma de cuadrados del total SCT = 650,75. Use un nivel de significancia del 5%.

Notas
132 Estadística Inferencial 2019-1
181. Con el objetivo de incrementar sus ganancias la empresa Original S.A., realiza un programa de
capacitación en técnicas de ventas para sus colaboradores. Después de culminado el programa
se comparan cuatro técnicas de ventas en términos del valor de las ventas realizadas (en cientos
de soles). A continuación, se presenta las ventas realizadas por 22 de los colaboradores de
Original S.A., los cuales previamente fueron asignados aleatoriamente para que sean
capacitados en una de las técnicas de ventas.

En cadena Por teléfono De reventa Por Internet


58 27 15 36
56 29 16 39
57 28 19 41
62 31 21 36
56 26 18 38
46 22

Realice la prueba más adecuada para responder si existe diferencia en la efectividad de las
cuatro técnicas de ventas. Use α = 0,03. Presente las hipótesis, valor p, el estadístico de prueba
y la conclusión.

182. En el artículo “Sure-fire to Save on Car-Insurance” Barbara Gilder Quint afirma que el tamaño de
la ciudad de residencia tiene que ver con el costo del seguro del coche. Adicionalmente, para
proporcionar sugerencias útiles para ahorrar, expone algunos datos acerca de los costos de las
Pólizas de aseguramiento de responsabilidad civil y a todo riesgo. Se obtuvieron datos del mismo
tipo de póliza (excluyendo el manejo de las demandas, etc.) de seis compañías de seguros en
cuatro localidades, de diferentes tamaños de Estados Unidos para un vehículo Chevrolet
Citation. Las ciudades y las compañías de seguros consideradas en el estudio son:

Tipo de localidad Localidad Compañías de seguros


Ciudad de tamaño grande Chicago Allstate
Ciudad de tamaño mediano Topeka Continental
Zona Rural Dillsboro Home (Gold Key Package)
Suburbano Seatle Nationwide
State Farm
Travelers
Algunos resultados parciales obtenidos a partir de reportes obtenidos luego de utilizar el
programa SPSS, se muestran a continuación:
Tabla ANOVA
Media
Suma de cuadrados gl cuadrática F
Tratamientos 709736,458
Error
Total 765064,625

Notas
133 Estadística Inferencial 2019-1

a. Utilizando un nivel de significancia del 5%, ¿Se puede concluir que realmente se tiene una
diferencia significativa en cuanto a los costos promedios de las pólizas en los diferentes tipos
de localidad?
b. Cualquiera que sea su respuesta en la parte a. indique usted la relación de orden entre los
costos promedios de las pólizas para el vehículo Chevrolet Citation, en las distintas
localidades consideradas, de ser el caso responda ¿En qué localidad o localidades el costo de
la póliza es mayor? ¿En qué localidad o localidades el costo de la póliza es menor? Utilizar un
95% de confianza. Se adjuntan algunos resultados parciales obtenidos con el programa SPSS.
DMS
Intervalo de confianza al 95%
Diferencia de Error
(I) Zona medias (I-J) típico Sig. Límite inferior Límite superior
Ciudad Ciudad mediana
(Topeka) 387,8333* 30,3667 324,490 451,177
grande
(Chicago) Zona rural
425,6667* 30,3667 362,323 489,010
(Dillsborno)
Suburbano
369,6667* 30,3667 306,323 433,010
(Seatle)
Ciudad Ciudad grande
-387,8333* 30,3667 -451,177 -324,490
mediana (Chicago)
(Topeka) Zona rural 37,8333 30,3667 -25,510 101,177
(Dillsborno)
Suburbano
-18,1667 30,3667
(Seatle)

183. El gerente de un banco está interesado en probar si diferentes incentivos pueden producir
distintos niveles de captaciones en los depósitos de ahorros. Para comprobar esto aplica cuatro
diferentes incentivos y luego observa el incremento en el nivel de captaciones, en miles de
dólares. Si consideramos que los incrementos en el nivel de captaciones tienen distribución
normal, determine si el gerente tiene razón y qué conclusiones adicionales puede obtener a
partir de los siguientes resultados mostrados en la siguiente tabla. Utilizando un nivel de
significancia del 5%.

Incentivo A Incentivo B Incentivo C Incentivo D


1,3 1,9 3,6 5,1
1,5 1,9 4,2 4,9
0,9 2,1 4,5 5,6
1,0 2,4 4,8 4,8
1,9 2,1 3,9 3,8
1,5 3,1 4,1 5,1
2,1 2,5 5,1 4,8

¿Qué se puede afirmar con respecto a las medias reales de los gastos en publicidad, por grado
de instrucción, de las empresas en estudio? Use un nivel de confianza del 95%.

Notas
134 Estadística Inferencial 2019-1

Aplicaciones de la distribución chi cuadrado


Prueba de independencia
Esta prueba permite determinar si dos métodos de clasificación son independientes o si están
relacionados, es decir, no son independientes. Por ejemplo, se desea determinar si el nivel de
instrucción alcanzado es independiente o no con nivel socioeconómico del individuo.
Cuando se quiere estudiar la relación entre dos variables cualitativas se suele trabajar con frecuencias,
por lo tanto los elementos de la muestra se suelen clasificar en tablas de frecuencias de dos entradas
las que se les llama tablas de contingencia. Esta tabla tiene la siguiente estructura:

Clasificación de la variable A
A1 A2 Ak
Clasificación de B1 f11 f11 … f11
la variable B B2 f11 f11 … f11
    
Br f11 f11 … fkr
Ai y Bi: categorías de las variables involucradas
fij: frecuencia observada en la i-ésima fila y la j-ésima columna
k: número de columnas (número de niveles de la variable A)
r: número de filas (número niveles de la variable B)
Procedimiento de la prueba
Las hipótesis son:
H0: Los dos métodos de clasificación son independientes (Las variables son independientes)
H1: Los dos métodos de clasificación no son independientes (Las variables no son independientes)
Es una prueba unilateral con la región de rechazo hacia la derecha.
El nivel de significancia es α.
El estadístico de prueba se calcula a partir de la siguiente expresión:
k r  f ji  e ji 2
 
2
c
i 1 j 1 e ji
k y r: número de categorías o niveles de cada variable
fij: frecuencia observada
eij: frecuencia esperada o teórica
Las frecuencias esperadas ei se calculan a partir de la siguiente expresión:
ti tj
ei j 
n
ti•: Total de la fila i t•j: Total de la columna j
n: Tamaño de la muestra
Para establecer la región crítica se usa una distribución 2 con (k - 1) x (r - 1) grados de libertad.

Notas
135 Estadística Inferencial 2019-1
Ejercicio 75
Un investigador trata de determinar si existe alguna relación entre la puntuación obtenida en una
prueba de eficiencia (mala, regular y buena) y los años de experiencia (menos de 4; 4 ó más pero menos
de 7, y más de 7 años) de un grupo de trabajadores, para esto toma una muestra de trabajadores y al
seleccionar una muestra de participantes encontró los siguientes resultados:
Años de
Mala Regular Buena
experiencia
[0 ; 4> 32 23 15
[4 ; 7 > 51 18 10
[7 ; más> 21 19 29

Si utiliza un 5% de significancia, ¿a qué conclusión llegará el investigador?

Años de experiencia Mala Regular Buena


[0 ; 4>
[4 ; 7 >
[7 ; más>

Años de experiencia Mala Regular Buena


[0 ; 4>
[4 ; 7 >
[7 ; más>

Notas
136 Estadística Inferencial 2019-1
Pruebas de bondad de ajuste
Esta prueba permite determinar si la muestra aleatoria proviene de una población con cierta
distribución de probabilidad.

Procedimiento de la prueba
Las hipótesis planteadas para realizar esta prueba son:

H0: La población de donde proviene la muestra tiene la distribución dada


H1: La población de donde proviene la muestra no tiene dicha distribución

Esta es, siempre, una prueba unilateral hacia la derecha.


El nivel de significancia de la prueba es α.
El estadístico de prueba es:

 
2
k
 fi  ei 2
c
i 1 ei
k: número de categorías o niveles de la variable
fi: frecuencia observada
ei: frecuencia esperada o teórica
Las frecuencias esperadas ei se calculan a partir de la siguiente expresión:
ei = npi
donde:
n: tamaño de la muestra
pi: probabilidad de ocurrencia de cada categoría de la variable calculado a partir de la
distribución teórica, es decir bajo el supuesto que la hipótesis H0 es verdadera.

Para establecer la región crítica, se usa distribución 2 con (k – r - 1) grados de libertad, donde r
representa el número de parámetros estimados.

Si las frecuencias esperadas son menores a cinco, se unen categorías contiguas hasta que todas las
frecuencias esperadas sean mayores a cinco.

Notas
137 Estadística Inferencial 2019-1
Ejercicio 76
Una fábrica produce cinco productos sustitutos diferentes, un estudio de mercados realizado hace un
año le indicó que la demanda de dichos productos se distribuía del siguiente modo:
- el 30% de los clientes prefería A,
- el 25% de clientes prefería B,
- el porcentaje de clientes que prefiere C es tres veces el porcentaje de clientes que prefiere el
producto D,
- el porcentaje de clientes que prefiere el producto E es la mitad del porcentaje de clientes que
prefiere D.
Al entrevistarse a 500 clientes se encontraron los siguientes resultados.
Producto A B C D E
Número de clientes 145 130 140 55 30
Con estos datos y usando un  = 0,05. ¿Se puede concluir que los resultados del estudio de mercados
realizado hace un año están aún vigentes?

Notas
138 Estadística Inferencial 2019-1
Ejercicio 77
El gerente de una distribuidora de artefactos eléctricos considera que si la vida útil de los focos que
venden tiene distribución exponencial es posible establecer un plan de reposición para los clientes
dentro de una determinada garantía. Para determinar si compra o no un lote de focos, requiere saber
si dicha condición se cumple, en cuyo caso se adquiere el lote. Para esto toma una muestra aleatoria
de 300 focos y registra su de vida útil. El gerente desea determinar si es razonable decir que la vida útil
de los focos se distribuye según una distribución exponencial con promedio 200 horas, para lo cual fija
un nivel de significancia del 2,5%.
Tiempo de duración Número de focos
 0 , 100> 94
100, 200> 80
200, 300> 70
300, 400> 42
400, a más> 14

Notas
139 Estadística Inferencial 2019-1
Medidas de asociación
En el proceso de investigación en las ciencias conductuales frecuentemente deseamos conocer si dos
series de puntuaciones están relacionadas y, se es así, el grado o intensidad de dicha relación.
Establecer el grado de relación entre dos variables puede ser el objetivo de una investigación, por
ejemplo, en estudios de dinámica de la personalidad, percepción, etc., o bien puede ser un paso en un
estudio más general, por ejemplo, el probar la confiabilidad de nuestras observaciones.

Valor chi-cuadrado
Para calcular el valor chi cuadrado se debe calcular las frecuencias esperadas eij en cada una de las
celdas de la tabla de contingencia, a partir de la siguiente expresión:
ti  tj
ei j 
n
El valor chi cuadrado se calcula de la siguiente manera:
k
 c2  
r
 fji  e ji 2
i 1 j 1 e ji

El coeficiente phi, coeficiente de contingencia C de Pearson y coeficiente V de Cramer


Son medidas del grado de asociación o relación entre dos series de atributos o variables. Se utiliza en
particular cuando tenemos información categórica. Se calculan a partir de la información que se tiene
sobre dos variables, las cuales deben ser presentadas en una tabla de contingencia.

Coeficiente phi (Φ)


El coeficiente phi Φ es una medida de la fuerza de asociación en el caso especial de una tabla con dos
filas y dos columnas (tabla 2 x 2). Se calcula del siguiente modo:

2

n

donde n es el número de datos y 2 es el valor chi-cuadrado.


- Toma valores entre 0 y 1.
- Toma el valor cero cuando no hay asociación entre las variables y toma el valor 1 cuando están
perfectamente asociadas.

El coeficiente de contingencia C de Pearson


Este coeficiente se calcula de la siguiente manera:
2
C
 n2

donde n es el número de datos y 2 es el valor chi cuadrado.

- Es un indicador que está influenciado por el tamaño de la muestra.

Notas
140 Estadística Inferencial 2019-1
- Este coeficiente no puede ser menor que cero y solo toma ese valor si las variables son
independientes, tampoco toma valores mayores que uno pero su valor máximo depende de la
dimensión de la tabla.
- El valor máximo del coeficiente de contingencia C de Pearson es:
L1
C max 
L
donde L = máximo{r, k}, r es el número de filas y k es el número de columnas de la tabla de
contingencia.

Coeficiente V de Cramer
Expresa la intensidad de la relación entre dos variables de escala nominal.

2
V
n(L  1)

donde n es el número de datos, L es el mínimo entre el número de filas y el número de columnas de la


tabla de contingencia y 2 es el valor chi cuadrado.
El valor mínimo de este coeficiente es 0 y el valor máximo es 1.

Ejercicio 78
De un grupo de 400 estudiantes universitarios que han pasado una prueba, se sabe que 280 han
aprobado la prueba. Además, se sabe que 60 hombres varones han desaprobado, del grupo total de
160 hombres. Calcule e interprete el coeficiente phi para las variables: género y condición de
aprobado.

Notas
141 Estadística Inferencial 2019-1
Ejercicio 79
Se entrevistó a 900 personas y se les preguntó acerca de su preferencia con respecto a tres programas
de televisión, los entrevistados se clasificaron de acuerdo al grupo de edad y el tipo de programa de
su preferencia. Los resultados se muestran en la siguiente tabla:

Tipo de programa
Cómico Deportivo Musical
Adolescentes 100 150 50
Jóvenes 200 50 30
Adultos 55 20 15

Calcule e interprete el coeficiente de contingencia C de Pearson y V de Cramer para las variables.

Notas
142 Estadística Inferencial 2019-1
Problemas propuestos

184. En una investigación una socióloga trató de contestar la siguiente pregunta: ¿Existe relación
entre el nivel de instrucción alcanzado y el nivel de actividad social de una persona? Registró
tres niveles de instrucción: primaria, secundaria y superior y tres niveles de actividad social:
inferior al promedio, promedio y superior al promedio. Cada persona llevó un registro de sus
actividades sociales, como jugar en grupo, asistir a bailes, eventos sociales, ceremonias
religiosas, etc. Los resultados se dan en la siguiente tabla:

Actividad social
Nivel de instrucción Superior al promedio Promedio Inferior al promedio
Superior 20 10 10
Secundaria 30 50 80
Primaria 10 60 130

¿Cuál será la conclusión de esta socióloga, en base a esta muestra aleatoria y un 5% de


significancia?

185. El jefe de control de calidad evalúa el tiempo, en horas, de duración de baterías y el tipo de
máquina que se usó en su fabricación (se tienen tres tipos de máquinas), para esto se eligieron
al azar una muestra de baterías y clasificó el tiempo de duración como: vida útil muy corta, vida
útil corta, vida útil normal, vida útil larga y vida útil extra larga. Los resultados fueron:

Muy corta Corta Normal Larga Extra larga Total


Máquina 1 17 19 11 13 10 70
Máquina 2 9 28 21 3 9 70
Máquina 3 12 14 17 14 13 70
Total 38 61 49 30 32 210

¿Es posible concluir que el tiempo de duración de las baterías es independiente del tipo de
máquina? Use un  = 0,1. Defina la(s) variable(s) de interés en este caso y plantee las hipótesis
correspondientes a este caso.

186. En el hospital Rebagliati se hizo un estudio en el cual se clasificó a los pacientes de cáncer de
acuerdo con el grado de la enfermedad. El grado de la enfermedad se clasifica en cuatro
categorías: en recuperación; estable; grave; terminal. Al tomar una muestra de pacientes y
determinar su grado se observaron los siguientes resultados:

Grado de la enfermedad En recuperación Estable Grave Terminal


Número de pacientes 31 23 20 10

¿Se puede afirmar que la proporción de pacientes con respecto al grado de la enfermedad está
en la proporción 4: 3: 2: 1? Use un  = 0,05.

Notas
143 Estadística Inferencial 2019-1
187. Se entrevistó a 900 personas y se les preguntó acerca de su preferencia con respecto a tres
programas de televisión, los entrevistados se clasificaron de acuerdo al distrito donde residían,
de acuerdo al grupo de edad y el tipo de programa de su preferencia. Los resultados se muestran
en la siguiente tabla:
Tipo de programa
Cómico Deportivo Musical
Distrito A Adolescentes 40 50 20
Jóvenes 45 30 60
Adultos 55 20 15
Distrito B Adolescentes 35 60 15
Jóvenes 30 40 40
Adultos 105 15 5
Distrito C Adolescentes 25 40 15
Jóvenes 25 30 20
Adultos 40 15 10
Usando un 5% de significancia se puede decir que el grupo de edad no influye en el tipo de
programa que prefiere la persona.

188. Un distribuidor de revistas ha determinado que la variable aleatoria X definida como el número
de diarios que no logra vender en la semana y, por lo tanto, debe devolver tiene un
comportamiento aleatorio que puede ser modelado por la siguiente función de probabilidad:
x2
f x   PX  x   x  1, 2, 3, 4, 5
55
Para una nueva temporada que se iniciará en breve, y con la finalidad de planificar sus pedidos,
este comerciante desea determinar si el comportamiento aleatorio de las unidades excedentes
continúa siendo la misma, para lo cual se tomó una muestra aleatoria de 900 puntos de venta
en la ciudad de Lima encontrándose los siguientes resultados:

Unidades excedentes 1 2 3 4 5
Número de puntos de venta 20 60 150 250 420

Con estos datos y usando un  = 0,05, ¿se puede concluir que el comportamiento aleatorio en
cuanto a las unidades excedentes aún continua siendo determinado por dicha distribución de
probabilidad?

189. Se toma una muestra aleatoria de familias en cierta zona de la ciudad y se les clasifica en una
tabla de doble entrada según el nivel de ingreso familiar por mes (alto, medio y bajo) y el tipo
de colegio al que envían a sus hijos. La siguiente tabla muestra los resultados obtenidos:

Tipo de colegio
Nivel de ingreso Privado Público Parroquial
Alto 506 494 220
Medio 438 162 480
Bajo 215 385 685

¿Se puede concluir, a partir de esta información, que las variables en mención son
independientes? Usar un nivel de significancia del 5%

Notas
144 Estadística Inferencial 2019-1
190. Una compañía de seguros desea establecer el pago de la prima a cobrar por asegurar un modelo
de auto. La información que tiene fue obtenida en un estudio del año pasado indica que el 30%
de clientes asegurados tienen un accidente, y que cuando este ocurre el accidente puede
considerarse leve el 60% de las veces, de mediana proporción el 30% de las veces y grave el 10%
de las veces. Para determinar si los resultados del año pasado siguen vigentes se tomó una
muestra aleatoria de asegurados y se encontró los siguientes resultados:

Condición del No tiene Accidente Accidente de mediana Accidente


asegurado accidente leve proporción grave
Número de veces 198 47 37 18

Determine si se puede tener en cuenta los resultados del estudio realizados el año pasado para
poder determinar el monto de la prima que debe cobrar. Justifique e interprete adecuadamente
sus resultados. Use un nivel de significancia el 2,5%.

191. Se quiere probar si la duración de un tipo especial de focos para alumbrado se distribuye según
una función exponencial con media β horas. Una muestra de 150 de estos focos da los siguientes
resultados. Use α = 1%.

Tiempo de duración Número de focos


0 ; 100 47
100 ; 200 40
200 ; 300 35
300 ; a más 28

192. Un atleta efectúa 150 lanzamientos de disco durante una semana de práctica. En la siguiente
tabla se muestran las distancias logradas en sus lanzamientos, medidos en pies.

Distancia: X Número de lanzamientos


x  61 28
61 < x  63 40
63 < x  65 70
65 < x < 67 47
x  67 15

Si utilizamos un nivel de significancia del  = 0,01, ¿podemos tener evidencia suficiente como
para afirmar que las distancias a las cuales lanza el disco, se comportan como una distribución
normal con media  = 63 pies y desviación estándar  = 2 pies?

193. La solicitud de préstamo que presentan los clientes de un banco está compuesta por cuatro
rubros. El gerente de préstamos desea realizar un estudio sobre la distribución de la cantidad de
rubros que son rechazados por cada solicitud, para esto toma una muestra de 200 solicitudes,
obteniéndose los siguientes resultados:

Notas
145 Estadística Inferencial 2019-1
Número de rubros rechazados 0 1 2 3 4
Número de solicitudes 15 80 70 25 10

¿El gerente puede concluir que el número de rubros rechazados por cada solicitud tiene una
distribución binomial con n = 4? Use un  = 0,01.

194. Según la ley de Wendey, sobre la herencia en la descendencia de un cierto cruce, habrá de
regular R, N, L y B en la proporción 9: 3: 3: 1; si en un experimento resulta: 120, 48, 36, 13
descendientes de aquellas clases respectivamente, ¿son estos datos compatibles con la teoría
de Wendey? Use  = 0,05.

195. Un comerciante vende minicomponentes, luego de una campaña de publicidad, el comerciante


cree que el número de minicomponentes que vende por día es una variable aleatoria que se
comporta según la siguiente función de probabilidad:
3x
PX  x  x  0, 1, 2, 3,.......
20,08554 x!
Para comprobar esto toma una muestra aleatoria de 120 días y observa el número de
minicomponentes vendidos, los resultados se muestran en la siguiente tabla:

Número de minicomponentes vendidos 0 1 2 3 4 5 o más

Número de días 7 12 30 24 26 21

Utilizando un nivel de significancia del 5% ¿a qué conclusiones llega este comerciante?

196. La gerencia de un supermercado ubicado en la zona norte de la ciudad está interesada en


investigar algunas características de sus clientes así como sus hábitos de compra. Deciden
levantar información pertinente para lo cual seleccionan una muestra de sus clientes, y le aplica
una pequeña encuesta a 180 clientes, en la que se consideraron, entre otras variables, el turno
de compra preferente (mañana, tarde y noche), el estado civil de los clientes (soltero, casado,
divorciado, viudo), zona de residencia (zona A, zona B y zona C)
Para proponer una campaña de ofertas el gerente desea determinar con que variable está más
fuertemente asociada el horario de compra preferente, si con el estado civil del cliente o con la
zona de residencia del cliente. Utilizando el coeficiente V de Cramer, asesore al gerente con
respecto a esa inquietud. ¿Que debe de considerar la gerencia para la campaña de ofertas?
En el caso de las variables “turno de compra preferente” y “estado civil”, se encontró que:

k r ( fij  eij )2
χ 2c  
i 1 j 1 eij
 72,616

En el caso de las variables “turno de compra preferente” y “zona de residencia”, se tiene que:
k r ( fij  eij )2
χ 2c  
i 1 j 1 eij
 63,795

Notas
146 Estadística Inferencial 2019-1
197. Diga si los siguientes enunciados son verdaderos o falsos, en caso que sea falso indique la
expresión correcta:
a. Los valores de una tabla de contingencia son el resultado de un proceso de medición.
b. Si se desea probar si un conjunto de datos se ajusta a la distribución binomial (n = 5; p) donde
el valor de p se estima en base a los datos observados, entonces los grados de libertad para
determinar la región crítica son 7.

198. Responda las siguientes preguntas:


a. En una prueba en la que se pretende determinar si el tiempo de procesamiento por unidad
se comporta de acuerdo a un distribución uniforme en el intervalo [12, 16],
¿Bajo qué supuesto fundamental se hacen los cálculos de las probabilidades?
¿Cuáles serían dichas probabilidades si los rangos en los cuales se ha dividido los valores de
la variable son: menos de 13; 13 o más pero menos de 14; 14 o más pero menos de 15; 15 o
más?
b. Se desea determinar si el nivel de ingreso (clasificado como alto, medio y bajo), está
relacionado con el grado de socialización de la persona (clasificado como muy bajo, bajo,
medio, medio alto y alto). Indique qué prueba estadística aplicaría, si utiliza un nivel de
significancia del 5% indique cuál es el valor del punto crítico en este caso y qué distribución
se debe utilizar.
c. En una prueba de independencia las frecuencias esperadas o teóricas ¿bajo qué supuesto
fundamental se calculan?
d. En una prueba de análisis de varianza en la que se tienen ocho tratamientos se rechazó la
hipótesis nula, ¿cuántas comparaciones en pares de promedios se pueden hacer como
máximo para realizar las pruebas de comparaciones múltiples?

Notas
147 Estadística Inferencial 2019-1

Regresión y correlación lineal simple

Correlación
La correlación entre las variables X e Y mide el grado en el que estas dos variables tienden a variar de
manera conjunta, se usa para medir el grado de asociación lineal entre las variables.

Diagrama de dispersión
Dado un conjunto de n observaciones de las variables cuantitativas X e Y: (x1, y1), (x2, y2),…, (xn, yn), el
primer paso para evaluar la posible asociación entre estas variables es construir una gráfica de los
datos en un plano bidimensional. Esta gráfica se denomina diagrama de dispersión o scatter plot.

Covarianza
Dada una muestra de n pares de observaciones de las variables cuantitativas X e Y, (x1 , y1), (x2 , y2),…,
(xn , yn), la covarianza muestral se define como:
n
 n

 x
i 1
i  x y i  y  

x y
i 1
i i nx y 

s xy   
n 1 n 1
 
 
 
Coeficiente de correlación lineal de Pearson
Dados n pares de datos (x1, y1), (x2, y2),…, (xn, yn), el coeficiente de correlación lineal de Pearson se
calcula dividiendo la covarianza entre X e Y entre el producto de las desviaciones estándar de X e Y.
s xy
r
s x sy
Por lo tanto, se tiene que:
n

 x
i 1
i  x y i  y 

r n 1
n n

 x i  x 2
i 1
 y
i 1
i  y
2

n 1 n 1

Notas
148 Estadística Inferencial 2019-1
Luego, el coeficiente de correlación se puede calcular por:
n

x y  n x y
i 1
i i
r
 n  n 

 i 1

 i 1

 xi  nx 2  yi  ny 2 
 

Este coeficiente de correlación mide el grado de asociación lineal que existe entre las variables X e Y.

El valor del coeficiente de correlación está entre –1 y 1, es decir -1 ≤ r ≤ 1, para interpretación de r


consideremos lo siguiente:

Para la interpretación de r consideraremos lo siguiente:


 -1 ≤ r ≤ -0,7, indica que existe alta correlación lineal inversa
 -0,7 ≤ r ≤ -0,4, indica que existe moderada correlación lineal inversa
 -0,4 ≤ r ≤ 0,4 indica que existe baja correlación lineal
 0,4 ≤ r ≤ 0,7 indica que existe moderada correlación lineal directa
 0,7 ≤ r ≤ 1, indica que existe alta correlación lineal directa

Observaciones
 Una correlación alta no indica que una variable dependa de la otra o que sea causa de las
variaciones en la otra. La asociación entre ellas no necesariamente es causal.
 Una correlación alta indica que el modelo lineal podría ser adecuado para hacer predicciones en
el intervalo de variación de los datos; fuera de él, el tipo de relación entre las variables puede
cambiar o no existir.
 Podemos obtener valores de correlación muy altos si usamos una muestra de dos o tres pares de
datos pero en ese caso es claro que la conclusión acerca de la asociación entre las variables puede
no ser válida.

 Si r = 1, indica que existe una relación perfecta entre las variables, y esta relación es directa
 Si r = -1, indica que existe una relación perfecta entre las variables, y esta relación es inversa
 Si r = 0, indica que estas variables no están relacionadas linealmente, pero puede existir otro tipo
de asociación entre ellas

 Diversos grupos de datos pueden tener el mismo coeficiente de correlación; sin embargo, el tipo
de relación entre las variables es distinta, lo que muestra la importancia de realizar el diagrama de
dispersión.

Notas
149 Estadística Inferencial 2019-1

Regresión lineal simple


La regresión encuentra una relación funcional entre las variables cuantitativas X e Y. El objetivo
principal del análisis de regresión lineal simple es construir un modelo que permita Estimar o predecir,
el valor de una variable en función a otra variable.
A la variable que se pretende estimar la denotamos por Y, y se le llama variable dependiente
A la variable que se utiliza para estimar Y, la denotamos por X, y se le denomina variable predictora o
variable independiente.

Modelo estadístico poblacional


Con la finalidad de construir dicho modelo planteamos la siguiente relación entre las mencionadas
variables, al cual denominamos modelo poblacional:
Yi  0  1Xi  i
donde:
0 y 1 son parámetros desconocidos, llamados coeficientes de regresión.
 i son los errores del modelo, se suponen independientes y normalmente distribuidos con media 0 y
varianza 2.

Modelo estimado de regresión de mínimos cuadrados


A partir de una muestra aleatoria de n observaciones (xi, yi), podremos hallar el modelo de regresión
estimado que tendrá la siguiente forma:
Yˆi  b0  b1 X i

donde b0 y b1 son los estimadores de los coeficientes de regresión. Los valores b1 y b0 minimizan la
suma de los cuadrados de los errores SCE.

La suma de los cuadrados de los errores (SCE) es:


n n n

 yi  yˆi   yi  a  bxi 2


2
SCE  ei 
2

i 1 i 1 i 1

Los valores de b1 y b0 que minimizan la suma de los cuadrados de los errores SCE son:
n

S S
x y i i  nx y
b1  r Y  XY2  i 1
n b0  y  b1x
SX SX
x
i 1
i  nx 2

Interpretación de b0 y b1
b0 Es el valor estimado de la variable dependiente Y, cuando la variable independiente X es cero.
Geométricamente, es el intercepto de la recta de regresión con eje vertical.
b1 Es la variación estimada de la variable dependiente Y, cuando la variable independiente X varía en
una unidad. La variable Y aumenta o disminuye dependiendo del signo de b1.

Notas
150 Estadística Inferencial 2019-1
Predicción
Para predecir el valor de la variable dependiente para un valor dado de la variable independiente,
basta con reemplazar el valor dado en la fórmula de la recta de mínimos cuadrados.

Coeficiente de determinación

Se tiene que:
V(Y) es la varianza de los valores observados de la variable dependiente Y:
n

(y
i 1
i  y )2
SCT
V (Y )  
n 1 n 1

V Yˆ es la varianza de los valores estimados con la recta de regresión
n

 (yˆ  y )2

i
SCR
V Yˆ  i 1

n 1 n 1
V(e) es la varianza de los errores de estimación
n n

 (y i  yˆi )2 e 2
i
SCE
V e  i 1
 i 1

n 1 n 1 n 1
Se puede demostrar que:
V (Y )  V (Yˆ )  V (e)
Dividiendo en V(Y)
V (Yˆ) V (e)
1 
V Y  V Y 
Se define el coeficiente de determinación como:
V (Yˆ) SCR
R2  
V (Y ) SCT
 R2 mide qué proporción de la varianza de los valores observados de Y representa la varianza de los
valores estimados por la recta de regresión. Es decir, la proporción de la varianza total, V(Y), que
es explicada por la recta de regresión de mínimos cuadrados.
 Se cumple que R 2  r 2 , es decir, el coeficiente de determinación es el cuadrado del coeficiente de
correlación lineal de Pearson.
 Se cumple que 0 R2 1 .
 Mientras más próximo a 1 sea el coeficiente de determinación, mejor será el ajuste de los datos al
modelo lineal.

Notas
151 Estadística Inferencial 2019-1
Error estándar de estimación (Se)
Cuando se estima un valor de Y utilizando el modelo de regresión se tiene el error estándar de
estimación muestral, el cual se calcula a partir de la siguiente expresión

n n n n n

SCE
e 2
i (y i  yˆi )2 y 2
i  b0 y i  b1 x yi i
Se  CME   i 1  i 1  i 1 i 1 i 1
n 2 n 2 n 2 n 2
En este caso, CME es el cuadrado medio del error y se encuentra en la tabla de análisis de varianza
para regresión.

Regresión en SPSS y Excel


El resultado es el siguiente:

Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple r2
Coeficiente de determinación R^2 R2

R^2 ajustado Rˆ 2  1 
n 1
n  k 1

1  R2 
Error típico Se = CME
Observaciones n

ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de cuadrados F Valor crítico de F
CMR
Regresión k SCR CMR Valor p
CME
Residuos n–2 SCE CME
Total n–1 SCT

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%


b0
Intercepción b0 S b0 Valor p b0  t 0 Sb0 b0  t 0 Sb0
S b0
b1
Variable X b1 S b1 Valor p b1  t 0 S b1 b1  t 0 S b1
S b1

Notas
152 Estadística Inferencial 2019-1
Prueba individual del coeficiente 1 igual a cero
Estimado el modelo de regresión lineal simple, se debe probar la significancia del coeficiente de
regresión 1 que, de alguna manera, es una prueba de significancia del modelo.

Las hipótesis son:


H0:  1 = 0 La variable X no es significativa en el modelo
H1:  1 ≠ 0 La variable X sí es significativa en el modelo
La prueba es bilateral.
El nivel de significancia es α.
El estadístico de prueba es:
b1
Tc 
S b1
b1: Coeficiente de regresión estimado
S b1 : Desviación estándar del coeficiente de regresión b1, es decir, el error estándar de b1.
Se
Sb1 
x 2
i  nx 2
S e: Error estándar de estimación
La región crítica o de rechazo se determina a partir de una distribución t de Student con n – 2 grados
de libertad.

Prueba individual del coeficiente 1 diferente a cero


Esta prueba se adapta a situaciones en las cuales se desea probar un valor determinado del coeficiente
1, como por ejemplo se desea saber si el valor real del coeficiente de regresión 1 es igual a un valor
k0 o menor que dicho valor, también puede ser mayor o diferente que k0.

Las hipótesis podrían ser:


Unilateral izquierda Bilateral Unilateral derecha
H0 : 1  k0 H0 : 1  k0 H0 : 1  k0
H1 : 1  k0 H1 : 1  k0 H1 : 1  k0

El nivel de significancia es α.
El estadístico de prueba es:
b1  k0
Tc 
Sb1
b1: Coeficiente de regresión estimado
S b1 : Desviación estándar del coeficiente de regresión b1, es decir, el error estándar de b1.
Se
Sb1 
x 2
i  nx 2
S e: Error estándar de estimación
La región crítica o de rechazo se determina a partir de una distribución t de Student con n – 2 grados
de libertad, para una prueba unilateral o bilateral, dependiendo el caso.

Notas
153 Estadística Inferencial 2019-1
Estimación de un valor de Y dado un valor de X = x0 mediante un intervalo de confianza

Supongamos que se sabe que X toma un valor particular x0, entonces podemos estimar Y mediante un
intervalo de confianza.

Esta estimación se realiza mediante la siguiente expresión:

ICyˆ X  x0   yˆ0  E
donde:
yˆ0  b0  b1 x0 es la estimación puntual de Y dado X = x0

1 x0  x 2
E es el margen de error y es igual a E  t 0 Se 1   n
n
x
i 1
2
i  nx 2

t0: es el valor correspondiente a la distribución t de Student con n – 2 grados de libertad y al nivel de


confianza fijado.
Se: Error estándar de estimación

Estimación de la media de Y (µY) dado un valor de X=x0 mediante un intervalo de confianza

Supongamos que se sabe que X toma un valor particular x0, entonces podemos estimar un intervalo
de confianza para la media de la variable Y.

Esta estimación para la media de Y se realiza mediante la siguiente expresión:



IC Y Xx  yˆ0  E
0

donde:
yˆ0  b0  b1 x0 es la estimación puntual de Y dado X = x0

1 x0  x 2
E es el margen de error y es igual a E  t 0 Se  n
n
x
i 1
2
i  nx 2

t0: es el valor correspondiente a la distribución t de Student con n – 2 grados de libertad y al nivel de


confianza fijado.
Se: Error estándar de estimación

Notas
154 Estadística Inferencial 2019-1
Estimación de los coeficientes de regresión mediante un intervalo de confianza
Se estiman mediante un intervalo de confianza el valor de los coeficientes de regresión poblacionales
0 y 1.

Estimación de 0 mediante un intervalo de confianza


El intervalo de confianza para estimar el coeficiente de regresión 0 es:
 
IC  0  b0  E 

donde:
1 x2
E es el margen de error y es igual a E  t 0 Se  n
n
x i 1
2
i  nx 2

t0: es el valor correspondiente a la distribución t de Student con n – 2 grados de libertad y al nivel de


confianza fijado.
Se: Error estándar de estimación

Estimación de 1 mediante un intervalo de confianza


El intervalo de confianza para estimar el coeficiente de regresión 1 es:

 
IC  1  b1  E 

donde:

E es el margen de error y es igual a E  t0 Se 1


n

x
i 1
2
i  nx 2

t0: es el valor correspondiente a la distribución t de Student con n – 2 grados de libertad y al nivel de


confianza fijado.
Se: Error estándar de estimación

Notas
155 Estadística Inferencial 2019-1
Ejercicio 80
El gerente de ventas de una empresa, quiere determinar si hay alguna relación entre el tiempo
invertido en demostraciones y entrevistas a los clientes hechas en un mes y el nivel de ventas, en miles
de soles, en ese mes.
Para esto tomó una muestra de diez representantes de ventas y se determinó el tiempo utilizado con
sus clientes y su respectivo nivel de ventas. Los resultados obtenidos fueron los siguientes:

Representante de ventas Tiempo utilizado (en horas) Nivel de ventas (en miles de soles)
Tomas Carpio 20 30
Jorge Pérez 40 60
Luis Chávez 20 40
Sandra Ruiz 30 60
José Luna 10 15
Ricardo Morales 10 20
Carlos Ramírez 22 35
Rosa Morales 20 50
Carmen López 25 38
Gerardo Prado 30 58
Determine la variable dependiente y la independiente.

Calcule e interprete el coeficiente de correlación entre estas dos variables.

Determine la línea de regresión de mínimos cuadrados.

Interprete los coeficientes de regresión estimados b0 y b1.

Notas
156 Estadística Inferencial 2019-1
Calcular e interpretar el coeficiente de determinación

Calcular el error estándar de la estimación

Realizar la prueba para determinar si la variable independiente es significativa

Estimar el nivel de ventas si el tiempo invertido en demostraciones y entrevistas hechas a los clientes
en un mes fue de 25 horas.

Calcule un intervalo de confianza para la media del nivel de ventas cuando el tiempo invertido en
demostraciones y entrevistas a los clientes hechas en un mes fue de 25 horas. Use un 95% de confianza.

Notas
157 Estadística Inferencial 2019-1
Los resultados en el programa Excel se mostrarán del siguiente modo:

Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,891
Coeficiente de determinación R^2 0,794
R^2 ajustado 0,768
Error típico 7,822
Observaciones 10
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 1 1884,881 1884,881 30,804 0,001
Residuos 8 489,519 61,190
Total 9 2374,400

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%


Intercepción 4,759 6,915 0,688 0,511 -11,187 20,706
Tiempo utilizado (en horas) 1,579 0,284 5,550 0,001 0,923 2,235

Los resultados en el programa SPSS se mostrarán del siguiente modo:

Notas
158 Estadística Inferencial 2019-1
Ejercicio 81
Durante ocho semanas se observó la relación, entre el número de comerciales contratados y el valor
de las ventas (en miles de soles) de un artículo.

X: Número de comerciales 58 51 85 35 62 70 98 104


Y: Ventas 208 171 253 126 206 220 275 281

a. Grafique el diagrama de dispersión, evalúe si las variables en estudio parecen estar asociadas.
b. Calcule e interprete el coeficiente de correlación lineal de Pearson.
c. Determine la ecuación de la recta de regresión de las ventas sobre el número de comerciales.
d. Si en una semana se contratan 75 comerciales, estimar las ventas en esa semana.
e. Calcule e interprete el coeficiente de determinación.

Solución
a. El diagrama de dispersión muestra un comportamiento de franja creciente, esto nos sugiere
asociación lineal directa entre las variables.

b. El coeficiente de correlación es r  0,9817 , este valor indica una asociación lineal fuerte y directa
entre el número de comerciales contratados por semana y el valor de las ventas semanales.

c. Calculemos los coeficientes de la recta de regresión.


x  70,375 y  217,5 sx  22,242 sy  49,196 sxy  1074,187

De donde b1 2,1712, b0 64,699


Por lo tanto, la recta de regresión es L: ˆ  64,699  2,171x
y

d. Si x es igual a 75, entonces, yˆ  b0 b1 (75) 227,5 ; entonces, en una semana en que se contratan
75 comerciales se estima que el valor de las ventas sería 227 500 soles.
e. El coeficiente de determinación es R 2  r 2  0,9637  96,37% . La varianza explicada por la recta
de regresión es el 96% de la varianza de la variable valor de las ventas semanales. El ajuste de los
datos al modelo lineal es muy bueno.

Notas
159 Estadística Inferencial 2019-1
En Excel los resultados serían:
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple r2 = 0,9817
Coeficiente de determinación R^2 R2 = 0,9637
R^2 ajustado ˆ2  1 
R
n 1
n  k 1
 
1  R2  0,9576

Error típico Se = CME  117,240  10,828


Observaciones n=8

ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los
libertad cuadrados cuadrados F Valor crítico de F
CMR 159,148
Regresión k=1 SCR = 18658,559 CMR = 18658,559  Valor p = 1,51E-05
CME
Residuos n–2=6 SCE = 703,441 CME = 117,240

Total n–1=7 SCT = 19362

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%


b0 b0  t 6 S b0  b0  t 6 S b0 
Intercepción b0 = 64,699 S b0  12,703  5,093 Valor p = 0,002
S b0 33,62 95,78
b1
X: número de
b1 = 2,171 S b1  0,172  12,615 Valor p = 0,000 b1  t 6 S b1  1,75 b1  t 6 S b1  2,59
comerciales S b1

n8 n8

yˆi  yi   64,699  2,171 xi   217,52


2
SCR 
i 1 i 1

SCR  64,699  2,711 58  217,52  64,699  2,711 51  217,52    64,699  2,711 104  217,52
SCR  18658,559
n8 n8

yi  yˆi   yi  64,699  2,171 xi 2


2
SCE 
i 1 i 1

SCE  208  64,699  2,711 582  171  64,699  2,711 512    281  64,699  2,711 1042
SCE  703,441
n8 n8
SCT  yi  yi 2  yi  217,52  208  217,52  171 217,52  281 217,52
i 1 i 1
SCT  19362

Observe que se cumple que SCT = SCR + SCE, es decir, 19362 = 18658,559 + 703,441

Notas
160 Estadística Inferencial 2019-1
Modelos de regresión no lineales
Algunos problemas de regresión no lineal pueden linealizarse mediante una transformación en la
formulación del modelo.
Por ejemplo, considérese el problema de regresión no lineal:
Y  aeb X
Aplicando logaritmo neperiano a ambos lados de la ecuación, se obtiene por propiedades de
logarirmos:
lnY  lna bX

El cual es un modelo linealizado que puede calcularse usando los cambios de variable Y lnY y
a  lna

Ejercicio 82
Estimar, si es posible, los coeficientes a y b del siguiente modelo de regresión no lineal

Y  a10 
bX

donde:
Y: presión (en libras por cm2)
X: temperatura (en grados centígrados)

En base a los siguientes datos, estime mediante el método de los mínimos cuadrado los coeficientes a
y b.

Temperatura 50 80 100 120 150


Presión 20 80 180 300 450

Notas
161 Estadística Inferencial 2019-1
Ejercicio 83
Cuando la dependencia entre las variables X e Y es de forma hiperbólica, interesa ajustar a la nube de
puntos una función del tipo
b
Y a
X
Se tiene los siguientes datos:
Y 4 8 12 16 20 24 28 32
X 24 21 20 15 14 10 7 5

Calcule las constantes a y b del modelo de regresión de mínimos cuadrados.

Estime el valor de la variable Y cuando X = 17.

Notas
162 Estadística Inferencial 2019-1
Problemas propuestos

199. Los siguientes datos representan los gastos realizados en publicidad (en miles de soles) y el nivel
de ventas (en cientos de unidades) de una empresa comercializadora de bebidas revitalizantes.
Estos datos fueron tomados en los últimos cinco meses.

Gastos de publicidad 10 30 40 20 50
Nivel de ventas 300 600 600 500 900

a. Calcule e interprete el coeficiente de correlación entre estas dos variables.


b. Determine la variable dependiente y la independiente.
c. Determine la línea de regresión que permita estimar el nivel de ventas en base al gasto en
propaganda.
d. Interprete los coeficientes de regresión estimados b0 y b1.
e. Calcule e interprete el coeficiente de determinación
f. Realice la prueba para determinar si la variable gasto en publicidad es significativa
g. Estime el nivel de ventas si se realiza un gasto de 35000 soles en publicidad.
h. Calcule un intervalo de confianza para la media del nivel de ventas cuando se realiza un gasto
en publicidad de 35 000 soles. Use un 95% de confianza.

200. Los contadores con frecuencia estiman los gastos generales (miles de dólares) basados en el
nivel de producción (cientos de unidades). Se recabaron los siguientes datos sobre gastos
generales y niveles de producción en diferentes plantas:

Gastos generales 19,2 17,0 27,2 15,5 28,0 17,3 23,4 11,6 15,3 17,8
Producción 40 42 53 35 56 39 48 30 37 40

Calcule e interprete los siguientes coeficientes: de correlación, de determinación y de regresión.

201. En ocasiones es conveniente comprar la mayor cantidad posible de ciertos artículos. Por lo
general el precio unitario es menor al adquirir grandes cantidades. Para contrastar esta teoría
se obtuvieron los siguientes datos:

Número de unidades (X) 1 3 5 10 12 15 24


Costo unitario (Y) 55 52 48 36 32 30 25

a. Calcule e interprete los coeficientes de correlación y de regresión.


b. ¿Qué porcentaje de la varianza del costo no es explicado por la recta de regresión?
c. ¿Es la pendiente de la recta diferente de cero significativamente?
d. Estime, mediante un intervalo de confianza, la media del costo unitario cuando se compra 20
unidades. Use  = 95%.
e. ¿Es posible afirmar, en base a la información muestral obtenida y utilizando un nivel de
significancia del 5%, que la pendiente de la recta es significativamente diferente a –1,6?
Plantee la hipótesis que le permitan dar respuesta a esta interrogante.
Notas
163 Estadística Inferencial 2019-1

202. Los estudiantes universitarios que aprenden más rápido tienen mejores calificaciones promedio
y, por lo tanto, mejores oportunidades de obtener buenos empleos después de graduarse.
Suponga que los datos que se presentan representan las calificaciones promedio de 15 recién
graduados y sus correspondientes salarios iniciales, en miles de dólares.

Calificación promedio 2,95 3,20 3,40 3,60 3,20 2,85 3,10 2,85 3,05 2,70 2,75 3,10 3,15 2,95 2,75

Salario inicial 18,5 20,0 21,1 22,4 21,2 15,0 18,0 18,8 15,7 14,4 15,5 17,2 19,0 17,2 16,8

a. Ajuste el modelo de regresión lineal simple. Interprete las estimaciones de los parámetros.
b. Calcule e interprete el coeficiente de correlación.
c. Calcule e interprete el coeficiente de determinación.
d. Al 5% de significancia, ¿es significativa la variable calificación promedio?
e. Estime el salario de un estudiante que obtuvo una calificación promedio de cuatro, usando
un nivel de confianza del 92%.
f. Estime la media del salario de un grupo de estudiantes que obtuvieron una calificación
promedio de 3,5, usando una confianza del 98%.

203. El gerente de ventas permite que los agentes vendedores que tiene a su cargo reciban charlas
para motivarlos, dichas charlas se dan en diferentes horarios y los agentes tienen absoluta
libertad para elegir el horario que crean conveniente. El gerente cree que dichas charlas influyen
en la eficiencia de las ventas, para verificar esto toma una muestra de 10 vendedores y
determinó el tiempo acumulado de horas en las que estuvo presente en una o más charlas
durante el último trimestre y la eficiencia de sus ventas, los datos encontrados fueron:

Tiempo acumulado (horas) 27 45 41 19 35 39 19 49 15 31


Eficiencia en las ventas (%) 47 84 80 46 62 72 52 87 37 68

a. ¿Cuál es el modelo estimado? Interprete adecuadamente el coeficiente b1 de la recta.


b. ¿Puede afirmar que la pendiente de la recta es significativamente distinta a cero? Use un
nivel de significancia de 5%.
c. Un agente vendedor recibió un total de 40 horas de charlas, utilizando un nivel de confianza
del 90%, calcule e interprete adecuadamente, un intervalo de confianza para la media de
eficiencia en la ventas.
d. El gerente de ventas afirma que cuando un agente vendedor recibe charlas esto permite un
mejor desempeño en sus nivel de ventas y cree además que por cada hora adicional de charla
su rendimiento se incrementa en más de un punto porcentual. Utilizando un nivel de
significancia del 5% ¿Qué puede concluir con respecto a la afirmación que hace el gerente de
ventas? Desarrolle la prueba adecuada mostrando de manera clara y ordenada sus
procedimientos.

204. Los datos de la siguiente tabla representan las estaturas (en cm) y los pesos (en kg) de una
muestra de 12 hombres adultos. Para cada estatura fijada previamente se observó el peso de
una persona seleccionada de entre el grupo con dicha estatura, resultando:

Notas
164 Estadística Inferencial 2019-1
Estatura (cm) 152 155 152 155 157 152 157 165 162 178 183 178
Peso (kg) 50 61,5 54,5 57,5 63,5 59 61 72 66 72 80 75

Con estos datos vamos a plantear una ecuación de regresión simple que nos permita pronosticar
los pesos conociendo las tallas.
a. Ajuste el modelo de regresión lineal correspondiente y coloque el modelo ajustado.
b. ¿En qué medida están correlacionadas las variables?
c. ¿En qué porcentaje está explicada la variable dependiente por la independiente?
d. ¿Cree que el modelo estimado es significativo?
e. Calcule e interprete un intervalo de confianza al 95% para la pendiente de la recta.
f. Si la estatura de un hombre adulto es 175 cm, ¿entre qué valores estará la media del peso
estimado de esta persona con 95% de confianza?
g. Ajuste el modelo de regresión exponencial y coloque el modelo ajustado.
h. Ajuste el modelo de regresión potencial correspondiente y coloque el modelo ajustado.
i. Ajuste el modelo de regresión parabólica correspondiente y coloque el modelo ajustado.
j. En base a los resultados obtenidos, ¿cuál de los modelos: lineal, exponencial, potencial o
parabólico, se ajusta mejor a los datos? Sustente su respuesta con una medida estadística.

Notas
165 Estadística Inferencial 2019-1

Regresión lineal múltiple


En la primera parte vimos como una sola variable explicativa podía utilizarse para predecir o estimar
el valor de la variable dependiente. Veremos cómo podría potenciarse el modelo si se utilizaran más
variables explicativas. Esto es lo que precisamente hace el modelo de regresión múltiple, cuando
permite incorporar dos o más variables independientes o explicativas.
El objetivo principal del análisis de regresión lineal múltiple es construir un modelo que permita
estimar o predecir, el valor de una variable en función a otras k variables.
A la variable que se pretende estimar la denotamos por Y, y se le llama variable dependiente.
A las variables que se utilizan para estimar Y, las denotamos por X1, X2,..., Xk y se les denomina variables
predictoras o variables independientes.

Modelo estadístico poblacional


Con la finalidad de construir dicho modelo planteamos la siguiente relación entre las mencionadas
variables, al cual denominamos modelo poblacional:
Y  0  1X1  2X2  k Xk i
donde:
-  i son parámetros desconocidos, llamados coeficientes de regresión.
-  i son los errores del modelo, se suponen independientes y normalmente distribuidos con media
0 y varianza 2.

Modelo estimado de regresión


A partir de una muestra aleatoria de n observaciones (x1i ,x2i ,...,xki, yi), podremos hallar el modelo de
regresión estimado que tendrá la siguiente forma:
Yˆi  b0  b1 X i  b2 X 2    bk X k
donde:
- b0, b1,…, bk son los estimadores de los coeficientes de regresión 1, 2,.., k.
- Los valores bi minimizan la suma de los cuadrados de los errores SCE.

Interpretación de los coeficientes de regresión (bi)


- b0 es el valor estimado de la variable dependiente Y, cuando las variables independientes Xi son
todas iguales a cero.
- bi es la variación estimada de la variable dependiente Y, cuando la variable independiente Xi varía
en una unidad, siempre que el resto de variables independiente se mantengan constantes.

Coeficiente de determinación (R2)


Al igual que con la regresión lineal simple, el coeficiente de determinación se utiliza como una medida
de la bondad de ajuste.
El coeficiente de determinación nos indica qué porcentaje de la variación en Y es explicado por las
variables del modelo X1, X2,..., Xk.
Se calcula a partir de la siguiente expresión:
SCR
R2 
SCT

Notas
166 Estadística Inferencial 2019-1
Prueba global. Evaluación del modelo como un todo
Dado el modelo de regresión, cabe la pregunta acerca de su poder explicativo, es decir, si el modelo
es significativo o no lo es. Esto puede responderse realizando una prueba de hipótesis denominada la
prueba global del modelo, pues lo que pretende es determinar si el modelo como un todo es
significativo o no lo es.

Las hipótesis son:

H0:  1 = 2 = ... = k = 0 (El modelo no es significativo)


H1: Al menos un i es diferente de cero (El modelo sí es significativo)

La prueba es unilateral de cola derecha.

El nivel de significancia es α.
El estadístico de prueba es:
CMR
F
CME
Se calcula a partir de la tabla de análisis de varianza para regresión.

Fuente de variación Grados de libertad Suma de cuadrado Cuadrados medio F


SCR CMR
Regresión k SCR CMR  FC 
k CME
SCE
Error n–k-1 SCE CME 
n  k 1

Total n-1 SCT

La región crítica o de rechazo se determina usando la distribución F de Fisher con (k, n – k - 1) grados
de libertad.

Pruebas individuales para los coeficientes de regresión


Aun cuando en la prueba global se haya determinado que el modelo es significativo, puede ocurrir que
alguna o algunas de las variables no sean significativas para el modelo. Entonces el siguiente paso será
probar cada coeficiente individualmente y a partir de allí determinaremos cuál o cuáles son las
variables significativas para el modelo.
El hecho de que alguna variable sea considerada no significativa, implica que dicha variable puede ser
retirada del modelo, pues se considera que su aporte no es valioso.

Notas
167 Estadística Inferencial 2019-1
Pruebas individuales para los coeficientes de regresión  i iguales a cero
Las hipótesis son:
H0:  i = 0 (La variable Xi no es significativa en el modelo)
H1:  i ≠ 0 (La variable Xi sí es significativa en el modelo) (i = 1, 2, ..., k)
La prueba es bilateral.

El nivel de significancia es α.
bi
El estadístico de prueba es: Tc 
Sbi
donde:
bi: Coeficiente de regresión estimado
S bi : Desviación estándar del coeficiente de regresión bi, es decir, el error estándar de bi.
Se
Sb1 
x 2
i  nx 2
La región crítica o de rechazo se determina a partir de una distribución t de Student con n – k -1 grados
de libertad.

Pruebas individuales para los coeficientes de regresión  i diferentes a cero


Esta prueba de hipótesis se puede adaptar a situaciones en las cuales se desea probar un valor
determinado del coeficiente i. Por ejemplo, se desea probar si el valor real del coeficiente de regresión
i es igual a un valor k0.
Las hipótesis podrían ser:
Unilateral izquierda Bilateral Unilateral derecha
H0 : 1  k0 H0 : 1  k0 H0 : 1  k0
H1 : 1  k0 H1 : 1  k0 H1 : 1  k0

bi  k0
El estadístico de prueba es: Tc 
Sbi
bi: Coeficiente de regresión estimado
S bi : Desviación estándar del coeficiente de regresión bi, es decir, el error estándar de bi.
Se
Sb1 
x 2
i  nx 2
La región crítica o de rechazo se determina a partir de una distribución t de Student con n – k – 1 grados
de libertad.

Notas
168 Estadística Inferencial 2019-1
Ejercicio 84
Se realizó un estudio de las relaciones entre las puntuaciones obtenidas por un grupo de operarios en
tres distintas pruebas.
Las variables medidas son las siguientes:
Y: Puntaje en la evaluación del desempeño
X1: Puntaje en la prueba 1
X2: Puntaje en la prueba 2
X3: Puntaje en la prueba 3
Los resultados se muestran en la siguiente tabla:

Y 20 25 30 32 37 40 40 45 55 60
X1 25 28 35 35 40 45 50 45 70 80
X2 3 5 4 5 5 5 5 6 6 5
X3 5 8 6 2 7 4 5 4 5 3

Usando Excel se tienen los siguientes resultados:


Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,9901
Coeficiente de determinación R^2 0,9802
R^2 ajustado 0,9703
Error típico 2,1656
Observaciones 10

ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 3 1394,262 464,754 99,102 1,681E-05
Residuos 6 28,138 4,690
Total 9 1422,4

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%


Intercepción -2,790 4,893 -0,570 0,589 -14,764 9,183
X1 0,584 0,053 11,090 0,000 0,455 0,712
X2 3,420 0,985 3,473 0,013 1,010 5,830
X3 -0,409 0,439 -0,932 0,387 -1,483 0,665

Estime el modelo de regresión lineal múltiple.

Notas
169 Estadística Inferencial 2019-1
Interprete los coeficientes de regresión.

Calcule e interprete el coeficiente de determinación.

¿Se puede considerar que el modelo es significativo? Use un 5% de significancia.

Estime el puntaje en la evaluación de desempeño si X1 = 45, X2 = 5 y X3 = 6.

¿Las tres variables independientes son significativas al modelo?

Notas
170 Estadística Inferencial 2019-1
Estimación del modelo de regresión lineal múltiple con matrices
En muchas investigaciones se mide una sola variable dependiente o criterio y varias independientes o
predictores, que no han sido manipulados, si no que, en general, son características que los individuos
poseen en cierto grado.
Cuando lo que se pretende es predecir el criterio desde el conjunto de predictores métricos (cuyos
valores expresan magnitud de la variable y no simplemente orden o posesión de un atributo) medidos,
la técnica de elección es el de regresión lineal múltiple. Este objetivo de predicción suele conseguirse
combinando linealmente los predictores.
Los pesos de cada ítem o variable se determinan habitualmente mediante un proceso de estimación
conocido como mínimos cuadrados, cuyo objetivo es obtener pesos que hagan mínima la suma de los
cuadrados de los errores de predicción.
La regresión múltiple es utilizable siempre que las variables estén medidas en una escala de intervalo
o de razón (variables cuantitativas o métricas), es decir, siempre que sean escalares (números cuyo
valor indique magnitud de la variable).
El modelo de regresión lineal múltiple con k variables predictoras y basado en n observaciones está
dado por:
Yi  0  1Xi1  2Xi2  k Xi ki i = 1, 2,…, n

La expresión matricial respectiva será la siguiente:


Y1  1 X1 1  X1k   1  e1 
Y  1 X  X2k  2  e2 
 2   21

            
      
Yn  1 X n1  X n k  k  ek 
Yn1  X nk 1  k 11   n1

Estimación del modelo de regresión lineal múltiple

Para las n observaciones de la muestra, la ecuación de regresión estimada se describe como:


Yˆi  b0  b1 X i  b2 X 2    bk X k
En término de matrices, estas n ecuaciones se describen de la siguiente manera:
Yˆn1  X nk 1  ˆk 1 1
X nk 1  Matriz de datos de las variables independientes

ˆ k 1 1 Vector de estimadores del vector .

Estimación del vector de parámetros  por mínimos cuadrados


Consiste en minimizar la suma de cuadrados de los errores (SCE)

 t
SCE  Q ˆ  e t  e  Y  Xˆ Y  Xˆ  
Haciendo operaciones con los vectores y matrices.

SCE  Q ˆ YY  XY YX  XX YY 2XY YX  XX

Notas
171 Estadística Inferencial 2019-1
Derivando Q con respecto a ̂ e igualando a cero se obtiene el sistema de ecuaciones normales
X t X̂  X tY
donde:
 n n n
  n 
 n  x1i  x1i   x ki    yi 
 i 1 i 1 i 1   i 1 
 n n n n
  n 

 x 1i x 2
1i x 1i x 2 i   x1i x ki  
 x1i y i 
 i 1 i 1 i 1 i 1   i 1 
X X   n n n n
 X Y   n 

 x2i x 2 i x 1i x 2
2i   x 2 i x1i  
 x2i y i 
 i 1 i 1 i 1 i 1   i 1 
 n n

n
 
n
   n  
 x 2   x y

 i 1
ki x
i 1
ki x1i x
i 1
ki x1i   i 1
x ki 


 i 1
ki i 

Resolviendo para ̂ se obtiene:

ˆ  X t X  X tY
1

Propiedades de los estimadores de mínimos cuadrados


 Los estadísticos bi son estimadores insesgados de los coeficientes i.

 La matriz  
 2 Xt X
1
se denomina matriz de varianzas-covarianzas de vector ̂ .
Por ejemplo, para k = 2, se tiene:
c00 c01 c02 
 X X  2
c12 
1
2 t
  c10 c11
c20 c21 c22 
De donde, para los índices i = 1 e i = 2 se obtiene
V bi   Sb2i   2ci

Covbi , bj    2cij para i ≠ j

 Una estimación insesgada de la varianza 2 es la varianza muestral S e2 o ̂2

El error estándar de estimación múltiple Se  ˆ  S


2


2 2
 
La estimación de la varianza V ˆi   ˆ  ci  , es entonces, ˆˆ  ci iˆ
2
i
2
i

ˆ  
El error estándar de cada βi es s.e.  i  ˆ ˆi  c i ˆ  s c i
2

El modelo de regresión lineal múltiple


Involucra:
- obtener e interpretar la ecuación de regresión múltiple.
- obtener estimaciones puntuales usando la ecuación de regresión.
- obtener e interpretar el coeficiente de determinación múltiple.

Notas
172 Estadística Inferencial 2019-1
Inferencia en regresión lineal múltiple
Involucra realizar:
- pruebas de hipótesis e intervalos de confianza acerca de los coeficientes del modelo de regresión
poblacional.
- intervalos de confianza de las predicciones que se hacen con el modelo.

Prueba de ANOVA para la significancia general de la ecuación de regresión múltiple

Prueba global
Las hipótesis son:
H0:  1 = 1 = ... = k = 0 (El modelo no es significativo)
H1: Al menos un i es diferente de cero (El modelo sí es significativo)
La prueba es unilateral de cola derecha.

El nivel de significancia es α.
El estadístico de prueba es:
SCR
k CMR
F 
SCE CME
n  k 1
Calculado a partir de la tabla de análisis de varianza para regresión.
La región crítica o de rechazo se determina usando la distribución F de Fisher con (k, n – k - 1) grados
de libertad.

Tabla de análisis de varianza (ANOVA)


En esta tabla se descompone la variabilidad de la respuesta en función de la variabilidad explicada y
no explicada por la regresión ajustada. También se obtiene el valor del estadístico de contraste F.

Fuente de Grados de Cuadrados


Suma de cuadrados F
variación libertad medios
SCR CMR
Regresión k SCR  
ˆt XtY  ny 2 CMR 
k
FC 
CME
SCE
Error (Residuos) n–k–1 SCE  Y tY  ̂ t XtY CME 
n  k 1

Total n–1 SCT  Y tY  ny 2

Notas
173 Estadística Inferencial 2019-1
Pruebas individuales para los coeficientes de regresión  i iguales a cero
Las hipótesis son:
H0:  i = 0 (La variable Xi no es significativa en el modelo)
H1:  i ≠ 0 (La variable Xi sí es significativa en el modelo) (i = 1, 2, ..., k)
La prueba es bilateral.
El nivel de significancia es α.
El estadístico de prueba es:
bi
Tc 
Sbi
bi: Coeficiente de regresión estimado
S bi : Desviación estándar del coeficiente de regresión bi, es decir, el error estándar de bi.
Se
Sb1 
x 2
i  nx 2
La región crítica o de rechazo se determina a partir de una distribución t de Student con n – k -1 grados
de libertad.

Intervalo para los coeficientes de regresión parcial


El intervalo de confianza para un coeficiente de regresión parcial βi es:


ICi   ˆi  E 
donde:
ˆ es el coeficiente de la ecuación de mínimos cuadrados
i

E    
margen de error y es igual a E  t0s.e. ̂i . Donde s.e. ̂i es la desviación estándar estimada de
i
t0 valor correspondiente a la distribución t de Student con n – k – 1 grados de libertad y al nivel de
confianza fijado.

Intervalo de confianza para la media de Y dado un vector de observaciones de X


Se desea predecir el valor medio de la variable de respuesta Y para una combinación predeterminada
de las variables predictoras X1, X2, ..... , Xk. Consideremos el vector de valores observados.

 
IC Y Xx0  yˆ0  E
donde:
ŷ 0 estimación puntual de Y dado x  x 0t

E margen de error y es igual a E  t0 S x0 X X


t t
  1
x0
t0 valor correspondiente a la distribución t de Student con n – k – 1 grados de libertad y al nivel de
confianza fijado.

Notas
174 Estadística Inferencial 2019-1
Intervalo de confianza para un valor individual de Y dado un vector de observaciones de X
Si X toma un valor particular x  x 0t , entonces podemos estimar un valor individual de Y mediante el
siguiente intervalo de confianza:

 
IC Y Xx0  yˆ0  E

donde:
ŷ 0 estimación puntual de Y dado x  x 0t

E  
margen de error y es igual a E  t0 S 1  x0t X t X
1
x0
t0 valor correspondiente a la distribución t de Student con n – k – 1 grados de libertad y al nivel de
confianza fijado.

Notas
175 Estadística Inferencial 2019-1
Problemas propuestos
205. Se realizó un estudio de las relaciones entre las puntuaciones obtenidas por un grupo de
operarios en tres distintas pruebas. Los resultados se muestran en la tabla adjunta.

Y 20 25 30 32 37 40 40 45 55 60
X1 25 28 35 35 40 45 50 45 70 80
X2 3 5 4 5 5 5 5 6 6 5
X3 5 8 6 2 7 4 5 4 5 3

a. Determine las ecuaciones normales X t X̂  X tY


b. Determine el vector solución ̂ de las ecuaciones normales y estime el modelo de regresión
lineal múltiple.
c. Calcule S2 la estimación insesgada de la varianza de la regresión múltiple poblacional.

d. Halle la matriz de varianzas V ̂ del vector ̂ , y el error estándar de cada uno de los
coeficientes de la regresión muestral.
e. Utilizando un nivel de confianza del 95%, calcule un intervalo de confianza para la media del
puntaje en la evaluación de desempeño si X1 = 45, X2 = 5 y X3 = 6.

206. A continuación, se muestra los resultados de un estudio que se hizo en una empresa. En este
estudio se extrajo una muestra de 10 empleados, de cada empleado en la muestra, se registró
el número de unidades que había producido por hora (Y), se registró el puntaje que obtuvo cada
empleado a una prueba de aptitud (X1) y se observó los años de experiencia del empleado (X2).
Los resultados de la muestra fueron los siguientes:

Empleado A B C D E F G H I J
Producción (Y) 32 15 30 34 35 10 39 26 11 23
Puntaje (X1) 160 80 112 185 152 90 170 140 115 150
Experiencia (X2) 5,5 6,0 9,5 5,0 8,0 3,0 9,0 5,0 0,5 1,5

a. Calcule la ecuación de regresión de mínimos cuadrados.


b. Interprete los coeficientes de la ecuación de regresión.
c. Interprete el coeficiente de determinación.
d. Determine si el modelo se puede considerar significativo.
e. ¿Alguna de las variables X1 o X2 se pueden quitar del modelo? Justifique su respuesta con la
prueba respectiva.
Resumen del modelo
Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación
1 ,994a ,988 ,984 1,29778
a. Variables predictoras: (Constante), Experiencia, Puntaje

Notas
176 Estadística Inferencial 2019-1
ANOVAa
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 962,710 2 481,355 285,802 ,000b
1 Residual 11,790 7 1,684
Total 974,500 9
a. Variable dependiente: Producción
b. Variables predictoras: (Constante), Experiencia, Puntaje

Coeficientes a
Modelo Coeficientes no estandarizados Coeficientes tipificados t Sig.
B Error típ. Beta
(Constante) -13,825 1,795 -7,701 ,000
1 Puntaje ,212 ,013 ,708 16,759 ,000
Experiencia 1,999 ,146 ,580 13,728 ,000
a. Variable dependiente: Producción

207. Un distribuidor de cerveza está estudiando el sistema de reparto de su producto.


Específicamente, el distribuidor está interesado en predecir el tiempo de servicio a un expendio
al menudeo. El ingeniero industrial a cargo del estudio ha sugerido que los dos factores más
importantes que intervienen en el tiempo de reparto son el número de cajas de cerveza que se
entregan (X1) y la distancia que debe recorrer el repartidor (X2). El ingeniero recopiló la muestra
de tiempos de reparto que aparece en la tabla siguiente:

Número de cajas 10 15 10 20 25 18 12 14 16 22 24 17 13 30 24
Distancia (km) 30 25 40 18 22 31 26 34 29 37 20 25 27 23 33
Tiempo (min) 24 27 29 31 25 33 26 28 31 39 33 30 25 42 40

a. Interprete los coeficientes de la ecuación de regresión estimada.


b. Estime el tiempo de entrega del producto cuando se tienen que entregar 18 cajas, para lo
cual se tiene que recorrer un distancia de 35 km.
c. ¿Qué indica el coeficiente de determinación?
d. ¿Se puede considerar que el modelo es significativo? Use un 5% de significancia.
e. ¿Las dos variables independientes son significativas al modelo?
Resumen del modelo
Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación
1 ,858a ,737 ,693 314,079
a. Variables predictoras: (Constante), Distancia recorrida, Nº de Cajas
ANOVAa
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 331,359 2 165,679 16,795 ,000b
1 Residual 118,375 12 9,865
Total 449,733 14
a. Variable dependiente: Tiempo
b. Variables predictoras: (Constante), Distancia recorrida, Número de Cajas
Notas
177 Estadística Inferencial 2019-1
Coeficientesa
Modelo Coeficientes no estandarizados Coeficientes tipificados t Sig.
B Error típ. Beta
(Constante) 2,311 5,857 ,395 ,700
1 Número de Cajas ,877 ,153 ,929 5,732 ,000
Distancia recorrida ,456 ,147 ,503 3,107 ,009
a. Variable dependiente: Tiempo

208. Se piensa que la energía eléctrica consumida mensualmente por una planta química (Y) se
relaciona con las siguientes variables:
- temperatura ambiente promedio, en grados Fahrenheit (X1),
- número de días laborables al mes (X2),
- pureza promedio del producto (X3) (en %),
- toneladas del producto producidas (X4).
Se cuenta con los datos del último año, los que se muestran en la tabla adjunta:
a. Ajuste un modelo de regresión lineal múltiple a estos datos.
b. Calcule el estimador de σ2.
c. Calcule un intervalo de confianza del 95% para el promedio de consumo de electricidad, para
un mes en el que se observó x1 = 75 °F, x2 = 24 días, x3 = 90% y x4 = 98 toneladas.
d. ¿Es significativo el modelo encontrado en la parte a? Use α = 0,01.
e. Use la prueba t para determinar la contribución de cada variable al modelo. Usando α = 0,01;
¿qué conclusiones pueden sacarse?

Energía eléctrica consumida (Y) 240 236 290 274 301 316 300 296 267 276 288 261
Temperatura (X1) 25 31 45 60 65 72 80 84 75 60 50 38
Días laborables al mes (X2) 24 21 24 25 25 26 25 25 24 25 25 23
Pureza del producto (X3) 91 90 88 87 91 94 87 86 88 91 90 89
Toneladas del producto (X4) 100 95 110 88 94 99 97 96 110 105 100 98

209. A continuación, se ofrece los resultados de un estudio que se hizo en una empresa. En el estudio
se extrajo una muestra de 10 empleados y de cada uno se registró:
- el número de unidades que había producido por hora (Y)
- el puntaje que obtuvo cada empleado a una prueba de aptitud (X1)
- los años de experiencia del empleado (X2).
Los resultados de la muestra fueron los siguientes:
Empleados 1 2 3 4 5 6 7 8 9 10
Producción (Y) 32 15 30 34 35 10 39 26 11 23
Puntaje (X1) 160 80 112 185 152 90 170 140 115 150
Experiencia (X2) 5,5 6,0 9,5 5,0 8,0 3,0 9,0 5,0 0,5 1,5

a. Muestre la matriz de diseño X en este caso.


b. Muestre el vector de observaciones Y.

Notas
178 Estadística Inferencial 2019-1

c. Muestre la matriz que da lugar al vector de coeficientes estimados  , si se tiene que:
0,008954 -0,001134 -0,015325
(XtX)-1 = -0,001134 0,000166 0,001496
-0,015325 0,001496 0,037990
d. Determine el modelo lineal estimado. Interprete sus coeficientes.
e. Si se sabe que el error estándar de estimación Se es igual a 1,29778, calcule el error estándar
de los coeficientes estimados b1 y b2, es decir, S b 1 y S b 2 .
f. Estime un intervalo de confianza para la media de producción de un empleado que tiene 130
puntos en su prueba de aptitud y cinco años de experiencia.
g. Construir la tabla de análisis de varianza utilizando operaciones con matrices.

210. Un investigador recopila datos acerca de la producción de cierto tipo de papa cuando se añade
cierto componente al agua con el que se riega la planta, se trata de estimar el nivel de
producción de papa por hectárea, en cientos de kilogramos, (Y). El investigador supone que las
variables que pueden explicar la producción de papa son:
- porcentaje del componente en el agua, en porcentaje, (X1),
- profundidad del tallo con respecto a la superficie, en centímetros, (X2)
- temperatura ambiental, en °C, (X3).

Los datos de un experimento son los siguientes:


Producción (Y) 25,5 31,2 25,9 38,4 18,4 26,7 26,4 25,9 32,0 25,2 39,7 35,7 26,5
Porcentaje (X1) 1,74 6,32 6,22 10,52 1,19 1,22 4,10 6,32 4,08 4,15 10,15 1,72 1,70
Profundidad (X2) 5,30 5,42 8,41 4,63 11,6 5,85 6,62 8,72 4,42 7,60 4,83 3,12 5,30
Temperatura (X3) 10,8 9,40 7,20 8,50 9,40 9,90 8,00 9,10 8,70 9,20 9,40 7,60 8,20

a. Estime el modelo lineal que permita estimar la producción de papa, en función del porcentaje
del componente en el agua, la profundidad del tallo y la temperatura ambiental.
b. Interprete los coeficientes de regresión.
c. Calcule e interprete el coeficiente de determinación.
d. ¿Es el modelo significativo? Use un nivel de significancia del 5%.
e. Tras las pruebas individuales, ¿cuál es su conclusión respecto al modelo propuesto?
f. ¿Qué modelo final propondría en este caso?

211. El director administrativo de una universidad privada está intentando desarrollar un sistema
diseñado para identificar que atributos personales son esenciales para avanzar gerencialmente.
A 15 empleados de la universidad privada que han sido ascendidos recientemente se les practica
una serie de pruebas (calificadas en una escala de 0 a 100) para determinar:
- su habilidad comunicativa (X1),
- la habilidad para relacionarse con otros (X2)
- la habilidad para tomar decisiones (X3).

Notas
179 Estadística Inferencial 2019-1
Se desea establecer un modelo que explique la calificación del trabajo (Y) del empleado en
términos de las variables anteriores. Los datos recolectados son los siguientes:

Empleado 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Y 80 75 84 62 92 75 63 69 68 87 92 82 74 80 62
X1 50 51 42 42 59 45 48 39 40 55 48 45 45 61 59
X2 72 74 79 71 85 73 75 73 71 80 83 80 75 75 70
X3 22 19 22 17 25 17 16 19 20 30 33 20 18 20 15
a. Obtenga el modelo lineal estimado que explique la calificación del trabajo (Y) del empleado
en términos de X1, X2 y X3.
b. ¿Cuál es el nivel de explicación que se consigue con el modelo estimado?
c. Con 5% de significancia, ¿el modelo global es el adecuado?
d. Con 5% de significancia, ¿qué variables son significativas para el modelo?

212. Una empresa vende productos para techos y recubrimiento de paredes a minoristas de
reparación de casas. Se desea estudiar los efectos de varias variables sobre las ventas, en miles
de dólares, de tejas americanas.
Se tomó una muestra de 20 distritos y se encontró los siguientes datos:
Distrito Ventas Gastos publicidad Cuentas activas Marcas competidoras Calificación de mercado
1 79,3 5,5 31 10 8
2 200,1 2,5 55 8 6
3 163,2 8,0 67 12 9
4 200,1 3,0 50 7 16
5 146,0 3,0 38 8 15
6 177,7 2,9 71 12 17
7 30,9 8,0 30 12 8
8 291,9 9,0 56 5 10
9 160,0 4,0 42 8 4
10 339,4 6,5 73 5 16
11 159,6 5,5 60 11 7
12 86,3 5,0 44 12 12
13 237,5 6,0 50 6 6
14 107,2 5,0 39 10 4
15 155,0 3,5 55 10 4
16 291,4 8,0 70 6 14
17 100,2 6,0 40 11 6
18 135,8 4,0 50 11 8
19 223,3 7,5 62 9 13
20 195,0 7,0 59 9 11
Las variables involucradas son:
- ventas, en miles de dólares (Y)
- gastos en publicidad, en miles de dólares (X1)
- número de cuentas activas (X2)
Notas
180 Estadística Inferencial 2019-1
- número de marcas de competidores (X3)
- calificación del potencial del mercado (X4)
a. Determine un modelo de regresión lineal que permita estimar las ventas de tejas
b. Interprete los coeficientes de regresión respectivos.
c. Calcule e interprete el coeficiente de determinación.
d. ¿Es el modelo significativo? Utilizar un nivel de significancia del 5%.
e. Luego de las pruebas individuales, ¿cuál es su conclusión sobre el modelo propuesto?
f. ¿Qué modelo final propondría en este caso?
g. Estime un intervalo de confianza del 95% para el nivel de ventas cuando se tiene un gasto en
publicidad de 850 mil soles, se tienen 70 cuentas activas, hay 8 competidores y la calificación
del mercado es de 9,5.

213. Responda las siguientes preguntas:


a. En un modelo de regresión lineal simple, Y = 2,4 – 1,8X se tiene un coeficiente de
determinación del 89,5%, ¿cuál es el coeficiente de correlación en este caso?
b. Si para el modelo de regresión Y = a + bX se tiene un coeficiente de determinación de 82,5%,
para un segundo modelo Y = c + dW se tiene un coeficiente de determinación de 86%. ¿Qué
modelo elegiría? ¿Por qué lo elegiría?

214. Se tienen los resultados de un estudio que se hizo en una empresa comercializadora de útiles de
escritorio. Se extrajo una muestra de 12 vendedores y para cada uno de ellos se registró:
- el monto de ventas mensual, en miles de soles (Y)
- el puntaje que obtuvo cada vendedor en una prueba de aptitud (X1)
- el tiempo dedicado a los clientes, en decenas de horas (X2)
- los años de experiencia (X3).
Los resultados fueron los siguientes:
Vendedor 1 2 3 4 5 6 7 8 9 10 11 12
Monto de ventas (Y) 32 15 30 34 35 10 39 26 11 23 28 30
Puntaje (X1) 160 80 112 185 152 90 170 140 115 150 110 155
Tiempo (X2) 5,5 6,0 9,5 5,0 8,0 3,0 9,0 5,0 0,5 1,5 2,5 8
Experiencia (X3) 10 5 8 12 11 4 14 8 3 5 6 7
a. ¿Cuál es la ecuación de regresión de mínimos cuadrados?
b. ¿Cuántos parámetros se han estimado y cuántas variables independientes tiene el modelo?
c. Calcule el error estándar de estimación.
d. Interprete el coeficiente de regresión de la variable “tiempo dedicado a los clientes”.
e. ¿Qué puede decir del grado de ajuste del modelo?
f. Determine si el modelo se puede considerar significativo. Use 5% de significancia.
g. ¿Alguna de las variables explicativas se deben retirar del modelo final?. Use α = 5%.
h. ¿En este caso qué valor tiene el coeficiente de determinación? Compárelo con el mismo
indicador en el modelo inicial.
i. Usando el mejor modelo estime, con 95% de confianza, la media de ventas cuando el puntaje
es de 165, la experiencia del vendedor es de 9,5 años y el tiempo dedicado a los clientes es
de 15 decenas de horas.
Notas
181 Estadística Inferencial 2019-1
Reportes del SPSS

Reporte 1
Resumen del modelo
Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación
1 ,807
a. Variables predictoras: (Constante), tiempo, experiencia, puntaje

ANOVAa
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 856,815 3 285,605 16,308
1 Residual 140,102 8 17,513
Total 11
a. Variable dependiente: monto de ventas
b. Variables predictoras: (Constante), tiempo, experiencia, puntaje
Coeficientesa
Modelo Coeficientes no estandarizados Coeficientes tipificados t Sig.
B Error típ. Beta
(Constante) -2,178 6,382 -,341 ,742
puntaje ,104 ,068 ,361 1,536 ,163
1
tiempo ,824 ,253 ,257 3,255 ,024
experiencia 1,265 ,430 ,454 2,941 ,017
a. Variable dependiente: monto de ventas

Reporte 2
Resumen del modelo
Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación
1 ,912a ,832 ,794 4,316
a. Variables predictoras: (Constante), tiempo, puntaje

ANOVAa
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 829,243 2 414,622 22,255 ,000b
1 Residual 167,673 9 18,630
Total 996,917 11
a. Variable dependiente: monto de ventas
b. Variables predictoras: (Constante), tiempo, puntaje

Coeficientesa
Modelo Coeficientes no estandarizados Coeficientes tipificados t Sig.
B Error típ. Beta
(Constante) 1,727 5,746 ,300 ,771
1 puntaje ,063 ,061 ,216 1,024 ,333
tiempo 2,054 ,588 ,737 3,491 ,007
a. Variable dependiente: monto de ventas

Reporte 3
Resumen del modelo
Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación
1 ,904a ,818 ,778 4,490
a. Variables predictoras: (Constante), experiencia, tiempo

Notas
182 Estadística Inferencial 2019-1
ANOVAa
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 815,478 2 407,739 20,225 ,000b
1 Residual 181,439 9 20,160
Total 996,917 11
a. Variable dependiente: Monto de Ventas
b. Variables predictoras: (Constante), Experiencia, Tiempo

Coeficientesa
Modelo Coeficientes no estandarizados Coeficientes tipificados t Sig.
B Error típ. Beta
(Constante) 6,358 3,368 1,888 ,092
1 Tiempo ,328 ,614 ,103 ,535 ,606
Experiencia 2,321 ,534 ,832 4,343 ,002
a. Variable dependiente: Monto de Ventas

Reporte 4
Resumen del modelo
Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación
1 6,283
a. Variables predictoras: (Constante), puntaje
ANOVAa
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 602,159 1 602,159 15,254 ,003b
1 Residual 394,758 10 39,476
Total 996,917 11
a. Variable dependiente: monto de ventas
b. Variables predictoras: (Constante), puntaje
Coeficientesa
Modelo Coeficientes no estandarizados Coeficientes tipificados t Sig.
B Error típ. Beta
(Constante) -4,275 7,982 -,536 ,604
1
puntaje ,225 ,058 ,777 3,906 ,003
a. Variable dependiente: monto de ventas
Reporte 5
Resumen del modelo
Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación
1 7,495
a. Variables predictoras: (Constante), tiempo
ANOVAa
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 435,218 1 435,218 7,748 ,019b
1 Residual 561,698 10 56,170
Total 996,917 11
a. Variable dependiente: monto de ventas
b. Variables predictoras: (Constante), tiempo
Coeficientesa
Modelo Coeficientes no estandarizados Coeficientes tipificados t Sig.
B Error típ. Beta
(Constante) 14,888 4,567 3,260 ,009
1
tiempo 2,116 ,760 ,661 2,784 ,019

Notas
183 Estadística Inferencial 2019-1
a. Variable dependiente: monto de ventas
Reporte 6
Resumen del modelo
Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación
1 4,32676
a. Variables predictoras: (Constante), Experiencia
ANOVAa
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 809,708 1 809,708 43,252 ,000b
1 Residual 187,209 10 18,721
Total 996,917 11
a. Variable dependiente: Monto de Ventas
b. Variables predictoras: (Constante), Experiencia
Coeficientesa
Modelo Coeficientes no estandarizados Coeficientes tipificados t Sig.
B Error típ. Beta
(Constante) 6,610 3,214 2,057 ,067
1
Experiencia 2,513 ,382 ,901 6,577 ,000

Notas
184 Estadística Inferencial 2019-1
Índice

Distribución Muestra, 53
binomial, 6 aleatoria, 53
chi cuadrado, 40, 133 Parámetro, 53
de probabilidad, 5 Población, 53
exponencial, 26 Propiedad reproductiva
F de Fisher, 44 distribución chi cuadrado, 40
hipergeométrica, 7 distribución normal, 36
normal, 29 Prueba de hipótesis
normal estándar, 29 media poblacional, 99
Poisson, 7 Nivel crítico de la prueba, 98
t de Student, 42 proporción poblacional, 102
uniforme, 24 varianza poblacional, 104
Distribución chi cuadrado Pruebas de hipótesis, 93
Bondad de ajuste, 135 Regresión lineal
Prueba de independencia, 133 múltiple, 164
Estadística simple, 148
descriptiva, 3 Tamaño de muestra
inferencia, 3 media poblacional, 72
Estadístico, 53 proporción poblacional, 75
Función Teorema central del límite, 38
de densidad, 8 Valor esperado
Hipótesis alternativa, 93 de una función de una variable aleatoria, 5, 13
Hipótesis nula, 93 Variable
Intervalo de confianza aleatoria discreta, 5
cociente de varianzas, 78 Variable aleatoria, 4
diferencia de medias, 79 Coeficiente de variabilidad, 14
diferencia de proporciones, 81 continua, 8
media poblacional, 70 Desviación estándar, 13
proporción poblacional, 74 Distribución de probabilidad, 12
varianza, 76 Esperanza, 13
Media muestral Función de distribución acumulativa, 15
distribución, 55 Rango, 4
Mediana, 15 Tipos, 4
Moda, 14 Varianza, 13

Notas

Você também pode gostar