Você está na página 1de 139

   α  í     α

E s t a d í s t i c a

C U A D E R N O D E
T R A B A J O

E E G G L L
P U C P 2 0 1 7 0 2
Presentación
La presente guía resume la teoría necesaria para llevar el curso Estadística
de Estudios Generales Letras de la Pontificia Universidad Católica del Perú. Se ha
realizado con la finalidad de brindar a nuestros alumnos una ayuda en su proceso
educativo y una herramienta que colabore en el dictado de las clases.
Esta guía ha sido realizada con el trabajo y los aportes de la profesora Ana
Valdivia, el profesor Sergio Pavletich y el profesor Walter Luna.
Los autores agradeceremos que los usuarios de esta guía nos hagan llegar
sus críticas y comentarios a esta publicación.

Los autores.

Pando, agosto del 2017


Contenido
Capítulo 1. Nociones de Estadística Descriptiva .................................................................. 7
1.1. Conceptos básicos .............................................................................................................. 7
Definición de Estadística ............................................................................................................................. 7
Subdivisión de la Estadística ....................................................................................................................... 7
Población.................................................................................................................................................... 8
Muestra...................................................................................................................................................... 8
Variable estadística .................................................................................................................................. 11
Rango de la variable estadística ................................................................................................................ 11
Dato ......................................................................................................................................................... 11
Parámetro ................................................................................................................................................ 12
Estadístico ................................................................................................................................................ 12
Tipos de variables ..................................................................................................................................... 14
Escalas de medición de las variables ......................................................................................................... 15
1.2. Organización y tratamiento de datos ................................................................................ 18
Título de una distribución de frecuencias o gráfico de una variable ......................................................... 18
1.3. Gráficos estadísticos......................................................................................................... 20
Gráficos para datos de variables cualitativas ............................................................................................ 21
Gráficos para datos de variables cuantitativas discretas ........................................................................... 22
Distribución de frecuencias por intervalos para variables cuantitativas continuas .................................... 23
Gráficos de variables cuantitativas continuas ........................................................................................... 26
1.4. Tablas de contingencia ..................................................................................................... 29
1.5. Gráficos a partir de tablas de contingencia ........................................................................ 30
Gráfico de barras agrupadas ..................................................................................................................... 30
Gráfico de barras apiladas ........................................................................................................................ 30
Gráfico de barras apiladas al 100% ........................................................................................................... 30
Título de un gráfico de una tabla de contingencia ..................................................................................... 30
1.6. Estadísticos de posición .................................................................................................... 33
1.7. Medidas de tendencia central........................................................................................... 38
Moda ........................................................................................................................................................ 38
Mediana ................................................................................................................................................... 40
Media aritmética ...................................................................................................................................... 42
Media aritmética ponderada .................................................................................................................... 46
1.8. Medidas de dispersión ..................................................................................................... 47
Varianza (s2) ............................................................................................................................................. 47
Desviación estándar (s) ............................................................................................................................. 47
Desviación estándar de datos agrupados. Variable cuantitativa discreta .................................................. 48
Desviación estándar de datos organizados en una distribución por intervalos .......................................... 49
Coeficiente de variación ........................................................................................................................... 50
Rango ....................................................................................................................................................... 51
Rango intercuartil ..................................................................................................................................... 51
Diagrama de cajas .................................................................................................................................... 52
Diagrama de cajas comparativo ................................................................................................................ 52
Puntuación estandarizada Z ...................................................................................................................... 54
1.9. Indicadores de asimetría .................................................................................................. 55
Distribución de frecuencias simétrica ....................................................................................................... 55
Coeficiente de asimetría de Pearson para datos agrupados o no agrupados ............................................. 55
Ejercicios .................................................................................................................................................. 56
1.10. Estadística descriptiva bidimensional: Regresión lineal simple ......................................... 64
Regresión lineal simple ............................................................................................................................. 65
Coeficiente de determinación ................................................................................................................... 66
Ejercicios .................................................................................................................................................. 71
Capítulo 2. Nociones de probabilidad ............................................................................... 73
2.1. Conceptos básicos ............................................................................................................ 73
Experimento aleatorio .............................................................................................................................. 73
Espacio muestral ...................................................................................................................................... 73
Evento ...................................................................................................................................................... 74
Tipos de eventos ...................................................................................................................................... 74
Probabilidad ............................................................................................................................................. 74
Operaciones con eventos ......................................................................................................................... 75
Principios de conteo, combinaciones, variaciones y permutaciones ......................................................... 78
2.2. Definición clásica de probabilidad ..................................................................................... 80
Definición frecuencial de probabilidad ..................................................................................................... 83
Definición subjetiva de la probabilidad ..................................................................................................... 83
Definición axiomática de probabilidad ...................................................................................................... 83
2.3. Probabilidad condicional .................................................................................................. 86
Regla del producto ................................................................................................................................... 88
Partición del espacio................................................................................................................................. 89
Teorema de la probabilidad total .............................................................................................................. 89
Teorema de Bayes .................................................................................................................................... 89
2.4. Eventos independientes ................................................................................................... 91
Ejercicios .................................................................................................................................................. 93

Capítulo 3. Variables aleatorias y modelos o distribuciones de probabilidad .................... 97


3.1. Variable aleatoria............................................................................................................. 97
Rango de la variable aleatoria ................................................................................................................... 97
Tipos de variable aleatoria ........................................................................................................................ 97
Evento (X = a) ........................................................................................................................................... 97
3.2. Variable aleatoria discreta................................................................................................ 98
Distribución de probabilidad de una variable aleatoria discreta ................................................................ 98
Valor esperado de una variable aleatoria discreta .................................................................................. 101
Valor esperado de una función de variable aleatoria discreta ................................................................. 101
Varianza de una variable aleatoria discreta ............................................................................................ 102
Desviación estándar de una variable aleatoria discreta .......................................................................... 102
3.3. Algunos modelos discretos importantes ..........................................................................103
Experimento de Bernoulli ....................................................................................................................... 103
Distribución binomial ............................................................................................................................. 103
Distribución hipergeométrica ................................................................................................................. 106
Ejercicios ................................................................................................................................................ 107
Variable aleatoria continua ..................................................................................................................... 108
Función de densidad de una variable aleatoria continua ........................................................................ 108
Distribución de probabilidad................................................................................................................... 110
Función de distribución acumulada ........................................................................................................ 111
Valor esperado de una variable aleatoria continua ................................................................................. 112
Valor esperado de una función de variable aleatoria continua ............................................................... 112
Varianza de una variable aleatoria continua ........................................................................................... 112
Desviación estándar de una variable aleatoria continua ......................................................................... 112
Variable estandarizada ........................................................................................................................... 112
3.4. Algunos modelos continuos importantes .........................................................................113
Distribución de probabilidad uniforme ................................................................................................... 113
Distribución normal ................................................................................................................................ 115
3.5. Teorema central del límite...............................................................................................121
Aplicaciones del teorema central del límite ............................................................................................ 122
Ejercicios ................................................................................................................................................ 124
Capítulo 4. Introducción a la Estadística Inferencial .........................................................127
4.1. Muestra aleatoria ...........................................................................................................127
Estadístico .............................................................................................................................................. 127
Distribución muestral ............................................................................................................................. 127
4.2. Estimación de parámetros ...............................................................................................127
Estimador puntual .................................................................................................................................. 127
Estimación de parámetros por intervalo de confianza ............................................................................ 128
Interpretación del nivel de confianza ...................................................................................................... 128
Intervalo de confianza para la media poblacional ................................................................................... 129
Tamaño de muestra para estimar la media poblacional .......................................................................... 130
Intervalos de confianza para la proporción poblacional .......................................................................... 132
Tamaño de muestra para estimar una proporción poblacional ............................................................... 133
Ejercicios ................................................................................................................................................ 135
Tablas estadísticas .................................................................................................................136
Estadística EEGGLL 201702 7

Capítulo 1. Nociones de Estadística Descriptiva


1.1. Conceptos básicos
Definición de Estadística
La Estadística se ocupa de la recolección, organización, presentación y análisis de datos que correspon-
den a fenómenos o situaciones en donde está presente la variabilidad.

Recolección Organización Presentación Análisis

Subdivisión de la Estadística
Estadística Son métodos y técnicas de recolección, caracterización y presentación que
Descriptiva permiten describir, apropiadamente, las características de un conjunto de
datos. Comprende el uso de gráficos, tablas y medidas resumen además
de otras técnicas.

Estadística Son métodos y técnicas que hacen posible estudiar una o más
Inferencial características de una población o tomar decisiones sobre la población
basados en el resultado de muestras. La generalización de los resultados
muestrales a toda la población cae en el dominio de la Estadística
Inferencial; en dicha generalización juega un papel muy importante la
teoría de la Probabilidad.

Ejercicio 1
Indique si las siguientes afirmaciones son de tipo descriptiva o inferencial.

Afirmación Tipo de afirmación


Según el I Censo Nacional de Comisarías 2012, el 53,8% dispo-
nen de servicios básicos adecuados.
Según el I Censo Nacional Penitenciario 2016, elaborado por el
INEI y el Instituto Nacional Penitenciario y el Ministerio de Jus-
ticia y Derechos Humanos el 94% de los presos son hombres.
La edad media de los estudiantes seleccionados en la muestra
es 19 años.

El 47% de las personas encuestadas es de sexo femenino.

El 23% de los peruanos ha visitado Machu Picchu por lo menos


una vez.

Notas
Capítulo 1. Nociones de Estadística Descriptiva 8
Población
Es el conjunto de todos los elementos de interés en determinado estudio.
Los elementos que forman la población pueden ser personas, cosas, animales, instituciones, etc.
A cada elemento de la población se le llama unidad estadística.

Muestra
Es un subconjunto de elementos de la población.

Conjunto de todos Muestra


Población los elementos de
Un subconjunto de
interés en elementos de la
determinado población.
estudio.

Cuando el objetivo es hacer inferencia estadística es necesario que la muestra sea seleccionada de
acuerdo a un diseño aleatorio, es decir, que sus elementos sean escogidos al azar.

Ejemplo 1
Cada año, el Departamento de Salud y Ser-
vicios Humanos de Estados Unidos exa-
mina a miles de estadounidenses. Médi-
cos, dentistas, nutricionistas y técnicos de
salud realizan la Encuesta Nacional de Exa-
men de Salud y Nutrición (NHANES). Cada
participante representa unos 50.000 per-
sonas.

Todos los condados de Estados Unidos se dividen en 15 grupos de acuerdo con sus característi-
cas. Se selecciona un condado de cada grupo grande y juntos forman los 15 condados en
donde se hacen las encuestas de NHANES cada año.

Dentro de cada condado se forman grupos más pequeños, con un gran número de viviendas
en cada grupo, y se seleccionan entre 20 y 24 de estos grupos pequeños.

Dentro de esos grupos pequeños seleccionados, se identifican todas las casas o apartamentos
y se selecciona una muestra de cerca de 30 viviendas dentro de cada grupo.

Los entrevistadores de NHANES van a cada vivienda seleccionada y piden información (edad,
raza y sexo) de todas las personas que residen en la vivienda.
Mediante un cálculo sistemático en la computadora se selecciona al azar a algunos, a todos o a
ninguno de los miembros del hogar.
Fuente: http://www.cdc.gov/nchs/index.htm

Notas
Estadística EEGGLL 201702 9
Ejercicio 2
En el Perú, se desea determinar el porcentaje de mujeres en edad fértil que usa algún método anti-
conceptivo. Defina la población.

Ejercicio 3
En el Perú se desea determinar la media de las edad de las mujeres en edad fértil que usa algún método
anticonceptivo. Defina la población.

Ejercicio 4

Tomado del folleto “Lo que debes saber de Pisa 2015” Ministerio de Educación.

Notas
Capítulo 1. Nociones de Estadística Descriptiva 10
Defina la población del estudio para el caso peruano. Además, comente esta información.

Ejercicio 5
El siguiente gráfico, tomado del diario el Comercio, muestra algunos resultados del I Censo Nacional
Penitenciario, elaborado por el Instituto Nacional de Estadística e Informática, el Instituto Nacional
Penitenciario y el Ministerio de Justicia y Derechos Humanos. Defina la población.

Fuente: http://elcomercio.pe/sociedad/pais/censo-penitenciario-
radiografia-presos-peru-noticia-1912607

Ejercicio 6
Se desea estimar el promedio de personas por día que asisten a ver una determinada película. Defina
la población.

Notas
Estadística EEGGLL 201702 11
Variable estadística
Una variable es una característica que interesa observar o medir en las unidades estadísticas y que
puede asumir al menos dos valores diferentes.
Una variable estadística es una función que a cada elemento de la población le asigna un número.
Los números se asignan de acuerdo con una escala y representan la medición de una determinada
característica en cada unidad estadística.
En una población se pueden definir muchas variables estadísticas.

Rango de la variable estadística


Es el conjunto formado por todos los valores que puede asumir la variable estadística.

Dato
Es el valor de la medición de una variable, realizada en una unidad estadística.

Variable Rango Dato


Conjunto de
Característica a todos los valores Valor de la
medir que puede medición
asumir

Ejercicio 7
Indique la población, variables a medir y rangos y un posible dato de las siguientes investigaciones:
Se quiere estimar el porcentaje de personas, por sexo y por grupos de edades, que votarían por cierto
candidato a la presidencia del Perú.
Población: …………………………………………………………………………………………………………………………………………..
Variable Rango Un dato posible

Se quiere estimar el tiempo medio que los alumnos de EEGGLL gastaron en transporte el día de hoy.
Población: …………………………………………………………………………………………………………………………………………..
Variable Rango Un dato posible

Ejercicio 8
En una investigación, se quiere estimar el ingreso medio semanal de la cafetería central de la PUCP.
Población: …………………………………………………………………………………………………………………………………………..
Variable Rango Un dato posible

Notas
Capítulo 1. Nociones de Estadística Descriptiva 12
Parámetro
Es un valor que describe una característica de la población. Para calcular un parámetro se requiere
medir la característica de interés en todos los elementos que conforman la población.

Estadístico
Es un valor que describe una característica de la muestra. Para calcular el estadístico se usan las medi-
ciones de la característica de interés en los elementos que conforman la muestra de estudio.

Población Muestra

Parámetro Estadístico

Ejercicio 9
Población: Alumnos regulares Parámetro: Edad media (en años), calculada con todas las
matriculados en la Facultad de edades de los alumnos que conforman la población.
Ciencias e Ingeniería en el semestre
2016 01.

Muestra: Un conjunto de 100 Estadístico: Edad media (en años), calculada con las edades
alumnos regulares matriculados en de los alumnos que conforman la muestra.
la Facultad de Ciencias e Ingeniería
en el semestre 2016 01,
seleccionados al azar.

Ejercicio 10
Población: Todos los gatos que Parámetro:
viven en Miraflores. ..................................................................................................
..................................................................................................

Muestra: Estadístico:
.......................................................... .................................................................................................
.......................................................... .................................................................................................
..........................................................

Ejercicio 11
Población: Todos las personas que Parámetro:
tienen una cuenta de Instagram. ..................................................................................................
..................................................................................................

Muestra: Estadístico:
.......................................................... .................................................................................................
.......................................................... .................................................................................................
..........................................................

Notas
Estadística EEGGLL 201702 13
Ejercicio 12
Según los Censos Nacionales X de Población y V de Vivienda 2007 ejecutados por el INEI, el 50,06% de
los peruanos es mujer. Indique el nombre del parámetro o un estadístico y su valor.

Ejercicio 13
Indique el nombre del estadístico o parámetro mencionado y su valor.

Ejercicio 14
En marzo del 2017, se realizó una encuesta sobre la aceptación de la gestión presidencial de Pedro
Pablo Kuczynski. Indique el nombre del estadístico o parámetro mencionado y su valor.

Notas
Capítulo 1. Nociones de Estadística Descriptiva 14
Tipos de variables
Las variables se pueden clasificar en cualitativas o cuantitativas.

Variables Son las variables que


cualitativas miden una cualidad.
Son de carácter no
numérico y por lo
general clasifican a las
unidades estadísticas
en categorías.

Variables Son variables que


miden una cantidad. Variable cuantitativa Es una variable cuyo rango
cuantitativas es un conjunto finito o
Son de carácter discreta
infinito numerable, es
numérico. A su vez, las decir, que en un intervalo
variables cuantitativas determinado, solo puede
se pueden clasificar en tomar ciertos valores.
discretas y continuas.

Variable cuantitativa Es una variable cuyo rango


continua es un conjunto continuo y
puede asumir un número
infinito no numerable de
valores diferentes; es
decir, que en un intervalo
determinado, pueden
tomar cualquier valor.

Son ejemplos de variables cualitativas las siguientes:


- Sector industrial al que pertenece una empresa,
- Tipo de material de construcción de una vivienda.
Son ejemplos de variables discretas las siguientes:
- Número de llamadas que ingresan a una central telefónica por minuto,
- Número de trabajadores de una agencia de bancos en una empresa.
Son ejemplos de variables continuas las siguientes:
- Tiempo, en minutos, que demora un estudiante en resolver un examen
- Área de terreno construida de una vivienda en Lima, en m2.

Ejercicio 15
Indique el tipo de las siguientes variables.
Variable Tipo de variable
Peso de una maleta en un pasajero de avión
Número de likes dados a una foto en Facebook
Escala de pagos de un alumno de la PUCP
Cantidad de agua de un río, en m3/segundo
Número de pasaporte
Percepción respecto a un curso (Bueno, regular, malo)

Notas
Estadística EEGGLL 201702 15
Escalas de medición de las variables
Medición
Es el proceso de observación de una característica de interés (variable), sobre una unidad estadística.

Escala de medición
Asigna números a las mediciones realizadas en las unidades estadísticas. Los números asignados por
las escalas deben informar lo más precisamente posible acerca de las características de cada unidad
observada.

Tipos de escalas de medición


Stanley Smith Stevens (1906 – 1973) profesor de la Universidad de Harvard, en la revista
Science de junio de 1946, presentó su artículo “Sobre la Teoría de las Escalas de Medi-
ción”. La clasificación de Stevens considera cuatro tipos de escala: nominal, ordinal, de
intervalo y de razón.

Tomado de http://www.nasonline.org/publications/biographical-memoirs/memoir-pdfs/Stevens_Stanley.pdf

Nominal
Una variable está medida en escala nominal cuando los valores de la variable clasifican a las unidades
estadísticas en iguales o diferentes.
Por ejemplo:
- Sexo: 1 = femenino; 2 = masculino
- Estado civil: 1 = casado; 2 = soltero; 3 = viudo; 4 = otro
- Especialidad de un alumno de Psicología: social = 1; educacional = 2; clínica = 3

Ordinal
Una escala ordinal es una escala nominal cuyos valores reflejan el orden existente entre los valores de
la variable, según el mayor o menor grado en el que se encuentre presente la característica.
Por ejemplo:
- Escala de pagos de un alumno de la PUCP: 1, 2, 3, 4, 5
- Grado de instrucción: 1 = primaria completa; 2 = secundaria completa; 3 = superior completa
- Grado de satisfacción de un cliente: 1 = muy insatisfecho; 2 = insatisfecho; 3 = satisfecho; 4 = muy
satisfecho.
- La consultora Mercer elabora este ranking cada año. Justifica
que es importante disponer de una análisis actualizado de la ca-
lidad de vida en las ciudades, sobre todo para poder fijar suel-
dos o condiciones para la plantilla y los ejecutivos. Se elabora a
partir del análisis 10 variables —entre ellas el entorno social,
político, económico y cultural, así como los servicios sanitarios
y educativos, la disponibilidad de bienes de consumo y el en-
torno natural— para definir cuáles son los mejores lugares para
vivir.

Notas
Capítulo 1. Nociones de Estadística Descriptiva 16
Intervalo
Una escala de intervalo es una escala ordinal en la que, además, las diferencias entre los valores asig-
nados proporcionan información acerca de la diferencia en el grado en que se presenta la característica
observada.
Esta escala no tiene un cero real sino un cero relativo, definido arbitrariamente y que no indica ausen-
cia de la característica medida.
Por ejemplo:
- Temperatura, en grados centígrados.

- Altura de una ciudad, en metros sobre el nivel del mar.

Ejercicio 16
Responda a la siguiente pregunta ¿Son 20 grados centígrados el doble de 10 grados centígrados?

Razón
Es una escala de intervalos en la que, además, los números asignados representan las cantidades de la
característica que se mide.
La proporción entre dos números corresponde a la misma proporción entre las cantidades de la carac-
terística medida.
El cero es real e indica ausencia total de la característica que mide la variable.
Por ejemplo:
- Sueldo bruto mensual, en nuevos soles, de los empleados de una empresa.
- Tiempo, en minutos, que tarda un alumno en terminar una prueba de agilidad mental.
- Peso, en kilogramos, de una persona.

Ejercicio 17
Responda a la siguiente pregunta ¿Son 20 soles el doble de 10 soles?

Notas
Estadística EEGGLL 201702 17
Ejercicio 18
Indique el tipo y la escala de medición adecuada para las siguientes variables.

Variable Tipo de variable Escala de medición


Número de celular

Costo del plan de celular que uno tiene

Número de veces que mira su celular en


clase
Gama de celular (Alta, media, baja)

Año de producción de un celular

Tiempo en mirar su celular en clase

Marca de celular

Cantidad de aplicaciones bajadas al celular

Temperatura de la batería al cargarse, en


grados centígrados

Notas
Capítulo 1. Nociones de Estadística Descriptiva 18

1.2. Organización y tratamiento de datos

Distribución de frecuencias
Es la representación estructurada, en forma de tabla, de los datos que se han recolectado sobre una
variable en estudio. Es útil para resumir grandes volúmenes de datos.
Permite que quienes toman decisiones puedan extraer directamente la información relevante.

Frecuencias simples
La frecuencia absoluta ni de una clase es la cantidad de datos que pertenecen a esa clase.
La frecuencia relativa fi de una clase es la proporción de datos que pertenecen a esa clase.
frecuencia absoluta de la clase i ni
frecuencia relativa  fi   
número total de datos n
La frecuencia porcentual pi de una clase es el porcentaje de datos que pertenecen a esa clase.

Título de una distribución de frecuencias o gráfico de una variable


Siguiendo indicaciones del INEI, en este curso, usaremos el siguiente esquema para escribir el título:

Distribución de <elementos> según <variable>


Puede ver más en la “Guía para la presentación de gráficos estadísticos” en
https://www.inei.gob.pe/media/MenuRecursivo/metodologias/libro.pdf

Ejercicio 19
Distribución de visitantes extranjeros al Perú, según zona geográfica, 2012
Zona geográfica Número de visitantes extranjeros Porcentaje
Sudamérica 2 590 766 74,29%
Norteamérica 459 413 13,17%
Europa 294 440 8,44%
Centroamérica 138 654 3,98%
Asia 797 0,023%
África 79 0,002%
Oceanía 184 0,005%
Otros 3 013 0,086%
Total 3 487 346
Fuente: Ministerio del Interior - Dirección General de Migraciones. Elaboración: Instituto Nacional de Estadística e Informática
Interprete los valores n3, f2 y p1

Notas
Estadística EEGGLL 201702 19
Frecuencias acumuladas
Dado un conjunto de n datos cuantitativos, organizados en k clases, se define:

- La frecuencia acumulada absoluta Ni de una clase es la cantidad de datos que pertenecen hasta
esa clase.
i
Se tiene que: Ni  n ,
j 1
j i  1, 2,...,k

Luego, N1  n1 Ni  Ni 1  ni , i  2, 3,...,k

- La frecuencia acumulada relativa Fi de una clase es la proporción de datos que pertenecen hasta
esa clase.
frecuencia absoluta acumulada i Ni
frecuencia relativa acumulada Fi   
número total de datos n

- La frecuencia acumulada porcentual Pi de una clase es el porcentaje de datos que pertenecen hasta
esa clase.

Ejercicio 20
Los siguientes datos muestran el número de veces que fueron al cine el último mes un grupo de alum-
nos de Estudios Generales Letras.

3 1 5 1 3 8 3 0 4 3 2 0 2 2 3 2 1 2 1 4 3 4 0 1 0 0 2 2 3 4
0 0 2 6 1 1 5 0 3 3 5 3 5 1 4 1 4 0 2 1 5 1 2 2 0 0 0 2 2 0

Construya la tabla de distribución de frecuencias de la variable en estudio.

Título: ………………………………………………………………………………………………………………………………………………

Número de veces ni: Número de pi: Porcentaje de Ni: Número acu- Pi: Porcentaje
que fue al cine el alumnos alumnos mulado de alum- acumulado de
último mes nos alumnos

Total
Fuente: ………………………………………………………………………………………

Notas
Capítulo 1. Nociones de Estadística Descriptiva 20

1.3. Gráficos estadísticos

Todo gráfico debe tener, por lo menos, lo siguiente:


- un título que lo describa lo mejor posible
- unidades y rótulos en todos los ejes
- fuente de los datos.

Notas
Estadística EEGGLL 201702 21
Gráficos para datos de variables cualitativas

Gráfico de barras
Se usa para representar gráficamente la distribución de un conjunto de datos cualitativos.
En uno de los ejes, se representan las categorías o clases de la variable; para el otro eje, se puede usar
una escala de frecuencias absolutas, relativas o porcentuales. Se traza una barra sobre cada indicador
de clase de una altura proporcional a la frecuencia correspondiente.
Las barras deben ser del mismo ancho y deben estar separadas para enfatizar el hecho de que cada
clase es diferente de otra.

Por ejemplo, investigadores analizaron 28 tipos de cáncer en 188 países entre 1990 y 2013 a partir de
registros de cáncer, informes de autopsias y otras fuentes sobre las causas de muerte, obteniendo este
gráfico de barras para el número de casos de cáncer diagnosticados en el mundo.

Gráfico circular o de pastel


Cuando se utiliza el gráfico circular, cada sector circular representa la frecuencia observada de una
clase o categoría.
El sector circular que representa a una determinada clase o categoría de la variable tiene un ángulo en
el centro proporcional a la frecuencia relativa de dicha clase. El ángulo que le corresponde a cada clase
se obtiene multiplicando 360º por la respectiva frecuencia relativa.

Distribución porcentual de nuevos casos de cáncer según continente

Fuente: Globocan

Notas
Capítulo 1. Nociones de Estadística Descriptiva 22
Gráficos para datos de variables cuantitativas discretas

Gráfico de bastón
Es un gráfico que muestra la frecuencia de ocurrencia de cada valor observado de la variable discreta
mediante un segmento (bastón) cuya altura es proporcional a la frecuencia correspondiente.

Ejercicio 21
Los siguientes datos muestran el número de veces que fueron al cine el último mes un grupo de alum-
nos de Estudios Generales Letras.

1 2 5 0 0 8 1 0 5 3 2 1 2 2 3 2 1 2 1 4 3 4 0 1 0 0 2 2 3 4
0 0 0 2 1 3 2 0 4 3 5 3 5 1 4 1 4 0 2 1 5 1 2 2 0 0 0 2 2 0

Construya el gráfico de bastones correspondiente.

Notas
Estadística EEGGLL 201702 23
Distribución de frecuencias por intervalos para variables cuantitativas continuas

Cuando se realiza mediciones de una variable continua, por lo general, los datos observados tienen
muchos valores diferentes, por ello, para presentarlos en una tabla de forma tal que se facilite su aná-
lisis, estos datos deben agruparse primero en clases o intervalos.
Tres pasos previos para la construcción de una distribución de frecuencias por intervalos son los si-
guientes:

Determinar el ancho o
Determinar la cantidad de Determinar los límites de
amplitud de cada intervalo o
intervalos o clases. cada intervalo o clase.
clase.

Cantidad de clases: k
Se recomienda usar entre 5 y 20 intervalos o clases.
La idea es emplear suficientes clases para mostrar la variación de los datos, pero no tantas que varias
contendrían muy pocos o ningún elemento.
Hay algunas reglas que sugieren el número de clases o intervalos que se deben usar que dependen del
número de datos disponibles, sin embargo en la práctica la decisión generalmente se toma atendiendo
a una necesidad específica o por experiencia.

Amplitud de cada clase: A


Por lo general, se usa la misma amplitud o ancho para todas las clases.
Se calcula de la siguiente manera:
dato máximo  dato mínimo x máx  x mín Rango
Amplitud   
k k k
La amplitud se aproxima por exceso de acuerdo con la cantidad de decimales que tienen los datos o
según la precisión con que se desea trabajar.
Se usa la aproximación por exceso para asegurar que el mayor de los datos pertenezca a alguna de las
clases.

Límites de cada clase o intervalo


Los intervalos deben ser disjuntos y deben cubrir todo el rango de variación de los datos.
Los límites de cada clase se escogen de tal manera que cada dato pertenezca a una clase y sólo a una.
Por lo general, el límite inferior de la primera clase es el mínimo valor observado.

Marca de clase
La marca de clase es el punto medio de cada intervalo. Se obtiene calculando la semisuma de los límites
de cada intervalo o clase.
La marca de clase se considera un valor que representa a cada uno de los datos que pertenecen al
intervalo o clase correspondiente. Por eso es importante que los intervalos no sean demasiado grandes
porque la marca de clase no sería un buen representante, ni demasiado pequeños como para compli-
car la construcción de la tabla o para que hayan varias clases sin datos.
La marca de clase de la clase i se denota mi.

Notas
Capítulo 1. Nociones de Estadística Descriptiva 24

Ejemplo 2
Construya una distribución de frecuencias de siete intervalos o clases para los siguientes datos que
representan los tiempos (en minutos), que demoraron 48 alumnos en resolver una prueba.

8,8 8,7 10,2 10,3 8,2 11,7 7,8 9,8 11,1 8,9 9,3 8,3 8,2 9,0 9,2 8,5
8,9 12,4 9,6 10,1 9,6 9,7 9,6 11,3 10,9 9,8 9,5 12,0 10,9 12,4 9,3 9,4
12,7 8,4 10,5 10,9 11,9 9,9 9,5 10,7 12,6 10,8 8,6 9,2 8,5 9,6 10,0 9,8

Solución
El rango R se calcula con:
R = dato máximo – dato mínimo = xmax – xmin = 12,7 - 7,8 = 4,9

De acuerdo a lo indicado, el número de clases o intervalos a usar es k = 7.

La amplitud de cada intervalo es:


R 4 ,9
A  0,7
k 7
En el curso usaremos intervalos abiertos a la izquierda, pero también puede usarse intervalos abiertos
a la derecha. Los intervalos o clases para los datos de este ejemplo son:
I1: [xmin ; xmin + A] = [7,8 ; 7,8 + 0,7] = [7,8 ; 8,5]
I2: ]xmin +A ; xmin + 2A] = ]8,5 ; 9,2]
...
I7: ]xmin + 6A ; xmin + 7A] = ]12,0 ; 12,7]

Título: _____________________________________________________________________________
Ni: Número Fi: Proporción
Marca de clase ni: Número fi: Proporción
Tiempo (min.) acumulado acumulada de
(mi) de alumnos de alumnos
de alumnos alumnos
[7,8 8,5] 8,15 7 0,1458 7 0,1458
]8,5 9,2] 8,85 8 0,1667 15 0,3125
]9,2 9,9] 9,55 14 0,2917 29 0,6042
]9,9 10,6] 10,25 5 0,1042 34 0,7083
]10,6 11,3] 10,95 7 0,1458 41 0,8542
]11,3 12,0] 11,65 3 0,0625 44 0,9167
]12,0 12,7] 12,35 4 0,0833 48 1,0000

Distribución de frecuencias por intervalos para datos de una variable cuantitativa discretas
Si los datos que se quiere organizar en una distribución de frecuencias corresponden a mediciones de
una variable discreta pero se han observado muchos valores diferentes, entonces también podemos
utilizar una distribución de frecuencias por intervalos para facilitar el análisis de estos datos.

Notas
Estadística EEGGLL 201702 25
Ejercicio 22
La manzana delicia (manzana Red Delicious), tiene piel o cáscara color rojo brillante, pulpa blanquecina,
es algo arenosa y con un sabor algo ácido, de esta variedad procede la variedad Royal Red Delicious.
En el presente mes, en la empresa A se ha tomado una muestra de estas manzanas obteniéndose los
siguientes pesos, en gramos.

150 158 163 166 168 170 171 174 178 180 183 185 186 187 189
190 190 192 192 193 193 193 193 194 195 196 198 198 199 203
205 211 214 215 217 218 222 224 226 227 233 235 238 239 240

Construya una distribución de frecuencias usando seis intervalos para las manzanas de la muestra.

Título: ………………………………………………………………………………………………………………………………………………
mi ni pi Ni Pi
[ ]
] ]
] ]
] ]
] ]
] ]
Total
Fuente: …………………………………………………………………..

Interprete el valor de n2

Interprete el valor de p3

Interprete el valor de P2

Notas
Capítulo 1. Nociones de Estadística Descriptiva 26
Gráficos de variables cuantitativas continuas

Polígono de
Histograma Ojiva
frecuencias

Histograma
Este gráfico se construye a partir de una distribución de frecuencias por intervalos.
Cada frecuencia de clase se representa trazando un rectángulo, cuya base es el intervalo de clase sobre
el eje horizontal y cuya altura es proporcional a la frecuencia correspondiente (absoluta, relativa o
porcentual).
Los rectángulos adyacentes se tocan entre sí.

Polígono de frecuencias
Es la representación por medio de una figura poligonal cerrada de una distribución de frecuencias ab-
solutas, relativas o porcentuales.
Se obtiene uniendo con segmentos de recta los puntos con la marca de clase como abscisa y la corres-
pondiente frecuencia absoluta o relativa como ordenada.
Los polígonos de frecuencias se cierran en los puntos del eje horizontal correspondientes al límite in-
ferior del primer intervalo y al límite superior del último intervalo.

Ojiva
Es la gráfica de una distribución de frecuencias acumuladas (absolutas, relativas o porcentuales).
La ojiva parte del punto que tiene al límite inferior del primer intervalo como abscisa y a cero como
ordenada.
Se obtiene uniendo con segmentos de recta los puntos con el límite superior de cada intervalo como
abscisa y la frecuencia acumulada respectiva como ordenada.
Con la ojiva se puede estimar el número o porcentaje aproximado de observaciones que corresponden
a un intervalo determinado.

Ejercicio 23
La anchoveta es el pez más importante del ecosistema de la Corriente de Humboldt. Su abundancia ha
permitido el desarrollo y sustento de muchas otras especies de peces, aves, mamíferos e invertebrados
que hoy en día habitan en nuestro mar. Una muestra de 250 anchovetas de un año de edad ha dado
una longitud mínima de 6 cm. Los datos se muestran organizados en la tabla siguiente.
Complete la distribución de frecuencias por intervalos de las longitudes de las anchovetas.

Notas
Estadística EEGGLL 201702 27
Título: .........................................................................................................................................
Tamaño mi: ni: fi: Ni: Fi:
(centímetros) Marca de clase
0,10
65
180
30
0,96
17 0,04
Total
Fuente: .........................................................................

Grafique el histograma, polígono de frecuencias y la ojiva de frecuencias porcentuales.

Notas
Capítulo 1. Nociones de Estadística Descriptiva 28

Calcule el porcentaje aproximado de anchovetas de la muestra que midieron 11 centímetros o menos.

Calcule el porcentaje aproximado de anchovetas de la muestra que entre 13 y 15,5 centímetros.

Determine, aproximadamente, la longitud mínima que debería tener una de estas anchovetas para
estar considerada dentro de las 20% más grandes.

Notas
Estadística EEGGLL 201702 29

1.4. Tablas de contingencia


También llamadas tablas cruzadas o tablas de doble entrada.
Se usan para resumir de manera simultánea los datos para dos variables.

Ejercicio 24
En los Censos Nacionales 2007 ejecutados por el Instituto Nacional de Estadística e Informática se pre-
guntó a las peruanas de 12 a más años por la cantidad de hijos que han tenido vivos, obteniéndose los
siguientes resultados.

Tabla 1. Perú. Edad de la madre y número de hijos nacidos vivos


Número total de hijos/a que ha tenido nacidos vivos
Edad de la madre Cero hijos Un hijo Dos hijos Tres hijos Cuatro hijos Total
12 años 298,985 1,028 300,013
13 años 284,650 1,162 285,812
14 años 285,732 1,638 734 288,104
15 años 283,045 4,909 994 288,948
16 años 247,888 12,358 922 576 261,744
17 años 231,839 24,243 2,280 636 258,998
18 años 216,999 38,938 5,089 586 481 262,093
19 años 193,952 52,797 9,273 1,118 496 257,636
Total 2,043,090 137,073 19,292 2,916 977 2,203,348
Fuente: INEI - Censos Nacionales 2007: XI de Población y VI de Vivienda

Identifique las variables usadas en la realización de esta tabla de doble entrada.

Rellene los espacios en blanco de acuerdo a la información contenida en la tabla.

• El número de peruanas menores de 15 años de la muestra, que han tenido hijos es …………………

• En la muestra, el número de peruanas de 18 o 19 años que han tenido dos o más hijos es
……………………..……………

• En la muestra, el número de menores de edad que han tenido hijos es …………………

• En la muestra, el ………….…….% de las menores de edad ha tenido hijos.

• El ………………..% de mujeres de 19 años, en la muestra, ha tenido hijos.

• El ……………….% de …………………………………………………………………….

Notas
Capítulo 1. Nociones de Estadística Descriptiva 30

1.5. Gráficos a partir de tablas de contingencia


Son realizados a partir de tablas de contingencia.

Gráfico de barras Gráfico de barras Gráfico de barras


agrupadas apiladas apiladas al 100%

Gráfico de Gráfico de Gráfico de


barras agrupadas barras apiladas barras apiladas al 100%

Un gráfico de barras agrupadas Un gráfico de barras apiladas Un gráfico de barras apiladas al


muestra cada serie en una ba- muestra todas las series apila- 100% muestra todas las series
rra para cada categoría. El alto das en una sola barra para cada apiladas en una sola barra para
de cada barra es proporcional a categoría. El alto de cada barra cada categoría. El alto de cada
la frecuencia de cada categoría. es proporcional a la frecuencia barra es el mismo para cada ca-
de cada categoría. tegoría.

Título de un gráfico de una tabla de contingencia

Siguiendo indicaciones del INEI, en este curso, usaremos el siguiente esquema.

Si el gráfico presenta las frecuencias absolutas o las frecuencias porcentuales con respecto al total, el
título será:

Distribución de <elementos> según <variable 1> y <variable 2>

Si el gráfico presenta las frecuencias porcentuales con respecto a la variable 2, el título será:

Distribución de <elementos> según <variable 1> por <variable 2>

Notas
Estadística EEGGLL 201702 31
Ejercicio 25
En El Perú, el Ministerio Público y el Observatorio de Criminalidad han registrado el número de femi-
nicidio y el año ocurrido. Los datos se muestran en el siguiente cuadro.

Perú. Distribución de víctimas de feminicidio por lugar de ocurrencia y año


Lugar de ocurrencia 2009 2010 2011 2012 2013 2014 Total
Dentro de la casa 86 86 78 56 56 54 416
Fuera de la casa 68 53 45 66 53 37 322
Total 154 139 123 122 109 91 738
Fuente: Ministerio Público - Observatorio de Criminalidad.

a) Interprete el valor “37” de la tabla.

b) Elabore un gráfico que permita ver la composición porcentual por año y lugar de ocurrencia.

Título ……………………………………………………………………………………………….……………………..………………………….
Lugar de ocurrencia 2009 2010 2011 2012 2013 2014 Total
Dentro de la casa
Fuera de la casa
Total
Fuente: Ministerio Público-Observatorio de Criminalidad.

Título ……………………………………………………………………………………………….……………………..………………………….

Interprete el valor ………………………….. de la tabla.

Notas
Capítulo 1. Nociones de Estadística Descriptiva 32
c) Elabore un gráfico que permita ver la composición porcentual según lugar de ocurrencia por año.

Título ……………………………………………………………………………………………….……………………..………………………….
Lugar de ocurrencia 2009 2010 2011 2012 2013 2014 Total
Dentro de la casa
Fuera de la casa
Total
Fuente: Ministerio Público-Observatorio de Criminalidad.
Título ……………………………………………………………………………………………….……………………..………………………….

d) Elabore un gráfico que permita ver la composición porcentual según año por lugar de ocurrencia.

Título ……………………………………………………………………………………………….……………………..………………………….
Lugar de ocurrencia 2009 2010 2011 2012 2013 2014 Total
Dentro de la casa
Fuera de la casa
Total
Fuente: Ministerio Público-Observatorio de Criminalidad.
Título ……………………………………………………………………………………………….……………………..………………………….

¿Parece haber relación entre el año y el lugar de ocurrencia del feminicidio?

Notas
Estadística EEGGLL 201702 33

1.6. Estadísticos de posición


Los cuantiles son valores de la distribución que la dividen en partes iguales, es decir, en intervalos, que
comprenden el mismo número de valores.

El k-ésimo percentil, denotado Pk, es el menor


Percentil de los datos tal que por lo menos el k% de los
datos son menores o iguales que este valor.

Se denomina así a cada uno de los tres


Cuartil percentiles: P25, P50, P75 y se les denota como
Q1, Q2 y Q3 respectivamente.
Cuantil

Se denomina así a cada uno de los cuatro


Quintil percentiles: P20, P40, P60, P80 y se les denota
como Q1, Q2, Q3, Q4 respectivamente.

Se denomina así a cada uno de los diez


Decil percentiles: P10, P20,… , P90 y se les denota
como D1, D2 ,…, D10 respectivamente.

Ejercicio 26
En los últimos 150 años, los holandeses han pasado a ser los habitantes más altos del mundo, y según
los expertos siguen creciendo. El estudio de la altura de los holandeses a lo largo de los siglos ofrece
un panorama sobre la salud y riqueza de la nación.
Indique el significado de la siguiente afirmaciones:
“En 1848, el percentil 25 de los varones holandeses era 1,57 metro. Actualmente, el percentil 1 de la
estatura de los varones holandeses es 1,57 metro.”

“Actualmente, el percentil 70 de la estatura de los varones holandeses es 1,88 metro.”

Notas
Capítulo 1. Nociones de Estadística Descriptiva 34
Percentil k para un conjunto de n datos

Si el valor calculado de i es
un entero, el percentil k-
ésimo Pk es el dato xi que
tiene la posición igual a i.
Ordene los n datos de
manera ascendente: Calcule la posición i del
percentil k-ésimo, Pk.
x1 ≤ x2 ≤ x3 ≤ …≤ xn Si el valor calculado de i no
es entero, el percentil k-
ésimo Pk es el dato xi+1 que
tiene la posición inmediata
superior a i.

Ejercicio 27
Dadas las siguientes edades de una muestra de personas asistentes al Túnel de la Ciencia, calcule e
interprete el percentil 25 y el percentil 75.

15 13 12 12 18 11 19 10 7 14 11 6 18 13 11 15 15 15 18 14 13 15

Ejercicio 28
En la tabla siguiente se muestra la distribución de los trabajadores de una empresa según el número de
tardanzas en el mes pasado. Calcule e interprete el percentil 25 y el percentil 70.

xi : Número de ni: Número de traba- fi: Proporción de tra- Ni : Fi :


tardanzas jadores bajadores
0 15
1 86
2 57
3 42
Total

Notas
Estadística EEGGLL 201702 35
Percentil de datos organizados en una distribución de frecuencia por intervalos
Cuando no conocemos los valores exactos de cada uno de los datos y sólo los tenemos organizados en
una distribución de frecuencias por intervalos, no es posible calcular el valor exacto del percentil k-
ésimo, Pk, en ese caso, hallaremos un valor aproximado de este percentil usando la información con-
tenida en la tabla.
- Primero, identificamos el intervalo Ii = ]Li ; Ui] en el que se encuentra el percentil Pk mirando en la
columna de frecuencias relativas acumuladas. Se debe cumplir que:
k
Fi 1   Fi .
100
- El valor del percentil Pk se determina por la siguiente expresión:
A k  A  nk 
Pk  Li    Fi 1   Li    Ni 1 
fi  100  ni  100 
donde:
Li = límite inferior del intervalo que contiene al percentil k
fi = frecuencia relativa del intervalo que contiene al percentil k
Fi-1 =Frecuencia relativa acumulada del intervalo anterior al que contiene al percentil k
A = Amplitud del intervalo.
Para deducir la fórmula para percentiles de datos agrupados en intervalos, podemos establecer una
semejanza de triángulos usando la ojiva de frecuencias relativas acumuladas.

Ui  Li F F
 i i 1
Pk  Li k
 Fi 1
100
De donde se tiene que:
A fi

Pk  Li k
 Fi 1
100
Despejando se obtiene la fórmula del percentil k.
A k 
Pk  Li    Fi 1 
fi  100 

Notas
Capítulo 1. Nociones de Estadística Descriptiva 36
Ejercicio 29
Según la definición oficial de la Organización Meteorológica Mundial, la lluvia es la precipitación de
agua en forma de gotas, cuando éstas alcanzan un diámetro superior a los 0,5 mm. La cantidad de
lluvia que cae en un lugar se mide con pluviómetros. La intensidad de la precipitación es medida en
milímetros por hora (mm/h), es decir, la altura medida en milímetros, del agua caída en una hora en
una superficie plana de 1 m2.
Las lluvias se categorizan en:
• débiles: cuando su intensidad es menor o igual a 2 mm/h,
• moderadas: intensidad mayor a 2 mm/h y menor o igual a 15 mm/h,
• fuertes: intensidad mayor a 15 mm/h y menor o igual a 30 mm/h,
• muy fuertes: intensidad mayor a 30 mm/h y menor o igual a 60 mm/h
• torrenciales: intensidad mayor a 60 mm/h

En la ciudad A se realizaron 120 mediciones de una hora de la cantidad de lluvia, en una muestra de
120 días del año pasado, obteniéndose los siguientes resultados.

Ciudad A: Distribución de precipitaciones según su intensidad (en mm/h)


Intensidad (mm/h) mi: marca de ni: Número de fi: Ni: Fi:
clase precipitaciones
[0 16] 8 30 0,2500 30 0,2500
]16 32] 24 55 0,4583 85 0,7083
]32 48] 40 21 0,1750 106 0,8833
]48 64] 56 9 0,0750 115 0,9583
]64 80] 72 5 0,0417 120 1,0000
Fuente: Dirección de Saneamiento Ambiental. Ciudad A.
a. Indique el elemento de la investigación

b. Indique variable de investigación

c. Calcule e interprete el P50 de las mediciones.

Notas
Estadística EEGGLL 201702 37
d. Calcule la cantidad de precipitación máxima para estar en el 25% de las precipitaciones más bajas
de las 120 medidas.

e. Calcule la cantidad de precipitación máxima para estar en el 45% de las precipitaciones más bajas
de las 120 medidas.

f. Calcule el porcentaje de mediciones que fueron clasificadas como muy fuertes.

g. Calcule el porcentaje de mediciones que fueron clasificadas como moderada o fuerte.

Notas
Capítulo 1. Nociones de Estadística Descriptiva 38

1.7. Medidas de tendencia central


Las medidas de tendencia central son medidas resumen que se usan como valores que representan al
conjunto de datos de una variable.

Existen varias medidas de tendencia central, como por ejemplo:

Media Media Media


Moda Mediana Media
ponderada geómetrica armónica

Moda
La moda de un conjunto de datos observados de una variable es el valor que se presenta con mayor
frecuencia.

Características de la moda
- La moda se puede calcular para datos medidos en cualquier escala de medición.
- El valor de la moda no se ve afectado por valores extremos.
- La moda no siempre es un valor único. Una serie de datos puede tener dos modas (bimodal) o más
modas (multimodal).

Moda de un conjunto de n datos


Agrupe los datos de acuerdo con sus frecuencias, el dato con mayor frecuencia es la moda.

Ejercicio 30
La moda de nombre en el Perú es ……………………………………… Esto significa que …………………………………

……………………………………………………………………………………………………………………………………………………………

Notas
Estadística EEGGLL 201702 39
Ejercicio 31
Calcule e interprete la moda de los siguientes datos, que representa el número de artículos comprados
por 14 clientes de cierto supermercado.

6 2 2 2 2 5 5 4 5 2 5 5 5 4

Calcule e interprete la moda de los siguientes datos, que representa el número de artículos comprados
por 14 clientes de cierto supermercado.

2 2 6 6 6 5 6 6 5 800 5 2 5 5

Ejercicio 32
En la empresa A, se midió el número de errores por día que cometieron obreros al ensamblar un de-
terminado producto. Calcule e interprete la moda del número de errores por obrero.

Distribución de obreros según número de errores al ensamblar el producto


xi : Número de errores ni : Número de obreros
0 25
3 35
5 90
6 18
Fuente: Gerencia de Producción. Empresa A

Notas
Capítulo 1. Nociones de Estadística Descriptiva 40
Mediana
Es el percentil 50, también llamado segundo cuartil.

Características de la mediana
Se puede calcular para variables medidas en escala de ordinal, intervalo o razón.
La mediana es un estadístico que no se ve afectado por valores extremos. Por eso se le utiliza cuando
hay datos inusuales o el polígono de frecuencias no es muy simétrico.

Ejercicio 33
El tiempo, en horas, que se tarda un grupo de obreros, capacitados y no capacitados, en realizar una
tarea se muestra en la siguiente tabla.

Capacitados 4,8 4,6 1,7 8,2 8,3 6,4 5,4 3,4 2,7 5,6
No capacitados 8,4 6,4 8,4 8,5 9,0 8,4 18

Calcule e interprete la mediana del tiempo para cada grupo. Compare los valores hallados y comente.

Notas
Estadística EEGGLL 201702 41
Ejercicio 34
En la empresa A se tomó una muestra aleatoria de 560 trabajadores y se les preguntó por su ingreso
mensual, en dólares, obteniéndose los siguientes resultados.

Distribución de trabajadores según sus ingresos mensuales (en dólares)


mi: Marca de
Ingresos (en dólares) ni fi Ni Fi
clase
  30
] , ] 77170000 0,1339
 275 , 275  190
 275 , 325 
 325 , 325  130
 ,  22500 25
Fuente: Gerencia de Recursos Humanos. Empresa A

Complete la tabla de distribución de frecuencias y calcule aproximadamente la mediana de los ingresos


de los trabajadores de la muestra. Interprete.

Notas
Capítulo 1. Nociones de Estadística Descriptiva 42
Media aritmética
La media aritmética es el valor que se obtiene al dividir la suma total de los datos entre el número de
datos.

Media aritmética para un conjunto de n datos no agrupados


Sean x1, x2, …, xn un conjunto de n datos de una variable cuantitativa X. La media aritmética de estos n
datos es:
n

x
i 1
i
x
n
Ejercicio 35
Calcule la media de los siguientes datos que representan el número de papeletas pendientes de pago
de cada uno de 11 choferes de vehículos de transporte público seleccionados al azar.

9 2 15 10 17 19 15 14 28 5 4

Notas
Estadística EEGGLL 201702 43
Media aritmética para datos en una distribución de frecuencias para variable discreta
Sean x1, x2,…, xk los valores observados de una variable discreta X con frecuencias absolutas respectivas
n1, n2,…, nk. La media aritmética de estos datos es:
k

x n i i k
x i 1
n
 x f
i 1
i i

Ejercicio 36
En la empresa A, se midió el número de errores que cometieron obreros al ensamblar un determinado
producto. Calcule la media del número de errores por obrero. Además, indique el elemento y la varia-
ble de la investigación.

Distribución de obreros según número de errores al ensamblar un producto


xi: Número de errores ni: Número de obreros fi: Proporción de obreros
0 17
2 35
5 80
8 28
Fuente: Gerencia de Recursos Humanos. Empresa A

Media aritmética para datos en una distribución de frecuencias por intervalos


Cuando solamente se cuenta con los datos organizados en una distribución de frecuencias por inter-
valos no es posible calcular la media aritmética usando la definición porque no se conoce el valor
exacto de cada dato. En ese caso, se obtiene un valor aproximado de la media aritmética de los datos
usando las marcas de clase de los intervalos.

El valor aproximado de la media aritmética para n datos organizados en una distribución de frecuencias
con k intervalos o clases, con marcas de clase m1, m2,…, mk y frecuencias absolutas n1, n2, …, nk respec-
tivamente es:
k

m n i i k
x i 1
n
 m f
i 1
i i

Notas
Capítulo 1. Nociones de Estadística Descriptiva 44
Ejercicio 37
En el distrito A se tomó una muestra aleatoria de jóvenes y se les preguntó por su estatura, en centí-
metros, obteniéndose los siguientes resultados.

Distrito A. Distribución de jóvenes según estatura


mi: ni : fi: Ni: Fi:
Estatura (en centímetros)

 150 ,  0,48

 , 166  0,32

 ,  0,95

 ,  1600
Fuente: Gerencia de Desarrollo Humano. Municipalidad del distrito A
Complete la tabla de distribución de frecuencias y calcule la estatura media para la muestra.

Ejercicio 38
En los reportes de una empresa, correspondientes al período de los últimos 100 días, se lee la siguiente
información sobre el número de facturas diarias emitidas por la empresa en dicho período.
Título: ………………………………………………………………………………………………….
Número de facturas Proporción de días
[30 ; 60] 0,25
]60 ; 90] 0,40
]90 ; 120] 0,20
]120 ; 150] 0,10
]150 ; 180] 0,05
Fuente: Empresa A
Calcule el porcentaje de días en los que fueron emitidas más facturas que la media.

Notas
Estadística EEGGLL 201702 45
Características de la media
- Se puede calcular para datos medidos en escala de intervalo o razón.
- El cálculo de la media es sencillo y es la medida de tendencia central más conocida.
- El valor de la media depende de todos los datos, por lo que la presencia de valores muy grandes o
muy pequeños con respecto a los demás pueden cambiar drásticamente su valor.

n
- x
i 1
i  nx

n
-  x  x   0
i 1
i

- Si cada uno de los n valores xi es transformado en: yi = a xi + b, siendo a y b constantes, entonces,


la media de los n valores yi es:
y  ax  b
Ejercicio 39
Un comerciante ha comprado 30 computadores y ha pagado un precio medio de 550 dólares por cada
computadora. El comerciante planea revender estas computadoras para obtener ganancias.
Si decide fijar el precio de venta de tal manera que gane 50 dólares sobre el costo de cada compu-
tadora, ¿cuál sería el precio medio de venta de las computadoras?

Si decide fijar el precio de venta aumentando un 5% sobre el costo de cada computadora más un monto
fijo de 35 dólares, ¿cuál sería el precio medio de venta de las computadoras?

Notas
Capítulo 1. Nociones de Estadística Descriptiva 46
Media aritmética ponderada
Dados n datos x1, x2,…, xn con pesos w1, w2,…, wn la media aritmética ponderada de los datos es:
n

w x
i i
i i
xp  n

w
i 1
i

Si todos los pesos son iguales, entonces x p  x

Ejercicio 40
Calcule la nota final de un alumno del curso de Estadística de Estudios Generales Letras que tiene las
siguientes notas:
• práctica calificada 1 = 18
• práctica calificada 2 = 17
• práctica calificada 3 = 13
• práctica calificada 4 = 12
• examen parcial = 11
• examen final = 10.
Los pesos del promedio de prácticas, examen parcial y examen final son 3, 3 y 4, respectivamente. La
práctica con menor nota se anula.

Notas
Estadística EEGGLL 201702 47

1.8. Medidas de dispersión


Con las medidas de tendencia central es posible determinar el valor que representa a los datos de un
conjunto, pero no indica qué tan cercanos o lejanos están los datos de dicho valor central.
Las medidas de variabilidad indican cuán alejados están los datos del valor que los representa.

Tomado de http://gastronomiaycia.republica.com/2010/08/06/manzanas-tamano-xl/

Ejercicio 41

Calcule la media, mediana y moda de los siguientes grupos de datos:


Grupo 1
1 3 5 5 5 7 9
Grupo 2
-20 5 5 5 5 5 30
Grupo 3
5 5 5 5 5 5 5

¿Qué conclusión deduce de los cálculos?

Varianza (s2)
Dados n datos cuantitativos x1, x2,…, xn la varianza de los datos se define como la media de las distancias
al cuadrado de cada dato a la media aritmética.
n n

 x
i 1
i  x 2 x
i 1
2
i
s2    x2
n n
Desviación estándar (s)
Dados n datos cuantitativos x1, x2,…, xn la desviación estándar de los datos se define como la raíz cua-
drada de la varianza.

Notas
Capítulo 1. Nociones de Estadística Descriptiva 48
Ejemplo 4
Las notas de cuatro alumnos son x1 = 6, x2 = 11, x3 = 15, x4 = 16.
6  11  15  16
Luego la media aritmética de las notas es x   12 puntos
4
Las diferencias o desvíos de cada dato con respecto a la media son d1 = 6 – 12 = -6, d2 = 11 - 12 = -1, d3
= 15 - 12 = 3, d4 = 16 - 12 = 4.
(6)2  (1)2  32  4 2
Luego, la desviación estándar de las notas es: s   3,937 puntos.
4

Ejercicio 42
Calcule e interprete la media y la desviación estándar de los siguientes datos que representan el nú-
mero de personas atendidas por día en la caseta de información de un proyecto inmobiliario, en una
muestra de 15 días.

18 5 2 4 2 6 2 10 5 8 11 4 5 6 7

Desviación estándar de datos agrupados. Variable cuantitativa discreta


k

 n x i i  x 2 k
s i 1
n
  f x
i 1
i i  x 2

Ejercicio 43
Calcule la desviación estándar de los siguientes datos que representan el número artículos defectuosos
encontrados en cada uno de 122 lotes recibidos la semana pasada. Cada lote tiene 1000 artículos.

xi: número de defectuosos ni: número de lotes


2 8
4 58
8 26
10 30

Notas
Estadística EEGGLL 201702 49
Desviación estándar de datos organizados en una distribución por intervalos
k

 n m i i  x 2 k
s i 1
n
  f m
i 1
i i  x 2

Ejercicio 44
Calcule la media y la desviación estándar de los siguientes datos que corresponden a los pesos de los
equipajes de los pasajeros de un vuelo Lima - Arequipa

Peso (kg.) Marca de clase ni: número de pasajeros


[10,0 - ] 8
- 17,5 90
- 80
- 45

Propiedades de la varianza y la desviación estándar


- La varianza y la desviación estándar son números no negativos.
- Se calculan para datos medidos en escala de intervalo o de razón.
- Son sensibles a la existencia de valores atípicos.
- La varianza se expresa en las unidades de los datos elevadas al cuadrado. La desviación estándar en
las mismas unidades que los datos. Por ejemplo, si los datos están expresado en kilos, la varianza
estará expresada en kilos2 y la desviación estándar en kilos.
- Si cada uno de los n valores xi es transformado en yi = a xi + b, siendo a y b constantes, entonces, la
varianza de los n valores yi es
s y2  a 2 s 2x , de donde sy  a s x
Ejercicio 45
En un compañía de taxis, el precio medio que cobra por un servicio es de 12 soles y una desviación
estándar de cuatro nuevos soles.
Si los precios se redujeran en un 4% en todos servicios, calcule el nuevo precio medio y la nueva des-
viación estándar de los precios.

Notas
Capítulo 1. Nociones de Estadística Descriptiva 50
Ejercicio 46
En el país A, los sueldos de 7 personas son los siguientes:
101 102 103 104 105 106 107
En el país B, los sueldos de 7 personas son los siguientes:
1001 1002 1003 1004 1005 1006 1007
¿En qué país los sueldos son más homogéneos?

Coeficiente de variación
El coeficiente de variación (CV) de un conjunto de datos indica qué proporción de la media es la des-
viación estándar.
El coeficiente de variación se determina calculando el cociente de la desviación estándar de los datos
entre la media de los datos
sx
CV 
x
Es útil al comparar la variabilidad de dos o más series de datos que se miden en distintas o iguales
unidades, pero difieren a tal punto que una comparación directa de las respectivas desviaciones es-
tándar no es muy útil, por ejemplo, cuando las medias están muy distantes.
Un valor mayor del coeficiente de variación indica mayor dispersión del conjunto de datos.

Ejercicio 47
En una tienda, el precio medio y la desviación estándar del precio de los jeans es de 80 y 20 nuevos
soles, respectivamente. Si se rebaja 10 nuevos soles a todos los precios, calcule e interprete el nuevo
coeficiente de variación de los precios. Después del descuento, ¿los precios de los jeans son más ho-
mogéneos que antes?

Notas
Estadística EEGGLL 201702 51
Rango
El rango (alcance, amplitud o recorrido) de un conjunto de datos observados se define como:

R = dato máximo – dato mínimo

Características del rango


- Se puede calcular en variables medidas en escala de intervalo y de razón.
- Solo depende del valor máximo y mínimo de los datos e ignora cómo están distribuidos los demás.
- Se ve afectado por valores extremos.
- El rango es la longitud del intervalo de variación de los datos.

Rango intercuartil
Es la diferencia entre el tercer y primer cuartil.

Rango intercuartil = RIC = Q3 – Q1= P75 – P25

Características del rango intercuartil


Se puede calcular en variables medidas en escala de intervalo y de razón.
No se ve afectado por valores extremos.

Notas
Capítulo 1. Nociones de Estadística Descriptiva 52
Diagrama de cajas
Es una gráfica que describe la distribución de un conjunto de datos tomando como referencia los va-
lores de los cuartiles como medidas de posición, la mediana como medida de tendencia central y el
valor del rango intercuartil como medida de dispersión. Además, permite apreciar la forma de la dis-
tribución de los datos (simétrica o asimétrica).

Dato atípico
Es un dato inusualmente grande o pequeño con respecto a los otros datos. Se considera un dato atípico
a cualquier dato que esté:
- a más de 1,5(RIC) por arriba (o a la derecha) del tercer cuartil
- a más de 1,5(RIC) por debajo (o a la izquierda) del primer cuartil.

Pasos para trazar un diagrama de cajas


- Determinar los cuartiles Q1, Q2, y Q3
- Calcular el rango intercuartil RIC = Q3 - Q1
- Calcular los límites máximo y mínimo para la longitud de los bigotes:
o Límite inferior = Linf = Q1 – 1,5RIC
o Límite inferior = Lsup = Q3 + 1,5RIC
- Detectar los datos atípicos que son aquellos que no pertenecen al intervalo [Linf ; Lsup]. A los datos
que sí pertenecen al intervalo anterior se les llama datos típicos.
- Sobre un eje horizontal, se traza un rectángulo con los extremos en el primer cuartil (Q1) y tercer
cuartil (Q3).
- En la caja rectangular se traza un segmento vertical en el lugar de la mediana.
- Se traza el bigote izquierdo desde el primer cuartil hasta el mínimo de los datos típicos y el bigote
derecho desde el tercer cuartil hasta el máximo de los datos típicos.
- Se marcan con un asterisco (*) las localizaciones de los datos atípicos.

Diagrama de cajas comparativo


Una ventaja de los diagramas de cajas es que se pueden presentar varios juntos, ello permite la fácil
comparación visual de las características de varios conjuntos de datos.
Los diagramas de caja permiten comparar las distribuciones de los valores de una variable cuantitativa
en los diferentes niveles de otra variable cualitativa.

Notas
Estadística EEGGLL 201702 53
Ejercicio 48
Se desea comparar los resultados de la primera práctica en tres horarios de Estadística de EEGGLL,
para lo cual se ha registrado las notas de una muestra de alumnos de cada horario.

H1 0 2 3 10 11 11 12 12 12 12 12 12 12 13 13 13 14 14 15 15 15 15 15 15 15 20
H2 11 11 11 12 12 12 13 14 14 14 14 14 15 15 16 16 16 16 16 17 17 18 18 18 18
H3 0 3 8 8 8 9 10 10 11 11 12 12 13 13 13 14 15 15 16 16 16 16 17 17

Construya un diagrama de cajas que permita comparar las distribuciones de notas en los tres horarios.

Título: …………………………………………….……………………………………………………

El horario que tiene la mayor mediana de notas es ……………..


El horario con mayor rango intercuartil es ………………
Existen valores atípicos en ………………………………………………

Notas
Capítulo 1. Nociones de Estadística Descriptiva 54
Puntuación estandarizada Z

Si los datos son x1 x2, …. , xn entonces los datos estandarizados son:


xi  x
zi  i = 1, 2,…, n
sx
Se cumple que z  0 y que s z  1
EL valor estandarizado del dato xi indica a cuántas desviaciones estándar, por arriba o por debajo de la
media, se encuentra este dato.

Ejemplo 5

Tomado de “Encuesta Nacional de Salud y Nutrición 2012” México


Ejercicio 49
En una ciudad, la estatura media para los hombres adultos es de 1,74 m con una desviación estándar
de doce centímetros, mientras que, la estatura media para las mujeres adultas es de 1,63 m con una
desviación estándar de siete centímetros. Si un hombre mide 1,80 m y una mujer mide 1,67 m; en
términos relativos a su sexo, ¿quién es más alto?

Notas
Estadística EEGGLL 201702 55

1.9. Indicadores de asimetría


Mide si los datos están ubicados simétricamente o no respecto a una medida de tendencia central.

Distribución de frecuencias simétrica


Una distribución de frecuencias de k clases es simétrica, si se cumple que f1  fk ,
f2  fk 1 , f3  fk 2 , ...

Coeficiente de asimetría de Pearson para datos agrupados o no agrupados


El coeficiente de asimetría para datos simples o agrupados se calcula con la siguiente fórmula:
 x  Q2 
As  3 
 sx 
Si el coeficiente de asimetría (As) es
- igual a cero, la distribución es simétrica alrededor de la media.
- positivo, indica sesgo a la derecha (cola derecha).
- negativo, indica sesgo a la izquierda (cola izquierda).

Ejercicio 50
Si un grupo de datos tiene asimetría negativa ¿se puede afirmar que hay una concentración de datos
en los valores altos?.

Ejercicio 51
El salario, en cientos de nuevos soles, de los trabajadores una empresa se presenta a continuación:

25 14 19 14 15 16 15 15 18 15 52 24 36 15 15 23 24
Calcule e interprete el coeficiente de asimetría de Pearson.

Notas
Capítulo 1. Nociones de Estadística Descriptiva 56
Ejercicios

1. Un auditor, luego de revisar las declaraciones juradas de impuesto a la renta de 50 personas na-
turales, hace un informe de los montos omitidos. El informe lo presenta con una distribución de
frecuencias de 6 intervalos de la misma longitud. Los montos omitidos varían de 0 soles a 3000
soles, y las frecuencias acumuladas del primero al sexto intervalo son respectivamente: 5, 15, 35,
43, 48, 50.
a. Encuentre e interprete la mediana y el coeficiente de variación.
b. Halle el porcentaje de declaraciones en las que el monto omitido supera la media.

2. Hay 10 personas en un ascensor, 4 mujeres y 6 hombres. El peso medio de las mujeres es de 60


kilos con una desviación estándar de 8 kilos y el peso medio de los hombres es de 80 kilos con
una varianza de 25 kilos2.
a. ¿Cuál es el peso medio de las 10 personas en el ascensor?
b. Si el peso de cada una de las mujeres aumentara al doble ¿cuáles serían el nuevo peso medio
y la nueva varianza de los pesos de las mujeres?
c. Suponga que cada uno de los hombres se pesa en una balanza que no está bien calibrada y
que aumenta 2,5 kilos en cada medición. ¿Cuál sería el coeficiente de variación que se ob-
tendría con esas mediciones de los pesos de los hombres?

3. A continuación, se presenta la distribución de los tiempos totales, en minutos, que diferentes


estaciones de radio dedicaron a los avisos comerciales entre las 8:00 a. m. y las 12:00 m. de un
día de la semana pasada.

Tiempo (minutos) [0 - 6] ]6 - 12] ]12 - 18] ]18 - 24] ]24 - 30] ]30 - 36] ]36 - 42] ]42 - 48] ]48 - 54] ]54 - 60]
Número de radios 1 3 17 2 1 10 0 0 2 14
a. Calcule e interprete el coeficiente de variación del tiempo dedicado a los avisos comerciales.
b. Halle e interprete los cuartiles de la distribución.
c. Grafique el histograma, el polígono de frecuencias y la ojiva de la distribución. Comente la
simetría de la distribución de tiempos.

4. Los salarios que ofrece una empresa a los practicantes varían entre $180 y $300. Si los salarios se
agrupan en cuatro intervalos de clase de longitudes iguales de manera que el 40% de los practi-
cantes tienen salarios menores o iguales que $225, el 80% tienen salarios menores o iguales que
$255 y el 15% tiene salarios mayores que $262,50.
a. Hallar el porcentaje de practicantes en cada intervalo.
b. Si el ingreso mínimo se fija en $265 y la empresa aumenta una misma cantidad a todos los
practicantes de modo que el 25% supere el ingreso mínimo, ¿cuánto sería el aumento?

5. El porcentaje de grasa corporal es el método más fiable para establecer el peso ideal de una per-
sona pero es el más difícil y complicado de medir. En un grupo de hombres adultos se midió el
porcentaje de grasa corporal obteniendo la tabla siguiente.
Porcentaje de grasa [ 3 , 7 ] ]7 , 11] ]11,15] ]15,19] ]19,23] ]23,27]
Frecuencia absoluta 16 66 44 60 10 4
a. Grafique el polígono de frecuencias y la ojiva de la distribución.
b. Calcule e interprete el coeficiente de variación.
c. Halle e interprete los cuartiles de la distribución.
Notas
Estadística EEGGLL 201702 57
d. Se considera que un hombre tiene sobrepeso si tiene un porcentaje de grasa corporal mayor
a 18%. ¿Qué porcentaje de entrevistados tuvo sobrepeso?

6. La anchoveta es el pez más importante del ecosistema de la Corriente de Humboldt. Su abundan-


cia ha permitido el desarrollo y sustento de muchas otras especies de peces, aves, mamíferos e
invertebrados que hoy en día habitan en nuestro mar. Una muestra de 250 anchovetas de un año
de edad ha dado una longitud media de 11,24 cm. Los datos se muestran en la tabla.

Tamaño (centí- Marca de Frecuencia Frecuencia Frecuencia absoluta Frecuencia relativa


metros) clase absoluta relativa acumulada acumulada
0,10
65
180
30
0,96
17 0,04

a. Determine de manera aproximada el porcentaje de anchovetas que miden entre 11 y 13


centímetros.
b. Calcule e interprete la mediana y el rango intercuartil de los tamaños de las anchovetas.
c. Realice el diagrama de cajas del tamaño de las anchovetas.

7. El porcentaje de germinación es uno de los principales factores para decidir la calidad de las se-
millas. Un fabricante afirma que el porcentaje de germinación de sus semillas de maíz es del 85%.
Para verificar tal afirmación, una cooperativa de agricultores seleccionó 120 muestras de 100 se-
millas cada una y anotó el porcentaje de germinación en cada muestra. Los valores observados
se organizaron en la siguiente tabla.

Germinación Frecuencia abso- Frecuencia rela- Frecuencia absoluta Frecuencia relativa acu-
(%) luta tiva acumulada mulada
[ 70 ; ] 10
0,20
0,70
22
] ; 95 ]
2

a. Complete la tabla y construya el histograma, el polígono y la ojiva correspondiente.


b. Calcule la media, la mediana, y el coeficiente de variación de los porcentajes observados.
c. Comente la afirmación del fabricante.

8. En dos ríos de determinada región se han soltado crías de truchas marcadas y se han recogido
muestras de las mismas después de cierto periodo de tiempo. Se ha medido el peso (en gramos)
de esos ejemplares resultando la tabla siguiente:
Notas
Capítulo 1. Nociones de Estadística Descriptiva 58
Peso (en gramos) Número de peces del río 1 Número de peces del río 2
[0 , 50] 14 11
]50 , 100] 31 23
]100, 150] 25 29
]150, 200] 18 22
]200, 250] 12 15
a. ¿En qué río la distribución del peso resulta más homogénea?
b. Calcule la mediana de los pesos de las truchas del río 1. Interprete el resultado.
c. Grafique el polígono de frecuencias relativas de los pesos de las truchas del río 2.

9. En los reportes estadísticos de una empresa, correspondientes al período de los últimos 100 días,
se lee la siguiente información sobre el número de facturas diarias emitidas por la empresa en
dicho período.
Número de facturas Frecuencia relativa
[30 ; 60] 0,25
]60 ; 90] 0,40
]90 ; 120] 0,20
]120 ; 150] 0,10
]150 ; 180] 0,05
a. Graficar el polígono y la ojiva de la distribución. Además, calcule la media y la desviación
estándar del número de facturas diarias emitidas por la empresa en dicho período.
b. Calcule aproximadamente el porcentaje de días en los que fueron emitidas más facturas que
la media.

10. Se realizó una prueba de destreza manual entre los obreros de una fábrica. Se midió el número
de errores cometidos en la prueba, obteniéndose los siguientes resultados:
Número de errores Número de obreros
0 8
2 16
3 24
5 12
7 20
a. Calcule el rango intercuartil y el coeficiente de variación del número de errores en la prueba.
b. Grafique el diagrama de cajas correspondiente.

11. En agosto del 2005, la empresa LibroOnLine dictó un curso sobre redes en computadoras me-
diante dos sistemas: presencial y a distancia. Con el objetivo de comparar las notas promedio, la
variabilidad de los valores centrales y el rango de las notas, se tomó un examen final y se registró
los resultados en la siguiente distribución de frecuencias.
Notas del examen final   3,5        9,5  
Frecuencia relativa (Sistema presencial) 0,14 0,10 0,12 0,23 0,27 a
Frecuencia relativa (Sistema a distancia) 0,19 0,26 0,24 0,15 0,13 b

Notas
Estadística EEGGLL 201702 59
a. Realizar un gráfico que permita llegar al objetivo deseado y realizar dos conclusiones sobre
el gráfico.
b. Encontrar, en cada uno de los dos sistemas, el porcentaje de notas que son mayores que su
respectiva media.

12. Los pesos de una muestra de estudiantes se organizan en una distribución de frecuencias simé-
trica:

Intervalos Frecuencias absolutas Frecuencias relativas acumuladas

5 0,96
]60 ; 70]
n = 50
a. Graficar el histograma y el polígono de frecuencias.
b. Calcular la media, la mediana, la moda y la desviación estándar.

13. Se aplicó un cuestionario a 16 trabajadores de una gran empresa y se obtuvieron los datos pre-
sentados en la siguiente tabla:
Código del Gé- Año de naci- Nivel educa- Categoría la- Salario anual ac- Salario anual ini-
trabajador nero miento tivo (años) boral tual en S/. cial en S/.
9534 F 1966 10 Empleado 27,900 12,750
2041 F 1960 12 Empleado 26,250 11,550
1187 F 1952 16 Ejecutivo 41,500 18,750
1842 F 1980 12 Empleado 24,000 12,750
1813 F 1960 12 Empleado 27,450 10,200
2519 F 1979 12 Empleado 23,100 11,250
3338 F 1985 16 Ejecutivo 37,050 18,000
3012 F 1973 12 Empleado 24,450 12,450
1056 M 1980 8 Empleado 28,350 12,000
2087 M 1960 19 Directivo 95,000 56,980
1004 M 1967 12 Empleado 30,900 15,000
6589 M 1975 12 Empleado 26,700 14,500
1723 M 1962 20 Directivo 69,250 42,800
2013 M 1968 16 Directivo 48,200 21,000
1096 M 1981 12 Empleado 27,900 16,500
2873 M 1979 16 Ejecutivo 40,350 19,500
(Género: F = Femenino, M = Masculino)
a. Clasifique cada una de las variables e indique la escala de medición para cada caso.
b. Calcule la moda, media y mediana de la variable nivel educativo y comente su simetría.
c. Haga un gráfico que permita comparar el rango y los cuartiles de los salarios iniciales de los
hombres y mujeres. Comente el gráfico.

14. Se ha encuestado a un grupo de alumnos de una facultad de ingeniería sobre la cantidad de mi-
nutos que usan al día la Internet obteniéndose los siguientes resultados.

i Intervalo fi

Notas
Capítulo 1. Nociones de Estadística Descriptiva 60
1 [0 ; 18] 0,0548
2 0,1905
3 0,2500
4 0,2857
5 0,1071
6 0,0762
7 0,0357

a. Calcule el tiempo mínimo para estar en el quinto superior de los que usan la Internet.
b. Calcule el porcentaje de alumnos que usan una hora o menos la Internet.
c. Encuentre la media y la varianza del número de minutos diarios que usan la Internet.

15. En la siguiente tabla se muestra la distribución de frecuencias del número de hojas impresas por
un grupo de impresoras durante un día:

Intervalo Marca de clase Frecuencia relativa Frecuencia relativa acumulada


[20 ; ] 0,20
0,45
0,60
125
0,10

a. Complete la tabla de distribución de frecuencias y presente gráficamente la distribución de


frecuencia relativa y de frecuencia relativa acumulada.
b. Encontrar la media, mediana, la moda y la desviación estándar de la distribución.
c. Hallar el porcentaje de impresoras que imprimen entre 70 y 115 hojas.

16. Los datos son la cantidad de bebida gaseosa en una muestra de 25 botellas de dos litros.
1,928 1,946 1,984 2,013 2,045
1,928 1,957 1,996 2,014 2,066
1,938 1,969 1,997 2,014 2,075
1,941 1,971 1,999 2,015 2,086
1,941 1,973 2,003 2,034 2,088

a. Las especificaciones del proceso de llenado de las botellas establecen que el contenido me-
dio debe estar entre 1,950 y 2,050 litros y que la desviación estándar del contenido debe ser
menor a 0,050 litros. A partir de los datos de la muestra, ¿diría usted que el proceso cumple
las especificaciones?
b. Determine e interprete el rango y los cuartiles para la muestra de contenidos de gaseosa.
c. Construya un diagrama de cajas y comente la simetría de la distribución de los contenidos
de gaseosa observados.

17. En un estudio sobre consumo de petróleo en una gran ciudad se eligió dos grifos y se tomó una
muestra de 100 camiones en cada uno de ellos y se observó el número de galones que consumían
en un día, obteniéndose la siguiente distribución de frecuencias.

Notas
Estadística EEGGLL 201702 61
Grifo A Grifo B
Número de galones Número de camiones Número de galones Número de camiones
1 ; 5 4 10 20
5 ; 9 8 15 37
9 ; 13 35 20 25
13 ; 17 30 25 10
17 ; 21 20 30 8
21 ; 25 3

a. ¿En cuál de los dos grifos el consumo de petróleo presenta mayor variabilidad en los datos?
b. Realice un diagrama de cajas que permita comparar el consumo de petróleo de los dos grifos.

18. Se tomó una muestra aleatoria de 80 viajes de la empresa de transporte interprovincial A y una
muestra aleatoria de 20 viajes de la empresa B. Las tablas siguientes muestran los datos del nú-
mero de pasajeros por viaje de esas muestras.

Número de pasajeros por viaje Empresa A


[10 ; 14] 20
]14 ; 18] 30
]18 ; 22] 15
]22 ; 26] 10
]26 ; 30] 5

Número de pasajeros por viaje en la empresa B


12 13 14 17 17 18 19 23 23 25
26 26 27 27 30 31 32 32 34 34

a. Grafique el polígono y la ojiva de las frecuencias relativas de la distribución del número de


pasajeros por viaje de la empresa A.
b. ¿Cuál empresa presenta mayor variabilidad en el número de pasajeros por viaje?

Notas
Capítulo 1. Nociones de Estadística Descriptiva 62
19. La ojiva de los ingresos mensuales, en miles de nuevos soles, de una empresa se muestran en el
siguiente gráfico.

a. Grafique el polígono de frecuencias relativas de los ingresos mensuales.


b. Hallar la mediana y coeficiente de variación de los ingresos mensuales.
c. Calcule e interprete el tercer cuartil de los ingresos mensuales.

20. Se muestra la distribución de los asistentes a una charla informativa sobre un nuevo programa de
especialización ofrecido por cierta escuela de posgrado, según su profesión.
Profesión Número de asistentes
Ingeniería 24
Administración 8
Contabilidad 10
Economía 15
Derecho 3
Total 60

a. Construya un gráfico que permita observar la composición porcentual de los asistentes, se-
gún sus profesiones, a la charla informativa. El gráfico debe tener un título adecuado.
b. Calcule una medida de tendencia central para la variable cualitativa.

21. Una compañía requiere los servicios de un técnico especializado. De los expedientes presentados,
se han seleccionado dos candidatos: A y B, los cuales reúnen los requisitos mínimos requeridos.
Para decidir cuál de los dos se va a contratar, los miembros del jurado deciden tomarles 7 prue-
bas. Todas las pruebas se calificaron utilizando una escala de 0 a 80, donde 80 es el máximo pun-
taje posible. Los resultados se dan a continuación:
Prueba 1 2 3 4 5 6 7
Puntaje obtenido por A 57 55 54 52 62 55 59
Puntaje obtenido por B 80 40 62 72 46 80 40

a. Calcule e interprete la media y mediana de los puntajes de los dos candidatos.


b. Calcule e interprete las desviaciones estándar y los coeficientes de variación.
c. Si usted fuese el gerente de Recursos Humanos, ¿a cuál de los candidatos contrataría?

Notas
Estadística EEGGLL 201702 63
22. El siguiente cuadro muestra la distribución del sueldo mensual de los empleados de dos empresas
A y B en julio del 2015.

Empresas A y B. Sueldos mensuales en julio del 2015


Sueldos (en nuevos soles) Empleados de la empresa A Empleados de la empresa B
[1 500 – 2 500] 2 1
]2 500 – 3 500] 40 6
]3 500 – 4 500] 12 25
]4 500 – 5 500] 3 6
]5 500 – 6 500] 1 1
Fuente: Gerencias de Recursos Humanos Empresa A y B.

a) En un solo gráfico muestre los dos polígonos de frecuencias para los sueldos de los trabajadores de
las empresas A y B. Comente comparativamente las distribuciones de los sueldos mensuales.
b) Calcule la media, desviación estándar y coeficiente de variación de los sueldos para los trabajadores
de las empresas A y B. ¿En cuál de las dos empresas los sueldos son más homogéneos?
c) Compare la simetría de las distribuciones de los sueldos en las empresa A y B gráficamente (use el
gráfico de la parte a) y usando el coeficiente de asimetría de Pearson. Comente.

Notas
Capítulo 1. Nociones de Estadística Descriptiva 64

1.10. Estadística descriptiva bidimensional: Regresión lineal simple

Correlación
La correlación entre las variables X e Y mide el grado en el que estas dos variables tienden a variar de
manera conjunta, se usa para medir el grado de asociación lineal entre las variables.
Regresión
La regresión encuentra una relación funcional entre las variables cuantitativas X e Y.

Diagrama de dispersión
Dado un conjunto de n observaciones de las variables cuantitativas X e Y: (x1, y1), (x2, y2),…, (xn, yn), el
primer paso para evaluar la posible asociación entre estas variables es construir una gráfica de los
datos en un plano bidimensional. Esta gráfica se denomina diagrama de dispersión o scatter plot.

Asociación Asociación Sin asociación Asociación no


lineal directa lineal directa lineal lineal

Covarianza
Dada una muestra de n pares de observaciones de las variables cuantitativas X e Y, (x1 , y1), (x2 , y2),…,
(xn , yn), la covarianza muestral se define como:

n
 n

 xi  x yi  y 
i 1


x y
i 1
i i nx y 

cov( X ,Y )  s xy   
n 1 n 1
 
 
 

Coeficiente de correlación lineal de Pearson


Dados n pares de datos (x1 , y1), (x2 , y2),…, (xn , yn), el coeficiente de correlación lineal de Pearson se
determina dividiendo la covarianza entre X e Y entre el producto de las desviaciones estándar de X e Y
sxy
Correlación ( X ,Y )  r 
sx sy

Este coeficiente de correlación mide el grado de asociación lineal que existe entre las variables X e Y.

- El coeficiente de correlación r es mayor o igual a -1 y menor o igual a 1.


Notas
Estadística EEGGLL 201702 65
- Si r = 0 entonces indica que no existe una asociación lineal entre las variables (pero puede existir
otro tipo de asociación entre ellas).
- Si r se acerca a 1 o a -1 indica que existe una asociación lineal fuerte entre las variables, directa si r
= 1 e inversa si r = -1.
- |r| = 1 solamente cuando todos los datos observados pertenecen a una recta, es decir, cuando la
asociación lineal es perfecta.

Observaciones
- Una correlación alta no indica que una variable dependa de la otra o que sea causa de las variacio-
nes en la otra. La asociación entre ellas no necesariamente es “causal”.

- Una correlación alta indica que el modelo lineal podría ser adecuado para hacer predicciones en el
intervalo de variación de los datos; fuera de él, el tipo de relación entre las variables puede cambiar
o no existir.

- Podemos obtener valores de correlación muy altos si usamos una muestra de dos o tres pares de
datos pero en ese caso es claro que la conclusión acerca de la asociación entre las variables puede
no ser válida.

- Diversos grupos de datos pueden tener el mismo coeficiente de correlación (como se observa en el
gráfico siguiente); sin embargo, el tipo de relación entre las variables es distinta, lo que muestra la
importancia de realizar el diagrama de dispersión. El coeficiente de correlación sólo se debería cal-
cular interpretar para nubes de puntos de tipo franja, ya sea creciente o decreciente.

Regresión lineal simple


El análisis de regresión lineal simple estudia la relación lineal entre dos variables numéricas y da como
resultado una ecuación matemática y  a  bx que describe dicha relación.
La regresión lineal simple encuentra una recta L: y = a + bx que modela los datos y que permite estimar
un valor de la variable Y dado un valor de la variable X.

Método de mínimos cuadrados


Dados n datos (x1 , y1), (x2 , y2),…, (xn , yn), donde: xi (i = 1, 2,…, n) son los valores observados de la
variable independiente X e yi (i = 1, 2,…, n) son los valores observados de la variable dependiente Y.
Si la recta L: y = a + bx es la recta de regresión, entonces, denotamos yˆ i  a  bx i (i = 1, 2,…, n) al valor
estimado de Y cuando X = xi.
En general, el valor observado yi es diferente al valor estimado con la recta de regresión, es decir, se
comete un error de estimación. El i-ésimo error de estimación es: ei  yi  yˆi (i = 1, 2,…, n).

La suma de los cuadrados de los errores (SCE) es:


n n n

 yi  yˆi   yi  a  bxi 2


2
SCE  ei 2 
i 1 i 1 i 1

Notas
Capítulo 1. Nociones de Estadística Descriptiva 66
La recta de regresión de mínimos cuadrados de Y sobre X, es L: y = a + bx; sus coeficientes son los
valores a y b que minimizan la suma de los cuadrados de los errores.

Los valores de b y a que minimizan SCE son:


sy sxy
- br 
sx sx 2
- a  y  bx

Interpretación de los coeficientes de regresión

- a es igual al valor estimado de la variable dependiente Y cuando la variable independiente X es


igual a cero.
- b es la variación estimada del valor de la variable dependiente Y cuando la variable independiente
X se incrementa en una unidad.

Propiedad de la recta de regresión

Si la recta L: y = a + bx es la recta de regresión de mínimos cuadrados de Y sobre X.

- El punto x, y  pertenece a la recta de regresión.


- La media de los errores es igual a cero, es decir, e  0
- yˆ  y , la media de los valores estimados con la recta es igual a la media de los valores observa-
dos.

Predicción
Para predecir el valor de la variable dependiente para un valor dado de la variable independiente,
basta con reemplazar el valor dado en la fórmula de la recta de mínimos cuadrados.

Coeficiente de determinación

Se puede demostrar que:


Var(Y )  Var(Yˆ)  Var (e)

Donde:

Var(Y) es la varianza de los valores observados de la variable dependiente:


n

 (y
i 1
i  y )2
sy 2 
n 1

Notas
Estadística EEGGLL 201702 67
Var( Ŷ ) es la varianza de los valores estimados con la recta de regresión:
n

(yˆ  y )
i 1
i
2

syˆ 2 
n 1

Var (e) es la varianza de los errores de estimación:


n n


i 1
(ei  e )2 (y
i 1
i  yˆi )2
se 
2

n 1 n 1

El coeficiente de determinación es:


Var(Yˆ)
R
Var(Y )

- R mide qué proporción de la varianza de los valores observados de Y representa la varianza de los
valores estimados por la recta de regresión. Es decir, la proporción de la varianza total, Var(Y), que
es explicada por la recta de regresión de mínimos cuadrados.

- Se cumple que R  r 2 , es decir, el coeficiente de determinación es el cuadrado del coeficiente de


correlación lineal de Pearson.

- Se cumple que 0  R  1 .

- Mientras más próximo a 1 sea el coeficiente de determinación, mejor será el ajuste de los datos al
modelo lineal.

Ejemplo 6
Durante ocho semanas se observó la relación, entre el número de comerciales contratados y el valor
de las ventas (en miles de soles) de un artículo.

X: Comerciales 58 51 85 35 62 70 98 104
Y: Ventas 208 171 253 126 206 220 275 281

a. Grafique el diagrama de dispersión, evalúe si las variables en estudio parecen estar asociadas.
b. Calcule e interprete el coeficiente de correlación lineal de Pearson.
c. Determine la ecuación de la recta de regresión de las ventas sobre el número de comerciales.
d. Si en una semana se contratan 75 comerciales, estimar las ventas en esa semana.
e. Calcule e interprete el coeficiente de determinación.

Notas
Capítulo 1. Nociones de Estadística Descriptiva 68
Solución
a. El diagrama de dispersión muestra un comportamiento de franja creciente, esto nos sugiere aso-
ciación lineal directa entre las variables.

Diagrama de dispersión
300

(miles de nuevos soles) 250


Ventas semanales

200

150

100

50

0
0 20 40 60 80 100 120
Número de comerciales

b. El coeficiente de correlación es r  0 ,981 , este valor indica una asociación lineal fuerte y directa
entre el número de comerciales contratados por semana y el valor de las ventas semanales.

c. Calculemos los coeficientes de la recta de regresión.


x  70,375 y  217,5 sx  22,242 sy  49,196 sxy  1074,187
De donde b  2,1712, a  64,699
Por lo tanto, la recta de regresión es L : yˆ  64,699  2,171x

Diagrama de dispersión con recta de regresión


350
(en miles de nuevos soles)

300
y = 2.1712x + 64.699
R² = 0.9637
Ventas semanales

250
200
150
100
50
0
0 20 40 60 80 100 120
Número de comerciales

d. Si x es igual a 75, entonces, yˆ  a  b (75)  227,5 ; entonces, en una semana en que se contratan
75 comerciales se estima que el valor de las ventas sería 227 500 soles.

e. El coeficiente de determinación es R  r 2  0,96  96 % . La varianza explicada por la recta de re-


gresión es el 96% de la varianza de la variable valor de las ventas semanales. El ajuste de los datos
al modelo lineal es muy bueno.

Notas
Estadística EEGGLL 201702 69
Ejercicio 52
Las notas siguientes corresponden a la primera práctica de un horario de un curso de Estadística y la
cantidad de horas dedicadas a estudiar para dicha práctica.

Horas 5,0 4,0 9,0 10,0 8,0 8,5 4,5 5,0 2,0 2,5 4,0 5,0 6,0 3,0 4,0 6,0 12,5
Notas 13 12 15 16 15 15 13 13 10 10 10 14 12 12 13 11 17

a. Grafique el diagrama de dispersión y evalúe si parece existir relación lineal entre el tiempo de
estudio y la nota obtenida en el examen de Estadística.

b. Calcule e interprete el coeficiente de correlación.

c. Determine la ecuación de la recta de regresión de mínimos cuadrados e interprete sus coeficientes.

Notas
Capítulo 1. Nociones de Estadística Descriptiva 70
d. Estime la nota de un alumno que estudió diez horas.

e. Calcule e interprete el coeficiente de determinación.

Notas
Estadística EEGGLL 201702 71
Ejercicios

23. En un estudio para determinar la relación entre la edad y la presión sanguínea en mujeres se tomó
una muestra aleatoria de 9 mujeres dando los siguientes resultados:

Edad (años) 56 41 70 37 63 46 57 50 39
Presión sanguínea (mm Hg) 146 125 153 117 151 124 151 142 118

a. Grafique el diagrama de dispersión y evalúe la posible asociación entre las variables edad y
presión sanguínea.
b. Calcule e interprete el coeficiente de correlación lineal.
c. Determine la ecuación de la recta de regresión lineal y estime la presión sanguínea de una
mujer de 65 años.

24. Se lleva a cabo un estudio, por medio de detectores radioactivos, de la capacidad corporal para
absorber hierro y plomo. A cada participante del estudio se le da una dosis oral idéntica de hierro
y plomo. Después de 12 días se mide la cantidad de cada componente retenida en el sistema
corporal y, a partir de ésta, se determina el porcentaje absorbido por el cuerpo. Se obtienen los
siguientes resultados:

Sujeto 1 2 3 4 5 6 7 8 9 10
Porcentaje de hierro 17 22 35 43 80 85 91 92 96 99
Porcentaje de plomo 8 17 18 25 58 59 62 65 70 72

a. Grafique el diagrama de dispersión. ¿Parece haber asociación entre las variables estudia-
das?
b. Prediga el porcentaje de hierro absorbido por un individuo cuyo sistema corporal absorbe
el 20% del plomo ingerido. ¿Le parece adecuado un modelo de regresión lineal para hacer
esta predicción?
c. Calcule e interprete el coeficiente de determinación. Considerado el valor calculado, evalúe
nuevamente su respuesta a la pregunta de la parte b.

Notas
Estadística EEGGLL 201702 73

Capítulo 2. Nociones de probabilidad


La probabilidad mide o cuantifica la posibilidad de ocurrencia de un evento.
La probabilidad es el lenguaje para describir y tratar la incertidumbre.

Ejercicio 53
Asigne un valor numérico entre 0 y 1 a las siguientes frases de acuerdo a la posibilidad de ocurrencia
del evento al que hacen referencia:
Posibilidad de ocurrencia del evento
Es muy probable que ocurra …………………….
Es posible que ocurra …………………….
Es poco probable que ocurra …………………….
Es casi imposible que ocurra …………………….

2.1. Conceptos básicos

Experimento aleatorio
Es todo proceso que genera dos o más resultados bien definidos sin que se pueda predecir con certeza
cuál de ellos será observado u ocurrirá en cada realización del proceso.

Espacio muestral
Es el conjunto de todos los posibles resultados de un experimento aleatorio. Se le suele simbolizar
como .

Ejercicio 54
Indique, para los siguientes experimentos aleatorios, los respectivos espacios muestrales.

Experimento aleatorio Espacios muestrales

Lanzar una moneda y anotar lo obtenido en


la cara superior
Registrar el resultado de un partido de tenis

Lanzar un dado y anotar el número de pun-


tos de la cara superior
Lanzar dos dados y anotar el número de
puntos de cada cara superior
Registrar el tiempo para dar una práctica ca-
lificada del curso Estadística

Notas
Capítulo 2. Nociones de Probabilidad 74
Evento
Es cualquier subconjunto del espacio muestral.
Al realizar un experimento, diremos que el evento A ha ocurrido si el resultado obtenido es un ele-
mento del evento A.

Ejercicio 55
Indique, para cada uno de los siguientes experimentos aleatorios, uno o más eventos que pertenezcan
a sus respectivos espacios muestrales.

Experimentos aleatorios Eventos

Lanzar una moneda y anotar lo obtenido en


la cara superior
Registrar el resultado de una partido de te-
nis
Lanzar un dado y anotar el número de pun-
tos de la cara superior
Lanzar dos dados y anotar el número de
puntos de cada cara superior

Tipos de eventos
Evento elemental o simple: Se llama así a cada uno de los elementos del espacio muestral Ω
Evento conjunto: Formado por dos o más eventos simples
Evento contrario o comple- Formado por todos los elementos del espacio muestral Ω que
mento del evento A (Ac): no pertenecen a A
Evento imposible: Ø
Evento seguro o siempre cierto: Ω

Probabilidad
Mide la posibilidad de que un evento ocurra cuando se realiza un experimento.

Ejemplo 7
El Aedes aegypti, mosquito que trasmite el zika, de desarrolla en
cualquier recipiente que acumula agua dentro de las casas y en
patios, jardines, balcones y terrazas. Y no así, en charcos, zanjas,
lagos, lagunas o ríos.
La Organización Mundial de la Salud señala que el virus del zika
podría dispersarse por todo el continente americano. El mos-
quito Aedes vive en gran parte del planeta, especialmente en los
países cercanos a la línea del ecuador.
Aquí un gráfico sobre la probabilidad de aparición en las diversas
zonas del mundo.

Notas
Estadística EEGGLL 201702 75
Operaciones con eventos

Unión de eventos
Es el conjunto de los resultados que están en uno o en ambos eventos. Se denota por (A B).
A  B  {w   / w  A  w  B}
A  B se expresa como: Al menos uno de los eventos A o B ocurre.

Intersección de eventos
Es el conjunto de los resultados que están en ambos eventos. Se denota por (A B).
A  B  {w   / w  A  w  B}
A  B se expresa como: Ambos eventos, A y B ocurren a la vez.

Complemento de un evento
AC  {w   / w  A }
AC se expresa como: El evento A no ocurre.

Notas
Capítulo 2. Nociones de Probabilidad 76
Diferencia de eventos
A  B  A  BC  {w   / w  A  w  B}

A  B se expresa como: Ocurre el evento A pero no el evento B.

Diferencia simétrica de eventos


A  B  A  BC   AC  B  {w   / w  A  w B}
A B se expresa como: Ocurre solamente uno de los eventos A o B.

Eventos disjuntos (mutuamente excluyentes)


Dos eventos A y B son disjuntos, si A B   , es decir, si no tienen elementos comunes.

Notas
Estadística EEGGLL 201702 77
Ejercicio 56
Una empresaria comprará un hotel y un restaurante. Se definen los eventos:
A:= la empresaria tenga éxito en la inversión del hotel
B:= la empresaria tenga éxito en la inversión del restaurante
Escriba los siguientes eventos en función de los eventos A y B. Además, grafique dicho evento en un
diagrama de Venn.

Evento Notación Diagrama de Venn

La empresaria no tenga éxito en ninguna de las


A ………... B
dos inversiones.

La empresaria tenga éxito en el hotel pero no


en el restaurante.

La empresaria tenga éxito en las dos inversio-


nes.

La empresaria tenga éxito en alguna de las in-


versiones

La empresaria no tenga éxito en alguna de las


inversiones

Ejercicio 57
Un inspector revisa un proceso de producción de tres etapas. Cada una de las etapas puede o no haber
sido concluida satisfactoriamente. Definamos los eventos Ai:= la etapa i del proceso concluyó satisfac-
toriamente, i = 1, 2, 3. Escriba los siguientes eventos en función de los eventos A1, A2 y A3. Además,
grafique dicho evento en un diagrama de Venn.

Evento Notación Diagrama de Venn

Las tres etapas concluyeron satisfactoriamente. A1 …… A2 …… A3

Las etapas A31 y A3 fueron las únicas de las etapas


del proceso que concluyeron satisfactoriamente.

Al menos una de las tres etapas concluyeron sa-


tisfactoriamente.

Notas
Capítulo 2. Nociones de Probabilidad 78
Principios de conteo, combinaciones, variaciones y permutaciones

Principio de la adición
Si A y B son eventos finitos y A B   , entonces nA  B  nA  nB

Ejercicio 58
Una persona solo puede viajar de una ciudad a otra por carretera de cuatro formas o por avión de dos
formas. ¿De cuántas formas diferentes puede viajar la persona de una ciudad a la otra?

Principio de la multiplicación
Si A y B son eventos finitos, entonces nA  B  nA nB

Ejercicio 59
Una joven tiene 34 polos, 16 pantalones y 15 pares de zapatos ¿de cuántas maneras diferentes puede
elegir un polo, un pantalón y un par de zapatos para vestirse?

Permutaciones
La cantidad de formas en que se puede ordenar n objetos distinguibles es:
Pn  n!
Ejemplo 8
Encontrar de cuántas maneras se puede ordenar en una fila a cuatro alumnos.

Solución
La cantidad de maneras es P4  4!  24.

Notas
Estadística EEGGLL 201702 79
Ejercicio 60
Un grupo de doce personas hace cola en un cine para comprar una entrada.
¿De cuántas maneras diferentes pueden formar la cola las doce personas?

¿De cuántas maneras diferentes pueden formar la cola, si el más grande y el más bajo no tienen que
estar juntos?

Regla de conteo para variaciones


La cantidad de formas en que se puede ordenar r objetos seleccionados de un total de n objetos dis-
tinguibles es:
n!
Vrn 
n  r !
Si n = r, entonces Vnn  Pn .

Ejemplo 9
Encontrar de cuántas maneras se pueden ordenar dos de cinco alumnos.

Solución
5!
La cantidad de maneras es V25   20
5  2!
Ejercicio 61
De un grupo de 12 vecinos de un edificio, se desea escoger a tres personas al azar para que ocupen los
puestos de presidente, tesorero y vocal de la junta de administración del edificio, respectivamente.
¿De cuántas maneras diferentes se puede hacer dicha elección?

Notas
Capítulo 2. Nociones de Probabilidad 80
Regla de conteo para combinaciones
La cantidad de formas de seleccionar r objetos de un total de n objetos distinguibles sin tomar en
cuenta el orden es:
n!
C rn 
r! n  r !
Ejemplo 10
Encontrar de cuántas maneras se pueden escoger dos de cinco alumnos.

Solución
5!
La cantidad de maneras es C25   10
2!5  2!

Ejercicio 62
Un grupo de 25 amigos quiere elegir, al azar, a cuatro de ellos para organizar una fiesta. ¿De cuántas
maneras diferentes se puede elegir a dichas personas?

2.2. Definición clásica de probabilidad


Si el espacio muestral Ω tiene un número finito de elementos equiprobables, la probabilidad de la
ocurrencia del evento A.

nA
P(A) 
n

número de elementos del evento A


Es decir, P(A) 
número de elementos del espacio muestral

Ejemplo 11
Se lanza un dado, calcular la probabilidad de que salga:
a. un as.
b. un número par.
c. un número menor que 5.
d. un número par y menor que 5.
e. un número par o menor que 5.

Notas
Estadística EEGGLL 201702 81
Solución
El espacio muestral al lanzar un dado es   {1, 2, 3, 4, 5, 6} . La cantidad de elementos del espacio
muestral es n()  6
nA 1
a. A  {1} ,  n(A)  1 entonces, P(A)  
n 6
nB 3
b. B  {2,4 ,6} ,  n(B)  3 entonces, P(B)  
n 6
nC  4
c. C  {1,2,3,4} ,  n(C )  4 entonces, P(C )  
n 6
nD  2
d. D  B  C  {2,4} ,  n(D)  2 entonces, P(D)  
n 6
nE  5
e. E  B  C  {1,2,3,4 ,6} ,  n(E )  5 entonces, P(E)  
n 6
Ejercicio 63
Una persona realiza una jugada de la Tinka, que es un juego de lotería que consiste en elegir seis nú-
meros de 45 números posibles. Encontrar la probabilidad de que con un boleto de seis números se
acierte con todos los números seleccionados.

Solución
Sea el evento A := Ganar la Tinka.
nA
P A    
n
Ejercicio 64
De un mazo de 52 cartas se saca una carta al azar, calcule la probabilidad de que sea 6.

Ejercicio 65
Se lanzan dos dados, calcule la probabilidad de que la suma sea mayor a 7.

Notas
Capítulo 2. Nociones de Probabilidad 82
Ejercicio 66
Se entrevistó a 3500 clientes de una empresa de telefonía celular que adquirieron un paquete promo-
cional que permitía llamar ilimitadamente a otros dos celulares de la misma empresa durante tres
meses. La siguiente tabla muestra la distribución de los clientes entrevistados por sexo y por su inten-
ción de renovar el paquete promocional.

Sexo Sí renueva No renueva


Masculino 1 000 900
Femenino 1 200 400

Si se selecciona al azar uno de los clientes entrevistados, calcule la probabilidad de que el cliente se-
leccionado:
A = Sea mujer

B = Tenga intención de renovar el paquete promocional

C = Sea hombre y no tenga intención de renovar el paquete promocional

D = Sea mujer o no tenga intención de renovar el paquete promocional

Notas
Estadística EEGGLL 201702 83
Definición frecuencial de probabilidad
La probabilidad de ocurrencia de un evento se determina por la observación de la proporción de veces
que eventos similares ocurrieron en el pasado (frecuencia relativa). Si un experimento se realiza n
veces y si en nA de ellas ocurre el evento A, la probabilidad de A es:
nA
P(A)  lim
n n

Ejercicio 67
En un ciudad muy grande, se tomó una muestra de 5210 personas y se encontró que cinco personas
tenían síndrome de Down, por lo tanto usando probabilidad frecuentista podemos afirmar que, en esa
ciudad, la probabilidad de tener síndrome de Down es:
nA 5
P(A)    0,00096
n 5210

Definición subjetiva de la probabilidad


Es la valoración que hace un individuo de las posibilidades de obtener un resultado, basado en su ex-
periencia, opinión personal y análisis que él hace de la situación particular que se evalúa (estado de
información de la persona).

Ejercicio 68
La probabilidad de que el rendimiento de una cierta acción en la Bolsa de Valores de Lima sea mayor
al 10% es ……………
La probabilidad de que Perú clasifique para la Copa Mundial del de Fútbol 2018 es ……….
La probabilidad de que apruebe el curso de Estadística es …………….

Definición axiomática de probabilidad


La probabilidad es una función P que a cada evento A del espacio muestral Ω le hace corresponder el
número P(A) que satisface los siguientes axiomas:

Axioma 3
Axioma 1 Axioma 2 Si A y B son dos eventos
mutuamente excluyentes
0  P(A) P() = 1 entonces:
P(A  B) = P(A) + P(B)

Propiedades
Sean A y B dos eventos cualesquiera de Ω, se cumple que:
P(A)  P(AC )  1
PA  B  PA  PB  PA  B
P  A  B   P  A  P  A  B 

PA  PA  B  P A  BC 

Notas
Capítulo 2. Nociones de Probabilidad 84
Ejemplo 12
La probabilidad de que una computadora de un cierto instituto de computación tenga instalado el
programa A es 0,6 y de que tenga el programa B es 0,5. Si la probabilidad de que tenga instalados los
dos programas es 0,2, calcule la probabilidad de que:
a. tenga alguno de los dos programas.
b. tenga el programa A pero no el B.
c. tenga el programa B pero no el A.
d. tenga sólo uno de los dos programas.
e. no tenga ninguno de los dos programas.

Solución
Sean los eventos A = {Tenga el programa A} y B = {Tenga el programa B}

a. P(A  B)  P(A)  P(B)  P(A  B)  0,6  0,5  0,2  0,9


b. P(A  B)  P(A)  P(A  B)  0,6  0,2  0,4
c. P(B  A)  P(B)  P(B  A)  0,5  0,2  0,3
d. P(AB)  P(A  B)  P(B  A)  0,4  0,3  0,7
e.  
P(AC  BC )  P A  BC  1  P(A  B)  1  (0,9)  0,1

Ejercicio 69
El análisis costo-beneficio de la compra de cierta fábrica determinó que solo la ocurrencia de alguno
de los eventos A o B ocasionaría una inversión desfavorable. Se estima que la probabilidad de que
ocurra el evento A es 10%; la probabilidad de que el evento B ocurra es 5% y la probabilidad de que
ocurran ambos eventos es 2%.

¿Cuál es la probabilidad de que la inversión resulte desfavorable debido únicamente a la ocurrencia


del evento A?

Cuantifique el riesgo que se corre en esta inversión, es decir, la probabilidad de que la compra ocasione
una inversión desfavorable.

Notas
Estadística EEGGLL 201702 85
Ejercicio 70
La probabilidad que se fracase en el negocio A es de 1/3, que se tenga éxito en al menos uno de los
negocios es 5/6 y que se fracase en el negocio B es 1/2. Determine la probabilidad de que solamente
se tenga éxito en uno de los negocios.

Ejercicio 71
Una persona escoge seis manzanas al azar de 25 posibles. Si de las 25 manzanas solo hay ocho que
están jugosas, calcule la probabilidad de que al menos una de las manzanas escogidas por la persona
estén jugosas.

Ejemplo 13
En un estrado se sientan al azar las personas: I , J, K, L y M. Encontrar la probabilidad de que J y K no
se sienten juntos.

Solución
El evento pedido es A = {J y K no se sienten juntos}.
Luego AC = {J y K se sienten juntos}.
P P 4 !  2! 3
La probabilidad pedida es P(A)  1  P(A C )  1  4 2  1  
P5 5! 5

Notas
Capítulo 2. Nociones de Probabilidad 86
Ejemplo 14
En un lote de conservas de atún 12 son de marca nacional y ocho son de marca extranjera. Se escogen
al azar y sin reposición seis conservas, encontrar la probabilidad de que entre las conservas elegidas:

a. cuatro sean de marca nacional


b. todas sean de marca nacional
c. ninguna sea de marca nacional
d. alguna sea de marca nacional
e. por lo menos cuatro sean de marca nacional
f. a lo más una sea de marca nacional

Solución
C 412  C28
a. P A    0,3576
C 620
C612  C08
b. PB   0,0238
C620
C012  C68
c. PC    0,0007
C620
C012  C68
d. PD  1   0,9993
C620
C412  C28  C512  C18  C612  C08
e. PE    0,5449
C620
C012  C68  C112  C58
f. PF    0,0181
C620

2.3. Probabilidad condicional


La probabilidad condicional se refiere a hallar la probabilidad de un evento conociendo cierta informa-
ción (condición).

P(A  B)
P(A B) 
P(B)
PB /   PB

Notas
Estadística EEGGLL 201702 87
Ejercicio 72
En el II Censos Universitario 2010 ejecutado por el Instituto Nacional de Estadística e Informática se
preguntó a todos los alumnos de pregrado por la su modalidad de estudios y sexo, obteniéndose los
siguientes resultados:

Modalidad de estudios Hombre Mujer Total


Presencial 369 765 353 323 723 088
Semi presencial 17 310 17 779 35 089
No presencial 13 070 11 723 24 793
Total 400 145 382 825 782 970
Fuente: PERÚ, II Censo Nacional Universitario 2010

a. Si se selecciona a un hombre, ¿cuál es la probabilidad de que estudie de forma presencial?

b. Si se selecciona a una mujer, ¿cuál es la probabilidad de que no estudie de forma presencial?

c. Si se selecciona a una persona que estudia de forma presencial, ¿cuál es la probabilidad de que
sea mujer?

Notas
Capítulo 2. Nociones de Probabilidad 88
Ejemplo 15
De las 100 computadoras de una empresa, 60 tienen instalado el programa A y 50 tienen instalado el
programa B. Si 20 tienen instalados los dos programas, encontrar la probabilidad de que una compu-
tadora de la empresa tenga instalado el programa B si tiene instalado el programa A.

Solución
Sean los eventos A y B, definidos como: A:={La computadora tenga instalado el programa A}
B:={La computadora tenga instalado el programa B}
60 50 20
Se tiene que P(A)  , P(B)  , P(A  B) 
100 100 100
20
P(A  B) 100 20
La probabilidad pedida es P(B / A)   
P(A) 60 60
100
Regla del producto
La regla del producto se usa para calcular la probabilidad de una intersección de eventos
P(A  B)  PAP(B / A)  PBP(A / B)

Ejercicio 73
De los adultos de 25 o más años empleados en cierto país, el 90,3% completó la enseñanza media y de
ellos, el 30,8% completó la universidad. Calcular la probabilidad de que un adulto empleado de ese
país, seleccionado al azar, haya completado la enseñanza media y también la universidad.

Ejemplo 16
En un lote de 50 computadoras hay 20 que son HP. Si se escoge al azar y una por una dos computadoras
del lote, encontrar la probabilidad de que la primera sea HP y la segunda no lo sea.

Solución
Sean los eventos A y B, definidos como: A:={La primera computadora escogida sea HP}
B:={La segunda computadora escogida no sea HP}
20 30
Por dato del problema, afirmamos que P A  , P B / A 
50 49
20 30
Por la regla del producto tenemos que P(A  B)  P(A)P(B / A)  
50 49

Notas
Estadística EEGGLL 201702 89
Partición del espacio
Los eventos A1, A2,…, Ak son una partición del espacio muestral Ω, si:
- P(Ai )  0 , (i  1, 2,...,k)

- Ai  Aj   , (i  j)
k

- A  
i 1
i

Teorema de la probabilidad total


Sean los k eventos A1, A2, A3,..., Ak que constituyen una partición del espacio muestral Ω, entonces para
cualquier evento B de Ω se cumple lo siguiente:

PB  PA1 PB / A1   PA2 PB / A2   ...  PAk PB / Ak 

Teorema de Bayes
Sean los k eventos A1, A2, A3,..., Ak que constituyen una partición del espacio muestral Ω, entonces para
cualquier evento B de Ω se cumple lo siguiente, si P(B) > 0:

P  Ai  B  P Ai P B / Ai 
P A i B   
PB P A1 P B / A1   P A2 P B / A2   ...  P Ak P B / Ak 

El teorema de Bayes establece una relación muy importante en la teoría de probabilidades y es la base
para la revisión de la asignación de probabilidades a la luz de información adicional.

Probabilidades a Información Teorema de Posibilidades a


priori nueva Bayes posteriori

Ejemplo 17
En una fábrica los discos bluray son producidos por una de tres máquinas: M1, M2, M3. La producción
diaria de cada máquina es de: 500, 300 y 200 discos, respectivamente. El porcentaje de discos defec-
tuosos producidos por cada máquina es de: 1%, 1,5% y 0,5% respectivamente.
a. Si se escogió un disco producido en la fábrica, calcule la probabilidad de que sea defectuoso.
b. Si el disco escogido es defectuoso, calcule la probabilidad que haya sido producido por M1.

Solución
Sean los eventos Ei:={El disco es producido por Mi}, (i = 1, 2, 3); D:={El disco es defectuoso}
500 300 200
PE1    0,5 , PE2    0,3 , PE 3    0,2
1 000 1 000 1 000
Además, se sabe que: PD / E1   0,01, PD / E2   0,015 , PD / E3   0,005
3
a. PD   PE PD / E   0,5  0,01  0,3  0,015  0,2  0,005  0,0105
i 1
i i

PE1 PD / E1  0,5  0,01


b. PE1 / D     0,4761
PD  0,0105

Notas
Capítulo 2. Nociones de Probabilidad 90
Ejercicio 74
En una oficina el 35% del personas son mujeres. Se sabe por el registro histórico que, en un días cual-
quiera, la probabilidad de que una mujer llegue tarde a trabajar es del 3% y que un hombre llegue
tarde es del 4%.
Calcule la probabilidad de que un trabajador llegue tarde a trabajar.

Si elige al azar a una persona que ha llegado tarde, calcule la probabilidad de que sea mujer.

Ejercicio 75
En una zona de la ciudad, durante las noches de los fines de semana, la policía sabe por experiencia
que el 20% de los conductores ha consumido alcohol, por lo que realiza operativos para detectar a los
conductores que han consumido alcohol. Para realizar las pruebas usan unos dispositivos que detectan
al consumidor de alcohol en el 95% de los casos y que se equivocan al indicar que una persona ha
consumido, cuando en realidad no lo ha hecho en el 3% de los casos.
Estime el porcentaje de conductores para los que el dispositivo da positivo al consumo de alcohol.

Si la persona ha dado positivo para consumo de alcohol, calcule la probabilidad de que en realidad no
haya consumido alcohol.

Notas
Estadística EEGGLL 201702 91

2.4. Eventos independientes


Si PA  0 , los eventos A y B son independientes si y solo si:
PB A  PB

- Dos eventos A y B son independientes si se cumple que PA  B  PAPB

- Tres eventos A, B y C son independientes si se cumple que:


PA  B  PAPB PA  C   PAPC 
PB  C   PBPC  P(A  B  C )  P(A)P(B)P(C )

Sean dos eventos A y B de tales que P(A) ≠ 0 y P(B) ≠ 0, entonces:


- Si los eventos A y B son independientes, entonces A y B no son disjuntos
- Si los eventos A y B son disjuntos, entonces A y B no son independientes

Ejercicio 76
En una empresa, los obreros A y B realizan trabajos riesgosos. En cierta tarea, la probabilidad de que
el obrero A tenga un accidente laboral es del 15%, mientras que para el obrero B es del 20%. Si al
realizar dicha tarea, la ocurrencia de los accidentes se puede considerar independiente.

Evento Notación Diagrama de Venn


P(A ………... B)=
¿Cuál es la probabilidad de que al menos uno
de los obreros no tenga un accidente laboral?

¿Cuál es la probabilidad de que solo uno de los


obreros tenga un accidente laboral?

¿Cuál es la probabilidad de que alguno de los


obreros tenga un accidente laboral?

Ejercicio 77
En la fabricación de un producto se presenta tres tipos de defectos A, B y C, cada uno con probabilidad
del 0,02; 0,05 y 0,03, respectivamente. Los defectos ocurren de manera independiente.
Evento Notación Diagrama de Venn
P(A1 …… A2 …… A3)=
Si se elige al azar un producto,
calcule la probabilidad de que
se presente un solo defecto.

Si se elige al azar un producto,


calcule la probabilidad de que
se presente al menos dos de-
fectos.

Ejemplo 18

Notas
Capítulo 2. Nociones de Probabilidad 92
Se lanza un dado n veces, encontrar la probabilidad de que el as aparezca por lo menos una vez.

Solución
Definamos el evento A = {El as aparece por lo menos una vez}
1
Definamos los eventos Ai = {El as aparece en el lanzamiento i}, se tiene que P Ai  
6
Luego, podemos afirmar que Ai, i = 1, 2,…, n son eventos independientes.

También, afirmamos que AiC , i = 1, 2,…, n son eventos independientes y que P AiC   5
6
n n
Además, A  i 1
Ai por lo que AC  A
i 1
C
i . Luego, tenemos que

 n 
      
n
5 5 5  5
PA  1  P AC  1  P AiC   1  P A1C P A2C ...P AnC  1    ...  1   

 i 1  6 6 6 6

Ejemplo 19
Un televidente ve de manera independiente los programas A y B. La probabilidad de que vea el pro-
grama A es 0,2 y de que vea el programa B es 0,3, calcule la probabilidad de que:
a. vea los dos programas.
b. no vea ninguno de los dos programas.
c. vea alguno de los dos programas.
d. vea sólo el programa A.
e. vea sólo el programa B.
f. vea sólo uno de los dos programas.

Solución
Sean los eventos:
A:= {El televidente vea el programa A}
B:= {El televidente vea el programa B}

a. P(A  B)  P(A)P(B) 0,2  0,3  0,06


b.     
P AC  BC  P AC P BC  0,8  0,7  0,56
c. PA  B  1  P((A  B)C )  1  P(AC  BC )  1  0,56  0,44
d. PA  B  P(A  BC )  P(A)  P(BC )  0,2  0,7  0,14
e. PB  A  P(B  AC )  P(B)  P(AC )  0,3  0,8  0,24
f. PAB  P(A  B)  P(B  A)  0,14  0,24  0,38

Notas
Estadística EEGGLL 201702 93
Ejercicios
25. Tres máquinas producen cierto artículo en cantidades muy grandes, de tal manera que cualquiera
de estos artículos resulta defectuoso independientemente de la máquina que lo haya producido.
La primera máquina produce 2,5% de artículos defectuosos, la segunda 3,1% y la tercera 1,8%. Se
seleccionan al azar tres de estos artículos, el primero producido en la máquina 1, el segundo en
la máquina 2 y el tercero en la máquina 3.
a. ¿Cuál es la probabilidad de que al menos uno de los artículos seleccionados de las dos prime-
ras máquinas sea defectuoso?
b. ¿Cuál es la probabilidad de que el artículo seleccionado de la tercera máquina sea el segundo
defectuoso?
c. ¿Cuál es la probabilidad de que solo uno de los artículos seleccionados sea defectuoso?

26. La probabilidad de que un evento ocurra es p. Si el experimento aleatorio se repite tres veces de
manera independiente, calcule el valor de p que hace máxima la probabilidad de que ocurra el
evento como máximo una vez.

27. Una fábrica de bujías para motores produce un 88% de buenas y un 12% de defectuosas. Antes
de enviarlas a los almacenes para su venta, se someten a un control en la que se admiten como
buenas las que los son con una probabilidad de 0,91 y las que no los son con una probabilidad de
0,04.
a. Calcule la probabilidad de que una bujía sea considerada como buena en un control.
b. Si una bujía fue considerada como buena en un control, ¿cuál es la probabilidad de que sea
realmente buena?

28. Tres tiradores tiran al blanco simultáneamente y de manera independiente. Sus probabilidades
de acertar son 50%; 25% y 75% respectivamente. Calcule la probabilidad de que consigan:
a. al menos un acierto.
b. exactamente un acierto.
c. exactamente dos aciertos.

29. En una ciudad el 55% de los habitantes consume pan integral, el 30% consume pan blanco y el
20% consume ambos. Si se selecciona un habitante al azar:
a. ¿Cuál es la probabilidad de que solamente coma pan blanco?
b. ¿Cuál es la probabilidad de que una persona de esa ciudad no consuma ninguno de los dos
tipos de pan?
c. Sabiendo que el habitante seleccionado consume pan blanco, ¿cuál es la probabilidad de que
no consuma pan integral?

30. Si un vehículo se pasa la luz roja en un cruce que se equipó con una cámara de vigilancia, hay un
95% de probabilidad de que reciba una multa de tránsito. Si durante las últimas tres horas cinco
vehículos se han pasado la luz roja en el referido cruce, ¿cuál es la probabilidad de que al menos
uno de ellos reciba una multa?

31. Tres personas lanzan un dado cada una. Calcule la probabilidad de que las tres saquen el mismo
número.

Notas
Capítulo 2. Nociones de Probabilidad 94
32. Se estima que sólo un 25% de las personas que compran acciones en la Bolsa de Valores tiene
conocimientos bursátiles. De los que compran acciones sin conocimientos bursátiles, sólo un 10%
obtienen beneficios. El 5% de los que compran acciones tiene conocimientos bursátiles pero no
obtiene beneficios. Si se elige al azar una persona que ha comprado acciones en la Bolsa de Valo-
res y resulta que ha obtenido beneficios, ¿cuál es la probabilidad de que tenga conocimientos
bursátiles?

33. El gerente de proyectos de la empresa LUCET está determinando si debía presentar una oferta
para hacerse cargo de la iluminación de un nuevo centro comercial. En el pasado, el principal
competidor de LUCET, la empresa ILUMIN, ha propuesto ofertas en el 78% de los nuevos proyec-
tos. Si ILUMIN no presenta ofertas para un trabajo, la probabilidad de que LUCET obtenga el tra-
bajo es de 0,62. Si ILUMIN propone una oferta para el trabajo, la probabilidad de que LUCET ob-
tenga el trabajo es de 0,25.
a. ¿Cuál es la probabilidad de que LUCET obtenga el trabajo? Con base en este resultado, ¿re-
comendaría usted que la empresa presente una oferta? ¿Por qué?
b. Si la empresa LUCET obtiene el trabajo, ¿cuál es la probabilidad de que la empresa ILUMIN
haya propuesto una oferta?

34. Un inversionista que tiene acciones en tres compañías: A, B y C, estima que las probabilidades de
tener utilidades son 0,3; 0,6 y 0,4 respectivamente.
a. Si la probabilidad de que tenga utilidades en A y B es 0,12, ¿cuál es la probabilidad de que no
tenga utilidades en B dado que sí las tuvo en A?
b. ¿El tener utilidades en A es independiente de no tener utilidades en B?
c. Si hay independencia entre tener utilidades en las compañías, calcular la probabilidad de que
el inversionista tenga utilidades en más de una de ellas.

35. Según datos del informe Perfil Sociodemográfico del Perú, publicado por el INEI en:
http://www.inei.gob.pe/Anexos/libro.pdf, el 78,78% de la población censada de 18 o más años
vive en área urbana y el resto en área rural. En área urbana, el 97,59% de las personas censadas
de 18 o más años cuenta con Documento Nacional de Identidad (DNI), y este porcentaje es del
93,65% en área rural.
a. Con base en los datos anteriores, calcule el porcentaje de la población censada, de 18 o más
años, que no cuenta con DNI.
b. Si se selecciona una persona censada de 18 o más años y tiene DNI, ¿cuál es la probabilidad
que viva en área urbana?

36. Los registros de los delitos en una ciudad muestran que 20% de ellos son violentos y 80% son no
violentos. Se señala también que son denunciados el 90% de los delitos violentos y solo el 70%
de los delitos no violentos
a. ¿Cuál es la proporción global de delitos que se denuncian en la ciudad?
b. Si no se denuncia un delito ante la policía, ¿cuál es la probabilidad de que el delito sea vio-
lento?

37. El único aeropuerto de cierta ciudad cuenta con tres terminales. El terminal A controla el 50% del
tránsito aéreo, el terminal B controla el 35% y el terminal C el 15%. La probabilidad de de detectar
a un pasajero portando armas de fuego en los terminales A, B y C se estiman en 96%; 95% y 90%,
respectivamente.
Notas
Estadística EEGGLL 201702 95
a. ¿Cuál es la probabilidad de que un pasajero que porte arma de fuego sea detectado en este
aeropuerto?
b. Si un pasajero que portaba un arma de fuego fue detectado, ¿cuál es la probabilidad de que
haya sido detectado en el terminal B?

38. De la población de trabajadores de cierta empresa, el 30% han participado en el curso de capaci-
tación sobre Control Estadístico de Procesos y el 15% han participado en el curso de capacitación
en Seis Sigma. Se sabe también que el 37% de los trabajadores han participado en al menos uno
de los dos cursos.
a. ¿Qué porcentaje de los trabajadores participaron en los dos cursos?
b. Si se selecciona uno de estos trabajadores al azar, ¿cuál es la probabilidad de que haya par-
ticipado sólo en uno de los cursos?

39. Se entrevistó a 120 personas que visitaron B&B, una nueva tienda por departamentos, durante
el fin de semana pasado. Se sabe que fueron entrevistadas 84 mujeres y que 30 de las personas
entrevistadas tenían la tarjeta de crédito de la tienda; también se sabe que un tercio de los hom-
bres tenían la tarjeta de crédito de la tienda.
a. Calcule la probabilidad de que una de las personas entrevistadas, elegida al azar, sea mujer
o tenga tarjeta de crédito de la tienda.
b. Se selecciona uno de los entrevistados al azar y se verifica que tiene la tarjeta de crédito de
la tienda, ¿cuál es la probabilidad de que el cliente entrevistado sea hombre?
c. Sean los eventos H = el cliente seleccionado es hombre y T = el cliente seleccionado tiene
tarjeta de crédito de la tienda. ¿Son H y T eventos independientes?

40. Un administrador está interesado en determinar si cierta impureza está presente en un producto.
Por estudio de los datos históricos, el administrador estima que la impureza está presente en 20%
de estos productos. Con un experimento de laboratorio se puede evaluar si la impureza está o no
presente en el producto; este experimento tiene una probabilidad de 86% de detectar la impu-
reza cuando esta está presente y una probabilidad de 8% de indicar que la impureza está presente
cuando en realidad no lo está. Si acaba de realizarse el experimento y el resultado indica que la
impureza está presente en el producto evaluado, determine la probabilidad de que la impureza
esté realmente presente en este producto.

Notas
Estadística EEGGLL 201702 97

Capítulo 3. Variables aleatorias y modelos o dis-


tribuciones de probabilidad
3.1. Variable aleatoria
Es una función del espacio muestral en los números reales, es decir, X :   IR
La variable aleatoria atribuye a cada elemento del espacio muestral  un número que no es aleatorio
o imprevisible, sino fijo y predeterminado. Lo que es aleatorio es el experimento sobre cuyo espacio
muestral se define la variable aleatoria.

Rango de la variable aleatoria


Es el conjunto de los valores posibles de la variable aleatoria, es decir, RX  { X (w) / w   }

Tipos de variable aleatoria


Una variable aleatoria es discreta si puede asumir un conjunto finito o infinito numerable de valores
diferentes.
Una variable aleatoria es continua si puede asumir cualquier valor en un intervalo.

Ejercicio 78
Indique el tipo de la variable aleatoria y su rango.

Variable aleatoria Tipo Rango


W = número de libros defectuosos en un
lote de 100 unidades

X = número de veces que debe picarme


mosquitos hasta contraer el dengue

Y = tiempo que puede pasar un humano


debajo del agua sin respirar (en minutos)

Z = dinero gastado en almorzar por un


alumno el presente día, en nuevos soles

Evento (X = a)
El evento ( X  a) se define como (X  a)  { w  / X(w)  a }

Notas
Capítulo 3. Variables aleatorias y distribuciones de probabilidad 98

3.2. Variable aleatoria discreta

Una variable aleatoria es discreta si el conjunto de valores que puede tomar es finito o infinito nume-
rable. Una variable aleatoria discreta asume cada uno de los valores con cierta probabilidad que se
denota P(X = x).

Por ejemplo, son las variables aleatorias discretas las siguientes:


Número de barcos que llegan a un puerto diariamente.
Cantidad de preguntas correctamente contestadas en una prueba de evaluación.
Cantidad de guacamayos que viven en la reserva nacional Pacaya y Samiria.

Ejemplo 20
Sea Ω el espacio obtenido al lanzar una moneda dos veces y observar si sale cara (c) o sello (s) cada
vez. Ω = {(c,c), (c,s), (s,c), (s,s)}.
Sea X el número de caras obtenidas.
El rango de RX = {0, 1, 2}. X es una variable aleatoria discreta.
El evento (X = 0) = {(s,s)}
El evento (X = 1) = {(c,s), (s,c)}
El evento (X = 2) = {(c,c)}

Ejemplo 21
Sea Ω el espacio obtenido al lanzar un dado hasta que salga el as. Sea X el número de lanzamientos.
RX = {1, 2, 3,…} = Z+. X es una variable aleatoria discreta.

Distribución de probabilidad de una variable aleatoria discreta


La distribución de probabilidad de una variable aleatoria discreta X se describe como una función de
probabilidad representada por f(x) que asigna a cada valor de la variable aleatoria, la probabilidad de
que X asuma ese valor, esto es f(x) = P(X = x).
Toda función de probabilidad cumple lo siguiente:
0 ≤ f(x) ≤ 1

 f x   1
xR X

Si A  RX , entonces PA   f x 
xA

El dominio de la función f(x) se puede extender a todos los números reales, si se define f(x) = 0 para
todo x  IR- RX.

Notas
Estadística EEGGLL 201702 99
Ejemplo 22
Sea X el número de caras obtenidas al lanzar una moneda dos veces. Determine la función de proba-
bilidad de la variable X y calcule P( X  1)

Solución
Sea la variable aleatoria X := número de caras obtenidas al lanzar una moneda dos veces.
RX = {0, 1, 2}
Luego, la función de probabilidad de la variable X es:
1
f 0   P  X  0  
4
2
f 1  P  X  1 
4
1
f 2  P  X  2 
4
La probabilidad pedida es
1
1 2
P(X  1)   f (x)  f (0)  f (1)  4  4  0,75
x 0

Ejemplo 23
Sea X el número de lanzamientos de un dado hasta que salga el primer seis. Determine la función de
probabilidad de la variable X y calcule P( X  3)

Solución
Sea la variable aleatoria X := número de lanzamientos de un dado hasta que salga el primer seis.

Su rango o recorrido es RX = {1, 2, 3,…} = Z+.


1
f 1  P  X  1 
6
5 1
f 2  P X  2  
6 6
2
 5 1
f 3  PX  3    
6 6
Luego, la función de probabilidad de la variable X es
x 1
 5 1
f x   P  X  x      ; x  1, 2, 3,....
6 6

La probabilidad pedida es
1 5 25 
P( X  3)  1  P( X  3)  1   f (1)  f (2)  f (3)  1       0,5787
 6 36 216 

Notas
Capítulo 3. Variables aleatorias y distribuciones de probabilidad 100
Ejercicio 79
Se lanza un dado una vez, sea la variable aleatoria X igual al número de la cara superior. Determine y
grafique la función de probabilidad de la variable X.

Solución
Primero definamos la variable X: = ……………………………………………………………………………

El rango de la variable es RX = …………………………………………………

La función de probabilidad f(x) será:

Ejercicio 80
Se lanza dos dados a la vez, sea la variable aleatoria X igual a la suma de los números de las caras
superiores. Determine y grafique la función de probabilidad de la variable X.

Solución
Primero definamos la variable X: = ……………………………………………………………………………

El rango de la variable es RX = ……………………………………………………………………………

La función de probabilidad f(x) será:

Notas
Estadística EEGGLL 201702 101
Valor esperado de una variable aleatoria discreta
El valor esperado E(X) de una variable aleatoria discreta X con distribución de probabilidad f(x) se de-
fine por:
E X    xf x 
xR X

El valor esperado E(X), también, se le conoce como media de la variable X, denotada por μX.

Ejercicio 81
El número de trabajadores que faltan por día por razones de salud en una empresa se modela con una
variable aleatoria X con función de distribución.

x 0 1 2 3 4
f(x) 0,08 0,12 0,40 0,25 k
Determine k.

Calcule e interprete el valor esperado de X.

Valor esperado de una función de variable aleatoria discreta


Sea G(X) una función de la variable aleatoria discreta X. El valor esperado de G(X) es:
E G  X    G x  f x 
xR X

Ejercicio 82
Un jugador lanza un dado, si sale un número de puntos mayor a cuatro gana 10 nuevos soles y si no,
pierde cinco nuevos soles. Calcule e interprete el valor esperado de la ganancia.

Notas
Capítulo 3. Variables aleatorias y distribuciones de probabilidad 102
Varianza de una variable aleatoria discreta
La varianza V(X) de una variable aleatoria discreta X con función de probabilidad f(x) se define por:

V X   E X   X 2 
 
Se cumple V  X   E X 2   X2  x 2
f x    X2
xR X

La varianza de la variable aleatoria X, V(X), también se denota por  X2 .

Desviación estándar de una variable aleatoria discreta


 X   X2

Ejercicio 83
La demanda diaria de un producto perecible puede modelarse por una variable aleatoria discreta X
cuya distribución de probabilidad está dada por la tabla que sigue:

x 1 2 3 4 5
f(x) 0,15 0,25 k 0,20 0,05

Se obtiene por cada unidad demandada de producto 50 soles de utilidad. Si la cantidad demandada en
un día es mayor a dos unidades, se obtiene una utilidad adicional de diez soles por unidad demandada
de producto. Si en el almacén se tienen siempre solo cuatro productos en su almacén al inicio del día
y no se repone en el día.
Calcule la desviación estándar de la utilidad por la demanda diaria de productos.

Notas
Estadística EEGGLL 201702 103

3.3. Algunos modelos discretos importantes

Experimento de Bernoulli
Un experimento de Bernoulli es un experimento aleatorio con dos únicos resultados posibles denomi-
nados éxito (E) y fracaso (F).
La probabilidad de éxito se denota P(E) = p y la de fracaso P(F) = 1- p = q.
Los siguientes son ejemplos de experimentos Bernoulli:
Lanzar un dado y observar si sale seis
o E:= Sale 6. Luego, P(E) = 1/6
Revisar un artículo y verificar si es defectuoso en una línea de producción que produce el 0,1% de
artículos defectuosos.
o E:= El artículo es defectuoso. Luego, P(E) = 0,001
Ofrecer una póliza de seguros a un cliente y anotar si la compra. Por experiencia se sabe que el 5% de
los clientes compra la póliza.
o E:= El cliente compra la póliza. Luego, P(E) = 0,05

Distribución binomial
Un experimento binomial consiste en una serie de n repeticiones de un experimento Bernoulli, donde
n se fija antes de realizar el experimento.
Las pruebas son independientes entre sí por lo que el resultado de un intento en particular no
influye en el resultado de cualquier otro.
La probabilidad de éxito es constante de una prueba a otra y la denotamos como p.
Se define la variable aleatoria binomial X como el número de éxitos observados en un experimento
binomial, es decir:
X := Número de éxitos obtenidos en n repeticiones independientes de un experimento de Bernoulli
con probabilidad de éxito p.

La función de probabilidad de la variable aleatoria binomial X es:


f x   PX  x   C xn p x 1  pnx ; x  0, 1, 2,, n

Se denota X ~ B (n, p) y se lee X sigue una distribución binomial con parámetros n y p.

Media   E X   np
Varianza  2  V X   np1  p

Ejemplo 24

Notas
Capítulo 3. Variables aleatorias y distribuciones de probabilidad 104
Los siguientes son ejemplos de variables binomiales:

X1 = Número de artículos defectuosos en un lote de 500


o n = 500 E:= artículo defectuoso P(E) = 0,001  X1 ~ B(n = 500, p = 0,001)
X2 = Número de clientes que compran una póliza de seguro de vida de los 20 visitados
o n = 20 E:= cliente compra la póliza P(E) = 0,08  X2 ~ B(n = 20, p = 0,08)
X3 = Número de solicitudes de crédito hipotecario aprobadas de 15 evaluadas
o n = 15 E:= crédito aprobado P(E) = 0,68  X3 ~ B(n = 15, p = 0,68)

Ejemplo 25
En un proceso de fabricación artesanal de papel reciclado se estima, por experiencia anterior, que el
3% de las hojas de papel producidas presentan defectos en el teñido. Las hojas de papel se empacan
en cajas de 50 unidades.
Si usted ha comprado una de estas cajas, calcule la probabilidad de que:
a. ninguna de las hojas presente defectos en el teñido
b. la caja contenga exactamente tres hojas con defectos en el teñido
c. la caja contenga a lo más dos hojas con defectos en el teñido
d. la caja contenga al menos una hoja con defectos en el teñido
e. ¿Cuántas hojas con defectos en el teñido esperaría encontrar en su caja?

Solución
Definimos la variable aleatoria X: = número de hojas con defectos en el teñido en la caja de 50 hojas
de papel reciclado
Notemos que X ~ B (n = 50, p = 0,03)

a. La probabilidad de que ninguna de las hojas de la caja presente defectos en el teñido es


PX  0  C 050 0,030 0,9750  0,218
b. La probabilidad de que en la caja haya exactamente tres hojas que presenten defectos en el teñido
es PX  3  C350 0,0330,9747  0,126
c. La probabilidad de que en la caja haya a lo más dos hojas con defectos en el teñido es
2
P  X  2  C
x 0
50 x
x 0,03 0,97
50x
 0,811

d. La probabilidad de que en la caja haya más de una hoja con defectos en el teñido es
1
PX  1  1  PX  1  1  C
x 0
50 x
x 0,03 0,97
50x
 1  0,555  0,445

e. En una caja de 50 hojas recicladas se esperaría encontrar E(X) = np = 50(0,03) = 1,5 hojas que
presenten defectos en el teñido.

Notas
Estadística EEGGLL 201702 105
Ejercicio 84
Una encuestadora va a entrevistar 30 personas seleccionadas al azar de un área rural. Si la probabilidad
de que una persona cualquiera de esta zona esté indocumentada es de 0,25.
Determine la distribución de probabilidades del número de encuestados indocumentados de los 30
seleccionados.

Calcule la probabilidad de que la encuestadora entreviste cuatro o cinco personas indocumentadas.

¿Cuántos indocumentados se espera encontrar en el grupo de 300 seleccionados?

Ejercicio 85
Una aerolínea ha vendido 22 pasajes en un avión que cuenta con 20 asientos para pasajeros. Estudios
anteriores revelaron que solo el 90% de los pasajeros que se registran en un determinado vuelo, se
presentan al aeropuerto para viajar en ese vuelo. Calcular la probabilidad de que no haya suficientes
asientos disponibles para los pasajeros.

Notas
Capítulo 3. Variables aleatorias y distribuciones de probabilidad 106
Distribución hipergeométrica

El experimento hipergeométrico consiste en extraer al azar y sin sustitución n elementos de un con-


junto de N elementos, r de los cuales son éxitos y N - r son fracasos.
Se define la variable aleatoria hipergeométrica como X número de éxitos observados en la muestra de
tamaño n.
La función de probabilidad de la variable X es:
C xr C nNxr
f ( x)  P  X  x   ; x  max{0, n  (N  r )},...,min{ n, r }
C nN

Se denota X ~ H (N, r, n) y se lee que la variable aleatoria X sigue una distribución hipergeométrica con
parámetros N, r y n.
r
Media   E X   n
N
r N n
 2  V X   n  1  
r
Varianza 
N N  N  1 

Ejercicio 86
En un equipo de fútbol hay 18 jugadores de los cuales cuatro consumen sustancias prohibidas. Calcule
la probabilidad de detectar a por lo menos uno de los jugadores que usan sustancias prohibidas, si la
directiva del club ha realizado una prueba antidoping a dos jugadores.

Notas
Estadística EEGGLL 201702 107
Ejercicios

41. En un taller hay tres tipos de máquinas: A, B y C. De las 20 del tipo A, 4 están malogradas; de las
15 del tipo B, 2 están malogradas; y de las 10 del tipo C, 3 están malogradas. Se escoge al azar y
de manera independiente una máquina de cada tipo. Si la variable X es igual al número de má-
quinas malogradas escogidas, encontrar la media y la desviación estándar de la variable X.

42. La demanda diaria de cierto artículo es una variable aleatoria cuyos valores son 10, 20 o 30 con
probabilidades de 0,2; 0,5 y 0,3 respectivamente. El costo de cada artículo es 1,80 soles y el precio
de venta es dos soles. Los artículos son perecederos de tal manera que si un artículo no se vende
en el día la pérdida es total. Hallar el número de artículos que se deben ordenar para la venta de
tal manera que la ganancia esperada sea máxima.

43. Con fines de auditoría sobre 18 empresas que comercializan gas doméstico que funcionan en
nuestro medio (entre las cuales tenemos a las compañías A, B y C) se tomará una muestra alea-
toria de 6 de ellas. Determine la probabilidad de los siguientes eventos:
a. Que la muestra solo tenga una de las tres empresas antes citadas.
b. La muestra incluya a las tres empresas mencionadas.
c. Que la muestra incluya al menos una de las tres empresas antes citadas.

44. Una empresa de seguros considera que sólo alrededor de 5 % de los asegurados atendidos tiene
una determinada enfermedad.
a. Halle la probabilidad de atender más de dos casos hasta que se reporte el primer asegurado
que sufre de esta enfermedad.
b. Si fueron seleccionados aleatoriamente 100 de los asegurados atendidos, ¿cuál sería la pro-
babilidad de que no más de 3 de ellos tengan la enfermedad?

45. A un estudiante que tiene de manera independiente una probabilidad p de aprobar cada examen
del curso de Física 1, se le ofrecen dos alternativas:
I) Dar un único examen.
II) Dar tres exámenes con la condición de aprobar por lo menos dos.
¿Cuál es la alternativa más favorable para el alumno?

46. En un lote de 50 computadoras 12 son defectuosas. Si se eligen al azar y de una sola vez 20 de
ellas, calcule la probabilidad de que de las computadoras elegidas por lo menos dos sean defec-
tuosas.

47. Un médico estima que el 42% de los pacientes que atiende diariamente requiere algún examen
de laboratorio. Si en un día en particular el médico debe atender 18 pacientes, estime la proba-
bilidad de que menos de siete de ellos requieran algún examen de laboratorio.

Notas
Capítulo 3. Variables aleatorias y distribuciones de probabilidad 108
Variable aleatoria continua
Es una variable cuyo rango es un conjunto infinito no numerable de valores. Por ejemplo: peso, en
kilos, de una persona, tiempo en resolver la primera pregunta del examen parcial de un curso o volu-
men, en decibeles, en una discoteca a una hora determinada.

Función de densidad de una variable aleatoria continua


Se denomina función de densidad de probabilidad f(x) de una variable aleatoria continua X a la función
que satisface lo siguiente:
f x   0 x  R X

 f x dx  1
RX

El dominio de la función f(x) se puede extender a todos los números reales, si se define f(x) = 0 para
todo x  IR- RX
Se cumple que:
b
P a  X  b   f x dx

a

a
- 
P( X  a)  f (x) dx  0
a

- P(a  X  b)  P(a  X  b)  P(a  X  b)  P(a  X  b)

Ejercicio 87
Una variable aleatoria continua tiene la siguiente función de densidad de probabilidad:
f (x)  c x ; 0  x  6
Determine el valor de c.

Notas
Estadística EEGGLL 201702 109
Calcule la probabilidad de P(X < 5)

Calcule la probabilidad de P(2 < X < 3)

Ejercicio 88
Una variable aleatoria continua tiene la siguiente función de densidad de probabilidad:
f (x)  c 15  x  ; 4  x  15
Determine el valor de c.

Calcule la probabilidad de P(X > 8)

Notas
Capítulo 3. Variables aleatorias y distribuciones de probabilidad 110
Ejemplo 27
Si las ventas diarias (en miles de nuevos soles) en una tienda se modelan con una variable continua X
con función de densidad de probabilidad
f (x)  c x ; 0  x  10

a. Calcular el valor de c
b. Calcule e interprete P( X  5)
c. Calcule e interprete P( X  8)

Solución
10 10
x2
0

a. Como f(x) es una función de densidad cx dx  1 , luego c
2 0
 1 , de donde,

50c  1  c  0 ,02
5


b. P( X  5)  f (x) dx  0,25 . La probabilidad de que las ventas en un día cualquiera sean menores a
0
5 000 nuevos soles es de 0,25.
10
c. 
P( X  8)  f (x) dx  0,36 . La probabilidad de que las ventas en un día cualquiera sean de al menos
8
8 000 nuevos soles es de 0,36.

Distribución de probabilidad
La distribución de probabilidad f(x) de una variable aleatoria X, es la función de probabilidad de X, si X
es discreta y la función de densidad de probabilidad de X, si X es continua.

Notas
Estadística EEGGLL 201702 111
Función de distribución acumulada
La función de distribución acumulada de la variable aleatoria X, es una función F : RX  IR , tal que
F ( x )  P( X  x )

Si X es una variable continua con función de densidad de probabilidad f(x)


F (a)  P(X  a)   f x dx
x a

Se cumple que:
P(a < X ≤ b) = F(b) – F(a)

Ejemplo 28
Una variable aleatoria continua X tiene la siguiente función de distribución acumulativa:
 0 x0
 1
 x2 0  x 1
 4
F ( x)   1 1 5
2 x  4 1 x 
2

 1 x
5
 2
Calcule la siguiente probabilidad PX  2 X  0,5

Notas
Capítulo 3. Variables aleatorias y distribuciones de probabilidad 112
Valor esperado de una variable aleatoria continua
El valor esperado E(X) de una variable aleatoria continua X con distribución de probabilidad f(x) se
define por:
E  X   xf x dx

RX

El valor esperado E(X), también, se le conoce como media de la variable X, denotada por μX.

Valor esperado de una función de variable aleatoria continua


Sea G(X) una función de la variable aleatoria X. El valor esperado de G(X) es:
E G X   Gx f x dx

RX

Varianza de una variable aleatoria continua


La varianza V(X) de una variable aleatoria continua X con distribución de probabilidad f(x) se define
por:
V  X   E  X   2   x   
2
f x dx
RX

 
Se cumple V  X   E X 2   X2  x 2 f x    X2

RX

La varianza de la variable aleatoria X, V(X), también se denota por  X2 .

Desviación estándar de una variable aleatoria continua


 X   X2

Propiedades del valor esperado en variables aleatorias


E(b) = b
Si X e Y son variables aleatorias, a y b son constantes, entonces:
E(aX + bY) = a E(X) + b E(Y)
Si X1, X2, X3, . . ., Xn son n variables aleatorias, y a1, a2, a3, . . ., an son n constantes, entonces:
E a1 X 1  a2 X 2  ...  an X n   a1E X 1   a2E X 2   ...  an E X n 

Propiedades de la varianza en variables aleatorias


Si Y = aX + b, con a y b son constantes, entonces  Y  a  X
2 2 2

Si X1, X2, X3, . . ., Xn son n variables aleatorias independientes, y a1, a2, a3, . . ., an son n constantes,
entonces:
V a1 X1  a2 X2  ...  an X n   a12V X1   a22V X2   ...  an2V X n 
Variable estandarizada
X  x
La variable Z  , tiene esperado igual a 0 y varianza igual a 1.
X

Notas
Estadística EEGGLL 201702 113

3.4. Algunos modelos continuos importantes


Distribución de probabilidad uniforme
La variable aleatoria X tiene una distribución uniforme en el intervalo [a, b], si su función de densidad
de probabilidad es:
1
f x   ; axb
ba

Se denota X ~ U (a, b) y se lee que la variable aleatoria X sigue una distribución uniforme con paráme-
tros a, b.
La función de distribución acumulada es:
 0 ; x a
x a
F ( x)   ; axb
b  a
 1 ; x b

ab
Media   E X  
2

Varianza  2  V X  
b  a2
12

Ejercicio 89

Notas
Capítulo 3. Variables aleatorias y distribuciones de probabilidad 114
El tiempo, en minutos, que demora un servicio de delivery en entregar una pizza puede modelarse por
una variable aleatoria uniforme con parámetros 10 y 38. Si la pizza se tarda más de 30 minutos en ser
entregada, el cliente no la pagará.

Si una familia pide una pizza, calcule la probabilidad de que le salga gratis.

Si la familia pide una pizza diaria durante diez días seguidos, calcule la probabilidad de que por lo me-
nos una de ellas le salga gratis.

Una familia pidió una pizza hace 25 minutos y aún no ha llegado, ¿cuál es la probabilidad de que le
salga gratis?

Notas
Estadística EEGGLL 201702 115
Distribución normal
La variable aleatoria X tiene una distribución normal con parámetros μ y σ2 (σ2 > 0) si su función de
densidad de probabilidad es:
2
1 x 
1  
 
f x  e 2 ; x  IR
 2
Se denota X ~ N (, 2) y se lee que la variable aleatoria X sigue una distribución normal con parámetros
µ y σ2.
Media   E X   
Varianza  2  V X    2
La función de densidad de una variable normal tiene forma de campana y es simétrica, por lo que las
medidas de tendencia central coinciden.
El rango de la variable aleatoria normal es el conjunto de los números reales.

Estandarización de una variable normal


X
Sea X ~ N(μ,σ2), si Z  entonces la variable aleatoria Z tiene distribución normal y se cumple μZ

= 0 y σZ2 = 1. Se dice que la variable Z ~ N(0,1) tiene distribución normal estándar.
1
1  2 z2
La función de densidad de Z es  (z )  e
2

1
z 1  2 z2
La función de distribución acumulada de Z es (z)  
 2
e dz

Cálculo de probabilidades para una variable normal


Sea X ~ N(μ, σ2), entonces:
a X  b  a b 
P a  X  b  P     P Z 
        
b  a 
     
     

Notas
Capítulo 3. Variables aleatorias y distribuciones de probabilidad 116

Ejercicio 90
Si Z ~ N    0, 2  1 , calcular

P(Z < 1,17) =

P(Z > 0,43) =

P(0,5 < Z < 1,23) =

Hallar c para que P(Z < c) = 0,85083

Tabla de la distribución normal estándar


Área bajo la curva normal: PZ  z    

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586
0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535
0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409
0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173
0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793
0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240
0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490
0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524
0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327
0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891

1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214
1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298
1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147

Notas
Estadística EEGGLL 201702 117
Ejercicio 91
Una compañía ha comprado una prueba para seleccionar personal. Los que han diseñado la prueba
saben que las notas siguen una distribución normal con una media de 75 puntos y una desviación
estándar de diez puntos.
Calcule la probabilidad de que una persona obtenga una nota superior a 90 puntos.

Calcule la probabilidad de que una persona obtenga una nota entre 75 y 85 puntos.

Calcule el puntaje mínimo para estar en el 10% superior.

Calcule el puntaje máximo para estar en el 20% inferior.

Notas
Capítulo 3. Variables aleatorias y distribuciones de probabilidad 118
Ejemplo 29
Si los puntajes de los postulantes en un examen de ingreso se distribuyen como una variable aleatoria
normal con una media de 1 200 y una desviación estándar de 300 puntos.

a. Encontrar la probabilidad de que el puntaje de un postulante sea de por lo menos 1 300.


b. Si ingresa el 12,3 % de los postulantes con puntajes más altos, hallar el puntaje mínimo para ingre-
sar.

Solución
Definamos la variable aleatoria X := puntaje de un postulante.
μ = 1 200, σ = 300, σ2 = 3002 → X ~ N(1 200, 3002)

a. La probabilidad pedida es:


 X   1 300   
P X  1 300  1  PX  1 300  1  P  
   
 X  1200 1 300  1200 
= 1  P  
 300 300 
 1  PZ  0,33  1  0,33  0,3707

b. Sea k el puntaje mínimo para ingresar.


Se tiene P( X  k)  0,123 , luego P( X  k)  0,877 .
Estandarizando tendremos que:
 X  1 200 k  1 200   k  1 200 
P    P Z    0,877
 300 300   300 
De lo cual, se tiene que:
 k  1 200 
   0,877
 300 
k  1 200
En la tabla N(0, 1) observamos que (1,16)  0 ,8770, luego  1,16 , de donde k = 1 548.
300

Notas
Estadística EEGGLL 201702 119
Propiedad reproductiva de la normal
 
Sean X e Y dos variables aleatorias normales e independientes, tales que X ~ N X , X2 e Y ~ N Y , Y2  
, c1 y c2 constantes reales, entonces se cumple que:

S  c1 X  c2Y ~ N c1  X  c2 Y , c12 X2  c22 Y2 
Esta propiedad se puede generalizar para la suma de más variables normales independientes.

La suma
con otra es una
de una
variable variable
variable
aleatoria aleatoria
aleatoria
normal normal
normal

- Si Xi ~ N(μ, σ2) (i = 1, 2,…, n) son variables aleatorias independientes, entonces la variable

 X ~ Nn , n 
n
S i
2

i 1

Ejercicio 92
Sean X ~ N(5, 6) e Y ~ N(8, 10) variables aleatorias independientes, calcular la distribución de las si-
guientes variables:

S=X+Y

S=X–Y

S = 4X - 5Y

Ejercicio 93
Notas
Capítulo 3. Variables aleatorias y distribuciones de probabilidad 120
El peso de un adulto peruano puede modelarse con una variable aleatoria normal. El peso medio para
los varones es de 72 kilos y de 64 kilos para las mujeres, mientras que sus desviaciones estándar fueron
de 8 kilos y 4 kilos respectivamente. Si a un ascensor se suben tres hombres y dos mujeres, calcule la
probabilidad de que el peso total supere los 340 kilos.

Ejercicio 94
Una familia tiene tres hijos. El monto de la propina semanal que se le da a cada hijo puede modelarse
como una variable normal. Al menor se le da en promedio 30 soles con una desviación estándar de
cinco soles, al segundo le da el doble que al menor y al mayor se le da el triple que al menor. Calcular
la probabilidad de que en cuatro semanas la suma total recibida en propinas por los tres sume más de
700 nuevos soles.

Notas
Estadística EEGGLL 201702 121

3.5. Teorema central del límite


Si n variables aleatorias independientes X1, X2, X3,...Xn tienen la misma distribución de probabilidad con
media  y varianza 2, entonces para la variable aleatoria S = X1 + X2 + X3 +...+ Xn se tiene que S tiende
a seguir una distribución normal a medida que n crece.
Se considera que S sigue aproximadamente una distribución normal si n  30.

Se tiene que:
Media E S   n
Varianza V S   n 2

Ejercicio 95
Los ingresos por factura en un restaurante pueden modelarse con una variable aleatoria de media 84
soles y desviación estándar 12 soles. ¿Cuál es la probabilidad de que los ingresos totales por 100 fac-
turas elegidas al azar sean de más de 8650 soles?

Ejercicio 96
Una persona lanza dos dados tres mil veces, calcule la probabilidad de que la suma de todos los lanza-
mientos supere los 21500 puntos.

Notas
Capítulo 3. Variables aleatorias y distribuciones de probabilidad 122
Aplicaciones del teorema central del límite

- Sea X1, X2,…, Xn una muestra aleatoria de tamaño n de la variable aleatoria X tal que E(Xi) = , V(Xi)
n

X i
=  (i = 1, 2,…, n). Se define la variable aleatoria media muestral como X 
2 i 1
; entonces se
n
 2 
puede afirmar X  N  ,  siempre y cuando n ≥ 30.
 n 
- La distribución de una variable aleatoria X ~ B(n, p) se puede aproximar por una distribución N(np,
npq) siempre y cuando n ≥ 30. La aproximación es buena si, además, se verifica que np es mayor a
5 y nq = n(1-p) es mayor a 5.
X
- Sea X ~ B(n, p), Se define la variable aleatoria proporción muestral como P  ; entonces se puede
n
 p1  p 
afirmar P  N p ,  siempre y cuando n ≥ 30.
 n 

Ejercicio 97
Los sueldos mensuales, en dólares, de los directivos de una multinacional se modelan con una distri-
bución N(10 000, 1 000) mientras que los del resto de personal se modelan con una N(4 000, 2 000). Si
se extrae una muestra aleatoria de 10 directivos y de 20 empleados no directivos, ¿cuál es la probabi-
lidad de que el sueldo medio mensual de los directivos de la muestra supere al correspondiente de la
muestra de empleados no directivos en más de 5 000 dólares?

Notas
Estadística EEGGLL 201702 123
Ejercicio 98
En una facultad el …………% de alumnos que está a favor de aprobar una ley sobre unión civil. Si de esa
facultad se sacara una muestra de 50 alumnos, calcule la probabilidad de que el porcentaje muestral
de alumnos a favor de aprobar una ley sobre unión civil esté entre …….…..% y …….……%.

Ejercicio 99
Por un estudio previo se estima que la probabilidad de que un elector vote por la elección del candidato
oficialista es del 25%. Si 1000 electores son entrevistados uno por uno de manera independiente, en-
contrar la probabilidad de que por lo menos 275 de ellos voten por el candidato oficialista.

Notas
Capítulo 3. Variables aleatorias y distribuciones de probabilidad 124
Ejercicios

48. Si una máquina de una imprenta se malogra, ésta puede destinarse a uno de dos talleres A o B
para su reparación. El tiempo de reparación en el taller A es una variable normal con una media
de 5 horas y una desviación estándar de 3 horas. El tiempo de reparación en el taller B es una
variable aleatoria normal con una media de 7 horas y una desviación estándar de 2 horas.
a) ¿En qué taller es más probable que la máquina se repare en menos de 8 horas?
b) Calcule la probabilidad de que la reparación demore más en el taller B que en el taller A.

49. El porcentaje de determinado compuesto, contenido en un galón de cierto líquido industrial, se


modela con una distribución normal con una media de 15% y una desviación estándar de 3%. El
fabricante del líquido obtiene una utilidad neta por galón de $0,15 si el porcentaje del compuesto
está entre 9% y 21%, mientras que la utilidad es de $0,10 si el porcentaje varía entre 21% y 27%.
Cuando el porcentaje está entre 3% y 9%, el fabricante sufre una pérdida de $0,05. Calcular la
utilidad esperada por galón.

50. En un estudio de evaluación de la atención de un servicio de cafeterías se encontró que los tiem-
pos, en minutos, que tardan en atender a un cliente las cafeterías A y B se pueden modelar con
las variables aleatorias X ~ N(4,9) y Y ~ N(5,16) respectivamente y de manera independiente. Si
en cada cafetería son atendidas 20 personas, halle la probabilidad de que el tiempo total de aten-
ción en la cafetería B sea mayor que el de la cafetería A.

51. En una fábrica, el 25% de los corchos para las botellas de vino se producen en una máquina y la
distribución de los diámetros de estos corchos se modela normal con una media de 3 cm y una
desviación estándar de 0,1 cm. El resto de la producción de corchos para botellas de vino se rea-
liza en otra máquina y en este caso la distribución de los diámetros de los corchos se modela
normal con media 3,04 cm y varianza 0,0004 cm2. Los corchos son considerados aceptables si sus
diámetros están entre 2,9 y 3,1 cm. ¿Cuál es la probabilidad de que un corcho producido en esta
fábrica sea considerado aceptable?

52. La estatura de las personas de un país se puede modelar por una variable normal con una media
de 1,68 metros y una desviación estándar de 8 centímetros. Si se eligen al azar personas para
medir su estatura, calcule el valor esperado y desviación estándar del número de personas elegi-
das hasta encontrar a las primeros doce personas que midan más de 1,80.

53. Cuando el cemento y el agua entran en contacto, se inicia una reacción química exotérmica que
determina el endurecimiento de la mezcla. Dentro del proceso de endurecimiento se presenta un
estado en que la mezcla pierde su plasticidad y se vuelve difícil de manejar; tal estado corres-
ponde al fraguado inicial de la mezcla. El tiempo de fraguado inicial de un tipo de cemento puede
modelarse por una variable aleatoria normal con una media de 50 minutos y una desviación es-
tándar de 10 minutos.
a. Calcule la probabilidad de que el cemento tenga un tiempo de fragua inicial menor a 40 mi-
nutos.
b. Calcule el tiempo máximo para estar en el 25% de las mezclas con menor tiempo de fraguado
inicial.
c. Si un obrero prepara dos mezclas independientes, calcule la probabilidad de que la diferen-
cia entre los tiempos de fraguado inicial de estas mezclas sea menor a 5 minutos.

Notas
Estadística EEGGLL 201702 125
54. Los pesos de los posibles usuarios de un ascensor constituyen una población cuya distribución es
normal con media 70 kg y una desviación estándar de 10 kg.
a. ¿Qué peso máximo debería poder soportar el ascensor de modo que sólo el 1% de las oca-
siones el peso de cuatro personas supere ese peso máximo?
b. Si el ascensor admite como peso máximo 585 kg, ¿cuántas personas a la vez pueden entrar
al ascensor de manera que sea 0,0668 la probabilidad de que el peso no supere el máximo
permitido?

55. El ingreso mensual de las socias de una cooperativa se modela por una variable aleatoria con
media de 2800 nuevos soles y desviación estándar de 500 nuevos soles. Si 80 de las socias han
decidido que destinarán el 3% de sus ingresos para constituir un fondo común que sirva para
posibles emergencias, calcule la probabilidad de que en un año el fondo tenga más de 81 mil
nuevos soles.

56. El peso de los pasajeros que abordan un ómnibus de transporte interprovincial tiene una media
de 60 kilogramos y una desviación estándar de 19 kilogramos. Si se sabe que los 72 asientos de
pasajeros están ocupados, ¿cuál es la probabilidad de que el peso medio de los pasajeros supere
los 65 kilogramos?

57. La cantidad de mango que exporta una empresa mensualmente es una variable con una media
de 25 toneladas y una desviación estándar de cuatro toneladas. Encontrar la probabilidad de que
la cantidad exportada en tres años sea menor a 920 toneladas. Asuma independencia entre las
cantidades mensuales exportadas.

58. El porcentaje de los clientes de una tienda por departamentos que paga con la tarjeta de crédito
de la tienda es 72%. Si se toma una muestra aleatoria de 250 clientes, calcule la probabilidad de
que menos de 75% de los clientes de la muestra paguen con tarjeta de crédito.

Notas
Estadística EEGGLL 201702 127

Capítulo 4. Introducción a la Estadística Inferen-


cial
4.1. Muestra aleatoria
Una muestra aleatoria de tamaño n de la variable aleatoria X, es un conjunto de n variables aleatorias
X1, X2,…, Xn independientes y con la misma distribución que la variable aleatoria X.
Así, dada una variable aleatoria X con E(X) =  y V(X) = 2; si X1, X2,…, Xn es una muestra aleatoria de X,
entonces E(Xi) = , V(Xi) = 2 (i = 1, 2,…, n)

Estadístico
Un estadístico es cualquier función de las variables de una muestra aleatoria.
Un estadístico es una variable aleatoria.

Distribución muestral
Es la distribución de probabilidades de un estadístico.

4.2. Estimación de parámetros

Estimador puntual
Un estimador puntual es un estadístico para estimar un parámetro.
Los siguientes son ejemplos de estimadores puntuales.
- La media muestral X es un estimador puntual de la media poblacional µ.
- La proporción muestral P es un estimador puntual de la proporción poblacional p.
n

 x  x 
i 1
i
2

- La varianza muestral S 2  es un estimador puntual de la varianza poblacional σ2.


n 1
Un estimador puntual de un parámetro es una variable aleatoria y la estimación puntual es un número
real.

Ejemplos de estimaciones puntuales


- La velocidad media de viaje en Lima se estima en 16,8 km/h
- Se estima que el 67,1% de los pasajeros de buses opinan que la tarifa es justa
- La desviación estándar estimada de la antigüedad de los ómnibus de transporte público es de 8,2
años

Notas
Capítulo 4. Introducción a la Estadística Inferencial 128
Estimación de parámetros por intervalo de confianza
Sean x1, x2,…, xn los valores experimentales de una muestra aleatoria X1, X2,…, Xn de la variable aleatoria
X cuya función de distribución depende del parámetro .
Un intervalo de confianza proporciona información acerca de qué tan cerca se encuentra la estimación
puntual, calculada con los datos de la muestra, del verdadero valor del parámetro de interés.
El intervalo [A, B] se denomina intervalo de confianza al nivel (1-) para estimar el parámetro ,
Un intervalo de confianza al nivel (1-) x 100% para el parámetro , es un intervalo que con probabili-
dad (1-) contiene al parámetro.

La forma general de una estimación por intervalo es:


I(parámetro) = Estimación puntual del parámetro ± margen de error

El margen de error determina qué tan precisa es la estimación realizada, y este valor depende de los
siguientes factores: tamaño de la muestra n, nivel de confianza (1-) y variabilidad de la población .

Interpretación del nivel de confianza


Por ejemplo, para un intervalo de confianza para la media µ a un nivel de confianza del 95%
- Si se seleccionan repetidamente 1000 muestras de tamaño n, y calculamos la media de cada una
de ellas, podremos realizar 1000 estimaciones por intervalo de confianza para la media poblacional
.
- Se espera o confía que aproximadamente 950 de los intervalos de confianza hallados contengan el
parámetro  y los restantes no lo contengan.

Ejemplo 30
Intervalos a 95% de confianza para µ generados con once muestras de tamaño n.

Fuente: http://www.fisicanet.com.ar/matematica/estadisticas/ap08_inferencia_estadistica.php

Notas
Estadística EEGGLL 201702 129
Intervalo de confianza para la media poblacional
Sean x1, x2,…, xn los valores experimentales de una muestra aleatoria X1, X2,…, Xn de la variable aleatoria
X, con E(Xi) = , V(Xi) = 2.

Se requiere estimar la media poblacional (µ) usando esta muestra aleatoria y con un nivel de confianza
de (1-α) x 100%

Si la población es normal o el tamaño de muestra n es mayor o igual a 30, entonces el intervalo de


confianza para µ, a un nivel de confianza de (1-α) x 100%, es:
   
I()   x  z  ; xz  
 n 
1 n 1
2 2

donde x es la media calculada con los datos de la muestra de tamaño n.

Si la población es normal o el tamaño de muestra n es mayor o igual a 30, entonces el intervalo de


confianza para µ, a un nivel de confianza de (1-α) x 100%, es
 s s 
I()   x  z  ; xz  
 n 
1 n 1
2 2

 x  x 
i 1
i
2

donde x es la media calculada con los datos de la muestra de tamaño n y s 


n 1

Ejemplo 31
Para estimar el precio medio de las guías turísticas para visitar el Cusco se elige una muestra aleatoria
formada por 34 guías y se determina que la media muestral es de S/.34,90. Por estudios realizados
anteriormente se sabe que la desviación estándar de los precios de estas guías es de S/.4,50. Construya
un intervalo de confianza para el precio medio de las guías turísticas para visitar el Cusco, al nivel del
95%. Interprete.

Solución
El intervalo de confianza al 95% está dado por
 
x  z 0,975    x  z 0 ,975
n n
Reemplazando los datos tenemos:
4,5 4,5
34,9  1,96    34,9  1,96
34 34
33,39    36,41
El precio medio de las guías de turismo para visitar el Cusco, se estima entre S/.33,39 y S/.36,41, con
una confianza del 95%.

Notas
Capítulo 4. Introducción a la Estadística Inferencial 130
Ejercicio 100
Para estimar el puntaje medio en una prueba de pensamiento crítico se aplica la prueba a una muestra
aleatoria de 120 estudiantes de EEGGLL. El manual de instrucciones de la prueba reporta que la des-
viación estándar de los puntajes es ocho puntos. El puntaje medio de los estudiantes evaluados es 68
puntos. Con esta información, estime e interprete el puntaje medio poblacional en la prueba de pen-
samiento crítico para los estudiantes de EEGGLL con un nivel de confianza del 95%.

Tamaño de muestra para estimar la media poblacional


La forma general de una estimación por intervalo es:

I(µ) = Estimación puntual de la media ± margen de error

El margen de error determina qué tan precisa es la estimación realizada, y este valor depende de los
siguientes factores: tamaño de la muestra n, nivel de confianza (1-) x 100% y variabilidad de la pobla-
ción .
Para tener una confianza de (1-) x 100% de que el margen de error o error de estimación, al estimar
la media poblacional con la media muestral, sea de a lo más e unidades:
P| X   | e   1    e  z    __
1 X
2

De la expresión anterior, se deduce que:


- Si la población es infinita o el muestreo es con reposición
 z  
2

 1 
n 2 
 e 
 
- El tamaño de muestra n debe ser un número entero. Si es necesario el valor obtenido en las expre-
siones anteriores se aproxima al siguiente entero.
- Si σ es desconocida, para encontrar el tamaño de muestra, σ se estima por sx.

Notas
Estadística EEGGLL 201702 131
Ejemplo 34
El peso de cierto tipo de motores se modela con una variable con desviación estándar de 7,04 kilos.
Calcular el tamaño de muestra para que con una confianza del 99% el error de estimación, al estimar
la media poblacional por la media muestral, sea de a lo más dos kilos.

Solución
Sea X = peso del motor, en kilos, la desviación estándar σ = 7,04 kilos y error máximo e = 2 kilos.

El nivel de confianza 1- α es 0,99, luego 1   0,995  z 0 ,995  2,575
2
Luego, el tamaño de muestra será
2
 2,575  7,04 
n   82,15
 2 
El tamaño de muestra n se aproxima al entero siguiente, luego n = 83.
Basta tomar una muestra de 83 motores para que la estimación del peso medio, al 99% de confianza,
tenga un error máximo de dos kilos.

Ejercicio 101
Se pide al administrador de un supermercado que estime el tiempo medio que invierte una cajera en
atender a un cliente. Le piden que las estimaciones tengan un nivel de una confianza del 90% y un
margen de error de 10 segundos. Si se sabe que la desviación estándar poblacional es de 0,5 minutos,
¿cuál debe ser el tamaño de muestra?

Notas
Capítulo 4. Introducción a la Estadística Inferencial 132
Intervalos de confianza para la proporción poblacional

Sean x1, x2,…, xn los valores experimentales de una muestra aleatoria X1, X2,…, Xn de una población
Bernoulli(p), tales que con E(Xi) = p, V(Xi) = p(1-p)  i = 1,..,n..

El intervalo de confianza para la proporción poblacional p con un nivel de confianza de (1-) x 100% es
 p 1  p  p 1  p  
I(p)  p  z  ; pz  
 n 
1 n 1
2 2

donde p es la proporción muestral de éxitos observada en la muestra de tamaño n.

Ejemplo 35
En una muestra aleatoria de 100 clientes de una empresa de telefonía celular, se encontró que 28 de
ellos presentaron quejas por fallas en el servicio durante el mes de abril. Calcule e interprete un inter-
valo con una confianza del 90%, para la proporción de clientes de esta empresa que presentaron quejas
por fallas en el servicio, durante el mes de abril.

Solución

El nivel de confianza (1- α) es 0,90, luego 1   0,95  z0 ,95  1,645
2
28 p 1  p  (0,28)(1  0,28)
n  100 ; p   0,28 ;   0,045
100 n 100
Luego, el intervalo de confianza pedido es
I(p)  [0,28  1,645  0,045]  0,28  0,074
La proporción de clientes que presentaron quejas por fallas en el servicio, durante el mes de abril, se
estima entre 0,206 y 0,354, con una confianza del 90%.

Ejercicio 102
A una muestra aleatoria de 650 personas mayores de 18 años de una ciudad determinada se les pre-
guntó si estaban a favor de un incremento del 4% en el impuesto al precio de la gasolina para obtener
fondos necesarios que se destinarían a un programa de asistencia social. Si en la muestra elegida se
encontró que 312 están a favor del impuesto adicional, calcule e interprete un intervalo de confianza
del 90% para la verdadera proporción de personas a favor del nuevo impuesto.

Ejercicio 103
Notas
Estadística EEGGLL 201702 133
Se quiere estimar la aprobación del presidente de la república para lo cual se realizó una encuesta
nacional, en la cual se entrevistó a 1116 personas, encontrándose que 854 de ellas no estaban de
acuerdo con la gestión presidencial. Calcule un intervalo de confianza al 96% para proporción pobla-
cional de las personas que están de acuerdo con la gestión presidencial. Además, determine el margen
de error. Interprete.

Tamaño de muestra para estimar una proporción poblacional


Para tener un nivel de confianza de (1- ) x 100% de que el error de estimación al estimar la proporción
poblacional por la proporción muestral, sea de a lo más e:

 
P P  p  e  1   e  z
1
   __
P
2

Si la población es infinita o el muestreo es con reposición, entonces:


z 2  p1  p
1
n 2

e2
Como p es desconocida (p es el parámetro que se desea estimar), para encontrar el tamaño de mues-
tra, el valor p se reemplaza por una estimación previa disponible o por 0,5.
El tamaño de muestra n debe ser un número entero. Si es necesario el valor obtenido en las expresio-
nes anteriores se aproxima al siguiente entero.

Ejercicio 104
Una empresa encuestadora quiere realizar una investigación sobre intención de voto a favor de cierto
candidato en la segunda vuelta electoral de las próximas elecciones presidenciales. Desea que los re-
sultados tengan un nivel de confianza del 95% y un margen de error del 2,8%. Calcule el tamaño de
muestra necesario para dicha encuesta.

Ejercicio 105
Notas
Capítulo 4. Introducción a la Estadística Inferencial 134
Una compañía de investigación de mercado desea estimar el porcentaje de hogares que tienen Inter-
net en casa, ¿cuántos hogares debe encuestarse si desea tener un nivel de confianza del 99% y un
margen de error del 2%? En una investigación del año pasado se determinó que el porcentaje de ho-
gares con Internet era del 36%.

Notas
Estadística EEGGLL 201702 135
Ejercicios

59. El gerente financiero de una cadena de tiendas desea estimar la proporción de clientes que utili-
zan tarjetas de crédito, ¿qué tamaño de muestra es necesario si el intervalo de confianza del 95%
para la proporción debe tener una longitud de a lo sumo 0,10?

60. Un intervalo de confianza para el porcentaje de taxis informales en Lima es [69,6; 80,4]. Si este
intervalo se obtuvo a partir de una muestra de 200 taxis, ¿cuál es su nivel de confianza?

61. Una empresa constructora desea estimar, con un nivel de confianza del 95% y un error máximo
de estimación de 0,025 la proporción de personas de una determinada ciudad que comprarían
una vivienda de dimensiones comprendidas entre 180 y 200 m 2. Para ello pretende tomar una
muestra aleatoria entre los potenciales compradores de vivienda, disponiendo para realizar el
muestreo de 10 000 dólares.
a. Si cada elemento muestreado supone un costo de 10 dólares, ¿es suficiente el presupuesto
disponible?
b. ¿Qué nivel de confianza se puede alcanzar con 10 000 dólares de presupuesto, si se pretende
mantener el error máximo de estimación en 0,025?

62. En un restaurante universitario, el peso de la ración de arroz que se pone en un plato del menú
se puede modelar como una variable aleatoria normal. Si se pesan las raciones de arroz de 116
menús escogidos al azar y se encuentra una media muestral de 220 gramos y una desviación es-
tándar muestral de 25 gramos. Estime la media poblacional del peso de la ración de arroz en cada
plato con un nivel de confianza del 95%.

63. En la ficha técnica de la encuesta realizada por Ipsos Apoyo Opinión y Mercado S.A. y publicada
el día 22 de julio de 2007 en el diario El Comercio se afirma que el margen de error fue de 4,4%
con un nivel de confianza del 95%. ¿Qué tamaño mínimo de muestra se debe usar para cumplir
con dichas especificaciones?

64. En una investigación realizada en el Valle de los ríos Apurímac y Ene (VRAE) se tomó una muestra
aleatoria de 350 viviendas y se estimó en 80%  4,8% el porcentaje de viviendas que no tienen
agua potable. Encontrar el nivel de confianza de la estimación.

65. Para estimar el porcentaje de colegíos rurales que tienen por lo menos una computadora, una
universidad realizó una encuesta en 200 colegios rurales. Si en el informe de esta encuesta se
indicó que el porcentaje de colegios rurales con por lo menos una computadora se estima entre
33,2% y 46,8%, determine con qué nivel de confianza se realizó la estimación.

Notas
Tablas estadísticas 136

Tablas estadísticas
Tabla de la distribución normal estándar Área bajo la curva PZ  z    

Z -0,09 -0,08 -0,07 -0,06 -0,05 -0,04 -0,03 -0,02 -0,01 -0,00
-3,9 0,000033 0,000034 0,000036 0,000037 0,000039 0,000041 0,000042 0,000044 0,000046 0,000048
-3,8 0,000050 0,000052 0,000054 0,000057 0,000059 0,000062 0,000064 0,000067 0,000069 0,000072
-3,7 0,000075 0,000078 0,000082 0,000085 0,000088 0,000092 0,000096 0,000100 0,000104 0,000108
-3,6 0,000112 0,000117 0,000121 0,000126 0,000131 0,000136 0,000142 0,000147 0,000153 0,000159
-3,5 0,000165 0,000172 0,000178 0,000185 0,000193 0,000200 0,000208 0,000216 0,000224 0,000233
-3,4 0,000242 0,000251 0,000260 0,000270 0,000280 0,000291 0,000302 0,000313 0,000325 0,000337
-3,3 0,000349 0,000362 0,000376 0,000390 0,000404 0,000419 0,000434 0,000450 0,000466 0,000483
-3,2 0,000501 0,000519 0,000538 0,000557 0,000577 0,000598 0,000619 0,000641 0,000664 0,000687
-3,1 0,000711 0,000736 0,000762 0,000789 0,000816 0,000845 0,000874 0,000904 0,000935 0,000968
-3,0 0,001001 0,001035 0,001070 0,001107 0,001144 0,001183 0,001223 0,001264 0,001306 0,001350

-2,9 0,00139 0,00144 0,00149 0,00154 0,00159 0,00164 0,00169 0,00175 0,00181 0,00187
-2,8 0,00193 0,00199 0,00205 0,00212 0,00219 0,00226 0,00233 0,00240 0,00248 0,00256
-2,7 0,00264 0,00272 0,00280 0,00289 0,00298 0,00307 0,00317 0,00326 0,00336 0,00347
-2,6 0,00357 0,00368 0,00379 0,00391 0,00402 0,00415 0,00427 0,00440 0,00453 0,00466
-2,5 0,00480 0,00494 0,00508 0,00523 0,00539 0,00554 0,00570 0,00587 0,00604 0,00621
-2,4 0,00639 0,00657 0,00676 0,00695 0,00714 0,00734 0,00755 0,00776 0,00798 0,00820
-2,3 0,00842 0,00866 0,00889 0,00914 0,00939 0,00964 0,00990 0,01017 0,01044 0,01072
-2,2 0,01101 0,01130 0,01160 0,01191 0,01222 0,01255 0,01287 0,01321 0,01355 0,01390
-2,1 0,01426 0,01463 0,01500 0,01539 0,01578 0,01618 0,01659 0,01700 0,01743 0,01786
-2,0 0,01831 0,01876 0,01923 0,01970 0,02018 0,02068 0,02118 0,02169 0,02222 0,02275

-1,9 0,02330 0,02385 0,02442 0,02500 0,02559 0,02619 0,02680 0,02743 0,02807 0,02872
-1,8 0,02938 0,03005 0,03074 0,03144 0,03216 0,03288 0,03362 0,03438 0,03515 0,03593
-1,7 0,03673 0,03754 0,03836 0,03920 0,04006 0,04093 0,04182 0,04272 0,04363 0,04457
-1,6 0,04551 0,04648 0,04746 0,04846 0,04947 0,05050 0,05155 0,05262 0,05370 0,05480
-1,5 0,05592 0,05705 0,05821 0,05938 0,06057 0,06178 0,06301 0,06426 0,06552 0,06681
-1,4 0,06811 0,06944 0,07078 0,07215 0,07353 0,07493 0,07636 0,07780 0,07927 0,08076
-1,3 0,08226 0,08379 0,08534 0,08691 0,08851 0,09012 0,09176 0,09342 0,09510 0,09680
-1,2 0,09853 0,10027 0,10204 0,10383 0,10565 0,10749 0,10935 0,11123 0,11314 0,11507
-1,1 0,11702 0,11900 0,12100 0,12302 0,12507 0,12714 0,12924 0,13136 0,13350 0,13567
-1,0 0,13786 0,14007 0,14231 0,14457 0,14686 0,14917 0,15151 0,15386 0,15625 0,15866

-0,9 0,16109 0,16354 0,16602 0,16853 0,17106 0,17361 0,17619 0,17879 0,18141 0,18406
-0,8 0,18673 0,18943 0,19215 0,19489 0,19766 0,20045 0,20327 0,20611 0,20897 0,21186
-0,7 0,21476 0,21770 0,22065 0,22363 0,22663 0,22965 0,23270 0,23576 0,23885 0,24196
-0,6 0,24510 0,24825 0,25143 0,25463 0,25785 0,26109 0,26435 0,26763 0,27093 0,27425
-0,5 0,27760 0,28096 0,28434 0,28774 0,29116 0,29460 0,29806 0,30153 0,30503 0,30854
-0,4 0,31207 0,31561 0,31918 0,32276 0,32636 0,32997 0,33360 0,33724 0,34090 0,34458
-0,3 0,34827 0,35197 0,35569 0,35942 0,36317 0,36693 0,37070 0,37448 0,37828 0,38209
-0,2 0,38591 0,38974 0,39358 0,39743 0,40129 0,40517 0,40905 0,41294 0,41683 0,42074
-0,1 0,42465 0,42858 0,43251 0,43644 0,44038 0,44433 0,44828 0,45224 0,45620 0,46017
-0,0 0,46414 0,46812 0,47210 0,47608 0,48006 0,48405 0,48803 0,49202 0,49601 0,50000
Estadística EEGGLL 201702 137
Tabla de la distribución normal estándar
Área bajo la curva: PZ  z    

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586
0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535
0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409
0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173
0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793
0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240
0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490
0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524
0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327
0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891

1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214
1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298
1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147
1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91309 0,91466 0,91621 0,91774
1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189
1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408
1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449
1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327
1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062
1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670

2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169
2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574
2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899
2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643
2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736
2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807
2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861

3,0 0,998650 0,998694 0,998736 0,998777 0,998817 0,998856 0,998893 0,998930 0,998965 0,998999
3,1 0,999032 0,999065 0,999096 0,999126 0,999155 0,999184 0,999211 0,999238 0,999264 0,999289
3,2 0,999313 0,999336 0,999359 0,999381 0,999402 0,999423 0,999443 0,999462 0,999481 0,999499
3,3 0,999517 0,999534 0,999550 0,999566 0,999581 0,999596 0,999610 0,999624 0,999638 0,999651
3,4 0,999663 0,999675 0,999687 0,999698 0,999709 0,999720 0,999730 0,999740 0,999749 0,999758
3,5 0,999767 0,999776 0,999784 0,999792 0,999800 0,999807 0,999815 0,999822 0,999828 0,999835
3,6 0,999841 0,999847 0,999853 0,999858 0,999864 0,999869 0,999874 0,999879 0,999883 0,999888
3,7 0,999892 0,999896 0,999900 0,999904 0,999908 0,999912 0,999915 0,999918 0,999922 0,999925
3,8 0,999928 0,999931 0,999933 0,999936 0,999938 0,999941 0,999943 0,999946 0,999948 0,999950
3,9 0,999952 0,999954 0,999956 0,999958 0,999959 0,999961 0,999963 0,999964 0,999966 0,999967
Tablas estadísticas 138

Índice alfabético

Coeficiente de correlación, 64 de barras apiladas, 30


Coeficiente de variación, 50 de barras apiladas al 100%, 30
Desviación estándar, 47 Diagrama de cajas, 52
Distribución Histograma, 26
binomial, 103 Ojiva, 26
de frecuencias, 18, 22, 23 Polígono de frecuencias, 26
de probabilidad, 98 Intervalo de confianza
hipergeométrica, 106 media poblacional, 129
normal, 115 proporción poblacional, 132
uniforme continua, 113 Media, 42
Escalas de medición Mediana, 40
intervalo, 16 Moda, 38
nominal, 15 Muestra, 8
ordinal, 15 Parámetro, 12
razón, 16 Población, 8
Espacio muestral, 73 Propiedad reproductiva de la normal, 119
Estadística Puntuación estandarizada Z, 54
Definición, 7 Rango, 51
Estadístico, 12, 127 Rango intercuartil, 51
Evento, 74 Teorema
Eventos de Bayes, 89
independientes, 91 Valor esperado
Experimento aleatorio, 73 de una función de una variable aleatoria, 101, 112
Experimento de Bernoulli, 103 Variable, 14
Función aleatoria continua, 108
de densidad, 108 aleatoria discreta, 98
Gráfico Varianza, 47
de barras, 21 de una variable aleatoria, 102, 112