Escolar Documentos
Profissional Documentos
Cultura Documentos
SEGUNDA EDICIÓN
Las opiniones expresadas en esta publicación son responsabilidad directa de sus autores
y no necesariamente representan los puntos de vista de la Institución Universitaria Esumer.
Coordinación Editorial
Comité Editorial Esumer
Diseño de Portada
Mónica Vasco
Revisión y Evaluación
Dirección de Investigación y Extensión Esumer
Corrección de Estilo
Juliana Marcela Vélez Díaz
Diseño y Diagramación
Sergio Andrés Calderón Ossa
Sobre la autora
Agradecimiento
Presentación
PARTE I
3.1 La media.
3.1.1 Propiedades de la media.
3.2 La mediana.
3.2.1 La mediana para datos desagrupados.
3.2.2 La mediana para datos agrupados.
3.3 La moda.
4. Medidas de variabilidad
4.1 La varianza.
4.1.1 Propiedades de la varianza.
4.2 La desviación típica o estándar.
4.3 Coeficiente de variación.
4.4 El rango recorrido.
4.5 Recorrido intercuartílico.
5.1 Cuartiles.
5.1.1 Cuartiles para datos sin agrupar.
5.1.2 Cuartiles para datos agrupados.
5.2 Deciles.
5.2.1 Deciles para datos sin agrupar.
5.2.1 Deciles para datos agrupados.
5.3 Percentiles.
8.30 Análisis estadístico del comportamiento asimétrico de las ventas en una cadena
de supermercados.
8.31 Tiempo empleado en efectuar transacciones financieras.
8.32 Trabajo social y análisis del gasto en alimentación.
8.33 Cadena de minimercados y el volumen de ventas.
8.34 Producción mensual en textiles.
8.35 Gasto en publicidad de almacenes distribuidores de maletines en cuero.
8.36 Número de empleados por secciones en una compañía e ingreso promedio.
8.37 Nivel de capacitación semanal en corporaciones de ahorro y vivienda.
8.38 Urbanización de tres torres destinada para el arriendo de apartamentos.
8.39 Volumen de importación anual de materia prima.
8.40 Consumidores potenciales de una bebida alimenticia.
PARTE II
9. Probabilidades
PARTE III
PARTE IV
PARTE V
Sobre la autora
Agradecimiento
A ti que no te veo, pero siempre estás presente, a ti que te debo la vida y todo lo que
soy, a ti que pensaste en mí desde antes de yo nacer, a ti que iluminas mi camino y llenas mi
vida de esperanza, a ti que me ayudas a soportar y a superar las diferentes dificultades que se
presentan en mi camino. Gracias infinitas por todo lo que me ofreces, por ayudarme a
perdonar, a superar los obstáculos y por las personas nobles que has puesto en las diferentes
etapas de mi vida.
Con amor,
Presentación
PARTE I
1. La investigación.
Desde la niñez, todo ser humano investiga aún sin ser consciente de ello, el infante
observa y descubre nuevas sensaciones; con la experiencia de observar y descubrir por medios
propios se llega al conocimiento de algo nuevo, al menos para dicho ser humano. En todas las
etapas de la vida, de algún modo se investiga; durante el proceso de culturización y educación
se recurre a la investigación como elemento fundamental para la construcción de conocimiento.
Estadística para educación superior
MOMENTO INICIAL
se parte de
Necesidad Problema
satisfacer resolver
OJETIVO
a través de
LA INVESTIGACIÓN
Estadística para educación superior
Surge una pregunta fundamental: ¿Cómo alcanzar el objetivo?, ¿cómo hacer las cosas
para poder solucionar el problema?, el cómo hacerlo hace referencia al método, y la explicación
de este método es precisamente lo que se denomina metodología de la investigación, lo que
implica procedimientos teóricos basados en análisis lógicos previamente comprobados por la
ciencia, y procedimientos empíricos basados en experiencia y opinión subjetiva.
Es la explicación de cómo aplicar el método científico a una investigación; son los pasos y
estrategias que utiliza el método científico, el cual construye conocimiento basándose en el
análisis lógico del pensamiento intelectual y empleando leyes generales y particulares
reconocidas previamente por la ciencia. La ejecución ordenada de la serie de pasos desemboca
en la conformación de un proceso, caracterizado por ser sistémico, objetivo y racional. Cada una
de las ciencias utiliza una terminología propia (términos y conceptos), así como procesos de
investigación particulares al interior de la misma.
Estadística para educación superior
4. La ciencia.
Expresiones como la casa, la universidad, la empresa, el carro, el libro, etc., todos estos
son sustantivos comunes que identifican algo, de igual manera se identifica la ciencia, al afirmar
que la ciencia es una empresa. Esta empresa tiene unos empleados o trabajadores que se
llaman investigadores, los cuales trabajan con diferentes insumos:
Descripción,
explicación,
formulación,
predicción.
Estadística para educación superior
Para comprender el concepto que se transmite con este título, se hace indispensable
concebir con gran claridad lo que es un problema y la acción de plantear.
Plantear. Es una acción (verbo) que describe o formula, a través de una frase, lo que está
aconteciendo. Esta acción es intelectual y requiere de un proceso mental, en el cual se asocia el
conocimiento del problema con la capacidad de redacción y transcripción del mismo. Se
requiere por lo tanto, conocer a profundidad el problema y transmitir con claridad el
conocimiento que se tiene de éste. Sólo en esta medida quedará un problema bien formulado.
Estadística para educación superior
FUTURO
Conocer:
PRESENTE Posibles
consecuencias
Conocer: futuras
Situación actual
Causas presentes
PASADO Consecuencias
Conocer: presentes
Antecedentes
Causas generadas
en el pasado
6. Objetivo.
Objetivos específicos. Son frases también de carácter enunciativo, a través de las cuales
se plantean las diferentes acciones que encaminan al investigador para alcanzar el objetivo
general. Todos los objetivos específicos, sin excepción alguna, deben apuntar al logro del
objetivo general; de aquí surge también un lazo de unión fuerte entre el objetivo general y los
objetivos específicos. El planteamiento de los objetivos también puede ser visualizado como un
árbol, donde el tallo está representado por el objetivo general y las ramificaciones constituyen
los objetivos específicos.
Los objetivos se plantean utilizando verbos en infinitivo —aquellos terminados en ar, er,
ir—, pero teniendo cuidado de que el verbo utilizado pueda lograrse o realizarse durante la
investigación. La investigación sólo tiene sentido cuando se alcanza el objetivo general, porque
es precisamente éste, el que plantea la solución del problema.
Algunos verbos en infinitivo que son utilizados con gran frecuencia dentro del
planteamiento de objetivos son los siguientes: conocer, describir, analizar, identificar, estudiar,
elaborar, entre otros.
Estadística para educación superior
7. Justificación.
El diagnóstico realizado es una base o guía para elaborar la justificación, porque dentro
de éste se analizan las consecuencias de no solucionar el problema, es decir, las consecuencias
de no realizar la investigación cuyo objetivo es precisamente solucionar el problema. La
importancia de la Investigación radica precisamente en el hecho de tomar decisiones acertadas
al solucionar un problema, de tal forma que las consecuencias negativas se minimicen o se
eliminen totalmente dentro del evento o situación estudiada.
8. Marco de referencia.
REFERENCIA MARCO
que el marco limita y encierra. En una investigación, estos dos conceptos no son tangibles, no se
puede tocar ni observar como si mirara un paisaje (referencia) en un cuadro (marco).
TEORÍA MARCO
CIENTÍFICA
Marco espacial. Está constituido por un área física, una zona geográfica determinada,
una institución, una empresa, entre otros. Es la delimitación del lugar físico dentro del cual se
lleva a cabo la investigación. La representación gráfica está en la figura 5.
ESPACIO MARCO
TIEMPO MARCO
9. Marco metodológico.
METODOLOGÍA MARCO
Cada tipo de estudio presenta su metodología particular, sin embargo, tienen algo en
común y es precisamente, la recolección de la información, procesamiento y análisis de la
misma. No obstante, la técnica de recolección de información su procesamiento y su análisis
pueden cambiar, dependiendo del tipo de estudio por el cual se haya optado; pero lo que no
puede permitirse es de la falencia de información, por eso, sin excepción, en todo tipo de
estudio se recolecta información.
10. Hipótesis.
Es una proposición (frase) que describe un mensaje claro y sencillo, el cual ha de ser
verificado durante la investigación para comprobar si es verdadero o falso. Igualmente, durante
el proceso investigativo se puede efectuar comparación entre hipótesis contrastando una con
otra, o con otras.
El investigador parte de una realidad, supone resultados sobre lo que estudia, hace
conjeturas que posiblemente pueden acontecer en el futuro, pero que de algún modo no son
confiables totalmente, hasta no efectuar la prueba de validez de la hipótesis.
Las hipótesis están relacionadas con los objetivos de la investigación, porque constituyen
un recurso o medio de lograr los mismos; es por ello que la hipótesis tiene un lazo de unión
directo con el problema, porque ésta es planteada suponiendo una respuesta o alternativa de
solución al problema de la investigación.
Hipótesis alternativa. Las hipótesis que se plantean como alternativa de solución posible
al problema se consideran hipótesis alternativas o de trabajo, de ahí su nombre de hipótesis
alternativa.
Radica en sus grandes aplicaciones en las diferentes actividades que implican manejo de
información. En todas las áreas del saber humano se maneja información de alguna índole, de
ahí que la estadística es una herramienta vital para ayudar en el procesamiento, organización,
análisis y presentación de resultados.
ESTADÍSTICA
Descriptiva Inferencial
La estadística puede ser aplicada en todas las ramas del saber humano: investigaciones
de mercado, económicas, educativas, empresariales, biológicas, sicológicas, entre otras.
Estadística para educación superior
Hay que tener definida la población y la muestra; si la investigación es a través del censo,
se trabaja con todos los elementos de la población; pero si la investigación se hace con una
parte representativa de la población, hablamos de muestreo.
1.5 Población.
1.6 Muestra.
Una unidad está representada por uno y sólo un elemento de la población (en caso de
trabajar con censo), o por un elemento de la muestra (en caso de trabajar con muestreo).
1.8 Variables.
Una variable es todo aquello que se desea medir, consultar o averiguar, sobre cada
unidad o elemento de investigación.
Cuando lo que se desea medir, consultar, se refiere a un valor numérico sobre el cual sea
lógico efectuar operaciones aritméticas. Las variables cuantitativas se encuentran a su vez,
clasificadas en dos grandes grupos: cuantitativas discretas y cuantitativas continuas.
Estadística para educación superior
Variables cuantitativas discretas. Son aquellas que sólo admiten valores enteros, por
ejemplo: número de hermanos, número de personas a cargo, número de cargos ocupados,
número de llegadas tarde al mes, volumen de ventas (en número de unidades).
Variables cuantitativas continuas. Son aquellas que admiten valores fraccionarios. Si los
datos originales no están expresados con cifras decimales, no significa que se trate
necesariamente de una variable cuantitativa discreta, porque lo importante es el significado de
la variable, lo que representa, para poder clasificarla en continúa o discreta. Por ejemplo:
volumen de ventas (en dinero), ingresos, gastos, arriendo.
Está constituida por toda la información que se recolectó. Cada fila representa a cada
unidad o elemento de investigación, y cada columna representa a cada variable, aunque
también pueden existir columnas que representen datos de identificación. Esta base de datos
también es conocida con el nombre de sábana de datos.
Elemento o
unidad de Variable 1 Variable 2 Variable 3 …
investigación
Elemento 1
Elemento 2
Elemento 3
…
Estadística para educación superior
La base de datos por sí sola no permite concluir acerca del total de datos, no permite
tomar decisiones, por tal motivo se necesita procesar la información recolectada, iniciando por
la organización de los datos a través de tablas de frecuencia, tanto univariadas (una sola
variable) como bivariadas o multivariadas (dos o más variables), la elaboración de gráficos
respectivos, el cálculo de medidas representativas que sean de utilidad para concluir respecto a
la información recolectada, y el análisis e interpretación de todos los resultados obtenidos.
Para una variable cualitativa, la frecuencia hace referencia al número de veces que se
repite determinada característica o atributo. El diseño de la tabla puede elaborarse de la
siguiente manera (figura 10):
Estadística para educación superior
Cada uno de los atributos de la variable constituye cada una de las categorías de la
variable, en este caso se cuenta con m categorías, cada una con su respectiva frecuencia
absoluta. Las categorías son mutuamente excluyentes porque un elemento o unidad de
investigación no puede pertenecer simultáneamente a varias categorías.
Las frecuencias absolutas las identificamos con fi —se puede visualizar en la segunda
columna de la figura 10—. Las características de las frecuencias absolutas (fi) son:
1. Las frecuencias absolutas siempre son valores enteros y positivos. Se encuentran entre 0
y n. Siendo n el total de elementos o unidades de investigación, así: 0 ≤ fi ≤ n
2. La sumatoria de las frecuencias absolutas e igual a n:
∑ Fórmula (1)
Estadística para educación superior
2. Porcentajes.
Fórmula (2)
Para una variable cuantitativa sin agrupar en intervalos, la frecuencia hace alusión al
número de veces que se repite determinado valor de la variable. En este caso existirá una
frecuencia respectiva para cada valor diferente que tome la variable (ver figura 11).
Figura 11. Diseño de tabla de frecuencia para una variable cuantitativa sin agrupar por
intervalos
Xi fi hi Fi Hi
X1 f1 h1 F1 H1
X2 f2 h2 F2 H2
X3 f3 h3 F3 H3
X4 f4 h4 F4 H4
… … … … …
Xm fm hm Fm Hm
Total N 1 - -
Esta tabla (figura 11) contiene m renglones (filas). Cada uno de los valores de Xi
representa cada una de las categorías que asume la variable, donde:
Xi = cada uno de los diferentes valores que tiene la variable.
Estadística para educación superior
Fórmula (3)
∑ Fórmula (4)
F1 = f 1
F2 = f1 + f2
F3 = f1 + f2 + f3
F4 = f1 + f2 + f3 + f4
Fm = f1 + f2 + f3 +… + fm
F2 = F1 + f 2
F3 = F2 + f 3
F4 = F3 + f 4
Fm = Fm-1 + fm
1. El primer valor de las Fi siempre es igual al primer valor de las fi, así: F1 = f1.
2. El último valor de las Fi siempre es igual a n, así: Fm = n.
3. Las Fi siempre son valores enteros entre 0 y n.
H1 = h1
H2 = h1 + h2
H3 = h1 + h2 + h3
H4 = h1 + h2 + h3 + h4
Hm = h1 + h2 + h3 +… + hm
Estadística para educación superior
H2 = H1 + h2
H3 = H2 + h3
H4 = H3 + h4
Hm = Hm-1 + hm
1. El primer valor de las Hi siempre es igual al primer valor de las hi, así: H1 = h1.
2. El último valor de las Hi siempre es igual a 1, así: Hm = 1.
3. Las Hi siempre son valores fraccionarios entre 0 y 1.
Figura 12. Diseño de tabla de frecuencia para una variable cuantitativa agrupada por
intervalos
No. Intervalos Xi fi hi Fi Hi
1 Li - LS X1 f1 h1 F1 H1
2 Li - LS X2 f2 h2 F2 H2
3 Li - LS X3 f3 h3 F3 H3
4 Li - LS X4 f4 h4 F4 H4
… … … … … … …
m Li - LS Xm fm hm Fm Hm
Total - - n 1 - -
Estadística para educación superior
Esta tabla (figura 12) contiene m renglones que coinciden con el número de intervalos.
Los intervalos representan cada una de las diferentes categorías que asume la variable. Aquí, un
elemento o unidad de investigación no puede pertenecer simultáneamente a varias categorías.
En la tabla:
m = número de intervalos o número de marcas de clase.
Xi = marca de clase del intervalo i-ésimo.
fi = frecuencia absoluta del intervalo i-ésimo. Es el número de valores dentro de la serie
de datos original que se encuentran incluidos en el intervalo i-ésimo.
hi = frecuencia relativa.
Fi = frecuencia absoluta acumulada. Acumulación de las fi hasta el intervalo i-ésimo.
Hi = frecuencia relativa acumulada. Acumulación de las hi hasta el intervalo i-ésimo.
Es el punto medio del intervalo. Para su cálculo se suma el límite inferior del intervalo
más el límite superior del mismo intervalo, y luego se divide entre 2.
Luego de tener calculada la primera marca de clase, las siguientes pueden ser calculadas
siguiendo esta misma metodología o teniendo presente la amplitud que tienen los intervalos (C)
y la anterior marca de clase, así:
Fórmula (5)
En esta fórmula se trabaja con el límite inferior (Li) y el límite superior (Ls) del respectivo
intervalo i-ésimo. Si se desea calcular la primera marca de clase (X1) nos ubicamos en el
intervalo i=1 (primer intervalo). Para las siguientes marcas de clase, se puede emplear la
fórmula 5, o utilizar la fórmula 6:
Fórmula (6)
Estadística para educación superior
Por ejemplo:
X2 = X1 + C
X3 = X2 + C
X4 = X3 + C
Paso 1: Identificar, dentro de la serie de datos original, el valor mayor y el valor menor:
Xmáx = Valor máximo o mayor
Xmín = Valor mínimo o menor
Paso 3: Calcular el número de intervalos (m). El número de intervalos puede ser calculado
utilizando la siguiente fórmula, o también a criterio subjetivo del investigador, en otras
palabras, el investigador puede definir el número de intervalos con los cuales desea
trabajar:
m = 1 + 3,3 log (n)
Paso 4: Calcular o definir la amplitud que van a tener los intervalos (C):
𝑅
=
𝑚
Se puede trabajar con el valor que dé, o con una aproximación siempre por encima del
resultado, sin importar la regla de aproximación de decimales (nunca aproximar por
debajo).
Paso 6: Comparar el nuevo rango (R*) con el rango inicial R: siempre se debe cumplir la
condición de que el nuevo rango sea mayor o igual al rango inicial (nunca menor): R* ≥ R.
En caso de no cumplirse esta condición, modificar los valores de C y de m, o de uno sólo
(el que se desee). Lo más conveniente es que R* sea igual a R o tienda a ser igual al R, esto
es, que el incremento del rango no sea muy alto (un valor pequeño).
Repartir el incremento del rango en dos partes iguales (dividir el Δ R sobre dos), de la
siguiente manera:
Xmín – (ΔR/2) = Li del primer intervalo
Xmáx (ΔR/2) = Ls del último intervalo
Para el conteo de cada una de las frecuencias absolutas correspondientes para cada
intervalo, se debe primero tomar la decisión sobre cuál de los dos límites quedará abierto y cuál
cerrado. Hay que recordar que límite abierto significa que no se incluye el valor respectivo, y
límite cerrado significa que sí se incluye el valor respectivo; este detalle es muy importante para
no alterar las frecuencias, y por consiguiente, el total de datos que arroja la sumatoria de las
frecuencias absolutas.
Si se cierra el límite superior y se deja abierto el límite inferior, el único intervalo que
quedará cerrado en sus dos extremos es el primero; por el contrario, si se cierra el límite inferior
y se deja abierto el superior, el único intervalo que quedará cerrado en sus dos extremos es el
último.
Las tablas de frecuencia para dos o más variables reciben el nombre de tablas bivariadas
o multivariadas. La metodología para su elaboración es a través de cruce de variables. Cruzar
variables es analizar simultáneamente las variables; si se trata del cruce de dos variables, es
analizar simultáneamente las dos variables respectivas; si se trata de tres variables, es analizar
simultáneamente las tres variables respectivas; y así sucesivamente. El análisis de clasificación
cruzada se elabora a través del diseño de cuadros o tablas de doble entrada.
frecuencias absolutas marginales. La sumatoria de los totales por fila y de los totales por
columna siempre debe sumar lo mismo (ver figura 13).
Variable 1
Variable 2 Total
Categoría 1 Categoría 2 Categoría 3 … Categoría n
Categoría 1
Categoría 2
…
Categoría m
Total
Para analizar porcentajes en una tabla de doble entrada se tienen tres opciones o
posibilidades:
Porcentajes con base en cada uno de los totales por fila.
Porcentajes con base en cada uno de los totales por columna.
Porcentaje con base en el gran total, es decir, el total ubicado en la esquina inferior
derecha de la tabla.
Para las interpretaciones de los porcentajes se debe tener en cuanta cuál de las
alternativas anteriores fue la elegida para elaborar los respectivos cálculos.
Para tres variables. Se tienen dos alternativas de diseño: una es ubicar dos variables en
la parte superior y una en la parte izquierda; la otra alternativa es ubicar dos variables en la
parte izquierda y una variable en la parte superior. La elección de cuáles van en un lado y cuales
en otro, depende de las necesidades de cada caso particular dentro de la investigación. Un
diseño puede ser como el que se muestra a continuación (ver figura 14); existen otros diseños,
Estadística para educación superior
Variable
Cat.1(V1) Cat.2(V1) Cat.j(V1) Total
3
Cat.1(V2) Cat.2(V2) … Cat.j(V2) Cat.1(V2) Cat.2(V2) … Cat.j(V2) … Cat.1(V2) Cat.2(V2) … Cat.j(V2)
Cat.1(V3)
Cat.2(V3)
Cat.3(V3)
…
Cat.k(V3)
Total
Las frecuencias absolutas que se ubican en cada una de las posiciones de cruce se
denominan frecuencias absolutas conjuntas y las ubicadas en cada una de las casillas de totales
(por fila y columna) se denominan frecuencias absolutas marginales. Los porcentajes se calculan
con base en los totales por filas, columnas o el gran total; la interpretación y análisis del
porcentaje respectivo depende del total que se haya tomado como base para el cálculo. El gran
total se ubica en la esquina inferior derecha de la tabla y debe ser igual, tanto por filas como por
columnas.
Para más de tres variables. El diseño depende de las necesidades particulares que se
tengan al efectuar el cruce.
Para el cálculo y análisis de los porcentajes se debe tener en cuenta cuál de todos los totales
o subtotales se toma como base.
Prensa Radio
14,1% 25,0%
Estadística para educación superior
42,6% 44,1%
45%
40%
35%
30%
25%
20%
15% 10,8%
10%
2,5%
5% 0,0%
0%
Excelente Bueno Regular Malo Ninguno
65,0%
70%
60%
50% 40,0%
40%
30% 20,0% 20,0%
20%
10%
0%
ME AF CI ASI
Estadística para educación superior
10%
0%
Escuchar Hablar Leer Escribir
Ventas (millones de $)
80
70
60
50
40
30
20
10
0
1986 1987 1988 1989 1990 1991 1992 1993 1994
1. Gráfico circular.
2. Gráfico de barras.
Cada barra representa una categoría de la variable y su altura está asociada con la
frecuencia absoluta o relativa de la respectiva categoría. Este gráfico puede ser utilizado para
variable cuantitativa discreta y para variable cualitativa con categorías mutuamente
excluyentes, y también en categorías no mutuamente excluyentes.
Estadística para educación superior
3. Histograma.
Se parece al gráfico de barras, con la diferencia de que no hay espacio entre barra y
barra, las barras son consecutivas debido a que el histograma se utiliza para visualizar el
comportamiento de una variable cuantitativa continua, organizada por intervalos.
Generalmente en el eje X (eje horizontal) se ubican los intervalos y en el eje Y (eje vertical) se
ubican las frecuencias absolutas o relativas. La altura de cada barra del histograma representa la
frecuencia absoluta o relativa del intervalo respectivo.
4. Polígono.
Se toma como base para su elaboración, el histograma de frecuencias, se unen con una
línea los puntos medios de las alturas de cada una de las barras, esta gráfica lineal resultante es
llamada Polígono. En otras palabras, se está trabajando con las marcas de clase y las frecuencias
absolutas de cada intervalo.
5. Ojiva.
Se toman como base las marcas de clase de cada intervalo y las frecuencias absolutas
acumuladas, se unen mediante una línea, arrojando como resultado un gráfico lineal
ascendente por tratarse de frecuencias absolutas acumuladas.
6. Diagrama de dispersión.
Llamada también nube de puntos. Es utilizado para estudiar la relación existente entre
variables, cada punto representa una coordenada en el plano cartesiano (X, Y) referente al dato
real u original. Sobre el diagrama de dispersión se grafica la función de ajuste que representa a
la serie de datos originales. En determinados casos, una de las variables es el tiempo.
Estadística para educación superior
Es usada para analizar el comportamiento de una variable a través del tiempo, o lo que
es lo mismo, para analizar dos variables conjuntamente siendo una de ellas el tiempo. En el eje
X (eje horizontal) se ubica el tiempo, en el eje Y (eje vertical) se ubica la otra variable, se señalan
puntos de cruce para cada unidad de tiempo con su respectivo valor de la variable y luego se
unen los puntos con una línea, la cual va mostrando el movimiento ascendente o descendente a
través del tiempo que puede presentar la variable analizada.
Estadística para educación superior
3.1 La media.
Es la medida de tendencia central más importante y utilizada. Tiene en cuenta cada uno
de los valores de la serie de datos, se ve afectada por valores altos y bajos, así como también
por las respectivas frecuencias. Se identifica con ̅ , M(X) o también con la letra µ.
∑
̅ Para datos desagrupados Fórmula (7)
∑
̅ Para datos agrupados Fórmula (8)
̅ ∑ Fórmula (10)
( ) o̅ Fórmula (13)
3. La media aritmética de una constante por una variable es igual a la constante por la
media de la variable.
4. La media total: Cuando tenemos una población dividida en subgrupos y para cada uno
de los subgrupos conocemos su respectiva media y el total de datos, siendo el objetivo
calcular la media total, es decir, la media para todo el grupo o media poblacional, se
calcula a través de la aplicación de la siguiente fórmula (media de medias):
Estadística para educación superior
∑ ̅̅̅̅̅
̅̅̅ Fórmula (15)
∑
Donde:
̅̅̅ media total o general
̅ media de cada subgrupo i
total de datos del subgrupo i
3.2 La mediana.
Es el valor que ocupa la posición central en una serie de datos, lo que significa que el
50% de los datos se encuentran por encima de la mediana o son valores superiores a la mediana
y el otro 50% se encuentran por debajo de la mediana o son valores inferiores a la mediana. Se
identifica con el símbolo Me.
Para variable continua: cuando los datos están agrupados en una tabla de frecuencia, los
valores ya se encuentran organizados de menor a mayor.
Cuadro 2. Pasos a seguir para determinar la mediana para datos agrupados, para variable
continua
Paso 1: Calcular ( )
2
Cuadro 3. Pasos a seguir determinar la mediana para datos agrupados, para variable discreta
Paso 1: Calcular ( )
2
3.3 La moda.
Es el valor de la variable que se repite con mayor frecuencia. Se identifica con Md.
Fórmula (16)
Siendo Xi un valor particular de la variable, en caso de estar analizando una tabla para
variable discreta, o un valor particular de una marca de clase, en caso de estar trabajando con
una tabla para variable continua.
Estadística para educación superior
4. Medidas de variabilidad
Son utilizadas para analizar cómo varían, oscilan, van cambiando o se van distribuyendo
los valores de la variable.
4.1 La varianza.
∑( ̅)
( ) Varianza para datos desagrupados Fórmula (17)
∑( ̅)
( ) Varianza para datos agrupados Fórmula (18)
Nota. En las anteriores fórmulas para la varianza, n representa el total de datos que se están analizando, sin hacer
diferencia entre población y muestra. Cuando el estudio implica hacer diferencia en cuanto a la población y a la
muestra, hay que tener presente que N representa tamaño poblacional y n, tamaño muestral.
∑( ̅)
( ) Fórmula (19)
Estadística para educación superior
4. La varianza de una constante por una variable es igual a la constante al cuadrado por la
varianza de la variable. Var(KX) = K2 Var(X)
√ ( ) Fórmula (20)
Estadística para educación superior
Fórmula (21)
̅ ̅
𝑅 Fórmula (22)
Q1 Q2 Q3
𝑅 Fórmula (23)
1
Para comprender con mayor precisión esta medida se recomienda leer el tema de Medidas de posición, específicamente, los
cuartiles.
Estadística para educación superior
Los cuantiles son medidas de posición no central, se emplean para resumir o describir un
conjunto de datos tomando como base algunas posiciones específicas, teniendo
preliminarmente la serie de datos organizada en forma ascendente.
5.1 Cuartiles.
Los cuartiles dividen la serie de datos en cuatro partes iguales. Se calculan tres cuartiles:
Q1, Q2 y Q3 (ver figura 20).
Q1 Q2 Q3
E l 25% de los datos son valores menores a Q2, y el otro 50% de los
Q2 datos son valores mayores a Q 2 . El Q 2 coincide con la mediana (Me)
E l 75% de los datos son valores menores a Q3, y el otro 25% de los
Q3 datos son valores mayores a Q 3
Paso 3: El cuartil de orden r esta dado por el valor de la variable que ocupa esta posición.
( ) Fórmula (24)
Cuando los datos están agrupados en una tabla de frecuencias, el procedimiento a seguir
es el siguiente:
𝐹
Fórmula (25)
5.2 Deciles.
Los deciles dividen la serie de datos en diez partes iguales. Se calculan nueve deciles: D1,
D2, D3, D4, D5, D6, D7, D8, D9. El significado de cada decil es similar al análisis realizado para los
Estadística para educación superior
cuartiles, pero teniendo presente que se trata de una serie de datos dividida en 10 partes
iguales.
D1: Significa que el 10% de los datos son inferiores a D1, y el otro 90% son valores
superiores a D1.
D4: Significa que el 40% de los datos son inferiores o están por debajo de D4, y el otro
60% están por encima o son valores superiores a D4.
Paso 3: El decil de orden r esta dado por el valor de la variable que ocupa esta posición.
( ) Fórmula (26)
Cuando los datos están agrupados en una tabla de frecuencias, el procedimiento a seguir
es el que se indica a continuación:
Estadística para educación superior
𝐹
Fórmula (27)
5.3 Percentiles.
Los percentiles dividen la serie de datos en 100 partes iguales. Se calculan 99 percentiles:
P1, P2, P3,…, P56, P57,…, P98, P99. Para calcular los percentiles se sigue la misma metodología
utilizada para los cuartiles y los deciles, simplemente que ya no se divide sobre 4 ó 10, sino
sobre 100 al calcular ( ). Para su análisis también se emplea la misma metodología utilizada
en cuartiles y deciles, pero teniendo presente que la serie de datos está dividida en 100 partes
iguales.
Estadística para educación superior
Son medidas utilizadas para analizar la forma como se distribuye la serie de datos. Se
estudia conjuntamente con la gráfica adquirida en el polígono de frecuencias.
𝑚
Fórmula (28)
Donde:
m3 = momento de orden tres respecto a la media, o tercer momento respecto a la
media.
σ = desviación típica o estándar.
∑( ̅)
𝑚 Fórmula (29)
√ ( ) Fórmula (30)
∑( ̅)
( ) 𝑚 Fórmula (31)
𝑚
Fórmula (32)
√𝑚
Para definir la simetría se compara el resultado obtenido del cálculo As con el número
cero, así:
As = 0 Distribución simétrica.
As > 0 Distribución asimétrica positiva
As < 0 Distribución Asimétrica negativa.
En una serie de datos con distribución simétrica, los datos se encuentran concentrados
alrededor de la media de manera proporcional, tanto por encima como por debajo de la media.
Como es sabido, la media es una medida de tendencia central, algunos datos se encuentran por
encima o son mayores que la media y otros datos se encuentran por debajo o son valores
inferiores a la media e incluso, puede ocurrir que muchos de ellos coincidan con el valor de la
media. Cuando esta distribución se presenta de manera simétrica, tomando como punto de
referencia a la media, se concluye que la variable analizada se distribuye simétricamente.
Distribución simétrica
Asimetría positiva. La serie de datos presenta una mayor concentración de los datos
hacia la izquierda y una menor concentración a la derecha, bajo esta circunstancia, la serie de
datos presenta un sesgo o caída que se extiende hacia la derecha. Las tres medidas de
tendencia central son desiguales (ver figura 22).
Estadística para educación superior
Asimetría negativa. La serie de datos presenta una mayor concentración de los datos
hacia la derecha y una menor concentración a la izquierda, bajo esta circunstancia, la serie de
datos presenta un sesgo hacia la izquierda. Las tres medidas de tendencia central son desiguales
(ver figura 23).
̅
Estadística para educación superior
𝑚
Fórmula (33)
Donde:
∑( ̅)
𝑚 Fórmula (34)
𝑚 𝑚
Fórmula (35)
( √𝑚 ) 𝑚
Apuntada
Normal
Achatada
En una distribución apuntada existe una concentración alta (frecuencias altas) alrededor
del valor de X donde se visualiza el punto de máximo en el polígono; por el contrario, en una
distribución achatada, los datos se encuentran muy dispersos y no están concentrados
alrededor de un valor específico. Se recomienda analizar conjuntamente asimetría y
apuntamiento, para obtener mayor claridad sobre la forma de la distribución de la variable; así
por ejemplo, en caso de tratarse de una distribución simétrica apuntada, se puede concluir que
los datos se encuentran demasiado concentrados alrededor de la media debido a que las
frecuencias más altas donde se refleja el apuntamiento en el polígono corresponden a
intervalos alrededor de la media.
Estadística para educación superior
Vivienda unifamiliar
Precio de venta (en millones de pesos)
Se pide:
a) Organizar los datos en una tabla de frecuencias.
b) Elaborar el polígono de frecuencias.
c) Calcular la media, la mediana y la moda.
d) Calcular la desviación típica o estándar.
e) Calcular el coeficiente de asimetría y de apuntamiento.
f) Calcular el rango intercuartílico.
g) Calcular el tercer cuartil, el decil de orden dos y el percentil 70.
Analizar e interpretar los resultados obtenidos.
Estadística para educación superior
Solución
1.
2. 𝑅
𝑅
5. Nuevo rango 𝑅
𝑅 𝑚
𝑅
Se puede trabajar con estos valores de C y m porque el nuevo rango cumple la condición de
𝑅 ≥𝑅
El valor de 70 constituye el límite inferior del primer intervalo. El valor de 126 constituye el
límite superior del último intervalo.
Estadística para educación superior
Para el conteo de las frecuencias absolutas es indispensable aclarar en los intervalos, cuál
límite queda abierto y cuál cerrado.
Para los intervalos en la tabla de frecuencias que se presenta, se tienen las siguientes
observaciones, con el objeto de facilitar el conteo de las frecuencias absolutas:
Intervalos Xi fi hi Fi Hi
70-78 74 3 0,0484 3 0,0484
78-86 82 7 0,1129 10 0,1613
86-94 90 12 0,1935 22 0,3548
94-102 98 18 0,2903 40 0,6452
102-110 106 12 0,1935 52 0,8387
110-118 114 7 0,1129 59 0,9516
118-126 122 3 0,0484 62 1,0000
Total ─ 62 1,0000 ─ ─
b) Polígono de frecuencias.
Polígono de frecuencias
20
15
Número de casas
10
0
70 78 86 94 102 110 118 126
Precio (millones de pesos)
Estadística para educación superior
Intervalos Xi fi X1 x fi Fi
70-78 74 3 222 3
78-86 82 7 574 10
86-94 90 12 1080 22
94-102 98 18 1764 40
102-110 106 12 1272 52
110-118 114 7 798 59
118-126 122 3 366 62
Total ─ 62 6.076 ─
La media: ̅
∑
̅
̅
La mediana:
Se calcula
Se busca este valor en la columna de las frecuencias absolutas acumuladas: en este caso
particular no se encuentra este valor.
Como no se encuentra el valor, se señala el inmediatamente menor a 31, en este caso es 22, que
corresponde a la tercera frecuencia absoluta acumulada, se le asigna el nombre de 𝐹
Se pasa al renglón siguiente, en éste señalamos el valor de la frecuencia absoluta y del límite
inferior, se tiene por lo tanto que:
( ) ( )
Estadística para educación superior
Interpretación: El 50% de las casas tienen un valor inferior a 98 millones, y el otro 50%, un
precio por encima de 98 millones.
La moda:
Se visualiza en la columna de las frecuencias absolutas el valor más alto, en este caso
corresponde a , por lo tanto, la moda es el valor de la marca de clase X4 asociada con
esta frecuencia absoluta:
Intervalos Xi fi X1 x fi (X i - X )2 f i
70-78 74 3 222 1.728
78-86 82 7 574 1.792
86-94 90 12 1.080 768
94-102 98 18 1.764 0
102-110 106 12 1.272 768
110-118 114 7 798 1.792
118-126 122 3 366 1.728
Total ─ 62 6.076 8.576
∑ ( ̅)
( )
( )
Estadística para educación superior
Casas unifamiliares
Distribución del precio (millones de pesos)
(frecuencia)
Casas
µ - 3σ µ - 2σ µ- σ µ µ+ σ µ + 2σ µ + 3σ
Estadística para educación superior
Intervalos Xi fi (X i - X )3 f i (X i - X )4 f i
70-78 74 3 -41.472 995.328
78-86 82 7 -28.672 458.752
86-94 90 12 -6.144 49.152
94-102 98 18 0 0
102-110 106 12 6.144 49.152
110-118 114 7 28.672 458.752
118-126 122 3 41.472 995.328
Total ─ 62 0 3.006.464
Es necesario calcular los momentos de orden tres y cuatro respecto a la media, m3 y m4,
para esto se elaboran dos columnas nuevas, una que permita calcular la sumatoria de las
desviaciones cúbicas respecto a la media y otra para calcular la sumatoria de las desviaciones a
la potencia cuatro respecto a la media.
∑( ̅)
𝑚
𝑚
( )
∑( ̅)
𝑚
𝑚
( )
Interpretación: El valor del coeficiente de asimetría se compara con cero; como As = 0 se tiene
que el precio presenta una distribución simétrica. El valor del coeficiente de apuntamiento se
compara con tres; como Ap < 3 se tiene que el precio presenta una distribución achatada, el
grado de achatamiento no es muy alto porque 2,53 no está demasiado alejado de 3.
Cálculo de Q1
( )( )
Efectuar
Buscar este valor en la columna de las frecuencias absolutas acumuladas, como no se encuentra,
se señala el inmediatamente menor, en este caso corresponde a la segunda frecuencia absoluta
acumulada, se le asigna el nombre de 𝐹
Se pasa al renglón siguiente para seleccionar los valores correspondientes a la frecuencia
absoluta y al límite inferior, en este caso corresponde y . Se sustituyen estos
valores en la fórmula correspondiente para el cálculo de cuartiles:
( )
Cálculo de Q3
( )( )
( )
Cálculo de RI
Interpretación: El 50% central de los precios de las casas unifamiliares se encuentra entre $89,67
y $106,33 millones, el rango (distancia o recorrido) entre estos límites es de $16,66 millones.
( )( ) 𝐹
𝐹
( )
Estadística para educación superior
Interpretación de
El 75% de los precios de las casa unifamiliares se encuentran por debajo de $106,33 millones y el
otro 25% son precios superiores a $106,33 millones.
( ) 𝐹
𝐹
( )
Interpretación de
El 20% de los precios de las casas unifamiliares se encuentran por debajo de $87,6 millones y el
otro 80% son precios superiores o por encima de $87,6 millones.
( ) 𝐹
𝐹
( )
Interpretación de
El 30% de los precios de las casas unifamiliares están por debajo de $104,27 millones y el otro
70% son precios superiores a $104,27 millones.
7.2 Base de datos: Compañías por sector económico, ubicación geográfica y vinculación
de aprendices.
Convenciones de la tabla
Sector económico:
Agrícola = A Comercial = C
Industrial = I Financiero = F
Ubicación geográfica:
Zona norte = N Occidente = O
Zona sur = S Oriente = R
Vinculación de aprendices:
Sí vinculan = S No vinculan = N
Nota: Los códigos de la base de datos tambien
pueden ser números o palabras. En este caso se
usaron letras.
Se pide:
a) Cuál es la unidad o elemento de investigación.
b) Cuáles son las variables de esta investigación con sus respectivas categorías.
c) Elaborar tres tablas de frecuencia univariadas para: sector económico, ubicación
geográfica y vinculación de aprendices. Calcular porcentajes e interpretar algunos datos.
Elaborar gráficos.
Estadística para educación superior
d) Elaborar una tabla de frecuencias (bivariada) de doble entrada para la zona y el sector
económico. Cuáles son los diferentes porcentajes que se pueden calcular. Analizar e
interpretar algunos resultados. Elaborar gráfico.
e) Elaborar una tabla de frecuencias (bivariada) de doble entrada para el sector económico
y la vinculación de aprendices. Cuáles son los diferentes porcentajes que es posible
calcular. Analizar e interpretar algunos resultados. Elaborar gráfico.
f) Elaborar una tabla de frecuencias (trivariada) de tres entradas para el sector económico,
zona y vinculación de aprendices. Cuáles son los diferentes porcentajes que se pueden
calcular. Analizar e interpretar algunos resultados. Elaborar gráfico.
Solución
b) Variables.
Sector económico
Número de
16% 14%
Sector Compañías Porcentaje
Agrícola 7 14,0% 24%
Comercial 12 24,0%
46%
Financiero 23 46,0%
Industrial 8 16,0%
Total 50 100,0%
Ubicación geográfica
Número de 36%
20
Zona Compañías Porcentaje 18
16 26%
Norte 9 18% 14 20%
12 18%
Occidente 13 26% 10
Oriente 10 20% 8
6
Sur 18 36% 4
2
Total 50 100,0% 0
Norte Occidente Oriente Sur
Vinculación de aprendices
28%
Número de
Vinculación Compañías Porcentaje
No 14 28,0%
72%
Sí 36 72,0%
Total 50 100,0%
No Sí
Interpretación: El 28% de las compañías no vinculan aprendices, mientras que el 72% sí vinculan
aprendices en su planta de personal.
Estadística para educación superior
Zona
Sector
Total
económico Norte Occidente Oriente Sur
Agrícola 2 2 2 1 7
Comercial 3 4 2 3 12
Financiero 3 4 5 11 23
Industrial 1 3 1 3 8
Total 9 13 10 18 50
4
2
0
Norte Occidente Oriente Sur
Agrícola Comercial Financiero Industrial
Se pueden calcular porcentajes por filas, por columnas o con base en el gran total:
Sector Zona
Total
económico Norte Occidente Oriente Sur
Agrícola 28,6% 28,6% 28,6% 14,3% 100,0%
Comercial 25,0% 33,3% 16,7% 25,0% 100,0%
Financiero 13,0% 17,4% 21,7% 47,8% 100,0%
Industrial 12,5% 37,5% 12,5% 37,5% 100,0%
Algunas interpretaciones:
Fila 1, columna 2: El 28,6% de las empresas del sector agrícola están ubicadas en la zona
occidental.
Fila 3, columna 4: El 47,8% de las empresas del sector financiero están ubicadas en la zona sur.
Fila 4, columna 1: El 12,5% de las empresas del sector industrial están ubicadas en la zona norte.
Estadística para educación superior
Sector Zona
económico Norte Occidente Oriente Sur
Agrícola 22,2% 15,4% 20,0% 5,6%
Comercial 33,3% 30,8% 20,0% 16,7%
Financiero 33,3% 30,8% 50,0% 61,1%
Industrial 11,1% 23,1% 10,0% 16,7%
Total 100,0% 100,0% 100,0% 100,0%
Algunas interpretaciones:
Fila 2, columna 1: El 33,3% de las compañías ubicadas en la zona norte se dedican a la actividad
económica comercial.
Fila 3, columna 3: El 50% de las compañías de la zona oriental pertenecen al sector financiero.
Fila 4, columna 2: El 23,1% de las empresas ubicadas en la zona occidental pertenecen al sector
industrial.
Sector Zona
Total
económico Norte Occidente Oriente Sur
Agrícola 4,0% 4,0% 4,0% 2,0% 14,0%
Comercial 6,0% 8,0% 4,0% 6,0% 24,0%
Financiero 6,0% 8,0% 10,0% 22,0% 46,0%
Industrial 2,0% 6,0% 2,0% 6,0% 16,0%
Total 18,0% 26,0% 20,0% 36,0% 100,0%
Algunas interpretaciones:
Fila 3, columna 4: El 22% de las compañías están ubicadas en la zona sur y pertenecen al sector
financiero.
Fila 2, columna 1: El 6% de las compañías pertenecen al sector comercial y están ubicadas en la
zona norte.
Fila 4, columna 3: El 2% de las compañías están ubicadas en la zona oriental y se dedican a la
actividad industrial.
Estadística para educación superior
15
10
0
Agrícola Comercial Financiero Industrial
No Sí
De igual manera que en el anterior cruce, se pueden calcular porcentajes por filas,
columnas o con base en el gran total.
Algunas interpretaciones:
Fila 1, columna 2: El 71,4% de las empresas del sector agrícola sí vinculan aprendices en su
planta de personal.
Fila3, columna 1: El 13% de las empresas del sector financiero no vinculan aprendices.
Fila 4, columna 2: El 62,5% de las empresas del sector industrial sí vinculan aprendices.
Estadística para educación superior
Algunas interpretaciones:
Fila 2, columna 1: El 42,9% de las empresas que no vinculan aprendices pertenecen al sector
comercial.
Fila 4, columna 2: El 13,9% de las empresas que sí vinculan aprendices se dedican a la actividad
económica industrial.
Fila 3, columna 1: El 21,4% de las compañías que no vinculan aprendices pertenecen al sector
financiero.
Algunas interpretaciones:
Fila 2, columna 1: El 12% de las empresas son del sector económico comercial y no vinculan
aprendices en su planta de personal.
Fila 3, columna 2: El 40% de las empresas pertenecen al sector financiero y sí vinculan
aprendices en su planta de personal.
Fila 4, columna 1: El 6% de las empresas pertenecen al sector industrial y no vinculan aprendices
dentro de su planta de personal.
Estadística para educación superior
10
0
Occidente
Occidente
Occidente
Occidente
Norte
Norte
Norte
Norte
Oriente
Oriente
Oriente
Oriente
Sur
Sur
Sur
Sur
Algunas interpretaciones:
Fila 5, columna 1: El 66,7% de las empresas comerciales ubicadas en la zona norte no vinculan
aprendices dentro de su planta de personal.
Fila 12, columna 2: El 90,9% de las empresas del sector financiero ubicadas en la zona sur no
vinculan aprendices dentro de su planta de personal.
Fila 16, columna 1: El 33,3% de las empresas del sector industrial ubicadas en la zona sur no
vinculan aprendices dentro de su planta de personal.
Estadística para educación superior
Alguna interpretaciones:
Fila 5, columna 1: El 14,3% de las empresas que no vinculan aprendices pertenecen al sector
industrial y están ubicadas en la zona norte.
Fila 11, columna 2: El 13,9% de las empresas que sí vinculan aprendices dentro de su planta de
personal pertenecen al sector financiero y se ubican en la zona oriental.
Fila 1, columna 2: El 5,6% de las empresas que sí vinculan aprendices se dedican a la actividad
económica agrícola y están ubicadas en la zona norte.
Estadística para educación superior
Alguna interpretaciones:
Fila 3, columna 1: El 2% de las compañías pertenecen al sector agrícola, están ubicadas en la
zona oriental y no vinculan aprendices.
Fila 12, columna 2: El 20% de las empresas pertenecen al sector financiero, están ubicadas en la
zona sur y sí vinculan aprendices en su planta de personal.
Fila 16, columna 2: El 4% de las compañías pertenecen al sector industrial, están ubicadas en la
zona sur y sí vinculan aprendices en su planta de personal.
Estadística para educación superior
Vinculación aprendices G ra n t o t a l
( c o n ba s e
Sector Total sector
Zona e n c a da
económico No Sí y zona secto r
e c o nó m ic o )
Algunas interpretaciones:
Fila 1, columna 2: El 28,6% de las compañías del sector agrícola están ubicadas en la zona norte
y sí vinculan aprendices en su planta de personal.
Fila 12, columna 1: El 4,3% de las empresas del sector financiero están ubicadas en la zona sur y
no vinculan aprendices en su planta de personal.
Fila 14, columna 1: El 12,5% de las empresas del sector industrial están ubicadas en la zona
occidental y no vinculan aprendices.
Estadística para educación superior
Se pide:
a) Agrupar los datos en una tabla de frecuencias.
b) Construir un polígono de frecuencias absolutas.
c) Calcular la media, la mediana y la moda.
d) Calcular la varianza y la desviación típica o estándar
e) Calcular el coeficiente de asimetría.
f) Calcular el coeficiente de apuntamiento.
g) Calcular el segundo cuartil, el decil de orden seis y el percentil 83.
Nota: Interpretar cada uno de los resultados obtenidos.
Volumen de Número de
exportación empresas
150 - 200 4
200 - 250 12
250 - 300 25
300 - 350 20
350 - 400 10
400 - 450 3
Se pide:
a) Graficar el histograma de frecuencias.
b) Calcular la media, la mediana y la moda.
c) Calcular la desviación típica o estándar.
d) Calcular el coeficiente de asimetría y el de apuntamiento.
e) Calcular el rango intercuartil.
f) Calcular el cuartil de orden tres, el decil 4 y el percentil 38.
Nota: Interpretar cada uno de los resultados.
Número de
Gastos
personas
300 - 400 8
400 - 500 15
500 - 600 27
600 - 700 14
700 - 800 9
800 - 900 3
Se pide:
a) Graficar el histograma y el polígono de frecuencias.
Estadística para educación superior
Una muestra aleatoria de automóviles del mismo tipo nos señala cuántas millas recorren
por galón de gasolina:
25 33 27 28 29 28
29 27 30 31 27 32
28 26 33 35 25 27
31 30 35 26 35 30
35 33 26 28 33 31
33 35 25 25 26 29
27 25 29 33 31 28
26 27 32 30 30 32
29 29 34 35 34 29
31 32 25 29 27 28
Se pide:
a) Construir una tabla de frecuencias con cinco intervalos.
b) Elaborar un polígono de frecuencias.
c) Calcular la media, la mediana y la moda.
d) Calcular la desviación típica o estándar.
e) Calcular el coeficiente de asimetría.
f) Calcular el coeficiente de apuntamiento.
g) Calcular el decil 7 y el percentil 64.
Nota: Interpretar cada uno de los resultados obtenidos.
Estadística para educación superior
De un grupo de 200 obreros que laboran en una fábrica, 120 de ellos trabajan de día y 80
trabajan de noche. Se sabe que el salario medio de los 200 trabajadores es de $ 360.000. Los del
turno de día reciben en valor medio, un 25% menos que los trabajadores de la noche. ¿Cuál es
el salario medio de cada grupo?
42 37 51 62 65
56 42 46 48 53
39 56 54 55 56
48 61 62 60 57
54 56 50 54 53
62 50 37 38 40
45 42 56 61 65
45 60 52 50 55
51 61 63 58 50
56 46 58 57 46
Se pide:
a) Construir una tabla de frecuencias con siete intervalos y una amplitud de 4.
Estadística para educación superior
Se pide:
a) Organizar la información en una tabla de frecuencias con cinco intervalos.
b) Graficar el polígono y la ojiva.
c) Calcular la media, la mediana y la moda.
d) Calcular la varianza y la desviación típica o estándar.
e) Calcular coeficiente de asimetría y apuntamiento.
f) Calcular el rango intercuartil.
Estadística para educación superior
Importación
Número de
(millones de
papelerías
pesos)
3-5 7
5-7 12
7-9 18
9 - 11 15
11 - 13 9
13 - 15 5
Se pide:
a) Calcular las frecuencias relativas, absolutas acumuladas y relativas acumuladas.
b) Graficar el histograma, el polígono de frecuencias y la ojiva.
c) Calcular la media, la mediana y la moda.
d) Calcular la varianza y la desviación típica o estándar.
e) Calcular el rango intercuartil.
f) El 30% de las papelerías importan bimestralmente menos de un valor determinado (en
millones de pesos), ¿cuál es ese nivel de importación y cuántas son las papelerías?
g) Calcular el percentil de orden 85.
Nota: Analizar e interpretar los resultados obtenidos.
Estadística para educación superior
Elegir dos tablas de frecuencias de alguno de los ejemplos anteriores y desarrollar los
cálculos necesarios para demostrar que la sumatoria de las desviaciones respecto a la media es
igual a cero (propiedad de la media).
Explique por qué para calcular el grado de alejamiento de los datos alrededor de la
media, se toma el promedio de las desviaciones cuadráticas respecto a la media y no solamente
las desviaciones respecto a la media.
Analizar y explicar por qué la varianza de una constante por una variable es igual a la
constante al cuadrado por la varianza de la variable.
Estadística para educación superior
( ) ( )
8.14 Cálculo del a media y la varianza utilizando una expresión algebraica que
representa la relación entre dos variables (caso específico).
( )
Latas de
Xi fi hi Fi Hi
cerveza
15 - 18 0,135 5
00 - 27 9
27 - 00 30 26
00 - 39 7 0,189
39 - 00
Total 37
Se pide:
Estadística para educación superior
Ingreso
Número de
quincenal (miles
emleados
de pesos)
200 - 300 7
300 -400 12
400 - 500 15
500 - 600 20
600 - 700 13
700 - 800 10
800 - 900 9
Se pide:
a) Calcular las frecuencias relativas e interpretar h2 y h4.
b) Graficar el histograma y el polígono.
Estadística para educación superior
La percepción que tienen un grupo de empleados sobre el clima laboral que reina dentro
de la empresa donde están vinculados es la siguiente:
Número de
Clima laboral
empleados
Excelente 12
Bueno 25
Regular 5
Malo 2
Se pide:
a) ¿Cuál es la variable y cómo se clasifica?
b) ¿Cuáles son las categorías de la variable, a qué clasificación pertenecen y por qué?
c) ¿Cuál es la unidad o elemento de investigación?
d) Calcular las frecuencias relativas y analizarlas.
e) Elaborar el gráfico de pastel o circular.
f) Elaborar el gráfico de barras.
g) Hallar la moda e interpretarla.
Estadística para educación superior
Se pide:
a) Definir la población (tamaño de la población).
b) ¿Cuál es el tamaño de la muestra?
c) ¿Cuál es la variable?
d) ¿Cómo se clasifica esta variable?
Exportación
Número de
mensual (millones
empresas
de pesos)
7- 9 3
9 - 11 8
11 - 13 15
13 - 15 32
15 - 17 12
17 - 19 7
19 - 21 5
21 - 23 2
Se pide:
a) ¿Cuál es el volumen de exportación promedio mensual?
b) ¿Cuál es el promedio del grado de alejamiento de los volúmenes de exportación mensual
alrededor de dicho promedio?
c) ¿De cuántas medias se está hablando en el numeral anterior? Explicar a qué hace
referencia cada una de ellas y cómo se calculan.
d) Graficar el polígono de frecuencias.
e) Calcular el coeficiente de asimetría e interpretarlo.
f) Calcular el percentil 74 y analizarlo.
𝐹
Estadística para educación superior
Explicar si existe alguna relación entre mediana, segundo cuartil, quinto decil y percentil
de orden 50.
Número de Número de
computadores agencias
30 - 50 7
50 - 70 13
70 - 90 18
90 - 110 15
110 - 130 18
130 - 150 5
Total 76
Se pide:
a) Graficar el histograma.
b) Calcular la moda.
c) En promedio, ¿cuántos computadores vendió el consorcio en el semestre?
d) Calcular las frecuencias relativas.
e) Calcular el decil de orden ocho.
f) Calcular la desviación típica o estándar.
Nota: Analizar e interpretar los resultados obtenidos.
facturación. Un estudio previo sobre el cálculo del tamaño de muestra indica que para llevar a
buen término esta auditoría, se debe seleccionar una muestra aleatoria de 70 registros de
solicitud y despacho de mercancía.
Tiempo de Monto
Número de Forma de Elaboración Forma de Existencia Firma de Registro
Registro despacho (miles de
facutra solicitud factura pago de sello recibido devolución
(horas) pesos)
1 231 2 5 1 250 2 1 2 1
2 521 1 2 1 268 3 1 1 2
3 41 2 1 1 752 1 1 1 2
4 123 3 0,5 2 824 1 1 1 2
5 587 1 1,5 2 365 2 1 1 2
6 415 1 1 2 1500 3 2 1 2
7 635 1 1,5 1 100 2 1 1 2
8 412 4 2 1 156 3 1 1 2
9 852 3 0,5 1 85 1 1 1 2
10 741 2 7 1 236 3 1 1 2
11 963 2 2 1 421 2 1 1 2
12 952 4 6 1 328 2 1 1 2
13 523 2 1 2 687 3 1 1 2
14 654 1 2 2 547 1 1 2 2
15 742 4 2 1 753 4 1 1 2
16 623 4 6,5 2 700 3 1 2 2
17 418 1 2 1 5 2 2 2 1
18 795 4 5,5 2 1230 4 1 1 2
19 862 4 1 1 50 1 2 1 2
20 743 2 1 2 98 3 1 1 2
Estadística para educación superior
Tiempo de Monto
Número de Forma de Elaboración Forma de Existencia Firma de Registro
Registro despacho (miles de
facutra solicitud factura pago de sello recibido devolución
(horas) pesos)
21 569 2 2,5 2 125 2 1 2 2
22 857 4 2 1 478 2 1 1 2
23 413 1 2 1 524 3 2 2 2
24 956 1 3 1 687 3 2 1 1
25 875 1 2 1 54 1 1 1 1
26 627 2 1,5 1 62 1 1 1 2
27 813 2 4 2 78 1 1 1 2
28 928 2 3,5 1 2125 4 1 1 2
29 56 1 5 1 524 3 1 1 2
30 742 1 8 1 569 2 1 1 2
31 85 3 1 1 789 4 1 1 2
32 96 1 2 1 623 3 1 1 2
33 415 4 4,5 1 15 1 1 1 2
34 582 1 2 1 524 3 1 1 2
35 224 3 4 1 500 2 1 1 2
36 436 1 1,5 1 639 1 1 1 2
37 478 2 1,5 1 1500 1 1 1 2
38 15 1 7 1 956 4 1 1 1
39 136 1 4 1 456 2 1 2 2
40 547 1 3,5 1 547 2 1 1 2
41 14 1 3 2 236 3 1 1 2
42 196 1 3 2 125 3 1 2 2
43 54 1 4 1 412 2 2 1 2
44 76 2 2 2 258 1 1 2 2
45 32 2 2 1 951 3 2 1 2
46 547 3 5 2 544 3 2 2 2
47 65 1 4 2 200 2 1 2 1
48 45 4 3 2 10 1 1 1 2
49 48 1 6 1 215 3 1 1 2
50 459 4 2 1 236 3 1 1 2
51 721 4 5 1 379 2 1 1 2
52 146 3 6 1 365 3 1 1 2
53 237 2 2,5 1 458 1 1 1 2
54 932 2 6 2 741 1 1 1 2
55 568 3 4 1 1600 1 1 1 2
56 258 2 4 2 125 1 1 1 2
57 416 2 7 1 456 2 1 1 2
58 438 2 4 1 478 2 1 1 2
59 259 2 8 2 456 4 1 1 2
60 379 1 6 2 1700 4 1 2 2
61 534 1 5 1 512 3 1 1 1
62 58 1 4,5 1 415 3 1 1 1
63 79 1 7 1 400 1 1 1 2
64 54 1 4 1 287 1 1 1 2
65 41 1 4 1 5 1 1 1 2
66 485 3 5 1 100 1 1 1 2
67 52 1 8 1 542 3 1 1 2
68 67 1 1 2 420 3 1 1 2
69 698 1 4 1 854 3 1 1 2
70 520 1 7 1 350 1 1 1 1
Estadística para educación superior
Convenciones
Columna 1 = Conteo de registros
Columna 2 = Número de factura
Columna 3 = Forma de solicitud del pedido
Personal= 1
Teléfono = 2
Fax = 3
e-mail = 4
Columna 4 = Tiempo de despacho (en horas)
Columna 5 = Elaboración de factura
Sin errores = 1
Con errores = 2
Columna 6 = Valor o monto de la factura (en miles de pesos)
Columna 7 = Forma de pago
Contado = 1
A la semana = 2
A los 15 días = 3
Al mes = 4
Columna 8 = Existencia de sello
Sí = 1
No = 2
Columna 9 = Firma de recibido
Sí = 1
No = 2
Columna 10 = Registro de devolución
Sí = 1
No = 2
En esta base de datos, los códigos que identifican a cada categoría de la variable son
números, pero igualmente si el investigador opta por utilizar letras o palabras, puede hacerlo.
Se pide:
a) Definir la unidad o elemento de investigación.
b) Hacer un listado de las variables que se trabajan en esta investigación.
c) Clasificar cada variable y especificar sus categorías respectivas.
d) Elaborar la tabla de frecuencia para cada variable con su respectivo gráfico y analizar las
frecuencias relativas.
e) Efectuar tabla de clasificación cruzada bivariada (con frecuencias absolutas) entre
registro de devolución y el monto de la factura; elaborar gráfico. Calcular tres tablas con
porcentajes: por filas, por columnas y con base en el gran total; interpretar los
resultados obtenidos en cada tabla.
f) Efectuar tabla de clasificación cruzada bivariada (con frecuencias absolutas) entre el
valor o monto de la factura y la forma de pago; elaborar gráfico. Calcular tres tablas con
Estadística para educación superior
porcentajes: por filas, por columnas, con base en el gran total; interpretar los resultados
obtenidos en cada tabla.
g) Efectuar tabla de clasificación cruzada bivariada (con frecuencias absolutas) entre el
monto de la factura y el tiempo de despacho; elaborar gráfico. Calcular tres tablas con
porcentajes: por filas, por columnas y con base en el gran total; interpretar los
resultados obtenidos.
h) Elaborar tabla de clasificación cruzada trivariada (con frecuencias absolutas) entre forma
de solicitud, monto de la factura y forma de pago; efectuar gráfico. Calcular tablas con
porcentajes: por filas, por columnas, con base en subtotales y con base en el gran total;
interpretar los resultados obtenidos.
Convenciones
Columna 1 = Unidad académica a la que pertenece el estudiante.
Comunicación = 1
Sicología = 2
Economía = 3
Contaduría = 4
Columna 2 = Semestre que cursa el estudiante (de 1 a 10)
Columna 3 = Género del estudiante
Masculino = 1
Femenino = 2
Columna 4 = Trabajo remunerado actual
Sí = 1
No = 2
Columna 5 = Tipo de matrícula del estudiante
Tiempo parcial = 1
Tiempo completo = 2
Columna 6 = Estrato socioeconómico del estudiante (de 1 a 6)
Se pide:
a) ¿Cuál es la unidad o elemento de investigación?
b) Identificar las variables, clasificarlas y especificar las categorías que posee cada una de
ellas.
c) Elaborar una tabla de frecuencia para cada variable, con el gráfico respectivo. Analizar
las frecuencias relativas y especificarlas dentro de la tabla en términos porcentuales.
d) Efectuar una tabla de clasificación cruzada (bivariada) con frecuencias absolutas para la
unidad académica y el género. Elaborar el gráfico respectivo. Calcular tres tablas de
frecuencia con porcentajes: por filas, por columnas y con base en el gran total. Analizar e
interpretar los resultados obtenidos en estas tablas.
e) Efectuar una tabla de clasificación cruzada (bivariada) con frecuencias absolutas para el
semestre que cursa y trabajo actual. Elaborar el gráfico respectivo. Calcular tres tablas
de frecuencias con porcentajes: por filas, por columnas y con base en el gran total.
Analizar e interpretar los resultados obtenidos en cada una de estas tablas.
f) Efectuar una tabla de clasificación cruzada (trivariada) con frecuencias absolutas para la
unidad académica, género y trabajo actual. Efectuar varias tablas con porcentajes: por
filas, por columnas, con base en el gran total, con base en subtotales. Analizar e
interpretar los resultados obtenidos.
Estadística para educación superior
Para cada uno de los enunciados siguientes especificar si es una proposición falsa o
verdadera, además justificar estadísticamente el valor de verdad asignado.
Para cada uno de los siguientes enunciados, especificar si puede ser considerada alguna
variable, en caso afirmativo, indicar cuál sería el nombre, clasificarla en cualitativa o
cuantitativa, además, definir cuál es el elemento o unidad de investigación.
a) El peso en gramos de cada uno de los 200 pollos adquiridos en un restaurante para su
posterior preparación y venta.
b) Los números telefónicos de un grupo de empleados de una compañía.
c) El número de páginas de un libro.
d) El número de libros en finanzas existentes en cada una de las bibliotecas de las
universidades del departamento.
Los siguientes datos representan el gasto presupuestal anual (en millones de pesos) en la
dependencia de Bienestar Institucional de 48 establecimientos educativos de secundaria de
carácter privado.
Gasto Número de
presupuestal establecimientos
15 - 20 3
20 - 25 9
25 - 30 14
30 - 35 10
35 - 40 8
40 - 45 4
Estadística para educación superior
Se pide:
a) Calcular las frecuencias relativas y analizarlas.
b) Elaborar el polígono de frecuencias.
c) Calcular la media, la mediana y la moda.
d) Calcular la desviación típica o estándar.
e) Calcular el rango.
f) Calcular el rango intercuartílico.
g) Calcular el decil de orden siete.
h) Calcular el coeficiente de asimetría.
Nota: Analizar e interpretar los resultados obtenidos.
Los siguientes datos muestran las preferencias de un grupo de ciudadanos por cada uno
de los candidatos electorales.
Se pide:
a) ¿Cuál es la unidad o elemento de investigación?
b) Definir la variable, clasificarla e indicar las categorías que posee.
c) Elaborar un gráfico de pastel o circular.
d) Calcular las frecuencias relativas e interpretarlas.
e) Calcular la moda e interpretarla.
f) Elaborar un gráfico de barras.
Estadística para educación superior
8.30 Análisis estadístico del comportamiento asimétrico de las ventas en una cadena
de supermercados.
Los clientes que llegan a una entidad bancaria para llevar a cabo una transacción
financiera tardan determinado tiempo (en minutos), se recolecta la información de un grupo de
ellos de manera aleatoria, para analizar la distribución de frecuencias del tiempo, la información
recolectada es la siguiente:
32 16 20 42 62
18 24 36 18 56
15 28 30 21 35
32 28 20 38 26
41 16 14 42 34
15 23 21 35 15
30 18 42 54 42
14 24 51 59 56
19 34 25 15 28
Se pide:
a) Organizar el tiempo en una tabla de frecuencias con seis intervalos y una amplitud de 8.
b) Graficar el histograma.
c) Calcular la media, la mediana y la moda.
d) Calcular la desviación típica o estándar.
e) Calcular el rango intercuartil.
f) Calcular el coeficiente de asimetría y el de apuntamiento.
g) Calcular el decil de orden ocho y el percentil 67.
Estadística para educación superior
Se pide:
a) Organizar el gasto en una tabla de frecuencia.
b) Graficar el polígono.
c) Calcular media, mediana y moda.
d) Calcular desviación típica o estándar.
e) Calcular el rango.
f) Calcular el rango intercuartil.
g) Calcular el decil 4 y el percentil 72.
h) Calcular coeficiente de asimetría y de apuntamiento.
i) ¿Cuál es el intervalo donde se encuentra el 50% de los gastos inferiores?
j) ¿Cuál es el intervalo donde se encuentra el 25% de los gastos más altos?
Nota: Analizar e interpretar los resultados obtenidos.
Estadística para educación superior
Una cadena de minimercados tiene ocho agencias de venta en la zona norte, siete en el
occidente, 12 en el oriente y 20 en el sur. El volumen de venta promedio de toda la cadena es
de $91,9 millones anuales. Se sabe que en el occidente el volumen de venta promedio fue de
$38 millones, y en el oriente $96 millones. Calcular el volumen de ventas promedio para el
norte y el sur, si además se sabe que el volumen de ventas promedio del sur es dos veces y
medio el del norte.
Producción de
Número de días
tela (en metros)
500 - 600 1
600 - 700 3
700 - 800 6
800 - 900 10
900 - 1000 6
1000 - 1100 3
1100 - 1200 1
Total 30
Se pide:
a) Calcular las frecuencias relativas, absolutas acumuladas y relativas acumuladas.
b) Graficar el histograma y el polígono.
c) Calcular la media, la mediana y la moda. ¿Qué relación existe entre estos valores?, ¿qué
se puede concluir de la distribución de frecuencias de la producción de tela en metros?
d) Calcular la varianza y la desviación típica o estándar.
e) Calcular el coeficiente de asimetría y el de apuntamiento.
Estadística para educación superior
Los siguientes datos hacen referencia al gasto anual en publicidad (en miles de pesos) de
un grupo de almacenes distribuidores de maletines y correas en cuero:
Gasto en
Número de
publicidad
almacenes
(miles de pesos)
400 - 900 15
900 - 1400 9
1400 - 1900 12
1900 - 2400 15
2400 - 2900 8
2900 - 3400 4
Se pide:
a) Calcular frecuencias relativas, absolutas acumuladas y relativas acumuladas.
b) Elaborar el histograma de frecuencias.
c) Calcular la media, la mediana y la moda.
d) Calcular la desviación típica o estándar.
e) Calcular el rango.
f) Calcular el rango intercuartil.
g) Calcular el decil inferior y el decil superior.
h) ¿Cuál es el intervalo central donde se encuentra el 80% de los gastos en publicidad?
Nota: Analizar e interpretar los resultados obtenidos.
Estadística para educación superior
Una compañía está dividida en tres secciones: La sección 1 cuenta con 80 empleados. La
sección 2 cuenta con 130 empleados, que ganan en promedio, un 15% menos que los de la
sección 1. La sección 3 cuenta con 100 empleados, que ganan en promedio, un 15% más que la
sección 2.
La captación semanal (en millones de pesos) a nivel nacional, de las agencias de una
corporación de ahorro y vivienda, presenta la siguiente distribución de frecuencias:
Nivel de Número de
captación agencias
5-8 2
8 - 11 7
11 - 14 12
14 - 17 18
17 - 20 21
20 - 23 16
Se pide:
a) Calcular las frecuencias relativas e interpretarlas.
b) Elaborar el polígono de frecuencias.
c) Calcular la media, la mediana y la moda.
d) Calcular la desviación típica o estándar.
e) Calcular el coeficiente de asimetría y el de apuntamiento.
f) Calcular el decil de orden siete y el percentil 43.
Estadística para educación superior
Importación
Número de
anual (millones
sucursales
de pesos)
200 - 250 3
250 - 300 8
300 - 350 15
350 - 400 23
400 - 450 15
450 - 500 8
500 - 550 3
Total 75
Se pide:
Estadística para educación superior
Número de Consume
Edad Género
registro la bebida
9 2 1 1
10 1 4 1
11 1 3 1
12 1 4 2
13 2 5 1
14 2 6 2
15 1 4 2
16 2 7 2
17 1 1 2
18 1 4 1
19 2 7 2
20 1 4 1
21 2 7 2
22 2 5 1
23 1 3 1
24 1 4 1
25 1 3 1
26 1 1 2
27 2 6 2
28 1 3 2
29 1 5 2
30 2 7 1
31 1 4 2
32 2 6 2
33 2 6 2
34 2 5 2
35 1 7 1
36 1 4 1
37 1 7 1
38 2 6 2
39 2 6 1
40 1 4 2
Número de Consume
Edad Género
registro la bebida
41 2 7 1
42 1 4 1
43 1 7 2
44 1 3 1
45 1 3 1
46 1 4 1
47 1 4 2
48 2 7 1
49 2 4 1
50 2 3 1
51 1 6 1
52 1 7 2
53 2 3 2
54 1 4 1
Estadística para educación superior
Convenciones
Columna 1 = Número de registro de la persona
Columna 2 = Consume la bebida
Sí = 1
No = 2
Columna 3 = Edad de la persona
De 6 a 10 años = 1
De 11 a 14 años = 2
De 15 a 18 años = 3
De 19 a 22 años = 4
De 23 a 26 años = 5
De 27 a 30 años = 6
De 31 a 34 años = 7
Clolumna 4 = Clasificación según género
Masculino = 1
Femenino = 2
Los códigos utilizados para identificar las categorías de cada variable son números, pero
igualmente, si el investigador opta por utilizar letras o palabras, puede hacerlo.
Se pide:
a) Calcular tres tablas de frecuencia (cruzadas) porcentuales: por filas, por columnas y con
base en el gran total.
b) Elaborar el gráfico respectivo para cada una de las tablas anteriores.
c) Calcular una tabla de frecuencia para la edad.
d) Utilizando la tabla de frecuencia para la edad, calcular la edad promedio de los
consumidores.
e) ¿Cuál es la edad a partir de la cual se encuentra el 20% de los consumidores mayores?
¿Cuál decil será útil para hallar esta edad?, ¿se podrá también calcular utilizando los
percentiles?
f) ¿Cuál género (masculino o femenino) es el que más consume esta bebida y cuál es el
porcentaje de representatividad?
g) g) Elaborar una grafica de pastel para visualizar la distribución del género (masculino o
femenino) de los consumidores de esta bebida.
Estadística para educación superior
PARTE II
9. Probabilidades
Experimento. Cualquier proceso que genere una serie de datos; en cada realización
presenta un resultado.
Espacio muestral. Conjunto de todos los resultados posibles del experimento. Se denota
por Ω.
Suceso o evento. Subconjunto del espacio muestral. Se denota con las letras mayúsculas
del alfabeto A, B, C,... Es cualquier conjunto de posibles resultados del experimento aleatorio. El
suceso imposible se denota por el conjunto vacío, φ, y el suceso posible se denota por el
conjunto de todos los posibles resultados, Ω.
Sucesos o eventos contrarios. Son aquellos sucesos (conjuntos) que no tienen elementos
comunes, y además, la unión de ellos conforma el conjunto de todos los posibles resultados Ω.
El suceso contrario del evento A se denota con alguno de los tres símbolos siguientes: A',
A*, Ac; y así sucesivamente, para cualquier evento identificado con otra letra del alfabeto.
Estadística para educación superior
En los eventos contrarios se cumple que la intersección entre ellos arroja el conjunto
vacío, φ, y la unión da como resultado el conjunto Ω. Gráficamente, se tiene:
A'
Sucesos o eventos incompatibles. Son aquellos eventos que sin ser necesariamente
contrarios, no presentan elementos en común, es decir, son eventos que no se pueden
presentar simultáneamente, también conocidos como mutuamente excluyentes o exhaustivos.
Gráficamente:
Ω
A No siempre ocurre que
A ⋃ B = Ω porque
pueden existir
elementos
B pertenecientes a Ω y
que se encuentren por
fuera de A o de B.
Estadística para educación superior
Ω
Eventos incompatibles:
A B
n(A ⋃ B) = n(A) + n(B)
Se lee: número de
elementos de A unión B
es igual al número de
elementos de A más del
número de elementos
de B
Ω
Eventos compatibles:
A B
n(A ⋃ B) = n(A) + n(B) - n(A ∩ B)
Se lee: número de elementos de A
unión B es igual al número de
elementos de A más el número de
elementos de B, menos el número
de elementos de A intersección B
Estadística para educación superior
Ω
Unión de tres eventos compatibles:
A B
n(A⋃B⋃C) = n(A) + n(B) + n(C)
xxxxxxxxxxx- n(A∩B ) - n(A⋂C) - n(B⋂C)
xxxxxxxxxx+ n(A⋂B⋂C)
Se lee: número de elementos de A unión B unión C
es igual a número de elementos de A, más número
de elementos de B, más número de elementos de C,
menos número de elementos de A intersección B,
menos número de elementos de A intersección C,
menos número de elementos de B intersección C,
C más número de elementos de A intersección B
intersección C
Ω
A B Número de elementos de A y B:
Los eventos A y B se presentan
simultáneamente; son eventos
compatibles.
n(A ∩ B )
Ω
A B
Número de elementos de A, B y C:
Número de elementos de los tres
eventos, simultáneamente.
n(A ∩ B ⋂ C )
C
Estadística para educación superior
Ω Ω
A B A B
C C
Ω Ω
A B A B
C C
Ω
A B
Complemento de la unión de eventos:
En este caso, no hay elementos de A
ni de B ni de C.
n(A'⋂B'⋂C') = n(A⋃B⋃C)'
Ω Ω
A B A B
Existen tres formas básicas de visualizar o analizar las probabilidades, éstas son:
( )
( ) Fórmula (36)
( )
( ⋂ )
( ⋂ ) Fórmula (37)
( )
Ω
A B
Ω A B
P( A y B ) = P( A ⋂ B )
( ⋂ )
( ⋂ )=
( )
Ω A B
Ω A B
P(A o B) = P(A ⋃ B)
( ⋃ )
( ⋃ )=
( )
Ω A B
( )
( )=
( )
Ω A B
Ω A B
P(A y B y C) = P(A ⋂ B ⋂ C)
( ⋂ ⋂ )
( ⋂ ⋂ )=
( )
Ω A B
Ω A B
P(A o B o C) = P(A ⋃ B ⋃ C)
( ⋃ ⋃ )
( ⋃ ⋃ )=
( )
P(A) = 1 - P(A')
Eventos A1 A2 A3 … Aj Total
B1 P(A1 ⋂ B1) P(A2 ⋂ B1) P(A3 ⋂ B1) … … P(B1)
B2 P(A1 ⋂ B2) P(A2 ⋂ B2) P(A3 ⋂ B2) … … P(B2)
B3 P(A1 ⋂ B3) P(A2 ⋂ B3) P(A3 ⋂ B3) … … P(B3)
… … … … … … …
Bi … … … … P(Aj ⋂ Bj) P(Bi)
Total P(A1) P(A2) P(A3) … P(Aj) P(Ω) = 1
Probabilidades marginales:
P(A1), P(A2), P(A3), …, P(Aj)
Estadística para educación superior
( ) ∑ ( ⋂ )
( ) ∑ ( ⋂ )
( ) ∑ ( ⋂ )
( ) ∑ ( ⋂ )
( ⋂ )
( ) Fórmula (38)
( )
Estadística para educación superior
Nota: Cuando los eventos son independientes, la P(A/B) = P(A) y la P(B/A) = P(B). En
estos casos se dice que la probabilidad de ocurrencia del evento A no está relacionada con la
probabilidad de ocurrencia del evento B.
Es una técnica estadística para calcular el valor de una probabilidad cuando intervienen
en el análisis, probabilidades condicionales y también un conjunto de eventos mutuamente
excluyentes.
Estadística para educación superior
( ) ( )
( ) Fórmula (39)
∑ ( ) ( )
Los eventos Ai son eventos mutuamente excluyentes o incompatibles (no pueden ocurrir
simultáneamente), sin embargo, cada Ai es compatible con B. La sumatoria de la probabilidad
de ocurrencia de cada evento Ai es igual a 1, debido a que se trata de eventos mutuamente
excluyentes: ∑ ( )
Solución
n(Ω) = 108
n(A) = 53
n(B) = 46
n(C) = 78
n(A ⋂ B) = 23
n(B ⋂ C) = ?
n(A ⋂ C) = 35
n(A ⋂ B ⋂ C) = 15
n(A' ⋂ B' ⋂ C') = 7
Para elaborar el diagrama de Venn es indispensable tener pleno conocimiento del total de
elementos en cada uno de los eventos y en cada una de las partes del diagrama con su respectiva
identificación. Después de conocer todos los datos, se comienza a llenar desde la parte más
interna hacia la más externa, es decir, desde la intersección de los tres eventos, y luego los
espacios donde se ubican las intersecciones de a dos eventos.
( ⋃ ⋃ )
( ⋃ ⋃ )
Se aplica la fórmula para la unión de tres eventos, y de ésta, se despeja el valor de n(B ⋂ C) =?,
posteriormente se procede a llenar el diagrama de Venn.
( ⋃ ⋃ ) ( ) ( ) ( ) ( ⋂ ) ( ⋂ ) ( ⋂ ) ( ⋂ ⋂ )
( ⋂ )
( ⋂ )
( ⋂ )
( ⋂ )
Diagrama de Venn
Ω
A B
10 8 5
15
20 18
25
7
C
a) ( ⋂ ′⋂ ′)
( ⋂ ′⋂ ′)
( )
La probabilidad de que venda únicamente amplificadores es de 0,0925. El grado de certeza de que
venda únicamente amplificadores es del 9,25%.
b) ( ′⋂ ⋂ )
( ⋂ ⋂ ′)
( )
La probabilidad de que venda únicamente botiquines y cosméticos es de 0,1667. El grado de
certeza de que sólo venda botiquines y cosméticos es del 16,67%.
c) ( ⋃ ⋃ )
( ⋃ ⋃ )
( )
La probabilidad de que venda amplificadores o botiquines o cosméticos es de 0,9352. El grado de
certeza de que venda amplificadores o botiquines o cosméticos es del 93,52%.
Estadística para educación superior
d) ( ⋂ ⋂ )
( ⋂ ⋂ )
( )
La probabilidad de que venda amplificadores y botiquines y cosméticos es de 0,1389. El grado de
certeza de que venda los tres productos simultáneamente es del 13,89%.
e) ( ′⋂ ′⋂ )
( ) ( ′⋂ ′⋂ )
( )
La probabilidad de que únicamente venda cosméticos es de 0,2315. El grado de certeza de que
venda sólo cosméticos es del 23,15%.
f) ( )
( )
( )
La probabilidad de que venda cosméticos es de 0,7222. El grado de certeza de que venda
cosméticos es del 72,22%.
9.9.2 Producción-maquinaria
Solución
( ) con i = 1, 2, 3, 4.
( ⋂ ⋂ ⋂ ) ∏ ( ) ( ) ( ) ( ) ( )
( ⋂ ⋂ ⋂ )
Solución
Probabilidades marginales:
P(H)= 0,40 Probabilidad de ser hombre
P(M)= 0,60 Probabilidad de ser mujer
Probabilidades conjuntas:
P(H ⋂ N) = 0,04 Probabilidad de ser hombre y no pertenecer a ningún partido político.
P(M ⋂ N) = 0,01 Probabilidad de ser mujer y no pertenecer a ningún partido político.
Estadística para educación superior
Género
Partido político Total
Hombre Mujer
No (N) 0,04 0,01 ?
Sí (S) ? ? ?
Total 0,40 0,6 1
( ⋂ )
( ⋂ )
( )
( )
La tabla completa, con las respectivas probabilidades conjuntas y marginales, queda así:
Probabilidades
conjuntas
Género
Partido político Total
Hombre Mujer
No (N) 0,04 0,01 0,05
Sí (S) 0,36 0,59 0,95
Total 0,40 0,6 1,00
Probabilidades
marginales
a) P(M / N) = ? Probabilidad de que el empleado sea mujer dado que no pertenece a ningún
partido político.
( ⋂ )
( )
( )
Si se selecciona un empleado al azar, el grado de certeza que sea mujer dado que no pertenece
a ningún partido político es del 20%.
b) P(H / N) = ? Probabilidad de que el empleado sea hombre dado que no pertenece a ningún
Estadística para educación superior
partido político.
( ⋂ )
( )
( )
Si se selecciona un empleado al azar, el grado de certeza que sea hombre dado que no
pertenece a ningún partido político es del 80%.
Los sistemas L1, L2, L3 y L4 son puestos a funcionar el 40%, 30%, 20% y 30% del tiempo,
respectivamente.
La probabilidad de que una persona lleve exceso de velocidad dado que fue detectada
por cada uno de los radares respectivamente es de 0,2, 0,1, 0,5 y 0,2.
¿Cuál es la probabilidad de que el tercer radar haya detectado a una persona dado que
llevaba exceso de velocidad?
Solución
P(L1) = 0,40 Probabilidad de que sea detectado por el radar 1. Probabilidad de que el
radar 1 esté funcionando.
P(L2) = 0,30 Probabilidad de que sea detectado por el radar 2. Probabilidad de que el
radar 2 esté funcionando.
P(L3) = 0,20 Probabilidad de que sea detectado por el radar 3. Probabilidad de que el
radar 3 esté funcionando.
P(L4) = 0,30 Probabilidad de que sea detectado por el radar 4. Probabilidad de que el
radar 4 esté funcionando.
P(B / L1) = 0,20 Probabilidad de que lleve exceso de velocidad dado que es detectado por
el radar 1.
P(B / L2) = 0,10 Probabilidad de que lleve exceso de velocidad dado que es detectado por
el radar 2.
P(B / L3) = 0,50 Probabilidad de que lleve exceso de velocidad dado que es detectado por
el radar 3.
P(B / L4) = 0,20 Probabilidad de que lleve exceso de velocidad dado que es detectado por
el radar 4.
P(L3 / B) =? Probabilidad de que sea detectado por el radar 3 dado que llevaba exceso de
velocidad.
( ) ( )
( )
∑ ( ) ( )
( )
( ) ( ) ( ) ( )
( )
Interpretación: La probabilidad de que un conductor sea detectado por el radar 3 dado que
llevaba exceso de velocidad es de 0,37. El grado de certeza de que un conductor sea detectado
por el radar 3 dado que lleve exceso de velocidad es del 37%.
Estadística para educación superior
a) ¿Cuál es la probabilidad de que el registro haya sido procesado por el primer empleado?
b) ¿Cuál es la probabilidad de que el registro haya sido procesado por el segundo
empleado?
c) ¿Cuál es la probabilidad de que el registro haya sido procesado por el tercer empleado?
Solución
P(B / E3) = 0,02 Probabilidad de que un registro presente error dado que fue procesado
por el empleado 3.
El problema plantea:
a) P(E1 / B) = ? Probabilidad de que el primer empleado procese el registro dado que el
registro presenta error.
b) P(E2 / B) = ? Probabilidad de que el segundo empleado procese el registro dado que el
registro presenta error.
c) P(E3 / B) = ? Probabilidad de que el tercer empleado procese el registro dado que el
registro presenta error.
( )
( )
El 18% de las familias de un barrio tienen carro propio, el 20% tienen vivienda propia y el
12% tienen vivienda y carro propio. Calcular:
Una corporación del sector financiero está pensando en utilizar una lista de propietarios
de acciones y bonos para mercadear un nuevo servicio a través de publicaciones enviadas por
correo a los inversionistas. El 40% de los inversionistas financieros tienen sólo acciones. El 10%
de los inversionistas financieros tienen sólo bonos. El 20% de los inversionistas poseen ambos.
El 30% no tienen bonos ni acciones (poseen otro documento financiero).
Calcular:
a) Probabilidad de que venda los tres electrodomésticos.
b) Probabilidad de que venda neveras.
c) Probabilidad de que venda únicamente neveras.
d) Probabilidad de que venda lavadoras y equipos de sonido.
e) Probabilidad de que venda lavadoras o equipos de sonido.
f) Probabilidad de que venda sólo lavadoras y equipos de sonido.
g) Probabilidad de que venda sólo equipos de sonido.
h) Probabilidad de que no venda ninguno de los tres electrodomésticos.
9.10.7 Transporte de mercancía: Embarque de cajas con juguetes y ropa para bebé.
Un embarque contiene 10 cajas, tres de ellas, con juguetes para niños menores de un
año y siete con ropa de bebé. Si se seleccionan aleatoriamente dos cajas del embarque, ¿cuál es
la probabilidad de que las cajas seleccionadas contengan ropa para bebé? Calcular esta
probabilidad para el caso de:
a) Selección con reposición.
b) Selección sin reposición.
Una firma manufacturera recibe embarques de dos proveedores. El 70% de las piezas
adquiridas provienen del proveedor A y el 30% restante del proveedor B. La calidad de las piezas
adquiridas varía con la fuente de suministro. Con base en datos históricos, las probabilidades
condicionales de recibir piezas buenas y malas de los proveedores están dadas por:
La probabilidad de que la pieza esté buena, dado que fue enviada por el proveedor A es
de 0,98. En otras palabras, el 98% de las piezas enviadas por el proveedor A son buenas.
La probabilidad de que la pieza esté mala dado que fue enviada por el proveedor A es de
0,02.
La probabilidad de que la pieza esté buena dado que fue enviada por el proveedor B es
de 0,95.
La probabilidad de que la pieza este mala dado que fue enviada por el proveedor B es de
0,05.
Se tomó una muestra de 115 amas de casas consumidoras de detergentes para el aseo
en el hogar, se encontró que: 15 no consumen Arielly ni Fabe; 45 consumen Arielly; 60
consumen Fabe.
Una aerolínea estudia la distribución de sus vuelos en época de vacaciones con destino a
tres ciudades (Armenia, Bogotá, Cartagena). Se toma una muestra de 146 pasajeros, a los cuales
se les hace un seguimiento sobre sus viajes, encontrándose los siguientes resultados: 53 visitan
la ciudad de Armenia; 60 visitan la ciudad de Bogotá; 100 visitan la ciudad de Cartagena; 25
visitan Armenia y Bogotá; 35 visitan Armenia y Cartagena; 40 visitan Bogotá y Cartagena; 18 no
visitan ninguna de las tres ciudades anteriores.
El 97% de los productos con mayor éxito en el mercado recibieron buenas evaluaciones.
El 70% de los productos con moderado éxito en el mercado recibieron buenas calificaciones. El
12% de los productos con baja aceptación en el mercado recibieron buenas calificaciones. El
estudio también muestra que: El 45% de los productos han tenido mucho éxito en el mercado;
Estadística para educación superior
El 40% de los productos han tenido éxito moderado en el mercado; El 15% de los productos son
de baja aceptación en el mercado.
De 1.500 jóvenes de 18 años se encontró que 400 tienen empleo y 1.200 son bachilleres.
De los bachilleres, 285 tienen empleo.
Estadística para educación superior
PARTE III
Existen casos en que no se conoce la totalidad de datos reales, pero con base en los
reales se puede construir la distribución de probabilidad, se conoce como una distribución de
probabilidad teórica referida a una variable aleatoria o variable estocástica.
Para que una función matemática f(X) pueda ser definida como función de densidad de
probabilidad, debe cumplir las siguientes condiciones, para cada valor de X que forme parte del
dominio de la función.
Es importante recordar que una función matemática puede estar definida para valores
de X infinitos, o para determinados valores de X, lo que se conoce como el dominio de la
función. En este tema, el rango de la función esta dado por los valores de probabilidades, los
cuales se ubican en el eje Y.
La probabilidad puntual P(X = xi) de que X tome un valor particular de xi sólo es posible
calcularla para el caso de la variable aleatoria discreta, para la variable aleatoria continua no
existen valores de probabilidad puntuales.
( ≤ 𝑥) = ∑ ( )
𝑥
= ∞
( ≤ 𝑥) = ( )𝑑𝑥 = 𝐹(𝑥)
𝑡𝑒 𝑖
∞
( < 𝑥) = ∑ ( )
= ∞
Nota: se acumula sin incluir el valor de x,
hasta el anterior.
µ= ( )=∑ 𝑖 ( 𝑖) +∞
𝑖=1
Fórmula (40) µ= ( )= ( )𝑑𝑥 Fórmula (42)
∞
Con ( 𝑖 ) = ( = 𝑖)
Varianza Varianza
( )= 2
+∞
2
2
Fórmula (41) = ( µ)2 ( )𝑑𝑥 Fórmula (43)
=∑ 𝑖 ( 𝑖) ∞
𝑖=1
( )≠ ( ≤ )
( ) ( ≤ )
( ) ( ≤ )
( ) ( )
( ) ( ≤ ) ( ≤ ) 𝐹( ) 𝐹( )
( ≤ ≤ 𝑏) ( ≤ 𝑏) ( ≤ ) 𝐹(𝑏) 𝐹( )
( ) ( ≥ ) ( ) ( ≤ )
( ≥ ) ( ≤ )
Estadística para educación superior
( ) No existe
( ≤ ) ( ) 𝐹( )
( ≤ ≤ 𝑏) ( ≤ 𝑏) ( ≤ ) ( 𝑏) ( ) 𝐹(𝑏) 𝐹( )
( 𝑏) ( ≤ ≤ 𝑏)
( ) ( ≥ ) ( ≤ ) ( ) 𝐹( )
Nomenclatura.
Fórmula (44)
Estadística para educación superior
Fórmula (45)
𝑏
Fórmula (46)
Fórmula (47)
( ) ( )
Fórmula (48)
≤
Parámetros de la binomial.
Fórmula (49)
Estadística para educación superior
√
Fórmula (50)
( ) ( )
( )
Por definición, 0! = 1
Para su gráfico se recomienda efectuar con anterioridad las respectivas tabulaciones, tal
como se presenta en el ejemplo a continuación (ver figura 45).
Estadística para educación superior
Figura 45. Tabulaciones para el caso particular de una binomial con n = 7, p = 0,30
( )=( ) 𝑥
X f(X) Probabilidad
7 0,082354
0 (0) = ( ) (0,300 )(0,707 )
0
7 0,247063
1 (1) = ( ) (0,301 )(0,706 )
1
7 0,317652
2 (2) = ( ) (0,302 )(0,705 )
2
7 0,226895
3 (3) = ( ) (0,303 )(0,704 )
3
7 0,097241
4 (4) = ( ) (0,304 )(0,703 )
4
7 0,025005
5 (5) = ( ) (0,305 )(0,702 )
5
7 0,003572
6 (6) = ( ) (0,306 )(0,701 )
6
7 0,000219
7 (7) = ( ) (0,307 )(0,700 )
7
0,240000
0,220000
0,200000
0,180000
0,160000
0,140000
0,120000
0,100000
0,080000
0,060000
0,040000
0,020000
0,000000
0 1 2 3 4 5 6 7 8
Valores de X
𝑒 ( 𝑡)
( ) para K ≥ 0, y valores enteros Fórmula (51)
Siendo:
λ = Promedio de éxitos (llegadas, clientes) por unidad de tiempo.
t =Unidad de tiempo.
K = Número de éxitos (llegadas, clientes) en el tiempo t.
Fórmula (52)
𝑡
Estadística para educación superior
𝑡 Fórmula (53)
( )( )
( )
( )
( )
( ) Con K ≥ = 0, además, valores enteros.
K f(K) Probabilidad
20 0
20
0 𝑒 6 ( ) 0,035673993
(0) = 6
0!
20 20 1
1 𝑒 6 ( ) 0,118913311
(1) = 6
1!
20 20 2
2 𝑒 6 ( ) 0,198188852
(2) = 6
2!
20 20 3
3 𝑒 6 ( ) 0,220209835
(3) = 6
3!
20 20 4
4 𝑒 6 ( ) 0,183508196
(4) = 6
4!
20 20 5
5 𝑒 6 ( ) 0,122338797
(5) = 6
5!
20 20 6
6 𝑒 6 ( ) 0,067965999
(6) = 6
6!
20 20 7
7 𝑒 6 ( ) 0,032364761
(7) = 6
7!
20 20 8
8 𝑒 6 ( ) 0,013485317
(8) = 6
8!
20 20 9
9 𝑒 6 ( ) 0,004994562
(9) = 6
9!
20 20 10
10 𝑒 6 ( ) 0,001664854
(10) = 6
10!
20 20 11
11 𝑒 6 ( ) 0,000504501
(11) = 6
11!
20 20 12
12 𝑒 6 ( ) 0,000140139
(12) = 6
12!
20 20 13
13 𝑒 6 ( ) 0,000035933
(13) = 6
13!
Estadística para educación superior
0,2375
0,2250
0,2125
0,2000
0,1875
0,1750
Probabilidad f(K)
0,1625
0,1500
0,1375
0,1250
0,1125
0,1000
0,0875
0,0750
0,0625
0,0500
0,0375
0,0250
0,0125
0,0000
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
K éxitos
Siendo:
N = tamaño de la población.
n = tamaño de la muestra.
NA = número de éxitos en la población, número de elementos que poseen la
característica de interés en la población.
X = número de éxitos en la muestra, número de elementos que poseen la característica
de interés en la muestra.
NB = número de fracasos en la población, número de elementos que no poseen la
característica de interés dentro de la población.
nB = número de fracasos en la muestra, número de elementos que no poseen la
característica de interés A dentro de la muestra.
( ) ( ) ( )
( ) ( ) ( )
( )( )
( ) Fórmula (55)
( )
Fórmula (56)
( )( )
Fórmula (57)
( )
X f(X)
8 4
( )( )
(0) = 0 5
12
( )
0 5 0
4
No existe porque ( ) no está definido, es imposible
5
calcularlo
8 4
( )( )
1 (1) = 1 4 0,0101010
12
( )
5
8 4
( )( )
2 (2) = 2 3 0,1414141
12
( )
5
8 4
( )( )
3 (3) = 3 2 0,4242424
12
( )
5
8 4
( )( )
4 (4) = 4 1 0,3535354
12
( )
5
8 4
( )( )
5 (5) = 5 0 0,0707071
12
( )
5
Observar que la sumatoria de las f(X) con X desde 0 hasta 5 vale 1: ∑5 =0 ( ) = 1
0,4
0,35
0,3
Probabilidad
0,25
0,2
0,15
0,1
0,05
0
0 1 2 3 4 5 6
La función f(X) que representa a la distribución de probabilidad normal está dada por:
( )
( ) 𝑒 Fórmula (58)
√
µ = media de la variable X
σ = desviación típica o estándar de la variable X
e = base de los logaritmos naturales (ln), equivale a 2, 71828
π = valor de “pi”, equivale a 3,14159265...
─∞≤X≤+∞
Los sesgos, donde existen áreas representativas bajo la curva de la normal, se extienden
más o menos a tres desviaciones estándar de la media, sin embargo éstos sesgos continúan
infinitamente acercándose al eje X pero sin tocarlo, las áreas bajo la curva de la normal por
fuera de éste rango de X constituyen áreas demasiado pequeñas y por lo tanto no muy
representativas.
Media µ
Varianza σ2
Distribución normal
Frecuencia
µ - 3σ µ - 2σ µ - σ µ µ + σ µ + 2σ µ + 3σ X
68,3%
95,5%
99,7%
Estadística para educación superior
Estandarización.
Fórmula (59)
En este caso, la función de densidad de probabilidad a graficar está dada por la siguiente
expresión matemático-estadística:
( ) 𝑒
√
Normal estandarizada
Probabilidades f(Z)
Valores de Z
( ≤ ) ( )𝑑
( ≤ )
La variable X representa el tiempo transcurrido entre dos eventos, sucesos, llegadas, por
tal motivo se refiere a una variable cuantitativa continua. La distribución exponencial es muy
Estadística para educación superior
( ) 𝑒
Fórmula (60)
( ) 𝑒 ≥
( ≤ 𝑡) ( )𝑑𝑥
( ) Fórmula (61)
( ≤ 𝑡) 𝑒 𝑑𝑥 𝑒
( ≤ 𝑡) 𝑒
Figura 53. Relación entre el número promedio de llegadas y el tiempo promedio entre
llegadas, de la función de densidad para la exponencial
Unidad de tiempo t = 1
Fórmula (62)
Fórmula (63)
La forma que toma la distribución exponencial cambia dependiendo del valor que
asuman λ y θ. Se grafica, a manera de ejemplo un caso particular (ver figura 54), donde:
( ) 𝑒
( ) 𝑒
1,50 0,2361833
1,75 0,208431
2,00 0,1839397
2,25 0,1623262
2,50 0,1432524
2,75 0,1264198
3,00 0,1115651
3,25 0,0984558
3,50 0,086887
3,75 0,0766775
4,00 0,0676676 X (tiempo)
La forma que toma la distribución uniforme es una línea recta paralela al eje X, toda el
área bajo función a través de todo el recorrido de X vale uno (1); esto es:
∫ ( )𝑑𝑥
( ≤ 𝑥) ∫ (𝑡)𝑑𝑡 ∫ 𝑑𝑡
𝑥
( ≤ 𝑥) Fórmula (65)
𝑏
𝑏
( ≤ ≤𝑏 Fórmula (66)
𝑏
Los parámetros, media y varianza, para la distribución uniforme, vienen expresados por:
Estadística para educación superior
𝑏
Fórmula (67)
(𝑏 )
Fórmula (68)
( )
Se tabula la función f(X) para diferentes valores de X dentro del intervalo, arrojando
siempre el mismo resultado, así:
X f (X )
Valores de f(X)
3,0 0,1429
4,0 0,1429
5,0 0,1429
6,0 0,1429
7,0 0,1429
8,0 0,1429
9,0 0,1429
10,0 0,1429
Valores de X
Estadística para educación superior
Definición de la Chi-cuadrado.
Sean X1, X2, X3,..., Xv variables aleatorias independientes que se distribuyen normalmente
con una media de cero (0) y una desviación típica o estándar de uno (1), es decir variables que
se distribuyen como normales estandarizadas; la sumatoria de cada una de estas variables
normales estandarizadas al cuadrado recibe el nombre de Chi-cuadrado (ji-cuadrado) con v
grados de libertad.
Fórmula (69)
∑ Sumatoria de normales estandarizadas al cuadrado.
( ) ( )
( ) 𝑒 Para X > 0 Fórmula (70)
( )
Estadística para educación superior
Fórmula (71)
Fórmula (72)
( ) ∫ 𝑒 𝑑𝑥
( ) 𝑒
( )
( ) 𝑒
( )
( ) 𝑒
( )
( ) ( )
( ) 𝑒
Estadística para educación superior
Se tabula esta función para diferentes valores de X y se obtienen los respectivos valores
de f(X), puntos que se ubican en el plano cartesiano, dando forma a la curva de densidad de
probabilidad de la Chi-cuadrado, así:
X f (X )
0,1 0,02378074
0,2 0,04524187
0,3 0,0645531
0,4 0,08187308
0,5 0,0973501
0,6 0,11112273
0,7 0,12332042 Distribución Chi-cuadrado para v = 4
0,8 0,13406401
0,9 0,14346633
1 0,15163267
Valores de f(X)
2 0,18393972
3 0,16734762
4 0,13533528
5 0,10260625
6 0,0746806
7 0,05284542
8 0,03663128
9 0,02499524
10 0,01684487
Valores de X
11 0,01123862
12 0,00743626
13 0,00488618
14 0,00319159
15 0,00207407
( ) ( ≤ ) ∫ 𝑒 𝑑𝑥
( )
Estadística para educación superior
( ≤ ) ( ≤ ) Fórmula (73)
( ≤ ) ( ≤ )
( ≤ ) ( ≤ )
𝑡
Fórmula (74)
√
( )
( ) 𝑡
(𝑡 ) ( ) Fórmula (75)
√ ( )
( ) ∫ 𝑒 𝑑𝑥
Otras fórmulas útiles para calcular Г(n), el valor gamma de un número n, son:
( ) ( ) ( ) para n entero
( ) ( )
( ) √
( ) ( )
( )
( ) ( )
( )
[ ( )]
[ ( )]
[ ( )]
( ) √
Ejemplo:
( )
( )
(𝑡 ) ( )
√ ( )
Para v = 5, se tiene:
( ) ( ) ( ) ( ) ( )
√ √
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) √
(𝑡 ) ( )
(√ )
Se tabula la función para diferentes valores de t; los valores de t se ubican en el eje X del
plano cartesiano, y los valores que arroje f(t,5) se ubican en el eje Y.
Estadística para educación superior
Distribución t-student
F(t) con v = 5
Valores de t
El 20% de los empaques producidos por una máquina son defectuosos. Determinar la
probabilidad de que de cuatro empaques tomados al azar:
a) Exactamente uno sea defectuoso.
b) Ninguno sea defectuoso.
c) Por lo menos uno sea bueno.
d) Entre uno y tres sean buenos.
Solución
Distribución binomial
( ) ( ) ( )( ) ( )
La probabilidad de que de cuatro empaques tomados al azar, exactamente uno sea defectuoso
es de 0,4096. Si se toman cuatro empaques al azar, el grado de certeza de que exactamente uno
sea defectuoso es del 40,96%.
( ) ( ) ( )( ) ( )
Si se toman cuatro empaques al azar producidos por esta máquina, la probabilidad de que
ninguno sea defectuoso es de 0,4096. Si se toman cuatro empaques al azar producidos por esta
máquina, el grado de certeza de que ninguno sea defectuoso es del 40,96%.
( ≥ ) ( ) ( ) ( ) ( )
( ≥ ) ( )
( ) ( )( ) ( )
( ≥ )
Si se toman cuatro empaques al azar producidos por esta máquina, la probabilidad de que por lo
menos un empaque sea bueno es de 0,9984. Si se toman cuatro empaques al azar producidos
por esta máquina, el grado de certeza de que por lo menos un empaque sea bueno es del
9,84%.
( ≤ ≤ ) ( ) ( ) ( )
( ) ( )( ) ( )
( ) ( )( ) ( )
( ) ( )( ) ( )
( ≤ ≤ ) ∑ (𝑥)
Si se toman cuatro empaques al azar producidos por esta máquina, la probabilidad de que entre
uno y tres empaques sean buenos es de 0,5888. Si se toman cuatro empaques producidos por
esta máquina, el grado de certeza de que entre uno y tres empaques sean buenos es de 58,88%.
Un vendedor de seguros vende pólizas a cinco hombres, todos de la misma edad (48
años) y en buen estado de salud. La probabilidad de que un hombre de esa edad viva 30 años
más es de 2/3. Hallar la probabilidad de que dentro de 30 años:
a) Vivan solamente dos de los hombres.
b) Vivan al menos tres de los hombres.
Estadística para educación superior
Solución
Distribución binomial
a)
( ) ( ) ( )( ) ( )
Si se venden pólizas de seguro de vida a cinco hombres, todos de la misma edad y en buen
estado de salud, la probabilidad de que dentro de 30 años vivan solamente dos hombres es de
0,161321; el grado de certeza de que dentro de 30 años vivan solamente dos hombres es del
16,13%.
b)
( ≥ ) ( ) ( ) ( )
( ) ( )( ) ( )
( ) ( )( ) ( )
( ) ( )( ) ( )
( ≥ ) ∑ ( )
Si se venden pólizas de seguro de vida a cinco hombres, todos de la misma edad y en buen
estado de salud, la probabilidad de que dentro de 30 años vivan como mínimo tres hombres es
de 0,795037; el grado de certeza de que dentro de 30 años vivan por lo menos tres hombres es
del 79,5%.
Estadística para educación superior
10.8.3 Pago de facturas por parte de los usuarios de una compañía de teléfonos
celulares.
Los clientes de una compañía de teléfonos celulares llegan a la caja registradora para
pagar sus facturas con una rapidez promedio de 15 clientes cada media hora.
a) ¿Cuál es la probabilidad de que lleguen más de nueve clientes en 15 minutos?
b) ¿Cuál es la probabilidad de que lleguen entre cinco y ocho clientes en 10 minutos?
Solución
Distribución Poisson
𝑖𝑒 𝑡𝑒 𝑚𝑖 𝑡
Al definir la unidad de tiempo “minuto”, el valor de λ queda expresado así:
𝑖𝑒 𝑡𝑒 𝑚𝑖 𝑡
a) ( )
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
( ≤ ) ( )
Metodología 1: Evaluar la función de densidad de probabilidad para 10, 11, 12, 13, 14 y 15
éxitos, efectuar la sumatoria para obtener la probabilidad pedida.
( ) ∑ ( ) ( ) ( ) ( ) ( ) ( ) ( )
( ≤ ) de la siguiente manera:
( ≤ ) ∑ ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
El resultado obtenido al aplicar cada una de éstas metodologías es el mismo, por tal motivo se
puede elegir trabajar con cualquiera de las dos, generalmente se elige la más corta, en este caso
sería la metodología 1, sin embargo se muestra el procedimiento de la metodología 2, así:
𝑒 ( ) 𝑒 ( )
( )
𝑒 ( )
( )
𝑒 ( )
( )
𝑒 ( )
( )
𝑒 ( )
( )
𝑒 ( )
( )
𝑒 ( )
( )
𝑒 ( )
( )
𝑒 ( )
( )
𝑒 ( )
( )
Se obtiene la sumatoria:
∑ ( )
( ≤ )
( ) ( ≤ )
( )
( )
b) ( ≤ ≤ ) Con un 𝑡 minutos y un
( ≤ ≤ ) ( ) ( ) ( ) ( )
Estadística para educación superior
𝑒 ( ) 𝑒 ( )
( )
𝑒 ( )
( )
𝑒 ( )
( )
𝑒 ( )
( )
( ≤ ≤ ) ∑ ( )
( ≤ ≤ )
La probabilidad de que lleguen entre cinco y ocho clientes en 10 minutos es de 0,49141. El grado
de certeza de que lleguen entre cinco y ocho clientes en 10 minutos es del 49,14%.
Solución
Distribución hipergeométrica.
( ≤ ) ∑ ( )
( ≤ ) ( ) ( ) ( )
( )( )
( )
( )( )
( )
( )( )
( )
( ≤ )
( ≤ )
Solución
a) ( ≤ ) ( ≤ )
( ≤ ) ( ≤ )
( ≤ ) ( ≤ )
( ≤ )
( ≤ )
La probabilidad de que el volumen de exportación mensual sea mayor o igual a $21.000 millones
es de 0,7486. El grado de certeza de que el volumen de exportación sea mayor o igual a $21.000
millones es del 74,86%.
b) ( ≤ ≤ ) ( ≤ ) ( ≤ )
( ≤ ≤ ) ( ≤ ) ( ≤ )
( ≤ ≤ )
( ≤ ≤ )
Estadística para educación superior
c) ( ≤ ) ( ≤ )
( ≤ )
La vida útil de las pilas de una cierta marca está distribuida normalmente. Si el 6,68% de
las pilas duran más de 56 horas y el 30,85% duran menos de 52 horas, ¿cuál es la media y la
desviación estándar?
Solución
Distribución normal
( ≤ )
( ≤ )
( ≤ )
( ≤ )
Plantear el siguiente sistema de ecuaciones de 2x2, las dos incógnitas son precisamente µ y σ .
Primera ecuación:
Segunda ecuación:
Igualando se tiene:
( )
Los clientes llegan a un banco con una rapidez promedio de 20 clientes por hora. Si un
cliente acaba de llegar:
a) ¿Cuál es la probabilidad de que el siguiente cliente llegue dentro de 10 minutos?
b) ¿Cuál es la probabilidad de que el siguiente cliente llegue en el lapso de tiempo entre
tres y siete minutos?
Estadística para educación superior
Solución
Distribución exponencial
a) clientes/hora
minutos
Hora Minutos
1 60
10
( ≤ ) 𝑒
( ≤ ) 𝑒
b) ( 𝑚𝑖 ≤ ≤ 𝑚𝑖 )
( ≤ ≤ )
( ≤ ≤ ) ( ≤ ) ( ≤ )
( ) ( )
( ≤ ≤ ) [ 𝑒 ] [ 𝑒 ]
( ≤ ≤ ) ( 𝑒 ) ( 𝑒 )
La probabilidad de que el siguiente cliente llegue en el lapso de tiempo entre tres y siete
minutos es de 0,2706. El grado de certeza de que el siguiente cliente llegue en el lapso de
tiempo entre tres y siete minutos es del 27,06%.
Estadística para educación superior
Solución
a)
( ≤ )
b)
( ≤ ≤ )
producción. Con base en información pasada, la probabilidad de tener una unidad defectuosa es
de 0,12.
La gerencia ha decidido detener la producción cada vez que una muestra de seis
unidades tenga dos o más defectuosas. ¿Cuál es la probabilidad de que en cualquier día, la
producción se detenga?
El 38% de los clientes de un almacén pagan sus compras con tarjeta de crédito, si se
selecciona una muestra aleatoria de 25 clientes:
a) ¿Cuál es la probabilidad de que exactamente cinco clientes paguen con tarjeta de
crédito?
b) ¿Cuál es la probabilidad de que por lo menos ocho clientes paguen con tarjeta de
crédito?
c) ¿Cuál es la probabilidad de que entre cinco y nueve clientes no paguen con tarjeta de
crédito?
d) ¿Cuál es la probabilidad de que a lo sumo (como máximo) dos clientes no paguen con
tarjeta de crédito?
Estadística para educación superior
Supóngase que en una caja con bombillas, el 10% son defectuosas. Cuál es la
probabilidad de que una muestra al azar de cinco bombillas contenga:
a) Por lo menos una defectuosa.
b) Por lo menos tres defectuosas.
c) Exactamente una defectuosa.
d) Como máximo, una defectuosa.
El 75% de los hogares del área metropolitana de Medellín tienen televisión por cable. Si
se analizan 18 hogares, cuál es la probabilidad de que el número de ellos que tenga cable sea:
Estadística para educación superior
Los alumnos llegan a la biblioteca con una rapidez promedio de 50 alumnos por hora. Si
un alumno acaba de llegar, cual es la probabilidad de que el siguiente usuario llegue:
a) Dentro de 15 minutos.
b) Dentro de 10 minutos.
c) Después de 12 minutos.
d) Entre en el lapso de tiempo de ocho a 13 minutos.
Los alumnos llegan a la biblioteca con una rapidez promedio de 50 alumnos por hora.
Cuál es la probabilidad de que lleguen:
a) Tres alumnos en los próximos 15 minutos (es decir, dentro de 15 minutos).
b) Dos alumnos en los próximos 10 minutos. c) Entre Tres y seis alumnos en los próximos
10 minutos.
c) Entre 20 y 30 alumnos en los próximos 30 minutos.
d) Menos de tres alumnos en los próximos 12 minutos.
Los clientes de un supermercado llegan a la caja registradora con una rapidez promedio
de dos clientes por minuto. Si un cliente acaba de llegar, cuál es la probabilidad de que el
siguiente cliente llegue:
Estadística para educación superior
Los clientes de un supermercado llegan a la caja registradora con una rapidez promedio
de dos clientes por minuto. Cuál es la probabilidad de que lleguen:
a) Tres clientes en el próximo minuto.
b) Cuatro clientes en el próximo minuto.
c) Tres clientes en los próximos dos minutos
d) Cinco clientes en el próximo minuto y medio.
e) Entre uno y tres clientes por minuto.
10.9.12 Tiempo y número de clientes que llegan a una compañía de teléfonos celulares.
Los clientes de una compañía de teléfonos celulares llegan a la caja registradora para
pagar sus facturas con una rapidez promedio de 15 clientes cada media hora.
a) ¿Cuál es la probabilidad de que lleguen más de nueve clientes en 15 minutos?
b) ¿Cuál es la probabilidad de que lleguen entre cinco y ocho clientes en 10 minutos?
c) Si acaba de llegar un cliente, ¿cuál es la probabilidad de que el siguiente cliente llegue
dentro de 5 minutos?
d) Si acaba de llegar un cliente, ¿cuál es la probabilidad de que el siguiente cliente llegue en
el lapso de tres a 10 minutos?
Estadística para educación superior
El jefe de personal de una entidad financiera debe contratar ocho personas entre 35
candidatos para el cargo de analista de cartera, 24 de los candidatos tienen título profesional y
el resto son estudiantes de los últimos semestres. ¿Cuál es la probabilidad de que cinco de los
contratados tengan título profesional?
Las ventas anuales a crédito (por club) de un almacén se distribuyen normalmente, con
una media y una desviación típica o estándar de: (millones de pesos) y
(millones de pesos). Calcular las siguientes probabilidades:
Estadística para educación superior
a) Probabilidad de que las ventas anuales por club estén por debajo de $38,7 millones.
b) Probabilidad de que las ventas anuales por club sean superiores a $ 31,5 millones.
c) Probabilidad de que las ventas anuales por club se encuentren entre $30,2 y $37,5
millones.
Nota: graficar cada numeral y analizar resultados obtenidos.
El peso promedio de las frutas de un gran cargamento es de 15 lb. Con una desviación
estándar de 1,62 lb.; si sus pesos están distribuidos normalmente, ¿qué porcentaje de frutas
tendrá un peso entre 15 lb y 18 lb? Graficar.
Si la vida media de cierta marca de baterías es de 30 meses, con una desviación estándar
de seis meses, ¿qué porcentaje de estás baterías puede esperarse que tengan una duración de
24 a 36 meses? Se supone que su duración tiene una distribución normal. Graficar.
Dos estudiantes fueron informados de que habían recibido referencias tipificadas de 0,8
y –0,4 respectivamente, en un examen de legislación. Si sus puntuaciones fueron 88 y 64
respectivamente, hallar la media y la desviación típica (o estándar) de las puntuaciones del
examen.
Estadística para educación superior
Una revista publicó un estudio donde se indica que los salarios mensuales para
contadores titulados presenta un comportamiento normal con una media de $2.800.000 y una
desviación típica o estándar de $435.000. Cuál es la probabilidad de que:
a) Un contador titulado gane entre $1.500.000 y $3.000.000.
b) Un contador titulado gane más de $2.598.000.
Graficar cada caso e interpretar.
Una fábrica de neumáticos produce llantas con una vida útil media de 85.000 Km y una
desviación estándar de 6.800 Km. La vida útil se encuentra distribuida normalmente.
a) ¿Cuál es la probabilidad de que una llanta dure más de 91.000 Km?
Estadística para educación superior
b) Hallar el valor del Kilometraje límite donde el 7,3% de los neumáticos duran menos de
dicho valor (en Km).
c) ¿Cuál es la probabilidad de que un neumático dure entre 80.000 Km y 93.000 Km?
Graficar cada caso e interpretar.
La media de los diámetros de una muestra de arandelas producidas por una máquina es
de 0,502 pulgadas, y la desviación típica, de 0,005 pulgadas. Las arandelas se consideran buenas
o aceptables si su diámetro se encuentra entre 0,496 y 0,508 pulgadas. Determinar el
porcentaje de arandelas defectuosas producidas por la máquina, si se sabe que los diámetros
presentan una distribución normal. Graficar e interpretar.
Estadística para educación superior
Un digitador estima que el costo de transcribir e imprimir una tesis para obtener título
profesional es una variable aleatoria que se distribuye normalmente con una media de
$1.700.000 y una desviación típica de $95.000. ¿Cuál es la probabilidad de que el costo de
transcribir e imprimir una tesis se encuentre entre $1.320.000 y 1.900.000? Graficar.
Los transistores importados por una firma nacional distribuidora de productos afines
tiene una vida útil media de 25 horas. El jefe de compras de esta empresa desea saber:
a) Cuál es la probabilidad de que un transistor dure más de 30 horas.
b) Si el jefe de compras adquiere 1.720 transistores, ¿cuántos de ellos duran menos de 20
horas?
Estadística para educación superior
A una bodega llegan en promedio cuatro camiones durante una hora para ser
descargados, hallar:
a) El tiempo promedio en minutos entre la llegada de cada camión.
b) Suponga que acaba de llegar un camión. ¿Cuál es la probabilidad de que el tiempo que
transcurra para la llegada del próximo camión sea menor de 10 minutos?
La empresa “Súper-Taxis” programa la llegada de sus taxis al aeropuerto local con una
tasa media de llegada de 12 taxis por hora. El gerente de una multinacional acaba de arribar al
el aeropuerto y tiene que ir al centro de la ciudad para cerrar un gran negocio, ¿cuál es la
probabilidad de que no tenga que esperar más de cinco minutos para tomar un taxi?
Los clientes llegan a pagar sus cuentas de servicios públicos en una caja registradora a
razón de 10 clientes por hora. Si acaba de llegar un cliente, ¿cuál es la probabilidad de que el
siguiente llegue dentro de los próximos 15 minutos?
Estadística para educación superior
PARTE IV
El muestreo es una técnica estadística a través de la cual se trabaja con una parte
representativa de la población, con el objetivo de hacer inferencias para toda la población.
Surgen interrogantes básicos por solucionar como: ¿cuántos elementos de la población se
deben tomar para que conformen la muestra?, ¿cuáles elementos de la población deben ser
elegidos?, ¿cómo debe hacerse el proceso de selección de los elementos?; todos estos
interrogantes se analizan dentro de las técnicas de muestreo para tomar decisiones al respecto.
Fórmula (78)
Fórmula (79)
Estadística para educación superior
Cálculo de Z.
Se toma de la tabla de la distribución normal estandarizada acumulativa. El valor de Z
cambia dependiendo de la confianza con que se desee trabajar la investigación.
Interpolación.
La interpolación de datos es un procedimiento basado en el cálculo de distancias y de
regla de tres proporcional.
Cuadro 14. Procedimiento para aplicar interpolación para hallar el valor de Z a través de un
ejemplo
𝜶
Dado el valor de( ) = , 𝟗𝟕𝟑𝟒𝟑, hallar el valor de Z correspondiente, de tal forma que
la probabilidad 𝑷(𝒁 ≤? ) = , 𝟗𝟕𝟑𝟒𝟑.
Solución
Z Probabilidad
1,93 0,9732
? 0,97343
1,94 0,9738
Z Probabilidad
1,93 0,9732
0,01 d 0,00023
? 0,97343 0.0006
1,94 0,9738
(0,01)(0,00023)
𝑑= = 0,003833
0,0006
Paso 4: Calcular el valor de Z pedido, así:
= 1,93 + 0.003833
= 1,933833
Estadística para educación superior
Cálculo de S2.
El cálculo de S2 (varianza muestral o cuasivarianza), se efectúa de manera diferente,
dependiendo del tipo de variable (cuantitativa o cualitativa) que se considere más importante o
relevante dentro de la investigación.
Si existen estudios preliminares, éste valor se puede sacar del estudio anterior, pero en
caso de no existir, se debe tomar una muestra piloto que sirva de referencia para el cálculo
respectivo de S2.
∑( ̅)
En datos sin agrupar: Fórmula (80)
∑( ̅) (𝑖)
En datos agrupados: Fórmula (81)
El S2 puede ser calculado a través del Excel o también con la utilización de las
calculadoras científicas, ingresando previamente los datos en el modo SD.
Fórmula (82)
Fórmula (83)
Fórmula (84)
𝑏
Fórmula (85)
𝑏 Fórmula (86)
Cálculo de E.
El margen de error E, se calcula de manera diferente, dependiendo del tipo de variable
(cuantitativa o cualitativa) que se considere más importante o relevante dentro de la
investigación.
∑
En datos sin agrupar: ̅ Fórmula (88)
∑
En datos agrupados: ̅ Fórmula (89)
Fórmula (90)
Cuadro 15. Comportamiento del tamaño de la muestra en relación con el tamaño poblacional:
Ejemplo
Calcular los diferentes tamaños de muestra dependiendo del tamaño poblacional, para una
confianza del 95% y un error de estimación del 5%, en una investigación de la cual no
existen estudios preliminares y donde la variable más relevante es cualitativa.
Solución
En este caso se tienen los siguientes valores:
2
= 1,96 = (0,5)(0,5) = 0,25 = 5% = 0,05
0 2 2
= =
0 0
1+ 2
Se sustituyen estos valores en las fórmulas para el cálculo del tamaño de muestra, y se
obtienen los resultados siguientes:
Relación entre el tamaño poblacional y el muestral
Para el caso de un nivel de confianza del 95%.
Cuando N tiende a ser muy grande o tiende a infinito, la división 0 tiende a cero. Por tal
motivo se estabiliza el tamaño de la muestra precisamente en = 0 , porque al efectuar
operaciones siempre se estaría dividiendo 0 para obtener el valor de n.
1
Estadística para educación superior
Figura 62. Relación entre nivel de confianza, margen de error y error de estimación
Existen muchas posibles muestras que pueden ser seleccionadas de una misma
población, por tal motivo se habla de distribuciones muestrales. Una muestra puede arrojar
resultados diferentes a los obtenidos por otra muestra de la misma población, bajo éstas
Estadística para educación superior
Cuanto más cercanos se encuentren entre sí los valores del estimador y del parámetro,
mayor es la precisión, y por lo tanto, menor el error de estimación E, de tal forma que al
restarlos entre sí, esta diferencia tienda a cero.
̅ o también ̅
̅ o también ̅
El total de posibles muestras al emplear muestreo con reposición (se repone el elemento
seleccionado) está dado por , en este caso, la probabilidad de seleccionar una muestra, está
dada por .
Hay dos aspectos básicos a tener en cuenta, estos son: el tamaño de la muestra n y la
forma de extraer de la población N este tamaño de muestra.
Estadística para educación superior
Durante el proceso de selección de las unidades, cada unidad tiene igual probabilidad de
ser seleccionada, cada vez que se extrae una unidad, la probabilidad de ser seleccionada viene
dada por .
Todas las muestras tienen igual probabilidad de ser seleccionadas, ésta probabilidad está dada
por .
( )
Durante el proceso de selección de las unidades, cada que se extrae de la población una
unidad para que forme parte de la muestra, la probabilidad de que una unidad sea seleccionada
dentro de las que quedan va cambiando, así:
Momento 1. MO1
Momento 2. MO2
Momento 3. MO3
Momento 4. MO4 𝟑
𝟑
…
…
L = total de estratos
N = tamaño de la población
n = tamaño de la muestra
Ni = tamaño poblacional del estrato i
ni = tamaño muestral del estrato i
Wi = peso o ponderación del estrato i
∑ Fórmula (91)
∑ Fórmula (92)
( ) Fórmula (93)
Fórmula (94)
Estadística para educación superior
Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de
muestreo es un grupo de elementos (llamado conglomerado), los elementos dentro de un
conglomerado generalmente están juntos físicamente.
La metodología empleada para seleccionar los elementos de la muestra inicia con una
unidad de arranque que es seleccionada de forma aleatoria o al azar, a partir de ésta, los
elementos se seleccionan por intervalos regulares, cada K elementos; por tal motivo se
denomina muestra sistemática de 1 en K.
∑
̅
= tamaño de la muestra
𝒁 𝟗𝟕 𝟗
𝟗𝟕
Estadística para educación superior
Estimación puntual.
̂ Fórmula (101)
̂ Fórmula (102)
̂ √ ( ̂) Fórmula (103)
̂ ̂
( ̂) ( )( ) Fórmula (104)
̂ ̂
Estadística para educación superior
Para una investigación efectuada a padres de familia con hijos cursando secundaria, de
los ocho colegios de una comunidad religiosa, la madre superiora de la comunidad ha
contratado un equipo de investigadores para que apliquen técnicas de muestreo, debido a que
no dispone del suficiente tiempo como para encuestar a todos los padres de familia (censo),
porque ha de tomar una decisión a nivel administrativo en el corto plazo.
( ) ( )
Solución
Ingreso quincenal
Padre de familia
($miles)
1 532
2 600
3 1.200
4 700
5 500
6 931
7 605
8 938
9 625
10 734
11 1.129
12 935
13 1.350
14 980
15 820
16 700
17 620
18 535
19 670
20 820
Con los valores de la muestra piloto, calcular , ̅ y . Se obtienen los siguientes resultados:
̅
̅
( )( )
( ) ( )
( )
Para especificar cuántas unidades van en cada estrato, es decir, cuántos padres de familia se
deben encuestar de cada colegio, se calculan las ponderaciones que permitan realizar una
afijación proporcional.
3 900 0,0878
4 3.000 0,2928
5 1.600 0,1562
6 800 0,0781
7 725 0,0708
8 1.520 0,1484
Total 10.245 1,0000
Aplicar como factor de ponderación, cada una del las , con el objeto de obtener la repartición
adecuada de los 179 elementos que conforman la muestra, entre cada uno de los colegios.
Colegio
1 0,0488 9
2 0,1171 21
3 0,0878 16
4 0,2928 52
5 0,1562 28
6 0,0781 14
7 0,0708 13
8 0,1484 27
Total 1,0000 179
11.7.2 Estimativo puntual y por intervalo de confianza para la media del ingreso
poblacional.
Con base en el ejemplo anterior, alusivo a la investigación en padres de familia con hijos
estudiando en colegios pertenecientes a una comunidad religiosa, el Investigador ha de
recolectar información necesaria que sea de utilidad para que la madre superiora del centro
educativo pueda tomar decisiones acertadas, para esto se vale de encuestas y entrevistas
dirigidas a los respectivos padres de familia, sin olvidar que los padres de familia encuestados
han de ser seleccionados de manera aleatoria sin reposición, utilizando la metodología descrita
en el numeral 11.4 de la Parte IV del texto.
La encuesta realizada a padres de familia cuenta con varias preguntas que ayudan a
recolectar la información necesaria para alcanzar los objetivos de la investigación.
Solución
No. de padres de
Contratan transporte
familia
Sí 125
No 54
Total 179
̂ ̅
Ingreso
quincenal
(miles de $)
500 – 700 600 20 12.000
700 – 900 800 48 38.400
900 – 1.100 1.000 65 65.000
Estadística para educación superior
∑
̅
̂ ̅
El promedio del ingreso quincenal estimado de los padres de familia con hijos estudiando en esa
comunidad es de $969.830.
b) Intervalo de confianza del 97% para el estimador de la media poblacional referente al ingreso
quincenal:
Ingreso
quincenal ( ̅)
(miles de $)
500 – 700 600 20 12.000 2735520,11
700 – 900 800 48 38.400 1384466,15
900 – 1.100 1.000 65 65.000 59155,46
1.100 – 1.300 1.200 31 37.200 1642290,81
1.300 – 1.500 1.400 15 21.000 2775662,43
Total - 179 173.600 8597094,97
Se sustituyen los valores encontrados en la fórmula del intervalo de confianza para calcular de
este modo el límite inferior y superior del intervalo de confianza pedido.
Estadística para educación superior
( )√
√
( )√
𝑖𝑚
𝑖𝑚
[ ]
≤̂≤
Se estima con una confianza del 97%, que el ingreso quincenal de los padres de familia se
encuentra entre $934.500 y $1.005.160. Otra forma de interpretar el anterior resultado en
términos probabilísticas es: La probabilidad de que el ingreso quincenal se encuentre entre
$934.500 y $1.005.160 es de 0,97.
( ≤̂≤ )
11.7.3 Estimación puntual y por intervalo de confianza para la proporción del uso de
transporte escolar.
Solución
̂
Estadística para educación superior
La proporción estimada de padres de familia que contratan transporte escolar para sus hijos es
de 0,70. Se estima que el 70% de los padres de familia contratan transporte escolar para sus
hijos.
b) Intervalo de confianza del 95% para la proporción poblacional en cuanto al uso del transporte
escolar:
̂ ̂
̂ ( )( )
̂
̂
( )( )
𝑖𝑚
𝑖𝑚
Intervalo: [ ]
Estadística para educación superior
Se puede estimar con una confianza del 95%, que la proporción de padres de familia que
contratan transporte escolar para sus hijos se encuentra entre 0,6988 y 0,7012. Con una
confianza del 95%, se puede estimar que el porcentaje de padres de familia que contratan
transporte escolar para sus hijos se encuentra entre 69,88% y 70,12%.
≤ ̂≤
( ≤̂≤ )
11.7.4 Tamaño de muestra para un nivel de confianza del 95% y diferentes errores de
estimación.
Tamaño de muestra para un nivel de confianza del 95% y diferentes errores de estimación
Solución
Nivel de confianza:
( )( )
( ) ( )
( )
⇒
Estadística para educación superior
De igual manera, se obtienen los restantes tamaños de muestra para cada uno de los diferentes
errores de estimación, quedando así:
Calcular el tamaño de muestra si se desea trabajar con un nivel de confianza del 95% y
un error de estimación del 3%. La característica de interés es poseer vivienda propia, además no
existen estudios preliminares al respecto.
Solución
Cuando no existen estudios preliminares al respecto, se trabaja con una muestra piloto para
calcular inicialmente los valores de p y de q, aunque también es permisible trabajar asignando
para y . En este caso particular se opta por utilizar una muestra piloto del 5% de
la población.
( )
La muestra piloto indica que se ha de seleccionar aleatoriamente, 13 familias, para los cálculos
de p y de q.
( )( )
( ) ( )
( )
Se ha de tomar una muestra de 205 familias, para efectuar la distribución de este tamaño de
muestra en cada una de las cuatro zonas establecidas, se calculan las ponderaciones Wi
respectivas, que constituyen el factor para la repartición proporcional.
Población Ponderaciones
Zona rural No. familias Wi
A 52 0,2047
B 85 0,3346
C 93 0,3661
D 24 0,0945
Total 254 1
Aplicando cada uno de los factores de ponderación sobre el tamaño de muestra se obtiene la
siguiente distribución:
Estadística para educación superior
Muestra
Zona rural No. familias
A 42
B 69
C 75
D 19
Total 205
El gobierno actual de un país está sumamente preocupado por el nivel educativo de sus
dirigentes y líderes políticos. Para adelantar un proyecto de capacitación académica, se
pretende desarrollar una investigación para detectar el porcentaje de profesionales y no
profesionales que ejercen cargos públicos y sus respectivas necesidades de capacitación. Se
tiene una población de 3.785 dirigentes políticos. Calcular el tamaño de muestra utilizando un
nivel de confianza del 97% y un margen para el error de estimación del 4%.
11.8.3 Plan de mercadeo y ayuda solidaria por parte de una empresa procesadora de
leche: Tamaño de muestra de familias.
Uno de los varios planes de mercadeo de una empresa procesadora de leche y lácteos
consiste en suministrar gratuitamente, litros de leche a familias de estrato 1 con población
infantil. Se dona un litro de leche diario por cada dos niños que existan en la familia. Con este
proyecto, al mismo tiempo se contribuye con programas de solidaridad y aporte alimenticio a la
población más necesitada de la región.
muestra de las familias con población infantil. Se pide: Calcular el tamaño de muestra con una
confianza del 96% y un margen para el error de estimación del 3%, ¿cuántas familias cada
región forman parte de la muestra?
11.8.4 Estimativo del promedio de litros de leche a donar semanalmente por familia.
Una empresa organiza viajes vía aérea para ejecutivos de tres empresas multinacionales
diferentes que requieren desplazarse a otros países para asistir a seminarios y juntas de
negocios. Cada ejecutivo efectúa en promedio, tres viajes semestrales, el gasto promedio por
viaje de cada ejecutivo, en cuanto a pasaje y estadía, es de $2.800.000,00 dinero que ingresa a
la agencia de viajes por concepto de prestación de servicios.
Haciendo uso del cálculo del tamaño de muestra hallado en el ejercicio anterior, estimar
la proporción poblacional de ejecutivos que viajan frecuentemente como una de sus actividades
laborales. ¿Cuál es el número estimado de ejecutivos que efectúan viajes laborales? Especificar
el estimativo por empresa multinacional.
Con base en el ejercicio anterior, se pide: Calcular el intervalo de confianza del 98% para
la proporción poblacional de ejecutivos que viajan por cuestiones laborales.
a) Justifique si se recomienda trabajar con una muestra piloto para calcular el tamaño de
muestra, ¿qué aspectos se necesita conocer para tal fin?
¿Cuál sería el procedimiento a seguir, en caso de que la variable más importante dentro
del estudio fuese el nivel de exportación semestral?
¿Cuál sería el procedimiento a seguir, en caso de que la variable más importante dentro
del estudio fuese el atributo de existencia de buen clima laboral en la empresa?
b) En caso de optar por calcular el tamaño de muestra sin utilizar una muestra piloto,
¿cómo se calcularía el tamaño de muestra? ¿Qué cantidad de empresas forman parte de
la muestra dentro de cada clasificación?
En una institución universitaria se sabe, por estudios preliminares, que el 75% de las
personas (entre empleados y alumnos) asisten a los eventos programados por Bienestar
Institucional. Para adelantar una investigación con el objetivo de analizar los logros de cada uno
de los eventos culturales, así como las sugerencias a tener en cuenta para futuras
programaciones, se requiere calcular un tamaño de muestra con un nivel de confianza del 96% y
un margen para el error de estimación del 5%. La población universitaria cuenta con 130
empleados y 2.415 alumnos.
Una empresa de utensilios plásticos para el hogar contrata los servicios de una empresa
publicitaria para analizar si se justifica o no, mercadear su producto a través de la televisión en
el canal regional, durante las horas de la noche entre las 7:00 p.m. y las 10:00 p.m.
Estadística para educación superior
a) Tomar una muestra piloto y calcular la proporción de viviendas en las cuales existe un
adulto responsable viendo la televisión en el canal regional durante ese lapso de tiempo.
b) Utilizar el resultado de esa proporción como herramienta para calcular el tamaño de
muestra para la investigación definitiva con un nivel de confianza del 95% y un margen
para el error de estimación del 3%.
¿Cuántas viviendas dentro de cada sector forman parte del tamaño de la muestra?
Estadística para educación superior
Se plantean dos hipótesis, la una recibe el nombre de hipótesis nula y la otra, hipótesis
alternativa, generalmente se identifican con H0 y H1 (en algunas ocasiones, como H1 y H2).
La hipótesis nula (H0) es aquella afirmación donde se plantea que el valor del parámetro
poblacional es igual (=) a un valor específico.
La hipótesis alternativa (H1) es aquella afirmación donde se plantea que el valor del
parámetro poblacional es diferente (≠), mayor (>) o menor (<) que un valor específico.
Nomenclatura.
Hipótesis nula
Hipótesis alternativa
Procedimiento.
3. Tomar la decisión:
Si el estadístico cae en la región de rechazo: rechazar H0 y aceptar H1.
Si el estadístico no cae en la región de rechazo significa que el estadístico cae en la
región de aceptación: aceptar H0 y rechazar H1.
Descripción de la prueba.
Región de rechazo
≠ ⇒ ≤ ≥
⇒ ≥
⇒ ≤
Estadístico:
̅
√
Estadística para educación superior
Nomenclatura.
Hipótesis nula
Hipótesis alternativa
Procedimiento.
Descripción de la prueba.
Región de rechazo
⇒ ≤ ≥
⇒ ≥
⇒ ≤
Estadístico:
̂
̂̂
√
Estadística para educación superior
La prueba Chi-cuadrado es utilizada para analizar la forma como se distribuye una serie
de datos, certificando si los datos se ajustan a una distribución supuesta. Este procedimiento
estadístico busca probar la hipótesis de que una variable aleatoria X presenta una distribución
específica como la normal, Poisson, exponencial, entre otras; aceptando o rechazando la
hipótesis al final del estudio. Para esto, se hace indispensable comparar las frecuencias
observadas o reales, con las frecuencias teóricas o esperadas.
Paso 3: Calcular las frecuencias teóricas ftj, para cada intervalo, utilizando la siguiente
fórmula:
𝑡 Con j … m
Es importante tener en cuenta que la sumatoria de las frecuencias teóricas debe ser
aproximadamente igual a la sumatoria de las frecuencias reales.
Estadística para educación superior
∑ 𝑡 ∑
También hay que tener presente para aplicar esta prueba, que las frecuencias teóricas de
cada intervalo sean mayores o iguales a cinco (5), de lo contrario, se deben agrupar con
aquellos intervalos consecutivos que cumplan la condición.
∑ ( 𝑡) Fórmula (106)
( )
∑ 𝑡
Siendo k = número de intervalos resultantes después de analizar la condición de las
frecuencias teóricas.
Paso 6: Utilizar el criterio o regla de decisión que posee la prueba Chi-cuadrado de bondad
de ajuste, para seleccionar la hipótesis adecuada, así:
Gráficamente:
Estadística para educación superior
Intervalo
Frecuencias reales
(Diámetro en mm.)
3,275 – 3,325 3
3,325 – 3,375 3
3,375 – 3,425 9
3,425 – 3,475 32
3,475 – 3,525 38
3,525 – 3,575 10
3,575 – 3,625 3
3,625 – 3,675 1
3,675 – 3,725 1
Total 100
Solución:
H1 = El diámetro de las piezas se distribuye normalmente con una media de µ = 3,476mm. y una
desviación de σ = 0,065.
H2 = El diámetro de las piezas no se distribuye normalmente con una media de µ = 3,476 mm. y
Estadística para educación superior
Paso 2: Utilizar la distribución hipotética, en este caso, la distribución normal, para calcular las
diferentes probabilidades Pj, para cada intervalo.
( ≤ ≤ ) ( ≤ ) ( ≤ )
( ≤ ) ( ≤ )
( ≤ ) ( ≤ )
Luego,
( ≤ ≤ ) ( ≤ ) ( ≤ )
( ≤ ) ( ≤ )
( ≤ ) ( ≤ )
Luego,
Para el resto de los intervalos se sigue la misma metodología.
𝑡 ( )
𝑡 ( )
De igual manera para los intervalos siguientes, siendo ∑
Se revisa que la sumatoria de las frecuencias reales sea aproximadamente igual a la sumatoria
de las frecuencias teóricas.
Señalar aquellas frecuencias teóricas ft ≤ 5, y agruparlas con las frecuencias vecinas, de tal forma
que se cumpla la condición, de esta manera surge una nueva tabla con un menor número de
intervalos (k intervalos).
Intervalos fo Pj ft No condición
3,275 - 3,325 3 0,0092 0,92 *
3,325 - 3,375 3 0,0504 5,04
3,375 - 3,425 9 0,1571 15,71
3,425 - 3,475 32 0,2743 27,43
3,475 - 3,525 38 0,2814 28,14
Estadística para educación superior
Intervalos fo Pj ft
3,275 - 3,375 6 0,0596 5,96
3,375 - 3,425 9 0,1571 15,71
3,425 - 3,475 32 0,2743 27,43
3,475 - 3,525 38 0,2814 28,14
3,525 - 3,575 10 0,1623 16,23
3,575 - 3,725 5 0,0643 6,43
Total 100 99,9
∑ ( 𝑡)
( )
∑ 𝑡
( )
Grados de libertad = k – p – 1 = 6 – 2 – 1 = 3
Confianza (1 – α) = 0,95
Se busca en la tabla y se obtiene:
Si ( ) ≤ ( ) ⇒ Aceptar H1
Estadística para educación superior
Se puede asegurar con una confianza del 95%, que los diámetros tienen una distribución normal
con una µ = 3,476mm. y una desviación σ = 0,065mm.
H0: µ = 215
H1: µ > 215
Solución
√ √
≥
≥
Solución
H0: p = 0,10
H1: p < 0,10
(pasado)
Estadístico:
√ ̂ ̂
√( )( )
RR: ≤
≥
Gráficamente:
Estadística para educación superior
12.5.1 Número de empleados con trabajo pendiente para el día siguiente: Prueba de
bondad de ajuste.
Los empleados de una empresa han presentado quejas frente al director de personal,
argumentando que la cantidad de actividades diarias es extremadamente alta, por tal motivo se
efectúa una investigación para analizar la proporción de empleados por día que se ven
obligados a dejar trabajo pendiente para el día siguiente.
Cada día se toma una muestra aleatoria de 15 empleados, y al finalizar el día se observa
el número de empleados con trabajo pendiente. Los datos reales se visualizan a continuación:
5 5
6 4
7 3
8 3
9 4
10 9
11 7
12 3
13 3
14 4
15 2
H1: El número de empleados con trabajos pendientes para el día siguiente se distribuye
binomialmente con un promedio de tres empleados y una desviación típica o estándar de 0,36.
Una compañía de gaseosas pretende sacar al mercado un producto nuevo, con un alto
contenido de nutrientes y zumos naturales, bebida destinada especialmente para jóvenes entre
ocho y 18 años. Se efectúa un estudio preliminar para detectar el porcentaje de consumidores
entre ocho y 18 años que no les agrada por algún motivo (sabor, diseño del empaque, olor,
color, precio, entre otros). El porcentaje de jóvenes que no aceptaron la bebida fue alto, por tal
motivo, los aspectos negativos consignados en las encuestas, se tomaron como punto de
referencia para iniciar un plan de mejoramiento en el proceso de la producción. El gerente ha
Estadística para educación superior
Se tomó una muestra de 278 jóvenes del área metropolitana y se encontró que 25
jóvenes no aceptaron el producto. Se pide:
Una empresa procesadora de atún enlatado ha sido demandada bajo el supuesto de que
sus latas presentan un contenido inferior al impreso en el empaque. La compañía detiene la
producción y con la ya existente, pretende demostrar que es falsa la acusación, conjuntamente
con un grupo de auditores, inicia una investigación. Se toma una muestra de 400 latas con un
contenido impreso en el empaque de 380gr cada una.
a) Probar la hipótesis de que el peso promedio de las latas producidas por la empresa es
igual a 380gr. Trabajar con un nivel de significancia del 5%.
b) Probar la hipótesis de que el peso promedio de las latas producidas por la empresa es
superior a 380gr. Trabajar con un nivel de significancia del 5%.
Una industria productora de velas con aroma destinadas para estudios de velomancia
detecta que la demanda de su producto ha aumentado en los últimos años. Los consumidores
Estadística para educación superior
prefieren velas con duración superior a cinco horas. El gerente de producción inicia una
investigación con el propósito de analizar si su producto cumple con las expectativas del cliente
en cuanto a tiempo de duración y en caso de no ser así, optar por medidas correctivas en el
proceso. Se toma una muestra de 90 velones medianos para mirar el tiempo de duración:
PARTE V
Con base en el número de variables que se relacionan dentro del estudio, la regresión se
clasifica en simple (dos variables) o múltiple (más de dos variables). La regresión múltiple
también se conoce como análisis multivariante.
Con base en el tipo de asociación existente entre las variables tratadas, la regresión
puede ser lineal, parabólica, exponencial, logarítmica, entre otras.
El objetivo de elaborar la nube de puntos es visualizar la tendencia que siguen los datos
originales, y de esta forma, decidir cuál de los tipos de asociación utilizar para el cálculo de la
función de ajuste.
La función de ajuste es utilizada para efectuar pronósticos, los cuales se identifican como
los datos pronosticados.
Los datos reales y los pronosticados deben ser semejantes, parecidos, con valores muy
cercanos, porque de lo contrario, no tiene sentido utilizar la función de ajuste hallada para
pronosticar, debido a que los pronósticos no presentarían alta confiabilidad.
Es utilizada cuando la tendencia que presentan los datos reales u originales es una línea
recta, tendencia no significa que todos y cada uno de los puntos reales ubicados en el plano
formen exactamente una línea recta, sino que mirándolos de manera conjunta o global, se
pueda determinar un comportamiento lineal, de tal forma que pueda ser calculada la función de
una línea recta que pase muy cerca de la mayoría de datos originales, quedando algunos puntos
sobre la línea ajustada, otros por debajo, e incluso, algunos sobre la misma línea.
̂ 𝑏 Fórmula (107)
a = Término independiente. Intercepto con el eje Y. Es aquel valor que toma la variable
dependiente Y cuando la variable independiente X se hace cero.
𝑏 𝑏
∑ ∑ 𝑏 ∑ ∑( 𝑏 )
∑ ∑ ∑𝑏 ∑ ∑ ∑𝑏
∑ ∑ 𝑏∑ ∑ ∑ 𝑏∑
Se llega a un sistema de dos ecuaciones con dos incógnitas, siendo las incógnitas los
valores de a y de b:
Ecuación 1: ∑ ∑ 𝑏∑
Ecuación 2: ∑ ∑ 𝑏∑
∑ ∑
| | (∑ )(∑ ) (∑ )(∑ ) (∑ )(∑ ) (∑ )(∑ )
∑ ∑
Fórmula (108)
∑ ∑ (∑ )(∑ ) ∑ (∑ )
| |
∑ ∑
∑
| | ∑ (∑ )(∑ ) ∑ (∑ )(∑ )
∑ ∑
𝑏 Fórmula (109)
∑ ∑ (∑ )(∑ ) ∑ (∑ )
| |
∑ ∑
∑ ∑
Todo lo que se necesita conocer para calcular los valores de a y de b, es obtenido a partir
de los puntos (X, Y) reales u originales, siendo n el total de datos o puntos originales que han
sido recolectados para el estudio.
Se recomienda elaborar una tabla que facilite la obtención de los valores necesarios para
el cálculo de los parámetros de a y b; ésta puede ser diseñada con las siguientes columnas:
Figura 69. Diseño de tabla para el cálculo de los parámetros de a y b, para el ajuste lineal
X Y XY X2
∑X ∑Y ∑XY ∑X2
Estadística para educación superior
̂ 𝑏
Este ajuste es considerado óptimo porque hace mínima la suma de los cuadrados de los
errores.
Es cada una de las distancias verticales entre el dato real y el dato pronosticado. Todos
los datos pronosticados caen sobre la recta ajustada y los datos reales algunos se ubican por
encima, por debajo o sobre la línea de ajuste; entre más pequeña sea esta distancia, el
pronóstico será más confiable.
𝑒 ( ̂) Fórmula (110)
Ésta distancia debe ser mínima para que exista un buen ajuste o una buena bondad de
ajuste; la sumatoria de todos los residuales debe ser igual a cero o muy cercana a cero: ∑ 𝑒
Un error es positivo cuando el dato real se ubica por encima de la función de ajuste, es
decir, el dato real es mayor al dato pronosticado: ̂
Estadística para educación superior
Un error es negativo cuando el dato real se ubica por debajo de la función de ajuste, es
decir, el dato real es menor al dato pronosticado: ̂
Un error es igual a cero cuando el dato real se ubica exactamente sobre la función de
ajuste, es decir, cuando el dato real es igual al dato pronosticado: ̂
Definición y características.
El signo del coeficiente de correlación debe coincidir siempre con el signo del parámetro
b. El signo del coeficiente de correlación indica si la relación entre las variables es inversamente
o directamente proporcional.
El valor en absoluto del coeficiente de correlación indica el grado de asociación entre las
variables, es la fuerza de la relación entre las variables y la confiabilidad en los pronósticos.
Si r = 0, no existe relación lineal entre las variables, la función lineal de ajuste no puede
ser utilizada para pronosticar.
( )
Fórmula (111)
√ ( ) ( )
Estadística para educación superior
Las varianzas siempre son valores positivos, la covarianza puede ser positiva o negativa,
por tal motivo, el signo de r depende del signo que tenga la covarianza.
∑( ̅ )( ̅)
( ) Fórmula (112)
̅ = media de la variable X
̅ = media de la variable Y
( ) ( ) ( ) ( )
Fórmula (113)
( ) ̅̅̅̅ ̅ ̅
∑
( )
∑
( )
∑
( )
∑( ̅)
( )
( ) ( ) [ ( )]
∑( ̅)
( )
( ) ( ) [ ( )]
Para este método, se hace necesario conocer las medidas de variación en la regresión.
Estas son: la variación total, la variación no explicada y la variación explicada.
VT = variación total
VNE = variación no explicada
VE = variación explicada
√ Fórmula (114)
√ Fórmula (115)
Existen tres medidas de variación básicas dentro del estudio de la regresión, éstas son:
variación total, variación no explicada y variación explicada.
Estadística para educación superior
∑( ̅) Fórmula (116)
∑( ̂) ∑𝑒 Fórmula (117)
Estadística para educación superior
∑( ̂ ̅) Fórmula (118)
≥ , ≥ , ≥
Propiedad 2. La variación total es igual a la sumatoria de la variación no explicada con la
variación explicada.
Estadística para educación superior
∑( ̅) ∑( ̂) ∑( ̂ ̅) Fórmula (119)
Nota:
, por lo tanto,
Fórmula (120)
𝑅 ∑( ̂ ̅)
Fórmula (121)
∑( ̅)
√ √ Fórmula (122)
̂ 𝑏 Fórmula (123)
Con los datos originales o reales (X, Y) se plantea el siguiente sistema de tres ecuaciones
con tres incógnitas:
(1) ∑ 𝑏∑ ∑
(2) ∑ ∑ 𝑏∑ ∑
(3) ∑ ∑ 𝑏∑ ∑
Para facilitar el planteamiento del anterior sistema, se puede optar por elaborar una
tabla con las siguientes columnas, de tal forma que se puedan obtener las sumatorias
necesarias.
Estadística para educación superior
Figura 73. Diseño de tabla para el cálculo de valores del sistema de ecuaciones para el ajuste
parabólico
X Y X2 X3 X4 XY X2Y
Se concluye que esta función representa de manera adecuada a los datos originales, y
por tal motivo, puede ser utilizada para pronosticar Y dado un valor respectivo de X, el cálculo
del pronóstico se efectúa sustituyendo X en la función de ajuste para hallar el valor de ̂ .
̂ 𝑏
a = es el intercepto en el eje Y
b = indica si la función es creciente o decreciente, siempre b ≠ 1
Si 0 < b < 1 la función es decreciente
Si b > 1 la función es creciente
Para encontrar los valores de a y de b, se toma como base la serie de datos original con
los valores respectivos de X y de Y, para plantear un sistema de dos ecuaciones con dos
incógnitas.
Estadística para educación superior
Se parte de: 𝑏
og log log 𝑏
og log log 𝑏
Se plantean las dos ecuaciones con dos incógnitas, utilizando el método de los mínimos
cuadrados.
Las dos incógnitas son: log a y log b, por tal motivo, luego de solucionar
simultáneamente el sistema de ecuaciones, se debe sacar antilogaritmo a ambos resultados
para hallar los valores de a y de b, respectivamente.
Estadística para educación superior
Se recomienda elaborar una tabla a partir de los datos originales, que contenga las
siguientes columnas, para efecto de facilitar el cálculo de las sumatorias necesarias para el
planteamiento del sistema de ecuaciones.
Figura 76. Diseño de tabla para el cálculo de valores del sistema de ecuaciones para el ajuste
exponencial
X Y X2 log Y X ⋅ log Y
Una serie de tiempo nos muestra el comportamiento de una variable a través del
tiempo. Utilizando la regresión como aplicación dentro de las series temporales se cuenta con
dos variables, donde una de ellas es el tiempo.
Figura 77. Ejemplos de asignación de valores consecutivos para el análisis de regresión en una
serie de tiempo
Tiempo X X X X X
(meses)
Enero 0 -3 0 1 -4
Febrero 1 -2 3 2 -2
Marzo 2 -1 6 3 0
Abril 3 0 9 4 2
Mayo 4 1 12 5 4
Junio 5 2 15 6 6
Julio 6 3 18 7 8
Agosto 7 4 21 8 10
Septiembre 8 5 24 9 12
… … … … … …
X Y
5 100
7 90
9 86
12 72
17 60
23 55
30 43
Se pide:
a) Elaborar el diagrama de dispersión o nube de puntos. ¿Qué tendencia se visualiza en el
gráfico?
b) Calcular la función de ajuste y graficarla sobre el diagrama.
c) Pronosticar el número de unidades demandadas para un precio de $15.000.
d) Calcular el coeficiente de correlación e interpretarlo.
Solución
a) Diagrama de dispersión:
Nube de puntos
Unidades demandadas
Precio (miles $)
Los datos originales o reales presentan una tendencia lineal, por tal motivo, el análisis de
regresión y correlación se efectúa con ajuste lineal.
Estadística para educación superior
X Y X2 XY
5 100 25 500
7 90 49 630
9 86 81 774
12 72 144 864
17 60 289 1.020
23 55 529 1.265
30 43 900 1.290
103 506 2.017 6.343
Ecuación 1. ∑ 𝑏∑
Ecuación 2. ∑ ∑ 𝑏∑
𝑏
𝑏
Nube de puntos
Unidades demandadas
Precio (miles $)
Estadística para educación superior
̂ , para un valor de
̂ ( )
̂
̂ unidades
d) Coeficiente de correlación:
( )
√ ( ) ( )
Se elabora una tabla con las columnas necesarias para calcular la covarianza y las varianzas
respectivas.
( ̅) ( ̅) ( ̅ )( ̅)
5 100 94,37 768,08 -269,22
7 90 59,51 313,80 -136,65
9 86 32,65 188,08 -78,37
12 72 7,37 0,08 0,78
17 60 5,22 150,94 -28,08
23 55 68,65 298,80 -143,22
30 43 233,65 857,65 -447,65
103 506 501,43 2.577,43 -1.102,43
Media de X: 14,71
Media de Y: 72,29
Var(X): 71,63
Var(Y): 368,20
Cov(XY): -157,489796
∑
̅
∑
̅
( )
Estadística para educación superior
( )
( )
𝟕 𝟒𝟗
𝟗𝟕
√𝟕 𝟑 𝟑
Se elabora una tabla que sea de utilidad para hallar la variación explicada (VE) y la variación total
(VT).
̂ ( ̅) (̂ ̅)
5 100 93,643305 768,08 456,15
7 90 89,246154 313,80 287,66
9 86 84,849003 188,08 157,84
12 72 78,253276 0,08 35,61
17 60 67,260399 150,94 25,25
23 55 54,068946 298,80 331,85
30 43 38,678917 857,65 1.129,42
103 506 - 2.577,428571 2.423,772446
∑
̅
∑( ̂ ̅)
Estadística para educación superior
∑( ̅)
√ √
El coeficiente de correlación lleva el signo de b, en este caso, negativo (-), por lo tanto, se
concluye que
Año Captación
(millones $)
1996 1,3
1997 3,5
1998 14,5
1999 27,1
2000 41,3
2001 70,3
2002 87,1
2003 130,5
2004 150,3
Solución
Año X Y
1996 0 1,3
1997 1 3,5
1998 2 14,5
1999 3 27,1
2000 4 41,3
2001 5 70,3
2002 6 87,1
2003 7 130,5
2004 8 150,3
Estadística para educación superior
Diagrama de dispersión
Captación
Año
Al visualizar el gráfico, la tendencia de los puntos originales parece ser lineal, sin embargo
también se asemeja a la mitad derecha de una parábola que abre hacia arriba, o también a una
exponencial creciente. ¿Qué decisión tomar, si los tres ajustes se acercan a la tendencia?
A continuación se efectúan los tres ajustes para analizar resultados y poder tomar la decisión
sobre el tipo de ajuste adecuado que se ha de aplicar en esta serie de datos en particular.
Nota: Cuando se tienen dudas respecto a la tendencia de los datos originales en una serie de tiempo, se
puede suavizar la serie utilizando el método de los promedios móviles, a través del cual se seleccionan
períodos de determinada longitud y luego se calculan medias aritméticas sucesivas, posteriormente, se
grafican y se puede mirar con mayor claridad cuál es la tendencia. Si los datos son pocos no se recomienda
este método, además, con este método se pierden datos al principio y al final de la serie.
b) Ajuste lineal:
Año X Y XY X2
1996 0 1,3 0 0
1997 1 3,5 3,5 1
1998 2 14,5 29 4
1999 3 27,1 81,3 9
2000 4 41,3 165,2 16
2001 5 70,3 351,5 25
2002 6 87,1 522,6 36
2003 7 130,5 913,5 49
2004 8 150,3 1.202,4 64
Total 36 525,9 3.269 204
(1) ∑ 𝑏∑
(2) ∑ ∑ 𝑏∑
𝑏
𝑏
y𝑏
Ajuste lineal
Captación
Año
Año X Y ̂ ̂
1996 0 1,3 -19,26 20,56 422,7136
1997 1 3,5 0,16333333 3,336666667 11,1333444
1998 2 14,5 19,5866667 -5,086666667 25,8741778
1999 3 27,1 39,01 -11,91 141,8481
2000 4 41,3 58,4333333 -17,13333333 293,551111
2001 5 70,3 77,8566667 -7,556666667 57,1032111
2002 6 87,1 97,28 -10,18 103,6324
2003 7 130,5 116,703333 13,79666667 190,348011
2004 8 150,3 136,126667 14,17333333 200,883378
Total - - - - 1447,08733
Estadística para educación superior
Año X Y ̂ (̂ ̅) ( ̅)
1996 0 1,3 -19,26 6.036,254044 3.264,217778
1997 1 3,5 0,16333333 3.395,3929 3.017,671111
1998 2 14,5 19,5866667 1.509,063511 1.930,137778
1999 3 27,1 39,01 377,2658778 981,7777778
2000 4 41,3 58,4333333 4,54384 293,5511111
2001 5 70,3 77,8566667 377,2658778 140,8177778
2002 6 87,1 97,28 1.509,063511 821,7777778
2003 7 130,5 116,703333 3.395,3929 5.193,604444
2004 8 150,3 136,126667 6.036,254044 8.439,484444
Total - 525,9 - 22.635,95267 24.083,04
Media de Y: 58,4333333
Coeficiente de determinación D = 0,9399126
Coeficiente de correlación r = 0,9694909
Más adelante se comparan los coeficientes de determinación para analizar cuál de los tres
ajustes presenta el coeficiente D más alto, es decir, el más cercano al valor de 1.
En este ajuste, el coeficiente de correlación lineal es r = 0,9694909, lo que significa que la función
de ajuste hallada tiene un grado de representatividad del 96,9% para efectuar los pronósticos, sin
embargo, aunque este porcentaje parezca alto, no es confiable, porque como se detectó
anteriormente, los valores pronosticados son muy diferentes a los datos reales.
c) Ajuste parabólico:
Año X Y X2 X3 X4 XY X2Y
1996 0 1,3 0 0 0 0 0
1997 1 3,5 1 1 1 3,5 3,5
1998 2 14,5 4 8 16 29 58
1999 3 27,1 9 27 81 81,3 243,9
2000 4 41,3 16 64 256 165,2 660,8
2001 5 70,3 25 125 625 351,5 1.757,5
Estadística para educación superior
(1) ∑ 𝑏∑ ∑
(2) ∑ ∑ 𝑏∑ ∑
(3) ∑ ∑ 𝑏∑ ∑
𝑏
𝑏
𝑏
̂ 𝑏
̂
Ajuste parabólico
Captación
Año
Al visualizar este gráfico se detecta que los puntos reales se encuentran más cercanos a la
función de ajuste parabólica que en el caso anterior, del ajuste lineal.
Estadística para educación superior
Año X Y ̂ ̂
1996 0 1,3 -0,18727276 1,487272758 2,21198026
1997 1 3,5 4,93151514 -1,431515144 2,04923561
1998 2 14,5 14,137316 0,362683974 0,13153967
1999 3 27,1 27,4301299 -0,330129889 0,10898574
2000 4 41,3 44,8099567 -3,509956732 12,3197963
2001 5 70,3 66,2767966 4,023203445 16,186166
2002 6 87,1 91,8306494 -4,730649359 22,3790434
2003 7 130,5 121,471515 9,028484856 81,5135388
2004 8 150,3 155,199394 -4,899393909 24,0040607
Total - - - - 160,904346
Los pronósticos calculados con el ajuste parabólico se encuentran más cercanos a los datos
originales que en el caso del ajuste lineal, también se puede observar que la sumatoria de los
errores residuales cuadráticos es menor a la arrojada en el ajuste lineal.
Año X Y ̂ (̂ ̅) ( ̅)
1996 0 1,3 -0,18727276 3.436,37546 3.264,21778
1997 1 3,5 4,93151514 2.862,44455 3.017,67111
1998 2 14,5 14,137316 1.962,13715 1.930,13778
1999 3 27,1 27,4301299 961,198624 981,777778
2000 4 41,3 44,8099567 185,59639 293,551111
2001 5 70,3 66,2767966 61,5199153 140,817778
2002 6 87,1 91,8306494 1.115,38072 821,777778
2003 7 130,5 121,471515 3.973,81237 5.193,60444
2004 8 150,3 155,199394 9.363,67048 8.439,48444
Total - 525,9 - 23.922,1356 24.083,04
Media de Y = 58,4333333
Coeficiente de determinación D = 0,99331877
d) Ajuste exponencial:
Año X Y X2
1996 0 1,3 0 0,11394335 0
1997 1 3,5 1 0,54406804 0,54406804
1998 2 14,5 4 1,161368 2,322736
1999 3 27,1 9 1,43296929 4,29890787
2000 4 41,3 16 1,61595005 6,46380021
2001 5 70,3 25 1,84695533 9,23477663
2002 6 87,1 36 1,94001816 11,6401089
2003 7 130,5 49 2,11561051 14,8092736
2004 8 150,3 64 2,17695898 17,4156718
Total - 525,9 204 12,9478417 66,7293431
log log 𝑏
log log 𝑏
log
log 𝑏
Recordar que el logaritmo de un número es el exponente al cual hay que elevar la base para que
dé dicho número, es decir:
log
log 𝑏 𝑏
̂ 𝑏
̂ ( )
̂ 𝑒
Para hallar el valor de c y poder expresarla con la base (e) de los logaritmos naturales (ln),
tenemos presente el siguiente análisis matemático:
𝑏 𝑒
⇩
𝑏 𝑒
ln 𝑏 ln 𝑒
ln 𝑏 ln 𝑒
ln 𝑏
ln 𝑏
ln 𝑏
ln
Por tal motivo, la función de ajuste exponencial también puede quedar expresada así:
̂ 𝑒
Ajuste exponencial
Captación
Año
Estadística para educación superior
Año X Y ̂ ̂
1996 0 1,3 2,77194109 -1,471941086 2,16661056
1997 1 3,5 4,91756678 -1,417566783 2,00949558
1998 2 14,5 8,72401769 5,775982311 33,3619717
1999 3 27,1 15,4768584 11,62314163 135,097421
2000 4 41,3 27,4567468 13,84325317 191,635658
2001 5 70,3 48,7096883 21,59031173 466,141561
2002 6 87,1 86,4135051 0,686494939 0,4712753
2003 7 130,5 153,302025 -22,80202516 519,932351
2004 8 150,3 271,965718 -121,6657176 14.802,5469
Total - - - - 16.153,3632
Los datos pronosticados utilizando la función de ajuste exponencial indican que ésta no es
adecuada, porque no presentan semejanza o similitud con los datos reales u originales, además,
la sumatoria de los errores residuales cuadráticos es alta.
̂ ̂ ( ̂ ̅̅̅̅̅̅̅
̂) ( ̅̅̅̅̅̅̅)
̅̅̅̅̅̅
log ̂
̅̅̅̅̅̅
log
Estadística para educación superior
∑(log ̂ ̅̅̅̅̅̅
log ̂ )
∑(log ̅̅̅̅̅̅
log )
El valor de este coeficiente de determinación es inferior a los arrojados en los dos anteriores
ajustes.
Una empresa descubre que sus utilidades netas (en millones de $) se incrementan al
aumentar la cantidad gastada en publicidad (en millones de $) del producto. La empresa
dispone de los siguientes registros:
820 180
830 210
850 220
a) Graficar el diagrama de dispersión y visualizar cuál es la tendencia que siguen los datos
originales.
b) Elaborar diferentes tipos de ajuste, para cada uno de ellos: calcular la función de ajuste y
graficarla sobre el diagrama; calcular pronósticos; errores residuales; coeficiente de
determinación.
Año 2000 2001 2002 2003 2004 2005 2006 2007 2008
Utilidades (millones $) 6 6,5 7 7,2 7,3 7,6 8 8,1 7,9
Un comerciante desea analizar si las ventas semanales (en miles de $) tienen relación
alguna con el espacio asignado para vender (en metros cuadrados). De acuerdo a eventos
pasados se recopiló la siguiente información:
Espacio disponible
Ventas semanales
m2
635 7
528 6
456 4,5
654 6,3
498 5
539 5,2
580 7
620 8
472 6
587 6,8
La población (en millones de habitantes) de una zona determinada del país viene
presentando el siguiente comportamiento a través del tiempo:
Estadística para educación superior
Referencias
David R., A. (2005). Estadística para administración y economía. México: Editorial Thomson.
Douglas, L. (2008). Estadística aplicada a los negocios y la economía. México: Editorial McGraw-
Hill.