Estadistica Inferencial

APUNTES DE CLASE
Tema: Número índice

Número índice. Un número índice es una medida estadística que permite estudiar
las fluctuaciones o variaciones de una (o más) magnitud(es) en relación al tiempo
o al espacio.
Los numero índice son una medida estadística que permite comparar una magnitud simple
o compleja en dos situaciones diferentes respecto al tiempo o al espacio tomando una de
ellas como referencia. (Fernandez, 2016)
El número índice mide que tanto una variable ha cambiado con el tiempo. ( (Lewin, 2012)
Fórmula para el calculo
NI = Valor actual / Valor base * 100%
Ejemplo:
En la siguiente tabla se muestra el número de empresas que se han creado durante los
último cinco años. (Ver tabla)
Empresas
Ítem Año creadas
1 2013 3.500
2 2014 2.800
3 2015 4.100
4 2016 3.650
5 2017 4.850
Con base al año 2013 que podemos afirmar sobre el crecimiento o decrecimiento de la
creación de empresas durante los últimos cuatro años.
En el cuadro siguiente se muestras los resultados de los cálculos de los números índice
Empresas
Ítem Año creadas NI
1 2013 3.500
2 2014 2.800 2800/3500 0,8000
3 2015 4.100 4100/3500 1,1714
4 2016 3.650 3650/3500 1,0429
5 2017 4.850 4850/3500 1,3857
Respuesta: Como podemos observar en el cuadro anterior en el año 2014, se presentó un

decrecimiento en la creación de empresas de un 20% con relación al año 2013, mientras
que el año 2015 con relación al año 2013 se presentó un crecimiento del 17.14%, en el año
2016 un crecimiento del 4.29% y en año 2017 un crecimiento del 38.57%.
Los números índices se pueden clasificar de la siguiente manera
Serie
Simples
Cadena
Numero
indice Sin
ponderar
Complejos
ponderados
Número índice simple: Son los índices que proporcionan la variación que ha sufrido una
magnitud o concepto entre dos periodos o lugares distintos.
Numero índice simple en serie: Los numero índice simple en serie es aquel que se calcula
tomando como referencia una base fija.
Número índice simple en cadena: Los numero índice simple en cadena es aquel que se
calcula tomando como referencia el dato inmediatamente anterior.
Ejemplo:
En la tabla siguiente se muestra el número de estudiantes activos del programa de
Administración de Empresas durante el periodo 2010 – 2017 en Colombia. Tomado los
datos de la tabla siguiente calcule los números índice simple en serie y el número índice en
cadena
Numero índice simple en serie
No estudiantes
NI simple en serie
Ítem Año matriculados
1 2010 309.336
2 2011 345.556 345556/309336 1,11709
3 2012 425.033 425033/309336 1,37402
4 2013 435.150 435150/309336 1,40672
5 2014 389.180 389180/309336 1,25811
6 2015 356.189 356189/309336 1,15146
7 2016 325.130 325130/309336 1,05106
8 2017 300.582 300582/309336 0,97170
Año base 2010
Interpretación.
Los datos nos indican que con relación al año base 2010, en el 2011 hubo un crecimiento
del 11.71%, con respeto al 2012 del 37.40%, con relación al 2013 40.67% y así
sucesivamente.
Numero índice simple en cadena
No estudiantes
NI simple en cadena
Ítem Año matriculados
1 2010 309.336
2 2011 345.556 345556/309336 1,11709
3 2012 425.033 425033/345556 1,23000
4 2013 435.150 435150/425033 1,02380
5 2014 389.180 389180/435150 0,89436
6 2015 356.189 356189/389180 0,91523
7 2016 325.130 325130/356189 0,91280
8 2017 300.582 300582/325130 0,92450
Interpretación.
En la interpretación el numero índice en cadena nos da la relación de un año con respeto al
otro, por decir algo si observamos el ítem 8 quiere decir que los matriculados en el 2017
han decrecido en un 7.55% con relación al año 2016. El ítem 5 significa que los
matriculados en administración en el año 2014, han descendido en un 10.57 con relación al
año 2013.
Tema: Series estadísticas:

Una serie de tiempo es una colección de datos obtenidos por mediciones de algún evento
natural o inducido, los cuales son reunidos sobre la misma variable, bajo las mismas
condiciones a lo largo del tiempo y con intervalos de la misma medida.
Las series estadísticas son colecciones de datos numéricos, obtenidos a través de
observaciones, que han sido recopiladas y ordenadas de acuerdo con un determinado
criterio. (Educaguia, 2017)
FIGURA 1 “Clases de series estadística”
Fuente:
http://www.educaguia.com/apuntesde/matematicas/ESTADISTICAYPROBABILIDAD/SERIESESTADISTICAS.pdf
Temporales o cronológicas: Las series estadísticas temporales o cronológicas son aquellos

datos que se obtienen de observaciones a largo plazo.
Atemporales: Las series estadísticas atemporales son aquellos datos que se obtienen de
observaciones realizadas en un momento determinado
Espaciales: Las series estadísticas espaciales son valores de una variable estadística
resultante de un contexto en situación de un espacio geográfico.
De frecuencias: Las series estadística de frecuencia son aquellas variables estadísticas que
son obtenidas de los valores de la frecuencia
De frecuencia cualitativa: Las series estadística de frecuencia cualitativa son aquellas
variables estadísticas cualitativas, que son obtenidas de los valores de la frecuencia
De frecuencia cuantitativa: Las series estadística de frecuencia cuantitativa son aquellas
variables estadísticas cuantitativas, que son obtenidas de los valores de la frecuencia
De frecuencia cuantitativa continua: Las series estadística de frecuencia cuantitativa
continua son aquellas variables estadísticas cuantitativas continuas, que son obtenidas de
los valores de la frecuencia
De frecuencia cuantitativa discreta. Las series estadística de frecuencia cuantitativa discreta
son aquellas variables estadísticas cuantitativas discreta, que son obtenidas de los valores
de la frecuencia.
Aplicaciones:
Las series de tiempo las podemos utilizar como herramienta para comprender la fuerza de
influencia en los datos y descubrir la estructura que produjo los datos observados
FIGURA 2 “Aplicaciones de las series de tiempo”
Fuente:
http://www.educaguia.com/apuntesde/matematicas/ESTADISTICAYPROBABILIDAD/SERIESESTADISTICAS.pdf
Usos:
 Pronósticos temporales
 Economía, presupuestos
 Proyecciones de empleo y desempleo
 Evolución del índice de precios al consumidor IPP
 Índices de precio del petróleo
 Número de habitantes por año
 Tasa de mortalidad infantil por año, entre otros.
Tema: Distribución de probabilidades

Una distribución de probabilidades es aquella que permite calcular todos los resultados
probables de ocurrir de un experimento determinado, así como la probabilidad de
ocurrencias de estos resultados. (Douglas Lind, 2003)
Tipos de distribuciones de probabilidad más usadas
Bernoulli
Para variables
Geometrica
discretas
Tipos de Poisson
distribucción
Normal
Para variables
continuas
Exponencial
FIGURA 3” Tipos de distribuciones de probabilidades más usadas”

Fuente: Elaboración propia
Definición de términos
Variables discretas: Las variables discretas son variables numéricas que tienen un
número contable de valores entre dos valores cualesquiera. Una variable discreta
siempre es numérica. Por ejemplo, el número de quejas de los clientes o el número de
fallas o defectos.
Variables continuas: Las variables continuas son variables numéricas que tienen un
número infinito de valores entre dos valores cualesquiera. Una variable continua puede
ser numérica o de fecha/hora. Por ejemplo, la longitud de una pieza o la fecha y hora
en que se recibe un pago.
Distribución de probabilidades de Bernoulli o Binomial:

Es una distribución de probabilidades de variable discreta en la cual solo pueden existir dos
posibilidades. Gano o pierdo, pasa o no pasa, verdadero o falso, Conforme o no conforme
Se denomina a la probabilidad de que el suceso que estamos investigando ocurre,
probabilidad de éxito, denotada por la letra p
Se denomina a la probabilidad de que el suceso investigado no ocurra, probabilidad de
fracaso y se denota por la letra q.
La suma de la probabilidad de éxito y la probabilidad de fracaso siempre será igual a uno,
es decir que p + q = 1.
Según (Lewin, 2012), El proceso de Bernoulli se puede describir de la siguiente manera:
 Cada intento tiene solo dos resultados posibles. Conforme o no conforme, gano o
pierdo entre otros.
 La probabilidad del resultado de cualquier intento permanece fija con respeto al
tiempo, por ejemplo, el resultado de lanzar una moneda y que esta caiga en cara es
de 0.5 y siempre será el mismo independiente de la cantidad de intentos que se
hagan.
 Los intentos son estadísticamente independientes, es decir el resultado de un intento
no afecta el resultado de cualquier otro intento.
Fórmula para el cálculo:
P(X) = n! * px. qn-x

x! (n – x)!
Donde
n = Numero de intentos hechos
x = Número de éxitos deseados
p = probabilidad de éxito (que suceda el evento)
q = probabilidad de fracaso (que el evento no suceda.
Ejemplo:
Pedro Pérez, director del departamento de calidad de la una empresa fabricante de motores,
se encuentra haciendo la revisión mensual de las transmisiones automáticas, para ellos se
saca una muestra de 10 unidades del lote que se está fabricando y se revisa que no tenga
defectos de fabricación. De acuerdo con los resultados de las inspecciones anteriores se ha
encontrado que solo el 2% de las transmisiones tienen defectos de fabricación.
¿Cuál es la probabilidad de que de la muestra obtenida por el señor Pérez dos transmisiones
tengan defectos de fabricación?
Datos
n = 10
x=2
p = 0.02
q = 1 – p = 1 – 0.02 = 0.98
Por consiguiente:
10 ¡ * (0.02)2 * (0.98)(10-2) 0.0009
P(x) = =
2! * (10 – 2)!
Distribución de probabilidades geométrica

La distribución geométrica es un modelo de distribución de probabilidades de variables
discretas que es muy adecuado para aquellos procesos en los que se repiten pruebas hasta la
consecución del éxito a resultado deseado
Según (epidat, 2014) La distribución geométrica permite calcular la probabilidad de que
tenga que realizarse un número k de repeticiones antes de obtener un éxito por primera vez
P (X = x) = p.qx-1
Ejemplo
En un laboratorio de medición han determinado que la probabilidad de que un micrómetro
muestre una desviación excesiva es de 0.05, ¿cuál es la probabilidad de que; ¿a) el sexto de
los micrómetros del laboratorio sometidos a prueba sea el primero en mostrar una desviación
excesiva?, ¿b) el quinto de los micrómetros del laboratorio sometidos a prueba, sea el primero
que no muestre una desviación excesiva?
a. Datos
x=6
p = 0.05
q = 0.95
P ( x=6) = 0.05 * 0.95(6-1) = 0.03869
b. Datos
x=5
p = 0.95
q = 0.05
P (x=6) = 0.95 * 0.05(5-1) = 0.0000059
Distribución de probabilidades de Poisson

La distribución de Poisson es una distribución de probabilidad discreta que se aplica a las
ocurrencias de algún suceso durante un intervalo especifico. La variable aleatoria x es el
número de ocurrencias de un suceso en un intervalo ( (Marquez, 2016)
La distribución de Poisson se emplea para describir varios procesos, entre otros la
distribución de las llamadas telefónicas que llagan a un conmutador, la demanda
(necesidades) de servicios en una institución asistencial por parte de los pacientes, los
arribos de los camiones y automóviles a la caseta de cobro y el número de accidentes en un
cruce. Los ejemplos citados tienen un elemento en común, pueden ser descritos por una
variable aleatoria discreta que asume valores enteros (0,1,2,3,4,5 y así sucesivamente).
(Lewin, 2012)
De acuerdo con ( (Lewin, 2012), las características de la distribución de Poisson son:
 Se observa la realización de hechos de cierto tipo durante un cierto periodo de
tiempo o a lo largo de un espacio de observación
 Los hechos a observar tienen naturaleza aleatoria; pueden producirse o no de una
manera no determinística.
 La probabilidad de que se produzcan un número x de éxitos en un intervalo de
amplitud t no depende del origen del intervalo (Aunque, sí de su amplitud)
 La probabilidad de que ocurra un hecho en un intervalo infinitésimo es
prácticamente proporcional a la amplitud del intervalo.
 La probabilidad de que se produzcan 2 o más hechos en un intervalo infinitésimo es
un infinitésimo de orden superior a dos.
Donde:
x = la variabl aleatoria a la que se le quiere calcular la probabilidad
λ = promedio o media de los datos observados
e = número de Euler que es una constante matemática cuyo valor es aproximadamente igual
a 2.71828
Ejemplo
Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las probabilidades
de que reciba, a) cuatro cheques sin fondo en un día dado, b) 10 cheques sin fondos en
cualquiera de dos días consecutivos?
a. Datos
λ = 6 cheques/dia
x=4
Solución
P(x=4) = e-6 * 64 / 4! = 0.13392
Interpretación
La probabilidad de que 4 cheques sin fondos lleguen en un día dado es de 0.13392 o
del 13.392%
b. Datos
λ = 12 cheques/ dos días consecutivos (6 * 2)
x = 10
Solución
P(x=4) = e-10 * 1210 / 10! = 0.104953
Interpretación
La probabilidad de que 10 cheques sin fondos lleguen en dos días consecutivos es de
0.104953 o del 10.49%
Distribución de probabilidades Normal

La distribución de probabilidad conocida como distribución normal es, por la cantidad de
fenómenos que explica, la más importante de las distribuciones estadísticas. ( (Angel, 2015)
Según ( (Moya, 1996), A la distribución normal también se la denomina con el nombre de
campana de Gauss, pues al representar su función de probabilidad, ésta tiene forma de
campana
Características de la distribución normal

Según ( (Lewin, 2012) la distribución normal tiene las siguientes características:
 La curva tiene un solo pico, por tanto, es unimodal. Tiene forma de campana
 La media de población distribuida normalmente cae en el centro de la curva normal
 Debido a la simetría de la distribución normal la mediana y la moda se encuentran
también en el centro de la campana, es decir para una distribución normal la media,
la mediana y la moda tienen el mismo valor
 Los dos extremos de la distribución normal de probabilidad se extienden
indefinidamente y nunca tocan el eje horizontal, es decir son asíntotas al eje
horizontal
Áreas bajo la curva normal
No importa cuáles sean los valores de µ (media) y σ (desviación estándar) para una
distribución de probabilidad normal, el área total bajo la curva es 1.00, de manera que
podemos pensar en áreas bajo la curva como si fueran probabilidades.
Matemáticamente es verdad que:
1. Aproximadamente el 68% de todos los valores de una población normalmente distribuida
se encuentra dentro de ± 1 desviación estándar de la media.
2. Aproximadamente el 95.5% de todos los valores de una población normalmente
distribuida se encuentra dentro de ± 2 desviaciones estándar de la media.
3. Aproximadamente el 99.7% de todos los valores de una población normalmente
distribuida se encuentra dentro de ± 3 desviaciones estándar de la media.
Formula el calculo
Primero se calcula
Z = ( x - µ) / σ
Donde
Z = Número de desviaciones estándar desde x a la media de la distribución
x = Valor de la variable aleatoria que nos interesa
µ = Media de la distribución de la variable aleatoria
σ = Desviación estándar que nos preocupa
Una vez calculada el valor de Z, vamos a las tablas de la curva normal y buscamos el valor
de z y en el intervalo de la tabla da el valor del área bajo la curva que es básicamente la
probabilidad de que el suceso acontezca
Ejemplo
Se ha encontrado que el consumo promedio de agua en un municipio de Colombia es de 20
galones, con una desviación estándar de 5 galones. ¿Cuál es la probabilidad de que una
persona del municipio consuma entre 15 y 25 galones de agua?
Donde
µ = 20 galones
σ = 5 galones
x1 = Consumo de agua de 15 galones
x2 = Consumo de agua de 25 galones
A1
A2
X1 µ X2
A1 = Área bajo la curva entre X1 y la media µ

A2 = Área bajo la curva entre media µ y el valor X2
Z1 = Número de desviaciones estándar desde X1 a la media de la distribución µ
Z2 = Número de desviaciones estándar desde X2 a la media de la distribución µ
Cálculos
P(x) = A1 + A2
Z1 = (15 – 20) / 5 = -1
Z2 = (25 – 20) / 5 = 1
Buscamos en la tabla en el valor de Z igual a 1 y nos da que:
A1 = 0.3413
A2 = 0.3413
Luego P(x) = 0.3413 + 0.3413 = 0.6426
Interpretación
La probabilidad de que una persona consuma en promedio entre 15 y 20 galones es de
0.6426 o del 64.26%
Distribución exponencial
En estadística la distribución exponencial es una distribución de probabilidad continua con
un parámetro λ > 0
Mientras que la distribución de Poisson describe las llegadas por unidad de tiempo, la
distribución exponencial estudia el tiempo entre cada una de estas llegadas. Si las llegadas
son de Poisson el tiempo entre estas llegadas es exponencial. Mientras que la distribución
de Poisson es discreta la distribución exponencial es continua porque el tiempo entre
llegadas no tiene que ser un número entero. Esta distribución se utiliza mucho para
describir el tiempo entre eventos. Más específicamente la variable aleatoria que representa
al tiempo necesario para servir a la llegada. ( (Gonzalez, 2018)
Ejemplos típicos de esta situación son el tiempo que un médico dedica a una exploración, el
tiempo de servir una medicina en una farmacia, o el tiempo de atender a una urgencia. (
(Gonzalez, 2018)
Donde:
λ = promedio o media de los datos observados

e = número de Euler que es una constante matemática cuyo valor es aproximadamente igual
a 2.71828
Ejemplo
El departamento de calidad de cierta empresa productora de bombillas ha encontrado que

según el modelo exponencial con un tiempo promedio de fallas igual a 360 días. ¿qué
probabilidad ahí que el tiempo de falla sea mayor que 400 días?
Datos:
λ = 360 días
x = 400 días
¿qué probabilidad ahí que el tiempo de falla sea mayor que 400 días?
P (x > 400) = 360 * e-(360*400) = 0.329
Interpretación
La probabilidad de que el tiempo de falla sea mayo a 400 días es de 0.329 o del 32.9%
Tema: Pruebas de hipótesis

Es un proceso para determinar la validez de una aseveración hecha sobre la población
basándose en evidencia maestral.
La prueba de hipótesis comienza con una suposición, llamada hipótesis, que hacemos
acerca de un parámetro de población. Después recolectamos datos de muestra, producimos
estadísticas muéstrales y usamos esta información para decidir qué tan probable es que
nuestro parámetro de población hipotético sea correcto ( (Lewin, 2012)
La prueba de hipótesis es un criterio que especifica si se puede aceptar o rechazar una
afirmación acerca de una población dependiendo de la evidencia proporcionada por una
muestra de datos. La prueba de hipótesis es una afirmación sobre la población a nivel de
sus parámetros; la media, la desviación estándar y la proporción.
Cuando se va a realizar la prueba de hipótesis de deben plantear dos hipótesis, las cuales
son totalmente opuestas. Estas hipótesis de denominan hipótesis nula e hipótesis
alternativa. La hipótesis nula es el hecho que se quiere probar, generalmente cuando la
vamos a enunciar se inicie escribiendo “No hay diferencia”, “es igual a” o “no hay efecto.
La hipótesis alternativa es lo opuesto a la hipótesis nula y generalmente es el cambio que
espera el investigador que suceda
La hipótesis nula se denota como H0 y la hipótesis alternativa se denota como Hi
Un error común de percepción es que las pruebas estadísticas de hipótesis están diseñadas
para seleccionar la más probable de dos hipótesis. Sin embargo, al diseñar una prueba de
hipótesis, establecemos la hipótesis nula como lo que queremos desaprobar. Puesto que
establecemos el nivel de significancia para que sea pequeño antes del análisis (por lo
general, un valor de 0.05 funciona adecuadamente), cuando rechazamos la hipótesis nula,
tenemos prueba estadística de que la alternativa es verdadera. En cambio, si no podemos
rechazar la hipótesis nula, no tenemos prueba estadística de que la hipótesis nula sea
verdadera. Esto se debe a que no establecimos la probabilidad de aceptar equivocadamente
la hipótesis nula para que fuera pequeña. ( (minitab18, 2017)
Pasos para realizar una prueba de hipótesis

 Se plantea la hipótesis nula y alternativa
 Se selecciona el nivel de significancia
 Se selecciona el estadístico de prueba
 Se forma la regla de decisión
 Se toma la muestra y se decide:
 No se rechaza la hipótesis nula
 Se rechaza la hipótesis nula y se acepta la hipótesis alternativa
Definición de términos:
hipótesis nula (H0) se refiere a un valor significativo del parámetro de la población, no a un
estadístico de la muestra.
Hipótesis alternativa (H1): Es cualquier hipótesis que difiere de la hipótesis nula.
Nivel se significancia(α): Es la probabilidad de rechazar la hipótesis nula cuando es
verdadera., también se le denomina como nivel de riesgo, ya que se corre el riesgo de
rechazar la hipótesis nula, cuando en realidad es verdadera. Este nivel está bajo el control
de la persona que realiza la prueba.
Nivel de confianza: El nivel de confianza es igual a uno menos el nivel de significancia (α),
indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la
población
Estadístico de prueba: Un estadístico de prueba mide el grado de concordancia entre una
muestra de datos y la hipótesis nula
Los estadísticos de prueba más utilizados son:
•Se emplea cuando el total de las datos de lamuestra es
Estadistico z >= a 30 y la distribucción es normal
•Se emplea cuando el total de las datos de lamuestra es

Estadístico t < a 30 y la distribucción es normal
•Se emplea cuando el análisis de Varianza contrasta la

hipótesis de igualdad de las Medias de más de dos
Estadístico f grupos, y tiene su fundamento en la relación entre la
variación explicada por las diferencias entre grupos y
la variación individual
Tipos de pruebas de hipótesis de una sola prueba

Tipos de pruebas
Prueba de hipótesis de medias

cuando se conoce la desviación
estándar de la población
prueba de hipótesis para

proporciones
Prueba de hipótesis de medias

cuando no se conoce la desviación
estándar de la población
Prueba de hipótesis de medias cuando se conoce la desviación estándar de la población
Prueba de dos colas para las medias
Un fabricante partes para automotores, surte a los buses de Transmilenio de la ciudad de
Bogotá. Los ejes traseros. Los ejes han de soportar 80,000 psi para las pruebas de carga, la
empresa debe tener en cuenta dos posibles situaciones, la primera un eje demasiado liviano
no soportaría la carga que deben soportar y no cumpliría con los estándares de calidad
establecidos, pero un eje excesivamente fuerte eleva los costos de producción de manera
significativa ocasionando precios excesivamente altos, que los podría sacar del mercado. La
larga experiencia indica que la desviación estándar de la resistencia de sus ejes es 4,000 psi.
Control de calidad selecciona una muestra de 100 ejes de la producción, los prueba y
encuentra que la capacidad de carga media de la muestra es 79,600 psi.
Si el fabricante de ejes utiliza un nivel de significancia (α) de 0.05 en la prueba, ¿satisfarán
los ejes sus requerimientos de carga?
Datos:
µH0 = 80,000 ← Valores hipotético de la media de población
σ = 4,000 ← Desviación estándar de la población
n = 100 ← Tamaño de muestra
x = 79,600 ← Media de la muestra
Planteamiento
H0 =80,000 ← Hipótesis nula: la media real es 80,000 psi
H1≠ 80,000 ← Hipótesis alternativa: la media real no es 80,000 psi
α = 0.05 ← Nivel de significancia para probar esta hipótesis
Como se conoce la desviación estándar y el tamaño de la muestra es suficiente grande,
utilizaremos la distribución normal.
Primero se calcula el error estándar de la media
σx = σ / √n = 4000 / √100 = 4000 / 10 = 400
Segundo se dibuja la curva norma, explicitando las áreas de aceptación de cada una de las
hipótesis. Como el planteamiento del problema dice que la hipótesis alternativa es diferente
(≠) se emplea una curva normal de dos colas.
Tercero calculamos las áreas de aceptación y rechazo de la hipótesis nula.
Nivel de significancia 0.05, luego el nivel de confianza será = 1 -0.05 = 0.95
x1 x2
Como cuarto paso buscamos en las tablas de la normal, el valor de Z para un área de 0.475
Siendo este valor de 1.96
Como quinto paso calculamos los límites del intervalo de confianza, aplicando la fórmula
de:
Z = (x - µ) / σx
Despejamos x de la ecuación anterior y encontramos que:
Límite inferior x1 = µ - Z* σx
Límite superior x2 = µ + Z* σx
x1 = 80.000 – 1.96* 400 = 79.216 psi
x2 = 80.000 + 1.96 * 400 = 80.784 psi
Como sexto paso se ubican estos valores en la curva normal, como también el valor de la
media de la muestra x (79.600 psi)
Y por último se interpreta el resultado.

Interpretación
Como la media de la muestra cae dentro de la región de aceptación; el fabricante debe
aceptar la hipótesis nula porque no hay diferencia significativa entre la media hipotética de
80,000 y la media observada de los ejes de la muestra.
Prueba de una cola para las medias
(Lewin, 2012), un hospital usa grandes cantidades de dosis envasadas de un medicamento
particular. La dosis individual de esta medicina tiene 100 cm3 (100 cc). La acción del
medicamento es tal que el cuerpo tolera dosis excesivas sin sufrir daño. Por otra parte, las
dosis insuficientes no producen el efecto médico deseado e interfieren con el tratamiento
del paciente. El hospital ha adquirido la cantidad de medicamento que necesita al mismo
fabricante durante varios años y sabe que la desviación estándar de la población es 2 cc. El
hospital inspecciona, aleatoriamente, 50 dosis, tomadas de un envío muy grande y
encuentra que la media de estas dosis es 99.75 cc.
Si el hospital establece un nivel de significancia de 0.10 y nos pregunta si las dosis de esta
entrega son demasiado pequeñas, ¿cómo podemos hallar la respuesta?
Datos
µH0 = l00 ← Valores hipotéticos de la media de la población
σ=2 ← Desviación estándar de la población
n = 50 ← Tamaño de la muestra
x = 99.75 ← Media de la muestra
Planteamiento
H0: µ = 100 ← Hipótesis nula: la media de las dosis de la remesa es 100 cc
H1: µ < 100 ← Hipótesis alternativa: la media es menor que 100 cc
α = 0.10 ← Nivel de significancia para probar esta hipótesis
Como conocemos la desviación estándar de la población y n es mayor que 30, podemos
utilizar la distribución normal.
Segundo se dibuja la curva norma, explicitando las áreas de aceptación de cada una de las
hipótesis. Como el planteamiento del problema dice que la hipótesis alternativa es menor
(<) se emplea una curva normal de una cola y encontramos el valor de Z en la tabla de la
curva normal. Como el área bajo la curva es de 0.40 el valor critico es igual a -1.28.
Tercero calculamos el error estándar de la media, utilizando la desviación estándar de la
población que conocemos
Tercero estandarizamos la media de la muestra
Cuarto, ubicamos la media estandarizada en la gráfica e interpretamos
Interpretación
Al colocar el valor estandarizado en la escala z se observa que esta media muestral cae de
lleno en la región de aceptación, Por tanto, el hospital debe aceptar la hipótesis nula, porque
la media observada de la muestra no es significativamente menor que la media hipotética de
100 cc. Con base en esta muestra de 50 dosis, el hospital debe concluir que las dosis de la
entrega son suficientes.
Prueba de hipótesis para proporciones (muestras grandes)
La empresa Socolcar en su proceso de mejora continua, desea evaluar a sus empleados
mediante una serie de pruebas que midan la capacidad, capacitación y experiencia de
supervisión para considerar cuales de sus empleados están listos parar pasar al siguiente
nivel administrativo y se merezcan un ascenso. Para el director de Desarrollo Humano el
80% de los empleados están cualificados para el ascenso. El gerente general de la compañía
no está muy convencido de este dato y solicita realzar entrevista a fondo a los 150
empleados de la empresa, una vez realizadas estas entrevistas se encuentra que solo el 70%
de los empleados califica para el ascenso.
El gerente general desea probar a un nivel de significancia de 0.05 la hipótesis de que 0.8
de los empleados son aptos para el ascenso:
Datos:
pH0 = 0.8 ← Valor hipotético de la proporción de éxitos de la población (considerados
aptos para el ascenso, en este caso)
qH0 = 0.2 ← Valor hipotético de la proporción de fracasos de la población
(considerados no aptos para el ascenso)
n = 150 ← Tamaño de muestra
p = 0.7 ← Proporción apta para el ascenso de la muestra
q = 0.3 ← Proporción no apta para el ascenso de la muestra
Planteamiento
H0: p = 0.8 ← Hipótesis nula: 80% de los empleados es apto
H1: p ≠ 0.8 ← Hipótesis alternativa: la proporción de empleados aptos no es el 80%
α = 0.05 ← Nivel de significancia
Se calcula el error estándar de la proporción media
Se dibuja la curva norma, explicitando las áreas de aceptación de cada una de las hipótesis.
Como el planteamiento del problema dice que la hipótesis alternativa es diferente (≠) se
emplea una curva normal de dos colas.
Buscamos en las tablas de la normal, el valor de Z para un área de 0.475

Siendo este valor de 1.96 luego los valores críticos son de 1.96 y – 1.96 usando el método
de escala estandarizada, en donde lo que vamos a tomar la decisión comparando los valores
críticos de Z y tomando Z como cero
A continuación, estandarizamos la proporción de la muestra dividiendo la diferencia entre
la proporción de la muestra observada p y la proporción hipotética, pH0, entre el error
estándar de la proporción.
Luego ubicamos el valor estandarizado de la proporción obteniendo el siguiente resultado

Interpretación:
Como el valor estandarizado de la proporción se encuentra en el área de rechazo de la
hipótesis nula, aceptamos la hipótesis alternativa que la proporción de empleados aptos no
es diferente al 80%
Pruebas de hipótesis de medias cuando no se conoce la desviación estándar de la población

Cuando queremos hacer pruebas de hipótesis de las medias y observamos que el tamaño de
la muestra n es 30 o menos y no conocemos la desviación estándar de la población, ya no
podemos emplear la distribución normal, sino que debemos emplear la distribución t.
Prueba de dos colas para medias usando la distribución t
Durante un proceso de evaluación para la acreditación de un programa de Administración
de Empresas, el rector de la universidad le pregunta al supervisor del programa cómo va la
evaluación, y este le responde: “Bien. Creo que la puntuación promedio de la evaluación
del programa estará aproximadamente en 90 puntos. Un tiempo después se revisa el
resultado de 20 de los cuestionarios y se encuentra que la puntuación media es 84, y la
desviación estándar de esta puntuación es 11.
Si la administración desea probar su hipótesis al nivel de significancia de 0.10, ¿cuál es el
procedimiento a seguir?
Datos:
µH0 = 90 ← Valores hipotéticos de la media de población
n = 20 ← Tamaño de la muestra
x = 84 ← Media de la muestra
s = 11 ← Desviación estándar de la muestra
Planteamiento
H0: µ = 90 ← Hipótesis nula: la puntuación media real de población es 90
H1: ≠ 90 ← Hipótesis alternativa: la puntuación media no es 90
Α = 0.10 ← Nivel de significancia para probar esta hipótesis
Como la rectoría está interesada en saber si la puntuación media verdadera es mayor o

menor que la puntuación hipotética, se emplea una distribución de probabilidades de dos
colas.
También como lo dice el problema la muestra es de tan solo 20 cuestionarios y no se
conoce el valor de la desviación estándar de la población, sino el de la muestra, se empleara
para el cálculo la distribución t
Buscamos en la tabla de la distribución t el valor crítico para los valores 0.10 y 19 (Número
de grados de libertad 20 – 1) obteniendo el valor de t = a 1.729
Como no se conoce la desviación estándar de la población, debemos estimarla usando la

desviación estándar de la muestra
Luego calculamos el error estándar de la media
Posteriormente calculamos el valor de t estandarizado

Ubicamos el valor de t en la gráfica y realizamos la interpretación
Interpretación:
Como observamos en la gráfica el valor de t estandarizado cae fuera de la región de
aceptación por lo tanto la rectoría debe rechazar la hipótesis nula y aceptar la hipótesis
alternativa que la evaluación tiene un resultado diferente a los 90 puntos
Pruebas de una cola para medias usando la distribución t
El procedimiento para una prueba de hipótesis de una cola utilizando la distribución t es el
mismo, conceptualmente, que para una prueba de una cola usando la distribución normal y
la tabla z. ( (Lewin, 2012).
Cuando estamos haciendo pruebas de una cola en la distribución t y como en la tabla de
valores de la distribución t lo que representa son valores para dos áreas combinadas, es
necesario multiplicar por dos el nivel de significancia y buscar ese valor en la tabla.
Ejemplo para encontrar el valor t apropiado para una prueba de una cola a un nivel de
significancia de 0.05, con 12 grados de libertad, buscaríamos en la tabla de la distribución t
en la columna con 0.10 el renglón de 12 grados de libertad.
Tema: Análisis de varianza
El análisis de la varianza (ANOVA) es una colección de modelos estadísticos y sus
procedimientos asociados, en el cual la varianza está particionada en ciertos componentes
debidos a diferentes variables explicativas. El análisis de la varianza parte de los
conceptos de regresión. ( (Diaz, 2012)
Es una de las técnicas estadísticas más utilizadas para comparar grupos de medidas y
normalmente se emplea para establecer semejanzas y diferencias entre tres o más grupos
distintos. A través de ANOVA se establece un análisis para evaluar comparativamente unos
resultados en distintas clasificaciones o grupos. De esta manera, es posible calcular si los
valores medios son iguales en los distintos grupos estudiados.( (Navarro, 2016)
ANOVA trata de determinar si los niveles de factores pueden conllevar diferencias en la

respuesta en los distintos grupos o poblaciones, contrastando la igualdad de medias de la
variable dependiente en dichos grupos. ( (Ordaz, 2015)
Pasos para el análisis de varianza ( (Lewin, 2012)
 Determinar una estimación de la varianza de la población a partir de la varianza
entre las medias de las muestras.
 Determinar una segunda estimación de la varianza de la población a partir de la
varianza dentro de las muestras.
 Comparar estas dos estimaciones. Si su valor es aproximadamente igual, se acepta
la hipótesis nula.
Fórmulas para el cálculo:

Para la varianza de la población a partir de la varianza entre las medias de las muestras.
(denominada también varianza entre columnas)
Para la estimación de la varianza de la población a partir de la varianza dentro de las
muestras.
(Salinas, 2016).Los miembros de un equipo ciclista se dividen al azar en tres grupos que
entrenan con métodos diferentes. El primer grupo realiza largos recorridos a ritmo pausado,
el segundo grupo realiza series cortas de alta intensidad y el tercero trabaja en el gimnasio
con pesas y se ejercita en el pedaleo de alta frecuencia. Después de un mes de
entrenamiento se realiza un test de rendimiento consistente en un recorrido cronometrado
de 9 Km. Los tiempos empleados fueron los siguientes:
Método I Método II Método III

15 14 13
16 13 12
14 15 11
15 16 14
17 14 11
A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos producen
resultados equivalentes? O por el contrario ¿Hay algún método superior a los demás?
Comenzamos calculando los totales y los cuadrados de los totales divididos por el número
de observaciones:
A continuación, calculamos los cuadrados de las observaciones y su total:
A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:

SC(total) = 2984 - 2940 = 44
SC(intra) = 2984 – 2966,8 = 17,2
SC(entre) = 2966,8 – 2940 = 26,8 Los cuadrados medios serán:
CM(entre) = 26,8/2 = 13,4
CM(intra) = 17,2/12 = 1,43
Por consiguiente, el estadístico de contraste vale:
F = 13,4/ 1,43 = 9,37
El valor de la F teórica con 2 y 12 grados de libertad, a un nivel de confianza del 95% es
3,89. Por consiguiente se rechaza la hipótesis nula y se concluye que los tres métodos de
entrenamiento producen diferencias significativas.
Tema: Regresión y correlación

Los análisis de regresión y de correlación se basan en la relación, o asociación, entre dos (o
más) variables. La variable (o variables) conocida(s) se llaman variable(s) independiente(s);
la que tratamos de predecir es la variable dependiente.( (Lewin, 2012)
Los científicos saben, por ejemplo, que existe una relación entre las ventas anuales de latas
de aerosoles y la cantidad de fluorocarburos liberados a la atmósfera cada año. Si
estudiáramos esta relación, “el número de latas de aerosol vendidas cada año” sería la
variable independiente y “la cantidad de fluorocarburos liberados anualmente” sería la
variable dependiente.( (Lewin, 2012).
Para realizar el análisis de regresión lo primero que debemos hacer es una gráfica de
dispersión para observar el comportamiento de la variable y así poder determinar si existe
relación entre la variable independiente y la variable dependiente
Ejemplo
Una empresa recaba la información de las ventas durante los últimos 10 años, que se
muestran en la siguiente tabla
Año Ventas
Año 2007 120.000.000
Año 2008 160.000.000
Año 2009 165.000.000
Año 2010 175.000.000
Año 2011 182.000.000
Año 2012 193.000.000
Año 2013 198.000.000
Año 2014 207.000.000
Año 2015 213.000.000
Año 2016 220.000.000
Año 2017 230.000.000
Entonces hacemos la gráfica de dispersión
Ventas
250.000.000
200.000.000
150.000.000
100.000.000
50.000.000
0
0 2 4 6 8 10 12
Los posibles resultados de la graficar los datos son los siguientes
Las gráficas (a) y (b) muestran relaciones lineales directas e inversas. Las gráficas (c) y (d)
son ejemplos de relaciones curvilíneas que indican asociaciones directas e inversas entre
variables, respectivamente. La gráfica (e) ilustra una relación lineal inversa con un patrón
de puntos ampliamente disperso.( (Lewin, 2012)
Calculo de la línea de regresión
Para calcular la línea de regresión empleamos la ecuación de la recta
Para determinar la ecuación de la recta actualmente lo mejor que podríamos hacer

encontrarla mediante Excel, siguiendo los siguientes pasos:
Supongamos que tenemos los siguientes datos acerca del número de estudiantes admitidos
para primer semestre en una universidad. Se nos pide encontrar la ecuación de la recta que
representa esos datos
No de estudiantes
Año Semestre
matriculados
I 2.000
Año 2010
II 1.980
I 2.050
Año 2011 II 2.000
I 2.120
Año 2012
II 2.080
I 2.200
Año 2014
II 2.100
I 2.280
Año 2015
II 2.120
I 2.350
Año 2017
II 2.190
Primero graficamos los datos
No de estudiantes matriculados
2.400
2.300
2.200
2.100
2.000
1.900
0 2 4 6 8 10 12 14
Luego hacemos click derecho en el punto final de los datos y le decimos agregar línea de
tendencia
Posteriormente le decimos presentar ecuación en la grafica

Y obtenemos la ecuación de la recta
No de estudiantes matriculados
2.400
2.350 y = 25,769x + 1955
2.300
2.250
2.200
2.150
2.100
2.050
2.000
1.950
0 2 4 6 8 10 12 14
Por consiguiente, la ecuación de la recta es igual

Y = 25.769 x + 1955
Análisis de correlación
El análisis de correlación es la herramienta estadística que podemos usar para describir el
grado en el que una variable está linealmente relacionada con otra. Con frecuencia, el
análisis de correlación se utiliza junto con el de regresión para medir qué tan bien la línea
de regresión explica los cambios de la variable dependiente, Y. Sin embargo, la correlación
también se puede usar sola para medir el grado de asociación entre dos variables. (Lewin,
2012)
Para determinar el grado de correlación de las dos variables, calculamos el coeficiente de
determinación (r2).
El coeficiente de determinación varía entre -1 y 1, entre más se acerque a -1 o a 1, podemos
afirmar las dos variables tienen un alto grado de correlación y que se puede predecir
acertadamente el comportamiento de la variable dependiente a través del comportamiento
de la variable dependiente.
Si el coeficiente de determinación tiene un valor de 1, se dice que la variable tiene una
correlación perfecta directa y que a medida que crece la variable independiente crece la
variable dependiente
Si el coeficiente de determinación tiene un valor de -1, se dice que la variable tiene una
correlación perfecta indirecta y que a medida que crece la variable independiente decrece la
variable dependiente
Para el cálculo del coeficiente de determinación emplearemos la misma rutina de la que se
utilizó para encontrar la ecuación de la recta, explicitándole al sistema que además de
encontrar la ecuación de la recta, determine el valor de r2
Ejemplo:
Una compañía manufacturera produce equipos electrónicos, ha recabado el número de
unidades fabricadas en los últimos diez años (Ver tabla siguiente)
Se pide calcular la ecuación de regresión y hacer un análisis de correlación
No Unidades
Año Producidas
Año 2007 150.000
Año 2008 185.000
Año 2009 192.000
Año 2010 195.000
Año 2011 210.000
Año 2012 212.000
Año 2013 215.000
Año 2014 225.000
Año 2015 228.000
Año 2016 235.000
Año 2017 242.000
Primero graficamos los datos y aplicando lo visto en el ejemplo anterior tenemos
No Unidades Producidas
300.000
y = 7572,7x + 162655
250.000 R² = 0,9062
200.000
150.000
100.000
50.000
0
Año Año Año Año Año Año Año Año Año Año Año
2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Por lo tanto
La ecuación de regresión es:
Y = 7572.7 + 162.655
Y el coeficiente de determinación
R2 = 0.9062
Esto significa que las unidades producidas tienen una alta relación con el tiempo
Tema: Series de tiempo

El análisis de series de tiempo es un método cuantitativo que utilizamos para determinar
patrones en los datos recolectados a través del tiempo ( (Ordaz, 2015)
El análisis de series de tiempo se utiliza para detectar patrones de cambio en la información
estadística en intervalos regulares. Proyectamos estos patrones para obtener una estimación
para el futuro. En consecuencia, el análisis de series de tiempo nos ayuda a manejar la
incertidumbre asociada con los acontecimientos futuros. (Lewin, 2012)
Variación en las series de tiempo
Tendencia
secular
Variación Fluctuación
irregular ciclica
Variación
estacional
Tendencia secular
En datos tienen tendencia secular cuando la variable que se esa analizando aumenta o
disminuye a través del tiempo, (Ver grafico siguiente)
Demanda
295.000
290.000
285.000
280.000
275.000
270.000
265.000
260.000
255.000
250.000
245.000
0 2 4 6 8 10 12
Fluctuación cíclica
Las fluctuaciones cíclicas son movimientos en forma de onda alrededor de una
tendencia, El ejemplo más común de esta serie de tiempos es el ciclo económico,
generalmente la variación en el movimiento ondulatoria es de más de un año,
pudiendo a llegar a 15 y hasta 20 años.
Demanda
262.000
260.000
258.000
256.000
254.000
252.000
250.000
248.000
0 2 4 6 8 10 12 14 16
Variación estacional
Esta serie de tiempo son cambios que se presentan en periodos inferiores a un año que
tienden a repetirse anualmente. Por ejemplo, es de esperarse incremento en los casos de
resfríos cuando estamos en temporada de invierno.
Ventas
40.000
35.000
30.000
25.000
20.000
15.000
10.000
5.000
0
jul-15 ene-16 ago-16 mar-17 sep-17 abr-18 oct-18
Variación irregular
La variación irregular se presenta cuando generalmente las variaciones de las observaciones
son aleatorias, no siguen ningún patrón, el valor de la variable es impredecible
Demanda
800.000
700.000
600.000
500.000
400.000
300.000
200.000
100.000
0
0 2 4 6 8 10 12 14 16
Series de tiempo
REFERENCIAS
Angel, J. (2015). uoc.edu. Obtenido de

https://www.uoc.edu/in3/emath/docs/Distrib_Normal.pdf
Diaz, C. (12 de 01 de 2012). Slide Share. Obtenido de
https://es.slideshare.net/cristiandiazv/anlisis-de-la-varianza
Douglas Lind, D. (2003). Estadística para Administración y Economía. Mexico DF:
Alfaomega Grupo editor S.A.
Educaguia. (13 de 10 de 2017). EStadistica. Obtenido de eduguia.com:
http://www.educaguia.com/apuntesde/matematicas/ESTADISTICAYPROBABILI
DAD/SERIESESTADISTICAS.pdf
epidat, S. (2014). Soporte.epidatQsergas.es. Obtenido de http://dxsp.sergas.es
Fernandez, S. d. (2016). Estadistica descriptiva. Madrid: Universidad autonoma de Madrid.
Gonzalez, C. A. (2018). Monografias.com. Obtenido de
http://www.monografias.com/trabajos84/distribucion-exponencial/distribucion-
exponencial.shtml
Lewin, R. (2012). Estadística para Adminstradores. Mexico DF: Pearson.
Marquez, F. (2016). fisicaymates.com. Obtenido de https://fisicaymates.com/distribucion-
de-poisson/
minitab18, S. d. (2017). Soporte de minitab18. Obtenido de https://support.minitab.com/es-
mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-
topics/basics/what-is-a-hypothesis-test/
Moya, A. (1996). Técnicas cuantitativas aplicadas a la biblioteconomia y documentación.
sintesis .
Navarro, J. (22 de 12 de 2016). Definición ABC. Obtenido de
www.definicionabc.com/economia/anova.php
Ordaz, J. (2015). Métodos Estadísticos y Econométricos en la Empresas y para Finanzas.
Universidad Pablo de Olavide.
Salinas, J. (2016). Analisis de varianza. problemas resuletos. Obtenido de
http://www.ugr.es/~jsalinas/weproble/T14res.PDF

Estadistica Inferencial

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estadistica Inferencial

Enviado por

Direitos autorais:

Formatos disponíveis

APUNTES DE CLASE

Tema: Número índice

Respuesta: Como podemos observar en el cuadro anterior en el año 2014, se presentó un

Numero índice simple en serie

Tema: Series estadísticas:

FIGURA 1 “Clases de series estadística”

Temporales o cronológicas: Las series estadísticas temporales o cronológicas son aquellos

FIGURA 2 “Aplicaciones de las series de tiempo”

Tema: Distribución de probabilidades

Tipos de distribuciones de probabilidad más usadas

FIGURA 3” Tipos de distribuciones de probabilidades más usadas”

Distribución de probabilidades de Bernoulli o Binomial:

P(X) = n! * px. qn-x

Distribución de probabilidades geométrica

Distribución de probabilidades de Poisson

Fórmula para el calculo

Distribución de probabilidades Normal

Características de la distribución normal

A1 = Área bajo la curva entre X1 y la media µ

Fórmula para el calculo

λ = promedio o media de los datos observados

El departamento de calidad de cierta empresa productora de bombillas ha encontrado que

P (x > 400) = 360 * e-(360*400) = 0.329

Tema: Pruebas de hipótesis

La hipótesis nula se denota como H0 y la hipótesis alternativa se denota como Hi

Pasos para realizar una prueba de hipótesis

•Se emplea cuando el total de las datos de lamuestra es

•Se emplea cuando el análisis de Varianza contrasta la

Tipos de pruebas de hipótesis de una sola prueba

Prueba de hipótesis de medias

prueba de hipótesis para

Prueba de hipótesis de medias

Y por último se interpreta el resultado.

Tercero estandarizamos la media de la muestra

Cuarto, ubicamos la media estandarizada en la gráfica e interpretamos

Buscamos en las tablas de la normal, el valor de Z para un área de 0.475

Luego ubicamos el valor estandarizado de la proporción obteniendo el siguiente resultado

Pruebas de hipótesis de medias cuando no se conoce la desviación estándar de la población

Como la rectoría está interesada en saber si la puntuación media verdadera es mayor o

Como no se conoce la desviación estándar de la población, debemos estimarla usando la

Luego calculamos el error estándar de la media

Posteriormente calculamos el valor de t estandarizado

ANOVA trata de determinar si los niveles de factores pueden conllevar diferencias en la

Fórmulas para el cálculo:

Método I Método II Método III

A continuación, calculamos los cuadrados de las observaciones y su total:

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:

Tema: Regresión y correlación

Los posibles resultados de la graficar los datos son los siguientes

Para determinar la ecuación de la recta actualmente lo mejor que podríamos hacer

Posteriormente le decimos presentar ecuación en la grafica

Por consiguiente, la ecuación de la recta es igual

Primero graficamos los datos y aplicando lo visto en el ejemplo anterior tenemos

Tema: Series de tiempo

Angel, J. (2015). uoc.edu. Obtenido de

Você também pode gostar