Escolar Documentos
Profissional Documentos
Cultura Documentos
Estadística
DRA FLORENCIA JAUREGUIBERRY
UNIDAD 4 - CLASE 3
Contenido Unidad 4
Estimación puntual de parámetros. Condiciones de un buen estimador. Estimaciones puntuales.
Distribución de los estadísticos muestrales: media aritmética, variancia y proporciones.
Estimaciones por intervalos de confianza.
Teoría general de las pruebas de hipótesis. Tipos de errores. Pruebas relativas a la media, a la
variancia y a una proporción.
Distribución de la diferencia de medias y del cociente de varianzas.
Regresión.
Diferencia de medias
2 poblaciones con medias μ1 y μ2, y varianzas σ12 y σ22
Estimador puntual de la diferencia entre μ1 y μ2 es la diferencia de las medias muestrales
Se seleccionan dos muestras aleatorias independientes, una de cada población, de tamaños n1 y
n2, y se calcula 𝑋1 − 𝑋2
𝜎12 2
Varianza: ൗ𝑛1 + 𝜎2ൗ𝑛2
Intervalo de confianza
Ejercicio
Se llevo a cabo un experimento donde se compararon dos tipos de motores, el A y el B. Se midió
el rendimiento de combustible en millas por galón. Se realizaron 50 experimentos con el motor
tipo A y 75 con el motor tipo B.
La gasolina utilizada y las demás condiciones se mantuvieron constantes. El rendimiento
promedio de gasolina para el motor A fue de 36 millas por galón y el promedio para el motor B
fue de 42 millas por galón.
Calcular un intervalo de confianza del 96% sobre μB – μA, donde μA y μB corresponden a la
media de la poblacion del rendimiento de millas por galon para los motores A y B,
respectivamente. Suponga que las desviaciones estandar de la población son 6 y 8 para los
motores A y B, respectivamente.
Ejercicio
Relación entre variables
Hasta ahora, se ha tratado de inferir características poblacionales de una sola variable aleatoria.
A partir de ahora, se extenderá el análisis a inferir relaciones poblacionales entre dos o más
variables.
Igual que antes, usaremos información proveniente de una muestra aleatoria simple para inferir
las relaciones entre las variables.
Primero tenemos que hacer supuestos sobre qué tipo de relación hay entre las variables.
Empezamos con el caso más simple: suponemos que existe una relación lineal.
Modelo de Regresión lineal simple
Los modelos de regresión permiten estudiar la relación entre dos o más variables.
En su sentido más básico, la regresión ayuda a predecir el valor de una variable basado en
información de otras variables. El caso más sencillo es el de la regresión lineal simple, entre dos
variables
En una regresión, las variables se relacionan teóricamente mediante una ecuación que luego se
estima con datos
Adonde
Y: variable dependiente
a: ordenada al origen
b: pendiente. Cuanto cambia Y cuando cambia X
X variable independiente
Relación entre Y y X en la población
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
𝑌𝑖 : 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒
𝑋𝑖 : 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒
𝛽0 : 𝑜𝑟𝑑𝑒𝑛𝑎𝑑𝑎 𝑎𝑙 𝑜𝑟𝑖𝑔𝑒𝑛 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑌 𝑐𝑢𝑎𝑛𝑑𝑜 𝑋 𝑒𝑠 0 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
𝛽1 : 𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
𝜀𝑖 : 𝑒𝑟𝑟𝑜𝑟 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜 𝑒𝑛 𝑌 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 𝑖
Supuestos
Linearidad en los parámetros
Independencia de los errores
Normalidad en el error
Homoscedasticidad (igual varianza) en los errores
Inferencia basada en una muestra
Para inferir los valores de los parámetros de la ecuación poblacional, tenemos que elegir un
estimador para usar con los datos de una muestra.
Dada una línea de predicción
0 + 𝛽
𝑌𝑖 = 𝛽 1 𝑋𝑖
Donde
valor predicho de Y
𝑌:
0 : intersecto según la muestra se estima
𝛽
1 : pendiente según la muestra se estima
𝛽
Método de mínimos cuadrados
ordinarios
El método de mínimos cuadrados ordinarios propone elegir el estimador de forma tal de
minimizar el cuadrado de la suma de las diferencias entre los valores reales y los valores
predichos.
Min σ(𝑌𝑖 − 𝑌𝑖 )2
0 + 𝛽
Recordando que 𝑌𝑖 = 𝛽 1 𝑋𝑖
0 + 𝛽
Min σ(𝑌𝑖 − [𝛽 1 𝑋𝑖 ])2
Regression Statistics
Multiple R 0.7303
R Square 0.5333
Adjusted R Square 0.5238
Standard Error 5.5506
Observations 51.0000
ANOVA
df SS MS F Significance F
Regression 1 1,725.26 1,725.26 56.00 0.00
Residual 49 1,509.63 30.81
Total 50 3,234.89
Se define:
𝑆𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑆𝑆𝑅
R2= =
𝑆𝑢𝑚𝑎 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑆𝑆𝑇
Regression Statistics
Multiple R 0.7303
R Square 0.5333
Adjusted R Square 0.5238
Standard Error 5.5506
Observations 51.0000
ANOVA
df SS MS F Significance F
Regression 1 1,725.26 1,725.26 56.00 0.00
Residual 49 1,509.63 30.81
Total 50 3,234.89
𝑆𝑆𝐸 2
σ(𝑦−𝑦)
S= =
𝑛−2 𝑛−2
Salida de regresión en EXcel
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.7303
R Square 0.5333
Adjusted R Square 0.5238
Standard Error 5.5506
Observations 51.0000
ANOVA
df SS MS F Significance F
Regression 1 1,725.26 1,725.26 56.00 0.00
Residual 49 1,509.63 30.81
Total 50 3,234.89