Você está na página 1de 23

Probabilidad y

Estadística
DRA FLORENCIA JAUREGUIBERRY

UNIVERSIDAD NACIONAL DE RÍO NEGRO

INGENIERÍA EN BIOTECNOLOGÍA – INGENIERÍA EN ALIMENTOS – TECNICATURA EN ENOLOGÍA

UNIDAD 4 - CLASE 3
Contenido Unidad 4
Estimación puntual de parámetros. Condiciones de un buen estimador. Estimaciones puntuales.
Distribución de los estadísticos muestrales: media aritmética, variancia y proporciones.
Estimaciones por intervalos de confianza.
Teoría general de las pruebas de hipótesis. Tipos de errores. Pruebas relativas a la media, a la
variancia y a una proporción.
Distribución de la diferencia de medias y del cociente de varianzas.
Regresión.
Diferencia de medias
2 poblaciones con medias μ1 y μ2, y varianzas σ12 y σ22
Estimador puntual de la diferencia entre μ1 y μ2 es la diferencia de las medias muestrales
Se seleccionan dos muestras aleatorias independientes, una de cada población, de tamaños n1 y
n2, y se calcula 𝑋1 − 𝑋2

𝑋1 − 𝑋2 tiene una distribución aproximadamente normal


Media: μ1 - μ2

𝜎12 2
Varianza: ൗ𝑛1 + 𝜎2ൗ𝑛2
Intervalo de confianza
Ejercicio
Se llevo a cabo un experimento donde se compararon dos tipos de motores, el A y el B. Se midió
el rendimiento de combustible en millas por galón. Se realizaron 50 experimentos con el motor
tipo A y 75 con el motor tipo B.
La gasolina utilizada y las demás condiciones se mantuvieron constantes. El rendimiento
promedio de gasolina para el motor A fue de 36 millas por galón y el promedio para el motor B
fue de 42 millas por galón.
Calcular un intervalo de confianza del 96% sobre μB – μA, donde μA y μB corresponden a la
media de la poblacion del rendimiento de millas por galon para los motores A y B,
respectivamente. Suponga que las desviaciones estandar de la población son 6 y 8 para los
motores A y B, respectivamente.
Ejercicio
Relación entre variables
Hasta ahora, se ha tratado de inferir características poblacionales de una sola variable aleatoria.
A partir de ahora, se extenderá el análisis a inferir relaciones poblacionales entre dos o más
variables.
Igual que antes, usaremos información proveniente de una muestra aleatoria simple para inferir
las relaciones entre las variables.

Primero tenemos que hacer supuestos sobre qué tipo de relación hay entre las variables.
Empezamos con el caso más simple: suponemos que existe una relación lineal.
Modelo de Regresión lineal simple
Los modelos de regresión permiten estudiar la relación entre dos o más variables.
En su sentido más básico, la regresión ayuda a predecir el valor de una variable basado en
información de otras variables. El caso más sencillo es el de la regresión lineal simple, entre dos
variables
En una regresión, las variables se relacionan teóricamente mediante una ecuación que luego se
estima con datos

Variable dependiente, que tratamos de predecir. Generalmente la llamamos Y


Variable independiente (una o más), que conocemos. Las llamamos X
Repaso: ecuación de una recta
𝑌 = 𝑎 + 𝑏𝑋

Adonde
Y: variable dependiente
a: ordenada al origen
b: pendiente. Cuanto cambia Y cuando cambia X
X variable independiente
Relación entre Y y X en la población
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
𝑌𝑖 : 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒
𝑋𝑖 : 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒
𝛽0 : 𝑜𝑟𝑑𝑒𝑛𝑎𝑑𝑎 𝑎𝑙 𝑜𝑟𝑖𝑔𝑒𝑛 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑌 𝑐𝑢𝑎𝑛𝑑𝑜 𝑋 𝑒𝑠 0 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
𝛽1 : 𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
𝜀𝑖 : 𝑒𝑟𝑟𝑜𝑟 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜 𝑒𝑛 𝑌 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 𝑖
Supuestos
Linearidad en los parámetros
Independencia de los errores
Normalidad en el error
Homoscedasticidad (igual varianza) en los errores
Inferencia basada en una muestra
Para inferir los valores de los parámetros de la ecuación poblacional, tenemos que elegir un
estimador para usar con los datos de una muestra.
Dada una línea de predicción
෢0 + 𝛽
𝑌෠𝑖 = 𝛽 ෢1 𝑋𝑖
Donde
෠ valor predicho de Y
𝑌:
෢0 : intersecto según la muestra  se estima
𝛽
෢1 : pendiente según la muestra  se estima
𝛽
Método de mínimos cuadrados
ordinarios
El método de mínimos cuadrados ordinarios propone elegir el estimador de forma tal de
minimizar el cuadrado de la suma de las diferencias entre los valores reales y los valores
predichos.
Min σ(𝑌𝑖 − 𝑌෠𝑖 )2
෢0 + 𝛽
Recordando que 𝑌෠𝑖 = 𝛽 ෢1 𝑋𝑖
෢0 + 𝛽
Min σ(𝑌𝑖 − [𝛽 ෢1 𝑋𝑖 ])2

Los dos valores a encontrar son ෢


𝛽0 𝑦 ෢
𝛽1
Estimadores
Ejemplo en Excel: Pobreza y Fertilidad
Ejemplo: regresión
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.7303
R Square 0.5333
Adjusted R Square 0.5238
Standard Error 5.5506
Observations 51.0000

ANOVA
df SS MS F Significance F
Regression 1 1,725.26 1,725.26 56.00 0.00
Residual 49 1,509.63 30.81
Total 50 3,234.89

Coefficie Upper Lower Upper


nts Standard Error t Stat P-value Lower 95% 95% 95.0% 95.0%
Intercept 4.2673 2.5297 1.6868 0.0980 (0.8164) 9.3510 (0.8164) 9.3510
X Variable 1 1.3733 0.1835 7.4832 0.0000 1.0045 1.7421 1.0045 1.7421
R2 -- Coeficiente de determinación
El coeficiente de determinación resume cuánto de la variación observada de la variable
dependiente alrededor de su media es explicada por la variación en la variable independiente.

Se define:
𝑆𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑆𝑆𝑅
R2= =
𝑆𝑢𝑚𝑎 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑆𝑆𝑇

SSR: Variación explicada de y


SST: Variación total de y
Medidas de variación
𝑆𝑆𝑇 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸

σ(𝑌𝑖 − 𝑌ത𝑖 )2 = σ(𝑌෠𝑖 − 𝑌ത𝑖 )2 + σ(𝑌𝑖 − 𝑌෠𝑖 )2


Salida de regresión en Excel
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.7303
R Square 0.5333
Adjusted R Square 0.5238
Standard Error 5.5506
Observations 51.0000

ANOVA
df SS MS F Significance F
Regression 1 1,725.26 1,725.26 56.00 0.00
Residual 49 1,509.63 30.81
Total 50 3,234.89

Coefficie Upper Lower Upper


nts Standard Error t Stat P-value Lower 95% 95% 95.0% 95.0%
Intercept 4.2673 2.5297 1.6868 0.0980 (0.8164) 9.3510 (0.8164) 9.3510
X Variable 1 1.3733 0.1835 7.4832 0.0000 1.0045 1.7421 1.0045 1.7421
Error estándar de la
regresión/estimación
Medida de dispersión de los valores observados respecto de la línea de regresión, o sea cuán
preciso es el pronóstico

𝑆𝑆𝐸 ෢2
σ(𝑦−𝑦)
S= =
𝑛−2 𝑛−2
Salida de regresión en EXcel
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.7303
R Square 0.5333
Adjusted R Square 0.5238
Standard Error 5.5506
Observations 51.0000

ANOVA
df SS MS F Significance F
Regression 1 1,725.26 1,725.26 56.00 0.00
Residual 49 1,509.63 30.81
Total 50 3,234.89

Coefficie Upper Lower Upper


nts Standard Error t Stat P-value Lower 95% 95% 95.0% 95.0%
Intercept 4.2673 2.5297 1.6868 0.0980 (0.8164) 9.3510 (0.8164) 9.3510
X Variable 1 1.3733 0.1835 7.4832 0.0000 1.0045 1.7421 1.0045 1.7421

Você também pode gostar