Você está na página 1de 4

Análisis de regresión múltiple

Error estándar de estimación múltiple


El primero es el error estándar de estimación múltiple. Recuerde que el error estándar
de estimación es comparable con la desviación estándar.
En la desviación estándar se utilizan desviaciones elevadas al cuadrado de la media, (𝑌 −
𝑌̅), en tanto que en el error estándar de estimación se utilizan desviaciones elevadas al
cuadrado de la recta de regresión (𝑌 − 𝑌̂)
Este valor es el numerador del error estándar de estimación múltiple. El denominador son
los grados de libertad, es decir, n – (k + 1). La fórmula del error estándar es:

Aquí la variación total también se separa en dos componentes:


 La variación en la variable dependiente explicada por el modelo de regresión (las
variables independientes).
 El residuo o variación del error. Es el error aleatorio debido al muestreo.
Por cierto, algunas veces al termino error residual se le denomina error aleatorio o tan
solo error.
Coeficiente de determinación múltiple
El coeficiente de determinacion se define como el porcentaje de la variacion en la variable
dependiente explicada o contabilizada, por la variable independiente.

Las caracteristicas del coeficiente de determinacion multiple son:


1. Se representa por una letra R mayúscula al cuadrado. En otras palabras, se escribe como R2
debido a que se comporta como el cuadrado de un coeficiente de correlacion.
2. Puede variar de 0 a 1. Un valor cercano a 0 indica poca asociacion entre el conjunto de variables
independientes y la variable dependiente. Un valor cercano a 1 significa una asociacion fuerte.
3. No puede adoptar valores negativos. Ningun numero que se eleve al cuadrado o se eleve a la
segunda potencia puede ser negativo.
4. Es fácil de interpretar. Como R2 es un valor entre 0 y 1 es facil de interpretar, comparar
y comprender.
El coeficiente de determinacion se calcula a partir de la informacion determinada en la tabla ANOVA.
Coeficiente ajustado de determinación
El numero de variables independientes en una ecuacion de regresion multiple aumenta el
coeficiente de determinacion. Cada nueva variable independiente hace que las predicciones sean
mas precisas, lo que a su vez reduce SSE y aumenta SSR.

Inferencias en la regresión lineal múltiple


Hasta este punto, el analisis de regresion multiple se considero solo como una forma para describir
la relacion entre una variable dependiente y varias variables independientes. Sin embargo, el metodo
de minimos cuadrados tambien permite inferir o generalizar a partir de la relacion de una poblacion
completa.
En el escenario de la regresion multiple, se supone que hay una ecuacion desconocida de regresion
multiple de la poblacion que relaciona la variable dependiente con las k variables independientes.
Algunas veces a esto se le denomina modelo de la relacion. En simbolos se escribe:

Prueba global: prueba del modelo de regresión múltiple


Es posible demostrar la habilidad de las variables independientes X1, X2,…,Xk para
explicar el comportamiento de la variable dependiente Y
En la prueba se investiga si es posible que todas las variables independientes tengan coeficientes
de regresion cero.{

Para probar la hipotesis nula de que todos los coeficientes de regresion multiple son cero, se
emplea la distribucion F presentada en el capitulo 12. Use un nivel de significancia 0.05. Recuerde
estas caracteristicas de la distribucion F:
1. Existe una familia de distribuciones F. Cada vez que los grados de libertad en el numerador o en
el denominador cambian, se crea una nueva distribucion F.
2. La distribución F no puede ser negativa. El menor valor posible es 0.
3. Es una distribución continua. La distribucion puede tomar un numero infinito de valores entre 0 y
el infinito positivo.
4. Es sesgada de manera positiva. La cola larga de la distribucion se encuentra a la derecha.
Conforme el numero de grados de libertad aumenta tanto en el numerador como en el denominador,
la distribucion se aproxima a la distribucion de probabilidad normal. Es decir, la distribucion se
movera hacia una distribucion simetrica.
5. Es asintótica. Conforme aumentan los valores de X, la curva F se aproximara al eje horizontal,
pero nunca lo tocara.
El valor de F se determina a partir de la ecuacion siguiente.

Se pueden probar coeficientes de regresion individuales con la distribucion t. La formula es:

Dos de los metodos mas comunes son la regresión por pasos y la regresión del mejor
subconjunto. Consume mucho tiempo, pero es posible calcular cada una de las regresiones entre la
variable dependiente y cualquier subconjunto posible de variables independientes.

Evaluación de las suposiciones de la regresión múltiple


1. Existe una relación lineal. Es decir, existe una relacion directa entre la variable
dependiente y el conjunto de variables independientes.
Uso de los diagramas de puntos La evaluacion de una ecuacion de regresión multiple
siempre debera incluir un diagrama de dispersion en el que se trace la variable dependiente
contra cada variable independiente.
Uso de graficos de residuos las graficas de los residuos ayudan a evaluar la linealidad
de la ecuacion de regresion multiple.
Los residuos se trazan en el eje vertical y estan centrados respecto de cero. Hay residuos
positivos y negativos.
Los trazos de los residuos muestran una distribucion aleatoria de valores positivos y
negativos a lo largo de todo el rango de la variable trazada en el eje horizontal.
Los puntos estan dispersos y no hay un patron obvio, por lo que no hay razon para
dudar de la suposicion de linealidad.
2. La variación en los residuos es la misma tanto para valores grandes como pequeños de
Yˆ . En otras palabras, (Y – Yˆ ) no esta relacionada, ya sea que Yˆ sea grande o pequena.
indica que la variacion respecto de los valores anticipados es constante
El requisito para una variación constante respecto de la recta de regresion se denomina
homoscedasticidad.
homoscedasticidad.- La variacion respecto de la ecuacion de regresion es igual para todos
los valores de las variables independientes.

3. Los residuos siguen la distribución de probabilidad normal. Recuerde que el residuo es la


diferencia entre el valor actual de Y y el valor estimado Yˆ . Por tanto, el termino (Y – Yˆ ) se
calcula para cada observacion en el conjunto de datos. Estos residuos deberan seguir de
manera aproximada una distribucion de probabilidad normal. Ademas, la media de los
residuos debera ser 0.
Para evaluar esta suposicion, los residuos se organizan en una distribucion de frecuencias.
ayuda a evaluar la suposicion de residuos con una distribucion normal. Esta grafica se
denomina gráfica de probabilidad normal

Multicolinealidad
La multicolinealidad existe cuando las variables independientes estan correlacionadas.
Las variables independientes correlacionadas dificultan las inferencias acerca de los coeficientes de
regresion individuales y sus efectos individuales sobre la variable dependiente
Una variable independiente conocida como anticipador importante resulta con un coeficiente de
regresion que no es significativo.
2. Un coeficiente de regresion que debiera tener un signo positivo resulta negativo, o lo contrario.
3. Cuando se agrega o elimina una variable independiente, hay un cambio drastico en los valores de
los coeficientes de regresion restantes.
Una prueba mas precisa es utilizar el factor de inflación de la varianza, el cual por lo general se
escribe VIF. El valor de VIF se determina como sigue:

4. Las variables independientes no deberán estar correlacionadas. Es decir, conviene


seleccionar un conjunto de variables independientes que no esten correlacionadas entre si.
5. Los residuos son independientes. Esto significa que las observaciones sucesivas de la
variable dependiente no estan correlacionadas. Esta suposicion con frecuencia se viola
cuando se comprende el tiempo con las observaciones muestreadas.

Você também pode gostar