Morelia Michoacn a 26 de junio de 2014 Regresin mltiple El anlisis de Regresin Lineal Mltiple nos permite establecer una relacin que se produce entre una variable dependiente Y y un conjunto de variables independientes (x1, x2, xk).
Este anlisis a diferencia del simple, se aproxima ms a situaciones de anlisis real puesto que los fenmenos, hechos y procesos sociales, por definicin son complejos y, en consecuencia, deben ser explicados en la medida de lo posible por la seria de variables que, directa o indirectamente, participan en su concrecin.
Al aplicar el anlisis de regresin mltiple lo ms frecuente es que tanto la variable dependiente como las independientes sean variables continuas.
Se deben elegir cuidadosamente qu variables vamos a considerar como independientes. Algunos criterios que deben de cumplir sern los siguientes:
Tener sentido numrico.
No deber de haber variables repetidas o redundantes
Las variables introducidas en el modelo debern de tener una cierta justificacin terica.
La relacin entre variables explicativas en el modelo y casos debe de ser como mnimo de 1 a 10.
La relacin de las variables explicativas con la variable dependiente debe de ser lineal, es decir, proporcional. Ejemplo CARATERISTICAS FISICAS PESO DE UNA PERSONA Influyen En base a estos datos, vamos a construir un modelo para predecir el peso de una persona (Y). Esto equivale a estudiar la relacin existente entre este conjunto de variables y la variable peso (Y). El modelo de regresin lineal mltiple es idntico al modelo de regresin lineal simple, con la nica diferencia de que aparecen ms variables explicativas:
Modelo que se desea construir Al igual que en regresin lineal simple, los coeficientes b van a indicar el incremento en el peso por el incremento unitario de la correspondiente variable explicativa. Por lo tanto, estos coeficientes van a tener las correspondientes unidades de medida. Hiptesis Para realizar un anlisis de regresin lineal mltiple se hacen las siguientes consideraciones sobre los datos:
a) Linealidad: los valores de la variable dependiente estn generados por el siguiente modelo lineal:
b) Homocedasticidad: todas las perturbaciones tienen las misma varianza:
c) Independencia: las perturbaciones aleatorias son independientes entre s:
d) Normalidad: la distribucin de la perturbacin aleatoria tiene distribucin normal:
e) Las variables explicativas X se obtienen sin errores de medida.
Varianza residual
Al igual que en el caso de regresin lineal simple, se va a descomponer la variabilidad de la variable dependiente Y en dos componentes o fuentes de variabilidad. Consideramos la variabilidad de la variable dependiente como:
Es decir, la variabilidad de Y es la suma cuadrtica de los valores que toma la variable respecto a la media de la variable.
Sumando y restando el valor pronosticado por el modelo de regresin obtenemos la siguiente expresin:
Es decir, que la suma de cuadrados de la variable Y respecto a su media se puede descomponer en trminos de la varianza residual. De esta expresin se deduce que la distancia de Y a su media se descompone como la distancia de Y a su estimacin ms la distancia de su estimacin a la media.
Teniendo en cuenta que el ltimo trmino representa la varianza no explicada, tenemos:
Dividiendo la variabilidad total entre sus grados de libertad obtenemos la varianza de la variable dependiente Y :
Dividiendo la variabilidad no explicada entre sus grados de libertad obtenemos la varianza residual de la variable dependiente Y :
Contraste de regresin
Estamos sacando conclusiones de una muestra de un conjunto mucho ms amplio de datos, a veces este conjunto ser infinito, es obvio que distintas muestras van a dar distintos valores de los parmetros.
Un caso de especial inters es asignar una medida de probabilidad a la siguiente afirmacin o hiptesis:
La afirmacin contraria sera:
Se denomina contraste de regresin al estudio de la posibilidad de que el modelo de regresin sea nulo, es decir, los valores de las variables explicativas X no van a influir en la variable.
Construccin del contraste Si los residuos siguen una distribucin normal y tenemos que:
Por tanto:
Es decir, el cociente entre la varianza explicada y la varianza no explicada ser aproximadamente 1. Adems, al seguir una distribucin F, podemos asignar una medida de probabilidad (p-value) a la hiptesis de que la varianza explicada es igual a la varianza no explicada.
En caso contrario la varianza no explicada ser muy inferior a la varianza explicada y, por lo tanto, este cociente tendr un valor muy superior a 1.
Coeficiente de determinacin R 2
Vamos a construir un coeficiente (estadstico) que mida la bondad del ajuste del modelo. Si bien la varianza residual nos indica cmo estn de cerca las estimaciones respecto de los puntos, esta varianza est influida por la varianza de la variable dependiente, la cual, a su vez, est influida por su unidad de medida. Por lo tanto, una medida adecuada es la proporcin de la varianza explicada (VE) entre la varianza total (VT); de este modo, definimos el coeficiente de determinacin :
Por ser cociente de sumas de cuadrados, este coeficiente ser siempre positivo.
Si todos los puntos estn sobre la recta de regresin, la varianza no explicada ser 0, y por lo tanto:
Este coeficiente es muy importante pues determina qu porcentaje (en tantos por uno) de la varianza de la variable dependiente es explicado por el modelo de regresin.
Adems, a diferencia de la varianza residual, este coeficiente es adimensional; esto quiere decir que no est afectado por transformaciones lineales de las variables; por ello, si cambiamos las unidades de medida, el coeficiente de determinacin permanecer invariante.
Diagnosis y validacin de un modelo de regresin lineal mltiple
Multicolinealidad : Si las variables explicativas se pueden expresar como una combinacin lineal, se dice que tenemos un problema de multicolinealidad.:
En general, este problema va a afectar incrementando la varianza de los estimadores.
Anlisis de residuos : los residuos son variables aleatorias que siguen una distribucin normal. Los residuos tienen unidades de medida y, por tanto no se puede determinar si es grande o pequeo a simple vista.
Definimos como residuo del i-esimo caso a:
Para solventar este problema se define el residuo estandarizado como: