Escolar Documentos
Profissional Documentos
Cultura Documentos
2 El anlisis de regresin tiene por objetivo estimar el valor promedio de una variable, variable dependiente, con base en los valores de una o ms variables adicionales, variables explicativas. En este tipo de anlisis, la variable dependiente es estocstica mientras que las variables explicativas son no estocsticas en su mayor parte1. El anlisis de regresin ha cobrado popularidad debido al gran nmero de paquetes estadsticos que lo incluyen y por ser un proceso robusto que se adapta a un sinfn de aplicaciones cientficas y ejecutivas que permite la toma de decisiones (Linne et al. 2000, p. 47, tr.). En este trabajo, el mejor ajuste de los modelos estar determinado por el anlisis de regresin lineal.
1.1 Modelo de regresin Considrese la siguiente relacin para explicar el comportamiento de una variable dependiente (Y) en funcin de n variables dependientes ( X 1 , X 2 ,K, X n ) .
Y = f ( X 1 , X 2 ,K, X n ) (1.1.1) donde f ( ) es una forma funcional implcita. En el caso en el cual esta forma funcional no pueda estimarse, f ( ) puede aproximarse mediante:
Y = i +1 X i +
i =1
(1.1.2)
En el tratamiento avanzado se puede liberar el supuesto de que las variables explicativas no son estocsticas (Gujarati,1990).
3 para i = 1,2, K , n donde las son parmetros de la funcin y es el error debido a la aproximacin lineal de (1.1.1). En la realidad, la ecuacin (1.1.2) no se cumple estrictamente pues existe tambin una variacin en la variable dependiente debido a que hay errores de medicin. A esta variacin inexplicable se le denomina ruido blanco y se denota como . Por otro lado, no todas las variables independientes son medibles o se puede tener acceso a la informacin por lo que slo algunas de ellas se utilizarn finalmente en el modelo. Supngase se tiene una muestra de m observaciones, j = 1,2, K, m e informacin
sobre k variables independientes que determinan en parte el comportamiento de Y. La ecuacin (1.1.2) puede rescribirse como:
Y j = i +1 X ij + j + j + j
i =1
(1.1.3)
donde es el efecto de las n - k variables (k < n) que no fueron incluidas en el modelo. Sean t = + t y t = + z t donde y z son las desviaciones con respecto a las medias de y respectivamente, entonces:
Y j = 1 + 2 X 1 j + 3 X 2 j + K + k +1 X kj + j
(1.1.4) donde
1 = + y j = z j + j + j .
4 La ecuacin (1.1.4) se conoce como la ecuacin de regresin lineal mltiple, donde las son los coeficientes de la regresin que necesitan estimarse y las X las variables independientes.
manteniendo todo lo dems constante. Sin embargo, los valores reales de estos coeficientes son desconocidos y habr que estimarlos mediante algn mtodo.
A diferencia de los otros coeficientes de la ecuacin de regresin, 1 no mide cambios, sino que corresponde al efecto medio en la variable dependiente Y que ocasionan tanto las variables que fueron excluidas en la ecuacin como la aproximacin lineal. A diferencia de un modelo matemtico donde el trmino constante representa el intercepto con la ordenada, en un modelo economtrico, la interpretacin de la constante de regresin, como ya se vio, es distinta. Slo en algunas ocasiones, como en el caso de las funciones de costo donde existen costos fijos, esta constante s puede interpretarse como el intercepto.
Hasta ahora se ha hecho referencia a la interpretacin de los coeficientes pero no se ha hablado sobre el problema de la estimacin. El objetivo del anlisis de regresin ser
5 buscar la mejor estimacin de los parmetros para construir una aproximacin cercana al Y real. Supngase que mediante algn procedimiento se obtuvieron las estimaciones de las , ( ). El residual e j se definir como la diferencia entre el valor observado de Y j y la
prediccin Y j con base en los valores estimados de las .
e j = Y j 1 2 X 1 j K k +1 X kj
(1.1.5) donde Y j = 1 + 2 X 1 j + 3 X 2 j + K + k +1 X kj + j es la ecuacin de regresin mltiple. Debido a que el residual e j es una estimacin de j , stos deben cumplir con las mismas propiedades de los errores j : 1: E j X ij = 0 .
2: E i j = 0 . (no hay autocorrelacin entre los errores)
Ya que diferentes valores de originarn residuales e j distintos, se buscar el conjunto de que produzcan residuales con las caractersticas anteriormente descritas, es decir:
ej = 0;
j =1
X
j =1
ij
e j = 0 i, i = 1,2,K , k .
6 Cuando la ecuacin de regresin incluye el trmino 1 , el problema se reduce a minimizar la suma de cuadrados de los residuales, i.e. e j , y a este procedimiento se le
2 j =1 m
conoce como Mnimos Cuadrados Ordinarios (MCO). La estimacin de las utilizando MCO lleva consigo la restriccin de que para obtener una solucin no trivial el nmero de observaciones debe ser mayor al nmero de parmetros a estimar. La diferencia entre el nmero de observaciones y el nmero de parmetros a ser estimados se le denomina grados de libertad.
Una vez que se obtuvieron las estimaciones de los parmetros en una regresin lineal, se hace uso de estadsticas para juzgar la bondad del modelo, la utilidad de las estimaciones y la precisin de las mismas. Lo que a continuacin se presenta son las herramientas bsicas para el anlisis de regresin.
Si todas las observaciones coincidieran con la ecuacin de regresin, se tendra un ajuste perfecto; sin embargo, rara vez sucede esto. Generalmente habr ei positivos y negativos por lo que se requiere de una medida que establezca qu tan bien la ecuacin de regresin representa a los datos. El coeficiente de determinacin R2 es una medida de bondad de ajuste y se define de la siguiente manera:
R2 =
(Y
j =1 m
Y )2 0 R2 1. Y )2 (1.2.1)
(Y
j =1
Donde el numerador corresponde a la suma de cuadrados debido a la regresin (SCE) y el denominador a la suma de cuadrados total (SCT). A medida que la SCE explique en gran parte la variacin de Y j , R 2 se acercar a uno. A pesar de que este coeficiente es una medida de bondad de ajuste no debe abusarse de l, pues R 2 puede aumentar agregando al modelo variables explicativas adicionales aunque no sean significativas.
Dado que los estimadores de mnimos cuadrados estn en funcin de la informacin muestral, es necesario encontrar la precisin de las . La manera convencional de medir la precisin de un estimador es por medio de su varianza. Entre ms pequea sea la varianza de un estimador mayor es su precisin, esto significa que los estimadores sern poco sensibles a los errores que pudieran existir en la muestra de la variable dependiente Y. En forma terica la varianza de i para una muestra de m observaciones y k variables independientes estar dada por la varianza de los errores divida por el elemento i-simo de la diagonal de la siguiente matriz donde xij = X ij X i .
8
m 2 x1 j mj =1 x x 2 2 j 1 j j =1 m M x x kj 1 j j =1
2
m
x
j =1 m j =1
1j
x2 j
2
x
M
2j
x
j =1
kj
x2 j
L x1 j x kj j =1 m L x 2 j x kj j =1 M m 2 L x kj j =1
m
=
2
e
j =1
m k 1
(1.2.2) donde m k 1 son los grados de libertad. Al sustituir (1.2.2) en la matriz anterior se obtiene una estimacin de la varianza de i . El error estndar de i se definir como la raz cuadrada de la estimacin de la varianza de i .
No basta con saber qu tan bien se ajusta la lnea de regresin a los datos ni con conocer los errores estndar de los parmetros estimados, es tambin muy importante conocer si la variable dependiente Y est realmente relacionada con la(s) X. Para ello se hace uso de pruebas de hiptesis donde se evala si los coeficientes relacionados a cada X son distintos de cero.
9
1.2.3.1 Modelo en dos variables
En el modelo de regresin lineal en dos variables se evala la siguiente hiptesis nula para saber si la variable X es o no significativa para la prediccin de Y: H0 : 2 = 0 para un nivel de significacin de vs Ha : 2 0. La estadstica de prueba es: tc = 2 0 .
x
j =1
2 j
(1.2.3) (1.2.3) se compara con una t ( m 2) donde m es el nmero total de observaciones. Se rechaza H0 si valor P < 2. En caso de rechazar H0 se concluye que hay evidencia suficiente para afirmar que X est relacionada con Y a un nivel de significacin de . Si se tienen expectativas previas del signo del coeficiente se establece la hiptesis alternativa como Ha : 2 < 2 P < 3 .
*
Se evala la siguiente hiptesis nula para saber si las variables independientes son significativas: H0 : 2 = 3 K = k +1 = 0 para un nivel de significacin de vs Ha : al menos alguna es distinta de cero.
2 3
Valor P = 2 P t ( m 2 ) t c . Valor P = P t( m 2 ) tc
] Valor P = P[t
( m 2)
F=
CME CMR
(1.2.4) donde CME es el cuadrado medio debido a la regresin y CMR es el cuadrado medio residual4. El resultado se compara con una Fk ,m k 1 , (k son el nmero de variables
independientes y m el nmero de observaciones) con un nivel de significacin de para poder decidir si se rechaza o no la hiptesis nula H0 : 2 = 3 K = k +1 = 0 . En el caso de la regresin mltiple no basta con probar que todos los coeficientes son significativamente distintos de cero, es necesario saber si agregar una variable al modelo una vez que existen otras incluidas no mejora significativamente la prediccin de la variable dependiente. Para este caso se realizan pruebas parciales F. Para probar H0 : agregar X* al modelo que ya tiene X 1 , X 2 , K , X p variables independientes no mejora significativamente la prediccin de la variable dependiente con un nivel de significacin , la estadstica de prueba es:
Fc ( X * , X 1 , X 2 , K , X p ) =
(1.2.5)
El cuadrado medio es igual a la suma de cuadrados dividida por los grados de libertad.
11 (1.2.4) se compara con una F(1, m p 2 ) donde m es el nmero total de observaciones. Se rechaza H0 si valor P < 5 y se concluye que agregar X* al modelo que ya tiene
X 1 , X 2 , K , X p variables independientes contribuye significativamente a la prediccin de la
variable dependiente6.
5 6
Valor P = 2 P
[F
( m p 2)
Fc .
La informacin de este captulo se obtuvo de las publicaciones de Rao, M y Miller, R (1971) y Gujarati, D (1990).
12
ANEXOS
13
Anexo A Prueba d de Durbin-Watson
La prueba d de Durbin-Watson es la prueba ms conocida para detectar la autocorrelacin. El estadstico d de Durbin-Watson para m observaciones se define como:
d=
(e
j =2
e j 1 ) 2 .
2 j
e
j =1
(A.1) Los supuestos en los que se basa este estadstico son: 1. El modelo de regresin incluye el trmino 1 . 2. Las variables explicativas son no estocsticas. 3. Los trminos de error estocstico j se generan a travs de un esquema autorregresivo de primer orden, i.e. j = j 1 + u j ,
< 1.
4. El modelo de regresin no es autorregresivo, es decir no es del tipo Y j = 1 + 2Y j 1 + j . 5. No faltan observaciones en los datos.
Para rechazar o no la hiptesis nula de que no hay autocorrelacin de primer orden en las perturbaciones j se consideran los lmites inferior d L y superior d U , encontrados por Durbin y Watson, tales que si el valor d cae fuera de dichos lmites existe posible presencia de correlacin. La siguiente figura ilustra los criterios para el rechazo.
14 No rechazar Ho
dL
dS
4 dS
4 dL
Zona de indecisin Rechazar H0, evidencia de autocorrelacin positiva Rechazar H0, evidencia de autocorrelacin negativa
Si existe evidencia de autocorrelacin es necesario buscar medidas remediales ya que aunque los estimadores de los coeficientes de regresin siguen siendo lineales, insesgados y consistentes bajo la presencia de autocorrelacin, stos no son eficientes (es decir, no tienen varianza mnima). Por lo tanto si se utiliza la var( 2 ) la exactitud del estimador est inflada y al calcular t c = significacin estadstica de 2 . Para hacer las correcciones primero es necesario estimar (y esto se puede hacer mediante el procedimiento iterativo de Cochrane-Orcutt que se explicar ms adelante) para hacer las siguientes transformaciones: 2 var(B 2 ) se estar sobreestimando la
Y j = Y j Y j 1
*
(A.2) X j = X j X j 1
*
(A.3)
bien se ajustan los datos transformados al nuevo modelo. Una vez hecho esto, es posible definir el nuevo modelo el cual tendr la forma:
Yj =
1* * + 2 X j . 1
(A.4)
Este procedimiento es iterativo, por lo que si el nuevo modelo sigue presentando autocorrelacin, se hace una segunda regresin, una tercera y as sucesivamente hasta que los estimadores sucesivos de difieran en menos de 0.01.
16
Anexo B Procedimiento iterativo de Cochrane-Orcutt para estimar
Este procedimiento consiste en obtener a partir del estadstico d de Durbin-Watson. Se basa en la estimacin de los residuos e j para obtener informacin sobre el valor desconocido de . Considrese que los trminos de error estocstico j se generan a travs de un esquema autorregresivo de primer orden, i.e. j = j 1 + u j . Los pasos a seguir son: 1. Estimar el modelo original y obtener los residuos e j que son estimaciones de
j.
2. Con los residuos estimados correr la siguiente regresin: e j = e j 1 + v j para obtener y poder hacer la correccin al modelo original.
17
Anexo C Ejemplo de correccin de autocorrelacin: el caso de la zona MEDIA RESIDENCIAL de la divisin Occidente.
Se corri el modelo Recproco de la Edad para la zona MEDIA RESIDENCIAL. El tamao de la muestra fue de 19 viviendas y los resultados desplegados por el paquete estadstico SPSS fueron los siguientes:
Model Summary(b) Model 1 R R Square Adjusted R Square Std. Error of the Estimate DurbinWatson 1.044
.739(a)
.545
.519
7.8106848916992E-02
Segn las tablas del estadstico d de Durbin-Watson a un nivel de significacin de 0.05 se tiene que para una muestra de tamao 19 d L = 1.180 y d U = 1.401 .
d = 1.044 en este ejemplo, existe evidencia de autocorrelacin positiva.
Como
ANOVA(b) Model Regression 1 Residual Total Sum of Squares df Mean Square F Sig.
1 17 18
.124 6.101E-03
20.399 .000(a)
18
Coefficients(a) Unstandardized Coefficients Model (Constant) 1 Recproco de la edad B Std. Error Standardized Coefficients Beta t Sig.
.782 -2.313
.044 .512
Se aprecia que los coeficientes son significativos a un nivel de significacin de 0.05 pero es necesario corregir la autocorrelacin pues se desean estimadores con varianza mnima. Por ello, se realiz el procedimiento iterativo de Cochrane-Orcutt y se estim utilizando los residuos del modelo original para correr la siguiente regresin:
e j = e j 1 + v j . (C.1)
Coefficients(a,b) Unstandardized Coefficients Model residual anterior MEDIA RESIDENCIAL B Std. Error Standardized Coefficients Beta t Sig.
.431
.329
a Dependent Variable: residual MEDIA RESIDENCIAL b Linear Regression through the Origin
19 Con base en los resultados desplegados por SPSS se obtuvo que = 0.431 . Una vez conocida esta estimacin fue posible calcular las transformaciones:
D j = D j D j 1
*
y correr la regresin D j = 1 + 2
* *
Model Summary(b) Model 1 R R Square Adjusted R Square Std. Error of the Estimate DurbinWatson
.427(a)
.182
.131
7.531140592192E-02
1.381
ANOVA(b) Model Regression 1 Residual Total Sum of Squares df Mean Square F Sig.
2.024E-02
9.075E-02 16 .111 17
20
Coefficients(a) Unstandardized Coefficients Model (Constant) 1 Recproco de la edad* B Std. Error Standardized Coefficients Beta t Sig.
.440
-2.406
8.358 -1.889
.000
.077
El nmero de observaciones se redujo a 18 por lo tanto d L = 1.158 y d U = 1.391 . Como la d de Durbin-Watson result ser 1.381, este valor cae en la zona de indecisin, pero est muy cercano a la zona en donde se rechaza la presencia de autocorrelacin. Por otro lado, la estimacin de 2 no cumple exactamente con la condicin de significacin
*
establecida como 0.05, pero la diferencia no es muy grande y en trminos reales lo que estara pasando es que se tiene una probabilidad mayor de considerar 2 significativa cuando en realidad no lo sea. Finalmente con estos resultados se obtuvo un nuevo modelo para la zona MEDIA
RESIDENCIAL de la forma: D j =
*
como
2 * = 2.406 , i.e.:
2.406 Dj = + 0.773 . Xj
(C.3)
21
Anexo D Deteccin de la heterovarianza
si presentan algn patrn, pero para el caso del modelo de dos variables se pueden graficar los residuales al cuadrado contra la variable independiente X. A continuacin se muestran algunos de los patrones que pudieran detectarse.
e2
e2
e2
(a)
(b)
(c)
e2
e2
(d)
(e)
22 En el diagrama (a) se advierte que no existe un patrn sistemtico entre las variables lo que sugiere la inexistencia de heterocedasticidad; en cambio, en los otros diagramas s hay patrones definidos. Por ejemplo, el diagrama (c) sugiere una relacin lineal y el (e) una relacin cuadrtica entre las variables.
23
Anexo E Prueba de Park
propuesta es:
j2 = 2 X je .
vj
(E.2) Dado que por lo general j es desconocida, se propone usar e j como una aproximacin y
2 2
ln(e j ) = + ln( X j ) + v j .
2
(E.3) Se prueba la hiptesis nula H0 : = 0 . Si se rechaza H0, 0 y entonces puede ser que exista heterovarianza. Una vez que se detect la presencia de heterovarianza es necesario corregirla ya que
de no detectarla y corregirla, la var( 2 ) =
x
j =1
bajo el supuesto de varianzas iguales, es un estimador sesgado de la verdadera var( 2 ) . Esto implica que dependiendo de la naturaleza de la relacin entre la varianza y los valores
24 que toma la variable independiente, en promedio se estar sobreestimando o subestimando la verdadera varianza de 2 . Para remediarla, se construye un nuevo modelo con base en la siguiente transformacin:
Yj Xj
/2
1
Xj
/2
+ 2 X j
(1 / 2 )
j
Xj
/2
(E.4) donde es un nmero que simboliza la relacin entre los residuales al cuadrado y X. Por ejemplo, si la relacin que sugiere el diagrama de dispersin es cuadrtica una buena suposicin del valor de es 2. No obstante, pudiera ser que = 2 no corrigiera el modelo entonces para ese caso deben probarse otros valores cercanos a dos. Si la relacin sugerida es lineal, entonces = 1 pudiera corregir la heterovarianza. Una vez que se construy el nuevo modelo, se corre una regresin sobre ste y se vuelve a realizar al Prueba de Park.