Você está na página 1de 24

1 INTRODUCCION AL ANLISIS DE REGRESIN LINEAL

Larissa Welti Santos Cholula, Mxico. 2002

2 El anlisis de regresin tiene por objetivo estimar el valor promedio de una variable, variable dependiente, con base en los valores de una o ms variables adicionales, variables explicativas. En este tipo de anlisis, la variable dependiente es estocstica mientras que las variables explicativas son no estocsticas en su mayor parte1. El anlisis de regresin ha cobrado popularidad debido al gran nmero de paquetes estadsticos que lo incluyen y por ser un proceso robusto que se adapta a un sinfn de aplicaciones cientficas y ejecutivas que permite la toma de decisiones (Linne et al. 2000, p. 47, tr.). En este trabajo, el mejor ajuste de los modelos estar determinado por el anlisis de regresin lineal.

1.1 Modelo de regresin Considrese la siguiente relacin para explicar el comportamiento de una variable dependiente (Y) en funcin de n variables dependientes ( X 1 , X 2 ,K, X n ) .

Y = f ( X 1 , X 2 ,K, X n ) (1.1.1) donde f ( ) es una forma funcional implcita. En el caso en el cual esta forma funcional no pueda estimarse, f ( ) puede aproximarse mediante:

Y = i +1 X i +
i =1

(1.1.2)

En el tratamiento avanzado se puede liberar el supuesto de que las variables explicativas no son estocsticas (Gujarati,1990).

3 para i = 1,2, K , n donde las son parmetros de la funcin y es el error debido a la aproximacin lineal de (1.1.1). En la realidad, la ecuacin (1.1.2) no se cumple estrictamente pues existe tambin una variacin en la variable dependiente debido a que hay errores de medicin. A esta variacin inexplicable se le denomina ruido blanco y se denota como . Por otro lado, no todas las variables independientes son medibles o se puede tener acceso a la informacin por lo que slo algunas de ellas se utilizarn finalmente en el modelo. Supngase se tiene una muestra de m observaciones, j = 1,2, K, m e informacin

sobre k variables independientes que determinan en parte el comportamiento de Y. La ecuacin (1.1.2) puede rescribirse como:

Y j = i +1 X ij + j + j + j
i =1

(1.1.3)

donde es el efecto de las n - k variables (k < n) que no fueron incluidas en el modelo. Sean t = + t y t = + z t donde y z son las desviaciones con respecto a las medias de y respectivamente, entonces:
Y j = 1 + 2 X 1 j + 3 X 2 j + K + k +1 X kj + j

(1.1.4) donde

1 = + y j = z j + j + j .

4 La ecuacin (1.1.4) se conoce como la ecuacin de regresin lineal mltiple, donde las son los coeficientes de la regresin que necesitan estimarse y las X las variables independientes.

1.1.1 Coeficientes de regresin

La ecuacin (1.1.4) tiene k parmetros asociados a las variables independientes X.

2 , 3 , K, k +1 se interpretan como las derivadas parciales de Y con respecto a las X i.e.


Y / X i = i .

i dice qu tanto cambiar Y si ocurre un cambio unitario en X i

manteniendo todo lo dems constante. Sin embargo, los valores reales de estos coeficientes son desconocidos y habr que estimarlos mediante algn mtodo.

1.1.2 Constante de regresin

A diferencia de los otros coeficientes de la ecuacin de regresin, 1 no mide cambios, sino que corresponde al efecto medio en la variable dependiente Y que ocasionan tanto las variables que fueron excluidas en la ecuacin como la aproximacin lineal. A diferencia de un modelo matemtico donde el trmino constante representa el intercepto con la ordenada, en un modelo economtrico, la interpretacin de la constante de regresin, como ya se vio, es distinta. Slo en algunas ocasiones, como en el caso de las funciones de costo donde existen costos fijos, esta constante s puede interpretarse como el intercepto.

1.1.3 Estimacin de los coeficientes

Hasta ahora se ha hecho referencia a la interpretacin de los coeficientes pero no se ha hablado sobre el problema de la estimacin. El objetivo del anlisis de regresin ser

5 buscar la mejor estimacin de los parmetros para construir una aproximacin cercana al Y real. Supngase que mediante algn procedimiento se obtuvieron las estimaciones de las , ( ). El residual e j se definir como la diferencia entre el valor observado de Y j y la
prediccin Y j con base en los valores estimados de las .

e j = Y j 1 2 X 1 j K k +1 X kj

(1.1.5) donde Y j = 1 + 2 X 1 j + 3 X 2 j + K + k +1 X kj + j es la ecuacin de regresin mltiple. Debido a que el residual e j es una estimacin de j , stos deben cumplir con las mismas propiedades de los errores j : 1: E j X ij = 0 .
2: E i j = 0 . (no hay autocorrelacin entre los errores)

3: Var j X ij = 2 . (homocedasticidad) 4: Cov j , X ij = 0 .

Ya que diferentes valores de originarn residuales e j distintos, se buscar el conjunto de que produzcan residuales con las caractersticas anteriormente descritas, es decir:

ej = 0;
j =1

X
j =1

ij

e j = 0 i, i = 1,2,K , k .

6 Cuando la ecuacin de regresin incluye el trmino 1 , el problema se reduce a minimizar la suma de cuadrados de los residuales, i.e. e j , y a este procedimiento se le
2 j =1 m

conoce como Mnimos Cuadrados Ordinarios (MCO). La estimacin de las utilizando MCO lleva consigo la restriccin de que para obtener una solucin no trivial el nmero de observaciones debe ser mayor al nmero de parmetros a estimar. La diferencia entre el nmero de observaciones y el nmero de parmetros a ser estimados se le denomina grados de libertad.

1.2 Estadsticas y pruebas de hiptesis

Una vez que se obtuvieron las estimaciones de los parmetros en una regresin lineal, se hace uso de estadsticas para juzgar la bondad del modelo, la utilidad de las estimaciones y la precisin de las mismas. Lo que a continuacin se presenta son las herramientas bsicas para el anlisis de regresin.

1.2.1 Coeficiente de determinacin

Si todas las observaciones coincidieran con la ecuacin de regresin, se tendra un ajuste perfecto; sin embargo, rara vez sucede esto. Generalmente habr ei positivos y negativos por lo que se requiere de una medida que establezca qu tan bien la ecuacin de regresin representa a los datos. El coeficiente de determinacin R2 es una medida de bondad de ajuste y se define de la siguiente manera:

R2 =

(Y
j =1 m

Y )2 0 R2 1. Y )2 (1.2.1)

(Y
j =1

Donde el numerador corresponde a la suma de cuadrados debido a la regresin (SCE) y el denominador a la suma de cuadrados total (SCT). A medida que la SCE explique en gran parte la variacin de Y j , R 2 se acercar a uno. A pesar de que este coeficiente es una medida de bondad de ajuste no debe abusarse de l, pues R 2 puede aumentar agregando al modelo variables explicativas adicionales aunque no sean significativas.

1.2.2 Errores estndar

Dado que los estimadores de mnimos cuadrados estn en funcin de la informacin muestral, es necesario encontrar la precisin de las . La manera convencional de medir la precisin de un estimador es por medio de su varianza. Entre ms pequea sea la varianza de un estimador mayor es su precisin, esto significa que los estimadores sern poco sensibles a los errores que pudieran existir en la muestra de la variable dependiente Y. En forma terica la varianza de i para una muestra de m observaciones y k variables independientes estar dada por la varianza de los errores divida por el elemento i-simo de la diagonal de la siguiente matriz donde xij = X ij X i .

8
m 2 x1 j mj =1 x x 2 2 j 1 j j =1 m M x x kj 1 j j =1
2
m

x
j =1 m j =1

1j

x2 j
2

x
M

2j

x
j =1

kj

x2 j

L x1 j x kj j =1 m L x 2 j x kj j =1 M m 2 L x kj j =1
m

Sin embargo, es desconocida por lo que se estima mediante:

=
2

e
j =1

m k 1

(1.2.2) donde m k 1 son los grados de libertad. Al sustituir (1.2.2) en la matriz anterior se obtiene una estimacin de la varianza de i . El error estndar de i se definir como la raz cuadrada de la estimacin de la varianza de i .

1.2.3 Significacin de los coeficientes de regresin

No basta con saber qu tan bien se ajusta la lnea de regresin a los datos ni con conocer los errores estndar de los parmetros estimados, es tambin muy importante conocer si la variable dependiente Y est realmente relacionada con la(s) X. Para ello se hace uso de pruebas de hiptesis donde se evala si los coeficientes relacionados a cada X son distintos de cero.

9
1.2.3.1 Modelo en dos variables

En el modelo de regresin lineal en dos variables se evala la siguiente hiptesis nula para saber si la variable X es o no significativa para la prediccin de Y: H0 : 2 = 0 para un nivel de significacin de vs Ha : 2 0. La estadstica de prueba es: tc = 2 0 .

x
j =1

2 j

(1.2.3) (1.2.3) se compara con una t ( m 2) donde m es el nmero total de observaciones. Se rechaza H0 si valor P < 2. En caso de rechazar H0 se concluye que hay evidencia suficiente para afirmar que X est relacionada con Y a un nivel de significacin de . Si se tienen expectativas previas del signo del coeficiente se establece la hiptesis alternativa como Ha : 2 < 2 P < 3 .
*

Ha : 2 > 2 . En estos casos, se rechaza H0 si valor


*

1.2.3.2 Modelo con k variables

Se evala la siguiente hiptesis nula para saber si las variables independientes son significativas: H0 : 2 = 3 K = k +1 = 0 para un nivel de significacin de vs Ha : al menos alguna es distinta de cero.
2 3

Valor P = 2 P t ( m 2 ) t c . Valor P = P t( m 2 ) tc

] Valor P = P[t

( m 2)

tc segn la hiptesis alternativa planteada.

10 La estadstica de prueba es:

F=

CME CMR

(1.2.4) donde CME es el cuadrado medio debido a la regresin y CMR es el cuadrado medio residual4. El resultado se compara con una Fk ,m k 1 , (k son el nmero de variables

independientes y m el nmero de observaciones) con un nivel de significacin de para poder decidir si se rechaza o no la hiptesis nula H0 : 2 = 3 K = k +1 = 0 . En el caso de la regresin mltiple no basta con probar que todos los coeficientes son significativamente distintos de cero, es necesario saber si agregar una variable al modelo una vez que existen otras incluidas no mejora significativamente la prediccin de la variable dependiente. Para este caso se realizan pruebas parciales F. Para probar H0 : agregar X* al modelo que ya tiene X 1 , X 2 , K , X p variables independientes no mejora significativamente la prediccin de la variable dependiente con un nivel de significacin , la estadstica de prueba es:

Fc ( X * , X 1 , X 2 , K , X p ) =

SCE ( X * , X 1 , X 2 , K , X p ) SCE ( X 1 , X 2 , K , X p ) CMR ( X * , X 1 , X 2 , K , X p )

(1.2.5)

El cuadrado medio es igual a la suma de cuadrados dividida por los grados de libertad.

11 (1.2.4) se compara con una F(1, m p 2 ) donde m es el nmero total de observaciones. Se rechaza H0 si valor P < 5 y se concluye que agregar X* al modelo que ya tiene
X 1 , X 2 , K , X p variables independientes contribuye significativamente a la prediccin de la

variable dependiente6.

5 6

Valor P = 2 P

[F

( m p 2)

Fc .

La informacin de este captulo se obtuvo de las publicaciones de Rao, M y Miller, R (1971) y Gujarati, D (1990).

12

ANEXOS

13
Anexo A Prueba d de Durbin-Watson

La prueba d de Durbin-Watson es la prueba ms conocida para detectar la autocorrelacin. El estadstico d de Durbin-Watson para m observaciones se define como:

d=

(e
j =2

e j 1 ) 2 .
2 j

e
j =1

(A.1) Los supuestos en los que se basa este estadstico son: 1. El modelo de regresin incluye el trmino 1 . 2. Las variables explicativas son no estocsticas. 3. Los trminos de error estocstico j se generan a travs de un esquema autorregresivo de primer orden, i.e. j = j 1 + u j ,

< 1.

4. El modelo de regresin no es autorregresivo, es decir no es del tipo Y j = 1 + 2Y j 1 + j . 5. No faltan observaciones en los datos.

Para rechazar o no la hiptesis nula de que no hay autocorrelacin de primer orden en las perturbaciones j se consideran los lmites inferior d L y superior d U , encontrados por Durbin y Watson, tales que si el valor d cae fuera de dichos lmites existe posible presencia de correlacin. La siguiente figura ilustra los criterios para el rechazo.

14 No rechazar Ho

dL

dS

4 dS

4 dL

Zona de indecisin Rechazar H0, evidencia de autocorrelacin positiva Rechazar H0, evidencia de autocorrelacin negativa

Si existe evidencia de autocorrelacin es necesario buscar medidas remediales ya que aunque los estimadores de los coeficientes de regresin siguen siendo lineales, insesgados y consistentes bajo la presencia de autocorrelacin, stos no son eficientes (es decir, no tienen varianza mnima). Por lo tanto si se utiliza la var( 2 ) la exactitud del estimador est inflada y al calcular t c = significacin estadstica de 2 . Para hacer las correcciones primero es necesario estimar (y esto se puede hacer mediante el procedimiento iterativo de Cochrane-Orcutt que se explicar ms adelante) para hacer las siguientes transformaciones: 2 var(B 2 ) se estar sobreestimando la

Y j = Y j Y j 1
*

(A.2) X j = X j X j 1
*

(A.3)

15 y correr la regresin Y j = 1 + 2 X j (Y j = 1 + 2 X j es el modelo original). De esta


* * * *

forma se obtienen 1 y 2 , se prueba la significacin de 2 y se comprueba qu tan


* * *

bien se ajustan los datos transformados al nuevo modelo. Una vez hecho esto, es posible definir el nuevo modelo el cual tendr la forma:

Yj =

1* * + 2 X j . 1
(A.4)

Este procedimiento es iterativo, por lo que si el nuevo modelo sigue presentando autocorrelacin, se hace una segunda regresin, una tercera y as sucesivamente hasta que los estimadores sucesivos de difieran en menos de 0.01.

16
Anexo B Procedimiento iterativo de Cochrane-Orcutt para estimar

Este procedimiento consiste en obtener a partir del estadstico d de Durbin-Watson. Se basa en la estimacin de los residuos e j para obtener informacin sobre el valor desconocido de . Considrese que los trminos de error estocstico j se generan a travs de un esquema autorregresivo de primer orden, i.e. j = j 1 + u j . Los pasos a seguir son: 1. Estimar el modelo original y obtener los residuos e j que son estimaciones de

j.
2. Con los residuos estimados correr la siguiente regresin: e j = e j 1 + v j para obtener y poder hacer la correccin al modelo original.

17
Anexo C Ejemplo de correccin de autocorrelacin: el caso de la zona MEDIA RESIDENCIAL de la divisin Occidente.

Se corri el modelo Recproco de la Edad para la zona MEDIA RESIDENCIAL. El tamao de la muestra fue de 19 viviendas y los resultados desplegados por el paquete estadstico SPSS fueron los siguientes:

Model Summary(b) Model 1 R R Square Adjusted R Square Std. Error of the Estimate DurbinWatson 1.044

.739(a)

.545

.519

7.8106848916992E-02

a Predictors: (Constant), Recproco de la edad b Dependent Variable: MEDIA RESIDENCIAL

Segn las tablas del estadstico d de Durbin-Watson a un nivel de significacin de 0.05 se tiene que para una muestra de tamao 19 d L = 1.180 y d U = 1.401 .
d = 1.044 en este ejemplo, existe evidencia de autocorrelacin positiva.

Como

ANOVA(b) Model Regression 1 Residual Total Sum of Squares df Mean Square F Sig.

.124 .104 .228

1 17 18

.124 6.101E-03

20.399 .000(a)

a Predictors: (Constant), Recproco de la edad b Dependent Variable: MEDIA RESIDENCIAL

18
Coefficients(a) Unstandardized Coefficients Model (Constant) 1 Recproco de la edad B Std. Error Standardized Coefficients Beta t Sig.

.782 -2.313

.044 .512

17.748 .000 -.739 -4.516 .000

a Dependent Variable: MEDIA RESIDENCIAL

Se aprecia que los coeficientes son significativos a un nivel de significacin de 0.05 pero es necesario corregir la autocorrelacin pues se desean estimadores con varianza mnima. Por ello, se realiz el procedimiento iterativo de Cochrane-Orcutt y se estim utilizando los residuos del modelo original para correr la siguiente regresin:

e j = e j 1 + v j . (C.1)
Coefficients(a,b) Unstandardized Coefficients Model residual anterior MEDIA RESIDENCIAL B Std. Error Standardized Coefficients Beta t Sig.

.431

.329

.303 1.311 .207

a Dependent Variable: residual MEDIA RESIDENCIAL b Linear Regression through the Origin

19 Con base en los resultados desplegados por SPSS se obtuvo que = 0.431 . Una vez conocida esta estimacin fue posible calcular las transformaciones:

D j = D j D j 1
*

(C.2) 1 1 1 = * Xj X j 1 Xj (C.3) 1 . Los resultados fueron los siguientes: * Xj

y correr la regresin D j = 1 + 2
* *

Model Summary(b) Model 1 R R Square Adjusted R Square Std. Error of the Estimate DurbinWatson

.427(a)

.182

.131

7.531140592192E-02

1.381

a Predictors: (Constant), Recproco de la edad* b Dependent Variable: MEDIA RESIDENCIAL*

ANOVA(b) Model Regression 1 Residual Total Sum of Squares df Mean Square F Sig.

2.024E-02

2.024E-02 3.569 .077(a) 5.672E-03

9.075E-02 16 .111 17

a Predictors: (Constant), Recproco de la edad* b Dependent Variable: MEDIA RESIDENCIAL*

20
Coefficients(a) Unstandardized Coefficients Model (Constant) 1 Recproco de la edad* B Std. Error Standardized Coefficients Beta t Sig.

.440
-2.406

.053 1.274 -.427

8.358 -1.889

.000
.077

a Dependent Variable: MEDIA RESIDENCIAL*

El nmero de observaciones se redujo a 18 por lo tanto d L = 1.158 y d U = 1.391 . Como la d de Durbin-Watson result ser 1.381, este valor cae en la zona de indecisin, pero est muy cercano a la zona en donde se rechaza la presencia de autocorrelacin. Por otro lado, la estimacin de 2 no cumple exactamente con la condicin de significacin
*

establecida como 0.05, pero la diferencia no es muy grande y en trminos reales lo que estara pasando es que se tiene una probabilidad mayor de considerar 2 significativa cuando en realidad no lo sea. Finalmente con estos resultados se obtuvo un nuevo modelo para la zona MEDIA
RESIDENCIAL de la forma: D j =
*

como

1* * * 1 ; donde = 0.431 , 1 = 0.440 , + 2 Xj 1

2 * = 2.406 , i.e.:

2.406 Dj = + 0.773 . Xj

(C.3)

21
Anexo D Deteccin de la heterovarianza

Una manera simple para detectar la heterocedasticidad o heterovarianza cuando no existe


2 informacin a priori es obteniendo un diagrama de dispersin de e j contra Y j para ver

si presentan algn patrn, pero para el caso del modelo de dos variables se pueden graficar los residuales al cuadrado contra la variable independiente X. A continuacin se muestran algunos de los patrones que pudieran detectarse.

e2

e2

e2

(a)

(b)

(c)

e2

e2

(d)

(e)

22 En el diagrama (a) se advierte que no existe un patrn sistemtico entre las variables lo que sugiere la inexistencia de heterocedasticidad; en cambio, en los otros diagramas s hay patrones definidos. Por ejemplo, el diagrama (c) sugiere una relacin lineal y el (e) una relacin cuadrtica entre las variables.

23
Anexo E Prueba de Park

Park propone que j es una funcin de la variable independiente X j . La forma funcional


2

propuesta es:

j2 = 2 X je .
vj

(E.1) Si de (E.1) se obtiene el logaritmo natural se tiene:

ln( j ) = ln( 2 ) + ln( X j ) + v j .


2

(E.2) Dado que por lo general j es desconocida, se propone usar e j como una aproximacin y
2 2

se realice la siguiente regresin:

ln(e j ) = + ln( X j ) + v j .
2

(E.3) Se prueba la hiptesis nula H0 : = 0 . Si se rechaza H0, 0 y entonces puede ser que exista heterovarianza. Una vez que se detect la presencia de heterovarianza es necesario corregirla ya que
de no detectarla y corregirla, la var( 2 ) =

x
j =1

que es la varianza comn que se obtiene


2 j

bajo el supuesto de varianzas iguales, es un estimador sesgado de la verdadera var( 2 ) . Esto implica que dependiendo de la naturaleza de la relacin entre la varianza y los valores

24 que toma la variable independiente, en promedio se estar sobreestimando o subestimando la verdadera varianza de 2 . Para remediarla, se construye un nuevo modelo con base en la siguiente transformacin:
Yj Xj
/2

1
Xj
/2

+ 2 X j

(1 / 2 )

j
Xj
/2

(E.4) donde es un nmero que simboliza la relacin entre los residuales al cuadrado y X. Por ejemplo, si la relacin que sugiere el diagrama de dispersin es cuadrtica una buena suposicin del valor de es 2. No obstante, pudiera ser que = 2 no corrigiera el modelo entonces para ese caso deben probarse otros valores cercanos a dos. Si la relacin sugerida es lineal, entonces = 1 pudiera corregir la heterovarianza. Una vez que se construy el nuevo modelo, se corre una regresin sobre ste y se vuelve a realizar al Prueba de Park.

Você também pode gostar