Você está na página 1de 33

SEMINARIO DE POSGRADO

ESTRATEGIAS Y DISEOS AVANZADOS


DE INVESTIGACIN SOCIAL
Titular: Agustn Salvia
ANLISIS DE MODELOS DE REGRESION
LINEAL (2 PARTE)

Modelos de Regresin Lineal


Problemas de Causalidad

El investigador suele tener razones


tericas o prcticas para creer que
determinada
variable
es
causalmente
dependiente de una o ms variables
distintas.

Si
hay
suficientes
observaciones
empricas sobre estas variables, el anlisis
de regresin es un mtodo apropiado para
describir la estructura, fuerza y sentido
exacto de esta asociacin.

Modelos de Regresin Lineal


Problemas de Causalidad
El modelo permite diferenciar variables
explicativas, independientes o predictivas
(mtricas),
variables
a
explicar
o
dependientes,
y
variables
control
o
intervinientes (mtricas o transformadas en
variables categoriales).
La distincin entre variables dependientes
e independientes debe efectuarse con
arreglo
a
fundamentos
tericos,
por
conocimiento o experiencia y estudios
anteriores.

Modelos de Regresin Lineal


Respuestas Metodolgicas
Estima la fuerza o bondad explicativa del
modelo terico independientemente de las
caractersticas de las variables introducidas
Predice el valor medio que puede asumir la
variable Y dado un valor de X (regresin a la
media) bajo un intervalo de confianza
Estima el efecto neto de cada una de las
variables intervinientes sobre la variable
dependiente (control sobre los dems efectos
suponiendo independencia entre las variables
predictivas).

Modelos de Regresin Lineal


Funcin Lineal de Regresin
El objetivo de la tcnica de regresin es establecer la
relacin estadstica que existe entre la variable
dependiente
(Y)
y
una
o
ms
variables
independientes (X1, X2, Xn). Para poder realizar esto,
se postula una relacin funcional entre las variables.
Debido a su simplicidad analtica, la forma que ms
se utiliza en la prctica es la relacin lineal:

= b0 + b1x1 + bnxn
donde los coeficientes b0y b1, bn, son los factores
que definen la variacin promedio de y, para cada
valor de x. Estimada esta funcin terica a partir de

GRFICOS DE DISPERSIN / PENDIENTE DE LA


RECTA
En el caso de asumir una recta, se admite que
existe una proporcin entre la diferencia de dos
valores A y la diferencia entre dos valores de B. A
ese factor de ajuste entre ambas series se le
llama pendiente de la recta, y se asume que es
constante a lo largo de toda la recta.

Modelos de Regresin Lineal


Funcin Lineal de Regresin
- El parmetro b0, conocido como la ordenada
en el origen, nos indica cunto es Y cuando X =
0. El parmetro b1, conocido como la
pendiente, nos indica cunto aumenta Y por
cada aumento en X.
- La tcnica consiste en obtener estimaciones
de estos coeficientes a partir de una muestra de
observaciones sobre las variables Y y X.
- En el anlisis de regresin, estas estimaciones
se obtienen por medio del mtodo de mnimos
cuadrados. Logradas estas estimaciones se

GRFICOS DE DISPERSIN / RECTA DE


REGRESIN
Para el clculo de la
recta de regresin se aplica el
mtodo de mnimos cuadrados entre dos variables.
Esta lnea es la que hace mnima la suma de los
cuadrados de los residuos, es decir, es aquella recta en
la que las diferencias elevadas al cuadrado entre los
valores calculados por la ecuacin de la recta y los
valores reales de la serie, son las menores posibles.

y=a+
bx

Modelos de Regresin Lineal


Funcin Lineal de Regresin
Una pregunta importante que se plantea en
el anlisis de regresin es la siguiente: Qu
parte de la variacin total en Y se debe a la
variacin en X? Cunto de la variacin de Y
no explica X?
El estadstico que mide esta proporcin o
porcentaje se denomina coeficiente de
determinacin (R2). Si por ejemplo, al hacer
los clculos respectivos se obtiene un valor
de 0.846. Esto significa que el modelo explica
el 84.6 % de la variacin de la variable

Modelos de Regresin Lineal


Requisitos Estadsticos del Mtodo
Se supone que la forma funcional que
relaciona la variable DEPENDIENTE con la/las
variables explicativas es de tipo LINEAL.
Las variables explicativas deben ser entre s
INDEPENDIENTES.
La CONSTANTE (b0) no slo expresa el valor
estimado de y en la ordenada al origen, sino
tambin el conjunto de los errores no lineales
y desconocidos del modelo.

Modelos de Regresin Lineal


Supuestos del Mtodo de Regresin
La variable aleatoria (error) debe ser
estadsticamente
independiente
de
los
valores de X y tener una distribucin normal
con una media igual a cero (supuesto 1 y 2).
Cualquier par de errores, i y j deben ser
estadsticamente independientes entre s, es
decir que su covarianza debe ser igual a 0
(supuesto 3)
Las variables aleatorias j deben tener una
varianza finita 2 que es constante para todos
los valores de xj . (Supuesto 4 o de
homocedasticidad)

Modelos de Regresin Lineal


Salidas Estadsticas del Mtodo
Se evala la bondad de ajuste del modelo
terico a a travs del coeficiente de
determinacin R2
La capacidad explicativa del modelo se hace
a partir del mtodo de mnimos cuadrados
(ANOVA), cuyo resultado es testeado a travs
de F de Fisher
Predice
los
valores
de
la
variable
dependiente a partir de estimar el valor del
coeficiente (B), el error estndar (S) y el
coeficiente R parcial (BETA) de cada una de
las variables y de la Constante

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO

El ingreso
horario de los
ocupados (entre
25 y 45 aos) no
se ve afectados
por el sexo sino
que depende de
la cantidad de
aos de
instruccin

Ingreso horario de la ocupacin ppal

80

60

40

20

Sexo
Mujer
0

Varn
0

Aos de estudio (aprox.)

10

20

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
BONDAD DE AJUSTE DEL MODELO
(R2)
Variables Entered/Removedb
Model
1
2

Variables Entered
Sexo (dummy: 0=Varn)a
Aos de estudio (aprox.)a

Variables
Removed
,
,

Method
Enter
Enter

a. All requested variables entered.


b. Dependent Variable: Ingreso horario de la ocupacin ppal

Model Summary

Model
1
2

R
,014a
,359b

R Square
,000
,129

Adjusted
R Square
,000
,129

Std. Error
of the
Estimate
3,3032
3,0832

a. Predictors: (Constant), Sexo (dummy: 0=Varn)


b. Predictors: (Constant), Sexo (dummy: 0=Varn),
Aos de estudio (aprox.)

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
ANLISIS
MODELOS

DE

VARIANZA

DE

LOS

ANOVAc
Model
1

Regression
Residual
Total
Regression
Residual
Total

Sum of
Squares
22,486
112779,9
112802,4
14557,248
98245,112
112802,4

df
1
10336
10337
2
10335
10337

Mean
Square
22,486
10,911
7278,624
9,506

F
2,061

Sig.
,151a

765,683

,000b

a. Predictors: (Constant), Sexo (dummy: 0=Varn)


b. Predictors: (Constant), Sexo (dummy: 0=Varn), Aos de estudio (aprox.)
c. Dependent Variable: Ingreso horario de la ocupacin ppal

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
COEFICIENTES
SIGNIFICANCIA

PRUEBAS

DE

Coefficientsa

Model
1
2

(Constant)
Sexo (dummy: 0=Varn)
(Constant)
Sexo (dummy: 0=Varn)
Aos de estudio (aprox.)

Unstandardized
Coefficients
B
Std. Error
3,476
,043
-,0941
,066
,271
,091
-,426
,062
,306
,008

a. Dependent Variable: Ingreso horario de la ocupacin ppal

Standardi
zed
Coefficien
ts
Beta
-,014
-,064
,362

t
80,455
-1,436
2,964
-6,898
39,102

Sig.
,000
,151
,003
,000
,000

Modelos de Regresin Lineal


Control de Supuestos
MULTICOLINEALIDAD: a travs de matrices de
correlacin simple entre las variables independientes.
Solucin: Seleccionar variables independiente con
baja correlacin entre s y/o transformar en variables
dummy no colineales.
NORMALIDAD DE LOS RESIDUOS: a travs de un
grfico de de distribucin de los residuos. Solucin:
eliminacin de datos outliers.
HETEROSCEDASTICIDAD: a travs de grficos de
residuos para cada valor de . Solucin: Eliminacin
de casos outliers, tranformacin de las variables
independientes y/o estandarizacin de la variable
dependiente Y.
AUTOCORRELACIN

DE

ERRORES:

travs

de

la

Modelos de Regresin No Lineal


Ajustes Estadsticos del Mtodo
Cmo ajustar modelos de regresin lineal
cuando la funcin no es lineal?
La regresin lineal no siempre da buenos
resultados, porque a veces la relacin entre
Y y X no es lineal sino que exhibe algn
grado de curvatura. La estimacin directa de
los parmetros de funciones no-lineales es
un proceso complicado. No obstante, a veces
se pueden aplicar las tcnicas de regresin
lineal por medio de transformaciones de las
variables originales.

AJUSTE DE VARIABLES A FUNCIONES NO


LINEALES

Hacer el diagrama de dispersin de las dos variables y


evaluar si el patrn resultante sigue la forma lineal o alguna
otra funcin.
Identificada dicha funcin, substituir los valores de una
variable
con
sus
valores
cuadrados,
raz
cuadrada,
logartmicos o con alguna otra modificacin, y hacer de nuevo
la matriz de correlacin.
Identificar la funcin que mejor ajuste por medio de un
paquete estadstico y determinar los coeficientes para la
construccin de esa
ecuacin. NO LINEALES
FUNCIONES

Exponencial:

Logartmica:

y = a + bx

y = a + log b

Polinmica:
x

y = a + b x + c x2

FUNCIONES NO LINEALES

Exponenciales

Logartmicas

Modelos de Regresin No Lineal


Ajustes Estadsticos del Mtodo
Una funcin no-lineal que tiene muchas
aplicaciones es la funcin exponencial:
Y= AXb
Si
aplicamos
logaritmos,
esta
funcin
tambin puede ser expresada como: log(Y) =
log(A) + b.log(X). En lugar de calcular la
regresin de Y contra X, calculamos la
regresin del logaritmo de Y contra el
logaritmo de X. Este modelo es interesante,
porque el exponente b en una funcin

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
CORRELACIN
SIMPLECorrelations

Ingreso horario de la
ocupacin ppal
Sexo (dummy: 0=Varn)

Aos de estudio (aprox.)

Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N

Ingreso
horario de
la
Sexo
Aos de
ocupacin
(dummy:
estudio
ppal
0=Varn)
(aprox.)
1,000
-,014
,354**
,
,149
,000
10339
10339
10338
-,014
1,000
,137**
,149
,
,000
10339
10339
10338
,354**
,137**
1,000
,000
,000
,
10338
10338
10338

**. Correlation is significant at the 0.01 level (2-tailed).

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
GRAFICAS
RESIDUOS

DE

DISPERSIN

Histogram

Dep. Var.: Ingreso horario de la ocupacin ppal


7000
6000
5000
4000

Frequency

3000
2000
Std. Dev = 1,00

1000

Mean = 0,0
N = 10338,00

Regression Standardized Residual

DE

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO

Scatterplot

Normal P-P Plot of Regression Standardized Res.

Dependent Variable: Ingreso horario de la ocupacin ppal

Dep. Var.: Ingreso horario de la ocupacin ppal

30

1,00

20

,75

10

,50

Expected Cum Prob

Regression Standardized Residual

PRUEBAS DE HETEROSCEDASTICIDAD

-10
-4

-3

-2

-1

Regression Standardized Predicted Value

,25

0,00
0,00

,25

,50

Observed Cum Prob

,75

1,00

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
DURBIN
WATSON:
AUTOCORRELACIN

EVALUACIN

Model Summaryb

Model
1

R
,359a

R Square
,129

Adjusted
R Square
,129

Std. Error
of the
Estimate
3,0832

Durbin-W
atson
1,707

a. Predictors: (Constant), Sexo (dummy: 0=Varn), Aos de estudio


(aprox.)
b. Dependent Variable: Ingreso horario de la ocupacin ppal

DE

Modelos de Regresin Lineal


QU HACER FRENTE A LOS

SESGOS DE ESTIMACIN?

Eliminar casos OUTLIERS que afectan la


distribucin.

Recodificacin
de
las
variables
independientes
y/o
transformacin
LOGSTICA de la variable dependiente.
Estratificacin del anlisis a partir de usar
una variable independiente como CRITERIO
PARA DIVIDIR a la poblacin en grupos
comparables.

Modelos de Regresin Lineal


ANLISIS DE EJEMPLOS
BONDAD DE AJUSTE DE LOS MODELOS
(R2)
Model Summaryb
Model
1

R
,359a

R Square
,129

Adjusted
R Square
,129

Std. Error
of the
Estimate
3,0832

Durbin-W
atson
1,707

a. Predictors: (Constant), Aos de estudio (aprox.), Sexo (dummy


1-Varn)

Modelo
Original

b. Dependent Variable: Ingreso horario de la ocupacin ppal


Model Summaryb

Model
1

R
,401a

R Square
,161

Adjusted
R Square
,160

Std. Error
of the
Estimate
2,5866

Durbin-W
atson
1,675

a. Predictors: (Constant), Aos de estudio (aprox.), Sexo (dummy


1-Varn)
b. Dependent Variable: Ingreso horario de la ocupacin ppal

Excluyendo
desvos
mayores a 8z

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
BONDAD DE AJUSTE DEL MODELO (R2)
Model Summaryc

Model
1
2

R
,021a
,422b

R Square
,000
,178

Adjusted
R Square
,000
,178

Std. Error
of the
Estimate
,7307
,6625

Durbin-W
atson
1,622

a. Predictors: (Constant), Sexo (dummy 1-Varn)


b. Predictors: (Constant), Sexo (dummy 1-Varn), Aos de estudio
(aprox.)
c. Dependent Variable: L_INGHOR

Variable
dependiente
logaritmo
ing. horario

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
GRAFICAS
RESIDUOS
Histogram

DE

DISPERSIN

Dependent Variable: L_INGHOR


3000

2000

Frequency

1000
Std. Dev = 1,00
Mean = 0,00
N = 10338,00

Regression Standardized Residual

DE

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
PRUEBAS DE HETEROSCEDASTICIDAD
Scatterplot

Normal P-P Plot of Regression Standardized Residua

Dependent Variable: L_INGHOR

Dependent Variable: L_INGHOR

1,00

,50
Expected Cum Prob

Regression Standardized Residual

,75

-2

-4
-6
-3

-2

-1

Regression Standardized Predicted Value

,25

0,00
0,00

,25

Observed Cum Prob

,50

,75

1,00

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
CORRELACIN
SIMPLE
Correlations

L_INGHOR

Sexo (dummy 1-Varn)

Aos de estudio (aprox.)

Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N

Sexo
Aos de
L_INGHO
(dummy
estudio
R
1-Varn)
(aprox.)
1,000
-,021*
,421**
,
,031
,000
10339
10339
10338
-,021*
1,000
-,137**
,031
,
,000
10339
10339
10338
,421**
-,137**
1,000
,000
,000
,
10338
10338
10338

*. Correlation is significant at the 0.05 level (2-tailed).


**. Correlation is significant at the 0.01 level (2-tailed).

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
ANLISIS
MODELOS

DE

VARIANZA

DE

LOS

ANOVAc
Model
1

Regression
Residual
Total
Regression
Residual
Total

Sum of
Squares
2,504
5518,817
5521,321
985,393
4535,928
5521,321

df
1
10336
10337
2
10335
10337

Mean
Square
2,504
,534
492,696
,439

F
4,689

Sig.
,030a

1122,596

,000b

a. Predictors: (Constant), Sexo (dummy 1-Varn)


b. Predictors: (Constant), Sexo (dummy 1-Varn), Aos de estudio (aprox.)
c. Dependent Variable: L_INGHOR

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
COEFICIENTES
SIGNIFICANCIA

PRUEBAS

DE

Coefficientsa

Model
1
2

(Constant)
Sexo (dummy 1-Varn)
(Constant)
Sexo (dummy 1-Varn)
Aos de estudio (aprox.)

a. Dependent Variable: L_INGHOR

Unstandardized
Coefficients
B
Std. Error
,976
,011
-,0314
,014
,0557
,022
,0549
,013
,0796
,002

Standardi
zed
Coefficien
ts
Beta
-,021
,037
,426

t
89,504
-2,165
2,553
4,139
47,323

Sig.
,000
,030
,011
,000
,000

Você também pode gostar