Você está na página 1de 32

CLASE 11: REGRESION LINEAL SIMPLE

Germn Elas Pomachagua Prez


gpomachagua@hotmail.com
Material de Clases Germn Pomachagua Perez

225-sep-15

Qu vamos a estudiar
En este captulo vamos a tratar diferentes formas de describir la
relacin entre dos variables cuando estas son numricas.
Estudiar si hay relacin entre la altura y el peso.
Haremos mencin de pasada a otros casos:
Alguna de las variables es ordinal.
Estudiar la relacin entre el sobrepeso y el dolor de espalda (ordinal)

Hay ms de dos variables relacionadas.


Conocer la presin arterial de una persona conociendo su peso y nivel
de colesterol?

El estudio conjunto de dos variables cualitativas lo aplazamos hasta


que veamos contrastes de hiptesis (X2).
Hay relacin entre fumar y padecer enfermedad de pulmn?
Una compaa desea estimar el costo de mantenimiento des sus
mquinas respecto a los aos de antigedad

Variable
Independiente
(X)

Tipos de Variables

Variable
Dependiente
(Y)

Muchas veces las decisiones se basan en la relacin entre dos o ms


variables. Ejemplos:
La presin arterial y la edad .
Los niveles de pobreza y la tasa e mortalidad
La relacin entre los gastos de publicidad y el importe de sus ventas.
Existe relacin entre los aos de antigedad de una mquina y sus
costos de mantenimiento?
Material de Clases Germn Pomachagua Perez

225-sep-15

Conceptos bsicos

Anlisis de Regresin: Es un procedimiento estadstico que estudia la


relacin funcional entre variables. Con el objeto de predecir una en
funcin de la/s otra/s.
Anlisis de Correlacin: Un grupo de tcnicas estadsticas usadas para
medir la intensidad de la relacin entre dos variables
Diagrama de Dispersin: Es un grfico que muestra la intensidad y el
sentido de la relacin entre dos variables de inters.
Variable dependiente (respuesta, predicha, endgena): es la variable que
se desea predecir o estimar
Variables independientes (predictoras, explicativas exgenas). Son las
variables que proveen las bases para estimar.
Regresin Lineal Simple: interviene una sola variable independiente
Regresin Lineal Mltiple: intervienen dos o ms variables independientes.
Regresin no lineal: la funcin que relaciona los parmetros no es una
combinacin lineal

Material de Clases Germn Pomachagua Perez

225-sep-15

ANLISIS DE REGRESIN
Qu es el anlisis de
regresin lineal ?

Trata de explicar el comportamiento de una


variable dependiente Y en funcin de la variable
independiente X

Objetivo: Determinar la ecuacin de regresin para predecir los


valores de la variable dependiente (Y) en base a la o las variables
independientes (X).
Material de Clases Germn Pomachagua Perez

225-sep-15

El modelo de Regresin Lineal Poblacional

Yi 0 1 X i i

para i=1,N

Considerando la muestra (xi,yi) para i=1,n

Yi 0 1 X iei
Yi = Variable dependiente
Xi = Variable independiente
0= intercepto (ordenada en le origen
1= pendiente
ei= error aleatorio

Luego el modelo
ajustado (estimado)

Yi 0 1 X i

Material de Clases Germn Pomachagua Perez

225-sep-15

Proceso de estimacin de la regresin lineal simple


Modelo de regresin

Datos de la muestra

x
x1
x2
.
.
.
xn

poblacional

y=0+1x+
Parmetros desconocidos

0.1

Ecuacin estimada de
regresin

Yi 0 1 X i

0 1
Material de Clases Germn Pomachagua Perez

225-sep-15

y
y1
y2
.
.
.
yn

ESTIMACION DE PARAMETROS POR MINIMOS CUADRADOS

El modelo de regresin
y el modelo ajustado es

yi 0 1 xi i

i 0 1 xi
y

La diferencia entre el valor


observado y el valor ajustado es
un residual

i yi y i yi (0 1 xi ) i 1....n
Material de Clases Germn Pomachagua Perez

225-sep-15

SCE L
i 1

2
i

( yi 0 1 xi )
i 1

Derivando se obtiene un par de ecuaciones normales para el


modelo, cuya solucin produce

n xy x y

1
2
2
n x x

y
x

Material de Clases Germn Pomachagua Perez

225-sep-15

Lneas posibles de regresin en la regresin lineal simple

Seccin A
Relacin lineal positiva

Seccin B
Relacin lineal negativa
y

Lnea de regresin

La pendiente
positiva

La pendiente

Lnea de regresin

* Ordenada al origen

es
La pendiente
1
0

es negativa

es

Seccin C
No hay relacin

*
Lnea de regresin

Material de Clases Germn Pomachagua Perez

225-sep-15

10

SUPUESTOS DE LA REGRESION LINEAL

NOTA: El cumplimiento de estas cuatro suposiciones lo veremos mas adelante en el


anlisis de residuos
11
Material de Clases Germn Pomachagua Perez 225-sep-15

EJEMPLO: Se lleva a cabo un experimento, para estudiar el efecto de cierto medicamento que
disminuya la frecuencia cardiaca en adultos. La variable independiente (X1) es la dosis en miligramos
( mg.) del producto y la variable dependiente (Y) es la diferencia despus de la administracin del
medicamento.
Y = reduccin del ritmo cardiaco (latidos por minuto)
X = dosis (mg.)

a.
b.
c.

i
1
2
3
4
5
6
7
8
9
10

X
0.50
0.75
1.00
1.25
1.50
2.00
2.50
3.00
3.25
3.50

Construir el diagrama de dispersin


Clculo de la recta de regresin
Calcular el coeficiente de correlacin

Y
10
8
12
14
16
17
20
18
20
21

Material de Clases Germn Pomachagua Perez

225-sep-15

12

Solucin: b)
i
1
2
3
4
5
6
7
8
9
10
TOTAL

X
0.50
0.75
1.00
1.25
1.50
2.00
2.50
3.00
3.25
3.50
19.25

Y
10
8
12
14
16
17
20
18
20
21
156

XY
5
6
12
17.5
24
34
50
54
65
73.5
341

Material de Clases Germn Pomachagua Perez

X2
0.25
0.56
1.00
1.56
2.25
4.00
6.25
9.00
10.56
12.25
47.69

225-sep-15

Y2
100
64
144
196
256
289
400
324
400
441
2614

13

Reemplazando tenemos:

n xy x y

1
2
2
n x x

10(341) (19.25)(156)

1
3.828
2
10(47.69) (19.25)

y x
n

156
19.25
0
3.823
8.23
10
10

Luego la ecuacin regresin ser:

y 8.23 3.828x

Interpretacin: Por cada mg. de la dosis, el ritmo cardiaco se


reducir en 3.823 latidos por minuto.
Material de Clases Germn Pomachagua Perez

225-sep-15

14

En el SPSS el anlisis de regresin se puede obtener


eligiendo la opcin Analyze /Regression /Linear

Material de Clases Germn Pomachagua Perez

225-sep-15

15

Reporte del SPSS


COEFICIENTE DE
DETERMINACION

COEFICIENTE DE
CORRELACION

Resumen del modelo

Modelo
1

R cuadrado

,929a

R cuadrado corregida
,864
,847

Error tp. de la
estimacin
1,753

a. Variables predictoras: (Constante), DOSIS

Coeficientesa
Coeficientes
Coeficientes no estandarizados estandarizados
Modelo
B
Error tp.
Beta
1
(Constante)
8,230
1,174
DOSIS
3,828
,538
,929
a. Variable dependiente: REDUCCION

y 8.23 3.828 x
Material de Clases Germn Pomachagua Perez

225-sep-15

t
7,010
7,120

Sig.
,000
,000

DIAGRAMA DE DISPERSIN

Despus de obtener el ajuste nos preguntamos:


Que tan bueno es el ajuste de los datos?
Este modelo es til para predecir?
Algunos de los supuestos bsicos del modelo son violados y que tan serio es?
Todas estas inquietudes sern vistas antes de adoptar el modelo final. Como
notamos anteriormente los residuos juegan un papel importante en la
evaluacin del modelo chequeando los supuestos del modelo
Material de Clases Germn Pomachagua Perez

225-sep-15

COEFICIENTE DE DETERMINACION r2

Es una medida del grado de fiabilidad o bondad de un ajuste de un modelo de regresin


se mide usando el coeficiente de determinacin R2

R2 es una cantidad adimensional que slo puede tomar valores en [0, 1]

Cuando un ajuste es bueno, R2 ser cercano a uno.

Cuando un ajuste es malo R2 ser cercano a cero.

Al R2 tambin se le denomina porcentaje de variabilidad explicado por el modelo de


regresin.

R2 puede ser pesado de calcular en modelos de regresin general, pero en el modelo


lineal simple, la expresin es de lo ms sencilla: R2=r2
r2 deber usarse con mucho cuidado, pues siempre es posible hacer que tienda a 1,
adicionando variables al modelo
An cuando r2 tienda a 1, no necesariamente indica que ste modelo de regresin
prediccin dar predicciones precisas de observaciones futuras.

(
y
i yi ) 2

Interpretacin: El 86.4% de la

r
2

i 1
n

(y
i 1

yi )

SC R

S yy

r 0.864
2

Material de Clases Germn Pomachagua Perez

variacin en la reduccin del ritmo


cardiaco se debe asociacin lineal
con la dosis en mg
225-sep-15

Animacin: Residuos del modelo de regresin

Material de Clases Germn Pomachagua Perez

225-sep-15
19

COEFICIENTE DE CORRELACION DE PEARSON


Mide el grado de asociacin lineal entre dos variables. Se denota por

n XY X Y

n X X
2

r r2

n Y Y
2

PROPIEDADES
Est dentro de -1 r 1
Si r > 0 entonces existe correlacin directa
Si r < 0 entonces existe correlacin inversa
Si r = 1 entonces existe correlacin perfecta positiva
Si r = -1 entonces existe correlacin perfecta inversa
Si r = 0 entonces no existe correlacin lineal (x no ayuda predecir y).

Tema Pomachagua
3: Estadstica bivariante
Material de Clases Germn
Perez

225-sep-15

20

A partir de qu valores se considera que hay buena relacin lineal?


Es difcil dar un valor concreto . Pero muchos autores consideran si |r|0,8 hay buena
relacin lineal es decir se considera una alta correlacin
Tema Pomachagua
3: Estadstica bivariante
Material de Clases Germn
Perez

225-sep-15

21

i
1
2
3
4
5
6
7
8
9
10
TOTAL

X
0.50
0.75
1.00
1.25
1.50
2.00
2.50
3.00
3.25
3.50
19.25

Y
10
8
12
14
16
17
20
18
20
21
156

XY
X2
5
0.25
6
0.56
12 1.00
17.5 1.56
24 2.25
34 4.00
50 6.25
54 9.00
65 10.56
73.5 12.25
341 47.69

Y2
100
64
144
196
256
289
400
324
400
441
2614

Inter: Hay una


correlacin muy alta
entre la dosis y la
reduccin del ritmo
cardiaco

n XY X Y

n X X
2

n Y Y
2

10341 19.25156

1047.69 19.25 102614 156


2

0.92936

Tema Pomachagua
3: Estadstica bivariante
Material de Clases Germn
Perez

225-sep-15

22

Preguntas frecuentes

Si r=0 eso quiere decir que no las variables son independientes?


En la prctica, casi siempre s, pero no tiene
por qu ser cierto en todos los casos.
Lo contrario si es cierto: Independencia
implica incorrelacin.

Me ha salido r=1.2 la relacin es superlineal[sic]?


Superqu? Eso es un error de clculo. Siempre debe tomar un valor
entre -1 y +1.

A partir de qu valores se considera que hay buena relacin lineal?


Es difcil dar un valor concreto (mirad los grficos anteriores). Para este
curso digamos que si |r|>0,8 hay buena relacin lineal y que si |r|>0,4
hay cierta relacin (por decir algo... la cosa es un poco ms
complicada: observaciones anmalas,...)

RIESGOS EN EL USO DE LA REGRESIN


1) Los datos que se usan deben estar dentro del rango de la variable. Es decir conforme se
rebasa el rango de X disminuye la certeza acerca de la validez del modelo

Material de Clases Germn Pomachagua Perez

225-sep-15

2) La disposicin que se encuentra los valores de X juegan un papel importante en el


ajuste de Mnimos Cuadrados Ordinarios. Aqu todos los puntos tienen igual
ponderacin para determinar la altura (intercepto), la pendiente esta ms influenciada
por los valores alejados de X (outliers).

Material de Clases Germn Pomachagua Perez

225-sep-15

Comprobacin de los supuestos : anlisis de residuos


Para detectar datos atpicos
Residuos No tipificados

ei yi y i

i 1,2....n

Residuos tipificados: atpico. Se suelen considerar atpicos los sujetos con


residuos tipificados absolutos superiores a 3.
Residuo estudentizado El 95% de los residuos estandarizados deben caer en el
intervalo <-2, 2>, los que caen fuera indica la presencia de un outlier

Para detectar datos Influentes


Distancia de Mahalanobis
La distancia de Cook Los valores locales excedan a 4/n-k-1
Valores de influencia

Material de Clases Germn Pomachagua Perez

225-sep-15

3) Los outliers (datos discordantes) afectan seriamente el ajuste por mnimo cuadrados
ordinarios. La observacin pareciera ser un outlier porque cae lejos del resto de datos.

Material de Clases Germn Pomachagua Perez

225-sep-15

Material de Clases Germn Pomachagua Perez

225-sep-15

Material de Clases Germn Pomachagua Perez

225-sep-15

Material de Clases Germn Pomachagua Perez

225-sep-15

Resumen sobre bondad de un ajuste

La bondad de un ajuste de un modelo de regresin se mide usando el coeficiente


de determinacin R2

R2 es una cantidad adimensional que slo puede tomar valores en [0, 1]


Para el alumno astuto: por qu?

Cuando un ajuste es bueno, R2 ser cercano a uno.


por qu?

Cuando un ajuste es malo R2 ser cercano a cero.

A R2 tambin se le denomina porcentaje de variabilidad explicado por el modelo


de regresin.

por qu?

por qu? Difcil.

R2 puede ser pesado de calcular en modelos de regresin general, pero en el


modelo lineal simple, la expresin es de lo ms sencilla: R2=r2
Es coherente lo dicho entonces sobre los valores de R2?

Qu hemos visto?
Relacin entre variables
Diagrama de dispersin
Covarianza
Relacin directa, inversa e incorrelacin
Correlacin lineal
Relacin directa, inversa e incorrelacin
grado de relacin lineal entre variables
Regresin, prediccin
Variable dependiente
Variable(s) independientes
Modelo lineal de regresin
Ordenada en el origen
Pendiente

Residuo, error
Bondad del ajuste, coef. determinacin
En el modelo lineal simple: r2
32

Você também pode gostar