Escolar Documentos
Profissional Documentos
Cultura Documentos
Mayo 2004 1
Regresión lineal
Francisco Montes
Departament d’Estadı́stica i I. O.
Universitat de València
http://www.uv.es/~montes
Estadı́stica Básica. Mayo 2004 2
Recta de regresión
Estadı́stica Básica. Mayo 2004 3
Latitud y temperatura
Altura y peso
Gráficos de dispersión
La experiencia demuestra que, en general, las personas altas
tienen mayor peso y que a mayor latitud (más al Norte)
menor es la temperatura. Una adecuada representación
gráfica de los pares de observaciones anteriores puede
corrobar nuestra conjetura.
Un gráfico de dispersión es la representación más apropiada
a este tipo de datos. Veamos los gráficos correspondientes a
ambos conjuntos de datos.
Estadı́stica Básica. Mayo 2004 6
80
70
60
o
re
n
e 50
a
m
i
x
á 40
m
ar
u
ta
re 30
p
m
et 20
10 20 30 40 50 60
LATITUD
Estadı́stica Básica. Mayo 2004 7
110
100
90
80
70
60
50
40
PESO
30
140 150 160 170 180 190 200 210
ALTURA
Estadı́stica Básica. Mayo 2004 8
y = ax + b
Estadı́stica Básica. Mayo 2004 9
Elección de la recta
Si hemos decidido que una recta puede describir
adecuadamente la relación entre y y x. Se trata ahora de
elegir aquella que mejor la describa (mejor se ajuste a las
observaciones).
elegir recta ⇒ obtener valores para a y b
Habrá que precisar que entendemos por mejor se ajuste. Lo
que implica fijar los criterios con los que poder elegir los
mejores valores para a y para b.
Estadı́stica Básica. Mayo 2004 10
100
C1
90
C2
80
70
60
50
40
30
140 150 160 170 180 190 200 210
yi
di
ei
xi
Mı́nimos cuadrados
• Pareja observada: (xi , yi )
• Predicción: ŷi = axi + b
• Error: ei = yi − ŷi
Los valores de a y b deben
ser elegido de manera que la
llamada suma de cuadrados
de los errores sea mı́nima
Es decir,
n
X n
X n
X
SCe = e2i = (yi − ŷi )2 = (yi − (axi − b))2 .
i=1 i=1 i=1
Estadı́stica Básica. Mayo 2004 15
Valores de a y de b
Con la anterior condición, los valores para a y b vienen
dados por las expresiones,
Pn
i=1 (xi − x)(yi − y) cov(x, y)
a= Pn 2
= b = y − ax.
i=1 (xi − x) var(x)
Rectas ajustadas
latitud-temper atur a altur a-peso
y = -1.83x + 116.75 y = 0.87x - 79.32
90 110
80 100
90
70
80
60
70
50
60
A
R 40
U
T 50
A
R
E 30
P 40
M O
S
E
T 20 E
P 30
10 20 30 40 50 60 140 150 16 0 170 180 190 20 0 210
LATITUD ALTURA
Estadı́stica Básica. Mayo 2004 17
El coeficiente de determinación,
Otra forma de medir la bondad del ajuste es mediante el
concepto de reducción de la varianza.
abscisa y-estimada error error total
xi y yi − y s2y
xi ŷi yi − ŷi s2e
Reducción de la varianza
Regresión peso sobre altura Regresión temperatura sobre latitud
12 0 100
10 0
80
80
60
60
40 40
20
20
0
0
-2 0
-4 0 -20
14 0 15 0 16 0 17 0 18 0 19 0 20 0 21 0 10 20 30 40 50 60
Paso 1
Leı́dos los datos, desde la op-
ción Analizar de la barra del
menú accedemos al procedimien-
to Regresión Lineal, tal como
muestra la imagen. Se trata, como
ya sabemos de un menú interacti-
vo, por el que nos movemos con
ayuda del ratón.
Estadı́stica Básica. Mayo 2004 24
Paso 2
Resultados
Resumen del modelo
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 6382,743 1 6382,743 50,605 ,000a
Residual 4540,652 36 126,129
Total 10923,395 37
a. Variables predictoras: (Constante), ALTURA
b. Variable dependiente: PESO
Coeficientesa
Coeficientes no Coeficientes
estandarizados estandarizados
Modelo B Error típ. Beta t Sig.
1 (Constante) -79,316 20,991 -3,778 ,001
ALTURA ,872 ,123 ,764 7,114 ,000
a. Variable dependiente: PESO
Estadı́stica Básica. Mayo 2004 26
Predicción y residuos
Para interpretar las tablas an-
teriores es conveniente guardar
las predicciones (ŷi ) y sus
residuos (ei = yi − ŷi ). Para el-
lo elegimos la opción Guardar
en el cuadro de diálogo.
El programa añade dos nuevas
variables, pred_1 y res_1, con
los valores obtenidos.
Estadı́stica Básica. Mayo 2004 27
∑ d =∑ r + ∑ e
2 2 2
yi
i i i
ei
ANOVAb
di
Suma de Media
ri Modelo cuadrados gl cuadrática F Sig.
,000a
y 1 Regresión
Residual
6382,743
4540,652
1
36
6382,743
126,129
50,605
Total 10923,395 37
a. Variables predictoras: (Constante), ALTURA
b. Variable dependiente: PESO
.
Estadı́stica Básica. Mayo 2004 29
Coeficientes no Coeficientes
estandarizados estandarizados
Modelo B Error típ. Beta t Sig.
1 (Constante) -79,316 20,991 -3,778 ,001
ALTURA ,872 ,123 ,764 7,114 ,000
a. Variable dependiente: PESO
Yi = aXi + b + Ei , (1)
donde los Ei son los residuos o errores, variables aleatorias i.i.d. con
distribución común N (0, σ 2 ).
Los errores observados, ei = yi − ŷi , son estimaciones de aquellas
variables y por tanto su análisis es una forma de comprobar que el
modelo (1) es correcto y que las condiciones previas de normalidad e
independencia se satisfacen.
Estadı́stica Básica. Mayo 2004 31
Regresión Múltiple
Estadı́stica Básica. Mayo 2004 37
Las instrucciones de
la ventana estiman el
modelo de dependen-
cia lienal del ozono
respecto del viento,
temperatura y radiación
solar.
¿Por qué hemos destacado en rojo el Método? Veamos
primero el resultado del ajuste y volvamos luego sobre ello.
Estadı́stica Básica. Mayo 2004 40