Escolar Documentos
Profissional Documentos
Cultura Documentos
1
Relaciones entre variables y regresin
El trmino regresin fue introducido por Galton en su libro
Natural inheritance (1889) refirindose a la ley de la
regresin universal:
3
Estudio conjunto de dos variables
Altura Peso
A la derecha tenemos una posible manera de recoger los en cm. en Kg.
datos obtenido observando dos variables en varios
162 61
individuos de una muestra.
154 60
En cada fila tenemos los datos de un individuo 180 78
158 62
Cada columna representa los valores que toma una variable
sobre los mismos. 171 66
169 60
Las individuos no se muestran en ningn orden particular.
166 54
Dichas observaciones pueden ser representadas en un 176 84
diagrama de dispersin (scatterplot). En ellos, cada
individuos es un punto cuyas coordenadas son los valores 163 68
de las variables. 161 50
187 76
Nuestro objetivo ser intentar reconocer a partir del
mismo si hay relacin entre las variables, de qu tipo, y si
es posible predecir el valor de una de ellas en funcin de
la otra.
4
Diagramas de dispersin o nube de puntos
100
90
80 Pesa 76 kg.
70
30
140 150 160 170 180 190 200
5
Relacin entre variables.
100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
6
Prediccin de una variable en funcin de la otra
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.
100
90
80
70
10 kg.
60
50
40 10 cm.
30
140 150 160 170 180 190 200
7
Relacin directa e inversa
330 100
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
la dispersin marginal de Y
La dispersin de Y condicionada a X
380
360
cmo se distribuye Y
320
r= 0.984 condicionada.
r^2 = 0.969
380
La distribucin de Y,
independientemente del valor de X, se
370
1
S xy = ( xi x )( yi y )
n i
El signo de la covarianza nos dice si el aspecto de la nube de
puntos es creciente o no, pero no nos dice nada sobre el grado de
relacin entre las variables.
10
En caso de realizar una estimacin muestral, la frmula se convierte en
_
n
( xi x) ( yi y )
S xy = cov( x, y ) =
i =1 n 1
Otra formula de calcular sera
xy x y
S xy = n
n 1
11
Coef. de correlacin lineal de Pearson
La coeficiente de correlacin lineal de Pearson de
dos variables, r, nos indica si los puntos tienen una
tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales).
-1 0 +1
13
Entrenando el ojo: correlaciones positivas
330 130
120
280 110
230 100
90
180 80
70
130 60
80 50
r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,8 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
14
Entrenando el ojo: correlaciones negativas
90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
15
Animacin: Evolucin de r y diagrama de dispersin
16
Preguntas frecuentes
Si r=0 eso quiere decir que las variables son
independientes?
En la prctica, casi siempre s, pero no tiene
por qu ser cierto en todos los casos.
Lo contrario si es cierto: Independencia
implica incorrelacin.
17
Otros coeficientes de correlacin
18
Regresin
19
Regresin
b1 (pendiente de la recta)
180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
22
La relacin entre las variables no es exacta. Es natural
preguntarse entonces:
Cul es la mejor recta que sirve para predecir los valores de Y
en funcin de los de X
Qu error cometemos con dicha aproximacin (residual).
180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
23
El modelo lineal de regresin se construye utilizando la tcnica de
estimacin mnimo cuadrtica:
Buscar b0, b1 de tal manera que se minimice la cantidad
i ei2
SY
b1 = r b0 = y b1 x
SX
Se obtiene adems unas ventajas de regalo
El error residual medio es nulo
La varianza del error residual es mnima para dicha estimacin.
24
Animacin: Residuos del modelo de regresin
25
Que el error medio de las Cometi un error
predicciones sea nulo no quiere de -30 en su
ltima prediccin
decir que las predicciones sean
buenas.
26
Cmo medir la bondad de una regresin?
27
Interpretacin de la variabilidad en Y
28
Interpretacin del residuo
Fijmonos ahora en los errores de prediccin
(lneas verticales). Los proyectamos sobre el eje Y. Y
29
Bondad de un ajuste
Resumiendo: Y
2
S
R = 1
2 e
2
S Y
S 2
e < S 2
Y
30
Animacin: Descomposicin de la varianza
31
Resumen sobre bondad de un ajuste
32
Otros modelos de regresin
Se pueden considerar otros recta o parbola?
tipos de modelos, en funcin del
aspecto que presente el
diagrama de dispersin
(regresin no lineal)
33
Modelos de anlisis de regresin
Simple Mltiple
34
Ejemplo con SPSS
A continuacin vamos a analizar un ejemplo realizado con
datos simulados, de lo que podra parecer el estudio
sobre alturas de hijos y padres, realizado con SPSS.
14
10
12
8
10
8 6
6
4
b0=89,985
Eso significa que el 57% de las predicciones del modelo son correctas?
Cmo lo interpretas?
Correlaciones
37
38
Grfico de dispersin
60
50
40
PESO
30
6 8 10 12 14 16
EDAD
39
40
41
42
43
La recta de regresin del peso en funcin de la edad es
44
La bondad del ajuste es
por tanto podemos decir que el 88.94% de la variabilidad del peso en funcin
de la edad es explicada mediante la recta de regresin correspondiente. Lo
mismo podemos decir en cuanto a la variabilidad de la edad en funcin del
peso. Del mismo modo puede decirse que hay un 11.06% de varianza que
no es explicada por las rectas de regresin. Por tanto la varianza residual de
la regresin del peso en funcin de la edad es
45
y la de la edad en funcin del peso:
46
Qu hemos visto?
Relacin entre variables
Diagrama de dispersin
Covarianza
Relacin directa, inversa e incorrelacin
Correlacin lineal
Relacin directa, inversa e incorrelacin
grado de relacin lineal entre variables
Regresin, prediccin
Variable dependiente
Variable(s) independientes
Modelo lineal de regresin
Ordenada en el origen
Pendiente
Residuo, error
Bondad del ajuste, coef. determinacin
En el modelo lineal simple: r2
47
Referencias
1. http://campusvirtual.uma.es/est_fisio/apuntes/
48