Você está na página 1de 21

01/10/2015

ANLISIS DE REGRESIN Y
CORRELACIN

Bioestadstica
Licenciatura en Saneamiento y Proteccin Ambiental
Facultad de Ciencias del Ambiente y la Salud
Profesora: Mg. Andrea Lavalle

Relacin entre variables

Modelos matemticos Modelos determinsticos

Bajo determinadas condiciones, a cada valor de la/s variables


independientes corresponde un valor de la variable dependiente.
Modelo de enfriamiento:

T (t ) = C e k t + Ta
Modelo de crecimiento sigmoidal:

P(t ) =

K
1 + e t

01/10/2015

Modelos estadsticos Modelos no determinsticos

Existen muchos fenmenos que involucran un cierto nmero de variables


que parecen estar relacionadas pero no de un modo determinstico.
En estos modelos, an si la experimentacin se realiza bajo determinadas
condiciones, no se puede asegurar a priori qu valor de la variable
dependiente se obtendr para cada valor de la/s variables independientes.

Ejemplos:
Calificacin promedio en el secundario / Calificacin
promedio universidad
Edad de los rboles / Altura
Edad de un nio / Cantidad de palabras que conoce
3

Relacin entre variables


Se busca describir la forma en que varan conjuntamente y tener
una medida de la relacin que existe entre ellas.
A cada unidad estadstica se le miden dos variables cuantitativas.
Si la muestra es de tamao n, se tiene una serie simple de n datos
bivariados: (x1, y1); (x2, y2); ; (xn, yn)

x1

y1

x2

y2

xn

yn
Diagrama de dispersin o
nube de puntos

01/10/2015

Relacin entre variables


Una medida de relacin conjunta entre dos variables es la
Covarianza.

Covarianza:
n

(x
Poblacional:

xy =

X ).( y i Y )

i =1

n
n

( x i x ).(y i y )
Muestral:

i =1

S xy =

x i .y i
=

n1

x y

i =1

i =1

i =1

n 1
5

Recorrido: - < Sxy <

Signo de la Covariancia

( x x ).( y y )
i

S xy =

n 1
(x

i =1

x )> 0

(y

y ) > 0

(y

y )< 0

(x

x )< 0
6

01/10/2015

Anlisis de Correlacin Lineal:


Objetivo: determinar el tipo y la intensidad de la relacin entre dos
variables aleatorias X e Y.
Poblacional:

xy

xy =

x y

Muestral:

rxy =

S xy
Sx Sy
2

=
2

SPxy
SC x SC y

xi

x i yi

i =1

i =1

n
xi
n

2
x i =1
n
i =1

i =1

n
yi
n

2
y i =1
n
i =1

Recorrido: -1 < r <1

Inferencia sobre Correlacin Lineal:


Se considera que ambas variables son aleatorias y que tienen una
distribucin conjunta de probabilidad normal bivariada.
Es posible hacer inferencia sobre el coeficiente de correlacin poblacional
El coeficiente de correlacin muestral es una variable aleatoria que tiene
distribucin en el muestreo vlida bajo la hiptesis = 0.

H0: = 0
H0: 0

r
t (n 2)
sr

S2r =

1 r
n-2

Rechazo H0 si tobs > t(/2;n-2) o tobs < -t(/2;n-2)

01/10/2015

ANLISIS DE REGRESIN

Anlisis de Regresin
Es la parte de la estadstica que se ocupa de investigar y modelar la
relacin entre dos o ms variables relacionadas de una manera no
determinstica.

Anlisis de Regresin Lineal Simple


Objetivo: determinar la mejor relacin funcional entre una variable
aleatoria (llamada variable dependiente y denotada generalmente
con Y), y una variable no aleatoria (independiente, indicada con X)
de modo que podamos hacer predicciones de la primera conociendo
valores de la segunda.

10

01/10/2015

Ejemplo:
3,50

Y: altura
2,5
2,8
3
2,7
2,8
3,2
2,8
2,9
3

3,00

Altura

X: edad
10
10
10
11
11
11
12
12
12

2,50

2,00
9,5

10,0

10,5

11,0

11,5

12,0

12,5

Edad

Diagrama de dispersin o
nube de puntos
Variable dependiente o de respuesta. Es Aleatoria
11

Variable independiente, predictora, explicativa.


Es NO aleatoria. Predeterminada por el investigador

3,50

Altura

3,00

Relacin
Lineal?

2,50

2,00
9,5

10,0

10,5

11,0

11,5

12,0

12,5

Edad

Modelo determinstico: Y = o + 1 X

NO es adecuado

Modelo no determinstico: Yij = o + 1 Xi + ij

Componente aleatoria
Componente sistemtica
(comportamiento promedio)

12

01/10/2015

Modelo de Regresin Lineal Simple


Existen parmetros o, 1 y 2 tales que para cualquier valor de la
variable independiente X, la variable dependiente Y se relaciona
con X por medio de la siguiente ecuacin:

Yi = 0 + 1 X i + i
donde

i es una variable aleatoria con distribucin normal, cuya

esperanza es E() = 0 y su varianza es V(i) = 2.

13

Supuestos del Modelo de Regresin Lineal Simple


X no es aleatoria
N(0, ) esto implica que para cada Xi la subpoblacin de Y
verifica que Y N(o + 1Xi, )
2 es constante para todo i
Los errores son independientes.
Y

n
i
2
1

x1

14

x2

........

xi

...........

xn

01/10/2015

Estimacin de los parmetros del Modelo


El mtodo de estimacin de o y 1 se basa en minimizar la suma
de los cuadrados de los desvos verticales, llamados residuales.
n

ei 2 =

(y y )
i

i =1

i =1

(xn,yn)
en

(x1,y1)

y^n

e1
e2
(x2,y2)
15

x1 x2

xn

yi = 0 + 1 xi + i

Modelo de Regresin Lineal Simple:

y i = b0 + b1 xi

Modelo Muestral:

donde b0 = 0

2
2
2
ei = ( yi y i ) = ( yi b0 b1 xi )
i =1

b1 = 1

i =1

= (b0 , b1 )

i =1
n

(b 0 , b1 )
=
b0

2(y

(b 0 , b 1 )
=
b1

2 (y

x
i =1

+ b1 .

i =1

b 0 b 1 x i )( x i ) = 0

xi =

Ecuaciones

i =1

n
i

i=1

i =1

b0 .

b 0 b 1 x i )( 1 ) = 0

b0 .n + b1 .

i =1

Normales

n
2
i

x .y
i

16
i

i =1

01/10/2015

b1 =

xi

x i .y i

i =1

i =1

SPxy

i =1

i =1

x i

x i 2 i =1
n

SCx

b0 = y b1.x
17

Ejemplo: Se realiz un experimento para observar el efecto del


incremento en la temperatura sobre la efectividad de un
antibitico. Se almacenaron tres porciones del mismo peso
durante el mismo lapso, a cada una de las siguientes
temperaturas y luego se midi su efectividad:
Y: Efect.
38
43
29
32
26
33
19
27
23
14
19
21

44,45

36,48

Efectividad

X: Temp
30
30
30
50
50
50
70
70
70
90
90
90

28,50

20,53

12,55
27,00

43,50

60,00

Temperatura

76,50

93,00

18

01/10/2015

X: Temp Y: Efect.
30
38
30
43
30
29
50
32
50
26
50
33
70
19
70
27
70
23
90
14
90
19
90
21
720
324

X2
900
900
900
2.500
2.500
2.500
4.900
4.900
4.900
8.100
8.100
8.100
49.200

Y2
1.444
1.849
841
1.024
676
1.089
361
729
529
196
361
441
9.540

XY
1.140
1.290
870
1.600
1.300
1.650
1.330
1.890
1.610
1.260
1.710
1.890
17.540

b1 = -0,3166
bo = 46

y = 46 0,3166 x

19

44,45

PRED_Efectividad

36,48

28,50

20,53

12,55
27,00

43,50

60,00

76,50

93,00

Temperatura

y = 46 0,3166 x
20

10

01/10/2015

Una vez estimada la recta de regresin, es posible calcular los


valores ajustados o predichos sustituyendo los valores de X en
la recta.
El parmetro 2 determina la variabilidad inherente al modelo.
La estimacin de 2 indica el grado en que las observaciones
muestrales se desvan de la recta estimada.
El estimador de 2 es el cuadrado medio del error, el cual se
calcula de la siguiente forma:
residuales
n

e2 = Se2 =

i =1

n2

i =1

n 2

SCy b1 Sxy
n2

Se =

Frmula de clculo:

Valores
predichos o
ajustados

(y y )

ei 2

21

Coeficiente de Determinacin

yi
No EXPL

DT

EXPL

xi
y i y = ( y i y i ) + ( y i y )
n

(y
i =1

y )2 =

(y
i =1

y i ) 2 +

(y

y )2

i =1

SCTOTAL = SCNO EXPL + SCEXPL (Regresin)

22

11

01/10/2015

Adecuacin del modelo


Coeficiente de Determinacin

SC regresin
SC error
R =
=1
SC Total
SC Total
2

Frmula de
clculo:

R2 =

Es la proporcin de la
variabilidad total explicada
por la regresin

b12 SCx
SCy

R2 Ajustado:

R 2 aj = 1

CM error
CM Total
23

Inferencia en Regresin
Para poder realizar inferencia es necesario verificar los supuestos del
modelo de Regresin. Se realizar la verificacin en forma grfica.

Normalidad de los residuales


Grfico Q-Q Plot

Cuantiles observados

29,45

19,22

9,00

-1,22

-11,45
-11,45

-1,22

9,00

19,22

24

29,45

Cuantiles de una Normal(9,59,069)

12

01/10/2015

Independencia - Homocedasticidad
Grfico de Residuales vs. Predichos

25

Inferencia sobre 0 y 1
La ordenada al origen 0 no siempre es de inters en la
investigacin. Antes de realizar inferencia sobre este parmetro es
necesario analizar si tiene sentido el valor X=0.

La pendiente 1 de la recta de regresin poblacional es el cambio


promedio real en la variable independiente Y, relacionado con un
incremento unitario en la variable independiente X.
La inferencia sobre estos parmetros se basa en considerar a 0 y 1
como estadsticos que varan de una muestra a otra, es decir, se
consideran como variables aleatorias y por lo tanto tienen
26

distribucin en el muestreo.

13

01/10/2015

Inferencia sobre 1

t=

b1 1
t n 2
Sb1

Sb1 =

Se
SCx

Se pueden realizar intervalos de confianza y pruebas de hiptesis


sobre este parmetro.
La prueba Ho: 1 = 0 contra H1: 1 0 es una prueba de
adecuacin del modelo

Inferencia sobre 0

t=

b0 0
t n 2
Sb0

Sb0 = Se

1 x
+
n SCx
27

Intervalo de confianza para la respuesta media


Los estadsticos 0 y 1

son variables aleatorias, por lo tanto

y 0 = 0 + 1 x 0 tambin cambia de una muestra a otra.


Es decir, para cada valor fijo x 0 , y 0 tiene una distribucin en el muestreo:

E ( y ) = y / xo = 0 + 1 x 0
1 (x x )
V ( y ) = y2 / xo = 2 + 0
SCx
n

1 (x x )
S y2 / xo = S e2 + 0
SCx
n

y ( 0 + 1 x 0 )
t n 2
S y / xo

y0 -t n-2 ;2 . Se .

1 (x 0 x ) 2
1 (x x )2
+
< E(y/x 0 ) < y0 + t n-2 ;2 . Se . + 0
n
SC x
n
SC x

28

14

01/10/2015

Prediccin de nuevas observaciones


Informacin sobre valores posibles para el valor de una observacin futura
de Y para un valor de Xo.

El valor futuro de Y no es un parmetro, pero s es una variable aleatoria.


Por ello se hace referencia a un intervalo de valores posibles de Y como
Intervalo de Prediccin.

1 (x x )2
1 (x x)2
y 0 - tn-2;/2 . S e . 1 + + 0
< y 0 < y 0 + tn-2;/2 . S e . 1 + + 0
n
SC x
n
SC x
29

Regresin con variables transformadas

30

15

01/10/2015

31

32

16

01/10/2015

TENER EN CUENTA:
1. Estimar los parmetros en el modelo transformado y luego volver a
transformar para obtener estimaciones de los parmetros originales no
es equivalente a usar Mnimos Cuadrados en el modelo original
2. Si se realiz una transformacin en Y, y se desea realizar Intervalos de
Confianza o Pruebas de Hiptesis, se debe considerar que los errores
del modelo transformado tengan una distribucin aproximadamente
normal.
3. Un IC para la media de Y se puede obtener transformando el intervalo
siempre que la varianza poblacional sea pequea.
4. Cuando se transforma Y, el coeficiente r2 se refiere a la variabilidad de
las y transformadas que est explicada por el modelo transformado.
5. Para evaluar el ajuste se sugiere calcular los predichos en el modelo
transformado, volver a la escala original y graficarlos versus los
valores observados.
6. Si el modelo es intrnsecamente no lineal se usan mtodos iterativos.

33

Enfoque de Anlisis de la Varianza


Para probar la significancia de la Regresin puede utilizarse un Anlisis de
la Varianza que se basa particionar la variabilidad total y luego realizar una
Prueba F
Particin de la Suma de Cuadrados Total:

SCTOTAL = SCerror-residual + SC Regresin-Modelo


n

( y i y ) 2 = ( y i y i ) 2 + ( y i y ) 2
i =1

i =1

i =1

Grados de libertad de las Sumas de Cuadrados:

(n

1)

(n

Cuadrados medios:

34

Cada suma de cuadrados dividida sus grados de libertad

17

01/10/2015

Enfoque de Anlisis de la Varianza


SCreg
12
2
SCerror
n2 2
2

F=

SCreg / 1
CMreg
=
F1,n2
SCerror / n 2 CMerror

Tabla de Anlisis de la Varianza


Fuentes de Sumas de
variacin
cuadrados

Grados de
libertad

Cuadrados
medios

Fo

Regresin

SCreg

SCreg/1

CMreg/
CMError

Error

SCError

(n 2)

SCError/(n 2)

Total

SCTotal

(n 1)

p-value

35

Regresin Lineal Mltiple


Objetivo: determinar la mejor relacin funcional entre una

variable aleatoria de respuesta (llamada variable dependiente y


denotada generalmente con Y), y un conjunto de variables
regresoras no aleatorias (independiente, indicadas con Xi) de
modo que podamos hacer predicciones de la primera conociendo
valores de las regresoras.

36

18

01/10/2015

Modelo de Regresin lineal mltiple


Yi = 0 + 1 X i + 2 X 2 + ... + p X p + i
Cualquier modelo de regresin que es lineal en sus parmetros es un
modelo de regresin lineal.

Supuestos:
Xi no son aleatorias
N(0, )
2 es constante para todo
37

Los errores son independientes.

Modelo Muestral:

y i = b0 + b1 x1 + b2 x 2 + ... + b p x p
donde b0 = 0

b1 = 1

b p = p

Estimacin de parmetros:
El mtodo de mnimos cuadrados busca minimizar la suma de los cuadrados
de los desvos de las observaciones respecto del modelo estimado.

38

19

01/10/2015

Inferencia:
Prueba F general para efecto regresin
H0: 1 = 2 = ...... = p = 0
H1: j 0

al menos para una j

Pruebas t para cada pendiente


H0: j = 0

Nmero de
variables

H1: j 0

Fuentes de
variacin

Sumas de
cuadrados

Grados de
libertad

Cuadrados medios

Fo

Regresin

SCreg

SCreg/p

CMreg/
CMError

Error

SCError

(n p 1)

SCError/(n p 1)

Total

SCTotal

(n 1)

pvalue

39

Seleccin de variables

1.- Todas las regresiones posibles


Se deben realizar 2p modelos y compararlos
El coeficiente R2 aumenta cuando se agrega una variable
El Cuadrado Medio del Error no:

CMerror =

SCerror
n p 1

40

20

01/10/2015

2.- Mtodo de seleccin de variables paso a paso (Stepwise)


Este procedimiento puede ser por eliminacin (Backward) o por
agregacin (Forward)
Procedimiento general del mtodo Stepwise:
1. Obtencin de la matriz de correlaciones entre todas las variables
posibles
2. Ajustar un modelo de regresin con X1, donde X1 es la variable
ms correlacionada con Y
3. Calcular las correlaciones parciales
4. Se selecciona la variable X2 de mayor correlacin parcial
5. Anlisis de la significancia del nuevo modelo (prueba F parcial)
es significativo el aporte de X2?
6. Se selecciona la variable X3 de mayor correlacin parcial (ya estn
X1 y X2)
7. Se analiza su significancia y la de las que ya estn en el modelo
41

21

Você também pode gostar