Você está na página 1de 19

Regresin Lineal Simple

Ing. Luis Pedro Rico Hernndez

Anlisis de regresin lineal y correlacin lineal


El objetivo primordial del anlisis de regresin lineal es estimar el valor de una
variable aleatoria (la variable dependiente) dado que el valor de una variable
asociada (la variable independiente) es conocido. La variable dependiente tambin
se llama variable de respuesta, mientras que la variable independiente tambin se
llama variable de prediccin. La ecuacin de regresin es la formula algebraica por
la cual se determina el valor estimado de la variable dependiente, o de respuesta.
El termino anlisis de regresin simple indica que el valor de una variable
dependiente se estima con base a una variable independiente, o de prediccin. El
anlisis de regresin mltiple, se ocupa de la estimacin del valor de una variable
dependiente con base en dos o ms variables independientes.

Diagrama de dispersin
Un diagrama de dispersin es una grfica en la que cada punto trazado respeta un
par de valores observados de las variables independiente y dependiente. El valor
de la variable independiente X se identifica respecto al eje horizontal, mientras que
el valor de la variable dependiente Y se identifica respecto al eje vertical.
La forma de la relacin representada por el diagrama de dispersin puede ser
curvilnea ms que lineal. En el caso de las relaciones no lineales, un enfoque
consiste en determinar un mtodo de transformacin de valores de una o ambas
variables a fin de que la relacin de los valores transformados sea lineal.
Si el diagrama de dispersin indica en general una relacin lineal, se ajusta una
lnea recta a los datos. La ubicacin precisa de esta lnea es determinada por el
mtodo de mnimos cuadrados.
Tal como se indica en el siguiente esquema, una linea de regresin con pendiente
positiva indica una relacin directa entre las variables, una pendiente negativa
indica una relacin inversa entre las variables y una pendiente de cero indica que
las variables no tienen relacin entre s. Adems, el grado de dispersin vertical de
los puntos trazados respecto de la lnea de regresin indica el grado de relacin
entre las dos variables.

Regresin Lineal Simple

Ing. Luis Pedro Rico Hernndez

La figura incluye varios diagramas de dispersin y sus lneas de regresin


asociadas en demostracin de varios tipos de relaciones entre las variables.

Mtodo de mnimos cuadrados para el ajuste de un alinea de regresin


La ecuacin lineal que representa el modelo de regresin lineal simple es:

Yi= + xi +
Donde:

Yi = Valor de la variable dependiente en el isimo ensayo, u observacin.


= Primer parmetro de la ecuacin de regresin, el cual indica el valor de Y
cuando X=0.
= Segundo parmetro de la ecuacin de regresin, el cual indica la pendiente de
la lnea de regresin.
xi = El valor especifico de la variable independiente, en el isimo ensayo u
observacin.
= Error del muestro aleatorio en ele isimo ensayo u observacin.
Donde el error del modelo debe necesariamente tener una medida de cero. Cada
observacin (xi, yi) en la muestra satisface la ecuacin.

Yi= + xi +

Regresin Lineal Simple

Ing. Luis Pedro Rico Hernndez

La ecuacin anterior puede considerarse como el modelo para una sola


observacin yi. De manera similar al utilizar la lnea de regresin estimada o
ajustada:

= a + b(x)

Dependiendo del criterio matemtico utilizado, para un diagrama de dispersin


dado pueden desarrollarse varias ecuaciones lineales diferentes. De acuerdo con
el criterio de mnimos cuadrados, la lnea de regresin del mejor ajuste (y la mejor
ecuacin) es aquella para el cual se reduce al mnimo la sima de las desviaciones
cuadradas entre los valores estimado y real de la variable dependiente parra los
datos mustrales. La formulas de clculos por las cuales pueden determinarse los
valores de a y b en la ecuacin de regresin para la ecuacin que satisface el
criterio de mnimos cuadrados son:

Estimacin de los coeficientes de regresin. Dada la muestra {(xi,yi), i=


1,2,3n}, las estimaciones de mnimos cuadrados a y b de los coeficientes de
regresin se calculan por medio de las frmulas:

Regresin Lineal Simple

Ing. Luis Pedro Rico Hernndez

Ejemplo: uno de los problemas ms desafiantes para el control de la


contaminacin del agua lo presenta la industria del curtido de pieles. Los desechos
de esta industria son qumicamente complejos. Se caracterizan por valores
elevados de en la demanda de oxigeno bioqumico, los slidos voltiles y otras
mediciones de contaminacin. Considera los datos experimentales de la tabla, los
cuales se obtuvieron de 33 muestras de desperdicios que se tratan qumicamente
en el estudio chemical Treatment on Spent Vegatable Tan Liquor. Determine la
ecuacin que establece la recta de regresin lineal, realice el diagrama de
dispersin.
Al usar la recta de regresin se podra pronosticar una reduccin del 31% de la
demanda qumica de oxigeno cuando la reduccin total de slidos es del 30%.
Esta reduccin del 31% puede interpretarse como una estimacin de una nueva
estimacin cuando la reduccin total de slidos es de 30%.
Tales estimaciones, sin embargo estn sujetas a un error. Aun cuando el
experimento este controlado de tal forma que la reduccin total de slidos sea de
30%, es probable que no se mida una reduccin de la demanda qumica de
oxigeno exactamente igual a 31%. De hecho los datos registrados originalmente
muestran que las mediciones de 25% y 35% se obtuvieron para la reduccin de la
demanda qumica de oxigeno cuando la reduccin total de los slidos totales se
mantuvieron al 30%

Regresin Lineal Simple

(xi)
3
7
11
15
18
27
29
30
30
31
31
32
33
33
34
36
36
36
37
38
39
39
39
40
41
42
42
43
44
45
46
47
50
1104

(Yi)
5
11
21
16
16
28
27
25
35
30
40
32
34
32
34
37
38
34
36
38
37
36
45
39
41
40
44
37
44
46
46
49
51
1124

Ing. Luis Pedro Rico Hernndez

(Xi)(Yi)
15
77
231
240
288
756
783
750
1050
930
1240
1024
1122
1056
1156
1332
1368
1224
1332
1444
1443
1404
1755
1560
1681
1680
1848
1591
1936
2070
2116
2303
2550

(Xi)^2
9
49
121
225
324
729
841
900
900
961
961
1024
1089
1089
1156
1296
1296
1296
1369
1444
1521
1521
1521
1600
1681
1764
1764
1849
1936
2025
2116
2209
2500

41355

41086

N= 33

b= 0.90364321
a=

3.8296332

Y= 6.54056283

Regresin Lineal Simple

Ing. Luis Pedro Rico Hernndez


Hern

Lnea de Regresin Ajustada


Demanda de Oxigeno Quimico %

60
50

y = 0.9036x + 3.8296
R = 0.9129

40
30
20
Series1

10
0
0

10

20

30

40

50

60

Reduccin de solidos %

Ejercicio 2
Las calificaciones de un grupo de estudiantes en su reporte de medio ao (x) y en
los exmenes finales (y) fueron los siguientes.
x
y

77
82

50
66

71
78

72
34

81
47

94
85

96
99

99
99

67
68

a) Estime la lnea de regresin lineal


b) Estime la calificacin de examen final de un estudiante que obtuvo una
calificacin de 85 en el reporte de medio ao.

Regresin Lineal Simple

Ing. Luis Pedro Rico Hernndez


Hern

Solucin:
(xi)
77
50
71
72
81
94
96
99
67
=707

(Yi)
82
66
78
34
47
85
99
99
68
= 658

(Xi)(Yi)
6314
3300
5538
2448
3807
7990
9504
9801
4556
= 53258

(Xi)^2
5929
2500
5041
5184
6561
8836
9216
9801
4489
= 57557

N= 9
b=

0.7771416

a= 12.0623211
Y=

78.119357 Calificacin final alumno con 85 en el parcial

Lnea de Regresin Ajustada


Examen Final

120

y = 0.777x + 12.06
R = 0.314

100
80
60
40

Series1

20

Lineal (Series1)

0
0

20

40

60

80

100

120

Examen Parcial

Regresin Lineal Simple

Ing. Luis Pedro Rico Hernndez

Ejercicio3
Se llev a cabo un estudio acerca de la cantidad de azcar refinada mediante un
cierto proceso a varias temperaturas diferentes. Los datos se codificaron y se
registraron en el cuadro siguiente.
Temperatura, X
1
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2

Azcar transformada, Y
8.1
7.8
8.5
9.8
9.5
8.9
8.6
10.2
9.3
9.2
10.5

a) Determine la ecuacin de regresin lineal.


b) Calcule la cantidad promedio de azcar refinada que se produce cuando la
temperatura codificada es 1.75.
(xi)
1
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2
=16.5

(Yi)
8.1
7.8
8.5
9.8
9.5
8.9
8.6
10.2
9.3
9.2
10.5
= 100.4

(Xi)(Yi)
8.1
8.58
10.2
12.74
13.3
13.35
13.76
17.34
16.74
17.48
21
= 152.59

(Xi)^2
1
1.21
1.44
1.69
1.96
2.25
2.56
2.89
3.24
3.61
4
= 25.85

N=
b=
a=
Y=

11
1.80909091
6.41363636
9.57954545

Azcar convertida a una temperatura de 1.75

Regresin Lineal Simple

Ing. Luis Pedro Rico Hernndez


Hern

Lnea de Regresin Ajustada


Azucar Convertida

12
y = 1.809x + 6.413
R = 0.499

10
8
6

Series1

Lineal (Series1)

2
0
0

0.5

1.5

2.5

Temperatura del Proceso

Ejercicio 4
Un comerciante a menudeo llev a cabo un estudio para determinar la relacin
entre los gastos de publicidad semanal y las ventas, se obtuvieron los siguientes
datos.
Costos de
publicidad ($)
40
20
25
20
30
50
40
20
50
40
25
50

Ventas ($)
385
400
395
365
475
440
490
420
560
525
480
510

Regresin Lineal Simple

Ing. Luis Pedro Rico Hernndez

a) Dibuje el diagrama de dispersin.


b) Encuentre la ecuacin de la lnea de regresin para pronosticar las ventas
semanales resultantes de los gastos de publicidad.
c) Estime las ventas semanales cuando los gastos de publicidad ascienden a
$35.
600
500
400
300
200
100
0

Series1

20

(xi)
40
20
25
20
30
50
40
20
50
40
25
50
= 410

(Yi)
385
400
395
365
475
440
490
420
560
525
480
510
= 5445

40

(Xi)(Yi)
15400
8000
9875
7300
14250
22000
19600
8400
28000
21000
12000
25500
= 191325

60

(Xi)^2
1600
400
625
400
900
2500
1600
400
2500
1600
625
2500
= 15650

N= 12
b= 3.22081218
a= 343.705584
Y=

456.43401 Donde los costos de publicidad sean $35 dlares

10

Regresin Lineal Simple

Ing. Luis Pedro Rico Hernndez


Hern

Lnea de Regresin Ajustada


y = 3.220x + 343.7
R = 0.403

600

Ventas ($)

500
400
300

Series1

200

Lineal (Series1)

100
0
0

10

20

30

40

50

60

Costos de Publicidad ($)

Ejercicio 5
En un estudio acerca de la cantidad de precipitacin pluvial y la cantidad de
contaminacin de aire eliminada, se obtuvieron los siguientes datos.
Lluvia diaria, x
(0.01 cm)
4.3
4.5
5.9
5.6
6.1
5.2
3.8
2.1
7.5

Partculas eliminadas, y
(migramos por metro cubico)
126
121
116
118
114
118
132
141
108

a) Determine la ecuacin de lnea de regresin para pronosticar las partculas


removidas, a partir de la cantidad de precipitacin pluvial diaria.
b) Estime la cantidad de partculas removidas cuando la precipitacin pluvial
diaria es x = 4.8 unidades.

11

Regresin Lineal Simple

(xi)
4.3
4.5
5.9
5.6
6.1
5.2
3.8
2.1
7.5
= 45

Ing. Luis Pedro Rico Hernndez


Hern

(Yi)
126
121
116
118
114
118
132
141
108
= 1094

(Xi)(Yi)
541.8
544.5
684.4
660.8
695.4
613.6
501.6
296.1
810
= 5348.2

(Xi)^2
18.49
20.25
34.81
31.36
37.21
27.04
14.44
4.41
56.25
= 244.26

N= 9
b= 6.32398754
a= 153.175493
Y= 122.820353 Cantidad de partculas removidas a 4.8

Cantidad de Particulas Removidas


mg/m3

Lnea de Regresin Ajustada


160
140
120
100
80
60
40
20
0

y = -6.324x
6.324x + 153.1
R = 0.957

Series1
Lineal (Series1)

Cantidad de lluvia diaria 0.01 cm

12

Regresin Lineal Simple

Ing. Luis Pedro Rico Hernndez

Ejercicio 6
Se presentan datos mustrales relativos al nmero de horas de estudio fuera de
clases durante un periodo de tres semanas de alumnos de un curso de estadstica
aplicada a la administracin y a sus calificaciones en el examen final de ese
periodo. Elabore un diagrama de dispersin para estos datos y determine la
ecuacin de regresin que establece su linealidad.
Resp. = a + b(x) = = 40 + 1.5(x)

Anlisis de correlacin
As como el anlisis de regresin permite obtener una frmula que expresa la
relacin entre dos o ms variables, el anlisis de correlacin obtiene un ndice que
muestra el grado de relacin entre dos o ms variables.
El coeficiente de correlacin lineal, desarrollado por el matemtico ingles Karl
Pearson (1857-1936) y conocido con la letra r, puede tomar valores desde -1
hasta +1. Son estos extremos que manifiestan una relacin lineal perfecta
(negativa o positiva). Segn se ejemplifican en los diagramas de dispersin
mostrados en el siguiente esquema:

13

Regresin Lineal Simple

Ing. Luis Pedro Rico Hernndez

Procedimiento de anlisis de varianza


Con frecuencia el problema de analizar la calidad de una lnea de regresin
estimada se maneja a travs de un enfoque de anlisis de varianza. Esto es
meramente un procedimiento por medio del cual la variacin total de la variable
dependiente se subdivide en componentes significativas que se observan y se
tratan en forma sistemtica. El anlisis de varianza es un poderosa herramienta en
muchas aplicaciones.

Supngase que se tiene n puntos de datos experimentales en la forma usual (xi


,yi), y que se estima la lnea de regresin . De tal forma que se ha logrado una
participacin de la suma total corregida de los cuadrados de y, y en dos
componentes que deben reflejar el significado particular para el experimentador.
Esta participacin se indicara simblicamente:
SST=SSR+SSE
El primer componente de la derecha recibe el nombre de la suma de cuadrados
de regresin y refleja la cantidad de variacin de los valores de y explicados por
el modelo, en este caso la lnea recta postulada. El segundo componente es solo
la suma de cuadrados del error ya familiar, que refleja la variacin alrededor de la
lnea de regresin.

14

Regresin Lineal Simple

Ing. Luis Pedro Rico Hernndez

Correlacin
Por ejemplo, si X y Y representa la longitud y la circunferencia de una clase
particular de hueso en el cuerpo de un adulto, se podra llevar a cabo un estudio
antropolgico para determinar si valores grandes de X se asocian con valores
grandes de Y. Si X representa la antigedad de un automvil usado y Y su valor
en libros, se esperara que los valores grandes de X correspondieran a valores
pequeos de Y, y que valores pequeos de X correspondieran a valores grandes
de Y.
El anlisis de correlacin intenta mediar la fuerza de tales relaciones entre dos
variables por medio de un simple nmero que recibe el nombre de coeficiente de
correlacin.

Coeficiente de correlacin
La constate (rho) r2 recibe el nombre de coeficiente de correlacin. Es
importante la interpretacin fsica del coeficiente de correlacin y la distincin entre
correlacin y regresin. El valor de r es cero cuando no hay regresin lineal, esto
es, la lnea de regresin es horizontal y cualquier conocimiento de X no es de
utilidad para predecir Y. -1 r 1. Los valores de r = 1slo ocurren cuando s2=0,
en cuyo caso se tiene una relacin lineal perfecta entre las dos variables.
Entonces un valor de r = 1 implica una relacin lineal perfecta con una pendiente
positiva. Mientras que un valor de r = -1 indica una relacin lineal perfecta con
pendiente negativa. Se podra decir que estimaciones mustrales de r (rho)
cercanas a la unidad en magnitud implican buena correlacin entre X y Y, mientras
que valores cercanos a cero indican poco o ninguna correlacin. Es comn
referirse a r como momento de pearson.

15

Regresin Lineal Simple

Ing. Luis Pedro Rico Hernndez

Coeficiente de Determinacin
Para valores de r entre 1 y + 1 se debe ser cuidadoso en su interpretacin. Por
ejemplo, valores de r iguales que 0.3 y 0.6 significan nicamente que se tienen
dos correlaciones positivas, un algo mayor que la otra. Es un error concluir que r =
0.6 indica una relacin lineal de dos veces mayor que la indicada por el valor r =
0.3.

Nota: SSR = SST

Entonces r2, a la que comnmente se le llama coeficiente de determinacin,


representa la proporcin de la variacin de Syy explicada por la regresin de Y en
x, es decir, SRR. Esto es r2 expresa la proporcin de la variacin total de los
valores de la variable Y que se pueden contabilizar o explicar por una relacin
lineal con los valores de la variable aleatoria X.
Entonces una correlacin de 0.6 significa que 0.36 o 36% de la variacin total
de los valores de Y en la muestra se deben a una relacin lineal con los
valores de X.

16

Regresin Lineal Simple

Ing. Luis Pedro Rico Hernndez

En el ejemplo siguiente se muestra cmo calcular el coeficiente o ndice de


correlacin lineal para un conjunto de datos. Tomando de base el ejemplo sobre la
demanda bioqumica de oxigeno.

17

Regresin Lineal Simple

Ing. Luis Pedro Rico Hernndez

SSE

SST

MEDIA Y VARIANZA DE LOS ESTIMADORES

i=a+b(x)

i=yi-i

(i)^2

(Y Media)

yi-y media

(yi-y media)^2

(X Media)

(Xi-XMedia)

(Xi-XMedia)^2

6.540562829

-1.540562829

2.373333831

34.06060606

-29.06060606

844.5188246

33.45454545

-30.45454545

927.4793388

10.15513567

0.844864328

0.713795733

34.06060606

-23.06060606

531.7915519

33.45454545

-26.45454545

699.8429752

13.76970851

7.230291486

52.27711497

34.06060606

-13.06060606

170.5794307

33.45454545

-22.45454545

504.2066116

17.38428136

-1.384281356

1.916234873

34.06060606

-18.06060606

326.1854913

33.45454545

-18.45454545

340.5702479

20.09521099

-4.095210988

16.77075304

34.06060606

-18.06060606

326.1854913

33.45454545

-15.45454545

238.8429752

28.22799988

-0.227999883

0.051983947

34.06060606

-6.060606061

36.73094582

33.45454545

-6.454545455

41.66115702

30.0352863

-3.035286304

9.21296295

34.06060606

-7.060606061

49.85215794

33.45454545

-4.454545455

19.84297521

30.93892951

-5.938929515

35.27088378

34.06060606

-9.060606061

82.09458219

33.45454545

-3.454545455

11.9338843

30.93892951

4.061070485

16.49229348

34.06060606

0.939393939

0.882460973

33.45454545

-3.454545455

11.9338843

31.84257273

-1.842572726

3.395074249

34.06060606

-4.060606061

16.48852158

33.45454545

-2.454545455

6.024793388

31.84257273

8.157427274

66.54361974

34.06060606

5.939393939

35.27640037

33.45454545

-2.454545455

6.024793388

32.74621594

-0.746215936

0.556838223

34.06060606

-2.060606061

4.246097337

33.45454545

-1.454545455

2.115702479

33.64985915

0.350140853

0.122598617

34.06060606

-0.060606061

0.003673095

33.45454545

-0.454545455

0.20661157

33.64985915

-1.649859147

2.722035204

34.06060606

-2.060606061

4.246097337

33.45454545

-0.454545455

0.20661157

34.55350236

-0.553502357

0.30636486

34.06060606

-0.060606061

0.003673095

33.45454545

0.545454545

0.297520661

36.36078878

0.639211222

0.408590986

34.06060606

2.939393939

8.640036731

33.45454545

2.545454545

6.479338843

36.36078878

1.639211222

2.687013429

34.06060606

3.939393939

15.51882461

33.45454545

2.545454545

6.479338843

36.36078878

-2.360788778

5.573323656

34.06060606

-0.060606061

0.003673095

33.45454545

2.545454545

6.479338843

37.26443199

-1.264431989

1.598788255

34.06060606

1.939393939

3.761248852

33.45454545

3.545454545

12.57024793

38.1680752

-0.1680752

0.028249273

34.06060606

3.939393939

15.51882461

33.45454545

4.545454545

20.66115702

39.07171841

-2.07171841

4.292017171

34.06060606

2.939393939

8.640036731

33.45454545

5.545454545

30.75206612

39.07171841

-3.07171841

9.435453991

34.06060606

1.939393939

3.761248852

33.45454545

5.545454545

30.75206612

39.07171841

5.92828159

35.14452261

34.06060606

10.93939394

119.6703398

33.45454545

5.545454545

30.75206612

39.97536162

-0.975361621

0.951330291

34.06060606

4.939393939

24.39761249

33.45454545

6.545454545

42.84297521

40.87900483

0.120995169

0.014639831

34.06060606

6.939393939

48.15518825

33.45454545

7.545454545

56.9338843

41.78264804

-1.782648042

3.177834041

34.06060606

5.939393939

35.27640037

33.45454545

8.545454545

73.02479339

41.78264804

2.217351958

4.916649706

34.06060606

9.939393939

98.79155188

33.45454545

8.545454545

73.02479339

42.68629125

-5.686291252

32.33390821

34.06060606

2.939393939

8.640036731

33.45454545

9.545454545

91.11570248

43.58993446

0.410065537

0.168153745

34.06060606

9.939393939

98.79155188

33.45454545

10.54545455

111.2066116

44.49357767

1.506422326

2.269308225

34.06060606

11.93939394

142.5491276

33.45454545

11.54545455

133.2975207

45.39722088

0.602779116

0.363342662

34.06060606

11.93939394

142.5491276

33.45454545

12.54545455

157.3884298

46.30086409

2.699135905

7.285334635

34.06060606

14.93939394

223.1854913

33.45454545

13.54545455

183.4793388

49.01179373

1.988206273

3.952964186

34.06060606

16.93939394

286.943067
Syy= SST= (yi
-YMedia)^2

33.45454545

16.54545455

273.7520661
Sxx=(XiXMedia)^2

( i )
1124

SSE= (yi - i)
323.3273124

VARIACION TOTAL

3713.878788

4152.181818

18

Regresin Lineal Simple

Sxy= (Xi-XMedia)(YiYMedia)
885.0275482
610.0578512
293.2699725
333.3002755
279.1184573

Ing. Luis Pedro Rico Hernndez

1.
2.
3.
4.
5.
6.
7.

Variacin no explicada (SSE)


Variacin total (Syy)
Variacin explicada (Syy= SST-SSE)
Coeficiente de determinacin (R2)
Coeficiente de correlacin (r)
sxx
sxy

39.1184573
31.45179063
31.30027548
-3.245179063
9.966942149
-14.5785124
2.997245179
0.027548209
0.936639118
-0.033057851
7.482093664
10.02754821
-0.154269972
6.876033058
17.90633609

El 91.29% existe de relacin entre las variables

16.30027548
10.75482094
60.66391185
32.33057851
52.36088154
50.75482094
84.93663912
28.05785124
104.815427
137.84573
149.785124
202.3608815
280.2699725
3752.090909

19

Você também pode gostar