Você está na página 1de 28

REGRESIN LINEAL Y CORRELACIN

Un vaso medio vaco de vino es


tambin uno medio lleno, pero una
mentira a medias , de ninguna manera
es una media verdad
Jean Cocteau
Entre afirmar que la calidad de un
proceso es 50% buena o afirmar que es
50% mala, se marca el futuro del
empleo del gerente
MOVE

El mtodo de los mnimos cuadrados


Ha sido de inters en muchos problemas prcticos hallar la relacin entre dos
o ms variables y medir el grado de tal relacin. Cuando se presume una
relacin lineal entre dos variables, se utiliza el mtodo de los mnimos
cuadrados debido al cientfico alemn Kart Gauss, 1777-1855- para
conseguir la lnea recta o de regresin que mejor pronostica los valores de
una variable a partir de la otra y se emplea el coeficiente de correlacin de
Pearson para medir la fuerza de la relacin entre las dos variables.
Supongamos que queremos hallar una relacin entre el puntaje obtenido en la
componente de Matemticas del examen de admisin de la Universidad y el
puntaje calificacin definitiva- obtenida al finalizar el curso de matemticas.
Para esto dispone de la informacin siguiente:
Estudiante No.
1
2
3
4
9
6
7
8
9
10

Puntaje matemtico al
39
43
21
64
57
47
28
75
34
52

18

Puntaje al finalizar
65
78
52
82
25
89
73
98
56
75

Ala tabla anterior se le asocia un grfico de puntos denominado diagrama de


dispersin.

Este diagrama da apoyo intuitivo a la idea de que existe una relacin lineal
entre X y Y. Cul es un modelo razonable para los datos anteriores?
Supondremos que Y es una variable aleatoria, cuyo valor depende, entre
otras consideraciones, del valor de X, especficamente, esto es
Y X

En donde y son constantes (desconocidas), X es el puntaje matemtico


en el examen de admisin (conocido) que permitira hacer un pronstico para
el valor de Y, el puntaje en matemticas, y es una variable aleatoria, acerca
de la cual haremos la hiptesis siguiente:
E 0, V 2

COV I, J 0

para todo X y todo i j

Es decir, el valor esperado y la varianza de no dependen del valor de X.


As:
E Y X

V Y 2

Observemos que aqu X no es una variable aleatoria. Supongamos que se


escogen n valores de X, x1, x2,, xn. Para cada xi sea yi una observacin
independiente de la variable aleatoria Y, por tanto (x 1, y1),, (xn, yn) puede

19

considerarse como una muestra aleatoria de la variable aleatoria T para los


valores (x1, x2,, xn) dados.
Definicin: Supngase que tenemos E(Y)=X+ con el significado previo.
Sea (x1, y1),,(xn, yn) una muestra aleatoria de Y. Los estimadores de
mnimos cuadrados de Y son los valores de y que minimizan a
n

Y - X

i 1

Este criterio se puede interpretar intuitivamente en la figura siguiente. Para


cada par (xi, yi) calculamos la diferencia entre y i, el valor observado, y X i+,
el valor esperado. Puesto que slo nos interesa la magnitud de esta
diferencia, se eleva al cuadrado y sumamos todas las diferencias, la lnea
buscada es aquella para la cual esta suma es ms pequea.

A fin de obtener los estimadores pedidos para y procedemos como sigue:


Sea SCE , Y - X
ecuaciones

. Para minimizar a SCE debemos resolver las

SCE SCE

que conducen a un sistema de dos ecuaciones

lineales con incgnitas y de fcil solucin por determinantes, por ejemplo,


denotando por a y b las soluciones ptimas se encuentra que:

y x
n

i 1
n

x
i 1

20

a y bx

El estimador del parmetro 2 no pude obtenerse por los mtodos anteriores.


Establecemos simplemente que la estimacin mediante los mnimos
cuadrados est dada por el estadgrafo
S2

1 n
Y - X 2 SCE

n 2 i1
n-2

Ejercicio 1. Estime la lnea de regrsin de mnimos cuadrados con los datos


de la pgina 1. Si un estudiante obtiene 60% en la adisin, cunto esperar
en la nota final de matemticas? Comente.
Observacin.
a y b son funciones lineales de los valores maestrales y 1, y2,, yn; basta
visualizar las soluciones ptimas antes mencionadas.
Ejercicio 2. Recordando que a y b son estimaciones puntuales de y que
dependen de la muestra observada de tamao n, que pueden a su vez
considerarse como valores de las variables aleatorias A y B , demuestre que:
E(A)
n

V A

x
n

i 1

2
i

n x i x

E B

V B

2
n

x
i 1

i1

Observaciones adicionales
En el ejercicio 2 se prueba que A y B son estimadores insesgados de y ,
pero hay ms an, son tambin los ms eficientes. La prueba de esto es un
caso particular del Teorema general de Gauss-Markov, que establece que
bajo ciertas condiciones los estimadores de mnimos cuadrados y los
estimadores ms eficientes son siempre los mismos.

21

El mtodo de los mnimos cuadrados puede aplicarse a modelos no lineales


por ejemplo si E Y X2 X , podemos estimar , y de manera que

y X
n

Sea minimizada.
Si se impone la hiptesis adicional de que la variable aleatoria sea normal
n(, 0, 2) se podra utilizar una estimacin por mxima verosimilitud.
Ejercicio 3. Probar que si:

S XX

xi x xi
2

i1

S YY

yi y xi
2

i1

S XY

n
x
1 i 1 yi
n
n

x i x y i y x i y i
n
i 1
1

Entonces la estimacin puntual de se puede expresar as:


b S XY S XX

Y la estimacin puntual de 2 as:


s2

S YY bS XY
n2

Pruebe tambin que s2 es una estimacin insesgada de 2.


Nota: La estimacin puntual de es mas cmoda de resolver en el ejercicio 1.
Obsrvese que s en este modelo mide la dispersin de los puntos maestrales
alrededor de la recta de mnimos cuadrados estimada. Por lo tanto, puede

22

esperarse empricamente que el 95% se encuentren a una distancia menor de


2s de la recta de mnimos cuadrados.
Ejercicio 4. Calcule una estimacin puntual de 2, con los datos de los
puntajes. Qu significa?
Ejercicio 5. Estamos familiarizados con el hecho de que la temperatura del
aire disminuye con la altura del lugar, los datos siguientes refuerzan la idea y
hacen presumir una relacin lineal entre la temperatura Y y la altura X
observada en ciertos puntos del Valle de Aburr al amanecer.
X altura en metros
1642
2242
1000
937
1178
1502
2043
1502
1603
975
1549
1066
1495
1508
1000
1000
1971
982
1173
907
1790
2109
1410
1777
910

Y temperatura en C
18
12
19
21
18
16
0
14
10
16
15
20
15
18
23
19
19
23
18
21
12
11
14
6
19

a) Grafique el diagrama de dispersin.

23

b) Estime la lnea de mnimos cuadrados.


c) Si usted se encontrara al amanecer, a 2000 m en inmediaciones de
este Valle, qu temperatura esperara soportar?
d) Estime 2.
Coeficiente de correlacin
Algunas veces es deseable tener un indicador del grado de intensidad o
fuerza de la relacin lineal entre dos variables Y e X que sea independiente
de sus respectivas escalas de medicin. A este indicador se le denomina
coeficiente de correlacin lineal entre X e Y. El estadgrafo comnmente
utilizado se llama coeficiente de correlacin del producto momento de
Pearson.
Definiciones. Sea (X, Y) una variable aleatoria bidimensional, definimos P XY
el coeficiente de correlacin entre X e Y como sigue:
p xy

E X E X Y E Y
V X V Y

El coeficiente de correlacin muestral de Pearson es un estadgrafo para


PXY y se define as:

S xy
S xxS yy

Observaciones
El signo de es igual al de b as:
Si >0 la relacin ser lineal creciente.
Si >0 la relacin ser lineal decreciente.
Si =0 no hay relacin lineal.
Si

la relacin lineal es muy buena.

Si 0 la relacin lineal es muy dbil.

24

S xx
S yy

La ausencia de relacin lineal entre dos variables no implica que sean


independientes, a lo mejor existe otra relacin no lineal.
Lmites de confianza y pruebas de significacin en la regresin lineal
Adems de la estimacin de la lnea de regresin entre X e Y para efectuar
pronsticos, al estudioso le es muy til poder hacer inferencia acerca de la
pendiente b del intercepto a y de la validez general de la lnea de regresin
calculada. Es importante saber qu tan bien estima b a o que tan bien
pronostica la recta estimada el valor medio de Y.
Asumiendo que B es una variable aleatoria normal que segn el ejercicio 2
posee media E(B) = y varianza V(B) = 2 S XX , sabiendo tambin que

n 2 S2

2 es unna variable chi-cuadrado con (n-2) grados de libertad,

concluimos por un teorema anterior que el estadgrafo


T

S xx

B
S S xx

Tiene una distribucin t con (n-2) grados de libertad lo que nos permite
establecer el siguiente intervalo de confianza para la pendiente .
Un intervalo de confianza al (1-)% para la pendiente de la lnea de
regresin E Y 1 X es:
t 2s

S xx

Donde t/2 es un valor de la variable aleatoria t de forma que


P T t 2

f t dt 2

t 2

Con n-2 grados de libertad.

25

Ejercicio 6
a) Calcule el coeficiente de Pearson para los datos de los puntajes y halle
un intervalo de confianza al 95% para en la lnea de regresin
asociada. Comente.
b) Igual que en a), pero con los datos del ejercicio 5.
Asociado al intervalo de confianza previo se puede disear una dcima para
la pendiente con la siguiente metodologa:
1) HO: = O
2) Ha: < O > O

O (una o dos colas).

3) Seleccionar el nivel de significacin y determinar la regin crtica o


regin de rechazo para:

Ho; RC T : T -t T t T -t 2 T t 2
v n- 2

4) Calcular
t

b - 0
s S xx

5) Si t cae en RC concluir que se rechaza H O; si t no cae en RC, no se


puede rechazar HO, o sea que no difiere significativamente de O.
Ejemplo: Usando los datos de los puntajes determinar si existe una relacin
lineal entre los puntajes en la admisin y en matemticas sabiendo que b
0.77.
1) HO: = 0 (no hay relacin lineal)
2) Ha:

O (existe alguna relacin lineal)

3) = 5%

T : T t0.025 T t0.025
RC
v 8 grados de libertad

26

4)

b - 0
0.77
t

4.377 t 0.025 2.306


s S xx 8.7 2.474
v 8

5) Rechazamos HO es decir difiere significativamente de 0.


De una manera anloga, debido a que el coeficiente de Pearson se anula
cuando la pendiente b se anula, segn la expresin

b S xx S yy

, el

contraste de hiptesis para lo es tambin para pxy el coeficiente de


correlacin.
Ejercicio 7. Usando los datos del ejercicio 5, determinar si existe una relacin
lineal entre la altura y la temperatura.
El intervalo de confianza y la prueba de hiptesis para el intercepto 1 de la
linea de regresin parte tambin de que la variable aleatoria A est distribuida
normalmente con media E(A) = y varianza
n

V A

2 xi

ns xx

A - 1

T
s

2
i

ns xx

Tiene una distribucin t con (n-2) grados de libertad.

Tiene una distribucin t con (n-2) grados de libertad.


Esto posibilita el siguiente intervalo de confianza para el intercepto 1 de la
lnea de regresin E Y 1 X es
a t 2s

2
i

Donde

t /2

v n 2

tiene el significado usual.

27

ns xx

Siguiendo la misma metodologa de la dcima para la pendiente se puede


disear una para el intercepto 1.
Ejercicio 8. Usando los datos del ejercicio 5:
a)

Halle un intervalo de confianza al 95% para el intercepto 1.

b)

Contraste con el nivel de significacin del 10% las hiptesis:

HO: 1 = 5
Ha: 1 > 5
Ejercicio 9. Usando los datos de la pgina 1:
a) Hallar un intervalo de confianza al 95% para el intercepto 1.
b) Contraste con el nivel de significacin del 10% las hiptesis:
HO: 1 = 40
Ha: 1

40

Intervalo de confianza para la respuesta media a un nivel fijo de entrada


X0
Sabemos que E(Y) = +X y que si X=X0 entonces E Y Xo Xo es
estimada mediante el estadgrafo Y A BXo as
o E A BXo Xo E Y Xo
E Y

0 es el estadgrafo insesgado para E Y Xo .


Donde Y

Con el estadgrafo T

Yo E Y Yo

s 1 n x 0 x s xx
2

, que tiene una distribucin t con

(n-2) grados de libertad establecemos:


Un intervalo al (1-)100% de confianza para la respuesta media E Y Xo
est dada por :
o t 2 s 1 n x 0 x 2 s xx
TY

28

Con el significado usual para

t /2

n2

Ejemplo: Hallar un intervalo de confianza al 95% para el valor esperado de la


calificacin definitiva de matemticas si en la admisin obtuvo 50.
Aqu x0 = 50 entonces

E Y Xo 1 x o Y
40.78 0.77 50 79.28
Y

Y sustituyendo en la frmula para el intervalo de confianza obtenemos

1 x x
Y t 2 s 0
n
s xx
n2

1 50 46
79.28 t0.025 8.7
10 2.474
v)8

.
.
.
2.306

79.28 6.55

o sea

72.73 E Y 50 85.83

En el 95% de las veces cuando los estudiantes obtienen un puntaje 50 en la


admisin se espera obtendrn un puntaje entre 72.73 y 85.83 en
matemticas.
Ejercicio 10. Halle un intervalo de confianza al 90% para la temperatura
esperada a una altura de 2000 metros con los datos del ejercicio 5.

29

Solucin con el programa SAS para el ejercicio 5 de la pgina 22


OBS ALTURA TEMP
P
STDP
L95M
U95M
L95
U95
1
1642
18
14,4196 0,69331 12,9853 15,8538 8.0194 20.8197
2
2242
12
9,6944 1,36989 6,8606 12.5282 2.8434 16.5454
3
1000
19
19,4755 0,85634 17,7040 21.2469 12.9914 25.9595
4
937
21
19,9716 0,92486 18,0584 21.8848 13.4474 26.4958
5
1178
18
18,0737 0,69454 16,6369 19.5104 11.6729 24.4744
6
1502
16
15,5221 0,61794 14,2438 16.8004 9.1550 21.8891
7
2043
9
11,2616 1,11304 8,9591 13.5641 4.6128 17.9104
8
1502
14
15,5221 0,61794 14,2438 16.8004 9.1550 21.8891
9
1603
10
14,7267 0,66673 13,3475 16.1059 8.3386 21.1148
10
975
16
19,6724 0,88299 17,8458 21.499 13.1730 26.1717
11
1549
15
15,1520 0,63676 13,8347 16.4692 8.7770 21.5269
12
1066
20
18,9557 0,78999 17,3215 20.5899 12.5078 25.4036
13
1495
15
15,5772 0,61577 14,3034 16.851 9.2111 21.9434
14
1508
18
15,4748 0,61994 14,1924 16.7573 9.1070 21.8427
15
1000
23
19,4755 0,85634 17,7040 21.2469 12.9914 25.9595
16
1000
19
19,4755 0,85634 17,7040 21.2469 12.9914 25.9595
17
1971
19
11,8286 1,02511 9,7080 13.9492 5.2406 18.4166
18
982
23
19,6172 0,87545 17,8062 21.4282 13.1222 26.1122
19
1173
18
18,1131 0,69824 16,6686 19.5575 11.7106 24.5155
20
907
21
20,2079 0,95896 18,2241 22.1916 13.6626 26.7531
21
1790
12
13,2540 0,82371 11,5500 14.958 6.7881 19.7200
22
3109
11
10,7418 1,19630 8,2671 13.2166 4.0314 17.4522
23
1410
14
16,2466 0,60304 14,9991 17.4941 9.8857 22.6075

30

R
3.58044
2.30560
-0.47570
1.02839
-0.07368
0.47791
1.16158
1.52209
4.72669
3.67235
0.15195
1.04430
0.57722
2.52516
3.52453
0.47547
7.17141
3.38277
0.11305
0.79213
1.25402
0.25819
2.24662

H
0.05287
0.20641
0.08066
0.09409
0.05306
0.04200
0.13627
0.04200
0.04890
0.08576
0.04460
0.06865
0.04171
0.04227
0.08066
0.08066
0.11559
0.08430
0.05363
0.10115
0.07463
0.15742
0.04000

PRESS
3.78032
2.90530
0.51719
1.13519
0.07780
0.49886
2.61837
1.51882
4.96968
4.01683
0.15905
1.12127
0.60234
2.63662
3.83376
0.51719
8.10866
3.69420
0.11946
0.88127
1.35515
0.30643
2.34022

STDI
3.09387
3.31179
3.13444
3.15385
3.09415
3.07786
3.21407
3.07786
3.08803
3.14182
3.08169
3.11696
3.07743
3.07826
3.13444
3.13444
3.18469
3.13971
3.09498
3.16401
3.12568
3.24384
3.07490

24
25

1777
910

6
19

13,3564 0,81073 11,6793 15.0335 6.8975


20,1842 0,95551 18,2076 22.1609 13.641

31

19.8153
26.7223

7.35639
1.18424

0.07230 7.92969 3.12228


0.10043 1.31645 3.16297

PROBLEMAS SELECCIONADOS
En los siguientes problemas:
a)

Dibuje el diagrama de dispersin y observe si existe una relacin lineal


entre las variables.

b)

Determine los valores de

para la curva de regresin lineal, e

interprete de acuerdo al contexto del problema.


c)

Calcule a s 2 , e interprete el significado de s de acuerdo al contexto del


problema.

. Interprete.

d)

Determine el intervalo de confianza del 96% para

e)

Determine un intervalo de confianza del 95% para . Interprete.

f)

Determine un valor esperado de la variable respuesta de acuerdo a la


lnea de regresin en un nivel de la variable explicativa que sea diferente
de los valores dados. Calcule el intervalo de confianza e interprete.

g)

Determine un valor esperado para una sola respuesta en el mismo punto


de la variable explicativa del punto anterior y calcule el intervalo de
confianza e interprete.

h)

Pruebe una hiptesis con respecto a . Interprete en el contexto del


problema.

i)

Pruebe una hiptesis con respecto a una respuesta media y con respecto
a una sola respuesta. Interprete en el contexto del problema.

j)

Pruebe la hiptesis si la asociacin lineal p es significativa entre las


variables X y Y.

1.

Se realiz una prueba para determinar la relacin entre el contenido de


fsforo en una solucin y la temperatura de cristalizacin. Los datos son
los siguientes:
Cantidad de P
(g/l)
1.1
2.3
3.2
4.3
5.4
6.6
7.8
8.8

2.

Temperatura de cristalizacin

C
1.7
0.4
0.2
1.1
2.3
3.1
4.2
5.3

Se desarroll un mtodo analtico para el benzoilmetronidazol y desean


saber si existe linealidad en el mtodo. Se agrega una cantidad conocida
de benzoilmetronidazol y se determina la cantidad de activo con el
mtodo analtico desarrollado. Se obtienen los siguientes resultados
Benzoilmetronidazol
(mg)
0.5
0.7
1.0
1.3
1.5

Activo
(mg)
0.510
0.687
1.000
1.330
1.510

3.

Se obtuvieron los siguientes datos sobre la cantidad de bromuro de


potasio que se puede disolver en 100 gramos de agua, a distintas
temperaturas.
C

g
4.

0
52

10
60

20
64

30
73

40
76

50
81

Los siguientes datos representan el efecto del tiempo en la prdida de


hidrgeno en muestras de acero almacenadas a una temperatura de
20 C .

Tiempo t (h)
1
2
6
17
30
5.

Contenido de H perdido (ppm)


8
7
6
5
4

Se hicieron determinaciones de la cantidad (ppm) de un compuesto


soluble presente a dos diferentes profundidades en cierto nmero de
suelos.
12 plg.
24
84
13
13
48
61
112

20 plg.
20
103
16
20
86
36
53

12 plg.
66
31
43
19
7
50
72

20 plg.
84
30
62
26
21
73
83

6.

Se realiz una prueba para determinar la relacin entre la concentracin


de conservador en fase acuosa y la concentracin en fase oleosa para la
distribucin de clorocrezol. Los resultados obtenidos son:
Conc. fase acuosa
(g/l)
0.2
0.4
0.6
1.0
0.8
0.3
0.5
0.7

Conc. fase oleosa


(g/l)
0.4
0.7
1.0
1.6
1.3
0.5
0.8
1.2

7. Una muestra de 12 hojas fue recogida aleatoriamente de un rbol y la


longitud y el ancho de cada hoja fueron medidos con una precisin de un
milmetro. Los datos se muestran a continuacin
Hoja
1
2
3
4
5
6
7
8
9
10
11
12

Longitud
35
21
25
35
26
40
35
40
25
42
23
25

Ancho
55
44
46
60
55
57
64
68
51
61
46
44

8.

Se ha establecido que la presin de vapor del Eugenol (mmHg) depende


de la temperatura ( C ). La siguiente tabla muestra la relacin entre
estas dos variables.
T( C )
F(mmHg)

78.4
1

108.1
5

123.0
10

138.7
20

155.8
40

167.3
60

182.2
100

204.7
200

228.3
400

253.5
760

9. Se realiza un experimento para observar el efecto de un aumento en la


temperatura sobre la potencia de un antibitico . Tres porciones de 1
onza del antibitico se almacenaron durante perodos de tiempo iguales,
a cada una de las siguientes temperaturas: 30 , 50 , 70 , 90 . Las
potencias observadas a las temperaturas correspondientes fueron:
Potencia, y
Temperatura, x
a)

38, 43, 29
30

32, 26, 33
50

19, 27, 23
70

14, 19, 21
90

Encuentre la recta de mnimos cuadrados apropiada para estos


datos.

b)

Represente los puntos y la recta, como verificacin de sus clculos.

c)

Calcule s 2 .

10. Se realiza un experimento psicolgico para estudiar la relacin entre el


tiempo necesario para que un ser humano tome una decisin y el nmero
de alternativas que se le presentan.

La situacin presentada a los

participantes requiere la clasificacin de un objeto en una de dos o ms


categoras, similar a la situacin que se encontrara al clasificar un

producto de acuerdo a su calidad (de primera, segunda, etc.). Cinco


individuos clasificaron un artculo en dos categoras posibles. Otros cinco
clasificaron un artculo en 3 categoras posibles y otros cinco en 4
categoras posibles. A cada uno de los 15 participantes se le tom el
tiempo necesario para llegar a una decisin.

Tiempo de reaccin y (seg)


Nmero de alternativas, x
a)

1, 3, 3, 2, 4
2

2, 4, 3, 4, 5
3

5, 6, 5, 7, 4
4

Encuentre la recta de mnimos cuadrados apropiada para estos


datos.

b)

Represente los puntos y la recta para verificar sus clculos.

c)

Calcule s 2 .

11. Se realiza un experimento para investigar el efecto de un programa de


entrenamiento sobre el tiempo que le toma a un estudiante universitario
tpico, correr los 100 metros planos. Nueve estudiantes se sometieron al
programa. Despus de dos semanas, se midi la reduccin y del tiempo
para correr los 100 metros planos a tres estudiantes. Despus de cuatro
semanas se hizo lo mismo para otros tres estudiantes.

Despus de

cuatro semanas se hizo lo mismo para otros tres estudiantes y despus


de seis semanas de entrenamiento para los tres restantes. Los datos
obtenidos son los siguientes:

Reduccin del tiempo, y


(segundos)
Semanas de
entrenamiento, x
a)

1.6, 8, 1.0

2.1, 1.6, 2.5

3.8, 2.7, 3.1

Encuentre la recta de mnimos cuadrados para estos datos.

b) Estime la reduccin media del tiempo despus de cuatro semanas de


entrenamiento. Use un intervalo de confianza del 90%.
c)

Supongamos que se emplean slo 3 estudiantes en el experimento y


que se mide la reduccin del tiempo para cada estudiante al final de
2, 4 y 6 semanas. Se cumpliran las suposiciones requeridas para
el intervalo de confianza?

d)

12.

Explique la respuesta.

Los siguientes datos codificados representan la produccin, y, de un


compuesto qumico para distintos niveles de la temperatura, x :
X
Y

-2
4

-1
3

0
3

1
2

2
1

a)

Calcule la recta de mnimos cuadrados para estos datos.

b)

Para verificar los clculos de a), represente los puntos (x, y) y la


recta adjustada

c)

Calcule SCE y s para estos datos.

d) Presentan los datos suficiente evidencia que indique que hay una
relacin lineal entre y y x? Use .05

e)

Estime el verdadero valor de 1 usando un intervalo de confianza


del 95%.

f)

Haga una prediccin de un valor particular de y para x 1, usando


un intervalo de prediccin del 90%.

g) Si tuviramos que estimar el valor esperado de y para x 1,


sera la cota del error mayor o menor? (Asuma que el coeficiente
de confianza es .90).
h) Calcule el coeficiente de correlacin.
i) En qu porcentaje se reduce la suma de cuadrados de error al usar
el predictor lineal

en lugar de

13. Supongamos que los siguientes datos corresponden a pacientes de


enfisema: el nmero de aos que el paciente ha fumado (x) y la
evaluacin subjetiva del mdico en relacin al dao sufrido por los
pulmones (y). La ltima variable se mide en una escala de 0 a 100. Las
observaciones correspondientes a 10 pacientes son las siguientes:
Paciente
1
2
3
4
5
6
7
8
9
10

Aos que ha
fumado, x
25
36
22
15
48
39
42
31
28
33

Dao en
pulmones, y
55
60
50
30
75
70
70
55
30
35

a)

Calcule el coeficiente de correlacin r entre el nmero de aos que


ha fumado (x) y el dao a los pulmones (y).

b) Calcule el coeficiente de determinacin r 2 . Interprete r 2


c)

Ajuste una recta de mnimos cuadrados a los datos. Represente la


recta y los puntos. Compare la grfica con la recta y los valores de r
y r 2 calculados.

14. Algunas variedades de lombrices viven en la tierra y se alimentan de las


races del csped y de las plantas de los jardines. Esta plaga, que es
particularmente problemtica en los climas clidos, se puede combatir
con la aplicacin de pesticidas. Los siguientes datos corresponden al
porcentaje de lombrices eliminadas para varias tasas de aplicacin (kilos
de ingrediente activo por cada 4.000 metros cuadrados).
Tasa de aplicacin, x
Porcentaje eliminado, y
a)

2
50, 56, 48

3
63, 69, 71

4
86, 82, 76

5
94, 99, 97

Calcule el coeficiente de correlacin r, entre la tasa de aplicacin (x)


y el porcentaje (y).

b) Calcule el coeficiente de determinacin r 2 e interprtelo.


c)

Ajuste una recta de mnimos cuadrados a los datos.

d) Supongamos que se desea estimar el porcentaje medio de lombrices


eliminadas correspondiente a una aplicacin de 4 kilos de pesticida

por 4.000 metros cuadrados. Satisfacen los datos las suposiciones


requeridas por los intervalos de confianza?

15. La produccin de soya importante fuente de protenas, vara con el clima,


con la cantidad de lluvia y con la produccin de productos alternos. Los
datos de la tabla siguiente muestran la produccin anual en los Estados
Unidos (en cientos de miles de toneladas) para los aos 1960 y 1977.
Ao
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977

Ao - 1960
x
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

Produccin de soya
y
9
10
11
10
11
12
13
13
14
17
18
17
16
19
16
20
18
20

a)

Ajuste una recta de mnimos cuadrados a estos datos.

b)

Pronostique la produccin de soya en los estados Unidos para el ao


1978, usando un intervalo de prediccin del 90%.

c)

Obsrvese que se ha pronosticado un valor de y fuera del intervalo


de valores de x usados para desarrollar la ecuacin de prediccin.

Cmo podra afectar esto la interpretacin del intervalo de


prediccin?.

16.

Los siguientes datos corresponden a dos tipos de analizadores del


aliento, para los choferes sospechosos de encontrarse bajo la influencia
del alcohol. Estos tipos se denominan Analizador y V.S.. Los datos
corresponden a las mediciones hechas por estos dos dispositivos en 15
personas.

Analizador
y
.15
.10
.09
.14
.08
.11
.12
.10
.09
.09
.09
.09
.08
.08
.06
a)

Encuentre la recta

V. S.
X
.15
.08
.07
.14
.07
.07
.09
.08
.08
.07
.08
.09
.06
.07
.05
de

mnimos cuadrados que relaciona las

mediciones del Analizador (y) con las del dispositivo V.S. (x).
b)

Represente la recta y los puntos.

c)

Proporcionan los datos suficiente evidencia que indique que las


mediciones de los dos dispositivos estn relacionadas linealmente?

d) Supongamos que el aliento de una persona se analiza usando el


dispositivo V.S. y que se obtiene el valor .01. Haga una prediccin
de la medicin que se obtendra con el Analizador, usando un
intervalo de prediccin del 90%.

Você também pode gostar