Você está na página 1de 32

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II

Profesora: Vernica Herrero


- 1 -
MODULO 4

4.- ANLISIS DE REGRESIN Y CORRELACIN


Bibliografa bsica:

Berenson y Levine (1996) Estadstica para Administracin y Economa. 6. Ed.
Prentice Hall Hispanoamericana. Madrid.
Captulos: 17 (Apartados 17.1, 17.2, 17.3, 17.4, 17.5, 17.6, 17.7, 17.8, 17.9), 18
(Apartados 18.1 y 18.2)


4.1. ANLISIS DE REGRESIN LINEAL

La idea de poder predecir cierto valor de una variable a partir del conocimiento del
valor de otra que la determina o influye ha llevado a desarrollar las tcnicas que
presentamos en este mdulo.

En particular, la idea es detectar si existe una relacin lineal entre dos variables,
una que llamaremos dependiente que es condicionada por los valores de otra que
denominamos independiente o explicatoria.


Diagrama de dispersin

Como siempre en Estadstica, un primer anlisis exploratorio grfico posibilita un
avance en el conocimiento sobre un fenmeno, aunque no de manera concluyente.
Un grfico da la posibilidad de visualizar rpidamente la posible existencia de una
relacin entre las variables de inters.
El diagrama de dispersin, de amplia aplicacin en el caso del anlisis de
regresin, consiste en la representacin de puntos en un sistema de ejes
cartesianos, donde los valores de la variable dependiente se indican en las
ordenadas y los de la variable independiente en las abscisas. Cada punto del
grfico corresponde con las coordenadas del mismo representado como par
ordenado (x, y). El conjunto de puntos que quedan ilustrados recibe el nombre de
nube de puntos.
Un diagrama de dispersin permite visualizar la forma de la relacin, pero siempre
debe tomarse precauciones (no confiar en las apariencias), por lo cual siempre
necesitaremos los test y estimaciones estadsticas. No obstante, destacamos que
la primera aproximacin grfica es un buen punto de partida, por ejemplo, para
preliminarmente analizar si la lnea recta ser una aproximacin aceptable de la
relacin o no.
En el ejemplo de Diagrama de dispersin que mostramos a continuacin, la
variable Y (dependiente) indica, en el marco de un estudio sobre productividad


Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 2 -
laboral en el contexto fabril, el nmero de errores en una tarea repetitiva de un
ocupado en el mercado laboral, mientras que la variable X (independiente) seala
el nmero de horas seguidas de repeticin de la actividad. Para describir la
relacin aparente entre estas variables, podramos indicar que si bien en nuestra
muestra hay pocos casos con muy pocas horas de realizacin la tarea repetitiva, a
medida que ms horas se lleva a cabo continuamente la misma, el nmero de
errores resulta ms elevado. Con la intencin de ser ms especficos y sintticos al
mismo tiempo, el modelo de regresin lineal intenta asociar la relacin entre estas
variables a travs de una lnea recta que generalice esta vinculacin, despreciando
las oscilaciones especficas de cada caso particular respecto de la lnea recta que
indicara la estructura de la relacin entre experiencia y salario inicial.


Figura: Diagrama de dispersin
Y

=

n

m
e
r
o

d
e

e
r
r
o
r
e
s

e
n

u
n
a

t
a
r
e
a

r
e
p
e
t
i
t
i
v
a


X = nmero de horas seguidas de repeticin de la actividad
Fuente: Elaboracin propia


Actividad:

1. Elabore (utilizando una hoja cuadriculada, para facilitar la adecuacin a una
escala proporcional de cada variable) la siguiente relacin:

Los siguientes datos fueron tomados de un estudio sobre las diferentes
sucursales de una marca de supermercados de la ciudad:




Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 3 -

Sucursal Superficie del local de
venta (m
2
)
Ventas diarias (en
miles de $)
1 300 425
2 350 435
3 450 550
4 500 600
5 700 860
6 760 770
7 770 980
8 900 1100
9 1200 1240
10 1400 1500
11 2000 2400
12 2050 2200
13 2100 2080


2. Intente graficar utilizando Excel. Aproveche la Ayuda disponible en el
programa, invierta unos minutos en explorar, conocer cmo realizar buenos
grficos con las herramientas estndar le puede ser muy til.


El modelo de regresin lneal

Como a partir del diagrama de dispersin comenzamos a sospechar de una
relacin aproximadamente lineal (es decir, que tiene forma de lnea recta),
trataremos de ver si realmente podemos indicar la relacin a partir de este
modelo.

El modelo lineal puede sintetizarse de manera que represente una lnea recta
con la siguiente expresin:
i i i
X Y c | | + + =
1 0

Donde:
=
0
| la interseccin u ordenada al origen poblacional
=
1
| la pendiente poblacional
=
i
c error aleatorio en Y para la i-sima observacin



Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 4 -


Figura: Relacin lineal positiva

Y

=

n

m
e
r
o

d
e

e
r
r
o
r
e
s

e
n

u
n
a

t
a
r
e
a

r
e
p
e
t
i
t
i
v
a


X = nmero de horas seguidas de repeticin de la actividad
Fuente: Elaboracin propia

El coeficiente |
0
representa la ordenada al origen, es decir, el punto en que la
recta corta al eje vertical.
El coeficiente |
1
es la pendiente de la recta, el cual indica el cambio en el valor
esperado de la variable Y cuando se produce un cambio en una unidad de X.













Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 5 -

Figura: Diferentes ordenadas al origen
Ordenada al origen: 3,95

Ordenada al origen: 2,7

Ordenada al origen: 1,6

Fuente: Elaboracin propia con la herramienta de simulacin provista por:
http://www.seeingstatistics.com/seeing1999/resources/opening.html


Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 6 -

La relacin lineal es uno de los modelos que puede seguir la relacin entre dos
variables. En este caso, a su vez, la relacin puede ser positiva (tal como la
ejemplificada) o negativa. No obstante, la relacin podr a tener otra forma
(curvilnea, constante, etc.) que pudiera tener enorme inters terico y prctico,
que se trabaja con tcnicas ms sofisticadas que las que presentaremos en
este mdulo. La siguiente figura ilustra algunas de las situaciones posibles.

Figura: formas de la relacin entre dos variables
Relacin lineal positiva

Relacin lineal negativa

Relacin cuadrtica entre las variables



Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 7 -
Variables que aparentemente no poseen
relacin

Fuente: Elaboracin propia


Determinacin de la ecuacin de regresin lineal simple

Hasta el momento hemos visto que podemos sospechar de la relacin lineal
entre las variables, pero no presentamos la manera de deducir el valor de los
valores de los estimadores de la pendiente y la ordenada al origen en base a
datos de una muestra.
El Mtodo de mnimos cuadrados es una manera de obtener la ecuacin que
mejor ajusta a la nube de puntos, justamente minimizando la suma de los
cuadrados de los errores (o residuos).

Figura: Recta de mnimos cuadrados

La ecuacin de la recta


Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 8 -

i i
X b b Y
1 0

+ =

que mejor ajusta la nube de puntos del grfico de dispersin es la que
minimiza la suma de los cuadrados de los residuos.

Esta manera de obtener los valores de b
0
y b
1
, permite seleccionar una de
todas las posibles rectas (algunos ejemplos pueden observarse en la figura
siguiente) que podran ser utilizadas para describir la relacin. El mtodo de
mnimos cuadrados aporta un criterio para determinar esa recta. Este criterio
corresponde a determinar la recta en la cual los valores reales y los valores
predichos tienen la mnima distancia. Como puede observarse en la figura
previa, la recta de mnimos cuadrados, es la que tiene las menores distancias
totales (e
j
: la distancia vertical indicada en la figura). En cuanto a si las
diferencias (e
j
) entre la recta de regresin y los valores observados, no interesa
si las diferencias son por exceso o por defecto, por lo tanto, se trabaja con la
suma de desvos elevados al cuadrado.

Figura: Otras rectas de regresin posibles


Para obtener los valores de los estimadores de los parmetros de la recta de
regresin, se minimiza la expresin

2
1 0
2 2
1
) ( min )

( min min
i i i i
X b b Y Y Y e = =




Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 9 -

Los valores b
0
y b
1
que minimizan la funcin se obtienen al igualar a cero las
derivadas parciales de la funcin respecto de cada uno de los parmetros.
Tales estimadores verifican tambin la condicin de segundo orden de un
mnimo (estudiada en las materias vinculadas con el Anlisis Matemtico).
A travs de este proceso se obtienen las denominadas ecuaciones normales,
que permiten despejar las frmulas de clculo de los estimadores de la
pendiente y la ordenada al origen respectivamente.

Ecuacin I:

+ =
i i
X b b n Y . .
1 0

Ecuacin II:

+ =
2
1 0
.
i
X b X b Y X
i i i


Si ambas ecuaciones se resuelven como un sistema, se pueden obtener los
estimadores:

Pendiente:

=
2 2
1
.
X n X
Y X n Y X
b
i
i i


Ordenada:
X b Y b
o 1
. =


Veamos en un ejercicio cmo se aplican todos estos conceptos.

Ejercicio:
Los siguientes datos corresponden a informacin sobre pautas de consumo de
individuos adultos de una ciudad metropolitana.
La variable X indica la edad del individuo (medida en aos), mientras que la
variable Y seala la cantidad de veces que salieron a comer fuera de su casa,
en ocasiones de esparcimiento, en el ltimo ao. Los datos consideran una
muestra reducida de individuos de la ciudad, por tratarse de un estudio piloto.


Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 10 -

Datos del ejercicio
X Y
60 23
62 23
61 25
55 25
53 26
60 26
63 29
53 30
52 30
48 32
49 33
53 31


Descripcin grfica de los datos bivariados
Diagrama de dispersin


Obtencin de los estimadores de la pendiente y la ordenada al origen
a) Las medias de las variables son:
75 , 55 = X aos



Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 11 -
y

75 , 27 = Y veces que sale a comer por ao

b) Tabla auxiliar

La siguiente tabla facilita el clculo posterior, debido a la manera en que se
sistematizan los datos:

X Y
X
2
XY
60 23
3600 1380
62 23
3844 1426
61 25
3721 1525
55 25
3025 1375
53 26
2809 1378
60 26
3600 1560
63 29
3969 1827
53 30
2809 1590
52 30
2704 1560
48 32
2304 1536
49 33
2401 1617
53 31
2809 1643
Suma: 37595 18417

c) Clculo del estimador de la pendiente

=
2 2
1
.
X n X
Y X n Y X
b
i
i i


2
1
) 75 , 55 .( 12 37595
75 , 55 . 75 , 27 . 12 18417
.

= b

75 , 37296 37595
75 , 18564 18417
.
1

= b

495 , 0 .
1
= b


Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 12 -
Tal como esperbamos de analizar el grfico de la nube de puntos, la
pendiente de la recta de regresin es negativa.

d) Clculo del estimador de la ordenada al origen
X b Y b
o 1
. =

75 , 55 ) 495 , 0 ( 75 , 27 . =
o
b

37 , 55 . =
o
b

Por lo tanto, la ecuacin estimada de la recta es:

i i
X Y . 495 , 0 37 , 55

=


Si queremos usar los resultados para, por ejemplo, predecir la cantidad de
salidas a comer de un consumidor, de por ejemplo, 50 aos, reemplazamos en la
ecuacin estimada, el valor de X por este valor especfico de la variable
independiente:

50 . 495 , 0 37 , 55

=
i
Y

6 , 30

=
i
Y salidas a comer al ao, por esparcimiento













Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 13 -
Figura: Predicciones utilizando la recta de regresin
En una recta de regresin, para
como la indicada, obtenemos la
prediccin reemplazando en la
ecuacin a X por el valor que se
desee considerar, y luego
realizamos los clculos indicados en
la ecuacin.
En base a la recta planteada,
cuando X=2,3, Y predicho ser 2,38

Cuando X=3,65, Y predicho ser
3,19

Cuando X=4,35, Y predicho ser
3,61

Fuente: Elaboracin propia con la herramienta de simulacin provista por:
http://www.seeingstatistics.com/seeing1999/resources/opening.html



Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 14 -
Predicciones: para interpolar y no para extrapolar
Es muy importante que los valores de X que se utilicen para predicciones
correspondan al intervalo de valores considerados al calcular los estimadores
de los parmetros.
No corresponde aplicar el modelo obtenido a valores de la variable que
excedan los valores considerados en la regresin, ya que nada asegura que la
relacin se mantenga ms all del rango de valores de estudio.




Error estndar de estimacin
Como se puede observar si en el ejemplo anterior calculan todos los valores
predichos en base al modelo estimado para los valores de X disponibles, las
predicciones basadas en el modelo no son exactas.


X Y
i
Y


i i
Y Y


2
)

(
i i
Y Y
60 23
25,637 -2,637 6,951
62 23
24,646 -1,646 2,708
61 25
25,141 -0,141 0,019
55 25
28,114 -3,114 9,694
53 26
29,104 -3,104 9,636
60 26
25,637 0,363 0,132
63 29
24,150 4,850 23,518
53 30
29,104 0,896 0,8022
52 30
29,600 0,400 0,160
48 32
31,581 0,419 0,175
49 33
31,086 1,914 3,663
53 31
29,104 1,896 3,593
Suma: 0,096 61,057


El error estndar de la estimacin es una medida que informa cunto varan los
datos reales en torno de la recta de regresin.

2
)

(
1
2

=

=
n
Y Y
s
n
i
i i
YX



Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 15 -

Donde
i
Y

es el valor predicho para el valor X


i
.

Para el problema ejemplificado anteriormente, el error estndar de la
estimacin, es:

10
047 , 61
=
YX
s

47 , 2 =
YX
s

El error estndar de la estimacin es la medida anloga a la desviacin
estndar, y est expresada en la misma unidad de medida que la variable Y.
Pregunta para reflexin: si el error estndar de la estimacin es anloga a la
desviacin estndar calculada en base a datos muestrales, por qu cree que
en la frmula se divide en n-2? (Ayuda: piense en el concepto de grados de
libertad, y analice a qu se asocian las prdidas de grados de libertad en este
caso).

Bondad de ajuste de la regresin
Una vez que hemos encontrado la recta de regresin, necesitamos disponer de
alguna medida que indique en qu grado es buena (o no) la representacin que
permite hacer la esa recta del conjunto de puntos iniciales.
Para construir una medida, construiremos algunas sumas de cuadrados que
permitan luego integrar esa medida.
La suma de cuadrados total (SST) indica la variabilidad de los valores de Y
respecto de su media:

=
=
n
i
i
Y Y SST
1
2
) (









Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 16 -
Figura: Descomposicin de los desvos respecto de la media


Esta suma de cuadrados totales, puede dividirse en la variabilidad explicada o
debida a la regresin (SSR) y variabilidad no explicada asociada con el error
(SSE).
SSE SSR SST + =

Para obtener cada una de estas medidas, aplicamos las siguientes frmulas de
clculo basadas en la parte del desvo respecto de la media que les
corresponde.

Suma de cuadrados debida a la regresin:

=
=
n
i
i
Y Y SSR
1
2
)

(
Suma de cuadrados debida al error:

=
=
n
i
i i
Y Y SSE
1
2
)

(
A partir de estas sumas de cuadrados, se puede definir una medida, el
coeficiente de determinacin o R
2
, que mide el grado en que la regresin
explica la variabilidad total del conjunto de datos:
SST
SSR
R =
2




Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 17 -
Figura: Relacin entre SSR y SSE
En la barra se indica
qu proporcin
corresponde a SSR (en
verde) y a SSE (en
rosa) de la variabilidad
total para la recta
obtenida.

Fuente: Elaboracin propia con la herramienta de simulacin provista por:
http://www.seeingstatistics.com/seeing1999/resources/opening.html


Obtengamos ahora el coeficiente de determinacin para el ejemplo que
estbamos desarrollando.

Para ello, completemos la tabla que tenamos, con los desvos que
necesitamos y las respectivas sumas de desvos al cuadrado

X Y
i
Y


i i
Y Y


2
)

(
i i
Y Y Y Y
i


2
)

( Y Y
i

60 23
25,637 -2,637 6,951
-2,113 4,466
62 23
24,646 -1,646 2,708
-3,104 9,636
61 25
25,141 -0,141 0,019
-2,609 6,806
55 25
28,114 -3,114 9,694
0,364 0,132
53 26
29,104 -3,104 9,636
1,354 1,834
60 26
25,637 0,363 0,132
-2,113 4,466
63 29
24,150 4,850 23,518
-3,600 12,957
53 30
29,104 0,896 0,8022
1,354 1,834
52 30
29,600 0,400 0,160
1,850 3,422
48 32
31,581 0,419 0,175
3,831 14,679
49 33
31,086 1,914 3,663
3,336 11,128
53 31
29,104 1,896 3,593
1,354 1,834
Suma: 0,096 61,057 73,195



Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 18 -

X Y
i
Y


2
)

(
i i
Y Y
2
)

( Y Y
i

Y Y
i

2
) ( Y Y
i

60 23
25,637 6,951
4,466 -4,75 22,5625
62 23
24,646 2,708
9,636 -4,75 22,5625
61 25
25,141 0,019
6,806 -2,75 7,5625
55 25
28,114 9,694
0,132 -2,75 7,5625
53 26
29,104 9,636
1,834 -1,75 3,0625
60 26
25,637 0,132
4,466 -1,75 3,0625
63 29
24,150 23,518
12,957 1,25 1,5625
53 30
29,104 0,8022
1,834 2,25 5,0625
52 30
29,600 0,160
3,422 2,25 5,0625
48 32
31,581 0,175
14,679 4,25 18,0625
49 33
31,086 3,663
11,128 5,25 27,5625
53 31
29,104 3,593
1,834 3,25 10,5625
Suma: 61,057 73,195
0 134,25


La suma de cuadrados debida a la regresin:

=
=
n
i
i
Y Y SSR
1
2
)

(

195 , 73 = SSR

La suma de cuadrados debida al error:

=
=
n
i
i i
Y Y SSE
1
2
)

(
067 , 61 = SSE

La suma de cuadrados total:

=
=
n
i
i
Y Y SST
1
2
) (

25 , 134 = SST




Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 19 -

El coeficiente de determinacin:
SST
SSR
R =
2


25 , 134
195 , 73
2
= R

545 , 0
2
= R

Por lo tanto, la regresin a travs de la recta obtenida, explica el 54,5% de la
variabilidad total de la variable Y observada.



4.2. ANLISIS DE CORRELACIN

El objetivo del anlisis de correlacin es cuantificar la intensidad de relacin
lineal entre dos variables cuantitativas.

El coeficiente de correlacin, , es un indicador que se ubica en el intervalo [-1,
1], donde estos valores extremos indican correlaciones exactas entre las
variables:

-1 Correlacin negativa perfecta

1 Correlacin positiva perfecta


En problemas orientados a la regresin, el coeficiente de correlacin, r, puede
obtenerse a partir del coeficiente de determinacin:

2
R r =

En estos casos, en que corresponda a una regresin, el signo de r ser el signo
de b
1
.


Sin embargo, en muchas ocasiones hacemos un anlisis de correlacin
independiente del anlisis de regresin. En particular, debido a que el anlisis
de correlacin no exige fijar a ninguna de las variables como dependiente de la
otra.




Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 20 -
Diferentes grados de correlacin

En este caso, existe una
correlacin negativa perfecta.


Vemos una correlacin negativa,
que si bien no es perfecta es
claramente una correlacin fuerte
entre las variables.


El grado de relacin es inferior.



Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 21 -
La correlacin negativa es menos
intensa.









Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 22 -
Este grfico ilustra una situacin en
la cual no hay correlacin lineal
entre las variables.


Si bien existe una correlacin lineal
positiva, sta es muy dbil.






Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 23 -
La correlacin es algo mayor que
en los casos anteriores.


Ahora vemos una correlacin
positiva fuerte.


Una correlacin positiva an mas
marcada.



Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 24 -
Y, finalmente, una correlacin
positiva perfecta entre las variables.


Fuente: Elaboracin propia con la herramienta de simulacin provista por:
http://www.seeingstatistics.com/seeing1999/resources/opening.html


Tras analizar estos grficos, con su conocimiento de estadstica, qu informacin
est faltando? Haga un comentario crtico al respecto.



En los casos en los cuales no se aplica el anlisis de regresin, el coeficiente de
correlacin se calcula a travs de las siguientes frmulas:

Opcin 1:

= =
=


=
n
i
i
n
i
i
n
i
i i
Y Y X X
Y Y X X
r
1
2
1
2
1
) ( . ) (
) )( (



Opcin 2:


= =
=

=
n
i
i
n
i
i
n
i
i i
Y n Y X n X
Y X n Y X
r
1
2 2
1
2 2
1
. .
.












Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 25 -

Supuestos del anlisis de regresin

Los supuestos en este caso, son similares a los que mencionamos para el ANOVA.

Los cuatro supuestos bsicos que deben controlarse son:

1. Normalidad
Es necesario que los valores de Y se distribuyan de manera normal para cada
valor de X. No obstante, el anlisis de regresin es bastante robusto en cuanto
a este supuesto, en tanto la distribucin no sea demasiado asimtrica.
A travs de grficos Q-Q o P-P, que tienen en cuenta la prueba de normalidad
de Kolmogorff-Smirnov es posible diagnosticar la normalidad de las
distribuciones.

2. Homocedasticidad
Para cada nivel de la variable X, la variabilidad o dispersin de los valores de Y
debe ser la misma. Es muy importante el cumplimiento de este supuesto para
la aplicacin del mtodo de mnimos cuadrados ordinarios. Este supuesto es
ms frecuentemente vulnerado en los estudios de corte transversal.
Existen diferentes herramientas para diagnosticarla, una de ellas es la prueba
de Levene sobre igualdad de varianzas.

3. Independencia de error
Los residuos o errores (diferencia entre el valor observado y el predicho) no
debe estar correlacionado con el valor de X. Este supuesto se ve afectado con
frecuencia en los estudios de series de tiempo.
Para verificar su cumplimiento, se analiza el estadstico Durbin Watson (DW).
Este indicador toma el valor de 2 cuando los residuos son completamente
independientes, en tanto si el DW resulta inferior a 2, indica autocorrelacin
positiva, y si DW es mayor que dos, hay autocorrelacin negativa.

4. Linealidad
La relacin entre X e Y es lineal.
Como medida de diagnstico se recomienda el anlisis grfico de la nube de
puntos a travs de los diagramas de dispersin.


Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 26 -
Ejercicios

Resuelva los siguientes ejercicios, si tiene dudas o consultas, envelas a su tutor
virtual.

1. Con los siguientes datos, plantee y resuelva 2 problemas distintos de
regresin lineal

Empleo (en miles) Turismo:
Nmero de viajeros (miles)
Turismo:
Estancia media
28,4 11.902,5 3,1
3,6 1.848,0 2,1
2,4 1.088,2 2,3
25,9 6.716,0 7,2
27,2 4.875,7 7,8
2,0 933,8 2,4
6,2 3.647,6 1,7
2,8 1.805,1 1,7
23,5 10.771,7 3,4
13,4 5.579,7 3,9
2,2 1.000,7 1,7
6,3 3.040,5 2,1
10,7 5.748,9 2,1
2,0 882,5 3,0
1,1 557,7 2,0
3,2 1.540,6 1,9
0,7 446,2 1,8


Los datos corresponden a distintas ciudades tursticas del un pas.
Empleo: indica el nmero de personas en cada ciudad que tienen un empleo asociado
con el turismo.
La variable nmero de viajeros, indica la cantidad total de viajeros o turistas que le
ciudad recibe por ao
La estancia media indica cuntos das en promedio, permanece un turista en la
ciudad.


Actividades:
1. Determine si existe correlacin entre la series.
2. Relacione las variables y trate de armar una vinculacin entre dos variables de
las listadas, en las cuales pueda existir una causalidad.
3. Plantee el modelo de regresin lineal simple a estimar
4. Grafique la nube de puntos a travs de un diagrama de dispersin
5. Obtenga los estimadores de los parmetros del modelo
6. Calcule una medida de bondad de ajuste y explique su significado





Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 27 -

2. Con la siguiente informacin, analice la correlacin entre las variables


Ao PIB
construccin
Consumo
de
Cemento
Hipotecas
(valores
constantes)
Viviendas
a
Construir
Empleo
1995 403.822 296.432 162.909 3.383 65.294
1996 377.465 287.559 179.347 3.607 63.612
1997 396.944 310.719 215.490 5.116 64.268
1998 451.070 349.314 277.880 6.375 75.728
1999 529.679 373.310 344.324 6.264 86.031
2000 593.644 444.370 390.794 7.486 90.260
2001 638.578 501.691 428.410 7.763 97.318
2002 702.334 485.614 534.140 7.910 103.272
2003 723.412 497.092 698.667 7.822 107.684
2004 743.513 504.946 806.633 7.132 110.478
2005 775.183 507.362 958.913 10.496 115.640
2006 818.717 525.357 1.121.994 12.966 125.699
2007 531.342 1.318.888 14.906 137.097

Obtenga los coeficientes de correlacin entre las series y explique su
significado.



3. La tabla siguiente resume las puntuaciones de 10 individuos (N=10) en
dos variables X e Y.

X Y
1 1
2 4
3 9
4 16
5 25
-5 25
-4 16
-3 9
-2 4
-1 1

Actividades:
a. Calcular el coeficiente de correlacin de Pearson
b. En este caso el coeficiente calculado es adecuado para representar el
patrn de covariacin que muestran los datos?. por qu?. Ayuda:
construya el diagrama de dispersin. Elabore una conclusin
c. Qu relacin podra estar descripta por esas variables? Indicar un
ejemplo.




Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 28 -



4. La tabla siguiente recoge las puntuaciones de 10 individups (N=10) en
dos variables X e Y.


X Y
1 2
2 4
3 6
4 8
5 10
6 12
7 14
8 16
9 18
10 20

Actividades:
a. Calcular el coeficiente de correlacin de Pearson
b. En este caso el coeficiente calculado es adecuado para representar el
patrn de covariacin que muestran los datos?. por qu?. Ayuda:
construya el diagrama de dispersin. Elabore una conclusin
c. Qu relacin podra estar descripta por esas variables? Indicar un
ejemplo.



5. La tabla siguiente recoge las puntuaciones de 10 individuos (N=10) en
dos variables X e Y.

X Y
4 5
4 6
4 4
4 5
4 6
4 7
4 4
4 3
4 5
10 15

Actividades:
a. Calcular el coeficiente de correlacin de Pearson
b. En este caso el coeficiente calculado es adecuado para representar el
patrn de covariacin que muestran los datos?. por qu?. Ayuda:
construya el diagrama de dispersin. Elabore una conclusin


Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 29 -
c. Qu relacin podra estar descripta por esas variables? Indicar un
ejemplo.
d. En base a los ejercicios 3, 4 y 5, elabore una conclusin general.



6. En una muestra de 10 personas se obtuvo informacin referida al
grado de extroversin, y se desea evaluar su posible relacin lineal
con la dimensin de personalidad estabilidad emocional. Estas
variables se han medido a travs un test y se han obtenido las
puntuaciones para cada sujeto en una escala de 0 a 10. Los valores
obtenidos se presentan en la siguiente tabla:

Sujetos X: Grado de
Extroversin
Y: Estabilidad
Emocional
1 5 6
2 10 6
3 4 3
4 7 8
5 6 6
6 5 3
7 4 5
8 4 9
9 4 10
10 3 9

Actividades
a. Realice un diagrama de dispersin. Sugerencia: intente hacerlo usando
alguna herramienta informtica como Excel.
b. Estime la ecuacin de regresin lineal simple.
c. Cul es el nivel de estabilidad predicho para un sujeto cuyo grado de
extroversin es cero?. Este valor corresponde a algn coeficiente de la
recta calculada?
d. En cunto se diferenciaran las puntuaciones ajustadas de dos sujetos con
puntuaciones consecutivas en grado de extroversin? Este valor
corresponde a algn coeficiente de la recta calculada?
e. Complete la tabla anterior aadiendo para cada sujeto su puntuacin
predicha (
Y

) y el error cometido.
f. Identifique al sujeto mejor ajustado por la relacin lineal estimada y al peor.



7. Se obtienen los siguientes estadsticos con las notas de 100 alumnos
en las asignaturas X= Estadstica 1, e Y= Estadstica 2.

( ) ( ) ( )( ) 300 , 240 , 360 , 7 , 6
2 2
= = = = =

Y Y X X Y Y X X Y X

a. Estimar la ecuacin de regresin de Y sobre X



Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 30 -
8. Con los datos de una muestra de 300 individuos hemos estimado la
ecuacin de regresin que relaciona aos trabajados y estrs laboral y
hemos obtenido la siguiente ecuacin:

X Y 05 , 0 10

+ =

Tenga en cuenta que:
- la escala de estrs puede tomar valores entre 1 y 30
- que la media fue de 15

Indicar cules de las siguientes afirmaciones son correctas y justificar:
a) A mayor nmero de aos trabajados mayor estrs.

b) 0,05 es la media de estrs de los sujetos que no trabajan

c) A mayor nmero de aos trabajados menor es el estrs.

d) -10 es el estrs medio estimado de aquellas personas que no trabajan

e) El ao prximo, si sigues trabajando, tu nivel medio de estrs se
incrementar en 0,05 puntos.




9. A un propietario de departamentos para alquilar le interesa averiguar
si la renta de sus departamentos son tpicas
Para ello, ha escogido una muestra aleatoria de 11 alquileres y del
tamao de los departamentos de edificios similares. Los datos se
transcriben a continuacin.

Renta Nmero de habitaciones
230 2
190 1
450 3
310 2
218 2
185 2
340 2
245 1
125 1
350 2
280 1


a. Desarrollar el modelo de regresin lineal simple que mejor describa estos
datos e interpretar los coeficientes de regresin.

b. Graficar los datos y ajuste al grafico la lnea recta obtenida.



Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 31 -
c. Calcular, interpretar los coeficientes de correlacin y de determinacin, y
estimar la renta de un departamento de 2 habitaciones.



10. Un encargado de costos desea predecir los costos C (en millones de
pesos), basndose en la cantidad de insumos de materias primas M
(cientos de kilos) que recibe un fabricante de pantalones.

Costos Materia prima
10 25
7 20
5 16
6 17
7 19
6 18


a. Determinar el modelo de regresin lineal simple.
b. Graficar la nube de puntos y la recta de regresin obtenida
c. Obtener un indicador de bondad de ajuste y explicarlo



11. Una cadena nacional de tiendas ha tenido grandes fluctuaciones en
sus ingresos durante los ltimos aos. Bastantes ofertas, nuevos
productos y tcnicas de publicidad se han utilizado durante este
tiempo, por lo cual es difcil determinar cules de esos factores tienen
la influencia ms profunda en las ventas.

El rea de marketing ha estudiado varias relaciones y piensa que los
gastos mensuales destinados a carteles pueden ser significativos.
Realiz una muestra de 7 meses y descubri lo siguiente:


Gasto mensual en carteles (en miles
de pesos)
Ingresos mensuales por venta
(millones de pesos)
250 340
260 140
420 480
340 320
100 260
210 290
190 200

a. Desarrollar el modelo de regresin lineal simple que mejor describa estos
datos y calcular el error estndar de estimacin.




Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II
Profesora: Vernica Herrero
- 32 -
12. En la contabilidad de costos, con frecuencia se trata de estimar los
gastos indirectos basndose en el nmero de unidades producidas.
La gerencia de una empresa manufacturera, ha reunido informacin
sobre esos gastos y las unidades producidas en diferentes plantas y
le gustara estimar una ecuacin de regresin para predecir los gastos
indirectos en el futuro.

Gastos indirectos (en miles de pesos) Unidades producidas (en miles)
191 40
170 42
272 53
155 35
280 56
173 39
234 48
116 30
153 37
178 40

a. Desarrollar la ecuacin de regresin
b. Interpretar los parmetros del modelo
c. Estimar el gasto general cuando se producen 50 unidades.
d. Calcular e interpretar el error estndar de estimacin, los coeficientes de
correlacin y de determinacin.

13. Qu tipo de correlacin (positiva, negativa o cero) debemos esperar
de estas variables?

a) Capacidad de los supervisores y productividad de sus subordinados
b) Antigedad en su trabajo de tiempo completo y nmero de aos de
escolaridad

Você também pode gostar