Você está na página 1de 25

UNIVERSIDAD DE LA SERENA

ANLISIS MULTIVARIADO

2012



A
A
n
n

l
l
i
i
s
s
i
i
s
s
d
d
e
e
R
R
e
e
g
g
r
r
e
e
s
s
i
i

n
n

L
L
i
i
n
n
e
e
a
a
l
l


A N L I S I S D E R E G R E S I N L I N E A L

















I In nt te eg gr ra an nt te es s: : J Ja av vi ie er ra a C Cu ue ev va as s M Mu u o oz z
V Va al le er ri ia a C Co or r s s R Ra am m r re ez z

D Do oc ce en nt te e: : J Ju ua an n G Ga ar rr ri id do o Z Z i ig ga a


I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 2 2


INDICE

1.- Correlacin lineal:

- la covarianza y sus propiedades
- el coeficiente de correlacin lineal de pearson (propiedades)
- inferencias sobre el coeficiente de correlacin poblacional

2.- Regresin lineal simple:

- el modelo de regresin simple en la poblacin (parmetros)
- los supuestos del modelo de regresin simple
- significado del coeficiente de pendiente
- estimacin de los parmetros por mnimos cuadrados del error
- el coeficiente de determinacin r
2
(significado)
- inferencias sobre el coeficiente de pendiente
- Test de hiptesis e intervalos de confianza

3.- Regresin lineal mltiple:

- el modelo con n variables independientes
- supuestos del modelo re regresin mltiple
- formulacin matricial del modelo mltiple
- estimadores de los coeficientes de pendiente
- estimacin de la varianza del error
- inferencias sobre los coeficientes de pendiente
- Test de hiptesis e intervalos de confianza






I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 3 3
Qu es una Correlacin?
La correlacin apunta principalmente a medir la magnitud de la relacin lineal de dos variables continuas.
Covarianza y sus propiedades
La Covarianza es un estadstico que mide la relacin lineal entre dos variables cuantitativas. En este caso tenemos
como variables X e Y de las cuales segn su dimensin depende la covarianza. Tiene diversas manera de
simbolizarse pero generalmente la mas utilizada es Sxy o bien Cov(x,y).Para obtener el grado de relacin de las
variables ya nombradas damos lugar con la formula :
Sean X e Y dos variables aleatorias cuyas medias son E(X ) y E(Y ) y cuyas varianzas son V(X) y V(Y)
respectivamente. Se define la covarianza entre las variables aleatorias X e Y por la expresin:
Cov(X ,Y) = E [ ((X E(X )) ((Y E(Y))] = E[ X Y ] E(X ) E (Y)
Donde es el operador esperanza. Para una muestra de n datos bivariantes: (x1, y1), . . . , (xn, yn) la formula
anterior se concreta en:
1 1
1 1
( )( ) ( * )
n n
i i
Sxy Xi X Yi Y Xi Yi nXY
n n
= =
= =


Donde X e Y son las medias respectivas de las variables.
Ojo: Cuando las variables aleatorias e son n-dimensionales, es decir, e
, su matriz de covarianzas es:


Propiedades de la covarianza:
Estas propiedades se deducen de manera casi directa de la definicin de la covarianza:
Si X, Y, W, y V son variables aleatorias y a, b, c, d son "constante" significa no aleatorio, se cumple que:
1)
2) , la varianza de
3)
4)
I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 4 4
5)
6)

7)Cov(x,ax)=av(x)
9)cov (az+by) =a cov (x,y)
Otra manera de definir las propiedades
1).- Si a todos los valores de la variable x, les sumamos una constante k y a todos los valores de la variable y les
sumamos una constante k, la covarianza no vara.
2).- Si a todos los valores de una variable x los multiplicamos por una constante k y a todos los valores de la
variable y los multiplicamos por una constante k, su covarianza queda multiplicada por el producto de las
constantes.
3).- A partir de las anteriores: si tenemos dos variables x, y con la covarianza Sxy, y transformaciones lineales de las
variables de la forma z=ax+b, y t=cy+d, la nueva covarianza se relaciona con la anterior de la forma: Szt=acSxy.
Observaciones:
1) Si las dos variables son independientes cov(x,y)=0 pero si la cov (x,y) =0 no quiere decir x e Y sean
independientes
2)Siendo X, Y variables aleatorias tenemos que :
V(X+Y)=V(X)+V(Y)+2Cov(X,Y)
V(X+Y)=V(X)+V(Y)-2Cov(X,Y)
3)Si X e Y son variables aleatorias independientes, entonces E[XY]=E(X)E(Y)entonces la Cov(x,y)=0 lo que significa
que la asociacin lineal es inexistente, es decir la recta no existe.
V(X+Y)=V(X)+(Y) y V(X-Y)=V(X)+V(Y)
4)Si cov(x,y)>0,entonces valores altos de X estn asociados con valores altos de Y y valores bajos de x estn
asociados con valores bajos de Y lo que concluye en una asociacin lineal positiva es decir la recta existe y es
creciente
5)Si cov(x,y)<0 entonces valores altos de x estn asociados con valores bajos de y y valores bajos de x estn
asociadoscon valores altos de y lo que concluye en una asociacin lineal negativa

I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 5 5
Ejemplo: Una compaa de seguros considera que el nmero de vehculos (y) que circulan por una
determinada autopista a ms de 120 km/h , puede ponerse en funcin del nmero de accidentes (x) que
ocurren en ella. Durante 5 das obtuvo los siguientes resultados:


Accidentes x
i
5 7 2 1 9
Vehculos y
i
15 18 10 8 20



f
i
x
i
y
i
x
i
2
y
i
2
x
i
y
i

1 5 15 25 225 75
1 7 18 49 324 126
1 2 10 4 100 20
1 1 8 1 64 8
1 9 20 81 400 180
5 24 71 160 1113 409


I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 6 6
Comentario : Aadido a lo anterior mencionado cabe destacar que la covarianza no es til para evaluar la fuerza
de la relacin entre las variables aleatoria X e Y debido a que su valor depende de las unidades en las que estn
medidas X e Y. Afortunadamente es simple corregir la covarianza, dividindola por el producto de las desviaciones
estndar de X e Y. El resultado de ello se denomina coeficiente de Correlacin lineal de Pearson.
Coeficiente de Correlacin
Es una prueba estadstica para analizar la relacin entre dos o ms variables cuantitativas medidas en un
nivel por intervalos o razn, es decir un ndice que mide el grado de covariacin entre distintas variables
relacionadas linealmente.
Coeficiente de correlacin Poblacional
Para Poblacin(n)
Sean X e Y dos variables numricas: La variable X se llama variable independiente( explicativa, predictor),
la variable Y dependiente(respuesta) es decir Y depende linealmente de X
Ahora bien, sean las variables mencionadas anteriormente de forma aleatorias cuyas medias son E(x) E(X ) y E(Y )
y cuyas varianzas son V(X) y V(Y) respectivamente. Se define el coeficiente de correlacin es :
2 2
( , ) [[ ( )][ ( )]]
( ) ( )
[( ( )) ] [( ( )) ]
( , )
Cov X Y E X E X Y E Y
V x V Y
E X E X E Y E Y
X Y


= =

Observaciones:
1)1(x, y) 1
2)Si (x, y)=1 entonces X e Y tienen correlacin positiva perfecta.
3)Si (x, y)=-1 entonces Xe Y tienen correlacin negativa perfecta.
4)Si (x, y)=0 entonces X e Y son independientes, no existe asociacin lineal entre X e Y
Para Muestra(n)
Pero este coeficiente de correlacin (X,Y) es un parmetro poblacional desconocido por lo tanto debemos
estimarlo a partir de datos muestrales (X1,Y1),(X2,Y2),,(Xn,Yn),obtenindose entonces el coeficiente de
correlacion muestral r(X,Y) o bien llamado Coeficiente de Correlacin de Pearson
( ) ( )
2 2
2
2
( , )
i
i i i
i i i i
n x y x y
n x x n y y
r X Y

( (

( (


=


I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 7 7

Es til como medida descriptiva de la intensidad de la relacin (lineal) en una muestra de n pares de
valores (Xi,Yi),con i=1,2,,n
Este coeficiente se simboliza con la letra minscula r, se calcula dividiendo la suma de los productos de las
desviaciones de cada variante de X e Y, con respecto a sus medias (suma que se denomina covarianza de X e Y), por
el producto de las desviaciones estndar de ambas variables
Observacion:

Tendencia del agrupamiento con respecto a la lnea de
regresin.
R
= 0
Correlacin nula
0 < r << 1, Correlacin baja positiva
1 r << 1 Correlacin alta positiva
0 < r << 1, < 0 Correlacin baja negativa
1 + r << 1 Correlacin alta negativa


1)1r(x, y) 1
2)Si r(x, y)=1 entonces X e Y tienen correlacin positiva perfecta.
3)Si r(x, y)=-1 entonces Xe Y tienen correlacin negativa perfecta.
S4)i r(x, y)=0 entonces X e Y son independientes










X Y X Y
-1 0
1
X Y X Y
-0.7
-0.7
La correlacin es
perfecta negativa
Variables independientes
No existe correlacin
La correlacin es
perfecta positiva
I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 8 8
Ejemplo: Una compaa de seguros considera que el nmero de vehculos (y) que circulan por una
determinada autopista a ms de 120 km/h , puede ponerse en funcin del nmero de accidentes (x) que
ocurren en ella. Durante 5 das obtuvo los siguientes resultados:


Accidentes x
i
5 7 2 1 9
Vehculos y
i
15 18 10 8 20



f
i
x
i
y
i
x
i
2
y
i
2
x
i
y
i

1 5 15 25 225 75
1 7 18 49 324 126
1 2 10 4 100 20
1 1 8 1 64 8
1 9 20 81 400 180
5 24 71 160 1113 409






I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 9 9
Inferencias sobre el coeficiente de Correlacin:
1)Contraste de Hiptesis (Test de independencia)
1) H0:rxy = 0 El coeficiente de correlacin obtenido procede de una poblacin cuya correlacin es cero ( = 0 ).
2) H1 : rxy = 0 El coeficiente de correlacin obtenido procede de una poblacin cuyo coeficiente de correlacin
es distinto de cero ( 0 ).
En consecuencia, dado un cierto coeficiente de correlacin rxy obtenido en una determinada muestra se trata de
comprobar si este es posible que se encuentre dentro de la distribucin muestral especificada por la Hiptesis
nula. Para resolver esta prueba de hiptesis esta dado un pivot que es un estadstico inferencial , ley de Student
con N-2 grados de libertad.
0 ( 2)
2
( , )
1 ( , )
2
n
r X Y
T t
r X Y
n


Hay que tener en cuenta que X e Y tengan una distribucin conjunta Normal.
Dado que esta prueba de independencia entre variables X e Y es bilateral se rechaza la hiptesis nula y se confirma
que X e Y estn relacionadas si, y se compara el valor obtenido con el existente en las tablas para un cierto nivel
de significacin y N-2 grados de libertad -
( , 2) n
t
o
- que como se sabe, marca el lmite (baja probabilidad de
ocurrencia, segn la Hiptesis nula) de pertenencia de un cierto coeficiente rxy a la distribucin muestra de
correlaciones procedentes de una poblacin con =0 . De esta forma si:
0
, 2
2
n
T t
o

<

0 1
, 2
2
n
T t
o

>

1) t > t( ,N2 ) Se rechaza la Hiptesis nula. La correlacin obtenida no procede de una poblacin cuyo
valor xy =0 . Por tanto las variables estn relacionadas.
2) t t( ,N 2) Se acepta la Hiptesis nula. La correlacin obtenida procede de una poblacin cuyo valor
xy =0 . Por tanto ambas variables no estn relacionadas.









I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 1 10 0


Ejemplo: La siguiente tabla muestra los datos registrados en una muestra aleatoria de
10 escuelas para nios superdotados. La razn alumno/maestro es (X) y los estudiantes que se
salen antes de completar el curso es (Y).


X 20 18 16 15 14 12 12 10 8 5
Y 12 16 10 14 12 10 9 8 7 2


Solucin: Se recomienda para hacer el clculo directo del coeficiente r de Pearson, realizar una
tabla como la siguiente:

X Y X
2
Y
2
XY
20 12 400 144 240
18 16 324 256 288
16 10 256 100 160
15 14 225 196 210
14 12 196 144 168
12 10 144 100 120
12 9 144 81 108
10 8 100 64 80
8 7 64 49 56
5 2 25 4 10

I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 1 11 1
0
2 2
( , ) 0.8327
4.21
1 ( , ) 1 0.8327
2 10 2
r X Y
T
r X Y
n
= = =



De la tabla t-student calculamos t con 8 grados de libertad y 5% de significacin.
T
0,05;8
=2,306
Comparamos el valor t obtenido con el de las tablas:
4.21 > 2.306
Rechazamos la Hiptesis nula con un riesgo (mximo) de equivocarnos de 0.05. La correlacin obtenida no
procede de una poblacin caracterizada por una correlacin de cero. Concluimos, pues, que ambas variables
estn relacionadas.

2)Contraste de Hiptesis:
> 0

0 0
: 0 H = = v/s H
1:
0
0


Usamos el hecho de que el estadstico
1 1 ( , )
ln
2 1 ( , )
r x y
W
r x y
| | +
=
|

\ .
se distribuye
Aproximadamente normal con una media y desviacin estndar dadas por:
0
0
1 1
ln
2 1
w

| | +
=
|

\ .
;
1
3
w
n
o =


El estadstico del contraste de hiptesis es:
0
(0;1)
w
w
w
Z N

=
Del ejemplo anterior nos podra interesar contrastar
0:
0.8 H =
v/s
1
: 0.8 H >
al 5% de significacin tendramos una prueba unilateral:
0
1 1 0.869180
ln 1.3297
2 1 0.869180
1 1 0.8
ln 1.0986
2 1 0.8
1 1
0.378
3 10 3
1.3297 1.0986
0.611
0.378
w
w
W
n
Z

o
+ | |
= =
|

\ .
+ | |
= =
|

\ .
= = =

= =

I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 1 12 2
0.95
1.65 Z = No se rechaza Ho
Podemos concluir que no hay evidencia significativa al 5% para concluir que la correlacion sea mayor que 0,8
Coeficiente de determinacin. Coeficiente de correlacin.
Una vez ajustada la recta de regresin a la nube de observaciones es importante disponer de una medida que mida
la bondad del ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar modelos
alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de determinacin, definido como sigue



o bien

Como scE < scG, se verifica que 0 <R
2
< 1.
El coeficiente de determinacin mide la proporcin de variabilidad total de la variable
dependiente (Y) respecto a su media que es explicada por el modelo de regresin. Es usual expresar esta medida
en tanto por ciento, multiplicndola por cien.
Por otra parte, teniendo en cuenta que i - = 1 , se obtiene




Del ejemplo anterior como ya tenamos rxy calculamos R
2
=0,869
2
R
2
=07561


I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 1 13 3
Regresin Lineal Simple
Tiene como objetivo el estudiar cmo los cambios en una variable, no aleatoria, afectan a una variable aleatoria, en
el caso de existir una relacin funcional entre ambas variables que puede ser establecida por una expresin lineal,
es decir, su representacin grfica es una lnea recta.
Cuando la relacin lineal concierne al valor medio o esperado de la variable aleatoria, estamos ante un modelo de
regresin lineal simple. La respuesta aleatoria al valor x de la variable controlada se designa por Yx y, segn lo
establecido, se tendr:
, donde y son los coeficientes de regresin
De manera equivalente, otra formulacin del modelo de regresin lineal simple sera: si xi es un valor de la
variable predictora e Yi la variable respuesta que le corresponde, entonces
, donde , Ei es el error o desviacin aleatoria de Yi

Estimacin de los parmetros de la recta de regresin.
El primer problema a abordar es obtener los estimadores de los parmetros de la recta de regresin, partiendo de
una muestra de tamao n, es decir, n pares (x1, Y1) , (x2, Y2), ..., (xn, Yn); que representan nuestra intencin de
extraer para cada xi un individuo de la poblacin o variable Yi .
Una vez realizada la muestra, se dispondr de n pares de valores o puntos del plano (x1, y1) , (x2, y2), ..., (xn, yn). El
mtodo de estimacin aplicable en regresin, denominado de los mnimos cuadrados, permite esencialmente
determinar la recta que "mejor" se ajuste o mejor se adapte a la nube de n puntos. Las estimaciones de los
parmetros de la recta de regresin obtenidas con este procedimiento son:


Donde representan las medias muestrales
Por tanto la recta de regresin estimada ser:



I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 1 14 4
Ejemplo :
Venta de automviles

Se piensa que si aumentan el porcentaje de comisin pagada
al vendedor de automviles, aumenta la venta.
Estudio sobre 15 concesionarios similares
X : Comisiones pagadas a vendedores de autos en un mes (%)
Y : Ganancias netas por ventas, en el mismo mes (Millones de $)

Tabla 1.- Datos x e y del problema
Obs x y
1 3.6 11.28
2 5.2 14.74
3 5.3 18.46
4 7.3 20.01
5 5.0 12.43
6 5.2 15.37
7 3.0 9.59
8 3.1 11.26
9 3.2 8.05
10 7.5 27.91
11 8.3 24.62
12 6.1 18.80
13 4.9 13.87
14 5.8 12.11
15 7.1 23.68

Representacin de los datos en un grfico de dispersin:


Figura 3.- Grfico de dispersin X-Y
I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 1 15 5

Se puede apreciar la relacin lineal existente entre ambas variables observadas.

Nuestro problema es estimar los parmetros a, b y
2
para poder identificar el modelo.
Para estimar a y b se utiliza el mtodo de Mnimos cuadrados, que consiste en encontrar aquellos valores de a y
de b que hagan mnima la suma de los cuadrados de las desviaciones de las observaciones respecto de la recta que
representa el modelo, en el sentido vertical.

Figura 4.- Utilizando mtodos de mnimos cuadrados


En la figura, son los cuadrados de los segmentos verticales cuya suma de cuadrados se debe minimizar, para
determinar a y b. Estos segmentos representan los errores e del modelo. b se llama pendiente de la recta que
representa los datos y a se llama intercepto sobre el eje vertical.
La solucin est dada por las siguientes frmulas:



Se calculan los promedios de ambas variables y se le restan a los valores.
Promedio de la X : 5.4
Promedio de la Y : 16.1





I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 1 16 6
Tabla1.- Valores para resolver
Obs X-5.4 Y-16-1 Cuadrados Prod.
1 -1.8 -4.9 3.1 23.7 8.6
2 -0.2 -1.4 0.0 2.0 0.2
3 -0.1 2.3 0.0 5.3 -0.2
4 1.9 3.9 3.7 14.9 7.4
5 -0.4 -3.7 0.1 13.8 1.4
6 -0.2 -0.8 0.0 0.6 0.1
7 -2.4 -6.6 5.6 42.9 15.6
8 -2.3 -4.9 5.2 23.8 11.1
9 -2.2 -8.1 4.7 65.6 17.6
10 2.1 11.8 4.5 138.5 25.0
11 2.9 8.5 8.6 71.8 24.8
12 0.7 2.7 0.5 7.0 1.9
13 -0.5 -2.3 0.2 5.2 1.1
14 0.4 -4.0 0.2 16.3 -1.7
15 1.7 7.5 3.0 56.8 13.0
Sxx Syy Sxy
Entonces utilizando las frmulas descritas anteriormente los valores de los coeficientes son
a = - 0.96, y b = 3.18
El modelo, para estos datos, es
, para valores de i= 1,2,3..15,
Representa una recta, cuyo intercepto con el eje vertical es -0.96, y su pendiente es 3.18, o sea, si el porcentaje de
comisin X aumenta en 1%, la ganancia neta Y aumenta en 3.18 Millones de pesos.

Por lo tanto un nuevo grfico con la nueva informacin queda:



I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 1 17 7

Figura 5.- Nuevo grfico con la nueva informacin















I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 1 18 8
Regresin lineal mltiple
La mayora de los estudios conllevan la obtencin de datos en un nmero ms o menos extenso de variables. En
algunos casos el anlisis de dicha informacin se lleva a cabo centrando la atencin en pequeos subconjuntos de
las variables recogidas utilizando para ello anlisis sencillos que involucran nicamente tcnicas bivariadas. Un
anlisis apropiado, sin embargo, debe tener en consideracin toda la informacin recogida o de inters para el
clnico y requiere de tcnicas estadsticas multivariantes ms complejas. En particular, hemos visto como el modelo
de regresin lineal simple es un mtodo sencillo para analizar la relacin lineal entre dos variables cuantitativas.
Sin embargo, en la mayora de los casos lo que se pretende es predecir una respuesta en funcin de un conjunto
ms amplio de variables, siendo necesario considerar el modelo de regresin lineal mltiple como una extensin
de la recta de regresin que permite la inclusin de un nmero mayor de variables.
La regresin lineal mltiple estima los coeficientes de la ecuacin lineal, con una o ms variables independientes,
que mejor prediga el valor de la variable dependiente.
Nuestro inters, estar centrado en el valor esperado (variable dependiente), en este caso el valor estar
condicionado al valor que toman n variables independientes. Bajo el supuesto de la linealidad anterior tendremos
entonces:
E(Y/X1=x1, X2=x2,, Xk=xk) = 0 +1x1+ 2x2+..+ nxn
Para este caso particular tenemos (n+1) parmetros 0, 1 , 2,...., k cuyo significado es similar al caso lineal
simple como lo veremos a continuacin:
Supongamos que todas las variables explicativas XJ toman el valor 0.
E (Y/X1=0, X2=0, Xn=0) = 0 + 1*0+ 2*0+ 3* 0 = 0
Por lo tanto 0 es el valor esperado de la variable independiente Y cuando todas las variables Xj toman valor cero.
Si una de las variables independientes incrementa su valor en una unidad pasando del valor xj al valor (xj+1) y
mantenemos el resto de las variables independiente constantes, BJ es el cambio esperado de la variable respuesta Y
cuando la variable xj se incrementa en una unidad, mientras que las restantes variables independientes
permanecen constantes.
Existe un error i y corresponde a la diferencia entre el valor observado Yi y su valor esperado
E(Y/X1=x1, X2=x2,, Xk=xk) por lo que debemos modificar el modelo de regresin lineal multiple
Yi= 0 + 1x i1+ 2xi2++ nxik+i




I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 1 19 9

El modelo de regresin lineal mltiple posee supuestos anlogos al modelo de regresin simple
1)El trmino de error tiene una distribucin de probabilidad con media cero.
E(i)=0
2)La varianza es constante y conocida
VAR (ei)=
2
3)La covarianza entre lo trminos del error es 0
cov (i,j)=0
4)Los errores tienen una distribucin normal
i ~N (0,
2
)

Formulacin matricial del modelo lineal con K variables
, i = 1,.,N
Es equivalente al siguiente sistema de N ecuaciones



.
.
.
.


Definiendo los siguientes vectores y matrices
Y= , = , u= , X=

I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 2 20 0

Este sistema se puede representar en forma matricial de la siguiente forma:


ESTIMACION DE LA VARIANZA DEL TERMINO DE ERROR :
Se debe estimar la varianza del error . Lgicamente , en este caso un estimador de la varianza del error esta
dado por:

=
SIGNIFICANCIA DE LA REGRESION
Se usa la tabla ANOVA para medir la significancia o capacidad explicativa del modelo de regresin, basado en la
identidad:
= +
Equivalente a: SCT=SCR=SCE
La tabla ANOVA para la regresin mltiple es la siguiente:
FUENTE Gdel SdeC VARIANZAS Fo
Regresin k SCreg= Xy - n sREG= SCREG/k F0=sREG/Se
Error n-k-1 SCerror=y - X y se= SCERR/ (n-k-1)
Total n-1 SCT= yy - n


Podemos entonces evaluar la capacidad explicativa del modelo de regresin lineal multiple a un nivel de
significancia dado .
Elementos de minimos cuadrados usando notacin matricial
El modelo en notacin matricial es
Se definen los siguientes vectores
I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 2 21 1


Utilizando esta notacin , la SRC puede escribirse:

El problema en notacin matricial es
Obtencin del vector de estimadores MC:
)( )=
En donde el ultimo paso requiere notar que los trminos de 2 y 3 orden son escalares e iguales. Derivando
repecto del vector se obtiene


si existe


Qu garantiza la existencia de la inversa de la matriz?
- Supongamos que las columnas de la matriz X son todas linealmente e independientes (no
multicolinealidad perfecta)
- Segn un resultado de lgebra matricial )
- Este resultado ms el supuesto de no multicolinealidad implican que existe la inversa de XX:


Entonces, cuando queda garantizada la existencia del vector de estimadores minimos cuadrados
que viene dado por:
I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 2 22 2


Ejercicio Resuelto Regresion Multiple
Como parte de un estudio para investigar la relacin entre la tensin nerviosa (estrs) y otras variables (tamao
de la empresa, nmero de aos en la posicin actual, salario anual en miles de dlares, edad en aos), se
reunieron los siguientes datos a partir de una muestra aleatoria simple de quince ejecutivos de una empresa.
La salida de anlisis con SPPS es:
Tabla.- Estadisticos descriptivos
N Minimo Maximo Media Desviacion
Estrs 15 10 184 67.2 51.164
Tamao
Empresa
15 127 812 415.73 187.513
Aos en
posicin
15 2 16 8.27 4.148
Salario
Anual
15 20 84 38.60 16.745
Edad 15 27 63 44.53 10.947
N Valido 15

Tabla.- Resuemn del modelo
Modelo R R cuadrado R cuadrado
Corregida
Error tip de la
estimacin
1 0.918a 0.842 0.779 24.031




I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 2 23 3
Tabla.- ANOVA
Modelo Sumad de
cuadrados
Gl Media
cuadrtica
F S
1 Regresion
Residual
Total
30873.468
5774.932
36648.400

4
10
14
7718.367
577.493
13.365 0.001
a

a: Variables predictoras (Constante), Edad, Tamao de Empresa, Salaria Anual, Aos en posicin.
b: variable dependiente: Estrs
Tabla.- Coeficientes
Coeficientes no
estandarizados
Coeficientes
estandarizados
Modelo B Error
Tip.
Beta

T Sigma
1 (constante)
Tamao Empresa
Aos en posicin
Salario Anual
Edad
-126.505
0.176
-1.563
1.575
1.629
32.281
0.040
2.012
0.446
0.629

0.646
-0.127
0.515
0.349
-3.919
4.397
-0.777
3.533
2.591
0.003
0.001
0.455
0.005
0.27


a) Escriba la recta de regresin mltiple estimada a partir de estos datos. Interprete los coeficientes de regresin.
b) Cul es el valor del coeficiente de determinacin que usara para describir la bondad de ajuste del
modelo?
Interprtelo en trminos del problema de regresin
c) Examine los tests t de los coeficientes de regresin. Le parece que es este un modelo adecuado para describir el
estrs o propone otro?
I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 2 24 4
d) Qu supuestos se deben cumplir para la utilizacin de este modelo.
e) D un estimador de la desviacin estndar poblacional. A qu se refiere esta medida de variabilidad?

Solucin 1 (a)
La recta de regresin es:
Estrs= -126.505 + 0.176 Tamao 1.563 Aos 1.575 Salario + 1.629 Edad
Interpretacin de los coeficientes de regresin:
Intercepto=-126,505 Si el tamao de la empresa, el nmero de aos, el salario y la edad fueran cero, es decir, si
todas las variables explicativas fueran cero, el puntaje de estrs del ejecutivo sera menos 126,505
Pendiente de Tamao: Por cada unidad que aumenta el tamao de la empresa, el estrs del ejecutivo aumenta en
0,176 unidades.
Pendiente de Aos: Por cada ao en posicin actual, el estrs del ejecutivo disminuye en 1,563 puntos.

Pendiente de Salario: Por cada mil dlares que aumenta el salario, el estrs del ejecutivo aumenta en 1,575 puntos.
Pendiente de la edad: por cada ao de edad, el estrs del ejecutivo aumenta en 1,629 puntos.
Solucin 1 (b)
El coeficiente de determinacin que se usa en regresin lineal mltiple es el R
2
ajustado, que en este caso es de
0,779.
Este coeficiente nos indica que las variables usadas en el modelo explican en un 77,9% la variabilidad total del
estrs.
Solucin 1 (c)
Los test t de los coeficientes de regresin sirven para docimar la hiptesis:
H0: j=0
H1: j 0 En este problema tenemos 4 tests de esta forma (j=1,2,3,4).
Al examinar los valores p correspondientes a cada uno de los tests nos damos cuenta que casi todas las pendientes
son significativas (distintas de cero), salvo la de la variable Aos en posicin actual, cuyo valor p es 0,455, por lo
tanto aceptamos la hiptesis nula, y concluimos que la pendiente es igual a cero.
I In ng ge en ni ie er r a a C Ci iv vi il l I In nd du us st tr ri ia al l, , A An n l li is si is s M Mu ul lt ti iv va ar ri ia ad do o
U Un ni iv ve er rs si id da ad d d de e L La a S Se er re en na a


A n l i s i s d e R e g r e s i n L i n e a l P P g gi in na a 2 25 5
Por lo tanto este no sera un modelo adecuado para describir el estrs de los ejecutivos, deberamos ajustar otro
modelo sin la variable "Aos en posicin actual".
Solucin 1 (d)
Los supuestos que debe cumplir el modelo son:
1) Linealidad: La relacin entre la variable respuesta y las explicativas debe ser lineal
2) No colinealidad: las variables explicativas no deben estar correlacionadas entre s
3) Normalidad de los residuos
4) Varianza constante
Solucin 1 (e)
El estimador de la desviacin estndar poblacional es 24,031 o la raz de la media cuadrtica residual: raz de
577,493= 24,03
Este es un estimador de la variabilidad del estrs considerando las variables explicativas del modelo, y lo podemos
contrastar con el estimador de la variabilidad del estrs de 51,164 que es la desviacin estndar del estrs sin
tomar en cuenta estas variables