Você está na página 1de 15

CORRELACIN LINEAL Y ANLISIS DE REGRESIN

MAPA CONCEPTUAL ________________________


Definicin
Ejemplo con
la Con frmula
definicin
Deteccin
r!fica Correlacin
lineal
Definicin
Rere"in
lineal Repre"entacin
#recta de m$nimo" r!fica
cuadrado"%
Supue"to" del
Inferencia en el
&or la modelo de
definicin rere"in Coeficiente
de
modelo de
rere"in
Con frmula
Determinaci
n
Definicin
&or la
definicin
Con frmula
C!lculo con 'inita(
Definicin de Correlacin Lineal
En ocasiones nos puede interesar estudiar si existe o no algn tipo de relacin
entre dos variables aleatorias. As, por ejemplo, podemos preguntarnos si hay
alguna relacin entre las notas de la asignatura Estadstica I y las de Matemticas
I. !na primera aproximacin al problema consistira en dibujar en el plano "
#
un
punto por cada alumno$ la primera coordenada de cada punto sera su nota en
estadstica, mientras %ue la segunda sera su nota en matemticas. As,
obtendramos una nube de puntos la cual podra indicarnos visualmente la
existencia o no de algn tipo de relacin &lineal, parablica, exponencial, etc.'
entre ambas notas.
(tro ejemplo, consistira en anali)ar la *acturacin de una empresa en un periodo
de tiempo dado y de cmo in*luyen los gastos de promocin y publicidad en dicha
*acturacin. +i consideramos un periodo de tiempo de ,- a.os, una posible
representacin sera situar un punto por cada a.o de *orma %ue la primera
coordenada de cada punto sera la cantidad en euros invertidos en publicidad,
mientras %ue la segunda sera la cantidad en euros obtenidos de su *acturacin.
/e esta manera, obtendramos una nube de puntos %ue nos indicara el tipo de
relacin existente entre ambas variables.
En particular, nos interesa cuanti*icar la intensidad de la relacin lineal entre dos
variables. El parmetro %ue nos da tal cuanti*icacin es el coeficiente de
correlacin lineal de &ear"on r, cuyo valor oscila entre 0, y 1, $
Cov( X ,
Y )
2
n
( X
t
3 X ) (Y
t
3Y )
31 4 r 5 5
t

5
1
4
1
1
s
X
s
Y n n
2( X
t
3 X )
2
* 2(Y
t
3Y )
2
t

5
1 t 51
6
7A"IA89E+ :( ;(""E9A;I(:A/A+ & r 5 - '
<
=
>
?
@
A
B
#
, # B A @ ? > =
;(""E9A;IC:
9I:EA9
:EDAEI7A & r 5
F, '
<
=
>
?
6
@
A
B
#
, # B A @ ? > =
6
G
;(""E9A;IC: :( 9I:EA9 & r 5 - '
<
=
>
?
@
A
B
#
, # B A @ ? > =
G
;(""E9A;IC: 9I:EA9 H(+IEI7A & r 5 1, '
<
=
>
?
6 @
A
B
#
, # B A @ ? > =
G G
;omo se observa en los diagramas anteriores, el valor de r se aproxima a 1, cuando la
correlacin tiende a ser lineal directa &mayores valores de X signi*ican mayores valores de Y',
y se aproxima a 0, cuando la correlacin tiende a ser lineal inversa.
Es importante notar %ue la existencia de correlacin entre variables no implica causalidad.
IAtencinJ$ si no hay correlacin de ningn tipo entre dos v.a., entonces tampoco habr
correlacin lineal, por lo %ue r 5 -. +in embargo, el %ue ocurra r 5 - slo nos dice %ue no hay
correlacin lineal, pero puede %ue la haya de otro tipo.
El siguiente diagrama resume el anlisis del coe*iciente de correlacin entre dos variables$
;orrelacin
negativa
per*ecta
;orrelaci
n
;orrelaci
n
;orrelac
in
negativa
negativ
a
negativ
a
*uerte
modera
da dKbil
:inguna
correlaci
n
;orrelaci
n
;orrelaci
n
;orrelac
in
positiva positiva
positiv
a
dKbil
moderad
a *uerte
;orrelaci
n postiva
per*ecta
F ,.-- F -.@- - -.@- ,.--
Definicin ) caracter$"tica" del concepto de Rere"in Lineal
En a%uellos casos en %ue el coe*iciente de regresin lineal sea LcercanoM a 1, o a 0,,
tiene sentido considerar la ecuacin de la recta %ue Lmejor se ajusteM a la nube de
puntos &recta de mnimos cuadrados'. !no de los principales usos de dicha recta ser
el de predecir o estimar los valores de 6 %ue obtendramos para distintos valores de
G. Estos conceptos %uedarn representados en lo %ue llamamos diarama de
di"per"in$
:ube de puntos y recta de mnimos cuadrados
=
>
?
@
6
A
B
#
,
, # B A @ ? > = <
G
9a ecuacin de la recta de m$nimo" cuadrado" &en *orma puntoFpendiente' es la
siguiente$
y 3 y 5
Cov(

X

,Y

)
(x 3 x)
s
x

2
7eamos con detalle estos conceptos mediante un ejemplo$
+i %ueremos estudiar la relacin existente entre ambas variables, siguiendo con el
ejemplo anterior re*erente a la relacin entre las ventas de una empresa (V
t
) y sus
gastos en
publicidad (GP
t
) , lo %ue podemos hacer es representar gr*icamente el modelo
matemtico lineal %ue podemos considerar para anali)ar dicha relacin.
V
t
5
1
1
2
GP
t
1 u
t
+upongamos %ue disponemos de los siguientes datos$
A.o
7entas en millones de
euros.
Dastos en publicidad en millones de
euros.
,<<= #-- B-
,<<< A-- @-
#--- =-- @-
#--, ,.#-- ?-
#--# <-- ?-
A partir de este modelo matemtico lineal, vamos a anali)ar la relacin entre ambas
variables, la variable ventas (V
t
) %ue es la variable dependiente del modelo y la variable
%ue vamos a
anali)ar y los gastos en publicidad (GP
t
) %ue es la variable independiente o la variable
explicativa %ue vamos a utili)ar para estudiar las ventas.
En este modelo %ueremos comprobar %uK in*luencia tienen los gastos de publicidad
sobre el volumen de *acturacin o las ventas de la empresa.
Hara poder cuanti*icar dicha relacin, debemos tambiKn representar la recta de
regresin %ue subyace en el modelo matemtico %ue relaciona ambas variables.
Hara cuanti*icar la relacin entre ambas variables y tener un aproximacin de la
magnitud de la in*luencia de los gastos en publicidad sobre las ventas de la empresa
debemos estimar el modelo por mnimos cuadrados ordinarios &M.;.(.' donde se
minimi)a la suma de los cuadrados de los residuos.
9a recta en rojo &%ue aparece a continuacin en el gr*ico', es la %ue mejor se ajusta a
la nube de puntos %ue tenemos. /icho de otra *orma, es la recta %ue hace %ue el error
de estimacin, de*inido como la distancia entre el valor observado y el valor estimado
de la variable endgena &en el gr*ico, es la distancia vertical se.alada por la *lecha en
rojo', sea la mnima para cada una de las observaciones &recta de mnimos
cuadrados', esta recta ser la %ue utili)aremos para predecir o estimar los valores de 6
%ue obtendremos para distintos valores de G.
9a di*erencia entre un valor observado y el valor estimado lo denominaremos re"iduo.
Residuo =
t
3

t
Y Y
:uestro problema consiste en minimi)ar la suma de los cuadrados de los residuos de
los
cuadrados de los residuos, 2
n
u
t
2
. /e este problema de optimi)acin se deduce la
expresin
t 51
de mnimos cuadrados ordinarios del M"9M$
;riterio M;($ Min 2
n
u
t
2
t 51
;omo ya hemos citado anteriormente, la ecuacin de la recta de m$nimo" cuadrado"
&en *orma puntoFpendiente' es la siguiente$
2
n
( X
t
3
Cov( X ,
Y ) ( X
3
X
) (Y
t

3Y
( X
3
)
5
t

5
1
) Y
3Y 5
X X s
x
2 n 2
2
(

X
t
3
X
)
t 51
2002
2(GP
t
3 GP
)(V
t

3V
17.0
00

2
5
t
51998
5
5 28,3 ,
Ksta sera la estimacin de la pendiente
2002
600
2(GP
t

3
)
2
GP
t 51998
de la recta por mnimos cuadrados.
Hor otro lado,
1
5V 3
2
G P 5 700 3 28,333 50 5 3716,6 , y Ksta sera la
estimacin de la ordenada de la recta de regresin el punto de corte de la recta con
los ejes.
Hor tanto, 6 5 3716,6 1 28,3G
9a representacin gr*ica de los datos anteriores es la %ue sigue$
"egression Hlot
6 5 F>,?,??> 1 #=,BBBBG
"F+% 5 >@,B N
,#-
-
,--
-
7E:EA+
=--
?-- error de
estimacin
&ut'
A--
#--
-
B- A- @-
?
-
Hublicidad
/el diagrama anterior, cabe
observar %ue no todos los puntos
estn en la lnea de regresin. +i
todos lo estuvieran y, adems, si
el nmero de observaciones
*uera su*icientemente grande, no
habra ningn error de
estimacin. En ese caso, no
habra ninguna di*erencia entre el
valor observado y el valor de
prediccin.
;omo imaginamos, en los casos reales, las predicciones per*ectas son prcticamente
imposibles y lo %ue necesitamos es una medida %ue describa cmo de precisa es la
prediccin de 6 en *uncin de G o, inversamente, %uK inexacta puede ser la estimacin.
A esta medida se le llama error e"t!ndar de e"timacin y se denota S
)*
. El error
estndar de estimacin, es el mismo concepto %ue la desviacin estndar, aun%ue Ksta
mide la dispersin alrededor de la media y el error estndar mide la dispersin
alrededor de la lnea de regresin.
Interpretacin de lo" coeficiente" e"timado"
+egn la recta de mnimos cuadrados, al incrementarse en un milln de euros los
gastos en publicidad, la cantidad de *acturacin obtenida se incrementar en #=,B
millones de euros. 6 cuando no se haga ningn es*uer)o publicitario, las ventas segn
la recta sern negativas. Esto se puede entender como %ue no se vende nada o %ue si
no se hace ningn es*uer)o publicitario se obtienen unas ventas negativas, en el
sentido de %ue hay otros gastos a la hora de vender %ue provocan %ue al *inal haya
ventas negativas.
9a correlacin entre ambas variables es muy alta, ya %ue el coe*iciente de correlacin r
5 -.=> est muy prximo a ,.
2002
r Cov( X ,
2(GP
t
3G P ) (V
t
3V )
5
Y )
5
t 51998
5 0,868
s
X
s
Y 2002 2002
2(GP
t
3G P )
2

* 2(V
t
3V )
2
t 51998 t 51998
Proyecto e-Math 7
Financiado por la Secretara de Estado
de Educacin y Universidades ME!"#
Hara pro*undi)ar ms en los conceptos vistos hasta el momento o para entender
gr*icamente como *uncionan, a continuacin citamos algunos enlaces Oeb
interesantes$
En el enlace$
http$PPOOO.stat.Ovu.eduP+"+PModulesPAppletsP"egressionPregression.html
encontraremos un applet en el %ue modi*icando los datos de la variable G e 6 podemos
construir la recta de regresin. El gr*ico resultante ser similar al siguiente$
!n applet de similares caractersticas lo encontraremos en$
http$PPOOO.Quleuven.ac.bePucsPjavaPversion#.-PApplet-,-.html
9os conceptos de regresin lineal y correlacin entre variables se aplican a
innumerables aspectos de la vida real, tanto en el mbito social, como cient*ico,... En
el siguiente enlace$
http$PPOOO.*isterra.comPmaterialPinvestigaPregreRlinealRsimplePregreRlinealRsimple.htmS
, encontramos un claro ejemplo de cmo utili)ar estos conceptos para ver la relacin
entre la Eensin arterial sistlica y la edad, a partir de una muestra de ?< pacientes.

Você também pode gostar