Você está na página 1de 17

4 REGRESION Y CORREALCION SIMPLE

4.1Regresion de probabilidad simple y curvilnea


Clases de Regresin
La regresin puede ser Lineal y Curvilnea o no lineal, ambos tipos de regresin pueden
ser a su vez:
a) Regresin Simple: Este tipo se presenta cuando una variable independiente ejerce
influencia sobre otra variable dependiente. Ejemplo: Y = f(x)
Esta regresin se utiliza con mayor frecuencia en las ciencias econmicas, y sus
disciplinas tecnolgicas. Cualquier funcin no lineal, es transformada en lineal para
su estudio y efectos.
Objetivo: Se utiliza la regresin lineal simple para:
1.- Determinar la relacin de dependencia que tiene una variable respecto a otra.
2.- Ajustar la distribucin de frecuencias de una lnea, es decir, determinar la forma
de la lnea de regresin.
3.- Predecir un dato desconocido de una variable partiendo de los datos conocidos
de otra variable.
Por ejemplo:
En una empresa de servicio de Internet busca relacionar las ganancias que obtiene
cada computadora con el numero de usuarios que ingresan a dicha cabina
diariamente. En la tabla representa Y (Ganancias S/.) e X (Numero de usuarios)
Y 100 98 99 102 102 111 97 104 102 96
X 116 96 110 105 99 106 100 109 98 108

Indica el nmero de unidades en que se modifica la variable dependiente Y por
efecto del cambio de la variable independiente X o viceversa en una unidad de
medida.
Clases de coeficiente de Regresin:
El coeficiente de regresin puede ser: Positivo, Negativo y Nulo.
Es positivo cuando las variaciones de la variable independiente X son directamente
proporcionales a las variaciones de la variable dependiente Y
Es negativo, cuando las variaciones de la variable independiente X son
inversamente proporcionales a las variaciones de las variables dependientes Y
Es nulo o cero, cuando entre las variables dependientes Y e independientes X
no existen relacin alguna.


Procedimiento para hallar el Coeficiente de Regresin
Para determinar el valor del coeficiente de regresin de una manera fcil y exacta
es utilizando el mtodo de los Mnimos Cuadrados de dos maneras:
1.- Forma Directa
De la ecuacin de la recta:

Si 0 a y 1 a , se obtienen a partir de las ecuaciones normales:

Aplicando normales Y sobre X tenemos:

El Coeficiente de Regresin es
De la misma manera la recta de regresin de X sobre Y ser dada de la
siguiente manera:

Donde: b
0
y b
1
se obtienen a partir de las ecuaciones normales:


Aplicando normales X sobre Y tenemos:


Existe el mtodo por mnimos cuadrados

b) Regresin Mltiple: Este tipo se presenta cuando dos o ms variables
independientes influyen sobre una variable dependiente. Ejemplo: Y = f(x, w, z).

AJUSTE DE CURVAS

En mltiples ocasiones se encuentran situaciones en las que se requiere analizar
la relacin entre dos variables cuantitativas. Los dos objetivos fundamentales de este
anlisis sern:
Determinar si dichas variables estn asociadas y en qu sentido se da dicha
asociacin (es decir, si los valores de una de las variables tienden a aumentar o
disminuir- al aumentar los valores de la otra);
Estudiar si los valores de una variable pueden ser utilizados para predecir el valor de
la otra.

La forma correcta de abordar el primer problema es recurriendo a coeficientes
de correlacin. Sin embargo, el estudio de la correlacin es insuficiente para obtener
una respuesta a la segunda cuestin: se limita a indicar la fuerza de la asociacin
mediante un nico nmero, tratando las variables de modo simtrico, mientras que lo
que interesa es modelizar dicha relacin y usar una de las variables para explicar la
otra.
Para tal propsito se recurrir a la tcnica de regresin. Aqu se analizar el
caso ms sencillo en el que se considera nicamente la relacin entre dos variables (x e
y). As mismo, se limita al caso en el que la relacin que se pretende modelizar es de
tipo lineal. En este caso, la media de la distribucin de las y sobre x est dada por
+ .x.




REGRESIN CURVILNEA

Se considerar primero el caso en que la graficacin en una escala adecuada
puede ser lineal. Por ejemplo, si un conjunto de parejas de datos que conste de n
puntos (x
i
,y
i
) "se enderezan" cuando son graficados sobre ejes escalados
adecuadamente. E este caso, al ser representados sobre papel semilogartmico,
indican que la curva de regresin de y sobre x es exponencial, es decir para cualquier x
considerada, la media de la distribucin est dada por la siguiente ecuacin predictora
y = .
x
, tomando logaritmos en ambos miembros:


log y ( ) log
( )
x log
( )
+


y se puede estimar ahora log() y log(), y de ah obtener y , aplicando los mtodos
anteriores a los n pares de valores [x
i
,log(y
i
)].

4.1.1. Distinguir entre variable dependiente e independiente
Variable dependiente. Es la variable central de la investigacin; a travs
de ella se miden los cambios ocasionados por la variable independiente en
la poblacin estudiada. Por ejemplo, cncer de pulmn, conocimiento,
destreza, satisfaccin y utilizacin de un servicio.
Variable independiente. Determina a la variable dependiente. Es la que
va a ocasionar los cambios en la poblacin estudiada. Por ejemplo, nmero
de cigarros fumados al da, intervencin educativa, capacitacin, calidad de
atencin y percepcin de necesidad de salud
4.1.2. Definir ecuacin de regresin y cual es su aplicacin
LA RECTA DE REGRESIN

Considrese una variable aleatoria respuesta (o dependiente) y, que se supone
relacionada con otra variable (no necesariamente aleatoria) que se llamar explicativa,
predictora o independiente y que se denotar por x.
A partir de una muestra de n individuos para los que se dispone de los valores
de ambas variables, {(x
i
,y
i
),i = 1,...n}, se puede visualizar grficamente la relacin
existente entre ambas mediante un grfico de dispersin, en el que los valores de la
variable x se disponen en el eje horizontal y los de y en el vertical. El problema que
subyace a la metodologa de la regresin lineal simple es el de encontrar una recta que
ajuste a la nube de puntos del diagrama as dibujado, y que pueda ser utilizada para
predecir los valores de y a partir de los de x. La ecuacin general de la recta de
regresin ser entonces de la forma: + .x.
El problema radica en encontrar aquella recta que mejor ajuste a los datos.
Tradicionalmente se ha recurrido para ello al mtodo de mnimos cuadrados, que elige
como recta de regresin a aquella que minimiza las distancias verticales de las
observaciones a la recta.
Cualquier observacin i-sima y
i
diferir verticalmente de esa recta (por ahora
desconocida) en un valor
i
. Luego es el valor de una variable aleatoria.



El valor de para cualquier observacin determinada depender de un posible
error de medicin y de los valores de otras variables distintas de x que podran influir
sobre y.
Habr que calcular los valores de y de la lnea de regresin, es decir la
ecuacin de la recta que de alguna manera da el mejor ajuste. En referencia al grfico
anterior, es relativamente fcil trazarla a simple vista con un poco de sentido comn.
Sin embargo, lo habitual es recurrir a un mtodo menos subjetivo.
Para plantear este problema de manera formal, considrese n parejas de
observaciones (x
i
,y
i
) en las cuales es razonable suponer que la regresin de y sobre x es
lineal, y se desea determinar la recta del mejor ajuste. Si se predice y por medio de la
ecuacin:

sea e
i
el error de predecir el valor de y correspondiente a la x
i
es:


Se quiere determinar a y b de modo que estos errores sean, en cierto modo, lo
ms pequeos posibles. Ya que no se pueden minimizar cada uno de los e
i
por
separado, esto sugiere intentar
1
n
i
e
i

=

tan cercano a cero como sea posible.
Esto no es aconsejable puesto que errores positivos y negativos se
compensarn dando lneas inadecuadas como respuesta. Por lo tanto, se minimizar la
suma de los cuadrados de e
i
. Es decir, se elegirn a y b de modo que:
1
n
i
y
i
a b x
i
+ ( )

=
sea mnimo

Esto equivale a minimizar la suma de los cuadrados de las distancias verticales a
partir de los puntos respecto de la lnea. Este mtodo (llamado de los Mnimos
Cuadrados) da valores de a y b (estimaciones de y ) que tienen muchas propiedades
convenientes.
Una condicin necesaria para que exista un mnimo relativo es la anulacin de
las derivadas parciales con respecto a a y b:
2
1
n
i
y
i
a b x
i
+ ( )

1 ( )

=
0
derivada respecto de a

2
1
n
i
y
i
a b x
i
+ ( )

x
i
( )

=
0
derivada respecto de b

lo que se puede reescribir como:
1
n
i
y
i

=
a n b
1
n
i
x
i

=
+

1
n
i
y
i
x
i

=
a
1
n
i
x
i

=
b
1
n
i
x
i
( )
2

=
+


esto es un conjunto de ecuaciones lineales con incgnitas a y b, denominadas
Ecuaciones Normales.
Resolviendo por determinantes:

a
1
n
i
y
i

= 1
n
i
x
i
( )
2

1
n
i
y
i
x
i

= 1
n
i
x
i

=

n
1
n
i
x
i
( )
2

1
n
i
x
i

=
|

\
|
|
|


b
n
1
n
i
x
i
y
i

1
n
i
x
i

= 1
n
i
y
i

=

n
1
n
i
x
i
( )
2

1
n
i
x
i

=
|

\
|
|
|



Ejemplo: Los siguientes datos son las mediciones de la Tensin Arterial en 14 pacientes
de distintas edades:



ajustar una lnea recta a estos datos por el mtodo de mnimos cuadrados y utilizarla
para estimar la tensin arterial para una persona de 36 aos.


1
n
i
x
i

=
461
1
n
i
y
i
x
i

=
63892
1
n
i
x
i
( )
2

=
16819
1
n
i
y
i

=
1901


de aqu el sistema de ecuaciones queda:

1901 a 14 b 461 +

63892 a 461 b 16819 +


con la soluciones:

a 109.7715 b 0.79

Para una persona de 36 aos de edad:

y = 0.79.(36)+109.7715 = 138.2122

En el siguiente grfico se puede apreciar el Diagrama de Dispersin y la recta
del mejor ajuste (desde el punto de vista de los mnimos cuadrados) y la estimacin
para una persona de 36 aos de edad:



La siguiente funcin Matlab permite obtener los resultados vistos del proceso:

function recta
% Ajuste lineal de un conjunto de datos por Minimos Cuadrados
% con datos presentes en el archivo ascii regre.txt
% Entradas: u, vector, obtenido del archivo ascii "regre.txt"
% Salida: a, real, Ordenada al origen
% b, real, pendiente de la recta

load regre.txt;u=regre;n=size(u,1);
sy=0; for i=1:n, sy=sy+u(i,2);end
sx=0; for i=1:n, sx=sx+u(i,1);end
sx2=0; for i=1:n, sx2=sx2+u(i,1)^2;end
sxy=0; for i=1:n, sxy=sxy+u(i,1)*u(i,2);end
A(1,1)=n;A(1,2)=sx;A(2,1)=sx;A(2,2)=sx2;B(1,1)=sy;B(2,1)=sxy;
C=inv(A)*B;a=C(1,1);b=C(2,1);
i=1:n;plot(u(i,1),b*u(i,1)+a,u(i,1),u(i,2),'*')
a
b

El Teorema de Gauss-Markov establece: Entre los estimadores insesgados de
y que son lineales en los y
i
, los estimadores de mnimos cuadrados tienen la
varianza ms pequea.
4.1.3. Aplicar el mtodo de mnimos cuadrados para determinar la recta,
parbola curva que mejor se ajuste a un conjunto de datos
INFERENCIAS BASADAS EN ESTIMADORES DE MNIMOS CUADRADOS

En lo que sigue se supondr que la regresin es lineal y, ms an, que las n
variables aleatorias que tienen valores y
i
(i=1, 2, , n) son independientes y que estn
distribuidos normalmente con las medias + .x
i
y la varianza comn
2
.
Si se escribe: y
i
= + .x
i
+
i
se deriva que los
i
son valores de variables
aleatorias independientes, distribuidas normalmente, y que tienen medias 0 y varianza
comn
2
. Grficamente:




En las suposiciones hechas hasta aqu, como se ilustra, se pueden advertir las
distribuciones de los y
i
para varios valores de las x
i
.
Antes de establecer un teorema relativo a la distribucin de los estimadores de
mnimos cuadrados de y , es conveniente introducir una notacin especial:

Sxx n
1
n
i
x
i
( )
2

1
n
i
x
i

=
|

\
|
|
|

2
n sx
2
n 1 ( )

Syy n
1
n
i
y
i
( )
2

1
n
i
y
i

=
|

\
|
|
|

2
n sy
2
n 1 ( )

Sxy n
1
n
i
x
i
y
i

1
n
i
x
i

= 1
n
i
y
i

=
n sxy n 1 ( )


en base a esto, las ecuaciones normales, resueltas por determinantes, quedan:
b
Sxy
Sxx
a y

b x



donde e son, respectivamente las medias de las x y de las y. Debe notarse tambin
la estrecha relacin entre las Sxx y Syy con las varianzas muestrales respectivas de las x
y las y (sx y sy).
La varianza comn
2
puede estimarse en trmino de las desviaciones
verticales de los puntos muestrales a partir de la lnea de mnimos cuadrados. La i-
sima de tales desviaciones es:
y
i
a b x
i
+ ( )


De aqu, la estimacin, s
e
2
, es:
s
e
2
1
n 2
1
n
i
y
i
a b x
i
+ ( )


donde s
e
se denomina Error Estndar de Estimacin, tambin la suma de los cuadrados
dada por s
e
2
.(n-2) recibe el nombre de Suma de Cuadrados Residual o Suma de
Cuadrados de Error.
Una frmula equivalente de esa estimacin de
2
es:

s
e
2
Sxx Syy Sxy
2

n n 2 ( ) Sxx

el divisor n-2 se emplea para que el estimador resultante de
2
sea insesgado.
En base a las suposiciones efectuadas relativas a la distribucin de las y, se
pueden probar los siguientes teoremas:

Teorema 1: Con las suposiciones dadas, los estadsticos:

con valores de variables aleatorias que tienen la distribucin t-Student con n-2 grados
de libertad.
Si se requieren intervalos de confianza para los coeficientes de regresin y ,
se sustituye el trmino medio de t
/2
< t < t
/2
por el estadstico t adecuado del
teorema anterior. Luego, por medio de clculos simples, se determinan los
correspondientes intervalos de confianza:

b t

2
s
e

n
Sxx
< b t

2
s
e

n
Sxx
+ <







4.2 Correlacin
Correlacin.

Recordemos que para el caso de una variable, la varianza era un parmetro que nos
mostraba cuanta variacin exista entre la media un conjunto de datos. En el mismo
tenor, estamos en determinar la dependencia entre dos variables por lo que una primera
propuesta es construir una medida que nos permita en forma anloga tratar la
variacin.

Se define la covarianza como la variacin que existe entre los datos de dos variables,
expresada como:



donde son las variables para n datos que intervienen en el estudio.
En realidad la correlacin es una medida sobre el grado de relacin entre dos variables,
sin importar cual es la causa y cual es el efecto. La dependencia de la que se habla en
este sentido es la dependencia entre la varianza de las variables.

Como hemos visto el manejo de unidades adimensionales nos permiten tener un
coeficiente sobre el que de forma cmoda se pueda trabajar, por lo que podemos dividir
entre el producto de las desviaciones de las variables, es decir:

( )( )
n
y y x x
S
i i
xy


=
i i
y y x

los valores para este coeficiente estn comprendidos entre -1 y 1.

Se tiene los siguientes criterios para r



entre mas se aproxima a los valores 1 y -1 la aproximacin a una correlacin se
considera buena. Cuando mas se aleja de 1 o de -1 y se acerca a cero se tiene menos
confianza en la dependencia lineal por lo que una aproximacin lineal ser lo menos
apropiado, sin embargo no significa que no existe dependencia, lo nico que podemos
decir es que la dependencia no es lineal. Un valor positivo para r indica que a medida
que una variable crece la otra tambin lo hace, por el contrario si su valor es negativo, lo
que podemos decir es que a medida que una variable crece la otra decrece.
Datos influyentes
Ejemplos de correlacin

Una vez que se determina que existe dependencia lineal un aspecto sumamente
relevante es el investigar las caractersticas del modelo matemtico que relaciona una
variable con otra, as de esta forma podemos decir, una variable puede clasificarse como
( )
y x
xy
S S n
S
r =

=
=
=
=
negativa lineal n correlaci o inversa perfecta, es lineal n correlaci la 1
nula lineal n correlaci o lineal n correlaci existe no 0
positiva lineal n correlaci o directa perfecta, es lineal n correlaci la 1
r
r
r
r
determinstico y probabilistico. El modelo determinstico, que no ser abordado en este
curso, esta ligado a la ecuacin que regula de forma determinante el comportamiento de
un fenmeno, as por ejemplo podemos determinar a partir de la obtencin de una
ecuacin sobre el potencial de frenado en un material, que ante cambios de la longitud
de onda la relacin es lineal no permitir predecir cuales sern sus valores. Ecuaciones
que permiten ver como es la oposicin a la corriente elctrica, o resistencia elctrica, al
aumentar la temperatura de un metal, entre otros, es un claro indicio de una ecuacin
que es determinstica, en ella se podr describir como cambiara la resistencia elctrica
del material en cuestin ante el aumento de una temperatura en el material. Por otro
lado, los fenmenos probabilsticos estn sujetos a la modelos que aunque puedan ser
descritos por una ecuacin no implica que todos los valores que intervienen en el
estudio puedan ser localizados en el grfico que los representan, y por supuesto un dato
mas no es garanta que sea localizado en la ecuacin
















Bibliografa
Cannavos G. Probabilidad y Estadstica Aplicacin y mtodos. Ed. en espaol Mc
GRAW- HILL/INTERAMERICANA DE MEXICO.1995.
http://www.eumed.net/libros/2006a/rmss/a8.htm
Devore, J.L. (2000). Probabilidad y Estadstica para Ingeniera y Ciencias, Quinta Edicin,
Thomson Learning.
Mendenhall, W. (1998). Estadstica para Administradores, Segunda Edicin, Grupo Editorial
Iberoamrica.
Montgomery, D.C. y Runger G.C. (1996). Probabilidad y Estadstica Aplicadas a la Ingeniera,
Primera Edicin, Mc Graw Hill.
Sheaffer, R. L. y McClave, J.T. (1990). Probabilidad y Estadstica para Ingeniera, Primera
Edicin, Grupo Editorial Iberoamrica.
Spiegel, M.R. (1970). Estadstica, Primera Edicin, Serie Schaum, Mc Graw Hill.
Walpole, R. E., Myers, R.H., y Myers, S.L. (1998). Probabilidad y Estadstica para Ingenieros,
Sexta Edicin, Prentice Hall.
Weimer, R.C. (1996). Estadstica, Segunda Edicin, CECSA.














Actividades complementarias adicionales

1.- Problema: Los siguientes datos son las mediciones de la velocidad del
aire y del coeficiente de evaporacin de las gotitas de combustible en una
turbina de propulsin:

Velocidad del aire
(cm/s)
20 60 100 140 180 220 260 300 340 380
Coeficiente de
Eva-poracin
(mm
2
/seg)
.18 .37 .35 .78 .56 .75 1.18 1.36 1.17 1.65

Construir un intervalo de confianza del 95% para el coeficiente de regresin
.
2.- Las cifras siguientes son datos sobre el porcentaje de llantas radiales
producidas por cierto fabricante que an pueden usarse despus de
recorrer cierto nmero de millas:

Miles de Millas
recorridas (x)
1
2
5 10 20 30 40
Porcentaje til (y) 98.2 91.7 81.3 64.0 36.4 32.6 17.1
Log(y) 1.992
1
1.9624 1.910
1
1.806
2
1.561
1
1.5132 1.2330

a) Graficar los datos proporcionados en escala semilogaritmica para
advertir si es razonable que la relacin es exponencial.
b) Ajustar una curva exponencial aplicando el mtodo de mnimos
cuadrados a las parejas de puntos [x
i
,log(y
i
)].
c) Emplear los resultados de la parte b) para estimar qu porcentaje de las
llantas radiales del fabricante durarn al menos 25000 millas.

Você também pode gostar