Você está na página 1de 27

Unidad 8.

REGRESIN
Y CORRELACIN
ING. JHONATAN ANDRS RODRGUEZ MANRIQUE
C O R P O R A C I N U N I V E R S I TA R I A D E L C A R I B E C E C A R
FA C U LTA D D E C I E N C I A S B S I C A S I N G E N I E R A Y A R Q U I T E C T U R A
P R O G RAM A D E I N G E N I E R A D E S I S T E M A S

CONTENIDO
Introduccin.
Aspectos de tipo inferencial
Regresin lineal
parmetros de la recta de regresin.
Estimacin puntual, intervalos de confianza y
contrastes de hiptesis para los parmetros de la recta
de regresin, as como para el coeficiente de correlacin.

INTRODUCCIN
ASPECTOS DE
TIPO
INFERENCIAL

INTRODUCCIN. ASPECTOS
DE TIPO INFERENCIAL

Esto se hace con el fin obtener un modelo de


prediccin que permita determinar valores de
respuesta de forma matemtica.

INTRODUCCIN. ASPECTOS
DE TIPO INFERENCIAL

REGRESIN
LINEAL Y
PARMETROS
DE LA RECTA DE
REGRESIN

Regresin lineal y
parmetros de la recta de
regresin
Dados n pares de valores , , , ,,, de una variable bidimensional
(X,Y). Regresin lineal simple de Y con respecto a X, consiste
en determinar la ecuacin de la recta:

Que mejor se ajuste a los valores de la muestra, con el fin de


predecir o estimar Y a partir de X

Regresin lineal y
parmetros de la recta de
regresin

A la ecuacin con que se describe cmo se relaciona Y con X y en la


que se da un trmino para el error, se le llama modelo de regresin.
El siguiente es el modelo que se emplea en la regresin lineal simple.
Modelo de regresin lineal simple

y se conocen como los parmetros del modelo, y es una variable aleatoria


que se conoce como trmino del error. El trmino del error da cuenta de la
variabilidad de Yque no puede ser explicada por la relacin lineal entre y Y.

ECUACIN DE REGRESIN
(MODELO MATEMTICO)
A la ecuacin que describe la relacin entre el valor esperado de y,
que se denota E(x), y x se le llama ecuacin de regresin. La
siguiente es la ecuacin de regresin para la regresin lineal simple.

Regresin lineal y
parmetros de la recta de
regresin

Se denomina error o residuo a cada


diferencia:

Del valor observado


y el valor
pronosticado . Un mtodo para
determinar la recta que mejor se
ajuste a los datos de la muestra ) es el
mtodo de mnimos cuadrados.

MINIMOS CUADRADOS
La recta de regresin de mnimos cuadrados de Y en X e s aquella que hace
mnima la suma de los cuadrados de errores (SCE ) cuya expresin es:

Luego, determinar una recta de regresin de mnimos cuadrados consiste


en hallar los valores de a y b de manera que hagan mnima, la suma:

Este
requisito se cumple, de acuerdo con el teorema de Gass-Markow, si a y b se

determinan resolviendo el siguiente sistema de ecuaciones normales. Estas


ecuaciones se obtienen de igualar a cero las derivadas de SCE con respecto a a y
con respecto a b respectivamente consideradas como variables, ya que ) son datos
observados.

MINIMOS CUADRADOS
Resolviendo el sistema de ecuaciones normales para b,
se obtiene:
Donde

Procediendo a dividir por n la primera ecuacin normal,


se tiene: el valor de a:

DIAGRAMA DE DISPERSIN
Se denomina diagrama de dispersin o nube de puntos, a la grafica de

los valores () de las variables X e Y en el sistema cartesiano. Este


diagrama indica la tendencia que existe entre las variables estudiadas.

Es frecuentemente posible visualizar el tipo de relacin


existente entre dos variables a partir del diagrama de
dispersin.

DIAGRAMA DE DISPERSIN

EJERCICIO 1
En un estudio de la relacin entre la publicidad por internet y las ventas de
un producto, durante 10 semanas se han recopila do los tiempos de
duracin en minutos de la publicidad por semana (X), y el nmero de
artculos vendidos (Y), resultando:
Semana
Publicidad
(x)
Ventas (y)

10

20

30

30

40

50

60

60

60

70

80

50

73

69

87

108

128

135

132

148

170

a) Trazar el diagrama de dispersin, e indicar la tendencia.


b) Calcular la recta de regresin de mnimos cuadrados con el fin de
predecir las ventas.
c) Estimar la venta si en una semana se hacen 100 minutos de
propaganda.

EJERCICIO 2
Un editor tom una muestra de 7 libros anotando el precio y el nmero de
pginas respectivo, obteniendo los siguientes datos:
N
paginas

630

550

400

250

370

Precio
10
8
7
4
6
($)
a) Realice un diagrama de dispersin entre las variables.

320

610

b) Determine una funcin lineal entre el precio y el nmero de pginas con


el fin de predecir precios.
c) Estimar el precio de un libro de 300 pginas. Si a este libro se le
incrementa 20 pginas en una segunda edicin, en cunto se
incrementara su precio?.
d ) Cuntas pginas debera tener un libro cuyo precio se estima en
$12.27?.

EJERCICIO 3
Sea Y el ndice de precios al consumidor, tomando como base
al ao 1980 (es decir 1980 =100). Para los datos que siguen:
Ao

1981

1982

1983

1984

1985

1986

1987

106,4

111,1

117,2

121,3

125,2

128,0

132,6

a)Realice un diagrama de dispersin que ilustre la tendencia de


los datos.
b) Determine la recta de mnimos cuadrados que se ajuste a los
datos.
b) Predecir el ndice de precios para el ao 1988 y compararlo
con el valor verdadero (144.4). En que ao podemos esperar
que el ndice de precios sea 150.57, suponiendo que las
tendencias presentes continen?.

Regresin lineal y
parmetros de la recta de
regresin
PROCESO DE ESTIMACIN DE LA REGRESIN LINEAL SIMPLE

Regresin lineal y
parmetros de la recta de
regresin

En una ecuacin lineal simple, la media o valor esperado


de Y es una funcin lineal de X:

Pero si el valor de es cero, , en este caso el valor de Y no


depende del valor de X y por lo tanto se puede concluir
que X y Y no estn relacionadas linealmente.

Para
probar si existe una relacin de regresin significante, se debe realizar

una prueba de hiptesis para determinar si el valor de es distinto de


cero. En ambas se requiere la estimacin de la varianza del error en el
modelo de regresin.

PRUEBA DE HIPTESIS PARA EL COEFICIENTE DEL


MODELO DE REGRESIN (ANOVA Y PRUEBA t)
Una vez estimados los parmetros del modelo, es necesario determinar
estadsticamente si el modelo lineal ajustado representa una relacin
efectiva entre las variables X y Y. Para verificar tal relacin se lleva
acabo la prueba de hiptesis.

Esta prueba de hiptesis se lleva a cabo mediante un anlisis de varianza


(ANAVA), el cual esta basado en el hecho que la desviacin total se puede
descomponer en dos fuentes de variacin, una es la debida al modelo, y la
otra es la debida al error.

PRUEBA DE HIPTESIS PARA EL COEFICIENTE DEL


MODELO DE REGRESIN (ANOVA Y PRUEBA t)

PRUEBA DE HIPTESIS PARA EL COEFICIENTE DEL


MODELO DE REGRESIN (ANOVA Y PRUEBA t)

COEFICIENTE DE
DETERMINACIN

El

coeficiente de determinacin se obtiene de la razn


entre la suma de cuadrados totales de la regresin entre y
la suma de cuadrados totales.

Se expresa en forma de porcentaje, se puede interpretar


como el porcentaje de la suma total de cuadrados que se
explica mediante el uso de la ecuacin de regresin
estimada.

COEFICIENTE DE
DETERMINACIN
Sigamos el siguiente ejemplo

Se concluye que 90.27%


de la variabilidad en la variable Y (ventas,
crecimiento, peso), se explica por la relacin lineal que existe entre la
variable x y la variable Y.

Lo que se busca es que el porcentaje del coeficiente de determinacin


sea lo mas cercano a 100% para que se explique mejor la variabilidad
de la variable de respuesta frente a la variable independiente segn
el modelo lineal.

EL COEFICIENTE DE
CORRELACIN
El coeficiente de correlacin es una medida descriptiva de la intensidad(fuerza)
de la relacin lineal entre dos variables x y y.
Los valores del coeficiente de correlacin son valores que van desde -1 hasta 1.

El valor 1 indica que las dos variables y estn perfectamente relacionadas en


una relacin lineal positiva.
Es decir, los puntos de todos los datos se
encuentran en una lnea recta que tiene pendiente positiva.
Interpretacin 1

El valor -1 indica que y estn perfectamente relacionadas, en una relacin


lineal negativa, todos los datos se encuentran en una lnea recta que tiene
pendiente negativa. Los valores del coeficiente de correlacin cercanos a cero
indican que y no estn relacionadas linealmente
Interpretacin 2

EL COEFICIENTE DE
CORRELACIN

Entonces

Interprete cuando es +
y cuando es -

EJERCICIOS
X
189
190

Y
402

Una compaa desea hacer predicciones del valor anual de sus


ventas totales en cierto pas a partir de la relacin de stas y la renta
404 nacional. Para investigar la relacin cuenta con los siguientes datos:

208

412

227

425

239

429

252

436

257

440

274

447

293

458

308

469

316

469

X representa la renta nacional en millones de euros e Y representa las


ventas de la compaa en miles de euros en el periodo que va desde
1990 hasta 2000 (ambos inclusive). Calcular:
a) Dibuje el diagrama de dispersin
b) Pruebe la hiptesis de independencia lineal entre las variables
c) Estimar la ecuacin de la recta de regresin de X sobre Y
d) Prueba de hiptesis de significancia de los parmetros del modelo
e) Determine el coeficiente de correlacin y determinacin e interprete
f) Si en 2001 la renta nacional del pas fue de 325 millones de euros. Cul
ser la prediccin para las ventas de la compaa en este ao

Você também pode gostar