Você está na página 1de 8

ANLISIS DE REGRESIN LINEAL SIMPLE: PARTE II

S.W. Bueno, Ph.D.


Cambio marginal
Cuando se trabaja con dos variables relacionadas por una ecuacin de regresin, el cambio
marginal de una variable es la cantidad que esta cambia cuando la otra variable cambia
exactamente en una unidad.
La pendiente b
1
en la ecuacin de regresin representa el cambio marginal en la variable
dependiente Y cuando la variable independiente X cambia en exactamente una unidad.
En la ecuacin y = 12.S +7X, cuando X cambia en valor de 5 a 6, y experimenta un
cambio marginal de 7.
Valores extremos y puntos de influencia
Un valor extremo es un par (x, y) lejos de el conglomerado en un diagrama de dispersin de
los pares de datos. Un punto de influencia es un par que afecta considerablemente la
ecuacin de regresin.

Residuos
Se ha dicho que la ecuacin de regresin representa la lnea recta que se ajuste mejor a los
datos. El criterio utilizado en determinar la lnea que mejor se ajusta a los datos se basa en
las distancias verticales entre los puntos originales y la lnea de regresin. Estas distancias
se conocen como residuos.

Un residuo resulta de sustraer el valor y predicho utilizando la ecuacin de regresin, del
valor observado en la variable dependiente y. Si tenemos la ecuacin y = u.21S +
u.S86X, generada al utilizar el mtodo de cuadrados mnimos en los siguientes datos,
X Y y = u.21S +u.S86X c = y -y (y -y)
2
4 1 2.557 -1.557 2.424
2 2 1.385 0.615 0.378
8 5 4.901 0.099 0.010
5 4 3.143 0.857 0.734

Los residuos son los generados en la cuarta columna por la formula c = y -y. Sus
cuadrados se presentan en la columna cinco
Residuos
Una lnea recta satisface la propiedad de cuadrados mnimos si la suma de los cuadrados de
los residuos es la mnima posible. La lnea recta del ejemplo anterior, y = u.21S +u.S86X,
produce la menor suma de cuadrados posibles, porque las formulas de b
0
y b
1
han sido
desarrolladas para obtener la lnea de cuadrados mnimos. Cualquier otra lnea trazada a
travs de los puntos de datos pareados no producira los cuadrados mnimos.

Grafico de residuos
Es un diagrama donde se muestra en la ordenada cada valor y -y y en la abscisa el valor
correspondiente de la variable independiente X. Si el grafico de residuales no refleja

patrones, la ecuacin de regresin es una buena representacin de la asociacin entre las
dos variables y viceversa.
Coeficiente de determinacin
Anteriormente preguntbamos que tan bien se ajustaban al conjunto de datos la ecuacin de
regresin. El coeficiente de determinacin, R
2
, es una de las posibles medidas de la bondad del
ajuste para una ecuacin de regresin. Para la i-sima observacin en la muestra de valores
pareados utilizados para estimar b
0
y b
1,
la desviacin entre el valor observado de la variable
dependiente y, y el valor estimado y, se puede llamar i-simo residual. Este representa el error
que se comete al usar y para estimar y.
La suma de cuadrados de estos residuos o errores es la cantidad que se minimiza con el
mtodo de los mnimos cuadrados. Esta suma tambin se conoce como Suma de
Cuadrados debido al Error (SSE). Su formula emprica es:
SSE = (y

- y

)
2
y es una medida del error que se comete al usar la ecuacin de regresin para
calcular los valores de la variable dependiente. Mide que tan bien las observaciones se agrupan en
torno a la recta de regresin.
Cuando se elevan al cuadrado las desviaciones de las observaciones individuales de la variable
dependiente y

de su media y, se produce la Suma Total de Cuadrados, cuya frmula es:


SSI = (y

-y)
2
. SST mide que tan bien las observaciones se agrupan en torno a su media.
La Suma de Cuadrados debido a la Regresin se computa empricamente con la formula:
SSR = (y

-y)
2
. SSR mide la desviacin de los valores estimados del valor de la media de la
variable dependiente.


SSI = SSR +SSE
R
2
=
SSR
SSI
= 1 -
SSE
SSI

El coeficiente de determinacin, R
2
, asume valores entre 0 y 1 y se utiliza para evaluar la
bondad del ajuste de la ecuacin de regresin. Mientras ms cerca esta R
2
de 1, mayor es la
utilidad de la ecuacin de regresin como herramienta de prediccin.
Determinacin de la varianza de los residuos (e)
La varianza de los residuos (errores) se conoce como Error Medio Cuadrtico y se estima
por,
S
c
2
=
(y -y)
2
n -2
=
SSE
n -2

S
c
2
=
S
yy
-b
1
2
S
xx
n -2
=
S
yy
-b
1
S
xy
n -2


S
xx
= x
2
-
(x)
2
n
S
yy
= y
2
-
(y)
2
n
S
xy
= xy -
(x)(y)
n

La cantidad S
c
2
, es insesgada bajo el postulado de que el modelo de regresin es correcto.
Su raz cuadrada, S
c
, es una medida de la variacin absoluta en los datos expresados en las
mismas unidades que la variable dependiente y.
Un valor pequeo de S
c
sugiere que los valores observados de y estn cerca de la lnea de
regresin verdadera y la ecuacin de la lnea estimada, y = b
0
+b
1
X, provee estimados y
predicciones precisos.
Inferencias acerca de h

y h
1
.
El modelo de regresin de la poblacin se define como, y = [
0
+[
1
X +e. Para computar
los estimados de cuadrados mnimos b
0
y b
1
, de los parmetros [
0
y [
1
, debemos obtener
una muestra aleatoria de n observaciones.
b
1
= [
`
1
=
S
xy
S
xx
=
xy -
(x)(y)
n
x
2
-
(x)
2
n
=
n(xy) -(x)(y)
n(x
2
) -(x)
2

b
0
= [
`
0
= y -[
`
1
x
Es necesario conducir esta prueba estadstica, para determinar si hay una relacin lineal
entre x e y, hay que conducir una prueba de hiptesis sobre el parmetro [
1
, usando como
estimador de prueba a b
1
= [
`
1
. Si B
1
es significativamente diferente de cero y la lnea
poblacional de regresin tiene una pendiente positiva o negativa, el conocimiento del
valor de la variable independiente X, ayuda a predecir el valor de y. Cuando la
pendiente es positiva y B
1
es significativamente diferente de cero, si x es grande,
predeciremos valores grandes de y e viceversa. Sin embargo, si B
1
= , saber como es x
no nos ayudara a predecir y. Grficamente,

Resumen de la prueba para la pendiente B
1


Hiptesis nula: H

: B
1
=
Hiptesis alternativas:
Bilateral H
a
: B
1
=
Lateral derecho: H
a
: B
1
> u
Lateral izquierdo: H
a
: B
1
< u
Estadgrafo de prueba:
t =
B

1
-
S
B

1
=
B

S
e
2
S
xx
S
e
2
=
S
yy
-B

1
S
xy
n-2

Regin de rechazo:
Para un valor dado de y n-2 grados de libertad,
Para una prueba lateral, rechace H

si: t > t
u
o t < t
u

Para una prueba bilateral, rechace H

si: |t| > t


u 2


Ejemplo de cmputos a mano
x

2
y

2
x - y
1 3 1 9 3
2 7 4 49 14
3 5 9 25 15
4 11 16 121 44
5 14 25 196 70
=15 =40 =55 =400 =146

y =
40
5
= 8 x =
15
5
= S
[
`
1
=
xy-
(x)(V)
n
x
2
-
(x)
2
n
=
146-
(1S)(40)
S
55-
(1S)
2
S
=
26
10
= 2.6

[
`
0
= y -[
`
1
x = 8 -|2.6 - S] = u.2

y = u.2 +2.6X
SSI = `(y

-y)
2
= S
yy
= `y
2
-
(y)
2
n
]
= 4uu -
4u
2
S
]
= 8u
S
xx
= `x
2
-
(x)
2
n
= SS -
1S
2
S
] = 1u
S
xy
= `xy -
(x)(y)
n
= 146 -
(1S)(4u)
S
= 26
SSE = `(y

-y

)
2
= S
yy
-b
1
S
xy
= 8u -|2.6 - 26] = 12.4
SSR = `(y

-y)
2
= b
1
S
xy
=
(S
xy
)
2
S
xx
= (2.6)(26) =
(26)
2
1u
= 67.6
R
2
=
SSR
SSI
= 1 -
SSE
SSI

=
67.6
8u
= 1 -
12.4
8u
= u.84S
S
c
2
=
(y -y)
2
n -2
=
SSE
n -2
=
12.4
S -2
= 4.1S
S
c
= S
c
2
= 4.1S = 2.uS
Intervalo de confianza (Inferencias sobre B
1
)
S
B

1
=
S
e
2
S
xx
=
S
c
.
S
xx
=
2. 3

1
= . 419
u=0.05 (95%) tu
2
] ,n-2
= t
.5
2
] ,5-2
= t
.25,3
= 3. 182
[
`
1
t
.25,3
S
B

1
= 2. (S.182 - u.6419) = (u.SS7, 4.642)
No contiene 0.

Você também pode gostar