Você está na página 1de 30

REGRESINLINEALSIMPLE

Regresin:conjuntodetcnicasquesonusadas
conjuntodetcnicasquesonusadas
paraestablecerunarelacinentreunavariable
paraestablecerunarelacinentreunavariable
cuantitativallamadavariable
variabledependiente

yunao
msvariablesindependientes,llamadaspredictoras.
Estasdebenserporlogeneralcuantitativas,sin
embargousarpredictorasquesoncualitativases
permisible.
Modeloderegresin.Ecuacinquerepresentala
Ecuacinquerepresentala
relacinentrelasvariables.
Paraestimarlaecuacindelmodelosedebetener
unamuestradeentrenamiento.
unamuestradeentrenamiento.
1

Ejemplo
NACION%INMUNIZACIONTASA_mor
1"Bolivia"77118
2"Brazil"6965
3"Cambodia"32184
4"Canada"858
5"China"9443
6"Czech_Republic"9912
7"Egypt"8955
8"Ethiopia"13208
9"Finland"957
10"France"959
11"Greece"549
12"India"89124
13"Italy"9510
14"Japan"876
15"Mexico"9133
16"Poland"9816
17"Russian_Federation"7332
18"Senegal"47145
19"Turkey"7687
20"United_Kingdom"909
20"United_Kingdom"909
2

EjemplodeunalineadeRegresion
EjemplodeunalineadeRegresion

Usosdelanlisisderegresin:
a)Prediccin
b)Descripcin
c)Control
d)Seleccindevariables
Seleccindevariables

ElmodelodeRegr esinLinealsimple

Y =a + b X +e
Considerandolamuestra(Xi,Yi) parai=1,n

Yi = a+ bX
Xi+ei
Suposicionesdelmodelo:
LavariablepredictoraXesnoaleatoria
Loserroresei sonvariablesaleatoriasconmedia0yvarianza
constante s2.
Loserroresy(ij=1,n)sonindependientesentresi
ei ej j=1,n)sonindependientesentresi
6

Estimacindelalneader egr esinusando


MnimosCuadr ados
ados
SedebeMinimizar
n

Q(a,b ) = e

i=1

2
(
y

a
b
x

)
i
i

i=1

Derivandoseobtieneunpardeecuaciones
normalesparaelmodelo,cuyasolucionproduce
n

n
xiyi - xi yi
i=1 i=1
= i=1
b
n
n
2
nxi - (xi)2
i=1

i=1

Oequivalentemente
Oequivalentemente

b =

S xy
S xx

a = y - bx
7

1.2.2Inter pr etacindeloscoeficientesde
r egr esinestimados
)

Lapendiente b indicaelcambiopromedioenlavariablede
respuestacuandolavariablepredictoraaumentaenunaunidad
adicional.
)

Elintercepto a indicaelvalorpromediodelavariablede
respuestacuandolavariablepredictoravale0.Sinembargo
carecedeinterpretacinprcticasiesirrazonableconsiderar
queelrangodevaloresdexincluyeacero.

1.2.3Pr opiedadesdelosestimador esmnimos


cuadr ticosder egr esin
)
b
a) b esunestimadorinsegadode
esunestimadorinsegadodeb.Esdecir,E()=b

)
)
a
b)esunestimadorinsegadodea.Esdecir,E()=a
b)esunestimadorinsegadode

2
)
s

b
a
c)Lavarianzadeesyladees
Sxx

1
x2
s ( +
)
2

Sxx

1.2.4Pr opiedadesdelosr esiduales


Losresidualessonlasdesviacionesdelosvalores
observadosdelavariablesderespuestaconrespecto
alalneaderegresin.
n

ri = 0
a) Lasumadelosresidualeses0.Esdecir,
i=1
n

b)

rixi = 0

i
=1

ri yi = 0
c)
i
=1

10

1.2.5Estimacindelavarianzadelerror
Unestimadorinsesgadodees:
s2
n

s2 =

n
2

(yi - yi) ri

i
i
=1

n- 2

=1

n- 2

s2 estambienllamadoelcuadradomediodelerror
estambienllamadoelcuadradomediodelerror
(MSE)

11

1.2.6Descomposicindelasumadecuadrados
total
Ladesviaciondeunvalorobservadoconrespectoa
lamediasepuedeescribircomo:
)
)
(yi - y)= (yi - yi)+ (yi - y)
n

( yi - y)2 =
i=1

)
(yi - yi)2+
i=1

(yi - y)

i
=1

SST=SSE+SSR
Sepuedededucirque

SSR = b

n
2

2
(
x
x
)
i

i=1

12

1.2.7ElCoeficientedeDeter minacin R2
Esunamedidadelabondaddeajustedelmodelo
SSR
R =
*100 %
SST
2

R
Unmodeloderegresionconmayoroiguala75%sepuede
considerarbastanteaceptable.
2

R
Nota:Elvalordeesafectadoporlapresenciadevalores
Elvalordeesafectadoporlapresenciadevalores
anormales.

13

1.2.8Distr ibucindelosestimador esmnimos


cuadr ticos
Paraefectodehacerinferenciaenregresin,serequiereasumir
ei
queloserrors,sedistribuyenenformanormale
s 2
independientementeconmedia0yvarianzaconstante.En
yi'
consecuencia,tambinlasssedistribuyennormalmentecon
s 2
a +bxi
mediayvarianza.
Sepuedeestablecerque:
2
2
s
1
x
b~N(b , )
~ N
a
N(a,( + )s 2)
Sxx
n Sxx

14

LassumasdecuadradossonformascuadrticasdelvectoraleatorioY
yporlotantosedistribuyencomounaJi
yporlotantosedistribuyencomounaJicuadrado.
Sepuedenestablecerlossiguientesresultados:

SST
i)(JiCuadradonocentralconn
Cuadradonocentralconn1g.l)
2
~
c
'
(n-1
)
s2
ii)

SSE
2
~
c
(
n-2)
s2

Equivalentemente

(n -2)s2

~ c (2n- 2)

SSR
s2

iii)(JiCuadradonocentralcon1g.l)
Cuadradonocentralcon1g.l)
~ c '(21)
Podemosmostrarque:

E( SSR) = E(b2Sxx ) = s 2 + b 2 Sxx


15

1.3Infer enciaenRegr esionLinealSimple


Pruebasdehiptesiseintervalosdeconfianzaacercadelos
coeficientesder egr esindelmodeloderegresin
delmodeloderegresin
poblacional.
Intervalosdeconfianzaparaunvalor pr edicho yparaelvalor
mediodelavariablederespuesta
delavariablederespuesta

16

1.3.1Inferenciaacercadelapendienteyel
interceptousandolapruebat.
Lapendientederegresinsedistribuyecomounanormalcon
s2
media b yvarianza Sxx
Unintervalodeconfianzadel100(1a)%paralapendiente
Unintervalodeconfianzadel100(1
poblacional b esdelaforma:
)
(b - t(n - 2,a /2)

s )
s
,b + t(n- 2,a /2)
)
Sxx
Sxx
Sxx

Donde arepresentael niveldesignificacin.

17

Inter valodeconfianzapar aelinter ceptoa


cepto
Unintervalodeconfianzadel100(1a)%paraelintercepto ade
Unintervalodeconfianzadel100(1
lalineaderegresinpoblacionalesdelaforma:

1 x2 )
1 x2
)
(a - t(n - 2,a /2)s +
,a + t(n - 2,a /2)s +
)

n Sxx

n Sxx

18

Pr uebasdehiptesispar alapendienteb
alapendiente
(asumiendoquesuvalor esb*)
es
CasoICasoIICasoIII
Ho: b=b*Ho: b=b*Ho:
*Ho: b=b*
Ha: b<b*Ha: bb*Ha:
*Ha: b>b*
Pr uebaEstadstica
t =

)
b -b *

s
Sxx

~t(n- 2)

RegladeDecisin
RechazarHo,RechazarHoRechazarHo
RechazarHo,RechazarHoRechazarHo
sitcal<t(a,n2)
si|tcal |>t(a
a/2,n2)sitcal>t(a,n2)
*UnPvaluecercanoacerosugiererechazarlahiptesisnula.
valuecercanoacerosugiererechazarlahiptesisnula.
19

1.3.2Elanlisisdevar ianzapar ar egr esin


linealsimple
Elanlisisdevarianzapararegresinconsisteendescomponer
lavariacintotaldelavariablederespuestaenvariaspartes
llamadas fuentesdevar iacin.
Ladivisindelasumadecuadradosporsusgradosdelibertad
esllamadacuadr adomedio.
Assetienentrescuadradosmedios.
Cuadr adoMediodeRegr esin=MSR=SSR/1
Cuadr adoMediodelEr r or =MSE=SSE/(n2)
=MSE=SSE/(n
Cuadr adoMediodelTotal=MST=SST/(n1)
adoMediodelTotal=MST=SST/(n
20

TabladeAnlisisdeVar ianza
________________________________________________________________
FuentedeVar iacing.l.SumasdeCuadr adosCuadr adosMediosF
________________________________________________________________
Debidoa
MSR
laRegresion1SSRMSR=SSR/1
Errorn2SSEMSE=SSE/(n
2SSEMSE=SSE/(n2) MSE
Totaln1SST
________________________________________________________________

SerechazaralahiptesisnulaHo:b=0sielPvaluedela
SerechazaralahiptesisnulaHo:
pruebadeFesmenorde0.05

21

Inter valodeconfianzapar aelvalor mediodela


var iableder espuestaeInter valodePr ediccin
QueremospredecirelvalormediodelasYparaunvalorx0 de
lavariablepredictorax.

E(Y
/x=x0)= a + bx0
Yo =a + bxo
ElestimadornaturalesComolasYssedistribuyen
normalmente,entoncestambinsedistribuyenormalmentecon
Yo
mediaE(Y/X=xo)yvarianzaiguala:
2
(
x
x
)
1
0
)= s ( +
Var (Y
)
0
2

Sxx

22

Inter valodeconfianza(cont)
Unintervalodeconfianzadel100(1a)%paraelvalor medio
Unintervalodeconfianzadel100(1
delasys dadoquex=x0 esdelaforma:
2
(
x
x
)
1
0
+ bx0 t(a /2,n- 2)s +
a

Sxx

Trabajandoconladiferencia
)= 0
E(Y0 - Y
0

Y0 -Y0 setiene

2
(
x
x
)
1
0
Var (Y0 -Y0)= s (1+ +
)
2

Sxx

LuegoelintervalodeprediccinparaunvalorindividualdeY
LuegoelintervalodeprediccinparaunvalorindividualdeY
dadox=x0
2
esdelaforma

a + bx0 t(a /2,n- 2)ss 1 +

1 (x0 - x)
+

Sxx

23

1.4Anlisisder esiduales
Losresiduales,sonestimacionesdeloserroresdelmodeloysirven
paraestablecersilassuposicionesdelmodelosecumplenypara
explorarelporqudeunmalajustedelmodelo.Podemosver:
Siladistribucindeloserroresesnormalysinoutliers.
Silavarianzadeloserroresesconstanteysiserequieren
transformacionesdelasvariables.
Silarelacinentrelasvariablesesefectivamentelinealo
presentaalgntipodecurvatura
Sihaydependenciadeloserrores,especialmenteenelcasode
quelavariablepredictoraseatiempo.
quelavariablepredictoraseatiempo.

24

Tiposder esiduales
i)ResidualEstandar izado,sedivideelresidualentrela
desviacinestndardelerror.Esdecir,
)
yi - yi

ii)ResidualEstudentizado,sedivideelresidualentresu
desviacinestndarestimada.Esdecir,
)
yi - yi
1 (xi - x)2
s (1- )

Sxx

25

1.4.1Cotejandonor malidaddeloser r or esy


detectandooutlier s
Lanormalidaddeloserroresesunrequisitoindispensablepara
quetenganvalidezlaspruebasestadsticasdetyFqueseusanen
quetenganvalidezlaspruebasestadsticasde
regresin.
Lamaneramsfcilesusandogrficastalescomo:histogramas,
stemandleafoBoxplots.
ElplotdeNormalidad,plotealosresidualesversuslosscores
normales(valoresqueseesperaransiexistieranormalidad).
normales(valoresqueseesperaransiexistieranormalidad).

26

1.4.2Cotejandoquelavar ianzaseaconstante
Seplotealosresidualesestandarizadosversuslosvalores
ajustadosoversuslavariablepredictoraX.
Silospuntosdelplotcaenenunafranjahorizontalalrededorde0
entonceslavarianzaesconstante.
Silospuntossiguenalgnpatrnentoncessedicequela
varianzanoesconstante.
Nota:Sedebetenercuidadoconlapresenciadeoutliers.
:Sedebetenercuidadoconlapresenciadeoutliers.
27

1.4.3Cotejandosiloser r or esestan
cor r elacionados.
Cuandolavariablepredictoraestiempo,puedeocurrirque
loserroresestencorrelacionadossecuecialmenteentresi.
Pr uebadeDur binWatson,mideelgradodecorrelacindeunerrorconelanteriory
,mideelgradodecorrelacindeunerrorconelanteriory
elposterioral.
Estadstico
n
(ei - ei

)2

-1

D=

= 2

n
2

ei

i
=1

Dvaraentre0y4.
SiDestacercade0loserroresestncorrelacionadospositivamente.
SiDestcercade4entonceslacorrelacinesnegativa.
LadistribucindeDessimtricaconrespectoa2.Asqueunvalorde
Dcercanoa2indicaquenohaycorrelacindeloserrores.
28

1.5ElCoeficientedeCor r elacin
MideelgradodeasociacnlinealentrelasvariablesXyYyse
definecomo:

Cov( X,Y)
r =
s xs y

a) - 1 r 1
b)LamediacondicionaldeYdadoXes,
E(Y
/X)=a + bx
sy
donde:y
a =m y - bm x
b =r
s x
c)LavarianzacondicionaldelasYdadoX,estdadopor
s y2/ x =s y2(1- r 2)

Sientonces(perfectarelacinlineal).

r = 1
s y2/ x =0
29

Coeficientedecor r elacinmuestr al
Considerandounamuestradenpares(x
pares(xi,y
i)

r =

Sxy
SxxSyy

Notarque:
) Sxx

r = b

Syy

)2

r 2 =

b Sxx SSR
=
Syy
SST

Elcuadradodelcoeficientedecorrelacinesigualalcoeficiente
Elcuadradodelcoeficientedecorrelacinesigualalcoeficiente
dedeterminacin.

30

Você também pode gostar