Você está na página 1de 67

FEIR40:ModelosdeRegresin

MaraElviraFerreJan
Curso201415
1Introduccin
1.1Aproximacinnoformalalmodeloderegresinlineal
1.2Correlacinlineal
1.2.1Correlacinlinealsimple
1.2.2LacorrelacinsimpleenR
1.2.3Correlacinparcial
1.2.4Otrasconsideraciones
1.2.5Ejemplodelostractores
2Regresinlinealsimple
2.1Introduccin
2.2Estructuradelmodeloderegresinsimple
2.3Supuestosdelmodelo
2.3.1Estimacindelarectaderegresin.Mtododemnimoscuadrados
2.4Ejemplo.Ajustedelmodeloyprocesoinferencial
2.4.1AjustedelmodeloenR
2.5Bondaddeajuste
2.5.1Coeficientededeterminacin,R2
2.5.2TestF
2.5.3TablaANOVA
2.6Anlisisdelosparmetrosdelmodelo
2.7Diagnsticodelmodelo
2.7.1Testdenormalidad(testdeKolmogorovSmirnov)
2.7.2Homogeneidaddevarianzas
2.7.3Autocorrelacin(testdeDurbinWatson)
2.7.4Valoresatpicos
2.8Prediccin
2.8.1Prediccindenuevasobservaciones
2.8.2Intervalosdeconfianzaparalospredictores
2.9ResumendecdigoenR
3Regresinlinealmltiple
3.1Introduccin
3.2Ejemplodeunmodeloderegresinlinealmltiple
3.2.1Anlisisdecorrelacin
3.2.2Ajustedelmodelo
3.3Comparacindemodelos
3.4Seleccindelmejormodelo
3.4.1CriteriodeinformacindeAkaike(AIC)
3.4.2Metodospasoapaso
3.5Diagnsticodelmodelo
3.5.1Normalidad
3.5.2Homogeneidaddevarianzas
3.5.3Autocorrelacin
3.5.4Casosatpicosyresiduos
3.6Anlisisdelainfluencia.
3.7Validacincruzada
3.8Prediccin
3.9Diagnsticosdecolinealidad(multicolinealidad)
3.10ResumendecdigoenR
3.11Predictorescategricos.Variablesdummy

1Introduccin
ComoreferenciabibliogrficabsicaparaeldesarrollodeestecaptulohemosutilizadoellibroA.Field,Miles,&Field(2012),
aunquetambinnoshemosservidodenumerososdocumentosqueiremosreferenciandoalolargodeltexto.

1.1Aproximacinnoformalalmodeloderegresin
lineal
Elanlisisderegresinlinealesunatcnicaestadsticautilizadaparaestudiarlarelacinentrevariables.Amenudoresultade
intersconocerelefectoqueunaovariasvariablespuedencausarsobreotra,einclusopredecirenmayoromenorgradovalores
deunavariableapartirdeotra.Porejemplo,supongamosquequeremosestudiarsilaalturadelospadresinfluyesignificativamente
enladeloshijos.

Laregresineselconjuntodetcnicasusadasparaexplorarycuantificarlarelacindedependenciaentreunavariablecuantitativa
llamadavariabledependienteorespuestayunaomsvariablesindependientesllamadasvariablespredictoras.

Elprimerpasoparadeterminarsipuedeexistironodependencia/relacinentrevariablesesrepresentandogrficamentelospares
devaloresobservadosmedianteunanubedepuntos,loqueseconocecomodiagramadedispersin(SPSS,2007).

Unavezrepresentadoslosdatosytrasdetectarqueentredosomsvariablesexisteunarelacinelsiguientepasoseraintentar
modelizardicharelacin.

Lamodelizacinestadsticamssencillaparaexpresarlavariabledependienteatravsdesusvariablespredictorasesmediante
unaecuacinlinealdelaformaY = 0 + 1 X1 + + n Xk .

ElcasomssimpleparaunanicavariableseraunarectaY = mx + n yrecibirelnombrederegresinlinealsimple.Cuando
k > 1lallamaremosregresinmltiple.

As,elprocesoconsistiraenajustarlarectaanuestroconjuntodedatosycrearunaexpresinmatemticaquepermitapredecir,de
formaaproximada,elvalordelavariabledependienteenunindividuocuandoseconoceelvalordeunavariablepredictora
(regresinsimple)ovariasvariablespredictoras(regresinmltiple)enesemismoindividuo.Alaecuacinquerepresentaesta
relacinselellamamodeloderegresin(Prez,2014).
Podemosconsiderarvariasformasdeestimarlosparmetrosdelaecuacindelmodeloderegresin.Sinembargo,nos
centraremosenelmtododemnimoscuadradosporsereldemsampliaaceptacin,aunqueexistantambinotrosmtodos
comoeldemximaverosimilitud.

Unavezcreadoelmodeloderegresin,loprimeroquedebemosanalizaressuutilidadexplicandolosdatosquequeremos
relacionar.Asporejemplo,larectadelsiguientegrficodescribe,aproximadamente,larelacinlinealentrelasvariables.(Snchez,
2011)

Encambio,losdatosdelgrficosiguientenosepuedeexplicarmedianteunalaecuacinlineal.

Aunquesirveparahacernosunaidea,noessuficienteconvergrficamentequesetratadeunmodelotil,sinoquedebemos
comprobarqueelmodeloderegresincumpleunosciertossupuestosmatemticos,quenoshablandelabondady
calidaddelmodeloparanuestrosfines.

Quelarectaseajustealosdatosnosignificaqueelmodeloseacorrecto,dependedelusoquequeramosdarle.Sislo
pretendemoshallarlarelacinentredosvariables,concalcularlarectademnimoscuadradosessuficiente,esarectadescribela
relacinentrelasvariables,otracosaesquelosdatostengaunabuenarelacinlineal.Podraserquelosdatostuvieranmuymala
relacinlinealylarectaseguiraexistiendo.Encambiosipretendemosdescribirlaestructurageneraldelosdatos,oinferir/predecir
conlarectaderegresindebemoscomprobarqueseverificanunasreglasyaestablecidasyaceptadasqueaseguranquenuestro
modeloesbueno.

Contalfinexistenunaseriedeprocedimientosdediagnosticoquenosinformaransobrelaestabilidadeidoneidaddelmodelode
regresin.Lossupuestosquetendremosquecomprobarson

Enelmodeloderegresin:linealidad

Enlosresiduos:

normalidad

varianzaconstante

valoresatpicos

Porotrolado,paracadaconjuntodedatosexistenvariasrectasconlasquepodramosresumirlatendenciageneraldelosmismos.
Necesitamosencontrarlarectadelmejorajuste,aquellaquedalugaralamenordiferenciaentrelosdatosoriginalesylos
estimadosporlarecta.

Parabuscarestarectautilizaremoselcriteriodemnimoscuadrados,mtodoconelquecalculamoslarectaqueminimizala
sumadelosresiduos,estoes,lasdistanciasverticalesentrecadapuntoylarecta.
Elobjetivoquehaytrasestemtodoesquelosresiduosseanpequeos,loquematemticamentesetraduceenquetenganmedia
ceroyenquebailenlomenosposible,esdecir,enuna 2 pequea.Deaquesdedondesurgentodoslossupuestosquesele
exigenalmodeloderegresinlineal.

Unodelosresultadosqueobtenemosalaplicarelmtododelosmnimoscuadradosesqueelcoeficientem,quecuantificala
relacinentrelax ylayennuestraecuacin,esenrealidadelcoeficientedecorrelacindePearson.Porello,antescrearel
modeloderegresintenemosqueanalizarsiestecoeficienteessignificativamentedistintodeceroyencasodeserloplantearemos
elmodeloderegresinlineal.

1.2Correlacinlineal
Unanlisisdecorrelacinnospermitecuantificarelgradodeasociacinlinealentrevariablescontinuas,indicalafuerzaydireccin
delarelacinlinealentredosomsvariables.Cuandoexistadicharelacinsepodrprocederalaobtencindelmodelode
regresin(simpleomltiple)queveremosposteriormente(Prez,2014).

Existendiferentestiposdecorrelacin,lacorrelacinsimple,lacorrelacinmltipleylacorrelacinparcial.Utilizaremosla
correlacinsimplecuandocontemosconunasolavariablepredictoraparaexplicarunarespuesta,yloscoeficientesdecorrelacin
parcialymltiplecuandotengamosvariospredictores.

1.2.1Correlacinlinealsimple
Utilizamoslacorrelacinlinealsimpleparaestudiarelgradodevariacinconjuntaentredosomsvariables.Queremosdetectarsi
lavariacindeunadelasvariablestieneconexinconlavariacindelaotra,esperamosquesiunavariablededesvadelamedia,
laotravariablesedesvedelamediademanerasimilar.

Unarelacinlinealpositivaentredosvariablesindicaquelosvaloresdelasdosvariablesvarandeformaparecida:lossujetosque
puntanaltoenunavariabletiendenapuntuaraltoenlaotraylosquepuntanbajoenlaprimeratiendenapuntuarbajoenla
segunda,existeunarelacindirectaentreambasvariables.

Unarelacinlinealnegativasignificaquelosvaloresdelasdosvariablestienenunarelacininversa:valorespequeosdeuna
variablevanasociadosahoraavaloresgrandesdelaotray,equivalentemente,valoresgrandesdeunaseasocianavalores
pequeosdelaotra.
Laformamsdirectaeintuitivadeformarnosunaprimeraimpresinsobreeltipoderelacinexistenteentredosvariablesesa
travsdeundiagramadedispersin.Setratadeungrficoenelqueunadelasvariables,X,secolocaenelejedeabscisas,la
otra,Y ,eneldeordenadasylospares(x i , yi )serepresentancomounanubedepuntos.Laformadelanubedepuntosnos
informasobreeltipoderelacinexistenteentrelasvariables.

Unareglafundamentalesquecuantamayorcorrelacinhayaentredosvariablesenlarepresentacinbidimensional,msprximos
alarectaestarnlosvalores.

Veamosunejemplo:enelsiguientegrficomostramoscuatrodiagramasdedispersinquereflejancuatrotiposderelacin
diferentes(Ferrari&Head,2010).

Paratodosestosconjuntosdedatoslarectaderegresineslamisma

^ = 3 + 0.5 x
y

conloscoeficientessignificativosconunniveldesignificacin< 0.01 ,yademstodostienenlamismaR2 = 0.67 y


^ = 1.24 .

Sinembargo,solamentepodemosescribirmedianteunmodelolineallosdatosdelgrfico(a).Elgrfico(b)muestraunconjuntode
datosesclaramentenolinealyseramejorajustarlomedianteunafuncincuadrtica.
Elgrfico(c)muestraunconjuntodedatosquetieneunpuntoquedistorsionaloscoeficientesdelarectaajustada.Porltimo,el
grficomuestraunconjuntodedatostotalmenteinapropiadoparaunajustelineal,larectaajustadaestdeterminadaesencialmente
porlaobservacinextrema(AliS.Hadi,2006).

Trashaberrealizadounarepresentacindelosdatos,unabuenamaneradecuantificarlarelacinaentredosvariableses
mediantelacovarianza
n

(x i x ) (yi y )
i=1
r = C ov(X, Y ) = ,
N 1

dondeN eselnmerodeobservaciones.

Sinembargo,lacovarianzanoesunamedidatilparacompararrectasderegresindevariablesdistintas,ocompararelgradode
asociacinlinealentredistintosparesdevariables,yaquedependedelasescalasdemedidadelasvariables.Lasolucinesten
estandarizarlayesdeaqudedondesurgenllamadoscoeficientesdecorrelacin.

1.2.1.1Coeficientesdecorrelacin

ElmsimportantedeloscoeficientesdecorrelacineselCoeficientedePearson,queexplicaremosenmayorprofundidad,pero
tambinestnlaRhodeSpearmanylaTaudeKendall.Veamossuspropiedadesgenerales:

Todosloscoeficientesvaranentre1y1.

Sielcoeficientedecorrelacines1existecorrelacinnegativa,esdecir,amedidaqueunavariableaumenta,laotradisminuye.
Cuandoelcoeficientees1haycorrelacinpositiva,cuandoaumentaunavariable,tambinaumentalaotra.

Unvalorcercanooigualaceroindicapocaonularelacinlinealentrelasvariables.

Seutilizancomounamedidadelafuerzadeasociacin:valores0.1 representanpequeasasociacin,0.3 asociacin


mediana,0.5 asociacinmoderada,0.7 granasociaciny0.9 asociacinmuyalta.

Lasprincipalesdiferenciasentreloscoeficientesson:

LacorrelacindePearsonfuncionabienconvariablescuantitativasyquesiganbienladistribucinnormal.

LacorrelacindeSpearmanseutilizaparadatosordinalesodeintervaloquenosatisfacenlacondicindenormalidad.
(usualmentetienevaloresmuyparecidosaladePearson).

LacorrelacindeKendallesunamedidanoparamtricaparaelestudiodelacorrelacin.Debemosutilizarestecoeficienteen
vezdeladeSpearmancuandotengamosunconjuntodedatospequeoymuchaspuntuacionesestnenelmismonivel.

1.2.1.2CoeficientedePearson

ElcoeficientedecorrelacinlinealdePearson(r)vienedefinidocomo
n

C ov(X, Y )S d(Y ) (x i x ) (yi y )
i=1
r = =

S d(X) n 2 n 2

(x i x )
(yi y )
i=1 i=1

ysetratadelacorrelacinentrelasvariablesXeY estandarizada.

ParaqueelcoeficientesdecorrelacindePearsonseaunamedidaprecisadelarelacinlinealentredosvariablesexigequelas
variablesseancuantitativasyquelasdosvariablessedistribuyannormalmente,aunquepodemoshacerunaexcepcinsislouna
delasvariablesesnormalylaotraescategricacondoscategoras.Silosdatosnosonnormalesocuantitativosentoncessedebe
usarotrotipodecoeficientescomoeldeSpearmanoeldeKendall.

Lasprincipalescaractersticasdeestecoeficienteson:

1.Medidadeasociacinlineallibredeescala

2.Valorescomprendidosentre1y1

3.Invarianteatransformacioneslinealesdelasvariables.
Suinterpretacineslasiguiente:

Sir=0(asociacinlinealnula)noexisterelacinentrelasvariables.

Sir=1o1(asociacinlinealperfecta).

Cuandor>0(correlacinpositiva)existeunarelacindirectaentrelasvariables

Cuandor<0(correlacinnegativa)existeunarelacininversaentrelasvariables.

Elcoeficientehayqueinterpretarloenmagnitud,esdecir,tomarsuvalorabsoluto.Estosignificaquecuantomscercaestemosde
losextremos(1)msrelacinexisteentrelasvariables.Poreso,unacorrelacinconvalorr = 0.9esmsfuertequeunacon
r = 0.7 ,pues0.9esmsgrandeque0.7aunqueseanegativa.

Porltimoquedaverquelacorrelacinentrelasvariablesessignificativa,esunvalorfiablequenocambiaramuchoenotra
muestratomadaenlasmismascondiciones.

Unacorrelacinsersignificativasisupvaloresinferiora0.05,delocontrariosupondremosquer = 0 .

Segnestopodemosdecirqueunar = 0.8 conunpvalorde0.26esenrealidadunacorrelacinmsbajaqueunar = 0.4 con


p = 0.001 ,yaquealnosersignificativalar = 0.8 noesunamedidafiable,puedeserunefectodelazardelmuestreo.Dela

mismaformaqueenestamuestrahemoscalculadounar = 0.8 enotramuestratomadaenlasmismascondicionespodramos


obtenerr = 0.8.Debidoaello,yanteladuda,esmejorafirmarquenohayrelacin,queresiguala0.Paraelcasodela
correlacinr = 0.4 ,aunquenosetratadeunagrancorrelacin,squeesfiable(Prez,2014).

1.2.1.3CoeficientedeSpearman

ElcoeficientedecorrelacindeSpearmaneselmismoqueelcoeficientedePearsonperotrastransformarlaspuntuaciones
originalesarangos.

ElcoeficientedeSpermanpuedeutilizarsecomounaalternativaaPearsoncuandolasvariablessonordinalesy/onoseincumpleel
supuestodenormalidad.
2
6d
rs = 1 ,
2
n(n 1)

donded esladistanciaentrelosrangos(XmenosY )yneselnmerodedatos.

1.2.1.4TaudeKendall

Esuncoeficientedecorrelacinnoparamtricoquesebasaenelconceptodeinversin,noinversinyempate.Secalculaapartir
delosdesrdenesentrelosrangos,sufrmulaeslasiguiente

C D
= ,
1
n(n 1)
2

dondeC eselnmerodeparesconcordantes,aquellosenlosqueelrangodelasegundavariableesmayorqueelrangodela
primeravariable,yDelnmerodeparesdiscordantes,cuandoelrangodelasegundaesigualomenorqueelrangodelavariable
primera.

Podemosutilizarlo,aligualqueenelcasodeSpearman,cuandolasvariablesnoalcanzanelniveldemedidadeintervaloyno
podemossuponerqueladistribucinpoblacionalconjuntadelasvariablesseanormal.

1.2.2LacorrelacinsimpleenR
Paraelclculodelcoeficientedecorrelacinvamosautilizarlafuncin cor() ,quetienelaformageneral

cor(x,yuse="string",method="tipodecorrelacin") ,donde:

x :variablenumricaoundataframe.

y :otravariablenumrica(si x esundataframenohayqueespecificarla).

use :especificaeltratamientoparalosdatosperdidos.
use=all.obs :seasumequenoexistenvaloresperdidos,siexistieraalgunoproduciraunerror

use=everything :cualquiercorrelacinqueenvuelvaunavariableconvaloresperdidossetratarcomomissing

use=complete.obs :sloseejecutanloscasosqueestncompletosparatodaslasvariables

use=pairwise.complete.obs :correlacinentreparesdevariablesqueseejecutaparaloscasosqueestncompletospara
estasdosvariables.

method :especificaeltipodecorrelacin.Podemoselegirentre "pearson" (pordefecto), "kendall" ,o "spearman" ).

Ejemplo:CalculamoslacorrelacinentrelasvariablesHorsepoweryWeightdelarchivoCars93

library(MASS)
data(Cars93)
df<data.frame(Cars93)
cor(df$Horsepower,df$Weight,method="pearson")

##[1]0.7387975

1.2.2.1Correlacinsignificativa

Noresultasuficientelaestimacinpuntualdelcoeficientedecorrelacin.Paraasegurarlaexistenciaderelacinentrelasvariables
dependienteypredictoradebemosrealizaruntestparaestudiarlasignificacinestadstica.

Enfrentaremoslahiptesisnula(H0 : r = 0,norelacin)frentealahiptesisalternativa(H1 : r 0 existerelacin)mediantela


funcin cor.test() quetomalasiguienteforma:

cor.test(x,y,alternative="",method="") donde

x e y sonlasvariablesaestudiar

alternative sertwo.side,less"ogreater

method especificaremoseltipodecorrelacin(pearson,spearmanokendall).

cor.test(df$Horsepower,df$Weight,method="pearson")

##
##Pearson'sproductmomentcorrelation
##
##data:df$Horsepoweranddf$Weight
##t=10.4576,df=91,pvalue<2.2e16
##alternativehypothesis:truecorrelationisnotequalto0
##95percentconfidenceinterval:
##0.62988670.8192147
##sampleestimates:
##cor
##0.7387975

PordefectoseleccionaelmtododePearson.Fijndonosenelpvalorpodemosasegurarlaexistenciadecorrelacinentrelas
variables.Ademsestetestestimaelvalordelacorrelacinynosdaunintervalodeconfianzaparadichovalor.

Enelcasodequerercalcularelcoeficientedecorrelacinsimpleentrevariasvariablesdeunarchivonotenemosporquehacerlo
dosados,podemoscrearunamatrizdecorrelaciones:

newdf<data.frame(df$Price,df$Weight,df$RPM,df$Horsepower)
cor(newdf,use="everything",method="pearson")
##df.Pricedf.Weightdf.RPMdf.Horsepower
##df.Price1.0000000000.64717900.0049549310.78821758
##df.Weight0.6471790051.00000000.4279314730.73879752
##df.RPM0.0049549310.42793151.0000000000.03668821
##df.Horsepower0.7882175780.73879750.0366882121.00000000

Ademsdelascorrelacionesqueremostambinlospvaloresperolafuncin cor.test nofuncionaconmatricesasqueutilizamos


unanuevafuncin:

library("psych")
corr.test(newdf,use="complete",method="pearson")

##Call:corr.test(x=newdf,use="complete",method="pearson")
##Correlationmatrix
##df.Pricedf.Weightdf.RPMdf.Horsepower
##df.Price1.000.650.000.79
##df.Weight0.651.000.430.74
##df.RPM0.000.431.000.04
##df.Horsepower0.790.740.041.00
##SampleSize
##[1]93
##Probabilityvalues(Entriesabovethediagonalareadjustedformultipletests.)
##df.Pricedf.Weightdf.RPMdf.Horsepower
##df.Price0.0001.000
##df.Weight0.0000.000
##df.RPM0.9600.001
##df.Horsepower0.0000.730
##
##Toseeconfidenceintervalsofthecorrelations,printwiththeshort=FALSEoption

Analizandolasalidavemosqueseobtienenlasmismascorrelacionesqueconlafuncin cor() ,aunqueaproximadas,yquelosp


valoresmuybajos(p < 0.05)hansidoaproximadosa0,asquetodaslascorrelacionessonsignificativas.

Observacin:ElprocedimientoparahacerunacorrelacindeSpearmanoKendalleselmismoqueparaunacorrelacinde
Pearsonexceptoquetenemosqueespecificarquequeremosotracorrelacin,queserealizamedianteel method="spearman" o
method="kendall" para cor() , cor.test() y corr.test() .

1.2.3Correlacinparcial
Lacorrelacinparcialesunacorrelacinentredosvariablesenlaqueelefectodeotrasvariablesauxiliaressemantienecontante,
sebuscalarelacinentredosvariablesmientrassecontrolaelefectodeunaomsvariablesadicionales.

Estamedidasurgeyaqueenocasioneslasvariablescontinuasconlasquepretendemospredecirunarespuestanosontotalmente
independientesentresloprovocaquelasvariablescompartanysolapeninformacinalahoradeexplicarlarespuesta.

Porejemplo,siqueremosestudiarlarelacinentrelasvariablesinteligencia"yrendimientoescolartendremosqueteneren
cuentatercerasvariablescomoelnmerodehorasdeestudio,elniveleducativodelospadres.

Lacorrelacinparcialsetrata,portanto,deuncoeficientedecorrelacinquenosdaunaideasobrelarelacinlinealexistenteentre
dosvariablesperoajustadaalosefectoslinealesquesobrelasmismaspuedantenerotraomsvariablesqueintervengan.
Utilizaremoslafuncin pcor() incluidaenelpaquete ppcor .Suformagenerales:

pcor(var1,var2,control1,control2,...,method="")

var1 y var2 sonlasvariablesasercorreladas.

control1 , control2 ylassiguientesposiblessonlasvariablesconlasquecontrolamoslacorrelacin.

method=c("pearson","kendall","spearman") ,quepordefectoemplear spearman .


Vamosacalcularlacorrelacinparcialentre Price y Weight controlandoelefectodelavariable Length .

library("ppcor")
pcor.test(df$Price,df$Weight,df$Length)

##estimatep.valuestatisticngpMethod
##10.47181033.843693e075.07654931pearson

tenemosque

estimate eselcoeficientedecorrelacinparcialentrelasdosvariables.

p.value eselpvalordeltest.

statistic eselvalordelestadsticodeltest.

n eselnmerodemuestras.

gn eselnmerodevariables.

method eselmtododecorrelacinempleado(spearman,pearsonokendall).

Sicalculamoslacorrelacinsimpleentrelasvariables Price y Weight :

cor(df$Price,df$Weight)

##[1]0.647179

observamosquetieneunvalordiferentealacorrelacinparcialcontroladapor df$Length .Portanto,lasvariables Price y Weight


estninfluenciadaspor Length yaquealcontrolarsuefectolacorrelacinsereducede0.647a0.47.

1.2.4Otrasconsideraciones
1.2.4.1Causalidad

Debemostenerprecaucinalahoradeinterpretarloscoeficientesdecorrelacinyaqueestosnonosindicanladireccinde
causalidaddelasvariables,nonosdicennadasobrequvariablecausaquelaotravarie.

Aunqueesintuitivopensarqueveranunciosnosprovoquecomprarmspaquetesdegalletas,nohayraznestadsticaporlaque
comprarpaquetesdegalletasnonospuedaprovocarvermsanuncios.Peseaquelaltimaconclusintienemenossentido,el
coeficientedecorrelacinnonosdicequenopuedesercierta,paraunmatemticoladireccinnoimporta.

Porotroladoexisteelproblemadelaterceravariable.Estenosdicequenopodemosasumircausalidadentredosvariablesporque
podrahaberotrasvariablesafectandoalosresultados.

1.2.4.2Tamaodelefecto

C ov(X,Y )Sd(Y )
Recordemosque(Y^i ^
Y ) = 1 (Xi X) yque^1 = r = asque
Sd(X)

n n
^ 2 ^
(Y i Y ) 2 (Xi X)
i=1 i=1
2 ^ 2 2
R = = 1 = C or(Y , X) = r .
n n
2 2
(Y i Y) (Y i Y)
i=1 i=1

Entonces,aunquenopodemoshacerconclusionesdirectassobrelacausalidaddeunacorrelacin,paradosvariablesspodemos
elevarelcoeficientedecorrelacinalcuadradoyutilizarlocomounamedidadelacantidaddevariabilidadqueunavariable
comparteconlaotra.Esloqueseconocecomocoeficientededeterminacin,R2 ,yesunamedidatremendamentetildela
importanciadeunefecto.

2
Paracalcularestecoeficiente,R2 ,podemoselevaralcuadradotantoelcoeficientedePearson,r ,comoelcoeficientedeSpearman
r s ,yaqueesteusalamismaecuacinquePearson.LonicoquedebemostenerencuentaesqueelresultanteR hayque
2

interpretarlocomolaproporcindevarianzaenlascategorasquelasdosvariablescomparten.

ElcoeficientedeKendall,sinembargo,noesnumricamentesimilarar or s porloque 2 nonosdicenadasobrelaproporcinde


varianzacompartidaporlasdosvariables.

Calculamoselcoeficientededeterminacinparaelconjuntodedatos newdf anterior:

cor(newdf,use="everything")^2

##df.Pricedf.Weightdf.RPMdf.Horsepower
##df.Price1.000000e+000.41884072.455135e050.621286950
##df.Weight4.188407e011.00000001.831253e010.545821769
##df.RPM2.455135e050.18312531.000000e+000.001346025
##df.Horsepower6.212870e010.54582181.346025e031.000000000

Seobservaqueeltamaodelefectode EngineSize sobre Weight esmuyelevado,ascomopara Lenght y Weight ,siendosin


embargomuybajoelefectode Lenght sobre Price .Siqueremosexpresarestosvaloresenporcentajesbastamultiplicarpor100.

1.2.4.3Comunicarloscoeficientesdecorrelacin

Slohayquedecircmodegrandeesyquvalordesignificacintiene.Laformadereportarloscoeficientessera

Existeunarelacinsignificativaentre var1 y var2 ,r ,


= 0.78 p < 0.05 .

Var1 estsignificativamentecorrelacionadacon var2 ,r s = 0.57 ,ycon var3 ,r s = 0.50 la var2 esttambin


correlacionadacon var3 ,r s = 0.83 (todasp < 0.01 ).

Var2 estsignificativamenterelacionadacon var1 , ,


= 0.45 p < 0.01 .

1.2.5Ejemplodelostractores
Supongamosqueunaempresadetractoresquepretendesaberquleesmsconveniente,sirenovarsuflotadetractores,seguir
manteniendolaquetienenocambiarsolounaparte.Utilizamoselconjuntodedatostractores.rda(files/40Atractores.rda)para
intentarrelacionarloscostesdemanutencindetractoresconlaedaddestos.

Comenzamoscalculandolacorrelacinentreedadycostes,yrealizamoselcorrespondientegrficodedispersin

load("files/40Atractores.rda")
cor.test(tractores$costes,tractores$edad)

##
##Pearson'sproductmomentcorrelation
##
##data:tractores$costesandtractores$edad
##t=3.6992,df=15,pvalue=0.002143
##alternativehypothesis:truecorrelationisnotequalto0
##95percentconfidenceinterval:
##0.31443250.8793971
##sampleestimates:
##cor
##0.6906927
plot(tractores$costes,tractores$edad,pch=20,xlab="Costes",ylab="Edad",
main="Diagramadedispersin")

Comoexistemuchadiferenciaenlasescalasdemedidaaplicamoslafuncinlogaritmo, log() ,alosdatosyaqueeslaquems


puedereducirestosvalores.Creamosunanuevavariablequeseaellogaritmodeloscostesyrealizamosdenuevoelanlisisde
correlacin

tractores$logcostes<log(tractores$costes)
cor.test(tractores$logcostes,tractores$edad)

##
##Pearson'sproductmomentcorrelation
##
##data:tractores$logcostesandtractores$edad
##t=4.2027,df=15,pvalue=0.0007687
##alternativehypothesis:truecorrelationisnotequalto0
##95percentconfidenceinterval:
##0.39396730.8984522
##sampleestimates:
##cor
##0.7353647

plot(tractores$logcostes,tractores$edad,pch=20,xlab="log(Costes)",ylab="Edad",
main="Diagramadedispersin")

Comovemoslacorrelacinahoraesmselevadaylospuntosestnmenosdispersosenelplano.

Unavezdetectadaunarelacinsignificativaentredosomsvariables,elsiguientepasoesintentarcrearunafrmulamatemtica
queformaliceesarelacinyquepermitacalcularpronsticosdeunavariableapartirdeunaovariasvariablesevaluadasenun
individuoconcreto.Esteprocesoseconocecomoregresinyeselqueestudiaremosenlossiguientesapartados.

2Regresinlinealsimple
ParaeldesarrollodelossiguientestresapartadosnoshemosservidoesencialmentedeSnchez(2011).

2.1Introduccin
Elcasodemodeloderegresinmssencilloeslaconstruccindeunarectaquemodelicelarelacinquehayentrelavariable
respuesta,Y ,ylavariablepredictoraX.Elmodelotienelaforma

Y = 0 + 1 X + e,

donde 0 y 1 seconocencomocoeficientesderegresinyson,respectivamente,laordenadaenelorigen(puntodecorteconel
ejeY )ylapendientedelarectadelmodeloderegresin.

Enlaecuacine eselerroraleatorio,representaladiferenciaentreelvalorajustadoporlarectayelvalorreal.Reflejalaausencia
dedependenciaperfectaentrelasvariables,larelacinestsujetaaincertidumbre.

Porejemplo,enelconsumodegasolinadeunvehculo,Y ,influyenlavelocidadXyunaseriedefactorescomoelefecto
conductor,eltipodecarretera,lascondicionesambientales,etc.Todosestoselementosquedaranenglobadosenelerrore .

Loscoeficientesderegresinsepuedeninterpretarcomo:

0 elvalormediodelavariabledependientecuandolapredictoraescero.
1 elefectomedio(positivoonegativo)sobrelavariabledependientealaumentarenunaunidadelvalordelapredictoraX.

Unarectaquetieneunapendienteconvalorpositivodescribeunarelacinpositiva,mientrasqueunarectaconunapendiente
negativadescribeunarelacinnegativa.Entoncestenemosbsicamentequelapendiente( 1 )nosdalaaparienciadelmodelo(su
forma)ylaordenadaenelorigen( 0 )nosdicedndesesitaelmodeloenelplano.

2.2Estructuradelmodeloderegresinsimple
Elmodeloderegresinlinealsimpletienelasiguienteestructura

yi = 0 + 1 x i + ei

parai = 1, . . . , n .Vamosaestudiarlomsdetenidamente.

Supongamosquehemosajustadounarectaderegresinaunconjuntodedatos,ysea(x i , yi )unpuntocualquieradelanube.
Entoncesyi sepuededescomponercomo

^ + ei ,
yi = f (yi ) + ei = y i

dondey
^ eselvalorajustadoalarectadelvaloreobservadoyi ,yei eselerrorquecometemosyalquellamaremosresiduo.
i

Unavezcalculadoelmodelo,elvalordey
^ quedadeterminadoparacadax i ,peroelvalorei = yi y
^ noquedadeterminado,
i

puedehaberdosobservacionesconelmismox i ydistintoei .Enesterazonamientosebasarlahiptesisdeindependenciadelos


residuos.

2.3Supuestosdelmodelo
Paracadax i ,valorfijodeX,secumplelaecuacinyi = 0 + 1 x i + ei ,donde 0 y 1 sonconstantesdesconocidas.Las
hiptesisbsicasdelmodeloson:

1.IncorrelacindelosresiduosC orr(ei , ej ) = 0 .Cualquierpardeerroresei yej sonindependientes.

2.MediacerodelosresiduosE (ei ) = 0 .

3.VarianzaconstantedelosresiduosV ar (ei ) =
2
.

4.Normalidaddelosresiduosei ~N (0, 2 ) .

Comoconsecuencia:

Cadavalorx i delavariablealeatoriaXtienedistribucin
2
(Y X = x i ) N ( 0 + 1 x i , ).

Lasobservacionesyi delavariableY sonindependientes.

Grficamente,silashiptesisdelmodelosonciertastenemos
2.3.1Estimacindelarectaderegresin.Mtododemnimos
cuadrados
Sinosencontrsemosenlasituacinidealdequetodoslospuntosdeldiagramadedispersinseencontraranenunalnearectano
tendramosquepreocuparnosporencontrarlarectaquemejorresumelospuntosdeldiagrama,simplementeuniendolospuntos
entreslaobtendramos.

Sinembargosinossituamosenunasituacinmsrealista,enunanubedepuntosesposibletrazarmuchasrectasdiferentes,
aunqueobviamente,notodasellasseajustarnigualmentebienalanube(SPSS,2007).Setrataentoncesdeestimarlarectaque
elmejorrepresenteelconjuntototaldepuntos.

Elprocedimientovaaconsistirenestimarloscoeficientesderegresin 0 y 1 paraobtenerlarecta

^
^ = ^
y 0
+ 1x

dondey
^ denotaelvalorajustadoporlarectaparaelvalorobservadox .

Paraestimarlaecuacindelarectaderegresinpodemosautilizarelcriteriodemnimoscuadrados,pueseselmsempleado
usualmente.Vamosaestudiarlo.

Siemprequeajustamoscualquierrectaaunconjuntodedatosexistenpequeasdiferenciasentrelosvaloresestimadosporlarecta
ylosvaloresrealesobservados,ascadavalordelmodeloajustadollevaasociadosuerroraleatorioei = yi y
^ .
i
Senospodraocurrirsumartodoslosresiduosparaobtenerasunaestimacindelerrortotal,sinembargo,alsumardiferencias
positivasynegativasestastiendenacancelarseunasconotras.Parasolucionaresteproblemadecidimoselevaralcuadradolas
diferenciasantesdesumarlas(Ferrari&Head,2010).

Portanto,conelcriteriodemnimoscuadradosestimamosloscoeficientesderegresin, 0 y 1 ,haciendomnimalasumadelos
n
cuadradosdelosresiduos,S SE = i=1 e2i .
n n n

2 2 2
S SE = e ^ )
= (yi y = (yi 0 b1 x i )
i i

i=1 i=1 i=1

Estosignificaque,detodaslasrectasposibles,existeunayslounaqueconsiguequelasdistanciasverticalesentrecadapuntoy
larectaseanmnimas(SPSS,2007).

Lasdiferenciasalcuadradoresultantessonunindicadordelacapacidaddelarectaajustndosealosdatossilasdiferenciasal
cuadradosongrandeslarectanoesrepresentativadelosdatos,mientrasquesisonpequeaslarectasesrepresentativa.

2.3.1.1Consecuenciasdelcriteriodemnimoscuadrados

C ov(X,Y )Sd(Y )
^
1 = r = .
Sd(X)

^ ^
0 = Y 1 X .

Lasumadelosresiduosescero


LamediadelosvaloresobservadosYi coincideconlamediadelosvaloresajustadosYi .

Larectaderegresinpasaporelpunto(x , y ) .

Losvalores^0 y^1 sonestimadoresde 0 y 1 .

LasestimacionesdelarespuestaparaunvalorX = x seobtienecomo

^ ^
y = 0 + 1 x

2.4Ejemplo.Ajustedelmodeloyprocesoinferencial
Vamosadesarrollarestaseccinmedianteunejemploaplicado:

Elpresidentedepersonaldeunamultinacionalestbuscandosiexisterelacinentreelsalariodeuntrabajadorysuporcentajede
absentismo.stedividielintervalodesalariosencategorasymuestrealeatoriamenteaungrupodetrabajadorespara
determinarnmerodedasquehabanfaltadoenlosltimos3aos.Esposibleestablecerunmodeloquerelacionelacategoray
lasausencias?

2.4.1AjustedelmodeloenR
Vamosaestablecerelmodeloquerelaciona Ausencias con Categoria ,peroantesdeestoestudiaremoslanormalidaddelos
datosycalcularemoslacorrelacinentrecategorayausencias,realizandoademselcorrespondientegrficodedispersin.

datos<read.table("files/40Awilliam.csv",sep=";",head=TRUE)

Empezamosestudiandolanormalidaddelavariableexplicativa

shapiro.test(datos$Categoria)

##
##ShapiroWilknormalitytest
##
##data:datos$Categoria
##W=0.9351,pvalue=0.2937

vistoquelosdatossonnormales,realizamoselanlisisdecorrelacin

cor.test(datos$Categoria,datos$Ausencias)

##
##Pearson'sproductmomentcorrelation
##
##data:datos$Categoriaanddatos$Ausencias
##t=4.7432,df=14,pvalue=0.0003144
##alternativehypothesis:truecorrelationisnotequalto0
##95percentconfidenceinterval:
##0.92199730.4738285
##sampleestimates:
##cor
##0.7851244

yrepresentamoslospuntos

plot(datos$Categoria,datos$Ausencias,pch=20,xlab="Categora",ylab="Ausencias",
main="Diagramadedispersin",cex.main=0.95)
Lacorrelacinentreambasvariablesessignificativaconunpvalormenora0.05ysetratadeunarelacininversayalta
(0.7851) ,segncrecelacategoradisminuyenlasausencias.

Unavezvistoqueexisterelacinentrelasvariablespasamosarealizarelajustedelmodelo.Paraellousamoslafuncin lm()
quetomalaforma

lm(dependiente~predictora(s),data=dataFrame,na.action="accin")

donde na.action esopcional,puedesertilsitenemosvaloresperdidos.

Creamoselobjeto modelAu quecontienetodoslosresultadosdelajuste.

modelAu<lm(Ausencias~Categoria,data=datos)
summary(modelAu)

##
##Call:
##lm(formula=Ausencias~Categoria,data=datos)
##
##Residuals:
##Min1QMedian3QMax
##13.3042.6031.8023.6876.448
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)41.59563.579511.6211.41e08***
##Categoria2.29190.48324.7430.000314***
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Residualstandarderror:5.898on14degreesoffreedom
##MultipleRsquared:0.6164,AdjustedRsquared:0.589
##Fstatistic:22.5on1and14DF,pvalue:0.0003144

LaparteResidualsnosdaladiferenciaentrelosvaloresexperimentalesyajustadosporelmodelo.Lasestimacionesdelos
coeficientesdelmodeloseproporcionanjuntoconelsusdesviacionesestndar(errorestndar),untvalorylaprobabilidaddela
hiptesisnuladequeloscoeficientestenganvalordecero.Enestecaso,porejemplo,hayevidenciadequeamboscoeficientesson
significativamentediferentesdecero.

Enlaparteinferiordelatablaseencuentraladesviacinsobrelarectaregresin(errorestndarsr oresidual),elcoeficientede
M Sreg
correlacinyelresultadodeltestFsobrelahiptesisnuladequelos M S es1.
res

plot(datos$Categoria,datos$Ausencias,pch=20,xlab="Categoria",ylab="Ausencias")
abline(modelAu)

Enprimerlugardeseamosobtenerlosestimadorespuntuales,erroresestndarypvaloresasociadosconcadacoeficiente

summary(modelAu)$coefficients

##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)41.5956383.579456111.6206591.411089e08
##Categoria2.2919460.48320324.7432353.144361e04

Elresultadodelajustees

(3.5795) (0.4832) Ausencias=41.59562.2919*Categoria

dondelosvaloresentreparntesisindicanloserroresestndardecadacoeficiente.Adems,puestoquelospvaloresasociados
soninferioresa 0.05 ,podemosconcluirque:

1.Enestecasonotienesentidoanalizarelvalordelaconstantepara Categora=0 ,yaquenoperteneceraalaempresa,deah


queelvalordeAusenciaspara Categora=0 seade 41.5956 ,mayorquecualquieradelosdatosdenuestroconjunto.

2.ExistenevidenciasestadsticassuficientesparaconsiderarquehayunarelacinlinealentreCategorayAusencias.Dicha
relacinesnegativacuandoaumentalacategoralaboraldelindividuodisminuyenlasausencias.Ademsvemosqueporcada
gradoqueaumentalacategoradeltrabajador,disminuyenlasausenciasen 2,29 dasporao.

3.Elerrorestndarresidualestimado(s)esde 5.898 .Estevaloresmuyimportante,esunmedidordelacalidad(precisin)del


modelo.Ademsnosvamosabasarenlparacalcularlosintervalosdeconfianzaparaloscoeficientesdelmodelo.Secalcula
haciendolarazcuadradadelamediadelasumadecuadradosdelosresiduos(M SR ).

2.4.1.1IntervalosdeConfianza

Losintervalosdeconfianza(IC)complementanlainformacinqueproporcionanloscontrastedehiptesisalahoradeexpresarel
gradodeincertidumbreennuestrasestimaciones.

Obtenemosloscorrespondientesintervalosdeconfianzaparacadaparmetrodelmodeloconnivelsignificacinal95%

confint(modelAu,level=0.95)

##2.5%97.5%
##(Intercept)33.91846849.272807
##Categoria3.3283141.255579

comoelintervalonocontienealcero,podemosrechazarlahiptesisnuladequeH0 .
: 0 = 1 = 0

Interpretamoslosintervalos:conunaprobabilidaddel95%,laordenadaenelorigendelmodelo, 0 ,seencuentraenelintervalo
(33.92,49.27) ,mientrasqueelefectoasociadoconlaCategoriaseencuentraenelintervalo (3.32,1.26) .

2.5Bondaddeajuste
Unavezrealizadoelajuste,debemosverificarlaeficienciadelmodeloalahoradeexplicarlavariabledependiente,yaqueaunque
larectasealamejordisponible,stapuedeseguirsiendounajusteterribledelosdatos.

Lasmedidasfundamentalessonelerrorresidualestimado,eltestFparalabondaddeajustedelatablaANOVAyelcoeficientede
determinacinR2 .Iremosexplicndolasunaaunaperoantesvamosahablardelavariabilidaddelmodeloderegresin.

Lavariabilidaddelajustesepuededescomponercomo

Variacintotal=variacinexplicadamodelo+variacinresidual ,esdecir,

S ST = S SM + S SR ,donde

S ST = (y y )
2
eslacantidadtotaldevariabilidadexistentealaplicarelmodelomsbsico,elmodelonulo(lamedia).
^ ) representaelgradodeimprecisincuandosehaajustadoelmejormodeloalosdatos.
2
S SR = (y y

S SM = S ST S SR muestracmomejoralaprediccinalusarelmodeloderegresinenvezpredecirconlamedia.Esla

reduccindelaimprecisinalajustarelmodeloderegresinalosdatos.

SiS SM esgrandeentonceselmodeloderegresinesmuydiferentedelamedia,loquesignificaquesehahechounagranmejora
alahoradepredecirlavariabledependiente.

2.5.1Coeficientededeterminacin,R2
Elcoeficientededeterminacinquerepresentalaproporcindemejoracausadaporelmodelo,esdecir,laproporcinde
variabilidaddelavariabledependiente(Y )explicadaporelmodelo(S SM ),relativaatodalavariabilidadexistenteenelmodelo(
S ST ).Sepuedeescribircomo

2
S SM
R = .
S ST

Paralaregresinlinealsimple,R2 secorrespondeconelcuadradodelacorrelacinentreY yX.

UnavariantedeestamedidaeslaR2 ajustadaqueseutilizaparalaregresinmltiple,puestieneencuentaelnmerodegrados
delibertad.Vemoscmosedefine.

Utilizandolafrmuladelavariacintotaltenemoslasiguienteigualdad

2
S SM S SR
R = = 1
S ST S ST

yapartirdeellasedefinelaR2a dividiendoporlosgradosdelibertadlaintroduccindevariablesinnecesariasenelmodelo

/
S SR /dfR
2
Ra = 1
S ST /dfT

SSR
AlaadiralmodelounavariablequenoaportenadaeldfR diminuye,porloqueelcociente crecer,haciendolotambin
df
R

SSR /df
.EstoimplicaportantoqueelvalordelaR2a seacadavezmspequeo.
R

SST /df
T

MientrasqueR2 nosdicecuntavarianzadeY representaelmodeloderegresin,laR2a cuantificalavarianzadeY que


representaraelmodelosiestehubierasidoobtenidodelapoblacindondehemostomadolamuestra.SilosvaloresdeR2 yR2a
estnprximossignificaqueelmodeloderegresinesbueno.

Estasmedidastomanvaloresentre0y1,ycuantomsseaproximena1mejorserelajuste,yporlotanto,mayorlafiabilidadde
lasprediccionesqueconlrealicemos.

Observacin:niR2 niR2a sonunaindicacindirectadelaeficaciadelmodeloenlaprediccindenuevasobservaciones.

2.5.2TestF
Laltimamedidadeajustequevamosaestudiaresel testF ,unamedidadecuntohamejoradoelmodeloprediciendola
variabledependienteconrespectoalniveldeinexactituddelmodelo.Sedefinecomo

M SM
F = ,
M SR

dondeM S sonlasmediasdelassumasdecuadrados.Sedefinencomolassumasdecuadradosentresusgradosdelibertad.As
tenemos

S SM
M SM =
dfM

S SR
M SR =
dfR

UnbuenmodelodebetenerunvalorF grande(mayorque1)yaqueelnumerador,lamejoraenlaprediccindelmodelo,ser
mayorquedenominador,ladiferenciaentreelmodeloylosdatosobservados.

Otramedidaimportantequeseobtieneapartirdelasumadecuadradosdelosresiduoseselerrorestndarquesedefinecomo

S ER = M SR .

Vamosaaplicartodoestoen R continuandoconelejemploanterior.

2.5.3TablaANOVA
Volvemosalejemplodelascategorasylasausencias.ObtenemoslacorrespondientetablaANOVAdondevemosla
descomposicindelavariabilidaddelmodelo

anova(modelAu)

##AnalysisofVarianceTable
##
##Response:Ausencias
##DfSumSqMeanSqFvaluePr(>F)
##Categoria1782.70782.7022.4980.0003144***
##Residuals14487.0534.79
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
Observamosquelavariabilidadexplicadaporelmodelo, SSM=782.70 ,essuperioralaquequedaporexplicar(residuos),
SSR=487.05 yelestadstico F=22.5 ,mayorque1.Adems,volviendoaverelresumendelmodelo

##Fstatistic:22.5on1and14DF,pvalue:0.0003144

tenemosqueelpvalorasociadoconelestadsticoFesinferiora 0.05 .

Laconclusinesquehayevidenciassuficientesparapoderrechazarlahiptesisnula,F = 1yportanto,resultaposibleestablecer
unmodeloderegresinlinealparaexplicarelcomportamientodelasausenciasenfuncindelacategoradelempleado.

2.5.3.1Coeficientededeterminacin

Enel modelAu elvalordeR2 es MultipleRsquared: 0.6164 ,alrededordel62%delavariabilidaddeAusenciasesexplicadapor


larectaajustada.

2.6Anlisisdelosparmetrosdelmodelo
EltestANOVAsignificativonosdicesielmodelotiene,engeneral,ungradodeprediccinsignificativamentebuenoparalavariable
resultado,perononosdicenadasobrelacontribucinindividualdelmodelo.Paraencontrarlosparmetrosdelmodeloysu
significacintenemosquevolveralaparte Coefficients enelresumendelmodelo.

summary(modelAu)$coefficients

##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)41.5956383.579456111.6206591.411089e08
##Categoria2.2919460.48320324.7432353.144361e04

Observandolatablavemosque 0 = 41.6 ( intercept )quepodemosinterpretarcomoquesinohubieracategoras(X = 0)el


modelopredicequeenlaempresahabraun41.6%deausencias,aunqueenestecasonotienesentido.

Porotrolado, 1 eslapendientedelarectayrepresentaelcambioenlavariabledependiente(ausencias)asociadoalcambiode
unaunidadenlavariablepredictora.Sinuestravariablepredictoraincrementaunaunidad,nuestromodelopredicequelas
ausenciassereducirnen2.3,puesenestecaso 1 = 2.2919.Portanto,laecuacindelmodeloquedaY = 41.6 2.3X.

2.7Diagnsticodelmodelo
EnesteapartadohemoshechousotantodeJ.Faraway(2009)comodeSnchez(2011)paraeldesarrollodelmismo.

Unavezquetenemoselmodeloajustadoprocedemosconsudiagnstico,queserealizaatravsdelanlisisdelosresiduos,ei .

Lashiptesisdelinealidad,homocedasticidadeindependenciasecontrastanatravsdeunanlisisgrficoqueenfrentalos
valoresdelosresiduos,ei ,conlosvaloresajustadosx
^i .

Lashiptesisdemediacero,varianzaconstante,incorrelacinynormalidadlacomprobamosanalticamente.

Comenzaremosconelanlisisgrfico.Losresiduosdeberanformarunanubedepuntossinestructuraycon,aproximadamente,
lamismavariabilidadportodaslaszonascomosemuestraenelgrfico.

Enlossiguientesgrficosnosecumplenlashiptesis.Losresiduosdeestaprimeragrficamuestranunaestructuraquesugiere
unarelacinnolinealentrelasvariables

ylosdelasiguientesugierenlaausenciadehomocedasticidad.

Continuamosahorarealizandoeldiagnsticoanaltico.Elprimerpasoesobtenerlosresiduos,valoresajustadosyestadsticos
delmodeloanalizadoparapoderasestudiarsisecumplenlossupuestosdelmismo.

Obtencinderesiduos,valoresajustadosyestadsticosnecesarios

Paraello,aadimosloscorrespondientesresultadosanuestrosdatosatravsdelsiguientecdigo:

datos$fitted.modelAu<fitted(modelAu)
datos$residuals.modelAu<residuals(modelAu)
datos$rstudent.modelAu<rstudent(modelAu)

Elresultadoeslacreacindelassiguientesvariables:

fitted.modelAu :valoresajustados(valoresdelavariablerespuesta)paralasobservacionesoriginalesdelapredictora.

residuals.modelAu :residuosdelmodelo,estoes,diferenciaentrevalorobservadodelarespuestayvalorajustadoporel
modelo.

rstudent.modelAu :residuosestudentizadosdelmodeloajustado.

obsNumber :nmerodelaobservacinenelordenenquehassidorecogidas.

Vamosautilizartodasestasvariablesparaestudiarsinuestromodelocumplelashiptesis.

2.7.1Testdenormalidad(testdeKolmogorovSmirnov)
Empezamoselanlisisconungrfico qqplot ,queenfrentalosvaloresrealesalosvaloresqueobtendramossiladistribucin
fueranormal.Silosdatosrealessedistribuyennormalmente,estostendrnlamismadistribucinquelosvaloresesperadosyenel
grfico qqplot obtendremosunalinearectaenladiagonal
Analizamosnuestrosresiduos

shapiro.test(datos$rstudent.modelAu)

##
##ShapiroWilknormalitytest
##
##data:datos$rstudent.modelAu
##W=0.8271,pvalue=0.006388

qqnorm(datos$rstudent.modelAu,main="Normal(0,1)")
qqline(datos$rstudent.modelAu)
Tenemosproblemasconlacondicindenormalidaddeloserroresyaqueobtenemosunpvalorparaelcontrastede 0.0063 ,
inferiora 0.05 .Comoenelgrfico qqplot lospuntosnosesitanenladiagonal,efectivamentevemosquelosdatosnoson
normales.

2.7.2Homogeneidaddevarianzas
library(lmtest)
bptest(modelAu)

##
##studentizedBreuschPagantest
##
##data:modelAu
##BP=2.1918,df=1,pvalue=0.1387

Existehomogeneidadpueslasignificacinesmayorde 0.05 ,lavarianzaesconstantealolargodelamuestra.

2.7.3Autocorrelacin(testdeDurbinWatson)
Hemosasumidoquelosresiduossonincorrelados,vamosacomprobarlo.

plot(datos$residuals.modelAu,pch=20,ylab="Residuos",xlab="ndices")
abline(h=cor(datos$Ausencias,datos$Categoria))
Sihubieraunacorrelacinseria,veramospicosmslargosderesiduosporencimaypordebajodelalneadecorrelacin.A
menosqueestosefectosseanfuertes,puedeserdifcildedetectarlaautocorrelacin,porellorealizamoselcontrastedeDurbin
Watson.

dwtest(Ausencias~Categoria,alternative="two.sided",data=datos)

##
##DurbinWatsontest
##
##data:Ausencias~Categoria
##DW=1.6732,pvalue=0.4935
##alternativehypothesis:trueautocorrelationisnot0

Enelcontrastedeautocorrelacintambinaceptamoslahiptesisnuladequenoexistecorrelacinentrelosresiduosconunp
valorsuperiora 0.05 .

Unavezcomprobadoelrestodesupuestosdelmodelo,vamosaintentarsolucionarelproblemadenormalidad.Loprimeroque
hacemosesrepresentardenuevolosdatosenunQQplotyundiagramadedispersinparadetectarposiblesperturbaciones.

par(mfrow=c(1,2))
qqnorm(datos$rstudent.modelAu,main="normal(0,1)")
qqline(datos$rstudent.modelAu)
plot(datos$rstudent.modelAu,pch=20,ylab="Residuaos",xlab="ndices")
Siobservamosdenuevoelgrficovemosquehayunpuntoqueesttotalmentefueradelugar,loquepareceenprincipiounvalor
atpico.Vamosarealizaruntestdevaloresatpicos(Bonferroni).

2.7.4Valoresatpicos
Unvaloratpicoesaquelquedifieresustancialmentedelatendenciageneraldelosdatos.Estosvaloresatpicospuedenperjudicar
elmodeloyaqueafectanaloscoeficientesderegresinestimados.Veamosgrficamentecmopuedeninfluiralarectade
regresin(Snchez,2011).

EnlosgrficoslalineadiscontinuarepresentalarectaderegresincalculadasinconsiderarelpuntoP.

ParaesteprimergrficotenemosqueelpuntoPsesinfluyentepuesmodificasustancialmentelarectaderegresin.

mientrasqueenelsegundogrficoelpuntoPapenasinfluyeenelmodelo.

Enelcasodeobservarvaloresatpicoslospasosaseguirson:

1.Descartarqueseaunerror.
2.Analizarsiesuncasoinfluyente.

3.Encasodeserinfluyentecalcularlasrectasderegresinincluyndoloyexcluyndolo,yelegirlaquemejorseadapteal
problemayalasobservacionesfuturas.

Paraelestudiodelosvaloresatpicovamosausarlosresiduosestandarizados,losresiduosdivididosporunaestimacindesu
errorestndar.Existenunasreglasgenerales:

1.Residuosestandarizadosconunvalorabsolutomayorde 3.29 (redondearemosa 3 )soncausadepreocupacinyaquees


improbablequeenunamuestramediaunvalortangrandeocurraporazar.

2.Simsdel 1% delosvaloresmuestralestienenresiduosestandarizadosconunvalorabsolutomayorde 2.58 (podemosdecir


2.5 )hayevidenciasdequeelniveldeerrorennuestromodeloesinaceptable(ajustepobredelmodeloalosdatos).

3.Simsdel 5% deloscasostienenresiduosestandarizadosconunvalorabsolutomayorde 1.96 (usamos 2 por


conveniencia)entoncesvuelvenahaberindiciosdequeelmodeloesunapobrerepresentacindelosdatosreales.

Vamosahacerunestudiodevaloresatpicosdenuestromodelo.Empezamosconungrficoenelquerepresentamosel
diagramadepuntosyunboxplotparacadaunadelasvariables.

Enlavariable Categoria vemosquelamediananoestcentradaenlamedia,losdatosnosonuniformes.Conlavariable


Ausencias ocurrelomismo.Lobuenoesqueenningunodelosdoscasosseaprecianvaloresatpicos(Kabacoff,2014).

Contunuamosconunanliismsanaltico:

library(car)
outlierTest(modelAu,cutoff=0.05,n.max=10,order=TRUE)
##rstudentunadjustedpvalueBonferonnip
##63.6622860.00286920.045908

influencePlot(modelAu,id.n=2)

##StudResHatCookD
##51.94715350.096476510.4108154
##63.66228630.284395971.1885657
##120.36828070.213926170.1402500

Eltestyelgrficonosindicanquelaobservacinnmero 6 esunvaloratpico.Lasobservaciones 5 y 12 quevemosenel


grficosonmedidasinfluyentesparaversilleganaseratpicosdibujamoselgrficodelasdistanciasdeCook(J.Faraway,2009).

cook<cooks.distance(modelAu)
labels<rownames(datos)
library(faraway)
halfnorm(cook,3,labs=labels,ylab="DistanciadeCook")
Seconfirmaqueelvalor 6 esunatpico,mientrasquelospuntos 16 y 5 nolosonporsersudistanciadeCookmenorque1.

Aunquenuncaesrecomendablesuprimirdatossalvoestarsegurosdequehasidounamalamedicinocualquierotrotipodeerror,
enestecasoyenvistadeloobtenido,decidimoseliminardichodato.

datos<datos[c(6),]
head(datos)

##CategoriaAusenciasfitted.modelAuresiduals.modelAurstudent.modelAu
##1111816.384231.6157720.2931414
##2101718.676171.6761740.2951496
##382923.260075.7399331.0115842
##453630.135915.8640941.0413881
##591120.968129.9681211.9471535
##772825.552012.4479870.4158870

NOTA:Cuidadoconlaeliminacindedatos.Eldiagnsticodelmodeloesparafinespredictivos!Paraobtenerunbuenmodelo
aunquesinfinespredictivos,nicamentedebemosevitarelproblemadelamulticolinealidad.

TraseliminarelvaloratpicodelabasededatosvolvemosarealizareltestdeShapiroWilkparacomprobarsisecumpleahorala
condicindenormalidad

shapiro.test(datos$rstudent.modelAu)

##
##ShapiroWilknormalitytest
##
##data:datos$rstudent.modelAu
##W=0.9133,pvalue=0.1519
comoestenuevopvaloresmayorque0.05ahorasexistenormalidadenlosdatos.Unavezsolucionadoslosproblemasde
diagnsticopasamosalafasedeprediccin.

2.8Prediccin
Tenemosunmodeloderegresinconlacapacidadderelacionarlavariablepredictoraylavariabledependiente.Podemosutilizarlo
ahoraparapredecireventosfuturosdelavariabledependienteatravsdenuevosvaloresdelavariablepredictora.

Paraellodebeverificarsealgunadelassiguientescondiciones

elvalordelapredictoraestdentrodelrangodelavariableoriginal.
sielvalordelapredictoraestfueradelrangodelaoriginal,debemosasegurarquelosvaloresfuturosmantendrnelmodelo
linealpropuesto.

2.8.1Prediccindenuevasobservaciones
x0<seq(min(datos$Categoria),max(datos$Categoria),length=15)
dfp<data.frame(Categoria=x0)
pred.ip<predict(modelAu,dfp,interval="prediction",se.fit=TRUE,data=datos)
head(pred.ip$fit)

##fitlwrupr
##137.0117423.0736650.94983
##235.5383521.8214049.25530
##334.0649620.5399147.59000
##432.5915619.2279345.95520
##531.1181717.8843344.35201
##629.6447716.5081942.78136

Dibujamoslasbandasdeprediccin,quereflejanlaincertidumbresobrefuturasobservaciones:

matplot(x0,pred.ip$fit,type="l",xlab="Categoria",ylab="Ausencias")

Supongamosquenotuviramoslosdatosenlaescalaoriginaldelavariabledependiente,sinoqueloshemostransformado
mediantealgunafuncin.Enesecaso,paraobtenerlasprediccionesoriginalesbastacondeshacerlacorrespondiente
transformacin.Sihubisemostransformado,porejemplo,losdatosoriginalesmediante log() ,elcdigoparaobtenerlas
prediccionessera

newpred<exp(pred.ip$fit)
head(newpred)

2.8.2Intervalosdeconfianzaparalospredictores
Dadounnuevoconjuntodepredictores,x 0 ,debemosevaluarlaincertidumbreenestaprediccin.Paratomardecisionesracionales
necesitamosalgomsquepuntosestimados.Silaprediccintieneintervalodeconfianzaanchoentoncesentonceslosresultados
estarnlejosdelaestimacinpuntual.

Lasbandasdeconfianzareflejanlaincertidumbreenlalneaderegresin(lobienquelalneaestcalculada).

pred.ic<predict(modelAu,dfp,interval="confidence",se.fit=TRUE,data=datos)
head(pred.ic$fit)

##fitlwrupr
##137.0117431.1606342.86286
##235.5383530.2355240.84118
##334.0649629.2803738.84954
##432.5915628.2843436.89878
##531.1181727.2323235.00402
##629.6447726.1042633.18529

Dibujamoslasbandasdeconfianza,queademsreflejanlaincertidumbresobrefuturasobservaciones:

library(graphics)
matplot(x0,pred.ic$fit,type="l",xlab="Categoria",ylab="Ausencias")
Porltimopodemoshacerungrficoconlanubedepuntosylosdosbandas,ladeconfianzayladeprediccin(Ferrari&Head,
2010).

plot(datos$Categoria,datos$Ausencias,pch=20,ylim=range(datos$Categoria,
pred.ip,na.rm=TRUE),xlab="Categoria",ylab="Ausencias")

#Aadimoslasbandas
matlines(dfp$Categoria,pred.ic$fit,lty=c(1,2,2),lwd=1.5,col=1)
matlines(dfp$Categoria,pred.ip$fit,lty=c(1,3,3),lwd=1.5,col=1)
2.9ResumendecdigoenR
#Leerlosdatosdeunfichero.csv
df<read.table("files/40Afile.csv",sep=";",head=TRUE)

#CorrelacinGrficodedispersin(nubedepuntos)
plot(df$var1,df$var2)

##Normalidaddelasvariablesexplicativas
shapiro.test(df$var2)

##Calculamoslacorrelacinentrelasvaribalesaestudiar
cor(df$var1,df$var2)

###Ademsdecalcularlavemossusignificacinconuntest
cor.test(df$var1,df$var2,method="pearson")

##Calculamoslacorrelacindeunamatrizdevariables
ndf<data.frame(df$var1,df$var2,df$var3,df$var4)
cor(ndf,use="everything",method="pearson")

##Coeficientededeterminacin(R^2)
cor(ndf,use="everything")^2

##Hacemoseltestdecorrelacionesparalamatriz(reg.multiple)
library("psych")
corr.test(ndf,use="complete",method="pearson")

#Modeloderegresinsimple

##Creamoselmodeloderegresin
model<lm(var1~var2,data=df)

##Representamosgrficamenteelajuste
plot(df$var1,df$var2,xlab="var1",ylab="var2")
abline(model)

##Resumendelmodelo
summary(model)

##Estudiamosloscoeficientesdelmodelo
summary(model)$coefficients

###Intervalosdeconfianzaparaloscoeficientes
confint(model,level=0.95)

##tablaANOVA(ajustedelmodelo)
anova(model)

#Diagnsticodelmodelo(comprobarsupuestos)

##Obtencindelosresiduos

df$fitted.model<fitted(model)
dfresiduals.model<residuals(model)
df$rstudent.model<rstudent(model)

###Normalidad
shapiro.test(df$rstudent.model)
qqnorm(df$rstudent.model,main="Normal(0,1)")
qqline(df$rstudent.model)

###Homogeneidaddevarianzas
library(lmtest)
bptest(model)

###Autocorrelacin
plot(df$residuals.model,ylab="Residuaos",xlab="ndices")
abline(h=cor(df$var1,df$var2))
dwtest(var1~var2,alternative="two.sided",data=df)

###Valoresatpicos
library(car)
outlierTest(model,cutoff=0.05,n.max=10,order=TRUE)

##Prediccin
x0<seq(min(df$var2),max(df$var2),length=15)
pred<predict(model,data.frame(var2=x0),interval="prediction",se.fit=TRUE,
data=df)
head(pred)


###Intervalodeconfianzarparalospredictores
ic<predict(model,data.frame(var2=x0),interval="confidence",se.fit=TRUE,
data=df)
head(ic)

####bandadeconfianzalibrary(graphics)
matplot(x0,ic$fit,type="l",xlab="var2",ylab="var1")

3Regresinlinealmltiple
3.1Introduccin
EnlaregresinlinealsimplepredecamoslavariableresultadoY apartirdelosvaloresdeX,usandolaecuacindeunalinea
recta.ConlosvaloresquehabamosidoobteniendodeXeY calculbamoslosparmetrosdelaecuacinajustandoelmodeloa
losdatosmedianteelmtododemnimoscuadrados.Laregresinmltipleesunaextensinlgicadeestoasituacionesenlasque
haymsdeunavariablepredictora.Lanuevaecuacinser

Y i = ( 0 + 1 X1i + 2 X2i + + n Xni ) + ei .

Bsicamentesetratadelamismaecuacinqueparalaregresinsimpleexceptoporquehemosincluidopredictoresextra.Cada
predictortienenasociadosupropiocoeficienteypredecimoslavariabledependienteapartirdeunacombinacindetodaslas
variablesmsunresiduo,ei ,ladiferenciaentreelvalorajustadoyobservadodeY enlaisimaobservacin.

Loscoeficientesderegresinsepuedeninterpretarcomo:

elefectomedio(positivoonegativo)sobrelavariabledependientealaumentarenunaunidadelvalordelapredictora
i

Xi , i = 1, , k .

0 elvalormediodelavariabledependientecuandolaspredictorassoncero.

3.2Ejemplodeunmodeloderegresinlinealmltiple
Paraentenderelmodeloderegresinlinealmltiplevamosausarunejemplodeunaempresadefabricacinyrepartodepizzas.
Utilizaremoslabasededatospizza.rda(files/pizza.rda).

Planteamoselmodelosales ads + cost quetendrecuacines

sales = 0 + 1 ads + 2 cost + e.

3.2.1Anlisisdecorrelacin
Comenzamosrepresentandolosdatosenunanubedepuntosmltiple,dondevemoslarelacinentrecadapardevariables.

load("files/40Apizza.rda")
pairs(pizza,panel=panel.smooth)

cor(pizza,use="everything",method="pearson")

##salesadscost
##sales1.00000000.78083280.8204250
##ads0.78083281.00000000.8949125
##cost0.82042500.89491251.0000000

vemosquetodaslasvariablestieneunacorrelacinelevada.
3.2.2Ajustedelmodelo
modelPizza1<lm(sales~ads+cost,data=pizza)
summary(modelPizza1)

##
##Call:
##lm(formula=sales~ads+cost,data=pizza)
##
##Residuals:
##Min1QMedian3QMax
##5.69811.82230.66562.44706.0123
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)6.58368.54220.7710.461
##ads0.62471.12030.5580.591
##cost2.13891.47011.4550.180
##
##Residualstandarderror:3.989on9degreesoffreedom
##MultipleRsquared:0.684,AdjustedRsquared:0.6138
##Fstatistic:9.741on2and9DF,pvalue:0.005604

Elerrortpicoresiduales 3.99 ,laR2 = 0.684 ,aunqueparaelmodelomltipleesmejorfijarnosensuvalorajustadoR2a = 0.614 .


Estoquesignificaquelarectaderegresinexplicael61%delavariabilidaddelmodelo.Adems,F = 9.74 conunasignificacin
p < 0.05 ,loquenosdicequenuestromodeloderegresinresultasignificativamentemejorqueelmodelobsico.

3.3Comparacindemodelos
Pretendemosseleccionarelmejorsubconjuntodepredictoresporvariasrazones

1.Explicarlosdatosdelamaneramssimple.Debemoseliminarpredictoresredundantes.

2.Predictoresinnecesariosaaderuidoalasestimaciones.

3.Lacausadelamulticolinealidadestenerdemasiadasvariablestratandodehacerelmismotrabajo.Eliminarelexcesode
predictoresayudaalainterpretacindelmodelo.

4.Sivamosautilizarelmodeloparalaprediccin,podemosahorrartiempoy/odineroalnomedirpredictoresredundantes.

Puestoquetenemosdosvariablesexplicativasdisponemosdetresmodelosposibles

modelo1 : sales ads + cost

modelo2 : sales ads

modelo3 : sales cost

Vamosaajustarcadaunodelosmodelos

modelPizza2<lm(sales~ads,data=pizza)
summary(modelPizza2)
##
##Call:
##lm(formula=sales~ads,data=pizza)
##
##Residuals:
##Min1QMedian3QMax
##6.83642.75680.68043.83464.8971
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)16.93694.98183.4000.00677**
##ads2.08320.52713.9520.00272**
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Residualstandarderror:4.206on10degreesoffreedom
##MultipleRsquared:0.6097,AdjustedRsquared:0.5707
##Fstatistic:15.62on1and10DF,pvalue:0.00272

modelPizza3<lm(sales~cost,data=pizza)
summary(modelPizza3)

##
##Call:
##lm(formula=sales~cost,data=pizza)
##
##Residuals:
##Min1QMedian3QMax
##5.70161.32270.66471.75776.8957
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)4.1737.1090.5870.57023
##cost2.8730.6334.5380.00108**
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Residualstandarderror:3.849on10degreesoffreedom
##MultipleRsquared:0.6731,AdjustedRsquared:0.6404
##Fstatistic:20.59on1and10DF,pvalue:0.001079

Paraevitarlaeleccinsubjetivadelmejormodelo,podemoscomparartodoslosmodelosmedianteunatablaANOVAconjuntapara
cadapardemodelos.Hayquetenerencuentaqueparapodercompararmodelosestosdebenestarencajados,esdecir,queuno
deelloscontengaalotromsotroconjuntodevariablesexplicativas.

anova(modelPizza3,modelPizza1)
##AnalysisofVarianceTable
##
##Model1:sales~cost
##Model2:sales~ads+cost
##Res.DfRSSDfSumofSqFPr(>F)
##110148.15
##29143.2014.94720.31090.5907

anova(modelPizza3,modelPizza2)

##AnalysisofVarianceTable
##
##Model1:sales~cost
##Model2:sales~ads
##Res.DfRSSDfSumofSqFPr(>F)
##110148.15
##210176.88028.731

Comparandoambastablasanovadeducimosqueelmodeloquemejorseajustaalosdatosesel modelo3 puesreduceelerror


estndar.

Paraesteconjuntodedatos,altenerslodosvariablesexplicativas,anlopodemosrealizaramanocomparandolosmodelosde
dosendos.Perocuandotenemosmsvariablesesteprocesosevuelvemuytediosoporloquemejorhacerloautomticamentecon
losmtodospasoapaso.

3.4Seleccindelmejormodelo
Existendistintosmtodosalahoradeconstruirunmodelocomplejoderegresinconvariospredictores

Elmtodojerrquicoenelqueseseleccionanlospredictoresbasndoseenuntrabajoanterioryelinvestigadordecideenqu
ordenintroducirlasvariablespredictorasalmodelo.

Elmtododeentradaforzadaenelquetodaslasvariablesentranalafuerzaenelmodelosimultneamente.

Losmtodospasoapasoquesebasanenuncriteriomatemticoparadecidirelordenenquelospredictoresentranenel
modelo.

NosotrosvamosautilizarenRlosmtodospasoapaso,peroantesdeverlosvamosaintroducirunanuevamedidadeajuste.

3.4.1CriteriodeinformacindeAkaike(AIC)
ElproblemadeutilizarR2 paracompararmodelosesquealaadirnuevasvariablesalmodelo,estamedidasiemprecrece.Si
estamosdecidiendocualdetodoslosmodelosajustamejoralosdatos,elmodeloconmspredictoressiempreserelmejor
ajustando.Paraevitarestoseutilizael AIC ,unamedidadeajustequepenalizaelmodeloportenermsvariables.Vienedefinido
por

S SR
AI C = n log + 2k,
n

dondeneselnmerodecasosenelmodelo,S SR eslasumadecuadradosdelosresiduosdelmodeloyk eselnmerode


variablespredictoras.

Elnicoproblemaesquenoexistendirectricessobreestecriterio,sloquesiel AIC esmayor,elmodeloespeorysiel AIC es


peor,elajusteesmejor.

3.4.2Metodospasoapaso
En R accedemosaestosmtodosutilizandoelcomando step(modelo,direction="") ,dondelasdireccionespuedenser:
forward :elmodeloinicialcontienesololaconstante 0 yapartirdeahelordenadorbuscalavariablepredictora(dentrodelas
disponibles)quemejorpredicelavariabledependiente.Siestepredictormejoralahabilidaddelmodeloparapredecirlavariable
respuesta,stapermaneceenelmodeloysebuscaotravariablepredictora.Paralasegundavariableseusacomocriteriode
seleccincogeraquellaquetengalamayorcorrelacinparcialconlarespuesta. R tienequedecidircundoparardeaadir
predictoresalmodelo,yparahacerlosebasaenelcriteriode AIC .

blackward :estemtodoeselopuestoalanterior, R empiezacontodaslasvariablespredictorasenelmodeloyestudiasiel


AIC disminuyecuandoeliminamosdelmodeloalgunadelasvariables.

both :empiezadelmismomodoqueelmtodo forward salvoquecadavezqueunavariablepredictoraesaadidaala


ecuacin,serealizauntestdeextraccindelpredictormenostil.

Elmtodomspreferiblees backward debidoalefectorepresorqueocurrecuandounavariablepredictoratieneinfluenciapero


slosiotradelasvariablessemantieneconstante.Alusarmtodospasoapasoesaconsejabledespushacerunavalidacin
cruzada,mtodoqueestudiaremosmsadelante.

3.4.2.1Mtodospasoapasoen R

Vamosadesarollarestosmtodosconelejemplo bebidas.csv .Enlsepretendeexplicarlasmuertesporcirrosissegnlabebida


queconsumanlospacientes((SCG),2013).

dfbeb<read.table("files/40Abebidas.csv",sep=";",head=TRUE)
str(dfbeb)

##'data.frame':46obs.of6variables:
##$caseid:int12345678910...
##$cirrosis:num41.231.739.457.574.859.854.347.977.256.6...
##$poblacion:int44434852714457347054...
##$cerveza:num33.233.840.639.245.537.544.231.945.645.9...
##$vino:int543711963127...
##$licorDuro:int30413848536573325657...

#Eliminamoslavariable'caseid'delconjuntopuesnonosinteresa.
dfbeb<dfbeb[,2:6]

Elarchivorecogelosdatosdemuerteporcirrosis,eltamaodelapoblacin,elconsumodecerveza,elconsumodevinoyel
consumodelicoresduros.Echamosunprimervistazoalosdatos

summary(dfbeb)

##cirrosispoblacioncervezavino
##Min.:28.00Min.:27.00Min.:31.20Min.:2.00
##1stQu.:48.901stQu.:44.251stQu.:35.621stQu.:6.25
##Median:57.65Median:55.00Median:42.25Median:10.00
##Mean:63.49Mean:56.26Mean:41.48Mean:11.59
##3rdQu.:75.703rdQu.:65.003rdQu.:45.833rdQu.:15.75
##Max.:129.90Max.:87.00Max.:56.10Max.:31.00
##licorDuro
##Min.:26.00
##1stQu.:41.50
##Median:56.00
##Mean:57.50
##3rdQu.:68.75
##Max.:149.00

Entodaslasvariablesexplicativaslosvaloresdelamediaylamedianasonmuycercanos,locualesmuybueno.

Correlacin

pairs(dfbeb,panel=panel.smooth)

cor(dfbeb,use="everything",method="pearson")

##cirrosispoblacioncervezavinolicorDuro
##cirrosis1.00000000.74907400.78272440.84461120.6819694
##poblacion0.74907401.00000000.84328120.67862300.4402957
##cerveza0.78272440.84328121.00000000.63984070.6863643
##vino0.84461120.67862300.63984071.00000000.6759206
##licorDuro0.68196940.44029570.68636430.67592061.0000000

Comovemosenlatablacirrosisestmuycorrelacionadacontodaslasvariablesexplicativasyentreellastambinexistebastante
correlacin.

Pasamosadefinirel__modelogeneral_contodaslasvariables.

modelCir<lm(cirrosis~poblacion+cerveza+vino+licorDuro,data=dfbeb)
summary(modelCir)
##
##Call:
##lm(formula=cirrosis~poblacion+cerveza+vino+licorDuro,
##data=dfbeb)
##
##Residuals:
##Min1QMedian3QMax
##18.87236.78030.15077.325216.4419
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)13.9631011.400351.2250.2276
##poblacion0.098290.244070.4030.6893
##cerveza1.148380.583001.9700.0556.
##vino1.857860.400964.6343.61e05***
##licorDuro0.048170.133360.3610.7198
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Residualstandarderror:10.61on41degreesoffreedom
##MultipleRsquared:0.8136,AdjustedRsquared:0.7954
##Fstatistic:44.75on4and41DF,pvalue:1.951e14

Analizamoselresumendeesteprimermodelo.Vemosquelamedianadelosresiduosescercanaa0,locualesmuybuenopues
queremosquelosresiduostenganmediacero.

Observandoloscoeficientesvemosquesegnelestadsticotslosonsignificativaslasvariables vino y cerveza ,ahora


aplicaremoselmtododeseleccindemodelosparaversieliminamosalgunavariable.

Anas,elmodelocontodaslasvariablestieneunerrorestndarde 10.46 yunaR2 = 0.8136 ,aunqueparaelmodelomltiple


esmejorfijarnosensuvalorajustado 2
Ra = 0.7954 .Estoquieredecirlarectaderegresinexplicael79%delavariabilidaddel
modelo.

Porotrolado,queelestadsticoFseaaltotambinesbueno,lavariabilidadexplicadaporelmodeloesmayorquelaquesequeda
sinexplicar.AsF = 44.75conunasignificacinp < 0.05quieredecirquenuestromodeloderegresinresultasignificativamente
mejorqueelmodelobsico.Veamosahorasipodemosmejorarelajuste.

Seleccindelmodelo

Vamosaaplicarlostresmtodosanuestrosmodelosparacmofuncionacadaunodeellos.Comenzamosconelmtodoms
recomendable,laeliminacinhaciaatrs( "backward" ).

step(modelCir,direction="backward")
##Start:AIC=221.95
##cirrosis~poblacion+cerveza+vino+licorDuro
##
##DfSumofSqRSSAIC
##licorDuro114.674625.8220.09
##poblacion118.244629.3220.13
##<none>4611.1221.95
##cerveza1436.385047.5224.11
##vino12414.637025.7239.32
##
##Step:AIC=220.09
##cirrosis~poblacion+cerveza+vino
##
##DfSumofSqRSSAIC
##poblacion16.34632.1218.16
##<none>4625.8220.09
##cerveza11046.85672.6227.48
##vino14278.98904.7248.22
##
##Step:AIC=218.16
##cirrosis~cerveza+vino
##
##DfSumofSqRSSAIC
##<none>4632.1218.16
##cerveza12459.67091.7235.75
##vino14951.39583.4249.60

##
##Call:
##lm(formula=cirrosis~cerveza+vino,data=dfbeb)
##
##Coefficients:
##(Intercept)cervezavino
##16.0011.3661.972

Elprocesocomienzaconelmodelocompletoyconun AIC globalde 221.95 .Enelprimerpasoseconsideralaeliminacinde


todaslasvariablesexplicativasysecalculael AIC relativoadichaeliminacin. R seleccionalavariable licorDuro (variableque
quedanporencimade <none> ),yaquesueliminacinproporcionaun AIC mspequeo.El AIC resultantetrasestepasoyconel
quecompararemosenelsiguientees 220.09 .

Seconsideraahoralaposibleeliminacindealgunadelastresvariablesrestantesysesacadelmodelolavariable poblacin
quedndonosconun AIC de 218.16 .

Porltimoseconsideralaposibilidaddesuprimiralgunadelasdosvariablesrestantes,sinembargo,vemosqueelproceso
consideraqueestadsticamenteresultamejorquepermanezcanenelmodeloyaquealeliminarlasel AIC aumenta,comomnimo,
hasta 235.75 .

Utilizamosahoraelmtododedosdireccionescambiandoelcomandoa

step(modelCir,direction="both")
##Start:AIC=221.95
##cirrosis~poblacion+cerveza+vino+licorDuro
##
##DfSumofSqRSSAIC
##licorDuro114.674625.8220.09
##poblacion118.244629.3220.13
##<none>4611.1221.95
##cerveza1436.385047.5224.11
##vino12414.637025.7239.32
##
##Step:AIC=220.09
##cirrosis~poblacion+cerveza+vino
##
##DfSumofSqRSSAIC
##poblacion16.34632.1218.16
##<none>4625.8220.09
##+licorDuro114.74611.1221.95
##cerveza11046.85672.6227.48
##vino14278.98904.7248.22
##
##Step:AIC=218.16
##cirrosis~cerveza+vino
##
##DfSumofSqRSSAIC
##<none>4632.1218.16
##+poblacion16.34625.8220.09
##+licorDuro12.74629.3220.13
##cerveza12459.67091.7235.75
##vino14951.39583.4249.60

##
##Call:
##lm(formula=cirrosis~cerveza+vino,data=dfbeb)
##
##Coefficients:
##(Intercept)cervezavino
##16.0011.3661.972

Partimosdeun AIC=221.95 yenelprimerpasoseeliminalavariable licorDuro ,reducindoseaun 220.09 .Enelsiguientepaso


ademsdelaeliminacindelrestodelasvariablesseconsideralaentradadenuevodelavariable,aunqueseoptaporsuprimir
poblacin reduciendoel AIC a 218.16 .Enelltimopasosecomparaentrelaposibilidadderecuperaralgunadelasvariables
eliminadasosuprimiralgunams.Sedecidenohacernada,nieliminarmsnimeterlasantiguas,quedandoelmodelocon
cerveza y vino .

Veamosporltimolaseleccinhaciadelante( forward ).Debemospartirdelmodelomssencillo,sloconlaconstante,eindicar


cualessonlasposiblesvariablesexplicativas

mdlCir0<lm(cirrosis~1,data=dfbeb)
step(mdlCir0,direction="forward",~poblacion+cerveza+vino+licorDuro)
##Start:AIC=291.23
##cirrosis~1
##
##DfSumofSqRSSAIC
##+vino1176507091.7235.75
##+cerveza1151589583.4249.60
##+poblacion11388310858.7255.35
##+licorDuro11150713234.6264.45
##<none>24741.3291.23
##
##Step:AIC=235.75
##cirrosis~vino
##
##DfSumofSqRSSAIC
##+cerveza12459.584632.1218.16
##+poblacion11419.045672.6227.48
##+licorDuro1562.066529.6233.95
##<none>7091.7235.75
##
##Step:AIC=218.16
##cirrosis~vino+cerveza
##
##DfSumofSqRSSAIC
##<none>4632.1218.16
##+poblacion16.29314625.8220.09
##+licorDuro12.72874629.3220.13

##
##Call:
##lm(formula=cirrosis~vino+cerveza,data=dfbeb)
##
##Coefficients:
##(Intercept)vinocerveza
##16.0011.9721.366

Eselmismoprocedimientoqueparaelmtodohaciaatrsperoaqusepartedelmodelosinvariablesexplicativasyseconsidera
encadapasolaposibleinclusindeunanuevavariable(lossignosahorason + ).Laprimeravariablequeseaadealmodeloes
vino seguidade cerveza pueslainclusindealgunadelasotrasincrementael AIC .

Entodoslosmtodosnoshemosquedamosconelmismomodelofinal.Laltimapartedelmtodomuestraloscoeficientesdel
modeloconelquenosquedamosfinalmente,quees

modelCirf<lm(cirrosis~cerveza+vino,data=dfbeb)
summary(modelCirf)
##
##Call:
##lm(formula=cirrosis~cerveza+vino,data=dfbeb)
##
##Residuals:
##Min1QMedian3QMax
##18.81586.85390.05997.216016.3714
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)16.000810.15301.5760.122
##cerveza1.36560.28584.7782.08e05***
##vino1.97230.29096.7802.69e08***
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Residualstandarderror:10.38on43degreesoffreedom
##MultipleRsquared:0.8128,AdjustedRsquared:0.8041
##Fstatistic:93.34on2and43DF,pvalue:2.268e16

Enestemodelofinallamedianadelosresiduosesprcticamentecero,loquevaasignificarquelosresiduosvanatenerunamedia
muycercanaa0.Vemosquelasdosvariables cerveza y vino sonsignificativas.Tenemosunerrorestndarde 10.38 ,yun
2
R a = 0.8041 loquesignificaqueelmodeloexplicaun80%delavariabilidaddelosdatos.FinalmentevemosqueeltestFes
significativo(p < 0.01)conunvalorelevado,locualnosindicaqueelmodeloseajustasignificativamentealosdatos.

anova(modelCirf)

##AnalysisofVarianceTable
##
##Response:cirrosis
##DfSumSqMeanSqFvaluePr(>F)
##cerveza115158.015158.0140.7133.787e15***
##vino14951.34951.345.9632.685e08***
##Residuals434632.1107.7
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1

Latablaanovanosconfirmaquelasvariablesexplicativasdenuestromodelosonsignificativas,yvemosquelasumadecuadrados
explicadaporelmodeloesmuchomayorquelasumadecuadradosdelosresiduos,portantopodemosafirmarqueR2 0.

Aplicarelmodelo

Podemosutilizarlaparte Coefficients proporcionaelresumendelmodeloparaanalizarindividualmentelacontribucindecada


variablepredictoralaexplicacindeladependiente.

Definimoselmodeloreemplazandolosbvaloresenlaecuacininicialyobtenemoselmodelo

cirrosis = 16.001 + 1.366 cerveza + 1.972 vino

3.5Diagnsticodelmodelo
ParaesteapartadonoshemosapoyadofundamentalmenteenellibroJ.Faraway(2009).

Alhabergeneradoelmodelobasndonosenunamuestranostenemosquepreguntarsielmodeloseajustabienalosdatos
observadosoestinfluenciadoporunpequeonmerodecasos,yporotroladosielmodelosepuedegeneralizaraotras
muestras.Esunerrorpensarqueporqueunmodeloseajustebienalosdatosobservadosentoncespodemostomarconclusiones
msalldenuestramuestra.
Parapodergeneralizarunmodeloderegresindebemoscomprobarlossupuestosdelmodelo,yunavezsegurosdequese
cumplen,paracomprobarsielmodelosepuedegeneralizarutilizaremoslavalidacincruzada.Empezamosanalizando
grficamentelossupuestos

plot(modelCirf,which=1,pch=20)

Esteprimergrficoenfrentaloserroresresidualesfrenteasusvaloresajustados.Elresiduosdebenestardistribuidosalazar
alrededordelalneahorizontalquerepresentaunerrorresidualdeceroesdecir,nodebehaberunatendenciaclaraenla
distribucindepuntos.Unatendenciaenlavariabilidaddelosresiduossugierequelavarianzaestrelacionadaconlamedia,
violandoelsupuestodevarianzaconstante.

Sielgrficotieneformadeembudo,esdecir,silospuntosparecenestarmsomenosextendidosalolargodelgrfico,entonceslo
msprobableesqueexistaheterocedastididadenlosdatos.Enestecasolosdatosparecenexhibirunaligeratendenciaconun
incrementodelavarianzaenlosextremos.

Sihubieraalgntipodecurvaenlagrficaentoncessehavioladoelsupuestodelinealidad.Ysilosdatosparecenseguirunpatrn
yademsestnmsextendidosporenalgunospuntosdelagrficaqueenotrosentoncesprobablementeseincumplanlos
supuestosdehomogeneidaddevarianzaylinealidad.

Engeneral,paracequeennuestromodelonoseviolanningunodelossupuestos.

plot(modelCirf,which=2,pch=20)
Enestegrficolosresiduostipificadossetrazancontraloscuantilesdeunadistribucinnormalestndar.Silosresiduosse
distribuyennormalmentelosdatossedebensituaralolargodelalnea.Enestecaso,losdatosnohacenparecenteneruna
distribucinnormal.

plot(modelCirf,which=3,pch=20)
Elterceroeselgrficoescalaubicacinenelquelosresiduosestnestandarizadosporsusdesviacionesestndarestimadas.Esta
grficaseutilizaparadetectarsiladifusindelosresiduosesconstanteenelrangodevaloresajustados.Unavezms,seaprecia
unatendenciamuyleveenlosdatosdetalmaneraquelosvaloresaltosmuestranunamayorvariacin.

plot(modelCirf,which=5,pch=20)

Finalmenteelcuartogrficomuestraelvalorleveragedecadapunto,lamedidadesuimportanciaenladeterminacindelmodelo
deregresin.Estnrepresentadoslosdatosqueejercenmayorinfluencia.

SuperponenaldiagramadepuntosleveragelascurvasdenivelparaladistanciadeCook,queesotramedidadelaimportanciade
cadaobservacinalaregresin.SilalneadedistanciaCooksabarcaaalgnpuntodedatos,significaqueelanlisispuedeser
muysensibleaesepuntoyquizseaconvenienterepetirelanlisisexcluyendolosdatos.Distanciaspequeassignificanquela
eliminacindelaobservacintienepocoefectosobrelosresultadosdelaregresinydistanciasmayoresa1sonsospechosas,
sugierenlapresenciadeunposiblevaloratpicoodeunmodelopobre.

Pasamosahoraaestudiarelmodeloanalticamente,paraelloobtenemoslosresiduos,losvaloresajustadosyestadsticosdel
modelomedianteelsiguientecdigo:

dfbeb$fitted.modelCirf<fitted(modelCirf)
dfbeb$residuals.modelCirf<residuals(modelCirf)
dfbeb$rstudent.modelCirf<rstudent(modelCirf)

3.5.1Normalidad
EnelgrficoQQplotquevimosantessugerafaltadenormalidadenlosdatos.Locomprobamos

ks.test(dfbeb$rstudent.modelCirf,"pnorm")
##
##OnesampleKolmogorovSmirnovtest
##
##data:dfbeb$rstudent.modelCirf
##D=0.1058,pvalue=0.6434
##alternativehypothesis:twosided

hist(dfbeb$rstudent.modelCirf,xlab="residuos",main="Histogramaresiduos")

#densidad

Elpvalorparaelcontrastedenormalidadesmayorque 0.05(p=0.6434) yademselhistogramasepareceaunadistribucin


normal(curvaenformacampana)entoncesnohayproblemasdenormalidad.

3.5.2Homogeneidaddevarianzas
bptest(modelCirf,studentize=FALSE,data=dfbeb)

##
##BreuschPagantest
##
##data:modelCirf
##BP=0.6665,df=2,pvalue=0.7166

Significacin p=0.7166 ,mayorde 0.05 ,porloquepodemosdecirquelavarianzaesconstantealolargodelamuestra.

3.5.3Autocorrelacin
dwtest(modelCirf,alternative="two.sided",data=dfbeb)

##
##DurbinWatsontest
##
##data:modelCirf
##DW=2.5152,pvalue=0.07225
##alternativehypothesis:trueautocorrelationisnot0

Aceptamoslahiptesisnuladequenoexistecorrelacinentrelosresiduosconunpvalorsuperiora 0.05 .

3.5.4Casosatpicosyresiduos
Podemosencontrarlosvaloresatpicosobservandograndesdiferenciasentrelosdatosmuestralesylosdatosajustadosporel
modelo,esdecir,estudiandolosresiduos.

Sielmodeloseajustabienalosdatosmuestralesentoncestodoslosresiduossernpequeos,mientrasquesielajustedelmodelo
espobrelosresiduosserngrandes.Adems,sialgncasosobresaleportenerungranresiduoestepodraserentoncesunvalor
atpico.

Vamosaanalizarsiexistenvaloresatpicosennuestroejemplo.Enelprimergrficoenfrentamos cirrosis con cerveza yenel


segundo cirrosis con vino .

Paraesteprimergrficoseobservandosposiblesvaloresatpicos.

Estudiamoselgrficoparalasotrasdosvariables
Seobservanlosmismoscandidatosavaloresatpicos.HacemoseltestdeBonferroniparacomprobarlo.

outlierTest(modelCirf)

##
##NoStudentizedresidualswithBonferonnip<0.05
##Largest|rstudent|:
##rstudentunadjustedpvalueBonferonnip
##151.9062360.063478NA

Obtenemosqueelvalor 15 esunatpico.

3.6Anlisisdelainfluencia.
Conesteanlisispretendemosversihayalgunaobservacinqueesdemasiadoinfluyentesobreloscoeficientesdelmodelo,nos
ayudaadeterminarsielmodeloderegresinesestablealolargodelamuestraosiestperjudicadoporunospocoscasos
influyentes.

Utilizamoslafuncin influence.measures quenosproporcionatodaslasmedidasdeinfluencia.Explicamos,apartirdelos


resultadosdeaplicarlafuncin,cadaunadelasmedidas:

infl<influence.measures(modelCirf)
summary(infl)

##Potentiallyinfluentialobservationsof
##lm(formula=cirrosis~cerveza+vino,data=dfbeb):
##
##dfb.1_dfb.crvzdfb.vinodffitcov.rcook.dhat
##200.100.010.450.601.200.120.20_*
##380.260.300.310.351.45_*0.040.27_*
Analizamoslatablaresumen:

laprimeracolumnaindicaelndicedelasobservacionespotencialmenteinfluyentes.
lascolumnasquecomienzancon dfb proporcionanlasobservacionespotencialmenteinfluyentessobrecadaunodelos
coeficientesdelmodelo.
lacolumna dffits identificalasobservacionesinfluyentessegnelestadsticoDFFITS.
lacolumna cov.r muestralasobservacionespotencialmenteinfluyentessegnelestadsticoCOVRATIO.
lacolumna cook.d proporcionaladistanciadeCook.
laltimacolumnapresentalasobservacionesquepuedenresultarinfluyentessegnlos leverages .

Encadacolumnaelasteriscosealasirealmentelaobservacinpuedeserinfluyente.Enestecasotenemosquelaobservacin
38 resultainfluyenteconelestadstico cov.r ,ylas 38 yla 20 paralos`leverages.

Analizamosunpocomsestasmedidas:

Losleverages(hat)varanentre 0 (indicandoqueelcasonotieneinfluenciaenabsoluto)y 1 (indicandoqueesecasotiene


influenciacompletasobreelmodelo).Siningunodeloscasosejerceexcesivainfluenciasobreelmodeloentoncesesperaremos
quetodoslosvaloresleverageestnentornoalvalormedio ((k+1)/n) ,donde k eselnmerodepredictoresy n elnmero
departicipantes.Buscamosvaloreseldobleotripleque ((k+1)/n) paraconsiderarloscomoinfluyentes.

ParaladistanciadeCookseconsideraquevaloresmayoresque 1 puedensercausadepreocupacin.Siuncasoesun
valoratpicoperosudistanciadeCookesmenorque1,entoncesnoexistenecesidadrealdeeliminarestedatoyaque
realmentenotieneungranefectosobreelmodeloderegresin.

Loestudiamosgrficamente.Enelprimergrficosemuestramediantecrculosdedistintotamaolainfluenciaquecadapunto
ejercesobreelmodeloyenelsegundoestnrepresentadasenordenascendentelasdistanciasdeCooks.

influencePlot(modelCirf,id.n=2)
##StudResHatCookD
##121.78342160.092356420.3204258
##151.90623580.040154420.2185110
##201.22035020.196684240.3466640
##301.78103840.165001360.4459772
##380.56648080.274948480.2030124

Enesteprimergrficovemosquelasmedidasmsinfluyentessonla30,la20yla12.VemoselgrficodelasdistanciasdeCook.

cook<cooks.distance(modelCirf)
labels<rownames(dfbeb)
halfnorm(cook,3,labs=labels,ylab="DistanciadeCook")

Enestegrficovolvemosaobtenerquelospuntosmsinfluyentessonel30,el20yel12,perocomoenningncasoestadistancia
esmayorque1,puesparaelvalormselevadoes0.2,podemosafirmarqueningunodeellosesuncasoatpicoynoesnecesario
eliminarlosdelmodelo.

Laformahabitualdeprocedereseliminardichasobservacionesdelmodeloycomenzardenuevotodoelproceso,sinembargo
comoelmodelocumpletodaslashiptesis,eliminardichasobservacionespodraprovocarqueelnuevomodelofueraincorrectoy
tuviramosquevolveralmodeloanterior.

Hayquetenerencuentaqueloslmitesmarcadosparaidentificarunaobservacincomoinfluyentesonaproximados,yportanto
debensertomadoscomoorientacin,asalvoqueelvalorobtenidoseaexageradamentellamativo.

3.7Validacincruzada
Alutilizarmtodospasoapasoesrecomendablehacerunavalidacincruzadadenuestromodeloparaevaluarsueficacia
prediciendolavariabledependienteenunamuestradiferente.Evaluarlaprecisindeunmodeloatravsdediferentesmuestrases
loqueseconocecomovalidacincruzada.
Parapodergeneralizarunmodeloestedebesercapazdepredecirconprecisinlamismavariabledependientedelmismoconjunto
depredictoresenungrupodiferentedegente.Siaplicamoselmodeloaunamuestradiferenteysupoderpredictivosereduce
severamente,entoncesnoesgeneralizable.

ElmtodousualescalcularademsdelaR2 suvalorajustado,puesesunindicadordelaprdidadepoderpredictivo.MientrasR2
nosdicecuntavarianzadeY representaelmodeloderegresin,laR2a cuantificalavarianzadeY querepresentaraelmodelosi
estehubierasidoobtenidodelapoblacindondehemostomadolamuestra.SilosvaloresdeR2 yR2a estnprximossignificaque
elmodeloderegresinesbueno.

Sinembargo,estamedidahasidocriticadaporquenodicenadasobrelaefectividaddelmodeloderegresinsiseaplicaaun
conjuntodedatostotalmentedistinto.Unaalternativaserapartirlosdatosycruzarlos,esdecir,hacerunadivisinaleatoriadel
conjuntodedatos(p.ejun80%20%),calcularlaecuacinderegresinenambosconjuntosycompararlosmodelosresultantes.
ComparandolosvaloresdeR2 ylosbvaloresenlasdosmuestraspodemossaberlabondaddelmodelooriginal.

Pararealizarlavalidacincruzadaen R usamoslafuncin cv.lm(datos,modelo,m) ,donde m eselnmerodesubconjuntosen


losqueasignamoslosdatosalazar.Cadasubconjuntoseretiradelmodelo,sucesivamente,mientrasquelosdatosrestantesse
utilizaparavolveraajustarelmodeloderegresinypredecirenlasobservacioneseliminados.

library(DAAG)
cv.lm(dfbeb,modelCirf,m=2)

3.8Prediccin
Paracalcularlasecuacionesdeprediccinprocedemosdeformasimilaralcasoderegresinlinealsimple,lanicadiferenciaes
quehayquedarvalorespredictivosparatodaslasvariablesqueaparezcanenelmodelo.

#Definiendounintervaloparalavblevino.
x0<seq(min(dfbeb$vino),max(dfbeb$vino),length=length(dfbeb$vino))
dbp<data.frame(poblacion=56,cerveza=41,vino=x0,licorDuro=58)
pred<predict(modelCirf,dbp,interval="prediction",se.fit=TRUE,data=dfbeb)
head(pred$fit)

##fitlwrupr
##143.9349822.0861165.78385
##245.2060223.4483666.96368
##346.4770524.8043968.14972
##447.7480926.1541469.34204
##549.0191327.4975370.54072
##650.2901628.8345171.74582

3.9Diagnsticosdecolinealidad(multicolinealidad)
Sienunmodeloderegresinlinealmltiplealgunavariablepredictoraescombinacinlinealdeotrasdelasvariablesdelmodelo,
entonceselmodeloesirresoluble,debidoaqueenesecasolamatrizX Xessingular,esdecir,sudeterminanteesceroynose
puedeinvertir.

UnavariableX1 escombinacinlinealdeX2 ,,Xi coni > 2,sidichasvariablesestnrelacionadasporlaexpresin


X1 = 1 + 2 X2 +. . . + i Xi ,siendolos i constantes.Entalcasoelcoeficientedecorrelacinmltipletambinser 1 .

Portanto,lamulticolinealidadexistesihayunafuertecorrelacinentredosomsvariablespredictorasdelmodelo,esdecir,cuando
algunodeloscoeficientesdecorrelacinsimpleomltipleentrealgunasdelasvariablesindependienteses 1 .Siexisteuna
colinealidadperfectaentrepredictoresesimposibleobtenerestimadoresnicosparaloscoeficientesderegresinyaquehayun
nmeroinfinitodecoeficientesquefuncionaranigualdebien.

Enlaprcticaestacolinealidadexactararasvecesocurre,perossurgeconciertafrecuencialallamadacasicolinealidad,cuando
algunavariableescasicombinacinlinealdeotrauotras.Dichodeotromodo,algunoscoeficientesdecorrelacinsimpleo
mltipleentrelasvariablesindependientesestncercanosa1,aunquenolleganadichovalor.


EnesecasolamatrizX Xescasisingular,esdecir,sudeterminantenoesceroperoesmuypequeo.Comoparainvertiruna
matrizhayquedividirporsudeterminantesurgenproblemasdeprecisinenlaestimacindeloscoeficientes,yaquelosalgoritmos
deinversindematricespierdenprecisinaltenerquedividirporunnmeromuypequeo,siendoademsinestables.

Hayvariasformasdedetectaresteproblema:

Observarlosestadsticosestimados:cuandolapruebamuestraqueelmodeloesglobalmentesignificativo,esdecir,quelos
coeficientesestimadossonestadsticamentediferentesdecero,peroseencuentranunosvaloresestimadosbajosque
demuestranqueloscoeficientesnosonsignificativos.

Observarlamatrizdecorrelacinentreparejasderegresores:siestecoeficienteesmayora0.8entoncesla
multicolinealidadesunproblemagrave.Sinembargo,estacondicinsepuedeconsiderarsuficienteperononecesaria,la
multicolinealidadpuedeexistirapesardequelascorrelacionesseancomparativamentebajas(esdecir,inferioresa0.5).

Regresionesauxiliares:dadoquelamulticolinealidadsurgeporlarelacinlinealentrevariablesexplicativas,sepueden
estimarregresionesentrelasvariablesexplicativasyadoptarlareglaprcticadeKlien.Estesugierequesielmodeloobtenido
enlaregresinauxiliaresmayorqueelglobalobtenidocontodoslosregresores,hayunserioproblemademulticolinealidad.

EstimarelFactordeInflacindeVarianza(FIV):indicasielpredictortieneunafuerterelacinlinealconotropredictoryesel
quevamosacalcularcon R .Aunquenoexistenreglasgeneralessetienenlossiguientescriterios:
Un VIF>10 escausadepreocupacin.
Si VIF essustancialmentemayorque 1 entonceslaregresinpuedeverseperjudicada.
Tolerancia=1/VIF debajode 0.1 indicaunproblemaserio.
Tolerancia debajode 0.2 indicaunproblemapotencial.

Siidentificamosmulticolinealidadnohaymuchoquepodamoshacer,lasolucinnoesfcil:

Podemosintentareliminarlavariablemenosnecesariaimplicadaenlacolinealidad,ariesgodeobtenerunmodelomenos
vlido.Sinembargo,unproblemacomnesnosaberquvariabledebemosomitir.Cualquieradelasvariablesproblemticas
puedeseromitida,nohayfundamentosestadsticosparasuprimirunavariableenvezdeotra.
Serecomiendaquesieliminamosunavariablepredictora,stasereemplaceporotraigualmenteimportantequenotengauna
colinealidadtanfuerte.
Sepuedeintentarcambiarlaescalademedidadelavariableenconflicto(esdecir,transformarla).Sinembargoestas
transformacioneshacenalmodelomuydependientedelosdatosactuales,invalidandosucapacidadpredictiva.
Tambinsepuederecurriraaumentarlamuestraparaasaumentarlainformacinenelmodeloyversilamulticolinealidad
puededisminuir,aunquenosiempreserposible.
Laltimaposibilidad,aunquemscomplejacuandohayvariospredictores,eshacerunanlisisfactorialyusarlaspuntuaciones
delfactorresultantecomopredictor.

Supongamosqueestamosenelejemplode dfbeb ylerealizamosuntestdemulticolinealidadal modelCirf :

vif(modelCirf)

##cervezavino
##1.6931821.693182

sqrt(vif(modelCirf))>2

##cervezavino
##FALSEFALSE

Nuestromodelonopresentaproblemasdemulticolinealidad.

3.10ResumendecdigoenR
#Leerlosdatosdeunfichero.csv
df<read.table("files/40Afile.csv",sep=";",head=TRUE)

###Primeraaproximacinalosdatos
str(df)
summary(df)

#CorrelacinGrficodedispersinmultivariante
pairs(df,panel=panel.smooth)

#Matrizdecorrelacin
cor(df,use="everything",method="pearson")
corr.test(df,use="complete",method="pearson")

##Correlacinparcial(sifueranecesario)
library("ppcor")
pcor.test(df$var1,df$var2,df$var3)

#Modeloderegresinmltiple

##Creamoselmodeloderegresin
modelo<lm(var1~var2+var3+...,data=df)
summary(modelo)#analizamoselmodeloinicial

##Comparacindemodelos(encajados)
anova(model3,model1)
anova(model3,model2)

##SeleccindelmodelomediantelosmtodospasoapasoMtodohaciaatrs
step(modelo,direction="backward")

###Mtododedossentidos
step(modelo,direction="both")

###Mtodohaciadelante
mdlCir0<lm(var1~1,data=df)
step(mdlCir0,direction="forward",~var1+var2+var3+var4)
modelo<lm(var1~var2+var3,data=df)

#Anlisisdelmodelofinal
summary(modelo)
anova(modelo)

##Diagnsitcodelmodelo

#Grficamente
plot(modelo,which=1)
plot(modelo,which=2)
plot(modelo,which=3)
plot(modelo,which=5)

##ContrastesObtenemoslosresiduosdelmodeloyvaloresajustados
df$fitted.modelo<fitted(modelo)
df$residuals.modelo<residuals(modelo)
df$rstudent.modelo<rstudent(modelo)

###Normalidad
ks.test(df$rstudent.modelo,"pnorm")
hist(df$rstudent.modelo,xlab="residuos",main="histogramaresiduos")

###Homogeneidaddevarianzas
library(lmtest)
bptest(modelo,studentize=FALSE,data=df)

###Autocorrelacin
dwtest(modelo,alternative="two.sided",data=df)

###Valoresatpicos
library(car)
outlierTest(modelo)

###AnlisisdelainfluenciaTablaconlasmedidasdeinfluencia
infl<influence.measures(modelo)
summary(infl)

####Grficomedidasinfluyentes
influencePlot(modelo,id.n=2)

####GrficodelasdistanciasdeCook
cook<cooks.distance(modelo)
labels<rownames(df)
library(faraway)
halfnorm(cook,3,labs=labels,ylab="DistanciadeCook")

##validacincruzada
library(DAAG)
cv.lm(df,modelo,m=2)

#Prediccin.Valoresconcretosdecadavble
predict(modelo,data.frame(var1=39,var=62,var3=18),interval="prediction",
data=df)


#Poniendounintervaloparaunadelasvbles.
x0<seq(min(df$var2),max(df$var2),length=length(df$var2))
pred<predict(modelo,data.frame(var2=x0),interval="prediction",data=df)
head(pred)


#Multicolinealidad
library(car)
vif(modelo)
sqrt(vif(modelo))>2

3.11Predictorescategricos.Variablesdummy
Unodelossupuestosdelaregresinlinealesquelasvariablesdelmodelodebensercontinuasocategricasconsolodos
categoras.Enelcasodevariablesconmsdedoscategorasusaremosloqueseconocecomovariablesdummy,variables
ficticias,simuladas.
Estacodificacinesunamaneraderepresentarvariosgruposdepersonasperousandoslounosyceros.Elprocesoconsiste
crearvariasvariablessiguiendoestospasos:

1.Contarelnmerodegruposquequeremosrecodificaryrestarle1.
2.Creartantasnuevasvariablescomoelvalorobtenidoen1.Estassernlasvariablesdummy.
3.Elegirunodelosgruposcomoelgrupodereferencia,esdecir,elgrupocontraelquesevanacomparartodoslosdems
grupos.Normalmentesetomaelgrupocontroloaquelquerepresentaalamayoradelapoblacin.
4.Elegidoelgruporeferenciafijamoselvalor0aesegrupoentodaslasvariablesdummy.
5.Paralaprimeravariabledummyasignamoselvalor1alprimergrupoquequeramoscompararcontraelgruporeferencia.Al
restodegruposledamoselvalor0.
6.Enlasegundavariabledummydamoselvalor1alsegundogrupoquequeramoscotejary0alrestodegrupos.
7.Repetimoselprocesohastaacabarcontodaslasvariablesdummy.

Veamoscmohacerunacodificacindummyen R .Paraelloutilizamoselconjuntodedatos 40Afestival.csv ,archivoque


contienelosnivelesdehigienedelosasistentesaunfamosofestivalmurcianoyunavariablequemideelcambioenlahigiene
durantesustresdasdeduracin.

Losindividuosestnclasificadosencuatrogrupossegnsusestilosmusicales,estossonindie,metal,popysinestilopredominante.
Queremosestudiarloscambiosdehigieneparacadaunodeellosalolargodelfestival.

dffest<read.table("files/40Afestival.csv",sep=";",head=TRUE)
head(dffest)

##ticknumbermusicadia1dia2dia3cambio
##12111metal2.651.351.611.04
##22229pop0.971.410.290.68
##32338sinestilo0.84NANANA
##42384pop3.03NANANA
##52401sinestilo0.880.08NANA
##62405pop0.85NANANA

Observamosquealcontenertexto, R haconvertidolavariable musica enunfactorde4nivelesordenadosde1a4.

str(dffest)

##'data.frame':810obs.of6variables:
##$ticknumber:int2111222923382384240124052467247824902504...
##$musica:Factorw/4levels"indie","metal",..:2343431134...
##$dia1:num2.650.970.843.030.880.851.563.022.291.11...
##$dia2:num1.351.41NANA0.08NANANANA0.44...
##$dia3:num1.610.29NANANANANANANA0.55...
##$cambio:num1.040.68NANANANANANANA0.56...

levels(dffest$musica)

##[1]"indie""metal""pop""sinestilo"

Empezamosconungrficoparahacernosunaideadecmoafectalaspreferenciasmusicalesdelosasistentesasuscambiosenla
higieneduranteeldesarrollodelfestival.

plot(cambio~musica,data=dffest)
Creamoslasvariablesdummy.Lopodemoshacerautomticamentemedianteelcomando
contr.treatment(numerodegrupos,base=nmerodelgruporeferencia) ,dondeennuestrocasotenemoscuatrogruposyelgrupo
dereferenciaeselltimo,sinestilo.

contrasts(dffest$musica)<contr.treatment(4,base=4)

##attr(,'contrasts')123indie100metal010pop001sinestilo00
##0Levels:indiemetalpopsinestilo

Espreferiblehaceresteprocesodeformamanualyaquetenemoscontrolsobrelacodificacinypodemosponernombres
significativosalasvariables.Tomamoslacategorasinestilocomogruporeferencia

Indie_dum<c(1,0,0,0)
Metal_dum<c(0,1,0,0)
Pop_dum<c(0,0,1,0)
contrasts(dffest$musica)<cbind(Indie_dum,Metal_dum,Pop_dum)

Siinspeccionamoslavariable dffest$musica vemosqueseobtieneelmismoresultado

##attr(,'contrasts')indie_dummetal_dumpop_dumindie100metal010pop
##001sinestilo000Levels:indiemetalpopsinestilo

Unavezcreadaslasvariablesdummyseejecutaelmodeloderegresindelamismamaneraqueparacualquierotrotipode
regresin

modelFesti<lm(cambio~musica,data=dffest)
summary(modelFesti)
##
##Call:
##lm(formula=cambio~musica,data=dffest)
##
##Residuals:
##Min1QMedian3QMax
##1.825690.504890.055930.424301.59431
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)0.554310.090366.1341.15e08***
##musicaIndie_dum0.409980.204922.0010.0477*
##musicaMetal_dum0.028380.160330.1770.8598
##musicaPop_dum0.411520.167032.4640.0152*
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Residualstandarderror:0.6882on119degreesoffreedom
##(687observationsdeletedduetomissingness)
##MultipleRsquared:0.07617,AdjustedRsquared:0.05288
##Fstatistic:3.27on3and119DF,pvalue:0.02369

ElcoeficienteR2 nosdicequeconlasvariablesdummypodemosexplicarel7.6%delavariabilidadenelcambiodehigienedel
individuosegnseasuafiliacinmusical,yelestadsticoFqueestavarianzaessignificativa.Pasamosaexaminarloscoeficientes
delmodelo.

Recordemosquelosvaloresbetamuestranelcambioenlavariablerespuestaprovocadoporelcambiodeunaunidadenel
predictor.Enestecasoelcambiodelpredictoresde0a1ycomoelgruporeferenciaessiemprecero,losvaloresbetarealmente
nosproporcionanladiferenciarelativaentrecadagrupoyelgrupoelegidocomoreferencia.As,elvalordelavariable Indide_dum
indicaladiferenciaenelcambiodehigienedeunapersonasinafiliacinmusicalcomparadaconunapersonaalaquelegustala
msicaindie.

Elestadsticotcontrastasiestasdiferenciassoncero.Siessignificantequieredecirqueelgrupocodificadocon1es
significativamentediferentedelgrupodereferencia.Paraestaprimeravariableelttestessignificativoyelvalorbetanegativoporlo
quepodemosdecirquelahigieneempeoradeunapersonasinafiliacinmusicalaunaindie.

Paralasegundavariable, metal_dum ,obtenemosunvalorpositivoparabeta,sinembargonoessignificativoporloquepodramos


decirqueelcambioenlahigienealolargodelostresdasdelfestivaleselmismoparaunapersonasinafiliacinmusicalquepara
unaquelegustaelmetal.

Referenciasybibliografa
AliS.Hadi,S.C.&.(2006).LinearModelswithR(4thedition.).JohnWiley&Sons.Retrievedfrom
http://samples.sainsburysebooks.co.uk/9780470055458_sample_381725.pdf
(http://samples.sainsburysebooks.co.uk/9780470055458_sample_381725.pdf)

Ferrari,D.,&Head,T.(2010).RegressioninR.PartI:SimpleLinearRegression.UCLADepartmentofStatisticsStatistical
ConsultingCenter.RetrievedOctober13,2014,fromhttp://scc.stat.ucla.edu/page_attachments/0000/0139/reg_1.pdf
(http://scc.stat.ucla.edu/page_attachments/0000/0139/reg_1.pdf)

Field,A.,Miles,J.,&Field,Z.(2012).DiscoveringStatisticsUsingR(1stedition.).SagePublicationsLtd.

J.Faraway,J.(2009).LinearModelswithR(1stedition.).Taylor&FranciseLibrary.Retrievedfrom
http://home.ufam.edu.br/jcardoso/PPGMAT537/Linear%20Models%20with%20R.pdf
(http://home.ufam.edu.br/jcardoso/PPGMAT537/Linear%20Models%20with%20R.pdf)

Kabacoff,R.(2014).Creatingafigurearrangementwithfinecontrol.RetrievedOctober13,2014,from
http://www.statmethods.net/advgraphs/layout.html(http://www.statmethods.net/advgraphs/layout.html)

Prez,J.L.(2014).LAESTADSTICA:UNAORQUESTAHECHAINSTRUMENTO.RetrievedOctober13,2014,from
http://estadisticaorquestainstrumento.wordpress.com/(http://estadisticaorquestainstrumento.wordpress.com/)
Snchez,J.G.P.(2011).Regresinlinealsimple.UniversidadPolitcnicadeMadrid.RetrievedOctober13,2014,from
http://ocw.upm.es/estadisticaeinvestigacionoperativa/introduccionalaestadisticabasicaeldisenodeexperimentosyla
regresionlineal/contenidos/Materialdeclase/Regresion.pdf(http://ocw.upm.es/estadisticaeinvestigacionoperativa/introducciona
laestadisticabasicaeldisenodeexperimentosylaregresionlineal/contenidos/Materialdeclase/Regresion.pdf)

(SCG),S.S.C.G.(2013).MultipleLinearRegression(R).SanDiegoStateUniversity.RetrievedOctober13,2014,from
http://scg.sdsu.edu/mlrr/(http://scg.sdsu.edu/mlrr/)

SPSS.(2007).Anlisisderegresinlineal:ElprocedimientoRegresinlineal.IBMSPSSStatistics.RetrievedOctober13,2014,from
http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales/analisis_datosyMultivariable/18reglin_SPSS.pdf
(http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales/analisis_datosyMultivariable/18reglin_SPSS.pdf)

Você também pode gostar