ANALISIS DECorrelacionRegresion

FEIR40:ModelosdeRegresin
MaraElviraFerreJan
Curso201415
1Introduccin
1.1Aproximacinnoformalalmodeloderegresinlineal
1.2Correlacinlineal
1.2.1Correlacinlinealsimple
1.2.2LacorrelacinsimpleenR
1.2.3Correlacinparcial
1.2.4Otrasconsideraciones
1.2.5Ejemplodelostractores
2Regresinlinealsimple
2.1Introduccin
2.2Estructuradelmodeloderegresinsimple
2.3Supuestosdelmodelo
2.3.1Estimacindelarectaderegresin.Mtododemnimoscuadrados
2.4Ejemplo.Ajustedelmodeloyprocesoinferencial
2.4.1AjustedelmodeloenR
2.5Bondaddeajuste
2.5.1Coeficientededeterminacin,R2
2.5.2TestF
2.5.3TablaANOVA
2.6Anlisisdelosparmetrosdelmodelo
2.7Diagnsticodelmodelo
2.7.1Testdenormalidad(testdeKolmogorovSmirnov)
2.7.2Homogeneidaddevarianzas
2.7.3Autocorrelacin(testdeDurbinWatson)
2.7.4Valoresatpicos
2.8Prediccin
2.8.1Prediccindenuevasobservaciones
2.8.2Intervalosdeconfianzaparalospredictores
2.9ResumendecdigoenR
3Regresinlinealmltiple
3.1Introduccin
3.2Ejemplodeunmodeloderegresinlinealmltiple
3.2.1Anlisisdecorrelacin
3.2.2Ajustedelmodelo
3.3Comparacindemodelos
3.4Seleccindelmejormodelo
3.4.1CriteriodeinformacindeAkaike(AIC)
3.4.2Metodospasoapaso
3.5.1Normalidad
3.5.3Autocorrelacin
3.5.4Casosatpicosyresiduos
3.6Anlisisdelainfluencia.
3.7Validacincruzada
3.8Prediccin
3.9Diagnsticosdecolinealidad(multicolinealidad)
3.11Predictorescategricos.Variablesdummy
1Introduccin
ComoreferenciabibliogrficabsicaparaeldesarrollodeestecaptulohemosutilizadoellibroA.Field,Miles,&Field(2012),
aunquetambinnoshemosservidodenumerososdocumentosqueiremosreferenciandoalolargodeltexto.
1.1Aproximacinnoformalalmodeloderegresin
lineal
Elanlisisderegresinlinealesunatcnicaestadsticautilizadaparaestudiarlarelacinentrevariables.Amenudoresultade
intersconocerelefectoqueunaovariasvariablespuedencausarsobreotra,einclusopredecirenmayoromenorgradovalores
deunavariableapartirdeotra.Porejemplo,supongamosquequeremosestudiarsilaalturadelospadresinfluyesignificativamente
enladeloshijos.
Laregresineselconjuntodetcnicasusadasparaexplorarycuantificarlarelacindedependenciaentreunavariablecuantitativa
llamadavariabledependienteorespuestayunaomsvariablesindependientesllamadasvariablespredictoras.
Elprimerpasoparadeterminarsipuedeexistironodependencia/relacinentrevariablesesrepresentandogrficamentelospares
devaloresobservadosmedianteunanubedepuntos,loqueseconocecomodiagramadedispersin(SPSS,2007).
Unavezrepresentadoslosdatosytrasdetectarqueentredosomsvariablesexisteunarelacinelsiguientepasoseraintentar
modelizardicharelacin.
Lamodelizacinestadsticamssencillaparaexpresarlavariabledependienteatravsdesusvariablespredictorasesmediante
unaecuacinlinealdelaformaY = 0 + 1 X1 + + n Xk .
ElcasomssimpleparaunanicavariableseraunarectaY = mx + n yrecibirelnombrederegresinlinealsimple.Cuando
k > 1lallamaremosregresinmltiple.
As,elprocesoconsistiraenajustarlarectaanuestroconjuntodedatosycrearunaexpresinmatemticaquepermitapredecir,de
formaaproximada,elvalordelavariabledependienteenunindividuocuandoseconoceelvalordeunavariablepredictora
(regresinsimple)ovariasvariablespredictoras(regresinmltiple)enesemismoindividuo.Alaecuacinquerepresentaesta
relacinselellamamodeloderegresin(Prez,2014).
Podemosconsiderarvariasformasdeestimarlosparmetrosdelaecuacindelmodeloderegresin.Sinembargo,nos
centraremosenelmtododemnimoscuadradosporsereldemsampliaaceptacin,aunqueexistantambinotrosmtodos
comoeldemximaverosimilitud.
Unavezcreadoelmodeloderegresin,loprimeroquedebemosanalizaressuutilidadexplicandolosdatosquequeremos
relacionar.Asporejemplo,larectadelsiguientegrficodescribe,aproximadamente,larelacinlinealentrelasvariables.(Snchez,
2011)
Encambio,losdatosdelgrficosiguientenosepuedeexplicarmedianteunalaecuacinlineal.
Aunquesirveparahacernosunaidea,noessuficienteconvergrficamentequesetratadeunmodelotil,sinoquedebemos
comprobarqueelmodeloderegresincumpleunosciertossupuestosmatemticos,quenoshablandelabondady
calidaddelmodeloparanuestrosfines.
Quelarectaseajustealosdatosnosignificaqueelmodeloseacorrecto,dependedelusoquequeramosdarle.Sislo
pretendemoshallarlarelacinentredosvariables,concalcularlarectademnimoscuadradosessuficiente,esarectadescribela
relacinentrelasvariables,otracosaesquelosdatostengaunabuenarelacinlineal.Podraserquelosdatostuvieranmuymala
relacinlinealylarectaseguiraexistiendo.Encambiosipretendemosdescribirlaestructurageneraldelosdatos,oinferir/predecir
conlarectaderegresindebemoscomprobarqueseverificanunasreglasyaestablecidasyaceptadasqueaseguranquenuestro
modeloesbueno.
Contalfinexistenunaseriedeprocedimientosdediagnosticoquenosinformaransobrelaestabilidadeidoneidaddelmodelode
regresin.Lossupuestosquetendremosquecomprobarson
Enelmodeloderegresin:linealidad
Enlosresiduos:
normalidad
varianzaconstante
valoresatpicos
Porotrolado,paracadaconjuntodedatosexistenvariasrectasconlasquepodramosresumirlatendenciageneraldelosmismos.
Necesitamosencontrarlarectadelmejorajuste,aquellaquedalugaralamenordiferenciaentrelosdatosoriginalesylos
estimadosporlarecta.
Parabuscarestarectautilizaremoselcriteriodemnimoscuadrados,mtodoconelquecalculamoslarectaqueminimizala
sumadelosresiduos,estoes,lasdistanciasverticalesentrecadapuntoylarecta.
Elobjetivoquehaytrasestemtodoesquelosresiduosseanpequeos,loquematemticamentesetraduceenquetenganmedia
ceroyenquebailenlomenosposible,esdecir,enuna 2 pequea.Deaquesdedondesurgentodoslossupuestosquesele
exigenalmodeloderegresinlineal.
Unodelosresultadosqueobtenemosalaplicarelmtododelosmnimoscuadradosesqueelcoeficientem,quecuantificala
relacinentrelax ylayennuestraecuacin,esenrealidadelcoeficientedecorrelacindePearson.Porello,antescrearel
modeloderegresintenemosqueanalizarsiestecoeficienteessignificativamentedistintodeceroyencasodeserloplantearemos
elmodeloderegresinlineal.
1.2Correlacinlineal
Unanlisisdecorrelacinnospermitecuantificarelgradodeasociacinlinealentrevariablescontinuas,indicalafuerzaydireccin
delarelacinlinealentredosomsvariables.Cuandoexistadicharelacinsepodrprocederalaobtencindelmodelode
regresin(simpleomltiple)queveremosposteriormente(Prez,2014).
Existendiferentestiposdecorrelacin,lacorrelacinsimple,lacorrelacinmltipleylacorrelacinparcial.Utilizaremosla
correlacinsimplecuandocontemosconunasolavariablepredictoraparaexplicarunarespuesta,yloscoeficientesdecorrelacin
parcialymltiplecuandotengamosvariospredictores.
1.2.1Correlacinlinealsimple
Utilizamoslacorrelacinlinealsimpleparaestudiarelgradodevariacinconjuntaentredosomsvariables.Queremosdetectarsi
lavariacindeunadelasvariablestieneconexinconlavariacindelaotra,esperamosquesiunavariablededesvadelamedia,
laotravariablesedesvedelamediademanerasimilar.
Unarelacinlinealpositivaentredosvariablesindicaquelosvaloresdelasdosvariablesvarandeformaparecida:lossujetosque
puntanaltoenunavariabletiendenapuntuaraltoenlaotraylosquepuntanbajoenlaprimeratiendenapuntuarbajoenla
segunda,existeunarelacindirectaentreambasvariables.
Unarelacinlinealnegativasignificaquelosvaloresdelasdosvariablestienenunarelacininversa:valorespequeosdeuna
variablevanasociadosahoraavaloresgrandesdelaotray,equivalentemente,valoresgrandesdeunaseasocianavalores
pequeosdelaotra.
Laformamsdirectaeintuitivadeformarnosunaprimeraimpresinsobreeltipoderelacinexistenteentredosvariablesesa
travsdeundiagramadedispersin.Setratadeungrficoenelqueunadelasvariables,X,secolocaenelejedeabscisas,la
otra,Y ,eneldeordenadasylospares(x i , yi )serepresentancomounanubedepuntos.Laformadelanubedepuntosnos
informasobreeltipoderelacinexistenteentrelasvariables.
Unareglafundamentalesquecuantamayorcorrelacinhayaentredosvariablesenlarepresentacinbidimensional,msprximos
alarectaestarnlosvalores.
Veamosunejemplo:enelsiguientegrficomostramoscuatrodiagramasdedispersinquereflejancuatrotiposderelacin
diferentes(Ferrari&Head,2010).
Paratodosestosconjuntosdedatoslarectaderegresineslamisma
^ = 3 + 0.5 x
y
conloscoeficientessignificativosconunniveldesignificacin< 0.01 ,yademstodostienenlamismaR2 = 0.67 y

^ = 1.24 .
Sinembargo,solamentepodemosescribirmedianteunmodelolineallosdatosdelgrfico(a).Elgrfico(b)muestraunconjuntode
datosesclaramentenolinealyseramejorajustarlomedianteunafuncincuadrtica.
Elgrfico(c)muestraunconjuntodedatosquetieneunpuntoquedistorsionaloscoeficientesdelarectaajustada.Porltimo,el
grficomuestraunconjuntodedatostotalmenteinapropiadoparaunajustelineal,larectaajustadaestdeterminadaesencialmente
porlaobservacinextrema(AliS.Hadi,2006).
Trashaberrealizadounarepresentacindelosdatos,unabuenamaneradecuantificarlarelacinaentredosvariableses
mediantelacovarianza
n

(x i x ) (yi y )
i=1
r = C ov(X, Y ) = ,
N 1
dondeN eselnmerodeobservaciones.
Sinembargo,lacovarianzanoesunamedidatilparacompararrectasderegresindevariablesdistintas,ocompararelgradode
asociacinlinealentredistintosparesdevariables,yaquedependedelasescalasdemedidadelasvariables.Lasolucinesten
estandarizarlayesdeaqudedondesurgenllamadoscoeficientesdecorrelacin.
1.2.1.1Coeficientesdecorrelacin
ElmsimportantedeloscoeficientesdecorrelacineselCoeficientedePearson,queexplicaremosenmayorprofundidad,pero
tambinestnlaRhodeSpearmanylaTaudeKendall.Veamossuspropiedadesgenerales:
Todosloscoeficientesvaranentre1y1.
Sielcoeficientedecorrelacines1existecorrelacinnegativa,esdecir,amedidaqueunavariableaumenta,laotradisminuye.
Cuandoelcoeficientees1haycorrelacinpositiva,cuandoaumentaunavariable,tambinaumentalaotra.
Unvalorcercanooigualaceroindicapocaonularelacinlinealentrelasvariables.
Seutilizancomounamedidadelafuerzadeasociacin:valores0.1 representanpequeasasociacin,0.3 asociacin

mediana,0.5 asociacinmoderada,0.7 granasociaciny0.9 asociacinmuyalta.
Lasprincipalesdiferenciasentreloscoeficientesson:
LacorrelacindePearsonfuncionabienconvariablescuantitativasyquesiganbienladistribucinnormal.
LacorrelacindeSpearmanseutilizaparadatosordinalesodeintervaloquenosatisfacenlacondicindenormalidad.
(usualmentetienevaloresmuyparecidosaladePearson).
LacorrelacindeKendallesunamedidanoparamtricaparaelestudiodelacorrelacin.Debemosutilizarestecoeficienteen
vezdeladeSpearmancuandotengamosunconjuntodedatospequeoymuchaspuntuacionesestnenelmismonivel.
1.2.1.2CoeficientedePearson
ElcoeficientedecorrelacinlinealdePearson(r)vienedefinidocomo
n

C ov(X, Y )S d(Y ) (x i x ) (yi y )
i=1
r = =

S d(X) n 2 n 2

(x i x )
(yi y )
i=1 i=1
ysetratadelacorrelacinentrelasvariablesXeY estandarizada.
ParaqueelcoeficientesdecorrelacindePearsonseaunamedidaprecisadelarelacinlinealentredosvariablesexigequelas
variablesseancuantitativasyquelasdosvariablessedistribuyannormalmente,aunquepodemoshacerunaexcepcinsislouna
delasvariablesesnormalylaotraescategricacondoscategoras.Silosdatosnosonnormalesocuantitativosentoncessedebe
usarotrotipodecoeficientescomoeldeSpearmanoeldeKendall.
Lasprincipalescaractersticasdeestecoeficienteson:
1.Medidadeasociacinlineallibredeescala
2.Valorescomprendidosentre1y1
3.Invarianteatransformacioneslinealesdelasvariables.
Suinterpretacineslasiguiente:
Sir=0(asociacinlinealnula)noexisterelacinentrelasvariables.
Sir=1o1(asociacinlinealperfecta).
Cuandor>0(correlacinpositiva)existeunarelacindirectaentrelasvariables
Cuandor<0(correlacinnegativa)existeunarelacininversaentrelasvariables.
Elcoeficientehayqueinterpretarloenmagnitud,esdecir,tomarsuvalorabsoluto.Estosignificaquecuantomscercaestemosde
losextremos(1)msrelacinexisteentrelasvariables.Poreso,unacorrelacinconvalorr = 0.9esmsfuertequeunacon
r = 0.7 ,pues0.9esmsgrandeque0.7aunqueseanegativa.
Porltimoquedaverquelacorrelacinentrelasvariablesessignificativa,esunvalorfiablequenocambiaramuchoenotra
muestratomadaenlasmismascondiciones.
Unacorrelacinsersignificativasisupvaloresinferiora0.05,delocontrariosupondremosquer = 0 .
Segnestopodemosdecirqueunar = 0.8 conunpvalorde0.26esenrealidadunacorrelacinmsbajaqueunar = 0.4 con

p = 0.001 ,yaquealnosersignificativalar = 0.8 noesunamedidafiable,puedeserunefectodelazardelmuestreo.Dela
mismaformaqueenestamuestrahemoscalculadounar = 0.8 enotramuestratomadaenlasmismascondicionespodramos

obtenerr = 0.8.Debidoaello,yanteladuda,esmejorafirmarquenohayrelacin,queresiguala0.Paraelcasodela
correlacinr = 0.4 ,aunquenosetratadeunagrancorrelacin,squeesfiable(Prez,2014).
1.2.1.3CoeficientedeSpearman
ElcoeficientedecorrelacindeSpearmaneselmismoqueelcoeficientedePearsonperotrastransformarlaspuntuaciones
originalesarangos.
ElcoeficientedeSpermanpuedeutilizarsecomounaalternativaaPearsoncuandolasvariablessonordinalesy/onoseincumpleel
supuestodenormalidad.
2
6d
rs = 1 ,
2
n(n 1)
donded esladistanciaentrelosrangos(XmenosY )yneselnmerodedatos.
1.2.1.4TaudeKendall
Esuncoeficientedecorrelacinnoparamtricoquesebasaenelconceptodeinversin,noinversinyempate.Secalculaapartir
delosdesrdenesentrelosrangos,sufrmulaeslasiguiente
C D
= ,
1
n(n 1)
2
dondeC eselnmerodeparesconcordantes,aquellosenlosqueelrangodelasegundavariableesmayorqueelrangodela
primeravariable,yDelnmerodeparesdiscordantes,cuandoelrangodelasegundaesigualomenorqueelrangodelavariable
primera.
Podemosutilizarlo,aligualqueenelcasodeSpearman,cuandolasvariablesnoalcanzanelniveldemedidadeintervaloyno
podemossuponerqueladistribucinpoblacionalconjuntadelasvariablesseanormal.
1.2.2LacorrelacinsimpleenR
Paraelclculodelcoeficientedecorrelacinvamosautilizarlafuncin cor() ,quetienelaformageneral
cor(x,yuse="string",method="tipodecorrelacin") ,donde:
x :variablenumricaoundataframe.
y :otravariablenumrica(si x esundataframenohayqueespecificarla).
use :especificaeltratamientoparalosdatosperdidos.
use=all.obs :seasumequenoexistenvaloresperdidos,siexistieraalgunoproduciraunerror
use=everything :cualquiercorrelacinqueenvuelvaunavariableconvaloresperdidossetratarcomomissing
use=complete.obs :sloseejecutanloscasosqueestncompletosparatodaslasvariables
use=pairwise.complete.obs :correlacinentreparesdevariablesqueseejecutaparaloscasosqueestncompletospara
estasdosvariables.
method :especificaeltipodecorrelacin.Podemoselegirentre "pearson" (pordefecto), "kendall" ,o "spearman" ).
Ejemplo:CalculamoslacorrelacinentrelasvariablesHorsepoweryWeightdelarchivoCars93
library(MASS)
data(Cars93)
df<data.frame(Cars93)
cor(df$Horsepower,df$Weight,method="pearson")
##[1]0.7387975
1.2.2.1Correlacinsignificativa
Noresultasuficientelaestimacinpuntualdelcoeficientedecorrelacin.Paraasegurarlaexistenciaderelacinentrelasvariables
dependienteypredictoradebemosrealizaruntestparaestudiarlasignificacinestadstica.
Enfrentaremoslahiptesisnula(H0 : r = 0,norelacin)frentealahiptesisalternativa(H1 : r 0 existerelacin)mediantela

funcin cor.test() quetomalasiguienteforma:
cor.test(x,y,alternative="",method="") donde
x e y sonlasvariablesaestudiar
alternative sertwo.side,less"ogreater
method especificaremoseltipodecorrelacin(pearson,spearmanokendall).
cor.test(df$Horsepower,df$Weight,method="pearson")
##
##Pearson'sproductmomentcorrelation
##
##data:df$Horsepoweranddf$Weight
##t=10.4576,df=91,pvalue<2.2e16
##alternativehypothesis:truecorrelationisnotequalto0
##95percentconfidenceinterval:
##0.62988670.8192147
##sampleestimates:
##cor
##0.7387975
PordefectoseleccionaelmtododePearson.Fijndonosenelpvalorpodemosasegurarlaexistenciadecorrelacinentrelas
variables.Ademsestetestestimaelvalordelacorrelacinynosdaunintervalodeconfianzaparadichovalor.
Enelcasodequerercalcularelcoeficientedecorrelacinsimpleentrevariasvariablesdeunarchivonotenemosporquehacerlo
dosados,podemoscrearunamatrizdecorrelaciones:
newdf<data.frame(df$Price,df$Weight,df$RPM,df$Horsepower)
cor(newdf,use="everything",method="pearson")
##df.Pricedf.Weightdf.RPMdf.Horsepower
##df.Price1.0000000000.64717900.0049549310.78821758
##df.Weight0.6471790051.00000000.4279314730.73879752
##df.RPM0.0049549310.42793151.0000000000.03668821
##df.Horsepower0.7882175780.73879750.0366882121.00000000
Ademsdelascorrelacionesqueremostambinlospvaloresperolafuncin cor.test nofuncionaconmatricesasqueutilizamos

unanuevafuncin:
library("psych")
corr.test(newdf,use="complete",method="pearson")
##Call:corr.test(x=newdf,use="complete",method="pearson")
##Correlationmatrix
##df.Price1.000.650.000.79
##df.Weight0.651.000.430.74
##df.RPM0.000.431.000.04
##df.Horsepower0.790.740.041.00
##SampleSize
##[1]93
##Probabilityvalues(Entriesabovethediagonalareadjustedformultipletests.)
##df.Price0.0001.000
##df.Weight0.0000.000
##df.RPM0.9600.001
##df.Horsepower0.0000.730
##
##Toseeconfidenceintervalsofthecorrelations,printwiththeshort=FALSEoption
Analizandolasalidavemosqueseobtienenlasmismascorrelacionesqueconlafuncin cor() ,aunqueaproximadas,yquelosp

valoresmuybajos(p < 0.05)hansidoaproximadosa0,asquetodaslascorrelacionessonsignificativas.
Observacin:ElprocedimientoparahacerunacorrelacindeSpearmanoKendalleselmismoqueparaunacorrelacinde
Pearsonexceptoquetenemosqueespecificarquequeremosotracorrelacin,queserealizamedianteel method="spearman" o
method="kendall" para cor() , cor.test() y corr.test() .
1.2.3Correlacinparcial
Lacorrelacinparcialesunacorrelacinentredosvariablesenlaqueelefectodeotrasvariablesauxiliaressemantienecontante,
sebuscalarelacinentredosvariablesmientrassecontrolaelefectodeunaomsvariablesadicionales.
Estamedidasurgeyaqueenocasioneslasvariablescontinuasconlasquepretendemospredecirunarespuestanosontotalmente
independientesentresloprovocaquelasvariablescompartanysolapeninformacinalahoradeexplicarlarespuesta.
Porejemplo,siqueremosestudiarlarelacinentrelasvariablesinteligencia"yrendimientoescolartendremosqueteneren
cuentatercerasvariablescomoelnmerodehorasdeestudio,elniveleducativodelospadres.
Lacorrelacinparcialsetrata,portanto,deuncoeficientedecorrelacinquenosdaunaideasobrelarelacinlinealexistenteentre
dosvariablesperoajustadaalosefectoslinealesquesobrelasmismaspuedantenerotraomsvariablesqueintervengan.
Utilizaremoslafuncin pcor() incluidaenelpaquete ppcor .Suformagenerales:
pcor(var1,var2,control1,control2,...,method="")
var1 y var2 sonlasvariablesasercorreladas.
control1 , control2 ylassiguientesposiblessonlasvariablesconlasquecontrolamoslacorrelacin.
method=c("pearson","kendall","spearman") ,quepordefectoemplear spearman .

Vamosacalcularlacorrelacinparcialentre Price y Weight controlandoelefectodelavariable Length .
library("ppcor")
pcor.test(df$Price,df$Weight,df$Length)
##estimatep.valuestatisticngpMethod
##10.47181033.843693e075.07654931pearson
tenemosque
estimate eselcoeficientedecorrelacinparcialentrelasdosvariables.
p.value eselpvalordeltest.
statistic eselvalordelestadsticodeltest.
n eselnmerodemuestras.
gn eselnmerodevariables.
method eselmtododecorrelacinempleado(spearman,pearsonokendall).
Sicalculamoslacorrelacinsimpleentrelasvariables Price y Weight :
cor(df$Price,df$Weight)
##[1]0.647179
observamosquetieneunvalordiferentealacorrelacinparcialcontroladapor df$Length .Portanto,lasvariables Price y Weight

estninfluenciadaspor Length yaquealcontrolarsuefectolacorrelacinsereducede0.647a0.47.
1.2.4Otrasconsideraciones
1.2.4.1Causalidad
Debemostenerprecaucinalahoradeinterpretarloscoeficientesdecorrelacinyaqueestosnonosindicanladireccinde
causalidaddelasvariables,nonosdicennadasobrequvariablecausaquelaotravarie.
Aunqueesintuitivopensarqueveranunciosnosprovoquecomprarmspaquetesdegalletas,nohayraznestadsticaporlaque
comprarpaquetesdegalletasnonospuedaprovocarvermsanuncios.Peseaquelaltimaconclusintienemenossentido,el
coeficientedecorrelacinnonosdicequenopuedesercierta,paraunmatemticoladireccinnoimporta.
Porotroladoexisteelproblemadelaterceravariable.Estenosdicequenopodemosasumircausalidadentredosvariablesporque
podrahaberotrasvariablesafectandoalosresultados.
1.2.4.2Tamaodelefecto
C ov(X,Y )Sd(Y )
Recordemosque(Y^i ^
Y ) = 1 (Xi X) yque^1 = r = asque
Sd(X)
n n
^ 2 ^
(Y i Y ) 2 (Xi X)
i=1 i=1
2 ^ 2 2
R = = 1 = C or(Y , X) = r .
n n
2 2
(Y i Y) (Y i Y)
i=1 i=1
Entonces,aunquenopodemoshacerconclusionesdirectassobrelacausalidaddeunacorrelacin,paradosvariablesspodemos
elevarelcoeficientedecorrelacinalcuadradoyutilizarlocomounamedidadelacantidaddevariabilidadqueunavariable
comparteconlaotra.Esloqueseconocecomocoeficientededeterminacin,R2 ,yesunamedidatremendamentetildela
importanciadeunefecto.
2
Paracalcularestecoeficiente,R2 ,podemoselevaralcuadradotantoelcoeficientedePearson,r ,comoelcoeficientedeSpearman
r s ,yaqueesteusalamismaecuacinquePearson.LonicoquedebemostenerencuentaesqueelresultanteR hayque
2
interpretarlocomolaproporcindevarianzaenlascategorasquelasdosvariablescomparten.
ElcoeficientedeKendall,sinembargo,noesnumricamentesimilarar or s porloque 2 nonosdicenadasobrelaproporcinde

varianzacompartidaporlasdosvariables.
Calculamoselcoeficientededeterminacinparaelconjuntodedatos newdf anterior:
cor(newdf,use="everything")^2
##df.Price1.000000e+000.41884072.455135e050.621286950
##df.Weight4.188407e011.00000001.831253e010.545821769
##df.RPM2.455135e050.18312531.000000e+000.001346025
##df.Horsepower6.212870e010.54582181.346025e031.000000000
Seobservaqueeltamaodelefectode EngineSize sobre Weight esmuyelevado,ascomopara Lenght y Weight ,siendosin

embargomuybajoelefectode Lenght sobre Price .Siqueremosexpresarestosvaloresenporcentajesbastamultiplicarpor100.
1.2.4.3Comunicarloscoeficientesdecorrelacin
Slohayquedecircmodegrandeesyquvalordesignificacintiene.Laformadereportarloscoeficientessera
Existeunarelacinsignificativaentre var1 y var2 ,r ,

= 0.78 p < 0.05 .
Var1 estsignificativamentecorrelacionadacon var2 ,r s = 0.57 ,ycon var3 ,r s = 0.50 la var2 esttambin

correlacionadacon var3 ,r s = 0.83 (todasp < 0.01 ).
Var2 estsignificativamenterelacionadacon var1 , ,

= 0.45 p < 0.01 .
1.2.5Ejemplodelostractores
Supongamosqueunaempresadetractoresquepretendesaberquleesmsconveniente,sirenovarsuflotadetractores,seguir
manteniendolaquetienenocambiarsolounaparte.Utilizamoselconjuntodedatostractores.rda(files/40Atractores.rda)para
intentarrelacionarloscostesdemanutencindetractoresconlaedaddestos.
Comenzamoscalculandolacorrelacinentreedadycostes,yrealizamoselcorrespondientegrficodedispersin
load("files/40Atractores.rda")
cor.test(tractores$costes,tractores$edad)
##
##
##data:tractores$costesandtractores$edad
##t=3.6992,df=15,pvalue=0.002143
##0.31443250.8793971
##sampleestimates:
##cor
##0.6906927
plot(tractores$costes,tractores$edad,pch=20,xlab="Costes",ylab="Edad",
main="Diagramadedispersin")
Comoexistemuchadiferenciaenlasescalasdemedidaaplicamoslafuncinlogaritmo, log() ,alosdatosyaqueeslaquems

puedereducirestosvalores.Creamosunanuevavariablequeseaellogaritmodeloscostesyrealizamosdenuevoelanlisisde
correlacin
tractores$logcostes<log(tractores$costes)
cor.test(tractores$logcostes,tractores$edad)
##
##
##data:tractores$logcostesandtractores$edad
##t=4.2027,df=15,pvalue=0.0007687
##0.39396730.8984522
##sampleestimates:
##cor
##0.7353647
plot(tractores$logcostes,tractores$edad,pch=20,xlab="log(Costes)",ylab="Edad",
main="Diagramadedispersin")

Comovemoslacorrelacinahoraesmselevadaylospuntosestnmenosdispersosenelplano.
Unavezdetectadaunarelacinsignificativaentredosomsvariables,elsiguientepasoesintentarcrearunafrmulamatemtica
queformaliceesarelacinyquepermitacalcularpronsticosdeunavariableapartirdeunaovariasvariablesevaluadasenun
individuoconcreto.Esteprocesoseconocecomoregresinyeselqueestudiaremosenlossiguientesapartados.
2Regresinlinealsimple
ParaeldesarrollodelossiguientestresapartadosnoshemosservidoesencialmentedeSnchez(2011).
2.1Introduccin
Elcasodemodeloderegresinmssencilloeslaconstruccindeunarectaquemodelicelarelacinquehayentrelavariable
respuesta,Y ,ylavariablepredictoraX.Elmodelotienelaforma
Y = 0 + 1 X + e,
donde 0 y 1 seconocencomocoeficientesderegresinyson,respectivamente,laordenadaenelorigen(puntodecorteconel
ejeY )ylapendientedelarectadelmodeloderegresin.
Enlaecuacine eselerroraleatorio,representaladiferenciaentreelvalorajustadoporlarectayelvalorreal.Reflejalaausencia
dedependenciaperfectaentrelasvariables,larelacinestsujetaaincertidumbre.
Porejemplo,enelconsumodegasolinadeunvehculo,Y ,influyenlavelocidadXyunaseriedefactorescomoelefecto
conductor,eltipodecarretera,lascondicionesambientales,etc.Todosestoselementosquedaranenglobadosenelerrore .
Loscoeficientesderegresinsepuedeninterpretarcomo:
0 elvalormediodelavariabledependientecuandolapredictoraescero.
1 elefectomedio(positivoonegativo)sobrelavariabledependientealaumentarenunaunidadelvalordelapredictoraX.
Unarectaquetieneunapendienteconvalorpositivodescribeunarelacinpositiva,mientrasqueunarectaconunapendiente
negativadescribeunarelacinnegativa.Entoncestenemosbsicamentequelapendiente( 1 )nosdalaaparienciadelmodelo(su
forma)ylaordenadaenelorigen( 0 )nosdicedndesesitaelmodeloenelplano.
2.2Estructuradelmodeloderegresinsimple
Elmodeloderegresinlinealsimpletienelasiguienteestructura
yi = 0 + 1 x i + ei
parai = 1, . . . , n .Vamosaestudiarlomsdetenidamente.
Supongamosquehemosajustadounarectaderegresinaunconjuntodedatos,ysea(x i , yi )unpuntocualquieradelanube.
Entoncesyi sepuededescomponercomo
^ + ei ,
yi = f (yi ) + ei = y i
dondey
^ eselvalorajustadoalarectadelvaloreobservadoyi ,yei eselerrorquecometemosyalquellamaremosresiduo.
i
Unavezcalculadoelmodelo,elvalordey
^ quedadeterminadoparacadax i ,peroelvalorei = yi y
^ noquedadeterminado,
i
puedehaberdosobservacionesconelmismox i ydistintoei .Enesterazonamientosebasarlahiptesisdeindependenciadelos

residuos.
2.3Supuestosdelmodelo
Paracadax i ,valorfijodeX,secumplelaecuacinyi = 0 + 1 x i + ei ,donde 0 y 1 sonconstantesdesconocidas.Las
hiptesisbsicasdelmodeloson:
1.IncorrelacindelosresiduosC orr(ei , ej ) = 0 .Cualquierpardeerroresei yej sonindependientes.
2.MediacerodelosresiduosE (ei ) = 0 .
3.VarianzaconstantedelosresiduosV ar (ei ) =
2
.
4.Normalidaddelosresiduosei ~N (0, 2 ) .
Comoconsecuencia:
Cadavalorx i delavariablealeatoriaXtienedistribucin
2
(Y X = x i ) N ( 0 + 1 x i , ).
Lasobservacionesyi delavariableY sonindependientes.
Grficamente,silashiptesisdelmodelosonciertastenemos
2.3.1Estimacindelarectaderegresin.Mtododemnimos
cuadrados
Sinosencontrsemosenlasituacinidealdequetodoslospuntosdeldiagramadedispersinseencontraranenunalnearectano
tendramosquepreocuparnosporencontrarlarectaquemejorresumelospuntosdeldiagrama,simplementeuniendolospuntos
entreslaobtendramos.
Sinembargosinossituamosenunasituacinmsrealista,enunanubedepuntosesposibletrazarmuchasrectasdiferentes,
aunqueobviamente,notodasellasseajustarnigualmentebienalanube(SPSS,2007).Setrataentoncesdeestimarlarectaque
elmejorrepresenteelconjuntototaldepuntos.
Elprocedimientovaaconsistirenestimarloscoeficientesderegresin 0 y 1 paraobtenerlarecta
^
^ = ^
y 0
+ 1x
dondey
^ denotaelvalorajustadoporlarectaparaelvalorobservadox .
Paraestimarlaecuacindelarectaderegresinpodemosautilizarelcriteriodemnimoscuadrados,pueseselmsempleado
usualmente.Vamosaestudiarlo.
Siemprequeajustamoscualquierrectaaunconjuntodedatosexistenpequeasdiferenciasentrelosvaloresestimadosporlarecta
ylosvaloresrealesobservados,ascadavalordelmodeloajustadollevaasociadosuerroraleatorioei = yi y
^ .
i
Senospodraocurrirsumartodoslosresiduosparaobtenerasunaestimacindelerrortotal,sinembargo,alsumardiferencias
positivasynegativasestastiendenacancelarseunasconotras.Parasolucionaresteproblemadecidimoselevaralcuadradolas
diferenciasantesdesumarlas(Ferrari&Head,2010).
Portanto,conelcriteriodemnimoscuadradosestimamosloscoeficientesderegresin, 0 y 1 ,haciendomnimalasumadelos
n
cuadradosdelosresiduos,S SE = i=1 e2i .
n n n
2 2 2
S SE = e ^ )
= (yi y = (yi 0 b1 x i )
i i
i=1 i=1 i=1
Estosignificaque,detodaslasrectasposibles,existeunayslounaqueconsiguequelasdistanciasverticalesentrecadapuntoy
larectaseanmnimas(SPSS,2007).
Lasdiferenciasalcuadradoresultantessonunindicadordelacapacidaddelarectaajustndosealosdatossilasdiferenciasal
cuadradosongrandeslarectanoesrepresentativadelosdatos,mientrasquesisonpequeaslarectasesrepresentativa.
2.3.1.1Consecuenciasdelcriteriodemnimoscuadrados
C ov(X,Y )Sd(Y )
^
1 = r = .
Sd(X)
^ ^
0 = Y 1 X .
Lasumadelosresiduosescero

LamediadelosvaloresobservadosYi coincideconlamediadelosvaloresajustadosYi .
Larectaderegresinpasaporelpunto(x , y ) .
Losvalores^0 y^1 sonestimadoresde 0 y 1 .
LasestimacionesdelarespuestaparaunvalorX = x seobtienecomo
^ ^
y = 0 + 1 x
2.4Ejemplo.Ajustedelmodeloyprocesoinferencial
Vamosadesarrollarestaseccinmedianteunejemploaplicado:
Elpresidentedepersonaldeunamultinacionalestbuscandosiexisterelacinentreelsalariodeuntrabajadorysuporcentajede
absentismo.stedividielintervalodesalariosencategorasymuestrealeatoriamenteaungrupodetrabajadorespara
determinarnmerodedasquehabanfaltadoenlosltimos3aos.Esposibleestablecerunmodeloquerelacionelacategoray
lasausencias?
2.4.1AjustedelmodeloenR
Vamosaestablecerelmodeloquerelaciona Ausencias con Categoria ,peroantesdeestoestudiaremoslanormalidaddelos
datosycalcularemoslacorrelacinentrecategorayausencias,realizandoademselcorrespondientegrficodedispersin.
datos<read.table("files/40Awilliam.csv",sep=";",head=TRUE)
Empezamosestudiandolanormalidaddelavariableexplicativa
shapiro.test(datos$Categoria)
##
##ShapiroWilknormalitytest
##
##data:datos$Categoria
##W=0.9351,pvalue=0.2937
vistoquelosdatossonnormales,realizamoselanlisisdecorrelacin
cor.test(datos$Categoria,datos$Ausencias)
##
##
##data:datos$Categoriaanddatos$Ausencias
##t=4.7432,df=14,pvalue=0.0003144
##0.92199730.4738285
##sampleestimates:
##cor
##0.7851244
yrepresentamoslospuntos
plot(datos$Categoria,datos$Ausencias,pch=20,xlab="Categora",ylab="Ausencias",
main="Diagramadedispersin",cex.main=0.95)
Lacorrelacinentreambasvariablesessignificativaconunpvalormenora0.05ysetratadeunarelacininversayalta
(0.7851) ,segncrecelacategoradisminuyenlasausencias.
Unavezvistoqueexisterelacinentrelasvariablespasamosarealizarelajustedelmodelo.Paraellousamoslafuncin lm()
quetomalaforma
lm(dependiente~predictora(s),data=dataFrame,na.action="accin")
donde na.action esopcional,puedesertilsitenemosvaloresperdidos.
Creamoselobjeto modelAu quecontienetodoslosresultadosdelajuste.
modelAu<lm(Ausencias~Categoria,data=datos)
summary(modelAu)
##
##Call:
##lm(formula=Ausencias~Categoria,data=datos)
##
##Residuals:
##Min1QMedian3QMax
##13.3042.6031.8023.6876.448
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)41.59563.579511.6211.41e08***
##Categoria2.29190.48324.7430.000314***
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Residualstandarderror:5.898on14degreesoffreedom
##MultipleRsquared:0.6164,AdjustedRsquared:0.589
##Fstatistic:22.5on1and14DF,pvalue:0.0003144
LaparteResidualsnosdaladiferenciaentrelosvaloresexperimentalesyajustadosporelmodelo.Lasestimacionesdelos
coeficientesdelmodeloseproporcionanjuntoconelsusdesviacionesestndar(errorestndar),untvalorylaprobabilidaddela
hiptesisnuladequeloscoeficientestenganvalordecero.Enestecaso,porejemplo,hayevidenciadequeamboscoeficientesson
significativamentediferentesdecero.
Enlaparteinferiordelatablaseencuentraladesviacinsobrelarectaregresin(errorestndarsr oresidual),elcoeficientede
M Sreg
correlacinyelresultadodeltestFsobrelahiptesisnuladequelos M S es1.
res
plot(datos$Categoria,datos$Ausencias,pch=20,xlab="Categoria",ylab="Ausencias")
abline(modelAu)
Enprimerlugardeseamosobtenerlosestimadorespuntuales,erroresestndarypvaloresasociadosconcadacoeficiente
summary(modelAu)$coefficients
##(Intercept)41.5956383.579456111.6206591.411089e08
##Categoria2.2919460.48320324.7432353.144361e04
Elresultadodelajustees
(3.5795) (0.4832) Ausencias=41.59562.2919*Categoria
dondelosvaloresentreparntesisindicanloserroresestndardecadacoeficiente.Adems,puestoquelospvaloresasociados
soninferioresa 0.05 ,podemosconcluirque:
1.Enestecasonotienesentidoanalizarelvalordelaconstantepara Categora=0 ,yaquenoperteneceraalaempresa,deah

queelvalordeAusenciaspara Categora=0 seade 41.5956 ,mayorquecualquieradelosdatosdenuestroconjunto.
2.ExistenevidenciasestadsticassuficientesparaconsiderarquehayunarelacinlinealentreCategorayAusencias.Dicha
relacinesnegativacuandoaumentalacategoralaboraldelindividuodisminuyenlasausencias.Ademsvemosqueporcada
gradoqueaumentalacategoradeltrabajador,disminuyenlasausenciasen 2,29 dasporao.
3.Elerrorestndarresidualestimado(s)esde 5.898 .Estevaloresmuyimportante,esunmedidordelacalidad(precisin)del

modelo.Ademsnosvamosabasarenlparacalcularlosintervalosdeconfianzaparaloscoeficientesdelmodelo.Secalcula
haciendolarazcuadradadelamediadelasumadecuadradosdelosresiduos(M SR ).
2.4.1.1IntervalosdeConfianza

Losintervalosdeconfianza(IC)complementanlainformacinqueproporcionanloscontrastedehiptesisalahoradeexpresarel
gradodeincertidumbreennuestrasestimaciones.
Obtenemosloscorrespondientesintervalosdeconfianzaparacadaparmetrodelmodeloconnivelsignificacinal95%
confint(modelAu,level=0.95)
##2.5%97.5%
##(Intercept)33.91846849.272807
##Categoria3.3283141.255579
comoelintervalonocontienealcero,podemosrechazarlahiptesisnuladequeH0 .
: 0 = 1 = 0
Interpretamoslosintervalos:conunaprobabilidaddel95%,laordenadaenelorigendelmodelo, 0 ,seencuentraenelintervalo
(33.92,49.27) ,mientrasqueelefectoasociadoconlaCategoriaseencuentraenelintervalo (3.32,1.26) .
2.5Bondaddeajuste
Unavezrealizadoelajuste,debemosverificarlaeficienciadelmodeloalahoradeexplicarlavariabledependiente,yaqueaunque
larectasealamejordisponible,stapuedeseguirsiendounajusteterribledelosdatos.
Lasmedidasfundamentalessonelerrorresidualestimado,eltestFparalabondaddeajustedelatablaANOVAyelcoeficientede
determinacinR2 .Iremosexplicndolasunaaunaperoantesvamosahablardelavariabilidaddelmodeloderegresin.
Lavariabilidaddelajustesepuededescomponercomo
Variacintotal=variacinexplicadamodelo+variacinresidual ,esdecir,
S ST = S SM + S SR ,donde
S ST = (y y )
2
eslacantidadtotaldevariabilidadexistentealaplicarelmodelomsbsico,elmodelonulo(lamedia).
^ ) representaelgradodeimprecisincuandosehaajustadoelmejormodeloalosdatos.
2
S SR = (y y
S SM = S ST S SR muestracmomejoralaprediccinalusarelmodeloderegresinenvezpredecirconlamedia.Esla
reduccindelaimprecisinalajustarelmodeloderegresinalosdatos.
SiS SM esgrandeentonceselmodeloderegresinesmuydiferentedelamedia,loquesignificaquesehahechounagranmejora
alahoradepredecirlavariabledependiente.
2.5.1Coeficientededeterminacin,R2
Elcoeficientededeterminacinquerepresentalaproporcindemejoracausadaporelmodelo,esdecir,laproporcinde
variabilidaddelavariabledependiente(Y )explicadaporelmodelo(S SM ),relativaatodalavariabilidadexistenteenelmodelo(
S ST ).Sepuedeescribircomo
2
S SM
R = .
S ST
Paralaregresinlinealsimple,R2 secorrespondeconelcuadradodelacorrelacinentreY yX.
UnavariantedeestamedidaeslaR2 ajustadaqueseutilizaparalaregresinmltiple,puestieneencuentaelnmerodegrados
delibertad.Vemoscmosedefine.
Utilizandolafrmuladelavariacintotaltenemoslasiguienteigualdad
2
S SM S SR
R = = 1
S ST S ST
yapartirdeellasedefinelaR2a dividiendoporlosgradosdelibertadlaintroduccindevariablesinnecesariasenelmodelo
/
S SR /dfR
2
Ra = 1
S ST /dfT
SSR
AlaadiralmodelounavariablequenoaportenadaeldfR diminuye,porloqueelcociente crecer,haciendolotambin
df
R
SSR /df
.EstoimplicaportantoqueelvalordelaR2a seacadavezmspequeo.
R
SST /df
T
MientrasqueR2 nosdicecuntavarianzadeY representaelmodeloderegresin,laR2a cuantificalavarianzadeY que

representaraelmodelosiestehubierasidoobtenidodelapoblacindondehemostomadolamuestra.SilosvaloresdeR2 yR2a
estnprximossignificaqueelmodeloderegresinesbueno.
Estasmedidastomanvaloresentre0y1,ycuantomsseaproximena1mejorserelajuste,yporlotanto,mayorlafiabilidadde
lasprediccionesqueconlrealicemos.
Observacin:niR2 niR2a sonunaindicacindirectadelaeficaciadelmodeloenlaprediccindenuevasobservaciones.
2.5.2TestF
Laltimamedidadeajustequevamosaestudiaresel testF ,unamedidadecuntohamejoradoelmodeloprediciendola
variabledependienteconrespectoalniveldeinexactituddelmodelo.Sedefinecomo
M SM
F = ,
M SR
dondeM S sonlasmediasdelassumasdecuadrados.Sedefinencomolassumasdecuadradosentresusgradosdelibertad.As
tenemos
S SM
M SM =
dfM
S SR
M SR =
dfR
UnbuenmodelodebetenerunvalorF grande(mayorque1)yaqueelnumerador,lamejoraenlaprediccindelmodelo,ser
mayorquedenominador,ladiferenciaentreelmodeloylosdatosobservados.
Otramedidaimportantequeseobtieneapartirdelasumadecuadradosdelosresiduoseselerrorestndarquesedefinecomo

S ER = M SR .
Vamosaaplicartodoestoen R continuandoconelejemploanterior.
2.5.3TablaANOVA
Volvemosalejemplodelascategorasylasausencias.ObtenemoslacorrespondientetablaANOVAdondevemosla
descomposicindelavariabilidaddelmodelo
anova(modelAu)
##AnalysisofVarianceTable
##
##Response:Ausencias
##DfSumSqMeanSqFvaluePr(>F)
##Categoria1782.70782.7022.4980.0003144***
##Residuals14487.0534.79
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
Observamosquelavariabilidadexplicadaporelmodelo, SSM=782.70 ,essuperioralaquequedaporexplicar(residuos),
SSR=487.05 yelestadstico F=22.5 ,mayorque1.Adems,volviendoaverelresumendelmodelo
tenemosqueelpvalorasociadoconelestadsticoFesinferiora 0.05 .
Laconclusinesquehayevidenciassuficientesparapoderrechazarlahiptesisnula,F = 1yportanto,resultaposibleestablecer
unmodeloderegresinlinealparaexplicarelcomportamientodelasausenciasenfuncindelacategoradelempleado.
2.5.3.1Coeficientededeterminacin
Enel modelAu elvalordeR2 es MultipleRsquared: 0.6164 ,alrededordel62%delavariabilidaddeAusenciasesexplicadapor

larectaajustada.
2.6Anlisisdelosparmetrosdelmodelo
EltestANOVAsignificativonosdicesielmodelotiene,engeneral,ungradodeprediccinsignificativamentebuenoparalavariable
resultado,perononosdicenadasobrelacontribucinindividualdelmodelo.Paraencontrarlosparmetrosdelmodeloysu
significacintenemosquevolveralaparte Coefficients enelresumendelmodelo.
summary(modelAu)$coefficients
##(Intercept)41.5956383.579456111.6206591.411089e08
##Categoria2.2919460.48320324.7432353.144361e04
Observandolatablavemosque 0 = 41.6 ( intercept )quepodemosinterpretarcomoquesinohubieracategoras(X = 0)el

modelopredicequeenlaempresahabraun41.6%deausencias,aunqueenestecasonotienesentido.
Porotrolado, 1 eslapendientedelarectayrepresentaelcambioenlavariabledependiente(ausencias)asociadoalcambiode
unaunidadenlavariablepredictora.Sinuestravariablepredictoraincrementaunaunidad,nuestromodelopredicequelas
ausenciassereducirnen2.3,puesenestecaso 1 = 2.2919.Portanto,laecuacindelmodeloquedaY = 41.6 2.3X.
EnesteapartadohemoshechousotantodeJ.Faraway(2009)comodeSnchez(2011)paraeldesarrollodelmismo.
Unavezquetenemoselmodeloajustadoprocedemosconsudiagnstico,queserealizaatravsdelanlisisdelosresiduos,ei .
Lashiptesisdelinealidad,homocedasticidadeindependenciasecontrastanatravsdeunanlisisgrficoqueenfrentalos
valoresdelosresiduos,ei ,conlosvaloresajustadosx
^i .
Lashiptesisdemediacero,varianzaconstante,incorrelacinynormalidadlacomprobamosanalticamente.
Comenzaremosconelanlisisgrfico.Losresiduosdeberanformarunanubedepuntossinestructuraycon,aproximadamente,
lamismavariabilidadportodaslaszonascomosemuestraenelgrfico.
Enlossiguientesgrficosnosecumplenlashiptesis.Losresiduosdeestaprimeragrficamuestranunaestructuraquesugiere
unarelacinnolinealentrelasvariables
ylosdelasiguientesugierenlaausenciadehomocedasticidad.

Continuamosahorarealizandoeldiagnsticoanaltico.Elprimerpasoesobtenerlosresiduos,valoresajustadosyestadsticos
delmodeloanalizadoparapoderasestudiarsisecumplenlossupuestosdelmismo.
Obtencinderesiduos,valoresajustadosyestadsticosnecesarios
Paraello,aadimosloscorrespondientesresultadosanuestrosdatosatravsdelsiguientecdigo:
datos$fitted.modelAu<fitted(modelAu)
datos$residuals.modelAu<residuals(modelAu)
datos$rstudent.modelAu<rstudent(modelAu)
Elresultadoeslacreacindelassiguientesvariables:
fitted.modelAu :valoresajustados(valoresdelavariablerespuesta)paralasobservacionesoriginalesdelapredictora.
residuals.modelAu :residuosdelmodelo,estoes,diferenciaentrevalorobservadodelarespuestayvalorajustadoporel
modelo.
rstudent.modelAu :residuosestudentizadosdelmodeloajustado.
obsNumber :nmerodelaobservacinenelordenenquehassidorecogidas.
Vamosautilizartodasestasvariablesparaestudiarsinuestromodelocumplelashiptesis.
2.7.1Testdenormalidad(testdeKolmogorovSmirnov)
Empezamoselanlisisconungrfico qqplot ,queenfrentalosvaloresrealesalosvaloresqueobtendramossiladistribucin
fueranormal.Silosdatosrealessedistribuyennormalmente,estostendrnlamismadistribucinquelosvaloresesperadosyenel
grfico qqplot obtendremosunalinearectaenladiagonal
Analizamosnuestrosresiduos
shapiro.test(datos$rstudent.modelAu)
##
##
##data:datos$rstudent.modelAu
##W=0.8271,pvalue=0.006388
qqnorm(datos$rstudent.modelAu,main="Normal(0,1)")
qqline(datos$rstudent.modelAu)
Tenemosproblemasconlacondicindenormalidaddeloserroresyaqueobtenemosunpvalorparaelcontrastede 0.0063 ,
inferiora 0.05 .Comoenelgrfico qqplot lospuntosnosesitanenladiagonal,efectivamentevemosquelosdatosnoson
normales.
library(lmtest)
bptest(modelAu)
##
##studentizedBreuschPagantest
##
##data:modelAu
##BP=2.1918,df=1,pvalue=0.1387
Existehomogeneidadpueslasignificacinesmayorde 0.05 ,lavarianzaesconstantealolargodelamuestra.
2.7.3Autocorrelacin(testdeDurbinWatson)
Hemosasumidoquelosresiduossonincorrelados,vamosacomprobarlo.
plot(datos$residuals.modelAu,pch=20,ylab="Residuos",xlab="ndices")
abline(h=cor(datos$Ausencias,datos$Categoria))
Sihubieraunacorrelacinseria,veramospicosmslargosderesiduosporencimaypordebajodelalneadecorrelacin.A
menosqueestosefectosseanfuertes,puedeserdifcildedetectarlaautocorrelacin,porellorealizamoselcontrastedeDurbin
Watson.
dwtest(Ausencias~Categoria,alternative="two.sided",data=datos)
##
##DurbinWatsontest
##
##data:Ausencias~Categoria
##DW=1.6732,pvalue=0.4935
##alternativehypothesis:trueautocorrelationisnot0
Enelcontrastedeautocorrelacintambinaceptamoslahiptesisnuladequenoexistecorrelacinentrelosresiduosconunp
valorsuperiora 0.05 .
Unavezcomprobadoelrestodesupuestosdelmodelo,vamosaintentarsolucionarelproblemadenormalidad.Loprimeroque
hacemosesrepresentardenuevolosdatosenunQQplotyundiagramadedispersinparadetectarposiblesperturbaciones.
par(mfrow=c(1,2))
qqnorm(datos$rstudent.modelAu,main="normal(0,1)")
qqline(datos$rstudent.modelAu)
plot(datos$rstudent.modelAu,pch=20,ylab="Residuaos",xlab="ndices")
Siobservamosdenuevoelgrficovemosquehayunpuntoqueesttotalmentefueradelugar,loquepareceenprincipiounvalor
atpico.Vamosarealizaruntestdevaloresatpicos(Bonferroni).
2.7.4Valoresatpicos
Unvaloratpicoesaquelquedifieresustancialmentedelatendenciageneraldelosdatos.Estosvaloresatpicospuedenperjudicar
elmodeloyaqueafectanaloscoeficientesderegresinestimados.Veamosgrficamentecmopuedeninfluiralarectade
regresin(Snchez,2011).
EnlosgrficoslalineadiscontinuarepresentalarectaderegresincalculadasinconsiderarelpuntoP.
ParaesteprimergrficotenemosqueelpuntoPsesinfluyentepuesmodificasustancialmentelarectaderegresin.

mientrasqueenelsegundogrficoelpuntoPapenasinfluyeenelmodelo.
Enelcasodeobservarvaloresatpicoslospasosaseguirson:
1.Descartarqueseaunerror.
2.Analizarsiesuncasoinfluyente.
3.Encasodeserinfluyentecalcularlasrectasderegresinincluyndoloyexcluyndolo,yelegirlaquemejorseadapteal
problemayalasobservacionesfuturas.
Paraelestudiodelosvaloresatpicovamosausarlosresiduosestandarizados,losresiduosdivididosporunaestimacindesu
errorestndar.Existenunasreglasgenerales:
1.Residuosestandarizadosconunvalorabsolutomayorde 3.29 (redondearemosa 3 )soncausadepreocupacinyaquees

improbablequeenunamuestramediaunvalortangrandeocurraporazar.
2.Simsdel 1% delosvaloresmuestralestienenresiduosestandarizadosconunvalorabsolutomayorde 2.58 (podemosdecir

2.5 )hayevidenciasdequeelniveldeerrorennuestromodeloesinaceptable(ajustepobredelmodeloalosdatos).
3.Simsdel 5% deloscasostienenresiduosestandarizadosconunvalorabsolutomayorde 1.96 (usamos 2 por

conveniencia)entoncesvuelvenahaberindiciosdequeelmodeloesunapobrerepresentacindelosdatosreales.
Vamosahacerunestudiodevaloresatpicosdenuestromodelo.Empezamosconungrficoenelquerepresentamosel
diagramadepuntosyunboxplotparacadaunadelasvariables.
Enlavariable Categoria vemosquelamediananoestcentradaenlamedia,losdatosnosonuniformes.Conlavariable

Ausencias ocurrelomismo.Lobuenoesqueenningunodelosdoscasosseaprecianvaloresatpicos(Kabacoff,2014).
Contunuamosconunanliismsanaltico:
library(car)
outlierTest(modelAu,cutoff=0.05,n.max=10,order=TRUE)
##rstudentunadjustedpvalueBonferonnip
##63.6622860.00286920.045908
influencePlot(modelAu,id.n=2)
##StudResHatCookD
##51.94715350.096476510.4108154
##63.66228630.284395971.1885657
##120.36828070.213926170.1402500
Eltestyelgrficonosindicanquelaobservacinnmero 6 esunvaloratpico.Lasobservaciones 5 y 12 quevemosenel

grficosonmedidasinfluyentesparaversilleganaseratpicosdibujamoselgrficodelasdistanciasdeCook(J.Faraway,2009).
cook<cooks.distance(modelAu)
labels<rownames(datos)
library(faraway)
halfnorm(cook,3,labs=labels,ylab="DistanciadeCook")
Seconfirmaqueelvalor 6 esunatpico,mientrasquelospuntos 16 y 5 nolosonporsersudistanciadeCookmenorque1.
Aunquenuncaesrecomendablesuprimirdatossalvoestarsegurosdequehasidounamalamedicinocualquierotrotipodeerror,
enestecasoyenvistadeloobtenido,decidimoseliminardichodato.
datos<datos[c(6),]
head(datos)
##CategoriaAusenciasfitted.modelAuresiduals.modelAurstudent.modelAu
##1111816.384231.6157720.2931414
##2101718.676171.6761740.2951496
##382923.260075.7399331.0115842
##453630.135915.8640941.0413881
##591120.968129.9681211.9471535
##772825.552012.4479870.4158870
NOTA:Cuidadoconlaeliminacindedatos.Eldiagnsticodelmodeloesparafinespredictivos!Paraobtenerunbuenmodelo
aunquesinfinespredictivos,nicamentedebemosevitarelproblemadelamulticolinealidad.
TraseliminarelvaloratpicodelabasededatosvolvemosarealizareltestdeShapiroWilkparacomprobarsisecumpleahorala
condicindenormalidad
shapiro.test(datos$rstudent.modelAu)
##
##
##data:datos$rstudent.modelAu
##W=0.9133,pvalue=0.1519
comoestenuevopvaloresmayorque0.05ahorasexistenormalidadenlosdatos.Unavezsolucionadoslosproblemasde
diagnsticopasamosalafasedeprediccin.
2.8Prediccin
Tenemosunmodeloderegresinconlacapacidadderelacionarlavariablepredictoraylavariabledependiente.Podemosutilizarlo
ahoraparapredecireventosfuturosdelavariabledependienteatravsdenuevosvaloresdelavariablepredictora.
Paraellodebeverificarsealgunadelassiguientescondiciones
elvalordelapredictoraestdentrodelrangodelavariableoriginal.
sielvalordelapredictoraestfueradelrangodelaoriginal,debemosasegurarquelosvaloresfuturosmantendrnelmodelo
linealpropuesto.
2.8.1Prediccindenuevasobservaciones
x0<seq(min(datos$Categoria),max(datos$Categoria),length=15)
dfp<data.frame(Categoria=x0)
pred.ip<predict(modelAu,dfp,interval="prediction",se.fit=TRUE,data=datos)
head(pred.ip$fit)
##fitlwrupr
##137.0117423.0736650.94983
##235.5383521.8214049.25530
##334.0649620.5399147.59000
##432.5915619.2279345.95520
##531.1181717.8843344.35201
##629.6447716.5081942.78136
Dibujamoslasbandasdeprediccin,quereflejanlaincertidumbresobrefuturasobservaciones:
matplot(x0,pred.ip$fit,type="l",xlab="Categoria",ylab="Ausencias")

Supongamosquenotuviramoslosdatosenlaescalaoriginaldelavariabledependiente,sinoqueloshemostransformado
mediantealgunafuncin.Enesecaso,paraobtenerlasprediccionesoriginalesbastacondeshacerlacorrespondiente
transformacin.Sihubisemostransformado,porejemplo,losdatosoriginalesmediante log() ,elcdigoparaobtenerlas
prediccionessera
newpred<exp(pred.ip$fit)
head(newpred)
2.8.2Intervalosdeconfianzaparalospredictores
Dadounnuevoconjuntodepredictores,x 0 ,debemosevaluarlaincertidumbreenestaprediccin.Paratomardecisionesracionales
necesitamosalgomsquepuntosestimados.Silaprediccintieneintervalodeconfianzaanchoentoncesentonceslosresultados
estarnlejosdelaestimacinpuntual.
Lasbandasdeconfianzareflejanlaincertidumbreenlalneaderegresin(lobienquelalneaestcalculada).
pred.ic<predict(modelAu,dfp,interval="confidence",se.fit=TRUE,data=datos)
head(pred.ic$fit)
##fitlwrupr
##137.0117431.1606342.86286
##235.5383530.2355240.84118
##334.0649629.2803738.84954
##432.5915628.2843436.89878
##531.1181727.2323235.00402
##629.6447726.1042633.18529
Dibujamoslasbandasdeconfianza,queademsreflejanlaincertidumbresobrefuturasobservaciones:
library(graphics)
matplot(x0,pred.ic$fit,type="l",xlab="Categoria",ylab="Ausencias")
Porltimopodemoshacerungrficoconlanubedepuntosylosdosbandas,ladeconfianzayladeprediccin(Ferrari&Head,
2010).
plot(datos$Categoria,datos$Ausencias,pch=20,ylim=range(datos$Categoria,
pred.ip,na.rm=TRUE),xlab="Categoria",ylab="Ausencias")

#Aadimoslasbandas
matlines(dfp$Categoria,pred.ic$fit,lty=c(1,2,2),lwd=1.5,col=1)
matlines(dfp$Categoria,pred.ip$fit,lty=c(1,3,3),lwd=1.5,col=1)
#Leerlosdatosdeunfichero.csv
df<read.table("files/40Afile.csv",sep=";",head=TRUE)
#CorrelacinGrficodedispersin(nubedepuntos)
plot(df$var1,df$var2)
##Normalidaddelasvariablesexplicativas
shapiro.test(df$var2)
##Calculamoslacorrelacinentrelasvaribalesaestudiar
cor(df$var1,df$var2)
###Ademsdecalcularlavemossusignificacinconuntest
cor.test(df$var1,df$var2,method="pearson")
##Calculamoslacorrelacindeunamatrizdevariables
ndf<data.frame(df$var1,df$var2,df$var3,df$var4)
cor(ndf,use="everything",method="pearson")
##Coeficientededeterminacin(R^2)
cor(ndf,use="everything")^2
##Hacemoseltestdecorrelacionesparalamatriz(reg.multiple)
library("psych")
corr.test(ndf,use="complete",method="pearson")
#Modeloderegresinsimple
##Creamoselmodeloderegresin
model<lm(var1~var2,data=df)
##Representamosgrficamenteelajuste
plot(df$var1,df$var2,xlab="var1",ylab="var2")
abline(model)
##Resumendelmodelo
summary(model)
##Estudiamosloscoeficientesdelmodelo
summary(model)$coefficients
###Intervalosdeconfianzaparaloscoeficientes
confint(model,level=0.95)
##tablaANOVA(ajustedelmodelo)
anova(model)
#Diagnsticodelmodelo(comprobarsupuestos)
##Obtencindelosresiduos
df$fitted.model<fitted(model)
dfresiduals.model<residuals(model)
df$rstudent.model<rstudent(model)
###Normalidad
shapiro.test(df$rstudent.model)
qqnorm(df$rstudent.model,main="Normal(0,1)")
qqline(df$rstudent.model)

###Homogeneidaddevarianzas
library(lmtest)
bptest(model)

###Autocorrelacin
plot(df$residuals.model,ylab="Residuaos",xlab="ndices")
abline(h=cor(df$var1,df$var2))
dwtest(var1~var2,alternative="two.sided",data=df)

###Valoresatpicos
library(car)
outlierTest(model,cutoff=0.05,n.max=10,order=TRUE)

##Prediccin
x0<seq(min(df$var2),max(df$var2),length=15)
pred<predict(model,data.frame(var2=x0),interval="prediction",se.fit=TRUE,
data=df)
head(pred)

###Intervalodeconfianzarparalospredictores
ic<predict(model,data.frame(var2=x0),interval="confidence",se.fit=TRUE,
data=df)
head(ic)

####bandadeconfianzalibrary(graphics)
matplot(x0,ic$fit,type="l",xlab="var2",ylab="var1")
3Regresinlinealmltiple
3.1Introduccin
EnlaregresinlinealsimplepredecamoslavariableresultadoY apartirdelosvaloresdeX,usandolaecuacindeunalinea
recta.ConlosvaloresquehabamosidoobteniendodeXeY calculbamoslosparmetrosdelaecuacinajustandoelmodeloa
losdatosmedianteelmtododemnimoscuadrados.Laregresinmltipleesunaextensinlgicadeestoasituacionesenlasque
haymsdeunavariablepredictora.Lanuevaecuacinser
Y i = ( 0 + 1 X1i + 2 X2i + + n Xni ) + ei .
Bsicamentesetratadelamismaecuacinqueparalaregresinsimpleexceptoporquehemosincluidopredictoresextra.Cada
predictortienenasociadosupropiocoeficienteypredecimoslavariabledependienteapartirdeunacombinacindetodaslas
variablesmsunresiduo,ei ,ladiferenciaentreelvalorajustadoyobservadodeY enlaisimaobservacin.
Loscoeficientesderegresinsepuedeninterpretarcomo:
elefectomedio(positivoonegativo)sobrelavariabledependientealaumentarenunaunidadelvalordelapredictora
i
Xi , i = 1, , k .
0 elvalormediodelavariabledependientecuandolaspredictorassoncero.
3.2Ejemplodeunmodeloderegresinlinealmltiple
Paraentenderelmodeloderegresinlinealmltiplevamosausarunejemplodeunaempresadefabricacinyrepartodepizzas.
Utilizaremoslabasededatospizza.rda(files/pizza.rda).
Planteamoselmodelosales ads + cost quetendrecuacines
sales = 0 + 1 ads + 2 cost + e.
3.2.1Anlisisdecorrelacin
Comenzamosrepresentandolosdatosenunanubedepuntosmltiple,dondevemoslarelacinentrecadapardevariables.
load("files/40Apizza.rda")
pairs(pizza,panel=panel.smooth)
cor(pizza,use="everything",method="pearson")
##salesadscost
##sales1.00000000.78083280.8204250
##ads0.78083281.00000000.8949125
##cost0.82042500.89491251.0000000
vemosquetodaslasvariablestieneunacorrelacinelevada.
3.2.2Ajustedelmodelo
modelPizza1<lm(sales~ads+cost,data=pizza)
summary(modelPizza1)
##
##Call:
##lm(formula=sales~ads+cost,data=pizza)
##
##Residuals:
##Min1QMedian3QMax
##5.69811.82230.66562.44706.0123
##
##Coefficients:
##(Intercept)6.58368.54220.7710.461
##ads0.62471.12030.5580.591
##cost2.13891.47011.4550.180
##
Elerrortpicoresiduales 3.99 ,laR2 = 0.684 ,aunqueparaelmodelomltipleesmejorfijarnosensuvalorajustadoR2a = 0.614 .

Estoquesignificaquelarectaderegresinexplicael61%delavariabilidaddelmodelo.Adems,F = 9.74 conunasignificacin
p < 0.05 ,loquenosdicequenuestromodeloderegresinresultasignificativamentemejorqueelmodelobsico.
3.3Comparacindemodelos
Pretendemosseleccionarelmejorsubconjuntodepredictoresporvariasrazones
1.Explicarlosdatosdelamaneramssimple.Debemoseliminarpredictoresredundantes.
2.Predictoresinnecesariosaaderuidoalasestimaciones.
3.Lacausadelamulticolinealidadestenerdemasiadasvariablestratandodehacerelmismotrabajo.Eliminarelexcesode
predictoresayudaalainterpretacindelmodelo.
4.Sivamosautilizarelmodeloparalaprediccin,podemosahorrartiempoy/odineroalnomedirpredictoresredundantes.
Puestoquetenemosdosvariablesexplicativasdisponemosdetresmodelosposibles
modelo1 : sales ads + cost
modelo2 : sales ads
modelo3 : sales cost
Vamosaajustarcadaunodelosmodelos
modelPizza2<lm(sales~ads,data=pizza)
##
##Call:
##lm(formula=sales~ads,data=pizza)
##
##Residuals:
##Min1QMedian3QMax
##6.83642.75680.68043.83464.8971
##
##Coefficients:
##(Intercept)16.93694.98183.4000.00677**
##ads2.08320.52713.9520.00272**
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
modelPizza3<lm(sales~cost,data=pizza)
##
##Call:
##lm(formula=sales~cost,data=pizza)
##
##Residuals:
##Min1QMedian3QMax
##5.70161.32270.66471.75776.8957
##
##Coefficients:
##(Intercept)4.1737.1090.5870.57023
##cost2.8730.6334.5380.00108**
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
Paraevitarlaeleccinsubjetivadelmejormodelo,podemoscomparartodoslosmodelosmedianteunatablaANOVAconjuntapara
cadapardemodelos.Hayquetenerencuentaqueparapodercompararmodelosestosdebenestarencajados,esdecir,queuno
deelloscontengaalotromsotroconjuntodevariablesexplicativas.
anova(modelPizza3,modelPizza1)
##
##Model1:sales~cost
##Model2:sales~ads+cost
##Res.DfRSSDfSumofSqFPr(>F)
##110148.15
##29143.2014.94720.31090.5907
anova(modelPizza3,modelPizza2)
##
##Model1:sales~cost
##Model2:sales~ads
##Res.DfRSSDfSumofSqFPr(>F)
##110148.15
##210176.88028.731
Comparandoambastablasanovadeducimosqueelmodeloquemejorseajustaalosdatosesel modelo3 puesreduceelerror

estndar.
Paraesteconjuntodedatos,altenerslodosvariablesexplicativas,anlopodemosrealizaramanocomparandolosmodelosde
dosendos.Perocuandotenemosmsvariablesesteprocesosevuelvemuytediosoporloquemejorhacerloautomticamentecon
losmtodospasoapaso.
3.4Seleccindelmejormodelo
Existendistintosmtodosalahoradeconstruirunmodelocomplejoderegresinconvariospredictores
Elmtodojerrquicoenelqueseseleccionanlospredictoresbasndoseenuntrabajoanterioryelinvestigadordecideenqu
ordenintroducirlasvariablespredictorasalmodelo.
Elmtododeentradaforzadaenelquetodaslasvariablesentranalafuerzaenelmodelosimultneamente.
Losmtodospasoapasoquesebasanenuncriteriomatemticoparadecidirelordenenquelospredictoresentranenel
modelo.
NosotrosvamosautilizarenRlosmtodospasoapaso,peroantesdeverlosvamosaintroducirunanuevamedidadeajuste.
3.4.1CriteriodeinformacindeAkaike(AIC)
ElproblemadeutilizarR2 paracompararmodelosesquealaadirnuevasvariablesalmodelo,estamedidasiemprecrece.Si
estamosdecidiendocualdetodoslosmodelosajustamejoralosdatos,elmodeloconmspredictoressiempreserelmejor
ajustando.Paraevitarestoseutilizael AIC ,unamedidadeajustequepenalizaelmodeloportenermsvariables.Vienedefinido
por
S SR
AI C = n log + 2k,
n
dondeneselnmerodecasosenelmodelo,S SR eslasumadecuadradosdelosresiduosdelmodeloyk eselnmerode

variablespredictoras.
Elnicoproblemaesquenoexistendirectricessobreestecriterio,sloquesiel AIC esmayor,elmodeloespeorysiel AIC es

peor,elajusteesmejor.
3.4.2Metodospasoapaso
En R accedemosaestosmtodosutilizandoelcomando step(modelo,direction="") ,dondelasdireccionespuedenser:
forward :elmodeloinicialcontienesololaconstante 0 yapartirdeahelordenadorbuscalavariablepredictora(dentrodelas
disponibles)quemejorpredicelavariabledependiente.Siestepredictormejoralahabilidaddelmodeloparapredecirlavariable
respuesta,stapermaneceenelmodeloysebuscaotravariablepredictora.Paralasegundavariableseusacomocriteriode
seleccincogeraquellaquetengalamayorcorrelacinparcialconlarespuesta. R tienequedecidircundoparardeaadir
predictoresalmodelo,yparahacerlosebasaenelcriteriode AIC .
blackward :estemtodoeselopuestoalanterior, R empiezacontodaslasvariablespredictorasenelmodeloyestudiasiel

AIC disminuyecuandoeliminamosdelmodeloalgunadelasvariables.
both :empiezadelmismomodoqueelmtodo forward salvoquecadavezqueunavariablepredictoraesaadidaala

ecuacin,serealizauntestdeextraccindelpredictormenostil.
Elmtodomspreferiblees backward debidoalefectorepresorqueocurrecuandounavariablepredictoratieneinfluenciapero

slosiotradelasvariablessemantieneconstante.Alusarmtodospasoapasoesaconsejabledespushacerunavalidacin
cruzada,mtodoqueestudiaremosmsadelante.
3.4.2.1Mtodospasoapasoen R
Vamosadesarollarestosmtodosconelejemplo bebidas.csv .Enlsepretendeexplicarlasmuertesporcirrosissegnlabebida

queconsumanlospacientes((SCG),2013).
dfbeb<read.table("files/40Abebidas.csv",sep=";",head=TRUE)
str(dfbeb)
##'data.frame':46obs.of6variables:
##$caseid:int12345678910...
##$cirrosis:num41.231.739.457.574.859.854.347.977.256.6...
##$poblacion:int44434852714457347054...
##$cerveza:num33.233.840.639.245.537.544.231.945.645.9...
##$vino:int543711963127...
##$licorDuro:int30413848536573325657...
#Eliminamoslavariable'caseid'delconjuntopuesnonosinteresa.
dfbeb<dfbeb[,2:6]
Elarchivorecogelosdatosdemuerteporcirrosis,eltamaodelapoblacin,elconsumodecerveza,elconsumodevinoyel
consumodelicoresduros.Echamosunprimervistazoalosdatos
summary(dfbeb)
##cirrosispoblacioncervezavino
##Min.:28.00Min.:27.00Min.:31.20Min.:2.00
##1stQu.:48.901stQu.:44.251stQu.:35.621stQu.:6.25
##Median:57.65Median:55.00Median:42.25Median:10.00
##Mean:63.49Mean:56.26Mean:41.48Mean:11.59
##3rdQu.:75.703rdQu.:65.003rdQu.:45.833rdQu.:15.75
##Max.:129.90Max.:87.00Max.:56.10Max.:31.00
##licorDuro
##Min.:26.00
##1stQu.:41.50
##Median:56.00
##Mean:57.50
##3rdQu.:68.75
##Max.:149.00
Entodaslasvariablesexplicativaslosvaloresdelamediaylamedianasonmuycercanos,locualesmuybueno.

Correlacin
pairs(dfbeb,panel=panel.smooth)
cor(dfbeb,use="everything",method="pearson")
##cirrosispoblacioncervezavinolicorDuro
##cirrosis1.00000000.74907400.78272440.84461120.6819694
##poblacion0.74907401.00000000.84328120.67862300.4402957
##cerveza0.78272440.84328121.00000000.63984070.6863643
##vino0.84461120.67862300.63984071.00000000.6759206
##licorDuro0.68196940.44029570.68636430.67592061.0000000
Comovemosenlatablacirrosisestmuycorrelacionadacontodaslasvariablesexplicativasyentreellastambinexistebastante
correlacin.
Pasamosadefinirel__modelogeneral_contodaslasvariables.
modelCir<lm(cirrosis~poblacion+cerveza+vino+licorDuro,data=dfbeb)
summary(modelCir)
##
##Call:
##lm(formula=cirrosis~poblacion+cerveza+vino+licorDuro,
##data=dfbeb)
##
##Residuals:
##Min1QMedian3QMax
##18.87236.78030.15077.325216.4419
##
##Coefficients:
##(Intercept)13.9631011.400351.2250.2276
##poblacion0.098290.244070.4030.6893
##cerveza1.148380.583001.9700.0556.
##vino1.857860.400964.6343.61e05***
##licorDuro0.048170.133360.3610.7198
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Fstatistic:44.75on4and41DF,pvalue:1.951e14
Analizamoselresumendeesteprimermodelo.Vemosquelamedianadelosresiduosescercanaa0,locualesmuybuenopues
queremosquelosresiduostenganmediacero.
Observandoloscoeficientesvemosquesegnelestadsticotslosonsignificativaslasvariables vino y cerveza ,ahora

aplicaremoselmtododeseleccindemodelosparaversieliminamosalgunavariable.
Anas,elmodelocontodaslasvariablestieneunerrorestndarde 10.46 yunaR2 = 0.8136 ,aunqueparaelmodelomltiple

esmejorfijarnosensuvalorajustado 2
Ra = 0.7954 .Estoquieredecirlarectaderegresinexplicael79%delavariabilidaddel
modelo.
Porotrolado,queelestadsticoFseaaltotambinesbueno,lavariabilidadexplicadaporelmodeloesmayorquelaquesequeda
sinexplicar.AsF = 44.75conunasignificacinp < 0.05quieredecirquenuestromodeloderegresinresultasignificativamente
mejorqueelmodelobsico.Veamosahorasipodemosmejorarelajuste.
Seleccindelmodelo
Vamosaaplicarlostresmtodosanuestrosmodelosparacmofuncionacadaunodeellos.Comenzamosconelmtodoms
recomendable,laeliminacinhaciaatrs( "backward" ).
step(modelCir,direction="backward")
##Start:AIC=221.95
##cirrosis~poblacion+cerveza+vino+licorDuro
##
##DfSumofSqRSSAIC
##licorDuro114.674625.8220.09
##poblacion118.244629.3220.13
##<none>4611.1221.95
##cerveza1436.385047.5224.11
##vino12414.637025.7239.32
##
##Step:AIC=220.09
##cirrosis~poblacion+cerveza+vino
##
##DfSumofSqRSSAIC
##poblacion16.34632.1218.16
##<none>4625.8220.09
##cerveza11046.85672.6227.48
##vino14278.98904.7248.22
##
##Step:AIC=218.16
##cirrosis~cerveza+vino
##
##DfSumofSqRSSAIC
##<none>4632.1218.16
##cerveza12459.67091.7235.75
##vino14951.39583.4249.60
##
##Call:
##lm(formula=cirrosis~cerveza+vino,data=dfbeb)
##
##Coefficients:
##(Intercept)cervezavino
##16.0011.3661.972
Elprocesocomienzaconelmodelocompletoyconun AIC globalde 221.95 .Enelprimerpasoseconsideralaeliminacinde

todaslasvariablesexplicativasysecalculael AIC relativoadichaeliminacin. R seleccionalavariable licorDuro (variableque
quedanporencimade <none> ),yaquesueliminacinproporcionaun AIC mspequeo.El AIC resultantetrasestepasoyconel
quecompararemosenelsiguientees 220.09 .
Seconsideraahoralaposibleeliminacindealgunadelastresvariablesrestantesysesacadelmodelolavariable poblacin
quedndonosconun AIC de 218.16 .
Porltimoseconsideralaposibilidaddesuprimiralgunadelasdosvariablesrestantes,sinembargo,vemosqueelproceso
consideraqueestadsticamenteresultamejorquepermanezcanenelmodeloyaquealeliminarlasel AIC aumenta,comomnimo,
hasta 235.75 .
Utilizamosahoraelmtododedosdireccionescambiandoelcomandoa
step(modelCir,direction="both")
##Start:AIC=221.95
##cirrosis~poblacion+cerveza+vino+licorDuro
##
##DfSumofSqRSSAIC
##licorDuro114.674625.8220.09
##poblacion118.244629.3220.13
##<none>4611.1221.95
##cerveza1436.385047.5224.11
##vino12414.637025.7239.32
##
##Step:AIC=220.09
##cirrosis~poblacion+cerveza+vino
##
##DfSumofSqRSSAIC
##poblacion16.34632.1218.16
##<none>4625.8220.09
##+licorDuro114.74611.1221.95
##cerveza11046.85672.6227.48
##vino14278.98904.7248.22
##
##Step:AIC=218.16
##cirrosis~cerveza+vino
##
##DfSumofSqRSSAIC
##<none>4632.1218.16
##+poblacion16.34625.8220.09
##+licorDuro12.74629.3220.13
##cerveza12459.67091.7235.75
##vino14951.39583.4249.60
##
##Call:
##
##Coefficients:
##(Intercept)cervezavino
##16.0011.3661.972
Partimosdeun AIC=221.95 yenelprimerpasoseeliminalavariable licorDuro ,reducindoseaun 220.09 .Enelsiguientepaso

ademsdelaeliminacindelrestodelasvariablesseconsideralaentradadenuevodelavariable,aunqueseoptaporsuprimir
poblacin reduciendoel AIC a 218.16 .Enelltimopasosecomparaentrelaposibilidadderecuperaralgunadelasvariables
eliminadasosuprimiralgunams.Sedecidenohacernada,nieliminarmsnimeterlasantiguas,quedandoelmodelocon
cerveza y vino .
Veamosporltimolaseleccinhaciadelante( forward ).Debemospartirdelmodelomssencillo,sloconlaconstante,eindicar

cualessonlasposiblesvariablesexplicativas
mdlCir0<lm(cirrosis~1,data=dfbeb)
step(mdlCir0,direction="forward",~poblacion+cerveza+vino+licorDuro)
##Start:AIC=291.23
##cirrosis~1
##
##DfSumofSqRSSAIC
##+vino1176507091.7235.75
##+cerveza1151589583.4249.60
##+poblacion11388310858.7255.35
##+licorDuro11150713234.6264.45
##<none>24741.3291.23
##
##Step:AIC=235.75
##cirrosis~vino
##
##DfSumofSqRSSAIC
##+cerveza12459.584632.1218.16
##+poblacion11419.045672.6227.48
##+licorDuro1562.066529.6233.95
##<none>7091.7235.75
##
##Step:AIC=218.16
##cirrosis~vino+cerveza
##
##DfSumofSqRSSAIC
##<none>4632.1218.16
##+poblacion16.29314625.8220.09
##+licorDuro12.72874629.3220.13
##
##Call:
##lm(formula=cirrosis~vino+cerveza,data=dfbeb)
##
##Coefficients:
##(Intercept)vinocerveza
##16.0011.9721.366
Eselmismoprocedimientoqueparaelmtodohaciaatrsperoaqusepartedelmodelosinvariablesexplicativasyseconsidera
encadapasolaposibleinclusindeunanuevavariable(lossignosahorason + ).Laprimeravariablequeseaadealmodeloes
vino seguidade cerveza pueslainclusindealgunadelasotrasincrementael AIC .
Entodoslosmtodosnoshemosquedamosconelmismomodelofinal.Laltimapartedelmtodomuestraloscoeficientesdel
modeloconelquenosquedamosfinalmente,quees
modelCirf<lm(cirrosis~cerveza+vino,data=dfbeb)
summary(modelCirf)
##
##Call:
##
##Residuals:
##Min1QMedian3QMax
##18.81586.85390.05997.216016.3714
##
##Coefficients:
##(Intercept)16.000810.15301.5760.122
##cerveza1.36560.28584.7782.08e05***
##vino1.97230.29096.7802.69e08***
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Fstatistic:93.34on2and43DF,pvalue:2.268e16
Enestemodelofinallamedianadelosresiduosesprcticamentecero,loquevaasignificarquelosresiduosvanatenerunamedia
muycercanaa0.Vemosquelasdosvariables cerveza y vino sonsignificativas.Tenemosunerrorestndarde 10.38 ,yun
2
R a = 0.8041 loquesignificaqueelmodeloexplicaun80%delavariabilidaddelosdatos.FinalmentevemosqueeltestFes
significativo(p < 0.01)conunvalorelevado,locualnosindicaqueelmodeloseajustasignificativamentealosdatos.
anova(modelCirf)
##
##Response:cirrosis
##DfSumSqMeanSqFvaluePr(>F)
##cerveza115158.015158.0140.7133.787e15***
##vino14951.34951.345.9632.685e08***
##Residuals434632.1107.7
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
Latablaanovanosconfirmaquelasvariablesexplicativasdenuestromodelosonsignificativas,yvemosquelasumadecuadrados
explicadaporelmodeloesmuchomayorquelasumadecuadradosdelosresiduos,portantopodemosafirmarqueR2 0.
Aplicarelmodelo
Podemosutilizarlaparte Coefficients proporcionaelresumendelmodeloparaanalizarindividualmentelacontribucindecada

variablepredictoralaexplicacindeladependiente.
Definimoselmodeloreemplazandolosbvaloresenlaecuacininicialyobtenemoselmodelo
cirrosis = 16.001 + 1.366 cerveza + 1.972 vino
ParaesteapartadonoshemosapoyadofundamentalmenteenellibroJ.Faraway(2009).
Alhabergeneradoelmodelobasndonosenunamuestranostenemosquepreguntarsielmodeloseajustabienalosdatos
observadosoestinfluenciadoporunpequeonmerodecasos,yporotroladosielmodelosepuedegeneralizaraotras
muestras.Esunerrorpensarqueporqueunmodeloseajustebienalosdatosobservadosentoncespodemostomarconclusiones
msalldenuestramuestra.
Parapodergeneralizarunmodeloderegresindebemoscomprobarlossupuestosdelmodelo,yunavezsegurosdequese
cumplen,paracomprobarsielmodelosepuedegeneralizarutilizaremoslavalidacincruzada.Empezamosanalizando
grficamentelossupuestos
plot(modelCirf,which=1,pch=20)
Esteprimergrficoenfrentaloserroresresidualesfrenteasusvaloresajustados.Elresiduosdebenestardistribuidosalazar
alrededordelalneahorizontalquerepresentaunerrorresidualdeceroesdecir,nodebehaberunatendenciaclaraenla
distribucindepuntos.Unatendenciaenlavariabilidaddelosresiduossugierequelavarianzaestrelacionadaconlamedia,
violandoelsupuestodevarianzaconstante.
Sielgrficotieneformadeembudo,esdecir,silospuntosparecenestarmsomenosextendidosalolargodelgrfico,entonceslo
msprobableesqueexistaheterocedastididadenlosdatos.Enestecasolosdatosparecenexhibirunaligeratendenciaconun
incrementodelavarianzaenlosextremos.
Sihubieraalgntipodecurvaenlagrficaentoncessehavioladoelsupuestodelinealidad.Ysilosdatosparecenseguirunpatrn
yademsestnmsextendidosporenalgunospuntosdelagrficaqueenotrosentoncesprobablementeseincumplanlos
supuestosdehomogeneidaddevarianzaylinealidad.
Engeneral,paracequeennuestromodelonoseviolanningunodelossupuestos.
Enestegrficolosresiduostipificadossetrazancontraloscuantilesdeunadistribucinnormalestndar.Silosresiduosse
distribuyennormalmentelosdatossedebensituaralolargodelalnea.Enestecaso,losdatosnohacenparecenteneruna
distribucinnormal.
Elterceroeselgrficoescalaubicacinenelquelosresiduosestnestandarizadosporsusdesviacionesestndarestimadas.Esta
grficaseutilizaparadetectarsiladifusindelosresiduosesconstanteenelrangodevaloresajustados.Unavezms,seaprecia
unatendenciamuyleveenlosdatosdetalmaneraquelosvaloresaltosmuestranunamayorvariacin.
Finalmenteelcuartogrficomuestraelvalorleveragedecadapunto,lamedidadesuimportanciaenladeterminacindelmodelo
deregresin.Estnrepresentadoslosdatosqueejercenmayorinfluencia.
SuperponenaldiagramadepuntosleveragelascurvasdenivelparaladistanciadeCook,queesotramedidadelaimportanciade
cadaobservacinalaregresin.SilalneadedistanciaCooksabarcaaalgnpuntodedatos,significaqueelanlisispuedeser
muysensibleaesepuntoyquizseaconvenienterepetirelanlisisexcluyendolosdatos.Distanciaspequeassignificanquela
eliminacindelaobservacintienepocoefectosobrelosresultadosdelaregresinydistanciasmayoresa1sonsospechosas,
sugierenlapresenciadeunposiblevaloratpicoodeunmodelopobre.
Pasamosahoraaestudiarelmodeloanalticamente,paraelloobtenemoslosresiduos,losvaloresajustadosyestadsticosdel
modelomedianteelsiguientecdigo:
dfbeb$fitted.modelCirf<fitted(modelCirf)
dfbeb$residuals.modelCirf<residuals(modelCirf)
dfbeb$rstudent.modelCirf<rstudent(modelCirf)
3.5.1Normalidad
EnelgrficoQQplotquevimosantessugerafaltadenormalidadenlosdatos.Locomprobamos
ks.test(dfbeb$rstudent.modelCirf,"pnorm")
##
##OnesampleKolmogorovSmirnovtest
##
##data:dfbeb$rstudent.modelCirf
##D=0.1058,pvalue=0.6434
##alternativehypothesis:twosided
hist(dfbeb$rstudent.modelCirf,xlab="residuos",main="Histogramaresiduos")
#densidad
Elpvalorparaelcontrastedenormalidadesmayorque 0.05(p=0.6434) yademselhistogramasepareceaunadistribucin

normal(curvaenformacampana)entoncesnohayproblemasdenormalidad.
bptest(modelCirf,studentize=FALSE,data=dfbeb)
##
##BreuschPagantest
##
##data:modelCirf
##BP=0.6665,df=2,pvalue=0.7166
Significacin p=0.7166 ,mayorde 0.05 ,porloquepodemosdecirquelavarianzaesconstantealolargodelamuestra.
3.5.3Autocorrelacin
dwtest(modelCirf,alternative="two.sided",data=dfbeb)
##
##DurbinWatsontest
##
##data:modelCirf
##DW=2.5152,pvalue=0.07225
##alternativehypothesis:trueautocorrelationisnot0
Aceptamoslahiptesisnuladequenoexistecorrelacinentrelosresiduosconunpvalorsuperiora 0.05 .
3.5.4Casosatpicosyresiduos
Podemosencontrarlosvaloresatpicosobservandograndesdiferenciasentrelosdatosmuestralesylosdatosajustadosporel
modelo,esdecir,estudiandolosresiduos.
Sielmodeloseajustabienalosdatosmuestralesentoncestodoslosresiduossernpequeos,mientrasquesielajustedelmodelo
espobrelosresiduosserngrandes.Adems,sialgncasosobresaleportenerungranresiduoestepodraserentoncesunvalor
atpico.
Vamosaanalizarsiexistenvaloresatpicosennuestroejemplo.Enelprimergrficoenfrentamos cirrosis con cerveza yenel

segundo cirrosis con vino .
Paraesteprimergrficoseobservandosposiblesvaloresatpicos.
Estudiamoselgrficoparalasotrasdosvariables
Seobservanlosmismoscandidatosavaloresatpicos.HacemoseltestdeBonferroniparacomprobarlo.
outlierTest(modelCirf)
##
##NoStudentizedresidualswithBonferonnip<0.05
##Largest|rstudent|:
##rstudentunadjustedpvalueBonferonnip
##151.9062360.063478NA
Obtenemosqueelvalor 15 esunatpico.
3.6Anlisisdelainfluencia.
Conesteanlisispretendemosversihayalgunaobservacinqueesdemasiadoinfluyentesobreloscoeficientesdelmodelo,nos
ayudaadeterminarsielmodeloderegresinesestablealolargodelamuestraosiestperjudicadoporunospocoscasos
influyentes.
Utilizamoslafuncin influence.measures quenosproporcionatodaslasmedidasdeinfluencia.Explicamos,apartirdelos

resultadosdeaplicarlafuncin,cadaunadelasmedidas:
infl<influence.measures(modelCirf)
summary(infl)
##Potentiallyinfluentialobservationsof
##lm(formula=cirrosis~cerveza+vino,data=dfbeb):
##
##dfb.1_dfb.crvzdfb.vinodffitcov.rcook.dhat
##200.100.010.450.601.200.120.20_*
##380.260.300.310.351.45_*0.040.27_*
Analizamoslatablaresumen:
laprimeracolumnaindicaelndicedelasobservacionespotencialmenteinfluyentes.
lascolumnasquecomienzancon dfb proporcionanlasobservacionespotencialmenteinfluyentessobrecadaunodelos
coeficientesdelmodelo.
lacolumna dffits identificalasobservacionesinfluyentessegnelestadsticoDFFITS.
lacolumna cov.r muestralasobservacionespotencialmenteinfluyentessegnelestadsticoCOVRATIO.
lacolumna cook.d proporcionaladistanciadeCook.
laltimacolumnapresentalasobservacionesquepuedenresultarinfluyentessegnlos leverages .
Encadacolumnaelasteriscosealasirealmentelaobservacinpuedeserinfluyente.Enestecasotenemosquelaobservacin
38 resultainfluyenteconelestadstico cov.r ,ylas 38 yla 20 paralos`leverages.
Analizamosunpocomsestasmedidas:
Losleverages(hat)varanentre 0 (indicandoqueelcasonotieneinfluenciaenabsoluto)y 1 (indicandoqueesecasotiene

influenciacompletasobreelmodelo).Siningunodeloscasosejerceexcesivainfluenciasobreelmodeloentoncesesperaremos
quetodoslosvaloresleverageestnentornoalvalormedio ((k+1)/n) ,donde k eselnmerodepredictoresy n elnmero
departicipantes.Buscamosvaloreseldobleotripleque ((k+1)/n) paraconsiderarloscomoinfluyentes.
ParaladistanciadeCookseconsideraquevaloresmayoresque 1 puedensercausadepreocupacin.Siuncasoesun
valoratpicoperosudistanciadeCookesmenorque1,entoncesnoexistenecesidadrealdeeliminarestedatoyaque
realmentenotieneungranefectosobreelmodeloderegresin.
Loestudiamosgrficamente.Enelprimergrficosemuestramediantecrculosdedistintotamaolainfluenciaquecadapunto
ejercesobreelmodeloyenelsegundoestnrepresentadasenordenascendentelasdistanciasdeCooks.
influencePlot(modelCirf,id.n=2)
##StudResHatCookD
##121.78342160.092356420.3204258
##151.90623580.040154420.2185110
##201.22035020.196684240.3466640
##301.78103840.165001360.4459772
##380.56648080.274948480.2030124
Enesteprimergrficovemosquelasmedidasmsinfluyentessonla30,la20yla12.VemoselgrficodelasdistanciasdeCook.
cook<cooks.distance(modelCirf)
labels<rownames(dfbeb)
Enestegrficovolvemosaobtenerquelospuntosmsinfluyentessonel30,el20yel12,perocomoenningncasoestadistancia
esmayorque1,puesparaelvalormselevadoes0.2,podemosafirmarqueningunodeellosesuncasoatpicoynoesnecesario
eliminarlosdelmodelo.
Laformahabitualdeprocedereseliminardichasobservacionesdelmodeloycomenzardenuevotodoelproceso,sinembargo
comoelmodelocumpletodaslashiptesis,eliminardichasobservacionespodraprovocarqueelnuevomodelofueraincorrectoy
tuviramosquevolveralmodeloanterior.
Hayquetenerencuentaqueloslmitesmarcadosparaidentificarunaobservacincomoinfluyentesonaproximados,yportanto
debensertomadoscomoorientacin,asalvoqueelvalorobtenidoseaexageradamentellamativo.
3.7Validacincruzada
Alutilizarmtodospasoapasoesrecomendablehacerunavalidacincruzadadenuestromodeloparaevaluarsueficacia
prediciendolavariabledependienteenunamuestradiferente.Evaluarlaprecisindeunmodeloatravsdediferentesmuestrases
loqueseconocecomovalidacincruzada.
Parapodergeneralizarunmodeloestedebesercapazdepredecirconprecisinlamismavariabledependientedelmismoconjunto
depredictoresenungrupodiferentedegente.Siaplicamoselmodeloaunamuestradiferenteysupoderpredictivosereduce
severamente,entoncesnoesgeneralizable.
ElmtodousualescalcularademsdelaR2 suvalorajustado,puesesunindicadordelaprdidadepoderpredictivo.MientrasR2
nosdicecuntavarianzadeY representaelmodeloderegresin,laR2a cuantificalavarianzadeY querepresentaraelmodelosi
estehubierasidoobtenidodelapoblacindondehemostomadolamuestra.SilosvaloresdeR2 yR2a estnprximossignificaque
elmodeloderegresinesbueno.
Sinembargo,estamedidahasidocriticadaporquenodicenadasobrelaefectividaddelmodeloderegresinsiseaplicaaun
conjuntodedatostotalmentedistinto.Unaalternativaserapartirlosdatosycruzarlos,esdecir,hacerunadivisinaleatoriadel
conjuntodedatos(p.ejun80%20%),calcularlaecuacinderegresinenambosconjuntosycompararlosmodelosresultantes.
ComparandolosvaloresdeR2 ylosbvaloresenlasdosmuestraspodemossaberlabondaddelmodelooriginal.
Pararealizarlavalidacincruzadaen R usamoslafuncin cv.lm(datos,modelo,m) ,donde m eselnmerodesubconjuntosen

losqueasignamoslosdatosalazar.Cadasubconjuntoseretiradelmodelo,sucesivamente,mientrasquelosdatosrestantesse
utilizaparavolveraajustarelmodeloderegresinypredecirenlasobservacioneseliminados.
library(DAAG)
cv.lm(dfbeb,modelCirf,m=2)
3.8Prediccin
Paracalcularlasecuacionesdeprediccinprocedemosdeformasimilaralcasoderegresinlinealsimple,lanicadiferenciaes
quehayquedarvalorespredictivosparatodaslasvariablesqueaparezcanenelmodelo.
#Definiendounintervaloparalavblevino.
x0<seq(min(dfbeb$vino),max(dfbeb$vino),length=length(dfbeb$vino))
dbp<data.frame(poblacion=56,cerveza=41,vino=x0,licorDuro=58)
pred<predict(modelCirf,dbp,interval="prediction",se.fit=TRUE,data=dfbeb)
head(pred$fit)
##fitlwrupr
##143.9349822.0861165.78385
##245.2060223.4483666.96368
##346.4770524.8043968.14972
##447.7480926.1541469.34204
##549.0191327.4975370.54072
##650.2901628.8345171.74582
3.9Diagnsticosdecolinealidad(multicolinealidad)
Sienunmodeloderegresinlinealmltiplealgunavariablepredictoraescombinacinlinealdeotrasdelasvariablesdelmodelo,
entonceselmodeloesirresoluble,debidoaqueenesecasolamatrizX Xessingular,esdecir,sudeterminanteesceroynose
puedeinvertir.
UnavariableX1 escombinacinlinealdeX2 ,,Xi coni > 2,sidichasvariablesestnrelacionadasporlaexpresin

X1 = 1 + 2 X2 +. . . + i Xi ,siendolos i constantes.Entalcasoelcoeficientedecorrelacinmltipletambinser 1 .
Portanto,lamulticolinealidadexistesihayunafuertecorrelacinentredosomsvariablespredictorasdelmodelo,esdecir,cuando
algunodeloscoeficientesdecorrelacinsimpleomltipleentrealgunasdelasvariablesindependienteses 1 .Siexisteuna
colinealidadperfectaentrepredictoresesimposibleobtenerestimadoresnicosparaloscoeficientesderegresinyaquehayun
nmeroinfinitodecoeficientesquefuncionaranigualdebien.
Enlaprcticaestacolinealidadexactararasvecesocurre,perossurgeconciertafrecuencialallamadacasicolinealidad,cuando
algunavariableescasicombinacinlinealdeotrauotras.Dichodeotromodo,algunoscoeficientesdecorrelacinsimpleo
mltipleentrelasvariablesindependientesestncercanosa1,aunquenolleganadichovalor.

EnesecasolamatrizX Xescasisingular,esdecir,sudeterminantenoesceroperoesmuypequeo.Comoparainvertiruna
matrizhayquedividirporsudeterminantesurgenproblemasdeprecisinenlaestimacindeloscoeficientes,yaquelosalgoritmos
deinversindematricespierdenprecisinaltenerquedividirporunnmeromuypequeo,siendoademsinestables.
Hayvariasformasdedetectaresteproblema:
Observarlosestadsticosestimados:cuandolapruebamuestraqueelmodeloesglobalmentesignificativo,esdecir,quelos
coeficientesestimadossonestadsticamentediferentesdecero,peroseencuentranunosvaloresestimadosbajosque
demuestranqueloscoeficientesnosonsignificativos.
Observarlamatrizdecorrelacinentreparejasderegresores:siestecoeficienteesmayora0.8entoncesla
multicolinealidadesunproblemagrave.Sinembargo,estacondicinsepuedeconsiderarsuficienteperononecesaria,la
multicolinealidadpuedeexistirapesardequelascorrelacionesseancomparativamentebajas(esdecir,inferioresa0.5).
Regresionesauxiliares:dadoquelamulticolinealidadsurgeporlarelacinlinealentrevariablesexplicativas,sepueden
estimarregresionesentrelasvariablesexplicativasyadoptarlareglaprcticadeKlien.Estesugierequesielmodeloobtenido
enlaregresinauxiliaresmayorqueelglobalobtenidocontodoslosregresores,hayunserioproblemademulticolinealidad.
EstimarelFactordeInflacindeVarianza(FIV):indicasielpredictortieneunafuerterelacinlinealconotropredictoryesel
quevamosacalcularcon R .Aunquenoexistenreglasgeneralessetienenlossiguientescriterios:
Un VIF>10 escausadepreocupacin.
Si VIF essustancialmentemayorque 1 entonceslaregresinpuedeverseperjudicada.
Tolerancia=1/VIF debajode 0.1 indicaunproblemaserio.
Tolerancia debajode 0.2 indicaunproblemapotencial.
Siidentificamosmulticolinealidadnohaymuchoquepodamoshacer,lasolucinnoesfcil:
Podemosintentareliminarlavariablemenosnecesariaimplicadaenlacolinealidad,ariesgodeobtenerunmodelomenos
vlido.Sinembargo,unproblemacomnesnosaberquvariabledebemosomitir.Cualquieradelasvariablesproblemticas
puedeseromitida,nohayfundamentosestadsticosparasuprimirunavariableenvezdeotra.
Serecomiendaquesieliminamosunavariablepredictora,stasereemplaceporotraigualmenteimportantequenotengauna
colinealidadtanfuerte.
Sepuedeintentarcambiarlaescalademedidadelavariableenconflicto(esdecir,transformarla).Sinembargoestas
transformacioneshacenalmodelomuydependientedelosdatosactuales,invalidandosucapacidadpredictiva.
Tambinsepuederecurriraaumentarlamuestraparaasaumentarlainformacinenelmodeloyversilamulticolinealidad
puededisminuir,aunquenosiempreserposible.
Laltimaposibilidad,aunquemscomplejacuandohayvariospredictores,eshacerunanlisisfactorialyusarlaspuntuaciones
delfactorresultantecomopredictor.
Supongamosqueestamosenelejemplode dfbeb ylerealizamosuntestdemulticolinealidadal modelCirf :
vif(modelCirf)
##cervezavino
##1.6931821.693182
sqrt(vif(modelCirf))>2
##cervezavino
##FALSEFALSE
Nuestromodelonopresentaproblemasdemulticolinealidad.
#Leerlosdatosdeunfichero.csv
df<read.table("files/40Afile.csv",sep=";",head=TRUE)
###Primeraaproximacinalosdatos
str(df)
summary(df)
#CorrelacinGrficodedispersinmultivariante
pairs(df,panel=panel.smooth)
#Matrizdecorrelacin
cor(df,use="everything",method="pearson")
corr.test(df,use="complete",method="pearson")
##Correlacinparcial(sifueranecesario)
library("ppcor")
pcor.test(df$var1,df$var2,df$var3)
#Modeloderegresinmltiple
##Creamoselmodeloderegresin
modelo<lm(var1~var2+var3+...,data=df)
summary(modelo)#analizamoselmodeloinicial
##Comparacindemodelos(encajados)
anova(model3,model1)
anova(model3,model2)
##SeleccindelmodelomediantelosmtodospasoapasoMtodohaciaatrs
step(modelo,direction="backward")
###Mtododedossentidos
step(modelo,direction="both")
###Mtodohaciadelante
mdlCir0<lm(var1~1,data=df)
step(mdlCir0,direction="forward",~var1+var2+var3+var4)
modelo<lm(var1~var2+var3,data=df)
#Anlisisdelmodelofinal
summary(modelo)
anova(modelo)
##Diagnsitcodelmodelo
#Grficamente
plot(modelo,which=1)
##ContrastesObtenemoslosresiduosdelmodeloyvaloresajustados
df$fitted.modelo<fitted(modelo)
df$residuals.modelo<residuals(modelo)
df$rstudent.modelo<rstudent(modelo)

###Normalidad
ks.test(df$rstudent.modelo,"pnorm")
hist(df$rstudent.modelo,xlab="residuos",main="histogramaresiduos")

###Homogeneidaddevarianzas
library(lmtest)
bptest(modelo,studentize=FALSE,data=df)

###Autocorrelacin
dwtest(modelo,alternative="two.sided",data=df)

###Valoresatpicos
library(car)
outlierTest(modelo)

###AnlisisdelainfluenciaTablaconlasmedidasdeinfluencia
infl<influence.measures(modelo)
summary(infl)

####Grficomedidasinfluyentes
influencePlot(modelo,id.n=2)

####GrficodelasdistanciasdeCook
cook<cooks.distance(modelo)
labels<rownames(df)
library(faraway)

##validacincruzada
library(DAAG)
cv.lm(df,modelo,m=2)

#Prediccin.Valoresconcretosdecadavble
predict(modelo,data.frame(var1=39,var=62,var3=18),interval="prediction",
data=df)

#Poniendounintervaloparaunadelasvbles.
x0<seq(min(df$var2),max(df$var2),length=length(df$var2))
pred<predict(modelo,data.frame(var2=x0),interval="prediction",data=df)
head(pred)

#Multicolinealidad
library(car)
vif(modelo)
sqrt(vif(modelo))>2
3.11Predictorescategricos.Variablesdummy
Unodelossupuestosdelaregresinlinealesquelasvariablesdelmodelodebensercontinuasocategricasconsolodos
categoras.Enelcasodevariablesconmsdedoscategorasusaremosloqueseconocecomovariablesdummy,variables
ficticias,simuladas.
Estacodificacinesunamaneraderepresentarvariosgruposdepersonasperousandoslounosyceros.Elprocesoconsiste
crearvariasvariablessiguiendoestospasos:
1.Contarelnmerodegruposquequeremosrecodificaryrestarle1.
2.Creartantasnuevasvariablescomoelvalorobtenidoen1.Estassernlasvariablesdummy.
3.Elegirunodelosgruposcomoelgrupodereferencia,esdecir,elgrupocontraelquesevanacomparartodoslosdems
grupos.Normalmentesetomaelgrupocontroloaquelquerepresentaalamayoradelapoblacin.
4.Elegidoelgruporeferenciafijamoselvalor0aesegrupoentodaslasvariablesdummy.
5.Paralaprimeravariabledummyasignamoselvalor1alprimergrupoquequeramoscompararcontraelgruporeferencia.Al
restodegruposledamoselvalor0.
6.Enlasegundavariabledummydamoselvalor1alsegundogrupoquequeramoscotejary0alrestodegrupos.
7.Repetimoselprocesohastaacabarcontodaslasvariablesdummy.
Veamoscmohacerunacodificacindummyen R .Paraelloutilizamoselconjuntodedatos 40Afestival.csv ,archivoque

contienelosnivelesdehigienedelosasistentesaunfamosofestivalmurcianoyunavariablequemideelcambioenlahigiene
durantesustresdasdeduracin.
Losindividuosestnclasificadosencuatrogrupossegnsusestilosmusicales,estossonindie,metal,popysinestilopredominante.
Queremosestudiarloscambiosdehigieneparacadaunodeellosalolargodelfestival.
dffest<read.table("files/40Afestival.csv",sep=";",head=TRUE)
head(dffest)
##ticknumbermusicadia1dia2dia3cambio
##12111metal2.651.351.611.04
##22229pop0.971.410.290.68
##32338sinestilo0.84NANANA
##42384pop3.03NANANA
##52401sinestilo0.880.08NANA
##62405pop0.85NANANA
Observamosquealcontenertexto, R haconvertidolavariable musica enunfactorde4nivelesordenadosde1a4.
str(dffest)
##'data.frame':810obs.of6variables:
##$ticknumber:int2111222923382384240124052467247824902504...
##$musica:Factorw/4levels"indie","metal",..:2343431134...
##$dia1:num2.650.970.843.030.880.851.563.022.291.11...
##$dia2:num1.351.41NANA0.08NANANANA0.44...
##$dia3:num1.610.29NANANANANANANA0.55...
##$cambio:num1.040.68NANANANANANANA0.56...
levels(dffest$musica)
##[1]"indie""metal""pop""sinestilo"
Empezamosconungrficoparahacernosunaideadecmoafectalaspreferenciasmusicalesdelosasistentesasuscambiosenla
higieneduranteeldesarrollodelfestival.
plot(cambio~musica,data=dffest)
Creamoslasvariablesdummy.Lopodemoshacerautomticamentemedianteelcomando
contr.treatment(numerodegrupos,base=nmerodelgruporeferencia) ,dondeennuestrocasotenemoscuatrogruposyelgrupo
dereferenciaeselltimo,sinestilo.
contrasts(dffest$musica)<contr.treatment(4,base=4)
##attr(,'contrasts')123indie100metal010pop001sinestilo00
##0Levels:indiemetalpopsinestilo
Espreferiblehaceresteprocesodeformamanualyaquetenemoscontrolsobrelacodificacinypodemosponernombres
significativosalasvariables.Tomamoslacategorasinestilocomogruporeferencia
Indie_dum<c(1,0,0,0)
Metal_dum<c(0,1,0,0)
Pop_dum<c(0,0,1,0)
contrasts(dffest$musica)<cbind(Indie_dum,Metal_dum,Pop_dum)
Siinspeccionamoslavariable dffest$musica vemosqueseobtieneelmismoresultado
##attr(,'contrasts')indie_dummetal_dumpop_dumindie100metal010pop
##001sinestilo000Levels:indiemetalpopsinestilo
Unavezcreadaslasvariablesdummyseejecutaelmodeloderegresindelamismamaneraqueparacualquierotrotipode
regresin
modelFesti<lm(cambio~musica,data=dffest)
summary(modelFesti)
##
##Call:
##lm(formula=cambio~musica,data=dffest)
##
##Residuals:
##Min1QMedian3QMax
##1.825690.504890.055930.424301.59431
##
##Coefficients:
##(Intercept)0.554310.090366.1341.15e08***
##musicaIndie_dum0.409980.204922.0010.0477*
##musicaMetal_dum0.028380.160330.1770.8598
##musicaPop_dum0.411520.167032.4640.0152*
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##(687observationsdeletedduetomissingness)
ElcoeficienteR2 nosdicequeconlasvariablesdummypodemosexplicarel7.6%delavariabilidadenelcambiodehigienedel
individuosegnseasuafiliacinmusical,yelestadsticoFqueestavarianzaessignificativa.Pasamosaexaminarloscoeficientes
delmodelo.
Recordemosquelosvaloresbetamuestranelcambioenlavariablerespuestaprovocadoporelcambiodeunaunidadenel
predictor.Enestecasoelcambiodelpredictoresde0a1ycomoelgruporeferenciaessiemprecero,losvaloresbetarealmente
nosproporcionanladiferenciarelativaentrecadagrupoyelgrupoelegidocomoreferencia.As,elvalordelavariable Indide_dum
indicaladiferenciaenelcambiodehigienedeunapersonasinafiliacinmusicalcomparadaconunapersonaalaquelegustala
msicaindie.
Elestadsticotcontrastasiestasdiferenciassoncero.Siessignificantequieredecirqueelgrupocodificadocon1es
significativamentediferentedelgrupodereferencia.Paraestaprimeravariableelttestessignificativoyelvalorbetanegativoporlo
quepodemosdecirquelahigieneempeoradeunapersonasinafiliacinmusicalaunaindie.
Paralasegundavariable, metal_dum ,obtenemosunvalorpositivoparabeta,sinembargonoessignificativoporloquepodramos

decirqueelcambioenlahigienealolargodelostresdasdelfestivaleselmismoparaunapersonasinafiliacinmusicalquepara
unaquelegustaelmetal.
Referenciasybibliografa
AliS.Hadi,S.C.&.(2006).LinearModelswithR(4thedition.).JohnWiley&Sons.Retrievedfrom
http://samples.sainsburysebooks.co.uk/9780470055458_sample_381725.pdf
(http://samples.sainsburysebooks.co.uk/9780470055458_sample_381725.pdf)
Ferrari,D.,&Head,T.(2010).RegressioninR.PartI:SimpleLinearRegression.UCLADepartmentofStatisticsStatistical
ConsultingCenter.RetrievedOctober13,2014,fromhttp://scc.stat.ucla.edu/page_attachments/0000/0139/reg_1.pdf
(http://scc.stat.ucla.edu/page_attachments/0000/0139/reg_1.pdf)
Field,A.,Miles,J.,&Field,Z.(2012).DiscoveringStatisticsUsingR(1stedition.).SagePublicationsLtd.
J.Faraway,J.(2009).LinearModelswithR(1stedition.).Taylor&FranciseLibrary.Retrievedfrom
http://home.ufam.edu.br/jcardoso/PPGMAT537/Linear%20Models%20with%20R.pdf
(http://home.ufam.edu.br/jcardoso/PPGMAT537/Linear%20Models%20with%20R.pdf)
Kabacoff,R.(2014).Creatingafigurearrangementwithfinecontrol.RetrievedOctober13,2014,from
http://www.statmethods.net/advgraphs/layout.html(http://www.statmethods.net/advgraphs/layout.html)
Prez,J.L.(2014).LAESTADSTICA:UNAORQUESTAHECHAINSTRUMENTO.RetrievedOctober13,2014,from
http://estadisticaorquestainstrumento.wordpress.com/(http://estadisticaorquestainstrumento.wordpress.com/)
Snchez,J.G.P.(2011).Regresinlinealsimple.UniversidadPolitcnicadeMadrid.RetrievedOctober13,2014,from
http://ocw.upm.es/estadisticaeinvestigacionoperativa/introduccionalaestadisticabasicaeldisenodeexperimentosyla
regresionlineal/contenidos/Materialdeclase/Regresion.pdf(http://ocw.upm.es/estadisticaeinvestigacionoperativa/introducciona
laestadisticabasicaeldisenodeexperimentosylaregresionlineal/contenidos/Materialdeclase/Regresion.pdf)
(SCG),S.S.C.G.(2013).MultipleLinearRegression(R).SanDiegoStateUniversity.RetrievedOctober13,2014,from
http://scg.sdsu.edu/mlrr/(http://scg.sdsu.edu/mlrr/)
SPSS.(2007).Anlisisderegresinlineal:ElprocedimientoRegresinlineal.IBMSPSSStatistics.RetrievedOctober13,2014,from
http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales/analisis_datosyMultivariable/18reglin_SPSS.pdf
(http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales/analisis_datosyMultivariable/18reglin_SPSS.pdf)

ANALISIS DECorrelacionRegresion

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

ANALISIS DECorrelacionRegresion

Enviado por

Direitos autorais:

Formatos disponíveis

FEIR40:ModelosdeRegresin

conloscoeficientessignificativosconunniveldesignificacin< 0.01 ,yademstodostienenlamismaR2 = 0.67 y

Seutilizancomounamedidadelafuerzadeasociacin:valores0.1 representanpequeasasociacin,0.3 asociacin

Segnestopodemosdecirqueunar = 0.8 conunpvalorde0.26esenrealidadunacorrelacinmsbajaqueunar = 0.4 con

mismaformaqueenestamuestrahemoscalculadounar = 0.8 enotramuestratomadaenlasmismascondicionespodramos

donded esladistanciaentrelosrangos(XmenosY )yneselnmerodedatos.

method :especificaeltipodecorrelacin.Podemoselegirentre "pearson" (pordefecto), "kendall" ,o "spearman" ).

Enfrentaremoslahiptesisnula(H0 : r = 0,norelacin)frentealahiptesisalternativa(H1 : r 0 existerelacin)mediantela

Ademsdelascorrelacionesqueremostambinlospvaloresperolafuncin cor.test nofuncionaconmatricesasqueutilizamos

Analizandolasalidavemosqueseobtienenlasmismascorrelacionesqueconlafuncin cor() ,aunqueaproximadas,yquelosp

var1 y var2 sonlasvariablesasercorreladas.

control1 , control2 ylassiguientesposiblessonlasvariablesconlasquecontrolamoslacorrelacin.

method=c("pearson","kendall","spearman") ,quepordefectoemplear spearman .

Vamosacalcularlacorrelacinparcialentre Price y Weight controlandoelefectodelavariable Length .

Sicalculamoslacorrelacinsimpleentrelasvariables Price y Weight :

observamosquetieneunvalordiferentealacorrelacinparcialcontroladapor df$Length .Portanto,lasvariables Price y Weight

ElcoeficientedeKendall,sinembargo,noesnumricamentesimilarar or s porloque 2 nonosdicenadasobrelaproporcinde

Calculamoselcoeficientededeterminacinparaelconjuntodedatos newdf anterior:

Seobservaqueeltamaodelefectode EngineSize sobre Weight esmuyelevado,ascomopara Lenght y Weight ,siendosin

Existeunarelacinsignificativaentre var1 y var2 ,r ,

Var1 estsignificativamentecorrelacionadacon var2 ,r s = 0.57 ,ycon var3 ,r s = 0.50 la var2 esttambin

Var2 estsignificativamenterelacionadacon var1 , ,

Comoexistemuchadiferenciaenlasescalasdemedidaaplicamoslafuncinlogaritmo, log() ,alosdatosyaqueeslaquems

puedehaberdosobservacionesconelmismox i ydistintoei .Enesterazonamientosebasarlahiptesisdeindependenciadelos

1.IncorrelacindelosresiduosC orr(ei , ej ) = 0 .Cualquierpardeerroresei yej sonindependientes.

Lasobservacionesyi delavariableY sonindependientes.

i=1 i=1 i=1

Losvalores^0 y^1 sonestimadoresde 0 y 1 .

donde na.action esopcional,puedesertilsitenemosvaloresperdidos.

Creamoselobjeto modelAu quecontienetodoslosresultadosdelajuste.

(3.5795) (0.4832) Ausencias=41.59562.2919*Categoria

1.Enestecasonotienesentidoanalizarelvalordelaconstantepara Categora=0 ,yaquenoperteneceraalaempresa,deah

3.Elerrorestndarresidualestimado(s)esde 5.898 .Estevaloresmuyimportante,esunmedidordelacalidad(precisin)del

Paralaregresinlinealsimple,R2 secorrespondeconelcuadradodelacorrelacinentreY yX.

MientrasqueR2 nosdicecuntavarianzadeY representaelmodeloderegresin,laR2a cuantificalavarianzadeY que

Observacin:niR2 niR2a sonunaindicacindirectadelaeficaciadelmodeloenlaprediccindenuevasobservaciones.

Enel modelAu elvalordeR2 es MultipleRsquared: 0.6164 ,alrededordel62%delavariabilidaddeAusenciasesexplicadapor

Observandolatablavemosque 0 = 41.6 ( intercept )quepodemosinterpretarcomoquesinohubieracategoras(X = 0)el

Existehomogeneidadpueslasignificacinesmayorde 0.05 ,lavarianzaesconstantealolargodelamuestra.

1.Residuosestandarizadosconunvalorabsolutomayorde 3.29 (redondearemosa 3 )soncausadepreocupacinyaquees

2.Simsdel 1% delosvaloresmuestralestienenresiduosestandarizadosconunvalorabsolutomayorde 2.58 (podemosdecir

3.Simsdel 5% deloscasostienenresiduosestandarizadosconunvalorabsolutomayorde 1.96 (usamos 2 por

Enlavariable Categoria vemosquelamediananoestcentradaenlamedia,losdatosnosonuniformes.Conlavariable

Eltestyelgrficonosindicanquelaobservacinnmero 6 esunvaloratpico.Lasobservaciones 5 y 12 quevemosenel

Y i = ( 0 + 1 X1i + 2 X2i + + n Xni ) + ei .

Planteamoselmodelosales ads + cost quetendrecuacines

sales = 0 + 1 ads + 2 cost + e.

Elerrortpicoresiduales 3.99 ,laR2 = 0.684 ,aunqueparaelmodelomltipleesmejorfijarnosensuvalorajustadoR2a = 0.614 .

modelo1 : sales ads + cost

modelo2 : sales ads

modelo3 : sales cost

Comparandoambastablasanovadeducimosqueelmodeloquemejorseajustaalosdatosesel modelo3 puesreduceelerror

dondeneselnmerodecasosenelmodelo,S SR eslasumadecuadradosdelosresiduosdelmodeloyk eselnmerode

Elnicoproblemaesquenoexistendirectricessobreestecriterio,sloquesiel AIC esmayor,elmodeloespeorysiel AIC es

blackward :estemtodoeselopuestoalanterior, R empiezacontodaslasvariablespredictorasenelmodeloyestudiasiel

both :empiezadelmismomodoqueelmtodo forward salvoquecadavezqueunavariablepredictoraesaadidaala

Elmtodomspreferiblees backward debidoalefectorepresorqueocurrecuandounavariablepredictoratieneinfluenciapero

Vamosadesarollarestosmtodosconelejemplo bebidas.csv .Enlsepretendeexplicarlasmuertesporcirrosissegnlabebida

Observandoloscoeficientesvemosquesegnelestadsticotslosonsignificativaslasvariables vino y cerveza ,ahora

Anas,elmodelocontodaslasvariablestieneunerrorestndarde 10.46 yunaR2 = 0.8136 ,aunqueparaelmodelomltiple

Elprocesocomienzaconelmodelocompletoyconun AIC globalde 221.95 .Enelprimerpasoseconsideralaeliminacinde

Partimosdeun AIC=221.95 yenelprimerpasoseeliminalavariable licorDuro ,reducindoseaun 220.09 .Enelsiguientepaso

Veamosporltimolaseleccinhaciadelante( forward ).Debemospartirdelmodelomssencillo,sloconlaconstante,eindicar

Podemosutilizarlaparte Coefficients proporcionaelresumendelmodeloparaanalizarindividualmentelacontribucindecada