Escolar Documentos
Profissional Documentos
Cultura Documentos
MaraElviraFerreJan
Curso201415
1Introduccin
1.1Aproximacinnoformalalmodeloderegresinlineal
1.2Correlacinlineal
1.2.1Correlacinlinealsimple
1.2.2LacorrelacinsimpleenR
1.2.3Correlacinparcial
1.2.4Otrasconsideraciones
1.2.5Ejemplodelostractores
2Regresinlinealsimple
2.1Introduccin
2.2Estructuradelmodeloderegresinsimple
2.3Supuestosdelmodelo
2.3.1Estimacindelarectaderegresin.Mtododemnimoscuadrados
2.4Ejemplo.Ajustedelmodeloyprocesoinferencial
2.4.1AjustedelmodeloenR
2.5Bondaddeajuste
2.5.1Coeficientededeterminacin,R2
2.5.2TestF
2.5.3TablaANOVA
2.6Anlisisdelosparmetrosdelmodelo
2.7Diagnsticodelmodelo
2.7.1Testdenormalidad(testdeKolmogorovSmirnov)
2.7.2Homogeneidaddevarianzas
2.7.3Autocorrelacin(testdeDurbinWatson)
2.7.4Valoresatpicos
2.8Prediccin
2.8.1Prediccindenuevasobservaciones
2.8.2Intervalosdeconfianzaparalospredictores
2.9ResumendecdigoenR
3Regresinlinealmltiple
3.1Introduccin
3.2Ejemplodeunmodeloderegresinlinealmltiple
3.2.1Anlisisdecorrelacin
3.2.2Ajustedelmodelo
3.3Comparacindemodelos
3.4Seleccindelmejormodelo
3.4.1CriteriodeinformacindeAkaike(AIC)
3.4.2Metodospasoapaso
3.5Diagnsticodelmodelo
3.5.1Normalidad
3.5.2Homogeneidaddevarianzas
3.5.3Autocorrelacin
3.5.4Casosatpicosyresiduos
3.6Anlisisdelainfluencia.
3.7Validacincruzada
3.8Prediccin
3.9Diagnsticosdecolinealidad(multicolinealidad)
3.10ResumendecdigoenR
3.11Predictorescategricos.Variablesdummy
1Introduccin
ComoreferenciabibliogrficabsicaparaeldesarrollodeestecaptulohemosutilizadoellibroA.Field,Miles,&Field(2012),
aunquetambinnoshemosservidodenumerososdocumentosqueiremosreferenciandoalolargodeltexto.
1.1Aproximacinnoformalalmodeloderegresin
lineal
Elanlisisderegresinlinealesunatcnicaestadsticautilizadaparaestudiarlarelacinentrevariables.Amenudoresultade
intersconocerelefectoqueunaovariasvariablespuedencausarsobreotra,einclusopredecirenmayoromenorgradovalores
deunavariableapartirdeotra.Porejemplo,supongamosquequeremosestudiarsilaalturadelospadresinfluyesignificativamente
enladeloshijos.
Laregresineselconjuntodetcnicasusadasparaexplorarycuantificarlarelacindedependenciaentreunavariablecuantitativa
llamadavariabledependienteorespuestayunaomsvariablesindependientesllamadasvariablespredictoras.
Elprimerpasoparadeterminarsipuedeexistironodependencia/relacinentrevariablesesrepresentandogrficamentelospares
devaloresobservadosmedianteunanubedepuntos,loqueseconocecomodiagramadedispersin(SPSS,2007).
Unavezrepresentadoslosdatosytrasdetectarqueentredosomsvariablesexisteunarelacinelsiguientepasoseraintentar
modelizardicharelacin.
Lamodelizacinestadsticamssencillaparaexpresarlavariabledependienteatravsdesusvariablespredictorasesmediante
unaecuacinlinealdelaformaY = 0 + 1 X1 + + n Xk .
ElcasomssimpleparaunanicavariableseraunarectaY = mx + n yrecibirelnombrederegresinlinealsimple.Cuando
k > 1lallamaremosregresinmltiple.
As,elprocesoconsistiraenajustarlarectaanuestroconjuntodedatosycrearunaexpresinmatemticaquepermitapredecir,de
formaaproximada,elvalordelavariabledependienteenunindividuocuandoseconoceelvalordeunavariablepredictora
(regresinsimple)ovariasvariablespredictoras(regresinmltiple)enesemismoindividuo.Alaecuacinquerepresentaesta
relacinselellamamodeloderegresin(Prez,2014).
Podemosconsiderarvariasformasdeestimarlosparmetrosdelaecuacindelmodeloderegresin.Sinembargo,nos
centraremosenelmtododemnimoscuadradosporsereldemsampliaaceptacin,aunqueexistantambinotrosmtodos
comoeldemximaverosimilitud.
Unavezcreadoelmodeloderegresin,loprimeroquedebemosanalizaressuutilidadexplicandolosdatosquequeremos
relacionar.Asporejemplo,larectadelsiguientegrficodescribe,aproximadamente,larelacinlinealentrelasvariables.(Snchez,
2011)
Encambio,losdatosdelgrficosiguientenosepuedeexplicarmedianteunalaecuacinlineal.
Aunquesirveparahacernosunaidea,noessuficienteconvergrficamentequesetratadeunmodelotil,sinoquedebemos
comprobarqueelmodeloderegresincumpleunosciertossupuestosmatemticos,quenoshablandelabondady
calidaddelmodeloparanuestrosfines.
Quelarectaseajustealosdatosnosignificaqueelmodeloseacorrecto,dependedelusoquequeramosdarle.Sislo
pretendemoshallarlarelacinentredosvariables,concalcularlarectademnimoscuadradosessuficiente,esarectadescribela
relacinentrelasvariables,otracosaesquelosdatostengaunabuenarelacinlineal.Podraserquelosdatostuvieranmuymala
relacinlinealylarectaseguiraexistiendo.Encambiosipretendemosdescribirlaestructurageneraldelosdatos,oinferir/predecir
conlarectaderegresindebemoscomprobarqueseverificanunasreglasyaestablecidasyaceptadasqueaseguranquenuestro
modeloesbueno.
Contalfinexistenunaseriedeprocedimientosdediagnosticoquenosinformaransobrelaestabilidadeidoneidaddelmodelode
regresin.Lossupuestosquetendremosquecomprobarson
Enelmodeloderegresin:linealidad
Enlosresiduos:
normalidad
varianzaconstante
valoresatpicos
Porotrolado,paracadaconjuntodedatosexistenvariasrectasconlasquepodramosresumirlatendenciageneraldelosmismos.
Necesitamosencontrarlarectadelmejorajuste,aquellaquedalugaralamenordiferenciaentrelosdatosoriginalesylos
estimadosporlarecta.
Parabuscarestarectautilizaremoselcriteriodemnimoscuadrados,mtodoconelquecalculamoslarectaqueminimizala
sumadelosresiduos,estoes,lasdistanciasverticalesentrecadapuntoylarecta.
Elobjetivoquehaytrasestemtodoesquelosresiduosseanpequeos,loquematemticamentesetraduceenquetenganmedia
ceroyenquebailenlomenosposible,esdecir,enuna 2 pequea.Deaquesdedondesurgentodoslossupuestosquesele
exigenalmodeloderegresinlineal.
Unodelosresultadosqueobtenemosalaplicarelmtododelosmnimoscuadradosesqueelcoeficientem,quecuantificala
relacinentrelax ylayennuestraecuacin,esenrealidadelcoeficientedecorrelacindePearson.Porello,antescrearel
modeloderegresintenemosqueanalizarsiestecoeficienteessignificativamentedistintodeceroyencasodeserloplantearemos
elmodeloderegresinlineal.
1.2Correlacinlineal
Unanlisisdecorrelacinnospermitecuantificarelgradodeasociacinlinealentrevariablescontinuas,indicalafuerzaydireccin
delarelacinlinealentredosomsvariables.Cuandoexistadicharelacinsepodrprocederalaobtencindelmodelode
regresin(simpleomltiple)queveremosposteriormente(Prez,2014).
Existendiferentestiposdecorrelacin,lacorrelacinsimple,lacorrelacinmltipleylacorrelacinparcial.Utilizaremosla
correlacinsimplecuandocontemosconunasolavariablepredictoraparaexplicarunarespuesta,yloscoeficientesdecorrelacin
parcialymltiplecuandotengamosvariospredictores.
1.2.1Correlacinlinealsimple
Utilizamoslacorrelacinlinealsimpleparaestudiarelgradodevariacinconjuntaentredosomsvariables.Queremosdetectarsi
lavariacindeunadelasvariablestieneconexinconlavariacindelaotra,esperamosquesiunavariablededesvadelamedia,
laotravariablesedesvedelamediademanerasimilar.
Unarelacinlinealpositivaentredosvariablesindicaquelosvaloresdelasdosvariablesvarandeformaparecida:lossujetosque
puntanaltoenunavariabletiendenapuntuaraltoenlaotraylosquepuntanbajoenlaprimeratiendenapuntuarbajoenla
segunda,existeunarelacindirectaentreambasvariables.
Unarelacinlinealnegativasignificaquelosvaloresdelasdosvariablestienenunarelacininversa:valorespequeosdeuna
variablevanasociadosahoraavaloresgrandesdelaotray,equivalentemente,valoresgrandesdeunaseasocianavalores
pequeosdelaotra.
Laformamsdirectaeintuitivadeformarnosunaprimeraimpresinsobreeltipoderelacinexistenteentredosvariablesesa
travsdeundiagramadedispersin.Setratadeungrficoenelqueunadelasvariables,X,secolocaenelejedeabscisas,la
otra,Y ,eneldeordenadasylospares(x i , yi )serepresentancomounanubedepuntos.Laformadelanubedepuntosnos
informasobreeltipoderelacinexistenteentrelasvariables.
Unareglafundamentalesquecuantamayorcorrelacinhayaentredosvariablesenlarepresentacinbidimensional,msprximos
alarectaestarnlosvalores.
Veamosunejemplo:enelsiguientegrficomostramoscuatrodiagramasdedispersinquereflejancuatrotiposderelacin
diferentes(Ferrari&Head,2010).
Paratodosestosconjuntosdedatoslarectaderegresineslamisma
^ = 3 + 0.5 x
y
Sinembargo,solamentepodemosescribirmedianteunmodelolineallosdatosdelgrfico(a).Elgrfico(b)muestraunconjuntode
datosesclaramentenolinealyseramejorajustarlomedianteunafuncincuadrtica.
Elgrfico(c)muestraunconjuntodedatosquetieneunpuntoquedistorsionaloscoeficientesdelarectaajustada.Porltimo,el
grficomuestraunconjuntodedatostotalmenteinapropiadoparaunajustelineal,larectaajustadaestdeterminadaesencialmente
porlaobservacinextrema(AliS.Hadi,2006).
Trashaberrealizadounarepresentacindelosdatos,unabuenamaneradecuantificarlarelacinaentredosvariableses
mediantelacovarianza
n
(x i x ) (yi y )
i=1
r = C ov(X, Y ) = ,
N 1
dondeN eselnmerodeobservaciones.
Sinembargo,lacovarianzanoesunamedidatilparacompararrectasderegresindevariablesdistintas,ocompararelgradode
asociacinlinealentredistintosparesdevariables,yaquedependedelasescalasdemedidadelasvariables.Lasolucinesten
estandarizarlayesdeaqudedondesurgenllamadoscoeficientesdecorrelacin.
1.2.1.1Coeficientesdecorrelacin
ElmsimportantedeloscoeficientesdecorrelacineselCoeficientedePearson,queexplicaremosenmayorprofundidad,pero
tambinestnlaRhodeSpearmanylaTaudeKendall.Veamossuspropiedadesgenerales:
Todosloscoeficientesvaranentre1y1.
Sielcoeficientedecorrelacines1existecorrelacinnegativa,esdecir,amedidaqueunavariableaumenta,laotradisminuye.
Cuandoelcoeficientees1haycorrelacinpositiva,cuandoaumentaunavariable,tambinaumentalaotra.
Unvalorcercanooigualaceroindicapocaonularelacinlinealentrelasvariables.
Lasprincipalesdiferenciasentreloscoeficientesson:
LacorrelacindePearsonfuncionabienconvariablescuantitativasyquesiganbienladistribucinnormal.
LacorrelacindeSpearmanseutilizaparadatosordinalesodeintervaloquenosatisfacenlacondicindenormalidad.
(usualmentetienevaloresmuyparecidosaladePearson).
LacorrelacindeKendallesunamedidanoparamtricaparaelestudiodelacorrelacin.Debemosutilizarestecoeficienteen
vezdeladeSpearmancuandotengamosunconjuntodedatospequeoymuchaspuntuacionesestnenelmismonivel.
1.2.1.2CoeficientedePearson
ElcoeficientedecorrelacinlinealdePearson(r)vienedefinidocomo
n
C ov(X, Y )S d(Y ) (x i x ) (yi y )
i=1
r = =
S d(X) n 2 n 2
(x i x )
(yi y )
i=1 i=1
ysetratadelacorrelacinentrelasvariablesXeY estandarizada.
ParaqueelcoeficientesdecorrelacindePearsonseaunamedidaprecisadelarelacinlinealentredosvariablesexigequelas
variablesseancuantitativasyquelasdosvariablessedistribuyannormalmente,aunquepodemoshacerunaexcepcinsislouna
delasvariablesesnormalylaotraescategricacondoscategoras.Silosdatosnosonnormalesocuantitativosentoncessedebe
usarotrotipodecoeficientescomoeldeSpearmanoeldeKendall.
Lasprincipalescaractersticasdeestecoeficienteson:
1.Medidadeasociacinlineallibredeescala
2.Valorescomprendidosentre1y1
3.Invarianteatransformacioneslinealesdelasvariables.
Suinterpretacineslasiguiente:
Sir=0(asociacinlinealnula)noexisterelacinentrelasvariables.
Sir=1o1(asociacinlinealperfecta).
Cuandor>0(correlacinpositiva)existeunarelacindirectaentrelasvariables
Cuandor<0(correlacinnegativa)existeunarelacininversaentrelasvariables.
Elcoeficientehayqueinterpretarloenmagnitud,esdecir,tomarsuvalorabsoluto.Estosignificaquecuantomscercaestemosde
losextremos(1)msrelacinexisteentrelasvariables.Poreso,unacorrelacinconvalorr = 0.9esmsfuertequeunacon
r = 0.7 ,pues0.9esmsgrandeque0.7aunqueseanegativa.
Porltimoquedaverquelacorrelacinentrelasvariablesessignificativa,esunvalorfiablequenocambiaramuchoenotra
muestratomadaenlasmismascondiciones.
Unacorrelacinsersignificativasisupvaloresinferiora0.05,delocontrariosupondremosquer = 0 .
1.2.1.3CoeficientedeSpearman
ElcoeficientedecorrelacindeSpearmaneselmismoqueelcoeficientedePearsonperotrastransformarlaspuntuaciones
originalesarangos.
ElcoeficientedeSpermanpuedeutilizarsecomounaalternativaaPearsoncuandolasvariablessonordinalesy/onoseincumpleel
supuestodenormalidad.
2
6d
rs = 1 ,
2
n(n 1)
1.2.1.4TaudeKendall
Esuncoeficientedecorrelacinnoparamtricoquesebasaenelconceptodeinversin,noinversinyempate.Secalculaapartir
delosdesrdenesentrelosrangos,sufrmulaeslasiguiente
C D
= ,
1
n(n 1)
2
dondeC eselnmerodeparesconcordantes,aquellosenlosqueelrangodelasegundavariableesmayorqueelrangodela
primeravariable,yDelnmerodeparesdiscordantes,cuandoelrangodelasegundaesigualomenorqueelrangodelavariable
primera.
Podemosutilizarlo,aligualqueenelcasodeSpearman,cuandolasvariablesnoalcanzanelniveldemedidadeintervaloyno
podemossuponerqueladistribucinpoblacionalconjuntadelasvariablesseanormal.
1.2.2LacorrelacinsimpleenR
Paraelclculodelcoeficientedecorrelacinvamosautilizarlafuncin cor() ,quetienelaformageneral
cor(x,yuse="string",method="tipodecorrelacin") ,donde:
x :variablenumricaoundataframe.
y :otravariablenumrica(si x esundataframenohayqueespecificarla).
use :especificaeltratamientoparalosdatosperdidos.
use=all.obs :seasumequenoexistenvaloresperdidos,siexistieraalgunoproduciraunerror
use=everything :cualquiercorrelacinqueenvuelvaunavariableconvaloresperdidossetratarcomomissing
use=complete.obs :sloseejecutanloscasosqueestncompletosparatodaslasvariables
use=pairwise.complete.obs :correlacinentreparesdevariablesqueseejecutaparaloscasosqueestncompletospara
estasdosvariables.
Ejemplo:CalculamoslacorrelacinentrelasvariablesHorsepoweryWeightdelarchivoCars93
library(MASS)
data(Cars93)
df<data.frame(Cars93)
cor(df$Horsepower,df$Weight,method="pearson")
##[1]0.7387975
1.2.2.1Correlacinsignificativa
Noresultasuficientelaestimacinpuntualdelcoeficientedecorrelacin.Paraasegurarlaexistenciaderelacinentrelasvariables
dependienteypredictoradebemosrealizaruntestparaestudiarlasignificacinestadstica.
cor.test(x,y,alternative="",method="") donde
x e y sonlasvariablesaestudiar
alternative sertwo.side,less"ogreater
method especificaremoseltipodecorrelacin(pearson,spearmanokendall).
cor.test(df$Horsepower,df$Weight,method="pearson")
##
##Pearson'sproductmomentcorrelation
##
##data:df$Horsepoweranddf$Weight
##t=10.4576,df=91,pvalue<2.2e16
##alternativehypothesis:truecorrelationisnotequalto0
##95percentconfidenceinterval:
##0.62988670.8192147
##sampleestimates:
##cor
##0.7387975
PordefectoseleccionaelmtododePearson.Fijndonosenelpvalorpodemosasegurarlaexistenciadecorrelacinentrelas
variables.Ademsestetestestimaelvalordelacorrelacinynosdaunintervalodeconfianzaparadichovalor.
Enelcasodequerercalcularelcoeficientedecorrelacinsimpleentrevariasvariablesdeunarchivonotenemosporquehacerlo
dosados,podemoscrearunamatrizdecorrelaciones:
newdf<data.frame(df$Price,df$Weight,df$RPM,df$Horsepower)
cor(newdf,use="everything",method="pearson")
##df.Pricedf.Weightdf.RPMdf.Horsepower
##df.Price1.0000000000.64717900.0049549310.78821758
##df.Weight0.6471790051.00000000.4279314730.73879752
##df.RPM0.0049549310.42793151.0000000000.03668821
##df.Horsepower0.7882175780.73879750.0366882121.00000000
library("psych")
corr.test(newdf,use="complete",method="pearson")
##Call:corr.test(x=newdf,use="complete",method="pearson")
##Correlationmatrix
##df.Pricedf.Weightdf.RPMdf.Horsepower
##df.Price1.000.650.000.79
##df.Weight0.651.000.430.74
##df.RPM0.000.431.000.04
##df.Horsepower0.790.740.041.00
##SampleSize
##[1]93
##Probabilityvalues(Entriesabovethediagonalareadjustedformultipletests.)
##df.Pricedf.Weightdf.RPMdf.Horsepower
##df.Price0.0001.000
##df.Weight0.0000.000
##df.RPM0.9600.001
##df.Horsepower0.0000.730
##
##Toseeconfidenceintervalsofthecorrelations,printwiththeshort=FALSEoption
Observacin:ElprocedimientoparahacerunacorrelacindeSpearmanoKendalleselmismoqueparaunacorrelacinde
Pearsonexceptoquetenemosqueespecificarquequeremosotracorrelacin,queserealizamedianteel method="spearman" o
method="kendall" para cor() , cor.test() y corr.test() .
1.2.3Correlacinparcial
Lacorrelacinparcialesunacorrelacinentredosvariablesenlaqueelefectodeotrasvariablesauxiliaressemantienecontante,
sebuscalarelacinentredosvariablesmientrassecontrolaelefectodeunaomsvariablesadicionales.
Estamedidasurgeyaqueenocasioneslasvariablescontinuasconlasquepretendemospredecirunarespuestanosontotalmente
independientesentresloprovocaquelasvariablescompartanysolapeninformacinalahoradeexplicarlarespuesta.
Porejemplo,siqueremosestudiarlarelacinentrelasvariablesinteligencia"yrendimientoescolartendremosqueteneren
cuentatercerasvariablescomoelnmerodehorasdeestudio,elniveleducativodelospadres.
Lacorrelacinparcialsetrata,portanto,deuncoeficientedecorrelacinquenosdaunaideasobrelarelacinlinealexistenteentre
dosvariablesperoajustadaalosefectoslinealesquesobrelasmismaspuedantenerotraomsvariablesqueintervengan.
Utilizaremoslafuncin pcor() incluidaenelpaquete ppcor .Suformagenerales:
pcor(var1,var2,control1,control2,...,method="")
library("ppcor")
pcor.test(df$Price,df$Weight,df$Length)
##estimatep.valuestatisticngpMethod
##10.47181033.843693e075.07654931pearson
tenemosque
estimate eselcoeficientedecorrelacinparcialentrelasdosvariables.
p.value eselpvalordeltest.
statistic eselvalordelestadsticodeltest.
n eselnmerodemuestras.
gn eselnmerodevariables.
method eselmtododecorrelacinempleado(spearman,pearsonokendall).
cor(df$Price,df$Weight)
##[1]0.647179
1.2.4Otrasconsideraciones
1.2.4.1Causalidad
Debemostenerprecaucinalahoradeinterpretarloscoeficientesdecorrelacinyaqueestosnonosindicanladireccinde
causalidaddelasvariables,nonosdicennadasobrequvariablecausaquelaotravarie.
Aunqueesintuitivopensarqueveranunciosnosprovoquecomprarmspaquetesdegalletas,nohayraznestadsticaporlaque
comprarpaquetesdegalletasnonospuedaprovocarvermsanuncios.Peseaquelaltimaconclusintienemenossentido,el
coeficientedecorrelacinnonosdicequenopuedesercierta,paraunmatemticoladireccinnoimporta.
Porotroladoexisteelproblemadelaterceravariable.Estenosdicequenopodemosasumircausalidadentredosvariablesporque
podrahaberotrasvariablesafectandoalosresultados.
1.2.4.2Tamaodelefecto
C ov(X,Y )Sd(Y )
Recordemosque(Y^i ^
Y ) = 1 (Xi X) yque^1 = r = asque
Sd(X)
n n
^ 2 ^
(Y i Y ) 2 (Xi X)
i=1 i=1
2 ^ 2 2
R = = 1 = C or(Y , X) = r .
n n
2 2
(Y i Y) (Y i Y)
i=1 i=1
Entonces,aunquenopodemoshacerconclusionesdirectassobrelacausalidaddeunacorrelacin,paradosvariablesspodemos
elevarelcoeficientedecorrelacinalcuadradoyutilizarlocomounamedidadelacantidaddevariabilidadqueunavariable
comparteconlaotra.Esloqueseconocecomocoeficientededeterminacin,R2 ,yesunamedidatremendamentetildela
importanciadeunefecto.
2
Paracalcularestecoeficiente,R2 ,podemoselevaralcuadradotantoelcoeficientedePearson,r ,comoelcoeficientedeSpearman
r s ,yaqueesteusalamismaecuacinquePearson.LonicoquedebemostenerencuentaesqueelresultanteR hayque
2
interpretarlocomolaproporcindevarianzaenlascategorasquelasdosvariablescomparten.
cor(newdf,use="everything")^2
##df.Pricedf.Weightdf.RPMdf.Horsepower
##df.Price1.000000e+000.41884072.455135e050.621286950
##df.Weight4.188407e011.00000001.831253e010.545821769
##df.RPM2.455135e050.18312531.000000e+000.001346025
##df.Horsepower6.212870e010.54582181.346025e031.000000000
1.2.4.3Comunicarloscoeficientesdecorrelacin
Slohayquedecircmodegrandeesyquvalordesignificacintiene.Laformadereportarloscoeficientessera
1.2.5Ejemplodelostractores
Supongamosqueunaempresadetractoresquepretendesaberquleesmsconveniente,sirenovarsuflotadetractores,seguir
manteniendolaquetienenocambiarsolounaparte.Utilizamoselconjuntodedatostractores.rda(files/40Atractores.rda)para
intentarrelacionarloscostesdemanutencindetractoresconlaedaddestos.
Comenzamoscalculandolacorrelacinentreedadycostes,yrealizamoselcorrespondientegrficodedispersin
load("files/40Atractores.rda")
cor.test(tractores$costes,tractores$edad)
##
##Pearson'sproductmomentcorrelation
##
##data:tractores$costesandtractores$edad
##t=3.6992,df=15,pvalue=0.002143
##alternativehypothesis:truecorrelationisnotequalto0
##95percentconfidenceinterval:
##0.31443250.8793971
##sampleestimates:
##cor
##0.6906927
plot(tractores$costes,tractores$edad,pch=20,xlab="Costes",ylab="Edad",
main="Diagramadedispersin")
tractores$logcostes<log(tractores$costes)
cor.test(tractores$logcostes,tractores$edad)
##
##Pearson'sproductmomentcorrelation
##
##data:tractores$logcostesandtractores$edad
##t=4.2027,df=15,pvalue=0.0007687
##alternativehypothesis:truecorrelationisnotequalto0
##95percentconfidenceinterval:
##0.39396730.8984522
##sampleestimates:
##cor
##0.7353647
plot(tractores$logcostes,tractores$edad,pch=20,xlab="log(Costes)",ylab="Edad",
main="Diagramadedispersin")
Comovemoslacorrelacinahoraesmselevadaylospuntosestnmenosdispersosenelplano.
Unavezdetectadaunarelacinsignificativaentredosomsvariables,elsiguientepasoesintentarcrearunafrmulamatemtica
queformaliceesarelacinyquepermitacalcularpronsticosdeunavariableapartirdeunaovariasvariablesevaluadasenun
individuoconcreto.Esteprocesoseconocecomoregresinyeselqueestudiaremosenlossiguientesapartados.
2Regresinlinealsimple
ParaeldesarrollodelossiguientestresapartadosnoshemosservidoesencialmentedeSnchez(2011).
2.1Introduccin
Elcasodemodeloderegresinmssencilloeslaconstruccindeunarectaquemodelicelarelacinquehayentrelavariable
respuesta,Y ,ylavariablepredictoraX.Elmodelotienelaforma
Y = 0 + 1 X + e,
donde 0 y 1 seconocencomocoeficientesderegresinyson,respectivamente,laordenadaenelorigen(puntodecorteconel
ejeY )ylapendientedelarectadelmodeloderegresin.
Enlaecuacine eselerroraleatorio,representaladiferenciaentreelvalorajustadoporlarectayelvalorreal.Reflejalaausencia
dedependenciaperfectaentrelasvariables,larelacinestsujetaaincertidumbre.
Porejemplo,enelconsumodegasolinadeunvehculo,Y ,influyenlavelocidadXyunaseriedefactorescomoelefecto
conductor,eltipodecarretera,lascondicionesambientales,etc.Todosestoselementosquedaranenglobadosenelerrore .
Loscoeficientesderegresinsepuedeninterpretarcomo:
0 elvalormediodelavariabledependientecuandolapredictoraescero.
1 elefectomedio(positivoonegativo)sobrelavariabledependientealaumentarenunaunidadelvalordelapredictoraX.
Unarectaquetieneunapendienteconvalorpositivodescribeunarelacinpositiva,mientrasqueunarectaconunapendiente
negativadescribeunarelacinnegativa.Entoncestenemosbsicamentequelapendiente( 1 )nosdalaaparienciadelmodelo(su
forma)ylaordenadaenelorigen( 0 )nosdicedndesesitaelmodeloenelplano.
2.2Estructuradelmodeloderegresinsimple
Elmodeloderegresinlinealsimpletienelasiguienteestructura
yi = 0 + 1 x i + ei
parai = 1, . . . , n .Vamosaestudiarlomsdetenidamente.
Supongamosquehemosajustadounarectaderegresinaunconjuntodedatos,ysea(x i , yi )unpuntocualquieradelanube.
Entoncesyi sepuededescomponercomo
^ + ei ,
yi = f (yi ) + ei = y i
dondey
^ eselvalorajustadoalarectadelvaloreobservadoyi ,yei eselerrorquecometemosyalquellamaremosresiduo.
i
Unavezcalculadoelmodelo,elvalordey
^ quedadeterminadoparacadax i ,peroelvalorei = yi y
^ noquedadeterminado,
i
2.3Supuestosdelmodelo
Paracadax i ,valorfijodeX,secumplelaecuacinyi = 0 + 1 x i + ei ,donde 0 y 1 sonconstantesdesconocidas.Las
hiptesisbsicasdelmodeloson:
2.MediacerodelosresiduosE (ei ) = 0 .
3.VarianzaconstantedelosresiduosV ar (ei ) =
2
.
4.Normalidaddelosresiduosei ~N (0, 2 ) .
Comoconsecuencia:
Cadavalorx i delavariablealeatoriaXtienedistribucin
2
(Y X = x i ) N ( 0 + 1 x i , ).
Grficamente,silashiptesisdelmodelosonciertastenemos
2.3.1Estimacindelarectaderegresin.Mtododemnimos
cuadrados
Sinosencontrsemosenlasituacinidealdequetodoslospuntosdeldiagramadedispersinseencontraranenunalnearectano
tendramosquepreocuparnosporencontrarlarectaquemejorresumelospuntosdeldiagrama,simplementeuniendolospuntos
entreslaobtendramos.
Sinembargosinossituamosenunasituacinmsrealista,enunanubedepuntosesposibletrazarmuchasrectasdiferentes,
aunqueobviamente,notodasellasseajustarnigualmentebienalanube(SPSS,2007).Setrataentoncesdeestimarlarectaque
elmejorrepresenteelconjuntototaldepuntos.
Elprocedimientovaaconsistirenestimarloscoeficientesderegresin 0 y 1 paraobtenerlarecta
^
^ = ^
y 0
+ 1x
dondey
^ denotaelvalorajustadoporlarectaparaelvalorobservadox .
Paraestimarlaecuacindelarectaderegresinpodemosautilizarelcriteriodemnimoscuadrados,pueseselmsempleado
usualmente.Vamosaestudiarlo.
Siemprequeajustamoscualquierrectaaunconjuntodedatosexistenpequeasdiferenciasentrelosvaloresestimadosporlarecta
ylosvaloresrealesobservados,ascadavalordelmodeloajustadollevaasociadosuerroraleatorioei = yi y
^ .
i
Senospodraocurrirsumartodoslosresiduosparaobtenerasunaestimacindelerrortotal,sinembargo,alsumardiferencias
positivasynegativasestastiendenacancelarseunasconotras.Parasolucionaresteproblemadecidimoselevaralcuadradolas
diferenciasantesdesumarlas(Ferrari&Head,2010).
Portanto,conelcriteriodemnimoscuadradosestimamosloscoeficientesderegresin, 0 y 1 ,haciendomnimalasumadelos
n
cuadradosdelosresiduos,S SE = i=1 e2i .
n n n
2 2 2
S SE = e ^ )
= (yi y = (yi 0 b1 x i )
i i
Estosignificaque,detodaslasrectasposibles,existeunayslounaqueconsiguequelasdistanciasverticalesentrecadapuntoy
larectaseanmnimas(SPSS,2007).
Lasdiferenciasalcuadradoresultantessonunindicadordelacapacidaddelarectaajustndosealosdatossilasdiferenciasal
cuadradosongrandeslarectanoesrepresentativadelosdatos,mientrasquesisonpequeaslarectasesrepresentativa.
2.3.1.1Consecuenciasdelcriteriodemnimoscuadrados
C ov(X,Y )Sd(Y )
^
1 = r = .
Sd(X)
^ ^
0 = Y 1 X .
Lasumadelosresiduosescero
LamediadelosvaloresobservadosYi coincideconlamediadelosvaloresajustadosYi .
Larectaderegresinpasaporelpunto(x , y ) .
LasestimacionesdelarespuestaparaunvalorX = x seobtienecomo
^ ^
y = 0 + 1 x
2.4Ejemplo.Ajustedelmodeloyprocesoinferencial
Vamosadesarrollarestaseccinmedianteunejemploaplicado:
Elpresidentedepersonaldeunamultinacionalestbuscandosiexisterelacinentreelsalariodeuntrabajadorysuporcentajede
absentismo.stedividielintervalodesalariosencategorasymuestrealeatoriamenteaungrupodetrabajadorespara
determinarnmerodedasquehabanfaltadoenlosltimos3aos.Esposibleestablecerunmodeloquerelacionelacategoray
lasausencias?
2.4.1AjustedelmodeloenR
Vamosaestablecerelmodeloquerelaciona Ausencias con Categoria ,peroantesdeestoestudiaremoslanormalidaddelos
datosycalcularemoslacorrelacinentrecategorayausencias,realizandoademselcorrespondientegrficodedispersin.
datos<read.table("files/40Awilliam.csv",sep=";",head=TRUE)
Empezamosestudiandolanormalidaddelavariableexplicativa
shapiro.test(datos$Categoria)
##
##ShapiroWilknormalitytest
##
##data:datos$Categoria
##W=0.9351,pvalue=0.2937
vistoquelosdatossonnormales,realizamoselanlisisdecorrelacin
cor.test(datos$Categoria,datos$Ausencias)
##
##Pearson'sproductmomentcorrelation
##
##data:datos$Categoriaanddatos$Ausencias
##t=4.7432,df=14,pvalue=0.0003144
##alternativehypothesis:truecorrelationisnotequalto0
##95percentconfidenceinterval:
##0.92199730.4738285
##sampleestimates:
##cor
##0.7851244
yrepresentamoslospuntos
plot(datos$Categoria,datos$Ausencias,pch=20,xlab="Categora",ylab="Ausencias",
main="Diagramadedispersin",cex.main=0.95)
Lacorrelacinentreambasvariablesessignificativaconunpvalormenora0.05ysetratadeunarelacininversayalta
(0.7851) ,segncrecelacategoradisminuyenlasausencias.
Unavezvistoqueexisterelacinentrelasvariablespasamosarealizarelajustedelmodelo.Paraellousamoslafuncin lm()
quetomalaforma
lm(dependiente~predictora(s),data=dataFrame,na.action="accin")
modelAu<lm(Ausencias~Categoria,data=datos)
summary(modelAu)
##
##Call:
##lm(formula=Ausencias~Categoria,data=datos)
##
##Residuals:
##Min1QMedian3QMax
##13.3042.6031.8023.6876.448
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)41.59563.579511.6211.41e08***
##Categoria2.29190.48324.7430.000314***
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Residualstandarderror:5.898on14degreesoffreedom
##MultipleRsquared:0.6164,AdjustedRsquared:0.589
##Fstatistic:22.5on1and14DF,pvalue:0.0003144
LaparteResidualsnosdaladiferenciaentrelosvaloresexperimentalesyajustadosporelmodelo.Lasestimacionesdelos
coeficientesdelmodeloseproporcionanjuntoconelsusdesviacionesestndar(errorestndar),untvalorylaprobabilidaddela
hiptesisnuladequeloscoeficientestenganvalordecero.Enestecaso,porejemplo,hayevidenciadequeamboscoeficientesson
significativamentediferentesdecero.
Enlaparteinferiordelatablaseencuentraladesviacinsobrelarectaregresin(errorestndarsr oresidual),elcoeficientede
M Sreg
correlacinyelresultadodeltestFsobrelahiptesisnuladequelos M S es1.
res
plot(datos$Categoria,datos$Ausencias,pch=20,xlab="Categoria",ylab="Ausencias")
abline(modelAu)
Enprimerlugardeseamosobtenerlosestimadorespuntuales,erroresestndarypvaloresasociadosconcadacoeficiente
summary(modelAu)$coefficients
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)41.5956383.579456111.6206591.411089e08
##Categoria2.2919460.48320324.7432353.144361e04
Elresultadodelajustees
dondelosvaloresentreparntesisindicanloserroresestndardecadacoeficiente.Adems,puestoquelospvaloresasociados
soninferioresa 0.05 ,podemosconcluirque:
2.ExistenevidenciasestadsticassuficientesparaconsiderarquehayunarelacinlinealentreCategorayAusencias.Dicha
relacinesnegativacuandoaumentalacategoralaboraldelindividuodisminuyenlasausencias.Ademsvemosqueporcada
gradoqueaumentalacategoradeltrabajador,disminuyenlasausenciasen 2,29 dasporao.
2.4.1.1IntervalosdeConfianza
Losintervalosdeconfianza(IC)complementanlainformacinqueproporcionanloscontrastedehiptesisalahoradeexpresarel
gradodeincertidumbreennuestrasestimaciones.
Obtenemosloscorrespondientesintervalosdeconfianzaparacadaparmetrodelmodeloconnivelsignificacinal95%
confint(modelAu,level=0.95)
##2.5%97.5%
##(Intercept)33.91846849.272807
##Categoria3.3283141.255579
comoelintervalonocontienealcero,podemosrechazarlahiptesisnuladequeH0 .
: 0 = 1 = 0
Interpretamoslosintervalos:conunaprobabilidaddel95%,laordenadaenelorigendelmodelo, 0 ,seencuentraenelintervalo
(33.92,49.27) ,mientrasqueelefectoasociadoconlaCategoriaseencuentraenelintervalo (3.32,1.26) .
2.5Bondaddeajuste
Unavezrealizadoelajuste,debemosverificarlaeficienciadelmodeloalahoradeexplicarlavariabledependiente,yaqueaunque
larectasealamejordisponible,stapuedeseguirsiendounajusteterribledelosdatos.
Lasmedidasfundamentalessonelerrorresidualestimado,eltestFparalabondaddeajustedelatablaANOVAyelcoeficientede
determinacinR2 .Iremosexplicndolasunaaunaperoantesvamosahablardelavariabilidaddelmodeloderegresin.
Lavariabilidaddelajustesepuededescomponercomo
Variacintotal=variacinexplicadamodelo+variacinresidual ,esdecir,
S ST = S SM + S SR ,donde
S ST = (y y )
2
eslacantidadtotaldevariabilidadexistentealaplicarelmodelomsbsico,elmodelonulo(lamedia).
^ ) representaelgradodeimprecisincuandosehaajustadoelmejormodeloalosdatos.
2
S SR = (y y
S SM = S ST S SR muestracmomejoralaprediccinalusarelmodeloderegresinenvezpredecirconlamedia.Esla
reduccindelaimprecisinalajustarelmodeloderegresinalosdatos.
SiS SM esgrandeentonceselmodeloderegresinesmuydiferentedelamedia,loquesignificaquesehahechounagranmejora
alahoradepredecirlavariabledependiente.
2.5.1Coeficientededeterminacin,R2
Elcoeficientededeterminacinquerepresentalaproporcindemejoracausadaporelmodelo,esdecir,laproporcinde
variabilidaddelavariabledependiente(Y )explicadaporelmodelo(S SM ),relativaatodalavariabilidadexistenteenelmodelo(
S ST ).Sepuedeescribircomo
2
S SM
R = .
S ST
UnavariantedeestamedidaeslaR2 ajustadaqueseutilizaparalaregresinmltiple,puestieneencuentaelnmerodegrados
delibertad.Vemoscmosedefine.
Utilizandolafrmuladelavariacintotaltenemoslasiguienteigualdad
2
S SM S SR
R = = 1
S ST S ST
yapartirdeellasedefinelaR2a dividiendoporlosgradosdelibertadlaintroduccindevariablesinnecesariasenelmodelo
/
S SR /dfR
2
Ra = 1
S ST /dfT
SSR
AlaadiralmodelounavariablequenoaportenadaeldfR diminuye,porloqueelcociente crecer,haciendolotambin
df
R
SSR /df
.EstoimplicaportantoqueelvalordelaR2a seacadavezmspequeo.
R
SST /df
T
Estasmedidastomanvaloresentre0y1,ycuantomsseaproximena1mejorserelajuste,yporlotanto,mayorlafiabilidadde
lasprediccionesqueconlrealicemos.
2.5.2TestF
Laltimamedidadeajustequevamosaestudiaresel testF ,unamedidadecuntohamejoradoelmodeloprediciendola
variabledependienteconrespectoalniveldeinexactituddelmodelo.Sedefinecomo
M SM
F = ,
M SR
dondeM S sonlasmediasdelassumasdecuadrados.Sedefinencomolassumasdecuadradosentresusgradosdelibertad.As
tenemos
S SM
M SM =
dfM
S SR
M SR =
dfR
UnbuenmodelodebetenerunvalorF grande(mayorque1)yaqueelnumerador,lamejoraenlaprediccindelmodelo,ser
mayorquedenominador,ladiferenciaentreelmodeloylosdatosobservados.
Otramedidaimportantequeseobtieneapartirdelasumadecuadradosdelosresiduoseselerrorestndarquesedefinecomo
S ER = M SR .
Vamosaaplicartodoestoen R continuandoconelejemploanterior.
2.5.3TablaANOVA
Volvemosalejemplodelascategorasylasausencias.ObtenemoslacorrespondientetablaANOVAdondevemosla
descomposicindelavariabilidaddelmodelo
anova(modelAu)
##AnalysisofVarianceTable
##
##Response:Ausencias
##DfSumSqMeanSqFvaluePr(>F)
##Categoria1782.70782.7022.4980.0003144***
##Residuals14487.0534.79
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
Observamosquelavariabilidadexplicadaporelmodelo, SSM=782.70 ,essuperioralaquequedaporexplicar(residuos),
SSR=487.05 yelestadstico F=22.5 ,mayorque1.Adems,volviendoaverelresumendelmodelo
##Fstatistic:22.5on1and14DF,pvalue:0.0003144
tenemosqueelpvalorasociadoconelestadsticoFesinferiora 0.05 .
Laconclusinesquehayevidenciassuficientesparapoderrechazarlahiptesisnula,F = 1yportanto,resultaposibleestablecer
unmodeloderegresinlinealparaexplicarelcomportamientodelasausenciasenfuncindelacategoradelempleado.
2.5.3.1Coeficientededeterminacin
2.6Anlisisdelosparmetrosdelmodelo
EltestANOVAsignificativonosdicesielmodelotiene,engeneral,ungradodeprediccinsignificativamentebuenoparalavariable
resultado,perononosdicenadasobrelacontribucinindividualdelmodelo.Paraencontrarlosparmetrosdelmodeloysu
significacintenemosquevolveralaparte Coefficients enelresumendelmodelo.
summary(modelAu)$coefficients
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)41.5956383.579456111.6206591.411089e08
##Categoria2.2919460.48320324.7432353.144361e04
Porotrolado, 1 eslapendientedelarectayrepresentaelcambioenlavariabledependiente(ausencias)asociadoalcambiode
unaunidadenlavariablepredictora.Sinuestravariablepredictoraincrementaunaunidad,nuestromodelopredicequelas
ausenciassereducirnen2.3,puesenestecaso 1 = 2.2919.Portanto,laecuacindelmodeloquedaY = 41.6 2.3X.
2.7Diagnsticodelmodelo
EnesteapartadohemoshechousotantodeJ.Faraway(2009)comodeSnchez(2011)paraeldesarrollodelmismo.
Unavezquetenemoselmodeloajustadoprocedemosconsudiagnstico,queserealizaatravsdelanlisisdelosresiduos,ei .
Lashiptesisdelinealidad,homocedasticidadeindependenciasecontrastanatravsdeunanlisisgrficoqueenfrentalos
valoresdelosresiduos,ei ,conlosvaloresajustadosx
^i .
Lashiptesisdemediacero,varianzaconstante,incorrelacinynormalidadlacomprobamosanalticamente.
Comenzaremosconelanlisisgrfico.Losresiduosdeberanformarunanubedepuntossinestructuraycon,aproximadamente,
lamismavariabilidadportodaslaszonascomosemuestraenelgrfico.
Enlossiguientesgrficosnosecumplenlashiptesis.Losresiduosdeestaprimeragrficamuestranunaestructuraquesugiere
unarelacinnolinealentrelasvariables
ylosdelasiguientesugierenlaausenciadehomocedasticidad.
Continuamosahorarealizandoeldiagnsticoanaltico.Elprimerpasoesobtenerlosresiduos,valoresajustadosyestadsticos
delmodeloanalizadoparapoderasestudiarsisecumplenlossupuestosdelmismo.
Obtencinderesiduos,valoresajustadosyestadsticosnecesarios
Paraello,aadimosloscorrespondientesresultadosanuestrosdatosatravsdelsiguientecdigo:
datos$fitted.modelAu<fitted(modelAu)
datos$residuals.modelAu<residuals(modelAu)
datos$rstudent.modelAu<rstudent(modelAu)
Elresultadoeslacreacindelassiguientesvariables:
fitted.modelAu :valoresajustados(valoresdelavariablerespuesta)paralasobservacionesoriginalesdelapredictora.
residuals.modelAu :residuosdelmodelo,estoes,diferenciaentrevalorobservadodelarespuestayvalorajustadoporel
modelo.
rstudent.modelAu :residuosestudentizadosdelmodeloajustado.
obsNumber :nmerodelaobservacinenelordenenquehassidorecogidas.
Vamosautilizartodasestasvariablesparaestudiarsinuestromodelocumplelashiptesis.
2.7.1Testdenormalidad(testdeKolmogorovSmirnov)
Empezamoselanlisisconungrfico qqplot ,queenfrentalosvaloresrealesalosvaloresqueobtendramossiladistribucin
fueranormal.Silosdatosrealessedistribuyennormalmente,estostendrnlamismadistribucinquelosvaloresesperadosyenel
grfico qqplot obtendremosunalinearectaenladiagonal
Analizamosnuestrosresiduos
shapiro.test(datos$rstudent.modelAu)
##
##ShapiroWilknormalitytest
##
##data:datos$rstudent.modelAu
##W=0.8271,pvalue=0.006388
qqnorm(datos$rstudent.modelAu,main="Normal(0,1)")
qqline(datos$rstudent.modelAu)
Tenemosproblemasconlacondicindenormalidaddeloserroresyaqueobtenemosunpvalorparaelcontrastede 0.0063 ,
inferiora 0.05 .Comoenelgrfico qqplot lospuntosnosesitanenladiagonal,efectivamentevemosquelosdatosnoson
normales.
2.7.2Homogeneidaddevarianzas
library(lmtest)
bptest(modelAu)
##
##studentizedBreuschPagantest
##
##data:modelAu
##BP=2.1918,df=1,pvalue=0.1387
2.7.3Autocorrelacin(testdeDurbinWatson)
Hemosasumidoquelosresiduossonincorrelados,vamosacomprobarlo.
plot(datos$residuals.modelAu,pch=20,ylab="Residuos",xlab="ndices")
abline(h=cor(datos$Ausencias,datos$Categoria))
Sihubieraunacorrelacinseria,veramospicosmslargosderesiduosporencimaypordebajodelalneadecorrelacin.A
menosqueestosefectosseanfuertes,puedeserdifcildedetectarlaautocorrelacin,porellorealizamoselcontrastedeDurbin
Watson.
dwtest(Ausencias~Categoria,alternative="two.sided",data=datos)
##
##DurbinWatsontest
##
##data:Ausencias~Categoria
##DW=1.6732,pvalue=0.4935
##alternativehypothesis:trueautocorrelationisnot0
Enelcontrastedeautocorrelacintambinaceptamoslahiptesisnuladequenoexistecorrelacinentrelosresiduosconunp
valorsuperiora 0.05 .
Unavezcomprobadoelrestodesupuestosdelmodelo,vamosaintentarsolucionarelproblemadenormalidad.Loprimeroque
hacemosesrepresentardenuevolosdatosenunQQplotyundiagramadedispersinparadetectarposiblesperturbaciones.
par(mfrow=c(1,2))
qqnorm(datos$rstudent.modelAu,main="normal(0,1)")
qqline(datos$rstudent.modelAu)
plot(datos$rstudent.modelAu,pch=20,ylab="Residuaos",xlab="ndices")
Siobservamosdenuevoelgrficovemosquehayunpuntoqueesttotalmentefueradelugar,loquepareceenprincipiounvalor
atpico.Vamosarealizaruntestdevaloresatpicos(Bonferroni).
2.7.4Valoresatpicos
Unvaloratpicoesaquelquedifieresustancialmentedelatendenciageneraldelosdatos.Estosvaloresatpicospuedenperjudicar
elmodeloyaqueafectanaloscoeficientesderegresinestimados.Veamosgrficamentecmopuedeninfluiralarectade
regresin(Snchez,2011).
EnlosgrficoslalineadiscontinuarepresentalarectaderegresincalculadasinconsiderarelpuntoP.
ParaesteprimergrficotenemosqueelpuntoPsesinfluyentepuesmodificasustancialmentelarectaderegresin.
mientrasqueenelsegundogrficoelpuntoPapenasinfluyeenelmodelo.
Enelcasodeobservarvaloresatpicoslospasosaseguirson:
1.Descartarqueseaunerror.
2.Analizarsiesuncasoinfluyente.
3.Encasodeserinfluyentecalcularlasrectasderegresinincluyndoloyexcluyndolo,yelegirlaquemejorseadapteal
problemayalasobservacionesfuturas.
Paraelestudiodelosvaloresatpicovamosausarlosresiduosestandarizados,losresiduosdivididosporunaestimacindesu
errorestndar.Existenunasreglasgenerales:
Vamosahacerunestudiodevaloresatpicosdenuestromodelo.Empezamosconungrficoenelquerepresentamosel
diagramadepuntosyunboxplotparacadaunadelasvariables.
Contunuamosconunanliismsanaltico:
library(car)
outlierTest(modelAu,cutoff=0.05,n.max=10,order=TRUE)
##rstudentunadjustedpvalueBonferonnip
##63.6622860.00286920.045908
influencePlot(modelAu,id.n=2)
##StudResHatCookD
##51.94715350.096476510.4108154
##63.66228630.284395971.1885657
##120.36828070.213926170.1402500
cook<cooks.distance(modelAu)
labels<rownames(datos)
library(faraway)
halfnorm(cook,3,labs=labels,ylab="DistanciadeCook")
Seconfirmaqueelvalor 6 esunatpico,mientrasquelospuntos 16 y 5 nolosonporsersudistanciadeCookmenorque1.
Aunquenuncaesrecomendablesuprimirdatossalvoestarsegurosdequehasidounamalamedicinocualquierotrotipodeerror,
enestecasoyenvistadeloobtenido,decidimoseliminardichodato.
datos<datos[c(6),]
head(datos)
##CategoriaAusenciasfitted.modelAuresiduals.modelAurstudent.modelAu
##1111816.384231.6157720.2931414
##2101718.676171.6761740.2951496
##382923.260075.7399331.0115842
##453630.135915.8640941.0413881
##591120.968129.9681211.9471535
##772825.552012.4479870.4158870
NOTA:Cuidadoconlaeliminacindedatos.Eldiagnsticodelmodeloesparafinespredictivos!Paraobtenerunbuenmodelo
aunquesinfinespredictivos,nicamentedebemosevitarelproblemadelamulticolinealidad.
TraseliminarelvaloratpicodelabasededatosvolvemosarealizareltestdeShapiroWilkparacomprobarsisecumpleahorala
condicindenormalidad
shapiro.test(datos$rstudent.modelAu)
##
##ShapiroWilknormalitytest
##
##data:datos$rstudent.modelAu
##W=0.9133,pvalue=0.1519
comoestenuevopvaloresmayorque0.05ahorasexistenormalidadenlosdatos.Unavezsolucionadoslosproblemasde
diagnsticopasamosalafasedeprediccin.
2.8Prediccin
Tenemosunmodeloderegresinconlacapacidadderelacionarlavariablepredictoraylavariabledependiente.Podemosutilizarlo
ahoraparapredecireventosfuturosdelavariabledependienteatravsdenuevosvaloresdelavariablepredictora.
Paraellodebeverificarsealgunadelassiguientescondiciones
elvalordelapredictoraestdentrodelrangodelavariableoriginal.
sielvalordelapredictoraestfueradelrangodelaoriginal,debemosasegurarquelosvaloresfuturosmantendrnelmodelo
linealpropuesto.
2.8.1Prediccindenuevasobservaciones
x0<seq(min(datos$Categoria),max(datos$Categoria),length=15)
dfp<data.frame(Categoria=x0)
pred.ip<predict(modelAu,dfp,interval="prediction",se.fit=TRUE,data=datos)
head(pred.ip$fit)
##fitlwrupr
##137.0117423.0736650.94983
##235.5383521.8214049.25530
##334.0649620.5399147.59000
##432.5915619.2279345.95520
##531.1181717.8843344.35201
##629.6447716.5081942.78136
Dibujamoslasbandasdeprediccin,quereflejanlaincertidumbresobrefuturasobservaciones:
matplot(x0,pred.ip$fit,type="l",xlab="Categoria",ylab="Ausencias")
Supongamosquenotuviramoslosdatosenlaescalaoriginaldelavariabledependiente,sinoqueloshemostransformado
mediantealgunafuncin.Enesecaso,paraobtenerlasprediccionesoriginalesbastacondeshacerlacorrespondiente
transformacin.Sihubisemostransformado,porejemplo,losdatosoriginalesmediante log() ,elcdigoparaobtenerlas
prediccionessera
newpred<exp(pred.ip$fit)
head(newpred)
2.8.2Intervalosdeconfianzaparalospredictores
Dadounnuevoconjuntodepredictores,x 0 ,debemosevaluarlaincertidumbreenestaprediccin.Paratomardecisionesracionales
necesitamosalgomsquepuntosestimados.Silaprediccintieneintervalodeconfianzaanchoentoncesentonceslosresultados
estarnlejosdelaestimacinpuntual.
Lasbandasdeconfianzareflejanlaincertidumbreenlalneaderegresin(lobienquelalneaestcalculada).
pred.ic<predict(modelAu,dfp,interval="confidence",se.fit=TRUE,data=datos)
head(pred.ic$fit)
##fitlwrupr
##137.0117431.1606342.86286
##235.5383530.2355240.84118
##334.0649629.2803738.84954
##432.5915628.2843436.89878
##531.1181727.2323235.00402
##629.6447726.1042633.18529
Dibujamoslasbandasdeconfianza,queademsreflejanlaincertidumbresobrefuturasobservaciones:
library(graphics)
matplot(x0,pred.ic$fit,type="l",xlab="Categoria",ylab="Ausencias")
Porltimopodemoshacerungrficoconlanubedepuntosylosdosbandas,ladeconfianzayladeprediccin(Ferrari&Head,
2010).
plot(datos$Categoria,datos$Ausencias,pch=20,ylim=range(datos$Categoria,
pred.ip,na.rm=TRUE),xlab="Categoria",ylab="Ausencias")
#Aadimoslasbandas
matlines(dfp$Categoria,pred.ic$fit,lty=c(1,2,2),lwd=1.5,col=1)
matlines(dfp$Categoria,pred.ip$fit,lty=c(1,3,3),lwd=1.5,col=1)
2.9ResumendecdigoenR
#Leerlosdatosdeunfichero.csv
df<read.table("files/40Afile.csv",sep=";",head=TRUE)
#CorrelacinGrficodedispersin(nubedepuntos)
plot(df$var1,df$var2)
##Normalidaddelasvariablesexplicativas
shapiro.test(df$var2)
##Calculamoslacorrelacinentrelasvaribalesaestudiar
cor(df$var1,df$var2)
###Ademsdecalcularlavemossusignificacinconuntest
cor.test(df$var1,df$var2,method="pearson")
##Calculamoslacorrelacindeunamatrizdevariables
ndf<data.frame(df$var1,df$var2,df$var3,df$var4)
cor(ndf,use="everything",method="pearson")
##Coeficientededeterminacin(R^2)
cor(ndf,use="everything")^2
##Hacemoseltestdecorrelacionesparalamatriz(reg.multiple)
library("psych")
corr.test(ndf,use="complete",method="pearson")
#Modeloderegresinsimple
##Creamoselmodeloderegresin
model<lm(var1~var2,data=df)
##Representamosgrficamenteelajuste
plot(df$var1,df$var2,xlab="var1",ylab="var2")
abline(model)
##Resumendelmodelo
summary(model)
##Estudiamosloscoeficientesdelmodelo
summary(model)$coefficients
###Intervalosdeconfianzaparaloscoeficientes
confint(model,level=0.95)
##tablaANOVA(ajustedelmodelo)
anova(model)
#Diagnsticodelmodelo(comprobarsupuestos)
##Obtencindelosresiduos
df$fitted.model<fitted(model)
dfresiduals.model<residuals(model)
df$rstudent.model<rstudent(model)
###Normalidad
shapiro.test(df$rstudent.model)
qqnorm(df$rstudent.model,main="Normal(0,1)")
qqline(df$rstudent.model)
###Homogeneidaddevarianzas
library(lmtest)
bptest(model)
###Autocorrelacin
plot(df$residuals.model,ylab="Residuaos",xlab="ndices")
abline(h=cor(df$var1,df$var2))
dwtest(var1~var2,alternative="two.sided",data=df)
###Valoresatpicos
library(car)
outlierTest(model,cutoff=0.05,n.max=10,order=TRUE)
##Prediccin
x0<seq(min(df$var2),max(df$var2),length=15)
pred<predict(model,data.frame(var2=x0),interval="prediction",se.fit=TRUE,
data=df)
head(pred)
###Intervalodeconfianzarparalospredictores
ic<predict(model,data.frame(var2=x0),interval="confidence",se.fit=TRUE,
data=df)
head(ic)
####bandadeconfianzalibrary(graphics)
matplot(x0,ic$fit,type="l",xlab="var2",ylab="var1")
3Regresinlinealmltiple
3.1Introduccin
EnlaregresinlinealsimplepredecamoslavariableresultadoY apartirdelosvaloresdeX,usandolaecuacindeunalinea
recta.ConlosvaloresquehabamosidoobteniendodeXeY calculbamoslosparmetrosdelaecuacinajustandoelmodeloa
losdatosmedianteelmtododemnimoscuadrados.Laregresinmltipleesunaextensinlgicadeestoasituacionesenlasque
haymsdeunavariablepredictora.Lanuevaecuacinser
Bsicamentesetratadelamismaecuacinqueparalaregresinsimpleexceptoporquehemosincluidopredictoresextra.Cada
predictortienenasociadosupropiocoeficienteypredecimoslavariabledependienteapartirdeunacombinacindetodaslas
variablesmsunresiduo,ei ,ladiferenciaentreelvalorajustadoyobservadodeY enlaisimaobservacin.
Loscoeficientesderegresinsepuedeninterpretarcomo:
elefectomedio(positivoonegativo)sobrelavariabledependientealaumentarenunaunidadelvalordelapredictora
i
Xi , i = 1, , k .
0 elvalormediodelavariabledependientecuandolaspredictorassoncero.
3.2Ejemplodeunmodeloderegresinlinealmltiple
Paraentenderelmodeloderegresinlinealmltiplevamosausarunejemplodeunaempresadefabricacinyrepartodepizzas.
Utilizaremoslabasededatospizza.rda(files/pizza.rda).
3.2.1Anlisisdecorrelacin
Comenzamosrepresentandolosdatosenunanubedepuntosmltiple,dondevemoslarelacinentrecadapardevariables.
load("files/40Apizza.rda")
pairs(pizza,panel=panel.smooth)
cor(pizza,use="everything",method="pearson")
##salesadscost
##sales1.00000000.78083280.8204250
##ads0.78083281.00000000.8949125
##cost0.82042500.89491251.0000000
vemosquetodaslasvariablestieneunacorrelacinelevada.
3.2.2Ajustedelmodelo
modelPizza1<lm(sales~ads+cost,data=pizza)
summary(modelPizza1)
##
##Call:
##lm(formula=sales~ads+cost,data=pizza)
##
##Residuals:
##Min1QMedian3QMax
##5.69811.82230.66562.44706.0123
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)6.58368.54220.7710.461
##ads0.62471.12030.5580.591
##cost2.13891.47011.4550.180
##
##Residualstandarderror:3.989on9degreesoffreedom
##MultipleRsquared:0.684,AdjustedRsquared:0.6138
##Fstatistic:9.741on2and9DF,pvalue:0.005604
3.3Comparacindemodelos
Pretendemosseleccionarelmejorsubconjuntodepredictoresporvariasrazones
1.Explicarlosdatosdelamaneramssimple.Debemoseliminarpredictoresredundantes.
2.Predictoresinnecesariosaaderuidoalasestimaciones.
3.Lacausadelamulticolinealidadestenerdemasiadasvariablestratandodehacerelmismotrabajo.Eliminarelexcesode
predictoresayudaalainterpretacindelmodelo.
4.Sivamosautilizarelmodeloparalaprediccin,podemosahorrartiempoy/odineroalnomedirpredictoresredundantes.
Puestoquetenemosdosvariablesexplicativasdisponemosdetresmodelosposibles
Vamosaajustarcadaunodelosmodelos
modelPizza2<lm(sales~ads,data=pizza)
summary(modelPizza2)
##
##Call:
##lm(formula=sales~ads,data=pizza)
##
##Residuals:
##Min1QMedian3QMax
##6.83642.75680.68043.83464.8971
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)16.93694.98183.4000.00677**
##ads2.08320.52713.9520.00272**
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Residualstandarderror:4.206on10degreesoffreedom
##MultipleRsquared:0.6097,AdjustedRsquared:0.5707
##Fstatistic:15.62on1and10DF,pvalue:0.00272
modelPizza3<lm(sales~cost,data=pizza)
summary(modelPizza3)
##
##Call:
##lm(formula=sales~cost,data=pizza)
##
##Residuals:
##Min1QMedian3QMax
##5.70161.32270.66471.75776.8957
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)4.1737.1090.5870.57023
##cost2.8730.6334.5380.00108**
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Residualstandarderror:3.849on10degreesoffreedom
##MultipleRsquared:0.6731,AdjustedRsquared:0.6404
##Fstatistic:20.59on1and10DF,pvalue:0.001079
Paraevitarlaeleccinsubjetivadelmejormodelo,podemoscomparartodoslosmodelosmedianteunatablaANOVAconjuntapara
cadapardemodelos.Hayquetenerencuentaqueparapodercompararmodelosestosdebenestarencajados,esdecir,queuno
deelloscontengaalotromsotroconjuntodevariablesexplicativas.
anova(modelPizza3,modelPizza1)
##AnalysisofVarianceTable
##
##Model1:sales~cost
##Model2:sales~ads+cost
##Res.DfRSSDfSumofSqFPr(>F)
##110148.15
##29143.2014.94720.31090.5907
anova(modelPizza3,modelPizza2)
##AnalysisofVarianceTable
##
##Model1:sales~cost
##Model2:sales~ads
##Res.DfRSSDfSumofSqFPr(>F)
##110148.15
##210176.88028.731
Paraesteconjuntodedatos,altenerslodosvariablesexplicativas,anlopodemosrealizaramanocomparandolosmodelosde
dosendos.Perocuandotenemosmsvariablesesteprocesosevuelvemuytediosoporloquemejorhacerloautomticamentecon
losmtodospasoapaso.
3.4Seleccindelmejormodelo
Existendistintosmtodosalahoradeconstruirunmodelocomplejoderegresinconvariospredictores
Elmtodojerrquicoenelqueseseleccionanlospredictoresbasndoseenuntrabajoanterioryelinvestigadordecideenqu
ordenintroducirlasvariablespredictorasalmodelo.
Elmtododeentradaforzadaenelquetodaslasvariablesentranalafuerzaenelmodelosimultneamente.
Losmtodospasoapasoquesebasanenuncriteriomatemticoparadecidirelordenenquelospredictoresentranenel
modelo.
NosotrosvamosautilizarenRlosmtodospasoapaso,peroantesdeverlosvamosaintroducirunanuevamedidadeajuste.
3.4.1CriteriodeinformacindeAkaike(AIC)
ElproblemadeutilizarR2 paracompararmodelosesquealaadirnuevasvariablesalmodelo,estamedidasiemprecrece.Si
estamosdecidiendocualdetodoslosmodelosajustamejoralosdatos,elmodeloconmspredictoressiempreserelmejor
ajustando.Paraevitarestoseutilizael AIC ,unamedidadeajustequepenalizaelmodeloportenermsvariables.Vienedefinido
por
S SR
AI C = n log + 2k,
n
3.4.2Metodospasoapaso
En R accedemosaestosmtodosutilizandoelcomando step(modelo,direction="") ,dondelasdireccionespuedenser:
forward :elmodeloinicialcontienesololaconstante 0 yapartirdeahelordenadorbuscalavariablepredictora(dentrodelas
disponibles)quemejorpredicelavariabledependiente.Siestepredictormejoralahabilidaddelmodeloparapredecirlavariable
respuesta,stapermaneceenelmodeloysebuscaotravariablepredictora.Paralasegundavariableseusacomocriteriode
seleccincogeraquellaquetengalamayorcorrelacinparcialconlarespuesta. R tienequedecidircundoparardeaadir
predictoresalmodelo,yparahacerlosebasaenelcriteriode AIC .
3.4.2.1Mtodospasoapasoen R
dfbeb<read.table("files/40Abebidas.csv",sep=";",head=TRUE)
str(dfbeb)
##'data.frame':46obs.of6variables:
##$caseid:int12345678910...
##$cirrosis:num41.231.739.457.574.859.854.347.977.256.6...
##$poblacion:int44434852714457347054...
##$cerveza:num33.233.840.639.245.537.544.231.945.645.9...
##$vino:int543711963127...
##$licorDuro:int30413848536573325657...
#Eliminamoslavariable'caseid'delconjuntopuesnonosinteresa.
dfbeb<dfbeb[,2:6]
Elarchivorecogelosdatosdemuerteporcirrosis,eltamaodelapoblacin,elconsumodecerveza,elconsumodevinoyel
consumodelicoresduros.Echamosunprimervistazoalosdatos
summary(dfbeb)
##cirrosispoblacioncervezavino
##Min.:28.00Min.:27.00Min.:31.20Min.:2.00
##1stQu.:48.901stQu.:44.251stQu.:35.621stQu.:6.25
##Median:57.65Median:55.00Median:42.25Median:10.00
##Mean:63.49Mean:56.26Mean:41.48Mean:11.59
##3rdQu.:75.703rdQu.:65.003rdQu.:45.833rdQu.:15.75
##Max.:129.90Max.:87.00Max.:56.10Max.:31.00
##licorDuro
##Min.:26.00
##1stQu.:41.50
##Median:56.00
##Mean:57.50
##3rdQu.:68.75
##Max.:149.00
Entodaslasvariablesexplicativaslosvaloresdelamediaylamedianasonmuycercanos,locualesmuybueno.
Correlacin
pairs(dfbeb,panel=panel.smooth)
cor(dfbeb,use="everything",method="pearson")
##cirrosispoblacioncervezavinolicorDuro
##cirrosis1.00000000.74907400.78272440.84461120.6819694
##poblacion0.74907401.00000000.84328120.67862300.4402957
##cerveza0.78272440.84328121.00000000.63984070.6863643
##vino0.84461120.67862300.63984071.00000000.6759206
##licorDuro0.68196940.44029570.68636430.67592061.0000000
Comovemosenlatablacirrosisestmuycorrelacionadacontodaslasvariablesexplicativasyentreellastambinexistebastante
correlacin.
Pasamosadefinirel__modelogeneral_contodaslasvariables.
modelCir<lm(cirrosis~poblacion+cerveza+vino+licorDuro,data=dfbeb)
summary(modelCir)
##
##Call:
##lm(formula=cirrosis~poblacion+cerveza+vino+licorDuro,
##data=dfbeb)
##
##Residuals:
##Min1QMedian3QMax
##18.87236.78030.15077.325216.4419
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)13.9631011.400351.2250.2276
##poblacion0.098290.244070.4030.6893
##cerveza1.148380.583001.9700.0556.
##vino1.857860.400964.6343.61e05***
##licorDuro0.048170.133360.3610.7198
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Residualstandarderror:10.61on41degreesoffreedom
##MultipleRsquared:0.8136,AdjustedRsquared:0.7954
##Fstatistic:44.75on4and41DF,pvalue:1.951e14
Analizamoselresumendeesteprimermodelo.Vemosquelamedianadelosresiduosescercanaa0,locualesmuybuenopues
queremosquelosresiduostenganmediacero.
Porotrolado,queelestadsticoFseaaltotambinesbueno,lavariabilidadexplicadaporelmodeloesmayorquelaquesequeda
sinexplicar.AsF = 44.75conunasignificacinp < 0.05quieredecirquenuestromodeloderegresinresultasignificativamente
mejorqueelmodelobsico.Veamosahorasipodemosmejorarelajuste.
Seleccindelmodelo
Vamosaaplicarlostresmtodosanuestrosmodelosparacmofuncionacadaunodeellos.Comenzamosconelmtodoms
recomendable,laeliminacinhaciaatrs( "backward" ).
step(modelCir,direction="backward")
##Start:AIC=221.95
##cirrosis~poblacion+cerveza+vino+licorDuro
##
##DfSumofSqRSSAIC
##licorDuro114.674625.8220.09
##poblacion118.244629.3220.13
##<none>4611.1221.95
##cerveza1436.385047.5224.11
##vino12414.637025.7239.32
##
##Step:AIC=220.09
##cirrosis~poblacion+cerveza+vino
##
##DfSumofSqRSSAIC
##poblacion16.34632.1218.16
##<none>4625.8220.09
##cerveza11046.85672.6227.48
##vino14278.98904.7248.22
##
##Step:AIC=218.16
##cirrosis~cerveza+vino
##
##DfSumofSqRSSAIC
##<none>4632.1218.16
##cerveza12459.67091.7235.75
##vino14951.39583.4249.60
##
##Call:
##lm(formula=cirrosis~cerveza+vino,data=dfbeb)
##
##Coefficients:
##(Intercept)cervezavino
##16.0011.3661.972
Seconsideraahoralaposibleeliminacindealgunadelastresvariablesrestantesysesacadelmodelolavariable poblacin
quedndonosconun AIC de 218.16 .
Porltimoseconsideralaposibilidaddesuprimiralgunadelasdosvariablesrestantes,sinembargo,vemosqueelproceso
consideraqueestadsticamenteresultamejorquepermanezcanenelmodeloyaquealeliminarlasel AIC aumenta,comomnimo,
hasta 235.75 .
Utilizamosahoraelmtododedosdireccionescambiandoelcomandoa
step(modelCir,direction="both")
##Start:AIC=221.95
##cirrosis~poblacion+cerveza+vino+licorDuro
##
##DfSumofSqRSSAIC
##licorDuro114.674625.8220.09
##poblacion118.244629.3220.13
##<none>4611.1221.95
##cerveza1436.385047.5224.11
##vino12414.637025.7239.32
##
##Step:AIC=220.09
##cirrosis~poblacion+cerveza+vino
##
##DfSumofSqRSSAIC
##poblacion16.34632.1218.16
##<none>4625.8220.09
##+licorDuro114.74611.1221.95
##cerveza11046.85672.6227.48
##vino14278.98904.7248.22
##
##Step:AIC=218.16
##cirrosis~cerveza+vino
##
##DfSumofSqRSSAIC
##<none>4632.1218.16
##+poblacion16.34625.8220.09
##+licorDuro12.74629.3220.13
##cerveza12459.67091.7235.75
##vino14951.39583.4249.60
##
##Call:
##lm(formula=cirrosis~cerveza+vino,data=dfbeb)
##
##Coefficients:
##(Intercept)cervezavino
##16.0011.3661.972
mdlCir0<lm(cirrosis~1,data=dfbeb)
step(mdlCir0,direction="forward",~poblacion+cerveza+vino+licorDuro)
##Start:AIC=291.23
##cirrosis~1
##
##DfSumofSqRSSAIC
##+vino1176507091.7235.75
##+cerveza1151589583.4249.60
##+poblacion11388310858.7255.35
##+licorDuro11150713234.6264.45
##<none>24741.3291.23
##
##Step:AIC=235.75
##cirrosis~vino
##
##DfSumofSqRSSAIC
##+cerveza12459.584632.1218.16
##+poblacion11419.045672.6227.48
##+licorDuro1562.066529.6233.95
##<none>7091.7235.75
##
##Step:AIC=218.16
##cirrosis~vino+cerveza
##
##DfSumofSqRSSAIC
##<none>4632.1218.16
##+poblacion16.29314625.8220.09
##+licorDuro12.72874629.3220.13
##
##Call:
##lm(formula=cirrosis~vino+cerveza,data=dfbeb)
##
##Coefficients:
##(Intercept)vinocerveza
##16.0011.9721.366
Eselmismoprocedimientoqueparaelmtodohaciaatrsperoaqusepartedelmodelosinvariablesexplicativasyseconsidera
encadapasolaposibleinclusindeunanuevavariable(lossignosahorason + ).Laprimeravariablequeseaadealmodeloes
vino seguidade cerveza pueslainclusindealgunadelasotrasincrementael AIC .
Entodoslosmtodosnoshemosquedamosconelmismomodelofinal.Laltimapartedelmtodomuestraloscoeficientesdel
modeloconelquenosquedamosfinalmente,quees
modelCirf<lm(cirrosis~cerveza+vino,data=dfbeb)
summary(modelCirf)
##
##Call:
##lm(formula=cirrosis~cerveza+vino,data=dfbeb)
##
##Residuals:
##Min1QMedian3QMax
##18.81586.85390.05997.216016.3714
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)16.000810.15301.5760.122
##cerveza1.36560.28584.7782.08e05***
##vino1.97230.29096.7802.69e08***
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Residualstandarderror:10.38on43degreesoffreedom
##MultipleRsquared:0.8128,AdjustedRsquared:0.8041
##Fstatistic:93.34on2and43DF,pvalue:2.268e16
Enestemodelofinallamedianadelosresiduosesprcticamentecero,loquevaasignificarquelosresiduosvanatenerunamedia
muycercanaa0.Vemosquelasdosvariables cerveza y vino sonsignificativas.Tenemosunerrorestndarde 10.38 ,yun
2
R a = 0.8041 loquesignificaqueelmodeloexplicaun80%delavariabilidaddelosdatos.FinalmentevemosqueeltestFes
significativo(p < 0.01)conunvalorelevado,locualnosindicaqueelmodeloseajustasignificativamentealosdatos.
anova(modelCirf)
##AnalysisofVarianceTable
##
##Response:cirrosis
##DfSumSqMeanSqFvaluePr(>F)
##cerveza115158.015158.0140.7133.787e15***
##vino14951.34951.345.9632.685e08***
##Residuals434632.1107.7
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
Latablaanovanosconfirmaquelasvariablesexplicativasdenuestromodelosonsignificativas,yvemosquelasumadecuadrados
explicadaporelmodeloesmuchomayorquelasumadecuadradosdelosresiduos,portantopodemosafirmarqueR2 0.
Aplicarelmodelo
Definimoselmodeloreemplazandolosbvaloresenlaecuacininicialyobtenemoselmodelo
3.5Diagnsticodelmodelo
ParaesteapartadonoshemosapoyadofundamentalmenteenellibroJ.Faraway(2009).
Alhabergeneradoelmodelobasndonosenunamuestranostenemosquepreguntarsielmodeloseajustabienalosdatos
observadosoestinfluenciadoporunpequeonmerodecasos,yporotroladosielmodelosepuedegeneralizaraotras
muestras.Esunerrorpensarqueporqueunmodeloseajustebienalosdatosobservadosentoncespodemostomarconclusiones
msalldenuestramuestra.
Parapodergeneralizarunmodeloderegresindebemoscomprobarlossupuestosdelmodelo,yunavezsegurosdequese
cumplen,paracomprobarsielmodelosepuedegeneralizarutilizaremoslavalidacincruzada.Empezamosanalizando
grficamentelossupuestos
plot(modelCirf,which=1,pch=20)
Esteprimergrficoenfrentaloserroresresidualesfrenteasusvaloresajustados.Elresiduosdebenestardistribuidosalazar
alrededordelalneahorizontalquerepresentaunerrorresidualdeceroesdecir,nodebehaberunatendenciaclaraenla
distribucindepuntos.Unatendenciaenlavariabilidaddelosresiduossugierequelavarianzaestrelacionadaconlamedia,
violandoelsupuestodevarianzaconstante.
Sielgrficotieneformadeembudo,esdecir,silospuntosparecenestarmsomenosextendidosalolargodelgrfico,entonceslo
msprobableesqueexistaheterocedastididadenlosdatos.Enestecasolosdatosparecenexhibirunaligeratendenciaconun
incrementodelavarianzaenlosextremos.
Sihubieraalgntipodecurvaenlagrficaentoncessehavioladoelsupuestodelinealidad.Ysilosdatosparecenseguirunpatrn
yademsestnmsextendidosporenalgunospuntosdelagrficaqueenotrosentoncesprobablementeseincumplanlos
supuestosdehomogeneidaddevarianzaylinealidad.
Engeneral,paracequeennuestromodelonoseviolanningunodelossupuestos.
plot(modelCirf,which=2,pch=20)
Enestegrficolosresiduostipificadossetrazancontraloscuantilesdeunadistribucinnormalestndar.Silosresiduosse
distribuyennormalmentelosdatossedebensituaralolargodelalnea.Enestecaso,losdatosnohacenparecenteneruna
distribucinnormal.
plot(modelCirf,which=3,pch=20)
Elterceroeselgrficoescalaubicacinenelquelosresiduosestnestandarizadosporsusdesviacionesestndarestimadas.Esta
grficaseutilizaparadetectarsiladifusindelosresiduosesconstanteenelrangodevaloresajustados.Unavezms,seaprecia
unatendenciamuyleveenlosdatosdetalmaneraquelosvaloresaltosmuestranunamayorvariacin.
plot(modelCirf,which=5,pch=20)
Finalmenteelcuartogrficomuestraelvalorleveragedecadapunto,lamedidadesuimportanciaenladeterminacindelmodelo
deregresin.Estnrepresentadoslosdatosqueejercenmayorinfluencia.
SuperponenaldiagramadepuntosleveragelascurvasdenivelparaladistanciadeCook,queesotramedidadelaimportanciade
cadaobservacinalaregresin.SilalneadedistanciaCooksabarcaaalgnpuntodedatos,significaqueelanlisispuedeser
muysensibleaesepuntoyquizseaconvenienterepetirelanlisisexcluyendolosdatos.Distanciaspequeassignificanquela
eliminacindelaobservacintienepocoefectosobrelosresultadosdelaregresinydistanciasmayoresa1sonsospechosas,
sugierenlapresenciadeunposiblevaloratpicoodeunmodelopobre.
Pasamosahoraaestudiarelmodeloanalticamente,paraelloobtenemoslosresiduos,losvaloresajustadosyestadsticosdel
modelomedianteelsiguientecdigo:
dfbeb$fitted.modelCirf<fitted(modelCirf)
dfbeb$residuals.modelCirf<residuals(modelCirf)
dfbeb$rstudent.modelCirf<rstudent(modelCirf)
3.5.1Normalidad
EnelgrficoQQplotquevimosantessugerafaltadenormalidadenlosdatos.Locomprobamos
ks.test(dfbeb$rstudent.modelCirf,"pnorm")
##
##OnesampleKolmogorovSmirnovtest
##
##data:dfbeb$rstudent.modelCirf
##D=0.1058,pvalue=0.6434
##alternativehypothesis:twosided
hist(dfbeb$rstudent.modelCirf,xlab="residuos",main="Histogramaresiduos")
#densidad
3.5.2Homogeneidaddevarianzas
bptest(modelCirf,studentize=FALSE,data=dfbeb)
##
##BreuschPagantest
##
##data:modelCirf
##BP=0.6665,df=2,pvalue=0.7166
3.5.3Autocorrelacin
dwtest(modelCirf,alternative="two.sided",data=dfbeb)
##
##DurbinWatsontest
##
##data:modelCirf
##DW=2.5152,pvalue=0.07225
##alternativehypothesis:trueautocorrelationisnot0
Aceptamoslahiptesisnuladequenoexistecorrelacinentrelosresiduosconunpvalorsuperiora 0.05 .
3.5.4Casosatpicosyresiduos
Podemosencontrarlosvaloresatpicosobservandograndesdiferenciasentrelosdatosmuestralesylosdatosajustadosporel
modelo,esdecir,estudiandolosresiduos.
Sielmodeloseajustabienalosdatosmuestralesentoncestodoslosresiduossernpequeos,mientrasquesielajustedelmodelo
espobrelosresiduosserngrandes.Adems,sialgncasosobresaleportenerungranresiduoestepodraserentoncesunvalor
atpico.
Paraesteprimergrficoseobservandosposiblesvaloresatpicos.
Estudiamoselgrficoparalasotrasdosvariables
Seobservanlosmismoscandidatosavaloresatpicos.HacemoseltestdeBonferroniparacomprobarlo.
outlierTest(modelCirf)
##
##NoStudentizedresidualswithBonferonnip<0.05
##Largest|rstudent|:
##rstudentunadjustedpvalueBonferonnip
##151.9062360.063478NA
Obtenemosqueelvalor 15 esunatpico.
3.6Anlisisdelainfluencia.
Conesteanlisispretendemosversihayalgunaobservacinqueesdemasiadoinfluyentesobreloscoeficientesdelmodelo,nos
ayudaadeterminarsielmodeloderegresinesestablealolargodelamuestraosiestperjudicadoporunospocoscasos
influyentes.
infl<influence.measures(modelCirf)
summary(infl)
##Potentiallyinfluentialobservationsof
##lm(formula=cirrosis~cerveza+vino,data=dfbeb):
##
##dfb.1_dfb.crvzdfb.vinodffitcov.rcook.dhat
##200.100.010.450.601.200.120.20_*
##380.260.300.310.351.45_*0.040.27_*
Analizamoslatablaresumen:
laprimeracolumnaindicaelndicedelasobservacionespotencialmenteinfluyentes.
lascolumnasquecomienzancon dfb proporcionanlasobservacionespotencialmenteinfluyentessobrecadaunodelos
coeficientesdelmodelo.
lacolumna dffits identificalasobservacionesinfluyentessegnelestadsticoDFFITS.
lacolumna cov.r muestralasobservacionespotencialmenteinfluyentessegnelestadsticoCOVRATIO.
lacolumna cook.d proporcionaladistanciadeCook.
laltimacolumnapresentalasobservacionesquepuedenresultarinfluyentessegnlos leverages .
Encadacolumnaelasteriscosealasirealmentelaobservacinpuedeserinfluyente.Enestecasotenemosquelaobservacin
38 resultainfluyenteconelestadstico cov.r ,ylas 38 yla 20 paralos`leverages.
Analizamosunpocomsestasmedidas:
ParaladistanciadeCookseconsideraquevaloresmayoresque 1 puedensercausadepreocupacin.Siuncasoesun
valoratpicoperosudistanciadeCookesmenorque1,entoncesnoexistenecesidadrealdeeliminarestedatoyaque
realmentenotieneungranefectosobreelmodeloderegresin.
Loestudiamosgrficamente.Enelprimergrficosemuestramediantecrculosdedistintotamaolainfluenciaquecadapunto
ejercesobreelmodeloyenelsegundoestnrepresentadasenordenascendentelasdistanciasdeCooks.
influencePlot(modelCirf,id.n=2)
##StudResHatCookD
##121.78342160.092356420.3204258
##151.90623580.040154420.2185110
##201.22035020.196684240.3466640
##301.78103840.165001360.4459772
##380.56648080.274948480.2030124
Enesteprimergrficovemosquelasmedidasmsinfluyentessonla30,la20yla12.VemoselgrficodelasdistanciasdeCook.
cook<cooks.distance(modelCirf)
labels<rownames(dfbeb)
halfnorm(cook,3,labs=labels,ylab="DistanciadeCook")
Enestegrficovolvemosaobtenerquelospuntosmsinfluyentessonel30,el20yel12,perocomoenningncasoestadistancia
esmayorque1,puesparaelvalormselevadoes0.2,podemosafirmarqueningunodeellosesuncasoatpicoynoesnecesario
eliminarlosdelmodelo.
Laformahabitualdeprocedereseliminardichasobservacionesdelmodeloycomenzardenuevotodoelproceso,sinembargo
comoelmodelocumpletodaslashiptesis,eliminardichasobservacionespodraprovocarqueelnuevomodelofueraincorrectoy
tuviramosquevolveralmodeloanterior.
Hayquetenerencuentaqueloslmitesmarcadosparaidentificarunaobservacincomoinfluyentesonaproximados,yportanto
debensertomadoscomoorientacin,asalvoqueelvalorobtenidoseaexageradamentellamativo.
3.7Validacincruzada
Alutilizarmtodospasoapasoesrecomendablehacerunavalidacincruzadadenuestromodeloparaevaluarsueficacia
prediciendolavariabledependienteenunamuestradiferente.Evaluarlaprecisindeunmodeloatravsdediferentesmuestrases
loqueseconocecomovalidacincruzada.
Parapodergeneralizarunmodeloestedebesercapazdepredecirconprecisinlamismavariabledependientedelmismoconjunto
depredictoresenungrupodiferentedegente.Siaplicamoselmodeloaunamuestradiferenteysupoderpredictivosereduce
severamente,entoncesnoesgeneralizable.
ElmtodousualescalcularademsdelaR2 suvalorajustado,puesesunindicadordelaprdidadepoderpredictivo.MientrasR2
nosdicecuntavarianzadeY representaelmodeloderegresin,laR2a cuantificalavarianzadeY querepresentaraelmodelosi
estehubierasidoobtenidodelapoblacindondehemostomadolamuestra.SilosvaloresdeR2 yR2a estnprximossignificaque
elmodeloderegresinesbueno.
Sinembargo,estamedidahasidocriticadaporquenodicenadasobrelaefectividaddelmodeloderegresinsiseaplicaaun
conjuntodedatostotalmentedistinto.Unaalternativaserapartirlosdatosycruzarlos,esdecir,hacerunadivisinaleatoriadel
conjuntodedatos(p.ejun80%20%),calcularlaecuacinderegresinenambosconjuntosycompararlosmodelosresultantes.
ComparandolosvaloresdeR2 ylosbvaloresenlasdosmuestraspodemossaberlabondaddelmodelooriginal.
library(DAAG)
cv.lm(dfbeb,modelCirf,m=2)
3.8Prediccin
Paracalcularlasecuacionesdeprediccinprocedemosdeformasimilaralcasoderegresinlinealsimple,lanicadiferenciaes
quehayquedarvalorespredictivosparatodaslasvariablesqueaparezcanenelmodelo.
#Definiendounintervaloparalavblevino.
x0<seq(min(dfbeb$vino),max(dfbeb$vino),length=length(dfbeb$vino))
dbp<data.frame(poblacion=56,cerveza=41,vino=x0,licorDuro=58)
pred<predict(modelCirf,dbp,interval="prediction",se.fit=TRUE,data=dfbeb)
head(pred$fit)
##fitlwrupr
##143.9349822.0861165.78385
##245.2060223.4483666.96368
##346.4770524.8043968.14972
##447.7480926.1541469.34204
##549.0191327.4975370.54072
##650.2901628.8345171.74582
3.9Diagnsticosdecolinealidad(multicolinealidad)
Sienunmodeloderegresinlinealmltiplealgunavariablepredictoraescombinacinlinealdeotrasdelasvariablesdelmodelo,
entonceselmodeloesirresoluble,debidoaqueenesecasolamatrizX Xessingular,esdecir,sudeterminanteesceroynose
puedeinvertir.
Portanto,lamulticolinealidadexistesihayunafuertecorrelacinentredosomsvariablespredictorasdelmodelo,esdecir,cuando
algunodeloscoeficientesdecorrelacinsimpleomltipleentrealgunasdelasvariablesindependienteses 1 .Siexisteuna
colinealidadperfectaentrepredictoresesimposibleobtenerestimadoresnicosparaloscoeficientesderegresinyaquehayun
nmeroinfinitodecoeficientesquefuncionaranigualdebien.
Enlaprcticaestacolinealidadexactararasvecesocurre,perossurgeconciertafrecuencialallamadacasicolinealidad,cuando
algunavariableescasicombinacinlinealdeotrauotras.Dichodeotromodo,algunoscoeficientesdecorrelacinsimpleo
mltipleentrelasvariablesindependientesestncercanosa1,aunquenolleganadichovalor.
EnesecasolamatrizX Xescasisingular,esdecir,sudeterminantenoesceroperoesmuypequeo.Comoparainvertiruna
matrizhayquedividirporsudeterminantesurgenproblemasdeprecisinenlaestimacindeloscoeficientes,yaquelosalgoritmos
deinversindematricespierdenprecisinaltenerquedividirporunnmeromuypequeo,siendoademsinestables.
Hayvariasformasdedetectaresteproblema:
Observarlosestadsticosestimados:cuandolapruebamuestraqueelmodeloesglobalmentesignificativo,esdecir,quelos
coeficientesestimadossonestadsticamentediferentesdecero,peroseencuentranunosvaloresestimadosbajosque
demuestranqueloscoeficientesnosonsignificativos.
Observarlamatrizdecorrelacinentreparejasderegresores:siestecoeficienteesmayora0.8entoncesla
multicolinealidadesunproblemagrave.Sinembargo,estacondicinsepuedeconsiderarsuficienteperononecesaria,la
multicolinealidadpuedeexistirapesardequelascorrelacionesseancomparativamentebajas(esdecir,inferioresa0.5).
Regresionesauxiliares:dadoquelamulticolinealidadsurgeporlarelacinlinealentrevariablesexplicativas,sepueden
estimarregresionesentrelasvariablesexplicativasyadoptarlareglaprcticadeKlien.Estesugierequesielmodeloobtenido
enlaregresinauxiliaresmayorqueelglobalobtenidocontodoslosregresores,hayunserioproblemademulticolinealidad.
EstimarelFactordeInflacindeVarianza(FIV):indicasielpredictortieneunafuerterelacinlinealconotropredictoryesel
quevamosacalcularcon R .Aunquenoexistenreglasgeneralessetienenlossiguientescriterios:
Un VIF>10 escausadepreocupacin.
Si VIF essustancialmentemayorque 1 entonceslaregresinpuedeverseperjudicada.
Tolerancia=1/VIF debajode 0.1 indicaunproblemaserio.
Tolerancia debajode 0.2 indicaunproblemapotencial.
Siidentificamosmulticolinealidadnohaymuchoquepodamoshacer,lasolucinnoesfcil:
Podemosintentareliminarlavariablemenosnecesariaimplicadaenlacolinealidad,ariesgodeobtenerunmodelomenos
vlido.Sinembargo,unproblemacomnesnosaberquvariabledebemosomitir.Cualquieradelasvariablesproblemticas
puedeseromitida,nohayfundamentosestadsticosparasuprimirunavariableenvezdeotra.
Serecomiendaquesieliminamosunavariablepredictora,stasereemplaceporotraigualmenteimportantequenotengauna
colinealidadtanfuerte.
Sepuedeintentarcambiarlaescalademedidadelavariableenconflicto(esdecir,transformarla).Sinembargoestas
transformacioneshacenalmodelomuydependientedelosdatosactuales,invalidandosucapacidadpredictiva.
Tambinsepuederecurriraaumentarlamuestraparaasaumentarlainformacinenelmodeloyversilamulticolinealidad
puededisminuir,aunquenosiempreserposible.
Laltimaposibilidad,aunquemscomplejacuandohayvariospredictores,eshacerunanlisisfactorialyusarlaspuntuaciones
delfactorresultantecomopredictor.
vif(modelCirf)
##cervezavino
##1.6931821.693182
sqrt(vif(modelCirf))>2
##cervezavino
##FALSEFALSE
Nuestromodelonopresentaproblemasdemulticolinealidad.
3.10ResumendecdigoenR
#Leerlosdatosdeunfichero.csv
df<read.table("files/40Afile.csv",sep=";",head=TRUE)
###Primeraaproximacinalosdatos
str(df)
summary(df)
#CorrelacinGrficodedispersinmultivariante
pairs(df,panel=panel.smooth)
#Matrizdecorrelacin
cor(df,use="everything",method="pearson")
corr.test(df,use="complete",method="pearson")
##Correlacinparcial(sifueranecesario)
library("ppcor")
pcor.test(df$var1,df$var2,df$var3)
#Modeloderegresinmltiple
##Creamoselmodeloderegresin
modelo<lm(var1~var2+var3+...,data=df)
summary(modelo)#analizamoselmodeloinicial
##Comparacindemodelos(encajados)
anova(model3,model1)
anova(model3,model2)
##SeleccindelmodelomediantelosmtodospasoapasoMtodohaciaatrs
step(modelo,direction="backward")
###Mtododedossentidos
step(modelo,direction="both")
###Mtodohaciadelante
mdlCir0<lm(var1~1,data=df)
step(mdlCir0,direction="forward",~var1+var2+var3+var4)
modelo<lm(var1~var2+var3,data=df)
#Anlisisdelmodelofinal
summary(modelo)
anova(modelo)
##Diagnsitcodelmodelo
#Grficamente
plot(modelo,which=1)
plot(modelo,which=2)
plot(modelo,which=3)
plot(modelo,which=5)
##ContrastesObtenemoslosresiduosdelmodeloyvaloresajustados
df$fitted.modelo<fitted(modelo)
df$residuals.modelo<residuals(modelo)
df$rstudent.modelo<rstudent(modelo)
###Normalidad
ks.test(df$rstudent.modelo,"pnorm")
hist(df$rstudent.modelo,xlab="residuos",main="histogramaresiduos")
###Homogeneidaddevarianzas
library(lmtest)
bptest(modelo,studentize=FALSE,data=df)
###Autocorrelacin
dwtest(modelo,alternative="two.sided",data=df)
###Valoresatpicos
library(car)
outlierTest(modelo)
###AnlisisdelainfluenciaTablaconlasmedidasdeinfluencia
infl<influence.measures(modelo)
summary(infl)
####Grficomedidasinfluyentes
influencePlot(modelo,id.n=2)
####GrficodelasdistanciasdeCook
cook<cooks.distance(modelo)
labels<rownames(df)
library(faraway)
halfnorm(cook,3,labs=labels,ylab="DistanciadeCook")
##validacincruzada
library(DAAG)
cv.lm(df,modelo,m=2)
#Prediccin.Valoresconcretosdecadavble
predict(modelo,data.frame(var1=39,var=62,var3=18),interval="prediction",
data=df)
#Poniendounintervaloparaunadelasvbles.
x0<seq(min(df$var2),max(df$var2),length=length(df$var2))
pred<predict(modelo,data.frame(var2=x0),interval="prediction",data=df)
head(pred)
#Multicolinealidad
library(car)
vif(modelo)
sqrt(vif(modelo))>2
3.11Predictorescategricos.Variablesdummy
Unodelossupuestosdelaregresinlinealesquelasvariablesdelmodelodebensercontinuasocategricasconsolodos
categoras.Enelcasodevariablesconmsdedoscategorasusaremosloqueseconocecomovariablesdummy,variables
ficticias,simuladas.
Estacodificacinesunamaneraderepresentarvariosgruposdepersonasperousandoslounosyceros.Elprocesoconsiste
crearvariasvariablessiguiendoestospasos:
1.Contarelnmerodegruposquequeremosrecodificaryrestarle1.
2.Creartantasnuevasvariablescomoelvalorobtenidoen1.Estassernlasvariablesdummy.
3.Elegirunodelosgruposcomoelgrupodereferencia,esdecir,elgrupocontraelquesevanacomparartodoslosdems
grupos.Normalmentesetomaelgrupocontroloaquelquerepresentaalamayoradelapoblacin.
4.Elegidoelgruporeferenciafijamoselvalor0aesegrupoentodaslasvariablesdummy.
5.Paralaprimeravariabledummyasignamoselvalor1alprimergrupoquequeramoscompararcontraelgruporeferencia.Al
restodegruposledamoselvalor0.
6.Enlasegundavariabledummydamoselvalor1alsegundogrupoquequeramoscotejary0alrestodegrupos.
7.Repetimoselprocesohastaacabarcontodaslasvariablesdummy.
Losindividuosestnclasificadosencuatrogrupossegnsusestilosmusicales,estossonindie,metal,popysinestilopredominante.
Queremosestudiarloscambiosdehigieneparacadaunodeellosalolargodelfestival.
dffest<read.table("files/40Afestival.csv",sep=";",head=TRUE)
head(dffest)
##ticknumbermusicadia1dia2dia3cambio
##12111metal2.651.351.611.04
##22229pop0.971.410.290.68
##32338sinestilo0.84NANANA
##42384pop3.03NANANA
##52401sinestilo0.880.08NANA
##62405pop0.85NANANA
str(dffest)
##'data.frame':810obs.of6variables:
##$ticknumber:int2111222923382384240124052467247824902504...
##$musica:Factorw/4levels"indie","metal",..:2343431134...
##$dia1:num2.650.970.843.030.880.851.563.022.291.11...
##$dia2:num1.351.41NANA0.08NANANANA0.44...
##$dia3:num1.610.29NANANANANANANA0.55...
##$cambio:num1.040.68NANANANANANANA0.56...
levels(dffest$musica)
##[1]"indie""metal""pop""sinestilo"
Empezamosconungrficoparahacernosunaideadecmoafectalaspreferenciasmusicalesdelosasistentesasuscambiosenla
higieneduranteeldesarrollodelfestival.
plot(cambio~musica,data=dffest)
Creamoslasvariablesdummy.Lopodemoshacerautomticamentemedianteelcomando
contr.treatment(numerodegrupos,base=nmerodelgruporeferencia) ,dondeennuestrocasotenemoscuatrogruposyelgrupo
dereferenciaeselltimo,sinestilo.
contrasts(dffest$musica)<contr.treatment(4,base=4)
##attr(,'contrasts')123indie100metal010pop001sinestilo00
##0Levels:indiemetalpopsinestilo
Espreferiblehaceresteprocesodeformamanualyaquetenemoscontrolsobrelacodificacinypodemosponernombres
significativosalasvariables.Tomamoslacategorasinestilocomogruporeferencia
Indie_dum<c(1,0,0,0)
Metal_dum<c(0,1,0,0)
Pop_dum<c(0,0,1,0)
contrasts(dffest$musica)<cbind(Indie_dum,Metal_dum,Pop_dum)
##attr(,'contrasts')indie_dummetal_dumpop_dumindie100metal010pop
##001sinestilo000Levels:indiemetalpopsinestilo
Unavezcreadaslasvariablesdummyseejecutaelmodeloderegresindelamismamaneraqueparacualquierotrotipode
regresin
modelFesti<lm(cambio~musica,data=dffest)
summary(modelFesti)
##
##Call:
##lm(formula=cambio~musica,data=dffest)
##
##Residuals:
##Min1QMedian3QMax
##1.825690.504890.055930.424301.59431
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)0.554310.090366.1341.15e08***
##musicaIndie_dum0.409980.204922.0010.0477*
##musicaMetal_dum0.028380.160330.1770.8598
##musicaPop_dum0.411520.167032.4640.0152*
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Residualstandarderror:0.6882on119degreesoffreedom
##(687observationsdeletedduetomissingness)
##MultipleRsquared:0.07617,AdjustedRsquared:0.05288
##Fstatistic:3.27on3and119DF,pvalue:0.02369
ElcoeficienteR2 nosdicequeconlasvariablesdummypodemosexplicarel7.6%delavariabilidadenelcambiodehigienedel
individuosegnseasuafiliacinmusical,yelestadsticoFqueestavarianzaessignificativa.Pasamosaexaminarloscoeficientes
delmodelo.
Recordemosquelosvaloresbetamuestranelcambioenlavariablerespuestaprovocadoporelcambiodeunaunidadenel
predictor.Enestecasoelcambiodelpredictoresde0a1ycomoelgruporeferenciaessiemprecero,losvaloresbetarealmente
nosproporcionanladiferenciarelativaentrecadagrupoyelgrupoelegidocomoreferencia.As,elvalordelavariable Indide_dum
indicaladiferenciaenelcambiodehigienedeunapersonasinafiliacinmusicalcomparadaconunapersonaalaquelegustala
msicaindie.
Elestadsticotcontrastasiestasdiferenciassoncero.Siessignificantequieredecirqueelgrupocodificadocon1es
significativamentediferentedelgrupodereferencia.Paraestaprimeravariableelttestessignificativoyelvalorbetanegativoporlo
quepodemosdecirquelahigieneempeoradeunapersonasinafiliacinmusicalaunaindie.
Referenciasybibliografa
AliS.Hadi,S.C.&.(2006).LinearModelswithR(4thedition.).JohnWiley&Sons.Retrievedfrom
http://samples.sainsburysebooks.co.uk/9780470055458_sample_381725.pdf
(http://samples.sainsburysebooks.co.uk/9780470055458_sample_381725.pdf)
Ferrari,D.,&Head,T.(2010).RegressioninR.PartI:SimpleLinearRegression.UCLADepartmentofStatisticsStatistical
ConsultingCenter.RetrievedOctober13,2014,fromhttp://scc.stat.ucla.edu/page_attachments/0000/0139/reg_1.pdf
(http://scc.stat.ucla.edu/page_attachments/0000/0139/reg_1.pdf)
Field,A.,Miles,J.,&Field,Z.(2012).DiscoveringStatisticsUsingR(1stedition.).SagePublicationsLtd.
J.Faraway,J.(2009).LinearModelswithR(1stedition.).Taylor&FranciseLibrary.Retrievedfrom
http://home.ufam.edu.br/jcardoso/PPGMAT537/Linear%20Models%20with%20R.pdf
(http://home.ufam.edu.br/jcardoso/PPGMAT537/Linear%20Models%20with%20R.pdf)
Kabacoff,R.(2014).Creatingafigurearrangementwithfinecontrol.RetrievedOctober13,2014,from
http://www.statmethods.net/advgraphs/layout.html(http://www.statmethods.net/advgraphs/layout.html)
Prez,J.L.(2014).LAESTADSTICA:UNAORQUESTAHECHAINSTRUMENTO.RetrievedOctober13,2014,from
http://estadisticaorquestainstrumento.wordpress.com/(http://estadisticaorquestainstrumento.wordpress.com/)
Snchez,J.G.P.(2011).Regresinlinealsimple.UniversidadPolitcnicadeMadrid.RetrievedOctober13,2014,from
http://ocw.upm.es/estadisticaeinvestigacionoperativa/introduccionalaestadisticabasicaeldisenodeexperimentosyla
regresionlineal/contenidos/Materialdeclase/Regresion.pdf(http://ocw.upm.es/estadisticaeinvestigacionoperativa/introducciona
laestadisticabasicaeldisenodeexperimentosylaregresionlineal/contenidos/Materialdeclase/Regresion.pdf)
(SCG),S.S.C.G.(2013).MultipleLinearRegression(R).SanDiegoStateUniversity.RetrievedOctober13,2014,from
http://scg.sdsu.edu/mlrr/(http://scg.sdsu.edu/mlrr/)
SPSS.(2007).Anlisisderegresinlineal:ElprocedimientoRegresinlineal.IBMSPSSStatistics.RetrievedOctober13,2014,from
http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales/analisis_datosyMultivariable/18reglin_SPSS.pdf
(http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales/analisis_datosyMultivariable/18reglin_SPSS.pdf)