Escolar Documentos
Profissional Documentos
Cultura Documentos
Titulaci
on: Grado en Tecnologas Industriales
Curso Acad
emico: 2014/2015
Trabajo en grupo. Grupo 3
Alumnos:
Instrucciones: Se resolveran los siguientes problemas con ayuda del programa informatico visto en practicas (R
y R Commander). La nota de este trabajo constituye un 10 % de la nota final de la asignatura para los miembros
del grupo. Se valoraran tanto la exposicion de resultados como los razonamientos y conclusiones asociados a los
mismos. Tambien seran objeto de evaluacion las respuestas proporcionadas a preguntas del profesor.
1. Waugh estudio en 1957 la evolucion de la demanda de la carne de cerdo y de ternera en Estados Unidos durante el perodo 1925-1941. El fichero carne log.txt contiene los datos (tras su transformacion logartimica)
que fueron objeto de estudio.
a) Considerando el logaritmo del consumo de cerdo (ConsCerdo) variable respuesta, Cual sera la primera
variable regresora que entara en el modelo? Pista: Obtener los coeficientes de correlaci
on.
b) Si consideramos un modelo lineal con todas las posibles variables regresoras, Cual sera la primera en
abandonar el modelo? Pista: Observar los p-valores correspondientes a los coeficientes.
c) Seleccionar las variables que se incluiran en el modelo de regresion mediante los metodos de eliminacion
hacia atras y seleccion hacia delante. Especificar el modelo definitivo con los p-valores correspondientes
on se obtiene para la varianza del error?
a cada coeficiente. Calcular el valor de R2 . Que estimaci
d) Para el modelo definitivo comprobar las hip
otesis del modelo de regresion lineal, tanto grafica como
numericamente.
3. En el fichero clas temp2.txt se encuentran los datos correspondientes a la demanda (en miles de unidades)
de un determinado producto. Los datos se han recopilado por trimestres (datos trimestrales), comenzando
en el primer trimestre de 1980.
a) Representa los datos de la demanda en un grafico temporal y comenta los aspectos mas relevantes.
La serie presenta estacionalidad? C
omo diras que es la tendencia?
b) Determina si se trata de un modelo aditivo o multiplicativo (realiza un grafico de desviaciones tpicas
frente a medias para cada a
no).
c) Extrae las componentes de la serie (Tendencia-Ciclo, Estacionalidad e Irregular) y comenta los resultados.
d) Obten un modelo determinista que nos permita realizar predicciones.
e) Con el modelo del apartado anterior, calcula los valores de la serie para los trimestres observados (93
trimestres) y los 8 trimestres siguientes. Es decir, queremos predecir la demanda para los pr
oximos dos
a
nos.
f ) Representa en un mismo grafico la secuencia de la serie observada y de la serie predicha con el modelo
determinista.
g ) Que tecnica de alisado exponencial te parece mas adecuada para analizar esta serie?. Razona tu
respuesta.
h) Aplica la tecnica de alisado que has considerado adecuada, seleccionando como parametros de alisado
aquellos que minimizan la suma de cuadrados de los errores. Determina como quedaran las formulas
recurrentes de las series alisadas e interpreta el significado de los parmetros de alisado obtenidos.
i) Representa en un mismo grafico la serie original y los valores ajustados por el modelo. En otro grafico,
representa los errores de predicci
on (residuos). Comenta los resultados obtenidos.
j) Compara los residuos obtenidos mediante esta tecnica de alisado con los residuos de la descomposicion
clasica y razona que metodo es mas adecuado para realizar predicciones.
k) Realiza una prediccion con el metodo de alisado exponencia de la demanda para los 2 a
nos siguientes.
Representa la serie original y las predicciones en un mismo grafico temporal.
EJERCICIO 1
Cargamos los datos desde formato texto. Tenemos 10 variables. Planteamos un modelo de regresin lineal
ltiple sie do la va ia le expli ada el o su o de a e de e do Co sCe do .
a) Matriz de correlaciones:
Estadsticos-Resmenes-Matriz de correlaciones (seleccionamos todas las variables):
El valor ms alto de correlacin, siendo este el ms cercano a 1, se obtiene para la variable precio de la
carne de cerdo PrecCerdo , lo cual tiene sentido. Esta sera la primera variable en entrar en el modelo.
Forward:
Ambas conducen al mismo resultado: un modelo lineal donde las 9 variables explicativas influyen.
R2 es por tanto el anteriormente calculado, 0.995(99.5% de la variabilidad explicada por los regresores),
mientras que la varianza del error es el cuadrado de su desviacin tpica: S2=0.011832=0.0001399489
Vemos que aunque principalmente se cumplen las hiptesis de homocedasticidad(residuos formando una
banda en torno a valores ajustados) y normalidad(cuantiles de la muestra cercanos a cuantiles tericos),
existen observaciones atpicas.
Procedemos ahora a la comprobacin numrica:
Modelos - Diagnsticos numricos - Test Durbin-Watson
(rho=!0)
Durbin-Watson test
data: ConsCerdo ~ ConsTernera + Fecha + IConsAlimPC + IPCAlimentac +
IRentaDispPC + IRentaRealDPC + PrecCerdo + PrecTernera
DW = 2.7775, p-value = 0.702
alternative hypothesis: true autocorrelation is not 0
IPrecRelatAlim +
dL
dU
dL
dU
Vemos que forman una nube de datos ms o menos dispersa que no sigue ningn patrn claro. Asumimos
la hiptesis de independencia de los residuos.
Para la normalidad, procedemos con el test de Shapiro-Wilks:
shapiro.test(nombredelmodelo$res)
Shapiro-Wilk normality test
data: RegModel.1$res
W = 0.95879, p-value = 0.6088
Este test contrasta la hiptesis nula de normalidad de datos numricos (en nuestro caso residuos de un modelo
ajustado). Como el p-valor es muy alto, no rechazamos la hiptesis nula. Esto confirma la hiptesis de normalidad
de los residuos.
No se puede comprobar la hiptesis de homocedasticidad numricamente si no hay repeticin de datos para las
mismas variables explicativas. Como los datos son variables continuas, no podemos aplicar el test de Levenne. La
homocedasticidad slo puede comprobarse grficamente.
Comprobamos que existen problemas de colinealidad (algunas variables explicativas dependen unas de
otras). Esto puede observarse realizando el determinante de la matriz de varianzas-covarianzas (cambiar
cor por cov en la matriz de correlaciones y almacenar esa matriz como variable, det(nombre de la
matriz)), el cual es igual a 5. 79 5ee a o a e o, sig ifi a ue existe oli ealidad , o ie
representando la matriz de diagramas de dispersin(Grficas->Matriz de diagramas de dispersin), en el
que se ven relaciones claras de dependencia lineal entre alguna variable u observando la matriz de
correlaciones, la cual tiene valores absolutos altos entre algunas variables explicativas. Podramos utilizar
en la seleccin paso a paso otro criterio con ms significacin, como por ejemplo el basado en los
estadsticos F parciales, seleccionando un F de entrada y uno de salida(generalmente F en=Fsal), y siguiendo
los mismos pasos del criterio AIC. El procedimiento termina cuando no se puede incluir ninguna variable
ms porque su F parcial es menor que la de entrada y ninguna puede extraerse porque su F parcial es
mayor que la de salida. Esto aumentara los residuos y disminuira el R2 (criterio menos potente), pero el
modelo resultara ms sencillo, con menos variables.
Nota: Para Reg. Lineal mltiple, un mtodo de seleccin de modelos es ms significativo cunto menos
probabilidad hay de incluir variables en el modelo, y esto implica que sea menos potente (ms
probabilidad de desechar variables que realmente importen). Hay que buscar un equilibrio entre
significacin y potencia. En este caso se ha comprobado que las variables explicativas dependan unas de
otras, podra ser interesante utilizar otro mtodo de seleccin como el ya mencionado.
Re o da do ue la va ia le Co sCe do e a loga t i a, el
odelo fi al se a:
11.35*IPCAlimentac
11.6RentaRealDPC
+ 11.41*IPrecRelatAlim
0.42*PrecCerdo
0.007*Fecha
+ 11.34*IRentaDispPC
0.62PrecTernera)
EJERCICIO 2
Introducir los datos desde el portapapeles y poner tabuladores.
a) Factor: estacin del ao
Respuesta: cantidad de cloro necesaria en cada tratamiento
Niveles: 4 niveles (k=4) -> invierno= , primavera= , verano= e invierno=
Hiptesis del modelo:
: algn
b) Estadsticos -> medias -> anova para un factor (factor: estacin y variable: cloro)
Es ANOVA de un factor ya que solo estamos evaluando la demanda de cloro en las distintas estaciones (las
fechas no influyen).
En la tabla se muestran las sumas de cuadrados, grados de libertad y medias cuadrticas para el factor y los
residuos, as como el estadstico F (en este caso F = 60.25) y el p-valor asociado al test de hiptesis.
Encontramos un p-valor muy pequeo (p-valor = <2x10-16), con lo que podemos rechazar la hiptesis
nula y afirmar con mucha confianza que existen diferencias significativas en la demanda de cloro en las
distintas estaciones. De esta informacin podemos obtener tambin la estimacin de la varianza del
modelo (que sabemos que es la media cuadrtica residual, con un valor de 0.72).
(Calculamos tambin el valor de F de forma manual, por comprobar los resultados obtenidos con R
Commander; pero no podamos calcular nuestra F tomando un valor directamente de las tablas, porque
nuestro n-k es 290 y en la tabla aparece 200 e .
Hemos considerado que no es necesario obtener dicho valor F equivalente a F290, 0 , ya ue to a do
tanto 200 como os da valo es pa a F de: 2
y 2 0
espe tiva e te; y la F al ulada edia te
la ta la ANOVA es de 02 , po ta to pode os afi a o total otu didad ue se va a e o t a e la
regin de rechazo, lo que significa que vamos a rechazar la hiptesis nula.)
d) Analizando grficamente: Modelos -> grficas -> grficas bsicas para el diagnstico
aov(Demanda_Cl ~ Estacion)
3.5
4.0
Fitted values
4.5
4
0
229
126
214
-2
2
1
0
-2 -1
Residuals
229
126
214
3.0
Normal Q-Q
Standardized residuals
Residuals vs Fitted
-3
-2
-1
Theoretical Quantiles
Nos interesan las dos grficas de la parte superior. En la de la izquierda podemos observar los residuos
frente a las medias (o valores ajustados). Como no se observa ningn patrn seguido por los datos,
podemos decir que se cumple la homocedasticidad (=se acepta la igualdad de varianzas, hiptesis nula).
En el grfico de la derecha aparece un grfico cuantil-cuantil (Q-Q plot) de los residuos, en el que se
observa una tendencia lineal, que nos lleva a poder decir que tambin se est cumpliendo la hiptesis de
normalidad.
Analizando numricamente: Estadsticos -> Varianzas -> Test de Bartlett / Test de Levene
En ambos test numricos el p-valor obtenido (barlett: 2.049e-06 y levene: 0.0002851) es muy inferior al
alfa=0.05 por lo que no podemos aceptar la igualdad de varianzas y confirmamos que no hay
homocedasticidad.
Para el chequeo numrico de la hiptesis de normalidad debemos utilizar los residuos Podemos aplicar un
test de normalidad de Shapiro-Wilks y/o de Kolmogorov-Smirnov a los residuos:
Estadisticos -> resmenes -> test de normalidad de shapiro-wilks
ks.test(AnovaModel.n$res,pnorm,mean(AnovaModel.n$res),sd(AnovaModel.n$res))
Se obtiene, para los test de Shapiro-Wilks un p-valor de 5.604e-07 y para el de kolmogorov 0.09149. Al
tratarse de un p-valor bajo, rechazamos la hiptesis de que los residuos siguen una distribucin normal.
Aunque los mtodos grficos y numricos se contradigan siempre debemos tener en cuenta antes los
numricos. Los mtodos grficos pueden estar afectados por unos datos atpicos que nos lleven a tomar
esa conclusin. Aun as para asegurarnos podemos realizar dos grficas mas, un histograma y un diagrama
de cajas y bigotes: Grficas -> histograma
30
20
10
0
frequency
40
50
diagrama de caja
Demanda_Cl
3
2
1
0
-1
-2
Como podemos observar en el histograma una cola a la derecha que se corresponden con los datos
atpicos del diagrama de cajas y bigotes, para llegar a una conclusin clara deberamos eliminarlos y volver
a realizar estos test.
Aunque este sea un caso dudoso debido a los p-valores tan bajos podemos llegar a la conclusin de que
no hay igualdad de varianzas ni normalidad.
Para comprobar la hiptesis de independencia, que debera cumplirse si el diseo del experimento es
adecuado, realizamos un test de Durbin-Watson. Elegimos como hiptesis alternativa la bilateral:
Modelas -> Diagnsticos numricos -> Test de Durbin-Watson para autocorrelacin
OTOO - INVIERNO
RIMAVERA - INVIERNO
VERANO - INVIERNO
PRIMAVERA - OTOO
VERANO - OTOO
ERANO - PRIMAVERA
-0.5
0.0
0.5
1.0
1.5
2.0
Linear Function
Si lo ordenamos respecto a la media mas alta, que mirando la tabla anova del apartado b sabemos que la
mayor demanda es en verano (a), luego otoo y primavera (b) y por ltimo invierno (c), lo cual es un
resultado lgico.
EJERCICIO 3
clas_temp2.ts<-ts(clas_temp2$V1,start=1980,frequency=4)
Los datos se han recopilado por trimestres (datos trimestrales), comenzando
en el primer trimestre de 1980. (La frecuencia por tanto es 4, ya que en un ao hay 4
trimestres)
Para la grfica:
plot(clas_temp2.t
s)
A grandes rasgos,
la demanda ha ido
creciendo con los
aos.
Tendencia: lineal y
creciente.
Estacionalidad:
presenta
estacionalidad,
todos los aos se
repite el mismo
patrn. (especie de
rayo de Harry
Potter)
b)
Aqu usaremos dos funciones: mean para calcular las medias y sd para calcular las
desviaciones tpicas.
medias<-aggregate(clas_temp2.ts,FUN=mean)
desviaciones<-aggregate(clas_temp2.ts,FUN=sd)
Para que el grfico salga de forma adecuada:
plot(medias[1:23.25],desviaciones[1:23.25])
c) clas_temp2.dec<-decompose(clas_temp2.ts,type="additive")
Despus tenemos que escribir clas_temp2.dec para que nos aparezcan los resultados.
Comentar que en las componentes tendencia-ciclo e irregular, aparece NA tanto en los
dos primeros datos como en los dos ltimos. Esto es debido a que en el procedimiento
se han calculado las medias mviles centradas de orden L=2p=4 y por tanto se han perdido
p=2 datos por arriba y por abajo. La series suavizada tendr 2p datos menos que la
original.
plot(clas_temp2.dec)
Se han eliminado 4 observaciones por estar ausentes, las correspondientes a los 4 datos
perdidos por calcular las medias mviles de orden 4.
La componente Tendencia-Ciclo podra modelarse segn la expresin:
=
+ .
+ .
E y f)
Se escribe 1:101, porque son 93 datos + 8 trimestres que queremos predecir.
estimado<(67.60528+0.73621*(1:101))+c(clas_temp2.dec$seasonal,clas_temp2.dec$seasonal[1:
4])
Se pone 1:4 porque 4 es el perodo. (IMP: el + se pone por ser modelo aditivo)
estimado [94:101] (En estimado se pone 94, porque tenemos 93 datos y queremos
empezar a predecir a partir del 94, es decir, del dato que ya no tenemos; y 101 porque
es el ltimo dato que queremos predecir).
> estimado[94:101]
[1] 134.4638 137.9325 137.4289 141.8281 137.4087 140.8774 140.3737 144.7730
plot(1:101,estimado, type="l", col = "red")
lines(tiempo,clas_temp2$V1,type="l")
g)
Al considerar que la serie tiene estacionalidad, necesitamos un mtodo de alisado
exponencial triple. El nico estudiado es el mtodo de Holt-Winters para modelos
aditivos, porque presenta estacionalidad, y el grfico de desviaciones tpicas frente a
medias no sigue ningn patrn.
h) Esta es la funcin que nos permite aplicar el mtodo de Holt-Winters sobre nuestra
serie temporal.
a,seaso al=additive)
HoltWinters(x,alpha,beta,ga
Para elegir los parmetros de alisado que minimicen la suma de cuadrados de los
errores, como pide en el enunciado, lo que hay que hacer es no especificar valores
para los parmetros de alisado.
clas_temp2.hw<-HoltWinters(clas_temp2.ts,seasonal="additive")
clas_temp2.hw
La estimacin del nivel en el intstante t:
Xt ) + (1 0.41) ( 1 + 1 )
= .
La estimacin de la pendiente:
= 0.43 (
1 )
+ (1 0.43 )
. ->Los valores prximos a 1 indican un mayor peso para los valores recientes.
Delta . ->Los valores prximos a 1 corresponden a un mayor peso para las observaciones
recientes.
No estn muy prximos a 1, por lo tanto los valores recientes no tienen ms peso que
los antiguos, pero tampoco tienen todos el mismo peso.
i)
plot(clas_temp2.hw)
residuals(clas_temp2.hw)
plot(residuals(clas_temp2.hw))
Obteniendo:
Podemos observar que, salvo algn dato atpico, los residuos se sitan en una banda
ms o menos estrecha en torno al 0. El modelo alisado predice bastante bien la serie.
En el intervalo ponemos los aos de los datos que tenemos, y los aos que queremos
predecir. Los datos van hasta el primer trimestre de 2003.
plot(clas_temp2.ts,xlim=c(1980,2005))
lines(predict(clas_temp2.hw,n.ahead=8),col=red)