Manual Practicof

Universidad de Santiago de Chile
Facultad de Ciencia
Departamento de Matemática y Ciencias de la Computación
Manual Estadı́stico
estudiantes
Yerko Carreño
Sebastian Fuentes
Karin Fritz
Profesor
Luis Figueroa
Ayudantes
Carolina Olmos
Camila Ahumada
Santiago de Chile 7 de junio del 2018

Índice
1. MODELOS LINEALES 4
1.1. Regresión lineal múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Descripción de la base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Modelo en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Modelo en SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5. Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.6. Análisis global de las variables independientes . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.7. Análisis individual de las variables independientes . . . . . . . . . . . . . . . . . . . . . . . 7
1.8. Selección de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.9. Diagnóstico de supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.9.1. Linealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.9.2. Normalidad de los residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.9.3. Homocedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.9.4. No autocorrelación de los residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.10. Análisis de influencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.11. Regresión logı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.12. Regresión cox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.13. Regresión Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2. MÉTODOS MULTIVARIANTES 24
2.1. Gráficos Multivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.1. Gráfico de caras o Chernoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.2. Gráficos de Estrellas y Rayos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.3. Gráficas de Andrews . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.4. Gráficas de dispersión de lado a lado . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2. ANOVA y Análisis de Contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1. Método de Tuckey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.2. Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3. T 2 Hotelling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
ÍNDICE 2
2.3.1. Una muestra aleatoria: Dócima para el vector de medias . . . . . . . . . . . . . . . 32

2.4. MANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5. Componentes Principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.6. Análisis discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.7. Análisis de conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.8. Análisis Factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.9. Análisis de Correspondencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3. Estadı́stica No Paramétrica 47
3.1. Una muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.2. Prueba de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3. Prueba Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4. Prueba de Rachas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5. Dos muestras relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.6. Prueba del Signo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.7. Prueba de Mcnemar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.8. Prueba de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.9. Dos muestras Independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.10. Prueba de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.11. Prueba de Chi cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.12. Tres o más muestras relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.13. Prueba de Friedman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.14. Tres o más muestras independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.15. Prueba de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4. DISEÑO Y ANÁLISIS DE EXPERIMENTOS 67

4.1. Diseño con un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2. Factor fijo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.3. Factor aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4. Diseño de bloques completos aleatorizados . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.5. Diseño de cuadrado latino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.6. Diseño de cuadrados grecolatinos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.7. Diseños factoriales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.8. Diseño de dos factores de efecto fijo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.9. Diseño anidado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.10. Diseño de parcelas divididas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5. SERIES CRONOLÓGICAS 84
5.1. Análisis de la serie de tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.1.1. Aplicación en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.1.2. Gráfico de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.1.3. Test de Estacionaridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.1.4. descomposición de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.1.5. Test para estacionalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.1.6. Test para tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.1.7. Aplicación en SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.1.8. Gráfico de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2. Técnicas de alisado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2.1. Aplicación en R, caso aditivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2.2. Aplicación en SAS, caso aditivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2.3. Aplicación en R, caso multiplicativo . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.2.4. Aplicación en SAS, caso multiplicativo . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.2.5. Aplicación en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.3. Ajuste del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.3.1. Aplicación en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.3.2. Metodologı́a Box-jenkis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.3.3. Comprobación de supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.3.4. Aplicación en SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.4. Densidad espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.4.1. Periodograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6. SIMULACIÓN ESTADÍSTICA 106

1 MODELOS LINEALES 4
1. MODELOS LINEALES
1.1. Regresión lineal múltiple
Se realizará una regresión lineal múltiple a una base de datos, que será descrita a continuación, para
de esta forma encontrar el mejor modelo posible para explicar la variable dependiente.
1.2. Descripción de la base
Cuadro 1: Variables
Variable Tipo de variable Notación
Price Continua Precio del caballo, medido en dolares
Age Discreta Edad del caballo, medida en años
Height Continua Altura del caballo, medida en hand (1 hand = 10.17 cm)
Sex Dicotomica m: macho, f:hembra
Lo que se quiere modelar es el precio del caballo de acuerdo a la edad, su altura y su sexo. Para esto
se ocupara regresión lineal múltiple. Se hará un resumen de los datos, se hará excluyendo el dato de sexo:
subsectionAplicación en R
summary( b a s e )
Price Age Height
Min . : 1100 Min . : 0.500 Min . :14.25
1 s t Qu. : 1 5 7 5 0 1 s t Qu . : 5 . 0 0 0 1 s t Qu . : 1 6 . 0 0
Median : 2 5 0 0 0 Median : 7 . 0 0 0 Median : 1 6 . 5 0
Mean :27957 Mean : 7.489 Mean :16.33
3 rd Qu. : 4 0 0 0 0 3 rd Qu . : 8 . 5 0 0 3 rd Qu . : 1 6 . 7 5
Max . :60000 Max . :20.000 Max . :17.25
Correlaciones:
cor ( b a s e )
Price Age Height
Price 1 . 0 0 0 0 0 0 0 −0.2526778 0 . 4 4 3 1 3 7 9
Age −0.2526778 1.0000000 0.3113041
Height 0.4431379 0.3113041 1.0000000
subsectionAplicación en SAS
p r o c c o r r data=modelos ;
var p r e c i o age a l t ;
run ;
De donde se puede ver que la correlación entre el precio y la edad es negativa, ya la correlación entre el
precio y la altura es positiva.
1.3. Modelo en R
Se hará el modelo con todas las variable en r.

mod1<−lm( P r i c e ˜Age+Height+as . factor ( Sex ) )
summary( mod1 )
Call :
lm( formula = P r i c e ˜ Age + Height + as . factor ( Sex ) )
Residuals :
Min 1Q Median 3Q Max
−20987 −7267 −1601 7839 30478
Coefficients :
Estima te Std . E r r o r t v a l u e Pr ( >| t | )

( Intercept ) −105448 52410 −2.012 0.0505 .
Age −1037 437 −2.372 0.0222 ∗
Height 8270 3394 2.437 0.0190 ∗
as . factor ( Sex )m 9928 4390 2.262 0.0288 ∗
−−−
R e s i d u a l s t a n d a r d e r r o r : 11480 on 43 d e g r e e s o f freedom
M u l t i p l e R−s q u a r e d : 0.4328 , Adjusted R−s q u a r e d : 0.3932
F− s t a t i s t i c : 1 0 . 9 4 on 3 and 43 DF, p−v a l u e : 1 . 8 2 7 e −05
1.4. Modelo en SAS
Se hará el modelo en SAS

p r o c r e g data=mod ;
model p r e c i o = age a l t s e x o ;
run ;
Se puede observar que en ambos casos dieron valores muy semejantes para los parámetros. R2 ajustado
es de a 0,39 lo cual nos dice que las variables independientes no explican mucho la variabilidad del precio
de los caballos.
1.5. Bondad de ajuste
Se evaluara la contribución de las variables explicativas de forma simultánea e individualmente.
1.6. Análisis global de las variables independientes
la hipótesis es H0 : β1 = β2 = ... = βj = 0v/sH1 : βj 6= 0 para algún j. Como tenemos que Nuestro

F=10.92 y este nos da un p-valor menos a 0,05. Hay evidencia para rechazar la hipótesis nula, por lo que
al menos existe un β 6= 0.
1.7. Análisis individual de las variables independientes
La hipótesis son H0 : βi = 0v/sH1 : βi 6= 0 para algún i, se quiere probar si alguno de los coeficientes
asociados son iguales a 0 de manera individual.
Se ve que todos los p-valores son menores a 0,05 por lo que hay evidencia para rechazar en todos los casos.
Es decir nuestras variables no son 0 de manera individual.
1.8. Selección de variables
Para ver si se pueden eliminar variables del modelo, se utilizará el método backward, el cual empieza
con el modelo completo como punto de partida. En R
step ( mod1 , d i r e c t i o n = ” backward ” , c r i t e r i o n=”AIC” )
Start : AIC=882.6
P r i c e ˜ Age + Height + as . factor ( Sex )
Df Sum o f Sq RSS AIC

<none> 5671448725 8 8 2 . 6 0
− as . factor ( Sex ) 1 674640366 6346089091 8 8 5 . 8 8
− Age 1 742297210 6413745935 8 8 6 . 3 8
− Height 1 783271384 6454720109 8 8 6 . 6 8
Call :
lm( formula = P r i c e ˜ Age + Height + as . factor ( Sex ) )
Coefficients :
( Intercept ) Age Height

−105448 −1037 8270
as . factor ( Sex )m
9928
En SAS
model p r e c i o = age a l t s e x o / s e l e c t i o n=backward ;
run ;
Se puede ver que en ambos caso no hubo eliminación de variables, por los que nos quedaremos con el
modelo obtenido desde un comienzo.
1.9. Diagnóstico de supuestos
1.9.1. Linealidad
Para probar que se cumple el supuesto de linealidad se utilizará el test reset de Ramsey el cual verifica
si las combinaciones no lineales de los valores ajustados ayudan a explicar la variable dependiente. La
forma en que se realiza la prueba es ajustando el siguiente modelo
y = ax + γ1 ŷ 2 + ... + γk−1 ŷ k +
y mediante un test F de fischer prueba si γ1 hasta γk−1 son cero. Si la hipótesis nula es rechazada entonces
el modelo estarı́a mal especificado, ya que este no seria lineal.
Aplicación R
> r e s e t ( mod1 , power=2)
RESET t e s t
data : mod1
RESET = 0 . 8 7 9 2 5 , d f 1 = 1 , d f 2 = 4 2 , p−v a l u e = 0 . 3 5 3 8
> r e s e t ( mod1 , power=2:3)
RESET t e s t
data : mod1
RESET = 0 . 6 4 0 8 5 , d f 1 = 2 , d f 2 = 4 1 , p−v a l u e = 0 . 5 3 2
> r e s e t ( mod1 , power=2:4)
RESET t e s t
data : mod1
RESET = 1 . 0 6 4 8 , d f 1 = 3 , d f 2 = 4 0 , p−v a l u e = 0 . 3 7 4 8
En SAS
p r o c a u t o r e g data=mod ;
model p r e c i o = age a l t s e x o / r e s e t ;
run ;
1.9.2. Normalidad de los residuos
Se utilizara el test de Shapiro-wilk para confirmar la normalidad de los residuos
H0 :Errores distribuyen normal vs H1 :Errores no distribuyen normal
En R
> s h a p i r o . t e s t ( mod1$ r e s i d u a l s )
Shapiro −Wilk n o r m a l i t y t e s t
data : mod1$ r e s i d u a l s
W = 0 . 9 8 0 1 2 , p−v a l u e = 0 . 5 9 7 3
> h i s t ( mod1$ r e s i d u a l s )
En SAS
model p r e c i o = age a l t s e x o /covb s p e c dw v i f ;
output out=prueba r=r e s i d ;
run ;
p r o c u n i v a r i a t e data=prueba n o r m a l t e s t ;
run ;
Como p-valor es mayor a 0.5903 no hay evidencia para rechazar la hipótesis nula. Se concluye la los errores
distribuyen normal.
1.9.3. Homocedasticidad
Se quiere ver si la varianza del modelo es es constate.
H0 : HomocedasticidadvsH1 : Heterocedasticidad
En R
> b p t e s t ( mod1 )
s t u d e n t i z e d Breusch−Pagan t e s t
data : mod1
BP = 1 . 4 9 1 9 , df = 3 , p−v a l u e = 0 . 6 8 4 1
En SAS
p r o c model data=mod ;
parms a1 b1 b2 b3 ;
p r e c i o = a1 + b1∗ age + b2∗ a l t + b3∗ s e x o ;
f i t p r e c i o / pagan=(1 age a l t s e x o ) ;
run ;
1.9.4. No autocorrelación de los residuos
Se quiere ver si los residuos no están autocorrelacionados

H0 :No están autocorrelacionados vs H1 :Si están autocorrelacionados
En R
> d w t e s t ( mod2 )
Durbin−Watson t e s t
data : mod2
DW = 1 . 7 9 5 6 , p−v a l u e = 0 . 2 5
a l t e r n a t i v e h y p o t h e s i s : t r u e a u t o c o r r e l a t i o n i s g r e a t e r than 0
En SAS
p r o c a u t o r e g data=mod ;
model p r e c i o = age a l t s e x o ;
run ;
Como p-valor es mayor a 0,05 no hay evidencia para rechazar la hipótesis nula, se concluye que los residuos
no están autocorrelacionados
1.10. Análisis de influencia
En este punto se verán los datos que pueden ser influyentes en nuestro modelo
> i n f<−influence . measures ( mod1 )
> summary( i n f )
Potentially i n f l u e n t i a l observations of
lm( formula = P r i c e ˜ Age + Height + as . factor ( Sex ) ) :
dfb . 1 dfb . Age dfb . Hght dfb . a . ( S d f f i t cov . r cook . d hat

30 0.13 −0.03 −0.12 0.01 0.18 1.45 ∗ 0.01 0.25
32 −0.08 −0.20 0.08 −0.01 −0.23 1.42 ∗ 0.01 0.24
43 −0.60 −0.05 0.59 −0.43 −0.67 1.52 ∗ 0.11 0.34 ∗
44 0.16 0.66 −0.20 0.49 0.89 0.55 ∗ 0.17 0.08
Se puede ver que las observaciones que son influyentes son las 30, 32, 43 y 44. Todas son influyentes
según el covaratio y la 43 según los leveranges
1.11. Regresión logı́stica
Para regresión logı́stica se utilizara una base donde la variable dependiente es ver si niños nace bajo
peso las variables de modelos son:
Cuadro 2: Variables
Variable Tipo de variable Descripción
Peso bebe Dicotomica 1: bajo peso, y 0: peso normal
Gestación] Discreta Semanas de gestación
Fuma Dicotomica La madre fumaba antes , 1=SI, 0= NO
Cigarrillos fumados Discreta Cantidad de cigarros al dı́a antes del embarazo
Edad Discreta Edad de la madre
En R
> attach ( B a s e l o g )
> mlog<−glm( Peso˜ g e s t a c i o n+fuma+edadm+cigma , family = binomial ( l i n k=l o g i t ) )
> summary( mlog )
Call :
glm( formula = Peso ˜ g e s t a c i o n + fuma + edadm + cigma , family = binomial ( l i n k = l o g i t ) )
Deviance R e s i d u a l s :
−1.4678 −0.3226 −0.1153 0.4180 2.2470
Coefficients :
Estimat e Std . E r r o r z v a l u e Pr ( >| z | )
( Intercept ) 21.20688 10.56493 2.007 0.0447 ∗
gestacion −0.67451 0.29961 −2.251 0.0244 ∗
fuma 2.36949 1.82032 1.302 0.1930
edadm 0.03392 0.09982 0.340 0.7340
cigma 0.12731 0.06939 1.835 0.0666 .
−−−
( D i s p e r s i o n parameter f o r binomial family taken t o be 1 )
N u l l deviance : 5 3 . 4 6 7 on 41 d e g r e e s o f freedom
R e s i d u a l deviance : 2 6 . 4 5 9 on 37 d e g r e e s o f freedom
AIC : 3 6 . 4 5 9
Number o f F i s h e r S c o r i n g i t e r a t i o n s : 6
En SAS
p r o c l o g i s t i c data=L o g i s t i c a ;
model p e s o = g e s t fuma edad c i g ;
run ;
Notar que la salida de R nos da la probabilidad de p(x = Bajopeso) y la de SAS nos da p(x = P esonormal),
por ese motivo los parámetros tienen las mismas magnitudes pero diferentes signos. Las conclusiones que
se pueden sacar son las misma.
Si ocupamos el modelo obtenido en R, podemos decir que mientras mas semanas de gestación tenga el
bebe es menos probable que este bajo paso, y si la madre fuma hay mayor probabilidad de que este bajo
peso.
Para el caso de SAS podemos decir que mientras mas semanas de gestación tenga el bebe mayor es la
probabilidad de que este en el peso normal, y si la mamá fuma disminuye la probabilidad de que este en
el peso normal.
Si hacemos el odd-ratio de las madres que fuman con las madres que no fuman se tiene lo siguiente:
OR = e2,36949∗1−2,36949∗0 = e2,39649 = 10,69194
como el OR es es mayor a 1, quiere decir si la madre fumaba es más probable que su hijo nazca bajo peso.
1.12. Regresión cox
Se desea estimar el modelo se sobrevida de personas que sufren de cancer al pulmón, donde las variables
de independientes son:
Cuadro 3: Variables
tiempo Continua Tiempo de vida del individuo
Status Dicotomica Si el dato es censurado (0) o no (1)
Tratamiento Dicotomica Tratamiento del individuo, 1= estándar, 2= alternativo
Escala Karnosfsky Intervalo Mide como se siente los pacientes,100:muy bien a 0:muy mal
Edad Continua Edad del individuo
En R
> plot ( Csurv , x l a b=” Meses ” , y l a b=” S u p e r v i v e n c i a ” )
> Csurv<−Surv ( tiempo , status )
> g r a f<−s u r v f i t ( Csurv˜ 1 )
> plot ( g r a f )
En R
> cox1<−coxph ( Surv ( tiempo , status ) ˜1+factor ( t r t )+karno+age )
> summary( cox1 )
Call :
coxph ( formula = Surv ( tiempo , status ) ˜ 1 + factor ( t r t ) + karno +
age )
n= 1 3 7 , number o f e v e n t s= 128
coef exp ( coef ) se ( coef ) z Pr ( >| z | )

factor ( t r t ) 2 0.189546 1.208701 0.185531 1.022 0.307
karno −0.034444 0.966143 0 . 0 0 5 2 3 2 −6.583 4 . 6 2 e −11 ∗∗∗
age −0.003864 0.996143 0 . 0 0 9 1 8 7 −0.421 0.674
−−−
exp ( coef ) exp(−coef ) lower . 9 5 upper . 9 5

factor ( t r t ) 2 1.2087 0.8273 0.8402 1.7388
karno 0.9661 1.0350 0.9563 0.9761
age 0.9961 1.0039 0.9784 1.0142
En SAS
p r o c phreg data=mcox ;
c l a s s s t a t u s t r t / r e f= f i r s t ;
model tiempo∗ s t a t u s (0)= t r t age karno ;
run ;
Lo importante de la regresión cox son los factores de riesgos los cuales son dados por el ratio del riesgo, si
uno de estos es mayor a 1 es un factor de riego ya que quiere decir que acelera la muerte del sujeto. Para
nuestro estudio se puede apreciar que las personas que tiene el tratamiento de prueba viven menos que los
del tratamiento tradicional.
1.13. Regresión Poisson
Para este caso se modelara la cantidad de goles metidos por delanteros, donde las variables indepen-
dientes son las siguientes:
Cuadro 4: Variables
Altura Continua Altura del jugador medida en metros
Edad Continua Edad del jugador
Habilidad Dicotomica Hace referencia a cual es su pierna hábil 0=zurda, 1=derecha
En R
> mpos<−glm( formula=g o l e s ˜ a l t u r a+edad+factor ( h a b i l ) , family=poisson ( log ) )
> summary( mpos )
Call :
glm( formula = g o l e s ˜ a l t u r a + edad + factor ( h a b i l ) , family = poisson ( log ) )
Deviance R e s i d u a l s :
−1.5165 −1.0673 −0.6591 0.2406 4.0930
Coefficients :
Estimat e Std . E r r o r z v a l u e Pr ( >| z | )
( Intercept ) 6.27894 1.59484 3 . 9 3 7 8 . 2 5 e −05 ∗∗∗
altura −1.72862 0.86550 −1.997 0.0458 ∗
edad −0.01305 0.01890 −0.691 0.4898
factor ( h a b i l ) 1 −0.16785 0.13493 −1.244 0.2135
−−−
Number o f F i s h e r S c o r i n g i t e r a t i o n s : 4
exp ( coef ( mpos ) )

( Intercept ) altura edad factor ( h a b i l ) 1
533.2252231 0.1775290 0.9870338 0.8454798
En SAS
p r o c genmod data=p o i s s o n ;
model g o l e s= a l t edad hab / d i s t=p o i s s o n ;
run ;
Se puede ver de los coeficientes que los jugadores zurdos hicieron más goles que los jugadores derechos.
2 MÉTODOS MULTIVARIANTES 24
2. MÉTODOS MULTIVARIANTES
2.1. Gráficos Multivariantes
Para el estudio de metodos multivariantes, se utilizara una base de datos de probetas de mezclas
asfalticas, las cuales tienen un diseño especificado segun el uso que se le dara, donde se especifica el
porcentaje de asfalto que contiene, la altura de la probeta, peso especifico del asfalto, densidad densidad,
tipo de ligante con el que se trabajo. Estas muestras fueron sometidas a una prueba de resistencia, en la
cual se les calculo el modulo resiliente, el cual sera una medidad de calidad de la muestra, se determino el
procentaje de vacios , su densidad aparente, el procentaje de volumen agregado, el porcentaje del volumen
de asfalto.
Cuadro 5: Variables
Variable Tipo de variable Notación
Altura Continua altura
Porcentaje de asfalto Continua p asfalto
Porcentaje de vacios Continua p vacios
Peso especifico del asfalto Continua GB
Volumen de agregado Continua volumen agregado
Volumen de asfalto Continua volumen asfalto
Densidad maxima Continua densidad maxima
Densidad aparente Continua densidad aparente
Tipo de ligante Categorica tipo lig
Modulo resiliente Continua modulo
2.1.1. Gráfico de caras o Chernoff
effect of variables:
modified item Var
"height of face " "altura" "width of face " "GB"
"structure of face" "pvacios" "height of mouth " "palsfalto"
"width of mouth " "volumen asfalto" "smiling " "modulo"
"height of eyes " "altura" "width of eyes " "GB"
"height of hair " "pvacios" "width of hair " "palsfalto"
"style of hair " "volumen asfalto" "height of nose " "modulo"
"width of nose " "altura" "width of ear " "GB"
"height of ear " "p vacios"
2.1.2. Gráficos de Estrellas y Rayos

2.1.3. Gráficas de Andrews
2.1.4. Gráficas de dispersión de lado a lado

2.2. ANOVA y Análisis de Contrastes
ANOVA
El modelo ANOVA se usa para estudiar si el efecto de diversos tratamientos sobre una variable respuesta,
difieren significativamente entre si. Para estas situaciones se utiliza el siguiente modelo;
Yij = µ + τj + εij i = 1...n, j = 1...m
donde:
Yij : variable respuesta

µ: efecto principal general de la población o media global.
τj : efecto del j-ésimo tratamiento.
εij : componente de error aleatorio.
n: cantidad de sujetos analizados.
m: número de tratamientos.
Cuadro 6: Tabla ANOVA

Fuente de Variación Grados de Libertad Suma de Cuadrados Cuadrados Medios
Estadı́stico
M SCM
Modelo m-1 SCM MSCM=SCM/m-1 T =
M SCE
Error N-m SCE MSCE=SCE/N-m
Total N-1 SCT
H0 : τ1 = τ2 ... = τj = 0 v/s H1 : τi 6= τj
Donde τj es el efecto del j-ésimo tratamiento.

Trabajando con la misma base de datos, vamos a comparar el efecto de cada tipos de ligantes sobre
nuestra variable respuesta modulo o resistencia. para esta situacion se plantea la siguiente hipotesis.
H0 :El efecto de cada tipo de ligante es igual a cero v/s H1 : Al menos un es distinto
Yij = µ + τj + εij i = 1...n, j = 1...m
donde:
Yij : Modulo resiliente

µ: Media global.
τj : efecto del j-ésimo ligante.
εij : componente de error aleatorio.
n: cantidad de mezclas analizados.
m: número de tratamientos.
Aplicación en R
Aplicación en SAS
Conclusión:
Con respecto a nuestra variable de interés , podemos decir que a una significancia del %5 , se rechaza la
hipotesis nula , es decir, el efecto de al menos uno de los ligantes es distinto de cero, por lo tanto la media
de alguno de los tipos de ligantes es distinta. Se puede observar en el grafico de cajas que el ligante RI y
RV tienen una media mayor que los otros.
Comparaciones múltiples
A continuación veremos distintos métodos para resolver conjeturas de manera simultánea.
2.2.1. Método de Tuckey
Este método puede hacer múltiples comparaciones simples, de dos medias de tratamientos y determina
si hay efectos distintos entre ellos. Además este método es factible en un diseño balanceado. Tukey resuelve
el siguiente contraste:
H0 : µi = µj v/s H1 : µi 6= µj
Aplicación en R
Aplicación en SAS
2.2.2. Bonferroni
Hipótesis:
H0 : µ1 − µ2 + µ5 − µ6 = 0 ∧ − µ21 − µ2
2
+ µ3 − µ4 + µ5 = 0 vs H1 :Las afirmaciones son falsas
Conclusión:
No existe evidencia para rechazar H0
2.3. T 2 Hotelling
2.3.1. Una muestra aleatoria: Dócima para el vector de medias
Vamos a compara el vector µ con el vector de medias.
µ = (altura, GB, p vacios, p alsf alto, volumen asf alto, densidada parente, modulo) (1)
µ = (55,5, 1030, 0,05, 5,1, 0,1345, 2250, 5000) (2)
Conclusión:
Como nuestro F observado es mayor al F teorico, se rechaza la hipotesis nula a un un 5 % de significancia,
por lo que la muestra especificada es significativamente distinta al vector de medias de nuestras variables
2.4. MANOVA
Para trabajar en este contexto, se estudiara si el vector de medias de las variables:altura,procentajes

de vacios,peso especifico y procentaje de asfalto, son iguales para cada tipo de ligante, para ello se formulo
la siguiente hipotesis:
H0 : µ1 = µ2 = µ3 = µ4 = µ5 = µ6 v/s H1 : µi 6= µj para algun i 6= j
donde µ1 =C20 , µ2 =c24, µ3 =P, µ4 =PC, µ5 =PRI, µ6 =PRV

Aplicación en R
Donde resp1 corresponde al ANOVA con respecto al modulo con sus respectivas suma de cuadrados,
residuos y error estándar
Conclusión:
Como el p-valor es menor a 0.05, existe evidencia suficiente para rechazar la hipotesis nula, a un 5 %
de significancia, es decir, el vector de medias de los distintos tipos de ligantes son distintos entre sı́.
2.5. Componentes Principales
Antes que todo, se recuerda que uno de los objetivos de crear componentes principales es que estos no
se encuentren correlacionados, por lo tanto, si la base de datos original contiene variables que no son co-
rrelacionadas, no tiene sentido aplicar el método de componentes principales. Ahora, se procede a verificar
si las variables originales de la base de datos están correlacionadas entre sı́, por lo que ocuparemos el test
de Bartlett para ver si las variables están correlacionadas o no:
Test de Bartlett:
H0 : |R| = 1 v/s H1 : |R| =

6 1
H0 : Las variables no estan correlacionadas v/s H1 : Las variables si estan correlacionadas
Aplicación en R
Aplicación en SAS
Conclusión:
Donde se observa que en la componente 5 se acumula un 95.64 por ciento de la varianza, por lo tanto
trabajaremos con las primeras 5 componentes.
2.6. Análisis discriminante
Aplicación en R
Para la siguiente seccion, se clasificaron la variables modulo y porcetaje de vacios de tal forma que
el modulo se clasifico en 3 niveles:bajo,medio y alto, respecto a su zona de resistencia. mientras que la
variable procentaje de vacios se clasifico de orden creciente los siguientes nivel: 1,2,3,4
Conclusión:
Por lo tanto, si queremos clasificar o discriminar una mezcla con las sigueintes cualidades: altura =
56, GB = 1024,645, p vacios = 0,06, pa lsf alto = 5,5 , sera clasificado en el grupo de resistencia media.
2.7. Análisis de conglomerados
Utilizando las variables numericas de nuestra base inicial, formaremos 5 grupos representativos de estas
mezclas de asfalto. para trabajar con conglomerados usaremos la distancia de mahalanobis para determinar
la distancia entre la matriz S y el vector de medias de nuestras variables
Aplicación en R
Aplicación en SAS
2.8. Análisis Factorial
Utilizando la misma base con la que hemos trabajado en las secciones anteriores con las variables:modulo,porc
de vacios, porcentaje de asfalto, volumen de asfalto y GB. Obtendremos los factores con los cuales queremos
trabajar,dando que nuestras variables son 4 se pueden obtener 2 factores.
Aplicación en R
Conclusión:
Se aprecia que el factor 1 acumula una proporcion de varianza de 0.436 y el factor 2 de 0.242. el factor
1 esta altamente relaciones con el volumen de asfalto y el porcentaje de vacios, mientras que el factor 2
igualmente relacionado con el procentaje de asfalto, e inversamente relacionado con el volumen de asfalto.
2.9. Análisis de Correspondencia
Para el análisis de correspondencia vamos a determinar asociaciones entre las zonas de clasificacion del
modulo,las cuales son: baja,media y alta, según los niveles de vacios de las respectivas muestras.
Aplicación en R
Conclusión:
Se puede apreciar mediante el gráfico que las Zonas que tienen un nivel Medio tienen relación con el
menor nivel de porcentajes de vacios en las mezcla, tambien que las que la clasificacion Alta tienen el
segundo nivel de procentajes de vacios, que la clasificacion baja de los modulos tiene relacion con el tercer
nivel de vacios de las mezclas y con el cuarto, pudiendo concluir que a menor cantidad de procentajes de
vacios, mayor sera el valor del modulo resiliente .
3 ESTADÍSTICA NO PARAMÉTRICA 47
3. Estadı́stica No Paramétrica
Para este ramo se utilizará una muestra aleatoria compuesta por 22 familias encuestadas sobre el
presupuesto familiar, información reunida por el SERNAC en el año 2012.
La muestra posee las siguientes variables; Sexo jefe de hogar donde 1= Hombre y 0=Mujer , GSE que es
el tipo de clase socioeconomica a la cual pertenece el grupo familiar (C1,C2,C3,D,E), GSE1 si corresponde
a clase alta, media o baja, Padres si es que viven con ambos o solo alguno de los padres,cantidad de hijos
número, Otro pariente si el grupo convive con otro pariente Hombres en el hogarnúmero, Mujeres en
el hogarnúmero, Estado civil situación en el que se encuentra el jefe de hogar (casado, viudo, separado,
conviviente, soltero) nivel educacional del jefe de hogar grado el cual terminó en algún instituto o
universidad y las siguientes variables vivienda, Servicios básicos, Telecomunicaciones, Transporte,
Salud, Educación, Recreación y cultura, Alimentación, Vestuario y calzado, Otros son variables
continuas que se refieren al gasto mensual incurrido en el tipo de servicio.
Además, el nivel de significancia para las pruebas que se realizaran en este capı́tulo será del 5 %, es
decir, consideraremos que para todo valor de probabilidad igual o inferior a 0.05 se rechazará la hipótesis
nula.
3.1. Una muestra
3.2. Prueba de Kolmogorov-Smirnov
Problema
Se desea saber si la edad de la dueña de casa en el grupo familiar que fueron encuestados siguen una
distribución normal.
¿Por qué utilizarla?
Se tiene una variable continua, en este caso son es la edad de la dueña de casa. Por otra parte, se quiere
estudiar el grado de acuerdo entre la distribución de un conjunto de datos con la distribución normal
(especı́fica).
Hipótesis
H0 : Edad proviene de una distribución normal

v/s
H1 : Edad no proviene de una distribución normal
Aplicación en R
Aplicación en SAS
data ks;
input ks2;
CARDS;
44
52
56
49
39
42
33
49
70
43
40
63
48
65
65
57
43
62
41
49
64
46
;
run;
proc univariate data=ks normaltest;

var ks2;
run;
Decisión y Conclusión
Para ambos software no se rechaza la hipótesis nula, es decir, no existe evidencia para dudar sobre que
la edad del dueño de casa provienen de una distribución Normal.
3.3. Prueba Binomial
Problema
Se desea saber si la proporción de hombres como jefe de hogar en el grupo familiar es igual a la
proporción de mujeres teniendo la misma condición, siendo la variable ’Sexo jefe hogar’ dicotómica.
Hipótesis
H0 : proporción es igual a 0.5

v/s
H1 : proporción es distinta a 0.5
Aplicación en R
Aplicación en SAS
proc freq data=nopara;

tables SEXO JEFE HOGAR / binomial;
exact binomial;
title ’Prueba binomial’;
run;
Como el p-valor en ambos casos es 0.8318 y este es mayor al 5 % de significancia, entonces no se rechaza
la hipótesis nula, es decir, no existe evidencia para dudar sobre que la proporción de hombres como jefe de
hogar sea igual a la proporción de mujeres.
3.4. Prueba de Rachas
Problema
Se desea saber si las respuestas relacionadas a que el dueño de casa es hombre o mujer fueron seleccio-
nadas de forma aleatoria.
La prueba de rachas permite determinar si una muestra de observaciones es o no aleatorizada, es decir,

si las observaciones son independientes entre sı́. Paralelamente, se requiere de una variable dicotómica o
dicotomizada, es por esto que se escogió la variable ”sexo jefe hogar”, ya que es dicotómica.
Hipótesis
H0 : Muestra es aleatoria v/s H1 : Muestra no es aleatoria
Aplicación en R
library(tseries)
runs.test(as.factor(datos$‘SEXO JEFE HOGAR‘))
Aplicación en SAS
No se rechaza la hipótesis nula, es decir, las respuestas de que si el genero del jefe de hogar en la
encuesta fueron obtenidas de manera aleatoria.
3.5. Dos muestras relacionadas
3.6. Prueba del Signo
Problema
Se desea saber si los sueldos del grupo familiar varian de acuerdos a los distintos años, en este caso los
años 2015 y 2016, analizando la mediana de los pares de grupos.
Para poder saber si el sueldo2015 y sueldo2016 provienen de la misma población, se debe contrastar la
igualdad de las medianas de ambas variables continuas y que se encuentran en escala ordinal.
Hipótesis
H0 : sueldo2015 y sueldo2016 provienen de la misma distribución

v/s
H1 : sueldo2015 y sueldo2016 no provienen de la misma distribución
Aplicación en R
SIGN.test(sueldo15,sueldo16)
Aplicación en SAS
data nueva;
set sig;
diff= sueldo15-sueldo16;
run;
proc univariate data=nueva;

var diff;
No se rechaza H0 , por lo tanto, con un 95 % de confianza no existe evidencia suficiente para dudar de
que los sueldos obtenidos durante los años 2015 y 2016 provienen de la misma población.
3.7. Prueba de Mcnemar
Problema
Se les preguntó a los sujetos si votarı́an, teniendo 2 opciones de candidato (A y B).Luego al transcurso
de un año se les pregunto lo mismo y durante el transcurso del año hubo propaganda electoral.
Se quiere estudiar la significación de los años luego de transcurridos la propaganda electoral.

Hipótesis
H0 : El año de propaganda no producen cambios significativos en la decision al momento de votar

v/s
H1 : El año de propaganda si producen cambios significativos en la decision al momento de votar
Aplicación en R
Aplicación en SAS
En ambos programas no se rechaza H0 , por lo tanto el año de propaganda no producen cambios signi-
ficativos sobre la respuesta a la elección del presidente.
3.8. Prueba de Wilcoxon
Problema
Se desea saber si los promedios de los sueldos del año 2015 y 2016 para un mismo grupo familiar poseen
la misma distribución.
Otra forma de saber si dos variables continuas provienen de la misma población, es utilizando la Prueba
de rangos de wilcoxon, donde a diferencia de la prueba de los signos, se toma en consideración la magnitud
de la diferencia aparte del signo.
Hipótesis
H0 : sueldo2015 y sueldo2016 provienen de la misma distribución

v/s
H1 : sueldo2015 y sueldo2016 no provienen de la misma distribución
Aplicación en R
Aplicación en SAS
En ambos programas no se rechaza H0 , por lo tanto, los sueldos obtenidos por el grupo familiar durante
los años 2015 y 2016 provienen de la misma población.
3.9. Dos muestras Independientes
3.10. Prueba de Mann-Whitney
Problema
Se quiere saber si los sueldos de un grupo familiar el año 2016 cuando el jefe de hogar es hombre es
igual a cuando el jefe de hogar es mujer.
Se tienen dos muestras independientes que corresponden a los sueldos del año 2016 obtenidos por
hombres y mujeres respectivamente.
Hipótesis
H0 : No existen diferencias entre las poblaciones de las que provienen las muestras
v/s
H1 : Existen diferencias entre las poblaciones de las que provienen las muestras
Aplicación en R
Aplicación en SAS
En ambos programas no se rechaza H0 , por lo tanto como no existen diferencias entre las poblaciones,
ambos grupos provienen de la misma población.
3.11. Prueba de Chi cuadrado
Problema
Se quiere saber si el estado civil del integrante jefe de hogar depende del sexo de este individuo.
En esta oportunidad, utilizamos un test de independencia entre variables categóricas.
Hipótesis
H0 : Variables son independientes v/s H1 : Variables no son independientes
Aplicación en R
Aplicación en SAS
No se rechaza H0 , es decir, el estado civil no depende del sexo del jefe de hogar.
3.12. Tres o más muestras relacionadas
3.13. Prueba de Friedman
Problema
Se desea saber si los sueldos para un grupo familiar durante los años 2015, 2016 y 2017 provienen de
la misma distribución.
Se tienen 3 muestras de sueldos medidas a los mismos grupos familiares durante los años 2015, 2016 y
2017 respectivamente, medidas en escala ordinal.
Hipótesis
H0 : Los sueldos se comportan de manera similar durante los distintos años

v/s
H1 : Las 3 muestras vienen de poblaciones distintas.
Aplicación en R
Aplicación en SAS
Se puede apreciar que los dos programas nos arroja p-valor muy superior a 0.05, esto nos dice que se
mantiene H0 , es decir, los sueldos pertenecientes a los diferentes grupos familiares durante los 3 distintos
años no presenta diferencias significativas, por lo tanto provienen de la misma distribución.
3.14. Tres o más muestras independientes
3.15. Prueba de Kruskal-Wallis
Problema
Se definen los distintos grupos clasificados por cantidad de hijos en el grupo familiar , donde 1 hijo es
una muestra y asi desde 0 hijos hasta 4. Se desea saber si los sueldos en el año 2017 en los distintos grupos
se comportan de igual manera.
Se tienen 5 muestras independientes medidas en escala ordinal (sueldos).
Hipótesis
H0 : Las 5 distribuciones son idénticas v/s H1 : Las 5 distribuciones son distintas.
Aplicación en R
Aplicación en SAS
Se puede apreciar que el p-valor es similar en los dos programas y superior a 0.05, se mantiene H0 ,
es decir, los 5 grupos por cantidad de hijos se comportan de igual manera en relación al sueldo del año 2017.
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 67
4. DISEÑO Y ANÁLISIS DE EXPERIMENTOS

A continuación abordaremos situaciones ocupando R y SAS.
4.1. Diseño con un factor
Se estudian cuatro diferentes tipos de diseños de un circuitos digital de computadora para comprobar
la cantidad de ruido presente. De lo que se obtuvieron los siguientes datos
Ruido observado
Tipo circuito 1 2 3 4
1 19 20 19 30
2 80 61 73 56
3 47 26 25 35
4 95 46 83 78
4.2. Factor fijo
Los niveles de estudio del factor fueron escogidos por el experimentador, y por lo tanto, no son aleatorios.
Modelo Estadistico
yij = µ + τi + ij
Con:
µ : media general.
τi : efecto del tipo de diseño i.
ij : componente aleatorio.
Aplicación en R
Para estudiar el problema planteado hacemos lo siguiente:

> mod<−aov ( r u i d o ˜ factor ( d i s ) )
> summary(mod)
Df Sum Sq Mean Sq F v a l u e Pr(>F)
factor ( d i s ) 3 8081 2693.7 1 5 . 6 0 . 0 0 0 1 9 3 ∗∗∗
Residuals 12 2073 172.7
−−−
S i g n i f . codes : 0 ∗∗∗ 0 . 0 0 1 ∗∗ 0 . 0 1 ∗ 0 . 0 5 . 0 . 1 1
Aplicación en SAS
p r o c anova data=mod ;
class dis ;
model r u i d o=d i s ;
run ;
Lo que se esta viendo es que si existe algún o algunos diseños en los que el ruido, que emite las
computadoras son diferentes entre si. Como hay evidencia para rechazar la hipótesis nula, se puede decir
que hay un diseño al menos diferente al resto.
4.3. Factor aleatorio
Se analizara el ejemplo anterior, diciendo que en este caso el factor diseño es aleatorio. Por lo que ahora
se quiere ver es si la varianza de este factor es cero o no.
Aplicación en R
> mod1<−aov ( r u i d o ˜ E r r o r ( factor ( d i s ) ) )

> summary( mod1 )
E r r o r : factor ( d i s )
Residuals 3 8081 2694
E r r o r : Within
R e s i d u a l s 12 2073 172.7
Aplicación en SAS
p r o c mixed data=mod method=type1 ;

class dis ;
model r u i d o =;
random d i s ;
run ;
Se puede ver que tenemos un p-valor menor a 0.05, por lo tanto hay evidencia para rechazar la hipótesis
nula. Se puede concluir que existe variabilidad entre los distintos tipos de diseño de circuitos.
4.4. Diseño de bloques completos aleatorizados
Además del factor a estudiar muchas veces es necesario incluir una fuente de variabilidad que podrı́a
afectar los resultados del experimento, a esta fuente de variabilidad se le llama factor Bloque. Es decir,
un bloque es un factor que no es de interés para el investigador pero aún ası́ se ingresa al modelo para
evitar malas conclusiones por la falta de este. El bloque se trabaja de forma completamente aleatorizada,
es decir, de forma que no exista intersección con el factor principal y sus niveles queden aleatoriamente
distribuidos dentro de los niveles del bloque.
Para este caso se quiere comparar tres soluciones de lavado diferentes a fin de estudiar su efectividad
para retardar el crecimiento de bacterias en contenedores de leche. El análisis se hace en un laboratorio y
sólo pueden realizarse tres ensayos en un dı́a. Puesto que los dı́as podrı́an representar una fuente potencial
de variabilidad. Se decide usar diseño de bloques aleatorizados. Los datos obtenidos se tienen en la siguiente
tabla:
Dı́as
Solución 1 2 3 4
1 13 22 18 19
2 16 24 17 44
3 16 25 20 55
El modelo estadı́stico para este diseño es el siguiente:
yijk = µ + αi + βj + ij (3)
Con:
µ : media general.
αi : efecto de las soluciones i.
βj : efecto del nivel del bloque j (dia).
Aplicación en R
> mod3<−aov ( r e t ˜ factor ( s o l )+ E r r o r ( factor ( d i a ) ) )

> summary( mod3 )
factor ( s o l ) 2 250.2 125.1 1.683 0.2628
Residuals 6 445.8 74.3
−−−
S i g n i f . codes : 0 ∗∗∗ 0 . 0 0 1 ∗∗ 0 . 0 1 ∗ 0 . 0 5 . 0 . 1 1
Aplicación en SAS
p r o c glm data=mod1 ;
c l a s s dia s o l ;
random d i a ;
model r e t=d i a s o l ;
run ;
Como es un análisis por bloques, el factor bloque (dı́a) no es de interés para el experimento, como si lo
es el factor solución el cual vemos que tiene un p-valor mayor a 0.05, por lo tanto no hay evidencia para
rechazar la hipótesis nula, por lo que podemos concluir que las diferentes soluciones no afectan a nuestra
variable respuesta, la cual es retardo para el crecimiento de bacterias en contenedores de leche.
4.5. Diseño de cuadrado latino
Para el experimento se quiere estudiar los efectos que tienen cuatro formulaciones diferentes de la carga
propulsora utilizada en los sistemas de expulsión de la tripulación de un avión basado en la rapidez de
combustión, cada formulación es preparada por varios operadores.
Quedando ası́ un modelo de cuadrado latino 4x4. Dado que se especifican los diferentes niveles a
trabajar, por ende los tres factores son de efecto fijo. Cabe destacar que para muestras reales este diseño es
complejo de realizar ya que se necesita al menos una unidad de observación para cada cruce entre niveles.
Para confeccionar la base a utilizar en el experimento, se toma en cuenta la información anterior.
Lote materia Operarios

prima 1 2 3 4
1 A=24 B=20 C=19 D=24
2 B=17 C=24 D=30 A=27
3 C=18 D=38 B=26 A=27
4 D=26 C=31 A=26 B=23
yijk = µ + αi + τj + βk + ijk (4)
Con:
µ : media general.
αi : efecto de la fila i (Lote).
τj : efecto del método de formulación j.(A,B,C,D)
βk : efecto de la columna k (Operarios).
ijk : componente aleatorio.
Aplicación en R
m o d e l o l a t i n o=aov ( r a p i d e z ˜ E r r o r ( factor ( Lote ))+ E r r o r ( factor ( O p e r a r i o s ))+ factor ( f o r m u l a c i o n e s ) )

summary( m o d e l o l a t i n o )
> summary( m o d e l o l a t i n o )
factor ( f o r m u l a c i o n e s ) 3 186.0 62.00 5.767 0.0335 ∗
−−−
s i g n i f . codes : 0 ?∗∗∗? 0 . 0 0 1 ?∗∗? 0 . 0 1 ?∗? 0 . 0 5 ? . ? 0 . 1 ? ? 1
Se logra ver que en el experimento, los tipos de formulaciones determinan la rapidez de combustión en
un avión, es decir, que algún tipo de formulación difiere del resto.
Aplicación en SAS
p r o c glm data=l a t i n o ;
class lote operarios formulaciones ;
random l o t e o p e r a r i o s ;
model r a p i d e z= l o t e o p e r a r i o s f o r m u l a c i o n e s ;
run ;
Notar que e factor de interés son las formulaciones, ya que lote y operarios son factores de bloques.
Como se tiene un p-valor menor a 0,05, hay evidencia para rechazar la hipótesis nula, por lo que se puede
decir que las hay al menos una formulación diferente al resto.
4.6. Diseño de cuadrados grecolatinos
Un ingeniero industrial estudia el tiempo de ensamblaje de un componente de televisor a color, me-

diante cuatro métodos de ensamblaje(A,B,C y D) y se seleccionan cuatro operadores para el estudio. El
experimentador sospecha que los sitios de trabajo usados por los operadores pueden representar una fuente
de variación, agregando un cuarto factor, sitio de trabajo (α, β, γ, δ) .
Se utilizó el cuadrado grecolatino siguiente:
Operador
Orden ensamblaje 1 2 3 4
1 Cβ = 11 Bγ=10 Dδ=14 Aα=8
2 Bα=8 Cδ=12 Aγ=10 Dβ=12
3 Aδ=9 Dα=11 Bβ=7 Cγ=15
4 Dγ=9 Aβ=8 Cα=18 Bδ=6
yijk = µ + αi + βj + γk + δl + ijkl (5)

Con:
µ : media general.
αi : efecto de la fila i (Orden ensamblaje).
βj efecto del método de ensamblaje j.(letras latinas)
γk : efecto del sitio de trabajo k.(letras griegas)
δl : efecto de la columna l (Operador).
Aplicación en R
modelog=aov ( tiempo˜ E r r o r ( factor ( Ensamblaje ))+ E r r o r ( factor ( Operador ))+ factor ( MetodoE)+ factor ( s i
, grecolatino )
summary( modelog )
> summary( modelog )

factor ( MetodoE ) 3 95.5 31.83 3.473 0.167
factor ( s i t i o T r a b a j o ) 3 7.5 2.50 0.273 0.843
Aplicación en SAS
p r o c glm data=g r e c o ;
c l a s s e n s a m b l a j e o p e r a d o r metodoE s i t i o t r a b a j o ;
random e n s a m b l a j e o p e r a d o r ;
model tiempo= e n s a m b l a j e o p e r a d o r metodoE s i t i o T r a b a j o ;
run ;
Se observa, en ambos software, que de los factores de interés que son el método de ensamblaje y efecto
del sitio de trabajo, su p-valor es mayor que 0,05, por lo que no hay evidencia para rechazar la hipótesis
nulas. Se puede decir que estos factores no afectan al modelo.
4.7. Diseños factoriales
Existen distintos tipos de modelos que se desprenden del modelo de un Factor . En general los diseños
factoriales son los más eficientes para el estudio de dos o mas factores de interés. Por diseño factorial se
entiende que en cada ensayo o réplica completa del experimento se investigan todas las combinaciones
posibles de los niveles de los factores.
Es importante también aclarar el concepto de interacción: Dos factores se dice que interactúan si el com-
portamiento de un factor depende del nivel particular del otro factor.
A continuación se mostraran una serie de diseños distintos con su aplicación y parámetros.
4.8. Diseño de dos factores de efecto fijo
Se realiza un experimento para estudiar la producción de huevos en la especie Siphonaria Diemenensis,

analizando la influencia que tienen los factores ’season’ y ’density’ , que corresponde a la estación del año
y la densidad respectivamente, donde se fijo por el mismo experimentador los cuatro niveles del factor de
densidad utilizados y las dos estaciones verano y primavera.
Presión
Estación 8 15 30 45
primavera 2,875 2,6 2,23 1,4
primavera 2,625 1,1866 1,466 1,022
primavera 1,75 0,867 1 1,177
verano 2,125 0,867 1,267 0,711
verano 1,5 0,933 0,467 0,356
verano 1,875 1,733 0,7 0,711
yijk = µ + τi + βj + (τ β)ij + ij (6)

Con:
µ : media general.
τi : efecto del nivel i de la densidad
βj : efecto de la temporada j (spring, summer)
(τ β)ij : efecto de la interacción entre τi y βj
Para modelar la base e indicarle al software que la variable ’density’ es un factor y no del tipo numérico
hacemos lo siguiente :
density=factor ( d o s f a c t o r e s $density )
Aplicación en R
mod2fact=aov ( e g g s ˜ s e a s o n ∗density )
> summary( mod2fact )

season 1 3.250 3.250 1 7 . 8 4 2 0 . 0 0 0 6 4 5 ∗∗∗
density 3 5.284 1.761 9 . 6 6 9 0 . 0 0 0 7 0 4 ∗∗∗
s e a s o n : density 3 0.165 0.055 0.301 0.823955
Residuals 16 2.915 0.182
−−−
S i g n i f . codes : 0 ?∗∗∗? 0 . 0 0 1 ?∗∗? 0 . 0 1 ?∗? 0 . 0 5 ? . ? 0 . 1 ? ? 1
Se obtienen resultados significativos para los factores ’density’ y ’season’, es decir, que alguno de los niveles
de densidad es distinto a los otros, y para las estaciones del año, las dos son diferentes entre si y que van
a afectar a la producción de huevos. Se puede mencionar que la interacción entre ambos factores no es
significativo, quiere decir que no hay interacción.
Aplicación en SAS
p r o c anova data=d o s f a c t o r e s ;
c l a s s density season ;
model e g g s= d e n s i t y s e a s o n d e n s i t y ∗ s e a s o n ;
run ;
Se puede ver, que al igual que en el programa anterior, los factores ’density ’ y ’season’ por si solos
son significativos para la producción de huevos.Los niveles de densidad alguno es distinto de otro y pasa
lo mismo con las diferentes temporadas.Ademas mencionar que los factores explican de forma correcta a
nuestra variable respuesta, ya que tiene un 74 % de variabilidad explicada por los datos.
Podemos observar el gráfico de interacción de estos factores:
interaction . plot ( density , s e a s o n , e g g s )
Se puede ver que no existe una interacción entre entre los niveles de densidad y la temporada para la
producción de huevos,ya que estos factores no se cruzan.
4.9. Diseño anidado
Se desea analizar el cambio de PH bajo material encalante a 3 distintas profundidades (25cm, 50 cm y

75cm) en cuatro cantones de las provincias de Ecuador. En estas provincias se seleccionaron sitios donde se
trabajo un material encalante el cual es el carbonato de calcio.Donde se medirá el efecto del encalamiento
en las diferentes profundidades. Los datos se muestran a continuación:
Localidad 1 Localidad 2 Localidad 3 Localidad 4

Profundidad 1 2 3 1 2 3 1 2 3 1 2 3
6.5 5.8 5.5 4.3 3.9 4.6 3.8 3.5 3.0 6.5 6.1 5.9
4.4 4.0 3.9 3.1 3.0 3.8 5.3 6.1 4.1 3.9 5.1 3.3
B(A)
yijk = µ + αiA + αij + ijk (7)
Con:
µ : media general.
αiA : efecto del nivel i de la Localidad (1,2,3 y 4).
B(A)
αij : efecto de la profundidad del material j anidado en i tipo de Localidad
Aplicación en R
modeloA=aov (PH˜ factor ( L o c a l i d a d )+ factor ( L o c a l i d a d ) / factor ( Profundidad ) , anidado )

anova ( modeloA )
> anova ( modeloA )

A n a l y s i s o f V a r i a n c e Table
Response : PH
factor ( L o c a l i d a d ) 3 7.2483 2.41611 1.5324 0.2567
factor ( L o c a l i d a d ) : factor ( Profundidad ) 8 3.9500 0.49375 0.3132 0.9461
Residuals 12 1 8 . 9 2 0 0 1 . 5 7 6 6 7
Aplicación en SAS
p r o c glm data=anidado ;
c l a s s l o c a l i d a d profundidad ;
model ph= l o c a l i d a d p r o f u n d i d a d ( l o c a l i d a d ) ;
run ;
Se observa que con un 5 % de significancia, que el tipo de profundidad anidado a la localidad no produce
algún efecto en el cambio de Ph en el material encalante, información entregada por ambas salidas.
4.10. Diseño de parcelas divididas
Se desea analizar la duración del largo de vida de componentes electrónicos al variar la temperatura
y el tiempo de horneado. Donde se decide hacer 3 réplicas, analizando 4 niveles de temperatura(580, 600,
620 y 640) y 3 niveles de tiempo de horneado (5, 10, y 15).
Temperatura
Dı́a Tiempo
1 2 3 4
5 217 158 229 223
1 10 233 138 186 227
15 175 152 155 156
5 188 126 160 201
2 10 201 130 170 181
15 195 147 161 172
5 162 122 167 182
3 10 170 185 181 201
15 213 180 182 199
El modelo estadı́stico para este diseño con dos factores, completamente al azar y un factor que actúa
como bloque:
yijk = µ + τi + βj + (τ β)ij + γk + (τ γ)ik + (βγ)jk + (τ βγ)ijk + ijk (8)
Con:
yijk : Observación en el i-ésimo bloque de la j-ésima parcela completa y la k-ésima subparcela.
Parcela:
µ : media general.
τi : efecto del bloque (dı́a) i.
βj : efecto del tratamiento principal j. (Temperatura)
(τ β)ij : error de la parcela completa (dı́a × Temperatura).
Subparcela:
γk : efecto del tratamiento subparcela j. (tiempos de horneado)
(τ γ)ik : efecto de interacción entre la dı́a i y el nivel k del factor tiempos de horneado.
(βγ)jk : efecto de interacción entre el nivel j de la temperatura y el nivel k de tiempos de horneado.
(τ βγ)ijk : error de la subparcela.
Aplicación en R
> f d i a<−factor ( d i a )
> ftemp<−factor ( temp )
> f t i e m p o s<−factor ( t i e m p o s )
> modp<−aov ( d u r a c i o n ˜ftemp+f t i e m p o s+ftemp∗ftemp+E r r o r ( f d i a )+
+ ftemp∗ E r r o r ( f d i a )+ f t i e m p o s ∗ E r r o r ( f d i a )+
+ ftemp∗ f t i e m p o s ∗ E r r o r ( f d i a ) )
> summary(modp)
Error : f d i a
Df Sum Sq Mean Sq
fdia 2 1963 981.4
E r r o r : Within
ftemp 3 12494 4165 7 . 3 1 0 0 . 0 0 1 4 1 ∗∗
ftiempos 2 566 283 0.497 0.61506
ftemp : f t i e m p o s 6 1774 296 0.519 0.61766

Residuals 22 12534 570
−−−
S i g n i f . codes : 0 ∗∗∗ 0 . 0 0 1 ∗∗ 0 . 0 1 ∗ 0 . 0 5 . 0 . 1 1
Aplicación en SAS
p r o c mixed data=modp method=type3 ;

c l a s s temp d i a tiempo ;
model d u r a c i o n = temp tiempo temp∗tiempo d i a temp∗ d i a tiempo∗ d i a temp∗tiempo∗ d i a ;
random d i a temp∗ d i a tiempo∗ d i a temp∗tiempo∗ d i a
run ;
Como vemos en r y SAS, que el p-valor del factor de la temperatura en menor a 0,05 hay evidencia para
rechazar la hipótesis nulas. Es decir que se puede concluir que el factor temperatura afecta a la duración
de vida del componente electrónico.
5 SERIES CRONOLÓGICAS 84
5. SERIES CRONOLÓGICAS
En este capitulo se trabaja con la serie de tiempo de la tasa de desocupación mensual de Chile (mediada
en porcentaje), los datos están tomados de manera mensual, desde el mes de febrero del año 2010 hasta
agosto del año 2017.
5.1. Análisis de la serie de tiempo
5.1.1. Aplicación en R
Lo primero que se debe hacer para poder trabajar con series de tiempo en R, es cargar las librerı́as
”TSA”,y ”tseries”
s t<−t s ( s e r i e [ , 3 ] , frequency = 1 2 , s t a r t = c ( 2 0 1 0 , 2 ) , end=c ( 2 0 1 7 , 8 ) )
Donde la tercera columna de los datos de serie, es la tasa de desocupación. frequency indica que la frecuencia
de la series es 12, es decir que los datos de la serie son mensuales.
5.1.2. Gráfico de la serie
Lo primero que se vera sera el gráfico de la serie, el cual nos sirve para darnos una idea de como se
comportan sus componentes.
ts . plot ( s t )
Se puede ver que la serie tiene cierta tendencia, como también que hay meses en los cuales se alcanza
máximos y mı́nimos durante los años lo que nos indica que la serie tiene una componente estacional, como
también se puede ver que la serie no se mantiene constante, lo que indica que su media varia respecto al
tiempo por lo que es una serie no estacionaria.
Para poder concluir de mejor manera las componentes de la serie y como se comporta esta se harán
diferentes test.
5.1.3. Test de Estacionaridad
Gráficamente se puede decir que la serie no es estacionaria, pero para poder concluir bien esto es
necesario realizar un test que nos ayudara a concluir si esto es verdad o no. Para esto está el test de Dickey
Fuller. Donde la dócima a realizar es:
Ho : La serie no es estacionaria v/s H1 : La serie es estacionaria
adf . t e s t ( st )
Augmented Dickey−F u l l e r Test
data : st
Dickey−F u l l e r = −2.4673 , Lag order = 4 , p−v a l u e = 0 . 3 8 3 7
alternative hypothesis : stationary
Como el p − valor > 0,05 No hay evidencia para rechazar H0 , por lo tanto podemos concluir que la
series no es estacionaria
5.1.4. descomposición de la serie
Se vera un gráfico de la serie descompuesta

plot ( decompose ( s t ) )
5.1.5. Test para estacionalidad
A pesar del gráfico es necesario realizar un test para corroborar si la serie presenta la componente
estacional. Para este test se tiene la siguiente dócima:
Ho : La serie no tiene componente estacional v/s H1 : La serie tiene componente estacional
SeasonalMannKendall ( s t )
tau = −0.269 , 2− s i d e d p v a l u e =0.0018804
Como p − valor < 0,05 hay evidencia para rechazar H0 , por lo que se concluye que la serie tiene una
componente estacional.
5.1.6. Test para tendencia
A pesar de que gráficamente se ve una tendencia, se debe realizar un test el cual tiene la siguiente
dócima:
Ho : La serie no presenta tendencia v/s H1 : La serie presenta tendencia
MannKendall ( s t )
tau = −0.266 , 2− s i d e d p v a l u e =0.00018638
Como p−valor < 0,05 hay evidencia para rechazar H0 , por lo tanto se concluye que existe una componente
de tendencia en la serie.
5.1.7. Aplicación en SAS
Para trabajar la base utilizada como una serie de tiempo se debe hacer lo siguiente:
p r o c t i m e s e r i e s data=d a t o s out=t a s a ;
i d f e c h a i n t e r v a l=month
s t a r t= ’ f e b 1 0 ’ d
end= ’ aug17 ’ d ;
var pdd ;
run ;
5.1.8. Gráfico de la serie
Para obtener el gráfico de la serie se hace el siguiente procedimiento en SAS

p r o c g p l o t data=t a s a ;
p l o t tdd∗ d a t e ;
symbol1 i n t e r p o l=j o i n ;
run ;
Se puede ver que tiene una tendencia, que tiene una estacionalidad y que no es una serie estacionaria.
5.2. Técnicas de alisado
Como la serie que se está estudiando tiene tendencia y estacionalidad, el mejor método de alisado en
este caso es Holt-Winters. Se vera para los caso aditivos y multiplicativos.
5.2.1. Aplicación en R, caso aditivo
HWA<−H o l t W i n t e r s ( s t , s e a s o n a l = ” a d d i t i v e ” )
Para obtener el gráfico con las predicciones de las 6 observaciones siguiente se debe hacer:
plot (HWA, lwd =2, main=” s u a v i z a d o v/ s s e r i e ” )
pred<−predict (HWA, 6 , p r e d i c t i o n . i n t e r v a l = T)
plot (HWA, pred , lwd=2)
El gráfico obtenido es:
Para obtener el valor de los parámetros y las predicciones se debe hacer:

HWA$ a l p h a
HWA$beta
HWA$gamma
pred
De lo que se obtuvo lo siguiente:

> HWA$ a l p h a
alpha
0.8306919
> HWA$beta
beta
0
> HWA$gamma
gamma
1
> pred
fit upr lwr
Sep 2017 6 . 5 9 7 0 1 0 7 . 2 7 7 5 7 0 5 . 9 1 6 4 5 0
Oct 2017 6 . 2 6 0 4 3 8 7 . 1 4 5 1 7 8 5 . 3 7 5 6 9 7
Nov 2017 6 . 1 3 6 8 5 3 7 . 1 8 6 7 9 1 5 . 0 8 6 9 1 5
Dec 2017 6 . 3 0 7 6 3 3 7 . 5 0 0 0 9 9 5 . 1 1 5 1 6 8
Jan 2018 6 . 3 7 7 2 8 8 7 . 6 9 6 9 7 7 5 . 0 5 7 5 9 9
Feb 2018 6 . 4 7 1 4 2 6 7 . 9 0 7 1 0 8 5 . 0 3 5 7 4 4
5.2.2. Aplicación en SAS, caso aditivo
Para obtener el gráfico del alisado y los valores de los parámetros se debe hacer lo siguiente:
p r o c esm data=t a s a out= n u l l
p r i n t=e s t i m a t e s
p l o t=m o d e l f o r e c a s t s ;
i d d a t e i n t e r v a l=month ;
f o r e c a s t tdd / model=a d d t w i n t e r s ;
run ;
Los valores de los parámetros y el gráfico son

Para tener los valores de la predicción se debe hacer

proc f o r e c a s t
data=t a s a out=predA o u t a l l method=a d d w i n t e r s s e a s o n s=month l e a d =6;
id date ;
var tdd ;
run ;
De lo que se obtiene
5.2.3. Aplicación en R, caso multiplicativo
HWM<−H o l t W i n t e r s ( s t , s e a s o n a l = ” m u l t i p l i c a t i v e ” )
Para obtener el gráfico con las predicciones de las 6 observaciones siguiente se debe hacer:
plot (HWM, lwd =2, main=” s u a v i z a d o v/ s s e r i e ” )
pred<−predict (HWM, 6 , p r e d i c t i o n . i n t e r v a l = T)
plot (HWM, pred , lwd=2)
Para obtener el valor de los parámetros y las predicciones se debe hacer:

HWM$ a l p h a
HWM$beta
HWM$gamma
pred

> HWM$ a l p h a
alpha
0.8766436
> HWM$beta
beta
0
> HWM$gamma
gamma
1
> pred
fit upr lwr

Sep 2017 6 . 5 8 1 4 5 4 7 . 2 5 8 4 1 2 5 . 9 0 4 4 9 6
Oct 2017 6 . 2 2 8 8 5 3 7 . 1 1 1 1 1 6 5 . 3 4 6 5 9 1
Nov 2017 6 . 1 6 7 2 9 0 7 . 2 2 8 9 6 2 5 . 1 0 5 6 1 8
Dec 2017 6 . 3 5 7 1 7 6 7 . 6 0 5 9 4 7 5 . 1 0 8 4 0 6
Jan 2018 6 . 3 4 6 6 9 3 7 . 7 3 5 4 6 5 4 . 9 5 7 9 2 2
Feb 2018 6 . 4 0 4 6 7 5 7 . 9 3 5 2 1 5 4 . 8 7 4 1 3 5
5.2.4. Aplicación en SAS, caso multiplicativo
Para obtener el gráfico del alisado y los valores de los parámetros se debe hacer lo siguiente:
p r o c esm data=t a s a out= n u l l
p r i n t=e s t i m a t e s
p l o t=m o d e l f o r e c a s t s ;
i d d a t e i n t e r v a l=month ;
f o r e c a s t tdd / model=m u l t w i n t e r s ;
run ;
Los valores de los parámetros y el gráfico son

Para tener los valores de la predicción se debe hacer

proc f o r e c a s t
data=t a s a out=predM o u t a l l method=m u l t w i n t e r s s e a s o n s=month l e a d =6;
id date ;
var tdd ;
run ;
De lo que se obtiene
Para ver que alisado a usar se puede ver el que tenga menor error cuadrático, esto se puede calcular:
HWA$SSE
HWM$SSE
De lo que se obtuvo
> HWA$SSE #c a s o a d i t i v o
[ 1 ] 9.532983
> HWM$SSE #c a s o m u l t i p l i c a t i v o
[ 1 ] 9.414581
Como el caso multiplicativo tiene menor error cuadrático es el recomendado a usar.
5.3. Ajuste del modelo
Para ajustar los modelos en R se usa el comando ARIMA y dependiendo de las componentes del modelo,
se ajusta el orden de este. Del análisis de la serie se vio que esta presenta tendencia y estacionalidad, por
lo que nos dice que para ser modelada se debe ocupar SARIMA.
5.3.2. Metodologı́a Box-jenkis
Sabemos que nuestro modelo es un SARIMA por sus componentes, ahora debemos ver el orden de este.
Se analizara a de los gráficos de auto-correlación y auto-correlación-parcial. La función para ver eso es:
a c f ( s t , l a g .max=50)
p a c f ( s t , l a g .max=50)

Podemos notar que la función de auto-correlación (ACF), decrece en forma de caminata aleatorio, por lo
tanto hay que diferencia la serie para eliminar esto. Para diferenciar la serie y ver su función de ACF y
PACF se debe hacer lo siguiente:
s t d 1<−d i f f ( s t )
a c f ( std1 , l a g .max=50)
p a c f ( std1 , l a g .max=50)
de lo que se obtiene lo siguiente

Con esto se quito la caminata aleatoria, Se debe proceder a ver si nuestra serie tiene componentes de
tendencia y estacionalidad.
La dócima para la tendencia es la siguiente:
MannKendall ( s t d 1 )

tau = 0 . 0 9 1 1 , 2− s i d e d p v a l u e =0.20457
Por lo que no hay evidencia para rechazar H0 , es decir podemos concluir que la serie no presenta tendencia
La dócima para la estacionalidad es la siguiente:
SeasonalMannKendall ( s t d 1 )
tau = 0 . 9 3 , 2− s i d e d p v a l u e =2.22 e −16
Por lo que la serie tiene una componente estacional, se debe diferenciar respecto a la estacionalidad lo cual
se hace con, y se quiere ver su ACF y PACF:
s t d 2<−d i f f ( std1 , l a g =12)
a c f ( std2 , l a g .max=50)
p a c f ( std2 , l a g .max=50)
De lo que se tuvo que los gráficos de ACF y PACF son

Se debe ver si la serie diferenciada por estacionalidad tiene dicha componente. La dócima para la estacio-
nalidad es la siguiente:
SeasonalMannKendall ( s t d 2 )
tau = −0.102 , 2− s i d e d p v a l u e =0.29206
Como p − valor > 0,05, no hay evidencia para rechazar H0 por lo que se concluye que la serie no tiene
componente estacional.
La dócima para la tendencia es la siguiente:
MannKendall ( s t d 2 )

tau = −0.0756 , 2− s i d e d p v a l u e =0.32952
Por lo que no hay evidencia para rechazar H0 , es decir podemos concluir que la serie no presenta tendencia
También se vera si la serie es estacionaria o no.
Ho : La serie no es estacionaria v/s H1 : La serie es estacionaria
> adf . t e s t ( std2 )

Augmented Dickey−F u l l e r Test
data : std2
Dickey−F u l l e r = −4.0733 , Lag order = 4 , p−v a l u e =
0.01079
alternative hypothesis : stationary
Como p − valor < 0,05, hay evidencia para rechazar la hipótesis nula, por lo que la serie diferenciada
por tendencia y estacionalidad, es estacionaria.
El gráfico de la serie queda:
Dado los rezagos de la función de ACF y PACF se proponen los siguientes modelos sarima: (1, 1, 1)x(1, 1, 1)12
(1, 1, 3)x(1, 1, 1)12
(3, 1, 7)x(1, 1, 1)12
El primer modelo se propone ya que tiene menos variables (criterio parsimonioso) Para desarrollar los
modelos se debe hacer:
mod1<−arima ( s t , order=c ( 1 , 1 , 1 ) , s e a s o n a l = l i s t ( order=c ( 1 , 1 , 1 ) , p e r i o d =12))
Se calculara el AIC de los 3 modelos propuestos.

modelo1$ a i c
modelo2$ a i c
modelo3$ a i c
Se obtuvo lo siguiente
Modelo AIC
SARIMA(1, 1, 1)x(1, 1, 1)12 64,33459
SARIMA(1, 1, 3)x(1, 1, 1)12 63,76585
SARIMA(3, 1, 7)x(1, 1, 1)12 62,48262
A pesar de que el primer modelo tenga el AIC más elevado se elegirá este modelo, ya que tiene menos
variables y la diferencia de los AIC no es realmente significativa. Se comprobaran los supuestos de dicho
modelo.
5.3.3. Comprobación de supuestos
Normalidad de los residuos
Ho : ε ∼ N ormal v/s H1 : ε N ormal
> s h a p i r o . t e s t ( mod1$ r e s ) #Normalidad
Shapiro −Wilk n o r m a l i t y t e s t
data : mod1$ r e s
W = 0 . 9 8 1 5 1 , p−v a l u e = 0 . 2 2 3 5
Como no hay evidencia para rechazar H0 , podemos decir que los residuos distribuyen normal.
Los residuos no están autocorrelacionados
Ho : Los residuos no están autocorrelacionados v/s H1 : Los residuos están autocorrelacionados
> Box . t e s t ( mod1$ r e s , type=”Box−P i e r c e ” )
Box−P i e r c e t e s t
data : mod1$ r e s
X−s q u a r e d = 0 . 1 4 2 8 8 , df = 1 , p−v a l u e = 0 . 7 0 5 4
No hay evidencia para rechazar H0 , por lo que podemos decir que nuestros residuos no están autocorrela-
cionados
Homocedasticidad: Para ver la homocedasticidad se vera el gráfico de las varianzas
plot . t s ( r e s i d u a l s ( mod1 ) )
Se puede ver que la varianza se mantiene constante, por lo que se puede decir que los residuos del modelo
son homocedasticos.
Se puede apreciar que el modelo 1 cumple con los supuestos y no difiere en mucho en el AIC con los otros
modelos, ademas de que tiene menos variables que estos. Por lo tanto se ocupara para predecir.
Para predecir se ocupa lo siguiente:
p s a r i<−predict ( mod1 , n . ahead = 2 0 )
ts . plot ( s t , col =1, xlim=c ( 2 0 1 0 , 2 0 2 0 ) , add=T)
l i n e s ( p s a r i $pred , lwd =2, col=” r e d ” )
El gráfico de la predicción es el siguiente:
5.3.4. Aplicación en SAS
Lo primero que se debe hacer es analizar el tipo de modelo, esto se hace viendo ACF y PACF. Lo cual
se hace con:
p r o c arima data=t a s a ;
i d e n t i f y var=tdd ;
run ;
Podemos ver que ACF decae en forma de caminata aleatoria, lo que nos dice que debemos diferenciar la
serie respecto a la tendencia y a la estacionalidad
p r o c arima data=t a s a ;
i d e n t i f y var=tdd ( 1 , 1 2 ) ;
run ;
De lo que vemos que la serie ya no tiene una componente de estacionalidad ni de tendencia.

Supuestos de los residuos
Se puede apreciar que la distribución de los residuos es semejante a una normal. No autocorrelación de
los residuos
Gráfico de predicciones
5.4. Densidad espectral
5.4.1. Periodograma
Para calcula la densidad espectral de la serie se utiliza

periodogram ( s t , main=”Periodograma ” )
Ocupando la sentencia
pper $ s p e c
Se obtienen los valores de la densidad espectral de la serie de tiempo, los cuales son:
[ 1 ] 25.887760690 3.278481216 0.183745822 4.545480768
[5] 1.612082019 2.787114901 0.561627914 5.925008923
[9] 1.852687140 0.896212536 1.081999350 0.204949687
[13] 0.437590510 0.002497303 0.439094206 1.410139597
[17] 0.152080260 0.560726905 0.556220679 0.557995530
[21] 0.036588607 0.065526411 0.374742822 0.030697289
[25] 0.070513314 0.034386829 0.008101698 0.062093329
[29] 0.056681006 0.177874512 0.107768655 0.060370631
[33] 0.040569866 0.058335037 0.061969748 0.157069556
[37] 0.013001984 0.080110810 0.064734701 0.264761021
[41] 0.015370450 0.133929245 0.051033793 0.298586906
[45] 0.024605129 0.004677134 0.180010236 0.126030227
6 SIMULACIÓN ESTADÍSTICA 106
6. SIMULACIÓN ESTADÍSTICA
En este capitulo se va a simular la entrada de pacientes a un centro de salud, al cual llega un paciente
cada un minuto. Primero hay que notar que los centros de salud tiene un protocolo el cual consiste en lo
siguiente:
Admisión y evaluación general: Donde al llegar un paciente a este se le hace una evaluación
rápida de promedio un minuto y a lo mas cinco minutos y de acuerdo a esto se le deriva al tipo de
urgencia que tiene donde la urgencia máxima es c1 y la menor es c5. Los pacientes que tienen un
nivel de urgencia de c1 o c2 deben ser atendidos rápidamente. Si no pasan a la atención primaria.
De experiencias anteriores se ha visto que el 30 % de pacientes es de nivel c1,el 30 % es de nivel c2 y
el resto o sea 40 % no son pacientes de gravedad.
Atención primaria: Si un paciente que llega no es de gravedad pasa a atención primara en la cual
se le evalúa nuevamente para ver a que nivel pertenece (c3, c4 o c5), esto tiene un tiempo de demora
de entre cinco a diez minutos. Una vez decidido los pacientes son atendidos dando prioridad a c3,
luego c4 y c5.
Del total de pacientes que pasa por atención primaria de atenciones anteriores se ha visto que el 30 %
es derivado a c3, el 30 % es derivado a c4 y el 40 % es derivado a c5.
Luego de estos los pacientes son atendidos.
C1: El tiempo de demora en ser atendido un paciente de este tipo es en promedio 10 y a lo mas 15
minutos.
C2: El tiempo de demora en ser atendido un paciente de este tipo es en promedio 10 minutos y a lo
mas 15 minutos.
C3: El tiempo de demora en ser atendido un paciente de este tipo es en promedio 10 minutos y a
lo mas 15 minutos. De observaciones pasadas se sabe que el 95 % de estos paciente se atienden y el
resto decide irse.
mas 15 minutos. 75 % de estos paciente se atienden y el resto decide irse.
mas 15 minutos. 50 % de estos paciente se atienden y el resto decide irse.
Los pacientes llegan cada un minuto y se simulo la situación de 8am a 20pm o sea 10 horas, de lo que
es obtuvo lo siguiente:
VA Time: El tiempo promedio en el que un cliente es atendido es de 12,27 minutos aproximada-

mente. El tiempo
mınimo de atencion fue de 5,022 minutos y el tiempo maximo fue de 29,082 minutos.
Wait Time: El tiempo promedio de espera en la cola de un cliente es de 35,724 minutos.
Total Time El tiempo promedio total de una persona dentro del sistema es de 47,988 minutos. El
tiempo total mınimo fue de 5,0022 minutos .
Number In: El promedio de personas que entraron al sistema.
Number Out: El promedio de personas que salieron del sistema.
WIP El promedio personas que se encuentran al terminar el tiempo.

Posible solución

Manual Practicof

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Manual Practicof

Enviado por

Direitos autorais:

Formatos disponíveis

Universidad de Santiago de Chile

Departamento de Matemática y Ciencias de la Computación

Santiago de Chile 7 de junio del 2018

2.3.1. Una muestra aleatoria: Dócima para el vector de medias . . . . . . . . . . . . . . . 32

4. DISEÑO Y ANÁLISIS DE EXPERIMENTOS 67

6. SIMULACIÓN ESTADÍSTICA 106

1.1. Regresión lineal múltiple

1.2. Descripción de la base

Se hará el modelo con todas las variable en r.

Estima te Std . E r r o r t v a l u e Pr ( >| t | )

1.4. Modelo en SAS

Se hará el modelo en SAS

1.5. Bondad de ajuste

Se evaluara la contribución de las variables explicativas de forma simultánea e individualmente.

1.6. Análisis global de las variables independientes

la hipótesis es H0 : β1 = β2 = ... = βj = 0v/sH1 : βj 6= 0 para algún j. Como tenemos que Nuestro

1.7. Análisis individual de las variables independientes

1.8. Selección de variables

Df Sum o f Sq RSS AIC

( Intercept ) Age Height

1.9. Diagnóstico de supuestos

> r e s e t ( mod1 , power=2:3)

> r e s e t ( mod1 , power=2:4)

1.9.2. Normalidad de los residuos

Se utilizara el test de Shapiro-wilk para confirmar la normalidad de los residuos

H0 :Errores distribuyen normal vs H1 :Errores no distribuyen normal

Se quiere ver si la varianza del modelo es es constate.

1.9.4. No autocorrelación de los residuos

Se quiere ver si los residuos no están autocorrelacionados

H0 :No están autocorrelacionados vs H1 :Si están autocorrelacionados

1.10. Análisis de influencia

dfb . 1 dfb . Age dfb . Hght dfb . a . ( S d f f i t cov . r cook . d hat

1.11. Regresión logı́stica

( D i s p e r s i o n parameter f o r binomial family taken t o be 1 )

OR = e2,36949∗1−2,36949∗0 = e2,39649 = 10,69194

1.12. Regresión cox

coef exp ( coef ) se ( coef ) z Pr ( >| z | )

exp ( coef ) exp(−coef ) lower . 9 5 upper . 9 5

1.13. Regresión Poisson

glm( formula = g o l e s ˜ a l t u r a + edad + factor ( h a b i l ) , family = poisson ( log ) )

exp ( coef ( mpos ) )

2.1. Gráficos Multivariantes

2.1.1. Gráfico de caras o Chernoff

2.1.2. Gráficos de Estrellas y Rayos

2.1.3. Gráficas de Andrews

2.1.4. Gráficas de dispersión de lado a lado

2.2. ANOVA y Análisis de Contrastes

Yij = µ + τj + εij i = 1...n, j = 1...m

Yij : variable respuesta

Cuadro 6: Tabla ANOVA

Donde τj es el efecto del j-ésimo tratamiento.

Yij = µ + τj + εij i = 1...n, j = 1...m

Yij : Modulo resiliente

A continuación veremos distintos métodos para resolver conjeturas de manera simultánea.

2.2.1. Método de Tuckey

2.3.1. Una muestra aleatoria: Dócima para el vector de medias

Vamos a compara el vector µ con el vector de medias.

µ = (55,5, 1030, 0,05, 5,1, 0,1345, 2250, 5000) (2)

Para trabajar en este contexto, se estudiara si el vector de medias de las variables:altura,procentajes

H0 : µ1 = µ2 = µ3 = µ4 = µ5 = µ6 v/s H1 : µi 6= µj para algun i 6= j

donde µ1 =C20 , µ2 =c24, µ3 =P, µ4 =PC, µ5 =PRI, µ6 =PRV

2.5. Componentes Principales

H0 : |R| = 1 v/s H1 : |R| =

H0 : Las variables no estan correlacionadas v/s H1 : Las variables si estan correlacionadas

yijk = µ + αi + βj + ij (3)

yijk = µ + αi + τj + βk + ijk (4)

yijk = µ + αi + βj + γk + δl + ijkl (5)