Você está na página 1de 117

Universidad de Santiago de Chile

Facultad de Ciencia

Departamento de Matemática y Ciencias de la Computación

Manual Estadı́stico

estudiantes

Yerko Carreño
Sebastian Fuentes
Karin Fritz
Profesor

Luis Figueroa
Ayudantes

Carolina Olmos
Camila Ahumada

Santiago de Chile 7 de junio del 2018


Índice
1. MODELOS LINEALES 4
1.1. Regresión lineal múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Descripción de la base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Modelo en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Modelo en SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5. Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.6. Análisis global de las variables independientes . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.7. Análisis individual de las variables independientes . . . . . . . . . . . . . . . . . . . . . . . 7
1.8. Selección de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.9. Diagnóstico de supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.9.1. Linealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.9.2. Normalidad de los residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.9.3. Homocedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.9.4. No autocorrelación de los residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.10. Análisis de influencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.11. Regresión logı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.12. Regresión cox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.13. Regresión Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2. MÉTODOS MULTIVARIANTES 24
2.1. Gráficos Multivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.1. Gráfico de caras o Chernoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.2. Gráficos de Estrellas y Rayos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.3. Gráficas de Andrews . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.4. Gráficas de dispersión de lado a lado . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2. ANOVA y Análisis de Contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1. Método de Tuckey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.2. Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3. T 2 Hotelling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
ÍNDICE 2

2.3.1. Una muestra aleatoria: Dócima para el vector de medias . . . . . . . . . . . . . . . 32


2.4. MANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5. Componentes Principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.6. Análisis discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.7. Análisis de conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.8. Análisis Factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.9. Análisis de Correspondencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3. Estadı́stica No Paramétrica 47
3.1. Una muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.2. Prueba de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3. Prueba Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4. Prueba de Rachas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5. Dos muestras relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.6. Prueba del Signo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.7. Prueba de Mcnemar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.8. Prueba de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.9. Dos muestras Independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.10. Prueba de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.11. Prueba de Chi cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.12. Tres o más muestras relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.13. Prueba de Friedman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.14. Tres o más muestras independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.15. Prueba de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4. DISEÑO Y ANÁLISIS DE EXPERIMENTOS 67


4.1. Diseño con un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2. Factor fijo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.3. Factor aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4. Diseño de bloques completos aleatorizados . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.5. Diseño de cuadrado latino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.6. Diseño de cuadrados grecolatinos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.7. Diseños factoriales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.8. Diseño de dos factores de efecto fijo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.9. Diseño anidado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.10. Diseño de parcelas divididas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5. SERIES CRONOLÓGICAS 84
5.1. Análisis de la serie de tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.1.1. Aplicación en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.1.2. Gráfico de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.1.3. Test de Estacionaridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.1.4. descomposición de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.1.5. Test para estacionalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.1.6. Test para tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.1.7. Aplicación en SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.1.8. Gráfico de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2. Técnicas de alisado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2.1. Aplicación en R, caso aditivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2.2. Aplicación en SAS, caso aditivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2.3. Aplicación en R, caso multiplicativo . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.2.4. Aplicación en SAS, caso multiplicativo . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.2.5. Aplicación en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.3. Ajuste del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.3.1. Aplicación en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.3.2. Metodologı́a Box-jenkis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.3.3. Comprobación de supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.3.4. Aplicación en SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.4. Densidad espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.4.1. Periodograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

6. SIMULACIÓN ESTADÍSTICA 106


1 MODELOS LINEALES 4

1. MODELOS LINEALES

1.1. Regresión lineal múltiple

Se realizará una regresión lineal múltiple a una base de datos, que será descrita a continuación, para
de esta forma encontrar el mejor modelo posible para explicar la variable dependiente.

1.2. Descripción de la base

Cuadro 1: Variables
Variable Tipo de variable Notación
Price Continua Precio del caballo, medido en dolares
Age Discreta Edad del caballo, medida en años
Height Continua Altura del caballo, medida en hand (1 hand = 10.17 cm)
Sex Dicotomica m: macho, f:hembra

Lo que se quiere modelar es el precio del caballo de acuerdo a la edad, su altura y su sexo. Para esto
se ocupara regresión lineal múltiple. Se hará un resumen de los datos, se hará excluyendo el dato de sexo:
subsectionAplicación en R
summary( b a s e )
Price Age Height
Min . : 1100 Min . : 0.500 Min . :14.25
1 s t Qu. : 1 5 7 5 0 1 s t Qu . : 5 . 0 0 0 1 s t Qu . : 1 6 . 0 0
Median : 2 5 0 0 0 Median : 7 . 0 0 0 Median : 1 6 . 5 0
Mean :27957 Mean : 7.489 Mean :16.33
3 rd Qu. : 4 0 0 0 0 3 rd Qu . : 8 . 5 0 0 3 rd Qu . : 1 6 . 7 5
Max . :60000 Max . :20.000 Max . :17.25

Correlaciones:
cor ( b a s e )
Price Age Height
Price 1 . 0 0 0 0 0 0 0 −0.2526778 0 . 4 4 3 1 3 7 9
Age −0.2526778 1.0000000 0.3113041
Height 0.4431379 0.3113041 1.0000000

subsectionAplicación en SAS
1 MODELOS LINEALES 5

p r o c c o r r data=modelos ;
var p r e c i o age a l t ;
run ;

De donde se puede ver que la correlación entre el precio y la edad es negativa, ya la correlación entre el
precio y la altura es positiva.

1.3. Modelo en R

Se hará el modelo con todas las variable en r.


mod1<−lm( P r i c e ˜Age+Height+as . factor ( Sex ) )
summary( mod1 )
Call :
lm( formula = P r i c e ˜ Age + Height + as . factor ( Sex ) )

Residuals :
Min 1Q Median 3Q Max
−20987 −7267 −1601 7839 30478

Coefficients :
1 MODELOS LINEALES 6

Estima te Std . E r r o r t v a l u e Pr ( >| t | )


( Intercept ) −105448 52410 −2.012 0.0505 .
Age −1037 437 −2.372 0.0222 ∗
Height 8270 3394 2.437 0.0190 ∗
as . factor ( Sex )m 9928 4390 2.262 0.0288 ∗
−−−

R e s i d u a l s t a n d a r d e r r o r : 11480 on 43 d e g r e e s o f freedom
M u l t i p l e R−s q u a r e d : 0.4328 , Adjusted R−s q u a r e d : 0.3932
F− s t a t i s t i c : 1 0 . 9 4 on 3 and 43 DF, p−v a l u e : 1 . 8 2 7 e −05

1.4. Modelo en SAS

Se hará el modelo en SAS


p r o c r e g data=mod ;
model p r e c i o = age a l t s e x o ;
run ;

Se puede observar que en ambos casos dieron valores muy semejantes para los parámetros. R2 ajustado
es de a 0,39 lo cual nos dice que las variables independientes no explican mucho la variabilidad del precio
1 MODELOS LINEALES 7

de los caballos.

1.5. Bondad de ajuste

Se evaluara la contribución de las variables explicativas de forma simultánea e individualmente.

1.6. Análisis global de las variables independientes

la hipótesis es H0 : β1 = β2 = ... = βj = 0v/sH1 : βj 6= 0 para algún j. Como tenemos que Nuestro


F=10.92 y este nos da un p-valor menos a 0,05. Hay evidencia para rechazar la hipótesis nula, por lo que
al menos existe un β 6= 0.

1.7. Análisis individual de las variables independientes

La hipótesis son H0 : βi = 0v/sH1 : βi 6= 0 para algún i, se quiere probar si alguno de los coeficientes
asociados son iguales a 0 de manera individual.
Se ve que todos los p-valores son menores a 0,05 por lo que hay evidencia para rechazar en todos los casos.
Es decir nuestras variables no son 0 de manera individual.

1.8. Selección de variables

Para ver si se pueden eliminar variables del modelo, se utilizará el método backward, el cual empieza
con el modelo completo como punto de partida. En R
step ( mod1 , d i r e c t i o n = ” backward ” , c r i t e r i o n=”AIC” )
Start : AIC=882.6
P r i c e ˜ Age + Height + as . factor ( Sex )

Df Sum o f Sq RSS AIC


<none> 5671448725 8 8 2 . 6 0
− as . factor ( Sex ) 1 674640366 6346089091 8 8 5 . 8 8
− Age 1 742297210 6413745935 8 8 6 . 3 8
− Height 1 783271384 6454720109 8 8 6 . 6 8

Call :
lm( formula = P r i c e ˜ Age + Height + as . factor ( Sex ) )

Coefficients :
1 MODELOS LINEALES 8

( Intercept ) Age Height


−105448 −1037 8270
as . factor ( Sex )m
9928

En SAS
p r o c r e g data=mod ;
model p r e c i o = age a l t s e x o / s e l e c t i o n=backward ;
run ;

Se puede ver que en ambos caso no hubo eliminación de variables, por los que nos quedaremos con el
modelo obtenido desde un comienzo.

1.9. Diagnóstico de supuestos

1.9.1. Linealidad

Para probar que se cumple el supuesto de linealidad se utilizará el test reset de Ramsey el cual verifica
si las combinaciones no lineales de los valores ajustados ayudan a explicar la variable dependiente. La
forma en que se realiza la prueba es ajustando el siguiente modelo
1 MODELOS LINEALES 9

y = ax + γ1 ŷ 2 + ... + γk−1 ŷ k + 

y mediante un test F de fischer prueba si γ1 hasta γk−1 son cero. Si la hipótesis nula es rechazada entonces
el modelo estarı́a mal especificado, ya que este no seria lineal.
Aplicación R
> r e s e t ( mod1 , power=2)

RESET t e s t

data : mod1
RESET = 0 . 8 7 9 2 5 , d f 1 = 1 , d f 2 = 4 2 , p−v a l u e = 0 . 3 5 3 8

> r e s e t ( mod1 , power=2:3)

RESET t e s t

data : mod1
RESET = 0 . 6 4 0 8 5 , d f 1 = 2 , d f 2 = 4 1 , p−v a l u e = 0 . 5 3 2

> r e s e t ( mod1 , power=2:4)

RESET t e s t

data : mod1
RESET = 1 . 0 6 4 8 , d f 1 = 3 , d f 2 = 4 0 , p−v a l u e = 0 . 3 7 4 8

En SAS
p r o c a u t o r e g data=mod ;
model p r e c i o = age a l t s e x o / r e s e t ;
run ;
1 MODELOS LINEALES 10

1.9.2. Normalidad de los residuos

Se utilizara el test de Shapiro-wilk para confirmar la normalidad de los residuos

H0 :Errores distribuyen normal vs H1 :Errores no distribuyen normal

En R
> s h a p i r o . t e s t ( mod1$ r e s i d u a l s )

Shapiro −Wilk n o r m a l i t y t e s t

data : mod1$ r e s i d u a l s
W = 0 . 9 8 0 1 2 , p−v a l u e = 0 . 5 9 7 3

> h i s t ( mod1$ r e s i d u a l s )

En SAS
p r o c r e g data=mod ;
model p r e c i o = age a l t s e x o /covb s p e c dw v i f ;
output out=prueba r=r e s i d ;
1 MODELOS LINEALES 11

run ;
p r o c u n i v a r i a t e data=prueba n o r m a l t e s t ;
run ;

Como p-valor es mayor a 0.5903 no hay evidencia para rechazar la hipótesis nula. Se concluye la los errores
distribuyen normal.

1.9.3. Homocedasticidad

Se quiere ver si la varianza del modelo es es constate.

H0 : HomocedasticidadvsH1 : Heterocedasticidad

En R
> b p t e s t ( mod1 )

s t u d e n t i z e d Breusch−Pagan t e s t

data : mod1
BP = 1 . 4 9 1 9 , df = 3 , p−v a l u e = 0 . 6 8 4 1

En SAS
p r o c model data=mod ;
parms a1 b1 b2 b3 ;
p r e c i o = a1 + b1∗ age + b2∗ a l t + b3∗ s e x o ;
f i t p r e c i o / pagan=(1 age a l t s e x o ) ;
run ;

1.9.4. No autocorrelación de los residuos

Se quiere ver si los residuos no están autocorrelacionados


1 MODELOS LINEALES 12

H0 :No están autocorrelacionados vs H1 :Si están autocorrelacionados

En R
> d w t e s t ( mod2 )

Durbin−Watson t e s t

data : mod2
DW = 1 . 7 9 5 6 , p−v a l u e = 0 . 2 5
a l t e r n a t i v e h y p o t h e s i s : t r u e a u t o c o r r e l a t i o n i s g r e a t e r than 0

En SAS
p r o c a u t o r e g data=mod ;
model p r e c i o = age a l t s e x o ;
run ;

Como p-valor es mayor a 0,05 no hay evidencia para rechazar la hipótesis nula, se concluye que los residuos
no están autocorrelacionados

1.10. Análisis de influencia

En este punto se verán los datos que pueden ser influyentes en nuestro modelo
> i n f<−influence . measures ( mod1 )
> summary( i n f )
Potentially i n f l u e n t i a l observations of
lm( formula = P r i c e ˜ Age + Height + as . factor ( Sex ) ) :

dfb . 1 dfb . Age dfb . Hght dfb . a . ( S d f f i t cov . r cook . d hat


30 0.13 −0.03 −0.12 0.01 0.18 1.45 ∗ 0.01 0.25
32 −0.08 −0.20 0.08 −0.01 −0.23 1.42 ∗ 0.01 0.24
43 −0.60 −0.05 0.59 −0.43 −0.67 1.52 ∗ 0.11 0.34 ∗
44 0.16 0.66 −0.20 0.49 0.89 0.55 ∗ 0.17 0.08

Se puede ver que las observaciones que son influyentes son las 30, 32, 43 y 44. Todas son influyentes
según el covaratio y la 43 según los leveranges
1 MODELOS LINEALES 13

1.11. Regresión logı́stica

Para regresión logı́stica se utilizara una base donde la variable dependiente es ver si niños nace bajo
peso las variables de modelos son:

Cuadro 2: Variables
Variable Tipo de variable Descripción
Peso bebe Dicotomica 1: bajo peso, y 0: peso normal
Gestación] Discreta Semanas de gestación
Fuma Dicotomica La madre fumaba antes , 1=SI, 0= NO
Cigarrillos fumados Discreta Cantidad de cigarros al dı́a antes del embarazo
Edad Discreta Edad de la madre
1 MODELOS LINEALES 14

En R
> attach ( B a s e l o g )
> mlog<−glm( Peso˜ g e s t a c i o n+fuma+edadm+cigma , family = binomial ( l i n k=l o g i t ) )
> summary( mlog )

Call :
glm( formula = Peso ˜ g e s t a c i o n + fuma + edadm + cigma , family = binomial ( l i n k = l o g i t ) )

Deviance R e s i d u a l s :
Min 1Q Median 3Q Max
−1.4678 −0.3226 −0.1153 0.4180 2.2470

Coefficients :
Estimat e Std . E r r o r z v a l u e Pr ( >| z | )
( Intercept ) 21.20688 10.56493 2.007 0.0447 ∗
gestacion −0.67451 0.29961 −2.251 0.0244 ∗
fuma 2.36949 1.82032 1.302 0.1930
edadm 0.03392 0.09982 0.340 0.7340
cigma 0.12731 0.06939 1.835 0.0666 .
−−−

( D i s p e r s i o n parameter f o r binomial family taken t o be 1 )

N u l l deviance : 5 3 . 4 6 7 on 41 d e g r e e s o f freedom
R e s i d u a l deviance : 2 6 . 4 5 9 on 37 d e g r e e s o f freedom
AIC : 3 6 . 4 5 9

Number o f F i s h e r S c o r i n g i t e r a t i o n s : 6

En SAS
p r o c l o g i s t i c data=L o g i s t i c a ;
model p e s o = g e s t fuma edad c i g ;
run ;
1 MODELOS LINEALES 15

Notar que la salida de R nos da la probabilidad de p(x = Bajopeso) y la de SAS nos da p(x = P esonormal),
por ese motivo los parámetros tienen las mismas magnitudes pero diferentes signos. Las conclusiones que
se pueden sacar son las misma.
Si ocupamos el modelo obtenido en R, podemos decir que mientras mas semanas de gestación tenga el
bebe es menos probable que este bajo paso, y si la madre fuma hay mayor probabilidad de que este bajo
peso.
Para el caso de SAS podemos decir que mientras mas semanas de gestación tenga el bebe mayor es la
probabilidad de que este en el peso normal, y si la mamá fuma disminuye la probabilidad de que este en
el peso normal.
Si hacemos el odd-ratio de las madres que fuman con las madres que no fuman se tiene lo siguiente:

OR = e2,36949∗1−2,36949∗0 = e2,39649 = 10,69194

como el OR es es mayor a 1, quiere decir si la madre fumaba es más probable que su hijo nazca bajo peso.

1.12. Regresión cox

Se desea estimar el modelo se sobrevida de personas que sufren de cancer al pulmón, donde las variables
de independientes son:
1 MODELOS LINEALES 16

Cuadro 3: Variables
Variable Tipo de variable Descripción
tiempo Continua Tiempo de vida del individuo
Status Dicotomica Si el dato es censurado (0) o no (1)
Tratamiento Dicotomica Tratamiento del individuo, 1= estándar, 2= alternativo
Escala Karnosfsky Intervalo Mide como se siente los pacientes,100:muy bien a 0:muy mal
Edad Continua Edad del individuo

En R
> plot ( Csurv , x l a b=” Meses ” , y l a b=” S u p e r v i v e n c i a ” )
> Csurv<−Surv ( tiempo , status )
> g r a f<−s u r v f i t ( Csurv˜ 1 )
> plot ( g r a f )

En R
> cox1<−coxph ( Surv ( tiempo , status ) ˜1+factor ( t r t )+karno+age )
> summary( cox1 )
Call :
coxph ( formula = Surv ( tiempo , status ) ˜ 1 + factor ( t r t ) + karno +
age )

n= 1 3 7 , number o f e v e n t s= 128

coef exp ( coef ) se ( coef ) z Pr ( >| z | )


factor ( t r t ) 2 0.189546 1.208701 0.185531 1.022 0.307
karno −0.034444 0.966143 0 . 0 0 5 2 3 2 −6.583 4 . 6 2 e −11 ∗∗∗
age −0.003864 0.996143 0 . 0 0 9 1 8 7 −0.421 0.674
−−−
1 MODELOS LINEALES 17

exp ( coef ) exp(−coef ) lower . 9 5 upper . 9 5


factor ( t r t ) 2 1.2087 0.8273 0.8402 1.7388
karno 0.9661 1.0350 0.9563 0.9761
age 0.9961 1.0039 0.9784 1.0142

En SAS
p r o c phreg data=mcox ;
c l a s s s t a t u s t r t / r e f= f i r s t ;
model tiempo∗ s t a t u s (0)= t r t age karno ;
run ;

Lo importante de la regresión cox son los factores de riesgos los cuales son dados por el ratio del riesgo, si
uno de estos es mayor a 1 es un factor de riego ya que quiere decir que acelera la muerte del sujeto. Para
nuestro estudio se puede apreciar que las personas que tiene el tratamiento de prueba viven menos que los
del tratamiento tradicional.

1.13. Regresión Poisson

Para este caso se modelara la cantidad de goles metidos por delanteros, donde las variables indepen-
dientes son las siguientes:

Cuadro 4: Variables
Variable Tipo de variable Descripción
Altura Continua Altura del jugador medida en metros
Edad Continua Edad del jugador
Habilidad Dicotomica Hace referencia a cual es su pierna hábil 0=zurda, 1=derecha

En R
> mpos<−glm( formula=g o l e s ˜ a l t u r a+edad+factor ( h a b i l ) , family=poisson ( log ) )
> summary( mpos )

Call :
1 MODELOS LINEALES 18

glm( formula = g o l e s ˜ a l t u r a + edad + factor ( h a b i l ) , family = poisson ( log ) )

Deviance R e s i d u a l s :
Min 1Q Median 3Q Max
−1.5165 −1.0673 −0.6591 0.2406 4.0930

Coefficients :
Estimat e Std . E r r o r z v a l u e Pr ( >| z | )
( Intercept ) 6.27894 1.59484 3 . 9 3 7 8 . 2 5 e −05 ∗∗∗
altura −1.72862 0.86550 −1.997 0.0458 ∗
edad −0.01305 0.01890 −0.691 0.4898
factor ( h a b i l ) 1 −0.16785 0.13493 −1.244 0.2135
−−−

Number o f F i s h e r S c o r i n g i t e r a t i o n s : 4

exp ( coef ( mpos ) )


( Intercept ) altura edad factor ( h a b i l ) 1
533.2252231 0.1775290 0.9870338 0.8454798

En SAS
p r o c genmod data=p o i s s o n ;
model g o l e s= a l t edad hab / d i s t=p o i s s o n ;
run ;

Se puede ver de los coeficientes que los jugadores zurdos hicieron más goles que los jugadores derechos.
1 MODELOS LINEALES 19
1 MODELOS LINEALES 20
1 MODELOS LINEALES 21
1 MODELOS LINEALES 22
1 MODELOS LINEALES 23
2 MÉTODOS MULTIVARIANTES 24

2. MÉTODOS MULTIVARIANTES

2.1. Gráficos Multivariantes

Para el estudio de metodos multivariantes, se utilizara una base de datos de probetas de mezclas
asfalticas, las cuales tienen un diseño especificado segun el uso que se le dara, donde se especifica el
porcentaje de asfalto que contiene, la altura de la probeta, peso especifico del asfalto, densidad densidad,
tipo de ligante con el que se trabajo. Estas muestras fueron sometidas a una prueba de resistencia, en la
cual se les calculo el modulo resiliente, el cual sera una medidad de calidad de la muestra, se determino el
procentaje de vacios , su densidad aparente, el procentaje de volumen agregado, el porcentaje del volumen
de asfalto.

Cuadro 5: Variables
Variable Tipo de variable Notación
Altura Continua altura
Porcentaje de asfalto Continua p asfalto
Porcentaje de vacios Continua p vacios
Peso especifico del asfalto Continua GB
Volumen de agregado Continua volumen agregado
Volumen de asfalto Continua volumen asfalto
Densidad maxima Continua densidad maxima
Densidad aparente Continua densidad aparente
Tipo de ligante Categorica tipo lig
Modulo resiliente Continua modulo
2 MÉTODOS MULTIVARIANTES 25

2.1.1. Gráfico de caras o Chernoff

effect of variables:
modified item Var
"height of face " "altura" "width of face " "GB"
"structure of face" "pvacios" "height of mouth " "palsfalto"
"width of mouth " "volumen asfalto" "smiling " "modulo"
"height of eyes " "altura" "width of eyes " "GB"
"height of hair " "pvacios" "width of hair " "palsfalto"
"style of hair " "volumen asfalto" "height of nose " "modulo"
"width of nose " "altura" "width of ear " "GB"
"height of ear " "p vacios"
2 MÉTODOS MULTIVARIANTES 26

2.1.2. Gráficos de Estrellas y Rayos


2 MÉTODOS MULTIVARIANTES 27

2.1.3. Gráficas de Andrews

2.1.4. Gráficas de dispersión de lado a lado


2 MÉTODOS MULTIVARIANTES 28

2.2. ANOVA y Análisis de Contrastes

ANOVA

El modelo ANOVA se usa para estudiar si el efecto de diversos tratamientos sobre una variable respuesta,
difieren significativamente entre si. Para estas situaciones se utiliza el siguiente modelo;

Yij = µ + τj + εij i = 1...n, j = 1...m

donde:

Yij : variable respuesta


µ: efecto principal general de la población o media global.
τj : efecto del j-ésimo tratamiento.
εij : componente de error aleatorio.
n: cantidad de sujetos analizados.
m: número de tratamientos.

Cuadro 6: Tabla ANOVA


Fuente de Variación Grados de Libertad Suma de Cuadrados Cuadrados Medios
Estadı́stico
M SCM
Modelo m-1 SCM MSCM=SCM/m-1 T =
M SCE
Error N-m SCE MSCE=SCE/N-m
Total N-1 SCT

H0 : τ1 = τ2 ... = τj = 0 v/s H1 : τi 6= τj

Donde τj es el efecto del j-ésimo tratamiento.


2 MÉTODOS MULTIVARIANTES 29

Trabajando con la misma base de datos, vamos a comparar el efecto de cada tipos de ligantes sobre
nuestra variable respuesta modulo o resistencia. para esta situacion se plantea la siguiente hipotesis.

H0 :El efecto de cada tipo de ligante es igual a cero v/s H1 : Al menos un es distinto

Yij = µ + τj + εij i = 1...n, j = 1...m

donde:

Yij : Modulo resiliente


µ: Media global.
τj : efecto del j-ésimo ligante.
εij : componente de error aleatorio.
n: cantidad de mezclas analizados.
m: número de tratamientos.

Aplicación en R

Aplicación en SAS
2 MÉTODOS MULTIVARIANTES 30

Conclusión:
Con respecto a nuestra variable de interés , podemos decir que a una significancia del %5 , se rechaza la
hipotesis nula , es decir, el efecto de al menos uno de los ligantes es distinto de cero, por lo tanto la media
de alguno de los tipos de ligantes es distinta. Se puede observar en el grafico de cajas que el ligante RI y
RV tienen una media mayor que los otros.

Comparaciones múltiples

A continuación veremos distintos métodos para resolver conjeturas de manera simultánea.

2.2.1. Método de Tuckey

Este método puede hacer múltiples comparaciones simples, de dos medias de tratamientos y determina
si hay efectos distintos entre ellos. Además este método es factible en un diseño balanceado. Tukey resuelve
el siguiente contraste:

H0 : µi = µj v/s H1 : µi 6= µj
2 MÉTODOS MULTIVARIANTES 31

Aplicación en R

Aplicación en SAS

2.2.2. Bonferroni

Hipótesis:
2 MÉTODOS MULTIVARIANTES 32

H0 : µ1 − µ2 + µ5 − µ6 = 0 ∧ − µ21 − µ2
2
+ µ3 − µ4 + µ5 = 0 vs H1 :Las afirmaciones son falsas

Conclusión:
No existe evidencia para rechazar H0

2.3. T 2 Hotelling

2.3.1. Una muestra aleatoria: Dócima para el vector de medias

Vamos a compara el vector µ con el vector de medias.

µ = (altura, GB, p vacios, p alsf alto, volumen asf alto, densidada parente, modulo) (1)

µ = (55,5, 1030, 0,05, 5,1, 0,1345, 2250, 5000) (2)

Conclusión:
Como nuestro F observado es mayor al F teorico, se rechaza la hipotesis nula a un un 5 % de significancia,
por lo que la muestra especificada es significativamente distinta al vector de medias de nuestras variables

2.4. MANOVA

Para trabajar en este contexto, se estudiara si el vector de medias de las variables:altura,procentajes


de vacios,peso especifico y procentaje de asfalto, son iguales para cada tipo de ligante, para ello se formulo
la siguiente hipotesis:

H0 : µ1 = µ2 = µ3 = µ4 = µ5 = µ6 v/s H1 : µi 6= µj para algun i 6= j

donde µ1 =C20 , µ2 =c24, µ3 =P, µ4 =PC, µ5 =PRI, µ6 =PRV


2 MÉTODOS MULTIVARIANTES 33

Aplicación en R

Donde resp1 corresponde al ANOVA con respecto al modulo con sus respectivas suma de cuadrados,
residuos y error estándar
Conclusión:
Como el p-valor es menor a 0.05, existe evidencia suficiente para rechazar la hipotesis nula, a un 5 %
de significancia, es decir, el vector de medias de los distintos tipos de ligantes son distintos entre sı́.
2 MÉTODOS MULTIVARIANTES 34

2.5. Componentes Principales

Antes que todo, se recuerda que uno de los objetivos de crear componentes principales es que estos no
se encuentren correlacionados, por lo tanto, si la base de datos original contiene variables que no son co-
rrelacionadas, no tiene sentido aplicar el método de componentes principales. Ahora, se procede a verificar
si las variables originales de la base de datos están correlacionadas entre sı́, por lo que ocuparemos el test
de Bartlett para ver si las variables están correlacionadas o no:

Test de Bartlett:

H0 : |R| = 1 v/s H1 : |R| =


6 1

H0 : Las variables no estan correlacionadas v/s H1 : Las variables si estan correlacionadas

Aplicación en R
2 MÉTODOS MULTIVARIANTES 35

Aplicación en SAS
2 MÉTODOS MULTIVARIANTES 36
2 MÉTODOS MULTIVARIANTES 37

Conclusión:
Donde se observa que en la componente 5 se acumula un 95.64 por ciento de la varianza, por lo tanto
trabajaremos con las primeras 5 componentes.

2.6. Análisis discriminante

Aplicación en R

Para la siguiente seccion, se clasificaron la variables modulo y porcetaje de vacios de tal forma que
el modulo se clasifico en 3 niveles:bajo,medio y alto, respecto a su zona de resistencia. mientras que la
variable procentaje de vacios se clasifico de orden creciente los siguientes nivel: 1,2,3,4
2 MÉTODOS MULTIVARIANTES 38

Conclusión:
Por lo tanto, si queremos clasificar o discriminar una mezcla con las sigueintes cualidades: altura =
56, GB = 1024,645, p vacios = 0,06, pa lsf alto = 5,5 , sera clasificado en el grupo de resistencia media.

2.7. Análisis de conglomerados

Utilizando las variables numericas de nuestra base inicial, formaremos 5 grupos representativos de estas
mezclas de asfalto. para trabajar con conglomerados usaremos la distancia de mahalanobis para determinar
la distancia entre la matriz S y el vector de medias de nuestras variables

Aplicación en R
2 MÉTODOS MULTIVARIANTES 39
2 MÉTODOS MULTIVARIANTES 40

Aplicación en SAS

2.8. Análisis Factorial

Utilizando la misma base con la que hemos trabajado en las secciones anteriores con las variables:modulo,porc
de vacios, porcentaje de asfalto, volumen de asfalto y GB. Obtendremos los factores con los cuales queremos
trabajar,dando que nuestras variables son 4 se pueden obtener 2 factores.
2 MÉTODOS MULTIVARIANTES 41

Aplicación en R

Conclusión:
Se aprecia que el factor 1 acumula una proporcion de varianza de 0.436 y el factor 2 de 0.242. el factor
1 esta altamente relaciones con el volumen de asfalto y el porcentaje de vacios, mientras que el factor 2
2 MÉTODOS MULTIVARIANTES 42

igualmente relacionado con el procentaje de asfalto, e inversamente relacionado con el volumen de asfalto.

2.9. Análisis de Correspondencia

Para el análisis de correspondencia vamos a determinar asociaciones entre las zonas de clasificacion del
modulo,las cuales son: baja,media y alta, según los niveles de vacios de las respectivas muestras.

Aplicación en R
2 MÉTODOS MULTIVARIANTES 43

Conclusión:
Se puede apreciar mediante el gráfico que las Zonas que tienen un nivel Medio tienen relación con el
menor nivel de porcentajes de vacios en las mezcla, tambien que las que la clasificacion Alta tienen el
segundo nivel de procentajes de vacios, que la clasificacion baja de los modulos tiene relacion con el tercer
nivel de vacios de las mezclas y con el cuarto, pudiendo concluir que a menor cantidad de procentajes de
vacios, mayor sera el valor del modulo resiliente .
2 MÉTODOS MULTIVARIANTES 44
2 MÉTODOS MULTIVARIANTES 45
2 MÉTODOS MULTIVARIANTES 46
3 ESTADÍSTICA NO PARAMÉTRICA 47

3. Estadı́stica No Paramétrica
Para este ramo se utilizará una muestra aleatoria compuesta por 22 familias encuestadas sobre el
presupuesto familiar, información reunida por el SERNAC en el año 2012.
3 ESTADÍSTICA NO PARAMÉTRICA 48

La muestra posee las siguientes variables; Sexo jefe de hogar donde 1= Hombre y 0=Mujer , GSE que es
el tipo de clase socioeconomica a la cual pertenece el grupo familiar (C1,C2,C3,D,E), GSE1 si corresponde
a clase alta, media o baja, Padres si es que viven con ambos o solo alguno de los padres,cantidad de hijos
número, Otro pariente si el grupo convive con otro pariente Hombres en el hogarnúmero, Mujeres en
el hogarnúmero, Estado civil situación en el que se encuentra el jefe de hogar (casado, viudo, separado,
conviviente, soltero) nivel educacional del jefe de hogar grado el cual terminó en algún instituto o
universidad y las siguientes variables vivienda, Servicios básicos, Telecomunicaciones, Transporte,
Salud, Educación, Recreación y cultura, Alimentación, Vestuario y calzado, Otros son variables
continuas que se refieren al gasto mensual incurrido en el tipo de servicio.
Además, el nivel de significancia para las pruebas que se realizaran en este capı́tulo será del 5 %, es
decir, consideraremos que para todo valor de probabilidad igual o inferior a 0.05 se rechazará la hipótesis
nula.
3 ESTADÍSTICA NO PARAMÉTRICA 49

3.1. Una muestra

3.2. Prueba de Kolmogorov-Smirnov

Problema

Se desea saber si la edad de la dueña de casa en el grupo familiar que fueron encuestados siguen una
distribución normal.

¿Por qué utilizarla?

Se tiene una variable continua, en este caso son es la edad de la dueña de casa. Por otra parte, se quiere
estudiar el grado de acuerdo entre la distribución de un conjunto de datos con la distribución normal
(especı́fica).

Hipótesis

H0 : Edad proviene de una distribución normal


v/s
H1 : Edad no proviene de una distribución normal

Aplicación en R

Aplicación en SAS

data ks;
input ks2;
CARDS;
44
52
56
49
39
42
3 ESTADÍSTICA NO PARAMÉTRICA 50

33
49
70
43
40
63
48
65
65
57
43
62
41
49
64
46
;
run;

proc univariate data=ks normaltest;


var ks2;
run;

Decisión y Conclusión

Para ambos software no se rechaza la hipótesis nula, es decir, no existe evidencia para dudar sobre que
la edad del dueño de casa provienen de una distribución Normal.
3 ESTADÍSTICA NO PARAMÉTRICA 51

3.3. Prueba Binomial

Problema

Se desea saber si la proporción de hombres como jefe de hogar en el grupo familiar es igual a la
proporción de mujeres teniendo la misma condición, siendo la variable ’Sexo jefe hogar’ dicotómica.

Hipótesis

H0 : proporción es igual a 0.5


v/s
H1 : proporción es distinta a 0.5

Aplicación en R

Aplicación en SAS

proc freq data=nopara;


tables SEXO JEFE HOGAR / binomial;
exact binomial;
title ’Prueba binomial’;
run;
3 ESTADÍSTICA NO PARAMÉTRICA 52

Decisión y Conclusión

Como el p-valor en ambos casos es 0.8318 y este es mayor al 5 % de significancia, entonces no se rechaza
la hipótesis nula, es decir, no existe evidencia para dudar sobre que la proporción de hombres como jefe de
hogar sea igual a la proporción de mujeres.

3.4. Prueba de Rachas

Problema

Se desea saber si las respuestas relacionadas a que el dueño de casa es hombre o mujer fueron seleccio-
nadas de forma aleatoria.

¿Por qué utilizarla?

La prueba de rachas permite determinar si una muestra de observaciones es o no aleatorizada, es decir,


si las observaciones son independientes entre sı́. Paralelamente, se requiere de una variable dicotómica o
dicotomizada, es por esto que se escogió la variable ”sexo jefe hogar”, ya que es dicotómica.

Hipótesis

H0 : Muestra es aleatoria v/s H1 : Muestra no es aleatoria

Aplicación en R

library(tseries)
runs.test(as.factor(datos$‘SEXO JEFE HOGAR‘))
3 ESTADÍSTICA NO PARAMÉTRICA 53

Aplicación en SAS

Decisión y Conclusión

No se rechaza la hipótesis nula, es decir, las respuestas de que si el genero del jefe de hogar en la
encuesta fueron obtenidas de manera aleatoria.

3.5. Dos muestras relacionadas

3.6. Prueba del Signo

Problema

Se desea saber si los sueldos del grupo familiar varian de acuerdos a los distintos años, en este caso los
años 2015 y 2016, analizando la mediana de los pares de grupos.

¿Por qué utilizarla?

Para poder saber si el sueldo2015 y sueldo2016 provienen de la misma población, se debe contrastar la
igualdad de las medianas de ambas variables continuas y que se encuentran en escala ordinal.

Hipótesis

H0 : sueldo2015 y sueldo2016 provienen de la misma distribución


v/s
H1 : sueldo2015 y sueldo2016 no provienen de la misma distribución

Aplicación en R

SIGN.test(sueldo15,sueldo16)
3 ESTADÍSTICA NO PARAMÉTRICA 54

Aplicación en SAS

data nueva;
set sig;
diff= sueldo15-sueldo16;
run;

proc univariate data=nueva;


var diff;

Decisión y Conclusión

No se rechaza H0 , por lo tanto, con un 95 % de confianza no existe evidencia suficiente para dudar de
que los sueldos obtenidos durante los años 2015 y 2016 provienen de la misma población.

3.7. Prueba de Mcnemar

Problema

Se les preguntó a los sujetos si votarı́an, teniendo 2 opciones de candidato (A y B).Luego al transcurso
de un año se les pregunto lo mismo y durante el transcurso del año hubo propaganda electoral.

¿Por qué utilizarla?

Se quiere estudiar la significación de los años luego de transcurridos la propaganda electoral.


3 ESTADÍSTICA NO PARAMÉTRICA 55

Hipótesis

H0 : El año de propaganda no producen cambios significativos en la decision al momento de votar


v/s
H1 : El año de propaganda si producen cambios significativos en la decision al momento de votar

Aplicación en R

Aplicación en SAS

Decisión y Conclusión

En ambos programas no se rechaza H0 , por lo tanto el año de propaganda no producen cambios signi-
ficativos sobre la respuesta a la elección del presidente.
3 ESTADÍSTICA NO PARAMÉTRICA 56

3.8. Prueba de Wilcoxon

Problema

Se desea saber si los promedios de los sueldos del año 2015 y 2016 para un mismo grupo familiar poseen
la misma distribución.

¿Por qué utilizarla?

Otra forma de saber si dos variables continuas provienen de la misma población, es utilizando la Prueba
de rangos de wilcoxon, donde a diferencia de la prueba de los signos, se toma en consideración la magnitud
de la diferencia aparte del signo.

Hipótesis

H0 : sueldo2015 y sueldo2016 provienen de la misma distribución


v/s
H1 : sueldo2015 y sueldo2016 no provienen de la misma distribución

Aplicación en R

Aplicación en SAS
3 ESTADÍSTICA NO PARAMÉTRICA 57

Decisión y Conclusión

En ambos programas no se rechaza H0 , por lo tanto, los sueldos obtenidos por el grupo familiar durante
los años 2015 y 2016 provienen de la misma población.
3 ESTADÍSTICA NO PARAMÉTRICA 58

3.9. Dos muestras Independientes

3.10. Prueba de Mann-Whitney

Problema

Se quiere saber si los sueldos de un grupo familiar el año 2016 cuando el jefe de hogar es hombre es
igual a cuando el jefe de hogar es mujer.

¿Por qué utilizarla?

Se tienen dos muestras independientes que corresponden a los sueldos del año 2016 obtenidos por
hombres y mujeres respectivamente.

Hipótesis

H0 : No existen diferencias entre las poblaciones de las que provienen las muestras
v/s
H1 : Existen diferencias entre las poblaciones de las que provienen las muestras

Aplicación en R

Aplicación en SAS
3 ESTADÍSTICA NO PARAMÉTRICA 59

Decisión y Conclusión

En ambos programas no se rechaza H0 , por lo tanto como no existen diferencias entre las poblaciones,
ambos grupos provienen de la misma población.

3.11. Prueba de Chi cuadrado

Problema

Se quiere saber si el estado civil del integrante jefe de hogar depende del sexo de este individuo.

¿Por qué utilizarla?

En esta oportunidad, utilizamos un test de independencia entre variables categóricas.

Hipótesis

H0 : Variables son independientes v/s H1 : Variables no son independientes

Aplicación en R
3 ESTADÍSTICA NO PARAMÉTRICA 60

Aplicación en SAS

Decisión y Conclusión

No se rechaza H0 , es decir, el estado civil no depende del sexo del jefe de hogar.
3 ESTADÍSTICA NO PARAMÉTRICA 61

3.12. Tres o más muestras relacionadas

3.13. Prueba de Friedman

Problema

Se desea saber si los sueldos para un grupo familiar durante los años 2015, 2016 y 2017 provienen de
la misma distribución.

¿Por qué utilizarla?

Se tienen 3 muestras de sueldos medidas a los mismos grupos familiares durante los años 2015, 2016 y
2017 respectivamente, medidas en escala ordinal.

Hipótesis

H0 : Los sueldos se comportan de manera similar durante los distintos años


v/s
H1 : Las 3 muestras vienen de poblaciones distintas.

Aplicación en R

Aplicación en SAS

Decisión y Conclusión

Se puede apreciar que los dos programas nos arroja p-valor muy superior a 0.05, esto nos dice que se
mantiene H0 , es decir, los sueldos pertenecientes a los diferentes grupos familiares durante los 3 distintos
años no presenta diferencias significativas, por lo tanto provienen de la misma distribución.
3 ESTADÍSTICA NO PARAMÉTRICA 62

3.14. Tres o más muestras independientes

3.15. Prueba de Kruskal-Wallis

Problema

Se definen los distintos grupos clasificados por cantidad de hijos en el grupo familiar , donde 1 hijo es
una muestra y asi desde 0 hijos hasta 4. Se desea saber si los sueldos en el año 2017 en los distintos grupos
se comportan de igual manera.

¿Por qué utilizarla?

Se tienen 5 muestras independientes medidas en escala ordinal (sueldos).

Hipótesis

H0 : Las 5 distribuciones son idénticas v/s H1 : Las 5 distribuciones son distintas.

Aplicación en R

Aplicación en SAS

Decisión y Conclusión

Se puede apreciar que el p-valor es similar en los dos programas y superior a 0.05, se mantiene H0 ,
es decir, los 5 grupos por cantidad de hijos se comportan de igual manera en relación al sueldo del año 2017.
3 ESTADÍSTICA NO PARAMÉTRICA 63
3 ESTADÍSTICA NO PARAMÉTRICA 64
3 ESTADÍSTICA NO PARAMÉTRICA 65
3 ESTADÍSTICA NO PARAMÉTRICA 66
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 67

4. DISEÑO Y ANÁLISIS DE EXPERIMENTOS


A continuación abordaremos situaciones ocupando R y SAS.

4.1. Diseño con un factor

Se estudian cuatro diferentes tipos de diseños de un circuitos digital de computadora para comprobar
la cantidad de ruido presente. De lo que se obtuvieron los siguientes datos

Ruido observado
Tipo circuito 1 2 3 4
1 19 20 19 30
2 80 61 73 56
3 47 26 25 35
4 95 46 83 78

4.2. Factor fijo

Los niveles de estudio del factor fueron escogidos por el experimentador, y por lo tanto, no son aleatorios.
Modelo Estadistico
yij = µ + τi + ij
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 68

Con:
µ : media general.
τi : efecto del tipo de diseño i.
ij : componente aleatorio.

Aplicación en R

Para estudiar el problema planteado hacemos lo siguiente:


> mod<−aov ( r u i d o ˜ factor ( d i s ) )
> summary(mod)
Df Sum Sq Mean Sq F v a l u e Pr(>F)
factor ( d i s ) 3 8081 2693.7 1 5 . 6 0 . 0 0 0 1 9 3 ∗∗∗
Residuals 12 2073 172.7
−−−
S i g n i f . codes : 0 ∗∗∗ 0 . 0 0 1 ∗∗ 0 . 0 1 ∗ 0 . 0 5 . 0 . 1 1

Aplicación en SAS

p r o c anova data=mod ;
class dis ;
model r u i d o=d i s ;
run ;

Lo que se esta viendo es que si existe algún o algunos diseños en los que el ruido, que emite las
computadoras son diferentes entre si. Como hay evidencia para rechazar la hipótesis nula, se puede decir
que hay un diseño al menos diferente al resto.
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 69

4.3. Factor aleatorio

Se analizara el ejemplo anterior, diciendo que en este caso el factor diseño es aleatorio. Por lo que ahora
se quiere ver es si la varianza de este factor es cero o no.

Aplicación en R

> mod1<−aov ( r u i d o ˜ E r r o r ( factor ( d i s ) ) )


> summary( mod1 )

E r r o r : factor ( d i s )
Df Sum Sq Mean Sq F v a l u e Pr(>F)
Residuals 3 8081 2694

E r r o r : Within
Df Sum Sq Mean Sq F v a l u e Pr(>F)
R e s i d u a l s 12 2073 172.7

Aplicación en SAS

p r o c mixed data=mod method=type1 ;


class dis ;
model r u i d o =;
random d i s ;
run ;

Se puede ver que tenemos un p-valor menor a 0.05, por lo tanto hay evidencia para rechazar la hipótesis
nula. Se puede concluir que existe variabilidad entre los distintos tipos de diseño de circuitos.

4.4. Diseño de bloques completos aleatorizados

Además del factor a estudiar muchas veces es necesario incluir una fuente de variabilidad que podrı́a
afectar los resultados del experimento, a esta fuente de variabilidad se le llama factor Bloque. Es decir,
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 70

un bloque es un factor que no es de interés para el investigador pero aún ası́ se ingresa al modelo para
evitar malas conclusiones por la falta de este. El bloque se trabaja de forma completamente aleatorizada,
es decir, de forma que no exista intersección con el factor principal y sus niveles queden aleatoriamente
distribuidos dentro de los niveles del bloque.

Para este caso se quiere comparar tres soluciones de lavado diferentes a fin de estudiar su efectividad
para retardar el crecimiento de bacterias en contenedores de leche. El análisis se hace en un laboratorio y
sólo pueden realizarse tres ensayos en un dı́a. Puesto que los dı́as podrı́an representar una fuente potencial
de variabilidad. Se decide usar diseño de bloques aleatorizados. Los datos obtenidos se tienen en la siguiente
tabla:

Dı́as
Solución 1 2 3 4
1 13 22 18 19
2 16 24 17 44
3 16 25 20 55

El modelo estadı́stico para este diseño es el siguiente:

yijk = µ + αi + βj + ij (3)

Con:
µ : media general.
αi : efecto de las soluciones i.
βj : efecto del nivel del bloque j (dia).
ij : componente aleatorio.

Aplicación en R

> mod3<−aov ( r e t ˜ factor ( s o l )+ E r r o r ( factor ( d i a ) ) )


> summary( mod3 )
Df Sum Sq Mean Sq F v a l u e Pr(>F)
factor ( s o l ) 2 250.2 125.1 1.683 0.2628
Residuals 6 445.8 74.3
−−−
S i g n i f . codes : 0 ∗∗∗ 0 . 0 0 1 ∗∗ 0 . 0 1 ∗ 0 . 0 5 . 0 . 1 1
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 71

Aplicación en SAS

p r o c glm data=mod1 ;
c l a s s dia s o l ;
random d i a ;
model r e t=d i a s o l ;
run ;

Como es un análisis por bloques, el factor bloque (dı́a) no es de interés para el experimento, como si lo
es el factor solución el cual vemos que tiene un p-valor mayor a 0.05, por lo tanto no hay evidencia para
rechazar la hipótesis nula, por lo que podemos concluir que las diferentes soluciones no afectan a nuestra
variable respuesta, la cual es retardo para el crecimiento de bacterias en contenedores de leche.

4.5. Diseño de cuadrado latino

Para el experimento se quiere estudiar los efectos que tienen cuatro formulaciones diferentes de la carga
propulsora utilizada en los sistemas de expulsión de la tripulación de un avión basado en la rapidez de
combustión, cada formulación es preparada por varios operadores.
Quedando ası́ un modelo de cuadrado latino 4x4. Dado que se especifican los diferentes niveles a
trabajar, por ende los tres factores son de efecto fijo. Cabe destacar que para muestras reales este diseño es
complejo de realizar ya que se necesita al menos una unidad de observación para cada cruce entre niveles.
Para confeccionar la base a utilizar en el experimento, se toma en cuenta la información anterior.
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 72

Lote materia Operarios


prima 1 2 3 4
1 A=24 B=20 C=19 D=24
2 B=17 C=24 D=30 A=27
3 C=18 D=38 B=26 A=27
4 D=26 C=31 A=26 B=23

El modelo estadı́stico para este diseño es el siguiente:

yijk = µ + αi + τj + βk + ijk (4)

Con:
µ : media general.
αi : efecto de la fila i (Lote).
τj : efecto del método de formulación j.(A,B,C,D)
βk : efecto de la columna k (Operarios).
ijk : componente aleatorio.

Aplicación en R

m o d e l o l a t i n o=aov ( r a p i d e z ˜ E r r o r ( factor ( Lote ))+ E r r o r ( factor ( O p e r a r i o s ))+ factor ( f o r m u l a c i o n e s ) )


summary( m o d e l o l a t i n o )

> summary( m o d e l o l a t i n o )
Df Sum Sq Mean Sq F v a l u e Pr(>F)
factor ( f o r m u l a c i o n e s ) 3 186.0 62.00 5.767 0.0335 ∗
Residuals 6 64.5 10.75
−−−
s i g n i f . codes : 0 ?∗∗∗? 0 . 0 0 1 ?∗∗? 0 . 0 1 ?∗? 0 . 0 5 ? . ? 0 . 1 ? ? 1

Se logra ver que en el experimento, los tipos de formulaciones determinan la rapidez de combustión en
un avión, es decir, que algún tipo de formulación difiere del resto.

Aplicación en SAS

p r o c glm data=l a t i n o ;
class lote operarios formulaciones ;
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 73

random l o t e o p e r a r i o s ;
model r a p i d e z= l o t e o p e r a r i o s f o r m u l a c i o n e s ;
run ;

Notar que e factor de interés son las formulaciones, ya que lote y operarios son factores de bloques.
Como se tiene un p-valor menor a 0,05, hay evidencia para rechazar la hipótesis nula, por lo que se puede
decir que las hay al menos una formulación diferente al resto.

4.6. Diseño de cuadrados grecolatinos

Un ingeniero industrial estudia el tiempo de ensamblaje de un componente de televisor a color, me-


diante cuatro métodos de ensamblaje(A,B,C y D) y se seleccionan cuatro operadores para el estudio. El
experimentador sospecha que los sitios de trabajo usados por los operadores pueden representar una fuente
de variación, agregando un cuarto factor, sitio de trabajo (α, β, γ, δ) .
Se utilizó el cuadrado grecolatino siguiente:

Operador
Orden ensamblaje 1 2 3 4
1 Cβ = 11 Bγ=10 Dδ=14 Aα=8
2 Bα=8 Cδ=12 Aγ=10 Dβ=12
3 Aδ=9 Dα=11 Bβ=7 Cγ=15
4 Dγ=9 Aβ=8 Cα=18 Bδ=6

El modelo estadı́stico para este diseño es el siguiente:

yijk = µ + αi + βj + γk + δl + ijkl (5)


4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 74

Con:
µ : media general.
αi : efecto de la fila i (Orden ensamblaje).
βj efecto del método de ensamblaje j.(letras latinas)
γk : efecto del sitio de trabajo k.(letras griegas)
δl : efecto de la columna l (Operador).
ijk : componente aleatorio.

Aplicación en R

modelog=aov ( tiempo˜ E r r o r ( factor ( Ensamblaje ))+ E r r o r ( factor ( Operador ))+ factor ( MetodoE)+ factor ( s i
, grecolatino )
summary( modelog )

> summary( modelog )


Df Sum Sq Mean Sq F v a l u e Pr(>F)
factor ( MetodoE ) 3 95.5 31.83 3.473 0.167
factor ( s i t i o T r a b a j o ) 3 7.5 2.50 0.273 0.843
Residuals 3 27.5 9.17

Aplicación en SAS

p r o c glm data=g r e c o ;
c l a s s e n s a m b l a j e o p e r a d o r metodoE s i t i o t r a b a j o ;
random e n s a m b l a j e o p e r a d o r ;
model tiempo= e n s a m b l a j e o p e r a d o r metodoE s i t i o T r a b a j o ;
run ;
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 75

Se observa, en ambos software, que de los factores de interés que son el método de ensamblaje y efecto
del sitio de trabajo, su p-valor es mayor que 0,05, por lo que no hay evidencia para rechazar la hipótesis
nulas. Se puede decir que estos factores no afectan al modelo.

4.7. Diseños factoriales

Existen distintos tipos de modelos que se desprenden del modelo de un Factor . En general los diseños
factoriales son los más eficientes para el estudio de dos o mas factores de interés. Por diseño factorial se
entiende que en cada ensayo o réplica completa del experimento se investigan todas las combinaciones
posibles de los niveles de los factores.
Es importante también aclarar el concepto de interacción: Dos factores se dice que interactúan si el com-
portamiento de un factor depende del nivel particular del otro factor.

A continuación se mostraran una serie de diseños distintos con su aplicación y parámetros.

4.8. Diseño de dos factores de efecto fijo

Se realiza un experimento para estudiar la producción de huevos en la especie Siphonaria Diemenensis,


analizando la influencia que tienen los factores ’season’ y ’density’ , que corresponde a la estación del año
y la densidad respectivamente, donde se fijo por el mismo experimentador los cuatro niveles del factor de
densidad utilizados y las dos estaciones verano y primavera.

Presión
Estación 8 15 30 45
primavera 2,875 2,6 2,23 1,4
primavera 2,625 1,1866 1,466 1,022
primavera 1,75 0,867 1 1,177
verano 2,125 0,867 1,267 0,711
verano 1,5 0,933 0,467 0,356
verano 1,875 1,733 0,7 0,711

El modelo estadı́stico para este diseño es el siguiente:

yijk = µ + τi + βj + (τ β)ij + ij (6)


4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 76

Con:
µ : media general.
τi : efecto del nivel i de la densidad
βj : efecto de la temporada j (spring, summer)
(τ β)ij : efecto de la interacción entre τi y βj
ij : componente aleatorio.

Para modelar la base e indicarle al software que la variable ’density’ es un factor y no del tipo numérico
hacemos lo siguiente :
density=factor ( d o s f a c t o r e s $density )

Aplicación en R

mod2fact=aov ( e g g s ˜ s e a s o n ∗density )

> summary( mod2fact )


Df Sum Sq Mean Sq F v a l u e Pr(>F)
season 1 3.250 3.250 1 7 . 8 4 2 0 . 0 0 0 6 4 5 ∗∗∗
density 3 5.284 1.761 9 . 6 6 9 0 . 0 0 0 7 0 4 ∗∗∗
s e a s o n : density 3 0.165 0.055 0.301 0.823955
Residuals 16 2.915 0.182
−−−
S i g n i f . codes : 0 ?∗∗∗? 0 . 0 0 1 ?∗∗? 0 . 0 1 ?∗? 0 . 0 5 ? . ? 0 . 1 ? ? 1

Se obtienen resultados significativos para los factores ’density’ y ’season’, es decir, que alguno de los niveles
de densidad es distinto a los otros, y para las estaciones del año, las dos son diferentes entre si y que van
a afectar a la producción de huevos. Se puede mencionar que la interacción entre ambos factores no es
significativo, quiere decir que no hay interacción.

Aplicación en SAS

p r o c anova data=d o s f a c t o r e s ;
c l a s s density season ;
model e g g s= d e n s i t y s e a s o n d e n s i t y ∗ s e a s o n ;
run ;
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 77

Se puede ver, que al igual que en el programa anterior, los factores ’density ’ y ’season’ por si solos
son significativos para la producción de huevos.Los niveles de densidad alguno es distinto de otro y pasa
lo mismo con las diferentes temporadas.Ademas mencionar que los factores explican de forma correcta a
nuestra variable respuesta, ya que tiene un 74 % de variabilidad explicada por los datos.
Podemos observar el gráfico de interacción de estos factores:
interaction . plot ( density , s e a s o n , e g g s )

Se puede ver que no existe una interacción entre entre los niveles de densidad y la temporada para la
producción de huevos,ya que estos factores no se cruzan.

4.9. Diseño anidado

Se desea analizar el cambio de PH bajo material encalante a 3 distintas profundidades (25cm, 50 cm y


75cm) en cuatro cantones de las provincias de Ecuador. En estas provincias se seleccionaron sitios donde se
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 78

trabajo un material encalante el cual es el carbonato de calcio.Donde se medirá el efecto del encalamiento
en las diferentes profundidades. Los datos se muestran a continuación:

Localidad 1 Localidad 2 Localidad 3 Localidad 4


Profundidad 1 2 3 1 2 3 1 2 3 1 2 3
6.5 5.8 5.5 4.3 3.9 4.6 3.8 3.5 3.0 6.5 6.1 5.9
4.4 4.0 3.9 3.1 3.0 3.8 5.3 6.1 4.1 3.9 5.1 3.3

El modelo estadı́stico para este diseño es el siguiente:

B(A)
yijk = µ + αiA + αij + ijk (7)

Con:
µ : media general.
αiA : efecto del nivel i de la Localidad (1,2,3 y 4).
B(A)
αij : efecto de la profundidad del material j anidado en i tipo de Localidad
ijk : componente aleatorio.

Aplicación en R

modeloA=aov (PH˜ factor ( L o c a l i d a d )+ factor ( L o c a l i d a d ) / factor ( Profundidad ) , anidado )


anova ( modeloA )

> anova ( modeloA )


A n a l y s i s o f V a r i a n c e Table

Response : PH
Df Sum Sq Mean Sq F v a l u e Pr(>F)
factor ( L o c a l i d a d ) 3 7.2483 2.41611 1.5324 0.2567
factor ( L o c a l i d a d ) : factor ( Profundidad ) 8 3.9500 0.49375 0.3132 0.9461
Residuals 12 1 8 . 9 2 0 0 1 . 5 7 6 6 7

Aplicación en SAS

p r o c glm data=anidado ;
c l a s s l o c a l i d a d profundidad ;
model ph= l o c a l i d a d p r o f u n d i d a d ( l o c a l i d a d ) ;
run ;
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 79

Se observa que con un 5 % de significancia, que el tipo de profundidad anidado a la localidad no produce
algún efecto en el cambio de Ph en el material encalante, información entregada por ambas salidas.

4.10. Diseño de parcelas divididas

Se desea analizar la duración del largo de vida de componentes electrónicos al variar la temperatura
y el tiempo de horneado. Donde se decide hacer 3 réplicas, analizando 4 niveles de temperatura(580, 600,
620 y 640) y 3 niveles de tiempo de horneado (5, 10, y 15).

Temperatura
Dı́a Tiempo
1 2 3 4
5 217 158 229 223
1 10 233 138 186 227
15 175 152 155 156
5 188 126 160 201
2 10 201 130 170 181
15 195 147 161 172
5 162 122 167 182
3 10 170 185 181 201
15 213 180 182 199

El modelo estadı́stico para este diseño con dos factores, completamente al azar y un factor que actúa
como bloque:
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 80

yijk = µ + τi + βj + (τ β)ij + γk + (τ γ)ik + (βγ)jk + (τ βγ)ijk + ijk (8)

Con:
yijk : Observación en el i-ésimo bloque de la j-ésima parcela completa y la k-ésima subparcela.
Parcela:
µ : media general.
τi : efecto del bloque (dı́a) i.
βj : efecto del tratamiento principal j. (Temperatura)
(τ β)ij : error de la parcela completa (dı́a × Temperatura).
Subparcela:
γk : efecto del tratamiento subparcela j. (tiempos de horneado)
(τ γ)ik : efecto de interacción entre la dı́a i y el nivel k del factor tiempos de horneado.
(βγ)jk : efecto de interacción entre el nivel j de la temperatura y el nivel k de tiempos de horneado.
(τ βγ)ijk : error de la subparcela.

ijk : componente aleatorio.

Aplicación en R

> f d i a<−factor ( d i a )
> ftemp<−factor ( temp )
> f t i e m p o s<−factor ( t i e m p o s )
> modp<−aov ( d u r a c i o n ˜ftemp+f t i e m p o s+ftemp∗ftemp+E r r o r ( f d i a )+
+ ftemp∗ E r r o r ( f d i a )+ f t i e m p o s ∗ E r r o r ( f d i a )+
+ ftemp∗ f t i e m p o s ∗ E r r o r ( f d i a ) )
> summary(modp)

Error : f d i a
Df Sum Sq Mean Sq
fdia 2 1963 981.4

E r r o r : Within
Df Sum Sq Mean Sq F v a l u e Pr(>F)
ftemp 3 12494 4165 7 . 3 1 0 0 . 0 0 1 4 1 ∗∗
ftiempos 2 566 283 0.497 0.61506
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 81

ftemp : f t i e m p o s 6 1774 296 0.519 0.61766


Residuals 22 12534 570
−−−
S i g n i f . codes : 0 ∗∗∗ 0 . 0 0 1 ∗∗ 0 . 0 1 ∗ 0 . 0 5 . 0 . 1 1

Aplicación en SAS

p r o c mixed data=modp method=type3 ;


c l a s s temp d i a tiempo ;
model d u r a c i o n = temp tiempo temp∗tiempo d i a temp∗ d i a tiempo∗ d i a temp∗tiempo∗ d i a ;
random d i a temp∗ d i a tiempo∗ d i a temp∗tiempo∗ d i a
run ;

Como vemos en r y SAS, que el p-valor del factor de la temperatura en menor a 0,05 hay evidencia para
rechazar la hipótesis nulas. Es decir que se puede concluir que el factor temperatura afecta a la duración
de vida del componente electrónico.
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 82
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 83
5 SERIES CRONOLÓGICAS 84

5. SERIES CRONOLÓGICAS
En este capitulo se trabaja con la serie de tiempo de la tasa de desocupación mensual de Chile (mediada
en porcentaje), los datos están tomados de manera mensual, desde el mes de febrero del año 2010 hasta
agosto del año 2017.

5.1. Análisis de la serie de tiempo

5.1.1. Aplicación en R

Lo primero que se debe hacer para poder trabajar con series de tiempo en R, es cargar las librerı́as
”TSA”,y ”tseries”
s t<−t s ( s e r i e [ , 3 ] , frequency = 1 2 , s t a r t = c ( 2 0 1 0 , 2 ) , end=c ( 2 0 1 7 , 8 ) )

Donde la tercera columna de los datos de serie, es la tasa de desocupación. frequency indica que la frecuencia
de la series es 12, es decir que los datos de la serie son mensuales.

5.1.2. Gráfico de la serie

Lo primero que se vera sera el gráfico de la serie, el cual nos sirve para darnos una idea de como se
comportan sus componentes.
ts . plot ( s t )
5 SERIES CRONOLÓGICAS 85

Se puede ver que la serie tiene cierta tendencia, como también que hay meses en los cuales se alcanza
máximos y mı́nimos durante los años lo que nos indica que la serie tiene una componente estacional, como
también se puede ver que la serie no se mantiene constante, lo que indica que su media varia respecto al
tiempo por lo que es una serie no estacionaria.
Para poder concluir de mejor manera las componentes de la serie y como se comporta esta se harán
diferentes test.

5.1.3. Test de Estacionaridad

Gráficamente se puede decir que la serie no es estacionaria, pero para poder concluir bien esto es
necesario realizar un test que nos ayudara a concluir si esto es verdad o no. Para esto está el test de Dickey
Fuller. Donde la dócima a realizar es:

Ho : La serie no es estacionaria v/s H1 : La serie es estacionaria

adf . t e s t ( st )

Augmented Dickey−F u l l e r Test

data : st
Dickey−F u l l e r = −2.4673 , Lag order = 4 , p−v a l u e = 0 . 3 8 3 7
alternative hypothesis : stationary

Como el p − valor > 0,05 No hay evidencia para rechazar H0 , por lo tanto podemos concluir que la
series no es estacionaria

5.1.4. descomposición de la serie

Se vera un gráfico de la serie descompuesta


5 SERIES CRONOLÓGICAS 86

plot ( decompose ( s t ) )

5.1.5. Test para estacionalidad

A pesar del gráfico es necesario realizar un test para corroborar si la serie presenta la componente
estacional. Para este test se tiene la siguiente dócima:

Ho : La serie no tiene componente estacional v/s H1 : La serie tiene componente estacional

SeasonalMannKendall ( s t )

tau = −0.269 , 2− s i d e d p v a l u e =0.0018804

Como p − valor < 0,05 hay evidencia para rechazar H0 , por lo que se concluye que la serie tiene una
componente estacional.

5.1.6. Test para tendencia

A pesar de que gráficamente se ve una tendencia, se debe realizar un test el cual tiene la siguiente
dócima:

Ho : La serie no presenta tendencia v/s H1 : La serie presenta tendencia

MannKendall ( s t )

tau = −0.266 , 2− s i d e d p v a l u e =0.00018638

Como p−valor < 0,05 hay evidencia para rechazar H0 , por lo tanto se concluye que existe una componente
de tendencia en la serie.
5 SERIES CRONOLÓGICAS 87

5.1.7. Aplicación en SAS

Para trabajar la base utilizada como una serie de tiempo se debe hacer lo siguiente:
p r o c t i m e s e r i e s data=d a t o s out=t a s a ;
i d f e c h a i n t e r v a l=month
s t a r t= ’ f e b 1 0 ’ d
end= ’ aug17 ’ d ;
var pdd ;
run ;

5.1.8. Gráfico de la serie

Para obtener el gráfico de la serie se hace el siguiente procedimiento en SAS


p r o c g p l o t data=t a s a ;
p l o t tdd∗ d a t e ;
symbol1 i n t e r p o l=j o i n ;
run ;

Se puede ver que tiene una tendencia, que tiene una estacionalidad y que no es una serie estacionaria.
5 SERIES CRONOLÓGICAS 88

5.2. Técnicas de alisado

Como la serie que se está estudiando tiene tendencia y estacionalidad, el mejor método de alisado en
este caso es Holt-Winters. Se vera para los caso aditivos y multiplicativos.

5.2.1. Aplicación en R, caso aditivo

HWA<−H o l t W i n t e r s ( s t , s e a s o n a l = ” a d d i t i v e ” )

Para obtener el gráfico con las predicciones de las 6 observaciones siguiente se debe hacer:
plot (HWA, lwd =2, main=” s u a v i z a d o v/ s s e r i e ” )
pred<−predict (HWA, 6 , p r e d i c t i o n . i n t e r v a l = T)
plot (HWA, pred , lwd=2)

El gráfico obtenido es:

Para obtener el valor de los parámetros y las predicciones se debe hacer:


HWA$ a l p h a
HWA$beta
HWA$gamma
pred

De lo que se obtuvo lo siguiente:


> HWA$ a l p h a
alpha
0.8306919
> HWA$beta
5 SERIES CRONOLÓGICAS 89

beta
0
> HWA$gamma
gamma
1
> pred
fit upr lwr
Sep 2017 6 . 5 9 7 0 1 0 7 . 2 7 7 5 7 0 5 . 9 1 6 4 5 0
Oct 2017 6 . 2 6 0 4 3 8 7 . 1 4 5 1 7 8 5 . 3 7 5 6 9 7
Nov 2017 6 . 1 3 6 8 5 3 7 . 1 8 6 7 9 1 5 . 0 8 6 9 1 5
Dec 2017 6 . 3 0 7 6 3 3 7 . 5 0 0 0 9 9 5 . 1 1 5 1 6 8
Jan 2018 6 . 3 7 7 2 8 8 7 . 6 9 6 9 7 7 5 . 0 5 7 5 9 9
Feb 2018 6 . 4 7 1 4 2 6 7 . 9 0 7 1 0 8 5 . 0 3 5 7 4 4

5.2.2. Aplicación en SAS, caso aditivo

Para obtener el gráfico del alisado y los valores de los parámetros se debe hacer lo siguiente:
p r o c esm data=t a s a out= n u l l
p r i n t=e s t i m a t e s
p l o t=m o d e l f o r e c a s t s ;
i d d a t e i n t e r v a l=month ;
f o r e c a s t tdd / model=a d d t w i n t e r s ;
run ;

Los valores de los parámetros y el gráfico son


5 SERIES CRONOLÓGICAS 90

Para tener los valores de la predicción se debe hacer


proc f o r e c a s t
data=t a s a out=predA o u t a l l method=a d d w i n t e r s s e a s o n s=month l e a d =6;
id date ;
var tdd ;
run ;

De lo que se obtiene
5 SERIES CRONOLÓGICAS 91

5.2.3. Aplicación en R, caso multiplicativo

HWM<−H o l t W i n t e r s ( s t , s e a s o n a l = ” m u l t i p l i c a t i v e ” )

Para obtener el gráfico con las predicciones de las 6 observaciones siguiente se debe hacer:
plot (HWM, lwd =2, main=” s u a v i z a d o v/ s s e r i e ” )
pred<−predict (HWM, 6 , p r e d i c t i o n . i n t e r v a l = T)
plot (HWM, pred , lwd=2)

El gráfico obtenido es:

Para obtener el valor de los parámetros y las predicciones se debe hacer:


HWM$ a l p h a
HWM$beta
HWM$gamma
pred

De lo que se obtuvo lo siguiente:


> HWM$ a l p h a
alpha
0.8766436
> HWM$beta
beta
0
> HWM$gamma
gamma
1
> pred
5 SERIES CRONOLÓGICAS 92

fit upr lwr


Sep 2017 6 . 5 8 1 4 5 4 7 . 2 5 8 4 1 2 5 . 9 0 4 4 9 6
Oct 2017 6 . 2 2 8 8 5 3 7 . 1 1 1 1 1 6 5 . 3 4 6 5 9 1
Nov 2017 6 . 1 6 7 2 9 0 7 . 2 2 8 9 6 2 5 . 1 0 5 6 1 8
Dec 2017 6 . 3 5 7 1 7 6 7 . 6 0 5 9 4 7 5 . 1 0 8 4 0 6
Jan 2018 6 . 3 4 6 6 9 3 7 . 7 3 5 4 6 5 4 . 9 5 7 9 2 2
Feb 2018 6 . 4 0 4 6 7 5 7 . 9 3 5 2 1 5 4 . 8 7 4 1 3 5

5.2.4. Aplicación en SAS, caso multiplicativo

Para obtener el gráfico del alisado y los valores de los parámetros se debe hacer lo siguiente:
p r o c esm data=t a s a out= n u l l
p r i n t=e s t i m a t e s
p l o t=m o d e l f o r e c a s t s ;
i d d a t e i n t e r v a l=month ;
f o r e c a s t tdd / model=m u l t w i n t e r s ;
run ;

Los valores de los parámetros y el gráfico son


5 SERIES CRONOLÓGICAS 93

Para tener los valores de la predicción se debe hacer


proc f o r e c a s t
data=t a s a out=predM o u t a l l method=m u l t w i n t e r s s e a s o n s=month l e a d =6;
id date ;
var tdd ;
run ;

De lo que se obtiene
5 SERIES CRONOLÓGICAS 94

5.2.5. Aplicación en R

Para ver que alisado a usar se puede ver el que tenga menor error cuadrático, esto se puede calcular:
HWA$SSE
HWM$SSE

De lo que se obtuvo
> HWA$SSE #c a s o a d i t i v o
[ 1 ] 9.532983
> HWM$SSE #c a s o m u l t i p l i c a t i v o
[ 1 ] 9.414581

Como el caso multiplicativo tiene menor error cuadrático es el recomendado a usar.

5.3. Ajuste del modelo

5.3.1. Aplicación en R

Para ajustar los modelos en R se usa el comando ARIMA y dependiendo de las componentes del modelo,
se ajusta el orden de este. Del análisis de la serie se vio que esta presenta tendencia y estacionalidad, por
lo que nos dice que para ser modelada se debe ocupar SARIMA.

5.3.2. Metodologı́a Box-jenkis

Sabemos que nuestro modelo es un SARIMA por sus componentes, ahora debemos ver el orden de este.
Se analizara a de los gráficos de auto-correlación y auto-correlación-parcial. La función para ver eso es:
a c f ( s t , l a g .max=50)
p a c f ( s t , l a g .max=50)

De lo que se obtuvo lo siguiente:


5 SERIES CRONOLÓGICAS 95

Podemos notar que la función de auto-correlación (ACF), decrece en forma de caminata aleatorio, por lo
tanto hay que diferencia la serie para eliminar esto. Para diferenciar la serie y ver su función de ACF y
PACF se debe hacer lo siguiente:
s t d 1<−d i f f ( s t )
a c f ( std1 , l a g .max=50)
p a c f ( std1 , l a g .max=50)

de lo que se obtiene lo siguiente


5 SERIES CRONOLÓGICAS 96

Con esto se quito la caminata aleatoria, Se debe proceder a ver si nuestra serie tiene componentes de
tendencia y estacionalidad.
La dócima para la tendencia es la siguiente:

Ho : La serie no presenta tendencia v/s H1 : La serie presenta tendencia

MannKendall ( s t d 1 )

De lo que se obtuvo lo siguiente:


tau = 0 . 0 9 1 1 , 2− s i d e d p v a l u e =0.20457

Por lo que no hay evidencia para rechazar H0 , es decir podemos concluir que la serie no presenta tendencia
La dócima para la estacionalidad es la siguiente:

Ho : La serie no tiene componente estacional v/s H1 : La serie tiene componente estacional

SeasonalMannKendall ( s t d 1 )

tau = 0 . 9 3 , 2− s i d e d p v a l u e =2.22 e −16

Por lo que la serie tiene una componente estacional, se debe diferenciar respecto a la estacionalidad lo cual
se hace con, y se quiere ver su ACF y PACF:
s t d 2<−d i f f ( std1 , l a g =12)
a c f ( std2 , l a g .max=50)
p a c f ( std2 , l a g .max=50)

De lo que se tuvo que los gráficos de ACF y PACF son


5 SERIES CRONOLÓGICAS 97

Se debe ver si la serie diferenciada por estacionalidad tiene dicha componente. La dócima para la estacio-
nalidad es la siguiente:

Ho : La serie no tiene componente estacional v/s H1 : La serie tiene componente estacional

SeasonalMannKendall ( s t d 2 )

tau = −0.102 , 2− s i d e d p v a l u e =0.29206

Como p − valor > 0,05, no hay evidencia para rechazar H0 por lo que se concluye que la serie no tiene
componente estacional.
La dócima para la tendencia es la siguiente:

Ho : La serie no presenta tendencia v/s H1 : La serie presenta tendencia

MannKendall ( s t d 2 )

De lo que se obtuvo lo siguiente:


tau = −0.0756 , 2− s i d e d p v a l u e =0.32952

Por lo que no hay evidencia para rechazar H0 , es decir podemos concluir que la serie no presenta tendencia
También se vera si la serie es estacionaria o no.

Ho : La serie no es estacionaria v/s H1 : La serie es estacionaria

> adf . t e s t ( std2 )


Augmented Dickey−F u l l e r Test

data : std2
Dickey−F u l l e r = −4.0733 , Lag order = 4 , p−v a l u e =
0.01079
alternative hypothesis : stationary
5 SERIES CRONOLÓGICAS 98

Como p − valor < 0,05, hay evidencia para rechazar la hipótesis nula, por lo que la serie diferenciada
por tendencia y estacionalidad, es estacionaria.
El gráfico de la serie queda:

Dado los rezagos de la función de ACF y PACF se proponen los siguientes modelos sarima: (1, 1, 1)x(1, 1, 1)12
(1, 1, 3)x(1, 1, 1)12
(3, 1, 7)x(1, 1, 1)12
El primer modelo se propone ya que tiene menos variables (criterio parsimonioso) Para desarrollar los
modelos se debe hacer:
mod1<−arima ( s t , order=c ( 1 , 1 , 1 ) , s e a s o n a l = l i s t ( order=c ( 1 , 1 , 1 ) , p e r i o d =12))
mod2<−arima ( s t , order=c ( 1 , 1 , 3 ) , s e a s o n a l = l i s t ( order=c ( 1 , 1 , 1 ) , p e r i o d =12))
mod3<−arima ( s t , order=c ( 3 , 1 , 7 ) , s e a s o n a l = l i s t ( order=c ( 1 , 1 , 1 ) , p e r i o d =12))

Se calculara el AIC de los 3 modelos propuestos.


modelo1$ a i c
modelo2$ a i c
modelo3$ a i c

Se obtuvo lo siguiente

Modelo AIC
SARIMA(1, 1, 1)x(1, 1, 1)12 64,33459
SARIMA(1, 1, 3)x(1, 1, 1)12 63,76585
SARIMA(3, 1, 7)x(1, 1, 1)12 62,48262

A pesar de que el primer modelo tenga el AIC más elevado se elegirá este modelo, ya que tiene menos
variables y la diferencia de los AIC no es realmente significativa. Se comprobaran los supuestos de dicho
modelo.
5 SERIES CRONOLÓGICAS 99

5.3.3. Comprobación de supuestos

Normalidad de los residuos

Ho : ε ∼ N ormal v/s H1 : ε  N ormal

> s h a p i r o . t e s t ( mod1$ r e s ) #Normalidad

Shapiro −Wilk n o r m a l i t y t e s t

data : mod1$ r e s
W = 0 . 9 8 1 5 1 , p−v a l u e = 0 . 2 2 3 5

Como no hay evidencia para rechazar H0 , podemos decir que los residuos distribuyen normal.
Los residuos no están autocorrelacionados

Ho : Los residuos no están autocorrelacionados v/s H1 : Los residuos están autocorrelacionados

> Box . t e s t ( mod1$ r e s , type=”Box−P i e r c e ” )

Box−P i e r c e t e s t

data : mod1$ r e s
X−s q u a r e d = 0 . 1 4 2 8 8 , df = 1 , p−v a l u e = 0 . 7 0 5 4

No hay evidencia para rechazar H0 , por lo que podemos decir que nuestros residuos no están autocorrela-
cionados
Homocedasticidad: Para ver la homocedasticidad se vera el gráfico de las varianzas
plot . t s ( r e s i d u a l s ( mod1 ) )

El gráfico obtenido es:

Se puede ver que la varianza se mantiene constante, por lo que se puede decir que los residuos del modelo
son homocedasticos.
5 SERIES CRONOLÓGICAS 100

Se puede apreciar que el modelo 1 cumple con los supuestos y no difiere en mucho en el AIC con los otros
modelos, ademas de que tiene menos variables que estos. Por lo tanto se ocupara para predecir.
Para predecir se ocupa lo siguiente:
p s a r i<−predict ( mod1 , n . ahead = 2 0 )
ts . plot ( s t , col =1, xlim=c ( 2 0 1 0 , 2 0 2 0 ) , add=T)
l i n e s ( p s a r i $pred , lwd =2, col=” r e d ” )

El gráfico de la predicción es el siguiente:

5.3.4. Aplicación en SAS

Lo primero que se debe hacer es analizar el tipo de modelo, esto se hace viendo ACF y PACF. Lo cual
se hace con:
p r o c arima data=t a s a ;
i d e n t i f y var=tdd ;
run ;
5 SERIES CRONOLÓGICAS 101

Podemos ver que ACF decae en forma de caminata aleatoria, lo que nos dice que debemos diferenciar la
serie respecto a la tendencia y a la estacionalidad
p r o c arima data=t a s a ;
i d e n t i f y var=tdd ( 1 , 1 2 ) ;
run ;

De lo que vemos que la serie ya no tiene una componente de estacionalidad ni de tendencia.


Supuestos de los residuos
5 SERIES CRONOLÓGICAS 102

Se puede apreciar que la distribución de los residuos es semejante a una normal. No autocorrelación de
los residuos

Gráfico de predicciones
5 SERIES CRONOLÓGICAS 103

5.4. Densidad espectral

5.4.1. Periodograma

Para calcula la densidad espectral de la serie se utiliza


periodogram ( s t , main=”Periodograma ” )

Ocupando la sentencia
pper $ s p e c

Se obtienen los valores de la densidad espectral de la serie de tiempo, los cuales son:
[ 1 ] 25.887760690 3.278481216 0.183745822 4.545480768
[5] 1.612082019 2.787114901 0.561627914 5.925008923
[9] 1.852687140 0.896212536 1.081999350 0.204949687
[13] 0.437590510 0.002497303 0.439094206 1.410139597
[17] 0.152080260 0.560726905 0.556220679 0.557995530
[21] 0.036588607 0.065526411 0.374742822 0.030697289
[25] 0.070513314 0.034386829 0.008101698 0.062093329
[29] 0.056681006 0.177874512 0.107768655 0.060370631
[33] 0.040569866 0.058335037 0.061969748 0.157069556
[37] 0.013001984 0.080110810 0.064734701 0.264761021
[41] 0.015370450 0.133929245 0.051033793 0.298586906
[45] 0.024605129 0.004677134 0.180010236 0.126030227
5 SERIES CRONOLÓGICAS 104
5 SERIES CRONOLÓGICAS 105
6 SIMULACIÓN ESTADÍSTICA 106

6. SIMULACIÓN ESTADÍSTICA
En este capitulo se va a simular la entrada de pacientes a un centro de salud, al cual llega un paciente
cada un minuto. Primero hay que notar que los centros de salud tiene un protocolo el cual consiste en lo
siguiente:

Admisión y evaluación general: Donde al llegar un paciente a este se le hace una evaluación
rápida de promedio un minuto y a lo mas cinco minutos y de acuerdo a esto se le deriva al tipo de
6 SIMULACIÓN ESTADÍSTICA 107

urgencia que tiene donde la urgencia máxima es c1 y la menor es c5. Los pacientes que tienen un
nivel de urgencia de c1 o c2 deben ser atendidos rápidamente. Si no pasan a la atención primaria.
De experiencias anteriores se ha visto que el 30 % de pacientes es de nivel c1,el 30 % es de nivel c2 y
el resto o sea 40 % no son pacientes de gravedad.

Atención primaria: Si un paciente que llega no es de gravedad pasa a atención primara en la cual
se le evalúa nuevamente para ver a que nivel pertenece (c3, c4 o c5), esto tiene un tiempo de demora
de entre cinco a diez minutos. Una vez decidido los pacientes son atendidos dando prioridad a c3,
luego c4 y c5.
Del total de pacientes que pasa por atención primaria de atenciones anteriores se ha visto que el 30 %
es derivado a c3, el 30 % es derivado a c4 y el 40 % es derivado a c5.
Luego de estos los pacientes son atendidos.

C1: El tiempo de demora en ser atendido un paciente de este tipo es en promedio 10 y a lo mas 15
minutos.

C2: El tiempo de demora en ser atendido un paciente de este tipo es en promedio 10 minutos y a lo
mas 15 minutos.

C3: El tiempo de demora en ser atendido un paciente de este tipo es en promedio 10 minutos y a
lo mas 15 minutos. De observaciones pasadas se sabe que el 95 % de estos paciente se atienden y el
resto decide irse.

C4: El tiempo de demora en ser atendido un paciente de este tipo es en promedio 10 minutos y a lo
mas 15 minutos. 75 % de estos paciente se atienden y el resto decide irse.

C5: El tiempo de demora en ser atendido un paciente de este tipo es en promedio 10 minutos y a lo
mas 15 minutos. 50 % de estos paciente se atienden y el resto decide irse.
6 SIMULACIÓN ESTADÍSTICA 108

Los pacientes llegan cada un minuto y se simulo la situación de 8am a 20pm o sea 10 horas, de lo que
es obtuvo lo siguiente:
6 SIMULACIÓN ESTADÍSTICA 109

VA Time: El tiempo promedio en el que un cliente es atendido es de 12,27 minutos aproximada-


mente. El tiempo
mınimo de atencion fue de 5,022 minutos y el tiempo maximo fue de 29,082 minutos.

Wait Time: El tiempo promedio de espera en la cola de un cliente es de 35,724 minutos.

Total Time El tiempo promedio total de una persona dentro del sistema es de 47,988 minutos. El
tiempo total mınimo fue de 5,0022 minutos .

Number In: El promedio de personas que entraron al sistema.

Number Out: El promedio de personas que salieron del sistema.

WIP El promedio personas que se encuentran al terminar el tiempo.


6 SIMULACIÓN ESTADÍSTICA 110
6 SIMULACIÓN ESTADÍSTICA 111
6 SIMULACIÓN ESTADÍSTICA 112

Posible solución
6 SIMULACIÓN ESTADÍSTICA 113
6 SIMULACIÓN ESTADÍSTICA 114
6 SIMULACIÓN ESTADÍSTICA 115
6 SIMULACIÓN ESTADÍSTICA 116

Você também pode gostar