Escolar Documentos
Profissional Documentos
Cultura Documentos
Facultad de Ciencia
Manual Estadı́stico
estudiantes
Yerko Carreño
Sebastian Fuentes
Karin Fritz
Profesor
Luis Figueroa
Ayudantes
Carolina Olmos
Camila Ahumada
2. MÉTODOS MULTIVARIANTES 24
2.1. Gráficos Multivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.1. Gráfico de caras o Chernoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.2. Gráficos de Estrellas y Rayos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.3. Gráficas de Andrews . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.4. Gráficas de dispersión de lado a lado . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2. ANOVA y Análisis de Contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1. Método de Tuckey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.2. Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3. T 2 Hotelling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
ÍNDICE 2
3. Estadı́stica No Paramétrica 47
3.1. Una muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.2. Prueba de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3. Prueba Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4. Prueba de Rachas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5. Dos muestras relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.6. Prueba del Signo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.7. Prueba de Mcnemar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.8. Prueba de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.9. Dos muestras Independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.10. Prueba de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.11. Prueba de Chi cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.12. Tres o más muestras relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.13. Prueba de Friedman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.14. Tres o más muestras independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.15. Prueba de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5. SERIES CRONOLÓGICAS 84
5.1. Análisis de la serie de tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.1.1. Aplicación en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.1.2. Gráfico de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.1.3. Test de Estacionaridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.1.4. descomposición de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.1.5. Test para estacionalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.1.6. Test para tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.1.7. Aplicación en SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.1.8. Gráfico de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2. Técnicas de alisado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2.1. Aplicación en R, caso aditivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2.2. Aplicación en SAS, caso aditivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2.3. Aplicación en R, caso multiplicativo . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.2.4. Aplicación en SAS, caso multiplicativo . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.2.5. Aplicación en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.3. Ajuste del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.3.1. Aplicación en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.3.2. Metodologı́a Box-jenkis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.3.3. Comprobación de supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.3.4. Aplicación en SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.4. Densidad espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.4.1. Periodograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
1. MODELOS LINEALES
Se realizará una regresión lineal múltiple a una base de datos, que será descrita a continuación, para
de esta forma encontrar el mejor modelo posible para explicar la variable dependiente.
Cuadro 1: Variables
Variable Tipo de variable Notación
Price Continua Precio del caballo, medido en dolares
Age Discreta Edad del caballo, medida en años
Height Continua Altura del caballo, medida en hand (1 hand = 10.17 cm)
Sex Dicotomica m: macho, f:hembra
Lo que se quiere modelar es el precio del caballo de acuerdo a la edad, su altura y su sexo. Para esto
se ocupara regresión lineal múltiple. Se hará un resumen de los datos, se hará excluyendo el dato de sexo:
subsectionAplicación en R
summary( b a s e )
Price Age Height
Min . : 1100 Min . : 0.500 Min . :14.25
1 s t Qu. : 1 5 7 5 0 1 s t Qu . : 5 . 0 0 0 1 s t Qu . : 1 6 . 0 0
Median : 2 5 0 0 0 Median : 7 . 0 0 0 Median : 1 6 . 5 0
Mean :27957 Mean : 7.489 Mean :16.33
3 rd Qu. : 4 0 0 0 0 3 rd Qu . : 8 . 5 0 0 3 rd Qu . : 1 6 . 7 5
Max . :60000 Max . :20.000 Max . :17.25
Correlaciones:
cor ( b a s e )
Price Age Height
Price 1 . 0 0 0 0 0 0 0 −0.2526778 0 . 4 4 3 1 3 7 9
Age −0.2526778 1.0000000 0.3113041
Height 0.4431379 0.3113041 1.0000000
subsectionAplicación en SAS
1 MODELOS LINEALES 5
p r o c c o r r data=modelos ;
var p r e c i o age a l t ;
run ;
De donde se puede ver que la correlación entre el precio y la edad es negativa, ya la correlación entre el
precio y la altura es positiva.
1.3. Modelo en R
Residuals :
Min 1Q Median 3Q Max
−20987 −7267 −1601 7839 30478
Coefficients :
1 MODELOS LINEALES 6
R e s i d u a l s t a n d a r d e r r o r : 11480 on 43 d e g r e e s o f freedom
M u l t i p l e R−s q u a r e d : 0.4328 , Adjusted R−s q u a r e d : 0.3932
F− s t a t i s t i c : 1 0 . 9 4 on 3 and 43 DF, p−v a l u e : 1 . 8 2 7 e −05
Se puede observar que en ambos casos dieron valores muy semejantes para los parámetros. R2 ajustado
es de a 0,39 lo cual nos dice que las variables independientes no explican mucho la variabilidad del precio
1 MODELOS LINEALES 7
de los caballos.
La hipótesis son H0 : βi = 0v/sH1 : βi 6= 0 para algún i, se quiere probar si alguno de los coeficientes
asociados son iguales a 0 de manera individual.
Se ve que todos los p-valores son menores a 0,05 por lo que hay evidencia para rechazar en todos los casos.
Es decir nuestras variables no son 0 de manera individual.
Para ver si se pueden eliminar variables del modelo, se utilizará el método backward, el cual empieza
con el modelo completo como punto de partida. En R
step ( mod1 , d i r e c t i o n = ” backward ” , c r i t e r i o n=”AIC” )
Start : AIC=882.6
P r i c e ˜ Age + Height + as . factor ( Sex )
Call :
lm( formula = P r i c e ˜ Age + Height + as . factor ( Sex ) )
Coefficients :
1 MODELOS LINEALES 8
En SAS
p r o c r e g data=mod ;
model p r e c i o = age a l t s e x o / s e l e c t i o n=backward ;
run ;
Se puede ver que en ambos caso no hubo eliminación de variables, por los que nos quedaremos con el
modelo obtenido desde un comienzo.
1.9.1. Linealidad
Para probar que se cumple el supuesto de linealidad se utilizará el test reset de Ramsey el cual verifica
si las combinaciones no lineales de los valores ajustados ayudan a explicar la variable dependiente. La
forma en que se realiza la prueba es ajustando el siguiente modelo
1 MODELOS LINEALES 9
y = ax + γ1 ŷ 2 + ... + γk−1 ŷ k +
y mediante un test F de fischer prueba si γ1 hasta γk−1 son cero. Si la hipótesis nula es rechazada entonces
el modelo estarı́a mal especificado, ya que este no seria lineal.
Aplicación R
> r e s e t ( mod1 , power=2)
RESET t e s t
data : mod1
RESET = 0 . 8 7 9 2 5 , d f 1 = 1 , d f 2 = 4 2 , p−v a l u e = 0 . 3 5 3 8
RESET t e s t
data : mod1
RESET = 0 . 6 4 0 8 5 , d f 1 = 2 , d f 2 = 4 1 , p−v a l u e = 0 . 5 3 2
RESET t e s t
data : mod1
RESET = 1 . 0 6 4 8 , d f 1 = 3 , d f 2 = 4 0 , p−v a l u e = 0 . 3 7 4 8
En SAS
p r o c a u t o r e g data=mod ;
model p r e c i o = age a l t s e x o / r e s e t ;
run ;
1 MODELOS LINEALES 10
En R
> s h a p i r o . t e s t ( mod1$ r e s i d u a l s )
Shapiro −Wilk n o r m a l i t y t e s t
data : mod1$ r e s i d u a l s
W = 0 . 9 8 0 1 2 , p−v a l u e = 0 . 5 9 7 3
> h i s t ( mod1$ r e s i d u a l s )
En SAS
p r o c r e g data=mod ;
model p r e c i o = age a l t s e x o /covb s p e c dw v i f ;
output out=prueba r=r e s i d ;
1 MODELOS LINEALES 11
run ;
p r o c u n i v a r i a t e data=prueba n o r m a l t e s t ;
run ;
Como p-valor es mayor a 0.5903 no hay evidencia para rechazar la hipótesis nula. Se concluye la los errores
distribuyen normal.
1.9.3. Homocedasticidad
H0 : HomocedasticidadvsH1 : Heterocedasticidad
En R
> b p t e s t ( mod1 )
s t u d e n t i z e d Breusch−Pagan t e s t
data : mod1
BP = 1 . 4 9 1 9 , df = 3 , p−v a l u e = 0 . 6 8 4 1
En SAS
p r o c model data=mod ;
parms a1 b1 b2 b3 ;
p r e c i o = a1 + b1∗ age + b2∗ a l t + b3∗ s e x o ;
f i t p r e c i o / pagan=(1 age a l t s e x o ) ;
run ;
En R
> d w t e s t ( mod2 )
Durbin−Watson t e s t
data : mod2
DW = 1 . 7 9 5 6 , p−v a l u e = 0 . 2 5
a l t e r n a t i v e h y p o t h e s i s : t r u e a u t o c o r r e l a t i o n i s g r e a t e r than 0
En SAS
p r o c a u t o r e g data=mod ;
model p r e c i o = age a l t s e x o ;
run ;
Como p-valor es mayor a 0,05 no hay evidencia para rechazar la hipótesis nula, se concluye que los residuos
no están autocorrelacionados
En este punto se verán los datos que pueden ser influyentes en nuestro modelo
> i n f<−influence . measures ( mod1 )
> summary( i n f )
Potentially i n f l u e n t i a l observations of
lm( formula = P r i c e ˜ Age + Height + as . factor ( Sex ) ) :
Se puede ver que las observaciones que son influyentes son las 30, 32, 43 y 44. Todas son influyentes
según el covaratio y la 43 según los leveranges
1 MODELOS LINEALES 13
Para regresión logı́stica se utilizara una base donde la variable dependiente es ver si niños nace bajo
peso las variables de modelos son:
Cuadro 2: Variables
Variable Tipo de variable Descripción
Peso bebe Dicotomica 1: bajo peso, y 0: peso normal
Gestación] Discreta Semanas de gestación
Fuma Dicotomica La madre fumaba antes , 1=SI, 0= NO
Cigarrillos fumados Discreta Cantidad de cigarros al dı́a antes del embarazo
Edad Discreta Edad de la madre
1 MODELOS LINEALES 14
En R
> attach ( B a s e l o g )
> mlog<−glm( Peso˜ g e s t a c i o n+fuma+edadm+cigma , family = binomial ( l i n k=l o g i t ) )
> summary( mlog )
Call :
glm( formula = Peso ˜ g e s t a c i o n + fuma + edadm + cigma , family = binomial ( l i n k = l o g i t ) )
Deviance R e s i d u a l s :
Min 1Q Median 3Q Max
−1.4678 −0.3226 −0.1153 0.4180 2.2470
Coefficients :
Estimat e Std . E r r o r z v a l u e Pr ( >| z | )
( Intercept ) 21.20688 10.56493 2.007 0.0447 ∗
gestacion −0.67451 0.29961 −2.251 0.0244 ∗
fuma 2.36949 1.82032 1.302 0.1930
edadm 0.03392 0.09982 0.340 0.7340
cigma 0.12731 0.06939 1.835 0.0666 .
−−−
N u l l deviance : 5 3 . 4 6 7 on 41 d e g r e e s o f freedom
R e s i d u a l deviance : 2 6 . 4 5 9 on 37 d e g r e e s o f freedom
AIC : 3 6 . 4 5 9
Number o f F i s h e r S c o r i n g i t e r a t i o n s : 6
En SAS
p r o c l o g i s t i c data=L o g i s t i c a ;
model p e s o = g e s t fuma edad c i g ;
run ;
1 MODELOS LINEALES 15
Notar que la salida de R nos da la probabilidad de p(x = Bajopeso) y la de SAS nos da p(x = P esonormal),
por ese motivo los parámetros tienen las mismas magnitudes pero diferentes signos. Las conclusiones que
se pueden sacar son las misma.
Si ocupamos el modelo obtenido en R, podemos decir que mientras mas semanas de gestación tenga el
bebe es menos probable que este bajo paso, y si la madre fuma hay mayor probabilidad de que este bajo
peso.
Para el caso de SAS podemos decir que mientras mas semanas de gestación tenga el bebe mayor es la
probabilidad de que este en el peso normal, y si la mamá fuma disminuye la probabilidad de que este en
el peso normal.
Si hacemos el odd-ratio de las madres que fuman con las madres que no fuman se tiene lo siguiente:
como el OR es es mayor a 1, quiere decir si la madre fumaba es más probable que su hijo nazca bajo peso.
Se desea estimar el modelo se sobrevida de personas que sufren de cancer al pulmón, donde las variables
de independientes son:
1 MODELOS LINEALES 16
Cuadro 3: Variables
Variable Tipo de variable Descripción
tiempo Continua Tiempo de vida del individuo
Status Dicotomica Si el dato es censurado (0) o no (1)
Tratamiento Dicotomica Tratamiento del individuo, 1= estándar, 2= alternativo
Escala Karnosfsky Intervalo Mide como se siente los pacientes,100:muy bien a 0:muy mal
Edad Continua Edad del individuo
En R
> plot ( Csurv , x l a b=” Meses ” , y l a b=” S u p e r v i v e n c i a ” )
> Csurv<−Surv ( tiempo , status )
> g r a f<−s u r v f i t ( Csurv˜ 1 )
> plot ( g r a f )
En R
> cox1<−coxph ( Surv ( tiempo , status ) ˜1+factor ( t r t )+karno+age )
> summary( cox1 )
Call :
coxph ( formula = Surv ( tiempo , status ) ˜ 1 + factor ( t r t ) + karno +
age )
n= 1 3 7 , number o f e v e n t s= 128
En SAS
p r o c phreg data=mcox ;
c l a s s s t a t u s t r t / r e f= f i r s t ;
model tiempo∗ s t a t u s (0)= t r t age karno ;
run ;
Lo importante de la regresión cox son los factores de riesgos los cuales son dados por el ratio del riesgo, si
uno de estos es mayor a 1 es un factor de riego ya que quiere decir que acelera la muerte del sujeto. Para
nuestro estudio se puede apreciar que las personas que tiene el tratamiento de prueba viven menos que los
del tratamiento tradicional.
Para este caso se modelara la cantidad de goles metidos por delanteros, donde las variables indepen-
dientes son las siguientes:
Cuadro 4: Variables
Variable Tipo de variable Descripción
Altura Continua Altura del jugador medida en metros
Edad Continua Edad del jugador
Habilidad Dicotomica Hace referencia a cual es su pierna hábil 0=zurda, 1=derecha
En R
> mpos<−glm( formula=g o l e s ˜ a l t u r a+edad+factor ( h a b i l ) , family=poisson ( log ) )
> summary( mpos )
Call :
1 MODELOS LINEALES 18
Deviance R e s i d u a l s :
Min 1Q Median 3Q Max
−1.5165 −1.0673 −0.6591 0.2406 4.0930
Coefficients :
Estimat e Std . E r r o r z v a l u e Pr ( >| z | )
( Intercept ) 6.27894 1.59484 3 . 9 3 7 8 . 2 5 e −05 ∗∗∗
altura −1.72862 0.86550 −1.997 0.0458 ∗
edad −0.01305 0.01890 −0.691 0.4898
factor ( h a b i l ) 1 −0.16785 0.13493 −1.244 0.2135
−−−
Number o f F i s h e r S c o r i n g i t e r a t i o n s : 4
En SAS
p r o c genmod data=p o i s s o n ;
model g o l e s= a l t edad hab / d i s t=p o i s s o n ;
run ;
Se puede ver de los coeficientes que los jugadores zurdos hicieron más goles que los jugadores derechos.
1 MODELOS LINEALES 19
1 MODELOS LINEALES 20
1 MODELOS LINEALES 21
1 MODELOS LINEALES 22
1 MODELOS LINEALES 23
2 MÉTODOS MULTIVARIANTES 24
2. MÉTODOS MULTIVARIANTES
Para el estudio de metodos multivariantes, se utilizara una base de datos de probetas de mezclas
asfalticas, las cuales tienen un diseño especificado segun el uso que se le dara, donde se especifica el
porcentaje de asfalto que contiene, la altura de la probeta, peso especifico del asfalto, densidad densidad,
tipo de ligante con el que se trabajo. Estas muestras fueron sometidas a una prueba de resistencia, en la
cual se les calculo el modulo resiliente, el cual sera una medidad de calidad de la muestra, se determino el
procentaje de vacios , su densidad aparente, el procentaje de volumen agregado, el porcentaje del volumen
de asfalto.
Cuadro 5: Variables
Variable Tipo de variable Notación
Altura Continua altura
Porcentaje de asfalto Continua p asfalto
Porcentaje de vacios Continua p vacios
Peso especifico del asfalto Continua GB
Volumen de agregado Continua volumen agregado
Volumen de asfalto Continua volumen asfalto
Densidad maxima Continua densidad maxima
Densidad aparente Continua densidad aparente
Tipo de ligante Categorica tipo lig
Modulo resiliente Continua modulo
2 MÉTODOS MULTIVARIANTES 25
effect of variables:
modified item Var
"height of face " "altura" "width of face " "GB"
"structure of face" "pvacios" "height of mouth " "palsfalto"
"width of mouth " "volumen asfalto" "smiling " "modulo"
"height of eyes " "altura" "width of eyes " "GB"
"height of hair " "pvacios" "width of hair " "palsfalto"
"style of hair " "volumen asfalto" "height of nose " "modulo"
"width of nose " "altura" "width of ear " "GB"
"height of ear " "p vacios"
2 MÉTODOS MULTIVARIANTES 26
ANOVA
El modelo ANOVA se usa para estudiar si el efecto de diversos tratamientos sobre una variable respuesta,
difieren significativamente entre si. Para estas situaciones se utiliza el siguiente modelo;
donde:
H0 : τ1 = τ2 ... = τj = 0 v/s H1 : τi 6= τj
Trabajando con la misma base de datos, vamos a comparar el efecto de cada tipos de ligantes sobre
nuestra variable respuesta modulo o resistencia. para esta situacion se plantea la siguiente hipotesis.
H0 :El efecto de cada tipo de ligante es igual a cero v/s H1 : Al menos un es distinto
donde:
Aplicación en R
Aplicación en SAS
2 MÉTODOS MULTIVARIANTES 30
Conclusión:
Con respecto a nuestra variable de interés , podemos decir que a una significancia del %5 , se rechaza la
hipotesis nula , es decir, el efecto de al menos uno de los ligantes es distinto de cero, por lo tanto la media
de alguno de los tipos de ligantes es distinta. Se puede observar en el grafico de cajas que el ligante RI y
RV tienen una media mayor que los otros.
Comparaciones múltiples
Este método puede hacer múltiples comparaciones simples, de dos medias de tratamientos y determina
si hay efectos distintos entre ellos. Además este método es factible en un diseño balanceado. Tukey resuelve
el siguiente contraste:
H0 : µi = µj v/s H1 : µi 6= µj
2 MÉTODOS MULTIVARIANTES 31
Aplicación en R
Aplicación en SAS
2.2.2. Bonferroni
Hipótesis:
2 MÉTODOS MULTIVARIANTES 32
H0 : µ1 − µ2 + µ5 − µ6 = 0 ∧ − µ21 − µ2
2
+ µ3 − µ4 + µ5 = 0 vs H1 :Las afirmaciones son falsas
Conclusión:
No existe evidencia para rechazar H0
2.3. T 2 Hotelling
µ = (altura, GB, p vacios, p alsf alto, volumen asf alto, densidada parente, modulo) (1)
Conclusión:
Como nuestro F observado es mayor al F teorico, se rechaza la hipotesis nula a un un 5 % de significancia,
por lo que la muestra especificada es significativamente distinta al vector de medias de nuestras variables
2.4. MANOVA
Aplicación en R
Donde resp1 corresponde al ANOVA con respecto al modulo con sus respectivas suma de cuadrados,
residuos y error estándar
Conclusión:
Como el p-valor es menor a 0.05, existe evidencia suficiente para rechazar la hipotesis nula, a un 5 %
de significancia, es decir, el vector de medias de los distintos tipos de ligantes son distintos entre sı́.
2 MÉTODOS MULTIVARIANTES 34
Antes que todo, se recuerda que uno de los objetivos de crear componentes principales es que estos no
se encuentren correlacionados, por lo tanto, si la base de datos original contiene variables que no son co-
rrelacionadas, no tiene sentido aplicar el método de componentes principales. Ahora, se procede a verificar
si las variables originales de la base de datos están correlacionadas entre sı́, por lo que ocuparemos el test
de Bartlett para ver si las variables están correlacionadas o no:
Test de Bartlett:
Aplicación en R
2 MÉTODOS MULTIVARIANTES 35
Aplicación en SAS
2 MÉTODOS MULTIVARIANTES 36
2 MÉTODOS MULTIVARIANTES 37
Conclusión:
Donde se observa que en la componente 5 se acumula un 95.64 por ciento de la varianza, por lo tanto
trabajaremos con las primeras 5 componentes.
Aplicación en R
Para la siguiente seccion, se clasificaron la variables modulo y porcetaje de vacios de tal forma que
el modulo se clasifico en 3 niveles:bajo,medio y alto, respecto a su zona de resistencia. mientras que la
variable procentaje de vacios se clasifico de orden creciente los siguientes nivel: 1,2,3,4
2 MÉTODOS MULTIVARIANTES 38
Conclusión:
Por lo tanto, si queremos clasificar o discriminar una mezcla con las sigueintes cualidades: altura =
56, GB = 1024,645, p vacios = 0,06, pa lsf alto = 5,5 , sera clasificado en el grupo de resistencia media.
Utilizando las variables numericas de nuestra base inicial, formaremos 5 grupos representativos de estas
mezclas de asfalto. para trabajar con conglomerados usaremos la distancia de mahalanobis para determinar
la distancia entre la matriz S y el vector de medias de nuestras variables
Aplicación en R
2 MÉTODOS MULTIVARIANTES 39
2 MÉTODOS MULTIVARIANTES 40
Aplicación en SAS
Utilizando la misma base con la que hemos trabajado en las secciones anteriores con las variables:modulo,porc
de vacios, porcentaje de asfalto, volumen de asfalto y GB. Obtendremos los factores con los cuales queremos
trabajar,dando que nuestras variables son 4 se pueden obtener 2 factores.
2 MÉTODOS MULTIVARIANTES 41
Aplicación en R
Conclusión:
Se aprecia que el factor 1 acumula una proporcion de varianza de 0.436 y el factor 2 de 0.242. el factor
1 esta altamente relaciones con el volumen de asfalto y el porcentaje de vacios, mientras que el factor 2
2 MÉTODOS MULTIVARIANTES 42
igualmente relacionado con el procentaje de asfalto, e inversamente relacionado con el volumen de asfalto.
Para el análisis de correspondencia vamos a determinar asociaciones entre las zonas de clasificacion del
modulo,las cuales son: baja,media y alta, según los niveles de vacios de las respectivas muestras.
Aplicación en R
2 MÉTODOS MULTIVARIANTES 43
Conclusión:
Se puede apreciar mediante el gráfico que las Zonas que tienen un nivel Medio tienen relación con el
menor nivel de porcentajes de vacios en las mezcla, tambien que las que la clasificacion Alta tienen el
segundo nivel de procentajes de vacios, que la clasificacion baja de los modulos tiene relacion con el tercer
nivel de vacios de las mezclas y con el cuarto, pudiendo concluir que a menor cantidad de procentajes de
vacios, mayor sera el valor del modulo resiliente .
2 MÉTODOS MULTIVARIANTES 44
2 MÉTODOS MULTIVARIANTES 45
2 MÉTODOS MULTIVARIANTES 46
3 ESTADÍSTICA NO PARAMÉTRICA 47
3. Estadı́stica No Paramétrica
Para este ramo se utilizará una muestra aleatoria compuesta por 22 familias encuestadas sobre el
presupuesto familiar, información reunida por el SERNAC en el año 2012.
3 ESTADÍSTICA NO PARAMÉTRICA 48
La muestra posee las siguientes variables; Sexo jefe de hogar donde 1= Hombre y 0=Mujer , GSE que es
el tipo de clase socioeconomica a la cual pertenece el grupo familiar (C1,C2,C3,D,E), GSE1 si corresponde
a clase alta, media o baja, Padres si es que viven con ambos o solo alguno de los padres,cantidad de hijos
número, Otro pariente si el grupo convive con otro pariente Hombres en el hogarnúmero, Mujeres en
el hogarnúmero, Estado civil situación en el que se encuentra el jefe de hogar (casado, viudo, separado,
conviviente, soltero) nivel educacional del jefe de hogar grado el cual terminó en algún instituto o
universidad y las siguientes variables vivienda, Servicios básicos, Telecomunicaciones, Transporte,
Salud, Educación, Recreación y cultura, Alimentación, Vestuario y calzado, Otros son variables
continuas que se refieren al gasto mensual incurrido en el tipo de servicio.
Además, el nivel de significancia para las pruebas que se realizaran en este capı́tulo será del 5 %, es
decir, consideraremos que para todo valor de probabilidad igual o inferior a 0.05 se rechazará la hipótesis
nula.
3 ESTADÍSTICA NO PARAMÉTRICA 49
Problema
Se desea saber si la edad de la dueña de casa en el grupo familiar que fueron encuestados siguen una
distribución normal.
Se tiene una variable continua, en este caso son es la edad de la dueña de casa. Por otra parte, se quiere
estudiar el grado de acuerdo entre la distribución de un conjunto de datos con la distribución normal
(especı́fica).
Hipótesis
Aplicación en R
Aplicación en SAS
data ks;
input ks2;
CARDS;
44
52
56
49
39
42
3 ESTADÍSTICA NO PARAMÉTRICA 50
33
49
70
43
40
63
48
65
65
57
43
62
41
49
64
46
;
run;
Decisión y Conclusión
Para ambos software no se rechaza la hipótesis nula, es decir, no existe evidencia para dudar sobre que
la edad del dueño de casa provienen de una distribución Normal.
3 ESTADÍSTICA NO PARAMÉTRICA 51
Problema
Se desea saber si la proporción de hombres como jefe de hogar en el grupo familiar es igual a la
proporción de mujeres teniendo la misma condición, siendo la variable ’Sexo jefe hogar’ dicotómica.
Hipótesis
Aplicación en R
Aplicación en SAS
Decisión y Conclusión
Como el p-valor en ambos casos es 0.8318 y este es mayor al 5 % de significancia, entonces no se rechaza
la hipótesis nula, es decir, no existe evidencia para dudar sobre que la proporción de hombres como jefe de
hogar sea igual a la proporción de mujeres.
Problema
Se desea saber si las respuestas relacionadas a que el dueño de casa es hombre o mujer fueron seleccio-
nadas de forma aleatoria.
Hipótesis
Aplicación en R
library(tseries)
runs.test(as.factor(datos$‘SEXO JEFE HOGAR‘))
3 ESTADÍSTICA NO PARAMÉTRICA 53
Aplicación en SAS
Decisión y Conclusión
No se rechaza la hipótesis nula, es decir, las respuestas de que si el genero del jefe de hogar en la
encuesta fueron obtenidas de manera aleatoria.
Problema
Se desea saber si los sueldos del grupo familiar varian de acuerdos a los distintos años, en este caso los
años 2015 y 2016, analizando la mediana de los pares de grupos.
Para poder saber si el sueldo2015 y sueldo2016 provienen de la misma población, se debe contrastar la
igualdad de las medianas de ambas variables continuas y que se encuentran en escala ordinal.
Hipótesis
Aplicación en R
SIGN.test(sueldo15,sueldo16)
3 ESTADÍSTICA NO PARAMÉTRICA 54
Aplicación en SAS
data nueva;
set sig;
diff= sueldo15-sueldo16;
run;
Decisión y Conclusión
No se rechaza H0 , por lo tanto, con un 95 % de confianza no existe evidencia suficiente para dudar de
que los sueldos obtenidos durante los años 2015 y 2016 provienen de la misma población.
Problema
Se les preguntó a los sujetos si votarı́an, teniendo 2 opciones de candidato (A y B).Luego al transcurso
de un año se les pregunto lo mismo y durante el transcurso del año hubo propaganda electoral.
Hipótesis
Aplicación en R
Aplicación en SAS
Decisión y Conclusión
En ambos programas no se rechaza H0 , por lo tanto el año de propaganda no producen cambios signi-
ficativos sobre la respuesta a la elección del presidente.
3 ESTADÍSTICA NO PARAMÉTRICA 56
Problema
Se desea saber si los promedios de los sueldos del año 2015 y 2016 para un mismo grupo familiar poseen
la misma distribución.
Otra forma de saber si dos variables continuas provienen de la misma población, es utilizando la Prueba
de rangos de wilcoxon, donde a diferencia de la prueba de los signos, se toma en consideración la magnitud
de la diferencia aparte del signo.
Hipótesis
Aplicación en R
Aplicación en SAS
3 ESTADÍSTICA NO PARAMÉTRICA 57
Decisión y Conclusión
En ambos programas no se rechaza H0 , por lo tanto, los sueldos obtenidos por el grupo familiar durante
los años 2015 y 2016 provienen de la misma población.
3 ESTADÍSTICA NO PARAMÉTRICA 58
Problema
Se quiere saber si los sueldos de un grupo familiar el año 2016 cuando el jefe de hogar es hombre es
igual a cuando el jefe de hogar es mujer.
Se tienen dos muestras independientes que corresponden a los sueldos del año 2016 obtenidos por
hombres y mujeres respectivamente.
Hipótesis
H0 : No existen diferencias entre las poblaciones de las que provienen las muestras
v/s
H1 : Existen diferencias entre las poblaciones de las que provienen las muestras
Aplicación en R
Aplicación en SAS
3 ESTADÍSTICA NO PARAMÉTRICA 59
Decisión y Conclusión
En ambos programas no se rechaza H0 , por lo tanto como no existen diferencias entre las poblaciones,
ambos grupos provienen de la misma población.
Problema
Se quiere saber si el estado civil del integrante jefe de hogar depende del sexo de este individuo.
Hipótesis
Aplicación en R
3 ESTADÍSTICA NO PARAMÉTRICA 60
Aplicación en SAS
Decisión y Conclusión
No se rechaza H0 , es decir, el estado civil no depende del sexo del jefe de hogar.
3 ESTADÍSTICA NO PARAMÉTRICA 61
Problema
Se desea saber si los sueldos para un grupo familiar durante los años 2015, 2016 y 2017 provienen de
la misma distribución.
Se tienen 3 muestras de sueldos medidas a los mismos grupos familiares durante los años 2015, 2016 y
2017 respectivamente, medidas en escala ordinal.
Hipótesis
Aplicación en R
Aplicación en SAS
Decisión y Conclusión
Se puede apreciar que los dos programas nos arroja p-valor muy superior a 0.05, esto nos dice que se
mantiene H0 , es decir, los sueldos pertenecientes a los diferentes grupos familiares durante los 3 distintos
años no presenta diferencias significativas, por lo tanto provienen de la misma distribución.
3 ESTADÍSTICA NO PARAMÉTRICA 62
Problema
Se definen los distintos grupos clasificados por cantidad de hijos en el grupo familiar , donde 1 hijo es
una muestra y asi desde 0 hijos hasta 4. Se desea saber si los sueldos en el año 2017 en los distintos grupos
se comportan de igual manera.
Hipótesis
Aplicación en R
Aplicación en SAS
Decisión y Conclusión
Se puede apreciar que el p-valor es similar en los dos programas y superior a 0.05, se mantiene H0 ,
es decir, los 5 grupos por cantidad de hijos se comportan de igual manera en relación al sueldo del año 2017.
3 ESTADÍSTICA NO PARAMÉTRICA 63
3 ESTADÍSTICA NO PARAMÉTRICA 64
3 ESTADÍSTICA NO PARAMÉTRICA 65
3 ESTADÍSTICA NO PARAMÉTRICA 66
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 67
Se estudian cuatro diferentes tipos de diseños de un circuitos digital de computadora para comprobar
la cantidad de ruido presente. De lo que se obtuvieron los siguientes datos
Ruido observado
Tipo circuito 1 2 3 4
1 19 20 19 30
2 80 61 73 56
3 47 26 25 35
4 95 46 83 78
Los niveles de estudio del factor fueron escogidos por el experimentador, y por lo tanto, no son aleatorios.
Modelo Estadistico
yij = µ + τi + ij
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 68
Con:
µ : media general.
τi : efecto del tipo de diseño i.
ij : componente aleatorio.
Aplicación en R
Aplicación en SAS
p r o c anova data=mod ;
class dis ;
model r u i d o=d i s ;
run ;
Lo que se esta viendo es que si existe algún o algunos diseños en los que el ruido, que emite las
computadoras son diferentes entre si. Como hay evidencia para rechazar la hipótesis nula, se puede decir
que hay un diseño al menos diferente al resto.
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 69
Se analizara el ejemplo anterior, diciendo que en este caso el factor diseño es aleatorio. Por lo que ahora
se quiere ver es si la varianza de este factor es cero o no.
Aplicación en R
E r r o r : factor ( d i s )
Df Sum Sq Mean Sq F v a l u e Pr(>F)
Residuals 3 8081 2694
E r r o r : Within
Df Sum Sq Mean Sq F v a l u e Pr(>F)
R e s i d u a l s 12 2073 172.7
Aplicación en SAS
Se puede ver que tenemos un p-valor menor a 0.05, por lo tanto hay evidencia para rechazar la hipótesis
nula. Se puede concluir que existe variabilidad entre los distintos tipos de diseño de circuitos.
Además del factor a estudiar muchas veces es necesario incluir una fuente de variabilidad que podrı́a
afectar los resultados del experimento, a esta fuente de variabilidad se le llama factor Bloque. Es decir,
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 70
un bloque es un factor que no es de interés para el investigador pero aún ası́ se ingresa al modelo para
evitar malas conclusiones por la falta de este. El bloque se trabaja de forma completamente aleatorizada,
es decir, de forma que no exista intersección con el factor principal y sus niveles queden aleatoriamente
distribuidos dentro de los niveles del bloque.
Para este caso se quiere comparar tres soluciones de lavado diferentes a fin de estudiar su efectividad
para retardar el crecimiento de bacterias en contenedores de leche. El análisis se hace en un laboratorio y
sólo pueden realizarse tres ensayos en un dı́a. Puesto que los dı́as podrı́an representar una fuente potencial
de variabilidad. Se decide usar diseño de bloques aleatorizados. Los datos obtenidos se tienen en la siguiente
tabla:
Dı́as
Solución 1 2 3 4
1 13 22 18 19
2 16 24 17 44
3 16 25 20 55
Con:
µ : media general.
αi : efecto de las soluciones i.
βj : efecto del nivel del bloque j (dia).
ij : componente aleatorio.
Aplicación en R
Aplicación en SAS
p r o c glm data=mod1 ;
c l a s s dia s o l ;
random d i a ;
model r e t=d i a s o l ;
run ;
Como es un análisis por bloques, el factor bloque (dı́a) no es de interés para el experimento, como si lo
es el factor solución el cual vemos que tiene un p-valor mayor a 0.05, por lo tanto no hay evidencia para
rechazar la hipótesis nula, por lo que podemos concluir que las diferentes soluciones no afectan a nuestra
variable respuesta, la cual es retardo para el crecimiento de bacterias en contenedores de leche.
Para el experimento se quiere estudiar los efectos que tienen cuatro formulaciones diferentes de la carga
propulsora utilizada en los sistemas de expulsión de la tripulación de un avión basado en la rapidez de
combustión, cada formulación es preparada por varios operadores.
Quedando ası́ un modelo de cuadrado latino 4x4. Dado que se especifican los diferentes niveles a
trabajar, por ende los tres factores son de efecto fijo. Cabe destacar que para muestras reales este diseño es
complejo de realizar ya que se necesita al menos una unidad de observación para cada cruce entre niveles.
Para confeccionar la base a utilizar en el experimento, se toma en cuenta la información anterior.
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 72
Con:
µ : media general.
αi : efecto de la fila i (Lote).
τj : efecto del método de formulación j.(A,B,C,D)
βk : efecto de la columna k (Operarios).
ijk : componente aleatorio.
Aplicación en R
> summary( m o d e l o l a t i n o )
Df Sum Sq Mean Sq F v a l u e Pr(>F)
factor ( f o r m u l a c i o n e s ) 3 186.0 62.00 5.767 0.0335 ∗
Residuals 6 64.5 10.75
−−−
s i g n i f . codes : 0 ?∗∗∗? 0 . 0 0 1 ?∗∗? 0 . 0 1 ?∗? 0 . 0 5 ? . ? 0 . 1 ? ? 1
Se logra ver que en el experimento, los tipos de formulaciones determinan la rapidez de combustión en
un avión, es decir, que algún tipo de formulación difiere del resto.
Aplicación en SAS
p r o c glm data=l a t i n o ;
class lote operarios formulaciones ;
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 73
random l o t e o p e r a r i o s ;
model r a p i d e z= l o t e o p e r a r i o s f o r m u l a c i o n e s ;
run ;
Notar que e factor de interés son las formulaciones, ya que lote y operarios son factores de bloques.
Como se tiene un p-valor menor a 0,05, hay evidencia para rechazar la hipótesis nula, por lo que se puede
decir que las hay al menos una formulación diferente al resto.
Operador
Orden ensamblaje 1 2 3 4
1 Cβ = 11 Bγ=10 Dδ=14 Aα=8
2 Bα=8 Cδ=12 Aγ=10 Dβ=12
3 Aδ=9 Dα=11 Bβ=7 Cγ=15
4 Dγ=9 Aβ=8 Cα=18 Bδ=6
Con:
µ : media general.
αi : efecto de la fila i (Orden ensamblaje).
βj efecto del método de ensamblaje j.(letras latinas)
γk : efecto del sitio de trabajo k.(letras griegas)
δl : efecto de la columna l (Operador).
ijk : componente aleatorio.
Aplicación en R
modelog=aov ( tiempo˜ E r r o r ( factor ( Ensamblaje ))+ E r r o r ( factor ( Operador ))+ factor ( MetodoE)+ factor ( s i
, grecolatino )
summary( modelog )
Aplicación en SAS
p r o c glm data=g r e c o ;
c l a s s e n s a m b l a j e o p e r a d o r metodoE s i t i o t r a b a j o ;
random e n s a m b l a j e o p e r a d o r ;
model tiempo= e n s a m b l a j e o p e r a d o r metodoE s i t i o T r a b a j o ;
run ;
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 75
Se observa, en ambos software, que de los factores de interés que son el método de ensamblaje y efecto
del sitio de trabajo, su p-valor es mayor que 0,05, por lo que no hay evidencia para rechazar la hipótesis
nulas. Se puede decir que estos factores no afectan al modelo.
Existen distintos tipos de modelos que se desprenden del modelo de un Factor . En general los diseños
factoriales son los más eficientes para el estudio de dos o mas factores de interés. Por diseño factorial se
entiende que en cada ensayo o réplica completa del experimento se investigan todas las combinaciones
posibles de los niveles de los factores.
Es importante también aclarar el concepto de interacción: Dos factores se dice que interactúan si el com-
portamiento de un factor depende del nivel particular del otro factor.
Presión
Estación 8 15 30 45
primavera 2,875 2,6 2,23 1,4
primavera 2,625 1,1866 1,466 1,022
primavera 1,75 0,867 1 1,177
verano 2,125 0,867 1,267 0,711
verano 1,5 0,933 0,467 0,356
verano 1,875 1,733 0,7 0,711
Con:
µ : media general.
τi : efecto del nivel i de la densidad
βj : efecto de la temporada j (spring, summer)
(τ β)ij : efecto de la interacción entre τi y βj
ij : componente aleatorio.
Para modelar la base e indicarle al software que la variable ’density’ es un factor y no del tipo numérico
hacemos lo siguiente :
density=factor ( d o s f a c t o r e s $density )
Aplicación en R
mod2fact=aov ( e g g s ˜ s e a s o n ∗density )
Se obtienen resultados significativos para los factores ’density’ y ’season’, es decir, que alguno de los niveles
de densidad es distinto a los otros, y para las estaciones del año, las dos son diferentes entre si y que van
a afectar a la producción de huevos. Se puede mencionar que la interacción entre ambos factores no es
significativo, quiere decir que no hay interacción.
Aplicación en SAS
p r o c anova data=d o s f a c t o r e s ;
c l a s s density season ;
model e g g s= d e n s i t y s e a s o n d e n s i t y ∗ s e a s o n ;
run ;
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 77
Se puede ver, que al igual que en el programa anterior, los factores ’density ’ y ’season’ por si solos
son significativos para la producción de huevos.Los niveles de densidad alguno es distinto de otro y pasa
lo mismo con las diferentes temporadas.Ademas mencionar que los factores explican de forma correcta a
nuestra variable respuesta, ya que tiene un 74 % de variabilidad explicada por los datos.
Podemos observar el gráfico de interacción de estos factores:
interaction . plot ( density , s e a s o n , e g g s )
Se puede ver que no existe una interacción entre entre los niveles de densidad y la temporada para la
producción de huevos,ya que estos factores no se cruzan.
trabajo un material encalante el cual es el carbonato de calcio.Donde se medirá el efecto del encalamiento
en las diferentes profundidades. Los datos se muestran a continuación:
B(A)
yijk = µ + αiA + αij + ijk (7)
Con:
µ : media general.
αiA : efecto del nivel i de la Localidad (1,2,3 y 4).
B(A)
αij : efecto de la profundidad del material j anidado en i tipo de Localidad
ijk : componente aleatorio.
Aplicación en R
Response : PH
Df Sum Sq Mean Sq F v a l u e Pr(>F)
factor ( L o c a l i d a d ) 3 7.2483 2.41611 1.5324 0.2567
factor ( L o c a l i d a d ) : factor ( Profundidad ) 8 3.9500 0.49375 0.3132 0.9461
Residuals 12 1 8 . 9 2 0 0 1 . 5 7 6 6 7
Aplicación en SAS
p r o c glm data=anidado ;
c l a s s l o c a l i d a d profundidad ;
model ph= l o c a l i d a d p r o f u n d i d a d ( l o c a l i d a d ) ;
run ;
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 79
Se observa que con un 5 % de significancia, que el tipo de profundidad anidado a la localidad no produce
algún efecto en el cambio de Ph en el material encalante, información entregada por ambas salidas.
Se desea analizar la duración del largo de vida de componentes electrónicos al variar la temperatura
y el tiempo de horneado. Donde se decide hacer 3 réplicas, analizando 4 niveles de temperatura(580, 600,
620 y 640) y 3 niveles de tiempo de horneado (5, 10, y 15).
Temperatura
Dı́a Tiempo
1 2 3 4
5 217 158 229 223
1 10 233 138 186 227
15 175 152 155 156
5 188 126 160 201
2 10 201 130 170 181
15 195 147 161 172
5 162 122 167 182
3 10 170 185 181 201
15 213 180 182 199
El modelo estadı́stico para este diseño con dos factores, completamente al azar y un factor que actúa
como bloque:
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 80
Con:
yijk : Observación en el i-ésimo bloque de la j-ésima parcela completa y la k-ésima subparcela.
Parcela:
µ : media general.
τi : efecto del bloque (dı́a) i.
βj : efecto del tratamiento principal j. (Temperatura)
(τ β)ij : error de la parcela completa (dı́a × Temperatura).
Subparcela:
γk : efecto del tratamiento subparcela j. (tiempos de horneado)
(τ γ)ik : efecto de interacción entre la dı́a i y el nivel k del factor tiempos de horneado.
(βγ)jk : efecto de interacción entre el nivel j de la temperatura y el nivel k de tiempos de horneado.
(τ βγ)ijk : error de la subparcela.
Aplicación en R
> f d i a<−factor ( d i a )
> ftemp<−factor ( temp )
> f t i e m p o s<−factor ( t i e m p o s )
> modp<−aov ( d u r a c i o n ˜ftemp+f t i e m p o s+ftemp∗ftemp+E r r o r ( f d i a )+
+ ftemp∗ E r r o r ( f d i a )+ f t i e m p o s ∗ E r r o r ( f d i a )+
+ ftemp∗ f t i e m p o s ∗ E r r o r ( f d i a ) )
> summary(modp)
Error : f d i a
Df Sum Sq Mean Sq
fdia 2 1963 981.4
E r r o r : Within
Df Sum Sq Mean Sq F v a l u e Pr(>F)
ftemp 3 12494 4165 7 . 3 1 0 0 . 0 0 1 4 1 ∗∗
ftiempos 2 566 283 0.497 0.61506
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 81
Aplicación en SAS
Como vemos en r y SAS, que el p-valor del factor de la temperatura en menor a 0,05 hay evidencia para
rechazar la hipótesis nulas. Es decir que se puede concluir que el factor temperatura afecta a la duración
de vida del componente electrónico.
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 82
4 DISEÑO Y ANÁLISIS DE EXPERIMENTOS 83
5 SERIES CRONOLÓGICAS 84
5. SERIES CRONOLÓGICAS
En este capitulo se trabaja con la serie de tiempo de la tasa de desocupación mensual de Chile (mediada
en porcentaje), los datos están tomados de manera mensual, desde el mes de febrero del año 2010 hasta
agosto del año 2017.
5.1.1. Aplicación en R
Lo primero que se debe hacer para poder trabajar con series de tiempo en R, es cargar las librerı́as
”TSA”,y ”tseries”
s t<−t s ( s e r i e [ , 3 ] , frequency = 1 2 , s t a r t = c ( 2 0 1 0 , 2 ) , end=c ( 2 0 1 7 , 8 ) )
Donde la tercera columna de los datos de serie, es la tasa de desocupación. frequency indica que la frecuencia
de la series es 12, es decir que los datos de la serie son mensuales.
Lo primero que se vera sera el gráfico de la serie, el cual nos sirve para darnos una idea de como se
comportan sus componentes.
ts . plot ( s t )
5 SERIES CRONOLÓGICAS 85
Se puede ver que la serie tiene cierta tendencia, como también que hay meses en los cuales se alcanza
máximos y mı́nimos durante los años lo que nos indica que la serie tiene una componente estacional, como
también se puede ver que la serie no se mantiene constante, lo que indica que su media varia respecto al
tiempo por lo que es una serie no estacionaria.
Para poder concluir de mejor manera las componentes de la serie y como se comporta esta se harán
diferentes test.
Gráficamente se puede decir que la serie no es estacionaria, pero para poder concluir bien esto es
necesario realizar un test que nos ayudara a concluir si esto es verdad o no. Para esto está el test de Dickey
Fuller. Donde la dócima a realizar es:
adf . t e s t ( st )
data : st
Dickey−F u l l e r = −2.4673 , Lag order = 4 , p−v a l u e = 0 . 3 8 3 7
alternative hypothesis : stationary
Como el p − valor > 0,05 No hay evidencia para rechazar H0 , por lo tanto podemos concluir que la
series no es estacionaria
plot ( decompose ( s t ) )
A pesar del gráfico es necesario realizar un test para corroborar si la serie presenta la componente
estacional. Para este test se tiene la siguiente dócima:
SeasonalMannKendall ( s t )
Como p − valor < 0,05 hay evidencia para rechazar H0 , por lo que se concluye que la serie tiene una
componente estacional.
A pesar de que gráficamente se ve una tendencia, se debe realizar un test el cual tiene la siguiente
dócima:
MannKendall ( s t )
Como p−valor < 0,05 hay evidencia para rechazar H0 , por lo tanto se concluye que existe una componente
de tendencia en la serie.
5 SERIES CRONOLÓGICAS 87
Para trabajar la base utilizada como una serie de tiempo se debe hacer lo siguiente:
p r o c t i m e s e r i e s data=d a t o s out=t a s a ;
i d f e c h a i n t e r v a l=month
s t a r t= ’ f e b 1 0 ’ d
end= ’ aug17 ’ d ;
var pdd ;
run ;
Se puede ver que tiene una tendencia, que tiene una estacionalidad y que no es una serie estacionaria.
5 SERIES CRONOLÓGICAS 88
Como la serie que se está estudiando tiene tendencia y estacionalidad, el mejor método de alisado en
este caso es Holt-Winters. Se vera para los caso aditivos y multiplicativos.
HWA<−H o l t W i n t e r s ( s t , s e a s o n a l = ” a d d i t i v e ” )
Para obtener el gráfico con las predicciones de las 6 observaciones siguiente se debe hacer:
plot (HWA, lwd =2, main=” s u a v i z a d o v/ s s e r i e ” )
pred<−predict (HWA, 6 , p r e d i c t i o n . i n t e r v a l = T)
plot (HWA, pred , lwd=2)
beta
0
> HWA$gamma
gamma
1
> pred
fit upr lwr
Sep 2017 6 . 5 9 7 0 1 0 7 . 2 7 7 5 7 0 5 . 9 1 6 4 5 0
Oct 2017 6 . 2 6 0 4 3 8 7 . 1 4 5 1 7 8 5 . 3 7 5 6 9 7
Nov 2017 6 . 1 3 6 8 5 3 7 . 1 8 6 7 9 1 5 . 0 8 6 9 1 5
Dec 2017 6 . 3 0 7 6 3 3 7 . 5 0 0 0 9 9 5 . 1 1 5 1 6 8
Jan 2018 6 . 3 7 7 2 8 8 7 . 6 9 6 9 7 7 5 . 0 5 7 5 9 9
Feb 2018 6 . 4 7 1 4 2 6 7 . 9 0 7 1 0 8 5 . 0 3 5 7 4 4
Para obtener el gráfico del alisado y los valores de los parámetros se debe hacer lo siguiente:
p r o c esm data=t a s a out= n u l l
p r i n t=e s t i m a t e s
p l o t=m o d e l f o r e c a s t s ;
i d d a t e i n t e r v a l=month ;
f o r e c a s t tdd / model=a d d t w i n t e r s ;
run ;
De lo que se obtiene
5 SERIES CRONOLÓGICAS 91
HWM<−H o l t W i n t e r s ( s t , s e a s o n a l = ” m u l t i p l i c a t i v e ” )
Para obtener el gráfico con las predicciones de las 6 observaciones siguiente se debe hacer:
plot (HWM, lwd =2, main=” s u a v i z a d o v/ s s e r i e ” )
pred<−predict (HWM, 6 , p r e d i c t i o n . i n t e r v a l = T)
plot (HWM, pred , lwd=2)
Para obtener el gráfico del alisado y los valores de los parámetros se debe hacer lo siguiente:
p r o c esm data=t a s a out= n u l l
p r i n t=e s t i m a t e s
p l o t=m o d e l f o r e c a s t s ;
i d d a t e i n t e r v a l=month ;
f o r e c a s t tdd / model=m u l t w i n t e r s ;
run ;
De lo que se obtiene
5 SERIES CRONOLÓGICAS 94
5.2.5. Aplicación en R
Para ver que alisado a usar se puede ver el que tenga menor error cuadrático, esto se puede calcular:
HWA$SSE
HWM$SSE
De lo que se obtuvo
> HWA$SSE #c a s o a d i t i v o
[ 1 ] 9.532983
> HWM$SSE #c a s o m u l t i p l i c a t i v o
[ 1 ] 9.414581
5.3.1. Aplicación en R
Para ajustar los modelos en R se usa el comando ARIMA y dependiendo de las componentes del modelo,
se ajusta el orden de este. Del análisis de la serie se vio que esta presenta tendencia y estacionalidad, por
lo que nos dice que para ser modelada se debe ocupar SARIMA.
Sabemos que nuestro modelo es un SARIMA por sus componentes, ahora debemos ver el orden de este.
Se analizara a de los gráficos de auto-correlación y auto-correlación-parcial. La función para ver eso es:
a c f ( s t , l a g .max=50)
p a c f ( s t , l a g .max=50)
Podemos notar que la función de auto-correlación (ACF), decrece en forma de caminata aleatorio, por lo
tanto hay que diferencia la serie para eliminar esto. Para diferenciar la serie y ver su función de ACF y
PACF se debe hacer lo siguiente:
s t d 1<−d i f f ( s t )
a c f ( std1 , l a g .max=50)
p a c f ( std1 , l a g .max=50)
Con esto se quito la caminata aleatoria, Se debe proceder a ver si nuestra serie tiene componentes de
tendencia y estacionalidad.
La dócima para la tendencia es la siguiente:
MannKendall ( s t d 1 )
Por lo que no hay evidencia para rechazar H0 , es decir podemos concluir que la serie no presenta tendencia
La dócima para la estacionalidad es la siguiente:
SeasonalMannKendall ( s t d 1 )
Por lo que la serie tiene una componente estacional, se debe diferenciar respecto a la estacionalidad lo cual
se hace con, y se quiere ver su ACF y PACF:
s t d 2<−d i f f ( std1 , l a g =12)
a c f ( std2 , l a g .max=50)
p a c f ( std2 , l a g .max=50)
Se debe ver si la serie diferenciada por estacionalidad tiene dicha componente. La dócima para la estacio-
nalidad es la siguiente:
SeasonalMannKendall ( s t d 2 )
Como p − valor > 0,05, no hay evidencia para rechazar H0 por lo que se concluye que la serie no tiene
componente estacional.
La dócima para la tendencia es la siguiente:
MannKendall ( s t d 2 )
Por lo que no hay evidencia para rechazar H0 , es decir podemos concluir que la serie no presenta tendencia
También se vera si la serie es estacionaria o no.
data : std2
Dickey−F u l l e r = −4.0733 , Lag order = 4 , p−v a l u e =
0.01079
alternative hypothesis : stationary
5 SERIES CRONOLÓGICAS 98
Como p − valor < 0,05, hay evidencia para rechazar la hipótesis nula, por lo que la serie diferenciada
por tendencia y estacionalidad, es estacionaria.
El gráfico de la serie queda:
Dado los rezagos de la función de ACF y PACF se proponen los siguientes modelos sarima: (1, 1, 1)x(1, 1, 1)12
(1, 1, 3)x(1, 1, 1)12
(3, 1, 7)x(1, 1, 1)12
El primer modelo se propone ya que tiene menos variables (criterio parsimonioso) Para desarrollar los
modelos se debe hacer:
mod1<−arima ( s t , order=c ( 1 , 1 , 1 ) , s e a s o n a l = l i s t ( order=c ( 1 , 1 , 1 ) , p e r i o d =12))
mod2<−arima ( s t , order=c ( 1 , 1 , 3 ) , s e a s o n a l = l i s t ( order=c ( 1 , 1 , 1 ) , p e r i o d =12))
mod3<−arima ( s t , order=c ( 3 , 1 , 7 ) , s e a s o n a l = l i s t ( order=c ( 1 , 1 , 1 ) , p e r i o d =12))
Se obtuvo lo siguiente
Modelo AIC
SARIMA(1, 1, 1)x(1, 1, 1)12 64,33459
SARIMA(1, 1, 3)x(1, 1, 1)12 63,76585
SARIMA(3, 1, 7)x(1, 1, 1)12 62,48262
A pesar de que el primer modelo tenga el AIC más elevado se elegirá este modelo, ya que tiene menos
variables y la diferencia de los AIC no es realmente significativa. Se comprobaran los supuestos de dicho
modelo.
5 SERIES CRONOLÓGICAS 99
Shapiro −Wilk n o r m a l i t y t e s t
data : mod1$ r e s
W = 0 . 9 8 1 5 1 , p−v a l u e = 0 . 2 2 3 5
Como no hay evidencia para rechazar H0 , podemos decir que los residuos distribuyen normal.
Los residuos no están autocorrelacionados
Box−P i e r c e t e s t
data : mod1$ r e s
X−s q u a r e d = 0 . 1 4 2 8 8 , df = 1 , p−v a l u e = 0 . 7 0 5 4
No hay evidencia para rechazar H0 , por lo que podemos decir que nuestros residuos no están autocorrela-
cionados
Homocedasticidad: Para ver la homocedasticidad se vera el gráfico de las varianzas
plot . t s ( r e s i d u a l s ( mod1 ) )
Se puede ver que la varianza se mantiene constante, por lo que se puede decir que los residuos del modelo
son homocedasticos.
5 SERIES CRONOLÓGICAS 100
Se puede apreciar que el modelo 1 cumple con los supuestos y no difiere en mucho en el AIC con los otros
modelos, ademas de que tiene menos variables que estos. Por lo tanto se ocupara para predecir.
Para predecir se ocupa lo siguiente:
p s a r i<−predict ( mod1 , n . ahead = 2 0 )
ts . plot ( s t , col =1, xlim=c ( 2 0 1 0 , 2 0 2 0 ) , add=T)
l i n e s ( p s a r i $pred , lwd =2, col=” r e d ” )
Lo primero que se debe hacer es analizar el tipo de modelo, esto se hace viendo ACF y PACF. Lo cual
se hace con:
p r o c arima data=t a s a ;
i d e n t i f y var=tdd ;
run ;
5 SERIES CRONOLÓGICAS 101
Podemos ver que ACF decae en forma de caminata aleatoria, lo que nos dice que debemos diferenciar la
serie respecto a la tendencia y a la estacionalidad
p r o c arima data=t a s a ;
i d e n t i f y var=tdd ( 1 , 1 2 ) ;
run ;
Se puede apreciar que la distribución de los residuos es semejante a una normal. No autocorrelación de
los residuos
Gráfico de predicciones
5 SERIES CRONOLÓGICAS 103
5.4.1. Periodograma
Ocupando la sentencia
pper $ s p e c
Se obtienen los valores de la densidad espectral de la serie de tiempo, los cuales son:
[ 1 ] 25.887760690 3.278481216 0.183745822 4.545480768
[5] 1.612082019 2.787114901 0.561627914 5.925008923
[9] 1.852687140 0.896212536 1.081999350 0.204949687
[13] 0.437590510 0.002497303 0.439094206 1.410139597
[17] 0.152080260 0.560726905 0.556220679 0.557995530
[21] 0.036588607 0.065526411 0.374742822 0.030697289
[25] 0.070513314 0.034386829 0.008101698 0.062093329
[29] 0.056681006 0.177874512 0.107768655 0.060370631
[33] 0.040569866 0.058335037 0.061969748 0.157069556
[37] 0.013001984 0.080110810 0.064734701 0.264761021
[41] 0.015370450 0.133929245 0.051033793 0.298586906
[45] 0.024605129 0.004677134 0.180010236 0.126030227
5 SERIES CRONOLÓGICAS 104
5 SERIES CRONOLÓGICAS 105
6 SIMULACIÓN ESTADÍSTICA 106
6. SIMULACIÓN ESTADÍSTICA
En este capitulo se va a simular la entrada de pacientes a un centro de salud, al cual llega un paciente
cada un minuto. Primero hay que notar que los centros de salud tiene un protocolo el cual consiste en lo
siguiente:
Admisión y evaluación general: Donde al llegar un paciente a este se le hace una evaluación
rápida de promedio un minuto y a lo mas cinco minutos y de acuerdo a esto se le deriva al tipo de
6 SIMULACIÓN ESTADÍSTICA 107
urgencia que tiene donde la urgencia máxima es c1 y la menor es c5. Los pacientes que tienen un
nivel de urgencia de c1 o c2 deben ser atendidos rápidamente. Si no pasan a la atención primaria.
De experiencias anteriores se ha visto que el 30 % de pacientes es de nivel c1,el 30 % es de nivel c2 y
el resto o sea 40 % no son pacientes de gravedad.
Atención primaria: Si un paciente que llega no es de gravedad pasa a atención primara en la cual
se le evalúa nuevamente para ver a que nivel pertenece (c3, c4 o c5), esto tiene un tiempo de demora
de entre cinco a diez minutos. Una vez decidido los pacientes son atendidos dando prioridad a c3,
luego c4 y c5.
Del total de pacientes que pasa por atención primaria de atenciones anteriores se ha visto que el 30 %
es derivado a c3, el 30 % es derivado a c4 y el 40 % es derivado a c5.
Luego de estos los pacientes son atendidos.
C1: El tiempo de demora en ser atendido un paciente de este tipo es en promedio 10 y a lo mas 15
minutos.
C2: El tiempo de demora en ser atendido un paciente de este tipo es en promedio 10 minutos y a lo
mas 15 minutos.
C3: El tiempo de demora en ser atendido un paciente de este tipo es en promedio 10 minutos y a
lo mas 15 minutos. De observaciones pasadas se sabe que el 95 % de estos paciente se atienden y el
resto decide irse.
C4: El tiempo de demora en ser atendido un paciente de este tipo es en promedio 10 minutos y a lo
mas 15 minutos. 75 % de estos paciente se atienden y el resto decide irse.
C5: El tiempo de demora en ser atendido un paciente de este tipo es en promedio 10 minutos y a lo
mas 15 minutos. 50 % de estos paciente se atienden y el resto decide irse.
6 SIMULACIÓN ESTADÍSTICA 108
Los pacientes llegan cada un minuto y se simulo la situación de 8am a 20pm o sea 10 horas, de lo que
es obtuvo lo siguiente:
6 SIMULACIÓN ESTADÍSTICA 109
Total Time El tiempo promedio total de una persona dentro del sistema es de 47,988 minutos. El
tiempo total mınimo fue de 5,0022 minutos .
Posible solución
6 SIMULACIÓN ESTADÍSTICA 113
6 SIMULACIÓN ESTADÍSTICA 114
6 SIMULACIÓN ESTADÍSTICA 115
6 SIMULACIÓN ESTADÍSTICA 116